本文摘要:摘 要: 大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的長(zhǎng)久保存與高效利用成為人們關(guān)注的焦點(diǎn)。非關(guān)系型數(shù)據(jù)庫(kù)( NoSQL) 作為關(guān)系型數(shù)據(jù)庫(kù)的一種補(bǔ)充,越來(lái)越受到青睞,并影響著未來(lái)檔案大數(shù)據(jù)管理技術(shù)的發(fā)展方向。首先通過(guò) Laney 的大數(shù)據(jù) 3V 視角論述 NoSQL 技術(shù)的原理與特征; 然后在大數(shù)據(jù)視
摘 要: 大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的長(zhǎng)久保存與高效利用成為人們關(guān)注的焦點(diǎn)。非關(guān)系型數(shù)據(jù)庫(kù)( NoSQL) 作為關(guān)系型數(shù)據(jù)庫(kù)的一種補(bǔ)充,越來(lái)越受到青睞,并影響著未來(lái)檔案大數(shù)據(jù)管理技術(shù)的發(fā)展方向。首先通過(guò) Laney 的大數(shù)據(jù) 3V 視角論述 NoSQL 技術(shù)的原理與特征; 然后在大數(shù)據(jù)視域下分析NoSQL 技術(shù)在檔案知識(shí)服務(wù)、檔案記憶、智慧檔案館中的應(yīng)用前景; 最后展望未來(lái)檔案信息化建設(shè)中數(shù)據(jù)庫(kù)管理技術(shù)的發(fā)展格局,引導(dǎo)我國(guó)檔案數(shù)字化、信息化工作發(fā)展方向。研究結(jié)論表明: NoSQL 技術(shù)符合大數(shù)據(jù)管理的 3V 要求,能夠較好地解決大數(shù)據(jù)應(yīng)用中的高并發(fā)、快速響應(yīng)、海量數(shù)據(jù)長(zhǎng)久保存問(wèn)題,能夠滿足未來(lái)檔案大數(shù)據(jù)應(yīng)用需要; 未來(lái) NoSQL 和 SQL 將長(zhǎng)期并存于檔案數(shù)據(jù)管理。
關(guān)鍵詞: 非關(guān)系型數(shù)據(jù)庫(kù); 大數(shù)據(jù)管理; 知識(shí)服務(wù); 檔案記憶; 智慧檔案館
大數(shù)據(jù)時(shí)代,檔案信息化建設(shè)進(jìn)入了一個(gè)新階段,基于云服務(wù),智慧型的數(shù)字檔案館概念進(jìn)入人們視線中,為檔案工作指明了前進(jìn)方向。新形勢(shì)下,檔案數(shù)據(jù)收集的領(lǐng)域、范圍不斷擴(kuò)大,數(shù)據(jù)的種類不斷增加,互聯(lián)網(wǎng)上海量社交媒體的電子數(shù)據(jù)實(shí)時(shí)歸檔,正逐漸使得檔案大數(shù)據(jù)管理與其他大數(shù)據(jù)行業(yè)一樣面臨著海量信息存儲(chǔ)、系統(tǒng)分布式部署、用戶高并發(fā)訪問(wèn)、數(shù)據(jù)的長(zhǎng)久保存等難題。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)( RDBMS) 面對(duì)這類問(wèn)題時(shí)遇到了性能瓶頸,在這種背景下一類新的數(shù)據(jù)管理技術(shù) NoSQL 技術(shù)應(yīng)運(yùn)而生。它突破了傳統(tǒng)關(guān)系 型 數(shù) 據(jù) 庫(kù) 的 模 式 限 制,遵 從 CAP 理 論[1] 和BASE 原則[2],數(shù)據(jù)類型包容性和系統(tǒng)的橫向擴(kuò)展能力變得更強(qiáng),有效地解決了大數(shù)據(jù)應(yīng)用中出現(xiàn)的各類難題。隨著 NoSQL 技術(shù)的成功應(yīng)用,人們開(kāi)始關(guān)注這項(xiàng)技術(shù)的最新研究動(dòng)態(tài),數(shù)據(jù)庫(kù)管理技術(shù)研究視角也由過(guò)去的層次型、網(wǎng)狀型、關(guān)系型逐漸演變?yōu)殛P(guān)系型與非關(guān)系型兩種。
通過(guò)文獻(xiàn)調(diào)查發(fā)現(xiàn),吳鵬等利用 MongoDB( NoSQL 的一種) 技術(shù)設(shè)計(jì)企業(yè)產(chǎn)品數(shù)據(jù)信息管理系統(tǒng),較好地滿足了文檔、圖片、視頻等多類型數(shù)據(jù)管理要求[4]。趙永強(qiáng)提出相較于關(guān)系型數(shù)據(jù)庫(kù),TPI 特藏?cái)?shù)據(jù)庫(kù)更適合采用 NoSQL 數(shù)據(jù)庫(kù)產(chǎn)品,支持非結(jié)構(gòu)化數(shù)據(jù)管理和數(shù)據(jù)的分散保管及數(shù)據(jù)擴(kuò)展[5]。施曉峰分析了檔案大數(shù)據(jù)特征: 格式多樣、結(jié)構(gòu)復(fù)雜、規(guī)模龐大,認(rèn)為 NoSQL 技術(shù)可以較好地滿足非結(jié)構(gòu)化數(shù)據(jù)的管理,并搭建了一個(gè)基于 NoSQL 系統(tǒng)的檔案數(shù)據(jù)管理原型系統(tǒng)[6]。卞咸杰采用 Hadoop( NoSQL的一種) 技術(shù)設(shè)計(jì)檔案信息資源共享平臺(tái),并分析檔案數(shù)據(jù)處理流程[7]。
綜上發(fā)現(xiàn),目前圖情檔領(lǐng)域關(guān)于 NoSQL 技術(shù)研究較少,研究多以 Hadoop、MapReduce、Virtuoso 某一種 NoSQL 技術(shù)作為視角,并未整體分析 NoSQL 技術(shù)符合大數(shù)據(jù)應(yīng)用的內(nèi)在機(jī)理,也未發(fā)現(xiàn)闡述 NoSQL 技術(shù)與檔案大數(shù)據(jù)應(yīng)用的內(nèi)在機(jī)制與理論論述等相關(guān)文獻(xiàn)。由于 NoSQL 技術(shù)的出現(xiàn),讓大數(shù)據(jù)應(yīng)用突破了硬件性能的限制,使檔案部門駕馭大數(shù)據(jù)成為一種可能。本文擬梳理 NoSQL 的發(fā)展脈絡(luò)與技術(shù)特征,解析其在檔案大數(shù)據(jù)應(yīng)用中的契合機(jī)理與發(fā)展地位,為我國(guó)檔案信息化建設(shè)提供一點(diǎn)思考。
1 NoSQL 技術(shù)的產(chǎn)生與發(fā)展
NoSQL 泛指非關(guān)系型的數(shù)據(jù)庫(kù)( NRDBMS: NoRelational-DBMS) ,在大數(shù)據(jù)環(huán)境下,用于解決海量數(shù)據(jù)分布部署,以提高系統(tǒng)平臺(tái)的可擴(kuò)展性、可用性、實(shí)時(shí)性的“一類”數(shù)據(jù)管理技術(shù)。2000 年 Google 針對(duì)大數(shù)據(jù)環(huán)境下高并發(fā)、高可用、高性能的海量數(shù)據(jù)管理需求,重新設(shè)計(jì)了 Google搜索引擎后臺(tái)數(shù)據(jù)庫(kù)管理系統(tǒng),放棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),自行研發(fā)非關(guān)系型數(shù)據(jù)庫(kù),并于 2003-2006年發(fā)表了 4 篇關(guān)于其數(shù)據(jù)管理技術(shù)的核心論文: GFS分布式文件系統(tǒng)、MapReduce 高性能計(jì)算框架、Bigtable 一種分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案、Chubby 一種面向松耦合分布式系統(tǒng)的鎖服務(wù)[8-11]。
Google 相關(guān)論文的公開(kāi)發(fā)表引起了互聯(lián)網(wǎng)公司和開(kāi)源愛(ài)好者的廣泛關(guān)注和濃厚興趣。2006 年 2 月 Apache Hadoop開(kāi)源項(xiàng)目正式啟動(dòng)以支持 MapReduce 和 HDFS[12]的獨(dú)立發(fā)展,同年 5 月雅虎建立了一個(gè) 300 個(gè)節(jié)點(diǎn)的Hadoop 研究集群,2011 年 12 月 Hadoop1.0.0 版本發(fā)布,標(biāo)志著 Hadoop 已經(jīng)初具規(guī)模。2007 年亞馬遜公司對(duì)外展示了 Dynamo 分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)。2008年 Facebook 將其研發(fā)的數(shù)據(jù)庫(kù)管理技術(shù) Cassandra開(kāi)源。2009 年英國(guó)軟件開(kāi)發(fā)者 Johan 先生在一次非關(guān)系型數(shù)據(jù)庫(kù)討論會(huì)上,以“NoSQL”作為此次會(huì)議的主題,從此人們習(xí)慣以 NoSQL 命名這類非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)[13]。
從國(guó)內(nèi)實(shí)踐情況看,阿里巴巴是具有代表性的互聯(lián)網(wǎng)電子商務(wù)公司,在應(yīng)對(duì)海量淘寶交易數(shù)據(jù)管理時(shí),獨(dú)立研發(fā)了非關(guān)系型數(shù)據(jù)庫(kù) OceanBase,整個(gè)系統(tǒng)采用服務(wù)器集群架構(gòu),能夠滿足達(dá) 10 億筆日支付處理需求,系統(tǒng)對(duì) 100TB 的數(shù)據(jù)進(jìn)行排序只需 377秒,打破了 Apache Spark 的紀(jì)錄 23.4 分鐘[14],處理速度之快可見(jiàn)一斑。不僅在電商領(lǐng)域,我國(guó)在機(jī)械制造領(lǐng)域中的大規(guī)模設(shè)備監(jiān)測(cè)數(shù)據(jù)[15]和天文領(lǐng)域中的大規(guī)模天文觀測(cè)數(shù)據(jù)也已經(jīng)成功運(yùn)用了 NoSQL技術(shù)進(jìn)行管理,這些數(shù)據(jù)庫(kù)系統(tǒng)具有處理 TB 級(jí)和PB 級(jí)海量電子數(shù)據(jù)的能力[16]。截至 2022 年 1 月,官網(wǎng)上可查的在冊(cè) NoSQL 產(chǎn)品已經(jīng)超過(guò) 225 種,可見(jiàn)大數(shù)據(jù)背景下 NoSQL 技術(shù)的需求與應(yīng)用前景廣闊[17]。
2 從大數(shù)據(jù)的 3V 視角分析
NoSQL 內(nèi)在技術(shù)特征2001 年 META 集團(tuán)分析師 Laney 在一份報(bào)告中首次提出大數(shù)據(jù)的 3V 概念[18],即大數(shù)據(jù)環(huán)境下,數(shù)據(jù)呈現(xiàn)類型多樣化( Variety) 、海量數(shù)據(jù)( Volume) 、處理速度快( Velocity) 特征。之后人們對(duì)“大數(shù)據(jù)”認(rèn)識(shí)不斷深入,在 Laney 的 3V 基礎(chǔ)上提出了 4V、5V、6V 等概念[19]: 數(shù)據(jù)價(jià)值( Value) 、可視性( Visualization) 、合法性( Validity) 。本文從 Laney 最初的 3V視角解析 NoSQL 的技術(shù)原理與特征。
2.1 數(shù)據(jù)類型多樣化( Variety) 與 NoSQL 的弱模式數(shù)據(jù)模型在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,每張表都事先定義好模式,數(shù)據(jù)存放在表里。表中每一行為一條數(shù)據(jù),對(duì)應(yīng)的列是該條數(shù)據(jù)的屬性值,屬性的數(shù)據(jù)類型具有嚴(yán)格定義。當(dāng)插入一條數(shù)據(jù),該數(shù)據(jù)項(xiàng)中某一個(gè)列值不滿足表的預(yù)先定義格式要求,會(huì)導(dǎo)致插入數(shù)據(jù)不成功。這種“嚴(yán)格定義”較好地保證了數(shù)據(jù)的正確性。但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)多樣化特征,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存。
今天設(shè)計(jì)好的檔案數(shù)據(jù)庫(kù)系統(tǒng)所存放的數(shù)據(jù)類型與數(shù)據(jù)格式,不一定能滿足未來(lái)工作需求。另外,當(dāng)遇到不同檔案數(shù)字資源整合時(shí),異構(gòu)系統(tǒng)之間的數(shù)據(jù)格式與數(shù)據(jù)類型未必完全一致,作為檔案信息系統(tǒng)后臺(tái)的數(shù)據(jù)庫(kù)管理系統(tǒng) DBMS 需要有更開(kāi)放的數(shù)據(jù)包容能力,以滿足數(shù)據(jù)類型多樣化要求。大部分 NoSQL 的數(shù)據(jù)模型采用的是一種鍵-值類型( key-value) ,可細(xì)分為: 鍵-值型( key-value) 、鍵-列型( key-column) 、鍵-文檔型( key-document) 。key 是數(shù)據(jù)的序號(hào),通過(guò) key 查找數(shù)據(jù)庫(kù)中的數(shù)據(jù)位置。該數(shù)據(jù)模型不用事先定義其內(nèi)在的數(shù)據(jù)結(jié)構(gòu),所以 NoSQL 數(shù)據(jù)模型屬于弱模式或者無(wú)模式的數(shù)據(jù)模型。相對(duì)關(guān)系型數(shù)據(jù)庫(kù)的表數(shù)據(jù),NoSQL 采用的數(shù)據(jù)模型弱化了數(shù)據(jù)結(jié)構(gòu)中的語(yǔ)義部分,value 部分的數(shù)據(jù)結(jié)構(gòu)依每條數(shù)據(jù)要求自行定義,其語(yǔ)義特征交由應(yīng)用層解析。
這種弱模式或者無(wú)模式結(jié)構(gòu)很好地支持了大數(shù)據(jù)環(huán)境下數(shù)據(jù)類型多樣化。當(dāng)前電子文件歸檔范圍不斷擴(kuò)大: 文本文件( txt、word、pdf) 、圖像文件( jpg、gif、bmp) 、影音文件( flash、rmvb、avi)等都納入數(shù)據(jù)庫(kù)管理范圍,且不同類型的文件其著錄信息也不相一致。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)下,通常為這些不同類型的數(shù)據(jù)構(gòu)建不同的表,一旦需求發(fā)生改變,表結(jié)構(gòu)就可能需要隨之改變,從而產(chǎn)生額外的技術(shù)沖突和成本。而在非關(guān)系型數(shù)據(jù)庫(kù)中,不同類型結(jié)構(gòu)的數(shù)據(jù)可以統(tǒng)一保存在( key-value) 的數(shù)據(jù)集中,每條數(shù)據(jù) value 部分的數(shù)據(jù)結(jié)構(gòu)可以依據(jù)具體要求而自行定義,數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu)的包容性更強(qiáng),異構(gòu)系統(tǒng)之間的數(shù)據(jù)整合也更為方便,滿足大數(shù)據(jù)對(duì)數(shù)據(jù)類型多樣化要求。
2.2 海量數(shù)據(jù)存儲(chǔ)( volume) 與 NoSQL 的分布式存儲(chǔ)在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)里所有表的集合構(gòu)成了一個(gè)邏輯上的整體。當(dāng)數(shù)據(jù)庫(kù)中表容量增加到一定規(guī)模,致使一臺(tái)服務(wù)器存儲(chǔ)容量無(wú)法承載其全部表集合時(shí),需要分布式承載,此時(shí)數(shù)據(jù)分割問(wèn)題便隨之而來(lái)。雖然關(guān)系型數(shù)據(jù)庫(kù)在分布式環(huán)境下給出了“表”的橫向分割和縱向分割多種方案,但每種方案的代價(jià)都是驚人的,其對(duì)“表”分割的代價(jià)無(wú)異于系統(tǒng)的二次開(kāi)發(fā)。大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù)呈流數(shù)據(jù)狀態(tài),隨著時(shí)間的推移會(huì)持續(xù)增長(zhǎng),數(shù)據(jù)庫(kù)會(huì)面臨著再次分割。數(shù)據(jù)庫(kù)系統(tǒng)需要適應(yīng)這種數(shù)據(jù)膨脹環(huán)境,以低代價(jià)或者無(wú)代價(jià)方式任意擴(kuò)展自己的數(shù)據(jù)存儲(chǔ)。顯然,關(guān)系型數(shù)據(jù)庫(kù)難以滿足此項(xiàng)要求。由于 NoSQL 的數(shù)據(jù)模型采用弱模式或者無(wú)模式的數(shù)據(jù)類型。其數(shù)據(jù)分割不再像表數(shù)據(jù)分割那樣困難,只需依據(jù)數(shù)據(jù)集中每個(gè)數(shù)據(jù)的 key 值范圍“重新”劃定部署位置,便可以分布式地存放在不同服務(wù)器的存儲(chǔ)空間。目前較為流行的 NoSQL 數(shù)據(jù)存儲(chǔ)方案為“Master-Range”方案。
Master 節(jié)點(diǎn)( MasterServer) 負(fù)責(zé)管理整個(gè)數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)監(jiān)視 Range 節(jié)點(diǎn)( RangeServer) 的運(yùn)行狀態(tài),并為每一個(gè) Range 節(jié)點(diǎn)分配數(shù)據(jù)存儲(chǔ)的范圍( key 值范圍) ,形成一個(gè) key 值與 RangeServer 的映射表 tablet,通過(guò) tablet 表獲取 key 值和 RangeServer地址。Master 一般采用多副本控制策略,當(dāng)主 Master服務(wù)器宕機(jī)時(shí),選擇一臺(tái)副 Master 為新的主 Master。Range 節(jié)點(diǎn)是數(shù)據(jù)存放節(jié)點(diǎn),也是真正與客戶發(fā)生數(shù)據(jù)交互和數(shù)據(jù)處理的節(jié)點(diǎn)。同時(shí) Range 節(jié)點(diǎn)不時(shí)向Master 節(jié)點(diǎn)匯報(bào)自己的健康狀況和負(fù)載情況,當(dāng)某個(gè) Range 節(jié)點(diǎn)發(fā)生故障或者負(fù)載過(guò)重時(shí),Master 節(jié)點(diǎn)會(huì)執(zhí)行局部調(diào)度,將負(fù)載過(guò)重的 Range 數(shù)據(jù)調(diào)整到較空閑的 Range 節(jié)點(diǎn)上,同時(shí)相應(yīng)調(diào)整 tablet 表的映射關(guān)系。
通過(guò) Master-Range 結(jié)構(gòu)將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)中,當(dāng)增加新的 Range 節(jié)點(diǎn)時(shí),Master 節(jié)點(diǎn)只需修改key 值范圍與 RangeSever 集群的映射關(guān)系表 tablet即可,擴(kuò)展代價(jià)非常低。Google 的 BigTable、Hadoop的 Hypertable,阿里巴巴的 OceanBase 都是采用類似結(jié)構(gòu)。據(jù)阿里巴巴官方報(bào)道,其增加一個(gè)數(shù)據(jù)庫(kù)服務(wù)站點(diǎn)的時(shí)間從過(guò)去 1 個(gè)月縮短為 90 分鐘。由此可見(jiàn) NoSQL 在海量數(shù)據(jù)組織與數(shù)據(jù)管理上較傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)具有更好的靈活性與橫向擴(kuò)展性,滿足大數(shù)據(jù)環(huán)境下對(duì)海量數(shù)據(jù)存儲(chǔ)的管理要求。
2.3 處理速度快( Velocity) 與 NoSQL 分布式計(jì)算資源大數(shù)據(jù)環(huán)境下提高數(shù)據(jù)處理速度,一般可以通過(guò)提升性能或者增加規(guī)模來(lái)完成,也稱為縱向擴(kuò)展方式和橫向擴(kuò)展方式兩種?v向擴(kuò)展方式是指通過(guò)提升現(xiàn)行服務(wù)器硬件的性能來(lái)提高數(shù)據(jù)處理能力。其優(yōu)點(diǎn)是方法簡(jiǎn)單,系統(tǒng)程序不需要修改,只需投入相應(yīng)的硬件更換費(fèi)用; 缺點(diǎn)則是單臺(tái)硬件設(shè)備的性能存在上限,因而縱向擴(kuò)展方式存在性能提升瓶頸,且單臺(tái)硬件設(shè)備性能越高,其性價(jià)比越低。橫向擴(kuò)展方式是使用多臺(tái)廉價(jià)服務(wù)器,組成一個(gè)集群,通過(guò)并行運(yùn)算來(lái)提高系統(tǒng)的運(yùn)算速度。其優(yōu)點(diǎn)是系統(tǒng)的計(jì)算能力呈線性提升,隨處理速度需求增長(zhǎng)集群規(guī)模相應(yīng)擴(kuò)大; 缺點(diǎn)則是針對(duì)集群服務(wù)器數(shù)量變化,系統(tǒng)程序要做相應(yīng)調(diào)整。針對(duì)大數(shù)據(jù)環(huán)境下的各類云服務(wù)平臺(tái)往往需要面對(duì) TB 或是 PB 級(jí)數(shù)據(jù)存儲(chǔ),用戶數(shù)量千萬(wàn)甚至上億,日訪問(wèn)量百萬(wàn)次以上,并發(fā)數(shù)時(shí)常以千為數(shù)量級(jí)。由于縱向擴(kuò)展存在性能提升瓶頸,所以橫向擴(kuò)展方式將是各類數(shù)字化平臺(tái)提升性能的首選方案。
實(shí)際與客戶發(fā)生數(shù)據(jù)交互的是 Range節(jié)點(diǎn),而不是 Master 節(jié)點(diǎn)。所以當(dāng) Range 節(jié)點(diǎn)數(shù)量增加時(shí),NoSQL 系統(tǒng)平臺(tái)的計(jì)算資源也得到相應(yīng)提升。同時(shí) NoSQL 技術(shù)引入了 Map-Reduce 高性能計(jì)算框架: 通過(guò)映射( Map) 化簡(jiǎn)( Reduce) 的思想,可以把一個(gè)復(fù)雜任務(wù)分解為多個(gè)子任務(wù)交由不同 Range節(jié)點(diǎn)并行執(zhí)行,再將執(zhí)行結(jié)果進(jìn)行化簡(jiǎn)歸約輸出,大大提高了數(shù)據(jù)庫(kù)系統(tǒng)的查詢、統(tǒng)計(jì)、數(shù)據(jù)分析運(yùn)算效率[20]。
例如萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái),采用自行研發(fā)的 WFIRC 檢索引擎( NoSQL 技術(shù)的一種) ,將資源按照期刊、會(huì)議、學(xué)位、專利、標(biāo)準(zhǔn)等劃分?jǐn)?shù)據(jù)集,其中期刊數(shù)據(jù)集又可按照學(xué)科類型繼續(xù)劃分存放在不同的服務(wù)器中,整個(gè)集群系統(tǒng)對(duì)文獻(xiàn)的查詢、統(tǒng)計(jì)、分析、論文相似性檢測(cè)等任務(wù)均分派由不同的數(shù)據(jù)集所在的服務(wù)器完成切詞、分詞、文本比對(duì)等計(jì)算任務(wù),最后將任務(wù)結(jié)果匯總輸出給用戶。一篇 1 萬(wàn)字的論文相似性檢測(cè),在海量文獻(xiàn)全文中比對(duì)耗時(shí)不到 10 秒。可見(jiàn)易于橫向擴(kuò)展的 NoSQL 技術(shù)滿足大數(shù)據(jù)對(duì)處理速度快的要求。
3 “NoSQL”技術(shù)在檔案大數(shù)據(jù)管理中的應(yīng)用分析
3.1 檔案知識(shí)服務(wù)功能實(shí)現(xiàn)
20 世紀(jì) 50 年代知識(shí)服務(wù)就被圖情檔界提出,發(fā)展到今天其服務(wù)的內(nèi)容、形式、意義發(fā)生了巨大變化。在大數(shù)據(jù)背景下,知識(shí)服務(wù)更強(qiáng)調(diào)“知識(shí)”的自動(dòng)化生產(chǎn)[21],而不是簡(jiǎn)單的知識(shí)供給: 從海量數(shù)據(jù)中提煉信息,從大量信息中挖掘知識(shí),即結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成信息,有規(guī)律的信息得出經(jīng)驗(yàn)( 知識(shí)) 過(guò)程?梢钥闯,未來(lái)這種知識(shí)服務(wù)是建立在擁有大量信息基礎(chǔ)上,大量信息則是建立在海量數(shù)據(jù)獲取的基礎(chǔ)上。在大數(shù)據(jù)背景下,檔案知識(shí)服務(wù)被重新定義,檔案數(shù)據(jù)收集范圍從過(guò)去的經(jīng)加工、篩選、鑒別的歷史檔案數(shù)據(jù),朝著具有記錄性的人類社會(huì)生活生產(chǎn)的全方位信息數(shù)據(jù)擴(kuò)展。檔案知識(shí)服務(wù)由過(guò)去的通過(guò)簡(jiǎn)單查詢獲取歷史檔案數(shù)據(jù)作為經(jīng)驗(yàn)知識(shí)為人們使用,演化為對(duì)海量檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘生成新的信息、新的知識(shí)過(guò)程。所以未來(lái)檔案知識(shí)服務(wù)的根基是擁有海量歸檔數(shù)據(jù)。
隨著檔案服務(wù)功能不斷深化,網(wǎng)絡(luò)社交媒體數(shù)據(jù)已經(jīng)納入了檔案數(shù)據(jù)收集的視野。Twitter 是美國(guó)一家著名網(wǎng)絡(luò)社交媒體,該公司于 2012 年開(kāi)始推出“個(gè)人推文存檔”( Your Twitter Archive) 服務(wù),用于保存用戶的歷史推文記錄,便于用戶查閱歷史數(shù)據(jù)信息[22]。這也開(kāi)啟了數(shù)據(jù)到信息再到知識(shí)的過(guò)程,例如: 通過(guò)分析個(gè)人推文歷史數(shù)據(jù),可以得出過(guò)去 5 年人們所關(guān)注的生活問(wèn)題有哪些( 提煉信息) ,通過(guò)獲取這些人們所關(guān)注“問(wèn)題”可以制定下屆政府施政方案( 挖掘知識(shí)) 。
同時(shí)我們可以看到 Twitter 公司于2010 年棄用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù) MySQL,啟用 NoSQL計(jì)劃。原因是在 2009 年,Twitter 每天產(chǎn)生約 12TB用戶數(shù)據(jù),每年產(chǎn)生約 4PB 數(shù)據(jù)( 且數(shù)據(jù)增長(zhǎng)速度還在擴(kuò)大) ,MySQL 已經(jīng)無(wú)法應(yīng)對(duì)如此龐大的海量數(shù)據(jù)管理。所以在大數(shù)據(jù)環(huán)境下,這類流數(shù)據(jù)隨時(shí)間成持續(xù)性增長(zhǎng),對(duì)電子數(shù)據(jù)長(zhǎng)久保存提出了更高要求。因?yàn)槲覀儫o(wú)法使用傳統(tǒng)設(shè)置時(shí)間點(diǎn)的概念刪除老舊數(shù)據(jù),也不能將老舊數(shù)據(jù)轉(zhuǎn)儲(chǔ)至異地與系統(tǒng)分隔。檔案大數(shù)據(jù)背景下,以全數(shù)據(jù)作為知識(shí)服務(wù)的根基,其數(shù)據(jù)管理系統(tǒng)應(yīng)能滿足海量流數(shù)據(jù)增長(zhǎng)需求,Twitter 公司的數(shù)據(jù)管理經(jīng)驗(yàn)可以借鑒。
3.2 數(shù)字檔案記憶功能
拓展人腦具有“記憶”功能屬性,且人腦記憶容量一直是一個(gè)謎。2003 年,英國(guó)《獨(dú)立報(bào)》曾報(bào)道: 科學(xué)家估算人腦的記憶容量約為 10 的后面跟 8432 個(gè)零個(gè)字節(jié)。2014 年 3 月 Nature 刊登了一篇文章,分析小白鼠的大腦相當(dāng)于 1TB 存儲(chǔ)容量,據(jù)此推算人腦容量約為 7.6 億 TB 存儲(chǔ)容量,用單塊硬盤 8TB,也需要 9500 萬(wàn)塊硬盤,這說(shuō)明人類的腦容量不是現(xiàn)存某一臺(tái)超級(jí)計(jì)算機(jī)所能比擬的[23]。上述結(jié)論雖是科學(xué)臆測(cè),但可以從側(cè)面反映出人類記憶具有海量數(shù)據(jù)容量特征。“檔案是典型的記憶工具”成為“檔案是一種信息”與“檔案是一種知識(shí)”之后的又一重要提法[24]。
雖然檔案作為記憶工具有別于人腦記憶,在記憶實(shí)踐活動(dòng)中往往具有選擇性,選取有價(jià)值的記憶作為保存對(duì)象,但作為具有人類記憶功能屬性的檔案記憶隨著時(shí)間推演,未來(lái)會(huì)不會(huì)趨近于人類記憶,我們不得而知。同時(shí)在現(xiàn)代科技發(fā)展水平不斷進(jìn)步的背景下,數(shù)據(jù)價(jià)值的判斷與選擇變得模糊。比如對(duì)某一天的氣象數(shù)據(jù)記憶,似乎并無(wú)太大價(jià)值,但如果連續(xù)記憶了 10 年、50 年、100 年的氣象數(shù)據(jù),針對(duì)該記憶進(jìn)行大數(shù)據(jù)分析,就可得出地球氣象變遷的趨勢(shì),進(jìn)而預(yù)測(cè)未來(lái)地球環(huán)境演化。美國(guó)國(guó)家大氣研究中心 NCAR 從 20 世紀(jì) 60 年代中期開(kāi)始對(duì)大氣變化數(shù)據(jù)進(jìn)行采集、歸檔、保存、利用,通過(guò)最新數(shù)據(jù)模擬系統(tǒng)可以構(gòu)建一個(gè) 3D 時(shí)空大氣運(yùn)行狀態(tài)[25]。
這種大記憶觀對(duì)人類生活中產(chǎn)生的數(shù)據(jù)信息盡可能多地進(jìn)行分類、歸檔、記錄、挖掘、利用,一些看似無(wú)價(jià)值的記憶數(shù)據(jù)組合在一起將重獲新生價(jià)值,這將是檔案記憶價(jià)值的又一重要體現(xiàn)。馮惠玲教授在《檔案記憶觀、資源觀與“中國(guó)記憶”數(shù)字資源建設(shè)》一文中,強(qiáng)調(diào)“若舍棄泛在、實(shí)時(shí)的數(shù)字資源,必將造成當(dāng)代社會(huì)活動(dòng)記錄的殘缺不全”,在互聯(lián)網(wǎng)時(shí)代應(yīng)注重網(wǎng)絡(luò)媒體資源的鑒別、收集、描述、整合、發(fā)布,通過(guò)廣大網(wǎng)民的查詢利用與鑒別考證讓檔案資源變得更加真實(shí)可信、更加有社會(huì)價(jià)值[26]?梢(jiàn),在大數(shù)據(jù)視域下,“檔案記憶觀”與“檔案資源觀”被重新詮釋,檔案工作被賦予新的使命,檔案作為人類記憶工具必將面臨海量的數(shù)據(jù)存儲(chǔ)與大規(guī)模的數(shù)據(jù)運(yùn)算,具備大數(shù)據(jù) 3V 特征的 NoSQL 技術(shù)正是實(shí)踐上述過(guò)程的有力工具。
3.3 智慧檔案館建設(shè)
隨著“智慧城市”概念的提出,智慧檔案館也興起一股研究熱潮,近年圍繞智慧檔案館的研究涌現(xiàn)出一批科研成果。魯俊杰在“對(duì)智慧檔案館及其研究的反思性探析”一文中,嘗試對(duì)智慧檔案館下定義[27]。楊來(lái)青在“檔案館未來(lái)發(fā)展的新前景: 智慧檔案館”一文中對(duì)智慧檔案館的智慧特征進(jìn)行了 5點(diǎn)歸納[28]。楊智勇在“試析智慧檔案館的興起與未來(lái)發(fā)展”一文中分析了智慧檔案館關(guān)于技術(shù)使用、體系架構(gòu)、知識(shí)服務(wù)三個(gè)層面的內(nèi)容[29]。陳嘉鈺在“智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)”中強(qiáng)調(diào)應(yīng)利用數(shù)字技術(shù)實(shí)現(xiàn)智慧檔案館管理功能的全面感知[30]。總結(jié)以往研究,可以得出智慧檔案館有別于傳統(tǒng)檔案館,主要在資源收集、智慧感知、泛在化服務(wù)三個(gè)層面朝著大數(shù)據(jù) 3V 特征靠近,并與 NoSQL 技術(shù)擁有契合點(diǎn)。
4 結(jié)語(yǔ):
檔案大數(shù)據(jù)管理技術(shù)發(fā)展格局上述論述是基于檔案數(shù)字化工作與大數(shù)據(jù)應(yīng)用完全融合狀態(tài),即檔案信息化建設(shè)進(jìn)入高級(jí)階段。而當(dāng)前我國(guó)檔案數(shù)字化建設(shè)還存在發(fā)展不均衡現(xiàn)象,許多地方檔案館的檔案資源特點(diǎn)還是已加工的、滯后的、靜止的、穩(wěn)定的電子文件數(shù)據(jù),這些數(shù)據(jù)雖然體量巨大,但與真正的“大數(shù)據(jù)”“全數(shù)據(jù)”還有一定差別[32],目前階段尚不必須要使用具有大數(shù)據(jù)特征的 NoSQL 技術(shù)。因此,NoSQL 作為異于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù) SQL 的一種新技術(shù),并非是要取代 SQL,而是作為 SQL 的一種補(bǔ)充。未來(lái)可預(yù)見(jiàn),那些建立在互聯(lián)網(wǎng)門戶基礎(chǔ)上,后臺(tái)具有海量檔案信息數(shù)據(jù),面向全體用戶并提供深層次數(shù)據(jù)分析與數(shù)據(jù)挖掘服務(wù)的檔案數(shù)據(jù)管理平臺(tái)將會(huì)借助 NoSQL 技術(shù)進(jìn)行檔案大數(shù)據(jù)管理。而面向區(qū)域部門的傳統(tǒng)檔案館的檔案數(shù)據(jù)管理平臺(tái)將會(huì)繼續(xù)采用 傳 統(tǒng) 關(guān) 系 型 數(shù) 據(jù) 庫(kù)。綜 合 分 析,NoSQL 與SQL 在檔案數(shù)字化建設(shè)中將長(zhǎng)期并存。
參考文獻(xiàn):
[1]Gilbert S,Lynch N.Brewer's Conjecture and the Feasibilityof Consistent,Available,Partition - Tolerant Web Services[J].ACM SIGACT News,2002,33( 2) : 51-59.
[2]Dan P.BASE: An Acid Alternative[J].DBLP,2008,6( 3) :48-55.
[3]陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與 NoSQL 數(shù)據(jù)庫(kù)技術(shù)[M].北京: 電子工業(yè)出版社,2013: 5-8.
[4]吳鵬,劉恒旺,丁慧君.基于本體和 NoSQL 的機(jī)械產(chǎn)品方案設(shè)計(jì)的知識(shí)表示與存儲(chǔ)研究[J].情報(bào)學(xué)報(bào),2017,36( 3) : 285-296.
[5]趙永強(qiáng).基于 NoSQL 的特色數(shù)據(jù)庫(kù)系統(tǒng)研究[J].圖書館工作與研究,2018( S1) : 97-99+124.
選自期刊《管理工程師》第 27 卷 第 3 期2022 年 6 月
作者信息:孫 安( 河南科技大學(xué) 圖書館,河南 洛陽(yáng) 471000)
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/30352.html