亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當前的位置:發(fā)表學術(shù)論文網(wǎng)文史論文》 “NoSQL”數(shù)據(jù)管理技術(shù)在檔案大數(shù)據(jù)中的應用探析> 正文

“NoSQL”數(shù)據(jù)管理技術(shù)在檔案大數(shù)據(jù)中的應用探析

所屬分類:文史論文 閱讀次 時間:2022-06-24 09:28

本文摘要:摘 要: 大數(shù)據(jù)時代海量數(shù)據(jù)的長久保存與高效利用成為人們關(guān)注的焦點。非關(guān)系型數(shù)據(jù)庫( NoSQL) 作為關(guān)系型數(shù)據(jù)庫的一種補充,越來越受到青睞,并影響著未來檔案大數(shù)據(jù)管理技術(shù)的發(fā)展方向。首先通過 Laney 的大數(shù)據(jù) 3V 視角論述 NoSQL 技術(shù)的原理與特征; 然后在大數(shù)據(jù)視

  摘 要: 大數(shù)據(jù)時代海量數(shù)據(jù)的長久保存與高效利用成為人們關(guān)注的焦點。非關(guān)系型數(shù)據(jù)庫( NoSQL) 作為關(guān)系型數(shù)據(jù)庫的一種補充,越來越受到青睞,并影響著未來檔案大數(shù)據(jù)管理技術(shù)的發(fā)展方向。首先通過 Laney 的大數(shù)據(jù) 3V 視角論述 NoSQL 技術(shù)的原理與特征; 然后在大數(shù)據(jù)視域下分析NoSQL 技術(shù)在檔案知識服務、檔案記憶、智慧檔案館中的應用前景; 最后展望未來檔案信息化建設(shè)中數(shù)據(jù)庫管理技術(shù)的發(fā)展格局,引導我國檔案數(shù)字化、信息化工作發(fā)展方向。研究結(jié)論表明: NoSQL 技術(shù)符合大數(shù)據(jù)管理的 3V 要求,能夠較好地解決大數(shù)據(jù)應用中的高并發(fā)、快速響應、海量數(shù)據(jù)長久保存問題,能夠滿足未來檔案大數(shù)據(jù)應用需要; 未來 NoSQL 和 SQL 將長期并存于檔案數(shù)據(jù)管理。

  關(guān)鍵詞: 非關(guān)系型數(shù)據(jù)庫; 大數(shù)據(jù)管理; 知識服務; 檔案記憶; 智慧檔案館

檔案管理

  大數(shù)據(jù)時代,檔案信息化建設(shè)進入了一個新階段,基于云服務,智慧型的數(shù)字檔案館概念進入人們視線中,為檔案工作指明了前進方向。新形勢下,檔案數(shù)據(jù)收集的領(lǐng)域、范圍不斷擴大,數(shù)據(jù)的種類不斷增加,互聯(lián)網(wǎng)上海量社交媒體的電子數(shù)據(jù)實時歸檔,正逐漸使得檔案大數(shù)據(jù)管理與其他大數(shù)據(jù)行業(yè)一樣面臨著海量信息存儲、系統(tǒng)分布式部署、用戶高并發(fā)訪問、數(shù)據(jù)的長久保存等難題。傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)( RDBMS) 面對這類問題時遇到了性能瓶頸,在這種背景下一類新的數(shù)據(jù)管理技術(shù) NoSQL 技術(shù)應運而生。它突破了傳統(tǒng)關(guān)系 型 數(shù) 據(jù) 庫 的 模 式 限 制,遵 從 CAP 理 論[1] 和BASE 原則[2],數(shù)據(jù)類型包容性和系統(tǒng)的橫向擴展能力變得更強,有效地解決了大數(shù)據(jù)應用中出現(xiàn)的各類難題。隨著 NoSQL 技術(shù)的成功應用,人們開始關(guān)注這項技術(shù)的最新研究動態(tài),數(shù)據(jù)庫管理技術(shù)研究視角也由過去的層次型、網(wǎng)狀型、關(guān)系型逐漸演變?yōu)殛P(guān)系型與非關(guān)系型兩種。

  通過文獻調(diào)查發(fā)現(xiàn),吳鵬等利用 MongoDB( NoSQL 的一種) 技術(shù)設(shè)計企業(yè)產(chǎn)品數(shù)據(jù)信息管理系統(tǒng),較好地滿足了文檔、圖片、視頻等多類型數(shù)據(jù)管理要求[4]。趙永強提出相較于關(guān)系型數(shù)據(jù)庫,TPI 特藏數(shù)據(jù)庫更適合采用 NoSQL 數(shù)據(jù)庫產(chǎn)品,支持非結(jié)構(gòu)化數(shù)據(jù)管理和數(shù)據(jù)的分散保管及數(shù)據(jù)擴展[5]。施曉峰分析了檔案大數(shù)據(jù)特征: 格式多樣、結(jié)構(gòu)復雜、規(guī)模龐大,認為 NoSQL 技術(shù)可以較好地滿足非結(jié)構(gòu)化數(shù)據(jù)的管理,并搭建了一個基于 NoSQL 系統(tǒng)的檔案數(shù)據(jù)管理原型系統(tǒng)[6]。卞咸杰采用 Hadoop( NoSQL的一種) 技術(shù)設(shè)計檔案信息資源共享平臺,并分析檔案數(shù)據(jù)處理流程[7]。

  綜上發(fā)現(xiàn),目前圖情檔領(lǐng)域關(guān)于 NoSQL 技術(shù)研究較少,研究多以 Hadoop、MapReduce、Virtuoso 某一種 NoSQL 技術(shù)作為視角,并未整體分析 NoSQL 技術(shù)符合大數(shù)據(jù)應用的內(nèi)在機理,也未發(fā)現(xiàn)闡述 NoSQL 技術(shù)與檔案大數(shù)據(jù)應用的內(nèi)在機制與理論論述等相關(guān)文獻。由于 NoSQL 技術(shù)的出現(xiàn),讓大數(shù)據(jù)應用突破了硬件性能的限制,使檔案部門駕馭大數(shù)據(jù)成為一種可能。本文擬梳理 NoSQL 的發(fā)展脈絡與技術(shù)特征,解析其在檔案大數(shù)據(jù)應用中的契合機理與發(fā)展地位,為我國檔案信息化建設(shè)提供一點思考。

  1 NoSQL 技術(shù)的產(chǎn)生與發(fā)展

  NoSQL 泛指非關(guān)系型的數(shù)據(jù)庫( NRDBMS: NoRelational-DBMS) ,在大數(shù)據(jù)環(huán)境下,用于解決海量數(shù)據(jù)分布部署,以提高系統(tǒng)平臺的可擴展性、可用性、實時性的“一類”數(shù)據(jù)管理技術(shù)。2000 年 Google 針對大數(shù)據(jù)環(huán)境下高并發(fā)、高可用、高性能的海量數(shù)據(jù)管理需求,重新設(shè)計了 Google搜索引擎后臺數(shù)據(jù)庫管理系統(tǒng),放棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫,自行研發(fā)非關(guān)系型數(shù)據(jù)庫,并于 2003-2006年發(fā)表了 4 篇關(guān)于其數(shù)據(jù)管理技術(shù)的核心論文: GFS分布式文件系統(tǒng)、MapReduce 高性能計算框架、Bigtable 一種分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案、Chubby 一種面向松耦合分布式系統(tǒng)的鎖服務[8-11]。

  Google 相關(guān)論文的公開發(fā)表引起了互聯(lián)網(wǎng)公司和開源愛好者的廣泛關(guān)注和濃厚興趣。2006 年 2 月 Apache Hadoop開源項目正式啟動以支持 MapReduce 和 HDFS[12]的獨立發(fā)展,同年 5 月雅虎建立了一個 300 個節(jié)點的Hadoop 研究集群,2011 年 12 月 Hadoop1.0.0 版本發(fā)布,標志著 Hadoop 已經(jīng)初具規(guī)模。2007 年亞馬遜公司對外展示了 Dynamo 分布式數(shù)據(jù)存儲系統(tǒng)。2008年 Facebook 將其研發(fā)的數(shù)據(jù)庫管理技術(shù) Cassandra開源。2009 年英國軟件開發(fā)者 Johan 先生在一次非關(guān)系型數(shù)據(jù)庫討論會上,以“NoSQL”作為此次會議的主題,從此人們習慣以 NoSQL 命名這類非關(guān)系型數(shù)據(jù)庫技術(shù)[13]。

  從國內(nèi)實踐情況看,阿里巴巴是具有代表性的互聯(lián)網(wǎng)電子商務公司,在應對海量淘寶交易數(shù)據(jù)管理時,獨立研發(fā)了非關(guān)系型數(shù)據(jù)庫 OceanBase,整個系統(tǒng)采用服務器集群架構(gòu),能夠滿足達 10 億筆日支付處理需求,系統(tǒng)對 100TB 的數(shù)據(jù)進行排序只需 377秒,打破了 Apache Spark 的紀錄 23.4 分鐘[14],處理速度之快可見一斑。不僅在電商領(lǐng)域,我國在機械制造領(lǐng)域中的大規(guī)模設(shè)備監(jiān)測數(shù)據(jù)[15]和天文領(lǐng)域中的大規(guī)模天文觀測數(shù)據(jù)也已經(jīng)成功運用了 NoSQL技術(shù)進行管理,這些數(shù)據(jù)庫系統(tǒng)具有處理 TB 級和PB 級海量電子數(shù)據(jù)的能力[16]。截至 2022 年 1 月,官網(wǎng)上可查的在冊 NoSQL 產(chǎn)品已經(jīng)超過 225 種,可見大數(shù)據(jù)背景下 NoSQL 技術(shù)的需求與應用前景廣闊[17]。

  2 從大數(shù)據(jù)的 3V 視角分析

  NoSQL 內(nèi)在技術(shù)特征2001 年 META 集團分析師 Laney 在一份報告中首次提出大數(shù)據(jù)的 3V 概念[18],即大數(shù)據(jù)環(huán)境下,數(shù)據(jù)呈現(xiàn)類型多樣化( Variety) 、海量數(shù)據(jù)( Volume) 、處理速度快( Velocity) 特征。之后人們對“大數(shù)據(jù)”認識不斷深入,在 Laney 的 3V 基礎(chǔ)上提出了 4V、5V、6V 等概念[19]: 數(shù)據(jù)價值( Value) 、可視性( Visualization) 、合法性( Validity) 。本文從 Laney 最初的 3V視角解析 NoSQL 的技術(shù)原理與特征。

  2.1 數(shù)據(jù)類型多樣化( Variety) 與 NoSQL 的弱模式數(shù)據(jù)模型在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中,每張表都事先定義好模式,數(shù)據(jù)存放在表里。表中每一行為一條數(shù)據(jù),對應的列是該條數(shù)據(jù)的屬性值,屬性的數(shù)據(jù)類型具有嚴格定義。當插入一條數(shù)據(jù),該數(shù)據(jù)項中某一個列值不滿足表的預先定義格式要求,會導致插入數(shù)據(jù)不成功。這種“嚴格定義”較好地保證了數(shù)據(jù)的正確性。但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)多樣化特征,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存。

  今天設(shè)計好的檔案數(shù)據(jù)庫系統(tǒng)所存放的數(shù)據(jù)類型與數(shù)據(jù)格式,不一定能滿足未來工作需求。另外,當遇到不同檔案數(shù)字資源整合時,異構(gòu)系統(tǒng)之間的數(shù)據(jù)格式與數(shù)據(jù)類型未必完全一致,作為檔案信息系統(tǒng)后臺的數(shù)據(jù)庫管理系統(tǒng) DBMS 需要有更開放的數(shù)據(jù)包容能力,以滿足數(shù)據(jù)類型多樣化要求。大部分 NoSQL 的數(shù)據(jù)模型采用的是一種鍵-值類型( key-value) ,可細分為: 鍵-值型( key-value) 、鍵-列型( key-column) 、鍵-文檔型( key-document) 。key 是數(shù)據(jù)的序號,通過 key 查找數(shù)據(jù)庫中的數(shù)據(jù)位置。該數(shù)據(jù)模型不用事先定義其內(nèi)在的數(shù)據(jù)結(jié)構(gòu),所以 NoSQL 數(shù)據(jù)模型屬于弱模式或者無模式的數(shù)據(jù)模型。相對關(guān)系型數(shù)據(jù)庫的表數(shù)據(jù),NoSQL 采用的數(shù)據(jù)模型弱化了數(shù)據(jù)結(jié)構(gòu)中的語義部分,value 部分的數(shù)據(jù)結(jié)構(gòu)依每條數(shù)據(jù)要求自行定義,其語義特征交由應用層解析。

  這種弱模式或者無模式結(jié)構(gòu)很好地支持了大數(shù)據(jù)環(huán)境下數(shù)據(jù)類型多樣化。當前電子文件歸檔范圍不斷擴大: 文本文件( txt、word、pdf) 、圖像文件( jpg、gif、bmp) 、影音文件( flash、rmvb、avi)等都納入數(shù)據(jù)庫管理范圍,且不同類型的文件其著錄信息也不相一致。傳統(tǒng)關(guān)系型數(shù)據(jù)庫下,通常為這些不同類型的數(shù)據(jù)構(gòu)建不同的表,一旦需求發(fā)生改變,表結(jié)構(gòu)就可能需要隨之改變,從而產(chǎn)生額外的技術(shù)沖突和成本。而在非關(guān)系型數(shù)據(jù)庫中,不同類型結(jié)構(gòu)的數(shù)據(jù)可以統(tǒng)一保存在( key-value) 的數(shù)據(jù)集中,每條數(shù)據(jù) value 部分的數(shù)據(jù)結(jié)構(gòu)可以依據(jù)具體要求而自行定義,數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu)的包容性更強,異構(gòu)系統(tǒng)之間的數(shù)據(jù)整合也更為方便,滿足大數(shù)據(jù)對數(shù)據(jù)類型多樣化要求。

  2.2 海量數(shù)據(jù)存儲( volume) 與 NoSQL 的分布式存儲在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)庫里所有表的集合構(gòu)成了一個邏輯上的整體。當數(shù)據(jù)庫中表容量增加到一定規(guī)模,致使一臺服務器存儲容量無法承載其全部表集合時,需要分布式承載,此時數(shù)據(jù)分割問題便隨之而來。雖然關(guān)系型數(shù)據(jù)庫在分布式環(huán)境下給出了“表”的橫向分割和縱向分割多種方案,但每種方案的代價都是驚人的,其對“表”分割的代價無異于系統(tǒng)的二次開發(fā)。大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù)呈流數(shù)據(jù)狀態(tài),隨著時間的推移會持續(xù)增長,數(shù)據(jù)庫會面臨著再次分割。數(shù)據(jù)庫系統(tǒng)需要適應這種數(shù)據(jù)膨脹環(huán)境,以低代價或者無代價方式任意擴展自己的數(shù)據(jù)存儲。顯然,關(guān)系型數(shù)據(jù)庫難以滿足此項要求。由于 NoSQL 的數(shù)據(jù)模型采用弱模式或者無模式的數(shù)據(jù)類型。其數(shù)據(jù)分割不再像表數(shù)據(jù)分割那樣困難,只需依據(jù)數(shù)據(jù)集中每個數(shù)據(jù)的 key 值范圍“重新”劃定部署位置,便可以分布式地存放在不同服務器的存儲空間。目前較為流行的 NoSQL 數(shù)據(jù)存儲方案為“Master-Range”方案。

  Master 節(jié)點( MasterServer) 負責管理整個數(shù)據(jù)庫系統(tǒng),同時監(jiān)視 Range 節(jié)點( RangeServer) 的運行狀態(tài),并為每一個 Range 節(jié)點分配數(shù)據(jù)存儲的范圍( key 值范圍) ,形成一個 key 值與 RangeServer 的映射表 tablet,通過 tablet 表獲取 key 值和 RangeServer地址。Master 一般采用多副本控制策略,當主 Master服務器宕機時,選擇一臺副 Master 為新的主 Master。Range 節(jié)點是數(shù)據(jù)存放節(jié)點,也是真正與客戶發(fā)生數(shù)據(jù)交互和數(shù)據(jù)處理的節(jié)點。同時 Range 節(jié)點不時向Master 節(jié)點匯報自己的健康狀況和負載情況,當某個 Range 節(jié)點發(fā)生故障或者負載過重時,Master 節(jié)點會執(zhí)行局部調(diào)度,將負載過重的 Range 數(shù)據(jù)調(diào)整到較空閑的 Range 節(jié)點上,同時相應調(diào)整 tablet 表的映射關(guān)系。

  通過 Master-Range 結(jié)構(gòu)將數(shù)據(jù)分散到多個節(jié)點中,當增加新的 Range 節(jié)點時,Master 節(jié)點只需修改key 值范圍與 RangeSever 集群的映射關(guān)系表 tablet即可,擴展代價非常低。Google 的 BigTable、Hadoop的 Hypertable,阿里巴巴的 OceanBase 都是采用類似結(jié)構(gòu)。據(jù)阿里巴巴官方報道,其增加一個數(shù)據(jù)庫服務站點的時間從過去 1 個月縮短為 90 分鐘。由此可見 NoSQL 在海量數(shù)據(jù)組織與數(shù)據(jù)管理上較傳統(tǒng)關(guān)系型數(shù)據(jù)庫具有更好的靈活性與橫向擴展性,滿足大數(shù)據(jù)環(huán)境下對海量數(shù)據(jù)存儲的管理要求。

  2.3 處理速度快( Velocity) 與 NoSQL 分布式計算資源大數(shù)據(jù)環(huán)境下提高數(shù)據(jù)處理速度,一般可以通過提升性能或者增加規(guī)模來完成,也稱為縱向擴展方式和橫向擴展方式兩種?v向擴展方式是指通過提升現(xiàn)行服務器硬件的性能來提高數(shù)據(jù)處理能力。其優(yōu)點是方法簡單,系統(tǒng)程序不需要修改,只需投入相應的硬件更換費用; 缺點則是單臺硬件設(shè)備的性能存在上限,因而縱向擴展方式存在性能提升瓶頸,且單臺硬件設(shè)備性能越高,其性價比越低。橫向擴展方式是使用多臺廉價服務器,組成一個集群,通過并行運算來提高系統(tǒng)的運算速度。其優(yōu)點是系統(tǒng)的計算能力呈線性提升,隨處理速度需求增長集群規(guī)模相應擴大; 缺點則是針對集群服務器數(shù)量變化,系統(tǒng)程序要做相應調(diào)整。針對大數(shù)據(jù)環(huán)境下的各類云服務平臺往往需要面對 TB 或是 PB 級數(shù)據(jù)存儲,用戶數(shù)量千萬甚至上億,日訪問量百萬次以上,并發(fā)數(shù)時常以千為數(shù)量級。由于縱向擴展存在性能提升瓶頸,所以橫向擴展方式將是各類數(shù)字化平臺提升性能的首選方案。

  實際與客戶發(fā)生數(shù)據(jù)交互的是 Range節(jié)點,而不是 Master 節(jié)點。所以當 Range 節(jié)點數(shù)量增加時,NoSQL 系統(tǒng)平臺的計算資源也得到相應提升。同時 NoSQL 技術(shù)引入了 Map-Reduce 高性能計算框架: 通過映射( Map) 化簡( Reduce) 的思想,可以把一個復雜任務分解為多個子任務交由不同 Range節(jié)點并行執(zhí)行,再將執(zhí)行結(jié)果進行化簡歸約輸出,大大提高了數(shù)據(jù)庫系統(tǒng)的查詢、統(tǒng)計、數(shù)據(jù)分析運算效率[20]。

  例如萬方數(shù)據(jù)知識服務平臺,采用自行研發(fā)的 WFIRC 檢索引擎( NoSQL 技術(shù)的一種) ,將資源按照期刊、會議、學位、專利、標準等劃分數(shù)據(jù)集,其中期刊數(shù)據(jù)集又可按照學科類型繼續(xù)劃分存放在不同的服務器中,整個集群系統(tǒng)對文獻的查詢、統(tǒng)計、分析、論文相似性檢測等任務均分派由不同的數(shù)據(jù)集所在的服務器完成切詞、分詞、文本比對等計算任務,最后將任務結(jié)果匯總輸出給用戶。一篇 1 萬字的論文相似性檢測,在海量文獻全文中比對耗時不到 10 秒?梢娨子跈M向擴展的 NoSQL 技術(shù)滿足大數(shù)據(jù)對處理速度快的要求。

  3 “NoSQL”技術(shù)在檔案大數(shù)據(jù)管理中的應用分析

  3.1 檔案知識服務功能實現(xiàn)

  20 世紀 50 年代知識服務就被圖情檔界提出,發(fā)展到今天其服務的內(nèi)容、形式、意義發(fā)生了巨大變化。在大數(shù)據(jù)背景下,知識服務更強調(diào)“知識”的自動化生產(chǎn)[21],而不是簡單的知識供給: 從海量數(shù)據(jù)中提煉信息,從大量信息中挖掘知識,即結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成信息,有規(guī)律的信息得出經(jīng)驗( 知識) 過程。可以看出,未來這種知識服務是建立在擁有大量信息基礎(chǔ)上,大量信息則是建立在海量數(shù)據(jù)獲取的基礎(chǔ)上。在大數(shù)據(jù)背景下,檔案知識服務被重新定義,檔案數(shù)據(jù)收集范圍從過去的經(jīng)加工、篩選、鑒別的歷史檔案數(shù)據(jù),朝著具有記錄性的人類社會生活生產(chǎn)的全方位信息數(shù)據(jù)擴展。檔案知識服務由過去的通過簡單查詢獲取歷史檔案數(shù)據(jù)作為經(jīng)驗知識為人們使用,演化為對海量檔案數(shù)據(jù)進行數(shù)據(jù)分析、數(shù)據(jù)挖掘生成新的信息、新的知識過程。所以未來檔案知識服務的根基是擁有海量歸檔數(shù)據(jù)。

  隨著檔案服務功能不斷深化,網(wǎng)絡社交媒體數(shù)據(jù)已經(jīng)納入了檔案數(shù)據(jù)收集的視野。Twitter 是美國一家著名網(wǎng)絡社交媒體,該公司于 2012 年開始推出“個人推文存檔”( Your Twitter Archive) 服務,用于保存用戶的歷史推文記錄,便于用戶查閱歷史數(shù)據(jù)信息[22]。這也開啟了數(shù)據(jù)到信息再到知識的過程,例如: 通過分析個人推文歷史數(shù)據(jù),可以得出過去 5 年人們所關(guān)注的生活問題有哪些( 提煉信息) ,通過獲取這些人們所關(guān)注“問題”可以制定下屆政府施政方案( 挖掘知識) 。

  同時我們可以看到 Twitter 公司于2010 年棄用傳統(tǒng)關(guān)系型數(shù)據(jù)庫 MySQL,啟用 NoSQL計劃。原因是在 2009 年,Twitter 每天產(chǎn)生約 12TB用戶數(shù)據(jù),每年產(chǎn)生約 4PB 數(shù)據(jù)( 且數(shù)據(jù)增長速度還在擴大) ,MySQL 已經(jīng)無法應對如此龐大的海量數(shù)據(jù)管理。所以在大數(shù)據(jù)環(huán)境下,這類流數(shù)據(jù)隨時間成持續(xù)性增長,對電子數(shù)據(jù)長久保存提出了更高要求。因為我們無法使用傳統(tǒng)設(shè)置時間點的概念刪除老舊數(shù)據(jù),也不能將老舊數(shù)據(jù)轉(zhuǎn)儲至異地與系統(tǒng)分隔。檔案大數(shù)據(jù)背景下,以全數(shù)據(jù)作為知識服務的根基,其數(shù)據(jù)管理系統(tǒng)應能滿足海量流數(shù)據(jù)增長需求,Twitter 公司的數(shù)據(jù)管理經(jīng)驗可以借鑒。

  3.2 數(shù)字檔案記憶功能

  拓展人腦具有“記憶”功能屬性,且人腦記憶容量一直是一個謎。2003 年,英國《獨立報》曾報道: 科學家估算人腦的記憶容量約為 10 的后面跟 8432 個零個字節(jié)。2014 年 3 月 Nature 刊登了一篇文章,分析小白鼠的大腦相當于 1TB 存儲容量,據(jù)此推算人腦容量約為 7.6 億 TB 存儲容量,用單塊硬盤 8TB,也需要 9500 萬塊硬盤,這說明人類的腦容量不是現(xiàn)存某一臺超級計算機所能比擬的[23]。上述結(jié)論雖是科學臆測,但可以從側(cè)面反映出人類記憶具有海量數(shù)據(jù)容量特征。“檔案是典型的記憶工具”成為“檔案是一種信息”與“檔案是一種知識”之后的又一重要提法[24]。

  雖然檔案作為記憶工具有別于人腦記憶,在記憶實踐活動中往往具有選擇性,選取有價值的記憶作為保存對象,但作為具有人類記憶功能屬性的檔案記憶隨著時間推演,未來會不會趨近于人類記憶,我們不得而知。同時在現(xiàn)代科技發(fā)展水平不斷進步的背景下,數(shù)據(jù)價值的判斷與選擇變得模糊。比如對某一天的氣象數(shù)據(jù)記憶,似乎并無太大價值,但如果連續(xù)記憶了 10 年、50 年、100 年的氣象數(shù)據(jù),針對該記憶進行大數(shù)據(jù)分析,就可得出地球氣象變遷的趨勢,進而預測未來地球環(huán)境演化。美國國家大氣研究中心 NCAR 從 20 世紀 60 年代中期開始對大氣變化數(shù)據(jù)進行采集、歸檔、保存、利用,通過最新數(shù)據(jù)模擬系統(tǒng)可以構(gòu)建一個 3D 時空大氣運行狀態(tài)[25]。

  這種大記憶觀對人類生活中產(chǎn)生的數(shù)據(jù)信息盡可能多地進行分類、歸檔、記錄、挖掘、利用,一些看似無價值的記憶數(shù)據(jù)組合在一起將重獲新生價值,這將是檔案記憶價值的又一重要體現(xiàn)。馮惠玲教授在《檔案記憶觀、資源觀與“中國記憶”數(shù)字資源建設(shè)》一文中,強調(diào)“若舍棄泛在、實時的數(shù)字資源,必將造成當代社會活動記錄的殘缺不全”,在互聯(lián)網(wǎng)時代應注重網(wǎng)絡媒體資源的鑒別、收集、描述、整合、發(fā)布,通過廣大網(wǎng)民的查詢利用與鑒別考證讓檔案資源變得更加真實可信、更加有社會價值[26]。可見,在大數(shù)據(jù)視域下,“檔案記憶觀”與“檔案資源觀”被重新詮釋,檔案工作被賦予新的使命,檔案作為人類記憶工具必將面臨海量的數(shù)據(jù)存儲與大規(guī)模的數(shù)據(jù)運算,具備大數(shù)據(jù) 3V 特征的 NoSQL 技術(shù)正是實踐上述過程的有力工具。

  3.3 智慧檔案館建設(shè)

  隨著“智慧城市”概念的提出,智慧檔案館也興起一股研究熱潮,近年圍繞智慧檔案館的研究涌現(xiàn)出一批科研成果。魯俊杰在“對智慧檔案館及其研究的反思性探析”一文中,嘗試對智慧檔案館下定義[27]。楊來青在“檔案館未來發(fā)展的新前景: 智慧檔案館”一文中對智慧檔案館的智慧特征進行了 5點歸納[28]。楊智勇在“試析智慧檔案館的興起與未來發(fā)展”一文中分析了智慧檔案館關(guān)于技術(shù)使用、體系架構(gòu)、知識服務三個層面的內(nèi)容[29]。陳嘉鈺在“智慧檔案館數(shù)據(jù)化管理功能的實現(xiàn)”中強調(diào)應利用數(shù)字技術(shù)實現(xiàn)智慧檔案館管理功能的全面感知[30]。總結(jié)以往研究,可以得出智慧檔案館有別于傳統(tǒng)檔案館,主要在資源收集、智慧感知、泛在化服務三個層面朝著大數(shù)據(jù) 3V 特征靠近,并與 NoSQL 技術(shù)擁有契合點。

  4 結(jié)語:

  檔案大數(shù)據(jù)管理技術(shù)發(fā)展格局上述論述是基于檔案數(shù)字化工作與大數(shù)據(jù)應用完全融合狀態(tài),即檔案信息化建設(shè)進入高級階段。而當前我國檔案數(shù)字化建設(shè)還存在發(fā)展不均衡現(xiàn)象,許多地方檔案館的檔案資源特點還是已加工的、滯后的、靜止的、穩(wěn)定的電子文件數(shù)據(jù),這些數(shù)據(jù)雖然體量巨大,但與真正的“大數(shù)據(jù)”“全數(shù)據(jù)”還有一定差別[32],目前階段尚不必須要使用具有大數(shù)據(jù)特征的 NoSQL 技術(shù)。因此,NoSQL 作為異于傳統(tǒng)關(guān)系型數(shù)據(jù)庫 SQL 的一種新技術(shù),并非是要取代 SQL,而是作為 SQL 的一種補充。未來可預見,那些建立在互聯(lián)網(wǎng)門戶基礎(chǔ)上,后臺具有海量檔案信息數(shù)據(jù),面向全體用戶并提供深層次數(shù)據(jù)分析與數(shù)據(jù)挖掘服務的檔案數(shù)據(jù)管理平臺將會借助 NoSQL 技術(shù)進行檔案大數(shù)據(jù)管理。而面向區(qū)域部門的傳統(tǒng)檔案館的檔案數(shù)據(jù)管理平臺將會繼續(xù)采用 傳 統(tǒng) 關(guān) 系 型 數(shù) 據(jù) 庫。綜 合 分 析,NoSQL 與SQL 在檔案數(shù)字化建設(shè)中將長期并存。

  參考文獻:

  [1]Gilbert S,Lynch N.Brewer's Conjecture and the Feasibilityof Consistent,Available,Partition - Tolerant Web Services[J].ACM SIGACT News,2002,33( 2) : 51-59.

  [2]Dan P.BASE: An Acid Alternative[J].DBLP,2008,6( 3) :48-55.

  [3]陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與 NoSQL 數(shù)據(jù)庫技術(shù)[M].北京: 電子工業(yè)出版社,2013: 5-8.

  [4]吳鵬,劉恒旺,丁慧君.基于本體和 NoSQL 的機械產(chǎn)品方案設(shè)計的知識表示與存儲研究[J].情報學報,2017,36( 3) : 285-296.

  [5]趙永強.基于 NoSQL 的特色數(shù)據(jù)庫系統(tǒng)研究[J].圖書館工作與研究,2018( S1) : 97-99+124.

  選自期刊《管理工程師》第 27 卷 第 3 期2022 年 6 月

  作者信息:孫 安( 河南科技大學 圖書館,河南 洛陽 471000)

轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///wslw/30352.html