本文摘要:近幾年大規(guī)模的古籍整理項(xiàng)目普遍缺乏互聯(lián)網(wǎng)思維,幾乎沒有考慮借鑒數(shù)字人文的思路和方法,沒有充分利用信息技術(shù)的巨大優(yōu)勢[1]。隨著數(shù)字人文學(xué)科的迅速發(fā)展,使得巨量的資料分析、地理空間分析、人員流動(dòng)軌跡分析成為可能,對方志、家譜、正史等帶來了新的研
近幾年大規(guī)模的古籍整理項(xiàng)目普遍缺乏“互聯(lián)網(wǎng)思維”,幾乎沒有考慮借鑒數(shù)字人文的思路和方法,沒有充分利用信息技術(shù)的巨大優(yōu)勢[1]。隨著數(shù)字人文學(xué)科的迅速發(fā)展,使得巨量的資料分析、地理空間分析、人員流動(dòng)軌跡分析成為可能,對方志、家譜、正史等帶來了新的研究視角,對其數(shù)字化、深度挖掘的需求越來越迫切。數(shù)字人文環(huán)境下,圖書館必須依托資源優(yōu)勢,將文本挖掘、地理信息系統(tǒng)、關(guān)聯(lián)技術(shù)、文本可視化等數(shù)字技術(shù)應(yīng)用于特色資源庫建設(shè),實(shí)現(xiàn)特色資源的進(jìn)一步開發(fā)與利用[2]。方志資源作為特色資源也要受到應(yīng)有的重視,例如現(xiàn)有方志研究發(fā)現(xiàn)系統(tǒng)在切合方志資源特性的資源檢索與發(fā)現(xiàn)功能上仍有改進(jìn)空間,如切合方志的地域性,現(xiàn)有的地域?yàn)g覽是基于文字的地域名鏈接瀏覽,若能利用GIS技術(shù)提供可視化地圖瀏覽,資源分布會(huì)更加直觀,有助于讀者快速發(fā)現(xiàn)方志資源;在切合方志時(shí)代性上,現(xiàn)有的方志朝代劃分過于粗略,粒度只能到朝代,若能細(xì)分到年號(hào),則能提供更加準(zhǔn)確的檢索[3]。因此,整合異構(gòu)的方志元數(shù)據(jù),提供一站式服務(wù),通過異構(gòu)方志元數(shù)據(jù)的融合、聚類和重組,使方志資源從數(shù)據(jù)層的揭示與展現(xiàn)轉(zhuǎn)向信息層、知識(shí)層的深度服務(wù)至關(guān)重要。
1研究現(xiàn)狀
1.1數(shù)字人文環(huán)境下方志研究現(xiàn)狀
方志,是地方志的簡稱,是記載一定地區(qū)(或行政區(qū)劃)自然和社會(huì)各個(gè)方面的歷史和現(xiàn)狀的綜合性著述[4]。方志作為我國傳統(tǒng)文化寶庫中的一塊瑰寶,輯存了具有多種功能的經(jīng)世致用的珍貴歷史資料[5]。古代學(xué)者對方志史料的開發(fā)利用都是建立在手工基礎(chǔ)上,他們逐頁逐字地在數(shù)量浩繁的方志中尋找所需資料,極為費(fèi)時(shí)費(fèi)力。數(shù)字人文研究背景下,應(yīng)充分利用數(shù)字人文的研究成果,將文本挖掘、GIS技術(shù)和可視化技術(shù)應(yīng)用到方志數(shù)字化的深度開發(fā)中。文本挖掘可以抽取方志中的地名、人名、歷史事件等特定信息,以發(fā)現(xiàn)各個(gè)歷史事件隨時(shí)間和空間的演變規(guī)律以及歷史人物之間錯(cuò)綜復(fù)雜的社會(huì)關(guān)系網(wǎng)[6];GIS的應(yīng)用研究為方志史料知識(shí)的整理和開發(fā)利用提供了一種新方法、新思路,借助地圖實(shí)現(xiàn)更多方志史料知識(shí)的挖掘與揭示,使方志類古籍文獻(xiàn)不再是平面的、孤立的資料,而是成為了一個(gè)立體的、服務(wù)于學(xué)術(shù)研究和經(jīng)濟(jì)建設(shè)的文化信息知識(shí)庫[7]。近年來,部分機(jī)構(gòu)和學(xué)者開始將GIS技術(shù)、可視化技術(shù)、社會(huì)網(wǎng)絡(luò)分析技術(shù)應(yīng)用于方志的研究。
華東師范大學(xué)圖書館針對目前館藏OPAC、部分專用方志資源平臺(tái)在檢索、資源發(fā)現(xiàn)技術(shù)上缺乏針對性、新穎性,不能很好地滿足資源查找需求的現(xiàn)狀,通過引入新的GIS、標(biāo)簽云等技術(shù),重新建立地方志發(fā)現(xiàn)平臺(tái),提供更多與資源特性相關(guān)的發(fā)現(xiàn)手段,提高了資源的可發(fā)現(xiàn)性[8]。上海圖書館開發(fā)了“中文古籍聯(lián)合目錄及循證”平臺(tái),結(jié)合內(nèi)容分析統(tǒng)計(jì)、時(shí)空及社會(huì)關(guān)系分析和可視化工具,實(shí)現(xiàn)現(xiàn)存古籍的聯(lián)合查詢、規(guī)范控制,并提供學(xué)者循證版本、考鏡流藏之功用[9]。隨著數(shù)字人文技術(shù)特別是GIS技術(shù)在方志中的應(yīng)用越來越成熟,數(shù)字人文的研究理論日趨完善,數(shù)字人文技術(shù)對方志研究的影響會(huì)更加顯著。
1.2元數(shù)據(jù)整合現(xiàn)狀
元數(shù)據(jù)為描述數(shù)據(jù)的數(shù)據(jù),是描述、解釋、定位或以其他方式使得檢索、使用或管理信息資源更容易的結(jié)構(gòu)化信息。在漫長的圖書館編目發(fā)展史中,由于資源本身特點(diǎn)或者為揭示同種資源的不同作用而形成了許多不同的元數(shù)據(jù)標(biāo)準(zhǔn)。元數(shù)據(jù)標(biāo)準(zhǔn)可以分為數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)(DublinCore、VRACore、EAD…)、數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)(RDA、CCO、DACS…)、數(shù)據(jù)值標(biāo)準(zhǔn)(LCSH、AAT、TGN、DDC…)、數(shù)據(jù)交換標(biāo)準(zhǔn)(MARC、XML、RDF/XML、JSON…)[10]。不同發(fā)現(xiàn)平臺(tái)會(huì)采用不同的元數(shù)據(jù)采集方法,并應(yīng)用不同的元數(shù)據(jù)標(biāo)準(zhǔn),有些機(jī)構(gòu)會(huì)自建元數(shù)據(jù)標(biāo)準(zhǔn)以更好地組織和揭示數(shù)字資源,不同標(biāo)準(zhǔn)的元數(shù)據(jù)成為資源整合首要解決的問題。目前在整合元數(shù)據(jù)的基礎(chǔ)上提供服務(wù)的項(xiàng)目有很多影響力較大的項(xiàng)目,例如歐洲數(shù)字圖書館Europeana、美國HathiTrust數(shù)字圖書館等項(xiàng)目。這些項(xiàng)目都是在元數(shù)據(jù)整合基礎(chǔ)上提供服務(wù),并為解決元數(shù)據(jù)的異構(gòu)問題研發(fā)了各自的方法。Europeana整合了歐洲3500多所的檔案館、圖書館、博物館的資源,提供多達(dá)51971705條元數(shù)據(jù)(包括圖書、音視頻、美術(shù)作品、手工藝品等)供用戶檢索[11]。
在元數(shù)據(jù)整合的過程中,Europeana設(shè)計(jì)了“EuropeanaDataModel(EDM)”數(shù)據(jù)模型來兼容博物館、檔案館、圖書館的元數(shù)據(jù)標(biāo)準(zhǔn),將不同標(biāo)準(zhǔn)的元數(shù)據(jù)映射到EDM模型上,從而解決資源整合中數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一的問題[12]。在數(shù)據(jù)處理的過程中,Europeana采用“收割整合后的元數(shù)據(jù)”的資源采集方式,在Europeana和數(shù)字資源提供者之間增加了一個(gè)內(nèi)容聚合器工具,實(shí)現(xiàn)了對各數(shù)字資源元數(shù)據(jù)的規(guī)范與整合,這樣可以對數(shù)字資源的規(guī)范性、有效性和一致性進(jìn)行有效控制[13]。例如,Europeana開發(fā)了CARARE系統(tǒng),用于處理具有考古價(jià)值的歷史遺跡、建筑、藝術(shù)品、手工制品等有關(guān)文化遺產(chǎn)的元數(shù)據(jù)的映射、豐富、更新等預(yù)處理工作。CARARE根據(jù)現(xiàn)有考古學(xué)和建筑學(xué)的元數(shù)據(jù)標(biāo)準(zhǔn),如LIDO、CIDOCCRM、MIDAS,創(chuàng)建了一個(gè)領(lǐng)域特定的元數(shù)據(jù)模式,并將其映射到EDM上,然后再進(jìn)行元數(shù)據(jù)豐富、更新等一系列處理[14];HathiTrust項(xiàng)目整合120多所高校圖書館的數(shù)據(jù),目前包括16295881條記錄,7939735本書的標(biāo)題[15]。
在書目數(shù)據(jù)整合的過程中,HathiTrust項(xiàng)目組要求數(shù)據(jù)提供方的元數(shù)據(jù)越完整越好、必須遵循MARC21著錄規(guī)范、utf8編碼等標(biāo)準(zhǔn),并專門開發(fā)Zephir[16]。在書目元數(shù)據(jù)被HathiTrust采納前必須先經(jīng)過Zephir的處理。Zephir包含一系列功能,包括對書目記錄的采集、更新及一般的管理,并且元數(shù)據(jù)在經(jīng)過Zephir處理時(shí)會(huì)有一個(gè)關(guān)于元數(shù)據(jù)處理情況報(bào)告,報(bào)告內(nèi)容包含多少條記錄已經(jīng)處理,多少條記錄處理錯(cuò)誤等總體情況,同時(shí)將錯(cuò)誤記錄打印出來。經(jīng)過Zephir處理的書目元數(shù)據(jù),可以直接被HathiTrust使用。
基于上述文獻(xiàn)調(diào)研,華東師范大學(xué)圖書館在新的異構(gòu)數(shù)字方志服務(wù)平臺(tái)設(shè)計(jì)時(shí),通過應(yīng)用GIS以及可視化等技術(shù),使具有時(shí)空特點(diǎn)的方志資源得到了充分的形象化展現(xiàn),充分借鑒目前服務(wù)數(shù)字人文研究的基本技術(shù)方法。同時(shí),在以下三方面使方志資源的發(fā)現(xiàn)和整合能力明顯得到提升:(1)通過方志資源元數(shù)據(jù)RDF化,實(shí)現(xiàn)資源在作品層和單件層面的統(tǒng)一發(fā)現(xiàn);(2)充分借鑒歐洲數(shù)字圖書館Europeana、美國HathiTrust數(shù)字圖書館等項(xiàng)目的整合方法,構(gòu)建整合多來源、異構(gòu)元數(shù)據(jù)方案,實(shí)現(xiàn)數(shù)字方志服務(wù)平臺(tái)的統(tǒng)一發(fā)現(xiàn)入口;(3)開發(fā)多來源數(shù)據(jù)采集以及數(shù)據(jù)規(guī)范性檢查等工具,實(shí)現(xiàn)對元數(shù)據(jù)整合前的預(yù)處理。
2方志元數(shù)據(jù)整合意義及整合方法
2.1整合方志元數(shù)據(jù)的意義
整合系統(tǒng)的目的是希望為用戶提供統(tǒng)一的檢索平臺(tái),使用戶不需要在多個(gè)檢索系統(tǒng)之間切換,并熟悉多個(gè)檢索系統(tǒng)操作技能,從而減輕資源獲取難度。通過整合方志元數(shù)據(jù),提供單一檢索點(diǎn),人文學(xué)者通過單一站點(diǎn)可以獲取原本需要逐一瀏覽多個(gè)界面才能找到的信息知識(shí),而無需考慮是哪個(gè)機(jī)構(gòu)實(shí)際提供數(shù)字資源、資源的物理存儲(chǔ)位置在何處。通過整合來源不同的方志元數(shù)據(jù),使得方志資源更加全面、完整、權(quán)威,質(zhì)量更高。只有以正確而完備的典藏和資料庫作為基礎(chǔ),數(shù)字和人文研究才有進(jìn)一步合作的可能[17]。
在整合方志元數(shù)據(jù)的過程中,通過引入新的關(guān)聯(lián)書目數(shù)據(jù)模型,方志資源在互聯(lián)網(wǎng)上更容易被發(fā)現(xiàn),與外界互聯(lián),改變方志元數(shù)據(jù)原有的封閉狀況;在整合方志元數(shù)據(jù)的過程中,通過對方志元數(shù)據(jù)拆分、合并等重構(gòu)工作,特別是對采集來的元數(shù)據(jù)中題名的拆分,使得原來合訂題名下的單部作品可以被快速定位,同時(shí)使得檢索結(jié)果的統(tǒng)計(jì)更加準(zhǔn)確。在整合后的方志元數(shù)據(jù)基礎(chǔ)上利用GIS工具,提供“時(shí)間軸”“地圖”等可視化的方式,為研究者提供可交互的數(shù)據(jù),即可展示某一地區(qū)的方志分布情況,以及某一時(shí)間段的方志成書情況。在整合的平臺(tái)上,引入眾包思想,利用大數(shù)據(jù)技術(shù)、文本分析技術(shù)對相應(yīng)的方志資源內(nèi)容進(jìn)行挖掘,為錯(cuò)誤的方志元數(shù)據(jù)提供修改、佐證的依據(jù)。
2.2整合方志元數(shù)據(jù)遇到的問題
方志元數(shù)據(jù)是描述方志資源的描述性數(shù)據(jù)。在20世紀(jì)初,計(jì)算機(jī)沒有普及應(yīng)用之前,志書的著錄信息主要是記錄在卡片、圖書等紙質(zhì)載體上的,是將眾多的方志目錄匯編成方志書目,例如朱士嘉先生編纂的《中國地方志綜錄》、張國淦的《中國古方志考》[18]。20世紀(jì)下半葉,隨著機(jī)讀目錄格式MARC的普及,方志元數(shù)據(jù)以CNMARC著錄存在于圖書館自動(dòng)化系統(tǒng)中。
20世紀(jì)末,DC元數(shù)據(jù)開始興起,我國科技部科技基礎(chǔ)性工作專項(xiàng)資金重大項(xiàng)目“我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)”參照DC的擴(kuò)展規(guī)則,制定了相關(guān)數(shù)字資源基本元數(shù)據(jù)規(guī)范和專門元數(shù)據(jù)規(guī)范,推出了“地方志描述元數(shù)據(jù)著錄規(guī)則”[19]。著錄規(guī)則的不同,導(dǎo)致元數(shù)據(jù)規(guī)范不一致。目前采集到的元數(shù)據(jù)來源于圖書館集成系統(tǒng)、圖書館自建庫、商業(yè)數(shù)據(jù)庫。其中圖書館集成系統(tǒng)中的方志元數(shù)據(jù)以MARC存儲(chǔ),由OPAC導(dǎo)出后,數(shù)據(jù)最為復(fù)雜;商業(yè)數(shù)據(jù)庫包括超星、愛如生、瀚堂等的方志,以及CADAL里的方志元數(shù)據(jù)多遵循地方志描述元數(shù)據(jù)著錄規(guī)則。除著錄規(guī)則不一致外,由于軟件系統(tǒng)的不同,也使得方志元數(shù)據(jù)不一致,具體有以下問題:
(1)元數(shù)據(jù)著錄不一致。例如OPAC導(dǎo)出的數(shù)據(jù)以O(shè)PAC“作者-Creator1”“作者-Creator2”“作者-Creator3”表示責(zé)任者;中國方志庫以“作者-修”、“作者-纂”表示責(zé)任者。
(2)元數(shù)據(jù)粒度不夠細(xì)致。以古籍文獻(xiàn)為核心描述對象的元數(shù)據(jù)規(guī)范,就單個(gè)元素的取值來看是非結(jié)構(gòu)化文本,粒度還不夠細(xì)致[20]。
(3)方志本身存在匯編的問題。匯編作品是指根據(jù)選題需要,在不改變原作品內(nèi)容的前提下,對其進(jìn)行編排以合集形式呈現(xiàn)的新作品[21]。當(dāng)單部作品作為匯編作品的部分存在時(shí),在編目時(shí)對匯編作品進(jìn)行集中著錄。很多方志是以匯編形式而存在,原有的編目無法直觀地表現(xiàn)單部作品與匯編作品關(guān)系。從匯編作品中提取單部方志作品,有利于加強(qiáng)對單部方志作品、責(zé)任者等實(shí)體的描述,更好地實(shí)現(xiàn)方志的查找、識(shí)別和選擇,同時(shí)有利于匯集方志所有作品的載體表現(xiàn)形式。
(4)數(shù)據(jù)重復(fù)。由于方志資源被多個(gè)系統(tǒng)或多個(gè)收藏單位收錄,在合并時(shí)肯定會(huì)存在數(shù)據(jù)重復(fù)問題。
(5)方志元數(shù)據(jù)著錄錯(cuò)誤。方志文獻(xiàn)浩如煙海,在后世史志中難免出現(xiàn)著錄錯(cuò)訛,包括由于地名改變導(dǎo)致的方志名稱著錄錯(cuò)誤、由于著作權(quán)歸屬存在爭議導(dǎo)致的方志纂修者姓氏著錄錯(cuò)誤、由于內(nèi)容增刪導(dǎo)致的方志卷數(shù)著錄錯(cuò)誤等[22]。
2.3整合方志元數(shù)據(jù)的方法
為了給人文研究學(xué)者提供單一的、資料完備的方志系統(tǒng),必須解決前文描述的方志元數(shù)據(jù)問題,包括元數(shù)據(jù)一致性、重復(fù)以及元數(shù)據(jù)粒度等。針對以上問題,項(xiàng)目組采取了一系列方法。首先從數(shù)據(jù)提供者處獲取數(shù)據(jù)。其中,對于商用數(shù)據(jù)庫,由于只要是學(xué)校購買過相關(guān)數(shù)據(jù)庫,則元數(shù)據(jù)是一致的,因此不需要從各個(gè)學(xué)校獲取元數(shù)據(jù);而對于華東師范大學(xué)、北京師范大學(xué)及上海師范大學(xué)等學(xué)校的方志元數(shù)據(jù),通過數(shù)據(jù)上傳的方式獲取不同來源的方志元數(shù)據(jù),并存入方志元數(shù)據(jù)庫中。然后根據(jù)需要對元數(shù)據(jù)進(jìn)行數(shù)據(jù)拆分、數(shù)據(jù)查重。最后將原有方志元數(shù)據(jù)映射到新的元數(shù)據(jù)方案上,并在整合后的元數(shù)據(jù)基礎(chǔ)上開發(fā)平臺(tái)提供統(tǒng)一檢索、GIS服務(wù)、全文瀏覽等功能。在項(xiàng)目初期,從華東師范大學(xué)圖書館、北京師范大學(xué)圖書館及上海師范大學(xué)圖書館收到的元數(shù)據(jù)記錄條數(shù)分別為44880、22183、15326條,而超星、CADAL、中國方志庫、瀚堂典籍庫及方正電子書的記錄數(shù)為9172、6300、3995、884、102條。通過拆分、合并,最終共采納了55037條方志元數(shù)據(jù)記錄[23]。
2.3.1選用新的元數(shù)據(jù)方案
在元數(shù)據(jù)處理之前,首先需要確定元數(shù)據(jù)方案。為改變原有的CNMARC格式著錄的方志元數(shù)據(jù)的繁瑣及DC格式著錄的方志元數(shù)據(jù)的復(fù)雜性,達(dá)到方志與外部數(shù)據(jù)的相互關(guān)聯(lián)、互操作的目的,項(xiàng)目組選用了美國國會(huì)圖書館的BIBFRAME書目數(shù)據(jù)格式。美國國會(huì)圖書館于2012年啟動(dòng)“書目框架轉(zhuǎn)換行動(dòng)”,開發(fā)BIBFRAME關(guān)聯(lián)數(shù)據(jù)模型、詞表、應(yīng)用綱要、編碼規(guī)范等以取代MARC,使其成為下一代圖書館數(shù)據(jù)格式,并于2017年6月在Library.Link發(fā)布[24]。目前上海圖書館已使用BIBFRAME書目數(shù)據(jù)將其家譜數(shù)據(jù)庫、古籍善本等發(fā)布為關(guān)聯(lián)數(shù)據(jù)[25-26]。BIBFRAME的核心書目數(shù)據(jù)模型是“作品(work)—實(shí)例(instance)—單件(item)”,作品反映了編目資源最本質(zhì)的特征,由作者、語言、和題名決定;實(shí)例與出版者、出版地點(diǎn)、出版時(shí)間、出版形式有關(guān),是作品的出版形態(tài);單件與存在的位置、書架、條形碼有關(guān),它決定了書的獲取方式[27]。表1是原有方志元數(shù)據(jù)與BIBFRAME書目數(shù)據(jù)模型的對應(yīng)關(guān)系。
2.3.2數(shù)據(jù)拆分
(1)“責(zé)任者+責(zé)任方式”的拆分。以O(shè)PAC導(dǎo)出的數(shù)據(jù)形式為例,方志元數(shù)據(jù)是以“責(zé)任者+責(zé)任方式”存儲(chǔ)責(zé)任者和責(zé)任方式。將“責(zé)任者+責(zé)任方式”分割,“責(zé)任者”“責(zé)任方式”單獨(dú)存儲(chǔ),可以準(zhǔn)確地展現(xiàn)責(zé)任者對于該古籍所負(fù)有的實(shí)際責(zé)任以及不同責(zé)任者之間的關(guān)系。地方志的著錄方式很復(fù)雜,參考相關(guān)文獻(xiàn)并使用詞頻統(tǒng)計(jì)軟件獲得著錄方式庫。表2列舉了一般的古籍著作方式,實(shí)際情況還有多種組合形式,如“編著”“編纂”“增修”“校注”等。
(2)匯編作品的拆分。方志匯編情況可以從其主題或附注兩個(gè)元數(shù)據(jù)字段里得知:主題字段表明的匯編作品,數(shù)據(jù)以志書分隔,提取單個(gè)題名放入增加的字段“題名—(RealTitle)處理后題名”分隔后提取最后一集的地名作為GIS的地,年號(hào)作為GIS的時(shí);附注字段表明的匯編作品,根據(jù)附注字段,將附注字段作為“題名—(RealTitle)處理后題名”存儲(chǔ)。
2.3.3數(shù)據(jù)查重
對方志元數(shù)據(jù)進(jìn)行拆分,還需要對方志元數(shù)據(jù)進(jìn)行查重。由于同一條記錄會(huì)被不同收藏單位或不同數(shù)據(jù)庫收錄,所以在整合元數(shù)據(jù)時(shí)需進(jìn)行查重。查重的原則是按照“CALIS書目號(hào)—ISBN+題名—題名+責(zé)任者+出版者+出版年”的順序進(jìn)行,即首先根據(jù)方志元數(shù)據(jù)CALIS書目號(hào),如果沒有CALIS書目號(hào),則根據(jù)“ISBN+題名號(hào)”查重,沒有則根據(jù)作品的“題名+責(zé)任者+出版者+出版年”查重。若出現(xiàn)匹配情況,則該記錄被認(rèn)為是重復(fù)記錄。對于重復(fù)記錄,選擇完整度高的記錄作為新記錄更新數(shù)據(jù)庫中的原記錄,根據(jù)實(shí)際情況,在館藏機(jī)構(gòu)或數(shù)據(jù)源里增加館藏或來源。如果都不匹配,則認(rèn)為該記錄與數(shù)據(jù)庫中記錄不重復(fù),該記錄會(huì)被插入數(shù)據(jù)庫中。
2.3.4數(shù)據(jù)映射
BIBFRAME是關(guān)聯(lián)數(shù)據(jù)模型,使用的是“資源-屬性-屬性值”三元組表達(dá)元數(shù)據(jù)的內(nèi)容,因此需要將原有的方志元數(shù)據(jù)轉(zhuǎn)換為新的元數(shù)據(jù)三元組,除了上述介紹的書目實(shí)體(work、instance、item),還有人、時(shí)、地、機(jī)構(gòu)等實(shí)體,這些都需要從方志元數(shù)據(jù)中提取,提取后賦予HTTPURI,為屬性賦值,描述實(shí)體與實(shí)體間的關(guān)聯(lián)關(guān)系,并以RDF序列化格式編碼,從而實(shí)現(xiàn)DC、CNMARC到BIBFRAME的轉(zhuǎn)換。
除了數(shù)據(jù)拆分、查重、映射外,整合的過程中還可對元數(shù)據(jù)進(jìn)行校正、修改,通過調(diào)用其他平臺(tái)的API接口達(dá)到直接取用其他資料庫數(shù)據(jù)的目的,從而實(shí)現(xiàn)與外部數(shù)據(jù)的互聯(lián)。例如通過調(diào)用“中國歷代人物傳記資料庫”與“上海圖書館人名規(guī)范庫”的接口,可以直接查詢方志責(zé)任者的生平及他的其他作品等情況。
3數(shù)字人文環(huán)境下異構(gòu)方志元數(shù)據(jù)整合策略
數(shù)字人文環(huán)境下,作為資料收集主要整理者的圖書館應(yīng)充分發(fā)揮自己的優(yōu)勢,將GIS、文本挖掘等技術(shù)應(yīng)用于資料的整理、收藏中。目前,項(xiàng)目組開發(fā)的異構(gòu)數(shù)字方志集成平臺(tái)已初步完成并已上線,從異構(gòu)元數(shù)據(jù)的整合、平臺(tái)的建設(shè)過程得到了以下幾點(diǎn)經(jīng)驗(yàn)。
3.1使用關(guān)聯(lián)書目元數(shù)據(jù)方案,實(shí)現(xiàn)方志與外部世界的互聯(lián)
關(guān)聯(lián)數(shù)據(jù)是第一種可行的語義網(wǎng)表達(dá)形式,它采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識(shí)符)命名數(shù)據(jù)實(shí)體來發(fā)布和部署實(shí)例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系以及有益于人機(jī)理解的語境信息。隨著語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)成為技術(shù)發(fā)展熱點(diǎn),新興的元數(shù)據(jù)標(biāo)準(zhǔn)開始更多地以萬維網(wǎng)聯(lián)盟開發(fā)的資源描述框架或網(wǎng)絡(luò)本體語言等格式發(fā)布,其中不乏面向書目應(yīng)用的詞表或本體,包括DublinCoreTerms+DublinCore(DC/DCT)、Schema.org、EuropeanaDataModel(EDM)Vocabulary、BIBFRAME[28]。書目數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)為基本數(shù)據(jù)模型,意味著書目數(shù)據(jù)不再像存儲(chǔ)于關(guān)系數(shù)據(jù)庫中的MARC數(shù)據(jù)那樣以記錄為單位,而是以更小粒度的數(shù)據(jù)為單位,每個(gè)數(shù)據(jù)單元都是獨(dú)立的存在,同時(shí)又可與其他數(shù)據(jù)單元建立可被機(jī)器理解的關(guān)聯(lián)關(guān)系,數(shù)據(jù)是相互關(guān)聯(lián)且富含語義的[29]。除了選用關(guān)聯(lián)書目數(shù)據(jù)方案,還可以通過調(diào)用其他平臺(tái)API共享其他平臺(tái)的資源。通過調(diào)用外部資源的API,不僅可以減少自己的重復(fù)工作,還可以實(shí)現(xiàn)與外部世界的互聯(lián),使得各內(nèi)容提供者不再孤立。
3.2最小粒度化方志元數(shù)據(jù),為人文學(xué)者研究提供支持
方志元數(shù)據(jù)的粒度不夠細(xì),如方志元數(shù)據(jù)的著作方式、成書朝代、年號(hào)、匯編作品等問題。為了更好地利用方志元數(shù)據(jù),建議將方志元數(shù)據(jù)以最小粒度化存儲(chǔ),將有利于方志最大價(jià)值的挖掘,為人文學(xué)者研究提供更好的支持:對于著作方式的拆分,可以發(fā)現(xiàn)不同責(zé)任者對于同一本書的不同貢獻(xiàn),進(jìn)而發(fā)現(xiàn)一本書從成書到現(xiàn)在這個(gè)歷史長河中在不同時(shí)期與不同責(zé)任者之間的關(guān)系,這對于人文學(xué)者研究方志的版本變化尤為重要;對于朝代、年號(hào)的拆分使得檢索的結(jié)果的統(tǒng)計(jì)、GIS地圖上的顯示更加的精確;對于匯編作品的拆分,按照“作品—實(shí)例—單件”模型展示,可以揭示作品間的關(guān)聯(lián)關(guān)系。
3.3提供開放平臺(tái),允許用戶編輯,與人文學(xué)者充分合作
由于方志的復(fù)雜性,例如成書者眾、古今地名變化等問題,使得方志元數(shù)據(jù)在著錄時(shí)不可避免地發(fā)生錯(cuò)誤,因此有必要對元數(shù)據(jù)進(jìn)行勘誤、考證,這需要專業(yè)的方志研究人員、史學(xué)家從不同側(cè)面對方志元數(shù)據(jù)進(jìn)行驗(yàn)證,以保證其準(zhǔn)確性。一方面,整合方志元數(shù)據(jù)后構(gòu)建的方志平臺(tái)以眾包的方式允許使用者修改元數(shù)據(jù)并提交證據(jù),并邀請專家對其進(jìn)行審校,采納后修改原來的方志元數(shù)據(jù)。對用戶開放、對用戶提供編輯入口,是一般數(shù)字人文系統(tǒng)常用的做法,例如臺(tái)灣歷史數(shù)位圖書館(THDL)允許用戶更正元數(shù)據(jù)、全文、人地名,管理小組不定期整理,采納后將新的數(shù)據(jù)更新于新版資料庫中;“萊比錫開放碎片文本序列LOFTS”項(xiàng)目專門邀請熟悉古典文獻(xiàn)學(xué)、計(jì)算語言學(xué)、文本傳播等相關(guān)領(lǐng)域的學(xué)者負(fù)責(zé)對“碎片文本編輯器”中的元數(shù)據(jù)進(jìn)行審校[30]。另一方面,雖然目前國內(nèi)不少圖書館在元數(shù)據(jù)標(biāo)準(zhǔn)制定、資源管理等方面有一定的經(jīng)驗(yàn),但是專業(yè)的人文社會(huì)科學(xué)研究者才是方志資源真正的使用者,他們對于方志資源整合的需求、元數(shù)據(jù)制定、方志資源的內(nèi)容分析更有發(fā)言權(quán),因此需要加強(qiáng)與人文學(xué)者的溝通,在充分合作的基礎(chǔ)上不斷建設(shè)、改進(jìn)數(shù)字方志元數(shù)據(jù)集成平臺(tái)。THDL就是臺(tái)灣大學(xué)數(shù)位人文研究中心與臺(tái)灣大學(xué)歷史系合作建設(shè)的一個(gè)臺(tái)灣古契約文書全文資料庫。
3.4使用數(shù)據(jù)挖掘、內(nèi)容分析技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的創(chuàng)建、修改
隨著數(shù)字人文學(xué)科的不斷發(fā)展,可以利用大數(shù)據(jù)、內(nèi)容分析技術(shù)為元數(shù)據(jù)的創(chuàng)建、修改提供幫助。原有的方志元數(shù)據(jù)的創(chuàng)建工作局限于個(gè)人整理、編目經(jīng)驗(yàn),不利于方志資源的發(fā)現(xiàn)及利用。數(shù)字人文時(shí)代,運(yùn)用文本挖掘技術(shù)、內(nèi)容分析方法,機(jī)器可以自動(dòng)從方志文本中蘊(yùn)含的事實(shí)、知識(shí)中統(tǒng)計(jì)、分析和推理等,從而實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)創(chuàng)建和校驗(yàn)。
4結(jié)語
本文探討了在數(shù)字人文環(huán)境下方志元數(shù)據(jù)的整合。整合方志元數(shù)據(jù)的目的是為了給人文學(xué)者提供統(tǒng)一的方志資源檢索、管理、大數(shù)據(jù)分析、可視化展示和智慧型服務(wù)的人文研究環(huán)境。方志元數(shù)據(jù)的整合,首先需要對方志元數(shù)據(jù)進(jìn)行清洗,這是一件較困難的工作。本文探究了方志元數(shù)據(jù)處理中最關(guān)鍵的如數(shù)據(jù)映射、部分元數(shù)據(jù)切分、匯編作品處理等的問題。但是仍然有其他問題尚未解決,例如方志元數(shù)據(jù)中古地名的問題,沒有完備的古今地名對照庫就無法將某些方志在地圖上正確地顯示,對于提出的“責(zé)任者+責(zé)任方式”拆分方法尚未考慮責(zé)任者姓名中本身含有責(zé)作方式的問題會(huì)造成方志歸屬不夠準(zhǔn)確。以上這些問題的解決,可通過引入眾包思想,由專家及用戶一起發(fā)現(xiàn)問題、修改問題;或可依賴文本分析技術(shù),從方志的全文中找到數(shù)據(jù)、事實(shí)實(shí)現(xiàn)對方志元數(shù)據(jù)的佐證、修改。目前,項(xiàng)目組只實(shí)現(xiàn)了方志元數(shù)據(jù)的處理、整合等,對部分方志全文的OCR識(shí)別、標(biāo)引和內(nèi)容挖掘,將是筆者下一步需要探討的。
數(shù)字經(jīng)濟(jì)論文范文:我國數(shù)字經(jīng)濟(jì)新常態(tài)發(fā)展現(xiàn)狀與思考
隨著大數(shù)據(jù)、云計(jì)算等新技術(shù)的不斷發(fā)展,數(shù)字經(jīng)濟(jì)起到了創(chuàng)新發(fā)展經(jīng)濟(jì)發(fā)展模式、推進(jìn)經(jīng)濟(jì)結(jié)構(gòu)轉(zhuǎn)型、促進(jìn)經(jīng)濟(jì)平穩(wěn)增長等作用,催生了許多新興互聯(lián)網(wǎng)企業(yè)。但同時(shí),數(shù)字經(jīng)濟(jì)仍然面臨著來自發(fā)展理念、監(jiān)管機(jī)制、法律保障、金融風(fēng)險(xiǎn)等多個(gè)層次的挑戰(zhàn)。
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/21733.html