本文摘要:摘要為切實(shí)推動口述歷史檔案資源深度開發(fā),本文綜合運(yùn)用本體、知識圖譜等技術(shù)方法,從數(shù)據(jù)資源層、知識組織層、知識關(guān)聯(lián)層、知識發(fā)現(xiàn)層四個維度架構(gòu)數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型,從理論建構(gòu)和應(yīng)用探索雙重視角指導(dǎo)并推進(jìn)與口述歷史檔案資源關(guān)聯(lián)的人、
摘要為切實(shí)推動口述歷史檔案資源深度開發(fā),本文綜合運(yùn)用本體、知識圖譜等技術(shù)方法,從數(shù)據(jù)資源層、知識組織層、知識關(guān)聯(lián)層、知識發(fā)現(xiàn)層四個維度架構(gòu)數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型,從理論建構(gòu)和應(yīng)用探索雙重視角指導(dǎo)并推進(jìn)與口述歷史檔案資源關(guān)聯(lián)的人、地、時、事等內(nèi)容特征及相互關(guān)系的可視化展示與挖掘,不僅為口述歷史檔案資源知識發(fā)現(xiàn)具體實(shí)施提供了可操作性框架參考,也有利于創(chuàng)新口述歷史檔案資源知識發(fā)現(xiàn)路徑。
關(guān)鍵詞數(shù)字人文口述歷史檔案資源知識發(fā)現(xiàn)
0引言
加大對口述歷史檔案資源的開發(fā)利用力度,深入挖掘口述歷史檔案信息,積極開展口述歷史檔案工作,將有助于推動檔案事業(yè)發(fā)展,導(dǎo)引社會經(jīng)濟(jì)建設(shè)進(jìn)步。我國隱藏著巨量珍貴的口述歷史檔案資源,伴隨“數(shù)字”引領(lǐng)文化空間的轉(zhuǎn)型,身處數(shù)字化環(huán)境的人們對口述歷史檔案資源的知識發(fā)現(xiàn)需求也愈加強(qiáng)烈。新一代技術(shù)空前活躍,前沿性技術(shù)、顛覆性技術(shù)不斷涌現(xiàn),催生新的數(shù)字技術(shù),助力業(yè)態(tài)深度調(diào)整。技術(shù)的更迭帶來的數(shù)據(jù)和信息爆炸式增長,致使信息過載干擾阻礙著用戶信息選擇和知識獲取。
如何借由知識組織、關(guān)聯(lián)及聚合為口述歷史檔案資源拾遺補(bǔ)闕,從存量及增量口述歷史檔案資源中發(fā)現(xiàn)有價值的信息,發(fā)掘潛藏在口述歷史檔案資源內(nèi)部的隱性信息,實(shí)現(xiàn)數(shù)字技術(shù)與口述歷史檔案資源的最佳契合,助力口述歷史檔案資源多維知識發(fā)現(xiàn),探討數(shù)字與檔案在互動共生中的新型研究范式轉(zhuǎn)變和思維創(chuàng)新,是當(dāng)下及未來人文領(lǐng)域研究焦點(diǎn)之一。簡言之,數(shù)字人文與口述歷史檔案資源的融合,將驅(qū)動“數(shù)字”與“人文”共生,語義化、關(guān)聯(lián)化、可視化、智能化是數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)研究的應(yīng)然之勢。
1文獻(xiàn)綜述
伴隨大數(shù)據(jù)、數(shù)字人文與檔案資源交叉融合,技術(shù)方法開始尋求在口述歷史檔案領(lǐng)域的棲息地,為口述歷史檔案研究提供工具切入點(diǎn),改善口述歷史檔案資源形態(tài),并為最終實(shí)現(xiàn)知識發(fā)現(xiàn)提供前景預(yù)判。知識發(fā)現(xiàn)緣起于20世紀(jì)90年代美國底特律召開的第一屆數(shù)據(jù)挖掘研討會,會中首次使用了“數(shù)據(jù)中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinData,KDD)”一詞,隨后有關(guān)知識發(fā)現(xiàn)的相關(guān)理念與方法研究被廣泛應(yīng)用到各領(lǐng)域以探求新穎有用的知識。
知識發(fā)現(xiàn)在各領(lǐng)域的應(yīng)用和發(fā)展能為檔案資源知識發(fā)現(xiàn)提供參考支持。為創(chuàng)新世界記憶遺產(chǎn)文化傳承,李建偉構(gòu)建了口述梅州僑批史料數(shù)字倉儲系統(tǒng),從發(fā)現(xiàn)視角實(shí)現(xiàn)口述歷史檔案資源標(biāo)引加工、知識揭示與主題索引,提取關(guān)聯(lián)內(nèi)容,如某個有價值的故事情節(jié)、數(shù)據(jù)、場景等,根據(jù)這些線索從海量數(shù)據(jù)庫聚合更多主題相似的數(shù)據(jù)。[1]Wolduk對口述歷史檔案資源知識發(fā)現(xiàn)過程原理進(jìn)行了概要介紹。[2]
Pattuelli討論了文化遺產(chǎn)鏈接數(shù)據(jù)的生成、處理和集成過程,并以口述歷史檔案為鏈接數(shù)據(jù)命名實(shí)體的主要來源,描述了數(shù)據(jù)開發(fā)過程本身如何為遺產(chǎn)數(shù)據(jù)查詢和接觸路徑。[3]然而現(xiàn)階段,有關(guān)口述歷史檔案資源的知識發(fā)現(xiàn)研究鮮少,缺乏完整的模型框架予以系統(tǒng)指導(dǎo)。
一方面,口述歷史檔案資源呈現(xiàn)方式仍以簡單檢索、全文呈現(xiàn)為主,傳統(tǒng)的館藏資源貯存思維、手動查閱檢索以及分類歸檔等陳舊手段已不能滿足數(shù)字人文發(fā)展需要;另一方面,現(xiàn)有的口述歷史檔案資源數(shù)據(jù)庫無法揭示口述歷史檔案內(nèi)在本質(zhì)屬性和知識復(fù)雜關(guān)系,難以實(shí)現(xiàn)不同語義層面的口述歷史檔案資源細(xì)粒度組織關(guān)聯(lián),滯礙口述歷史檔案資源價值有效發(fā)揮。
基于此,本文將數(shù)字人文理念、技術(shù)方法與口述歷史檔案相關(guān)理論結(jié)合,架構(gòu)數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型,從理論和實(shí)踐雙重視角助力資源深入揭示與深度挖掘是知識發(fā)現(xiàn)領(lǐng)域研究有益的新嘗試,也是口述歷史檔案資源價值實(shí)現(xiàn)的源動力,不僅有助于豐富檔案學(xué)相關(guān)理論知識,而且有利于推進(jìn)數(shù)字人文技術(shù)方法在檔案學(xué)研究中的應(yīng)用,為口述歷史檔案領(lǐng)域研究者及相關(guān)領(lǐng)域?qū)W者提供參考與指導(dǎo)。
2數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型構(gòu)建
數(shù)字人文在一定程度上凝合了數(shù)據(jù)化知識資源的序化和人文社科新知識的生產(chǎn)過程,可望促成口述歷史檔案資源知識發(fā)現(xiàn)而萌發(fā)出新的學(xué)科生長點(diǎn)。[4]
為順應(yīng)數(shù)字時代發(fā)展新要求,尋求“數(shù)字人文”與“口述歷史檔案資源”知識發(fā)現(xiàn)研究的組配可能性,筆者以新視角“切入”口述歷史檔案研究,提出數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)邏輯框架構(gòu)想,以期解決口述歷史檔案資源知識“靜置”、思維“困囿”、技術(shù)“遲滯”等問題。從層次結(jié)構(gòu)看,該模型為四層應(yīng)用框架,概覽了整個口述歷史檔案資源知識發(fā)現(xiàn)過程以及所需技術(shù)工具;從功能角度而言,涵蓋數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、知識序化、知識表示、知識生成、知識挖掘、評估反饋。
2.1數(shù)據(jù)資源層
數(shù)據(jù)資源層即口述歷史檔案數(shù)據(jù)來源,如手稿、日記、文本、照片、音頻、視頻、網(wǎng)站、數(shù)據(jù)庫等,源自對散落資源的征集整合以及館藏資源的館際互聯(lián)[5],可以為后續(xù)知識組織、關(guān)聯(lián)與發(fā)現(xiàn)提供資源保障。在此過程中,數(shù)據(jù)獲取功能必須解決用戶無法獲取數(shù)據(jù)描述的底層邏輯問題,通?山柚W(wǎng)絡(luò)爬蟲或公開API等技術(shù)方法提取有價值的口述歷史檔案數(shù)據(jù)信息。[6]同樣,沒有高質(zhì)量和精準(zhǔn)的數(shù)據(jù)就不會有高效率的知識發(fā)現(xiàn)過程和良好的知識發(fā)現(xiàn)結(jié)果,因而數(shù)據(jù)預(yù)處理功能可以避免不恰當(dāng)數(shù)據(jù)或錯誤數(shù)據(jù)集合的引入而導(dǎo)致知識發(fā)現(xiàn)準(zhǔn)確率降低(人工+自動剔除),是保障口述歷史檔案數(shù)據(jù)質(zhì)量的關(guān)鍵。
2.2知識組織層
知識組織層即構(gòu)建口述歷史檔案資源本體。與其他檔案資源不同,口述歷史檔案資源內(nèi)容龐雜,涉獵廣泛,預(yù)處理后的口述歷史檔案資源尚不能達(dá)到 知識發(fā)現(xiàn)基本要求,內(nèi)部信息揭示程度不夠,不同的數(shù)字化成果間缺乏統(tǒng)一標(biāo)準(zhǔn),易造成信息孤島現(xiàn)象,不能完整反映資源間錯綜復(fù)雜的聯(lián)系。如何有效地進(jìn)行資源描述、組織和標(biāo)引,知識序化功能至關(guān)重要,即對處于離散分布狀態(tài)的口述歷史檔案資源結(jié)構(gòu)序化。
同時,借由知識表示功能完成口述歷史檔案內(nèi)容的形式化表達(dá),清晰揭示語義內(nèi)容,去除異構(gòu)數(shù)據(jù)鴻溝,為深度關(guān)聯(lián)與聚合提供結(jié)構(gòu)基礎(chǔ),實(shí)現(xiàn)數(shù)據(jù)在不同應(yīng)用之間順暢交換、跨越資源類型藩籬、在組織層面實(shí)現(xiàn)知識融合。[7]即一方面可復(fù)用檔案領(lǐng)域本體,并在此基礎(chǔ)上補(bǔ)充元素加以改進(jìn);另一方面須自建本體,包含元數(shù)據(jù)標(biāo)準(zhǔn)選擇[可參考口述歷史電子檔案元數(shù)據(jù)方案(DA/T —2015)和通用元數(shù)據(jù)標(biāo)準(zhǔn)],元數(shù)據(jù)抽取,術(shù)語詞表構(gòu)建,確認(rèn)類的等級體系,定義類和屬性,充實(shí)、修正本體,模型轉(zhuǎn)換等步驟。[8]
值得注意的是,在此過程中,元數(shù)據(jù)是每個層次上升的粘合劑[9],是口述歷史檔案資源序化的必要手段,可揭示復(fù)雜概念及邏輯關(guān)系。同時,僅有概念化的模型只是紙上談兵,因此,還需要通過知識生成功能(借助Apollo、OILEd、OntoEdit、OntoSaurus、Protg、WebODE等工具)實(shí)現(xiàn)口述歷史檔案資源本體可視化輸出,可視化工具如OntoGraf、Graphviz、Owl-Editor等。
2.3知識關(guān)聯(lián)層
知識關(guān)聯(lián)層即構(gòu)建口述歷史檔案資源知識圖譜。作為一種“橋接”實(shí)踐,圖數(shù)據(jù)庫靈活的圖模式及固有的知識生成與挖掘功能支持知識存儲、人文傳播、歷史陳述、知識探索。[10]于口述歷史檔案資源而言,圖數(shù)據(jù)庫起到了起承轉(zhuǎn)合的嫁接作用,不僅是與口述歷史檔案資源本體映射鏈接的結(jié)構(gòu)工具,也是口述歷史檔案資源知識圖譜的存儲與繪制工具。
知識圖譜是口述歷史檔案資源高效利用及細(xì)粒度信息呈現(xiàn)并實(shí)現(xiàn)語義關(guān)聯(lián)和可視化展示的有效途徑,主要包括模式層和數(shù)據(jù)層架構(gòu),可視化工具如關(guān)系型數(shù)據(jù)庫(如Oracle、DB2、MySQL)和非關(guān)系型數(shù)據(jù)庫(如NoSQL、Neo4j、GraphDB),可實(shí)現(xiàn)口述歷史檔案資源知識單元向知識網(wǎng)絡(luò)的升華?梢哉f,知識圖譜通過冰冷枯燥的數(shù)據(jù)將鮮活豐滿的口述歷史檔案資源存儲并呈現(xiàn),一端是高價值的數(shù)據(jù)結(jié)構(gòu),另一端是有溫度的人文資源,更好地實(shí)現(xiàn)了“機(jī)器可讀—資源存儲”,為充分挖掘資源價值及發(fā)揮資源效用奠定了基礎(chǔ)。
2.4知識發(fā)現(xiàn)層
知識發(fā)現(xiàn)層即基于知識圖譜展開多維細(xì)粒度知識發(fā)現(xiàn)研究。挖掘功能是知識發(fā)現(xiàn)的終極目標(biāo),傳統(tǒng)知識發(fā)現(xiàn)模式下,用戶在瀏覽與檢索口述歷史檔案資源時,難以將紛繁、復(fù)雜的不同類別口述歷史檔案資源串聯(lián)起來。數(shù)字人文視域下,知識圖譜為口述歷史檔案資源知識發(fā)現(xiàn)提供了可能。
一方面,知識圖譜采用圖模型描述知識關(guān)系,除共現(xiàn)關(guān)系外,還可以自主定義更多復(fù)雜的語義關(guān)系,如口述過程中提及的親屬關(guān)系、上下級關(guān)系、師生關(guān)系等;另一方面,知識圖譜還提供了更為先進(jìn)的挖掘算法(如知識推理),可以實(shí)現(xiàn)任意長度的關(guān)聯(lián)路徑分析,通過Cypher查詢檢索工具實(shí)現(xiàn)與口述歷史檔案資源相關(guān)的人、事、地、時等基礎(chǔ)要素的聚合展示與知識挖掘,發(fā)現(xiàn)更多潛藏關(guān)系:或者是社會網(wǎng)絡(luò)關(guān)系,能深入挖掘人物信息;或者是時空關(guān)系,能判別人物遷移軌跡;抑或是事件主題關(guān)系,梳理歷史事件信息,進(jìn)而串聯(lián)成知識網(wǎng)絡(luò),實(shí)現(xiàn)資源多維互聯(lián)。
值得注意的是,口述歷史檔案資源知識發(fā)現(xiàn)過程不是靜態(tài)凝固的,而是動態(tài)循環(huán)、反復(fù)求精的過程,因此,評估反饋功能貫穿始終。當(dāng)知識發(fā)現(xiàn)結(jié)果不理想的時候,可以循環(huán)到前續(xù)階段進(jìn)行調(diào)試與優(yōu)化,或調(diào)整查詢語句,或規(guī)劃新路徑,以進(jìn)一步獲得更為準(zhǔn)確和符合口述歷史檔案資源知識發(fā)現(xiàn)需求結(jié)果。
3口述歷史檔案資源知識發(fā)現(xiàn)模型
主要模塊可視化以知識組織、知識關(guān)聯(lián)和知識發(fā)現(xiàn)為核心的口述歷史檔案資源知識發(fā)現(xiàn)過程至關(guān)重要。在對本文提出的數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型層次和功能進(jìn)行剖析后,此部分將深入解構(gòu)三個模塊,引入南京師范大學(xué)抗戰(zhàn)老兵口述資料中心數(shù)據(jù)源進(jìn)行實(shí)例可視化展示。
3.1口述歷史檔案資源本體可視化
參照口述歷史電子檔案元數(shù)據(jù)方案(DA/T—2015)和通用元數(shù)據(jù)標(biāo)準(zhǔn),依據(jù)實(shí)驗(yàn)數(shù)據(jù)源,整合與人物關(guān)聯(lián)的信息(如姓名、性別、語言、國籍、籍貫、民族、黨派等),建立人物(Person)類;將不同的人物角色(采訪者、口述者、發(fā)布者)聚合,建立角色(Role)類;將開始時間、結(jié)束時間以及時間信息劃歸為時間(Time)類;任職經(jīng)歷(WorkExperience)類包含單位和職位兩個子類;地點(diǎn)(Place)類設(shè)置國家(Country)子類;事件(Event)類包含與之相關(guān)的事件開始時間、事件結(jié)束時間、事件名、事件地點(diǎn)等屬性;項(xiàng)目(Project)類下設(shè)摘要、標(biāo)題、鏈接、資源大小、資源格式、資源類型、網(wǎng)頁發(fā)布時間、發(fā)布時長等屬性;身份(Identity)類定義領(lǐng)域內(nèi)身份信息;權(quán)限(Rights)類包含版權(quán)(Copyright)屬性;設(shè)備(Device)類添加設(shè)備制造商、設(shè)備型號、軟件信息等屬性。借助ProtégéOntograph對上述十個大類及屬性予以可視化展示。
3.2口述歷史檔案資源知識圖譜可視化
本體通過對口述歷史檔案知識抽離及重組,實(shí)現(xiàn)了領(lǐng)域知識的規(guī)范化描述。由于本體的類、屬性、關(guān)系的知識組織方式與知識圖譜的節(jié)點(diǎn)、邊結(jié)構(gòu)并不匹配,故而需要將口述歷史檔案資源本體解析為RDF三元組這一更具有通用價值的數(shù)據(jù)鏈接方式,完成與圖數(shù)據(jù)庫的映射,從而為后續(xù)口述歷史檔案資源知識圖譜構(gòu)建及深層發(fā)現(xiàn)提供清晰思路。
為直觀展示口述歷史檔案資源本體解析的效果,將三元組以RDF圖形式進(jìn)行組織。以Person類和Project類之間的參與對象屬性為例,“參與”這一對象屬性在三元組(participate_in,rdf:type,owl:ObjectProperty)中為主語,表示的含義為“participate_in”是對象屬性,在RDF圖中作為節(jié)點(diǎn),而在另一三元組(Person,participate_in,Project)中又作為謂語,表示的是人物“參與(participate_in)”項(xiàng)目。圖4是以Person類為例進(jìn)行本體解析后得到的部分RDF圖,橢圓表示主語和賓語實(shí)體,方框表示數(shù)據(jù),分別展示了Person、Role類,Interviewer、Interviewee、Publisher子類,interview、date_of_birth、native_place、has_role對象屬性、language數(shù)據(jù)屬性以及口述者“吳顯光”人物實(shí)例之間的關(guān)聯(lián)。
3.3口述歷史檔案資源知識發(fā)現(xiàn)結(jié)果可視化
如果說本體是概念化的知識單元,那么知識圖譜就是實(shí)際化的知識網(wǎng)格,能為解決如何關(guān)聯(lián)、聚合口述歷史檔案資源并將其內(nèi)部事實(shí)進(jìn)行細(xì)粒度知識發(fā)現(xiàn)提供新路徑[11],通過對口述歷史檔案資源聚類分析,從中識別潛藏信息是口述歷史檔案資源知識發(fā)現(xiàn)的目標(biāo)。本文以我國十大元帥之一的陳毅將軍為例,以“MATCH(p1:person{person_name:“陳毅”})-[r]-(p2)WHERENOT(p1)-[:interview|:superior|:introducer_to_the_Party]-(p2)RETURNp1,r,p2”語句調(diào)取人物知識圖譜進(jìn)行browser可視化展示。
由此發(fā)現(xiàn),在本文數(shù)據(jù)源中,該圖譜以陳毅為核心起點(diǎn),包含與之關(guān)聯(lián)的人物19人,人物關(guān)系9種:親戚(relative)關(guān)系、夫妻(husbandandwife)關(guān)系、父子(fatherandson)關(guān)系、父女(fatheranddaughter)關(guān)系、姐弟(sisterandbrother)關(guān)系、上級(superior)關(guān)系、姐妹(sister)關(guān)系、兄妹(brotherandsister)關(guān)系、叔侄(paternaluncleandnephew)關(guān)系。除了獲取與陳毅直接相關(guān)的語義信息(即其妻子張茜、兒女陳丹淮、陳昊蘇、陳小魯、陳珊珊)外,我們還發(fā)現(xiàn) 其下屬包括何克希、羅炳輝、張?jiān)埔、譚震林、洪學(xué)智、呂惠生、陳丕顯、吳強(qiáng)、孫湘、馮定、劉子久、黨云芳、劉玉柱、崔鳳閣。
并且,何克希、羅炳輝、張?jiān)埔、譚震林四人還存在上下級關(guān)系閉環(huán)。與此同時,關(guān)聯(lián)人物的籍貫地、現(xiàn)居地信息(分散至廣東省、山東省、云南省、四川省、湖南省、安徽省等)也隨之揭示,例如,黨云芳的籍貫地是棗莊,崔鳳閣的現(xiàn)居地是華州市,均位于山東省?梢哉f,知識圖譜線上標(biāo)識的屬性關(guān)系可以幫助用戶清晰可見語義關(guān)聯(lián)信息,有效拓展了口述歷史檔案數(shù)據(jù)邊界,豐富了口述歷史檔案資源知識發(fā)現(xiàn)方法體系。
由于數(shù)據(jù)源的局限性,該人物圖譜僅實(shí)現(xiàn)了與陳毅關(guān)聯(lián)的人物社會網(wǎng)絡(luò)關(guān)系和時空網(wǎng)絡(luò)關(guān)系揭示,未實(shí)現(xiàn)大范圍知識互聯(lián)。但是我們已經(jīng)能夠證實(shí),基于知識圖譜的人物社會網(wǎng)絡(luò)關(guān)系互聯(lián)可以為人物關(guān)系深入探討提供重要參考。未來,可以以此為切入點(diǎn),結(jié)合百科類知識圖譜、家譜等,擴(kuò)充數(shù)據(jù)來源,繼續(xù)豐富和充實(shí)抗戰(zhàn)時期人物知識圖譜,以更全面的視角審視人物關(guān)系,并通過調(diào)取事件、項(xiàng)目信息等,進(jìn)一步展現(xiàn)事件主題關(guān)系、項(xiàng)目主題信息等知識發(fā)現(xiàn)內(nèi)容。
4結(jié)語
不管是傳統(tǒng)的知識發(fā)現(xiàn)研究還是數(shù)字人文視域下的知識發(fā)現(xiàn)研究,新一代技術(shù)推助的“數(shù)字人文”熱潮,帶來的不僅僅是數(shù)據(jù)生產(chǎn)與處理能力的增強(qiáng),同時,技術(shù)驅(qū)動也正在成為口述歷史檔案資源知識發(fā)現(xiàn)的核心動能?傮w而言,本文充分融合領(lǐng)域相關(guān)知識。
結(jié)合口述歷史檔案資源屬性和特征,架構(gòu)數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型,引入實(shí)驗(yàn)數(shù)據(jù)源對主要模塊進(jìn)行可視化展示,從理論和實(shí)踐層面回答并解決了口述歷史檔案資源知識發(fā)現(xiàn)“做什么”和“如何做”的問題,有助于深入揭示口述歷史檔案資源,優(yōu)化口述歷史檔案資源粒度,拓展口述歷史檔案資源服務(wù)空間,為實(shí)現(xiàn)口述歷史檔案資源語義化組織、可視化關(guān)聯(lián)、語義查詢以及多維知識發(fā)現(xiàn)提供了新路徑。細(xì)化而言,從人文計算到數(shù)字人文,概念的更迭反映出技術(shù)環(huán)境對研究范式的深刻影響,特別是以數(shù)字化記錄、管理、傳播與交流為代表的數(shù)字技術(shù)對人文研究發(fā)展意義深遠(yuǎn),數(shù)字人文為口述歷史檔案知識發(fā)現(xiàn)研究帶來新視野。
(1)資源獲取方式變革?谑鰵v史檔案資源普具豐富性、多樣性與繁雜性等特點(diǎn),傳統(tǒng)資源采集方式較為煩瑣且以人工采集居多,難以應(yīng)對卷帙浩繁的海量資源,無法對其進(jìn)行細(xì)化規(guī)整、提升資源獲取效率與資源獲取便利性,因此,數(shù)字人文技術(shù)方法的注入能為口述歷史檔案資源獲取方式開拓新思路,輔助人文研究走向深層次、多維度開發(fā)。[12]
(2)組織存儲方式變革。數(shù)字人文背景下,技術(shù)的革新為口述歷史檔案資源組織存儲帶來契機(jī),主要體現(xiàn)為對海量資源進(jìn)行“數(shù)字化”處理,即通過數(shù)字化技術(shù)實(shí)現(xiàn)口述歷史檔案資源數(shù)字化存儲與利用,借助本體、知識圖譜等代表性數(shù)字人文技術(shù)方法實(shí)現(xiàn)了口述歷史檔案資源組織、存儲、關(guān)聯(lián)、查詢及利用,極大提升了口述歷史檔案資源共享性,加速了口述歷史檔案資源深度開發(fā)。
(3)內(nèi)容深度變革。內(nèi)容深度、廣度、豐富度、細(xì)粒度始終是口述歷史檔案資源知識發(fā)現(xiàn)研究不可或缺的重要組成部分。在數(shù)字人文研究背景下,對口述歷史檔案資源知識發(fā)現(xiàn)進(jìn)行深入研究,有助于構(gòu)建資源互關(guān)聯(lián)、多維度、多梯次的資源體系,有助于推動口述歷史檔案資源間不同實(shí)體、屬性、關(guān)系的知識挖掘,形成集事件、主題、人物、時間、空間等相關(guān)關(guān)系為一體的晶格立體化知識網(wǎng)絡(luò)[13],將復(fù)雜的社會關(guān)系予以呈現(xiàn),深度挖掘關(guān)聯(lián)信息。
(4)資源展示變革。傳統(tǒng)的口述歷史檔案資源呈現(xiàn)形式以扁平化圖文聲像為主,用戶難以體會到虛擬環(huán)境帶來的環(huán)境沉浸感與人機(jī)交互的快感,可視化技術(shù)的“加持”能賦予口述歷史檔案資源空間感和立體感,有助于拓展口述歷史檔案資源傳播深度、廣度與維度。如Ontograph、browser等可視化技術(shù)能從標(biāo)簽注釋、圖譜線上關(guān)系等渠道增強(qiáng)藝術(shù)人文,實(shí)現(xiàn)口述歷史檔案資源立體化、多模態(tài)呈現(xiàn),打造知識動態(tài)交互空間。
綜上所述,以數(shù)字媒介和人工智能為基礎(chǔ)的口述歷史檔案資源業(yè)態(tài)和知識體系正日見雛形,“數(shù)字”為“人文”加速前行起到了“如虎添翼”的作用,數(shù)字人文已然成為口述歷史檔案資源知識發(fā)現(xiàn)研究的中堅(jiān)力量。本文構(gòu)建的數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型,不僅豐富了多元學(xué)科理論與方法,能為檔案領(lǐng)域?qū)W者深度開發(fā)口述歷史檔案資源提供參考,并且對推進(jìn)國家檔案文化遺產(chǎn)數(shù)字化進(jìn)程具有一定應(yīng)用價值。相信在“數(shù)字驅(qū)動+知識發(fā)現(xiàn)”的催化作用下,口述歷史檔案資源知識發(fā)現(xiàn)研究必將煥發(fā)蓬勃生機(jī)。
注 釋 及 參 考 文 獻(xiàn)
[1] 李建偉.口述客家僑批選題規(guī)劃與資源開發(fā)探索[J].檔案學(xué)研究,2018(4):43-48.
[2] Wolduk,Kim.ApproachtoOralStorytellingResourcesforCulturalContents-intheCaseofJeonbukProvince[J].KoreanLanguage&Literature,2014,91:89-114.
[3] PattuelliMC,HwangK,MillerM.AccidentalDiscovery,IntentionalInquiry:LeveragingLinkedDatatoUncovertheWomenofJazz[J].Literary&LinguisticComputing,2017(4):918-924.
[4] 周文杰.知識資源的序化與數(shù)字人文的結(jié)構(gòu)化知識資源基礎(chǔ)—基于知識地圖和認(rèn)知結(jié)構(gòu)學(xué)說的解析[J].情報資料工作,2020(6):79-87.
[5] 趙善棟.信息時代區(qū)域檔案資源共享問題與對策[J].蘭臺世界,2021(1):109-111.
[6] 張成麗.數(shù)字人文觀念在圖書館數(shù)據(jù)中的應(yīng)用[J].山西檔案,2019(2):106-108.
[7] 張磊,賀晨芝,趙亮.面向數(shù)據(jù)與知識服務(wù)的第三代圖書館服務(wù)平臺[J].國家圖書館學(xué)刊,2018(6):40-47.
作者:鄧 君 王 阮
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/29649.html