本文摘要:摘要:[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實體的檢索與知識挖掘的人文知識庫構(gòu)建方法。[方法/過程]以《資治通鑒周秦漢紀》為例,對68卷60萬字的文本自動分詞與詞性標注之后,人工標注文本中的人物、地點GIS、時間等實體信息,實現(xiàn)基于詞和實體的全文檢索和地圖檢索系統(tǒng);
摘要:[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實體的檢索與知識挖掘的人文知識庫構(gòu)建方法。[方法/過程]以《資治通鑒·周秦漢紀》為例,對68卷60萬字的文本自動分詞與詞性標注之后,人工標注文本中的人物、地點GIS、時間等實體信息,實現(xiàn)基于詞和實體的全文檢索和地圖檢索系統(tǒng);利用同現(xiàn)信息,統(tǒng)計出人物關(guān)系與人物游歷信息;進而使用TFIDF方法,通過時間序列分析,挖掘出多事之秋、風云人物、風云之地等結(jié)果。[結(jié)果/結(jié)論]基于詞和實體的深度信息標注,能夠解決缺乏詞界、同名異指和異名同指的檢索難題,更可以為古籍多角度的知識發(fā)掘與知識服務(wù)提供基礎(chǔ)支撐。
關(guān)鍵詞:《資治通鑒》數(shù)字人文知識挖掘古籍檢索古文信息處理
1引言
中國的古籍文獻數(shù)量龐大、包羅萬象,是研究中國的語言、文學、歷史、文化等方面的寶藏。上世紀末以來,古籍的電子化和基于字的全文檢索系統(tǒng)已經(jīng)取得了許多重大進展,形成了一大批可用的電子數(shù)據(jù)庫[1]。而隨著數(shù)字人文技術(shù)的興起[2],國際史學界已經(jīng)開始從紙質(zhì)文獻的文字歷史敘述轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化歷史數(shù)據(jù)庫。
希羅多德的歷史數(shù)據(jù)庫[3]和中國歷史人物傳記數(shù)據(jù)庫(CBDB)[4]都嘗試把歷史的要素,諸如時間、人物、地點進行詳細的描述與關(guān)聯(lián),形成可檢索、可視化的歷史數(shù)據(jù)平臺。既可以作為學術(shù)研究的基礎(chǔ)平臺,又可以作為科普的窗口,用戶不需具備專家級的古典文獻的閱讀能力與豐富的歷史知識便可以使用,大大便利了學術(shù)研究,特別是跨學科研究[5]。
目前,這種中國古籍的數(shù)據(jù)庫的構(gòu)建和應(yīng)用仍存在三大問題亟待解決:
①中國古籍要從字檢索走向詞檢索。由于古漢語沒有詞語邊界,要實現(xiàn)類似于英語的詞檢索功能,則必須進行詞語的切分。例如,基于詞檢索“軍”時,只應(yīng)該出現(xiàn)“軍”作為一個詞的上下文,而不應(yīng)該出現(xiàn)“將軍”“護軍”等結(jié)果。②從專名標引走向?qū)嶓w標注。不少經(jīng)典古籍已經(jīng)人工標引了人名、地名、書名等專名(專有名詞),但是僅依靠橫線和波浪線兩種符號難以區(qū)分出不同類型的專名,更難以解決同名異指(如多個事物名稱相同)和異名同指(如一個人物多個名稱)問題。
例如,檢索“秦始皇”這個人物時,不僅要包含“秦始皇”這個字符串的上下文,還應(yīng)該得到這個人物的所有上下文,包括“嬴政”“!政”等。因而,全面梳理各種不同的人物、地點、時間等專名對應(yīng)的實體信息,并在文本中標明每個實體的唯一代號,才能夠滿足后續(xù)細致的檢索和統(tǒng)計需要。③從全文檢索走向知識挖掘與可視化呈現(xiàn)。現(xiàn)有的檢索平臺大都只提供基于字的檢索結(jié)果,而在人物、地點、時間等實體要素進行標注之后,可以借助數(shù)據(jù)挖掘技術(shù),發(fā)掘出實體之間的關(guān)聯(lián)關(guān)系,再通過可視化方法直觀地展現(xiàn)出來。
因此,需要探索能夠?qū)崿F(xiàn)基于詞和實體的檢索與知識挖掘的人文知識庫構(gòu)建方法。本研究以文史價值極高的《資治通鑒·周秦漢紀》作為樣本,構(gòu)建數(shù)字人文知識庫和檢索系統(tǒng)。為了解決傳統(tǒng)的基于字符串的全文檢索存在的問題,將文本進行了分詞與詞性標注,從而實現(xiàn)基于詞的全文檢索。然后,進一步標注人物、地點的實體信息,并根據(jù)這些信息,借助可視化等技術(shù),構(gòu)建《資治通鑒》數(shù)字人文檢索系統(tǒng)。在此基礎(chǔ)之上,對人物、地點實體以及詞匯進行計量與數(shù)據(jù)挖掘,給人文學者提供一個突破傳統(tǒng)研究路徑的更加高效的古籍信息加工框架與深度開發(fā)路徑。
2研究現(xiàn)狀
《資治通鑒》以編年體方式記載了公元前403年至公元959年的歷史,是一部史學與文學價值極高的典籍,其研究多集中于版本、點校、注疏和文學歷史等方面。早在1956年,古籍出版社就出版了《資治通鑒》標點本[6],1988年董志翹對《資治通鑒》的標點提出疑誤[7]。注疏方面分為3類:專題注釋、節(jié)本注釋和全書注釋[8]。陳剩勇從政治功能和倫理功能角度評估了史學功能[9],趙正陽從史學觀角度概述了其史學價值和貢獻[10]。
古籍的數(shù)字化研究工作與基于字符的全文檢索已經(jīng)成熟,有一批古籍全文檢索數(shù)據(jù)庫[1]。特別是2014年,中華書局推出了出版級的高質(zhì)量《中華經(jīng)典古籍庫》[11],收錄了《資治通鑒》,功能有閱讀全文、紀年換算、人名索引。專名也進行了標引,加上了專名線,例如,人物、地點、官職名、民族名等加下劃線,書名加波浪線。古文分詞與詞性標注也不斷展開[12]。古漢語雖然以單字詞為主,但是多字詞仍占了相當?shù)谋壤,大量的人名、職官、時間等均存在大量的多字詞。分詞之后,才可能實現(xiàn)詞的檢索。而名詞、動詞、人名、時間等細類區(qū)分的詞類標注,對于古漢語的研究有重要意義。
對于古籍檢索來說,也可以更好地區(qū)分一個詞的不同詞類。由于建設(shè)成本高,目前僅有千萬字級的語料庫。主要有南京師范大學的先秦語料庫[13]、中古漢語語料庫[14]和臺灣“中研院”的上古、中古、近代語料庫[15];谥R本體(ontology)方法的古籍內(nèi)容結(jié)構(gòu)化工作也已經(jīng)展開。中華書局主持開發(fā)了“二十四史”本體,以人名索引、人名詞典等資源,對4700萬字的二十四史中的人物、時間、地點等實體進行了自動提取和本體構(gòu)建[16]。
2007年,北京大學數(shù)據(jù)分析研究中心團隊與中華書局合作,設(shè)計開發(fā)了“資治通鑒知識服務(wù)系統(tǒng)”[17]。該系統(tǒng)通過對時間、地點、人物等專有名詞進行標引,進而對人物進行相關(guān)性分析、時間分析等,是利用計算機分析技術(shù)對傳統(tǒng)古籍進行知識挖掘的成功探索。2010年,彭煒明、宋繼華采用模式驅(qū)動的方式,構(gòu)建了《資治通鑒》領(lǐng)域知識本體,并在此基礎(chǔ)之上實現(xiàn)了本體的查詢和可視化[18]。該項目更關(guān)注人物和事件的標注,但缺乏對地點的標注與分析。
這兩項《資治通鑒》知識庫的開發(fā),均使用了知識本體技術(shù)。不過,由于自動提取信息,導致實體的遺漏率較高,也沒有解決好異名同指和同名異指問題。對語言學詞匯信息標注(如分詞、詞類信息)和地理GIS信息等標注不足,有待更加全面的信息。近年來,數(shù)字人文逐漸成為國內(nèi)外人文研究的新方法。哈佛大學和復旦大學等合作開發(fā)了“中國歷史地理信息系統(tǒng)CHGIS”,提供了一個可以進行空間分析和時間統(tǒng)計的數(shù)字地圖平臺[19]。
北京大學通過數(shù)字人文手段研究了唐代300年仕人的遷徙路線、宋到明幾百年的儒家理學傳承路線,開發(fā)了禪宗法傳承可視化平臺[20]。南京師范大學開發(fā)了《左傳》[21]《史記·本紀》[22]兩個包含詞匯、人名、地名等實體與GIS信息的歷史人文知識庫,可以滿足更為多樣的檢索與知識服務(wù)。
綜上,古籍的電子化與字符級全文檢索已經(jīng)成熟,古文的分詞與詞性標注方法接近成熟,知識本體構(gòu)建與分析逐步展開,基于詞的全文檢索成為未來主流的發(fā)展方向,時間、人物關(guān)系、GIS等信息也越來越受到重視。《資治通鑒》等古籍專書知識庫的建設(shè)亟需建立基于文本的實體標注,以實現(xiàn)更完整的信息整合與更多樣、更深入的知識計量、挖掘與服務(wù)。
3《資治通鑒·周秦漢紀》數(shù)字人文知識庫的構(gòu)建
《資治通鑒》的篇幅巨大,本文選取了最前面的周、秦、漢三代的數(shù)據(jù)進行建設(shè),目的是為了先解決最早期的部分,并可以與記載內(nèi)容相似的《史記》《左傳》進行對比分析?紤]到基于字的全文檢索或自動構(gòu)建知識本體存在的問題,本研究嘗試基于詞語和實體的、地毯式的全文標注,以整合更多的信息,進行知識挖掘與可視化。實體標注目前僅限于人物和地點。
給出了全文標注的3個層次,在原始文本的基礎(chǔ)上,進行詞語的切分(用空格作為詞界)、詞性標注(名詞、動詞、標點等)和實體ID(編號)的標注。這樣每句話中的每個詞都有了豐富的信息,通過標明人名、地名的ID號,解決同名異指和異名同指的問題。人名和地名對應(yīng)的ID分別取自人物信息表和地名信息表,并與《左傳》《史記·本紀》知識庫中的實體ID保持相通。在標注時,沿用兩者的人物實體表中的數(shù)據(jù),新數(shù)據(jù)則分配新的ID進行信息填寫和標注。
3.1數(shù)據(jù)來源
《資治通鑒》的底本為繁體字,電子版全文294卷,總字數(shù)約300萬字。本研究主要參照中華書局1956年本[23]進行?。目前,完成了周、秦、漢3個朝代共計68卷(60萬字)的文本校勘與標注工作。
3.2分詞與詞性標注
古文分詞和詞性標注工作,耗時耗力。本文采用了機器自動標注,然后輔以人工校正的方式,進度大為加快。首先,采用了陳小荷等制定的分詞與詞類標記集[13],使用南京師范大學古漢語詞性標注系統(tǒng)[24]進行了自動分詞與詞性標注,該系統(tǒng)的整體正確率在85%以上,然后進行了全面的人工校對,形成高質(zhì)量的標注文本。
3.3實體信息標注
3.3.1人物信息
《資治通鑒》中人物的名號往往有多個,并且不同人物的同名現(xiàn)象也相當普遍,需根據(jù)各種注疏文獻和相關(guān)資料進行辨析。為了辨識清楚每個人物,本文給每個人物實體分配一個唯一的ID號(即編號)。如果這個人物在《左傳》和《史記》出現(xiàn)過,則沿用這兩部書的人物ID。對于新的人物,則設(shè)立新的ID。人物信息還包括人物的各種名稱、性別和國別。由于一個人物在古書中名稱可能較多,為了便于后續(xù)的檢索和可視化顯示,我們還設(shè)置了后世使用較多的“人物主名”作為人物的正名。“人物主名”并不一定來自“人物名”,而可能是后世采用的較為完整的名稱。“叔孫州仇”的人物ID為131,有4個名字,性別為男, 國別為魯。
3.3.2地點信息與人物信息標注相似,地點也沿用了《左傳》和《史記》中的信息,對于《資治通鑒》中新出現(xiàn)的地名,則予以新的ID,并填寫地理實體的信息,包括地名的類別(國家、諸侯國、河流、山川等)、今天的所在地、考據(jù)的文獻出處,然后根據(jù)今天所在地查出百度地圖的地理GIS坐標。主要參考《中國歷史地圖集》[25]、中國歷史地理數(shù)據(jù)庫CHGIS[19]等資料。
3.3.3時間信息
根據(jù)《先秦諸子系年》等資料[26],將每一個篇目的年號,對應(yīng)到公元紀年上。例如,“卷第一·周紀一·二十一年”對應(yīng)于“公元前381年”。
3.4數(shù)據(jù)庫架構(gòu)
基于《資治通鑒》電子化全文、分詞和詞性標注以及實體信息標注,構(gòu)建出《資治通鑒·周秦漢紀》數(shù)據(jù)庫。主要包括人物實體、地點實體表、文本表、標注文本表、人物同現(xiàn)表、人地同現(xiàn)表共計6張數(shù)據(jù)表。根據(jù)人物實體表和地點實體表中的ID,將正文中的每個人物和地名都標注了其ID信息。然后,同一個句子中,不同的人物會一起同現(xiàn),人物和地點也會同時出現(xiàn)。我們根據(jù)這兩種同現(xiàn)信息,在標注好的“標注文本表”上,提取出“人物同現(xiàn)表”和“人地同現(xiàn)表”。
4基于詞和實體的全文檢索
4.1基于詞和實體的檢索框架
為了讓平臺服務(wù)社會,本研究使用Web開發(fā)技術(shù),構(gòu)建了《資治通鑒》在線檢索系統(tǒng)。除了基于詞的全文檢索功能外,還基于底層的結(jié)構(gòu)化的數(shù)字人文知識庫,提供了人物、地點、詞性等多種查詢方式。
4.2全文實體檢索
與傳統(tǒng)的基于字符串匹配的全文檢索方式不同,全文實體檢索是建立在具有實體標注信息的文本之上的一種更加精確的、基于詞和實體的檢索方式。這種方式避免了字符檢索生硬匹配造成檢索冗余、缺漏與錯配問題。例如給出了“軍”基于詞的結(jié)果,就不會再出現(xiàn)包含在“將軍”“北軍”“護軍”等詞中的情況,從2098個結(jié)果,減少到1872個。
4.3人物檢索
人物檢索功能主要提供了人物的基本信息的查詢,主要包括人物的主名、別名、性別、國別信息,并且能與《左傳》和《史記·本紀》知識庫進行聯(lián)動,展示該人物在《左傳》和《史記·本紀》中的出現(xiàn)情況。例如在檢索“漢武帝”時,系統(tǒng)根據(jù)人物ID進行全文檢索,可以得到“武帝”“劉徹”等結(jié)果,而不僅限于包含“漢武帝”的段落。
此外,人物地圖檢索功能基于人物與地點的同現(xiàn)數(shù)據(jù),借助百度地圖實現(xiàn)人物可能去過的地點展示,并基于人物與人物的同現(xiàn)數(shù)據(jù),借助ECharts[27]技術(shù)實現(xiàn)人物交際圈的圖示。給出了漢武帝的人物主名、別稱、性別、國別以及在《史記·本紀》和《左傳》中出現(xiàn)的情況。
用人物同現(xiàn)數(shù)據(jù)近似展現(xiàn)了漢武帝的交際情況,圖的中心節(jié)點表示漢武帝,周圍節(jié)點表示與漢武帝在一個句子中同現(xiàn)的人物。在這些同現(xiàn)人物節(jié)點中,節(jié)點越大表示該人物與漢武帝同現(xiàn)的次數(shù)越多,人物關(guān)系就可能越密切。
4.4地點檢索
地點功能提供了地點實體的基本信息的查詢,主要包括地點的地名、類別、今天所在地,并且能與《左傳》和《史記·本紀》知識庫進行聯(lián)動,展示該地點在《左傳》和《史記·本紀》中的出現(xiàn)情況。此外,地點檢索功能基于地點實體表中的坐標信息,借助百度地圖實現(xiàn)地點在現(xiàn)代地圖上地理位置的展示。例如,在檢索“長安”時,可以看到長安的地名、類別、今天所在地等信息,并能看到長安在現(xiàn)代地圖上的具體位置。
4.5詞性檢索
除了人物和地點的實體檢索之外,普通詞語也都進行了分詞和詞性標注,可以在詞性信息的支撐下,提供基于詞性的檢索和統(tǒng)計。詞性統(tǒng)計功能提供了詞性的相關(guān)信息,主要包括該詞性下的所有詞條,和借助ECharts繪制的該詞性不同詞條的詞頻條形。展示了檢索“v(動詞)”得到的詞頻分布圖,可以方便古漢語研究者查看詞性信息。
5計量分析與知識挖掘
根據(jù)《資治通鑒·周秦漢紀》數(shù)字人文知識庫和檢索系統(tǒng),可以進行更加深入的計量分析工作,獲得傳統(tǒng)定性分析難以得到的數(shù)據(jù)結(jié)果。在《資治通鑒·周秦漢紀》所包含的實體中,人物實體有4588個,地點實體有1451個。人物統(tǒng)計結(jié)果顯示,平均每個人物有1.95個名稱,有超一半的人物不止1個名稱,50%的人物有2-5個名稱,3%的人物有6個及以上的名稱。名稱最多的人物是漢高祖劉邦。因此,給每個人物使用唯一的ID編號來標定是十分有必要的。下文將針對詞語、人物與地點實體展開大數(shù)據(jù)計量統(tǒng)計與可視化分析。
5.1詞頻統(tǒng)計
不同于傳統(tǒng)的文史分析,數(shù)字人文視域下可以利用能夠揭示或表達文本核心內(nèi)容的關(guān)鍵詞或主題詞出現(xiàn)的頻次高低來確定其主題和熱點;谝褬俗⒌姆衷~文本,可以得到詞頻統(tǒng)計結(jié)果。統(tǒng)計結(jié)果顯示,單字詞共有2610個,多字詞共有7970個。
其中“之”一詞出現(xiàn)的頻率最高,為5038次。不同于基于字的傳統(tǒng)研究,本研究在基于詞的語料上,可以統(tǒng)計出多字詞的分布情況。列出了詞頻排名前10的多字詞,這些詞多為實詞,且基本都和爭奪天下相關(guān),例如“天下”“諸侯”“陛下”“將軍”等,在一定程度上反映了《資治通鑒》主要是圍繞爭奪天下與帝位記敘的。其中“天下”一詞出現(xiàn)的頻率最高,為569次。當然,還可以利用詞語的信息,從歷時的角度來觀察漢語詞匯演化的過程,可以研究詞匯的動態(tài)發(fā)展狀況。
5.2實體關(guān)系的挖掘與3部史書橫向?qū)Ρ?/p>
5.2.1最“廣交”人物
在傳統(tǒng)的人物研究中,人物歷史地位的高低往往需要根據(jù)其在歷史事件中所扮演角色的輕重來衡量。這種評價方式雖然可行,但卻缺乏統(tǒng)一且客觀的標準。而通過定量統(tǒng)計人物同現(xiàn)次數(shù)的方式,可以近似地估計人物之間的交往關(guān)系,進而估計人物的歷史地位。
同現(xiàn)人物越多,交際也就越廣,所具有的地位也就可能更高。橫向?qū)Ρ取蹲髠鳌泛汀妒酚?middot;本紀》的數(shù)據(jù),能夠明顯地看出3本史書的異同。為了更好地和《史記》對比,我們將《資治通鑒》的數(shù)據(jù)截止到漢武帝時期。列出了《資治通鑒·周秦漢紀》最“廣交”的十大人物,其中前3名為漢高祖、漢武帝和項羽。3本書相對照,可以看出《史記·本紀》與《資治通鑒·周秦漢紀》更偏重對秦漢時期的記載。
5.2.2人物游歷距離
《資治通鑒·周秦漢紀》記錄了大量的時間、人物和地點信息。借助人物與地點實體的同現(xiàn)信息可以近似地估計人物可能的游歷地點。在《資治通鑒·周秦漢紀》游歷距離最多的10位人物中,4位為君王,3位為軍事家,2位為開國元勛,1位為外交家。其中游歷距離最多的漢高祖,距離有14萬千米之多,可見漢高祖征戰(zhàn)開國的一生。此外,通過聯(lián)動《左傳》和《史記·本紀》數(shù)據(jù)庫,也可以比較不同史書中人物游歷的差異,進而挖掘兩本史書在內(nèi)容和風格上的不同傾向性。借助這種方法,雖然不能進行精確的計算,但能大致地估計出人物游歷的軌跡與行程,輔助分析人物的生平、出行距離等問題。
5.3實體歷時統(tǒng)計分析
5.3.1多事之秋———實體歷時分布
從文本中實體所出現(xiàn)的頻次密度的角度來分析可以更好地呈現(xiàn)不同時間段之間的差異性。將《資治通鑒·周秦漢紀》所記載實體分別對應(yīng)到公元紀年法,可以得到其所對應(yīng)的公元前403年至公元前87年間的實體曲線。
藍色曲線表示相應(yīng)時間的人物數(shù)量,橙色曲線表示相應(yīng)時間的地點數(shù)量?梢园l(fā)現(xiàn),在整個時間區(qū)域內(nèi),人物略多于地點,且存在時間差異性。人物和地點均在公元前207年前后達到峰值,反映了歷史上具有重大決戰(zhàn)性的巨鹿之戰(zhàn);人物和地點曲線在公元前154年前后同時上升,反映了歷史上西漢規(guī)模最大的一次諸侯王國叛亂———七國之亂。通過在時空角度進行分析的方法,可以快速地定位發(fā)生重大事件的歷史時代。
5.3.2風云人物與風云之地———特異性實體挖掘
《資治通鑒》是一部編年體通史,時間信息豐富。利用時間信息,可以挖掘出每個時代的文本中的特異成分。例如,可以利用特異性指標TFIDF,來得到在不同時代舉足輕重的風云人物與和風云之地。TFIDF(TermFrequencyInverseDocumentationFrequency)算法是由G.Salton.提出來的用于信息檢索的算法[29]。TFIDF主要基于一個思想,即詞區(qū)分特定文本內(nèi)容的能力隨著其在該文本中出現(xiàn)的頻率的升高而提升(TF),隨著所出現(xiàn)文本的范圍的擴大而下降(IDF)。
因此,TFIDF越高,表明該詞匯的文本區(qū)分度或者說特異性越強;TFIDF越弱,表明該詞匯的文本區(qū)分度或者說特異性越弱。同樣地,以相同的方式可以得到不同時代最重要的地點流變?梢园l(fā)現(xiàn),不同的地點隨著歷史的演變而此起彼伏地成為一個個時代的焦點,或是諸侯國都,或是兵家必爭之地,都成為時代更迭的印記。
6結(jié)語
在古籍數(shù)字化與全文檢索已普遍應(yīng)用的今天,如何綜合運用數(shù)字人文的新技術(shù)和手段,充分利用我國種類內(nèi)容豐富的歷史文獻資源,在全文檢索的基礎(chǔ)上進行可視化呈現(xiàn)和大數(shù)據(jù)分析,是當今文學、歷史和圖書情報等領(lǐng)域的重要課題。本研究在數(shù)字人文的研究范式下,針對基于字的全文檢索存在的詞語邊界和實體概念不明問題,以及本體知識庫與原文脫節(jié)問題,提出使用全文詞語標注的解決方案,嘗試建設(shè)了《資治通鑒·周秦漢紀》數(shù)字人文知識庫,對文本進行了詞語切分、詞性標注和實體信息的全文標注。
其次,開發(fā)了基于詞和實體的全文檢索系統(tǒng),包括人物檢索、地點檢索、詞性檢索等,并借助百度地圖和ECharts,可視化地展現(xiàn)了相關(guān)的人物游歷、地理信息和人物關(guān)系。然后進行了計量分析與知識挖掘,窮盡統(tǒng)計了《資治通鑒·周秦漢紀》中的人物數(shù)量。對于實體進行了多角度的關(guān)聯(lián)分析與挖掘,例如人物交際、人物游歷地圖、多事之秋、風云人物地點等。還通過與《左傳》《史記·本紀》的比較,統(tǒng)計出3本書記述的人物差異。
在未來的工作中,我們將繼續(xù)做好以下研究工作:①擴大數(shù)據(jù)規(guī)模,將整部《資治通鑒》標注完整,并反復檢查校正。②繼續(xù)完善實體信息標注,結(jié)合學界最新的考據(jù)成果,不斷修訂數(shù)據(jù)庫的內(nèi)容。同時,還需提高系統(tǒng)開放度,增加糾錯與審核機制,吸引更多的專家學者參與到項目工作中來。實體標注的對象也可以擴展至官職、年號、器物等更多類型。③探索更多的知識統(tǒng)計與知識挖掘方法。實體之間的同現(xiàn)當前還只是處于近似估計的階段,未來也可以優(yōu)化計算方法,提高計算的精確度。
此外,還可以考慮對人物關(guān)系和人地關(guān)系進行更細致的分類。例如人物關(guān)系增加朋友、親屬、上級下屬等。④改進檢索與數(shù)據(jù)可視化方式。如將當前不同的檢索方式有機地進行整合,提高檢索效率,提升當前可視化的展示效果。⑤此外,還可以同圖書館、博物館數(shù)據(jù)庫聯(lián)通,將《資治通鑒》的文本信息與其他歷史文獻和館藏品進行鏈接,將諸多歷史要素融于一體進行呈現(xiàn)。
參考文獻:
[1]季培培.常見10種古籍全文數(shù)據(jù)庫的比較研究[J].圖書館學研究,2020(20):71-80.
[2]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學報,2017,43(5):32-41.
[3]TheOpenUniversity.Hestia[EB/0L].[2021-05-21].
[4]中國歷代人物傳記數(shù)據(jù)庫管理委員會.中國歷代人物傳記數(shù)據(jù)庫項目(ChinaBiographicalDatabase,CBDB)[EB/0L].[2021-05-21].
[5]歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016,42(2):66-80.
作者:常博林1萬晨2李斌1陳欣雨1馮敏萱1王東波3
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///wslw/29141.html