亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識(shí)庫(kù)的構(gòu)建與應(yīng)用以《資治通鑒·周秦漢紀(jì)》為例> 正文

基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識(shí)庫(kù)的構(gòu)建與應(yīng)用以《資治通鑒·周秦漢紀(jì)》為例

所屬分類:文史論文 閱讀次 時(shí)間:2021-12-20 11:05

本文摘要:摘要:[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫(kù)構(gòu)建方法。[方法/過(guò)程]以《資治通鑒周秦漢紀(jì)》為例,對(duì)68卷60萬(wàn)字的文本自動(dòng)分詞與詞性標(biāo)注之后,人工標(biāo)注文本中的人物、地點(diǎn)GIS、時(shí)間等實(shí)體信息,實(shí)現(xiàn)基于詞和實(shí)體的全文檢索和地圖檢索系統(tǒng);

  摘要:[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫(kù)構(gòu)建方法。[方法/過(guò)程]以《資治通鑒·周秦漢紀(jì)》為例,對(duì)68卷60萬(wàn)字的文本自動(dòng)分詞與詞性標(biāo)注之后,人工標(biāo)注文本中的人物、地點(diǎn)GIS、時(shí)間等實(shí)體信息,實(shí)現(xiàn)基于詞和實(shí)體的全文檢索和地圖檢索系統(tǒng);利用同現(xiàn)信息,統(tǒng)計(jì)出人物關(guān)系與人物游歷信息;進(jìn)而使用TFIDF方法,通過(guò)時(shí)間序列分析,挖掘出多事之秋、風(fēng)云人物、風(fēng)云之地等結(jié)果。[結(jié)果/結(jié)論]基于詞和實(shí)體的深度信息標(biāo)注,能夠解決缺乏詞界、同名異指和異名同指的檢索難題,更可以為古籍多角度的知識(shí)發(fā)掘與知識(shí)服務(wù)提供基礎(chǔ)支撐。

  關(guān)鍵詞:《資治通鑒》數(shù)字人文知識(shí)挖掘古籍檢索古文信息處理

文學(xué)論文

  1引言

  中國(guó)的古籍文獻(xiàn)數(shù)量龐大、包羅萬(wàn)象,是研究中國(guó)的語(yǔ)言、文學(xué)、歷史、文化等方面的寶藏。上世紀(jì)末以來(lái),古籍的電子化和基于字的全文檢索系統(tǒng)已經(jīng)取得了許多重大進(jìn)展,形成了一大批可用的電子數(shù)據(jù)庫(kù)[1]。而隨著數(shù)字人文技術(shù)的興起[2],國(guó)際史學(xué)界已經(jīng)開(kāi)始從紙質(zhì)文獻(xiàn)的文字歷史敘述轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化歷史數(shù)據(jù)庫(kù)。

  希羅多德的歷史數(shù)據(jù)庫(kù)[3]和中國(guó)歷史人物傳記數(shù)據(jù)庫(kù)(CBDB)[4]都嘗試把歷史的要素,諸如時(shí)間、人物、地點(diǎn)進(jìn)行詳細(xì)的描述與關(guān)聯(lián),形成可檢索、可視化的歷史數(shù)據(jù)平臺(tái)。既可以作為學(xué)術(shù)研究的基礎(chǔ)平臺(tái),又可以作為科普的窗口,用戶不需具備專家級(jí)的古典文獻(xiàn)的閱讀能力與豐富的歷史知識(shí)便可以使用,大大便利了學(xué)術(shù)研究,特別是跨學(xué)科研究[5]。

  目前,這種中國(guó)古籍的數(shù)據(jù)庫(kù)的構(gòu)建和應(yīng)用仍存在三大問(wèn)題亟待解決:

 、僦袊(guó)古籍要從字檢索走向詞檢索。由于古漢語(yǔ)沒(méi)有詞語(yǔ)邊界,要實(shí)現(xiàn)類似于英語(yǔ)的詞檢索功能,則必須進(jìn)行詞語(yǔ)的切分。例如,基于詞檢索“軍”時(shí),只應(yīng)該出現(xiàn)“軍”作為一個(gè)詞的上下文,而不應(yīng)該出現(xiàn)“將軍”“護(hù)軍”等結(jié)果。②從專名標(biāo)引走向?qū)嶓w標(biāo)注。不少經(jīng)典古籍已經(jīng)人工標(biāo)引了人名、地名、書(shū)名等專名(專有名詞),但是僅依靠橫線和波浪線兩種符號(hào)難以區(qū)分出不同類型的專名,更難以解決同名異指(如多個(gè)事物名稱相同)和異名同指(如一個(gè)人物多個(gè)名稱)問(wèn)題。

  例如,檢索“秦始皇”這個(gè)人物時(shí),不僅要包含“秦始皇”這個(gè)字符串的上下文,還應(yīng)該得到這個(gè)人物的所有上下文,包括“嬴政”“!政”等。因而,全面梳理各種不同的人物、地點(diǎn)、時(shí)間等專名對(duì)應(yīng)的實(shí)體信息,并在文本中標(biāo)明每個(gè)實(shí)體的唯一代號(hào),才能夠滿足后續(xù)細(xì)致的檢索和統(tǒng)計(jì)需要。③從全文檢索走向知識(shí)挖掘與可視化呈現(xiàn),F(xiàn)有的檢索平臺(tái)大都只提供基于字的檢索結(jié)果,而在人物、地點(diǎn)、時(shí)間等實(shí)體要素進(jìn)行標(biāo)注之后,可以借助數(shù)據(jù)挖掘技術(shù),發(fā)掘出實(shí)體之間的關(guān)聯(lián)關(guān)系,再通過(guò)可視化方法直觀地展現(xiàn)出來(lái)。

  因此,需要探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫(kù)構(gòu)建方法。本研究以文史價(jià)值極高的《資治通鑒·周秦漢紀(jì)》作為樣本,構(gòu)建數(shù)字人文知識(shí)庫(kù)和檢索系統(tǒng)。為了解決傳統(tǒng)的基于字符串的全文檢索存在的問(wèn)題,將文本進(jìn)行了分詞與詞性標(biāo)注,從而實(shí)現(xiàn)基于詞的全文檢索。然后,進(jìn)一步標(biāo)注人物、地點(diǎn)的實(shí)體信息,并根據(jù)這些信息,借助可視化等技術(shù),構(gòu)建《資治通鑒》數(shù)字人文檢索系統(tǒng)。在此基礎(chǔ)之上,對(duì)人物、地點(diǎn)實(shí)體以及詞匯進(jìn)行計(jì)量與數(shù)據(jù)挖掘,給人文學(xué)者提供一個(gè)突破傳統(tǒng)研究路徑的更加高效的古籍信息加工框架與深度開(kāi)發(fā)路徑。

  2研究現(xiàn)狀

  《資治通鑒》以編年體方式記載了公元前403年至公元959年的歷史,是一部史學(xué)與文學(xué)價(jià)值極高的典籍,其研究多集中于版本、點(diǎn)校、注疏和文學(xué)歷史等方面。早在1956年,古籍出版社就出版了《資治通鑒》標(biāo)點(diǎn)本[6],1988年董志翹對(duì)《資治通鑒》的標(biāo)點(diǎn)提出疑誤[7]。注疏方面分為3類:專題注釋、節(jié)本注釋和全書(shū)注釋[8]。陳剩勇從政治功能和倫理功能角度評(píng)估了史學(xué)功能[9],趙正陽(yáng)從史學(xué)觀角度概述了其史學(xué)價(jià)值和貢獻(xiàn)[10]。

  古籍的數(shù)字化研究工作與基于字符的全文檢索已經(jīng)成熟,有一批古籍全文檢索數(shù)據(jù)庫(kù)[1]。特別是2014年,中華書(shū)局推出了出版級(jí)的高質(zhì)量《中華經(jīng)典古籍庫(kù)》[11],收錄了《資治通鑒》,功能有閱讀全文、紀(jì)年換算、人名索引。專名也進(jìn)行了標(biāo)引,加上了專名線,例如,人物、地點(diǎn)、官職名、民族名等加下劃線,書(shū)名加波浪線。古文分詞與詞性標(biāo)注也不斷展開(kāi)[12]。古漢語(yǔ)雖然以單字詞為主,但是多字詞仍占了相當(dāng)?shù)谋壤,大量的人名、職官、時(shí)間等均存在大量的多字詞。分詞之后,才可能實(shí)現(xiàn)詞的檢索。而名詞、動(dòng)詞、人名、時(shí)間等細(xì)類區(qū)分的詞類標(biāo)注,對(duì)于古漢語(yǔ)的研究有重要意義。

  對(duì)于古籍檢索來(lái)說(shuō),也可以更好地區(qū)分一個(gè)詞的不同詞類。由于建設(shè)成本高,目前僅有千萬(wàn)字級(jí)的語(yǔ)料庫(kù)。主要有南京師范大學(xué)的先秦語(yǔ)料庫(kù)[13]、中古漢語(yǔ)語(yǔ)料庫(kù)[14]和臺(tái)灣“中研院”的上古、中古、近代語(yǔ)料庫(kù)[15];谥R(shí)本體(ontology)方法的古籍內(nèi)容結(jié)構(gòu)化工作也已經(jīng)展開(kāi)。中華書(shū)局主持開(kāi)發(fā)了“二十四史”本體,以人名索引、人名詞典等資源,對(duì)4700萬(wàn)字的二十四史中的人物、時(shí)間、地點(diǎn)等實(shí)體進(jìn)行了自動(dòng)提取和本體構(gòu)建[16]。

  2007年,北京大學(xué)數(shù)據(jù)分析研究中心團(tuán)隊(duì)與中華書(shū)局合作,設(shè)計(jì)開(kāi)發(fā)了“資治通鑒知識(shí)服務(wù)系統(tǒng)”[17]。該系統(tǒng)通過(guò)對(duì)時(shí)間、地點(diǎn)、人物等專有名詞進(jìn)行標(biāo)引,進(jìn)而對(duì)人物進(jìn)行相關(guān)性分析、時(shí)間分析等,是利用計(jì)算機(jī)分析技術(shù)對(duì)傳統(tǒng)古籍進(jìn)行知識(shí)挖掘的成功探索。2010年,彭煒明、宋繼華采用模式驅(qū)動(dòng)的方式,構(gòu)建了《資治通鑒》領(lǐng)域知識(shí)本體,并在此基礎(chǔ)之上實(shí)現(xiàn)了本體的查詢和可視化[18]。該項(xiàng)目更關(guān)注人物和事件的標(biāo)注,但缺乏對(duì)地點(diǎn)的標(biāo)注與分析。

  這兩項(xiàng)《資治通鑒》知識(shí)庫(kù)的開(kāi)發(fā),均使用了知識(shí)本體技術(shù)。不過(guò),由于自動(dòng)提取信息,導(dǎo)致實(shí)體的遺漏率較高,也沒(méi)有解決好異名同指和同名異指問(wèn)題。對(duì)語(yǔ)言學(xué)詞匯信息標(biāo)注(如分詞、詞類信息)和地理GIS信息等標(biāo)注不足,有待更加全面的信息。近年來(lái),數(shù)字人文逐漸成為國(guó)內(nèi)外人文研究的新方法。哈佛大學(xué)和復(fù)旦大學(xué)等合作開(kāi)發(fā)了“中國(guó)歷史地理信息系統(tǒng)CHGIS”,提供了一個(gè)可以進(jìn)行空間分析和時(shí)間統(tǒng)計(jì)的數(shù)字地圖平臺(tái)[19]。

  北京大學(xué)通過(guò)數(shù)字人文手段研究了唐代300年仕人的遷徙路線、宋到明幾百年的儒家理學(xué)傳承路線,開(kāi)發(fā)了禪宗法傳承可視化平臺(tái)[20]。南京師范大學(xué)開(kāi)發(fā)了《左傳》[21]《史記·本紀(jì)》[22]兩個(gè)包含詞匯、人名、地名等實(shí)體與GIS信息的歷史人文知識(shí)庫(kù),可以滿足更為多樣的檢索與知識(shí)服務(wù)。

  綜上,古籍的電子化與字符級(jí)全文檢索已經(jīng)成熟,古文的分詞與詞性標(biāo)注方法接近成熟,知識(shí)本體構(gòu)建與分析逐步展開(kāi),基于詞的全文檢索成為未來(lái)主流的發(fā)展方向,時(shí)間、人物關(guān)系、GIS等信息也越來(lái)越受到重視!顿Y治通鑒》等古籍專書(shū)知識(shí)庫(kù)的建設(shè)亟需建立基于文本的實(shí)體標(biāo)注,以實(shí)現(xiàn)更完整的信息整合與更多樣、更深入的知識(shí)計(jì)量、挖掘與服務(wù)。

  3《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫(kù)的構(gòu)建

  《資治通鑒》的篇幅巨大,本文選取了最前面的周、秦、漢三代的數(shù)據(jù)進(jìn)行建設(shè),目的是為了先解決最早期的部分,并可以與記載內(nèi)容相似的《史記》《左傳》進(jìn)行對(duì)比分析。考慮到基于字的全文檢索或自動(dòng)構(gòu)建知識(shí)本體存在的問(wèn)題,本研究嘗試基于詞語(yǔ)和實(shí)體的、地毯式的全文標(biāo)注,以整合更多的信息,進(jìn)行知識(shí)挖掘與可視化。實(shí)體標(biāo)注目前僅限于人物和地點(diǎn)。

  給出了全文標(biāo)注的3個(gè)層次,在原始文本的基礎(chǔ)上,進(jìn)行詞語(yǔ)的切分(用空格作為詞界)、詞性標(biāo)注(名詞、動(dòng)詞、標(biāo)點(diǎn)等)和實(shí)體ID(編號(hào))的標(biāo)注。這樣每句話中的每個(gè)詞都有了豐富的信息,通過(guò)標(biāo)明人名、地名的ID號(hào),解決同名異指和異名同指的問(wèn)題。人名和地名對(duì)應(yīng)的ID分別取自人物信息表和地名信息表,并與《左傳》《史記·本紀(jì)》知識(shí)庫(kù)中的實(shí)體ID保持相通。在標(biāo)注時(shí),沿用兩者的人物實(shí)體表中的數(shù)據(jù),新數(shù)據(jù)則分配新的ID進(jìn)行信息填寫(xiě)和標(biāo)注。

  3.1數(shù)據(jù)來(lái)源

  《資治通鑒》的底本為繁體字,電子版全文294卷,總字?jǐn)?shù)約300萬(wàn)字。本研究主要參照中華書(shū)局1956年本[23]進(jìn)行校勘。目前,完成了周、秦、漢3個(gè)朝代共計(jì)68卷(60萬(wàn)字)的文本?迸c標(biāo)注工作。

  3.2分詞與詞性標(biāo)注

  古文分詞和詞性標(biāo)注工作,耗時(shí)耗力。本文采用了機(jī)器自動(dòng)標(biāo)注,然后輔以人工校正的方式,進(jìn)度大為加快。首先,采用了陳小荷等制定的分詞與詞類標(biāo)記集[13],使用南京師范大學(xué)古漢語(yǔ)詞性標(biāo)注系統(tǒng)[24]進(jìn)行了自動(dòng)分詞與詞性標(biāo)注,該系統(tǒng)的整體正確率在85%以上,然后進(jìn)行了全面的人工校對(duì),形成高質(zhì)量的標(biāo)注文本。

  3.3實(shí)體信息標(biāo)注

  3.3.1人物信息

  《資治通鑒》中人物的名號(hào)往往有多個(gè),并且不同人物的同名現(xiàn)象也相當(dāng)普遍,需根據(jù)各種注疏文獻(xiàn)和相關(guān)資料進(jìn)行辨析。為了辨識(shí)清楚每個(gè)人物,本文給每個(gè)人物實(shí)體分配一個(gè)唯一的ID號(hào)(即編號(hào))。如果這個(gè)人物在《左傳》和《史記》出現(xiàn)過(guò),則沿用這兩部書(shū)的人物ID。對(duì)于新的人物,則設(shè)立新的ID。人物信息還包括人物的各種名稱、性別和國(guó)別。由于一個(gè)人物在古書(shū)中名稱可能較多,為了便于后續(xù)的檢索和可視化顯示,我們還設(shè)置了后世使用較多的“人物主名”作為人物的正名。“人物主名”并不一定來(lái)自“人物名”,而可能是后世采用的較為完整的名稱。“叔孫州仇”的人物ID為131,有4個(gè)名字,性別為男, 國(guó)別為魯。

  3.3.2地點(diǎn)信息與人物信息標(biāo)注相似,地點(diǎn)也沿用了《左傳》和《史記》中的信息,對(duì)于《資治通鑒》中新出現(xiàn)的地名,則予以新的ID,并填寫(xiě)地理實(shí)體的信息,包括地名的類別(國(guó)家、諸侯國(guó)、河流、山川等)、今天的所在地、考據(jù)的文獻(xiàn)出處,然后根據(jù)今天所在地查出百度地圖的地理GIS坐標(biāo)。主要參考《中國(guó)歷史地圖集》[25]、中國(guó)歷史地理數(shù)據(jù)庫(kù)CHGIS[19]等資料。

  3.3.3時(shí)間信息

  根據(jù)《先秦諸子系年》等資料[26],將每一個(gè)篇目的年號(hào),對(duì)應(yīng)到公元紀(jì)年上。例如,“卷第一·周紀(jì)一·二十一年”對(duì)應(yīng)于“公元前381年”。

  3.4數(shù)據(jù)庫(kù)架構(gòu)

  基于《資治通鑒》電子化全文、分詞和詞性標(biāo)注以及實(shí)體信息標(biāo)注,構(gòu)建出《資治通鑒·周秦漢紀(jì)》數(shù)據(jù)庫(kù)。主要包括人物實(shí)體、地點(diǎn)實(shí)體表、文本表、標(biāo)注文本表、人物同現(xiàn)表、人地同現(xiàn)表共計(jì)6張數(shù)據(jù)表。根據(jù)人物實(shí)體表和地點(diǎn)實(shí)體表中的ID,將正文中的每個(gè)人物和地名都標(biāo)注了其ID信息。然后,同一個(gè)句子中,不同的人物會(huì)一起同現(xiàn),人物和地點(diǎn)也會(huì)同時(shí)出現(xiàn)。我們根據(jù)這兩種同現(xiàn)信息,在標(biāo)注好的“標(biāo)注文本表”上,提取出“人物同現(xiàn)表”和“人地同現(xiàn)表”。

  4基于詞和實(shí)體的全文檢索

  4.1基于詞和實(shí)體的檢索框架

  為了讓平臺(tái)服務(wù)社會(huì),本研究使用Web開(kāi)發(fā)技術(shù),構(gòu)建了《資治通鑒》在線檢索系統(tǒng)。除了基于詞的全文檢索功能外,還基于底層的結(jié)構(gòu)化的數(shù)字人文知識(shí)庫(kù),提供了人物、地點(diǎn)、詞性等多種查詢方式。

  4.2全文實(shí)體檢索

  與傳統(tǒng)的基于字符串匹配的全文檢索方式不同,全文實(shí)體檢索是建立在具有實(shí)體標(biāo)注信息的文本之上的一種更加精確的、基于詞和實(shí)體的檢索方式。這種方式避免了字符檢索生硬匹配造成檢索冗余、缺漏與錯(cuò)配問(wèn)題。例如給出了“軍”基于詞的結(jié)果,就不會(huì)再出現(xiàn)包含在“將軍”“北軍”“護(hù)軍”等詞中的情況,從2098個(gè)結(jié)果,減少到1872個(gè)。

  4.3人物檢索

  人物檢索功能主要提供了人物的基本信息的查詢,主要包括人物的主名、別名、性別、國(guó)別信息,并且能與《左傳》和《史記·本紀(jì)》知識(shí)庫(kù)進(jìn)行聯(lián)動(dòng),展示該人物在《左傳》和《史記·本紀(jì)》中的出現(xiàn)情況。例如在檢索“漢武帝”時(shí),系統(tǒng)根據(jù)人物ID進(jìn)行全文檢索,可以得到“武帝”“劉徹”等結(jié)果,而不僅限于包含“漢武帝”的段落。

  此外,人物地圖檢索功能基于人物與地點(diǎn)的同現(xiàn)數(shù)據(jù),借助百度地圖實(shí)現(xiàn)人物可能去過(guò)的地點(diǎn)展示,并基于人物與人物的同現(xiàn)數(shù)據(jù),借助ECharts[27]技術(shù)實(shí)現(xiàn)人物交際圈的圖示。給出了漢武帝的人物主名、別稱、性別、國(guó)別以及在《史記·本紀(jì)》和《左傳》中出現(xiàn)的情況。

  用人物同現(xiàn)數(shù)據(jù)近似展現(xiàn)了漢武帝的交際情況,圖的中心節(jié)點(diǎn)表示漢武帝,周圍節(jié)點(diǎn)表示與漢武帝在一個(gè)句子中同現(xiàn)的人物。在這些同現(xiàn)人物節(jié)點(diǎn)中,節(jié)點(diǎn)越大表示該人物與漢武帝同現(xiàn)的次數(shù)越多,人物關(guān)系就可能越密切。

  4.4地點(diǎn)檢索

  地點(diǎn)功能提供了地點(diǎn)實(shí)體的基本信息的查詢,主要包括地點(diǎn)的地名、類別、今天所在地,并且能與《左傳》和《史記·本紀(jì)》知識(shí)庫(kù)進(jìn)行聯(lián)動(dòng),展示該地點(diǎn)在《左傳》和《史記·本紀(jì)》中的出現(xiàn)情況。此外,地點(diǎn)檢索功能基于地點(diǎn)實(shí)體表中的坐標(biāo)信息,借助百度地圖實(shí)現(xiàn)地點(diǎn)在現(xiàn)代地圖上地理位置的展示。例如,在檢索“長(zhǎng)安”時(shí),可以看到長(zhǎng)安的地名、類別、今天所在地等信息,并能看到長(zhǎng)安在現(xiàn)代地圖上的具體位置。

  4.5詞性檢索

  除了人物和地點(diǎn)的實(shí)體檢索之外,普通詞語(yǔ)也都進(jìn)行了分詞和詞性標(biāo)注,可以在詞性信息的支撐下,提供基于詞性的檢索和統(tǒng)計(jì)。詞性統(tǒng)計(jì)功能提供了詞性的相關(guān)信息,主要包括該詞性下的所有詞條,和借助ECharts繪制的該詞性不同詞條的詞頻條形。展示了檢索“v(動(dòng)詞)”得到的詞頻分布圖,可以方便古漢語(yǔ)研究者查看詞性信息。

  5計(jì)量分析與知識(shí)挖掘

  根據(jù)《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫(kù)和檢索系統(tǒng),可以進(jìn)行更加深入的計(jì)量分析工作,獲得傳統(tǒng)定性分析難以得到的數(shù)據(jù)結(jié)果。在《資治通鑒·周秦漢紀(jì)》所包含的實(shí)體中,人物實(shí)體有4588個(gè),地點(diǎn)實(shí)體有1451個(gè)。人物統(tǒng)計(jì)結(jié)果顯示,平均每個(gè)人物有1.95個(gè)名稱,有超一半的人物不止1個(gè)名稱,50%的人物有2-5個(gè)名稱,3%的人物有6個(gè)及以上的名稱。名稱最多的人物是漢高祖劉邦。因此,給每個(gè)人物使用唯一的ID編號(hào)來(lái)標(biāo)定是十分有必要的。下文將針對(duì)詞語(yǔ)、人物與地點(diǎn)實(shí)體展開(kāi)大數(shù)據(jù)計(jì)量統(tǒng)計(jì)與可視化分析。

  5.1詞頻統(tǒng)計(jì)

  不同于傳統(tǒng)的文史分析,數(shù)字人文視域下可以利用能夠揭示或表達(dá)文本核心內(nèi)容的關(guān)鍵詞或主題詞出現(xiàn)的頻次高低來(lái)確定其主題和熱點(diǎn);谝褬(biāo)注的分詞文本,可以得到詞頻統(tǒng)計(jì)結(jié)果。統(tǒng)計(jì)結(jié)果顯示,單字詞共有2610個(gè),多字詞共有7970個(gè)。

  其中“之”一詞出現(xiàn)的頻率最高,為5038次。不同于基于字的傳統(tǒng)研究,本研究在基于詞的語(yǔ)料上,可以統(tǒng)計(jì)出多字詞的分布情況。列出了詞頻排名前10的多字詞,這些詞多為實(shí)詞,且基本都和爭(zhēng)奪天下相關(guān),例如“天下”“諸侯”“陛下”“將軍”等,在一定程度上反映了《資治通鑒》主要是圍繞爭(zhēng)奪天下與帝位記敘的。其中“天下”一詞出現(xiàn)的頻率最高,為569次。當(dāng)然,還可以利用詞語(yǔ)的信息,從歷時(shí)的角度來(lái)觀察漢語(yǔ)詞匯演化的過(guò)程,可以研究詞匯的動(dòng)態(tài)發(fā)展?fàn)顩r。

  5.2實(shí)體關(guān)系的挖掘與3部史書(shū)橫向?qū)Ρ?/p>

  5.2.1最“廣交”人物

  在傳統(tǒng)的人物研究中,人物歷史地位的高低往往需要根據(jù)其在歷史事件中所扮演角色的輕重來(lái)衡量。這種評(píng)價(jià)方式雖然可行,但卻缺乏統(tǒng)一且客觀的標(biāo)準(zhǔn)。而通過(guò)定量統(tǒng)計(jì)人物同現(xiàn)次數(shù)的方式,可以近似地估計(jì)人物之間的交往關(guān)系,進(jìn)而估計(jì)人物的歷史地位。

  同現(xiàn)人物越多,交際也就越廣,所具有的地位也就可能更高。橫向?qū)Ρ取蹲髠鳌泛汀妒酚?middot;本紀(jì)》的數(shù)據(jù),能夠明顯地看出3本史書(shū)的異同。為了更好地和《史記》對(duì)比,我們將《資治通鑒》的數(shù)據(jù)截止到漢武帝時(shí)期。列出了《資治通鑒·周秦漢紀(jì)》最“廣交”的十大人物,其中前3名為漢高祖、漢武帝和項(xiàng)羽。3本書(shū)相對(duì)照,可以看出《史記·本紀(jì)》與《資治通鑒·周秦漢紀(jì)》更偏重對(duì)秦漢時(shí)期的記載。

  5.2.2人物游歷距離

  《資治通鑒·周秦漢紀(jì)》記錄了大量的時(shí)間、人物和地點(diǎn)信息。借助人物與地點(diǎn)實(shí)體的同現(xiàn)信息可以近似地估計(jì)人物可能的游歷地點(diǎn)。在《資治通鑒·周秦漢紀(jì)》游歷距離最多的10位人物中,4位為君王,3位為軍事家,2位為開(kāi)國(guó)元?jiǎng)祝?位為外交家。其中游歷距離最多的漢高祖,距離有14萬(wàn)千米之多,可見(jiàn)漢高祖征戰(zhàn)開(kāi)國(guó)的一生。此外,通過(guò)聯(lián)動(dòng)《左傳》和《史記·本紀(jì)》數(shù)據(jù)庫(kù),也可以比較不同史書(shū)中人物游歷的差異,進(jìn)而挖掘兩本史書(shū)在內(nèi)容和風(fēng)格上的不同傾向性。借助這種方法,雖然不能進(jìn)行精確的計(jì)算,但能大致地估計(jì)出人物游歷的軌跡與行程,輔助分析人物的生平、出行距離等問(wèn)題。

  5.3實(shí)體歷時(shí)統(tǒng)計(jì)分析

  5.3.1多事之秋———實(shí)體歷時(shí)分布

  從文本中實(shí)體所出現(xiàn)的頻次密度的角度來(lái)分析可以更好地呈現(xiàn)不同時(shí)間段之間的差異性。將《資治通鑒·周秦漢紀(jì)》所記載實(shí)體分別對(duì)應(yīng)到公元紀(jì)年法,可以得到其所對(duì)應(yīng)的公元前403年至公元前87年間的實(shí)體曲線。

  藍(lán)色曲線表示相應(yīng)時(shí)間的人物數(shù)量,橙色曲線表示相應(yīng)時(shí)間的地點(diǎn)數(shù)量。可以發(fā)現(xiàn),在整個(gè)時(shí)間區(qū)域內(nèi),人物略多于地點(diǎn),且存在時(shí)間差異性。人物和地點(diǎn)均在公元前207年前后達(dá)到峰值,反映了歷史上具有重大決戰(zhàn)性的巨鹿之戰(zhàn);人物和地點(diǎn)曲線在公元前154年前后同時(shí)上升,反映了歷史上西漢規(guī)模最大的一次諸侯王國(guó)叛亂———七國(guó)之亂。通過(guò)在時(shí)空角度進(jìn)行分析的方法,可以快速地定位發(fā)生重大事件的歷史時(shí)代。

  5.3.2風(fēng)云人物與風(fēng)云之地———特異性實(shí)體挖掘

  《資治通鑒》是一部編年體通史,時(shí)間信息豐富。利用時(shí)間信息,可以挖掘出每個(gè)時(shí)代的文本中的特異成分。例如,可以利用特異性指標(biāo)TFIDF,來(lái)得到在不同時(shí)代舉足輕重的風(fēng)云人物與和風(fēng)云之地。TFIDF(TermFrequencyInverseDocumentationFrequency)算法是由G.Salton.提出來(lái)的用于信息檢索的算法[29]。TFIDF主要基于一個(gè)思想,即詞區(qū)分特定文本內(nèi)容的能力隨著其在該文本中出現(xiàn)的頻率的升高而提升(TF),隨著所出現(xiàn)文本的范圍的擴(kuò)大而下降(IDF)。

  因此,TFIDF越高,表明該詞匯的文本區(qū)分度或者說(shuō)特異性越強(qiáng);TFIDF越弱,表明該詞匯的文本區(qū)分度或者說(shuō)特異性越弱。同樣地,以相同的方式可以得到不同時(shí)代最重要的地點(diǎn)流變?梢园l(fā)現(xiàn),不同的地點(diǎn)隨著歷史的演變而此起彼伏地成為一個(gè)個(gè)時(shí)代的焦點(diǎn),或是諸侯國(guó)都,或是兵家必爭(zhēng)之地,都成為時(shí)代更迭的印記。

  6結(jié)語(yǔ)

  在古籍?dāng)?shù)字化與全文檢索已普遍應(yīng)用的今天,如何綜合運(yùn)用數(shù)字人文的新技術(shù)和手段,充分利用我國(guó)種類內(nèi)容豐富的歷史文獻(xiàn)資源,在全文檢索的基礎(chǔ)上進(jìn)行可視化呈現(xiàn)和大數(shù)據(jù)分析,是當(dāng)今文學(xué)、歷史和圖書(shū)情報(bào)等領(lǐng)域的重要課題。本研究在數(shù)字人文的研究范式下,針對(duì)基于字的全文檢索存在的詞語(yǔ)邊界和實(shí)體概念不明問(wèn)題,以及本體知識(shí)庫(kù)與原文脫節(jié)問(wèn)題,提出使用全文詞語(yǔ)標(biāo)注的解決方案,嘗試建設(shè)了《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫(kù),對(duì)文本進(jìn)行了詞語(yǔ)切分、詞性標(biāo)注和實(shí)體信息的全文標(biāo)注。

  其次,開(kāi)發(fā)了基于詞和實(shí)體的全文檢索系統(tǒng),包括人物檢索、地點(diǎn)檢索、詞性檢索等,并借助百度地圖和ECharts,可視化地展現(xiàn)了相關(guān)的人物游歷、地理信息和人物關(guān)系。然后進(jìn)行了計(jì)量分析與知識(shí)挖掘,窮盡統(tǒng)計(jì)了《資治通鑒·周秦漢紀(jì)》中的人物數(shù)量。對(duì)于實(shí)體進(jìn)行了多角度的關(guān)聯(lián)分析與挖掘,例如人物交際、人物游歷地圖、多事之秋、風(fēng)云人物地點(diǎn)等。還通過(guò)與《左傳》《史記·本紀(jì)》的比較,統(tǒng)計(jì)出3本書(shū)記述的人物差異。

  在未來(lái)的工作中,我們將繼續(xù)做好以下研究工作:①擴(kuò)大數(shù)據(jù)規(guī)模,將整部《資治通鑒》標(biāo)注完整,并反復(fù)檢查校正。②繼續(xù)完善實(shí)體信息標(biāo)注,結(jié)合學(xué)界最新的考據(jù)成果,不斷修訂數(shù)據(jù)庫(kù)的內(nèi)容。同時(shí),還需提高系統(tǒng)開(kāi)放度,增加糾錯(cuò)與審核機(jī)制,吸引更多的專家學(xué)者參與到項(xiàng)目工作中來(lái)。實(shí)體標(biāo)注的對(duì)象也可以擴(kuò)展至官職、年號(hào)、器物等更多類型。③探索更多的知識(shí)統(tǒng)計(jì)與知識(shí)挖掘方法。實(shí)體之間的同現(xiàn)當(dāng)前還只是處于近似估計(jì)的階段,未來(lái)也可以優(yōu)化計(jì)算方法,提高計(jì)算的精確度。

  此外,還可以考慮對(duì)人物關(guān)系和人地關(guān)系進(jìn)行更細(xì)致的分類。例如人物關(guān)系增加朋友、親屬、上級(jí)下屬等。④改進(jìn)檢索與數(shù)據(jù)可視化方式。如將當(dāng)前不同的檢索方式有機(jī)地進(jìn)行整合,提高檢索效率,提升當(dāng)前可視化的展示效果。⑤此外,還可以同圖書(shū)館、博物館數(shù)據(jù)庫(kù)聯(lián)通,將《資治通鑒》的文本信息與其他歷史文獻(xiàn)和館藏品進(jìn)行鏈接,將諸多歷史要素融于一體進(jìn)行呈現(xiàn)。

  參考文獻(xiàn):

  [1]季培培.常見(jiàn)10種古籍全文數(shù)據(jù)庫(kù)的比較研究[J].圖書(shū)館學(xué)研究,2020(20):71-80.

  [2]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國(guó)圖書(shū)館學(xué)報(bào),2017,43(5):32-41.

  [3]TheOpenUniversity.Hestia[EB/0L].[2021-05-21].

  [4]中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)管理委員會(huì).中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)項(xiàng)目(ChinaBiographicalDatabase,CBDB)[EB/0L].[2021-05-21].

  [5]歐陽(yáng)劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(2):66-80.

  作者:常博林1萬(wàn)晨2李斌1陳欣雨1馮敏萱1王東波3

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/29141.html