五月丁香婷婷爱,在线视频日韩精品欧美都市,偷拍自拍A V,久久高潮日本

<track id="6tgf8"><label id="6tgf8"></label></track>

<bdo id="6tgf8"><span id="6tgf8"></span></bdo>

<bdo id="6tgf8"><span id="6tgf8"></span></bdo>

您當(dāng)前的位置：發(fā)表學(xué)術(shù)論文網(wǎng)》文史論文》基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識(shí)庫的構(gòu)建與應(yīng)用以《資治通鑒·周秦漢紀(jì)》為例> 正文

基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識(shí)庫的構(gòu)建與應(yīng)用以《資治通鑒·周秦漢紀(jì)》為例

所屬分類：文史論文閱讀次時(shí)間：2021-12-20 11:05

本文摘要：摘要：[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫構(gòu)建方法。[方法/過程]以《資治通鑒周秦漢紀(jì)》為例，對68卷60萬字的文本自動(dòng)分詞與詞性標(biāo)注之后，人工標(biāo)注文本中的人物、地點(diǎn)GIS、時(shí)間等實(shí)體信息，實(shí)現(xiàn)基于詞和實(shí)體的全文檢索和地圖檢索系統(tǒng);

　　摘要：[目的/意義]探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫構(gòu)建方法。[方法/過程]以《資治通鑒·周秦漢紀(jì)》為例，對68卷60萬字的文本自動(dòng)分詞與詞性標(biāo)注之后，人工標(biāo)注文本中的人物、地點(diǎn)GIS、時(shí)間等實(shí)體信息，實(shí)現(xiàn)基于詞和實(shí)體的全文檢索和地圖檢索系統(tǒng);利用同現(xiàn)信息，統(tǒng)計(jì)出人物關(guān)系與人物游歷信息;進(jìn)而使用TFIDF方法，通過時(shí)間序列分析，挖掘出多事之秋、風(fēng)云人物、風(fēng)云之地等結(jié)果。[結(jié)果/結(jié)論]基于詞和實(shí)體的深度信息標(biāo)注，能夠解決缺乏詞界、同名異指和異名同指的檢索難題，更可以為古籍多角度的知識(shí)發(fā)掘與知識(shí)服務(wù)提供基礎(chǔ)支撐。

　　關(guān)鍵詞：《資治通鑒》數(shù)字人文知識(shí)挖掘古籍檢索古文信息處理

文學(xué)論文

　　1引言

　　中國的古籍文獻(xiàn)數(shù)量龐大、包羅萬象，是研究中國的語言、文學(xué)、歷史、文化等方面的寶藏。上世紀(jì)末以來，古籍的電子化和基于字的全文檢索系統(tǒng)已經(jīng)取得了許多重大進(jìn)展，形成了一大批可用的電子數(shù)據(jù)庫[1]。而隨著數(shù)字人文技術(shù)的興起[2]，國際史學(xué)界已經(jīng)開始從紙質(zhì)文獻(xiàn)的文字歷史敘述轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化歷史數(shù)據(jù)庫。

　　希羅多德的歷史數(shù)據(jù)庫[3]和中國歷史人物傳記數(shù)據(jù)庫(CBDB)[4]都嘗試把歷史的要素，諸如時(shí)間、人物、地點(diǎn)進(jìn)行詳細(xì)的描述與關(guān)聯(lián)，形成可檢索、可視化的歷史數(shù)據(jù)平臺(tái)。既可以作為學(xué)術(shù)研究的基礎(chǔ)平臺(tái)，又可以作為科普的窗口，用戶不需具備專家級(jí)的古典文獻(xiàn)的閱讀能力與豐富的歷史知識(shí)便可以使用，大大便利了學(xué)術(shù)研究，特別是跨學(xué)科研究[5]。

　　目前，這種中國古籍的數(shù)據(jù)庫的構(gòu)建和應(yīng)用仍存在三大問題亟待解決：

　�、僦袊偶獜淖謾z索走向詞檢索。由于古漢語沒有詞語邊界，要實(shí)現(xiàn)類似于英語的詞檢索功能，則必須進(jìn)行詞語的切分。例如，基于詞檢索“軍”時(shí)，只應(yīng)該出現(xiàn)“軍”作為一個(gè)詞的上下文，而不應(yīng)該出現(xiàn)“將軍”“護(hù)軍”等結(jié)果。②從專名標(biāo)引走向?qū)嶓w標(biāo)注。不少經(jīng)典古籍已經(jīng)人工標(biāo)引了人名、地名、書名等專名(專有名詞)，但是僅依靠橫線和波浪線兩種符號(hào)難以區(qū)分出不同類型的專名，更難以解決同名異指(如多個(gè)事物名稱相同)和異名同指(如一個(gè)人物多個(gè)名稱)問題。

　　例如，檢索“秦始皇”這個(gè)人物時(shí)，不僅要包含“秦始皇”這個(gè)字符串的上下文，還應(yīng)該得到這個(gè)人物的所有上下文，包括“嬴政”“!政”等。因而，全面梳理各種不同的人物、地點(diǎn)、時(shí)間等專名對應(yīng)的實(shí)體信息，并在文本中標(biāo)明每個(gè)實(shí)體的唯一代號(hào)，才能夠滿足后續(xù)細(xì)致的檢索和統(tǒng)計(jì)需要。③從全文檢索走向知識(shí)挖掘與可視化呈現(xiàn)�，F(xiàn)有的檢索平臺(tái)大都只提供基于字的檢索結(jié)果，而在人物、地點(diǎn)、時(shí)間等實(shí)體要素進(jìn)行標(biāo)注之后，可以借助數(shù)據(jù)挖掘技術(shù)，發(fā)掘出實(shí)體之間的關(guān)聯(lián)關(guān)系，再通過可視化方法直觀地展現(xiàn)出來。

　　因此，需要探索能夠?qū)崿F(xiàn)基于詞和實(shí)體的檢索與知識(shí)挖掘的人文知識(shí)庫構(gòu)建方法。本研究以文史價(jià)值極高的《資治通鑒·周秦漢紀(jì)》作為樣本，構(gòu)建數(shù)字人文知識(shí)庫和檢索系統(tǒng)。為了解決傳統(tǒng)的基于字符串的全文檢索存在的問題，將文本進(jìn)行了分詞與詞性標(biāo)注，從而實(shí)現(xiàn)基于詞的全文檢索。然后，進(jìn)一步標(biāo)注人物、地點(diǎn)的實(shí)體信息，并根據(jù)這些信息，借助可視化等技術(shù)，構(gòu)建《資治通鑒》數(shù)字人文檢索系統(tǒng)。在此基礎(chǔ)之上，對人物、地點(diǎn)實(shí)體以及詞匯進(jìn)行計(jì)量與數(shù)據(jù)挖掘，給人文學(xué)者提供一個(gè)突破傳統(tǒng)研究路徑的更加高效的古籍信息加工框架與深度開發(fā)路徑。

　　2研究現(xiàn)狀

　　《資治通鑒》以編年體方式記載了公元前403年至公元959年的歷史，是一部史學(xué)與文學(xué)價(jià)值極高的典籍，其研究多集中于版本、點(diǎn)校、注疏和文學(xué)歷史等方面。早在1956年，古籍出版社就出版了《資治通鑒》標(biāo)點(diǎn)本[6]，1988年董志翹對《資治通鑒》的標(biāo)點(diǎn)提出疑誤[7]。注疏方面分為3類：專題注釋、節(jié)本注釋和全書注釋[8]。陳剩勇從政治功能和倫理功能角度評(píng)估了史學(xué)功能[9]，趙正陽從史學(xué)觀角度概述了其史學(xué)價(jià)值和貢獻(xiàn)[10]。

　　古籍的數(shù)字化研究工作與基于字符的全文檢索已經(jīng)成熟，有一批古籍全文檢索數(shù)據(jù)庫[1]。特別是2014年，中華書局推出了出版級(jí)的高質(zhì)量《中華經(jīng)典古籍庫》[11]，收錄了《資治通鑒》，功能有閱讀全文、紀(jì)年換算、人名索引。專名也進(jìn)行了標(biāo)引，加上了專名線，例如，人物、地點(diǎn)、官職名、民族名等加下劃線，書名加波浪線。古文分詞與詞性標(biāo)注也不斷展開[12]。古漢語雖然以單字詞為主，但是多字詞仍占了相當(dāng)?shù)谋壤罅康娜嗣�、職官、時(shí)間等均存在大量的多字詞。分詞之后，才可能實(shí)現(xiàn)詞的檢索。而名詞、動(dòng)詞、人名、時(shí)間等細(xì)類區(qū)分的詞類標(biāo)注，對于古漢語的研究有重要意義。

　　對于古籍檢索來說，也可以更好地區(qū)分一個(gè)詞的不同詞類。由于建設(shè)成本高，目前僅有千萬字級(jí)的語料庫。主要有南京師范大學(xué)的先秦語料庫[13]、中古漢語語料庫[14]和臺(tái)灣“中研院”的上古、中古、近代語料庫[15]。基于知識(shí)本體(ontology)方法的古籍內(nèi)容結(jié)構(gòu)化工作也已經(jīng)展開。中華書局主持開發(fā)了“二十四史”本體，以人名索引、人名詞典等資源，對4700萬字的二十四史中的人物、時(shí)間、地點(diǎn)等實(shí)體進(jìn)行了自動(dòng)提取和本體構(gòu)建[16]。

　　2007年，北京大學(xué)數(shù)據(jù)分析研究中心團(tuán)隊(duì)與中華書局合作，設(shè)計(jì)開發(fā)了“資治通鑒知識(shí)服務(wù)系統(tǒng)”[17]。該系統(tǒng)通過對時(shí)間、地點(diǎn)、人物等專有名詞進(jìn)行標(biāo)引，進(jìn)而對人物進(jìn)行相關(guān)性分析、時(shí)間分析等，是利用計(jì)算機(jī)分析技術(shù)對傳統(tǒng)古籍進(jìn)行知識(shí)挖掘的成功探索。2010年，彭煒明、宋繼華采用模式驅(qū)動(dòng)的方式，構(gòu)建了《資治通鑒》領(lǐng)域知識(shí)本體，并在此基礎(chǔ)之上實(shí)現(xiàn)了本體的查詢和可視化[18]。該項(xiàng)目更關(guān)注人物和事件的標(biāo)注，但缺乏對地點(diǎn)的標(biāo)注與分析。

　　這兩項(xiàng)《資治通鑒》知識(shí)庫的開發(fā)，均使用了知識(shí)本體技術(shù)。不過，由于自動(dòng)提取信息，導(dǎo)致實(shí)體的遺漏率較高，也沒有解決好異名同指和同名異指問題。對語言學(xué)詞匯信息標(biāo)注(如分詞、詞類信息)和地理GIS信息等標(biāo)注不足，有待更加全面的信息。近年來，數(shù)字人文逐漸成為國內(nèi)外人文研究的新方法。哈佛大學(xué)和復(fù)旦大學(xué)等合作開發(fā)了“中國歷史地理信息系統(tǒng)CHGIS”，提供了一個(gè)可以進(jìn)行空間分析和時(shí)間統(tǒng)計(jì)的數(shù)字地圖平臺(tái)[19]。

　　北京大學(xué)通過數(shù)字人文手段研究了唐代300年仕人的遷徙路線、宋到明幾百年的儒家理學(xué)傳承路線，開發(fā)了禪宗法傳承可視化平臺(tái)[20]。南京師范大學(xué)開發(fā)了《左傳》[21]《史記·本紀(jì)》[22]兩個(gè)包含詞匯、人名、地名等實(shí)體與GIS信息的歷史人文知識(shí)庫，可以滿足更為多樣的檢索與知識(shí)服務(wù)。

　　綜上，古籍的電子化與字符級(jí)全文檢索已經(jīng)成熟，古文的分詞與詞性標(biāo)注方法接近成熟，知識(shí)本體構(gòu)建與分析逐步展開，基于詞的全文檢索成為未來主流的發(fā)展方向，時(shí)間、人物關(guān)系、GIS等信息也越來越受到重視�！顿Y治通鑒》等古籍專書知識(shí)庫的建設(shè)亟需建立基于文本的實(shí)體標(biāo)注，以實(shí)現(xiàn)更完整的信息整合與更多樣、更深入的知識(shí)計(jì)量、挖掘與服務(wù)。

　　3《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫的構(gòu)建

　　《資治通鑒》的篇幅巨大，本文選取了最前面的周、秦、漢三代的數(shù)據(jù)進(jìn)行建設(shè)，目的是為了先解決最早期的部分，并可以與記載內(nèi)容相似的《史記》《左傳》進(jìn)行對比分析�？紤]到基于字的全文檢索或自動(dòng)構(gòu)建知識(shí)本體存在的問題，本研究嘗試基于詞語和實(shí)體的、地毯式的全文標(biāo)注，以整合更多的信息，進(jìn)行知識(shí)挖掘與可視化。實(shí)體標(biāo)注目前僅限于人物和地點(diǎn)。

　　給出了全文標(biāo)注的3個(gè)層次，在原始文本的基礎(chǔ)上，進(jìn)行詞語的切分(用空格作為詞界)、詞性標(biāo)注(名詞、動(dòng)詞、標(biāo)點(diǎn)等)和實(shí)體ID(編號(hào))的標(biāo)注。這樣每句話中的每個(gè)詞都有了豐富的信息，通過標(biāo)明人名、地名的ID號(hào)，解決同名異指和異名同指的問題。人名和地名對應(yīng)的ID分別取自人物信息表和地名信息表，并與《左傳》《史記·本紀(jì)》知識(shí)庫中的實(shí)體ID保持相通。在標(biāo)注時(shí)，沿用兩者的人物實(shí)體表中的數(shù)據(jù)，新數(shù)據(jù)則分配新的ID進(jìn)行信息填寫和標(biāo)注。

　　3.1數(shù)據(jù)來源

　　《資治通鑒》的底本為繁體字，電子版全文294卷，總字?jǐn)?shù)約300萬字。本研究主要參照中華書局1956年本[23]進(jìn)行�？�。目前，完成了周、秦、漢3個(gè)朝代共計(jì)68卷(60萬字)的文本�？迸c標(biāo)注工作。

　　3.2分詞與詞性標(biāo)注

　　古文分詞和詞性標(biāo)注工作，耗時(shí)耗力。本文采用了機(jī)器自動(dòng)標(biāo)注，然后輔以人工校正的方式，進(jìn)度大為加快。首先，采用了陳小荷等制定的分詞與詞類標(biāo)記集[13]，使用南京師范大學(xué)古漢語詞性標(biāo)注系統(tǒng)[24]進(jìn)行了自動(dòng)分詞與詞性標(biāo)注，該系統(tǒng)的整體正確率在85%以上，然后進(jìn)行了全面的人工校對，形成高質(zhì)量的標(biāo)注文本。

　　3.3實(shí)體信息標(biāo)注

　　3.3.1人物信息

　　《資治通鑒》中人物的名號(hào)往往有多個(gè)，并且不同人物的同名現(xiàn)象也相當(dāng)普遍，需根據(jù)各種注疏文獻(xiàn)和相關(guān)資料進(jìn)行辨析。為了辨識(shí)清楚每個(gè)人物，本文給每個(gè)人物實(shí)體分配一個(gè)唯一的ID號(hào)(即編號(hào))。如果這個(gè)人物在《左傳》和《史記》出現(xiàn)過，則沿用這兩部書的人物ID。對于新的人物，則設(shè)立新的ID。人物信息還包括人物的各種名稱、性別和國別。由于一個(gè)人物在古書中名稱可能較多，為了便于后續(xù)的檢索和可視化顯示，我們還設(shè)置了后世使用較多的“人物主名”作為人物的正名。“人物主名”并不一定來自“人物名”，而可能是后世采用的較為完整的名稱。“叔孫州仇”的人物ID為131，有4個(gè)名字，性別為男，國別為魯。

　　3.3.2地點(diǎn)信息與人物信息標(biāo)注相似，地點(diǎn)也沿用了《左傳》和《史記》中的信息，對于《資治通鑒》中新出現(xiàn)的地名，則予以新的ID，并填寫地理實(shí)體的信息，包括地名的類別(國家、諸侯國、河流、山川等)、今天的所在地、考據(jù)的文獻(xiàn)出處，然后根據(jù)今天所在地查出百度地圖的地理GIS坐標(biāo)。主要參考《中國歷史地圖集》[25]、中國歷史地理數(shù)據(jù)庫CHGIS[19]等資料。

　　3.3.3時(shí)間信息

　　根據(jù)《先秦諸子系年》等資料[26]，將每一個(gè)篇目的年號(hào)，對應(yīng)到公元紀(jì)年上。例如，“卷第一·周紀(jì)一·二十一年”對應(yīng)于“公元前381年”。

　　3.4數(shù)據(jù)庫架構(gòu)

　　基于《資治通鑒》電子化全文、分詞和詞性標(biāo)注以及實(shí)體信息標(biāo)注，構(gòu)建出《資治通鑒·周秦漢紀(jì)》數(shù)據(jù)庫。主要包括人物實(shí)體、地點(diǎn)實(shí)體表、文本表、標(biāo)注文本表、人物同現(xiàn)表、人地同現(xiàn)表共計(jì)6張數(shù)據(jù)表。根據(jù)人物實(shí)體表和地點(diǎn)實(shí)體表中的ID，將正文中的每個(gè)人物和地名都標(biāo)注了其ID信息。然后，同一個(gè)句子中，不同的人物會(huì)一起同現(xiàn)，人物和地點(diǎn)也會(huì)同時(shí)出現(xiàn)。我們根據(jù)這兩種同現(xiàn)信息，在標(biāo)注好的“標(biāo)注文本表”上，提取出“人物同現(xiàn)表”和“人地同現(xiàn)表”。

　　4基于詞和實(shí)體的全文檢索

　　4.1基于詞和實(shí)體的檢索框架

　　為了讓平臺(tái)服務(wù)社會(huì)，本研究使用Web開發(fā)技術(shù)，構(gòu)建了《資治通鑒》在線檢索系統(tǒng)。除了基于詞的全文檢索功能外，還基于底層的結(jié)構(gòu)化的數(shù)字人文知識(shí)庫，提供了人物、地點(diǎn)、詞性等多種查詢方式。

　　4.2全文實(shí)體檢索

　　與傳統(tǒng)的基于字符串匹配的全文檢索方式不同，全文實(shí)體檢索是建立在具有實(shí)體標(biāo)注信息的文本之上的一種更加精確的、基于詞和實(shí)體的檢索方式。這種方式避免了字符檢索生硬匹配造成檢索冗余、缺漏與錯(cuò)配問題。例如給出了“軍”基于詞的結(jié)果，就不會(huì)再出現(xiàn)包含在“將軍”“北軍”“護(hù)軍”等詞中的情況，從2098個(gè)結(jié)果，減少到1872個(gè)。

　　4.3人物檢索

　　人物檢索功能主要提供了人物的基本信息的查詢，主要包括人物的主名、別名、性別、國別信息，并且能與《左傳》和《史記·本紀(jì)》知識(shí)庫進(jìn)行聯(lián)動(dòng)，展示該人物在《左傳》和《史記·本紀(jì)》中的出現(xiàn)情況。例如在檢索“漢武帝”時(shí)，系統(tǒng)根據(jù)人物ID進(jìn)行全文檢索，可以得到“武帝”“劉徹”等結(jié)果，而不僅限于包含“漢武帝”的段落。

　　此外，人物地圖檢索功能基于人物與地點(diǎn)的同現(xiàn)數(shù)據(jù)，借助百度地圖實(shí)現(xiàn)人物可能去過的地點(diǎn)展示，并基于人物與人物的同現(xiàn)數(shù)據(jù)，借助ECharts[27]技術(shù)實(shí)現(xiàn)人物交際圈的圖示。給出了漢武帝的人物主名、別稱、性別、國別以及在《史記·本紀(jì)》和《左傳》中出現(xiàn)的情況。

　　用人物同現(xiàn)數(shù)據(jù)近似展現(xiàn)了漢武帝的交際情況，圖的中心節(jié)點(diǎn)表示漢武帝，周圍節(jié)點(diǎn)表示與漢武帝在一個(gè)句子中同現(xiàn)的人物。在這些同現(xiàn)人物節(jié)點(diǎn)中，節(jié)點(diǎn)越大表示該人物與漢武帝同現(xiàn)的次數(shù)越多，人物關(guān)系就可能越密切。

　　4.4地點(diǎn)檢索

　　地點(diǎn)功能提供了地點(diǎn)實(shí)體的基本信息的查詢，主要包括地點(diǎn)的地名、類別、今天所在地，并且能與《左傳》和《史記·本紀(jì)》知識(shí)庫進(jìn)行聯(lián)動(dòng)，展示該地點(diǎn)在《左傳》和《史記·本紀(jì)》中的出現(xiàn)情況。此外，地點(diǎn)檢索功能基于地點(diǎn)實(shí)體表中的坐標(biāo)信息，借助百度地圖實(shí)現(xiàn)地點(diǎn)在現(xiàn)代地圖上地理位置的展示。例如，在檢索“長安”時(shí)，可以看到長安的地名、類別、今天所在地等信息，并能看到長安在現(xiàn)代地圖上的具體位置。

　　4.5詞性檢索

　　除了人物和地點(diǎn)的實(shí)體檢索之外，普通詞語也都進(jìn)行了分詞和詞性標(biāo)注，可以在詞性信息的支撐下，提供基于詞性的檢索和統(tǒng)計(jì)。詞性統(tǒng)計(jì)功能提供了詞性的相關(guān)信息，主要包括該詞性下的所有詞條，和借助ECharts繪制的該詞性不同詞條的詞頻條形。展示了檢索“v(動(dòng)詞)”得到的詞頻分布圖，可以方便古漢語研究者查看詞性信息。

　　5計(jì)量分析與知識(shí)挖掘

　　根據(jù)《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫和檢索系統(tǒng)，可以進(jìn)行更加深入的計(jì)量分析工作，獲得傳統(tǒng)定性分析難以得到的數(shù)據(jù)結(jié)果。在《資治通鑒·周秦漢紀(jì)》所包含的實(shí)體中，人物實(shí)體有4588個(gè)，地點(diǎn)實(shí)體有1451個(gè)。人物統(tǒng)計(jì)結(jié)果顯示，平均每個(gè)人物有1.95個(gè)名稱，有超一半的人物不止1個(gè)名稱，50%的人物有2-5個(gè)名稱，3%的人物有6個(gè)及以上的名稱。名稱最多的人物是漢高祖劉邦。因此，給每個(gè)人物使用唯一的ID編號(hào)來標(biāo)定是十分有必要的。下文將針對詞語、人物與地點(diǎn)實(shí)體展開大數(shù)據(jù)計(jì)量統(tǒng)計(jì)與可視化分析。

　　5.1詞頻統(tǒng)計(jì)

　　不同于傳統(tǒng)的文史分析，數(shù)字人文視域下可以利用能夠揭示或表達(dá)文本核心內(nèi)容的關(guān)鍵詞或主題詞出現(xiàn)的頻次高低來確定其主題和熱點(diǎn)�；谝褬�(biāo)注的分詞文本，可以得到詞頻統(tǒng)計(jì)結(jié)果。統(tǒng)計(jì)結(jié)果顯示，單字詞共有2610個(gè)，多字詞共有7970個(gè)。

　　其中“之”一詞出現(xiàn)的頻率最高，為5038次。不同于基于字的傳統(tǒng)研究，本研究在基于詞的語料上，可以統(tǒng)計(jì)出多字詞的分布情況。列出了詞頻排名前10的多字詞，這些詞多為實(shí)詞，且基本都和爭奪天下相關(guān)，例如“天下”“諸侯”“陛下”“將軍”等，在一定程度上反映了《資治通鑒》主要是圍繞爭奪天下與帝位記敘的。其中“天下”一詞出現(xiàn)的頻率最高，為569次。當(dāng)然，還可以利用詞語的信息，從歷時(shí)的角度來觀察漢語詞匯演化的過程，可以研究詞匯的動(dòng)態(tài)發(fā)展?fàn)顩r。

　　5.2實(shí)體關(guān)系的挖掘與3部史書橫向?qū)Ρ?/p>

　　5.2.1最“廣交”人物

　　在傳統(tǒng)的人物研究中，人物歷史地位的高低往往需要根據(jù)其在歷史事件中所扮演角色的輕重來衡量。這種評(píng)價(jià)方式雖然可行，但卻缺乏統(tǒng)一且客觀的標(biāo)準(zhǔn)。而通過定量統(tǒng)計(jì)人物同現(xiàn)次數(shù)的方式，可以近似地估計(jì)人物之間的交往關(guān)系，進(jìn)而估計(jì)人物的歷史地位。

　　同現(xiàn)人物越多，交際也就越廣，所具有的地位也就可能更高。橫向?qū)Ρ取蹲髠鳌泛汀妒酚?middot;本紀(jì)》的數(shù)據(jù)，能夠明顯地看出3本史書的異同。為了更好地和《史記》對比，我們將《資治通鑒》的數(shù)據(jù)截止到漢武帝時(shí)期。列出了《資治通鑒·周秦漢紀(jì)》最“廣交”的十大人物，其中前3名為漢高祖、漢武帝和項(xiàng)羽。3本書相對照，可以看出《史記·本紀(jì)》與《資治通鑒·周秦漢紀(jì)》更偏重對秦漢時(shí)期的記載。

　　5.2.2人物游歷距離

　　《資治通鑒·周秦漢紀(jì)》記錄了大量的時(shí)間、人物和地點(diǎn)信息。借助人物與地點(diǎn)實(shí)體的同現(xiàn)信息可以近似地估計(jì)人物可能的游歷地點(diǎn)。在《資治通鑒·周秦漢紀(jì)》游歷距離最多的10位人物中，4位為君王，3位為軍事家，2位為開國元?jiǎng)祝?位為外交家。其中游歷距離最多的漢高祖，距離有14萬千米之多，可見漢高祖征戰(zhàn)開國的一生。此外，通過聯(lián)動(dòng)《左傳》和《史記·本紀(jì)》數(shù)據(jù)庫，也可以比較不同史書中人物游歷的差異，進(jìn)而挖掘兩本史書在內(nèi)容和風(fēng)格上的不同傾向性。借助這種方法，雖然不能進(jìn)行精確的計(jì)算，但能大致地估計(jì)出人物游歷的軌跡與行程，輔助分析人物的生平、出行距離等問題。

　　5.3實(shí)體歷時(shí)統(tǒng)計(jì)分析

　　5.3.1多事之秋———實(shí)體歷時(shí)分布

　　從文本中實(shí)體所出現(xiàn)的頻次密度的角度來分析可以更好地呈現(xiàn)不同時(shí)間段之間的差異性。將《資治通鑒·周秦漢紀(jì)》所記載實(shí)體分別對應(yīng)到公元紀(jì)年法，可以得到其所對應(yīng)的公元前403年至公元前87年間的實(shí)體曲線。

　　藍(lán)色曲線表示相應(yīng)時(shí)間的人物數(shù)量，橙色曲線表示相應(yīng)時(shí)間的地點(diǎn)數(shù)量�？梢园l(fā)現(xiàn)，在整個(gè)時(shí)間區(qū)域內(nèi)，人物略多于地點(diǎn)，且存在時(shí)間差異性。人物和地點(diǎn)均在公元前207年前后達(dá)到峰值，反映了歷史上具有重大決戰(zhàn)性的巨鹿之戰(zhàn);人物和地點(diǎn)曲線在公元前154年前后同時(shí)上升，反映了歷史上西漢規(guī)模最大的一次諸侯王國叛亂———七國之亂。通過在時(shí)空角度進(jìn)行分析的方法，可以快速地定位發(fā)生重大事件的歷史時(shí)代。

　　5.3.2風(fēng)云人物與風(fēng)云之地———特異性實(shí)體挖掘

　　《資治通鑒》是一部編年體通史，時(shí)間信息豐富。利用時(shí)間信息，可以挖掘出每個(gè)時(shí)代的文本中的特異成分。例如，可以利用特異性指標(biāo)TFIDF，來得到在不同時(shí)代舉足輕重的風(fēng)云人物與和風(fēng)云之地。TFIDF(TermFrequencyInverseDocumentationFrequency)算法是由G.Salton.提出來的用于信息檢索的算法[29]。TFIDF主要基于一個(gè)思想，即詞區(qū)分特定文本內(nèi)容的能力隨著其在該文本中出現(xiàn)的頻率的升高而提升(TF)，隨著所出現(xiàn)文本的范圍的擴(kuò)大而下降(IDF)。

　　因此，TFIDF越高，表明該詞匯的文本區(qū)分度或者說特異性越強(qiáng);TFIDF越弱，表明該詞匯的文本區(qū)分度或者說特異性越弱。同樣地，以相同的方式可以得到不同時(shí)代最重要的地點(diǎn)流變。可以發(fā)現(xiàn)，不同的地點(diǎn)隨著歷史的演變而此起彼伏地成為一個(gè)個(gè)時(shí)代的焦點(diǎn)，或是諸侯國都，或是兵家必爭之地，都成為時(shí)代更迭的印記。

　　6結(jié)語

　　在古籍?dāng)?shù)字化與全文檢索已普遍應(yīng)用的今天，如何綜合運(yùn)用數(shù)字人文的新技術(shù)和手段，充分利用我國種類內(nèi)容豐富的歷史文獻(xiàn)資源，在全文檢索的基礎(chǔ)上進(jìn)行可視化呈現(xiàn)和大數(shù)據(jù)分析，是當(dāng)今文學(xué)、歷史和圖書情報(bào)等領(lǐng)域的重要課題。本研究在數(shù)字人文的研究范式下，針對基于字的全文檢索存在的詞語邊界和實(shí)體概念不明問題，以及本體知識(shí)庫與原文脫節(jié)問題，提出使用全文詞語標(biāo)注的解決方案，嘗試建設(shè)了《資治通鑒·周秦漢紀(jì)》數(shù)字人文知識(shí)庫，對文本進(jìn)行了詞語切分、詞性標(biāo)注和實(shí)體信息的全文標(biāo)注。

　　其次，開發(fā)了基于詞和實(shí)體的全文檢索系統(tǒng)，包括人物檢索、地點(diǎn)檢索、詞性檢索等，并借助百度地圖和ECharts，可視化地展現(xiàn)了相關(guān)的人物游歷、地理信息和人物關(guān)系。然后進(jìn)行了計(jì)量分析與知識(shí)挖掘，窮盡統(tǒng)計(jì)了《資治通鑒·周秦漢紀(jì)》中的人物數(shù)量。對于實(shí)體進(jìn)行了多角度的關(guān)聯(lián)分析與挖掘，例如人物交際、人物游歷地圖、多事之秋、風(fēng)云人物地點(diǎn)等。還通過與《左傳》《史記·本紀(jì)》的比較，統(tǒng)計(jì)出3本書記述的人物差異。

　　在未來的工作中，我們將繼續(xù)做好以下研究工作：①擴(kuò)大數(shù)據(jù)規(guī)模，將整部《資治通鑒》標(biāo)注完整，并反復(fù)檢查校正。②繼續(xù)完善實(shí)體信息標(biāo)注，結(jié)合學(xué)界最新的考據(jù)成果，不斷修訂數(shù)據(jù)庫的內(nèi)容。同時(shí)，還需提高系統(tǒng)開放度，增加糾錯(cuò)與審核機(jī)制，吸引更多的專家學(xué)者參與到項(xiàng)目工作中來。實(shí)體標(biāo)注的對象也可以擴(kuò)展至官職、年號(hào)、器物等更多類型。③探索更多的知識(shí)統(tǒng)計(jì)與知識(shí)挖掘方法。實(shí)體之間的同現(xiàn)當(dāng)前還只是處于近似估計(jì)的階段，未來也可以優(yōu)化計(jì)算方法，提高計(jì)算的精確度。

　　此外，還可以考慮對人物關(guān)系和人地關(guān)系進(jìn)行更細(xì)致的分類。例如人物關(guān)系增加朋友、親屬、上級(jí)下屬等。④改進(jìn)檢索與數(shù)據(jù)可視化方式。如將當(dāng)前不同的檢索方式有機(jī)地進(jìn)行整合，提高檢索效率，提升當(dāng)前可視化的展示效果。⑤此外，還可以同圖書館、博物館數(shù)據(jù)庫聯(lián)通，將《資治通鑒》的文本信息與其他歷史文獻(xiàn)和館藏品進(jìn)行鏈接，將諸多歷史要素融于一體進(jìn)行呈現(xiàn)。

　　參考文獻(xiàn)：

　　[1]季培培.常見10種古籍全文數(shù)據(jù)庫的比較研究[J].圖書館學(xué)研究，2020(20)：71-80.

　　[2]劉煒，葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學(xué)報(bào)，2017，43(5)：32-41.

　　[3]TheOpenUniversity.Hestia[EB/0L].[2021-05-21].

　　[4]中國歷代人物傳記數(shù)據(jù)庫管理委員會(huì).中國歷代人物傳記數(shù)據(jù)庫項(xiàng)目(ChinaBiographicalDatabase，CBDB)[EB/0L].[2021-05-21].

　　[5]歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國圖書館學(xué)報(bào)，2016，42(2)：66-80.

　　作者：常博林1萬晨2李斌1陳欣雨1馮敏萱1王東波3

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng)：http://m.liangshanbai.cn/wslw/29141.html

上一篇：探究《老人與海》作品中的象征意義與語言特色

下一篇：基于機(jī)器學(xué)習(xí)的調(diào)度操作行為挖掘與推薦技術(shù)研究及應(yīng)用

期刊知識(shí)

安徽省一類、二類、三類、四類期2024-05-24

適合輔導(dǎo)員論文的期刊2019-09-18

主任醫(yī)師副主任醫(yī)師評(píng)審條件2016-05-19

參編教材怎么收服務(wù)費(fèi)2019-01-04

醫(yī)藥學(xué)的課題哪里能幫忙申請2020-01-07

論文知識(shí)

評(píng)職稱如何準(zhǔn)備自由答辯2016-08-22

低溫建筑技術(shù)期刊發(fā)表論文可以評(píng)中級(jí)職稱嗎2019-03-14

升高工發(fā)表論文有何要求2016-02-26

物理教師論文發(fā)表在哪個(gè)期刊更容易2017-12-14

在讀碩士的論文錄用機(jī)率高嗎2018-07-19

論文范文

論文框架結(jié)構(gòu)怎么寫2021-04-14

衛(wèi)生類好發(fā)的期刊2020-12-04

水科學(xué)與工程技術(shù)雜志范圍2021-07-19

中文核心終審要幾位專家評(píng)審2020-07-24

大學(xué)講師評(píng)職稱有什么要求2019-03-11

職稱評(píng)審

律師評(píng)職稱文章有哪些要求2016-11-29

鐵路或火車方面的雜志有哪些2019-03-08

安徽省初中語文論文發(fā)表2018-10-30

發(fā)表機(jī)械論文期刊有哪些2019-05-10

農(nóng)業(yè)類綜述論文投哪個(gè)期刊好錄用2017-06-01

職稱教著專利

論文發(fā)表期刊咨詢

基層建設(shè)

環(huán)境科學(xué)與管理

水電能源科學(xué)

《計(jì)算機(jī)仿真》

《教育評(píng)論》

<noscript id="uekyk"><optgroup id="uekyk"><blockquote id="uekyk"></blockquote></optgroup></noscript>