本文摘要:摘要目錄是組織與利用古籍資源的重要工具,也是圖書情報(bào)學(xué)科的重點(diǎn)研究對(duì)象;ブc別裁作為古典目錄學(xué)中的兩種輔助方法,能在深入剖析文獻(xiàn)內(nèi)容特征的基礎(chǔ)上,根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系中,達(dá)到類例既分,學(xué)術(shù)自明的效果。本文將互著與別裁映
摘要目錄是組織與利用古籍資源的重要工具,也是圖書情報(bào)學(xué)科的重點(diǎn)研究對(duì)象。互著與別裁作為古典目錄學(xué)中的兩種輔助方法,能在深入剖析文獻(xiàn)內(nèi)容特征的基礎(chǔ)上,根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系中,達(dá)到“類例既分,學(xué)術(shù)自明”的效果。本文將互著與別裁映射為文本挖掘中的文本分類問題,提出基于機(jī)器學(xué)習(xí)以實(shí)現(xiàn)互著與別裁的方法框架,為古籍圖書在目錄體系中的多類目記載貢獻(xiàn)對(duì)策。本文首先利用TextCNN與BERT兩種機(jī)器學(xué)習(xí)模型對(duì)先秦諸子六家十部典籍文本進(jìn)行分類訓(xùn)練,結(jié)果顯示BERT優(yōu)于TextCNN,可以達(dá)到91.64%的分類準(zhǔn)確率;之后用微調(diào)訓(xùn)練后的BERT模型對(duì)《荀子》與《管子》進(jìn)行篇、章粒度的分類判斷,最終得出這兩部圖書各篇章互著與別裁的結(jié)果。本研究展現(xiàn)了在數(shù)字人文視域下,數(shù)字技術(shù)對(duì)古典目錄學(xué)、古典文獻(xiàn)學(xué)以及學(xué)術(shù)史研究的應(yīng)用價(jià)值。
關(guān)鍵詞古籍目錄互著別裁機(jī)器學(xué)習(xí)數(shù)字人文
引言
我國(guó)古典目錄學(xué)歷史悠久,具有“辨章學(xué)術(shù),考鏡源流”的學(xué)術(shù)價(jià)值,至今仍是“學(xué)中要緊事”[1],對(duì)古籍資源的組織與利用、古籍?dāng)?shù)據(jù)庫的設(shè)計(jì)與開發(fā)、古籍聯(lián)合目錄的建設(shè)與統(tǒng)一等具有重要作用;ブc別裁作為古典目錄學(xué)的兩種輔助方法,能在剖析文獻(xiàn)內(nèi)容的基礎(chǔ)上,根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系的多個(gè)類目下,達(dá)到“類例既分,學(xué)術(shù)自明”的效果,曾應(yīng)用于《七略》《文獻(xiàn)通考·經(jīng)籍考》《澹生堂書目》《直齋書錄解題》《書目例略》《百川書志》《藝文類聚》等書目中[2-4]。
但互著與別裁的傳統(tǒng)實(shí)現(xiàn)策略主要依托于人工,這不僅對(duì)人力和學(xué)術(shù)素養(yǎng)有較高要求,而且存在主觀性較強(qiáng)或難以準(zhǔn)確判斷的問題,以致無法在海量古籍上得到普遍運(yùn)用。本文在數(shù)字人文視角下引入機(jī)器學(xué)習(xí)方法,為互著與別裁提供新的實(shí)現(xiàn)策略。在古籍?dāng)?shù)字化的基礎(chǔ)上智能化地實(shí)現(xiàn)互著與別裁,可以高效處理更多古籍資源與更多類目的對(duì)應(yīng)關(guān)系,也可以深入到篇章做出細(xì)粒度的分類判斷。這不僅能夠拓展互著與別裁的理論與實(shí)踐邊界,而且能夠提高古籍資源的組織與利用效率,為數(shù)字環(huán)境下的“即類求書,因書究學(xué)”提供量化保障。
在新文科背景下,該方法還可以為人文研究提供新的分析維度,助力發(fā)現(xiàn)新問題。本文首先提出基于機(jī)器學(xué)習(xí)以實(shí)現(xiàn)互著與別裁的方法框架,之后分別利用TextCNN和BERT兩種機(jī)器學(xué)習(xí)模型對(duì)先秦諸子六家十部典籍文本進(jìn)行分類訓(xùn)練,讓機(jī)器學(xué)習(xí)各家類別與典籍文本的對(duì)應(yīng)關(guān)系,再選取訓(xùn)練后分類效果更好的BERT模型對(duì)《荀子》和《管子》分別進(jìn)行分類判斷,最終依據(jù)分類結(jié)果提出這兩部典籍的互著與別裁建議。
1研究綜述
互著與別裁的思想早見于明代祁承㸁《澹生堂藏書目錄·庚申整書略例》的“互”與“通”,后于清代章學(xué)誠(chéng)《校讎通義》中正式提出[5,6]。互著與別裁雖然作用對(duì)象不同,但二者的原理和方法相通,即在分類編目時(shí),將內(nèi)容廣泛的或是具有多個(gè)主題的圖書及篇章全面、科學(xué)地記載于目錄體系內(nèi)的多個(gè)類目中,實(shí)現(xiàn)目錄辨考學(xué)術(shù)和指導(dǎo)文獻(xiàn)檢閱的多重作用,對(duì)于實(shí)現(xiàn)古典目錄學(xué)“辨章學(xué)術(shù),考鏡源流”具有重要價(jià)值[3,7]。
同時(shí)也要辯證認(rèn)識(shí)到,互著與別裁的傳統(tǒng)實(shí)現(xiàn)方法具有時(shí)代局限性,在客觀性、準(zhǔn)確性、效率等方面均存在問題。如徐召勛在1979年就指出:“假如一本書包括甲、乙兩個(gè)類的內(nèi)容,而且各占一半,這究竟是用互著法還是用別裁法呢?還有的書包括兩個(gè)類的內(nèi)容,不是一半對(duì)一半,而是一大半對(duì)一小半。這樣的書又該如何處理呢?”對(duì)此他的回答是“結(jié)合具體情況而定”[8]。實(shí)際上,在回答這個(gè)問題前,首先需要解決的是如何量化書中不同類別所占的比例,即何為“一半”“一大半”“一小半”;谌斯ぶ饔^判定的方法很難回答這個(gè)問題,這意味著過去的互著與別裁判斷可能存在錯(cuò)誤。
然而,這一問題在近三十年并沒有得到學(xué)者們的充分重視,近年有關(guān)互著與別裁的研究多集中于再論其內(nèi)涵[9]、追溯其起源[2,3]以及辨析書目應(yīng)用實(shí)例[4],幾乎沒有學(xué)者再次審視互著與別裁在實(shí)現(xiàn)方法上的問題,也沒有將量化方法引入其中。近五年來,隨著“數(shù)字人文”文理交叉融合理念的推廣,有學(xué)者逐步意識(shí)到可以利用數(shù)字技術(shù)來完善并豐富古典目錄學(xué)的理論體系和實(shí)踐方法。在理論方面,陳志新指出,目錄學(xué)的未來要依托于大數(shù)據(jù)和人工智能等技術(shù)來創(chuàng)新和進(jìn)步,實(shí)現(xiàn)過去依靠大學(xué)問家也無法有效完成的任務(wù)[10]。在實(shí)踐方面,李瑞龍和李明杰提出利用數(shù)字技術(shù)實(shí)現(xiàn)古典目錄學(xué)辨考學(xué)術(shù)的思想,但其在技術(shù)探索時(shí)更側(cè)重于梳理學(xué)術(shù)源流,而跳過了更為基礎(chǔ)的分類圖書環(huán)節(jié)[11]。
相關(guān)地,李惠等構(gòu)造了古籍提要共現(xiàn)網(wǎng)絡(luò)并探討了提要推薦對(duì)古籍知識(shí)發(fā)現(xiàn)的潛力[12]。由此,已有數(shù)位學(xué)者通過理論探討或?qū)嵺`證明數(shù)字技術(shù)對(duì)古典目錄學(xué)的價(jià)值。若從技術(shù)的角度將互著與別裁理解為文本分類問題,那么國(guó)內(nèi)外已有較為豐富的研究成果可以借鑒。文本分類的核心任務(wù)是將文檔自動(dòng)劃分到預(yù)先定義好的類別中,其研究可追溯至1960年代Maron根據(jù)受控詞表辨識(shí)文檔主題、自動(dòng)分類文檔并索引科學(xué)文獻(xiàn)[13]。
目前機(jī)器學(xué)習(xí)是文本分類的主要方法,并且在英語和現(xiàn)代漢語等語境下有較為成熟的應(yīng)用,例如用于垃圾郵件識(shí)別、網(wǎng)頁主題分類、文本情感分類、文本風(fēng)格分類等。在圖書與情報(bào)領(lǐng)域,一個(gè)典型的應(yīng)用場(chǎng)景是利用主題詞等信息實(shí)現(xiàn)圖書自動(dòng)分類標(biāo)引,如王昊等利用機(jī)器學(xué)習(xí)模型構(gòu)建多層次圖書自動(dòng)分類系統(tǒng),根據(jù)題名、關(guān)鍵字和文摘信息自動(dòng)給出中圖法分類號(hào)[14]。隨著數(shù)字化建設(shè)帶來的古籍?dāng)?shù)字資源的增長(zhǎng),有學(xué)者開始將這一技術(shù)運(yùn)用在古籍文本分類上,例如張馨怡利用詞向量技術(shù)表示古詩文本,再通過TextCNN模型將古詩判斷為愛國(guó)類別或其他類別[15]。但尚未有研究利用新技術(shù)來解決古典目錄學(xué)中互著與別裁存在的問題。
2基于機(jī)器學(xué)習(xí)的互著與別裁方法框架
本文提出一套基于機(jī)器學(xué)習(xí)的互著與別裁方法框架。該框架整體邏輯為:在古典目錄學(xué)已有研究經(jīng)驗(yàn)與成果的基礎(chǔ)上,由互著與別裁的內(nèi)涵和原則來統(tǒng)領(lǐng)整個(gè)方法。根據(jù)具體的研究需求或目錄需求確定文獻(xiàn)范圍,通過對(duì)多源異構(gòu)語料的采集、清洗與融合,最終構(gòu)建成研究所需的語料庫。
利用語料庫內(nèi)結(jié)構(gòu)化的文本和類別標(biāo)簽來訓(xùn)練分類器,再利用分類器來判別待分類文本的類別概率,并根據(jù)概率閾值為文本做出分類建議。若文本是以書為單位,則對(duì)應(yīng)于互著標(biāo)引,若文本是以篇章為單位,則對(duì)應(yīng)于別裁標(biāo)引。最終結(jié)果可應(yīng)用于目錄補(bǔ)充、學(xué)術(shù)史研究、圖書編目以及古籍?dāng)?shù)據(jù)庫按類瀏覽和索引等方面。
3分類模型訓(xùn)練實(shí)驗(yàn)
為檢驗(yàn)機(jī)器學(xué)習(xí)框架是否可以有效判別古籍類目,本文以四部的子部為對(duì)象,以先秦諸子六家為類目,以各家代表典籍為文本訓(xùn)練分類模型,并分析分類結(jié)果的準(zhǔn)確性。
3.1實(shí)驗(yàn)數(shù)據(jù)
代表典籍的選定主要參考《漢書·藝文志》中記載的先秦諸子典籍,并參考梁?jiǎn)⒊凇稘h書·藝文志·諸子略考釋》中對(duì)《漢書·藝文志·諸子略》中學(xué)派、學(xué)者、著述的存、佚、偽考釋結(jié)論[16]。本文在學(xué)衡數(shù)據(jù)網(wǎng)站①下載上述典籍的HTML格式文本,用Python調(diào)用bs4中的BeautifulSoup4.4.0解析文件,將其轉(zhuǎn)換為以類目、書名、篇、章、正文組織的結(jié)構(gòu)化文本存儲(chǔ)。經(jīng)過數(shù)據(jù)清洗后,將3220條訓(xùn)練數(shù)據(jù)依照8:2的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集。
3.2模型介紹
本文使用TextCNN和BERT兩種模型進(jìn)行分類實(shí)驗(yàn)。模型基于文本語義建模,將句子、段落向量化地表示,據(jù)此訓(xùn)練神經(jīng)網(wǎng)絡(luò)可以捕捉到豐富的語義及結(jié)構(gòu)信息,是目前常用的文本分類方法。TextCNN模型需要先分詞再訓(xùn)練詞向量,因古文分詞技術(shù)尚不成熟,故本文分別嘗試Jieba和單字兩種分詞方法,然后利用word2vec的CBOW模型訓(xùn)練詞向量。
BERT模型是采用雙向深度Transformer編碼器的預(yù)訓(xùn)練語言模型[17,18],無需分詞即可將句子或段落向量化表示,本文在BERT-Base-Chinese預(yù)訓(xùn)練模型的基礎(chǔ)上繼續(xù)微調(diào)訓(xùn)練。兩種模型分別在原始語料、去標(biāo)點(diǎn)語料、去標(biāo)點(diǎn)和停用詞語料上各重復(fù)運(yùn)行5次,每次隨機(jī)劃分訓(xùn)練集與驗(yàn)證集,取5次中的train-accuracy、val-accuracy、F1的平均值和最優(yōu)值進(jìn)行比較。
3.3分類評(píng)價(jià)
實(shí)驗(yàn)結(jié)果表明,在其他超參數(shù)相同的情況下,TextCNN與BERT均在不過濾標(biāo)點(diǎn)和停用詞的原始語料上達(dá)到最優(yōu)分類效果,預(yù)處理復(fù)雜度的提高反而會(huì)帶來準(zhǔn)確率和F1值較大幅度的下降,這一特點(diǎn)在利用Jieba分詞訓(xùn)練TextCNN分類模型時(shí)尤為顯著,在過濾掉標(biāo)點(diǎn)和停用詞后該分類模型平均準(zhǔn)確率由61.49%下降到31.64%。
這一現(xiàn)象說明古文的預(yù)處理策略會(huì)在較大程度上影響分類模型的效果,對(duì)于本文選取的先秦諸子語料而言,保留標(biāo)點(diǎn)與虛詞可以有效提高分類模型訓(xùn)練效果。這一發(fā)現(xiàn)驗(yàn)證了Uysal和Gunal此前的研究結(jié)論,他們利用SVM模型分別在英語和土耳其語語料上訓(xùn)練分類器,發(fā)現(xiàn)保留停用詞的語料預(yù)處理策略可以獲得最高的準(zhǔn)確率[19]。對(duì)比BERT和TextCNN可以發(fā)現(xiàn),BERT的分類效果明顯好于TextCNN的分類效果,在原始語料上BERT的F1值為91.91%,遠(yuǎn)高于TextCNN-Jieba的59.52%。
BERT的另一個(gè)優(yōu)勢(shì)在于無需分詞,以單字為單元編碼訓(xùn)練就可以取得較高的分類準(zhǔn)確率,規(guī)避了目前古文分詞不成熟的問題。綜上,在原始文本上,BERT分類訓(xùn)練可以達(dá)到最優(yōu)的效果,其平均準(zhǔn)確率可以達(dá)到91.64%,這說明預(yù)訓(xùn)練語言模型可以基于古籍文本有效分辨先秦不同學(xué)派的典籍。下文將進(jìn)一步利用在這十部典籍上微調(diào)訓(xùn)練后的BERT模型對(duì)《荀子》與《管子》做互著與別裁分析。
4互著與別裁實(shí)驗(yàn)
4.1《荀子》實(shí)驗(yàn)與討論
《荀子》位于目錄體系中的儒家類,但其學(xué)派歸屬問題始終是重要研究?jī)?nèi)容。唐代韓愈指出荀子思想“不粹”,宋代二程及朱熹等理學(xué)家認(rèn)為荀子思想“極偏頗”并將其歸為法家,現(xiàn)在也仍有儒家說、法家說、雜家說等觀點(diǎn)并存[20]。本研究利用機(jī)器學(xué)習(xí)方法對(duì)《荀子》做互著與別裁探索,可以為該問題的解決提供新的維度。
4.1.1《荀子》互著結(jié)果及討論
將《荀子》511個(gè)章節(jié)文本輸入BERT模型后可以得到各條文本的分類結(jié)果,將各條文本劃分到概率最大的類別中。若將各條文本對(duì)應(yīng)于各學(xué)派的概率進(jìn)行統(tǒng)計(jì)匯總。
《荀子》最接近法家與儒家,同時(shí)也兼及其它學(xué)派,這與傳統(tǒng)研究結(jié)論相符。對(duì)于儒法之爭(zhēng)的問題,分類模型將更多的條目判斷為法家,揭示出《荀子》更接近以《韓非子》和《商君書》代表的法家而非以《論語》和《孟子》代表的儒家。本文以“均值比較”確定互著閾值,即若文本屬于某一類的概率超過平均分類的概率,則可判斷文本屬于該類。經(jīng)計(jì)算,法家與儒家的概率大于16.67%,分別為46.68%和24.95%,故將《荀子》在法家和儒家兩個(gè)類目中做互著標(biāo)記。此互著結(jié)果體現(xiàn)了荀子“禮法并施”的思想特征。
荀子在繼承儒家的禮制思想的同時(shí),也由性惡論的觀點(diǎn)出發(fā),認(rèn)為刑、罰等法家手段是治國(guó)所必需,如《荀子·勸學(xué)》篇“禮者,法之大分,類之綱紀(jì)也”[21]。這一互著結(jié)果也呼應(yīng)了荀子研究中一直存在的儒法之辨。呂思勉在《經(jīng)子解題》中評(píng)價(jià)“語其宗旨,實(shí)與法家最近,而又蒙儒家之面目者也”[22];趙法生認(rèn)為荀子屬于受儒家影響的法家,即“儒法”[23];王正提出荀子的“法”同法家的“法”有所不同,是帶有法家因素的儒家,最多稱為“法儒”[24]。本文通過機(jī)器學(xué)習(xí)模型得到的量化結(jié)果也如實(shí)反映出這一特點(diǎn)。
4.1.2《荀子》別裁結(jié)果及討論
本文借助由機(jī)器學(xué)習(xí)模型得到的二維熱力圖分析《荀子》內(nèi)部篇章所屬學(xué)派,由此做出別裁判斷。每一篇對(duì)應(yīng)六個(gè)學(xué)派的概率和為1,具體對(duì)應(yīng)每個(gè)學(xué)派的概率等于該篇中各章節(jié)對(duì)應(yīng)各學(xué)派概率的平均值,顏色越深即概率越大,越接近該類目。在《荀子》的絕大多數(shù)篇中,法家對(duì)應(yīng)顏色最深,說明這些篇更接近于法家,而儒家、墨家、道家次之,與互著結(jié)果一致。若假定《荀子》互著于法家和儒家,可以為《荀子》三十二篇做出別裁標(biāo)注。
雖然此前未有學(xué)者將《荀子》三十二篇的每一篇都分析思想歸屬,而本文所給出的別裁建議也未必絕對(duì)準(zhǔn)確,但若將傳統(tǒng)與數(shù)字化兩種方法得到的結(jié)論相比較,也許可以通過“三角論證”取得一些新的突破。對(duì)于本文所列舉的道家篇,趙吉惠在《荀子非儒家辨》中列舉《天論》《勸學(xué)》《解蔽》《儒效》《正名》篇文本論述荀子的道家思想傾向[25],李剛興列舉《天論》和《解蔽》論述荀子對(duì)道家思想的吸收與改造[26],許倩撰文論述《解蔽》中的道家思想[27],雷震和郭成杰從養(yǎng)生觀的角度論述《修身》篇同老莊的相似之處[28]。
對(duì)于本文所列舉的墨家篇,劉寶春指出《大略》《不茍》《榮辱》《富國(guó)》《君德》《王霸》《儒效》《強(qiáng)國(guó)》《君子》《君道》《臣道》《正論》《勸學(xué)》《性惡論》《成相》中或多或少帶有墨子“利民”“貴義”“尚賢”“節(jié)用”“所染”思想[29],趙吉惠也指出《榮辱》篇有墨家早期的義利觀體現(xiàn)[25]。對(duì)于本文所列舉的兵家篇,《議兵》是荀子軍事思想的主要體現(xiàn),也是學(xué)者們研究荀子軍事思想的主要依據(jù)[30,31]。
此外,模型揭示出以《大略》為分界,《荀子》前后文本存在“斷層”,即前二十六篇更側(cè)重法家思想,后六篇側(cè)重儒家思想!盾髯印泛罅罅恳隹鬃蛹暗茏友哉摚瑑(nèi)容涵蓋仁、禮、義、利、孝道等儒家觀念。唐代楊倞指出,《大略》《宥坐》《子道》《法行》《哀公》《堯問》并非荀子本人所作,稱《大略》篇為“弟子雜錄荀卿之語”,《宥坐》《子道》《法行》《哀公》《堯問》五篇“皆荀卿及弟子所引記、傳雜事”[32]。
董志安指出后五篇“與荀卿基本學(xué)說不盡相符,而多少帶有其它儒家派別的思想痕跡”,判斷后五篇既不是出自荀子本人,也不是出自荀子傳授[33]。廖名春認(rèn)為,《荀子》后五篇包括荀子整理和纂集的資料及弟子之作,提出考察荀子思想應(yīng)主要以前二十七篇為依據(jù)[34]。本文模型發(fā)現(xiàn)的“斷層”現(xiàn)象揭示出《荀子》文本前后思想的差異,與上述傳統(tǒng)研究結(jié)論相符,能對(duì)此類研究形成有益補(bǔ)充。
4.2《管子》實(shí)驗(yàn)與討論
《管子》是對(duì)管仲學(xué)派思想的記載,書中記載的思想較為復(fù)雜,涉及多個(gè)學(xué)派思想,在學(xué)術(shù)史研究中始終有學(xué)派分屬的爭(zhēng)議,并且這種對(duì)于《管子》思想的類別爭(zhēng)議也體現(xiàn)在目錄類目的變化中[35]。如《管子》在《漢書·藝文志·諸子略》中記載在道家類目,在《隋書·經(jīng)籍志》《四庫全書》中列為法家類目,李宗鄴、潘俊杰等人主張《管子》是雜家的匯集[36,37]。因此本文利用機(jī)器學(xué)習(xí)方法對(duì)《管子》提出互著與別裁建議,助力于《管子》思想問題的討論。
同樣,雖然此前未有學(xué)者對(duì)《管子》七十五篇的每一篇都分析思想歸屬,而本文所給出的別裁建議也未必絕對(duì)準(zhǔn)確,但若將兩種方法得到的結(jié)論相比較,也許可以通過“三角論證”取得一些新的突破。對(duì)于本文所列舉的儒家篇,馮友蘭指出《弟子職》與《弟子規(guī)》實(shí)屬一類[38],羅根澤認(rèn)為《弟子職》的作者疑是漢代儒家[39],張連偉雖不贊同漢代儒家說,但同樣認(rèn)為《弟子職》體現(xiàn)了儒家所重視的學(xué)堂禮儀。
對(duì)于本文所列舉的道家篇,《管子》四篇《心術(shù)上》《心術(shù)下》《白心》《內(nèi)業(yè)》所體現(xiàn)的道家思想已是一種共識(shí)[40]。但是,模型也得到了一些不同于人文觀點(diǎn)的結(jié)果,如羅賢龍判斷《法法》《仁法》《明法》屬于黃老作品[41],而本文將這幾篇判別為法家類,這種差異值得關(guān)注。這種差異同樣存在于《管子》的墨家思想:模型判別《管子》中大量篇章都與墨家思想相近,但是傳統(tǒng)研究對(duì)《管子》墨家思想的研究較少。
本文通過機(jī)器學(xué)習(xí)模型揭示出《管子》與《墨子》思想之間的相似性,還值得未來更多的探討。對(duì)于本文所列舉的兵家篇,池萬興指出《幼官》《七法》《參患》《地圖》《制分》《九變》《兵法》是兵家文字[42],羅根澤指出《七法》《兵法》《制分》為兵家所出,《幼官》和《勢(shì)》為兵陰陽所出(兵家四大流派之一)[39],梁?jiǎn)⒊信e《七法》《九變》《兵法》《霸言》《小匡》中含有軍政思想[43]。由此可知,模型得到的量化結(jié)論,既有能與已有研究結(jié)論相印證的,也有不同之處,這些正是值得未來更多探討及批判的靶向所在。
5結(jié)語
古籍是承載中華優(yōu)秀傳統(tǒng)文化的重要載體,合理、有效地保護(hù)與利用古籍資源是弘揚(yáng)中華文化、樹立民族自信的重要舉措。本文借助機(jī)器學(xué)習(xí)技術(shù),從古籍資源中挖掘出新的知識(shí),能為古籍研究提供新的方法與論據(jù),讓古籍資源煥發(fā)出新的生機(jī),讓古籍“活起來”,并助力于科學(xué)研究和社會(huì)文化的進(jìn)步。
本文提出利用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)互著與別裁,從全書、篇、章等粒度辨析古籍類別,并對(duì)先秦諸子典籍進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果不僅顯示了機(jī)器學(xué)習(xí)對(duì)古籍文本分類的潛力,也對(duì)《荀子》及《管子》兩本書給出了具體的互著與別裁建議,此外實(shí)驗(yàn)結(jié)果展現(xiàn)了在數(shù)字人文視域下,數(shù)字技術(shù)對(duì)古典目錄學(xué)、古典文獻(xiàn)學(xué)以及學(xué)術(shù)史研究的應(yīng)用價(jià)值。
鑒于時(shí)間和語料等方面的限制,本文仍存在一定的不足和局限性,未來的研究可以從以下幾個(gè)方面展開:在范圍方面,進(jìn)一步探究在更大規(guī)模的目錄及語料上方法是否適用;在機(jī)器學(xué)習(xí)方法方面,可以讓BERT模型在大規(guī)模古籍語料做進(jìn)一步的預(yù)訓(xùn)練,或結(jié)合更準(zhǔn)確的分詞策略提高TextCNN的表現(xiàn),也可以采用更為先進(jìn)的機(jī)器學(xué)習(xí)模型;在互著與別裁判斷策略上,進(jìn)一步將此前“視情況而定”的依靠主觀模糊性判斷的慣例和閾值具體化、定量化表示出來,從而制定更合理的判別規(guī)則。
參考文獻(xiàn):
[1]陳曉華.傳統(tǒng)目錄學(xué)仍是“學(xué)中要緊事”[N].中國(guó)社會(huì)科學(xué)報(bào),2016-08-18(001).(ChenXH.Traditionalbibliographyisstill"themostimportantthinginlearning"[N].ChineseSocialSciencesToday,2016-08-18(001).)
[2]李景文.“互著”、“別裁”起源時(shí)間考辨——讀王重民先生《校讎通義通解》[J].圖書情報(bào)工作,2012,56(7):140-144.(LiJW.Theoriginsof“exchangeindexing”and“reindexing”:withastudyofWangChongmin’sJiaoChouTongYiTongJie[J].LibraryandInformationService,2012,56(7):140-144.)
[3]王國(guó)強(qiáng).中國(guó)古代書目著錄中的互著法和別裁法[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2002,(4):130-133.(WangGQ.Theinter-recordmethodandanalytic-recordmethodinancientChinesebooklistrecord[J].JournalofZhengzhouUniversity(PhilosophyandSocialSciencesEdition),2002(4):130-133.)
[4]韓建立.《藝文類聚》中的“互著”與“別裁”[J].圖書館學(xué)刊,2014,36(4):117-119.(HanJL.InterrecordandanalyticrecordinYiWenLeiJu[J].JournalofLibraryScience,2014,36(4):117-119.)
[5]章學(xué)誠(chéng).校讎通義[M].北京:古籍出版社,1956.(ZhangXC.JiaoChouTongYi[M].Beijing:ClassicsPublishingHouse,1956.)
[6]羅友松,朱浩.“互著”、“別裁”的理論探討始于誰?——與徐召勛同志商榷[J].圖書館雜志,1982(1):12-13.(LuoYS,ZhuH.Whostartedthetheoreticaldiscussionof"interrecord"and"analyticrecord"?:discussingwithComradeXuZhaoxun[J].LibraryJournal,1982(1):12-13.)
作者:張力元王軍
轉(zhuǎn)載請(qǐng)注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/29738.html