基于機(jī)器學(xué)習(xí)的古籍目錄互著與別裁探析

所屬分類：經(jīng)濟(jì)論文閱讀次時(shí)間：2022-03-10 11:03

本文摘要：摘要目錄是組織與利用古籍資源的重要工具，也是圖書情報(bào)學(xué)科的重點(diǎn)研究對象。互著與別裁作為古典目錄學(xué)中的兩種輔助方法，能在深入剖析文獻(xiàn)內(nèi)容特征的基礎(chǔ)上，根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系中，達(dá)到類例既分，學(xué)術(shù)自明的效果。本文將互著與別裁映

　　摘要目錄是組織與利用古籍資源的重要工具，也是圖書情報(bào)學(xué)科的重點(diǎn)研究對象。互著與別裁作為古典目錄學(xué)中的兩種輔助方法，能在深入剖析文獻(xiàn)內(nèi)容特征的基礎(chǔ)上，根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系中，達(dá)到“類例既分，學(xué)術(shù)自明”的效果。本文將互著與別裁映射為文本挖掘中的文本分類問題，提出基于機(jī)器學(xué)習(xí)以實(shí)現(xiàn)互著與別裁的方法框架，為古籍圖書在目錄體系中的多類目記載貢獻(xiàn)對策。本文首先利用TextCNN與BERT兩種機(jī)器學(xué)習(xí)模型對先秦諸子六家十部典籍文本進(jìn)行分類訓(xùn)練，結(jié)果顯示BERT優(yōu)于TextCNN，可以達(dá)到91.64%的分類準(zhǔn)確率;之后用微調(diào)訓(xùn)練后的BERT模型對《荀子》與《管子》進(jìn)行篇、章粒度的分類判斷，最終得出這兩部圖書各篇章互著與別裁的結(jié)果。本研究展現(xiàn)了在數(shù)字人文視域下，數(shù)字技術(shù)對古典目錄學(xué)、古典文獻(xiàn)學(xué)以及學(xué)術(shù)史研究的應(yīng)用價(jià)值。

　　關(guān)鍵詞古籍目錄互著別裁機(jī)器學(xué)習(xí)數(shù)字人文

機(jī)器學(xué)習(xí)

　　引言

　　我國古典目錄學(xué)歷史悠久，具有“辨章學(xué)術(shù)，考鏡源流”的學(xué)術(shù)價(jià)值，至今仍是“學(xué)中要緊事”[1]，對古籍資源的組織與利用、古籍?dāng)?shù)據(jù)庫的設(shè)計(jì)與開發(fā)、古籍聯(lián)合目錄的建設(shè)與統(tǒng)一等具有重要作用�；ブc別裁作為古典目錄學(xué)的兩種輔助方法，能在剖析文獻(xiàn)內(nèi)容的基礎(chǔ)上，根據(jù)內(nèi)容的多元性將文獻(xiàn)準(zhǔn)確、完整地記載于目錄體系的多個(gè)類目下，達(dá)到“類例既分，學(xué)術(shù)自明”的效果，曾應(yīng)用于《七略》《文獻(xiàn)通考·經(jīng)籍考》《澹生堂書目》《直齋書錄解題》《書目例略》《百川書志》《藝文類聚》等書目中[2-4]。

　　但互著與別裁的傳統(tǒng)實(shí)現(xiàn)策略主要依托于人工，這不僅對人力和學(xué)術(shù)素養(yǎng)有較高要求，而且存在主觀性較強(qiáng)或難以準(zhǔn)確判斷的問題，以致無法在海量古籍上得到普遍運(yùn)用。本文在數(shù)字人文視角下引入機(jī)器學(xué)習(xí)方法，為互著與別裁提供新的實(shí)現(xiàn)策略。在古籍?dāng)?shù)字化的基礎(chǔ)上智能化地實(shí)現(xiàn)互著與別裁，可以高效處理更多古籍資源與更多類目的對應(yīng)關(guān)系，也可以深入到篇章做出細(xì)粒度的分類判斷。這不僅能夠拓展互著與別裁的理論與實(shí)踐邊界，而且能夠提高古籍資源的組織與利用效率，為數(shù)字環(huán)境下的“即類求書，因書究學(xué)”提供量化保障。

　　在新文科背景下，該方法還可以為人文研究提供新的分析維度，助力發(fā)現(xiàn)新問題。本文首先提出基于機(jī)器學(xué)習(xí)以實(shí)現(xiàn)互著與別裁的方法框架，之后分別利用TextCNN和BERT兩種機(jī)器學(xué)習(xí)模型對先秦諸子六家十部典籍文本進(jìn)行分類訓(xùn)練，讓機(jī)器學(xué)習(xí)各家類別與典籍文本的對應(yīng)關(guān)系，再選取訓(xùn)練后分類效果更好的BERT模型對《荀子》和《管子》分別進(jìn)行分類判斷，最終依據(jù)分類結(jié)果提出這兩部典籍的互著與別裁建議。

　　1研究綜述

　　互著與別裁的思想早見于明代祁承㸁《澹生堂藏書目錄·庚申整書略例》的“互”與“通”，后于清代章學(xué)誠《校讎通義》中正式提出[5,6]�；ブc別裁雖然作用對象不同，但二者的原理和方法相通，即在分類編目時(shí)，將內(nèi)容廣泛的或是具有多個(gè)主題的圖書及篇章全面、科學(xué)地記載于目錄體系內(nèi)的多個(gè)類目中，實(shí)現(xiàn)目錄辨考學(xué)術(shù)和指導(dǎo)文獻(xiàn)檢閱的多重作用，對于實(shí)現(xiàn)古典目錄學(xué)“辨章學(xué)術(shù)，考鏡源流”具有重要價(jià)值[3,7]。

　　同時(shí)也要辯證認(rèn)識(shí)到，互著與別裁的傳統(tǒng)實(shí)現(xiàn)方法具有時(shí)代局限性，在客觀性、準(zhǔn)確性、效率等方面均存在問題。如徐召勛在1979年就指出：“假如一本書包括甲、乙兩個(gè)類的內(nèi)容，而且各占一半，這究竟是用互著法還是用別裁法呢?還有的書包括兩個(gè)類的內(nèi)容，不是一半對一半，而是一大半對一小半。這樣的書又該如何處理呢?”對此他的回答是“結(jié)合具體情況而定”[8]。實(shí)際上，在回答這個(gè)問題前，首先需要解決的是如何量化書中不同類別所占的比例，即何為“一半”“一大半”“一小半”�；谌斯ぶ饔^判定的方法很難回答這個(gè)問題，這意味著過去的互著與別裁判斷可能存在錯(cuò)誤。

　　然而，這一問題在近三十年并沒有得到學(xué)者們的充分重視，近年有關(guān)互著與別裁的研究多集中于再論其內(nèi)涵[9]、追溯其起源[2,3]以及辨析書目應(yīng)用實(shí)例[4]，幾乎沒有學(xué)者再次審視互著與別裁在實(shí)現(xiàn)方法上的問題，也沒有將量化方法引入其中。近五年來，隨著“數(shù)字人文”文理交叉融合理念的推廣，有學(xué)者逐步意識(shí)到可以利用數(shù)字技術(shù)來完善并豐富古典目錄學(xué)的理論體系和實(shí)踐方法。在理論方面，陳志新指出，目錄學(xué)的未來要依托于大數(shù)據(jù)和人工智能等技術(shù)來創(chuàng)新和進(jìn)步，實(shí)現(xiàn)過去依靠大學(xué)問家也無法有效完成的任務(wù)[10]。在實(shí)踐方面，李瑞龍和李明杰提出利用數(shù)字技術(shù)實(shí)現(xiàn)古典目錄學(xué)辨考學(xué)術(shù)的思想，但其在技術(shù)探索時(shí)更側(cè)重于梳理學(xué)術(shù)源流，而跳過了更為基礎(chǔ)的分類圖書環(huán)節(jié)[11]。

　　相關(guān)地，李惠等構(gòu)造了古籍提要共現(xiàn)網(wǎng)絡(luò)并探討了提要推薦對古籍知識(shí)發(fā)現(xiàn)的潛力[12]。由此，已有數(shù)位學(xué)者通過理論探討或?qū)嵺`證明數(shù)字技術(shù)對古典目錄學(xué)的價(jià)值。若從技術(shù)的角度將互著與別裁理解為文本分類問題，那么國內(nèi)外已有較為豐富的研究成果可以借鑒。文本分類的核心任務(wù)是將文檔自動(dòng)劃分到預(yù)先定義好的類別中，其研究可追溯至1960年代Maron根據(jù)受控詞表辨識(shí)文檔主題、自動(dòng)分類文檔并索引科學(xué)文獻(xiàn)[13]。

　　目前機(jī)器學(xué)習(xí)是文本分類的主要方法，并且在英語和現(xiàn)代漢語等語境下有較為成熟的應(yīng)用，例如用于垃圾郵件識(shí)別、網(wǎng)頁主題分類、文本情感分類、文本風(fēng)格分類等。在圖書與情報(bào)領(lǐng)域，一個(gè)典型的應(yīng)用場景是利用主題詞等信息實(shí)現(xiàn)圖書自動(dòng)分類標(biāo)引，如王昊等利用機(jī)器學(xué)習(xí)模型構(gòu)建多層次圖書自動(dòng)分類系統(tǒng)，根據(jù)題名、關(guān)鍵字和文摘信息自動(dòng)給出中圖法分類號[14]。隨著數(shù)字化建設(shè)帶來的古籍?dāng)?shù)字資源的增長，有學(xué)者開始將這一技術(shù)運(yùn)用在古籍文本分類上，例如張馨怡利用詞向量技術(shù)表示古詩文本，再通過TextCNN模型將古詩判斷為愛國類別或其他類別[15]。但尚未有研究利用新技術(shù)來解決古典目錄學(xué)中互著與別裁存在的問題。

　　2基于機(jī)器學(xué)習(xí)的互著與別裁方法框架

　　本文提出一套基于機(jī)器學(xué)習(xí)的互著與別裁方法框架。該框架整體邏輯為：在古典目錄學(xué)已有研究經(jīng)驗(yàn)與成果的基礎(chǔ)上，由互著與別裁的內(nèi)涵和原則來統(tǒng)領(lǐng)整個(gè)方法。根據(jù)具體的研究需求或目錄需求確定文獻(xiàn)范圍，通過對多源異構(gòu)語料的采集、清洗與融合，最終構(gòu)建成研究所需的語料庫。

　　利用語料庫內(nèi)結(jié)構(gòu)化的文本和類別標(biāo)簽來訓(xùn)練分類器，再利用分類器來判別待分類文本的類別概率，并根據(jù)概率閾值為文本做出分類建議。若文本是以書為單位，則對應(yīng)于互著標(biāo)引，若文本是以篇章為單位，則對應(yīng)于別裁標(biāo)引。最終結(jié)果可應(yīng)用于目錄補(bǔ)充、學(xué)術(shù)史研究、圖書編目以及古籍?dāng)?shù)據(jù)庫按類瀏覽和索引等方面。

　　3分類模型訓(xùn)練實(shí)驗(yàn)

　　為檢驗(yàn)機(jī)器學(xué)習(xí)框架是否可以有效判別古籍類目，本文以四部的子部為對象，以先秦諸子六家為類目，以各家代表典籍為文本訓(xùn)練分類模型，并分析分類結(jié)果的準(zhǔn)確性。

　　3.1實(shí)驗(yàn)數(shù)據(jù)

　　代表典籍的選定主要參考《漢書·藝文志》中記載的先秦諸子典籍，并參考梁啟超在《漢書·藝文志·諸子略考釋》中對《漢書·藝文志·諸子略》中學(xué)派、學(xué)者、著述的存、佚、偽考釋結(jié)論[16]。本文在學(xué)衡數(shù)據(jù)網(wǎng)站①下載上述典籍的HTML格式文本，用Python調(diào)用bs4中的BeautifulSoup4.4.0解析文件，將其轉(zhuǎn)換為以類目、書名、篇、章、正文組織的結(jié)構(gòu)化文本存儲(chǔ)。經(jīng)過數(shù)據(jù)清洗后，將3220條訓(xùn)練數(shù)據(jù)依照8:2的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集。

　　3.2模型介紹

　　本文使用TextCNN和BERT兩種模型進(jìn)行分類實(shí)驗(yàn)。模型基于文本語義建模，將句子、段落向量化地表示，據(jù)此訓(xùn)練神經(jīng)網(wǎng)絡(luò)可以捕捉到豐富的語義及結(jié)構(gòu)信息，是目前常用的文本分類方法。TextCNN模型需要先分詞再訓(xùn)練詞向量，因古文分詞技術(shù)尚不成熟，故本文分別嘗試Jieba和單字兩種分詞方法，然后利用word2vec的CBOW模型訓(xùn)練詞向量。

　　BERT模型是采用雙向深度Transformer編碼器的預(yù)訓(xùn)練語言模型[17,18]，無需分詞即可將句子或段落向量化表示，本文在BERT-Base-Chinese預(yù)訓(xùn)練模型的基礎(chǔ)上繼續(xù)微調(diào)訓(xùn)練。兩種模型分別在原始語料、去標(biāo)點(diǎn)語料、去標(biāo)點(diǎn)和停用詞語料上各重復(fù)運(yùn)行5次，每次隨機(jī)劃分訓(xùn)練集與驗(yàn)證集，取5次中的train-accuracy、val-accuracy、F1的平均值和最優(yōu)值進(jìn)行比較。

　　3.3分類評價(jià)

　　實(shí)驗(yàn)結(jié)果表明，在其他超參數(shù)相同的情況下，TextCNN與BERT均在不過濾標(biāo)點(diǎn)和停用詞的原始語料上達(dá)到最優(yōu)分類效果，預(yù)處理復(fù)雜度的提高反而會(huì)帶來準(zhǔn)確率和F1值較大幅度的下降，這一特點(diǎn)在利用Jieba分詞訓(xùn)練TextCNN分類模型時(shí)尤為顯著，在過濾掉標(biāo)點(diǎn)和停用詞后該分類模型平均準(zhǔn)確率由61.49%下降到31.64%。

　　這一現(xiàn)象說明古文的預(yù)處理策略會(huì)在較大程度上影響分類模型的效果，對于本文選取的先秦諸子語料而言，保留標(biāo)點(diǎn)與虛詞可以有效提高分類模型訓(xùn)練效果。這一發(fā)現(xiàn)驗(yàn)證了Uysal和Gunal此前的研究結(jié)論，他們利用SVM模型分別在英語和土耳其語語料上訓(xùn)練分類器，發(fā)現(xiàn)保留停用詞的語料預(yù)處理策略可以獲得最高的準(zhǔn)確率[19]。對比BERT和TextCNN可以發(fā)現(xiàn)，BERT的分類效果明顯好于TextCNN的分類效果，在原始語料上BERT的F1值為91.91%，遠(yuǎn)高于TextCNN-Jieba的59.52%。

　　BERT的另一個(gè)優(yōu)勢在于無需分詞，以單字為單元編碼訓(xùn)練就可以取得較高的分類準(zhǔn)確率，規(guī)避了目前古文分詞不成熟的問題。綜上，在原始文本上，BERT分類訓(xùn)練可以達(dá)到最優(yōu)的效果，其平均準(zhǔn)確率可以達(dá)到91.64%，這說明預(yù)訓(xùn)練語言模型可以基于古籍文本有效分辨先秦不同學(xué)派的典籍。下文將進(jìn)一步利用在這十部典籍上微調(diào)訓(xùn)練后的BERT模型對《荀子》與《管子》做互著與別裁分析。

　　4互著與別裁實(shí)驗(yàn)

　　4.1《荀子》實(shí)驗(yàn)與討論

　　《荀子》位于目錄體系中的儒家類，但其學(xué)派歸屬問題始終是重要研究內(nèi)容。唐代韓愈指出荀子思想“不粹”，宋代二程及朱熹等理學(xué)家認(rèn)為荀子思想“極偏頗”并將其歸為法家，現(xiàn)在也仍有儒家說、法家說、雜家說等觀點(diǎn)并存[20]。本研究利用機(jī)器學(xué)習(xí)方法對《荀子》做互著與別裁探索，可以為該問題的解決提供新的維度。

　　4.1.1《荀子》互著結(jié)果及討論

　　將《荀子》511個(gè)章節(jié)文本輸入BERT模型后可以得到各條文本的分類結(jié)果，將各條文本劃分到概率最大的類別中。若將各條文本對應(yīng)于各學(xué)派的概率進(jìn)行統(tǒng)計(jì)匯總。

　　《荀子》最接近法家與儒家，同時(shí)也兼及其它學(xué)派，這與傳統(tǒng)研究結(jié)論相符。對于儒法之爭的問題，分類模型將更多的條目判斷為法家，揭示出《荀子》更接近以《韓非子》和《商君書》代表的法家而非以《論語》和《孟子》代表的儒家。本文以“均值比較”確定互著閾值，即若文本屬于某一類的概率超過平均分類的概率，則可判斷文本屬于該類。經(jīng)計(jì)算，法家與儒家的概率大于16.67%，分別為46.68%和24.95%，故將《荀子》在法家和儒家兩個(gè)類目中做互著標(biāo)記。此互著結(jié)果體現(xiàn)了荀子“禮法并施”的思想特征。

　　荀子在繼承儒家的禮制思想的同時(shí)，也由性惡論的觀點(diǎn)出發(fā)，認(rèn)為刑、罰等法家手段是治國所必需，如《荀子·勸學(xué)》篇“禮者，法之大分，類之綱紀(jì)也”[21]。這一互著結(jié)果也呼應(yīng)了荀子研究中一直存在的儒法之辨。呂思勉在《經(jīng)子解題》中評價(jià)“語其宗旨，實(shí)與法家最近，而又蒙儒家之面目者也”[22];趙法生認(rèn)為荀子屬于受儒家影響的法家，即“儒法”[23];王正提出荀子的“法”同法家的“法”有所不同，是帶有法家因素的儒家，最多稱為“法儒”[24]。本文通過機(jī)器學(xué)習(xí)模型得到的量化結(jié)果也如實(shí)反映出這一特點(diǎn)。

　　4.1.2《荀子》別裁結(jié)果及討論

　　本文借助由機(jī)器學(xué)習(xí)模型得到的二維熱力圖分析《荀子》內(nèi)部篇章所屬學(xué)派，由此做出別裁判斷。每一篇對應(yīng)六個(gè)學(xué)派的概率和為1，具體對應(yīng)每個(gè)學(xué)派的概率等于該篇中各章節(jié)對應(yīng)各學(xué)派概率的平均值，顏色越深即概率越大，越接近該類目。在《荀子》的絕大多數(shù)篇中，法家對應(yīng)顏色最深，說明這些篇更接近于法家，而儒家、墨家、道家次之，與互著結(jié)果一致。若假定《荀子》互著于法家和儒家，可以為《荀子》三十二篇做出別裁標(biāo)注。

　　雖然此前未有學(xué)者將《荀子》三十二篇的每一篇都分析思想歸屬，而本文所給出的別裁建議也未必絕對準(zhǔn)確，但若將傳統(tǒng)與數(shù)字化兩種方法得到的結(jié)論相比較，也許可以通過“三角論證”取得一些新的突破。對于本文所列舉的道家篇，趙吉惠在《荀子非儒家辨》中列舉《天論》《勸學(xué)》《解蔽》《儒效》《正名》篇文本論述荀子的道家思想傾向[25]，李剛興列舉《天論》和《解蔽》論述荀子對道家思想的吸收與改造[26]，許倩撰文論述《解蔽》中的道家思想[27]，雷震和郭成杰從養(yǎng)生觀的角度論述《修身》篇同老莊的相似之處[28]。

　　對于本文所列舉的墨家篇，劉寶春指出《大略》《不茍》《榮辱》《富國》《君德》《王霸》《儒效》《強(qiáng)國》《君子》《君道》《臣道》《正論》《勸學(xué)》《性惡論》《成相》中或多或少帶有墨子“利民”“貴義”“尚賢”“節(jié)用”“所染”思想[29]，趙吉惠也指出《榮辱》篇有墨家早期的義利觀體現(xiàn)[25]。對于本文所列舉的兵家篇，《議兵》是荀子軍事思想的主要體現(xiàn)，也是學(xué)者們研究荀子軍事思想的主要依據(jù)[30,31]。

　　此外，模型揭示出以《大略》為分界，《荀子》前后文本存在“斷層”，即前二十六篇更側(cè)重法家思想，后六篇側(cè)重儒家思想�！盾髯印泛罅罅恳隹鬃蛹暗茏友哉�，內(nèi)容涵蓋仁、禮、義、利、孝道等儒家觀念。唐代楊倞指出，《大略》《宥坐》《子道》《法行》《哀公》《堯問》并非荀子本人所作，稱《大略》篇為“弟子雜錄荀卿之語”，《宥坐》《子道》《法行》《哀公》《堯問》五篇“皆荀卿及弟子所引記、傳雜事”[32]。

　　董志安指出后五篇“與荀卿基本學(xué)說不盡相符，而多少帶有其它儒家派別的思想痕跡”，判斷后五篇既不是出自荀子本人，也不是出自荀子傳授[33]。廖名春認(rèn)為，《荀子》后五篇包括荀子整理和纂集的資料及弟子之作，提出考察荀子思想應(yīng)主要以前二十七篇為依據(jù)[34]。本文模型發(fā)現(xiàn)的“斷層”現(xiàn)象揭示出《荀子》文本前后思想的差異，與上述傳統(tǒng)研究結(jié)論相符，能對此類研究形成有益補(bǔ)充。

　　4.2《管子》實(shí)驗(yàn)與討論

　　《管子》是對管仲學(xué)派思想的記載，書中記載的思想較為復(fù)雜，涉及多個(gè)學(xué)派思想，在學(xué)術(shù)史研究中始終有學(xué)派分屬的爭議，并且這種對于《管子》思想的類別爭議也體現(xiàn)在目錄類目的變化中[35]。如《管子》在《漢書·藝文志·諸子略》中記載在道家類目，在《隋書·經(jīng)籍志》《四庫全書》中列為法家類目，李宗鄴、潘俊杰等人主張《管子》是雜家的匯集[36,37]。因此本文利用機(jī)器學(xué)習(xí)方法對《管子》提出互著與別裁建議，助力于《管子》思想問題的討論。

　　同樣，雖然此前未有學(xué)者對《管子》七十五篇的每一篇都分析思想歸屬，而本文所給出的別裁建議也未必絕對準(zhǔn)確，但若將兩種方法得到的結(jié)論相比較，也許可以通過“三角論證”取得一些新的突破。對于本文所列舉的儒家篇，馮友蘭指出《弟子職》與《弟子規(guī)》實(shí)屬一類[38]，羅根澤認(rèn)為《弟子職》的作者疑是漢代儒家[39]，張連偉雖不贊同漢代儒家說，但同樣認(rèn)為《弟子職》體現(xiàn)了儒家所重視的學(xué)堂禮儀。

　　對于本文所列舉的道家篇，《管子》四篇《心術(shù)上》《心術(shù)下》《白心》《內(nèi)業(yè)》所體現(xiàn)的道家思想已是一種共識(shí)[40]。但是，模型也得到了一些不同于人文觀點(diǎn)的結(jié)果，如羅賢龍判斷《法法》《仁法》《明法》屬于黃老作品[41]，而本文將這幾篇判別為法家類，這種差異值得關(guān)注。這種差異同樣存在于《管子》的墨家思想：模型判別《管子》中大量篇章都與墨家思想相近，但是傳統(tǒng)研究對《管子》墨家思想的研究較少。

　　本文通過機(jī)器學(xué)習(xí)模型揭示出《管子》與《墨子》思想之間的相似性，還值得未來更多的探討。對于本文所列舉的兵家篇，池萬興指出《幼官》《七法》《參患》《地圖》《制分》《九變》《兵法》是兵家文字[42]，羅根澤指出《七法》《兵法》《制分》為兵家所出，《幼官》和《勢》為兵陰陽所出(兵家四大流派之一)[39]，梁啟超列舉《七法》《九變》《兵法》《霸言》《小匡》中含有軍政思想[43]。由此可知，模型得到的量化結(jié)論，既有能與已有研究結(jié)論相印證的，也有不同之處，這些正是值得未來更多探討及批判的靶向所在。

　　5結(jié)語

　　古籍是承載中華優(yōu)秀傳統(tǒng)文化的重要載體，合理、有效地保護(hù)與利用古籍資源是弘揚(yáng)中華文化、樹立民族自信的重要舉措。本文借助機(jī)器學(xué)習(xí)技術(shù)，從古籍資源中挖掘出新的知識(shí)，能為古籍研究提供新的方法與論據(jù)，讓古籍資源煥發(fā)出新的生機(jī)，讓古籍“活起來”，并助力于科學(xué)研究和社會(huì)文化的進(jìn)步。

　　本文提出利用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)互著與別裁，從全書、篇、章等粒度辨析古籍類別，并對先秦諸子典籍進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果不僅顯示了機(jī)器學(xué)習(xí)對古籍文本分類的潛力，也對《荀子》及《管子》兩本書給出了具體的互著與別裁建議，此外實(shí)驗(yàn)結(jié)果展現(xiàn)了在數(shù)字人文視域下，數(shù)字技術(shù)對古典目錄學(xué)、古典文獻(xiàn)學(xué)以及學(xué)術(shù)史研究的應(yīng)用價(jià)值。

　　鑒于時(shí)間和語料等方面的限制，本文仍存在一定的不足和局限性，未來的研究可以從以下幾個(gè)方面展開：在范圍方面，進(jìn)一步探究在更大規(guī)模的目錄及語料上方法是否適用;在機(jī)器學(xué)習(xí)方法方面，可以讓BERT模型在大規(guī)模古籍語料做進(jìn)一步的預(yù)訓(xùn)練，或結(jié)合更準(zhǔn)確的分詞策略提高TextCNN的表現(xiàn)，也可以采用更為先進(jìn)的機(jī)器學(xué)習(xí)模型;在互著與別裁判斷策略上，進(jìn)一步將此前“視情況而定”的依靠主觀模糊性判斷的慣例和閾值具體化、定量化表示出來，從而制定更合理的判別規(guī)則。

　　參考文獻(xiàn)：

　　[1]陳曉華.傳統(tǒng)目錄學(xué)仍是“學(xué)中要緊事”[N].中國社會(huì)科學(xué)報(bào),2016-08-18(001).(ChenXH.Traditionalbibliographyisstill"themostimportantthinginlearning"[N].ChineseSocialSciencesToday,2016-08-18(001).)

　　[2]李景文.“互著”、“別裁”起源時(shí)間考辨——讀王重民先生《校讎通義通解》[J].圖書情報(bào)工作,2012,56(7):140-144.(LiJW.Theoriginsof“exchangeindexing”and“reindexing”:withastudyofWangChongmin’sJiaoChouTongYiTongJie[J].LibraryandInformationService,2012,56(7):140-144.)

　　[3]王國強(qiáng).中國古代書目著錄中的互著法和別裁法[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2002,(4):130-133.(WangGQ.Theinter-recordmethodandanalytic-recordmethodinancientChinesebooklistrecord[J].JournalofZhengzhouUniversity(PhilosophyandSocialSciencesEdition),2002(4):130-133.)

　　[4]韓建立.《藝文類聚》中的“互著”與“別裁”[J].圖書館學(xué)刊,2014,36(4):117-119.(HanJL.InterrecordandanalyticrecordinYiWenLeiJu[J].JournalofLibraryScience,2014,36(4):117-119.)

　　[5]章學(xué)誠.校讎通義[M].北京:古籍出版社,1956.(ZhangXC.JiaoChouTongYi[M].Beijing:ClassicsPublishingHouse,1956.)

　　[6]羅友松,朱浩.“互著”、“別裁”的理論探討始于誰?——與徐召勛同志商榷[J].圖書館雜志,1982(1):12-13.(LuoYS,ZhuH.Whostartedthetheoreticaldiscussionof"interrecord"and"analyticrecord"?:discussingwithComradeXuZhaoxun[J].LibraryJournal,1982(1):12-13.)

　　作者：張力元王軍