基于子詞嵌入和相對注意力的材料實體識別

所屬分類：經(jīng)濟(jì)論文閱讀次時間：2021-07-23 17:33

本文摘要：摘要：在材料領(lǐng)域文獻(xiàn)中準(zhǔn)確識別命名實體有助于構(gòu)建專業(yè)知識圖譜、問答系統(tǒng)等�；谏疃葘W(xué)習(xí)的命名實體識別(NER)技術(shù)已廣泛應(yīng)用于多種專業(yè)領(lǐng)域，然而面向材料領(lǐng)域的命名實體識別研究相對較少。針對材料領(lǐng)域命名實體識別中，可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)規(guī)模小，實體

　　摘要：在材料領(lǐng)域文獻(xiàn)中準(zhǔn)確識別命名實體有助于構(gòu)建專業(yè)知識圖譜、問答系統(tǒng)等�；谏疃葘W(xué)習(xí)的命名實體識別(NER)技術(shù)已廣泛應(yīng)用于多種專業(yè)領(lǐng)域，然而面向材料領(lǐng)域的命名實體識別研究相對較少。針對材料領(lǐng)域命名實體識別中，可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)規(guī)模小，實體詞復(fù)雜度高等問題，提出使用大規(guī)模非結(jié)構(gòu)化的材料領(lǐng)域文獻(xiàn)數(shù)據(jù)，訓(xùn)練基于一元語言模型(ULM)的子詞嵌入分詞模型，充分利用單詞結(jié)構(gòu)蘊含的信息，增強(qiáng)模型魯棒性。并提出以BiLSTM-CRF為基本模型，結(jié)合能夠感知方向和距離的相對多頭注意力機(jī)制(RMHA)的實體識別模型，以提高對關(guān)鍵詞的敏感程度。BiLSTM-RMHA-CRF模型結(jié)合ULM子詞嵌入方法，相比于BiLSTM-CNNs-CRF和SciBERT等模型，在固體氧化物燃料電池(SOFC)命名實體識別數(shù)據(jù)集上的MacroF1值提高了2-4個百分點，SOFC細(xì)粒度實體識別數(shù)據(jù)集的MacroF1值提高了3-8個百分點。實驗結(jié)果表明，基于子詞嵌入和相對注意力的識別模型能夠有效提高材料領(lǐng)域?qū)嶓w的識別準(zhǔn)度。

　　關(guān)鍵詞：命名實體識別;子詞嵌入;相對注意力;深度學(xué)習(xí);材料領(lǐng)域

　　0引言

　　命名實體識別(namedentityrecognition，NER)的目標(biāo)是在非結(jié)構(gòu)化的文本中按照預(yù)先定義的類別信息，提取并分類出具有特定意義的命名實體信息，如人名、機(jī)構(gòu)、地點等。命名實體識別技術(shù)可以用于如知識圖譜構(gòu)建，問答系統(tǒng)，機(jī)器翻譯等自然語言處理任務(wù)。專業(yè)領(lǐng)域的命名實體識別對于機(jī)器閱讀理解專業(yè)領(lǐng)域文獻(xiàn)和構(gòu)建專業(yè)知識圖譜具有重要作用，精準(zhǔn)的進(jìn)行專業(yè)領(lǐng)域的命名實體識別有助于減少科研工作量，提高查閱效率，并能夠輔助提高專業(yè)領(lǐng)域機(jī)器翻譯，自動問答等上游自然語言處理系統(tǒng)的水平。

　　近幾年對于命名實體識別的研究大多基于深度學(xué)習(xí)，目前適用于命名實體識別的常用深度學(xué)習(xí)模型與方法有條件隨機(jī)場(ConditionalRandomFields，CRF)[1]，卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork，CNN)[2]，長短期記憶神經(jīng)網(wǎng)絡(luò)(Long-ShortTermMemory，LSTM)[3]，門控循環(huán)網(wǎng)絡(luò)(GateRecurrentUnit，GRU)[4]以及自注意力機(jī)制[5]等。

　　Ma等[6]人結(jié)合雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directionalLong-ShortTermMemory，BiLSTM)、CNN與CRF提出了端到端的序列標(biāo)注模型，在CoNLL-2003數(shù)據(jù)集上達(dá)到91.21%的F1值;Chiu等[7]人提出使用雙向LSTM和CNN編碼層進(jìn)行命名實體識別，并分別在CoNLL-2003和OntoNotes數(shù)據(jù)集上的F1值達(dá)到91.62%和86.28%;Liu等[8]人提出使用LM-LSTM-CRF(LanguageModelLong-ShortTermMemoryConditionalRandomFields)模型方法將CoNLL-2003數(shù)據(jù)集的F1值提高到91.71%;Dhrisya等[9]使用雙向GRU結(jié)合自注意力機(jī)制在OntoNotes細(xì)粒度實體識別任務(wù)上達(dá)到較高水平。

　　通用領(lǐng)域命名實體識別，其精準(zhǔn)度已達(dá)到較高水準(zhǔn)，目前命名實體識別方向的研究大多基于專業(yè)領(lǐng)域。楊維等[10]提出基于條件隨機(jī)場的命名實體識別算法，在電力服務(wù)數(shù)據(jù)集上具有較高準(zhǔn)確率;李博、張華麗等[11-12]分別采用TransformerCRF和BiLSTM-CRF模型對中文電子病歷進(jìn)行實體識別，能夠準(zhǔn)確識別癥狀、治療等五類實體;張心怡等[13]提出了聯(lián)合深度注意力網(wǎng)絡(luò)，在煤礦領(lǐng)域命名實體識別精準(zhǔn)度和識別效率都有較大的提升;許力等[14]結(jié)合CNN、BiLSTM、圖卷積神經(jīng)網(wǎng)絡(luò)，并融合詞向量和依存句法分析特征進(jìn)行生物醫(yī)學(xué)實體識別，在多個數(shù)據(jù)集上表現(xiàn)出色。

　　材料領(lǐng)域的自然語言處理研究相對貧乏，其中與本文研究相關(guān)的有：Mysore等[15-16]人提出了自動提取材料科學(xué)文獻(xiàn)結(jié)構(gòu)化信息的系統(tǒng)，并且發(fā)布了大規(guī)模材料領(lǐng)域語料庫;Mrdjenovich等[17]構(gòu)建了材料科學(xué)領(lǐng)域的知識圖譜propnet;Friedrich等[18]發(fā)布了固體氧化物燃料電池(solidoxidefuelcell，SOFC)命名實體識別數(shù)據(jù)集，并使用SciBERT模型達(dá)到81.5%的MacroF1值。

　　識別未登錄詞是命名實體識別任務(wù)的關(guān)鍵，字符嵌入一般用于解決傳統(tǒng)詞嵌入，如word2vec，存在的未登錄詞(out-ofvocabulary，OOV)問題，同時還能反映出單詞字符序列蘊含的形態(tài)學(xué)信息。Gajendran等[19]將詞表示和字符表示作為輸入，使用三重BiLSTM-DRNN模型進(jìn)行命名實體識別。Cho等[20]同時使用BiLSTM和CNN對單詞字符進(jìn)行編碼，得到字符嵌入并與詞嵌入向量結(jié)合作為模型輸入，在生物醫(yī)學(xué)命名實體識別中達(dá)到較高水平。

　　字符嵌入能夠有效提高命名實體識別模型的識別準(zhǔn)度，但其缺點也較為明顯：1)需要額外的字符級編碼層;2)使用CNN作為編碼層，其對于相鄰字符的感受野相對固定，而使用BiLSTM編碼層，又不能充分挖掘單詞詞綴之間的關(guān)聯(lián)信息。本文采用子詞嵌入代替字符嵌入，同時使用大規(guī)模材料領(lǐng)域數(shù)據(jù)，對子詞劃分模型進(jìn)行預(yù)訓(xùn)練，將得到的子詞分詞結(jié)果再進(jìn)行詞向量訓(xùn)練，同word2vec結(jié)合作為命名實體識別模型的輸入。

　　自注意力機(jī)制常用語多種自然語言處理任務(wù)，命名實體識別中加入自注意力機(jī)制能夠提高模型的特征提取能力和上下文信息的關(guān)注程度。但Transformer結(jié)構(gòu)由于其在注意力計算時使用了歸一化處理，且其位置編碼不具備方向性，在命名實體識別任務(wù)上的表現(xiàn)不佳[21]。

　　本文采用相對多頭自注意力機(jī)制代替?zhèn)鹘y(tǒng)的自注意力機(jī)制，作為命名實體識別模型的編碼層。本文的主要內(nèi)容有：1)使用大量非結(jié)構(gòu)化材料領(lǐng)域文獻(xiàn)數(shù)據(jù)，訓(xùn)練基于一元語言模型(UnigramLanguageModel，ULM)的分詞模型，并進(jìn)一步訓(xùn)練出適用于材料領(lǐng)域數(shù)據(jù)的子詞嵌入，并將其用于材料領(lǐng)域命名實體識別任務(wù)。

　　2)在BiLSTM-CRF模型的基礎(chǔ)上，使用能夠感知單詞方向和距離的相對注意力機(jī)制(relativemulti-headattention，RMHA)，用以增強(qiáng)模型對關(guān)鍵詞的感知能力。3)在SOFC數(shù)據(jù)集的命名實體識別和細(xì)粒度實體識別任務(wù)中，使用常用模型與BiLSTM-RMHA-CRF模型進(jìn)行多組對比實驗，表明ULM子詞嵌入和基于RMHA的深度學(xué)習(xí)模型有助于提高材料領(lǐng)域命名實體識別的精準(zhǔn)度。

　　1子詞嵌入和RMHA實體識別網(wǎng)絡(luò)

　　使用BiLSTM-CRF模型結(jié)合相對多頭注意力機(jī)制對材料領(lǐng)域數(shù)據(jù)進(jìn)行命名實體識別，同時使用預(yù)訓(xùn)練詞嵌入和子詞嵌入提高模型對于未登錄詞問題的辨識能力。

　　1.1BiLSTM-CRF模型

　　BiLSTM后接CRF解碼層是序列標(biāo)注任務(wù)的常用模型。BiLSTM通過整合前向和后向傳遞的信息，保證每個隱層都接收到來自其他隱層的信息。CRF解碼層可以通過狀態(tài)轉(zhuǎn)移矩陣來實現(xiàn)相鄰標(biāo)簽的約束。本文使用BiLSTM-CRF模型為基本實驗?zāi)Ｐ�，在其基礎(chǔ)上加入ULM子詞嵌入作為輸入，并進(jìn)一步使用基于相對位置編碼的相對注意力機(jī)制作為材料領(lǐng)域命名實體識別模型的編碼層，用以改進(jìn)模型對于關(guān)鍵詞和相關(guān)實體的關(guān)注程度。

　　1.2基于概率模型的子詞嵌入

　　1.2.1字符嵌入和子詞嵌入

　　材料領(lǐng)域數(shù)據(jù)集中存在大量單頻詞和低頻詞，傳統(tǒng)的詞向量表示方法，如word2vec[22]，無法很好地處理專業(yè)名詞，化學(xué)式等未知或者罕見詞匯，導(dǎo)致其命名實體識別難度較高。目前常用CNN編碼層獲得單詞的字符級表示，后將其與預(yù)訓(xùn)練好的詞嵌入進(jìn)行組合參與訓(xùn)練。子詞嵌入把單詞劃分為長度不一的字符串后對其向量表示，相較于字符表示蘊含更加豐富的形態(tài)信息，并可以使用大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練詞向量。BPEmb[23]利用字節(jié)對編碼(BytePairEncoding，BPE)數(shù)據(jù)壓縮算法構(gòu)建子詞詞表，使分詞粒度在單詞和字符之間，從而更高效率的解決未登錄問題。BPEmb劃分的子詞只能是單一結(jié)果，而且對于子詞序列的劃分結(jié)果沒有量化的評判標(biāo)準(zhǔn)[24]。

　　2實驗設(shè)置

　　2.1數(shù)據(jù)集

　　ULM子詞嵌入概率分詞模型和預(yù)訓(xùn)練子詞向量使用網(wǎng)絡(luò)采集的14萬條原始材料領(lǐng)域文獻(xiàn)數(shù)據(jù)。命名實體識別實驗采用SOFC命名實體識別數(shù)據(jù)集和SOFC細(xì)粒度實體識別數(shù)據(jù)集[18]。SOFC命名實體識別數(shù)據(jù)集該數(shù)據(jù)集包含MATERIAL，VALUE，DEVICE，EXPERIMENT四種類型的標(biāo)簽，采用BIO標(biāo)注方式。其中MATERIAL類除了材料名外還包括諸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化學(xué)式;VALUE類包括實驗參數(shù)的數(shù)值和范圍符號，另外還包含描述程度的副詞，如“above750℃”，進(jìn)一步提高了識別命名實體的復(fù)雜度;EXPERIMENT類為標(biāo)志實驗行為的動詞。

　　SOFC細(xì)粒度實體識別數(shù)據(jù)將四類實體進(jìn)一步細(xì)分為19個子類別。該數(shù)據(jù)集相較于通用領(lǐng)域數(shù)據(jù)集，未登錄詞、單頻詞和低頻詞較多，實體形態(tài)復(fù)雜多樣。且不同于通用領(lǐng)域命名實體識別數(shù)據(jù)集中，人名、地名、組織名等本身蘊含的形態(tài)學(xué)信息較少，實體詞之間的關(guān)系模糊，材料領(lǐng)域數(shù)據(jù)集中的實體間存在較大的形態(tài)學(xué)關(guān)聯(lián)性，如化學(xué)式之間的關(guān)聯(lián)信息。

　　2.2數(shù)據(jù)預(yù)處理

　　本文使用基于正則模板的數(shù)據(jù)增強(qiáng)[25]，將大量正則模板應(yīng)用于模型訓(xùn)練，旨在讓模型學(xué)習(xí)到更多上下文信息，模糊實體對于特定上下文的依賴關(guān)系，達(dá)到提高識別未登錄詞和低頻詞的精準(zhǔn)度的目的。本文涉及的所有實驗均采用正則模板的數(shù)據(jù)增強(qiáng)方法對訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理后作為輸入。正則模板數(shù)據(jù)增強(qiáng)見圖5。

　　3實驗結(jié)果與分析

　　3.1綜合實驗結(jié)果

　　實驗使用加入ULM子詞嵌入的BiLSTM-RMHA-CRF模型與現(xiàn)有模型在SOFC命名實體識別數(shù)據(jù)集上進(jìn)行對比，對比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-LevelCNN-LSTM模型[20]。

　　SOFC命名實體識別數(shù)據(jù)集上的設(shè)備(device，DEV)、實驗(experiment，EXP)、材料(material，MAT)、參數(shù)(value，VAL)四種實體的F1值和平均MicroF1值、MacroF1值結(jié)果以及SOFC細(xì)粒度實體識別數(shù)據(jù)集的平均MicroF1值、MacroF1值結(jié)果。結(jié)果表明相較于其他模型，基于相對注意力機(jī)制和ULM子詞嵌入的模型能夠提高對命名實體的辨別能力。

　　BiLSTM-CNNs-CRF模型使用字符級CNN對輸入進(jìn)行編碼，得到字符嵌入，再將其輸入BiLSTM-CRF模型進(jìn)行序列標(biāo)注，其卷積操作，在一定程度上相當(dāng)于能夠提取固定寬度的子詞信息。LM-LSTM-CRF模型使用字符級LSTM作為字符嵌入模型，將字符序列編碼為詞向量用以命名實體識別訓(xùn)練。

　　Char-LevelCNN-LSTM模型結(jié)合了上述兩個模型的字符嵌入方法�；谧址度氲脑~嵌入算法在SOFC命名實體識別和細(xì)粒度實體識別數(shù)據(jù)集標(biāo)簽尚佳，但由于字符嵌入詞表規(guī)模過小且蘊含信息有限，無法進(jìn)行預(yù)訓(xùn)練，對于不同的單詞輸入，即使擁有相同的子詞特征也不能保證得到相近的向量表示;而預(yù)訓(xùn)練子詞嵌入可以確保具有相同子詞特征的單詞，其詞嵌入獲得的信息量相同。

　　BiGRU-SelfAttn模型使用了結(jié)構(gòu)更加簡單的GRU作為特征編碼層，并結(jié)合自注意力機(jī)制作為命名實體識別模型，并直接將單詞作為輸入進(jìn)行訓(xùn)練，其效果相對于其他模型表現(xiàn)有限。SciBERT模型使用了大規(guī)�？茖W(xué)領(lǐng)域文獻(xiàn)預(yù)訓(xùn)練的BERT模型作為編碼層，并結(jié)合BPEmb子詞嵌入作為輸入，但使用預(yù)訓(xùn)練模型進(jìn)行微調(diào)，并不能充分利用子詞嵌入提供的輔助信息。模型對比實驗結(jié)果表明，基于ULM預(yù)訓(xùn)練子詞嵌入和相對注意力的命名實體識別模型相較于其他模型，在材料領(lǐng)域命名實體識別任務(wù)中表現(xiàn)更加出色。

　　3.2消融實驗

　　本文針對BiLSTM-RMHA-CRF模型中的RMHA特征編碼層以及ULM詞嵌入特征進(jìn)行消融實驗，以度量ULM詞嵌入方法以及相對注意力機(jī)制對于材料領(lǐng)域命名實體識別準(zhǔn)度的提升作用。結(jié)果表明提出的BiLSTM-RMHACRF模型中，相對注意力機(jī)制和ULM子詞嵌入對材料領(lǐng)域命名實體識別都有不同程度的提升作用。

　　在僅使用BiLSTM-CRF模型時，由于其模型特征編碼性能有限，且從詞嵌入獲取到的信息較少，而材料領(lǐng)域文獻(xiàn)中的未登錄詞較多，導(dǎo)致模型的識別性能不佳。加入相對注意力機(jī)制后，提高了模型對于關(guān)鍵詞的關(guān)注度，命名實體識別性能有一定程度的提升。加入ULM子詞嵌入，使模型能夠獲取到單詞的形態(tài)學(xué)信息，并能夠辨別單詞之間的關(guān)聯(lián)作用，其性能有較大提升，表明基于概率模型的子詞嵌入確實能夠有效解決未登錄詞問題，并能提高模型對于材料領(lǐng)域詞匯間關(guān)聯(lián)關(guān)系的辨識性能。

　　材料科學(xué)評職知識：新型材料研發(fā)論文發(fā)表期刊

　　4結(jié)語

　　本文針對材料領(lǐng)域命名實體識別數(shù)據(jù)規(guī)模小，識別難度高等問題，提出了BiLSTM-RMHA-CRF模型方法，同時使用基于概率模型的ULM子詞嵌入作為模型輸入，以提高模型對于材料領(lǐng)域命名實體的辨別能力。通過在多種適用于命名實體識別的模型上進(jìn)行對比實驗，證明該方法可以有效提高模型的普適性和魯棒性，在MicroF1、MacroF1兩種評價指標(biāo)上都有較大的提高。

　　并設(shè)置了特征編碼層對照和詞嵌入對照實驗，驗證了相對注意力機(jī)制和預(yù)訓(xùn)練ULM子詞嵌入對于命名實體識別模型的提高效用，表明相對注意力機(jī)制和ULM子詞嵌入對于材料領(lǐng)域命名實體識別確有較大的提升作用。但此算法的一處不足是沒有解決樣本分布不均帶來的模型偏側(cè)性問題，不同類別的實體，其識別準(zhǔn)度差異較大，檢測能力也有待提升，可以將其作為進(jìn)一步的研究方向。

　　參考文獻(xiàn)(References)

　　[1]LaffertyJ，MccallumA，PereiraFCN.Conditionalrandomfields：probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proceedingsofthe2001InternationalConferenceonMachineLearning.NewYork：ACM，2001：282-289.

　　[2]KimY.Convolutionalneuralnetworksforsentenceclassification[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing，Stroudsburg，PA：AssociationforComputationalLinguistics，2014：1746-1751.

　　[3]HochreiterS，SchmidhuberJ.Longshort-termmemory[J].NeuralComputation，1997，9(8)：1735-1780.

　　作者：韓玉民，郝曉燕*