本文摘要:摘要:在材料領(lǐng)域文獻(xiàn)中準(zhǔn)確識別命名實體有助于構(gòu)建專業(yè)知識圖譜、問答系統(tǒng)等;谏疃葘W(xué)習(xí)的命名實體識別(NER)技術(shù)已廣泛應(yīng)用于多種專業(yè)領(lǐng)域,然而面向材料領(lǐng)域的命名實體識別研究相對較少。針對材料領(lǐng)域命名實體識別中,可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)規(guī)模小,實體
摘要:在材料領(lǐng)域文獻(xiàn)中準(zhǔn)確識別命名實體有助于構(gòu)建專業(yè)知識圖譜、問答系統(tǒng)等;谏疃葘W(xué)習(xí)的命名實體識別(NER)技術(shù)已廣泛應(yīng)用于多種專業(yè)領(lǐng)域,然而面向材料領(lǐng)域的命名實體識別研究相對較少。針對材料領(lǐng)域命名實體識別中,可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)規(guī)模小,實體詞復(fù)雜度高等問題,提出使用大規(guī)模非結(jié)構(gòu)化的材料領(lǐng)域文獻(xiàn)數(shù)據(jù),訓(xùn)練基于一元語言模型(ULM)的子詞嵌入分詞模型,充分利用單詞結(jié)構(gòu)蘊含的信息,增強模型魯棒性。并提出以BiLSTM-CRF為基本模型,結(jié)合能夠感知方向和距離的相對多頭注意力機制(RMHA)的實體識別模型,以提高對關(guān)鍵詞的敏感程度。BiLSTM-RMHA-CRF模型結(jié)合ULM子詞嵌入方法,相比于BiLSTM-CNNs-CRF和SciBERT等模型,在固體氧化物燃料電池(SOFC)命名實體識別數(shù)據(jù)集上的MacroF1值提高了2-4個百分點,SOFC細(xì)粒度實體識別數(shù)據(jù)集的MacroF1值提高了3-8個百分點。實驗結(jié)果表明,基于子詞嵌入和相對注意力的識別模型能夠有效提高材料領(lǐng)域?qū)嶓w的識別準(zhǔn)度。
關(guān)鍵詞:命名實體識別;子詞嵌入;相對注意力;深度學(xué)習(xí);材料領(lǐng)域
0引言
命名實體識別(namedentityrecognition,NER)的目標(biāo)是在非結(jié)構(gòu)化的文本中按照預(yù)先定義的類別信息,提取并分類出具有特定意義的命名實體信息,如人名、機構(gòu)、地點等。命名實體識別技術(shù)可以用于如知識圖譜構(gòu)建,問答系統(tǒng),機器翻譯等自然語言處理任務(wù)。專業(yè)領(lǐng)域的命名實體識別對于機器閱讀理解專業(yè)領(lǐng)域文獻(xiàn)和構(gòu)建專業(yè)知識圖譜具有重要作用,精準(zhǔn)的進(jìn)行專業(yè)領(lǐng)域的命名實體識別有助于減少科研工作量,提高查閱效率,并能夠輔助提高專業(yè)領(lǐng)域機器翻譯,自動問答等上游自然語言處理系統(tǒng)的水平。
近幾年對于命名實體識別的研究大多基于深度學(xué)習(xí),目前適用于命名實體識別的常用深度學(xué)習(xí)模型與方法有條件隨機場(ConditionalRandomFields,CRF)[1],卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)[2],長短期記憶神經(jīng)網(wǎng)絡(luò)(Long-ShortTermMemory,LSTM)[3],門控循環(huán)網(wǎng)絡(luò)(GateRecurrentUnit,GRU)[4]以及自注意力機制[5]等。
Ma等[6]人結(jié)合雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directionalLong-ShortTermMemory,BiLSTM)、CNN與CRF提出了端到端的序列標(biāo)注模型,在CoNLL-2003數(shù)據(jù)集上達(dá)到91.21%的F1值;Chiu等[7]人提出使用雙向LSTM和CNN編碼層進(jìn)行命名實體識別,并分別在CoNLL-2003和OntoNotes數(shù)據(jù)集上的F1值達(dá)到91.62%和86.28%;Liu等[8]人提出使用LM-LSTM-CRF(LanguageModelLong-ShortTermMemoryConditionalRandomFields)模型方法將CoNLL-2003數(shù)據(jù)集的F1值提高到91.71%;Dhrisya等[9]使用雙向GRU結(jié)合自注意力機制在OntoNotes細(xì)粒度實體識別任務(wù)上達(dá)到較高水平。
通用領(lǐng)域命名實體識別,其精準(zhǔn)度已達(dá)到較高水準(zhǔn),目前命名實體識別方向的研究大多基于專業(yè)領(lǐng)域。楊維等[10]提出基于條件隨機場的命名實體識別算法,在電力服務(wù)數(shù)據(jù)集上具有較高準(zhǔn)確率;李博、張華麗等[11-12]分別采用TransformerCRF和BiLSTM-CRF模型對中文電子病歷進(jìn)行實體識別,能夠準(zhǔn)確識別癥狀、治療等五類實體;張心怡等[13]提出了聯(lián)合深度注意力網(wǎng)絡(luò),在煤礦領(lǐng)域命名實體識別精準(zhǔn)度和識別效率都有較大的提升;許力等[14]結(jié)合CNN、BiLSTM、圖卷積神經(jīng)網(wǎng)絡(luò),并融合詞向量和依存句法分析特征進(jìn)行生物醫(yī)學(xué)實體識別,在多個數(shù)據(jù)集上表現(xiàn)出色。
材料領(lǐng)域的自然語言處理研究相對貧乏,其中與本文研究相關(guān)的有:Mysore等[15-16]人提出了自動提取材料科學(xué)文獻(xiàn)結(jié)構(gòu)化信息的系統(tǒng),并且發(fā)布了大規(guī)模材料領(lǐng)域語料庫;Mrdjenovich等[17]構(gòu)建了材料科學(xué)領(lǐng)域的知識圖譜propnet;Friedrich等[18]發(fā)布了固體氧化物燃料電池(solidoxidefuelcell,SOFC)命名實體識別數(shù)據(jù)集,并使用SciBERT模型達(dá)到81.5%的MacroF1值。
識別未登錄詞是命名實體識別任務(wù)的關(guān)鍵,字符嵌入一般用于解決傳統(tǒng)詞嵌入,如word2vec,存在的未登錄詞(out-ofvocabulary,OOV)問題,同時還能反映出單詞字符序列蘊含的形態(tài)學(xué)信息。Gajendran等[19]將詞表示和字符表示作為輸入,使用三重BiLSTM-DRNN模型進(jìn)行命名實體識別。Cho等[20]同時使用BiLSTM和CNN對單詞字符進(jìn)行編碼,得到字符嵌入并與詞嵌入向量結(jié)合作為模型輸入,在生物醫(yī)學(xué)命名實體識別中達(dá)到較高水平。
字符嵌入能夠有效提高命名實體識別模型的識別準(zhǔn)度,但其缺點也較為明顯:1)需要額外的字符級編碼層;2)使用CNN作為編碼層,其對于相鄰字符的感受野相對固定,而使用BiLSTM編碼層,又不能充分挖掘單詞詞綴之間的關(guān)聯(lián)信息。本文采用子詞嵌入代替字符嵌入,同時使用大規(guī)模材料領(lǐng)域數(shù)據(jù),對子詞劃分模型進(jìn)行預(yù)訓(xùn)練,將得到的子詞分詞結(jié)果再進(jìn)行詞向量訓(xùn)練,同word2vec結(jié)合作為命名實體識別模型的輸入。
自注意力機制常用語多種自然語言處理任務(wù),命名實體識別中加入自注意力機制能夠提高模型的特征提取能力和上下文信息的關(guān)注程度。但Transformer結(jié)構(gòu)由于其在注意力計算時使用了歸一化處理,且其位置編碼不具備方向性,在命名實體識別任務(wù)上的表現(xiàn)不佳[21]。
本文采用相對多頭自注意力機制代替?zhèn)鹘y(tǒng)的自注意力機制,作為命名實體識別模型的編碼層。本文的主要內(nèi)容有:1)使用大量非結(jié)構(gòu)化材料領(lǐng)域文獻(xiàn)數(shù)據(jù),訓(xùn)練基于一元語言模型(UnigramLanguageModel,ULM)的分詞模型,并進(jìn)一步訓(xùn)練出適用于材料領(lǐng)域數(shù)據(jù)的子詞嵌入,并將其用于材料領(lǐng)域命名實體識別任務(wù)。
2)在BiLSTM-CRF模型的基礎(chǔ)上,使用能夠感知單詞方向和距離的相對注意力機制(relativemulti-headattention,RMHA),用以增強模型對關(guān)鍵詞的感知能力。3)在SOFC數(shù)據(jù)集的命名實體識別和細(xì)粒度實體識別任務(wù)中,使用常用模型與BiLSTM-RMHA-CRF模型進(jìn)行多組對比實驗,表明ULM子詞嵌入和基于RMHA的深度學(xué)習(xí)模型有助于提高材料領(lǐng)域命名實體識別的精準(zhǔn)度。
1子詞嵌入和RMHA實體識別網(wǎng)絡(luò)
使用BiLSTM-CRF模型結(jié)合相對多頭注意力機制對材料領(lǐng)域數(shù)據(jù)進(jìn)行命名實體識別,同時使用預(yù)訓(xùn)練詞嵌入和子詞嵌入提高模型對于未登錄詞問題的辨識能力。
1.1BiLSTM-CRF模型
BiLSTM后接CRF解碼層是序列標(biāo)注任務(wù)的常用模型。BiLSTM通過整合前向和后向傳遞的信息,保證每個隱層都接收到來自其他隱層的信息。CRF解碼層可以通過狀態(tài)轉(zhuǎn)移矩陣來實現(xiàn)相鄰標(biāo)簽的約束。本文使用BiLSTM-CRF模型為基本實驗?zāi)P,在其基礎(chǔ)上加入ULM子詞嵌入作為輸入,并進(jìn)一步使用基于相對位置編碼的相對注意力機制作為材料領(lǐng)域命名實體識別模型的編碼層,用以改進(jìn)模型對于關(guān)鍵詞和相關(guān)實體的關(guān)注程度。
1.2基于概率模型的子詞嵌入
1.2.1字符嵌入和子詞嵌入
材料領(lǐng)域數(shù)據(jù)集中存在大量單頻詞和低頻詞,傳統(tǒng)的詞向量表示方法,如word2vec[22],無法很好地處理專業(yè)名詞,化學(xué)式等未知或者罕見詞匯,導(dǎo)致其命名實體識別難度較高。目前常用CNN編碼層獲得單詞的字符級表示,后將其與預(yù)訓(xùn)練好的詞嵌入進(jìn)行組合參與訓(xùn)練。子詞嵌入把單詞劃分為長度不一的字符串后對其向量表示,相較于字符表示蘊含更加豐富的形態(tài)信息,并可以使用大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練詞向量。BPEmb[23]利用字節(jié)對編碼(BytePairEncoding,BPE)數(shù)據(jù)壓縮算法構(gòu)建子詞詞表,使分詞粒度在單詞和字符之間,從而更高效率的解決未登錄問題。BPEmb劃分的子詞只能是單一結(jié)果,而且對于子詞序列的劃分結(jié)果沒有量化的評判標(biāo)準(zhǔn)[24]。
2實驗設(shè)置
2.1數(shù)據(jù)集
ULM子詞嵌入概率分詞模型和預(yù)訓(xùn)練子詞向量使用網(wǎng)絡(luò)采集的14萬條原始材料領(lǐng)域文獻(xiàn)數(shù)據(jù)。命名實體識別實驗采用SOFC命名實體識別數(shù)據(jù)集和SOFC細(xì)粒度實體識別數(shù)據(jù)集[18]。SOFC命名實體識別數(shù)據(jù)集該數(shù)據(jù)集包含MATERIAL,VALUE,DEVICE,EXPERIMENT四種類型的標(biāo)簽,采用BIO標(biāo)注方式。其中MATERIAL類除了材料名外還包括諸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化學(xué)式;VALUE類包括實驗參數(shù)的數(shù)值和范圍符號,另外還包含描述程度的副詞,如“above750℃”,進(jìn)一步提高了識別命名實體的復(fù)雜度;EXPERIMENT類為標(biāo)志實驗行為的動詞。
SOFC細(xì)粒度實體識別數(shù)據(jù)將四類實體進(jìn)一步細(xì)分為19個子類別。該數(shù)據(jù)集相較于通用領(lǐng)域數(shù)據(jù)集,未登錄詞、單頻詞和低頻詞較多,實體形態(tài)復(fù)雜多樣。且不同于通用領(lǐng)域命名實體識別數(shù)據(jù)集中,人名、地名、組織名等本身蘊含的形態(tài)學(xué)信息較少,實體詞之間的關(guān)系模糊,材料領(lǐng)域數(shù)據(jù)集中的實體間存在較大的形態(tài)學(xué)關(guān)聯(lián)性,如化學(xué)式之間的關(guān)聯(lián)信息。
2.2數(shù)據(jù)預(yù)處理
本文使用基于正則模板的數(shù)據(jù)增強[25],將大量正則模板應(yīng)用于模型訓(xùn)練,旨在讓模型學(xué)習(xí)到更多上下文信息,模糊實體對于特定上下文的依賴關(guān)系,達(dá)到提高識別未登錄詞和低頻詞的精準(zhǔn)度的目的。本文涉及的所有實驗均采用正則模板的數(shù)據(jù)增強方法對訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理后作為輸入。正則模板數(shù)據(jù)增強見圖5。
3實驗結(jié)果與分析
3.1綜合實驗結(jié)果
實驗使用加入ULM子詞嵌入的BiLSTM-RMHA-CRF模型與現(xiàn)有模型在SOFC命名實體識別數(shù)據(jù)集上進(jìn)行對比,對比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-LevelCNN-LSTM模型[20]。
SOFC命名實體識別數(shù)據(jù)集上的設(shè)備(device,DEV)、實驗(experiment,EXP)、材料(material,MAT)、參數(shù)(value,VAL)四種實體的F1值和平均MicroF1值、MacroF1值結(jié)果以及SOFC細(xì)粒度實體識別數(shù)據(jù)集的平均MicroF1值、MacroF1值結(jié)果。結(jié)果表明相較于其他模型,基于相對注意力機制和ULM子詞嵌入的模型能夠提高對命名實體的辨別能力。
BiLSTM-CNNs-CRF模型使用字符級CNN對輸入進(jìn)行編碼,得到字符嵌入,再將其輸入BiLSTM-CRF模型進(jìn)行序列標(biāo)注,其卷積操作,在一定程度上相當(dāng)于能夠提取固定寬度的子詞信息。LM-LSTM-CRF模型使用字符級LSTM作為字符嵌入模型,將字符序列編碼為詞向量用以命名實體識別訓(xùn)練。
Char-LevelCNN-LSTM模型結(jié)合了上述兩個模型的字符嵌入方法;谧址度氲脑~嵌入算法在SOFC命名實體識別和細(xì)粒度實體識別數(shù)據(jù)集標(biāo)簽尚佳,但由于字符嵌入詞表規(guī)模過小且蘊含信息有限,無法進(jìn)行預(yù)訓(xùn)練,對于不同的單詞輸入,即使擁有相同的子詞特征也不能保證得到相近的向量表示;而預(yù)訓(xùn)練子詞嵌入可以確保具有相同子詞特征的單詞,其詞嵌入獲得的信息量相同。
BiGRU-SelfAttn模型使用了結(jié)構(gòu)更加簡單的GRU作為特征編碼層,并結(jié)合自注意力機制作為命名實體識別模型,并直接將單詞作為輸入進(jìn)行訓(xùn)練,其效果相對于其他模型表現(xiàn)有限。SciBERT模型使用了大規(guī)模科學(xué)領(lǐng)域文獻(xiàn)預(yù)訓(xùn)練的BERT模型作為編碼層,并結(jié)合BPEmb子詞嵌入作為輸入,但使用預(yù)訓(xùn)練模型進(jìn)行微調(diào),并不能充分利用子詞嵌入提供的輔助信息。模型對比實驗結(jié)果表明,基于ULM預(yù)訓(xùn)練子詞嵌入和相對注意力的命名實體識別模型相較于其他模型,在材料領(lǐng)域命名實體識別任務(wù)中表現(xiàn)更加出色。
3.2消融實驗
本文針對BiLSTM-RMHA-CRF模型中的RMHA特征編碼層以及ULM詞嵌入特征進(jìn)行消融實驗,以度量ULM詞嵌入方法以及相對注意力機制對于材料領(lǐng)域命名實體識別準(zhǔn)度的提升作用。結(jié)果表明提出的BiLSTM-RMHACRF模型中,相對注意力機制和ULM子詞嵌入對材料領(lǐng)域命名實體識別都有不同程度的提升作用。
在僅使用BiLSTM-CRF模型時,由于其模型特征編碼性能有限,且從詞嵌入獲取到的信息較少,而材料領(lǐng)域文獻(xiàn)中的未登錄詞較多,導(dǎo)致模型的識別性能不佳。加入相對注意力機制后,提高了模型對于關(guān)鍵詞的關(guān)注度,命名實體識別性能有一定程度的提升。加入ULM子詞嵌入,使模型能夠獲取到單詞的形態(tài)學(xué)信息,并能夠辨別單詞之間的關(guān)聯(lián)作用,其性能有較大提升,表明基于概率模型的子詞嵌入確實能夠有效解決未登錄詞問題,并能提高模型對于材料領(lǐng)域詞匯間關(guān)聯(lián)關(guān)系的辨識性能。
材料科學(xué)評職知識:新型材料研發(fā)論文發(fā)表期刊
4結(jié)語
本文針對材料領(lǐng)域命名實體識別數(shù)據(jù)規(guī)模小,識別難度高等問題,提出了BiLSTM-RMHA-CRF模型方法,同時使用基于概率模型的ULM子詞嵌入作為模型輸入,以提高模型對于材料領(lǐng)域命名實體的辨別能力。通過在多種適用于命名實體識別的模型上進(jìn)行對比實驗,證明該方法可以有效提高模型的普適性和魯棒性,在MicroF1、MacroF1兩種評價指標(biāo)上都有較大的提高。
并設(shè)置了特征編碼層對照和詞嵌入對照實驗,驗證了相對注意力機制和預(yù)訓(xùn)練ULM子詞嵌入對于命名實體識別模型的提高效用,表明相對注意力機制和ULM子詞嵌入對于材料領(lǐng)域命名實體識別確有較大的提升作用。但此算法的一處不足是沒有解決樣本分布不均帶來的模型偏側(cè)性問題,不同類別的實體,其識別準(zhǔn)度差異較大,檢測能力也有待提升,可以將其作為進(jìn)一步的研究方向。
參考文獻(xiàn)(References)
[1]LaffertyJ,MccallumA,PereiraFCN.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proceedingsofthe2001InternationalConferenceonMachineLearning.NewYork:ACM,2001:282-289.
[2]KimY.Convolutionalneuralnetworksforsentenceclassification[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Stroudsburg,PA:AssociationforComputationalLinguistics,2014:1746-1751.
[3]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
作者:韓玉民,郝曉燕*
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/27545.html