本文摘要:摘要:預訓練語言模型在機器閱讀理解領(lǐng)域表現(xiàn)出色。相比于英文機器閱讀理解,基于預訓練語言模型的閱讀理解模型處理中文文本時的表現(xiàn)稍差,只能學習文本的淺層語義匹配。為此,提出一種基于混合注意力機制的中文機器閱讀理解模型。該模型在編碼層使用預訓練模型得到序
摘要:預訓練語言模型在機器閱讀理解領(lǐng)域表現(xiàn)出色。相比于英文機器閱讀理解,基于預訓練語言模型的閱讀理解模型處理中文文本時的表現(xiàn)稍差,只能學習文本的淺層語義匹配。為此,提出一種基于混合注意力機制的中文機器閱讀理解模型。該模型在編碼層使用預訓練模型得到序列表示,并經(jīng)過BiLSTM處理進一步加深上下文交互;再經(jīng)過由兩種變體自注意力組成的混合注意力層處理,旨在學習深層語義表示,而融合層結(jié)合多重融合機制獲取多層次的表示;最終使用雙層BiLSTM處理輸入輸出層得到答案位置。在CMRC2018數(shù)據(jù)集上的實驗結(jié)果表明,該模型與復現(xiàn)的基線模型相比EM值和F1值分別提升了2.05和0.465。
關(guān)鍵詞:中文機器閱讀理解;注意力機制;融合機制;預訓練模型;RoBERTa模型
0概述
機器閱讀理解是自然語言處理領(lǐng)域的一個極具挑戰(zhàn)性的任務(wù),一直深受研究人員的關(guān)注。深度學習技術(shù)的成熟以及數(shù)據(jù)多樣化推動機器閱讀理解領(lǐng)域快速發(fā)展,基于深度學習建立閱讀理解模型已成為目前普遍采用的方法。機器閱讀理解是指讓機器通過閱讀文本,回答相應(yīng)的問題。機器閱讀理解技術(shù)通過訓練模型幫助用戶從大量的文本中快速、準確地找到答案。根據(jù)答案類型的不同,機器閱讀理解任務(wù)可分為四類[1]:
1)完形填空式,該類任務(wù)要求模型從候選答案集合中選擇一個正確的詞進行填至問題句,使文章變得完整。2)抽取式,這類任務(wù)要求模型能根據(jù)提出的問題在文章中抽取一個連續(xù)片段作為答案,輸出答案在上下文中的起始位置和結(jié)束位置。3)多項選擇式,這種形式需要從候選答案集合中挑選正確答案。
4)自由作答式,在該類任務(wù)中,答案的類型不受限制。其中,抽取式閱讀理解任務(wù)的形式相對靈活,能夠適用于現(xiàn)實中大部分場景,如搜索引擎、智能問答等。本文針對抽取式機器閱讀理解任務(wù)進行深入研究。 預訓練語言模型BERT[2]的出現(xiàn)使得一些模型在閱讀理解任務(wù)上的表現(xiàn)接近甚至超過了人類,推動機器閱讀理解的研究進入新的階段。BERT模型優(yōu)秀的表現(xiàn)受到了眾多專家、學者的高度關(guān)注,近兩年涌現(xiàn)出了很多基于BERT改進的模型,如ALBERT[3]、RoBERTa[4]等,使用預訓練模型已成為機器閱讀理解的發(fā)展趨勢。
由于預訓練模型只能學習到文本的淺層語義匹配信息,目前大多數(shù)模型都采取了預訓練語言模型與注意力機制結(jié)合的方式,即通過預訓練模型獲取相應(yīng)表示,再使用注意力機制進行推理,從而捕捉文本的深層語義信息,預測出更加準確的答案。但原始的預訓練模型是針對英文語言設(shè)計的,無法有效處理中文文本。本文提出了一種基于混合注意力機制的中文機器閱讀理解模型。該模型使用混合注意力機制進行推理,并結(jié)合多重融合機制豐富序列信息。在CMRC2018中文閱讀理解數(shù)據(jù)集上的實驗結(jié)果表明,本文模型最終得到的EM值和F1值與復現(xiàn)的基線模型相比分別提高了2.05和0.465。
1相關(guān)工作
1.1結(jié)合注意力機制的機器閱讀理解
Bahdanau等人將注意力機制用于機器翻譯任務(wù),這是注意力機制第一次應(yīng)用于自然語言處理領(lǐng)域。引入注意力機制后,不同形式的注意力機制成為基于神經(jīng)網(wǎng)絡(luò)模型在閱讀理解任務(wù)上取得好成績的一個關(guān)鍵因素。
2015年,Hermann等人提出了兩個基于神經(jīng)網(wǎng)絡(luò)的模型TheAttentiveReader和TheImpatientReader,首次將注意力機制應(yīng)用于機器閱讀理解的任務(wù)中,通過注意力機制得到問題和文章之間的交互信息。后來提出的AttentionSumReader模型,以及TheStanfordAttentiveReader模型均著重于提升注意力模型中對問題和文章的相似度計算能力。前期模型中使用的注意力機制大多較為簡單,對文本理解能力不足,無法對文章和問題進行有效交互。針對這一問題,研究人員開始在深層注意力機制方面做了大量的研究。BiDAF模型同時計算文章到問題和問題到文章兩個方向的注意力信息,捕獲問題和文章更深層的交互信息。DocumentReader模型10]將詞性等語法特征融入詞嵌入層,經(jīng)過模型處理得到答案。
Net模型[1在計算問題和文章的注意力之后加入自匹配注意力層,對文章進行自匹配,從而實現(xiàn)文章的有效編碼。FusionNet模型12]融合多個層次的特征向量作為輸入。2017年,谷歌的研究人員提出了Transformer模型[1,該模型僅僅依靠自注意力機制就在多個任務(wù)上取得了最好結(jié)果,證明注意力機制擁有較強的提取文本信息的能力。2018年,谷歌團隊提出了基于雙向Transformer的預訓練語言模型BERT。這種雙向的結(jié)構(gòu)能夠結(jié)合上下文語境進行文本表征,增強了模型的學習能力。BERT的出現(xiàn)刷新了11個自然語言處理任務(wù)的最好結(jié)果,使得預訓練語言模型成為近幾年的研究熱點。
1.2中文機器閱讀理解
中文機器閱讀理解領(lǐng)域起步較晚,由于缺少優(yōu)質(zhì)中文數(shù)據(jù)集,發(fā)展相對緩慢。在近幾年發(fā)布的各種中文機器閱讀理解數(shù)據(jù)集的影響下,越來越多的研究人員致力于中文領(lǐng)域的探索。
2016年,Cui等人[1發(fā)布了第一個大規(guī)模填空型中文機器閱讀理解數(shù)據(jù)集PeopleDailyandChildren’sFairyTale,填補了大規(guī)模中文閱讀理解數(shù)據(jù)集的空白。2017年,Cui等人[1在此數(shù)據(jù)集的基礎(chǔ)上提出了CMRC2017數(shù)據(jù)集,作為第一屆“訊飛杯”中文機器閱讀理解評測比賽的數(shù)據(jù)集。2018年,Cui等人16發(fā)布抽取型中文機器閱讀理解數(shù)據(jù)集CMRC2018,該數(shù)據(jù)集作為第二屆“訊飛杯”中文機器閱讀理解評測比賽使用的數(shù)據(jù)集,也是本文實驗使用的數(shù)據(jù)集。
該數(shù)據(jù)集由近兩萬個人工標注的問題構(gòu)成,同時發(fā)布了一個需要多句推理答案的挑戰(zhàn)集。He等人17同樣在2018年提出DuReader數(shù)據(jù)集,該數(shù)據(jù)集共包含20萬個問題、100萬篇文章和超過42萬個人工總結(jié)的答案,數(shù)據(jù)來源更貼近實際,問題類型豐富,是目前最大的中文機器閱讀理解數(shù)據(jù)集。
徐麗麗等人[1搜集全國各省近10年高考題以及高考模擬題中的981篇科技文語料,構(gòu)建了4905個問題,同時搜集萬篇新聞?wù)Z料,構(gòu)造10萬個補寫句子類選擇題語料。Shao等人[1提出了繁體中文機器閱讀理解數(shù)據(jù)集DRCD,該數(shù)據(jù)集包含從2108篇維基百科文章中摘取的10014篇段落以及超過萬個問題。中文機器閱讀理解領(lǐng)域受到研究人員越來越多的關(guān)注,不斷有優(yōu)秀的方法與模型出現(xiàn),呈現(xiàn)繁榮發(fā)展的趨勢。
2模型結(jié)構(gòu)
為了提高模型對中文文本的理解能力,本文提出了一種基于混合注意力機制的中文機器閱讀理解模型。首先經(jīng)過編碼層得到序列表示,再使用混合注意力機制提取文本中可能與答案有關(guān)的關(guān)鍵信息,然后結(jié)合多重融合機制融合多層次的序列信息,經(jīng)過雙層BiLSTM建模后傳入輸出層,最終輸出正確答案所在位置。
2.1編碼層
編碼層使用中文預訓練語言模型RoBERTa[18]對問題和文章進行編碼。RoBERTa模型仍使用BERT的基本結(jié)構(gòu),在模型訓練時有如下幾個方面的差異:
1)使用動態(tài)掩碼機制。2)移除BERT中采用的下一句預測訓練任務(wù)。3)使用更大Byte級別的文本編碼方式。4)使用更大批次以及更大規(guī)模的數(shù)據(jù)進行訓練。實驗結(jié)果表明,RoBERTa在多個任務(wù)上的表現(xiàn)優(yōu)于BERT。本層將問題和文章拼接后的文本輸入RoBERTa模型中,經(jīng)過分詞器處理后的每一個詞稱為token,最終RoBERTa模型輸入的編碼向量為token嵌入、位置特征嵌入以及用以區(qū)分問題和文章的分割特征嵌入之和。本文使用的RoBERTa模型由12層Transformer編碼器組成,本模型取最后一層編碼輸出作為文本嵌入表示。
2.混合注意力層
混合注意力層基于混合注意力機制處理編碼層得到的上下文向量,進而學習文本中更深層次的語義信息,該層是模型的核心部分。本層的混合注意力機制由Synthesizer20中提出的兩種自注意力機制的變體注意力RandomSynthesizer和DenseSynthesizer組成。傳統(tǒng)的自注意力機制通過計算序列中每一個token與序列中其他token的相關(guān)度得到權(quán)重矩陣,再將歸一化后的權(quán)重和相應(yīng)的鍵值進行加權(quán)求和,得到最終的注意力表示。這里的相關(guān)度一般通過點積得分矩陣體現(xiàn),點積自注意力的主要作用是學習自對齊信息,即token對的交互信息。自注意力機制通過比較序列本身捕捉序列和全局的聯(lián)系,獲取文本特征的內(nèi)部相關(guān)性。
這種從tokentoken交互中學習到的注意力權(quán)重有一定的作用,但也存在缺點。傳統(tǒng)自注意力機制中的權(quán)重包含實例中token對的交互信息,通過計算點積的方式得到每個token與序列其他token的相對重要度。這種方式過度依賴特定實例,僅通過token對之間的相關(guān)度決定答案的概率是不穩(wěn)定的,缺乏一致的上下文聯(lián)系,很大程度上會受不同實例影響,不能學習到更多的泛化特征。
在Synthesizer[19]一文中的實驗表明,與傳統(tǒng)自注意力機制相比,Synthesizer注意力機制得到的權(quán)重曲線更加平滑。受其啟發(fā),本文認為這種合成權(quán)重矩陣的自注意力機制不會從特定的token中獲益,可以在提取序列關(guān)鍵信息的同時減小因不同實例產(chǎn)生的影響,因此本層使用這種合成注意力來提取文本深層信息。這種合成矩陣的注意力與點積注意力或考慮上下文的注意力不同,它不依賴于tokentoken交互的方式生成權(quán)重矩陣,受特定樣本的影響較小,能夠?qū)W習到較為穩(wěn)定的權(quán)重值。
3實驗與分析
3.1數(shù)據(jù)集
本文使用CMRC2018評測任務(wù)數(shù)據(jù)集以及DRCD數(shù)據(jù)集進行實驗。兩個數(shù)據(jù)集的格式相同,均用于抽取式閱讀理解任務(wù)。其中,CMRC2018數(shù)據(jù)集為簡體中文數(shù)據(jù)集,DRCD數(shù)據(jù)集為繁體中文數(shù)據(jù)集。除對比實驗外,其余幾組實驗均使用CMRC2018數(shù)據(jù)集。以CMRC2018數(shù)據(jù)集為例。[Document]白蕩湖位于中國安徽樅陽縣境內(nèi),緊鄰長江北岸,系由長江古河床擺動廢棄的洼地積水而成。湖盆位置介于北緯30度47分~30度51分、東經(jīng)117度19分~117度27分。
白蕩湖原有面積近100平方公里,經(jīng)過近五十年的圍墾,目前面積縮小為39.67平方公里,平均水深3.06米,蓄水量1.21億立方米。通過白蕩閘與長江連通,是長江重要的蓄洪湖之一。湖水補給主要依賴降水與長江倒灌,入流的羅昌河、錢橋河等均為季節(jié)性溪流,入水量較小。白蕩湖是重要的水產(chǎn)養(yǎng)殖基地,盛產(chǎn)各種淡水魚類與水禽,其中以大閘蟹產(chǎn)量最大。每年冬季開啟白蕩閘排干湖水捕魚,次年月左右再引長江水倒灌,水位至、月份達到最高。
3.2實驗配置
本文實驗采用GPU進行訓練,開發(fā)語言為Python,深度學習框架為Pytorch。由于本文模型加入注意力層以及BiLSTM,增加了序列之間的交互過程,因此相比基線模型,本文模型的訓練速度更加緩慢。
3.3評價指標
本文采用EM值和F1值作為評價指標。EM值為精確匹配度,計算預測答案與真實答案是否完全匹配。F1值為模糊匹配度,計算預測答案與標準答案之間的匹配程度。這兩個指標通常作為抽取式機器閱讀理解的評價指標。
3.4結(jié)果與分析
3.4.1對比實驗
為驗證本文提出的模型在中文機器閱讀理解任務(wù)的有效性,將本文模型與以下幾個模型進行實驗對比。BERTbase(Chinese)和BERTbase(Multilingual)為CMRC2018評測任務(wù)選用的基線模型。RoBERTawwmext21為本文選取的基線模型,該模型針對中文改進預訓練模型中的全詞掩碼訓練方法。MacBERTbase為文獻[2提出的預訓練模型,該模型主要針對mask策略對RoBERTa進行改進.
本文模型在CMRC2018數(shù)據(jù)集的EM值和F1值分別達到69.835和88.037,相比復現(xiàn)的基線模型分別提高了2.05和0.465,在DRCD數(shù)據(jù)集的EM值和F1相比基線模型分別提高了0.256和0.113,在兩個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他對比模型。實驗結(jié)果表明本文模型在性能上有顯著提升,能夠?qū)W習到文本的深層語義信息,有效改進了預訓練語言模型。
3.4.2消融實驗
為研究混合注意力以及多重融合機制對模型的貢獻,設(shè)計消融實驗進一步分析。由于多重融合機制需要混合注意力的輸出信息,因此本節(jié)實驗考慮兩部分共同作用的影響。
4結(jié)束語
本文針對抽取式中文機器閱讀理解任務(wù)展開研究,提出了一種基于混合注意力機制的閱讀理解模型。該模型主要從以下兩個方面來改進中文機器閱讀理解模型對文本的理解能力,首先使用兩種自注意力機制的變體模型對序列進行處理,加深對文本語義信息的理解,其次對輸出的注意力進行多層次的融合,使得輸出的序列攜帶更加豐富的信息。大量實驗表明,以上措施提升了模型的理解能力,改進了模型對語義的獲取方法,同時保留了原序列的信息特征,提高了預測答案的準確率。
分析發(fā)現(xiàn),目前中文機器閱讀理解模型存在答案邊界不準確的問題,因此在下一階段的工作中,考慮將使用分詞器優(yōu)化模型輸入,將分詞結(jié)果作為輸入特征加入序列中,從而優(yōu)化答案邊界。此外,結(jié)合雙向注意力機制,融合文章到問題以及問題到文章雙向的注意力,優(yōu)化模型結(jié)構(gòu),加深對文本的理解。
參考文獻
[1]HENanqi.Neuralreadingcomprehensionandbeyond[D].PaloAlto:StanfordUniversity,2018.
[2]DevlinJ,ChangMW,LeeK,etal.Bert:Pretrainingofdeepbidirectionaltransformersforlanguageunderstanding[EB/OL].(20181011)[202107].
[3]LanZ,ChenM,GoodmanS,etal.Albert:Alitebertforselfsupervisedlearningoflanguagerepresentations[EB/OL].(20190926)[202107].
[4]LiuY,OttM,GoyalN,etal.Roberta:Arobustlyoptimizedbertpretrainingapproach[EB/OL].(201907)[202107].https://arxiv.org/abs/1907.11692.BahdanauD,ChoK,BengioY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[EB/OL].(20140901)[202107].
作者:劉高軍,李亞欣,段建勇
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///jjlw/29156.html