亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)經(jīng)濟(jì)論文》 基于混合注意力機(jī)制的中文機(jī)器閱讀理解> 正文

基于混合注意力機(jī)制的中文機(jī)器閱讀理解

所屬分類:經(jīng)濟(jì)論文 閱讀次 時(shí)間:2021-12-21 10:52

本文摘要:摘要:預(yù)訓(xùn)練語(yǔ)言模型在機(jī)器閱讀理解領(lǐng)域表現(xiàn)出色。相比于英文機(jī)器閱讀理解,基于預(yù)訓(xùn)練語(yǔ)言模型的閱讀理解模型處理中文文本時(shí)的表現(xiàn)稍差,只能學(xué)習(xí)文本的淺層語(yǔ)義匹配。為此,提出一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。該模型在編碼層使用預(yù)訓(xùn)練模型得到序

  摘要:預(yù)訓(xùn)練語(yǔ)言模型在機(jī)器閱讀理解領(lǐng)域表現(xiàn)出色。相比于英文機(jī)器閱讀理解,基于預(yù)訓(xùn)練語(yǔ)言模型的閱讀理解模型處理中文文本時(shí)的表現(xiàn)稍差,只能學(xué)習(xí)文本的淺層語(yǔ)義匹配。為此,提出一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。該模型在編碼層使用預(yù)訓(xùn)練模型得到序列表示,并經(jīng)過(guò)BiLSTM處理進(jìn)一步加深上下文交互;再經(jīng)過(guò)由兩種變體自注意力組成的混合注意力層處理,旨在學(xué)習(xí)深層語(yǔ)義表示,而融合層結(jié)合多重融合機(jī)制獲取多層次的表示;最終使用雙層BiLSTM處理輸入輸出層得到答案位置。在CMRC2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型與復(fù)現(xiàn)的基線模型相比EM值和F1值分別提升了2.05和0.465。

  關(guān)鍵詞:中文機(jī)器閱讀理解;注意力機(jī)制;融合機(jī)制;預(yù)訓(xùn)練模型;RoBERTa模型

機(jī)器閱讀理解

  0概述

  機(jī)器閱讀理解是自然語(yǔ)言處理領(lǐng)域的一個(gè)極具挑戰(zhàn)性的任務(wù),一直深受研究人員的關(guān)注。深度學(xué)習(xí)技術(shù)的成熟以及數(shù)據(jù)多樣化推動(dòng)機(jī)器閱讀理解領(lǐng)域快速發(fā)展,基于深度學(xué)習(xí)建立閱讀理解模型已成為目前普遍采用的方法。機(jī)器閱讀理解是指讓機(jī)器通過(guò)閱讀文本,回答相應(yīng)的問(wèn)題。機(jī)器閱讀理解技術(shù)通過(guò)訓(xùn)練模型幫助用戶從大量的文本中快速、準(zhǔn)確地找到答案。根據(jù)答案類型的不同,機(jī)器閱讀理解任務(wù)可分為四類[1]:

  1)完形填空式,該類任務(wù)要求模型從候選答案集合中選擇一個(gè)正確的詞進(jìn)行填至問(wèn)題句,使文章變得完整。2)抽取式,這類任務(wù)要求模型能根據(jù)提出的問(wèn)題在文章中抽取一個(gè)連續(xù)片段作為答案,輸出答案在上下文中的起始位置和結(jié)束位置。3)多項(xiàng)選擇式,這種形式需要從候選答案集合中挑選正確答案。

  4)自由作答式,在該類任務(wù)中,答案的類型不受限制。其中,抽取式閱讀理解任務(wù)的形式相對(duì)靈活,能夠適用于現(xiàn)實(shí)中大部分場(chǎng)景,如搜索引擎、智能問(wèn)答等。本文針對(duì)抽取式機(jī)器閱讀理解任務(wù)進(jìn)行深入研究。 預(yù)訓(xùn)練語(yǔ)言模型BERT[2]的出現(xiàn)使得一些模型在閱讀理解任務(wù)上的表現(xiàn)接近甚至超過(guò)了人類,推動(dòng)機(jī)器閱讀理解的研究進(jìn)入新的階段。BERT模型優(yōu)秀的表現(xiàn)受到了眾多專家、學(xué)者的高度關(guān)注,近兩年涌現(xiàn)出了很多基于BERT改進(jìn)的模型,如ALBERT[3]、RoBERTa[4]等,使用預(yù)訓(xùn)練模型已成為機(jī)器閱讀理解的發(fā)展趨勢(shì)。

  由于預(yù)訓(xùn)練模型只能學(xué)習(xí)到文本的淺層語(yǔ)義匹配信息,目前大多數(shù)模型都采取了預(yù)訓(xùn)練語(yǔ)言模型與注意力機(jī)制結(jié)合的方式,即通過(guò)預(yù)訓(xùn)練模型獲取相應(yīng)表示,再使用注意力機(jī)制進(jìn)行推理,從而捕捉文本的深層語(yǔ)義信息,預(yù)測(cè)出更加準(zhǔn)確的答案。但原始的預(yù)訓(xùn)練模型是針對(duì)英文語(yǔ)言設(shè)計(jì)的,無(wú)法有效處理中文文本。本文提出了一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。該模型使用混合注意力機(jī)制進(jìn)行推理,并結(jié)合多重融合機(jī)制豐富序列信息。在CMRC2018中文閱讀理解數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型最終得到的EM值和F1值與復(fù)現(xiàn)的基線模型相比分別提高了2.05和0.465。

  1相關(guān)工作

  1.1結(jié)合注意力機(jī)制的機(jī)器閱讀理解

  Bahdanau等人將注意力機(jī)制用于機(jī)器翻譯任務(wù),這是注意力機(jī)制第一次應(yīng)用于自然語(yǔ)言處理領(lǐng)域。引入注意力機(jī)制后,不同形式的注意力機(jī)制成為基于神經(jīng)網(wǎng)絡(luò)模型在閱讀理解任務(wù)上取得好成績(jī)的一個(gè)關(guān)鍵因素。

  2015年,Hermann等人提出了兩個(gè)基于神經(jīng)網(wǎng)絡(luò)的模型TheAttentiveReader和TheImpatientReader,首次將注意力機(jī)制應(yīng)用于機(jī)器閱讀理解的任務(wù)中,通過(guò)注意力機(jī)制得到問(wèn)題和文章之間的交互信息。后來(lái)提出的AttentionSumReader模型,以及TheStanfordAttentiveReader模型均著重于提升注意力模型中對(duì)問(wèn)題和文章的相似度計(jì)算能力。前期模型中使用的注意力機(jī)制大多較為簡(jiǎn)單,對(duì)文本理解能力不足,無(wú)法對(duì)文章和問(wèn)題進(jìn)行有效交互。針對(duì)這一問(wèn)題,研究人員開(kāi)始在深層注意力機(jī)制方面做了大量的研究。BiDAF模型同時(shí)計(jì)算文章到問(wèn)題和問(wèn)題到文章兩個(gè)方向的注意力信息,捕獲問(wèn)題和文章更深層的交互信息。DocumentReader模型10]將詞性等語(yǔ)法特征融入詞嵌入層,經(jīng)過(guò)模型處理得到答案。

  Net模型[1在計(jì)算問(wèn)題和文章的注意力之后加入自匹配注意力層,對(duì)文章進(jìn)行自匹配,從而實(shí)現(xiàn)文章的有效編碼。FusionNet模型12]融合多個(gè)層次的特征向量作為輸入。2017年,谷歌的研究人員提出了Transformer模型[1,該模型僅僅依靠自注意力機(jī)制就在多個(gè)任務(wù)上取得了最好結(jié)果,證明注意力機(jī)制擁有較強(qiáng)的提取文本信息的能力。2018年,谷歌團(tuán)隊(duì)提出了基于雙向Transformer的預(yù)訓(xùn)練語(yǔ)言模型BERT。這種雙向的結(jié)構(gòu)能夠結(jié)合上下文語(yǔ)境進(jìn)行文本表征,增強(qiáng)了模型的學(xué)習(xí)能力。BERT的出現(xiàn)刷新了11個(gè)自然語(yǔ)言處理任務(wù)的最好結(jié)果,使得預(yù)訓(xùn)練語(yǔ)言模型成為近幾年的研究熱點(diǎn)。

  1.2中文機(jī)器閱讀理解

  中文機(jī)器閱讀理解領(lǐng)域起步較晚,由于缺少優(yōu)質(zhì)中文數(shù)據(jù)集,發(fā)展相對(duì)緩慢。在近幾年發(fā)布的各種中文機(jī)器閱讀理解數(shù)據(jù)集的影響下,越來(lái)越多的研究人員致力于中文領(lǐng)域的探索。

  2016年,Cui等人[1發(fā)布了第一個(gè)大規(guī)模填空型中文機(jī)器閱讀理解數(shù)據(jù)集PeopleDailyandChildren’sFairyTale,填補(bǔ)了大規(guī)模中文閱讀理解數(shù)據(jù)集的空白。2017年,Cui等人[1在此數(shù)據(jù)集的基礎(chǔ)上提出了CMRC2017數(shù)據(jù)集,作為第一屆“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)比賽的數(shù)據(jù)集。2018年,Cui等人16發(fā)布抽取型中文機(jī)器閱讀理解數(shù)據(jù)集CMRC2018,該數(shù)據(jù)集作為第二屆“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)比賽使用的數(shù)據(jù)集,也是本文實(shí)驗(yàn)使用的數(shù)據(jù)集。

  該數(shù)據(jù)集由近兩萬(wàn)個(gè)人工標(biāo)注的問(wèn)題構(gòu)成,同時(shí)發(fā)布了一個(gè)需要多句推理答案的挑戰(zhàn)集。He等人17同樣在2018年提出DuReader數(shù)據(jù)集,該數(shù)據(jù)集共包含20萬(wàn)個(gè)問(wèn)題、100萬(wàn)篇文章和超過(guò)42萬(wàn)個(gè)人工總結(jié)的答案,數(shù)據(jù)來(lái)源更貼近實(shí)際,問(wèn)題類型豐富,是目前最大的中文機(jī)器閱讀理解數(shù)據(jù)集。

  徐麗麗等人[1搜集全國(guó)各省近10年高考題以及高考模擬題中的981篇科技文語(yǔ)料,構(gòu)建了4905個(gè)問(wèn)題,同時(shí)搜集萬(wàn)篇新聞?wù)Z料,構(gòu)造10萬(wàn)個(gè)補(bǔ)寫(xiě)句子類選擇題語(yǔ)料。Shao等人[1提出了繁體中文機(jī)器閱讀理解數(shù)據(jù)集DRCD,該數(shù)據(jù)集包含從2108篇維基百科文章中摘取的10014篇段落以及超過(guò)萬(wàn)個(gè)問(wèn)題。中文機(jī)器閱讀理解領(lǐng)域受到研究人員越來(lái)越多的關(guān)注,不斷有優(yōu)秀的方法與模型出現(xiàn),呈現(xiàn)繁榮發(fā)展的趨勢(shì)。

  2模型結(jié)構(gòu)

  為了提高模型對(duì)中文文本的理解能力,本文提出了一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。首先經(jīng)過(guò)編碼層得到序列表示,再使用混合注意力機(jī)制提取文本中可能與答案有關(guān)的關(guān)鍵信息,然后結(jié)合多重融合機(jī)制融合多層次的序列信息,經(jīng)過(guò)雙層BiLSTM建模后傳入輸出層,最終輸出正確答案所在位置。

  2.1編碼層

  編碼層使用中文預(yù)訓(xùn)練語(yǔ)言模型RoBERTa[18]對(duì)問(wèn)題和文章進(jìn)行編碼。RoBERTa模型仍使用BERT的基本結(jié)構(gòu),在模型訓(xùn)練時(shí)有如下幾個(gè)方面的差異:

  1)使用動(dòng)態(tài)掩碼機(jī)制。2)移除BERT中采用的下一句預(yù)測(cè)訓(xùn)練任務(wù)。3)使用更大Byte級(jí)別的文本編碼方式。4)使用更大批次以及更大規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,RoBERTa在多個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT。本層將問(wèn)題和文章拼接后的文本輸入RoBERTa模型中,經(jīng)過(guò)分詞器處理后的每一個(gè)詞稱為token,最終RoBERTa模型輸入的編碼向量為token嵌入、位置特征嵌入以及用以區(qū)分問(wèn)題和文章的分割特征嵌入之和。本文使用的RoBERTa模型由12層Transformer編碼器組成,本模型取最后一層編碼輸出作為文本嵌入表示。

  2.混合注意力層

  混合注意力層基于混合注意力機(jī)制處理編碼層得到的上下文向量,進(jìn)而學(xué)習(xí)文本中更深層次的語(yǔ)義信息,該層是模型的核心部分。本層的混合注意力機(jī)制由Synthesizer20中提出的兩種自注意力機(jī)制的變體注意力RandomSynthesizer和DenseSynthesizer組成。傳統(tǒng)的自注意力機(jī)制通過(guò)計(jì)算序列中每一個(gè)token與序列中其他token的相關(guān)度得到權(quán)重矩陣,再將歸一化后的權(quán)重和相應(yīng)的鍵值進(jìn)行加權(quán)求和,得到最終的注意力表示。這里的相關(guān)度一般通過(guò)點(diǎn)積得分矩陣體現(xiàn),點(diǎn)積自注意力的主要作用是學(xué)習(xí)自對(duì)齊信息,即token對(duì)的交互信息。自注意力機(jī)制通過(guò)比較序列本身捕捉序列和全局的聯(lián)系,獲取文本特征的內(nèi)部相關(guān)性。

  這種從tokentoken交互中學(xué)習(xí)到的注意力權(quán)重有一定的作用,但也存在缺點(diǎn)。傳統(tǒng)自注意力機(jī)制中的權(quán)重包含實(shí)例中token對(duì)的交互信息,通過(guò)計(jì)算點(diǎn)積的方式得到每個(gè)token與序列其他token的相對(duì)重要度。這種方式過(guò)度依賴特定實(shí)例,僅通過(guò)token對(duì)之間的相關(guān)度決定答案的概率是不穩(wěn)定的,缺乏一致的上下文聯(lián)系,很大程度上會(huì)受不同實(shí)例影響,不能學(xué)習(xí)到更多的泛化特征。

  在Synthesizer[19]一文中的實(shí)驗(yàn)表明,與傳統(tǒng)自注意力機(jī)制相比,Synthesizer注意力機(jī)制得到的權(quán)重曲線更加平滑。受其啟發(fā),本文認(rèn)為這種合成權(quán)重矩陣的自注意力機(jī)制不會(huì)從特定的token中獲益,可以在提取序列關(guān)鍵信息的同時(shí)減小因不同實(shí)例產(chǎn)生的影響,因此本層使用這種合成注意力來(lái)提取文本深層信息。這種合成矩陣的注意力與點(diǎn)積注意力或考慮上下文的注意力不同,它不依賴于tokentoken交互的方式生成權(quán)重矩陣,受特定樣本的影響較小,能夠?qū)W習(xí)到較為穩(wěn)定的權(quán)重值。

  3實(shí)驗(yàn)與分析

  3.1數(shù)據(jù)集

  本文使用CMRC2018評(píng)測(cè)任務(wù)數(shù)據(jù)集以及DRCD數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集的格式相同,均用于抽取式閱讀理解任務(wù)。其中,CMRC2018數(shù)據(jù)集為簡(jiǎn)體中文數(shù)據(jù)集,DRCD數(shù)據(jù)集為繁體中文數(shù)據(jù)集。除對(duì)比實(shí)驗(yàn)外,其余幾組實(shí)驗(yàn)均使用CMRC2018數(shù)據(jù)集。以CMRC2018數(shù)據(jù)集為例。[Document]白蕩湖位于中國(guó)安徽樅陽(yáng)縣境內(nèi),緊鄰長(zhǎng)江北岸,系由長(zhǎng)江古河床擺動(dòng)廢棄的洼地積水而成。湖盆位置介于北緯30度47分~30度51分、東經(jīng)117度19分~117度27分。

  白蕩湖原有面積近100平方公里,經(jīng)過(guò)近五十年的圍墾,目前面積縮小為39.67平方公里,平均水深3.06米,蓄水量1.21億立方米。通過(guò)白蕩閘與長(zhǎng)江連通,是長(zhǎng)江重要的蓄洪湖之一。湖水補(bǔ)給主要依賴降水與長(zhǎng)江倒灌,入流的羅昌河、錢(qián)橋河等均為季節(jié)性溪流,入水量較小。白蕩湖是重要的水產(chǎn)養(yǎng)殖基地,盛產(chǎn)各種淡水魚(yú)類與水禽,其中以大閘蟹產(chǎn)量最大。每年冬季開(kāi)啟白蕩閘排干湖水捕魚(yú),次年月左右再引長(zhǎng)江水倒灌,水位至、月份達(dá)到最高。

  3.2實(shí)驗(yàn)配置

  本文實(shí)驗(yàn)采用GPU進(jìn)行訓(xùn)練,開(kāi)發(fā)語(yǔ)言為Python,深度學(xué)習(xí)框架為Pytorch。由于本文模型加入注意力層以及BiLSTM,增加了序列之間的交互過(guò)程,因此相比基線模型,本文模型的訓(xùn)練速度更加緩慢。

  3.3評(píng)價(jià)指標(biāo)

  本文采用EM值和F1值作為評(píng)價(jià)指標(biāo)。EM值為精確匹配度,計(jì)算預(yù)測(cè)答案與真實(shí)答案是否完全匹配。F1值為模糊匹配度,計(jì)算預(yù)測(cè)答案與標(biāo)準(zhǔn)答案之間的匹配程度。這兩個(gè)指標(biāo)通常作為抽取式機(jī)器閱讀理解的評(píng)價(jià)指標(biāo)。

  3.4結(jié)果與分析

  3.4.1對(duì)比實(shí)驗(yàn)

  為驗(yàn)證本文提出的模型在中文機(jī)器閱讀理解任務(wù)的有效性,將本文模型與以下幾個(gè)模型進(jìn)行實(shí)驗(yàn)對(duì)比。BERTbase(Chinese)和BERTbase(Multilingual)為CMRC2018評(píng)測(cè)任務(wù)選用的基線模型。RoBERTawwmext21為本文選取的基線模型,該模型針對(duì)中文改進(jìn)預(yù)訓(xùn)練模型中的全詞掩碼訓(xùn)練方法。MacBERTbase為文獻(xiàn)[2提出的預(yù)訓(xùn)練模型,該模型主要針對(duì)mask策略對(duì)RoBERTa進(jìn)行改進(jìn).

  本文模型在CMRC2018數(shù)據(jù)集的EM值和F1值分別達(dá)到69.835和88.037,相比復(fù)現(xiàn)的基線模型分別提高了2.05和0.465,在DRCD數(shù)據(jù)集的EM值和F1相比基線模型分別提高了0.256和0.113,在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他對(duì)比模型。實(shí)驗(yàn)結(jié)果表明本文模型在性能上有顯著提升,能夠?qū)W習(xí)到文本的深層語(yǔ)義信息,有效改進(jìn)了預(yù)訓(xùn)練語(yǔ)言模型。

  3.4.2消融實(shí)驗(yàn)

  為研究混合注意力以及多重融合機(jī)制對(duì)模型的貢獻(xiàn),設(shè)計(jì)消融實(shí)驗(yàn)進(jìn)一步分析。由于多重融合機(jī)制需要混合注意力的輸出信息,因此本節(jié)實(shí)驗(yàn)考慮兩部分共同作用的影響。

  4結(jié)束語(yǔ)

  本文針對(duì)抽取式中文機(jī)器閱讀理解任務(wù)展開(kāi)研究,提出了一種基于混合注意力機(jī)制的閱讀理解模型。該模型主要從以下兩個(gè)方面來(lái)改進(jìn)中文機(jī)器閱讀理解模型對(duì)文本的理解能力,首先使用兩種自注意力機(jī)制的變體模型對(duì)序列進(jìn)行處理,加深對(duì)文本語(yǔ)義信息的理解,其次對(duì)輸出的注意力進(jìn)行多層次的融合,使得輸出的序列攜帶更加豐富的信息。大量實(shí)驗(yàn)表明,以上措施提升了模型的理解能力,改進(jìn)了模型對(duì)語(yǔ)義的獲取方法,同時(shí)保留了原序列的信息特征,提高了預(yù)測(cè)答案的準(zhǔn)確率。

  分析發(fā)現(xiàn),目前中文機(jī)器閱讀理解模型存在答案邊界不準(zhǔn)確的問(wèn)題,因此在下一階段的工作中,考慮將使用分詞器優(yōu)化模型輸入,將分詞結(jié)果作為輸入特征加入序列中,從而優(yōu)化答案邊界。此外,結(jié)合雙向注意力機(jī)制,融合文章到問(wèn)題以及問(wèn)題到文章雙向的注意力,優(yōu)化模型結(jié)構(gòu),加深對(duì)文本的理解。

  參考文獻(xiàn)

  [1]HENanqi.Neuralreadingcomprehensionandbeyond[D].PaloAlto:StanfordUniversity,2018.

  [2]DevlinJ,ChangMW,LeeK,etal.Bert:Pretrainingofdeepbidirectionaltransformersforlanguageunderstanding[EB/OL].(20181011)[202107].

  [3]LanZ,ChenM,GoodmanS,etal.Albert:Alitebertforselfsupervisedlearningoflanguagerepresentations[EB/OL].(20190926)[202107].

  [4]LiuY,OttM,GoyalN,etal.Roberta:Arobustlyoptimizedbertpretrainingapproach[EB/OL].(201907)[202107].https://arxiv.org/abs/1907.11692.BahdanauD,ChoK,BengioY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[EB/OL].(20140901)[202107].

  作者:劉高軍,李亞欣,段建勇

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/29156.html