亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當前的位置:發(fā)表學術(shù)論文網(wǎng)教育論文》 基于中英文單語術(shù)語庫的雙語術(shù)語對齊方法> 正文

基于中英文單語術(shù)語庫的雙語術(shù)語對齊方法

所屬分類:教育論文 閱讀次 時間:2021-12-20 11:09

本文摘要:摘要:雙語術(shù)語對齊庫是自然語言處理領(lǐng)域的重要資源,對于跨語言信息檢索、機器翻譯等多語言應(yīng)用具有重要意義。雙語術(shù)語對通常是通過人工翻譯或從雙語平行語料中自動提取獲得的。然而,人工翻譯需要一定的專業(yè)知識且耗時耗力,而特定領(lǐng)域的雙語平行語料也很難具有較大規(guī)

  摘要:雙語術(shù)語對齊庫是自然語言處理領(lǐng)域的重要資源,對于跨語言信息檢索、機器翻譯等多語言應(yīng)用具有重要意義。雙語術(shù)語對通常是通過人工翻譯或從雙語平行語料中自動提取獲得的。然而,人工翻譯需要一定的專業(yè)知識且耗時耗力,而特定領(lǐng)域的雙語平行語料也很難具有較大規(guī)模。但是同一領(lǐng)域中各種語言的單語術(shù)語庫卻較易獲得。為此,提出一種基于兩種不同語言的單語術(shù)語庫自動實現(xiàn)術(shù)語對齊,以構(gòu)建雙語術(shù)語對照表的方法。該方法首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術(shù)語,然后利用目標端“偽”術(shù)語從目標端術(shù)語庫中檢索得到目標端術(shù)語候選集合,最后采用基于mBERT的語義匹配算法對目標端候選集合進行重排序,從而獲得最終的雙語術(shù)語對。計算機科學、土木工程和醫(yī)學三個領(lǐng)域的中英文雙語術(shù)語對齊實驗結(jié)果表明,該方法能夠提高雙語術(shù)語抽取的準確率。

  關(guān)鍵詞:雙語術(shù)語;單語術(shù)語庫;術(shù)語對齊;語義匹配

語言術(shù)語

  引言

  術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱(GB/T10112—959),也可定義為“通過語言或文字來表達或限定專業(yè)概念的約定性語言符號”[1-2]。術(shù)語通常由一個或多個詞匯單元組成,包含了一個領(lǐng)域的基本知識。隨著全球化進程的快速發(fā)展,不同語言間的知識、技術(shù)交流的需求愈加迫切和頻繁。而術(shù)語作為知識的核心載體,其相互翻譯卻成為各國間知識、技術(shù)交流的最大障礙之一[3]。

  因此,研究雙語術(shù)語自動抽取方法對于雙語術(shù)語詞典構(gòu)建、跨語言信息檢索和機器翻譯等應(yīng)用都具有十分重要的實用價值。人工翻譯構(gòu)建是獲得高質(zhì)量雙語術(shù)語的一種可靠方式,但是人工翻譯需要一定的專業(yè)知識且耗時耗力。為此,許多研究者提出了從不同資源中抽取雙語術(shù)語的方法,包括基于平行語料庫的雙語術(shù)語抽取[4-8]和基于可比語料庫的雙語術(shù)語抽取[9-10]。

  基于平行(可比)語料庫的雙語術(shù)語自動抽取通常分為兩個步驟,首先通過單語術(shù)語抽取分別得到兩個語言的單語術(shù)語候選表,而后通過計算候選術(shù)語在平行(可比)語料中的共現(xiàn)概率或基于雙語詞典計算術(shù)語對的翻譯概率,其中概率高于預(yù)設(shè)閾值的候選結(jié)果將抽取作為雙語術(shù)語。

  由于平行語料的文本是互為譯文的關(guān)系,基于平行語料庫的雙語術(shù)語抽取能夠獲得較高的準確率。但是對于眾多語言對,尤其是低資源語言,特定領(lǐng)域的雙語平行數(shù)據(jù)非常稀缺且難以獲取。此外,受限于可比語料庫的規(guī)模和質(zhì)量,從其中抽取雙語術(shù)語對的準確率往往較低。相比于雙語平行(可比)語料庫,同一領(lǐng)域中不同語言的單語術(shù)語庫更容易獲得。可以是已經(jīng)構(gòu)建好的單語術(shù)語庫,也可以利用現(xiàn)有的單語術(shù)語抽取方法[11-14]對單語語料庫進行自動抽取獲得。

  基于此,本文提出一種從兩種不同語種的單語術(shù)語庫中自動進行術(shù)語對齊以抽取雙語術(shù)語對的方法。該方法僅利用單語術(shù)語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領(lǐng)域的單語術(shù)語庫后,能夠迅速抽取雙語術(shù)語對。具體地,對于一個源端術(shù)語,該方法首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術(shù)語,然后通過目標端“偽”術(shù)語與目標端術(shù)語庫中的術(shù)語之間的文本相似度篩選出目標端術(shù)語候選集合,最后通過基于mBERT(multilingualbidirectionalencoderrepresentationfromtransformers)[15]的語義匹配模型對源端術(shù)語和目標端術(shù)語候選集的語義相似度重排序,從而獲得最終的雙語術(shù)語對。

  本文提出的方法在計算機科學、土木工程和醫(yī)學三個領(lǐng)域的中英單語術(shù)語庫上進行了實驗,實驗結(jié)果表明本文所提方法能夠顯著地提高雙語術(shù)語抽取的準確率。本文的組織結(jié)構(gòu)如下:第1部分介紹雙語術(shù)語抽取的相關(guān)工作,第2部分對本文的任務(wù)進行形式化描述,第3部分對本文所提出的面向單語術(shù)語庫的雙語術(shù)語對齊方法進行詳細介紹,第4部分介紹本文所使用的數(shù)據(jù)集和實驗設(shè)置,并給出詳細的實驗結(jié)果和分析,最后進行總結(jié)和展望。

  1相關(guān)工作

  1.1單語術(shù)語抽取

  自動術(shù)語抽取是從文本集合中自動抽取領(lǐng)域相關(guān)的詞或短語,是本體構(gòu)建、文本摘要和知識圖譜等領(lǐng)域的關(guān)鍵基礎(chǔ)問題和研究熱點[11]。根據(jù)單語術(shù)語抽取的原理,可以將方法分為三類:基于規(guī)則的方法[12,16-21],基于統(tǒng)計的方法[22-27]和基于機器學習的方法[14,28-31]。其中,基于機器學習的方法又可以細分為使用傳統(tǒng)機器學習的方法和使用神經(jīng)網(wǎng)絡(luò)的方法。不同的術(shù)語抽取方法可以相互融合集成,使用多種策略以提升性能。

  1.2雙語術(shù)語抽取

  根據(jù)所使用語料的不同,雙語術(shù)語抽取可以分為基于平行語料庫的雙語術(shù)語抽取[3-8,32-33]和基于可比語料庫的雙語術(shù)語抽取[9-10,34-35]。其中,雙語平行語料由互為翻譯的源語言文本和目標語言文本組成,而可比語料則是由不同語言同一主題的非互譯單語文本組成。雙語術(shù)語對齊的基本思路是術(shù)語及其翻譯往往出現(xiàn)在相似的上下文中[36]。從抽取方法上,雙語術(shù)語抽取以單語術(shù)語抽取為基礎(chǔ),也可以劃分為兩種方法:對稱策略抽取法,即先分別對兩種單語語料進行單語術(shù)語抽取,然后對單語術(shù)語抽取的結(jié)果進行雙語術(shù)語對齊;非對稱策略抽取法,即使用一種語言單語術(shù)語抽取的結(jié)果在另外一種語言單語語料上查找對應(yīng)的術(shù)語翻譯。

  在基于平行語料庫的雙語術(shù)語抽取上,孫樂等[4]根據(jù)詞性規(guī)則進行單語術(shù)語抽取,然后融合句子字符長度信息計算翻譯概率,從而抽取雙語術(shù)語對。孫茂松等[3]使用短語對齊、組塊分析相結(jié)合的方法在雙語語料上進行候選術(shù)語的抽取。張莉等[37]在孫樂等[4]的研究基礎(chǔ)上將術(shù)語語序位置信息引入術(shù)語對齊。劉勝奇等[38]提出使用多策略融合Giza++術(shù)語對齊方法,使用多種關(guān)聯(lián)和相似度提升術(shù)語對齊的對準率。在基于可比語料的雙語術(shù)語抽取上,Rapp等[39]和Tanaka等[40]通過建立源語言文本與目標語言文本的共現(xiàn)矩陣并進行矩陣相似度計算來抽取翻譯等價對。

  Yu等[41]通過句法分析獲得細粒度的上下文信息,從而抽取中英雙語詞語對。Lee等[42]使用一種基于EM框架結(jié)合統(tǒng)計學、詞法、語言學、上下文和時空特征的無監(jiān)督混合模型來從可比語料中抽取雙語術(shù)語。不同于前述工作,本文主要關(guān)注的是從兩種語言的單語術(shù)語庫中自動進行術(shù)語對齊,從而抽取雙語術(shù)語對。單語術(shù)語庫可以是已經(jīng)構(gòu)建好的單語術(shù)語庫,也可以利用現(xiàn)有的單語術(shù)語抽取方法進行構(gòu)建。該方法僅利用單語術(shù)語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領(lǐng)域的單語術(shù)語庫后,能夠迅速抽取雙語術(shù)語對。

  1.3預(yù)訓(xùn)練模型詞向量

  深度學習給自然語言處理領(lǐng)域帶來了突破性的變革,其中一個關(guān)鍵的概念就是詞嵌入。作為最常見的文本特征表示方法之一,詞嵌入已被廣泛應(yīng)用于各種自然語言處理任務(wù)。分布式詞向量是利用神經(jīng)網(wǎng)絡(luò)模型來學習單詞的共現(xiàn)性,通過無監(jiān)督學習得到能夠表達詞語語義信息的低維度向量。

  最近,許多預(yù)訓(xùn)練模型通過不同的策略提升了語言表征能力。其中,Devlin等[15]提出了BERT模型。BERT模型的基礎(chǔ)是自注意力(self-attention)機制,利用自注意力機制可以獲取雙向的上下文信息,通過在海量的無監(jiān)督語料庫上訓(xùn)練獲得句子中每個單詞的上下文表示信息。BERT在多種自然語言處理任務(wù)上取得了最優(yōu)的研究成果[15,43]。

  2任務(wù)定義

  給定源端術(shù)語,雙語術(shù)語對齊任務(wù)旨在從目標端術(shù)語集合中找到其對應(yīng)的翻譯,其形式化定義如下:給定源語言S中的一組術(shù)語集合QS,和目標語言T中一組術(shù)語集合QT,QS和QT是同一領(lǐng)域(如醫(yī)學領(lǐng)域)不同語言的術(shù)語集合,本文的目標是為每個源端術(shù)語wS∈QS,從目標端術(shù)語集合QT中找到對應(yīng)的翻譯wT,從而獲得雙語術(shù)語對wS,wT()。

  此處將雙語術(shù)語對wS,wT()抽取的問題轉(zhuǎn)換為跨語言文本相似度度量任務(wù)。為了減小目標端術(shù)語比對范圍,對于源端術(shù)語wS,首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術(shù)語w'T,然后利用w'T和文本相似度算法對目標端術(shù)語集合QT進行篩選,獲得目標端術(shù)語候選集合QcandT,最后對wS與候選集QcandT中的候選術(shù)語進行語義相似度重排序,選取相似度最高的作為最終術(shù)語翻譯對。

  3本文方法

  本文提出一種從兩種不同語種的單語術(shù)語庫中自動進行術(shù)語對齊以抽取雙語術(shù)語對的方法。該方法采用“生成—篩選—比較”的方式,共分為三個步驟:(1)目標語言偽術(shù)語生成,即 利用多個在線翻譯引擎通過投票機制生成目標語言偽術(shù)語;(2)目標語言術(shù)語候選集生成,通過最長公共子串(longestcommonsub-sequence,LCS)算法[43]對目標語言術(shù)語庫進行篩選,生成目標語言術(shù)語候選集;(3)基于語義相似度的重排序,通過預(yù)訓(xùn)練語言模型BERT對目標語言術(shù)語候選集進行基于跨語言語義相似度的排序,得到得分最高的目標端術(shù)語,生成最終的雙語術(shù)語對。

  3.1目標端偽術(shù)語生成

  機器翻譯就是實現(xiàn)從源語言到目標語言轉(zhuǎn)換的過程[44]。隨著深度學習和人工智能技術(shù)的快速發(fā)展,機器翻譯技術(shù)得到了快速發(fā)展,包括谷歌、百度、有道、搜狗等在內(nèi)的許多互聯(lián)網(wǎng)公司都已經(jīng)部署了各自的在線機器翻譯引擎。因此,本文借助已有的機器翻譯引擎作為不同語言之間的橋梁,將源語言術(shù)語轉(zhuǎn)換為目標語言表述。

  由于術(shù)語翻譯的準確性和專業(yè)性要求較高,通過機器翻譯引擎生成的目標語言表述雖然一定程度上能夠表達源語言術(shù)語的含義,但是不能確保是完全正確的目標語言術(shù)語,本文將其定義為“目標端偽術(shù)語”。這些源語言術(shù)語對應(yīng)的目標端偽術(shù)語需要和目標端術(shù)語庫進行進一步的相似度計算才能最終確定其對應(yīng)的目標端術(shù)語。給出了中文術(shù)語(源語言)、機器翻譯引擎翻譯結(jié)果以及標準的英語術(shù)語(目標語言)的示例。

  利用多個在線翻譯引擎對源語言術(shù)語進行翻譯,生成多個目標端表述后,須從中選擇一個合適的表述作為源語言術(shù)語對應(yīng)的目標端偽術(shù)語。本文采用多數(shù)投票法選擇最終目標端偽術(shù)語。多數(shù)投票法以單個模型的預(yù)測結(jié)果為基礎(chǔ),采用少數(shù)服從多數(shù)的原則確定模型預(yù)測的結(jié)果。

  3.2目標端候選集生成

  在獲得目標端偽術(shù)語的基礎(chǔ)上,若直接利用目標端偽術(shù)語與目標端術(shù)語集合中的每個目標端標準術(shù)語進行比對,則會存在噪聲多、時間成本高的問題。因此,本節(jié)將利用目標端偽術(shù)語對目標端術(shù)語集合進行篩選,生成目標端候選集,從而縮小標準術(shù)語的搜索空間。具體而言,通過目標端偽術(shù)語和目標端術(shù)語集合中的每個術(shù)語進行相似度計算,這里采用LCS算法,保留相似度得分最高的K個術(shù)語形成候選集。

  3.3基于語義相似度的重排序

  由于LCS算法只考慮了詞形上的相似關(guān)系,而忽視了語義層面的相似關(guān)系,因此即便LCS相似度得分最高,在很多情況下依然無法獲取正確的目標端術(shù)語。同時,使用機器翻譯系統(tǒng)生成目標端偽術(shù)語的過程也存在一定程度上的語義失真,因此,本文提出同時利用源語言術(shù)語和目標端偽術(shù)語對目標端候選集進行語義層面的相似度計算,利用源語言術(shù)語信息進一步增強目標端術(shù)語選擇的性能。

  4實驗與結(jié)果

  本文在計算機科學、土木工程和醫(yī)學三個領(lǐng)域進行了中英雙語術(shù)語對齊的實驗。

  4.1數(shù)據(jù)集構(gòu)造

  為了進行雙語術(shù)語對齊的實驗,本文利用維基百科構(gòu)造了三個領(lǐng)域的中文術(shù)語庫和英文術(shù)語庫,包括計算機科學、土木工程和醫(yī)學。本文利用PetScan工具從維基百科上獲取符合特定條件的標題列表,例如,使用“Language=en&Depth=4&Categories=Computerscience”獲取計算機科學領(lǐng)域下的英文條目。在獲取對應(yīng)語言和領(lǐng)域下的標題條目后,經(jīng)過簡單的規(guī)則處理,比如去掉純數(shù)字的條目、語言不正確的條目等,將過濾之后的標題條目作為對應(yīng)領(lǐng)域的單語術(shù)語庫。在獲取單語術(shù)語庫后,由于在維基百科上,中文的頁面數(shù)遠小于英文的頁面數(shù),因此,本文遍歷中文單語術(shù)語庫,利用維基百科的跨wiki鏈接(Interwikilinks)來獲取對應(yīng)的英文術(shù)語,從而獲得雙語術(shù)語庫。

  4.2實驗設(shè)置

  在線翻譯引擎:在實驗過程中,本文采用了5個在線翻譯引擎將中文單語術(shù)語庫中的術(shù)語翻譯成英文“偽”術(shù)語:谷歌翻譯、百度翻譯、有道翻譯、搜狗翻譯以及Bing翻譯。mBERT:在谷歌發(fā)布的多語言預(yù)訓(xùn)練模型BERT-Base、MultilingualCased基礎(chǔ)上進行微調(diào),數(shù)據(jù)采用4.1節(jié)所述方式進行構(gòu)建,batch大小設(shè)為32,訓(xùn)練輪數(shù)設(shè)為30,輸入序列最大值為100,初始學習率為0.00005,其余保持默認參數(shù)。

  4.3實驗結(jié)果

  在計算機科學、土木工程和醫(yī)學三個領(lǐng)域上進行了中英雙語術(shù)語對齊的實驗。通過該實驗結(jié)果,可以看出以下信息。(1)當前機器翻譯引擎對于術(shù)語的翻譯性能還有待提升。利用5個在線翻譯引擎通過投票機制生成的英語術(shù)語在計算機科學、土木工程和醫(yī)學領(lǐng)域上僅有43.34%/39.48%/46.23%的正確率。這也說明了自動構(gòu)建雙語術(shù)語庫對于提升翻譯系統(tǒng)的性能有著重要意義。(2)多語言BERT在中英語義相似度計算上表現(xiàn)很差(基線系統(tǒng)2:6.09%/3.68%/2.87%),其性能遠低于基線系統(tǒng)1,這可能是由于多語言BERT沒有在任務(wù)對應(yīng)的雙語術(shù)語數(shù)據(jù)上微調(diào),中英文的語義空間對齊較差。

  而多語言BERT直接對英語偽術(shù)語和英文術(shù)語進行語義相似度計算(基線系統(tǒng)3),其性能顯著優(yōu)于基線系統(tǒng)2,這表明多語言BERT在單一語言上能較好地表征語義相似度。(3)本文所提方法在三個領(lǐng)域的雙語術(shù)語對齊上均顯著優(yōu)于基線系統(tǒng),該方法以基線系統(tǒng)1生成的結(jié)果作為輸入,使用LCS算法與英語標準術(shù)語庫比對,返回得分最高的10個英語術(shù)語組成候選集,最后利用mBERT進行語義相似度重排序,實驗結(jié)果表明所提方法能夠顯著提升雙語術(shù)語對齊的性能,從而得到更好的雙語術(shù)語庫。

  4.4消融分析

  基本模塊分析:本文所提方法包含三個步驟:(1)目標語言偽術(shù)語生成,即利用多個在線翻譯引擎通過投票機制生成目標語言偽術(shù)語;(2)目標語言術(shù)語候選集生成,通過文本相似度算法LCS對目標語言術(shù)語庫進行篩選,生成目標語言術(shù)語候選集;(3)基于語義相似度的重排序,通過預(yù)訓(xùn)練語言模型mBERT對目標語言術(shù)語候選集進行語義相似度重排序,得到得分最高的目標端術(shù)語,生成最終的雙語術(shù)語對。

  5結(jié)語

  本文提出了一種面向兩種語言單語術(shù)語庫的雙語術(shù)語對齊方法,該方法由“生成—篩選—比較”三步組成,首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術(shù)語,然后利用目標端“偽”術(shù)語從目標術(shù)語庫中檢索得到目標端術(shù)語候選集合,最后采用基于mBERT的語義匹配算法對目標端候選集合進行重排序,從而獲得最終的雙語術(shù)語對。

  該方法可以僅僅利用單語術(shù)語庫本身的信息抽取雙語術(shù)語對。在計算機科學、土木工程和醫(yī)學三個領(lǐng)域上的中英雙語術(shù)語對齊實驗結(jié)果表明,與基線系統(tǒng)相比,所提方法能夠有效地提高雙語術(shù)語抽取的性能。在未來的研究中,需要進一步探索如何利用術(shù)語庫之外的信息提升雙語術(shù)語對齊的質(zhì)量,如利用互聯(lián)網(wǎng)大規(guī)模文本信息,學習更加準確的融合上下文信息的術(shù)語表示。

  參考文獻

  [1]馮志偉.現(xiàn)代術(shù)語學引論[M].北京:語文出版社,1997.

  [2]杜波,田懷鳳,王立,等.基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計[J].計算機工程,2005(14):159-160.

  [3]孫茂松,李莉,劉知遠.面向中英平行專利的雙語術(shù)語自動抽取[J].清華大學學報(自然科學版),2014,54(10):1339-1343.

  [4]孫樂,金友兵,杜林,等.平行語料庫中雙語術(shù)語詞典的自動抽取[J].中文信息學報,2000(6):33-39.

  [5]HUANGGP,ZHANGJJ,ZHOUY,etal.Asimple,straightforwardandeffectivemodelforjointbilingualtermsdetectionandwordalignmentinsmt[C]//ProceedingsoftheFifthConferenceonNaturalLanguageProcessingandChineseComputing&TheTwentyFourthInternationalConferenceonComputerProcessingofOrientalLanguages.Kunming,China,2016:103-115.

  作者:向露1,2周玉1,2,3宗成慶1,2

轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///jylw/29144.html