基于中英文單語(yǔ)術(shù)語(yǔ)庫(kù)的雙語(yǔ)術(shù)語(yǔ)對(duì)齊方法

所屬分類：教育論文閱讀次時(shí)間：2021-12-20 11:09

本文摘要：摘要:雙語(yǔ)術(shù)語(yǔ)對(duì)齊庫(kù)是自然語(yǔ)言處理領(lǐng)域的重要資源，對(duì)于跨語(yǔ)言信息檢索、機(jī)器翻譯等多語(yǔ)言應(yīng)用具有重要意義。雙語(yǔ)術(shù)語(yǔ)對(duì)通常是通過(guò)人工翻譯或從雙語(yǔ)平行語(yǔ)料中自動(dòng)提取獲得的。然而，人工翻譯需要一定的專業(yè)知識(shí)且耗時(shí)耗力，而特定領(lǐng)域的雙語(yǔ)平行語(yǔ)料也很難具有較大規(guī)

　　摘要:雙語(yǔ)術(shù)語(yǔ)對(duì)齊庫(kù)是自然語(yǔ)言處理領(lǐng)域的重要資源，對(duì)于跨語(yǔ)言信息檢索、機(jī)器翻譯等多語(yǔ)言應(yīng)用具有重要意義。雙語(yǔ)術(shù)語(yǔ)對(duì)通常是通過(guò)人工翻譯或從雙語(yǔ)平行語(yǔ)料中自動(dòng)提取獲得的。然而，人工翻譯需要一定的專業(yè)知識(shí)且耗時(shí)耗力，而特定領(lǐng)域的雙語(yǔ)平行語(yǔ)料也很難具有較大規(guī)模。但是同一領(lǐng)域中各種語(yǔ)言的單語(yǔ)術(shù)語(yǔ)庫(kù)卻較易獲得。為此，提出一種基于兩種不同語(yǔ)言的單語(yǔ)術(shù)語(yǔ)庫(kù)自動(dòng)實(shí)現(xiàn)術(shù)語(yǔ)對(duì)齊，以構(gòu)建雙語(yǔ)術(shù)語(yǔ)對(duì)照表的方法。該方法首先利用多個(gè)在線機(jī)器翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)端“偽”術(shù)語(yǔ)，然后利用目標(biāo)端“偽”術(shù)語(yǔ)從目標(biāo)端術(shù)語(yǔ)庫(kù)中檢索得到目標(biāo)端術(shù)語(yǔ)候選集合，最后采用基于mBERT的語(yǔ)義匹配算法對(duì)目標(biāo)端候選集合進(jìn)行重排序，從而獲得最終的雙語(yǔ)術(shù)語(yǔ)對(duì)。計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域的中英文雙語(yǔ)術(shù)語(yǔ)對(duì)齊實(shí)驗(yàn)結(jié)果表明，該方法能夠提高雙語(yǔ)術(shù)語(yǔ)抽取的準(zhǔn)確率。

　　關(guān)鍵詞:雙語(yǔ)術(shù)語(yǔ);單語(yǔ)術(shù)語(yǔ)庫(kù);術(shù)語(yǔ)對(duì)齊;語(yǔ)義匹配

語(yǔ)言術(shù)語(yǔ)

　　引言

　　術(shù)語(yǔ)是專業(yè)領(lǐng)域中概念的語(yǔ)言指稱(GB/T10112—959)，也可定義為“通過(guò)語(yǔ)言或文字來(lái)表達(dá)或限定專業(yè)概念的約定性語(yǔ)言符號(hào)”[1-2]。術(shù)語(yǔ)通常由一個(gè)或多個(gè)詞匯單元組成，包含了一個(gè)領(lǐng)域的基本知識(shí)。隨著全球化進(jìn)程的快速發(fā)展，不同語(yǔ)言間的知識(shí)、技術(shù)交流的需求愈加迫切和頻繁。而術(shù)語(yǔ)作為知識(shí)的核心載體，其相互翻譯卻成為各國(guó)間知識(shí)、技術(shù)交流的最大障礙之一[3]。

　　因此，研究雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取方法對(duì)于雙語(yǔ)術(shù)語(yǔ)詞典構(gòu)建、跨語(yǔ)言信息檢索和機(jī)器翻譯等應(yīng)用都具有十分重要的實(shí)用價(jià)值。人工翻譯構(gòu)建是獲得高質(zhì)量雙語(yǔ)術(shù)語(yǔ)的一種可靠方式，但是人工翻譯需要一定的專業(yè)知識(shí)且耗時(shí)耗力。為此，許多研究者提出了從不同資源中抽取雙語(yǔ)術(shù)語(yǔ)的方法，包括基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[4-8]和基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[9-10]。

　　基于平行(可比)語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取通常分為兩個(gè)步驟，首先通過(guò)單語(yǔ)術(shù)語(yǔ)抽取分別得到兩個(gè)語(yǔ)言的單語(yǔ)術(shù)語(yǔ)候選表，而后通過(guò)計(jì)算候選術(shù)語(yǔ)在平行(可比)語(yǔ)料中的共現(xiàn)概率或基于雙語(yǔ)詞典計(jì)算術(shù)語(yǔ)對(duì)的翻譯概率，其中概率高于預(yù)設(shè)閾值的候選結(jié)果將抽取作為雙語(yǔ)術(shù)語(yǔ)。

　　由于平行語(yǔ)料的文本是互為譯文的關(guān)系，基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取能夠獲得較高的準(zhǔn)確率。但是對(duì)于眾多語(yǔ)言對(duì)，尤其是低資源語(yǔ)言，特定領(lǐng)域的雙語(yǔ)平行數(shù)據(jù)非常稀缺且難以獲取。此外，受限于可比語(yǔ)料庫(kù)的規(guī)模和質(zhì)量，從其中抽取雙語(yǔ)術(shù)語(yǔ)對(duì)的準(zhǔn)確率往往較低。相比于雙語(yǔ)平行(可比)語(yǔ)料庫(kù)，同一領(lǐng)域中不同語(yǔ)言的單語(yǔ)術(shù)語(yǔ)庫(kù)更容易獲得�？梢允且呀�(jīng)構(gòu)建好的單語(yǔ)術(shù)語(yǔ)庫(kù)，也可以利用現(xiàn)有的單語(yǔ)術(shù)語(yǔ)抽取方法[11-14]對(duì)單語(yǔ)語(yǔ)料庫(kù)進(jìn)行自動(dòng)抽取獲得。

　　基于此，本文提出一種從兩種不同語(yǔ)種的單語(yǔ)術(shù)語(yǔ)庫(kù)中自動(dòng)進(jìn)行術(shù)語(yǔ)對(duì)齊以抽取雙語(yǔ)術(shù)語(yǔ)對(duì)的方法。該方法僅利用單語(yǔ)術(shù)語(yǔ)本身的信息，而不依賴于上下文信息，在獲取不同語(yǔ)言同一領(lǐng)域的單語(yǔ)術(shù)語(yǔ)庫(kù)后，能夠迅速抽取雙語(yǔ)術(shù)語(yǔ)對(duì)。具體地，對(duì)于一個(gè)源端術(shù)語(yǔ)，該方法首先利用多個(gè)在線機(jī)器翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)端“偽”術(shù)語(yǔ)，然后通過(guò)目標(biāo)端“偽”術(shù)語(yǔ)與目標(biāo)端術(shù)語(yǔ)庫(kù)中的術(shù)語(yǔ)之間的文本相似度篩選出目標(biāo)端術(shù)語(yǔ)候選集合，最后通過(guò)基于mBERT(multilingualbidirectionalencoderrepresentationfromtransformers)[15]的語(yǔ)義匹配模型對(duì)源端術(shù)語(yǔ)和目標(biāo)端術(shù)語(yǔ)候選集的語(yǔ)義相似度重排序，從而獲得最終的雙語(yǔ)術(shù)語(yǔ)對(duì)。

　　本文提出的方法在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域的中英單語(yǔ)術(shù)語(yǔ)庫(kù)上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明本文所提方法能夠顯著地提高雙語(yǔ)術(shù)語(yǔ)抽取的準(zhǔn)確率。本文的組織結(jié)構(gòu)如下:第1部分介紹雙語(yǔ)術(shù)語(yǔ)抽取的相關(guān)工作，第2部分對(duì)本文的任務(wù)進(jìn)行形式化描述，第3部分對(duì)本文所提出的面向單語(yǔ)術(shù)語(yǔ)庫(kù)的雙語(yǔ)術(shù)語(yǔ)對(duì)齊方法進(jìn)行詳細(xì)介紹，第4部分介紹本文所使用的數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置，并給出詳細(xì)的實(shí)驗(yàn)結(jié)果和分析，最后進(jìn)行總結(jié)和展望。

　　1相關(guān)工作

　　1.1單語(yǔ)術(shù)語(yǔ)抽取

　　自動(dòng)術(shù)語(yǔ)抽取是從文本集合中自動(dòng)抽取領(lǐng)域相關(guān)的詞或短語(yǔ)，是本體構(gòu)建、文本摘要和知識(shí)圖譜等領(lǐng)域的關(guān)鍵基礎(chǔ)問(wèn)題和研究熱點(diǎn)[11]。根據(jù)單語(yǔ)術(shù)語(yǔ)抽取的原理，可以將方法分為三類:基于規(guī)則的方法[12，16-21]，基于統(tǒng)計(jì)的方法[22-27]和基于機(jī)器學(xué)習(xí)的方法[14，28-31]。其中，基于機(jī)器學(xué)習(xí)的方法又可以細(xì)分為使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法和使用神經(jīng)網(wǎng)絡(luò)的方法。不同的術(shù)語(yǔ)抽取方法可以相互融合集成，使用多種策略以提升性能。

　　1.2雙語(yǔ)術(shù)語(yǔ)抽取

　　根據(jù)所使用語(yǔ)料的不同，雙語(yǔ)術(shù)語(yǔ)抽取可以分為基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[3-8，32-33]和基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[9-10，34-35]。其中，雙語(yǔ)平行語(yǔ)料由互為翻譯的源語(yǔ)言文本和目標(biāo)語(yǔ)言文本組成，而可比語(yǔ)料則是由不同語(yǔ)言同一主題的非互譯單語(yǔ)文本組成。雙語(yǔ)術(shù)語(yǔ)對(duì)齊的基本思路是術(shù)語(yǔ)及其翻譯往往出現(xiàn)在相似的上下文中[36]。從抽取方法上，雙語(yǔ)術(shù)語(yǔ)抽取以單語(yǔ)術(shù)語(yǔ)抽取為基礎(chǔ)，也可以劃分為兩種方法:對(duì)稱策略抽取法，即先分別對(duì)兩種單語(yǔ)語(yǔ)料進(jìn)行單語(yǔ)術(shù)語(yǔ)抽取，然后對(duì)單語(yǔ)術(shù)語(yǔ)抽取的結(jié)果進(jìn)行雙語(yǔ)術(shù)語(yǔ)對(duì)齊;非對(duì)稱策略抽取法，即使用一種語(yǔ)言單語(yǔ)術(shù)語(yǔ)抽取的結(jié)果在另外一種語(yǔ)言單語(yǔ)語(yǔ)料上查找對(duì)應(yīng)的術(shù)語(yǔ)翻譯。

　　在基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取上，孫樂(lè)等[4]根據(jù)詞性規(guī)則進(jìn)行單語(yǔ)術(shù)語(yǔ)抽取，然后融合句子字符長(zhǎng)度信息計(jì)算翻譯概率，從而抽取雙語(yǔ)術(shù)語(yǔ)對(duì)。孫茂松等[3]使用短語(yǔ)對(duì)齊、組塊分析相結(jié)合的方法在雙語(yǔ)語(yǔ)料上進(jìn)行候選術(shù)語(yǔ)的抽取。張莉等[37]在孫樂(lè)等[4]的研究基礎(chǔ)上將術(shù)語(yǔ)語(yǔ)序位置信息引入術(shù)語(yǔ)對(duì)齊。劉勝奇等[38]提出使用多策略融合Giza++術(shù)語(yǔ)對(duì)齊方法，使用多種關(guān)聯(lián)和相似度提升術(shù)語(yǔ)對(duì)齊的對(duì)準(zhǔn)率。在基于可比語(yǔ)料的雙語(yǔ)術(shù)語(yǔ)抽取上，Rapp等[39]和Tanaka等[40]通過(guò)建立源語(yǔ)言文本與目標(biāo)語(yǔ)言文本的共現(xiàn)矩陣并進(jìn)行矩陣相似度計(jì)算來(lái)抽取翻譯等價(jià)對(duì)。

　　Yu等[41]通過(guò)句法分析獲得細(xì)粒度的上下文信息，從而抽取中英雙語(yǔ)詞語(yǔ)對(duì)。Lee等[42]使用一種基于EM框架結(jié)合統(tǒng)計(jì)學(xué)、詞法、語(yǔ)言學(xué)、上下文和時(shí)空特征的無(wú)監(jiān)督混合模型來(lái)從可比語(yǔ)料中抽取雙語(yǔ)術(shù)語(yǔ)。不同于前述工作，本文主要關(guān)注的是從兩種語(yǔ)言的單語(yǔ)術(shù)語(yǔ)庫(kù)中自動(dòng)進(jìn)行術(shù)語(yǔ)對(duì)齊，從而抽取雙語(yǔ)術(shù)語(yǔ)對(duì)。單語(yǔ)術(shù)語(yǔ)庫(kù)可以是已經(jīng)構(gòu)建好的單語(yǔ)術(shù)語(yǔ)庫(kù)，也可以利用現(xiàn)有的單語(yǔ)術(shù)語(yǔ)抽取方法進(jìn)行構(gòu)建。該方法僅利用單語(yǔ)術(shù)語(yǔ)本身的信息，而不依賴于上下文信息，在獲取不同語(yǔ)言同一領(lǐng)域的單語(yǔ)術(shù)語(yǔ)庫(kù)后，能夠迅速抽取雙語(yǔ)術(shù)語(yǔ)對(duì)。

　　1.3預(yù)訓(xùn)練模型詞向量

　　深度學(xué)習(xí)給自然語(yǔ)言處理領(lǐng)域帶來(lái)了突破性的變革，其中一個(gè)關(guān)鍵的概念就是詞嵌入。作為最常見的文本特征表示方法之一，詞嵌入已被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)。分布式詞向量是利用神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)單詞的共現(xiàn)性，通過(guò)無(wú)監(jiān)督學(xué)習(xí)得到能夠表達(dá)詞語(yǔ)語(yǔ)義信息的低維度向量。

　　最近，許多預(yù)訓(xùn)練模型通過(guò)不同的策略提升了語(yǔ)言表征能力。其中，Devlin等[15]提出了BERT模型。BERT模型的基礎(chǔ)是自注意力(self-attention)機(jī)制，利用自注意力機(jī)制可以獲取雙向的上下文信息，通過(guò)在海量的無(wú)監(jiān)督語(yǔ)料庫(kù)上訓(xùn)練獲得句子中每個(gè)單詞的上下文表示信息。BERT在多種自然語(yǔ)言處理任務(wù)上取得了最優(yōu)的研究成果[15，43]。

　　2任務(wù)定義

　　給定源端術(shù)語(yǔ)，雙語(yǔ)術(shù)語(yǔ)對(duì)齊任務(wù)旨在從目標(biāo)端術(shù)語(yǔ)集合中找到其對(duì)應(yīng)的翻譯，其形式化定義如下:給定源語(yǔ)言S中的一組術(shù)語(yǔ)集合QS，和目標(biāo)語(yǔ)言T中一組術(shù)語(yǔ)集合QT，QS和QT是同一領(lǐng)域(如醫(yī)學(xué)領(lǐng)域)不同語(yǔ)言的術(shù)語(yǔ)集合，本文的目標(biāo)是為每個(gè)源端術(shù)語(yǔ)wS∈QS，從目標(biāo)端術(shù)語(yǔ)集合QT中找到對(duì)應(yīng)的翻譯wT，從而獲得雙語(yǔ)術(shù)語(yǔ)對(duì)wS，wT()。

　　此處將雙語(yǔ)術(shù)語(yǔ)對(duì)wS，wT()抽取的問(wèn)題轉(zhuǎn)換為跨語(yǔ)言文本相似度度量任務(wù)。為了減小目標(biāo)端術(shù)語(yǔ)比對(duì)范圍，對(duì)于源端術(shù)語(yǔ)wS，首先利用多個(gè)在線機(jī)器翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)端“偽”術(shù)語(yǔ)w'T，然后利用w'T和文本相似度算法對(duì)目標(biāo)端術(shù)語(yǔ)集合QT進(jìn)行篩選，獲得目標(biāo)端術(shù)語(yǔ)候選集合QcandT，最后對(duì)wS與候選集QcandT中的候選術(shù)語(yǔ)進(jìn)行語(yǔ)義相似度重排序，選取相似度最高的作為最終術(shù)語(yǔ)翻譯對(duì)。

　　3本文方法

　　本文提出一種從兩種不同語(yǔ)種的單語(yǔ)術(shù)語(yǔ)庫(kù)中自動(dòng)進(jìn)行術(shù)語(yǔ)對(duì)齊以抽取雙語(yǔ)術(shù)語(yǔ)對(duì)的方法。該方法采用“生成—篩選—比較”的方式，共分為三個(gè)步驟：(1)目標(biāo)語(yǔ)言偽術(shù)語(yǔ)生成，即利用多個(gè)在線翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)語(yǔ)言偽術(shù)語(yǔ);(2)目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集生成，通過(guò)最長(zhǎng)公共子串(longestcommonsub-sequence，LCS)算法[43]對(duì)目標(biāo)語(yǔ)言術(shù)語(yǔ)庫(kù)進(jìn)行篩選，生成目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集;(3)基于語(yǔ)義相似度的重排序，通過(guò)預(yù)訓(xùn)練語(yǔ)言模型BERT對(duì)目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集進(jìn)行基于跨語(yǔ)言語(yǔ)義相似度的排序，得到得分最高的目標(biāo)端術(shù)語(yǔ)，生成最終的雙語(yǔ)術(shù)語(yǔ)對(duì)。

　　3.1目標(biāo)端偽術(shù)語(yǔ)生成

　　機(jī)器翻譯就是實(shí)現(xiàn)從源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換的過(guò)程[44]。隨著深度學(xué)習(xí)和人工智能技術(shù)的快速發(fā)展，機(jī)器翻譯技術(shù)得到了快速發(fā)展，包括谷歌、百度、有道、搜狗等在內(nèi)的許多互聯(lián)網(wǎng)公司都已經(jīng)部署了各自的在線機(jī)器翻譯引擎。因此，本文借助已有的機(jī)器翻譯引擎作為不同語(yǔ)言之間的橋梁，將源語(yǔ)言術(shù)語(yǔ)轉(zhuǎn)換為目標(biāo)語(yǔ)言表述。

　　由于術(shù)語(yǔ)翻譯的準(zhǔn)確性和專業(yè)性要求較高，通過(guò)機(jī)器翻譯引擎生成的目標(biāo)語(yǔ)言表述雖然一定程度上能夠表達(dá)源語(yǔ)言術(shù)語(yǔ)的含義，但是不能確保是完全正確的目標(biāo)語(yǔ)言術(shù)語(yǔ)，本文將其定義為“目標(biāo)端偽術(shù)語(yǔ)”。這些源語(yǔ)言術(shù)語(yǔ)對(duì)應(yīng)的目標(biāo)端偽術(shù)語(yǔ)需要和目標(biāo)端術(shù)語(yǔ)庫(kù)進(jìn)行進(jìn)一步的相似度計(jì)算才能最終確定其對(duì)應(yīng)的目標(biāo)端術(shù)語(yǔ)。給出了中文術(shù)語(yǔ)(源語(yǔ)言)、機(jī)器翻譯引擎翻譯結(jié)果以及標(biāo)準(zhǔn)的英語(yǔ)術(shù)語(yǔ)(目標(biāo)語(yǔ)言)的示例。

　　利用多個(gè)在線翻譯引擎對(duì)源語(yǔ)言術(shù)語(yǔ)進(jìn)行翻譯，生成多個(gè)目標(biāo)端表述后，須從中選擇一個(gè)合適的表述作為源語(yǔ)言術(shù)語(yǔ)對(duì)應(yīng)的目標(biāo)端偽術(shù)語(yǔ)。本文采用多數(shù)投票法選擇最終目標(biāo)端偽術(shù)語(yǔ)。多數(shù)投票法以單個(gè)模型的預(yù)測(cè)結(jié)果為基礎(chǔ)，采用少數(shù)服從多數(shù)的原則確定模型預(yù)測(cè)的結(jié)果。

　　3.2目標(biāo)端候選集生成

　　在獲得目標(biāo)端偽術(shù)語(yǔ)的基礎(chǔ)上，若直接利用目標(biāo)端偽術(shù)語(yǔ)與目標(biāo)端術(shù)語(yǔ)集合中的每個(gè)目標(biāo)端標(biāo)準(zhǔn)術(shù)語(yǔ)進(jìn)行比對(duì)，則會(huì)存在噪聲多、時(shí)間成本高的問(wèn)題。因此，本節(jié)將利用目標(biāo)端偽術(shù)語(yǔ)對(duì)目標(biāo)端術(shù)語(yǔ)集合進(jìn)行篩選，生成目標(biāo)端候選集，從而縮小標(biāo)準(zhǔn)術(shù)語(yǔ)的搜索空間。具體而言，通過(guò)目標(biāo)端偽術(shù)語(yǔ)和目標(biāo)端術(shù)語(yǔ)集合中的每個(gè)術(shù)語(yǔ)進(jìn)行相似度計(jì)算，這里采用LCS算法，保留相似度得分最高的K個(gè)術(shù)語(yǔ)形成候選集。

　　3.3基于語(yǔ)義相似度的重排序

　　由于LCS算法只考慮了詞形上的相似關(guān)系，而忽視了語(yǔ)義層面的相似關(guān)系，因此即便LCS相似度得分最高，在很多情況下依然無(wú)法獲取正確的目標(biāo)端術(shù)語(yǔ)。同時(shí)，使用機(jī)器翻譯系統(tǒng)生成目標(biāo)端偽術(shù)語(yǔ)的過(guò)程也存在一定程度上的語(yǔ)義失真，因此，本文提出同時(shí)利用源語(yǔ)言術(shù)語(yǔ)和目標(biāo)端偽術(shù)語(yǔ)對(duì)目標(biāo)端候選集進(jìn)行語(yǔ)義層面的相似度計(jì)算，利用源語(yǔ)言術(shù)語(yǔ)信息進(jìn)一步增強(qiáng)目標(biāo)端術(shù)語(yǔ)選擇的性能。

　　4實(shí)驗(yàn)與結(jié)果

　　本文在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域進(jìn)行了中英雙語(yǔ)術(shù)語(yǔ)對(duì)齊的實(shí)驗(yàn)。

　　4.1數(shù)據(jù)集構(gòu)造

　　為了進(jìn)行雙語(yǔ)術(shù)語(yǔ)對(duì)齊的實(shí)驗(yàn)，本文利用維基百科構(gòu)造了三個(gè)領(lǐng)域的中文術(shù)語(yǔ)庫(kù)和英文術(shù)語(yǔ)庫(kù)，包括計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)。本文利用PetScan工具從維基百科上獲取符合特定條件的標(biāo)題列表，例如，使用“Language=en&Depth=4&Categories=Computerscience”獲取計(jì)算機(jī)科學(xué)領(lǐng)域下的英文條目。在獲取對(duì)應(yīng)語(yǔ)言和領(lǐng)域下的標(biāo)題條目后，經(jīng)過(guò)簡(jiǎn)單的規(guī)則處理，比如去掉純數(shù)字的條目、語(yǔ)言不正確的條目等，將過(guò)濾之后的標(biāo)題條目作為對(duì)應(yīng)領(lǐng)域的單語(yǔ)術(shù)語(yǔ)庫(kù)。在獲取單語(yǔ)術(shù)語(yǔ)庫(kù)后，由于在維基百科上，中文的頁(yè)面數(shù)遠(yuǎn)小于英文的頁(yè)面數(shù)，因此，本文遍歷中文單語(yǔ)術(shù)語(yǔ)庫(kù)，利用維基百科的跨wiki鏈接(Interwikilinks)來(lái)獲取對(duì)應(yīng)的英文術(shù)語(yǔ)，從而獲得雙語(yǔ)術(shù)語(yǔ)庫(kù)。

　　4.2實(shí)驗(yàn)設(shè)置

　　在線翻譯引擎:在實(shí)驗(yàn)過(guò)程中，本文采用了5個(gè)在線翻譯引擎將中文單語(yǔ)術(shù)語(yǔ)庫(kù)中的術(shù)語(yǔ)翻譯成英文“偽”術(shù)語(yǔ):谷歌翻譯、百度翻譯、有道翻譯、搜狗翻譯以及Bing翻譯。mBERT:在谷歌發(fā)布的多語(yǔ)言預(yù)訓(xùn)練模型BERT-Base、MultilingualCased基礎(chǔ)上進(jìn)行微調(diào)，數(shù)據(jù)采用4.1節(jié)所述方式進(jìn)行構(gòu)建，batch大小設(shè)為32，訓(xùn)練輪數(shù)設(shè)為30，輸入序列最大值為100，初始學(xué)習(xí)率為0.00005，其余保持默認(rèn)參數(shù)。

　　4.3實(shí)驗(yàn)結(jié)果

　　在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域上進(jìn)行了中英雙語(yǔ)術(shù)語(yǔ)對(duì)齊的實(shí)驗(yàn)。通過(guò)該實(shí)驗(yàn)結(jié)果，可以看出以下信息。(1)當(dāng)前機(jī)器翻譯引擎對(duì)于術(shù)語(yǔ)的翻譯性能還有待提升。利用5個(gè)在線翻譯引擎通過(guò)投票機(jī)制生成的英語(yǔ)術(shù)語(yǔ)在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)領(lǐng)域上僅有43.34%/39.48%/46.23%的正確率。這也說(shuō)明了自動(dòng)構(gòu)建雙語(yǔ)術(shù)語(yǔ)庫(kù)對(duì)于提升翻譯系統(tǒng)的性能有著重要意義。(2)多語(yǔ)言BERT在中英語(yǔ)義相似度計(jì)算上表現(xiàn)很差(基線系統(tǒng)2:6.09%/3.68%/2.87%)，其性能遠(yuǎn)低于基線系統(tǒng)1，這可能是由于多語(yǔ)言BERT沒有在任務(wù)對(duì)應(yīng)的雙語(yǔ)術(shù)語(yǔ)數(shù)據(jù)上微調(diào)，中英文的語(yǔ)義空間對(duì)齊較差。

　　而多語(yǔ)言BERT直接對(duì)英語(yǔ)偽術(shù)語(yǔ)和英文術(shù)語(yǔ)進(jìn)行語(yǔ)義相似度計(jì)算(基線系統(tǒng)3)，其性能顯著優(yōu)于基線系統(tǒng)2，這表明多語(yǔ)言BERT在單一語(yǔ)言上能較好地表征語(yǔ)義相似度。(3)本文所提方法在三個(gè)領(lǐng)域的雙語(yǔ)術(shù)語(yǔ)對(duì)齊上均顯著優(yōu)于基線系統(tǒng)，該方法以基線系統(tǒng)1生成的結(jié)果作為輸入，使用LCS算法與英語(yǔ)標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)比對(duì)，返回得分最高的10個(gè)英語(yǔ)術(shù)語(yǔ)組成候選集，最后利用mBERT進(jìn)行語(yǔ)義相似度重排序，實(shí)驗(yàn)結(jié)果表明所提方法能夠顯著提升雙語(yǔ)術(shù)語(yǔ)對(duì)齊的性能，從而得到更好的雙語(yǔ)術(shù)語(yǔ)庫(kù)。

　　4.4消融分析

　　基本模塊分析:本文所提方法包含三個(gè)步驟:(1)目標(biāo)語(yǔ)言偽術(shù)語(yǔ)生成，即利用多個(gè)在線翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)語(yǔ)言偽術(shù)語(yǔ);(2)目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集生成，通過(guò)文本相似度算法LCS對(duì)目標(biāo)語(yǔ)言術(shù)語(yǔ)庫(kù)進(jìn)行篩選，生成目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集;(3)基于語(yǔ)義相似度的重排序，通過(guò)預(yù)訓(xùn)練語(yǔ)言模型mBERT對(duì)目標(biāo)語(yǔ)言術(shù)語(yǔ)候選集進(jìn)行語(yǔ)義相似度重排序，得到得分最高的目標(biāo)端術(shù)語(yǔ)，生成最終的雙語(yǔ)術(shù)語(yǔ)對(duì)。

　　5結(jié)語(yǔ)

　　本文提出了一種面向兩種語(yǔ)言單語(yǔ)術(shù)語(yǔ)庫(kù)的雙語(yǔ)術(shù)語(yǔ)對(duì)齊方法，該方法由“生成—篩選—比較”三步組成，首先利用多個(gè)在線機(jī)器翻譯引擎通過(guò)投票機(jī)制生成目標(biāo)端“偽”術(shù)語(yǔ)，然后利用目標(biāo)端“偽”術(shù)語(yǔ)從目標(biāo)術(shù)語(yǔ)庫(kù)中檢索得到目標(biāo)端術(shù)語(yǔ)候選集合，最后采用基于mBERT的語(yǔ)義匹配算法對(duì)目標(biāo)端候選集合進(jìn)行重排序，從而獲得最終的雙語(yǔ)術(shù)語(yǔ)對(duì)。

　　該方法可以僅僅利用單語(yǔ)術(shù)語(yǔ)庫(kù)本身的信息抽取雙語(yǔ)術(shù)語(yǔ)對(duì)。在計(jì)算機(jī)科學(xué)、土木工程和醫(yī)學(xué)三個(gè)領(lǐng)域上的中英雙語(yǔ)術(shù)語(yǔ)對(duì)齊實(shí)驗(yàn)結(jié)果表明，與基線系統(tǒng)相比，所提方法能夠有效地提高雙語(yǔ)術(shù)語(yǔ)抽取的性能。在未來(lái)的研究中，需要進(jìn)一步探索如何利用術(shù)語(yǔ)庫(kù)之外的信息提升雙語(yǔ)術(shù)語(yǔ)對(duì)齊的質(zhì)量，如利用互聯(lián)網(wǎng)大規(guī)模文本信息，學(xué)習(xí)更加準(zhǔn)確的融合上下文信息的術(shù)語(yǔ)表示。

　　參考文獻(xiàn)

　　[1]馮志偉.現(xiàn)代術(shù)語(yǔ)學(xué)引論[M].北京:語(yǔ)文出版社，1997.

　　[2]杜波，田懷鳳，王立，等.基于多策略的專業(yè)領(lǐng)域術(shù)語(yǔ)抽取器的設(shè)計(jì)[J].計(jì)算機(jī)工程，2005(14):159-160.

　　[3]孫茂松，李莉，劉知遠(yuǎn).面向中英平行專利的雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2014，54(10):1339-1343.

　　[4]孫樂(lè)，金友兵，杜林，等.平行語(yǔ)料庫(kù)中雙語(yǔ)術(shù)語(yǔ)詞典的自動(dòng)抽取[J].中文信息學(xué)報(bào)，2000(6):33-39.

　　[5]HUANGGP，ZHANGJJ，ZHOUY，etal.Asimple，straightforwardandeffectivemodelforjointbilingualtermsdetectionandwordalignmentinsmt[C]//ProceedingsoftheFifthConferenceonNaturalLanguageProcessingandChineseComputing&TheTwentyFourthInternationalConferenceonComputerProcessingofOrientalLanguages.Kunming，China，2016:103-115.

　　作者：向露1，2周玉1，2，3宗成慶1，2