基于深度神經(jīng)網(wǎng)絡(luò)的資源匱乏語言語音關(guān)鍵詞檢索

所屬分類：文史論文閱讀次時間：2022-05-28 09:48

本文摘要：摘要：資源匱乏語言語音信息檢索研究比漢語、英語等大語言進(jìn)展緩慢，需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維哈等低資源語言為基礎(chǔ)，通過一系列預(yù)處理過程獲得了這些語言的語音及文本資源，再利用高

　　摘要：資源匱乏語言語音信息檢索研究比漢語、英語等大語言進(jìn)展緩慢，需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維⁃哈等低資源語言為基礎(chǔ)，通過一系列預(yù)處理過程獲得了這些語言的語音及文本資源，再利用高斯混合隱馬爾可夫模型GMM⁃HMM、深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型DNN⁃HMM等完成了關(guān)鍵詞檢索實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，三音素下的 DNN ⁃HMM 模型比 GMM ⁃HMM 模型檢索性能要好。維吾爾語的ATWV達(dá)到了0.368，MTWV達(dá)到了0.491，檢索結(jié)果準(zhǔn)確率達(dá)到了89.36%;哈薩克語的ATWV達(dá)到了0.382，MTWV達(dá)到了0.421，檢索結(jié)果準(zhǔn)確率達(dá)到了 82.15%。

　　關(guān)鍵詞：語音關(guān)鍵詞檢索;維吾爾語;哈薩克語;深度神經(jīng)網(wǎng)絡(luò);檢索流程;聲學(xué)模型

深度網(wǎng)絡(luò)語言

　　0 引言

　　資源匱乏的語言語音信息檢索研究進(jìn)展緩慢，缺乏資源，需要大量的預(yù)處理工作以及相關(guān)的細(xì)致研究。雖然維⁃哈(維吾爾⁃哈薩克)語言的 ASR 系統(tǒng)研究有了一些成果[1⁃2]，但是在關(guān)鍵詞檢索方面缺乏深入研究工作。在移動終端以及多媒體信息爆炸性增長的年代，多語言語音信息的檢索研究在社會發(fā)展、網(wǎng)絡(luò)安全、輿情分析等多個領(lǐng)域有很重要的現(xiàn)實(shí)意義，將進(jìn)一步推進(jìn)低資源語言語音檢索的研究。本文主要在大詞匯量語音識別(Large VocabularyContinuous Speech Recognition，LVCSR)系統(tǒng)的基礎(chǔ)上進(jìn)行維⁃哈語言語音關(guān)鍵詞檢索，首先對維⁃哈語語音各種聲學(xué)單元分別建模，在此基礎(chǔ)上進(jìn)行維⁃哈語音關(guān)鍵詞檢索。

　　大詞匯量語音關(guān)鍵詞檢索是在語音識別產(chǎn)生的網(wǎng)格 lattice 上進(jìn)行關(guān)鍵詞捕捉。由識別和索引兩部分組成[3]，關(guān)鍵詞檢索的方法通常都是用關(guān)鍵詞的模板在連續(xù)語音流中進(jìn)行匹配查找，比如 DTW(DynamicTime Warping)方法和 DTW 的不同變體等。表示關(guān)鍵詞模板的方法有 GMM 模型[4⁃5]、HMM 模型[6]、神經(jīng)網(wǎng)絡(luò)等，它們對各種特征進(jìn)行匹配，這些特征包括語音的頻譜、MFCC(Mel Frequency Cepstrum Coefficient)、線性預(yù)測系數(shù)(Linear Prediction Coefficient，LPC)[7]等。但是這種用關(guān)鍵詞模板匹配的方法適用于較小的數(shù)據(jù)量進(jìn)行關(guān)鍵詞檢索，并且關(guān)鍵詞的不同模板在表示上有很大的差別。

　　影響檢索的因素有噪聲、信道不匹配、標(biāo)記有誤等因素[8]。隨著大詞匯量連續(xù)語音識別準(zhǔn)確率和效率的不斷提高，可以在連續(xù)語音識別的基礎(chǔ)上進(jìn)行語音關(guān)鍵詞檢索，通常比 DTW 模板匹配的結(jié)果好，所以連續(xù)語音關(guān)鍵詞檢索具有很好的應(yīng)用價(jià)值[9]。關(guān) 鍵詞檢索系統(tǒng) 性能的評價(jià) 指標(biāo) 是加權(quán) 項(xiàng) 值(Term ⁃weighted Value，TWV)，衡量系統(tǒng)對偽命中和誤報(bào)的代價(jià)的分配[10⁃11]。本文使用兩種不同的評價(jià)指標(biāo)：ATWV(Actual Term⁃weighted Value，實(shí)際項(xiàng)加權(quán)值)，即通過預(yù)先指定的決策閾值獲得的TWV;MTWV(MaximumTerm⁃weighted Value，最大項(xiàng)加權(quán)值)，它是在判決閾值的最佳設(shè)置下獲得的 TWV[12]。漢語、英語等大語言相關(guān)研究很多，如漢語語音關(guān)鍵詞檢索，在文獻(xiàn)[13]里通過神經(jīng)網(wǎng)絡(luò)模型研究語音檢索達(dá)到的準(zhǔn)確率是80.76%。由于在實(shí)際環(huán)境中，噪聲、個性化、情緒等眾多因素的影響，檢測正確率還會大幅降低。

　　1 系統(tǒng)總體框架

　　本文的關(guān)鍵詞檢索是在 LVCSR 基礎(chǔ)上實(shí)現(xiàn)的。為了提高可靠性，在 LVCSR 輸出端捕捉 lattice 輸出，并在此基礎(chǔ)上進(jìn)行檢索。維⁃哈語音關(guān)鍵詞檢索的總體流程是：首先對維⁃哈語音分別進(jìn)行識別，產(chǎn)生相應(yīng)的 lattice，再進(jìn)行語音關(guān)鍵詞檢索。其實(shí) lattice 只是在語音識別的過程中產(chǎn)生的中間結(jié)果，是由每條測試集句子解碼并聯(lián)起來的一個龐大的網(wǎng)格，網(wǎng)格里面包含測試集每條句子的每個候選詞，網(wǎng)格以加權(quán)有限狀態(tài)轉(zhuǎn)換器形式存在，檢索時也需要將檢索的關(guān)鍵詞轉(zhuǎn)換成加權(quán)有限狀態(tài)轉(zhuǎn)換器的形式在網(wǎng)格上進(jìn)行索引，進(jìn)而在 lattice 進(jìn)行語音關(guān)鍵詞檢索。

　　本文建立 GMM，DNN，HMM 等各種 LVCSR 系統(tǒng)模型，選擇各種聲學(xué)模型進(jìn)行比較，使用的模型。GMM 和 DNN 都在擬合同一個觀測序列的概率分布，然后作為 HMM 的觀測狀態(tài)概率矩陣，從 HMM指向 GMM 或 DNN 的箭頭是指 HMM 的某個狀態(tài)的觀測概率由某一個 GMM 或 DNN 的某一個輸出節(jié)點(diǎn)決定;兩者最主要的區(qū)別是利用 DNN 代替了 GMM 實(shí)現(xiàn)了狀態(tài)概率的輸出;后驗(yàn)概率可以看作是有監(jiān)督學(xué)習(xí)，根據(jù)觀測值求狀態(tài)值，而 DNN 是根據(jù)觀測值逆向傳播的過程，屬于有監(jiān)督學(xué)習(xí);另外，經(jīng)過 softmax 輸出就能得到后驗(yàn)概率。

　　HMM 的觀測概率由 GMM 生成。一個狀態(tài) X 由一個 GMM 表征，同時相鄰的 GMM 之間沒有很強(qiáng)的相關(guān)性;GMM 模型輸出的似然概率為 P ( Y | X )，這個似然概率就是 HMM 所需要的觀測概率。在圖 3 中，HMM 的觀測概率由 DNN 生成的后驗(yàn)概率 P ( X |Y )經(jīng)貝葉斯公式轉(zhuǎn)換得到。DNN 一個輸出節(jié)點(diǎn)對應(yīng)一個狀態(tài)，為了考慮上下文相關(guān)信息，通常送入DNN 的是 2n + 1 幀;DNN 作為判別模型，是直接對給定的觀測序列 Y 后狀態(tài)的分布進(jìn)行建模，也是監(jiān)督學(xué)習(xí)，輸出的后驗(yàn) 概率 P ( X |Y ) 需要轉(zhuǎn) 換為似然概率P ( Y | X )。相同點(diǎn)，HMM 的狀態(tài)初始概率和狀態(tài)轉(zhuǎn)移概率都不變，HMM 仍然是對時序進(jìn)行建模。

　　2 實(shí)驗(yàn)數(shù)據(jù)

　　準(zhǔn)備實(shí)驗(yàn)中，維吾爾語語音關(guān)鍵詞檢索使用的語音語料包括：訓(xùn)練集有 7 600 條音頻和文本句子，驗(yàn)證集有400 條音頻和文本句子，測試集有 1 468 條音頻和文本句子。哈語語音關(guān)鍵詞檢索使用的語音語料包括：訓(xùn)練集有 34 000 條音頻和文本句子，驗(yàn)證集有 1 000 條音頻和文本句子，測試集有 2 000 條音頻和文本句子。

　　3 實(shí)驗(yàn)結(jié)果及分析

　　維吾爾語語音識別詞錯誤率，哈薩克語語音識別詞錯誤率分別。在錄哈語語音數(shù)據(jù)時，里面存在的一些年份、數(shù)字等在字典里沒有對應(yīng)的發(fā)音音素串，都映射成了集外詞。維語使用了公開的語料庫 thuyg20，字典基本覆蓋了數(shù)據(jù)集所有的單詞、年份、數(shù)字等發(fā)音。所以維語數(shù)據(jù)集不但小，而且識別的效果較好;哈語的數(shù)據(jù)集大，反而識別效果較差些。為了更直觀地表示維⁃哈語語音在不同的聲學(xué)模型中識別詞錯率的情況，本文采用折線圖表示。通過折線圖，觀察不同的聲學(xué)模型，發(fā)現(xiàn)維吾爾語 DNN ⁃HMM 比 mono識別率提升了 28.54%;哈薩克語 DNN⁃HMM 比 mono 識別率提升了 27.99%。

　　3.1 基于 GMM⁃HMM 聲學(xué)模型

　　維語實(shí)際總的關(guān)鍵詞詞數(shù)為 1 602，使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓(xùn)練(tri4b)的 GMM⁃HMM 模型，做語音關(guān)鍵詞檢索，檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù)，根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價(jià)指標(biāo)可得準(zhǔn)確率、召回率、虛警率。

　　哈語實(shí)際總的關(guān)鍵詞詞數(shù)為 1 303，使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓(xùn)練(tri4b)的 GMM⁃HMM 模型，做語音關(guān)鍵詞檢索，檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù)，根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價(jià)指標(biāo)可得準(zhǔn)確率、召回率、虛警率。

　　3.2 基于 DNN⁃HMM 聲學(xué)模型

　　使用三音素的 DNN⁃HMM 模型做語音關(guān)鍵詞檢索。維吾爾語實(shí)際總的關(guān)鍵詞詞數(shù)為 1 602，用 F4DE 獲得，檢出正確的關(guān) 鍵詞數(shù) 為 1 444，檢索到的關(guān) 鍵詞數(shù)為 1 616，虛警數(shù)為 103，由關(guān)鍵詞檢索的評價(jià)公式可得，準(zhǔn) 確率為 89.36%，召回率為 90.14%，虛警率為6.43%;哈語實(shí) 際總的關(guān) 鍵詞總數(shù) 為 1 303，用 F4DE獲得，正確識別的關(guān)鍵詞數(shù)為 1 118，檢出的關(guān)鍵詞數(shù)為 1 361，虛警數(shù)為 192，根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價(jià)指標(biāo)可得，準(zhǔn)確率為 82.15%，召回率為 85.80%，虛警率為 14.74%。

　　通過實(shí)驗(yàn)對比發(fā)現(xiàn)，在不同的聲學(xué)模型上，維語和哈語的關(guān)鍵詞檢出的查準(zhǔn)率、召回率、虛警率都有所不同，但是在 DNN⁃HMM 模型上的性能最佳，維吾爾語達(dá)到了 89.36%，相比單音素而言提升 33.11%，哈語達(dá)到82.15%，相比單音素而言提升 52.06%。相比于高斯混合模型而言，深度神經(jīng)網(wǎng)絡(luò)更能擬合數(shù)據(jù)的分布，進(jìn)而提高關(guān)鍵詞檢出的準(zhǔn)確率。

　　4 結(jié) 語

　　本文雖然在 kaldi中搭建了完整的語音關(guān)鍵詞檢索系統(tǒng)，也做了多次實(shí)驗(yàn)，但是，哈薩克語的語音識別詞錯誤率較高，對關(guān)鍵詞檢出的準(zhǔn)確率有較大的影響，維吾爾語的語音識別的詞錯誤率相對于哈薩克語來說較低。通過實(shí)驗(yàn)數(shù)據(jù)也可以看出，維吾爾語的關(guān)鍵詞檢出的準(zhǔn)確率較高，下一步的工作就是嘗試一些不同的方法完善發(fā)音字典和聲學(xué)模型，提高哈薩克語識別的準(zhǔn)確率，進(jìn)而提高哈薩克語的語音關(guān)鍵詞檢出的準(zhǔn)確率。

　　參考文獻(xiàn)：

　　[1] 沙爾旦爾·帕爾哈提，米吉提·阿不里米提，艾斯卡爾·艾木都拉 . 基于詞干單元的維⁃哈語文本關(guān)鍵詞提取研究[J]. 計(jì)算機(jī)工程與科學(xué)，2020，42(1)：131⁃137.

　　[2] 孫曉杰 .基于 N⁃gram 模型的哈薩克語語音識別及處理技術(shù)研究[J].信息記錄材料，2018，19(9)：97⁃99.

　　[3] 李娜，葛萬成 . 語音關(guān)鍵詞識別系統(tǒng)的模型訓(xùn)練及性能評價(jià)[J].信息通信，2020(3)：8⁃10.

　　[4] GUPTA M，BHARTI S S，AGARWAL S. Gender⁃based speakerrecognition from speech signals using GMM model [J]. Modernphysics letters B，2019，33(35)：1⁃23.

　　[5] LANNE M，LUOTO J. GMM estimation of non⁃Gaussian struc⁃tural vector autoregression [J]. Journal of business & economicstatistics，2021，39(1)：69⁃81.

　　作者：張偉濤，米吉提·阿不里米提，鄭方，艾斯卡爾·艾木都拉