亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當前的位置:發(fā)表學術(shù)論文網(wǎng)文史論文》 基于深度神經(jīng)網(wǎng)絡(luò)的資源匱乏語言語音關(guān)鍵詞檢索> 正文

基于深度神經(jīng)網(wǎng)絡(luò)的資源匱乏語言語音關(guān)鍵詞檢索

所屬分類:文史論文 閱讀次 時間:2022-05-28 09:48

本文摘要:摘 要:資源匱乏語言語音信息檢索研究比漢語、英語等大語言進展緩慢,需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維哈等低資源語言為基礎(chǔ),通過一系列預(yù)處理過程獲得了這些語言的語音及文本資源,再利用高

  摘 要:資源匱乏語言語音信息檢索研究比漢語、英語等大語言進展緩慢,需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語言信息處理工作帶來便利。文中以維⁃哈等低資源語言為基礎(chǔ),通過一系列預(yù)處理過程獲得了這些語言的語音及文本資源,再利用高斯混合隱馬爾可夫模型GMM⁃HMM、深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型DNN⁃HMM等完成了關(guān)鍵詞檢索實驗。實驗結(jié)果表明,三音素下的 DNN ⁃HMM 模型比 GMM ⁃HMM 模型檢索性能要好。維吾爾語的ATWV達到了0.368,MTWV達到了0.491,檢索結(jié)果準確率達到了89.36%;哈薩克語的ATWV達到了0.382,MTWV達到了0.421,檢索結(jié)果準確率達到了 82.15%。

  關(guān)鍵詞:語音關(guān)鍵詞檢索;維吾爾語;哈薩克語;深度神經(jīng)網(wǎng)絡(luò);檢索流程;聲學模型

深度網(wǎng)絡(luò)語言

  0 引 言

  資源匱乏的語言語音信息檢索研究進展緩慢,缺乏資源,需要大量的預(yù)處理工作以及相關(guān)的細致研究。雖然維⁃哈(維吾爾⁃哈薩克)語言的 ASR 系統(tǒng)研究有了一些成果[1⁃2],但是在關(guān)鍵詞檢索方面缺乏深入研究工作。在移動終端以及多媒體信息爆炸性增長的年代,多語言語音信息的檢索研究在社會發(fā)展、網(wǎng)絡(luò)安全、輿情分析等多個領(lǐng)域有很重要的現(xiàn)實意義,將進一步推進低資源語言語音檢索的研究。本文主要在大詞匯量語音識別(Large VocabularyContinuous Speech Recognition,LVCSR)系統(tǒng)的基礎(chǔ)上進行維⁃哈語言語音關(guān)鍵詞檢索,首先對維⁃哈語語音各種聲學單元分別建模,在此基礎(chǔ)上進行維⁃哈語音關(guān)鍵詞檢索。

  大詞匯量語音關(guān)鍵詞檢索是在語音識別產(chǎn)生的網(wǎng)格 lattice 上進行關(guān)鍵詞捕捉。由識別和索引兩部分組成[3],關(guān)鍵詞檢索的方法通常都是用關(guān)鍵詞的模板在連續(xù)語音流中進行匹配查找,比如 DTW(DynamicTime Warping)方法和 DTW 的不同變體等。表示關(guān)鍵詞模板的方法有 GMM 模型[4⁃5]、HMM 模型[6]、神經(jīng)網(wǎng)絡(luò)等,它們對各種特征進行匹配,這些特征包括語音的頻譜、MFCC(Mel Frequency Cepstrum Coefficient)、線性預(yù)測系數(shù)(Linear Prediction Coefficient,LPC)[7]等。但是這種用關(guān)鍵詞模板匹配的方法適用于較小的數(shù)據(jù)量進行關(guān)鍵詞檢索,并且關(guān)鍵詞的不同模板在表示上有很大的差別。

  影響檢索的因素有噪聲、信道不匹配、標記有誤等因素[8]。隨著大詞匯量連續(xù)語音識別準確率和效率的不斷提高,可以在連續(xù)語音識別的基礎(chǔ)上進行語音關(guān)鍵詞檢索,通常比 DTW 模板匹配的結(jié)果好,所以連續(xù)語音關(guān)鍵詞檢索具有很好的應(yīng)用價值[9]。關(guān) 鍵 詞 檢 索 系 統(tǒng) 性 能 的 評 價 指 標 是 加 權(quán) 項 值(Term ⁃weighted Value,TWV),衡量系統(tǒng)對偽命中和誤報的代價的分配[10⁃11]。本文使用兩種不同的評價指標:ATWV(Actual Term⁃weighted Value,實際項加權(quán)值),即通過預(yù)先指定的決策閾值獲得的TWV;MTWV(MaximumTerm⁃weighted Value,最大項加權(quán)值),它是在判決閾值的最佳設(shè)置下獲得的 TWV[12]。漢語、英語等大語言相關(guān)研究很多,如漢語語音關(guān)鍵詞檢索,在文獻[13]里通過神經(jīng)網(wǎng)絡(luò)模型研究語音檢索達到的準確率是80.76%。由于在實際環(huán)境中,噪聲、個性化、情緒等眾多因素的影響,檢測正確率還會大幅降低。

  1 系統(tǒng)總體框架

  本文的關(guān)鍵詞檢索是在 LVCSR 基礎(chǔ)上實現(xiàn)的。為了提高可靠性,在 LVCSR 輸出端捕捉 lattice 輸出,并在此基礎(chǔ)上進行檢索。維⁃哈語音關(guān)鍵詞檢索的總體流程是:首先對維⁃哈語音分別進行識別,產(chǎn)生相應(yīng)的 lattice,再進行語音關(guān)鍵詞檢索。其實 lattice 只是在語音識別的過程中產(chǎn)生的中間結(jié)果,是由每條測試集句子解碼并聯(lián)起來的一個龐大的網(wǎng)格,網(wǎng)格里面包含測試集每條句子的每個候選詞,網(wǎng)格以加權(quán)有限狀態(tài)轉(zhuǎn)換器形式存在,檢索時也需要將檢索的關(guān)鍵詞轉(zhuǎn)換成加權(quán)有限狀態(tài)轉(zhuǎn)換器的形式在網(wǎng)格上進行索引,進而在 lattice 進行語音關(guān)鍵詞檢索。

  本文建立 GMM,DNN,HMM 等各種 LVCSR 系統(tǒng)模型,選擇各種聲學模型進行比較,使用的模型。GMM 和 DNN 都在擬合同一個觀測序列的概率分布,然后作為 HMM 的觀測狀態(tài)概率矩陣,從 HMM指向 GMM 或 DNN 的箭頭是指 HMM 的某個狀態(tài)的觀測概率由某一個 GMM 或 DNN 的某一個輸出節(jié)點決定;兩者最主要的區(qū)別是利用 DNN 代替了 GMM 實現(xiàn)了狀態(tài)概率的輸出;后驗概率可以看作是有監(jiān)督學習,根據(jù)觀測值求狀態(tài)值,而 DNN 是根據(jù)觀測值逆向傳播的過程,屬于有監(jiān)督學習;另外,經(jīng)過 softmax 輸出就能得到后驗概率。

  HMM 的觀測概率由 GMM 生成。一個狀態(tài) X 由一個 GMM 表征,同時相鄰的 GMM 之間沒有很強的相關(guān)性;GMM 模型輸出的似然概率為 P ( Y | X ),這個似然概率就是 HMM 所需要的觀測概率。在圖 3 中,HMM 的觀測概率由 DNN 生成的后驗概率 P ( X |Y )經(jīng)貝葉斯公式轉(zhuǎn)換得到。DNN 一個輸出節(jié)點對應(yīng)一個狀態(tài),為了考慮上下文相關(guān)信息,通常送入DNN 的是 2n + 1 幀;DNN 作為判別模型,是直接對給定的觀測序列 Y 后狀態(tài)的分布進行建模,也是監(jiān)督學習,輸 出 的 后 驗 概 率 P ( X |Y ) 需 要 轉(zhuǎn) 換 為 似 然 概 率P ( Y | X )。相同點,HMM 的狀態(tài)初始概率和狀態(tài)轉(zhuǎn)移概率都不變,HMM 仍然是對時序進行建模。

  2 實驗數(shù)據(jù)

  準備實驗中,維吾爾語語音關(guān)鍵詞檢索使用的語音語料包括:訓練集有 7 600 條音頻和文本句子,驗證集有400 條音頻和文本句子,測試集有 1 468 條音頻和文本句子。哈語語音關(guān)鍵詞檢索使用的語音語料包括:訓練集有 34 000 條音頻和文本句子,驗證集有 1 000 條音頻和文本句子,測試集有 2 000 條音頻和文本句子。

  3 實驗結(jié)果及分析

  維吾爾語語音識別詞錯誤率,哈薩克語語音識別詞錯誤率分別。在錄哈語語音數(shù)據(jù)時,里面存在的一些年份、數(shù)字等在字典里沒有對應(yīng)的發(fā)音音素串,都映射成了集外詞。維語使用了公開的語料庫 thuyg20,字典基本覆蓋了數(shù)據(jù)集所有的單詞、年份、數(shù)字等發(fā)音。所以維語數(shù)據(jù)集不但小,而且識別的效果較好;哈語的數(shù)據(jù)集大,反而識別效果較差些。為了更直觀地表示維⁃哈語語音在不同的聲學模型中識別詞錯率的情況,本文采用折線圖表示。通過折線圖,觀察不同的聲學模型,發(fā)現(xiàn)維吾爾語 DNN ⁃HMM 比 mono識別率提升了 28.54%;哈薩克語 DNN⁃HMM 比 mono 識別率提升了 27.99%。

  3.1 基于 GMM⁃HMM 聲學模型

  維語實際總的關(guān)鍵詞詞數(shù)為 1 602,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓練(tri4b)的 GMM⁃HMM 模型,做語音關(guān)鍵詞檢索,檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù),根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價指標可得準確率、召回率、虛警率。

  哈語實際總的關(guān)鍵詞詞數(shù)為 1 303,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓練(tri4b)的 GMM⁃HMM 模型,做語音關(guān)鍵詞檢索,檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù),根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價指標可得準確率、召回率、虛警率。

  3.2 基于 DNN⁃HMM 聲學模型

  使用三音素的 DNN⁃HMM 模型做語音關(guān)鍵詞檢索。維吾爾語實際總的關(guān)鍵詞詞數(shù)為 1 602,用 F4DE 獲得,檢出 正 確 的 關(guān) 鍵 詞 數(shù) 為 1 444,檢 索 到 的 關(guān) 鍵 詞 數(shù)為 1 616,虛警數(shù)為 103,由關(guān)鍵詞檢索的評價公式可得 ,準 確 率 為 89.36%,召 回 率 為 90.14%,虛 警 率 為6.43%;哈 語 實 際 總 的 關(guān) 鍵 詞 總 數(shù) 為 1 303,用 F4DE獲得,正確識別的關(guān)鍵詞數(shù)為 1 118,檢出的關(guān)鍵詞數(shù)為 1 361,虛警數(shù)為 192,根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評價指標可得,準確率為 82.15%,召回率為 85.80%,虛警率為 14.74%。

  通過實驗對比發(fā)現(xiàn),在不同的聲學模型上,維語和哈語的關(guān)鍵詞檢出的查準率、召回率、虛警率都有所不同,但是在 DNN⁃HMM 模型上的性能最佳,維吾爾語達到了 89.36%,相比單音素而言提升 33.11%,哈語達到82.15%,相比單音素而言提升 52.06%。相比于高斯混合模型而言,深度神經(jīng)網(wǎng)絡(luò)更能擬合數(shù)據(jù)的分布,進而提高關(guān)鍵詞檢出的準確率。

  4 結(jié) 語

  本文雖然在 kaldi中搭建了完整的語音關(guān)鍵詞檢索系統(tǒng),也做了多次實驗,但是,哈薩克語的語音識別詞錯誤率較高,對關(guān)鍵詞檢出的準確率有較大的影響,維吾爾語的語音識別的詞錯誤率相對于哈薩克語來說較低。通過實驗數(shù)據(jù)也可以看出,維吾爾語的關(guān)鍵詞檢出的準確率較高,下一步的工作就是嘗試一些不同的方法完善發(fā)音字典和聲學模型,提高哈薩克語識別的準確率,進而提高哈薩克語的語音關(guān)鍵詞檢出的準確率。

  參 考 文 獻:

  [1] 沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉 . 基于詞干單元的維⁃哈語文本關(guān)鍵詞提取研究[J]. 計算機工程與科學,2020,42(1):131⁃137.

  [2] 孫曉杰 .基于 N⁃gram 模型的哈薩克語語音識別及處理技術(shù)研究[J].信息記錄材料,2018,19(9):97⁃99.

  [3] 李娜,葛萬成 . 語音關(guān)鍵詞識別系統(tǒng)的模型訓練及性能評價[J].信息通信,2020(3):8⁃10.

  [4] GUPTA M,BHARTI S S,AGARWAL S. Gender⁃based speakerrecognition from speech signals using GMM model [J]. Modernphysics letters B,2019,33(35):1⁃23.

  [5] LANNE M,LUOTO J. GMM estimation of non⁃Gaussian struc⁃tural vector autoregression [J]. Journal of business & economicstatistics,2021,39(1):69⁃81.

  作者:張偉濤,米吉提·阿不里米提,鄭 方,艾斯卡爾·艾木都拉

轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///wslw/30259.html