本文摘要:摘 要:資源匱乏語(yǔ)言語(yǔ)音信息檢索研究比漢語(yǔ)、英語(yǔ)等大語(yǔ)言進(jìn)展緩慢,需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語(yǔ)言信息處理工作帶來(lái)便利。文中以維哈等低資源語(yǔ)言為基礎(chǔ),通過(guò)一系列預(yù)處理過(guò)程獲得了這些語(yǔ)言的語(yǔ)音及文本資源,再利用高
摘 要:資源匱乏語(yǔ)言語(yǔ)音信息檢索研究比漢語(yǔ)、英語(yǔ)等大語(yǔ)言進(jìn)展緩慢,需要大量預(yù)處理工作。神經(jīng)網(wǎng)絡(luò)模型在低資源環(huán)境下的高效建模能力給低資源語(yǔ)言信息處理工作帶來(lái)便利。文中以維⁃哈等低資源語(yǔ)言為基礎(chǔ),通過(guò)一系列預(yù)處理過(guò)程獲得了這些語(yǔ)言的語(yǔ)音及文本資源,再利用高斯混合隱馬爾可夫模型GMM⁃HMM、深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型DNN⁃HMM等完成了關(guān)鍵詞檢索實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,三音素下的 DNN ⁃HMM 模型比 GMM ⁃HMM 模型檢索性能要好。維吾爾語(yǔ)的ATWV達(dá)到了0.368,MTWV達(dá)到了0.491,檢索結(jié)果準(zhǔn)確率達(dá)到了89.36%;哈薩克語(yǔ)的ATWV達(dá)到了0.382,MTWV達(dá)到了0.421,檢索結(jié)果準(zhǔn)確率達(dá)到了 82.15%。
關(guān)鍵詞:語(yǔ)音關(guān)鍵詞檢索;維吾爾語(yǔ);哈薩克語(yǔ);深度神經(jīng)網(wǎng)絡(luò);檢索流程;聲學(xué)模型
0 引 言
資源匱乏的語(yǔ)言語(yǔ)音信息檢索研究進(jìn)展緩慢,缺乏資源,需要大量的預(yù)處理工作以及相關(guān)的細(xì)致研究。雖然維⁃哈(維吾爾⁃哈薩克)語(yǔ)言的 ASR 系統(tǒng)研究有了一些成果[1⁃2],但是在關(guān)鍵詞檢索方面缺乏深入研究工作。在移動(dòng)終端以及多媒體信息爆炸性增長(zhǎng)的年代,多語(yǔ)言語(yǔ)音信息的檢索研究在社會(huì)發(fā)展、網(wǎng)絡(luò)安全、輿情分析等多個(gè)領(lǐng)域有很重要的現(xiàn)實(shí)意義,將進(jìn)一步推進(jìn)低資源語(yǔ)言語(yǔ)音檢索的研究。本文主要在大詞匯量語(yǔ)音識(shí)別(Large VocabularyContinuous Speech Recognition,LVCSR)系統(tǒng)的基礎(chǔ)上進(jìn)行維⁃哈語(yǔ)言語(yǔ)音關(guān)鍵詞檢索,首先對(duì)維⁃哈語(yǔ)語(yǔ)音各種聲學(xué)單元分別建模,在此基礎(chǔ)上進(jìn)行維⁃哈語(yǔ)音關(guān)鍵詞檢索。
大詞匯量語(yǔ)音關(guān)鍵詞檢索是在語(yǔ)音識(shí)別產(chǎn)生的網(wǎng)格 lattice 上進(jìn)行關(guān)鍵詞捕捉。由識(shí)別和索引兩部分組成[3],關(guān)鍵詞檢索的方法通常都是用關(guān)鍵詞的模板在連續(xù)語(yǔ)音流中進(jìn)行匹配查找,比如 DTW(DynamicTime Warping)方法和 DTW 的不同變體等。表示關(guān)鍵詞模板的方法有 GMM 模型[4⁃5]、HMM 模型[6]、神經(jīng)網(wǎng)絡(luò)等,它們對(duì)各種特征進(jìn)行匹配,這些特征包括語(yǔ)音的頻譜、MFCC(Mel Frequency Cepstrum Coefficient)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient,LPC)[7]等。但是這種用關(guān)鍵詞模板匹配的方法適用于較小的數(shù)據(jù)量進(jìn)行關(guān)鍵詞檢索,并且關(guān)鍵詞的不同模板在表示上有很大的差別。
影響檢索的因素有噪聲、信道不匹配、標(biāo)記有誤等因素[8]。隨著大詞匯量連續(xù)語(yǔ)音識(shí)別準(zhǔn)確率和效率的不斷提高,可以在連續(xù)語(yǔ)音識(shí)別的基礎(chǔ)上進(jìn)行語(yǔ)音關(guān)鍵詞檢索,通常比 DTW 模板匹配的結(jié)果好,所以連續(xù)語(yǔ)音關(guān)鍵詞檢索具有很好的應(yīng)用價(jià)值[9]。關(guān) 鍵 詞 檢 索 系 統(tǒng) 性 能 的 評(píng) 價(jià) 指 標(biāo) 是 加 權(quán) 項(xiàng) 值(Term ⁃weighted Value,TWV),衡量系統(tǒng)對(duì)偽命中和誤報(bào)的代價(jià)的分配[10⁃11]。本文使用兩種不同的評(píng)價(jià)指標(biāo):ATWV(Actual Term⁃weighted Value,實(shí)際項(xiàng)加權(quán)值),即通過(guò)預(yù)先指定的決策閾值獲得的TWV;MTWV(MaximumTerm⁃weighted Value,最大項(xiàng)加權(quán)值),它是在判決閾值的最佳設(shè)置下獲得的 TWV[12]。漢語(yǔ)、英語(yǔ)等大語(yǔ)言相關(guān)研究很多,如漢語(yǔ)語(yǔ)音關(guān)鍵詞檢索,在文獻(xiàn)[13]里通過(guò)神經(jīng)網(wǎng)絡(luò)模型研究語(yǔ)音檢索達(dá)到的準(zhǔn)確率是80.76%。由于在實(shí)際環(huán)境中,噪聲、個(gè)性化、情緒等眾多因素的影響,檢測(cè)正確率還會(huì)大幅降低。
1 系統(tǒng)總體框架
本文的關(guān)鍵詞檢索是在 LVCSR 基礎(chǔ)上實(shí)現(xiàn)的。為了提高可靠性,在 LVCSR 輸出端捕捉 lattice 輸出,并在此基礎(chǔ)上進(jìn)行檢索。維⁃哈語(yǔ)音關(guān)鍵詞檢索的總體流程是:首先對(duì)維⁃哈語(yǔ)音分別進(jìn)行識(shí)別,產(chǎn)生相應(yīng)的 lattice,再進(jìn)行語(yǔ)音關(guān)鍵詞檢索。其實(shí) lattice 只是在語(yǔ)音識(shí)別的過(guò)程中產(chǎn)生的中間結(jié)果,是由每條測(cè)試集句子解碼并聯(lián)起來(lái)的一個(gè)龐大的網(wǎng)格,網(wǎng)格里面包含測(cè)試集每條句子的每個(gè)候選詞,網(wǎng)格以加權(quán)有限狀態(tài)轉(zhuǎn)換器形式存在,檢索時(shí)也需要將檢索的關(guān)鍵詞轉(zhuǎn)換成加權(quán)有限狀態(tài)轉(zhuǎn)換器的形式在網(wǎng)格上進(jìn)行索引,進(jìn)而在 lattice 進(jìn)行語(yǔ)音關(guān)鍵詞檢索。
本文建立 GMM,DNN,HMM 等各種 LVCSR 系統(tǒng)模型,選擇各種聲學(xué)模型進(jìn)行比較,使用的模型。GMM 和 DNN 都在擬合同一個(gè)觀測(cè)序列的概率分布,然后作為 HMM 的觀測(cè)狀態(tài)概率矩陣,從 HMM指向 GMM 或 DNN 的箭頭是指 HMM 的某個(gè)狀態(tài)的觀測(cè)概率由某一個(gè) GMM 或 DNN 的某一個(gè)輸出節(jié)點(diǎn)決定;兩者最主要的區(qū)別是利用 DNN 代替了 GMM 實(shí)現(xiàn)了狀態(tài)概率的輸出;后驗(yàn)概率可以看作是有監(jiān)督學(xué)習(xí),根據(jù)觀測(cè)值求狀態(tài)值,而 DNN 是根據(jù)觀測(cè)值逆向傳播的過(guò)程,屬于有監(jiān)督學(xué)習(xí);另外,經(jīng)過(guò) softmax 輸出就能得到后驗(yàn)概率。
HMM 的觀測(cè)概率由 GMM 生成。一個(gè)狀態(tài) X 由一個(gè) GMM 表征,同時(shí)相鄰的 GMM 之間沒(méi)有很強(qiáng)的相關(guān)性;GMM 模型輸出的似然概率為 P ( Y | X ),這個(gè)似然概率就是 HMM 所需要的觀測(cè)概率。在圖 3 中,HMM 的觀測(cè)概率由 DNN 生成的后驗(yàn)概率 P ( X |Y )經(jīng)貝葉斯公式轉(zhuǎn)換得到。DNN 一個(gè)輸出節(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài),為了考慮上下文相關(guān)信息,通常送入DNN 的是 2n + 1 幀;DNN 作為判別模型,是直接對(duì)給定的觀測(cè)序列 Y 后狀態(tài)的分布進(jìn)行建模,也是監(jiān)督學(xué)習(xí),輸 出 的 后 驗(yàn) 概 率 P ( X |Y ) 需 要 轉(zhuǎn) 換 為 似 然 概 率P ( Y | X )。相同點(diǎn),HMM 的狀態(tài)初始概率和狀態(tài)轉(zhuǎn)移概率都不變,HMM 仍然是對(duì)時(shí)序進(jìn)行建模。
2 實(shí)驗(yàn)數(shù)據(jù)
準(zhǔn)備實(shí)驗(yàn)中,維吾爾語(yǔ)語(yǔ)音關(guān)鍵詞檢索使用的語(yǔ)音語(yǔ)料包括:訓(xùn)練集有 7 600 條音頻和文本句子,驗(yàn)證集有400 條音頻和文本句子,測(cè)試集有 1 468 條音頻和文本句子。哈語(yǔ)語(yǔ)音關(guān)鍵詞檢索使用的語(yǔ)音語(yǔ)料包括:訓(xùn)練集有 34 000 條音頻和文本句子,驗(yàn)證集有 1 000 條音頻和文本句子,測(cè)試集有 2 000 條音頻和文本句子。
3 實(shí)驗(yàn)結(jié)果及分析
維吾爾語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)誤率,哈薩克語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)誤率分別。在錄哈語(yǔ)語(yǔ)音數(shù)據(jù)時(shí),里面存在的一些年份、數(shù)字等在字典里沒(méi)有對(duì)應(yīng)的發(fā)音音素串,都映射成了集外詞。維語(yǔ)使用了公開(kāi)的語(yǔ)料庫(kù) thuyg20,字典基本覆蓋了數(shù)據(jù)集所有的單詞、年份、數(shù)字等發(fā)音。所以維語(yǔ)數(shù)據(jù)集不但小,而且識(shí)別的效果較好;哈語(yǔ)的數(shù)據(jù)集大,反而識(shí)別效果較差些。為了更直觀地表示維⁃哈語(yǔ)語(yǔ)音在不同的聲學(xué)模型中識(shí)別詞錯(cuò)率的情況,本文采用折線圖表示。通過(guò)折線圖,觀察不同的聲學(xué)模型,發(fā)現(xiàn)維吾爾語(yǔ) DNN ⁃HMM 比 mono識(shí)別率提升了 28.54%;哈薩克語(yǔ) DNN⁃HMM 比 mono 識(shí)別率提升了 27.99%。
3.1 基于 GMM⁃HMM 聲學(xué)模型
維語(yǔ)實(shí)際總的關(guān)鍵詞詞數(shù)為 1 602,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓(xùn)練(tri4b)的 GMM⁃HMM 模型,做語(yǔ)音關(guān)鍵詞檢索,檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù),根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評(píng)價(jià)指標(biāo)可得準(zhǔn)確率、召回率、虛警率。
哈語(yǔ)實(shí)際總的關(guān)鍵詞詞數(shù)為 1 303,使用 F4DE 獲得。分別使用單音素(mono)模型、三音素(tri1)模型、LDA +MLLT 的三音素模型(tri2b)、SAT 的三音素模型(tri3b)、quick 訓(xùn)練(tri4b)的 GMM⁃HMM 模型,做語(yǔ)音關(guān)鍵詞檢索,檢索出正確關(guān)鍵詞數(shù)、總的關(guān)鍵詞數(shù)、虛警關(guān)鍵詞詞數(shù),根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評(píng)價(jià)指標(biāo)可得準(zhǔn)確率、召回率、虛警率。
3.2 基于 DNN⁃HMM 聲學(xué)模型
使用三音素的 DNN⁃HMM 模型做語(yǔ)音關(guān)鍵詞檢索。維吾爾語(yǔ)實(shí)際總的關(guān)鍵詞詞數(shù)為 1 602,用 F4DE 獲得,檢出 正 確 的 關(guān) 鍵 詞 數(shù) 為 1 444,檢 索 到 的 關(guān) 鍵 詞 數(shù)為 1 616,虛警數(shù)為 103,由關(guān)鍵詞檢索的評(píng)價(jià)公式可得 ,準(zhǔn) 確 率 為 89.36%,召 回 率 為 90.14%,虛 警 率 為6.43%;哈 語(yǔ) 實(shí) 際 總 的 關(guān) 鍵 詞 總 數(shù) 為 1 303,用 F4DE獲得,正確識(shí)別的關(guān)鍵詞數(shù)為 1 118,檢出的關(guān)鍵詞數(shù)為 1 361,虛警數(shù)為 192,根據(jù)關(guān)鍵詞檢出系統(tǒng)性能評(píng)價(jià)指標(biāo)可得,準(zhǔn)確率為 82.15%,召回率為 85.80%,虛警率為 14.74%。
通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),在不同的聲學(xué)模型上,維語(yǔ)和哈語(yǔ)的關(guān)鍵詞檢出的查準(zhǔn)率、召回率、虛警率都有所不同,但是在 DNN⁃HMM 模型上的性能最佳,維吾爾語(yǔ)達(dá)到了 89.36%,相比單音素而言提升 33.11%,哈語(yǔ)達(dá)到82.15%,相比單音素而言提升 52.06%。相比于高斯混合模型而言,深度神經(jīng)網(wǎng)絡(luò)更能擬合數(shù)據(jù)的分布,進(jìn)而提高關(guān)鍵詞檢出的準(zhǔn)確率。
4 結(jié) 語(yǔ)
本文雖然在 kaldi中搭建了完整的語(yǔ)音關(guān)鍵詞檢索系統(tǒng),也做了多次實(shí)驗(yàn),但是,哈薩克語(yǔ)的語(yǔ)音識(shí)別詞錯(cuò)誤率較高,對(duì)關(guān)鍵詞檢出的準(zhǔn)確率有較大的影響,維吾爾語(yǔ)的語(yǔ)音識(shí)別的詞錯(cuò)誤率相對(duì)于哈薩克語(yǔ)來(lái)說(shuō)較低。通過(guò)實(shí)驗(yàn)數(shù)據(jù)也可以看出,維吾爾語(yǔ)的關(guān)鍵詞檢出的準(zhǔn)確率較高,下一步的工作就是嘗試一些不同的方法完善發(fā)音字典和聲學(xué)模型,提高哈薩克語(yǔ)識(shí)別的準(zhǔn)確率,進(jìn)而提高哈薩克語(yǔ)的語(yǔ)音關(guān)鍵詞檢出的準(zhǔn)確率。
參 考 文 獻(xiàn):
[1] 沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉 . 基于詞干單元的維⁃哈語(yǔ)文本關(guān)鍵詞提取研究[J]. 計(jì)算機(jī)工程與科學(xué),2020,42(1):131⁃137.
[2] 孫曉杰 .基于 N⁃gram 模型的哈薩克語(yǔ)語(yǔ)音識(shí)別及處理技術(shù)研究[J].信息記錄材料,2018,19(9):97⁃99.
[3] 李娜,葛萬(wàn)成 . 語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)的模型訓(xùn)練及性能評(píng)價(jià)[J].信息通信,2020(3):8⁃10.
[4] GUPTA M,BHARTI S S,AGARWAL S. Gender⁃based speakerrecognition from speech signals using GMM model [J]. Modernphysics letters B,2019,33(35):1⁃23.
[5] LANNE M,LUOTO J. GMM estimation of non⁃Gaussian struc⁃tural vector autoregression [J]. Journal of business & economicstatistics,2021,39(1):69⁃81.
作者:張偉濤,米吉提·阿不里米提,鄭 方,艾斯卡爾·艾木都拉
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/30259.html