搜狗“分身術(shù)”:AI合成主播背后的秘密

所屬分類(lèi)：電子論文閱讀次時(shí)間：2019-12-02 10:55

本文摘要：在今年的兩會(huì)期間，由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播新小萌，參與了兩會(huì)報(bào)道，引起了國(guó)內(nèi)外媒體的爭(zhēng)相關(guān)注和大幅報(bào)道。在廣泛關(guān)注的背后，人們更想知道的是這神奇技術(shù)背后的秘密現(xiàn)在的科學(xué)技術(shù)很發(fā)達(dá)，那你有沒(méi)有想過(guò)用技術(shù)造出

　　在今年的兩會(huì)期間，由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播“新小萌”，參與了兩會(huì)報(bào)道，引起了國(guó)內(nèi)外媒體的爭(zhēng)相關(guān)注和大幅報(bào)道‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。在廣泛關(guān)注的背后，人們更想知道的是這“神奇”技術(shù)背后的秘密……

人工合成

　　現(xiàn)在的科學(xué)技術(shù)很發(fā)達(dá)，那你有沒(méi)有想過(guò)用技術(shù)“造出”另一個(gè)“你”，他可以替你去做一些繁瑣的事情，而你便可以“釋放天性”，去做一些更加具有創(chuàng)造性和創(chuàng)新性的事情?

　　也許對(duì)你來(lái)說(shuō)，這種事情還想都不敢想，可實(shí)際上，現(xiàn)在的技術(shù)已經(jīng)可以做到這種程度了‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　3月初，搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播“新小萌”正式上崗新華社，第一個(gè)任務(wù)便是參與兩會(huì)報(bào)道‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　AI合成女主播“新小萌”自然的肢體動(dòng)作、流暢的播音節(jié)奏，以及溫和親切的表情，讓觀(guān)眾大呼不可思議，引起媒體的爭(zhēng)相報(bào)道。此外，“今日俄羅斯”電視臺(tái)網(wǎng)站、英國(guó)Daily Mail、美國(guó)Futurism等多家海外媒體也對(duì)此進(jìn)行了大幅報(bào)道，堪稱(chēng)驚艷。

　　在驚嘆之余，人們不禁想要知道的更多。作為第一個(gè)登上兩會(huì)的、全球首個(gè)AI合成女主播，“新小萌”的表現(xiàn)為何會(huì)如此逼真?背后有著怎樣的高科技?為什么想要“創(chuàng)造”出這樣的AI合成主播?有沒(méi)有考慮到技術(shù)發(fā)展所帶來(lái)的倫理問(wèn)題?

　　帶著這些問(wèn)題，我們采訪(fǎng)了AI主播背后的技術(shù)負(fù)責(zé)人、搜狗語(yǔ)音交互技術(shù)中心高級(jí)總監(jiān)陳偉。

　　陳偉所在的搜狗語(yǔ)音交互中心團(tuán)隊(duì)成立于2012年，成立之初主要進(jìn)行語(yǔ)音識(shí)別研究，后來(lái)逐漸從語(yǔ)音識(shí)別發(fā)展到現(xiàn)在的多模態(tài)識(shí)別，并將手寫(xiě)識(shí)別、唇語(yǔ)識(shí)別等與語(yǔ)音識(shí)別結(jié)合在一起。目前，團(tuán)隊(duì)核心在做的事情是解決一種叫做“搜狗之音”的基礎(chǔ)框架，而在該框架下又孵化出了多種不同的技術(shù)，具備從感知到認(rèn)知等方面的能力，陳偉表示，更多的是希望能夠圍繞搜狗在人工智能戰(zhàn)略方面的部署進(jìn)行“自然交互+知識(shí)計(jì)算”的研究，在自然交互上面做出更多的成果。兩會(huì)期間引起人們廣泛關(guān)注的AI合成女主播“新小萌”背后的“神奇”技術(shù)就是由該團(tuán)隊(duì)負(fù)責(zé)的。

　　其實(shí)，搜狗AI合成主播背后的技術(shù)就是“搜狗分身術(shù)”，可讓機(jī)器更好地去表達(dá)信息。陳偉介紹道，最初的理念就是給真人創(chuàng)造出一個(gè)他自己的分身模型，替代真人做一些相對(duì)來(lái)說(shuō)復(fù)雜度較低、低腦力的繁瑣工作�；谶@樣的設(shè)想，一個(gè)人便可以衍生出多個(gè)分身模型，從而讓真人從繁重的重復(fù)性工作中解放出來(lái)。

　　藍(lán)圖已經(jīng)繪好，接下來(lái)便要考慮落地方向了。

　　搜狗分身在媒體領(lǐng)域的落地

　　2018年11月，在烏鎮(zhèn)的第五屆世界互聯(lián)網(wǎng)大會(huì)上，搜狗聯(lián)合新華社發(fā)布了全球首個(gè)AI合成男主播，完成了“搜狗分身”在媒體領(lǐng)域的第一次落地。今年2月，該AI合成男主播升級(jí)成為站立式AI合成男主播“新小浩”，改變了以往的“坐著播新聞”模式，升級(jí)后的“新小浩”可以進(jìn)行站立式自由播報(bào)，并加入了相應(yīng)的肢體動(dòng)作，引入了更多的表達(dá)方式，以更多姿態(tài)、更為自由的方式進(jìn)行表達(dá)。

　　為什么會(huì)想到創(chuàng)造出一個(gè)AI合成主播的形象?陳偉解釋道，現(xiàn)階段，主播在播報(bào)這件事情上面臨很大的問(wèn)題，我們希望解決媒體領(lǐng)域和新聞播報(bào)領(lǐng)域的效率問(wèn)題。“播報(bào)新聞，一般會(huì)有場(chǎng)地、時(shí)間、主播本身精力等問(wèn)題的限制，每天的產(chǎn)出有限，資源本身又受限，我們通過(guò)AI合成主播可以實(shí)現(xiàn)這樣一個(gè)能力。在給新華社的系統(tǒng)中，新華社只要輸入每天想要播報(bào)的新聞資料，過(guò)幾秒鐘便生成一個(gè)完整的視頻，中文、英文不同類(lèi)型的新聞視頻都可以馬上出來(lái)。”新聞本身就是要快，AI合成主播在時(shí)效性上是有一個(gè)保障的。當(dāng)播報(bào)新聞的效率提升之后，就可以將真人主播從大量繁重的播報(bào)工作中抽身出來(lái)，從而將更多的精力投入到訪(fǎng)談?lì)�、深度新聞�?bào)道等節(jié)目中來(lái)。

　　目前，基于搜狗分身技術(shù)的AI合成主播已經(jīng)在新華社平臺(tái)上播報(bào)了幾千條新聞，并且是零失誤。接下來(lái)，搜狗分身將繼續(xù)在教育、法律、醫(yī)療、娛樂(lè)等領(lǐng)域紛紛落地。

　　AI合成主播如何更像人

　　兩會(huì)上的AI合成女主播無(wú)論是外觀(guān)還是聲音，如果不是對(duì)真人很熟悉的話(huà)，難以辨別真假，這就涉及到逼真度問(wèn)題。對(duì)于AI合成主播來(lái)說(shuō)，除了聲音，面部表情、嘴型、神態(tài)的一個(gè)微小的不自然狀態(tài)都可能識(shí)破“假人身份”。那么搜狗分身如何才能讓AI合成主播更像人呢?實(shí)際上，要想使AI合成主播達(dá)到與真人無(wú)異的狀態(tài)主要取決于兩點(diǎn)，一是表情、唇語(yǔ)和動(dòng)作，二是聲音。而這兩點(diǎn)正是搜狗分身一直在做的。

　　實(shí)際上，搜狗分身團(tuán)隊(duì)本身就不是純粹的專(zhuān)注于語(yǔ)音交互的團(tuán)隊(duì)，它是語(yǔ)音、圖像加自然語(yǔ)言處理(NLP)完整能力的融合。

　　2018年，在“BlizzardChallenge2018”語(yǔ)音合成大賽上，首次參賽的搜狗就在“可懂度”和“語(yǔ)音停頓”兩項(xiàng)任務(wù)中獲得了排名第一的成績(jī)�？梢哉f(shuō)，在語(yǔ)音合成上搜狗的能力是毋庸置疑的。陳偉解釋道，合成主播上用到的語(yǔ)音合成技術(shù)，是當(dāng)前最先進(jìn)的端到端的神經(jīng)網(wǎng)絡(luò)聲碼器技術(shù)，可以讓AI合成主播發(fā)音的真實(shí)度大大提升。

　　而接下來(lái)，團(tuán)隊(duì)將會(huì)更加注重微表情的研究與提升，在圖像上考慮2D+3D混合的技術(shù)，在語(yǔ)音基礎(chǔ)上將更多的NLP能力融合進(jìn)來(lái)，加強(qiáng)AI合成主播的認(rèn)知能力，使AI合成主播在進(jìn)行新聞播報(bào)時(shí)，嘴唇與聲音完全同步的情況下，神態(tài)更為自然。

　　而對(duì)于逼真度的評(píng)價(jià)方法，搜狗分身團(tuán)隊(duì)，也有自己的一套評(píng)價(jià)標(biāo)準(zhǔn)。早期，相對(duì)主觀(guān)，主要是進(jìn)行人工評(píng)價(jià)，團(tuán)隊(duì)中負(fù)責(zé)產(chǎn)品和算法的同事看一看，感覺(jué)和真人挺像的，就可以“出世”了。后來(lái)，隨著技術(shù)的不斷成熟，有了一些新的指標(biāo)，截取真人的一段錄制視頻作為測(cè)試集，同時(shí)再截取“分身”說(shuō)同樣一句話(huà)的視頻，將它們壓縮在一個(gè)相同的時(shí)間維度上進(jìn)行逐幀比較，尋找兩者在表情嘴型和姿態(tài)上面的差異，然后不斷進(jìn)行優(yōu)化。

　　如今，搜狗分身技術(shù)僅需幾個(gè)小時(shí)的視頻資料就可以合成一個(gè)比較逼真的真人“分身”。就新華社上崗的AI合成主播而言，在建模完成后，只要編輯人員在后臺(tái)輸入所需的文字資料，AI合成主播便可以按照這些輸入內(nèi)容進(jìn)行播報(bào)。但對(duì)于一些突發(fā)情況，現(xiàn)在的AI合成主播并不能進(jìn)行很好的處理。對(duì)此，陳偉解釋道，主播一定是要具有認(rèn)知和理解能力的。搜狗分身的技術(shù)路線(xiàn)是希望能夠真正做出一個(gè)真人的“分身”，這個(gè)分身將具有自然交互和知識(shí)計(jì)算的能力，目前，AI合成主播還沒(méi)有達(dá)到這樣的一個(gè)狀態(tài)。我們將采取漸進(jìn)式的步驟，先造一個(gè)“分身”出來(lái)，幫助真人解決低腦力的活動(dòng)，然后一步步前進(jìn)，最終實(shí)現(xiàn)“分身”具有認(rèn)知和理解能力，達(dá)到人機(jī)交互狀態(tài)。而真正想要達(dá)到與電影里所展示的那樣，與真人無(wú)異，至少還需要5至10年的時(shí)間。

　　為此，搜狗分身一直在朝著這個(gè)方向前進(jìn)。據(jù)陳偉介紹，搜狗分身將于年底推出交互能力。

　　用中性的技術(shù)為人類(lèi)賦能

　　人工智能到底會(huì)不會(huì)替代人類(lèi)，使人類(lèi)走向滅亡?可以說(shuō)，這是從人工智能誕生的那一天起就一直存在的話(huà)題。如今，人工智能能做的事情越來(lái)越多，在醫(yī)療、教育、金融等領(lǐng)域有著越來(lái)越深入的滲入，對(duì)此，人們的擔(dān)心也日益加大。最近，在霍金逝世一周年之際，霍金對(duì)于人工智能的悲觀(guān)論，對(duì)于終極問(wèn)題的解答又在網(wǎng)上引起熱潮。剛剛過(guò)去的兩會(huì)上，關(guān)于人工智能倫理問(wèn)題也是代表委員們熱切關(guān)注的方向，讓人工智能在不是很成熟的時(shí)候，對(duì)其加以規(guī)范，使其朝著更好的方向發(fā)展。

　　如今，AI合成主播的出現(xiàn)，讓人工智能的倫理問(wèn)題再一次成為大家討論的焦點(diǎn)話(huà)題。對(duì)此，陳偉認(rèn)為:“做AI的技術(shù)團(tuán)隊(duì)或者做AI的研究團(tuán)隊(duì)一定要先考慮倫理，特別是要考慮這件事到底是不是代表正義，而不是去做惡，這是基本原則‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。”搜狗在這件事上就是用正向的技術(shù)驅(qū)動(dòng)公司的發(fā)展。因此，在搜狗分身的技術(shù)應(yīng)用上，我們更多的是希望能跟確定的領(lǐng)域和公司合作，這樣的好處是不要讓大家把這個(gè)東西濫用，這是我們的第一步。技術(shù)往前走，一定會(huì)有負(fù)面的事情出現(xiàn)，防濫用、防欺詐也是技術(shù)向前發(fā)展的趨勢(shì)，找到剛需場(chǎng)景，在垂直場(chǎng)景下把人工智能的能力發(fā)揮到最大值，這是目前必須做到的。

　　任何事物都具有雙面性，技術(shù)也不例外。本質(zhì)上，任何技術(shù)都是中性的，而如何將中性的技術(shù)使用得當(dāng)，為人類(lèi)賦能才是關(guān)鍵所在。

　　正如陳偉所言，目前，人工智能還處于初級(jí)階段，它是一種非常弱的人工智能，要想走到通用人工智能、強(qiáng)人工智能還需要很長(zhǎng)的時(shí)間，而在這個(gè)過(guò)程中，我們應(yīng)該把這個(gè)技術(shù)從不可用變成可用，做到好用的狀態(tài)，為人類(lèi)賦能。

　　評(píng)職知識(shí)：人工智能可以準(zhǔn)備哪些論文

　　人工智能及其在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的運(yùn)用，人工智能難題的大數(shù)據(jù)思維進(jìn)路，論人工智能的自反性倫理治理，人工智能:“熱鬧”背后的“門(mén)道”，淺談人工智能在電氣工程自動(dòng)化中的應(yīng)用，計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)對(duì)人工智能的應(yīng)用研究。

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng)：http://m.liangshanbai.cn/dzlw/21034.html

上一篇：借力第五次全球產(chǎn)業(yè)轉(zhuǎn)移促進(jìn)中國(guó)制造新升級(jí)

下一篇：關(guān)于童車(chē)機(jī)械設(shè)計(jì)中的應(yīng)用研究

五月丁香婷婷爱,在线视频日韩精品欧美都市,偷拍自拍A V,久久高潮日本

國(guó)內(nèi)或國(guó)外期刊或論文

搜狗“分身術(shù)”:AI合成主播背后的秘密

期刊知識(shí)

論文知識(shí)

論文范文

職稱(chēng)評(píng)審

職稱(chēng)教著專(zhuān)利

論文發(fā)表期刊咨詢(xún)

五月丁香婷婷爱,在线视频 日韩精品 欧美 都市,偷拍自拍A V,久久高潮日本

國(guó)內(nèi)或國(guó)外 期刊或論文

搜狗“分身術(shù)”:AI合成主播背后的秘密

期刊知識(shí)

論文知識(shí)

論文范文

職稱(chēng)評(píng)審

職稱(chēng)教著專(zhuān)利

論文發(fā)表期刊咨詢(xún)

五月丁香婷婷爱,在线视频日韩精品欧美都市,偷拍自拍A V,久久高潮日本

國(guó)內(nèi)或國(guó)外期刊或論文