本文摘要:在今年的兩會(huì)期間,由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播新小萌,參與了兩會(huì)報(bào)道,引起了國(guó)內(nèi)外媒體的爭(zhēng)相關(guān)注和大幅報(bào)道。在廣泛關(guān)注的背后,人們更想知道的是這神奇技術(shù)背后的秘密 現(xiàn)在的科學(xué)技術(shù)很發(fā)達(dá),那你有沒(méi)有想過(guò)用技術(shù)造出
在今年的兩會(huì)期間,由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播“新小萌”,參與了兩會(huì)報(bào)道,引起了國(guó)內(nèi)外媒體的爭(zhēng)相關(guān)注和大幅報(bào)道。在廣泛關(guān)注的背后,人們更想知道的是這“神奇”技術(shù)背后的秘密……
現(xiàn)在的科學(xué)技術(shù)很發(fā)達(dá),那你有沒(méi)有想過(guò)用技術(shù)“造出”另一個(gè)“你”,他可以替你去做一些繁瑣的事情,而你便可以“釋放天性”,去做一些更加具有創(chuàng)造性和創(chuàng)新性的事情?
也許對(duì)你來(lái)說(shuō),這種事情還想都不敢想,可實(shí)際上,現(xiàn)在的技術(shù)已經(jīng)可以做到這種程度了。
3月初,搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個(gè)AI合成女主播“新小萌”正式上崗新華社,第一個(gè)任務(wù)便是參與兩會(huì)報(bào)道。
AI合成女主播“新小萌”自然的肢體動(dòng)作、流暢的播音節(jié)奏,以及溫和親切的表情,讓觀眾大呼不可思議,引起媒體的爭(zhēng)相報(bào)道。此外,“今日俄羅斯”電視臺(tái)網(wǎng)站、英國(guó)Daily Mail、美國(guó)Futurism等多家海外媒體也對(duì)此進(jìn)行了大幅報(bào)道,堪稱驚艷。
在驚嘆之余,人們不禁想要知道的更多。作為第一個(gè)登上兩會(huì)的、全球首個(gè)AI合成女主播,“新小萌”的表現(xiàn)為何會(huì)如此逼真?背后有著怎樣的高科技?為什么想要“創(chuàng)造”出這樣的AI合成主播?有沒(méi)有考慮到技術(shù)發(fā)展所帶來(lái)的倫理問(wèn)題?
帶著這些問(wèn)題,我們采訪了AI主播背后的技術(shù)負(fù)責(zé)人、搜狗語(yǔ)音交互技術(shù)中心高級(jí)總監(jiān)陳偉。
陳偉所在的搜狗語(yǔ)音交互中心團(tuán)隊(duì)成立于2012年,成立之初主要進(jìn)行語(yǔ)音識(shí)別研究,后來(lái)逐漸從語(yǔ)音識(shí)別發(fā)展到現(xiàn)在的多模態(tài)識(shí)別,并將手寫(xiě)識(shí)別、唇語(yǔ)識(shí)別等與語(yǔ)音識(shí)別結(jié)合在一起。目前,團(tuán)隊(duì)核心在做的事情是解決一種叫做“搜狗之音”的基礎(chǔ)框架,而在該框架下又孵化出了多種不同的技術(shù),具備從感知到認(rèn)知等方面的能力,陳偉表示,更多的是希望能夠圍繞搜狗在人工智能戰(zhàn)略方面的部署進(jìn)行“自然交互+知識(shí)計(jì)算”的研究,在自然交互上面做出更多的成果。兩會(huì)期間引起人們廣泛關(guān)注的AI合成女主播“新小萌”背后的“神奇”技術(shù)就是由該團(tuán)隊(duì)負(fù)責(zé)的。
其實(shí),搜狗AI合成主播背后的技術(shù)就是“搜狗分身術(shù)”,可讓機(jī)器更好地去表達(dá)信息。陳偉介紹道,最初的理念就是給真人創(chuàng)造出一個(gè)他自己的分身模型,替代真人做一些相對(duì)來(lái)說(shuō)復(fù)雜度較低、低腦力的繁瑣工作。基于這樣的設(shè)想,一個(gè)人便可以衍生出多個(gè)分身模型,從而讓真人從繁重的重復(fù)性工作中解放出來(lái)。
藍(lán)圖已經(jīng)繪好,接下來(lái)便要考慮落地方向了。
搜狗分身在媒體領(lǐng)域的落地
2018年11月,在烏鎮(zhèn)的第五屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗聯(lián)合新華社發(fā)布了全球首個(gè)AI合成男主播,完成了“搜狗分身”在媒體領(lǐng)域的第一次落地。今年2月,該AI合成男主播升級(jí)成為站立式AI合成男主播“新小浩”,改變了以往的“坐著播新聞”模式,升級(jí)后的“新小浩”可以進(jìn)行站立式自由播報(bào),并加入了相應(yīng)的肢體動(dòng)作,引入了更多的表達(dá)方式,以更多姿態(tài)、更為自由的方式進(jìn)行表達(dá)。
為什么會(huì)想到創(chuàng)造出一個(gè)AI合成主播的形象?陳偉解釋道,現(xiàn)階段,主播在播報(bào)這件事情上面臨很大的問(wèn)題,我們希望解決媒體領(lǐng)域和新聞播報(bào)領(lǐng)域的效率問(wèn)題。“播報(bào)新聞,一般會(huì)有場(chǎng)地、時(shí)間、主播本身精力等問(wèn)題的限制,每天的產(chǎn)出有限,資源本身又受限,我們通過(guò)AI合成主播可以實(shí)現(xiàn)這樣一個(gè)能力。在給新華社的系統(tǒng)中,新華社只要輸入每天想要播報(bào)的新聞資料,過(guò)幾秒鐘便生成一個(gè)完整的視頻,中文、英文不同類型的新聞視頻都可以馬上出來(lái)。”新聞本身就是要快,AI合成主播在時(shí)效性上是有一個(gè)保障的。當(dāng)播報(bào)新聞的效率提升之后,就可以將真人主播從大量繁重的播報(bào)工作中抽身出來(lái),從而將更多的精力投入到訪談?lì)、深度新聞?bào)道等節(jié)目中來(lái)。
目前,基于搜狗分身技術(shù)的AI合成主播已經(jīng)在新華社平臺(tái)上播報(bào)了幾千條新聞,并且是零失誤。接下來(lái),搜狗分身將繼續(xù)在教育、法律、醫(yī)療、娛樂(lè)等領(lǐng)域紛紛落地。
AI合成主播如何更像人
兩會(huì)上的AI合成女主播無(wú)論是外觀還是聲音,如果不是對(duì)真人很熟悉的話,難以辨別真假,這就涉及到逼真度問(wèn)題。對(duì)于AI合成主播來(lái)說(shuō),除了聲音,面部表情、嘴型、神態(tài)的一個(gè)微小的不自然狀態(tài)都可能識(shí)破“假人身份”。那么搜狗分身如何才能讓AI合成主播更像人呢?實(shí)際上,要想使AI合成主播達(dá)到與真人無(wú)異的狀態(tài)主要取決于兩點(diǎn),一是表情、唇語(yǔ)和動(dòng)作,二是聲音。而這兩點(diǎn)正是搜狗分身一直在做的。
實(shí)際上,搜狗分身團(tuán)隊(duì)本身就不是純粹的專注于語(yǔ)音交互的團(tuán)隊(duì),它是語(yǔ)音、圖像加自然語(yǔ)言處理(NLP)完整能力的融合。
2018年,在“BlizzardChallenge2018”語(yǔ)音合成大賽上,首次參賽的搜狗就在“可懂度”和“語(yǔ)音停頓”兩項(xiàng)任務(wù)中獲得了排名第一的成績(jī)?梢哉f(shuō),在語(yǔ)音合成上搜狗的能力是毋庸置疑的。陳偉解釋道,合成主播上用到的語(yǔ)音合成技術(shù),是當(dāng)前最先進(jìn)的端到端的神經(jīng)網(wǎng)絡(luò)聲碼器技術(shù),可以讓AI合成主播發(fā)音的真實(shí)度大大提升。
而接下來(lái),團(tuán)隊(duì)將會(huì)更加注重微表情的研究與提升,在圖像上考慮2D+3D混合的技術(shù),在語(yǔ)音基礎(chǔ)上將更多的NLP能力融合進(jìn)來(lái),加強(qiáng)AI合成主播的認(rèn)知能力,使AI合成主播在進(jìn)行新聞播報(bào)時(shí),嘴唇與聲音完全同步的情況下,神態(tài)更為自然。
而對(duì)于逼真度的評(píng)價(jià)方法,搜狗分身團(tuán)隊(duì),也有自己的一套評(píng)價(jià)標(biāo)準(zhǔn)。早期,相對(duì)主觀,主要是進(jìn)行人工評(píng)價(jià),團(tuán)隊(duì)中負(fù)責(zé)產(chǎn)品和算法的同事看一看,感覺(jué)和真人挺像的,就可以“出世”了。后來(lái),隨著技術(shù)的不斷成熟,有了一些新的指標(biāo),截取真人的一段錄制視頻作為測(cè)試集,同時(shí)再截取“分身”說(shuō)同樣一句話的視頻,將它們壓縮在一個(gè)相同的時(shí)間維度上進(jìn)行逐幀比較,尋找兩者在表情嘴型和姿態(tài)上面的差異,然后不斷進(jìn)行優(yōu)化。
如今,搜狗分身技術(shù)僅需幾個(gè)小時(shí)的視頻資料就可以合成一個(gè)比較逼真的真人“分身”。就新華社上崗的AI合成主播而言,在建模完成后,只要編輯人員在后臺(tái)輸入所需的文字資料,AI合成主播便可以按照這些輸入內(nèi)容進(jìn)行播報(bào)。但對(duì)于一些突發(fā)情況,現(xiàn)在的AI合成主播并不能進(jìn)行很好的處理。對(duì)此,陳偉解釋道,主播一定是要具有認(rèn)知和理解能力的。搜狗分身的技術(shù)路線是希望能夠真正做出一個(gè)真人的“分身”,這個(gè)分身將具有自然交互和知識(shí)計(jì)算的能力,目前,AI合成主播還沒(méi)有達(dá)到這樣的一個(gè)狀態(tài)。我們將采取漸進(jìn)式的步驟,先造一個(gè)“分身”出來(lái),幫助真人解決低腦力的活動(dòng),然后一步步前進(jìn),最終實(shí)現(xiàn)“分身”具有認(rèn)知和理解能力,達(dá)到人機(jī)交互狀態(tài)。而真正想要達(dá)到與電影里所展示的那樣,與真人無(wú)異,至少還需要5至10年的時(shí)間。
為此,搜狗分身一直在朝著這個(gè)方向前進(jìn)。據(jù)陳偉介紹,搜狗分身將于年底推出交互能力。
用中性的技術(shù)為人類賦能
人工智能到底會(huì)不會(huì)替代人類,使人類走向滅亡?可以說(shuō),這是從人工智能誕生的那一天起就一直存在的話題。如今,人工智能能做的事情越來(lái)越多,在醫(yī)療、教育、金融等領(lǐng)域有著越來(lái)越深入的滲入,對(duì)此,人們的擔(dān)心也日益加大。最近,在霍金逝世一周年之際,霍金對(duì)于人工智能的悲觀論,對(duì)于終極問(wèn)題的解答又在網(wǎng)上引起熱潮。剛剛過(guò)去的兩會(huì)上,關(guān)于人工智能倫理問(wèn)題也是代表委員們熱切關(guān)注的方向,讓人工智能在不是很成熟的時(shí)候,對(duì)其加以規(guī)范,使其朝著更好的方向發(fā)展。
如今,AI合成主播的出現(xiàn),讓人工智能的倫理問(wèn)題再一次成為大家討論的焦點(diǎn)話題。對(duì)此,陳偉認(rèn)為:“做AI的技術(shù)團(tuán)隊(duì)或者做AI的研究團(tuán)隊(duì)一定要先考慮倫理,特別是要考慮這件事到底是不是代表正義,而不是去做惡,這是基本原則。”搜狗在這件事上就是用正向的技術(shù)驅(qū)動(dòng)公司的發(fā)展。因此,在搜狗分身的技術(shù)應(yīng)用上,我們更多的是希望能跟確定的領(lǐng)域和公司合作,這樣的好處是不要讓大家把這個(gè)東西濫用,這是我們的第一步。技術(shù)往前走,一定會(huì)有負(fù)面的事情出現(xiàn),防濫用、防欺詐也是技術(shù)向前發(fā)展的趨勢(shì),找到剛需場(chǎng)景,在垂直場(chǎng)景下把人工智能的能力發(fā)揮到最大值,這是目前必須做到的。
任何事物都具有雙面性,技術(shù)也不例外。本質(zhì)上,任何技術(shù)都是中性的,而如何將中性的技術(shù)使用得當(dāng),為人類賦能才是關(guān)鍵所在。
正如陳偉所言,目前,人工智能還處于初級(jí)階段,它是一種非常弱的人工智能,要想走到通用人工智能、強(qiáng)人工智能還需要很長(zhǎng)的時(shí)間,而在這個(gè)過(guò)程中,我們應(yīng)該把這個(gè)技術(shù)從不可用變成可用,做到好用的狀態(tài),為人類賦能。
評(píng)職知識(shí):人工智能可以準(zhǔn)備哪些論文
人工智能及其在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的運(yùn)用,人工智能難題的大數(shù)據(jù)思維進(jìn)路,論人工智能的自反性倫理治理,人工智能:“熱鬧”背后的“門(mén)道”,淺談人工智能在電氣工程自動(dòng)化中的應(yīng)用,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)對(duì)人工智能的應(yīng)用研究。
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/21034.html