本文摘要:在今年的兩會期間,由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個AI合成女主播新小萌,參與了兩會報道,引起了國內(nèi)外媒體的爭相關(guān)注和大幅報道。在廣泛關(guān)注的背后,人們更想知道的是這神奇技術(shù)背后的秘密 現(xiàn)在的科學技術(shù)很發(fā)達,那你有沒有想過用技術(shù)造出
在今年的兩會期間,由搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個AI合成女主播“新小萌”,參與了兩會報道,引起了國內(nèi)外媒體的爭相關(guān)注和大幅報道。在廣泛關(guān)注的背后,人們更想知道的是這“神奇”技術(shù)背后的秘密……
現(xiàn)在的科學技術(shù)很發(fā)達,那你有沒有想過用技術(shù)“造出”另一個“你”,他可以替你去做一些繁瑣的事情,而你便可以“釋放天性”,去做一些更加具有創(chuàng)造性和創(chuàng)新性的事情?
也許對你來說,這種事情還想都不敢想,可實際上,現(xiàn)在的技術(shù)已經(jīng)可以做到這種程度了。
3月初,搜狗公司與新華社新媒體中心聯(lián)合發(fā)布的全球首個AI合成女主播“新小萌”正式上崗新華社,第一個任務便是參與兩會報道。
AI合成女主播“新小萌”自然的肢體動作、流暢的播音節(jié)奏,以及溫和親切的表情,讓觀眾大呼不可思議,引起媒體的爭相報道。此外,“今日俄羅斯”電視臺網(wǎng)站、英國Daily Mail、美國Futurism等多家海外媒體也對此進行了大幅報道,堪稱驚艷。
在驚嘆之余,人們不禁想要知道的更多。作為第一個登上兩會的、全球首個AI合成女主播,“新小萌”的表現(xiàn)為何會如此逼真?背后有著怎樣的高科技?為什么想要“創(chuàng)造”出這樣的AI合成主播?有沒有考慮到技術(shù)發(fā)展所帶來的倫理問題?
帶著這些問題,我們采訪了AI主播背后的技術(shù)負責人、搜狗語音交互技術(shù)中心高級總監(jiān)陳偉。
陳偉所在的搜狗語音交互中心團隊成立于2012年,成立之初主要進行語音識別研究,后來逐漸從語音識別發(fā)展到現(xiàn)在的多模態(tài)識別,并將手寫識別、唇語識別等與語音識別結(jié)合在一起。目前,團隊核心在做的事情是解決一種叫做“搜狗之音”的基礎(chǔ)框架,而在該框架下又孵化出了多種不同的技術(shù),具備從感知到認知等方面的能力,陳偉表示,更多的是希望能夠圍繞搜狗在人工智能戰(zhàn)略方面的部署進行“自然交互+知識計算”的研究,在自然交互上面做出更多的成果。兩會期間引起人們廣泛關(guān)注的AI合成女主播“新小萌”背后的“神奇”技術(shù)就是由該團隊負責的。
其實,搜狗AI合成主播背后的技術(shù)就是“搜狗分身術(shù)”,可讓機器更好地去表達信息。陳偉介紹道,最初的理念就是給真人創(chuàng)造出一個他自己的分身模型,替代真人做一些相對來說復雜度較低、低腦力的繁瑣工作。基于這樣的設(shè)想,一個人便可以衍生出多個分身模型,從而讓真人從繁重的重復性工作中解放出來。
藍圖已經(jīng)繪好,接下來便要考慮落地方向了。
搜狗分身在媒體領(lǐng)域的落地
2018年11月,在烏鎮(zhèn)的第五屆世界互聯(lián)網(wǎng)大會上,搜狗聯(lián)合新華社發(fā)布了全球首個AI合成男主播,完成了“搜狗分身”在媒體領(lǐng)域的第一次落地。今年2月,該AI合成男主播升級成為站立式AI合成男主播“新小浩”,改變了以往的“坐著播新聞”模式,升級后的“新小浩”可以進行站立式自由播報,并加入了相應的肢體動作,引入了更多的表達方式,以更多姿態(tài)、更為自由的方式進行表達。
為什么會想到創(chuàng)造出一個AI合成主播的形象?陳偉解釋道,現(xiàn)階段,主播在播報這件事情上面臨很大的問題,我們希望解決媒體領(lǐng)域和新聞播報領(lǐng)域的效率問題。“播報新聞,一般會有場地、時間、主播本身精力等問題的限制,每天的產(chǎn)出有限,資源本身又受限,我們通過AI合成主播可以實現(xiàn)這樣一個能力。在給新華社的系統(tǒng)中,新華社只要輸入每天想要播報的新聞資料,過幾秒鐘便生成一個完整的視頻,中文、英文不同類型的新聞視頻都可以馬上出來。”新聞本身就是要快,AI合成主播在時效性上是有一個保障的。當播報新聞的效率提升之后,就可以將真人主播從大量繁重的播報工作中抽身出來,從而將更多的精力投入到訪談類、深度新聞報道等節(jié)目中來。
目前,基于搜狗分身技術(shù)的AI合成主播已經(jīng)在新華社平臺上播報了幾千條新聞,并且是零失誤。接下來,搜狗分身將繼續(xù)在教育、法律、醫(yī)療、娛樂等領(lǐng)域紛紛落地。
AI合成主播如何更像人
兩會上的AI合成女主播無論是外觀還是聲音,如果不是對真人很熟悉的話,難以辨別真假,這就涉及到逼真度問題。對于AI合成主播來說,除了聲音,面部表情、嘴型、神態(tài)的一個微小的不自然狀態(tài)都可能識破“假人身份”。那么搜狗分身如何才能讓AI合成主播更像人呢?實際上,要想使AI合成主播達到與真人無異的狀態(tài)主要取決于兩點,一是表情、唇語和動作,二是聲音。而這兩點正是搜狗分身一直在做的。
實際上,搜狗分身團隊本身就不是純粹的專注于語音交互的團隊,它是語音、圖像加自然語言處理(NLP)完整能力的融合。
2018年,在“BlizzardChallenge2018”語音合成大賽上,首次參賽的搜狗就在“可懂度”和“語音停頓”兩項任務中獲得了排名第一的成績?梢哉f,在語音合成上搜狗的能力是毋庸置疑的。陳偉解釋道,合成主播上用到的語音合成技術(shù),是當前最先進的端到端的神經(jīng)網(wǎng)絡(luò)聲碼器技術(shù),可以讓AI合成主播發(fā)音的真實度大大提升。
而接下來,團隊將會更加注重微表情的研究與提升,在圖像上考慮2D+3D混合的技術(shù),在語音基礎(chǔ)上將更多的NLP能力融合進來,加強AI合成主播的認知能力,使AI合成主播在進行新聞播報時,嘴唇與聲音完全同步的情況下,神態(tài)更為自然。
而對于逼真度的評價方法,搜狗分身團隊,也有自己的一套評價標準。早期,相對主觀,主要是進行人工評價,團隊中負責產(chǎn)品和算法的同事看一看,感覺和真人挺像的,就可以“出世”了。后來,隨著技術(shù)的不斷成熟,有了一些新的指標,截取真人的一段錄制視頻作為測試集,同時再截取“分身”說同樣一句話的視頻,將它們壓縮在一個相同的時間維度上進行逐幀比較,尋找兩者在表情嘴型和姿態(tài)上面的差異,然后不斷進行優(yōu)化。
如今,搜狗分身技術(shù)僅需幾個小時的視頻資料就可以合成一個比較逼真的真人“分身”。就新華社上崗的AI合成主播而言,在建模完成后,只要編輯人員在后臺輸入所需的文字資料,AI合成主播便可以按照這些輸入內(nèi)容進行播報。但對于一些突發(fā)情況,現(xiàn)在的AI合成主播并不能進行很好的處理。對此,陳偉解釋道,主播一定是要具有認知和理解能力的。搜狗分身的技術(shù)路線是希望能夠真正做出一個真人的“分身”,這個分身將具有自然交互和知識計算的能力,目前,AI合成主播還沒有達到這樣的一個狀態(tài)。我們將采取漸進式的步驟,先造一個“分身”出來,幫助真人解決低腦力的活動,然后一步步前進,最終實現(xiàn)“分身”具有認知和理解能力,達到人機交互狀態(tài)。而真正想要達到與電影里所展示的那樣,與真人無異,至少還需要5至10年的時間。
為此,搜狗分身一直在朝著這個方向前進。據(jù)陳偉介紹,搜狗分身將于年底推出交互能力。
用中性的技術(shù)為人類賦能
人工智能到底會不會替代人類,使人類走向滅亡?可以說,這是從人工智能誕生的那一天起就一直存在的話題。如今,人工智能能做的事情越來越多,在醫(yī)療、教育、金融等領(lǐng)域有著越來越深入的滲入,對此,人們的擔心也日益加大。最近,在霍金逝世一周年之際,霍金對于人工智能的悲觀論,對于終極問題的解答又在網(wǎng)上引起熱潮。剛剛過去的兩會上,關(guān)于人工智能倫理問題也是代表委員們熱切關(guān)注的方向,讓人工智能在不是很成熟的時候,對其加以規(guī)范,使其朝著更好的方向發(fā)展。
如今,AI合成主播的出現(xiàn),讓人工智能的倫理問題再一次成為大家討論的焦點話題。對此,陳偉認為:“做AI的技術(shù)團隊或者做AI的研究團隊一定要先考慮倫理,特別是要考慮這件事到底是不是代表正義,而不是去做惡,這是基本原則。”搜狗在這件事上就是用正向的技術(shù)驅(qū)動公司的發(fā)展。因此,在搜狗分身的技術(shù)應用上,我們更多的是希望能跟確定的領(lǐng)域和公司合作,這樣的好處是不要讓大家把這個東西濫用,這是我們的第一步。技術(shù)往前走,一定會有負面的事情出現(xiàn),防濫用、防欺詐也是技術(shù)向前發(fā)展的趨勢,找到剛需場景,在垂直場景下把人工智能的能力發(fā)揮到最大值,這是目前必須做到的。
任何事物都具有雙面性,技術(shù)也不例外。本質(zhì)上,任何技術(shù)都是中性的,而如何將中性的技術(shù)使用得當,為人類賦能才是關(guān)鍵所在。
正如陳偉所言,目前,人工智能還處于初級階段,它是一種非常弱的人工智能,要想走到通用人工智能、強人工智能還需要很長的時間,而在這個過程中,我們應該把這個技術(shù)從不可用變成可用,做到好用的狀態(tài),為人類賦能。
評職知識:人工智能可以準備哪些論文
人工智能及其在計算機網(wǎng)絡(luò)技術(shù)中的運用,人工智能難題的大數(shù)據(jù)思維進路,論人工智能的自反性倫理治理,人工智能:“熱鬧”背后的“門道”,淺談人工智能在電氣工程自動化中的應用,計算機網(wǎng)絡(luò)技術(shù)對人工智能的應用研究。
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///dzlw/21034.html