本文摘要:摘要:文章從基礎(chǔ)能力、初級知識服務(wù)能力、高級知識服務(wù)能力三個方面,篩選出十個二級指標(biāo),通過層次分析法確定指標(biāo)權(quán)重,根據(jù)智能語音助手現(xiàn)階段的智力水平,為每個二級指標(biāo)選取了相應(yīng)的測試問題,構(gòu)建了智能語音助手的知識服務(wù)能力評價體系,最后以三個主
摘要:文章從基礎(chǔ)能力、初級知識服務(wù)能力、高級知識服務(wù)能力三個方面,篩選出十個二級指標(biāo),通過層次分析法確定指標(biāo)權(quán)重,根據(jù)智能語音助手現(xiàn)階段的智力水平,為每個二級指標(biāo)選取了相應(yīng)的測試問題,構(gòu)建了智能語音助手的知識服務(wù)能力評價體系,最后以三個主流的智能語音助手為對象進行了實證評價分析。構(gòu)建的評價指標(biāo)體系具有實用性和動態(tài)性,基礎(chǔ)能力的權(quán)重最大,初級知識服務(wù)能力和高級知識服務(wù)能力次之,實證研究的結(jié)果表明,現(xiàn)階段主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力,但仍然存在較大的提升空間。
關(guān)鍵詞:智能語音助手,知識服務(wù),知識服務(wù)能力,層次分析法
1引言
近年來,隨著人工智能以及語音識別技術(shù)的不斷發(fā)展,智能語音助手逐漸為人們所熟知。目前國內(nèi)外比較成功的智能語音助手包括亞馬遜Alexa、谷歌助手GoogleAssistant、蘋果Siri、微軟Cortana、百度度秘、咪咕靈犀、天貓精靈等。來自前瞻產(chǎn)業(yè)研究院的資料顯示,在2018年中國智能語音市場的規(guī)模已經(jīng)突破了160億元[1]。美國市場研究機構(gòu)StrategyAnalytics近日發(fā)布的報告也認(rèn)為,2023年全球?qū)⒂?0%的智能手機擁有智能語音助手[2]。
智能語音助手被廣泛應(yīng)用在醫(yī)療健康服務(wù)、圖書館服務(wù)、知識管理等場景中,而在這些場景下,語音助手均可以視作知識服務(wù)主體。它需要根據(jù)用戶的語音輸入內(nèi)容識別用戶多樣化需求,再為滿足需求獲取和加工信息,最后利用內(nèi)在程序以及一些具體的功能如詩歌創(chuàng)作、知識問答、智能提醒等來反饋信息并提供服務(wù)。
目前有關(guān)智能語音助手的研究,主要集中在語音助手的設(shè)計與優(yōu)化、語音助手在不同場景中的應(yīng)用、用戶對語音助手智能程度的評價等方面,對于智能語音助手知識服務(wù)的相關(guān)研究非常匱乏。本研究試圖回答以下問題:智能語音助手是否具備一定的知識服務(wù)能力?如何評價智能語音助手的知識服務(wù)能力?應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力?
2文獻綜述
2.1智能語音助手
現(xiàn)階段智能語音助手的相關(guān)研究有許多。一部分研究著眼于拓展智能語音助手在不同場景的應(yīng)用。如醫(yī)療健康領(lǐng)域[3-4]、智能家居應(yīng)用[5]、自動駕駛領(lǐng)域[6]、或者個人與集體的知識管理領(lǐng)域[7-8]等。另一部分研究則關(guān)注智能語音助手的設(shè)計與優(yōu)化。如從語音識別層面、語言表達(dá)層面[9]進行分析,或者針對現(xiàn)有的開發(fā)方法和邏輯框架進行改進[10]。
還有一些研究,則是將注意力放在了使用智能語音設(shè)備的用戶身上。有些學(xué)者通過設(shè)計模型[11]或設(shè)置特殊場景[12],分析用戶行為來確定用戶的滿意程度。另一些學(xué)者通過爬取用戶評論數(shù)據(jù)、收集用戶使用記錄等方式,間接獲得用戶反饋,完成對智能語音助手的評價[13]或?qū)φZ音助手進行優(yōu)化設(shè)計[14]。也有學(xué)者直接通過問卷調(diào)查法、訪談法或?qū)嶒灧ǎ玫讲煌藢φZ音助手智能程度的主觀評價[15]。
2.2智能產(chǎn)品評價
最著名的測試人工智能是否具有智能的方法是圖靈測試[16],通過相互隔離的交談后是否能準(zhǔn)確分辨另一方是人還是計算機,來判斷計算機是否具備智能。但是,也有學(xué)者質(zhì)疑了這種人為判斷方法的客觀性[17]。
對智能產(chǎn)品的定性評測包括:Bringsjord等[18]提出的LovelaceTest,該測試通過讓智能系統(tǒng)創(chuàng)造小說或畫作來判定智能系統(tǒng)是否具有人的認(rèn)知能力;Riedl[19]在Bringsjord研究的基礎(chǔ)上設(shè)計了一個改良版的Lovelace2.0Test,認(rèn)為如果程序按照要求所創(chuàng)作的內(nèi)容被判定為合乎邏輯或引發(fā)裁判共鳴,那么此人工智能系統(tǒng)就可以被認(rèn)為具有智能;Malinowski和Fritz[20]通過讓測試對象描述圖片內(nèi)容并回答相關(guān)常識性問題來進行智能判斷;Ohlsson等[21]將針對4-7.25歲孩子的VerbalIQ測試應(yīng)用在人工智能的智商測定中。
有學(xué)者從定量角度對智能產(chǎn)品的智力水平進行評價,如楊強[22]提出“終身學(xué)習(xí)測試”,通過判斷計算機能否通過學(xué)習(xí)提升知識水平來判斷其是否是智能的;劉峰[23]利用德爾菲法對人工智能的智商測量標(biāo)準(zhǔn)進行確定,并提出了定量評測問題,通過設(shè)計出的互聯(lián)網(wǎng)智力評測系統(tǒng),完成了對全球50個搜索引擎和人類對照組的智商測試。另外,劉峰[24]將人工智能的智商分為通用智商、服務(wù)智商和價值智商三類,并針對不同方面的智能,進行了一定程度上的指標(biāo)區(qū)別。
3智能語音助手的知識服務(wù)能力評價體系構(gòu)建
3.1評價指標(biāo)體系構(gòu)建
知識服務(wù)是指以信息知識的搜尋、組織、分析、重組的知識和能力為基礎(chǔ),根據(jù)用戶的問題和環(huán)境,融入用戶解決問題的過程中,提出能夠有效支持知識應(yīng)用和知識創(chuàng)新的服務(wù)[25]。在此定義的基礎(chǔ)上,本研究將智能語音助手的知識服務(wù)歸納為三個層次:一是能完成信息的輸入與輸出,即基礎(chǔ)能力;二是對信息知識的搜尋、組織、分析、重組,即初級知識服務(wù)能力;三是根據(jù)用戶問題與環(huán)境,給用戶提供個性化支持與服務(wù),即高級知識服務(wù)能力。這三個層次就成為智能語音助手知識服務(wù)能力的一級指標(biāo)。
在二級指標(biāo)的選擇上,為了保證指標(biāo)的可信度和代表性,指標(biāo)的設(shè)置最大限度地借鑒相關(guān)研究的成熟量表[23-24,28],結(jié)合本研究針對智能語音助手的具體應(yīng)用情境,并咨詢了相關(guān)專家學(xué)者來確定最終選擇結(jié)果。
基礎(chǔ)能力下設(shè)三個二級指標(biāo),分別是識別聲音的能力、聲音表達(dá)的能力和被自動喚醒的能力。其中識別聲音能力對應(yīng)信息獲取,聲音表達(dá)對應(yīng)知識反饋,而被自動喚醒則是一切知識服務(wù)的前提,即語音助手的開關(guān)功能。
初級知識服務(wù)能力下設(shè)三個二級指標(biāo),分別是計算、翻譯和知識問答能力。一方面,這三項能力指標(biāo)所代表的功能均在用戶的日常生活中被大量使用;另一方面,這三個指標(biāo)涵蓋了數(shù)學(xué)、語言和各種常識問題,充分反映了智能語音助手獲取信息、加工信息的基礎(chǔ)能力。
高級知識服務(wù)能力下設(shè)四個二級指標(biāo),分別是知識創(chuàng)造能力、猜測和聯(lián)想能力、學(xué)習(xí)能力和個性化服務(wù)能力。其中知識創(chuàng)造能力衡量的是語音助手的內(nèi)容創(chuàng)作力,猜測和聯(lián)想能力考察語音助手的邏輯,學(xué)習(xí)能力則是評價語音助手的自主學(xué)習(xí)能力,而個性化服務(wù)能力主要考察語音助手是否能對不同用戶提供定制服務(wù)。這四個二級指標(biāo)均體現(xiàn)語音助手對個性化問題與環(huán)境(語境)的識別和提供針對性服務(wù)的能力。
3.2基于層次分析法的指標(biāo)權(quán)重確定
本研究運用層次分析法,通過專家經(jīng)驗來衡量各個指標(biāo)間的相對重要程度,從而確定指標(biāo)權(quán)重。
3.2.1構(gòu)建層次結(jié)構(gòu)模型
本研究中的評價層次體系由三個層次組成。目標(biāo)層為總目標(biāo),即智能語音助手知識服務(wù)能力,準(zhǔn)則層分別為基礎(chǔ)能力、初級知識服務(wù)能力和高級知識服務(wù)能力3個方面,指標(biāo)層為識別聲音的能力、聲音表達(dá)的能力和被自動喚醒的能力等10個評價指標(biāo)。
3.2.2問卷設(shè)計與發(fā)放
考慮到研究對象智能語音助手的特殊性,在指標(biāo)權(quán)重確定的專家人選上,并不局限于學(xué)界專家學(xué)者,還有業(yè)界相關(guān)領(lǐng)域的工作人員。為了結(jié)果的準(zhǔn)確性與客觀性,問卷內(nèi)容分為兩個部分:
第一部分為關(guān)于專家的基本問題,包括學(xué)歷、工作單位、使用語音助手頻次與種類等。此部分信息用于確定專家對語音助手的了解程度,從而挑選出高質(zhì)量的問卷樣本。
第二部分構(gòu)造判斷矩陣。要求專家依次對從屬于上一層某個因素的同層次諸因素用1-9檢驗值進行兩兩比較,來確定各因素的重要性。
本研究共發(fā)放33份問卷,回收30份,回收率為91%。剔除不符合要求、數(shù)據(jù)不滿足一致性檢驗的問卷以后,有15份問卷進入到下一步的分析。15份問卷的專家構(gòu)成中,學(xué)界專家有6人,均具有博士學(xué)歷和副教授以上職稱,研究領(lǐng)域為知識服務(wù)、人工智能等;業(yè)界專家有9人,均來自較知名的通信公司或科技公司。
3.2.3數(shù)據(jù)處理
將專家數(shù)據(jù)錄入YAAHP12.1軟件(一款針對層次分析法的輔助軟件),在對智能語音助手知識服務(wù)能力評價指標(biāo)體系中的各級指標(biāo)進行進一步分析后,最終得出各指標(biāo)的權(quán)重分配情況。
3.3題庫構(gòu)建
根據(jù)智能語音助手知識服務(wù)能力的評價指標(biāo)體系,本研究為各個二級指選取了相應(yīng)的題目,構(gòu)建了智能語音助手知識服務(wù)能力評價的題庫。為保證測試結(jié)果的可靠性,題庫的來源為相關(guān)的書籍、測試以及論文,所選擇題目盡量滿足代表性與權(quán)威性。
3.3.1基礎(chǔ)能力題庫構(gòu)建
基礎(chǔ)能力考察的是信息輸入與輸出能力,不同語音助手的實現(xiàn)方式并不存在差異。針對基礎(chǔ)能力下3個對應(yīng)的二級指標(biāo),分別對它們構(gòu)建題庫。
識別聲音的能力是要了解測試目標(biāo)能否準(zhǔn)確理解語音輸入的測試題目,要求從語音中識別出正確的文字。測試題目從2015年國際自然語言處理與中文計算會議提供的問題集中隨機選擇。
聲音表達(dá)的能力旨在了解語音助手是否合理回答日常對話,若僅僅是考慮是否能進行語音輸出,那么此種標(biāo)準(zhǔn)會過于簡單且無意義。為了獲得中文的日常對話內(nèi)容,查閱了《HSK標(biāo)準(zhǔn)教程1》,該書經(jīng)國家漢辦授權(quán),以漢語水平考試真題作為教學(xué)素材。此教程是為了幫助漢語初學(xué)者學(xué)習(xí)漢語日常對話所設(shè)計,對本研究相應(yīng)題庫的構(gòu)建有重要的指導(dǎo)意義。本研究從該書中挑選了多個日常對話場景作為測試題目。
被自動喚醒的能力是要了解測試目標(biāo)是否能通過聲音被自動喚醒。實驗方式則是通過多次語音說出觸發(fā)詞,觀察語音助手能被自動喚醒的次數(shù)。
3.3.2初級知識服務(wù)能力題庫構(gòu)建
初級知識服務(wù)能力考察的是語音助手對信息知識的搜尋、組織、分析、重組的能力,不同語音助手的實現(xiàn)方式同樣不存在區(qū)別。針對初級知識服務(wù)能力下相應(yīng)的3個二級指標(biāo),分別構(gòu)建題庫。
知識問答能力是為了了解測試目標(biāo)的知識廣度。結(jié)合人機對話的相關(guān)問題集[26]以及相關(guān)論文[27],并適當(dāng)調(diào)整使其符合語音助手應(yīng)用場景,研究將問題分為事實類問題、定義類問題、YES-NO問題和觀點類問題。在題目的選擇上,做到四種問題兼顧并同時聚焦在小學(xué)階段的必修科目上,如語文、社會和音樂等。
翻譯能力是為了了解測試目標(biāo)對不同語言的轉(zhuǎn)換能力。題庫選擇上參考了北京大學(xué)的《英漢機器翻譯測試大綱》[28],從中選出多個句子,包括重點列出的長難句。
計算能力是為了了解測試目標(biāo)的計算能力、計算速度和正確性。結(jié)合目前語音助手的智能水平,選擇小學(xué)階段的數(shù)學(xué)課程標(biāo)準(zhǔn)“全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(實驗稿)”作為參考,挑選出其中測試運算能力的指標(biāo),包括計算萬以內(nèi)的整數(shù)、小數(shù)、分?jǐn)?shù)、百分?jǐn)?shù)和負(fù)數(shù),和掌握四則運算的技能,并依照此分類選擇題目。
3.3.3高級知識服務(wù)能力題庫構(gòu)建
高級知識服務(wù)能力,指的是測試目標(biāo)根據(jù)用戶的問題與環(huán)境在信息收集基礎(chǔ)上的創(chuàng)造與服務(wù)能力,概念較為抽象,不同語音助手的實現(xiàn)方式多樣。為保證實驗的準(zhǔn)確性與公平性,本研究對常見語音助手進行了深入使用,并結(jié)合官網(wǎng)的介紹以及相關(guān)測評報道,總結(jié)歸納了高級知識服務(wù)能力下各個二級指標(biāo)的實現(xiàn)方式。在全面考慮不同實現(xiàn)方式的前提下構(gòu)建出相應(yīng)的題庫。
知識創(chuàng)造能力是為了了解測試目標(biāo)按照給定要求,進行二次創(chuàng)造的能力。MarkO.Riedl在語音助手智商測試的實驗中提出了Lovelace2.0[19]測試方法,方法是在創(chuàng)造性活動中添加關(guān)鍵詞以增加語音助手直接檢索的難度來確定語音助手的知識創(chuàng)造能力。因此,本研究結(jié)合現(xiàn)有語音助手功能,對不同創(chuàng)作形式提出不同要求,根據(jù)是否能反饋有邏輯的結(jié)果來測算語音助手的知識創(chuàng)造能力。
猜測和聯(lián)想能力是為了了解測試目標(biāo)根據(jù)給定的材料猜測所描繪的事物及聯(lián)想相關(guān)事物的能力。根據(jù)上述得分原則,分四類分別構(gòu)建題庫。謎語選自各版本的“謎語大全”。正反義詞則來自韋氏兒童智力測試題[29對意圖識別能力的考量,則是參考了有關(guān)搜索引擎自然語音處理的研究結(jié)論。用戶向搜索引擎輸入的簡短查詢式存在模糊性和歧義性[30],在語音助手應(yīng)用場景同樣適用,所以采取通過語音輸入模糊指令來確定其能否準(zhǔn)確理解并滿足用戶要求。你說我猜則是測試語音助手能否通過問用戶問題,猜出用戶心中所想的一個人物或動物,題庫來源于相關(guān)娛樂性測試網(wǎng)站。
學(xué)習(xí)能力是為了了解測試目標(biāo)能否根據(jù)用戶訓(xùn)練,掌握新的規(guī)則或知識的能力。其測試方法是在不同實現(xiàn)方式下給出特定情景,通過判定語音助手在該情景下能否完成用戶要求來確定。如在多輪對話中針對某個話題展開需要聯(lián)系前后文的多輪討論,觀察語音助手是否能有邏輯的進行回復(fù)來判定語音助手的多輪對話能力。
個性化服務(wù)能力是為了了解測試目標(biāo)個性化服務(wù)設(shè)置能力,測試方法與學(xué)習(xí)能力類似。如用戶偏好設(shè)置下就有一個情景為是否能根據(jù)用戶喜好實現(xiàn)智能推送,根據(jù)是否能實現(xiàn)判斷該語音助手的用戶偏好設(shè)置能力。
3.4測試方法與評分原則
由于語音助手與用戶的溝通是以聲音為主。因此實驗中的所有問題均采用語音方式輸入?紤]到具體環(huán)境影響,每個問題將重復(fù)三次。
在具體給分上,對于語音助手基礎(chǔ)能力以及初級知識服務(wù)能力下的各個二級指標(biāo),每個測量對象均需回答從題庫中隨機抽取的相同的10道題(其中被自動喚醒的能力是分10次在不同場景下用語音說出觸發(fā)詞)。每答對一題(被自動喚醒一次)加10分。即每個二級指標(biāo)滿分為100分。
對于語音助手高級知識服務(wù)能力,如本文所述,每個二級指標(biāo)實現(xiàn)方式均可歸納為4類。由于存在語音助手能以不止一類實現(xiàn)方式完成對應(yīng)的二級指標(biāo),所以每類滿分為25分,若4類實現(xiàn)方式均能完成,則該二級指標(biāo)記滿分100分。在每類實現(xiàn)方式下設(shè)置3個具體場景或題目。若3道均正確完成,則認(rèn)為該類實現(xiàn)方式完成,記該類滿分,即25分。若全不能完成,則該類記0分。若能部分完成,則認(rèn)為該類還有進步空間,記該類滿分的一半,即12.5分。
另外,語音助手在實現(xiàn)某些用戶要求時,自身雖不具備相應(yīng)功能,卻可以通過調(diào)用或跳轉(zhuǎn)到其他應(yīng)用來獲得答案。這雖表現(xiàn)了自身功能的不夠全面,但從側(cè)面體現(xiàn)了該語音助手與其他應(yīng)用的操控與交互能力,所以對這種狀況,同樣視為能部分完成。
4中文智能語音助手的評價實驗
4.1評價對象選擇
中文語音助手應(yīng)用場景多樣,在日常生活中最常見的有三種,分別是手機自帶語音助手(如蘋果的Siri,三星的Bixby,華為的小E、VIVO的jovi等)、移動應(yīng)用語音助手(如百度語音助手、搜狗語音助手、咪咕靈犀等)、還有隨著智能家居不斷發(fā)展的智能音箱(如天貓精靈、小米AI音箱、小度在家等)。本研究根據(jù)網(wǎng)絡(luò)諸多測評分別選取了這三大類語音助手中最具代表性的一款產(chǎn)品進行評價研究,即華為小E、咪咕靈犀和天貓精靈。
4.2評價結(jié)果
按總得分從高到低排序,天貓精靈、咪咕靈犀和華為小E的知識服務(wù)能力得分分別是88.54、85.02、81.24,均超過了80分,說明三個語音助手均具備了一定的知識服務(wù)能力。本研究對被測評語音助手各一級指標(biāo)完成度進行統(tǒng)計。
統(tǒng)計得出,在基礎(chǔ)能力上,天貓精靈得到了滿分,華為小E和咪咕靈犀均得到97.4分;在初級知識服務(wù)能力上,華為小E和咪咕靈犀分?jǐn)?shù)亦相同,均為80.7分,而天貓精靈只得了77.7分;在高級知識服務(wù)能力上,分?jǐn)?shù)從高到低分別是天貓精靈(73.4分)、咪咕靈犀(56.6分)、華為小E(36.1分),咪咕靈犀和華為小E均低于60分。
可以看出,三個語音助手在總分上的較好表現(xiàn)主要得益于在基礎(chǔ)能力指標(biāo)上的較高得分,該一級指標(biāo)的權(quán)重高達(dá)0.52,而三個語音助手在該項得分均接近或等于滿分。在初級知識服務(wù)能力上三個語音助手得分接近,均在80分左右,表現(xiàn)良好。但在高級知識服務(wù)能力上,各語音助手表現(xiàn)具有較大差異且普遍較差。
對三個語音助手在各二級指標(biāo)的具體得分進行統(tǒng)計,通過分析可以發(fā)現(xiàn):
(1)三款語音助手在知識問答能力上均有進步空間。華為小E和咪咕靈犀在多數(shù)問題回答上均需借助第三方搜索引擎反饋的結(jié)果,其中華為小E還需再次按要求輸入以完成跳轉(zhuǎn)。天貓精靈則無法回答部分和地理位置相關(guān)的問題,如針對問題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結(jié)果。
(2)三款語音助手雖然功能豐富,但觸發(fā)條件往往較為嚴(yán)苛。如必須完整向華為小E輸入“講一個安徒生的海的女兒”才能被理解,否則均無法完成要求。天貓精靈雖在大多數(shù)情形下完成的較為出色,但仍在部分場景如“對話訓(xùn)練”或一些指定游戲中,需特定關(guān)鍵詞才可以觸發(fā)。
(3)三款語音助手均可針對用戶需求,完成個性化服務(wù),但程度存在差異。如三款語音助手均可從其他信息源獲取外賣信息與快遞信息,均可設(shè)置智能提醒,但在其他方面如個性化回答設(shè)置、推送內(nèi)容設(shè)置以及應(yīng)用偏好選擇上,華為小E均要略輸一等。
(4)在初級知識服務(wù)能力中的翻譯與計算指標(biāo)上,華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對于本次測試要求的英語表現(xiàn)優(yōu)異,更可完成對多種語言的精確互譯。反觀天貓精靈,在計算上目前只支持一千萬以內(nèi)整數(shù)的相關(guān)運算,分?jǐn)?shù)或超過范圍均不能完成,而翻譯中部分長難句翻譯準(zhǔn)確度低。
(5)在諸多信息分析與場景處理能力要求更高的指標(biāo)中,咪咕靈犀和天貓精靈表現(xiàn)較好,且天貓精靈更勝一籌。如測試語音助手是否能有邏輯的回答日常對話問題時,選擇在下午問候“早上好”,天貓精靈與咪咕靈犀會指出現(xiàn)在已經(jīng)是下午了,而華為小E依然只會回應(yīng)早上好。在“知識創(chuàng)造能力”的考察中,要求語音助手播放一首周杰倫的勵志歌曲,和以“新年快樂”為主題寫作一首詩,只有天貓精靈完成要求,而且天貓精靈也是唯一支持多輪對話的語音助手。
4.3分析與討論
(1)智能語音助手是否具備知識服務(wù)能力?研究結(jié)果表明,主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力。在諸多場景下,語音助手能以聲音為交互介質(zhì),提供高智力附加值的知識(或技能)密集型服務(wù),滿足知識服務(wù)對象的知識需求。
由于語音可以解放人們的雙手和雙眼,降低產(chǎn)品使用門檻,同時語音識別與語義理解是人工智能領(lǐng)域相對成熟的技術(shù)[32],通過語音交互開展知識服務(wù)(多輪對話式問答服務(wù)、生活場景中的決策支持服務(wù)等)是未來的發(fā)展趨勢,而在這方面,智能語音助手具有天然的優(yōu)勢。
首先語音助手存在潛在的龐大用戶群。語音助手多以智能手機為載體,以APP應(yīng)用、小程序(智能音箱也往往有對應(yīng)的小程序)、微信公眾號等諸多形式為公眾提供知識服務(wù)。而隨著智能手機的普及,語音助手能以較低成本接入大眾生活;其次面對日常生活中多元化、多維度的知識需求,語音助手能夠為大眾提供普惠的知識服務(wù),使知識服務(wù)不局限于專業(yè)人士,而是嵌入生活化的場景里,降低用戶在信息過載時代中知識獲取的成本。
(2)如何評價智能語音助手的知識服務(wù)能力?本研究構(gòu)造了智能語音助手知識服務(wù)能力的評價指標(biāo)體系,并應(yīng)用該體系完成了三款主流語音助手的評價實驗。運用該評價指標(biāo)體系,將抽象的智能語音助手知識服務(wù)能力具體化為3個一級指標(biāo)、10個二級指標(biāo),可以綜合評價和跟蹤語音助手行業(yè)的進展,對比不同語音助手之間的具體優(yōu)劣情況,便于從中及時發(fā)現(xiàn)好的發(fā)展經(jīng)驗和共同問題所在,明確語音助手的研發(fā)方向。
本研究得到的指標(biāo)權(quán)重充分反映了專家的認(rèn)知。識別聲音、聲音輸出、被自動喚醒所代表的基礎(chǔ)能力權(quán)重超過0.5,其中識別聲音的指標(biāo)權(quán)重更是高達(dá)0.2576。而初級、高級知識服務(wù)能力指標(biāo)權(quán)重占比低,對語音助手的評價結(jié)果影響小。這說明在現(xiàn)階段,專家更重視基礎(chǔ)交互能力,對智能語音助手提供知識服務(wù)的期望并不高。
本研究建設(shè)了相應(yīng)題庫來完成指標(biāo)的測量?紤]到現(xiàn)階段人工智能的智商與兒童的智力水平相當(dāng)[21],且功能在不斷的發(fā)展豐富中,在構(gòu)建題庫時,并沒有完全按照知識服務(wù)的最高標(biāo)準(zhǔn)去設(shè)計,而是結(jié)合語音助手現(xiàn)有的智能水平與發(fā)展演化的需求,設(shè)置了相應(yīng)的測試問題,如聲音輸出指標(biāo)的題庫選自漢語初學(xué)者對話教程,高級知識服務(wù)能力的測試總結(jié)了現(xiàn)有語音助手能夠完成的方式。由于題庫構(gòu)建靈活,未來隨著人工智能技術(shù)的進步、智能產(chǎn)品智力水平的不斷提高以及語音助手領(lǐng)域的迅速發(fā)展,測試題庫支持不斷升級,將在題目選擇上上升難度,場景設(shè)置上更具隨機性與普適性。
(3)應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力?從相應(yīng)指標(biāo)所占的權(quán)重來看,語音助手的基礎(chǔ)能力仍然是現(xiàn)階段專家關(guān)注的最重要的方面,也是當(dāng)前用戶感知最強烈的方面。因此,亟需提高智能語音助手的基礎(chǔ)能力,如在信息輸出端注重合成語音的口語化、自然化、人性化[33],在信息輸入端提供可視化反饋,增加用戶可控感[34],并輔助其它應(yīng)用,設(shè)計出實現(xiàn)各種拓展功能的接口來增加多種信息的交互能力[35]。
在初級知識服務(wù)能力方面,根據(jù)人們的一般認(rèn)知,三個二級指標(biāo)在技術(shù)實現(xiàn)難度上從高到低排序分別是知識問答、翻譯和數(shù)學(xué)運算。三個語音助手在知識問答能力上的得分普遍較低,比較不同種類問題回答準(zhǔn)確率之后發(fā)現(xiàn),相比于事實類問題和定義類問題,語音助手往往不擅長回答YES-NO問題和觀點類問題,這證明在自然語言處理和知識抽取層面仍有待進一步研發(fā)。然而,三個語音助手在數(shù)據(jù)運算能力上的得分卻均高于翻譯能力,這一方面是由于部分?jǐn)?shù)學(xué)運算超過了語音助手的能力范圍,如華為小E和咪咕靈犀不能完成“階乘”運算、天貓精靈不能完成分?jǐn)?shù)或非整數(shù)的計算以及大于一千萬的整數(shù)的運算;另一方面,這反映了在語音交互的場景下,信息系統(tǒng)(智能語音助手)在知識服務(wù)相關(guān)任務(wù)上的表現(xiàn)有別于傳統(tǒng)的圖形界面交互場景,這也是未來有待進一步探索的方向。
在高級知識服務(wù)能力方面,普遍存在兩點問題:一是功能情景有限,二是某些功能觸發(fā)條件只支持用戶輸入顯式查詢或命令,即明確的觸發(fā)詞。這不僅導(dǎo)致用戶使用感不佳,也使一些功能不易被用戶發(fā)現(xiàn)。所以建議在保證不干擾用戶生活的前提下,提供更人性化的功能觸發(fā)條件并配以友好的用戶指導(dǎo)。如定期提示用戶功能更新及其觸發(fā)方法,或結(jié)合語境情景理解用戶的隱式對話線索[10]等。
從搭載語音助手的平臺上來看,手機自帶語音助手的得分明顯落后于語音助手APP和智能音箱,而手機自帶語音助手卻是廣大普通用戶最容易接觸到的語音助手產(chǎn)品[2],具有龐大的用戶群體。提高手機自帶語音助手的知識服務(wù)能力,有利于知識服務(wù)惠及更廣泛的社會群體,所以,亟需提高手機自帶語音助手的知識服務(wù)能力。同時,智能音箱在高級知識服務(wù)能力上表現(xiàn)較為優(yōu)秀,特別是在個性化服務(wù)能力指標(biāo)上的表現(xiàn)最為突出,其與智能家居的進一步關(guān)聯(lián)可有效彌補自身便攜性不足的固有缺點,有效推進生活智能化。
5結(jié)語
面對知識服務(wù)對象大眾化、服務(wù)手段多樣化、服務(wù)內(nèi)容智能化的時代趨勢,社會亟需一個普惠的工具來滿足泛在的知識需求、服務(wù)大眾的日常生活。智能語音助手作為新型知識服務(wù)主體,具有填補該空缺的天然優(yōu)勢。
本文對智能語音助手的知識服務(wù)能力進行了評價研究。首先,構(gòu)建了智能語音助手知識服務(wù)能力的評價指標(biāo)體系,通過專家調(diào)查得到的指標(biāo)權(quán)重很好地反映了現(xiàn)階段人們對智能語音助手的期望和態(tài)度;其次,根據(jù)智能語音助手現(xiàn)階段的技術(shù)水平和智能程度,構(gòu)建了相應(yīng)的測試題庫,且這一題庫可以隨著智能語音助手技術(shù)水平和智力程度的提高進行動態(tài)升級,以保證本研究提出的評價方法具有一定的動態(tài)性和靈活性;第三,對典型的中文智能語音助手進行評價實驗,發(fā)現(xiàn)了目前存在的問題和不足,提出了相應(yīng)的建議。
但本研究仍存在一些不足,如評價指標(biāo)體系可以進一步完善、專家調(diào)查的人數(shù)和范圍可以進一步擴大等。在后續(xù)研究中,將進一步優(yōu)化智能語音助手知識服務(wù)能力的評價指標(biāo)體系、擴大層次分析法專家調(diào)查的規(guī)模。
智能方向論文范文:工程機械智能化信息技術(shù)的應(yīng)用
本文主要針對工程機械智能化信息技術(shù)的應(yīng)用展開研究,并針對工程領(lǐng)域應(yīng)用的電子信息技術(shù)進行淺析,希望能夠為相關(guān)技術(shù)人員提供理論幫助。
【關(guān)鍵詞】控制工程,機械電子工程,應(yīng)用
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/21141.html