智能語音助手的知識服務(wù)能力評價(jià)研究

所屬分類：電子論文閱讀次時(shí)間：2019-12-11 16:00

本文摘要：摘要：文章從基礎(chǔ)能力、初級知識服務(wù)能力、高級知識服務(wù)能力三個(gè)方面，篩選出十個(gè)二級指標(biāo)，通過層次分析法確定指標(biāo)權(quán)重，根據(jù)智能語音助手現(xiàn)階段的智力水平，為每個(gè)二級指標(biāo)選取了相應(yīng)的測試問題，構(gòu)建了智能語音助手的知識服務(wù)能力評價(jià)體系，最后以三個(gè)主

　　摘要：文章從基礎(chǔ)能力、初級知識服務(wù)能力、高級知識服務(wù)能力三個(gè)方面，篩選出十個(gè)二級指標(biāo)，通過層次分析法確定指標(biāo)權(quán)重，根據(jù)智能語音助手現(xiàn)階段的智力水平，為每個(gè)二級指標(biāo)選取了相應(yīng)的測試問題，構(gòu)建了智能語音助手的知識服務(wù)能力評價(jià)體系，最后以三個(gè)主流的智能語音助手為對象進(jìn)行了實(shí)證評價(jià)分析‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。構(gòu)建的評價(jià)指標(biāo)體系具有實(shí)用性和動(dòng)態(tài)性，基礎(chǔ)能力的權(quán)重最大，初級知識服務(wù)能力和高級知識服務(wù)能力次之，實(shí)證研究的結(jié)果表明，現(xiàn)階段主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力，但仍然存在較大的提升空間‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　關(guān)鍵詞：智能語音助手,知識服務(wù),知識服務(wù)能力,層次分析法

智能語音

　　1引言

　　近年來，隨著人工智能以及語音識別技術(shù)的不斷發(fā)展，智能語音助手逐漸為人們所熟知‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。目前國內(nèi)外比較成功的智能語音助手包括亞馬遜Alexa、谷歌助手GoogleAssistant、蘋果Siri、微軟Cortana、百度度秘、咪咕靈犀、天貓精靈等。來自前瞻產(chǎn)業(yè)研究院的資料顯示，在2018年中國智能語音市場的規(guī)模已經(jīng)突破了160億元[1]。美國市場研究機(jī)構(gòu)StrategyAnalytics近日發(fā)布的報(bào)告也認(rèn)為，2023年全球?qū)⒂?0%的智能手機(jī)擁有智能語音助手[2]。

　　智能語音助手被廣泛應(yīng)用在醫(yī)療健康服務(wù)、圖書館服務(wù)、知識管理等場景中，而在這些場景下，語音助手均可以視作知識服務(wù)主體。它需要根據(jù)用戶的語音輸入內(nèi)容識別用戶多樣化需求，再為滿足需求獲取和加工信息，最后利用內(nèi)在程序以及一些具體的功能如詩歌創(chuàng)作、知識問答、智能提醒等來反饋信息并提供服務(wù)。

　　目前有關(guān)智能語音助手的研究，主要集中在語音助手的設(shè)計(jì)與優(yōu)化、語音助手在不同場景中的應(yīng)用、用戶對語音助手智能程度的評價(jià)等方面，對于智能語音助手知識服務(wù)的相關(guān)研究非常匱乏。本研究試圖回答以下問題：智能語音助手是否具備一定的知識服務(wù)能力?如何評價(jià)智能語音助手的知識服務(wù)能力?應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力?

　　2文獻(xiàn)綜述

　　2.1智能語音助手

　　現(xiàn)階段智能語音助手的相關(guān)研究有許多。一部分研究著眼于拓展智能語音助手在不同場景的應(yīng)用。如醫(yī)療健康領(lǐng)域[3-4]、智能家居應(yīng)用[5]、自動(dòng)駕駛領(lǐng)域[6]、或者個(gè)人與集體的知識管理領(lǐng)域[7-8]等。另一部分研究則關(guān)注智能語音助手的設(shè)計(jì)與優(yōu)化。如從語音識別層面、語言表達(dá)層面[9]進(jìn)行分析，或者針對現(xiàn)有的開發(fā)方法和邏輯框架進(jìn)行改進(jìn)[10]。

　　還有一些研究，則是將注意力放在了使用智能語音設(shè)備的用戶身上。有些學(xué)者通過設(shè)計(jì)模型[11]或設(shè)置特殊場景[12]，分析用戶行為來確定用戶的滿意程度。另一些學(xué)者通過爬取用戶評論數(shù)據(jù)、收集用戶使用記錄等方式，間接獲得用戶反饋，完成對智能語音助手的評價(jià)[13]或?qū)φZ音助手進(jìn)行優(yōu)化設(shè)計(jì)[14]。也有學(xué)者直接通過問卷調(diào)查法、訪談法或?qū)嶒?yàn)法，得到不同人對語音助手智能程度的主觀評價(jià)[15]。

　　2.2智能產(chǎn)品評價(jià)

　　最著名的測試人工智能是否具有智能的方法是圖靈測試[16]，通過相互隔離的交談后是否能準(zhǔn)確分辨另一方是人還是計(jì)算機(jī)，來判斷計(jì)算機(jī)是否具備智能。但是，也有學(xué)者質(zhì)疑了這種人為判斷方法的客觀性[17]。

　　對智能產(chǎn)品的定性評測包括：Bringsjord等[18]提出的LovelaceTest，該測試通過讓智能系統(tǒng)創(chuàng)造小說或畫作來判定智能系統(tǒng)是否具有人的認(rèn)知能力;Riedl[19]在Bringsjord研究的基礎(chǔ)上設(shè)計(jì)了一個(gè)改良版的Lovelace2.0Test，認(rèn)為如果程序按照要求所創(chuàng)作的內(nèi)容被判定為合乎邏輯或引發(fā)裁判共鳴，那么此人工智能系統(tǒng)就可以被認(rèn)為具有智能;Malinowski和Fritz[20]通過讓測試對象描述圖片內(nèi)容并回答相關(guān)常識性問題來進(jìn)行智能判斷;Ohlsson等[21]將針對4-7.25歲孩子的VerbalIQ測試應(yīng)用在人工智能的智商測定中。

　　有學(xué)者從定量角度對智能產(chǎn)品的智力水平進(jìn)行評價(jià)，如楊強(qiáng)[22]提出“終身學(xué)習(xí)測試”，通過判斷計(jì)算機(jī)能否通過學(xué)習(xí)提升知識水平來判斷其是否是智能的;劉峰[23]利用德爾菲法對人工智能的智商測量標(biāo)準(zhǔn)進(jìn)行確定，并提出了定量評測問題，通過設(shè)計(jì)出的互聯(lián)網(wǎng)智力評測系統(tǒng)，完成了對全球50個(gè)搜索引擎和人類對照組的智商測試。另外，劉峰[24]將人工智能的智商分為通用智商、服務(wù)智商和價(jià)值智商三類，并針對不同方面的智能，進(jìn)行了一定程度上的指標(biāo)區(qū)別。

　　3智能語音助手的知識服務(wù)能力評價(jià)體系構(gòu)建

　　3.1評價(jià)指標(biāo)體系構(gòu)建

　　知識服務(wù)是指以信息知識的搜尋、組織、分析、重組的知識和能力為基礎(chǔ)，根據(jù)用戶的問題和環(huán)境，融入用戶解決問題的過程中，提出能夠有效支持知識應(yīng)用和知識創(chuàng)新的服務(wù)[25]。在此定義的基礎(chǔ)上，本研究將智能語音助手的知識服務(wù)歸納為三個(gè)層次：一是能完成信息的輸入與輸出，即基礎(chǔ)能力;二是對信息知識的搜尋、組織、分析、重組，即初級知識服務(wù)能力;三是根據(jù)用戶問題與環(huán)境，給用戶提供個(gè)性化支持與服務(wù)，即高級知識服務(wù)能力。這三個(gè)層次就成為智能語音助手知識服務(wù)能力的一級指標(biāo)。

　　在二級指標(biāo)的選擇上，為了保證指標(biāo)的可信度和代表性,指標(biāo)的設(shè)置最大限度地借鑒相關(guān)研究的成熟量表[23-24，28]，結(jié)合本研究針對智能語音助手的具體應(yīng)用情境,并咨詢了相關(guān)專家學(xué)者來確定最終選擇結(jié)果。

　　基礎(chǔ)能力下設(shè)三個(gè)二級指標(biāo)，分別是識別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力。其中識別聲音能力對應(yīng)信息獲取，聲音表達(dá)對應(yīng)知識反饋，而被自動(dòng)喚醒則是一切知識服務(wù)的前提，即語音助手的開關(guān)功能。

　　初級知識服務(wù)能力下設(shè)三個(gè)二級指標(biāo)，分別是計(jì)算、翻譯和知識問答能力。一方面，這三項(xiàng)能力指標(biāo)所代表的功能均在用戶的日常生活中被大量使用;另一方面，這三個(gè)指標(biāo)涵蓋了數(shù)學(xué)、語言和各種常識問題，充分反映了智能語音助手獲取信息、加工信息的基礎(chǔ)能力。

　　高級知識服務(wù)能力下設(shè)四個(gè)二級指標(biāo)，分別是知識創(chuàng)造能力、猜測和聯(lián)想能力、學(xué)習(xí)能力和個(gè)性化服務(wù)能力。其中知識創(chuàng)造能力衡量的是語音助手的內(nèi)容創(chuàng)作力，猜測和聯(lián)想能力考察語音助手的邏輯，學(xué)習(xí)能力則是評價(jià)語音助手的自主學(xué)習(xí)能力，而個(gè)性化服務(wù)能力主要考察語音助手是否能對不同用戶提供定制服務(wù)。這四個(gè)二級指標(biāo)均體現(xiàn)語音助手對個(gè)性化問題與環(huán)境(語境)的識別和提供針對性服務(wù)的能力。

　　3.2基于層次分析法的指標(biāo)權(quán)重確定

　　本研究運(yùn)用層次分析法，通過專家經(jīng)驗(yàn)來衡量各個(gè)指標(biāo)間的相對重要程度，從而確定指標(biāo)權(quán)重。

　　3.2.1構(gòu)建層次結(jié)構(gòu)模型

　　本研究中的評價(jià)層次體系由三個(gè)層次組成。目標(biāo)層為總目標(biāo)，即智能語音助手知識服務(wù)能力，準(zhǔn)則層分別為基礎(chǔ)能力、初級知識服務(wù)能力和高級知識服務(wù)能力3個(gè)方面，指標(biāo)層為識別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力等10個(gè)評價(jià)指標(biāo)。

　　3.2.2問卷設(shè)計(jì)與發(fā)放

　　考慮到研究對象智能語音助手的特殊性，在指標(biāo)權(quán)重確定的專家人選上，并不局限于學(xué)界專家學(xué)者，還有業(yè)界相關(guān)領(lǐng)域的工作人員。為了結(jié)果的準(zhǔn)確性與客觀性，問卷內(nèi)容分為兩個(gè)部分：

　　第一部分為關(guān)于專家的基本問題，包括學(xué)歷、工作單位、使用語音助手頻次與種類等。此部分信息用于確定專家對語音助手的了解程度，從而挑選出高質(zhì)量的問卷樣本。

　　第二部分構(gòu)造判斷矩陣。要求專家依次對從屬于上一層某個(gè)因素的同層次諸因素用1-9檢驗(yàn)值進(jìn)行兩兩比較，來確定各因素的重要性。

　　本研究共發(fā)放33份問卷，回收30份，回收率為91%。剔除不符合要求、數(shù)據(jù)不滿足一致性檢驗(yàn)的問卷以后，有15份問卷進(jìn)入到下一步的分析。15份問卷的專家構(gòu)成中，學(xué)界專家有6人，均具有博士學(xué)歷和副教授以上職稱，研究領(lǐng)域?yàn)橹R服務(wù)、人工智能等;業(yè)界專家有9人，均來自較知名的通信公司或科技公司。

　　3.2.3數(shù)據(jù)處理

　　將專家數(shù)據(jù)錄入YAAHP12.1軟件(一款針對層次分析法的輔助軟件)，在對智能語音助手知識服務(wù)能力評價(jià)指標(biāo)體系中的各級指標(biāo)進(jìn)行進(jìn)一步分析后,最終得出各指標(biāo)的權(quán)重分配情況。

　　3.3題庫構(gòu)建

　　根據(jù)智能語音助手知識服務(wù)能力的評價(jià)指標(biāo)體系，本研究為各個(gè)二級指選取了相應(yīng)的題目，構(gòu)建了智能語音助手知識服務(wù)能力評價(jià)的題庫。為保證測試結(jié)果的可靠性，題庫的來源為相關(guān)的書籍、測試以及論文，所選擇題目盡量滿足代表性與權(quán)威性。

　　3.3.1基礎(chǔ)能力題庫構(gòu)建

　　基礎(chǔ)能力考察的是信息輸入與輸出能力，不同語音助手的實(shí)現(xiàn)方式并不存在差異。針對基礎(chǔ)能力下3個(gè)對應(yīng)的二級指標(biāo)，分別對它們構(gòu)建題庫‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　識別聲音的能力是要了解測試目標(biāo)能否準(zhǔn)確理解語音輸入的測試題目，要求從語音中識別出正確的文字。測試題目從2015年國際自然語言處理與中文計(jì)算會(huì)議提供的問題集中隨機(jī)選擇。

　　聲音表達(dá)的能力旨在了解語音助手是否合理回答日常對話，若僅僅是考慮是否能進(jìn)行語音輸出，那么此種標(biāo)準(zhǔn)會(huì)過于簡單且無意義。為了獲得中文的日常對話內(nèi)容，查閱了《HSK標(biāo)準(zhǔn)教程1》，該書經(jīng)國家漢辦授權(quán)，以漢語水平考試真題作為教學(xué)素材。此教程是為了幫助漢語初學(xué)者學(xué)習(xí)漢語日常對話所設(shè)計(jì)，對本研究相應(yīng)題庫的構(gòu)建有重要的指導(dǎo)意義。本研究從該書中挑選了多個(gè)日常對話場景作為測試題目。

　　被自動(dòng)喚醒的能力是要了解測試目標(biāo)是否能通過聲音被自動(dòng)喚醒。實(shí)驗(yàn)方式則是通過多次語音說出觸發(fā)詞，觀察語音助手能被自動(dòng)喚醒的次數(shù)。

　　3.3.2初級知識服務(wù)能力題庫構(gòu)建

　　初級知識服務(wù)能力考察的是語音助手對信息知識的搜尋、組織、分析、重組的能力，不同語音助手的實(shí)現(xiàn)方式同樣不存在區(qū)別。針對初級知識服務(wù)能力下相應(yīng)的3個(gè)二級指標(biāo)，分別構(gòu)建題庫。

　　知識問答能力是為了了解測試目標(biāo)的知識廣度。結(jié)合人機(jī)對話的相關(guān)問題集[26]以及相關(guān)論文[27]，并適當(dāng)調(diào)整使其符合語音助手應(yīng)用場景，研究將問題分為事實(shí)類問題、定義類問題、YES-NO問題和觀點(diǎn)類問題。在題目的選擇上，做到四種問題兼顧并同時(shí)聚焦在小學(xué)階段的必修科目上，如語文、社會(huì)和音樂等。

　　翻譯能力是為了了解測試目標(biāo)對不同語言的轉(zhuǎn)換能力。題庫選擇上參考了北京大學(xué)的《英漢機(jī)器翻譯測試大綱》[28]，從中選出多個(gè)句子，包括重點(diǎn)列出的長難句。

　　計(jì)算能力是為了了解測試目標(biāo)的計(jì)算能力、計(jì)算速度和正確性。結(jié)合目前語音助手的智能水平，選擇小學(xué)階段的數(shù)學(xué)課程標(biāo)準(zhǔn)“全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(實(shí)驗(yàn)稿)”作為參考，挑選出其中測試運(yùn)算能力的指標(biāo)，包括計(jì)算萬以內(nèi)的整數(shù)、小數(shù)、分?jǐn)?shù)、百分?jǐn)?shù)和負(fù)數(shù)，和掌握四則運(yùn)算的技能，并依照此分類選擇題目。

　　3.3.3高級知識服務(wù)能力題庫構(gòu)建

　　高級知識服務(wù)能力，指的是測試目標(biāo)根據(jù)用戶的問題與環(huán)境在信息收集基礎(chǔ)上的創(chuàng)造與服務(wù)能力，概念較為抽象，不同語音助手的實(shí)現(xiàn)方式多樣。為保證實(shí)驗(yàn)的準(zhǔn)確性與公平性，本研究對常見語音助手進(jìn)行了深入使用，并結(jié)合官網(wǎng)的介紹以及相關(guān)測評報(bào)道，總結(jié)歸納了高級知識服務(wù)能力下各個(gè)二級指標(biāo)的實(shí)現(xiàn)方式。在全面考慮不同實(shí)現(xiàn)方式的前提下構(gòu)建出相應(yīng)的題庫。

　　知識創(chuàng)造能力是為了了解測試目標(biāo)按照給定要求，進(jìn)行二次創(chuàng)造的能力。MarkO.Riedl在語音助手智商測試的實(shí)驗(yàn)中提出了Lovelace2.0[19]測試方法，方法是在創(chuàng)造性活動(dòng)中添加關(guān)鍵詞以增加語音助手直接檢索的難度來確定語音助手的知識創(chuàng)造能力。因此，本研究結(jié)合現(xiàn)有語音助手功能，對不同創(chuàng)作形式提出不同要求，根據(jù)是否能反饋有邏輯的結(jié)果來測算語音助手的知識創(chuàng)造能力。

　　猜測和聯(lián)想能力是為了了解測試目標(biāo)根據(jù)給定的材料猜測所描繪的事物及聯(lián)想相關(guān)事物的能力。根據(jù)上述得分原則，分四類分別構(gòu)建題庫。謎語選自各版本的“謎語大全”。正反義詞則來自韋氏兒童智力測試題[29對意圖識別能力的考量，則是參考了有關(guān)搜索引擎自然語音處理的研究結(jié)論。用戶向搜索引擎輸入的簡短查詢式存在模糊性和歧義性[30]，在語音助手應(yīng)用場景同樣適用，所以采取通過語音輸入模糊指令來確定其能否準(zhǔn)確理解并滿足用戶要求。你說我猜則是測試語音助手能否通過問用戶問題，猜出用戶心中所想的一個(gè)人物或動(dòng)物，題庫來源于相關(guān)娛樂性測試網(wǎng)站。

　　學(xué)習(xí)能力是為了了解測試目標(biāo)能否根據(jù)用戶訓(xùn)練，掌握新的規(guī)則或知識的能力。其測試方法是在不同實(shí)現(xiàn)方式下給出特定情景，通過判定語音助手在該情景下能否完成用戶要求來確定。如在多輪對話中針對某個(gè)話題展開需要聯(lián)系前后文的多輪討論，觀察語音助手是否能有邏輯的進(jìn)行回復(fù)來判定語音助手的多輪對話能力。

　　個(gè)性化服務(wù)能力是為了了解測試目標(biāo)個(gè)性化服務(wù)設(shè)置能力，測試方法與學(xué)習(xí)能力類似。如用戶偏好設(shè)置下就有一個(gè)情景為是否能根據(jù)用戶喜好實(shí)現(xiàn)智能推送，根據(jù)是否能實(shí)現(xiàn)判斷該語音助手的用戶偏好設(shè)置能力。

　　3.4測試方法與評分原則

　　由于語音助手與用戶的溝通是以聲音為主。因此實(shí)驗(yàn)中的所有問題均采用語音方式輸入�？紤]到具體環(huán)境影響，每個(gè)問題將重復(fù)三次。

　　在具體給分上，對于語音助手基礎(chǔ)能力以及初級知識服務(wù)能力下的各個(gè)二級指標(biāo)，每個(gè)測量對象均需回答從題庫中隨機(jī)抽取的相同的10道題(其中被自動(dòng)喚醒的能力是分10次在不同場景下用語音說出觸發(fā)詞)。每答對一題(被自動(dòng)喚醒一次)加10分。即每個(gè)二級指標(biāo)滿分為100分。

　　對于語音助手高級知識服務(wù)能力，如本文所述，每個(gè)二級指標(biāo)實(shí)現(xiàn)方式均可歸納為4類。由于存在語音助手能以不止一類實(shí)現(xiàn)方式完成對應(yīng)的二級指標(biāo)，所以每類滿分為25分，若4類實(shí)現(xiàn)方式均能完成，則該二級指標(biāo)記滿分100分。在每類實(shí)現(xiàn)方式下設(shè)置3個(gè)具體場景或題目。若3道均正確完成，則認(rèn)為該類實(shí)現(xiàn)方式完成，記該類滿分，即25分。若全不能完成，則該類記0分。若能部分完成，則認(rèn)為該類還有進(jìn)步空間，記該類滿分的一半，即12.5分。

　　另外，語音助手在實(shí)現(xiàn)某些用戶要求時(shí)，自身雖不具備相應(yīng)功能，卻可以通過調(diào)用或跳轉(zhuǎn)到其他應(yīng)用來獲得答案。這雖表現(xiàn)了自身功能的不夠全面，但從側(cè)面體現(xiàn)了該語音助手與其他應(yīng)用的操控與交互能力，所以對這種狀況，同樣視為能部分完成。

　　4中文智能語音助手的評價(jià)實(shí)驗(yàn)

　　4.1評價(jià)對象選擇

　　中文語音助手應(yīng)用場景多樣，在日常生活中最常見的有三種，分別是手機(jī)自帶語音助手(如蘋果的Siri，三星的Bixby，華為的小E、VIVO的jovi等)、移動(dòng)應(yīng)用語音助手(如百度語音助手、搜狗語音助手、咪咕靈犀等)、還有隨著智能家居不斷發(fā)展的智能音箱(如天貓精靈、小米AI音箱、小度在家等)。本研究根據(jù)網(wǎng)絡(luò)諸多測評分別選取了這三大類語音助手中最具代表性的一款產(chǎn)品進(jìn)行評價(jià)研究，即華為小E、咪咕靈犀和天貓精靈。

　　4.2評價(jià)結(jié)果

　　按總得分從高到低排序，天貓精靈、咪咕靈犀和華為小E的知識服務(wù)能力得分分別是88.54、85.02、81.24，均超過了80分，說明三個(gè)語音助手均具備了一定的知識服務(wù)能力。本研究對被測評語音助手各一級指標(biāo)完成度進(jìn)行統(tǒng)計(jì)。

　　統(tǒng)計(jì)得出，在基礎(chǔ)能力上，天貓精靈得到了滿分，華為小E和咪咕靈犀均得到97.4分;在初級知識服務(wù)能力上，華為小E和咪咕靈犀分?jǐn)?shù)亦相同，均為80.7分，而天貓精靈只得了77.7分;在高級知識服務(wù)能力上，分?jǐn)?shù)從高到低分別是天貓精靈(73.4分)、咪咕靈犀(56.6分)、華為小E(36.1分)，咪咕靈犀和華為小E均低于60分。

　　可以看出，三個(gè)語音助手在總分上的較好表現(xiàn)主要得益于在基礎(chǔ)能力指標(biāo)上的較高得分，該一級指標(biāo)的權(quán)重高達(dá)0.52，而三個(gè)語音助手在該項(xiàng)得分均接近或等于滿分。在初級知識服務(wù)能力上三個(gè)語音助手得分接近，均在80分左右，表現(xiàn)良好。但在高級知識服務(wù)能力上，各語音助手表現(xiàn)具有較大差異且普遍較差。

　　對三個(gè)語音助手在各二級指標(biāo)的具體得分進(jìn)行統(tǒng)計(jì)，通過分析可以發(fā)現(xiàn)：

　　(1)三款語音助手在知識問答能力上均有進(jìn)步空間。華為小E和咪咕靈犀在多數(shù)問題回答上均需借助第三方搜索引擎反饋的結(jié)果，其中華為小E還需再次按要求輸入以完成跳轉(zhuǎn)。天貓精靈則無法回答部分和地理位置相關(guān)的問題，如針對問題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結(jié)果。

　　(2)三款語音助手雖然功能豐富，但觸發(fā)條件往往較為嚴(yán)苛。如必須完整向華為小E輸入“講一個(gè)安徒生的海的女兒”才能被理解，否則均無法完成要求。天貓精靈雖在大多數(shù)情形下完成的較為出色，但仍在部分場景如“對話訓(xùn)練”或一些指定游戲中，需特定關(guān)鍵詞才可以觸發(fā)。

　　(3)三款語音助手均可針對用戶需求，完成個(gè)性化服務(wù)，但程度存在差異。如三款語音助手均可從其他信息源獲取外賣信息與快遞信息，均可設(shè)置智能提醒，但在其他方面如個(gè)性化回答設(shè)置、推送內(nèi)容設(shè)置以及應(yīng)用偏好選擇上，華為小E均要略輸一等。

　　(4)在初級知識服務(wù)能力中的翻譯與計(jì)算指標(biāo)上，華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對于本次測試要求的英語表現(xiàn)優(yōu)異，更可完成對多種語言的精確互譯。反觀天貓精靈，在計(jì)算上目前只支持一千萬以內(nèi)整數(shù)的相關(guān)運(yùn)算，分?jǐn)?shù)或超過范圍均不能完成，而翻譯中部分長難句翻譯準(zhǔn)確度低。

　　(5)在諸多信息分析與場景處理能力要求更高的指標(biāo)中，咪咕靈犀和天貓精靈表現(xiàn)較好，且天貓精靈更勝一籌。如測試語音助手是否能有邏輯的回答日常對話問題時(shí)，選擇在下午問候“早上好”，天貓精靈與咪咕靈犀會(huì)指出現(xiàn)在已經(jīng)是下午了，而華為小E依然只會(huì)回應(yīng)早上好。在“知識創(chuàng)造能力”的考察中，要求語音助手播放一首周杰倫的勵(lì)志歌曲，和以“新年快樂”為主題寫作一首詩，只有天貓精靈完成要求，而且天貓精靈也是唯一支持多輪對話的語音助手。

　　4.3分析與討論

　　(1)智能語音助手是否具備知識服務(wù)能力?研究結(jié)果表明，主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力。在諸多場景下，語音助手能以聲音為交互介質(zhì)，提供高智力附加值的知識(或技能)密集型服務(wù)，滿足知識服務(wù)對象的知識需求。

　　由于語音可以解放人們的雙手和雙眼，降低產(chǎn)品使用門檻，同時(shí)語音識別與語義理解是人工智能領(lǐng)域相對成熟的技術(shù)[32]，通過語音交互開展知識服務(wù)(多輪對話式問答服務(wù)、生活場景中的決策支持服務(wù)等)是未來的發(fā)展趨勢，而在這方面，智能語音助手具有天然的優(yōu)勢。

　　首先語音助手存在潛在的龐大用戶群。語音助手多以智能手機(jī)為載體，以APP應(yīng)用、小程序(智能音箱也往往有對應(yīng)的小程序)、微信公眾號等諸多形式為公眾提供知識服務(wù)。而隨著智能手機(jī)的普及，語音助手能以較低成本接入大眾生活;其次面對日常生活中多元化、多維度的知識需求，語音助手能夠?yàn)榇蟊娞峁┢栈莸闹R服務(wù)，使知識服務(wù)不局限于專業(yè)人士，而是嵌入生活化的場景里，降低用戶在信息過載時(shí)代中知識獲取的成本。

　　(2)如何評價(jià)智能語音助手的知識服務(wù)能力?本研究構(gòu)造了智能語音助手知識服務(wù)能力的評價(jià)指標(biāo)體系，并應(yīng)用該體系完成了三款主流語音助手的評價(jià)實(shí)驗(yàn)。運(yùn)用該評價(jià)指標(biāo)體系，將抽象的智能語音助手知識服務(wù)能力具體化為3個(gè)一級指標(biāo)、10個(gè)二級指標(biāo)，可以綜合評價(jià)和跟蹤語音助手行業(yè)的進(jìn)展，對比不同語音助手之間的具體優(yōu)劣情況，便于從中及時(shí)發(fā)現(xiàn)好的發(fā)展經(jīng)驗(yàn)和共同問題所在，明確語音助手的研發(fā)方向。

　　本研究得到的指標(biāo)權(quán)重充分反映了專家的認(rèn)知。識別聲音、聲音輸出、被自動(dòng)喚醒所代表的基礎(chǔ)能力權(quán)重超過0.5，其中識別聲音的指標(biāo)權(quán)重更是高達(dá)0.2576。而初級、高級知識服務(wù)能力指標(biāo)權(quán)重占比低，對語音助手的評價(jià)結(jié)果影響小。這說明在現(xiàn)階段，專家更重視基礎(chǔ)交互能力，對智能語音助手提供知識服務(wù)的期望并不高。

　　本研究建設(shè)了相應(yīng)題庫來完成指標(biāo)的測量�？紤]到現(xiàn)階段人工智能的智商與兒童的智力水平相當(dāng)[21]，且功能在不斷的發(fā)展豐富中，在構(gòu)建題庫時(shí)，并沒有完全按照知識服務(wù)的最高標(biāo)準(zhǔn)去設(shè)計(jì)，而是結(jié)合語音助手現(xiàn)有的智能水平與發(fā)展演化的需求，設(shè)置了相應(yīng)的測試問題，如聲音輸出指標(biāo)的題庫選自漢語初學(xué)者對話教程，高級知識服務(wù)能力的測試總結(jié)了現(xiàn)有語音助手能夠完成的方式。由于題庫構(gòu)建靈活，未來隨著人工智能技術(shù)的進(jìn)步、智能產(chǎn)品智力水平的不斷提高以及語音助手領(lǐng)域的迅速發(fā)展，測試題庫支持不斷升級，將在題目選擇上上升難度，場景設(shè)置上更具隨機(jī)性與普適性。

　　(3)應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力?從相應(yīng)指標(biāo)所占的權(quán)重來看，語音助手的基礎(chǔ)能力仍然是現(xiàn)階段專家關(guān)注的最重要的方面，也是當(dāng)前用戶感知最強(qiáng)烈的方面。因此，亟需提高智能語音助手的基礎(chǔ)能力，如在信息輸出端注重合成語音的口語化、自然化、人性化[33]，在信息輸入端提供可視化反饋，增加用戶可控感[34]，并輔助其它應(yīng)用，設(shè)計(jì)出實(shí)現(xiàn)各種拓展功能的接口來增加多種信息的交互能力[35]。

　　在初級知識服務(wù)能力方面，根據(jù)人們的一般認(rèn)知，三個(gè)二級指標(biāo)在技術(shù)實(shí)現(xiàn)難度上從高到低排序分別是知識問答、翻譯和數(shù)學(xué)運(yùn)算。三個(gè)語音助手在知識問答能力上的得分普遍較低，比較不同種類問題回答準(zhǔn)確率之后發(fā)現(xiàn)，相比于事實(shí)類問題和定義類問題，語音助手往往不擅長回答YES-NO問題和觀點(diǎn)類問題，這證明在自然語言處理和知識抽取層面仍有待進(jìn)一步研發(fā)。然而，三個(gè)語音助手在數(shù)據(jù)運(yùn)算能力上的得分卻均高于翻譯能力，這一方面是由于部分?jǐn)?shù)學(xué)運(yùn)算超過了語音助手的能力范圍，如華為小E和咪咕靈犀不能完成“階乘”運(yùn)算、天貓精靈不能完成分?jǐn)?shù)或非整數(shù)的計(jì)算以及大于一千萬的整數(shù)的運(yùn)算;另一方面，這反映了在語音交互的場景下，信息系統(tǒng)(智能語音助手)在知識服務(wù)相關(guān)任務(wù)上的表現(xiàn)有別于傳統(tǒng)的圖形界面交互場景，這也是未來有待進(jìn)一步探索的方向。

　　在高級知識服務(wù)能力方面，普遍存在兩點(diǎn)問題：一是功能情景有限，二是某些功能觸發(fā)條件只支持用戶輸入顯式查詢或命令，即明確的觸發(fā)詞。這不僅導(dǎo)致用戶使用感不佳，也使一些功能不易被用戶發(fā)現(xiàn)。所以建議在保證不干擾用戶生活的前提下，提供更人性化的功能觸發(fā)條件并配以友好的用戶指導(dǎo)。如定期提示用戶功能更新及其觸發(fā)方法，或結(jié)合語境情景理解用戶的隱式對話線索[10]等。

　　從搭載語音助手的平臺上來看，手機(jī)自帶語音助手的得分明顯落后于語音助手APP和智能音箱，而手機(jī)自帶語音助手卻是廣大普通用戶最容易接觸到的語音助手產(chǎn)品[2]，具有龐大的用戶群體。提高手機(jī)自帶語音助手的知識服務(wù)能力，有利于知識服務(wù)惠及更廣泛的社會(huì)群體，所以，亟需提高手機(jī)自帶語音助手的知識服務(wù)能力。同時(shí)，智能音箱在高級知識服務(wù)能力上表現(xiàn)較為優(yōu)秀，特別是在個(gè)性化服務(wù)能力指標(biāo)上的表現(xiàn)最為突出，其與智能家居的進(jìn)一步關(guān)聯(lián)可有效彌補(bǔ)自身便攜性不足的固有缺點(diǎn)，有效推進(jìn)生活智能化。

　　5結(jié)語

　　面對知識服務(wù)對象大眾化、服務(wù)手段多樣化、服務(wù)內(nèi)容智能化的時(shí)代趨勢，社會(huì)亟需一個(gè)普惠的工具來滿足泛在的知識需求、服務(wù)大眾的日常生活‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。智能語音助手作為新型知識服務(wù)主體，具有填補(bǔ)該空缺的天然優(yōu)勢。

　　本文對智能語音助手的知識服務(wù)能力進(jìn)行了評價(jià)研究。首先，構(gòu)建了智能語音助手知識服務(wù)能力的評價(jià)指標(biāo)體系，通過專家調(diào)查得到的指標(biāo)權(quán)重很好地反映了現(xiàn)階段人們對智能語音助手的期望和態(tài)度;其次，根據(jù)智能語音助手現(xiàn)階段的技術(shù)水平和智能程度，構(gòu)建了相應(yīng)的測試題庫，且這一題庫可以隨著智能語音助手技術(shù)水平和智力程度的提高進(jìn)行動(dòng)態(tài)升級，以保證本研究提出的評價(jià)方法具有一定的動(dòng)態(tài)性和靈活性;第三，對典型的中文智能語音助手進(jìn)行評價(jià)實(shí)驗(yàn)，發(fā)現(xiàn)了目前存在的問題和不足，提出了相應(yīng)的建議。

　　但本研究仍存在一些不足，如評價(jià)指標(biāo)體系可以進(jìn)一步完善、專家調(diào)查的人數(shù)和范圍可以進(jìn)一步擴(kuò)大等。在后續(xù)研究中，將進(jìn)一步優(yōu)化智能語音助手知識服務(wù)能力的評價(jià)指標(biāo)體系、擴(kuò)大層次分析法專家調(diào)查的規(guī)模。

　　智能方向論文范文：工程機(jī)械智能化信息技術(shù)的應(yīng)用

　　本文主要針對工程機(jī)械智能化信息技術(shù)的應(yīng)用展開研究，并針對工程領(lǐng)域應(yīng)用的電子信息技術(shù)進(jìn)行淺析，希望能夠?yàn)橄嚓P(guān)技術(shù)人員提供理論幫助。

　　【關(guān)鍵詞】控制工程,機(jī)械電子工程,應(yīng)用