本文摘要:摘要:文章從基礎(chǔ)能力、初級(jí)知識(shí)服務(wù)能力、高級(jí)知識(shí)服務(wù)能力三個(gè)方面,篩選出十個(gè)二級(jí)指標(biāo),通過(guò)層次分析法確定指標(biāo)權(quán)重,根據(jù)智能語(yǔ)音助手現(xiàn)階段的智力水平,為每個(gè)二級(jí)指標(biāo)選取了相應(yīng)的測(cè)試問(wèn)題,構(gòu)建了智能語(yǔ)音助手的知識(shí)服務(wù)能力評(píng)價(jià)體系,最后以三個(gè)主
摘要:文章從基礎(chǔ)能力、初級(jí)知識(shí)服務(wù)能力、高級(jí)知識(shí)服務(wù)能力三個(gè)方面,篩選出十個(gè)二級(jí)指標(biāo),通過(guò)層次分析法確定指標(biāo)權(quán)重,根據(jù)智能語(yǔ)音助手現(xiàn)階段的智力水平,為每個(gè)二級(jí)指標(biāo)選取了相應(yīng)的測(cè)試問(wèn)題,構(gòu)建了智能語(yǔ)音助手的知識(shí)服務(wù)能力評(píng)價(jià)體系,最后以三個(gè)主流的智能語(yǔ)音助手為對(duì)象進(jìn)行了實(shí)證評(píng)價(jià)分析。構(gòu)建的評(píng)價(jià)指標(biāo)體系具有實(shí)用性和動(dòng)態(tài)性,基礎(chǔ)能力的權(quán)重最大,初級(jí)知識(shí)服務(wù)能力和高級(jí)知識(shí)服務(wù)能力次之,實(shí)證研究的結(jié)果表明,現(xiàn)階段主流的中文智能語(yǔ)音助手已經(jīng)具備了一定的知識(shí)服務(wù)能力,但仍然存在較大的提升空間。
關(guān)鍵詞:智能語(yǔ)音助手,知識(shí)服務(wù),知識(shí)服務(wù)能力,層次分析法
1引言
近年來(lái),隨著人工智能以及語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,智能語(yǔ)音助手逐漸為人們所熟知。目前國(guó)內(nèi)外比較成功的智能語(yǔ)音助手包括亞馬遜Alexa、谷歌助手GoogleAssistant、蘋果Siri、微軟Cortana、百度度秘、咪咕靈犀、天貓精靈等。來(lái)自前瞻產(chǎn)業(yè)研究院的資料顯示,在2018年中國(guó)智能語(yǔ)音市場(chǎng)的規(guī)模已經(jīng)突破了160億元[1]。美國(guó)市場(chǎng)研究機(jī)構(gòu)StrategyAnalytics近日發(fā)布的報(bào)告也認(rèn)為,2023年全球?qū)⒂?0%的智能手機(jī)擁有智能語(yǔ)音助手[2]。
智能語(yǔ)音助手被廣泛應(yīng)用在醫(yī)療健康服務(wù)、圖書館服務(wù)、知識(shí)管理等場(chǎng)景中,而在這些場(chǎng)景下,語(yǔ)音助手均可以視作知識(shí)服務(wù)主體。它需要根據(jù)用戶的語(yǔ)音輸入內(nèi)容識(shí)別用戶多樣化需求,再為滿足需求獲取和加工信息,最后利用內(nèi)在程序以及一些具體的功能如詩(shī)歌創(chuàng)作、知識(shí)問(wèn)答、智能提醒等來(lái)反饋信息并提供服務(wù)。
目前有關(guān)智能語(yǔ)音助手的研究,主要集中在語(yǔ)音助手的設(shè)計(jì)與優(yōu)化、語(yǔ)音助手在不同場(chǎng)景中的應(yīng)用、用戶對(duì)語(yǔ)音助手智能程度的評(píng)價(jià)等方面,對(duì)于智能語(yǔ)音助手知識(shí)服務(wù)的相關(guān)研究非常匱乏。本研究試圖回答以下問(wèn)題:智能語(yǔ)音助手是否具備一定的知識(shí)服務(wù)能力?如何評(píng)價(jià)智能語(yǔ)音助手的知識(shí)服務(wù)能力?應(yīng)該從哪些方面提升智能語(yǔ)音助手的知識(shí)服務(wù)能力?
2文獻(xiàn)綜述
2.1智能語(yǔ)音助手
現(xiàn)階段智能語(yǔ)音助手的相關(guān)研究有許多。一部分研究著眼于拓展智能語(yǔ)音助手在不同場(chǎng)景的應(yīng)用。如醫(yī)療健康領(lǐng)域[3-4]、智能家居應(yīng)用[5]、自動(dòng)駕駛領(lǐng)域[6]、或者個(gè)人與集體的知識(shí)管理領(lǐng)域[7-8]等。另一部分研究則關(guān)注智能語(yǔ)音助手的設(shè)計(jì)與優(yōu)化。如從語(yǔ)音識(shí)別層面、語(yǔ)言表達(dá)層面[9]進(jìn)行分析,或者針對(duì)現(xiàn)有的開(kāi)發(fā)方法和邏輯框架進(jìn)行改進(jìn)[10]。
還有一些研究,則是將注意力放在了使用智能語(yǔ)音設(shè)備的用戶身上。有些學(xué)者通過(guò)設(shè)計(jì)模型[11]或設(shè)置特殊場(chǎng)景[12],分析用戶行為來(lái)確定用戶的滿意程度。另一些學(xué)者通過(guò)爬取用戶評(píng)論數(shù)據(jù)、收集用戶使用記錄等方式,間接獲得用戶反饋,完成對(duì)智能語(yǔ)音助手的評(píng)價(jià)[13]或?qū)φZ(yǔ)音助手進(jìn)行優(yōu)化設(shè)計(jì)[14]。也有學(xué)者直接通過(guò)問(wèn)卷調(diào)查法、訪談法或?qū)嶒?yàn)法,得到不同人對(duì)語(yǔ)音助手智能程度的主觀評(píng)價(jià)[15]。
2.2智能產(chǎn)品評(píng)價(jià)
最著名的測(cè)試人工智能是否具有智能的方法是圖靈測(cè)試[16],通過(guò)相互隔離的交談后是否能準(zhǔn)確分辨另一方是人還是計(jì)算機(jī),來(lái)判斷計(jì)算機(jī)是否具備智能。但是,也有學(xué)者質(zhì)疑了這種人為判斷方法的客觀性[17]。
對(duì)智能產(chǎn)品的定性評(píng)測(cè)包括:Bringsjord等[18]提出的LovelaceTest,該測(cè)試通過(guò)讓智能系統(tǒng)創(chuàng)造小說(shuō)或畫作來(lái)判定智能系統(tǒng)是否具有人的認(rèn)知能力;Riedl[19]在Bringsjord研究的基礎(chǔ)上設(shè)計(jì)了一個(gè)改良版的Lovelace2.0Test,認(rèn)為如果程序按照要求所創(chuàng)作的內(nèi)容被判定為合乎邏輯或引發(fā)裁判共鳴,那么此人工智能系統(tǒng)就可以被認(rèn)為具有智能;Malinowski和Fritz[20]通過(guò)讓測(cè)試對(duì)象描述圖片內(nèi)容并回答相關(guān)常識(shí)性問(wèn)題來(lái)進(jìn)行智能判斷;Ohlsson等[21]將針對(duì)4-7.25歲孩子的VerbalIQ測(cè)試應(yīng)用在人工智能的智商測(cè)定中。
有學(xué)者從定量角度對(duì)智能產(chǎn)品的智力水平進(jìn)行評(píng)價(jià),如楊強(qiáng)[22]提出“終身學(xué)習(xí)測(cè)試”,通過(guò)判斷計(jì)算機(jī)能否通過(guò)學(xué)習(xí)提升知識(shí)水平來(lái)判斷其是否是智能的;劉峰[23]利用德?tīng)柗品▽?duì)人工智能的智商測(cè)量標(biāo)準(zhǔn)進(jìn)行確定,并提出了定量評(píng)測(cè)問(wèn)題,通過(guò)設(shè)計(jì)出的互聯(lián)網(wǎng)智力評(píng)測(cè)系統(tǒng),完成了對(duì)全球50個(gè)搜索引擎和人類對(duì)照組的智商測(cè)試。另外,劉峰[24]將人工智能的智商分為通用智商、服務(wù)智商和價(jià)值智商三類,并針對(duì)不同方面的智能,進(jìn)行了一定程度上的指標(biāo)區(qū)別。
3智能語(yǔ)音助手的知識(shí)服務(wù)能力評(píng)價(jià)體系構(gòu)建
3.1評(píng)價(jià)指標(biāo)體系構(gòu)建
知識(shí)服務(wù)是指以信息知識(shí)的搜尋、組織、分析、重組的知識(shí)和能力為基礎(chǔ),根據(jù)用戶的問(wèn)題和環(huán)境,融入用戶解決問(wèn)題的過(guò)程中,提出能夠有效支持知識(shí)應(yīng)用和知識(shí)創(chuàng)新的服務(wù)[25]。在此定義的基礎(chǔ)上,本研究將智能語(yǔ)音助手的知識(shí)服務(wù)歸納為三個(gè)層次:一是能完成信息的輸入與輸出,即基礎(chǔ)能力;二是對(duì)信息知識(shí)的搜尋、組織、分析、重組,即初級(jí)知識(shí)服務(wù)能力;三是根據(jù)用戶問(wèn)題與環(huán)境,給用戶提供個(gè)性化支持與服務(wù),即高級(jí)知識(shí)服務(wù)能力。這三個(gè)層次就成為智能語(yǔ)音助手知識(shí)服務(wù)能力的一級(jí)指標(biāo)。
在二級(jí)指標(biāo)的選擇上,為了保證指標(biāo)的可信度和代表性,指標(biāo)的設(shè)置最大限度地借鑒相關(guān)研究的成熟量表[23-24,28],結(jié)合本研究針對(duì)智能語(yǔ)音助手的具體應(yīng)用情境,并咨詢了相關(guān)專家學(xué)者來(lái)確定最終選擇結(jié)果。
基礎(chǔ)能力下設(shè)三個(gè)二級(jí)指標(biāo),分別是識(shí)別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力。其中識(shí)別聲音能力對(duì)應(yīng)信息獲取,聲音表達(dá)對(duì)應(yīng)知識(shí)反饋,而被自動(dòng)喚醒則是一切知識(shí)服務(wù)的前提,即語(yǔ)音助手的開(kāi)關(guān)功能。
初級(jí)知識(shí)服務(wù)能力下設(shè)三個(gè)二級(jí)指標(biāo),分別是計(jì)算、翻譯和知識(shí)問(wèn)答能力。一方面,這三項(xiàng)能力指標(biāo)所代表的功能均在用戶的日常生活中被大量使用;另一方面,這三個(gè)指標(biāo)涵蓋了數(shù)學(xué)、語(yǔ)言和各種常識(shí)問(wèn)題,充分反映了智能語(yǔ)音助手獲取信息、加工信息的基礎(chǔ)能力。
高級(jí)知識(shí)服務(wù)能力下設(shè)四個(gè)二級(jí)指標(biāo),分別是知識(shí)創(chuàng)造能力、猜測(cè)和聯(lián)想能力、學(xué)習(xí)能力和個(gè)性化服務(wù)能力。其中知識(shí)創(chuàng)造能力衡量的是語(yǔ)音助手的內(nèi)容創(chuàng)作力,猜測(cè)和聯(lián)想能力考察語(yǔ)音助手的邏輯,學(xué)習(xí)能力則是評(píng)價(jià)語(yǔ)音助手的自主學(xué)習(xí)能力,而個(gè)性化服務(wù)能力主要考察語(yǔ)音助手是否能對(duì)不同用戶提供定制服務(wù)。這四個(gè)二級(jí)指標(biāo)均體現(xiàn)語(yǔ)音助手對(duì)個(gè)性化問(wèn)題與環(huán)境(語(yǔ)境)的識(shí)別和提供針對(duì)性服務(wù)的能力。
3.2基于層次分析法的指標(biāo)權(quán)重確定
本研究運(yùn)用層次分析法,通過(guò)專家經(jīng)驗(yàn)來(lái)衡量各個(gè)指標(biāo)間的相對(duì)重要程度,從而確定指標(biāo)權(quán)重。
3.2.1構(gòu)建層次結(jié)構(gòu)模型
本研究中的評(píng)價(jià)層次體系由三個(gè)層次組成。目標(biāo)層為總目標(biāo),即智能語(yǔ)音助手知識(shí)服務(wù)能力,準(zhǔn)則層分別為基礎(chǔ)能力、初級(jí)知識(shí)服務(wù)能力和高級(jí)知識(shí)服務(wù)能力3個(gè)方面,指標(biāo)層為識(shí)別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力等10個(gè)評(píng)價(jià)指標(biāo)。
3.2.2問(wèn)卷設(shè)計(jì)與發(fā)放
考慮到研究對(duì)象智能語(yǔ)音助手的特殊性,在指標(biāo)權(quán)重確定的專家人選上,并不局限于學(xué)界專家學(xué)者,還有業(yè)界相關(guān)領(lǐng)域的工作人員。為了結(jié)果的準(zhǔn)確性與客觀性,問(wèn)卷內(nèi)容分為兩個(gè)部分:
第一部分為關(guān)于專家的基本問(wèn)題,包括學(xué)歷、工作單位、使用語(yǔ)音助手頻次與種類等。此部分信息用于確定專家對(duì)語(yǔ)音助手的了解程度,從而挑選出高質(zhì)量的問(wèn)卷樣本。
第二部分構(gòu)造判斷矩陣。要求專家依次對(duì)從屬于上一層某個(gè)因素的同層次諸因素用1-9檢驗(yàn)值進(jìn)行兩兩比較,來(lái)確定各因素的重要性。
本研究共發(fā)放33份問(wèn)卷,回收30份,回收率為91%。剔除不符合要求、數(shù)據(jù)不滿足一致性檢驗(yàn)的問(wèn)卷以后,有15份問(wèn)卷進(jìn)入到下一步的分析。15份問(wèn)卷的專家構(gòu)成中,學(xué)界專家有6人,均具有博士學(xué)歷和副教授以上職稱,研究領(lǐng)域?yàn)橹R(shí)服務(wù)、人工智能等;業(yè)界專家有9人,均來(lái)自較知名的通信公司或科技公司。
3.2.3數(shù)據(jù)處理
將專家數(shù)據(jù)錄入YAAHP12.1軟件(一款針對(duì)層次分析法的輔助軟件),在對(duì)智能語(yǔ)音助手知識(shí)服務(wù)能力評(píng)價(jià)指標(biāo)體系中的各級(jí)指標(biāo)進(jìn)行進(jìn)一步分析后,最終得出各指標(biāo)的權(quán)重分配情況。
3.3題庫(kù)構(gòu)建
根據(jù)智能語(yǔ)音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系,本研究為各個(gè)二級(jí)指選取了相應(yīng)的題目,構(gòu)建了智能語(yǔ)音助手知識(shí)服務(wù)能力評(píng)價(jià)的題庫(kù)。為保證測(cè)試結(jié)果的可靠性,題庫(kù)的來(lái)源為相關(guān)的書籍、測(cè)試以及論文,所選擇題目盡量滿足代表性與權(quán)威性。
3.3.1基礎(chǔ)能力題庫(kù)構(gòu)建
基礎(chǔ)能力考察的是信息輸入與輸出能力,不同語(yǔ)音助手的實(shí)現(xiàn)方式并不存在差異。針對(duì)基礎(chǔ)能力下3個(gè)對(duì)應(yīng)的二級(jí)指標(biāo),分別對(duì)它們構(gòu)建題庫(kù)。
識(shí)別聲音的能力是要了解測(cè)試目標(biāo)能否準(zhǔn)確理解語(yǔ)音輸入的測(cè)試題目,要求從語(yǔ)音中識(shí)別出正確的文字。測(cè)試題目從2015年國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議提供的問(wèn)題集中隨機(jī)選擇。
聲音表達(dá)的能力旨在了解語(yǔ)音助手是否合理回答日常對(duì)話,若僅僅是考慮是否能進(jìn)行語(yǔ)音輸出,那么此種標(biāo)準(zhǔn)會(huì)過(guò)于簡(jiǎn)單且無(wú)意義。為了獲得中文的日常對(duì)話內(nèi)容,查閱了《HSK標(biāo)準(zhǔn)教程1》,該書經(jīng)國(guó)家漢辦授權(quán),以漢語(yǔ)水平考試真題作為教學(xué)素材。此教程是為了幫助漢語(yǔ)初學(xué)者學(xué)習(xí)漢語(yǔ)日常對(duì)話所設(shè)計(jì),對(duì)本研究相應(yīng)題庫(kù)的構(gòu)建有重要的指導(dǎo)意義。本研究從該書中挑選了多個(gè)日常對(duì)話場(chǎng)景作為測(cè)試題目。
被自動(dòng)喚醒的能力是要了解測(cè)試目標(biāo)是否能通過(guò)聲音被自動(dòng)喚醒。實(shí)驗(yàn)方式則是通過(guò)多次語(yǔ)音說(shuō)出觸發(fā)詞,觀察語(yǔ)音助手能被自動(dòng)喚醒的次數(shù)。
3.3.2初級(jí)知識(shí)服務(wù)能力題庫(kù)構(gòu)建
初級(jí)知識(shí)服務(wù)能力考察的是語(yǔ)音助手對(duì)信息知識(shí)的搜尋、組織、分析、重組的能力,不同語(yǔ)音助手的實(shí)現(xiàn)方式同樣不存在區(qū)別。針對(duì)初級(jí)知識(shí)服務(wù)能力下相應(yīng)的3個(gè)二級(jí)指標(biāo),分別構(gòu)建題庫(kù)。
知識(shí)問(wèn)答能力是為了了解測(cè)試目標(biāo)的知識(shí)廣度。結(jié)合人機(jī)對(duì)話的相關(guān)問(wèn)題集[26]以及相關(guān)論文[27],并適當(dāng)調(diào)整使其符合語(yǔ)音助手應(yīng)用場(chǎng)景,研究將問(wèn)題分為事實(shí)類問(wèn)題、定義類問(wèn)題、YES-NO問(wèn)題和觀點(diǎn)類問(wèn)題。在題目的選擇上,做到四種問(wèn)題兼顧并同時(shí)聚焦在小學(xué)階段的必修科目上,如語(yǔ)文、社會(huì)和音樂(lè)等。
翻譯能力是為了了解測(cè)試目標(biāo)對(duì)不同語(yǔ)言的轉(zhuǎn)換能力。題庫(kù)選擇上參考了北京大學(xué)的《英漢機(jī)器翻譯測(cè)試大綱》[28],從中選出多個(gè)句子,包括重點(diǎn)列出的長(zhǎng)難句。
計(jì)算能力是為了了解測(cè)試目標(biāo)的計(jì)算能力、計(jì)算速度和正確性。結(jié)合目前語(yǔ)音助手的智能水平,選擇小學(xué)階段的數(shù)學(xué)課程標(biāo)準(zhǔn)“全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(實(shí)驗(yàn)稿)”作為參考,挑選出其中測(cè)試運(yùn)算能力的指標(biāo),包括計(jì)算萬(wàn)以內(nèi)的整數(shù)、小數(shù)、分?jǐn)?shù)、百分?jǐn)?shù)和負(fù)數(shù),和掌握四則運(yùn)算的技能,并依照此分類選擇題目。
3.3.3高級(jí)知識(shí)服務(wù)能力題庫(kù)構(gòu)建
高級(jí)知識(shí)服務(wù)能力,指的是測(cè)試目標(biāo)根據(jù)用戶的問(wèn)題與環(huán)境在信息收集基礎(chǔ)上的創(chuàng)造與服務(wù)能力,概念較為抽象,不同語(yǔ)音助手的實(shí)現(xiàn)方式多樣。為保證實(shí)驗(yàn)的準(zhǔn)確性與公平性,本研究對(duì)常見(jiàn)語(yǔ)音助手進(jìn)行了深入使用,并結(jié)合官網(wǎng)的介紹以及相關(guān)測(cè)評(píng)報(bào)道,總結(jié)歸納了高級(jí)知識(shí)服務(wù)能力下各個(gè)二級(jí)指標(biāo)的實(shí)現(xiàn)方式。在全面考慮不同實(shí)現(xiàn)方式的前提下構(gòu)建出相應(yīng)的題庫(kù)。
知識(shí)創(chuàng)造能力是為了了解測(cè)試目標(biāo)按照給定要求,進(jìn)行二次創(chuàng)造的能力。MarkO.Riedl在語(yǔ)音助手智商測(cè)試的實(shí)驗(yàn)中提出了Lovelace2.0[19]測(cè)試方法,方法是在創(chuàng)造性活動(dòng)中添加關(guān)鍵詞以增加語(yǔ)音助手直接檢索的難度來(lái)確定語(yǔ)音助手的知識(shí)創(chuàng)造能力。因此,本研究結(jié)合現(xiàn)有語(yǔ)音助手功能,對(duì)不同創(chuàng)作形式提出不同要求,根據(jù)是否能反饋有邏輯的結(jié)果來(lái)測(cè)算語(yǔ)音助手的知識(shí)創(chuàng)造能力。
猜測(cè)和聯(lián)想能力是為了了解測(cè)試目標(biāo)根據(jù)給定的材料猜測(cè)所描繪的事物及聯(lián)想相關(guān)事物的能力。根據(jù)上述得分原則,分四類分別構(gòu)建題庫(kù)。謎語(yǔ)選自各版本的“謎語(yǔ)大全”。正反義詞則來(lái)自韋氏兒童智力測(cè)試題[29對(duì)意圖識(shí)別能力的考量,則是參考了有關(guān)搜索引擎自然語(yǔ)音處理的研究結(jié)論。用戶向搜索引擎輸入的簡(jiǎn)短查詢式存在模糊性和歧義性[30],在語(yǔ)音助手應(yīng)用場(chǎng)景同樣適用,所以采取通過(guò)語(yǔ)音輸入模糊指令來(lái)確定其能否準(zhǔn)確理解并滿足用戶要求。你說(shuō)我猜則是測(cè)試語(yǔ)音助手能否通過(guò)問(wèn)用戶問(wèn)題,猜出用戶心中所想的一個(gè)人物或動(dòng)物,題庫(kù)來(lái)源于相關(guān)娛樂(lè)性測(cè)試網(wǎng)站。
學(xué)習(xí)能力是為了了解測(cè)試目標(biāo)能否根據(jù)用戶訓(xùn)練,掌握新的規(guī)則或知識(shí)的能力。其測(cè)試方法是在不同實(shí)現(xiàn)方式下給出特定情景,通過(guò)判定語(yǔ)音助手在該情景下能否完成用戶要求來(lái)確定。如在多輪對(duì)話中針對(duì)某個(gè)話題展開(kāi)需要聯(lián)系前后文的多輪討論,觀察語(yǔ)音助手是否能有邏輯的進(jìn)行回復(fù)來(lái)判定語(yǔ)音助手的多輪對(duì)話能力。
個(gè)性化服務(wù)能力是為了了解測(cè)試目標(biāo)個(gè)性化服務(wù)設(shè)置能力,測(cè)試方法與學(xué)習(xí)能力類似。如用戶偏好設(shè)置下就有一個(gè)情景為是否能根據(jù)用戶喜好實(shí)現(xiàn)智能推送,根據(jù)是否能實(shí)現(xiàn)判斷該語(yǔ)音助手的用戶偏好設(shè)置能力。
3.4測(cè)試方法與評(píng)分原則
由于語(yǔ)音助手與用戶的溝通是以聲音為主。因此實(shí)驗(yàn)中的所有問(wèn)題均采用語(yǔ)音方式輸入?紤]到具體環(huán)境影響,每個(gè)問(wèn)題將重復(fù)三次。
在具體給分上,對(duì)于語(yǔ)音助手基礎(chǔ)能力以及初級(jí)知識(shí)服務(wù)能力下的各個(gè)二級(jí)指標(biāo),每個(gè)測(cè)量對(duì)象均需回答從題庫(kù)中隨機(jī)抽取的相同的10道題(其中被自動(dòng)喚醒的能力是分10次在不同場(chǎng)景下用語(yǔ)音說(shuō)出觸發(fā)詞)。每答對(duì)一題(被自動(dòng)喚醒一次)加10分。即每個(gè)二級(jí)指標(biāo)滿分為100分。
對(duì)于語(yǔ)音助手高級(jí)知識(shí)服務(wù)能力,如本文所述,每個(gè)二級(jí)指標(biāo)實(shí)現(xiàn)方式均可歸納為4類。由于存在語(yǔ)音助手能以不止一類實(shí)現(xiàn)方式完成對(duì)應(yīng)的二級(jí)指標(biāo),所以每類滿分為25分,若4類實(shí)現(xiàn)方式均能完成,則該二級(jí)指標(biāo)記滿分100分。在每類實(shí)現(xiàn)方式下設(shè)置3個(gè)具體場(chǎng)景或題目。若3道均正確完成,則認(rèn)為該類實(shí)現(xiàn)方式完成,記該類滿分,即25分。若全不能完成,則該類記0分。若能部分完成,則認(rèn)為該類還有進(jìn)步空間,記該類滿分的一半,即12.5分。
另外,語(yǔ)音助手在實(shí)現(xiàn)某些用戶要求時(shí),自身雖不具備相應(yīng)功能,卻可以通過(guò)調(diào)用或跳轉(zhuǎn)到其他應(yīng)用來(lái)獲得答案。這雖表現(xiàn)了自身功能的不夠全面,但從側(cè)面體現(xiàn)了該語(yǔ)音助手與其他應(yīng)用的操控與交互能力,所以對(duì)這種狀況,同樣視為能部分完成。
4中文智能語(yǔ)音助手的評(píng)價(jià)實(shí)驗(yàn)
4.1評(píng)價(jià)對(duì)象選擇
中文語(yǔ)音助手應(yīng)用場(chǎng)景多樣,在日常生活中最常見(jiàn)的有三種,分別是手機(jī)自帶語(yǔ)音助手(如蘋果的Siri,三星的Bixby,華為的小E、VIVO的jovi等)、移動(dòng)應(yīng)用語(yǔ)音助手(如百度語(yǔ)音助手、搜狗語(yǔ)音助手、咪咕靈犀等)、還有隨著智能家居不斷發(fā)展的智能音箱(如天貓精靈、小米AI音箱、小度在家等)。本研究根據(jù)網(wǎng)絡(luò)諸多測(cè)評(píng)分別選取了這三大類語(yǔ)音助手中最具代表性的一款產(chǎn)品進(jìn)行評(píng)價(jià)研究,即華為小E、咪咕靈犀和天貓精靈。
4.2評(píng)價(jià)結(jié)果
按總得分從高到低排序,天貓精靈、咪咕靈犀和華為小E的知識(shí)服務(wù)能力得分分別是88.54、85.02、81.24,均超過(guò)了80分,說(shuō)明三個(gè)語(yǔ)音助手均具備了一定的知識(shí)服務(wù)能力。本研究對(duì)被測(cè)評(píng)語(yǔ)音助手各一級(jí)指標(biāo)完成度進(jìn)行統(tǒng)計(jì)。
統(tǒng)計(jì)得出,在基礎(chǔ)能力上,天貓精靈得到了滿分,華為小E和咪咕靈犀均得到97.4分;在初級(jí)知識(shí)服務(wù)能力上,華為小E和咪咕靈犀分?jǐn)?shù)亦相同,均為80.7分,而天貓精靈只得了77.7分;在高級(jí)知識(shí)服務(wù)能力上,分?jǐn)?shù)從高到低分別是天貓精靈(73.4分)、咪咕靈犀(56.6分)、華為小E(36.1分),咪咕靈犀和華為小E均低于60分。
可以看出,三個(gè)語(yǔ)音助手在總分上的較好表現(xiàn)主要得益于在基礎(chǔ)能力指標(biāo)上的較高得分,該一級(jí)指標(biāo)的權(quán)重高達(dá)0.52,而三個(gè)語(yǔ)音助手在該項(xiàng)得分均接近或等于滿分。在初級(jí)知識(shí)服務(wù)能力上三個(gè)語(yǔ)音助手得分接近,均在80分左右,表現(xiàn)良好。但在高級(jí)知識(shí)服務(wù)能力上,各語(yǔ)音助手表現(xiàn)具有較大差異且普遍較差。
對(duì)三個(gè)語(yǔ)音助手在各二級(jí)指標(biāo)的具體得分進(jìn)行統(tǒng)計(jì),通過(guò)分析可以發(fā)現(xiàn):
(1)三款語(yǔ)音助手在知識(shí)問(wèn)答能力上均有進(jìn)步空間。華為小E和咪咕靈犀在多數(shù)問(wèn)題回答上均需借助第三方搜索引擎反饋的結(jié)果,其中華為小E還需再次按要求輸入以完成跳轉(zhuǎn)。天貓精靈則無(wú)法回答部分和地理位置相關(guān)的問(wèn)題,如針對(duì)問(wèn)題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結(jié)果。
(2)三款語(yǔ)音助手雖然功能豐富,但觸發(fā)條件往往較為嚴(yán)苛。如必須完整向華為小E輸入“講一個(gè)安徒生的海的女兒”才能被理解,否則均無(wú)法完成要求。天貓精靈雖在大多數(shù)情形下完成的較為出色,但仍在部分場(chǎng)景如“對(duì)話訓(xùn)練”或一些指定游戲中,需特定關(guān)鍵詞才可以觸發(fā)。
(3)三款語(yǔ)音助手均可針對(duì)用戶需求,完成個(gè)性化服務(wù),但程度存在差異。如三款語(yǔ)音助手均可從其他信息源獲取外賣信息與快遞信息,均可設(shè)置智能提醒,但在其他方面如個(gè)性化回答設(shè)置、推送內(nèi)容設(shè)置以及應(yīng)用偏好選擇上,華為小E均要略輸一等。
(4)在初級(jí)知識(shí)服務(wù)能力中的翻譯與計(jì)算指標(biāo)上,華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對(duì)于本次測(cè)試要求的英語(yǔ)表現(xiàn)優(yōu)異,更可完成對(duì)多種語(yǔ)言的精確互譯。反觀天貓精靈,在計(jì)算上目前只支持一千萬(wàn)以內(nèi)整數(shù)的相關(guān)運(yùn)算,分?jǐn)?shù)或超過(guò)范圍均不能完成,而翻譯中部分長(zhǎng)難句翻譯準(zhǔn)確度低。
(5)在諸多信息分析與場(chǎng)景處理能力要求更高的指標(biāo)中,咪咕靈犀和天貓精靈表現(xiàn)較好,且天貓精靈更勝一籌。如測(cè)試語(yǔ)音助手是否能有邏輯的回答日常對(duì)話問(wèn)題時(shí),選擇在下午問(wèn)候“早上好”,天貓精靈與咪咕靈犀會(huì)指出現(xiàn)在已經(jīng)是下午了,而華為小E依然只會(huì)回應(yīng)早上好。在“知識(shí)創(chuàng)造能力”的考察中,要求語(yǔ)音助手播放一首周杰倫的勵(lì)志歌曲,和以“新年快樂(lè)”為主題寫作一首詩(shī),只有天貓精靈完成要求,而且天貓精靈也是唯一支持多輪對(duì)話的語(yǔ)音助手。
4.3分析與討論
(1)智能語(yǔ)音助手是否具備知識(shí)服務(wù)能力?研究結(jié)果表明,主流的中文智能語(yǔ)音助手已經(jīng)具備了一定的知識(shí)服務(wù)能力。在諸多場(chǎng)景下,語(yǔ)音助手能以聲音為交互介質(zhì),提供高智力附加值的知識(shí)(或技能)密集型服務(wù),滿足知識(shí)服務(wù)對(duì)象的知識(shí)需求。
由于語(yǔ)音可以解放人們的雙手和雙眼,降低產(chǎn)品使用門檻,同時(shí)語(yǔ)音識(shí)別與語(yǔ)義理解是人工智能領(lǐng)域相對(duì)成熟的技術(shù)[32],通過(guò)語(yǔ)音交互開(kāi)展知識(shí)服務(wù)(多輪對(duì)話式問(wèn)答服務(wù)、生活場(chǎng)景中的決策支持服務(wù)等)是未來(lái)的發(fā)展趨勢(shì),而在這方面,智能語(yǔ)音助手具有天然的優(yōu)勢(shì)。
首先語(yǔ)音助手存在潛在的龐大用戶群。語(yǔ)音助手多以智能手機(jī)為載體,以APP應(yīng)用、小程序(智能音箱也往往有對(duì)應(yīng)的小程序)、微信公眾號(hào)等諸多形式為公眾提供知識(shí)服務(wù)。而隨著智能手機(jī)的普及,語(yǔ)音助手能以較低成本接入大眾生活;其次面對(duì)日常生活中多元化、多維度的知識(shí)需求,語(yǔ)音助手能夠?yàn)榇蟊娞峁┢栈莸闹R(shí)服務(wù),使知識(shí)服務(wù)不局限于專業(yè)人士,而是嵌入生活化的場(chǎng)景里,降低用戶在信息過(guò)載時(shí)代中知識(shí)獲取的成本。
(2)如何評(píng)價(jià)智能語(yǔ)音助手的知識(shí)服務(wù)能力?本研究構(gòu)造了智能語(yǔ)音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系,并應(yīng)用該體系完成了三款主流語(yǔ)音助手的評(píng)價(jià)實(shí)驗(yàn)。運(yùn)用該評(píng)價(jià)指標(biāo)體系,將抽象的智能語(yǔ)音助手知識(shí)服務(wù)能力具體化為3個(gè)一級(jí)指標(biāo)、10個(gè)二級(jí)指標(biāo),可以綜合評(píng)價(jià)和跟蹤語(yǔ)音助手行業(yè)的進(jìn)展,對(duì)比不同語(yǔ)音助手之間的具體優(yōu)劣情況,便于從中及時(shí)發(fā)現(xiàn)好的發(fā)展經(jīng)驗(yàn)和共同問(wèn)題所在,明確語(yǔ)音助手的研發(fā)方向。
本研究得到的指標(biāo)權(quán)重充分反映了專家的認(rèn)知。識(shí)別聲音、聲音輸出、被自動(dòng)喚醒所代表的基礎(chǔ)能力權(quán)重超過(guò)0.5,其中識(shí)別聲音的指標(biāo)權(quán)重更是高達(dá)0.2576。而初級(jí)、高級(jí)知識(shí)服務(wù)能力指標(biāo)權(quán)重占比低,對(duì)語(yǔ)音助手的評(píng)價(jià)結(jié)果影響小。這說(shuō)明在現(xiàn)階段,專家更重視基礎(chǔ)交互能力,對(duì)智能語(yǔ)音助手提供知識(shí)服務(wù)的期望并不高。
本研究建設(shè)了相應(yīng)題庫(kù)來(lái)完成指標(biāo)的測(cè)量?紤]到現(xiàn)階段人工智能的智商與兒童的智力水平相當(dāng)[21],且功能在不斷的發(fā)展豐富中,在構(gòu)建題庫(kù)時(shí),并沒(méi)有完全按照知識(shí)服務(wù)的最高標(biāo)準(zhǔn)去設(shè)計(jì),而是結(jié)合語(yǔ)音助手現(xiàn)有的智能水平與發(fā)展演化的需求,設(shè)置了相應(yīng)的測(cè)試問(wèn)題,如聲音輸出指標(biāo)的題庫(kù)選自漢語(yǔ)初學(xué)者對(duì)話教程,高級(jí)知識(shí)服務(wù)能力的測(cè)試總結(jié)了現(xiàn)有語(yǔ)音助手能夠完成的方式。由于題庫(kù)構(gòu)建靈活,未來(lái)隨著人工智能技術(shù)的進(jìn)步、智能產(chǎn)品智力水平的不斷提高以及語(yǔ)音助手領(lǐng)域的迅速發(fā)展,測(cè)試題庫(kù)支持不斷升級(jí),將在題目選擇上上升難度,場(chǎng)景設(shè)置上更具隨機(jī)性與普適性。
(3)應(yīng)該從哪些方面提升智能語(yǔ)音助手的知識(shí)服務(wù)能力?從相應(yīng)指標(biāo)所占的權(quán)重來(lái)看,語(yǔ)音助手的基礎(chǔ)能力仍然是現(xiàn)階段專家關(guān)注的最重要的方面,也是當(dāng)前用戶感知最強(qiáng)烈的方面。因此,亟需提高智能語(yǔ)音助手的基礎(chǔ)能力,如在信息輸出端注重合成語(yǔ)音的口語(yǔ)化、自然化、人性化[33],在信息輸入端提供可視化反饋,增加用戶可控感[34],并輔助其它應(yīng)用,設(shè)計(jì)出實(shí)現(xiàn)各種拓展功能的接口來(lái)增加多種信息的交互能力[35]。
在初級(jí)知識(shí)服務(wù)能力方面,根據(jù)人們的一般認(rèn)知,三個(gè)二級(jí)指標(biāo)在技術(shù)實(shí)現(xiàn)難度上從高到低排序分別是知識(shí)問(wèn)答、翻譯和數(shù)學(xué)運(yùn)算。三個(gè)語(yǔ)音助手在知識(shí)問(wèn)答能力上的得分普遍較低,比較不同種類問(wèn)題回答準(zhǔn)確率之后發(fā)現(xiàn),相比于事實(shí)類問(wèn)題和定義類問(wèn)題,語(yǔ)音助手往往不擅長(zhǎng)回答YES-NO問(wèn)題和觀點(diǎn)類問(wèn)題,這證明在自然語(yǔ)言處理和知識(shí)抽取層面仍有待進(jìn)一步研發(fā)。然而,三個(gè)語(yǔ)音助手在數(shù)據(jù)運(yùn)算能力上的得分卻均高于翻譯能力,這一方面是由于部分?jǐn)?shù)學(xué)運(yùn)算超過(guò)了語(yǔ)音助手的能力范圍,如華為小E和咪咕靈犀不能完成“階乘”運(yùn)算、天貓精靈不能完成分?jǐn)?shù)或非整數(shù)的計(jì)算以及大于一千萬(wàn)的整數(shù)的運(yùn)算;另一方面,這反映了在語(yǔ)音交互的場(chǎng)景下,信息系統(tǒng)(智能語(yǔ)音助手)在知識(shí)服務(wù)相關(guān)任務(wù)上的表現(xiàn)有別于傳統(tǒng)的圖形界面交互場(chǎng)景,這也是未來(lái)有待進(jìn)一步探索的方向。
在高級(jí)知識(shí)服務(wù)能力方面,普遍存在兩點(diǎn)問(wèn)題:一是功能情景有限,二是某些功能觸發(fā)條件只支持用戶輸入顯式查詢或命令,即明確的觸發(fā)詞。這不僅導(dǎo)致用戶使用感不佳,也使一些功能不易被用戶發(fā)現(xiàn)。所以建議在保證不干擾用戶生活的前提下,提供更人性化的功能觸發(fā)條件并配以友好的用戶指導(dǎo)。如定期提示用戶功能更新及其觸發(fā)方法,或結(jié)合語(yǔ)境情景理解用戶的隱式對(duì)話線索[10]等。
從搭載語(yǔ)音助手的平臺(tái)上來(lái)看,手機(jī)自帶語(yǔ)音助手的得分明顯落后于語(yǔ)音助手APP和智能音箱,而手機(jī)自帶語(yǔ)音助手卻是廣大普通用戶最容易接觸到的語(yǔ)音助手產(chǎn)品[2],具有龐大的用戶群體。提高手機(jī)自帶語(yǔ)音助手的知識(shí)服務(wù)能力,有利于知識(shí)服務(wù)惠及更廣泛的社會(huì)群體,所以,亟需提高手機(jī)自帶語(yǔ)音助手的知識(shí)服務(wù)能力。同時(shí),智能音箱在高級(jí)知識(shí)服務(wù)能力上表現(xiàn)較為優(yōu)秀,特別是在個(gè)性化服務(wù)能力指標(biāo)上的表現(xiàn)最為突出,其與智能家居的進(jìn)一步關(guān)聯(lián)可有效彌補(bǔ)自身便攜性不足的固有缺點(diǎn),有效推進(jìn)生活智能化。
5結(jié)語(yǔ)
面對(duì)知識(shí)服務(wù)對(duì)象大眾化、服務(wù)手段多樣化、服務(wù)內(nèi)容智能化的時(shí)代趨勢(shì),社會(huì)亟需一個(gè)普惠的工具來(lái)滿足泛在的知識(shí)需求、服務(wù)大眾的日常生活。智能語(yǔ)音助手作為新型知識(shí)服務(wù)主體,具有填補(bǔ)該空缺的天然優(yōu)勢(shì)。
本文對(duì)智能語(yǔ)音助手的知識(shí)服務(wù)能力進(jìn)行了評(píng)價(jià)研究。首先,構(gòu)建了智能語(yǔ)音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系,通過(guò)專家調(diào)查得到的指標(biāo)權(quán)重很好地反映了現(xiàn)階段人們對(duì)智能語(yǔ)音助手的期望和態(tài)度;其次,根據(jù)智能語(yǔ)音助手現(xiàn)階段的技術(shù)水平和智能程度,構(gòu)建了相應(yīng)的測(cè)試題庫(kù),且這一題庫(kù)可以隨著智能語(yǔ)音助手技術(shù)水平和智力程度的提高進(jìn)行動(dòng)態(tài)升級(jí),以保證本研究提出的評(píng)價(jià)方法具有一定的動(dòng)態(tài)性和靈活性;第三,對(duì)典型的中文智能語(yǔ)音助手進(jìn)行評(píng)價(jià)實(shí)驗(yàn),發(fā)現(xiàn)了目前存在的問(wèn)題和不足,提出了相應(yīng)的建議。
但本研究仍存在一些不足,如評(píng)價(jià)指標(biāo)體系可以進(jìn)一步完善、專家調(diào)查的人數(shù)和范圍可以進(jìn)一步擴(kuò)大等。在后續(xù)研究中,將進(jìn)一步優(yōu)化智能語(yǔ)音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系、擴(kuò)大層次分析法專家調(diào)查的規(guī)模。
智能方向論文范文:工程機(jī)械智能化信息技術(shù)的應(yīng)用
本文主要針對(duì)工程機(jī)械智能化信息技術(shù)的應(yīng)用展開(kāi)研究,并針對(duì)工程領(lǐng)域應(yīng)用的電子信息技術(shù)進(jìn)行淺析,希望能夠?yàn)橄嚓P(guān)技術(shù)人員提供理論幫助。
【關(guān)鍵詞】控制工程,機(jī)械電子工程,應(yīng)用
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/21141.html