本文摘要:摘要:[目的/意義]實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別,提高學(xué)術(shù)搜索引擎的效率。[方法/過(guò)程]結(jié)合已有查詢意圖特征和學(xué)術(shù)搜索特點(diǎn),從基本信息、特定關(guān)鍵詞、實(shí)體和出現(xiàn)頻率4個(gè)層面對(duì)查詢表達(dá)式進(jìn)行特征構(gòu)造,運(yùn)用NaiveBayes、Logistic回歸、SVM、RandomForest四
摘要:[目的/意義]實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別,提高學(xué)術(shù)搜索引擎的效率。[方法/過(guò)程]結(jié)合已有查詢意圖特征和學(xué)術(shù)搜索特點(diǎn),從基本信息、特定關(guān)鍵詞、實(shí)體和出現(xiàn)頻率4個(gè)層面對(duì)查詢表達(dá)式進(jìn)行特征構(gòu)造,運(yùn)用NaiveBayes、Logistic回歸、SVM、RandomForest四種分類(lèi)算法進(jìn)行查詢意圖自動(dòng)識(shí)別的預(yù)實(shí)驗(yàn),計(jì)算不同方法的準(zhǔn)確率、召回率和F值。提出了一種將Logistic回歸算法所預(yù)測(cè)的識(shí)別結(jié)果擴(kuò)展到大規(guī)模數(shù)據(jù)集、提取“關(guān)鍵詞類(lèi)”特征的方法構(gòu)建學(xué)術(shù)查詢意圖識(shí)別的深度學(xué)習(xí)兩層分類(lèi)器。[結(jié)果/結(jié)論]兩層分類(lèi)器的宏平均F1值為0.651,優(yōu)于其他算法,能夠有效平衡不同學(xué)術(shù)查詢意圖的類(lèi)別準(zhǔn)確率與召回率效果。兩層分類(lèi)器在學(xué)術(shù)探索類(lèi)的效果最好,F(xiàn)1值為0.783。
關(guān)鍵詞:學(xué)術(shù)查詢意圖自動(dòng)識(shí)別兩層分類(lèi)器
1 引言
隨著科學(xué)文獻(xiàn)等學(xué)術(shù)資源的爆炸增長(zhǎng)[1],為快速獲取學(xué)術(shù)信息、方便學(xué)習(xí)生活、提高科研工作效率,專業(yè)學(xué)術(shù)搜索引擎從面對(duì)少量專業(yè)用戶發(fā)展為面向大量的、不同類(lèi)型的用戶;從面對(duì)單一的科研需求發(fā)展為面向復(fù)雜的多樣性需求[2]。與此同時(shí),由于學(xué)術(shù)數(shù)據(jù)庫(kù)(WebofScience、CNKI等)的檢索系統(tǒng)的專業(yè)化,各數(shù)據(jù)庫(kù)間不能共享互聯(lián),“一站式”學(xué)術(shù)搜索引擎如百度學(xué)術(shù)、谷歌學(xué)術(shù)成為學(xué)術(shù)查詢的首選[3-4]。
由于用戶的學(xué)術(shù)背景和學(xué)術(shù)能力不同,在進(jìn)行學(xué)術(shù)查詢時(shí)其需求往往不同。對(duì)于使用學(xué)術(shù)搜索引擎的科研用戶,其需要多樣化的學(xué)術(shù)信息,了解研究進(jìn)展、追蹤研究前沿,簡(jiǎn)短的查詢表達(dá)式并不足以準(zhǔn)確表達(dá)其學(xué)術(shù)查詢意圖;對(duì)于學(xué)術(shù)新手或非科研用戶使用學(xué)術(shù)搜索引擎時(shí),因其對(duì)相關(guān)學(xué)術(shù)領(lǐng)域的了解較淺,進(jìn)行學(xué)術(shù)查詢時(shí)的關(guān)鍵詞并不準(zhǔn)確,從而不能獲取精準(zhǔn)的學(xué)術(shù)信息。
學(xué)術(shù)查詢意圖為用戶進(jìn)行學(xué)術(shù)搜索時(shí)通過(guò)查詢表達(dá)式所表達(dá)的用戶信息需求。現(xiàn)有的學(xué)術(shù)搜索引擎多為基于關(guān)鍵詞匹配的搜索技術(shù),不能識(shí)別學(xué)術(shù)查詢語(yǔ)句的查詢意圖,而通過(guò)對(duì)學(xué)術(shù)查詢意圖的識(shí)別,可為進(jìn)一步優(yōu)化學(xué)術(shù)搜索結(jié)果、提高檢索效率、節(jié)約用戶時(shí)間,使得用戶的學(xué)術(shù)搜索體驗(yàn)得以提高、獲取更精準(zhǔn)的學(xué)術(shù)信息! 〔樵円鈭D自動(dòng)識(shí)別多采用文本分類(lèi)的算法,研究人員通常針對(duì)一個(gè)分類(lèi)算法,通過(guò)組合不同的特征,試驗(yàn)查詢意圖識(shí)別的效果。實(shí)驗(yàn)的基礎(chǔ)是查詢意圖的類(lèi)目體系,而針對(duì)學(xué)術(shù)查詢意圖的分類(lèi)大多在普通查詢意圖的基礎(chǔ)上展開(kāi),缺乏學(xué)術(shù)查詢意圖的專門(mén)類(lèi)目體系,在此基礎(chǔ)上,本文的前序基礎(chǔ)研究構(gòu)建了學(xué)術(shù)查詢意圖類(lèi)目體系,共分為5類(lèi):
(1)學(xué)術(shù)文獻(xiàn)類(lèi):指用戶通過(guò)查詢式獲取某篇特定的學(xué)術(shù)出版文獻(xiàn),如通過(guò)學(xué)術(shù)文獻(xiàn)的標(biāo)題構(gòu)造查詢式進(jìn)行查詢! (2)學(xué)術(shù)實(shí)體類(lèi):指用戶通過(guò)查詢獲取學(xué)術(shù)實(shí)體的相關(guān)信息,如科研機(jī)構(gòu)實(shí)體“山東省農(nóng)業(yè)科學(xué)院作物研究所”! (3)學(xué)術(shù)探索類(lèi):指用戶在某個(gè)領(lǐng)域進(jìn)行探索性查詢,需多次交互查詢才可獲取所需的學(xué)術(shù)資源,如對(duì)學(xué)術(shù)概念詞“神經(jīng)網(wǎng)絡(luò)算法”進(jìn)行查詢等!(4)知識(shí)問(wèn)答類(lèi):指用戶通過(guò)查詢獲取某個(gè)特定問(wèn)題的答案,如“亞急性甲狀腺炎治愈后會(huì)復(fù)發(fā)嗎?”等問(wèn)題! (5)非學(xué)術(shù)文獻(xiàn)類(lèi):指用戶通過(guò)查詢希望獲取一些政策、行業(yè)報(bào)告等非學(xué)術(shù)文獻(xiàn),如查詢“汽車(chē)下鄉(xiāng)的政策”等! 榱诉m度提高學(xué)術(shù)查詢意圖分類(lèi)的召回率,本研究構(gòu)建了基于Logistic回歸算法的兩層分類(lèi)器來(lái)實(shí)現(xiàn)學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別,提出了適用于學(xué)術(shù)查詢意圖識(shí)別的4個(gè)特征:基本信息、詞中信息、實(shí)體信息和出現(xiàn)頻率,并在百度學(xué)術(shù)查詢?nèi)罩緮?shù)據(jù)集進(jìn)行測(cè)試和評(píng)價(jià)。
2 相關(guān)研究
關(guān)于學(xué)術(shù)查詢意圖識(shí)別的研究較少,多為面向圖書(shū)查詢的意圖識(shí)別研究或應(yīng)用,如胡伶霞[5]將圖書(shū)檢索的查詢意圖分為單意圖與多意圖并利用詞典對(duì)檢索詞進(jìn)行分類(lèi),李兵[6]借鑒與完善胡伶霞[5]的圖書(shū)檢索的查詢意圖體系用以提高圖書(shū)分面檢索的效果。針對(duì)學(xué)術(shù)查詢意圖識(shí)別研究較少且多聚焦在圖書(shū)查詢意圖研究這一現(xiàn)狀,考慮到學(xué)術(shù)搜索是搜索的一個(gè)特定垂直搜索子領(lǐng)域,因此可借鑒綜合搜索引擎中的用戶查詢意圖識(shí)別研究。
以綜合搜索引擎中的用戶查詢意圖為研究對(duì)象的查詢意圖識(shí)別分類(lèi)方法可分為人工識(shí)別方法[7-8]和自 動(dòng)識(shí)別方法[9]。由于查詢意圖人工識(shí)別成本較大,多數(shù)研究采用自動(dòng)識(shí)別方法,涉及的分類(lèi)特征以及分類(lèi)算法歸納如下:
2.1 查詢意圖自動(dòng)識(shí)別的分類(lèi)特征來(lái)源
查詢意圖自動(dòng)識(shí)別的分類(lèi)特征來(lái)源包括“搜索引擎檢索結(jié)果的點(diǎn)擊行為、用戶查詢表達(dá)式”等。J.Brenes等[10]指出用戶的點(diǎn)擊行為是查詢意圖分類(lèi)的最有效特征,但點(diǎn)擊行為數(shù)據(jù)涉及用戶隱私,存在獲取權(quán)限的問(wèn)題,僅有Y.Liu等[11]的實(shí)驗(yàn)中利用了點(diǎn)擊分布作為特征進(jìn)行查詢意圖識(shí)別。研究人員大多通過(guò)對(duì)查詢表達(dá)式進(jìn)行分析以獲取綜合搜索中查詢意圖的分類(lèi)特征,可歸納概括為“基本信息、詞中信息和實(shí)體信息”三類(lèi)。
(1)基本信息:指查詢表達(dá)式的長(zhǎng)度、詞項(xiàng)個(gè)數(shù)、詞項(xiàng)長(zhǎng)度等基本信息,比如N.Belkin[12]通過(guò)實(shí)驗(yàn)得出查詢表達(dá)式詞長(zhǎng)為2以下的意圖大概率為導(dǎo)航類(lèi),詞長(zhǎng)越長(zhǎng)的查詢表達(dá)式為信息類(lèi)查詢的概率越大! (2)詞中信息:指查詢表達(dá)式中所含的詞匯信息。研究者們對(duì)該類(lèi)特征的研究較多,比如B.Jansen[13]和M.Herrera[14]先后總結(jié)了英文綜合搜索中關(guān)鍵詞特征與查詢意圖的對(duì)應(yīng)情況;張曉娟[15]總結(jié)了中文綜合搜索查詢中不同意圖類(lèi)別查詢的特征詞。針對(duì)學(xué)術(shù)搜索,M.Khabsa等[16]通過(guò)對(duì)學(xué)術(shù)搜索引擎CiteseerX的查詢意圖分析,總結(jié)了學(xué)術(shù)搜索中導(dǎo)航類(lèi)查詢的特征詞,例如是否包含年份、是否包含標(biāo)點(diǎn)符號(hào)、是否包含停用詞等。盡管利用查詢表達(dá)式中的詞匯信息作為特征的方法比較簡(jiǎn)單,但眾多研究的結(jié)果表明該類(lèi)特征對(duì)查詢意圖的識(shí)別較為有效。
(3)實(shí)體信息:指查詢表達(dá)式中所含有的實(shí)體信息,比如張曉娟[15]將實(shí)體與查詢意圖進(jìn)行分類(lèi)對(duì)應(yīng),總結(jié)出導(dǎo)航類(lèi)查詢中的實(shí)體多為人名、地名、機(jī)構(gòu)名,資源類(lèi)查詢中實(shí)體多為游戲名、歌曲名等;Y.Chang等[17]將實(shí)體的自然語(yǔ)言處理結(jié)果作為分類(lèi)的特征。
2.2 查詢意圖自動(dòng)識(shí)別算法
查詢意圖自動(dòng)識(shí)別算法采用基于查詢表達(dá)式特征的方法對(duì)查詢意圖進(jìn)行識(shí)別,其本質(zhì)上是一種文本分類(lèi)方法,在進(jìn)行分類(lèi)器選擇時(shí),研究者往往會(huì)根據(jù)實(shí)驗(yàn)數(shù)據(jù)集、實(shí)驗(yàn)數(shù)據(jù)特征和具體分類(lèi)任務(wù)的情況選擇不同的分類(lèi)算法,如SVM、決策樹(shù)、PLAS等,例如,Y.Liu等[11]使用典型決策樹(shù)算法將nCS、nRS和點(diǎn)擊分布三種特征結(jié)合起來(lái)執(zhí)行識(shí)別任務(wù);M.Mendoza[18]利用SVM與PLSA對(duì)查詢意圖進(jìn)行歸類(lèi);Y.Chang等[17]提出了使用自然語(yǔ)言處理(NLP)的分析結(jié)果作為特征進(jìn)行查詢意圖分類(lèi)的方法,取得了較好的結(jié)果。查詢意圖自動(dòng)識(shí)別的特征與方法大多針對(duì)綜合搜索引擎,較少關(guān)注學(xué)術(shù)搜索這一垂直細(xì)分領(lǐng)域,由于學(xué)術(shù)搜索的專業(yè)性與特殊性,其特征與方法并不能直接適用于學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別,需在查詢意圖識(shí)別的基礎(chǔ)上進(jìn)一步擴(kuò)展,以適應(yīng)學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別。
3 特征選擇與分類(lèi)器構(gòu)造
3.1 學(xué)術(shù)查詢意圖的特征提取
綜合搜索中查詢意圖的特征可從查詢?cè)~中獲得[13],可分為基本信息[12]、詞中信息[13-16]和實(shí)體信息[15,17]三類(lèi),結(jié)合學(xué)術(shù)搜索的特點(diǎn),可將學(xué)術(shù)查詢意圖的分類(lèi)特征擴(kuò)展為基本信息、詞中信息、實(shí)體信息和詞匯出現(xiàn)頻率的統(tǒng)計(jì)特征4個(gè)方面。由于百度學(xué)術(shù)中約占30%的查詢表達(dá)式為英文,因此學(xué)術(shù)查詢意圖分類(lèi)特征時(shí)對(duì)中英兩種語(yǔ)言進(jìn)行了綜合考量。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)
本研究獲得了由百度學(xué)術(shù)提供的查詢?nèi)罩緸閷?shí)驗(yàn)數(shù)據(jù),該日志記錄了用戶在“百度學(xué)術(shù)”搜索欄中所有的交互信息,每一條數(shù)據(jù)記錄了用戶的唯一標(biāo)識(shí)符(UID)、查詢時(shí)間(Time)、查詢表達(dá)式(Query)以及查詢IP地址(IP)。數(shù)據(jù)總量為5414886條,剔除亂碼數(shù)據(jù)、重復(fù)數(shù)據(jù)后,數(shù)據(jù)總量為3449591條,其中1000條數(shù)據(jù)已由原論文作者按照前序研究的學(xué)術(shù)查詢意圖類(lèi)目體系標(biāo)注了相應(yīng)的類(lèi)別,本文將這1000條數(shù)據(jù)作為測(cè)試集。 在清洗后的數(shù)據(jù)集中,筆者隨機(jī)抽取與測(cè)試集不同的4000條數(shù)據(jù)作為訓(xùn)練集,招募了情報(bào)學(xué)專業(yè)研究生一年級(jí),且有相關(guān)標(biāo)注工作經(jīng)驗(yàn)的6名同學(xué),將4000條學(xué)術(shù)查詢數(shù)據(jù)標(biāo)注為“學(xué)術(shù)文獻(xiàn)類(lèi)”“學(xué)術(shù)實(shí)體類(lèi)”“學(xué)術(shù)探索類(lèi)”“知識(shí)問(wèn)答類(lèi)”和“非學(xué)術(shù)文獻(xiàn)類(lèi)”五個(gè)類(lèi)別。具體過(guò)程如下:
(1)為標(biāo)注者介紹了標(biāo)注任務(wù)背景、實(shí)驗(yàn)邏輯和 其標(biāo)注的數(shù)據(jù)集的使用背景。 (2)編寫(xiě)《學(xué)術(shù)搜索查詢意圖人工標(biāo)注指南》,介紹學(xué)術(shù)查詢意圖類(lèi)目體系,以1000條測(cè)試集中實(shí)例說(shuō)明了5種學(xué)術(shù)查詢意圖的界限,使標(biāo)注者對(duì)查詢意圖的分類(lèi)有大體感知。
(3)每?jī)扇艘唤M,獨(dú)立根據(jù)上述要求,對(duì)全部分配的數(shù)據(jù)進(jìn)行類(lèi)別標(biāo)注。前兩組每組分配1340條數(shù)據(jù),第三組分配1320條,合計(jì)4000條數(shù)據(jù)。允許標(biāo)注者在產(chǎn)生標(biāo)注疑惑時(shí)可借助百度的查詢結(jié)果頁(yè)內(nèi)容進(jìn)行判斷! ⊥瓿扇斯(biāo)注任務(wù)后,筆者采用Kappa系數(shù)來(lái)衡量標(biāo)注結(jié)果之間的一致性,對(duì)上述3組的標(biāo)注結(jié)果進(jìn)行了一致性檢驗(yàn),Kappa值分別為0.776、0.759、0.806。Kappa值均高于0.75,說(shuō)明標(biāo)注者之間分類(lèi)判別的一致性較高。對(duì)于標(biāo)注結(jié)果不同的數(shù)據(jù),筆者后續(xù)召集了所有的標(biāo)注者對(duì)其進(jìn)行討論,并按照多數(shù)性原則最終類(lèi)別。
5 總結(jié)與展望
本研究聚焦學(xué)術(shù)查詢意圖的分類(lèi)研究,通過(guò)對(duì)學(xué)術(shù)查詢表達(dá)式進(jìn)行分析,基于已有研究對(duì)查詢表達(dá)式從基本信息、詞中信息詞、實(shí)體信息和詞匯出現(xiàn)頻率的統(tǒng)計(jì)特征四個(gè)方面進(jìn)行基礎(chǔ)的特征描述,構(gòu)建了針對(duì)學(xué)術(shù)查詢進(jìn)行查詢意圖自動(dòng)識(shí)別的兩層分類(lèi)器,并基于大規(guī)模數(shù)據(jù)的分類(lèi)特征提取了“關(guān)鍵詞類(lèi)”特征。對(duì)比其他單層分類(lèi)器相比,本研究提出的兩層分類(lèi)器在宏平均F1值上取得較好結(jié)果,能夠有效兼顧不同查詢意圖類(lèi)別的準(zhǔn)確率與召回率。
圖書(shū)館論文投稿刊物:《圖書(shū)館學(xué)研究》(ResearchesInLibraryScience)雜志創(chuàng)刊于1979年,由吉林省文化廳主管,吉林省圖書(shū)館主辦的圖書(shū)館學(xué)刊物,國(guó)際刊號(hào):ISSN1001-0424,國(guó)內(nèi)刊號(hào):CN22-1052/G2,郵發(fā)代號(hào):12-205,面向國(guó)內(nèi)外公開(kāi)發(fā)行。
本研究的不足之處在于,由于針對(duì)學(xué)術(shù)查詢意圖研究的成果相對(duì)較少,缺乏統(tǒng)一的、大規(guī)模的評(píng)測(cè)數(shù)據(jù)集,因此,本研究的兩層分類(lèi)器效果難以與其他實(shí)驗(yàn)結(jié)果進(jìn)行橫向?qū)Ρ取O乱徊綄⒅赝茝V學(xué)術(shù)查詢意圖自動(dòng)識(shí)別的相關(guān)數(shù)據(jù)集,促進(jìn)不同方法針對(duì)學(xué)術(shù)查詢意圖的自動(dòng)識(shí)別的橫向?qū)Ρ取?/p>
參考文獻(xiàn):
[1]BORNMANNL,RDIGERM.Growthratesofmodernscience:abibliometricanalysisbasedonthenumberofpublicationsandcitedreferences[J].Journaloftheassociationforinformationscienceandtechnology,2015,66(11):2215-2222.
[2]周劍,王艷,XIEI.世代特征,信息環(huán)境變遷與大學(xué)生信息素養(yǎng)教育創(chuàng)新[J].中國(guó)圖書(shū)館學(xué)報(bào),2015,41(4):25-39.
[3]DONGX,GABRILOVICHE,GEREMYH,etal.Knowledgevault:awebscaleapproachtoprobabilisticknowledgefusion[C]//Proceedingsofthe20thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.NewYork:ACM,2014:601-610.
[4]趙蓉英,陳燁.學(xué)術(shù)搜索引擎Googlescholar和Microsoftacademicsearch的比較研究[J].情報(bào)科學(xué),2014,32(2):3-6,15.
[5]胡伶霞.圖書(shū)館OPAC檢索中基于詞典的查詢意圖自動(dòng)識(shí)別[J].圖書(shū)館學(xué)研究,2016(23):72-76.
作者:王瑞雪1方婧1桂思思2陸偉1,3張顯4
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/26231.html