亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 面向科技文獻(xiàn)檢索的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建> 正文

面向科技文獻(xiàn)檢索的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建

所屬分類:文史論文 閱讀次 時(shí)間:2022-04-13 10:58

本文摘要:摘 要:[目的/意義]關(guān)鍵詞是描述科技文獻(xiàn)內(nèi)容特征的最小知識單元,在文獻(xiàn)檢索工作中發(fā)揮著重要作用。針對關(guān)鍵詞語義關(guān)系缺乏限制檢索效果的問題,挖掘了關(guān)鍵詞層次關(guān)系,以優(yōu)化檢索結(jié)果。[方法/過程]通過分析層次結(jié)構(gòu)整體特征、關(guān)鍵詞涉及的研究主題與關(guān)鍵詞間的概念重

  摘 要:[目的/意義]關(guān)鍵詞是描述科技文獻(xiàn)內(nèi)容特征的最小知識單元,在文獻(xiàn)檢索工作中發(fā)揮著重要作用。針對關(guān)鍵詞語義關(guān)系缺乏限制檢索效果的問題,挖掘了關(guān)鍵詞層次關(guān)系,以優(yōu)化檢索結(jié)果。[方法/過程]通過分析層次結(jié)構(gòu)整體特征、關(guān)鍵詞涉及的研究主題與關(guān)鍵詞間的概念重合關(guān)系,歸納了概念范圍、概念距離與概念距離指數(shù)等概念以規(guī)范、指導(dǎo)層次結(jié)構(gòu)建立工作,并借助層次結(jié)構(gòu)實(shí)現(xiàn)了科技文獻(xiàn)檢索。[結(jié)果/結(jié)論]以實(shí)證數(shù)據(jù)為例,演示了關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建步驟,探討了層次結(jié)構(gòu)在科技文獻(xiàn)檢索中的作用,從結(jié)果來看層次結(jié)構(gòu)具有明確檢索目標(biāo)、擴(kuò)大檢索范圍、拓展檢索知識的作用。

  關(guān)鍵詞:科技文獻(xiàn)檢索;層次結(jié)構(gòu);共詞分析;文本語義挖掘

科技文獻(xiàn)檢索

  引言

  科技文獻(xiàn)檢索是科研工作的重要一環(huán),具有啟迪思路、開拓視野的作用。然而,學(xué)科大數(shù)據(jù)時(shí)代的來臨,在豐富科研資源的同時(shí),也為科技文獻(xiàn)檢索工作帶來一定困難。近年來,期刊論文、會議論文、學(xué)位論文、專利文本等類型的科技文獻(xiàn)數(shù)量不斷激增。據(jù)中信所統(tǒng)計(jì),僅就卓越科技論文而言,2020 年中國卓越科技論文數(shù)量為 46.38 萬篇相較于 2019 年的 38.73萬篇增長近 20%[1-2]。

  科研工作者正面臨科技文獻(xiàn)數(shù)量持續(xù)增長,知識檢索難度日益增加的困境,如何對科技文獻(xiàn)檢索工作進(jìn)行優(yōu)化以滿足廣大科研工作者的需求已成為亟待解決的問題。目前,學(xué)者在探索科技文獻(xiàn)檢索問題時(shí),常用的思路是從文獻(xiàn)內(nèi)部挖掘細(xì)粒度知識并對其進(jìn)行組織以實(shí)現(xiàn)標(biāo)引[3-4]。

  科技文獻(xiàn)中的知識,其表現(xiàn)形式通常又以標(biāo)題、作者、摘要、關(guān)鍵詞等文獻(xiàn)元數(shù)據(jù)與大量的文本內(nèi)容為主,在其中關(guān)鍵詞是表征文獻(xiàn)內(nèi)容的最小知識單元,因其便利性已被廣泛應(yīng)用于文獻(xiàn)組織與檢索工作[5-6]。在基于關(guān)鍵詞挖掘文獻(xiàn)間知識關(guān)聯(lián)并提供檢索服務(wù)時(shí),關(guān)鍵詞之間的共現(xiàn)關(guān)系常被用于實(shí)現(xiàn)知識挖掘,但存在同類詞間關(guān)系難挖掘[7]、詞間邏輯關(guān)聯(lián)較缺乏[8]、整體語義挖掘不全面等問題[9]。

  為解決上述問題,更好地發(fā)揮關(guān)鍵詞在科技文獻(xiàn)檢索中的作用,本文在共詞分析的基礎(chǔ)上,進(jìn)一步挖掘了關(guān)鍵詞所關(guān)聯(lián)的研究范圍以及不同關(guān)鍵詞間研究范圍的重合度,以確定關(guān)鍵詞在研究范圍中的上下位關(guān)系,厘清關(guān)鍵詞間的邏輯關(guān)聯(lián)與語義脈絡(luò),從而建立關(guān)鍵詞層次結(jié)構(gòu),并將關(guān)鍵詞層次結(jié)構(gòu)應(yīng)用于科技文獻(xiàn)檢索中,提高檢索工作的效率與質(zhì)量。

  1 研究現(xiàn)狀及述評

  1.1 基于關(guān)鍵詞的科技文獻(xiàn)檢索

  目前在基于關(guān)鍵詞的科技文獻(xiàn)檢索工作中,基于檢索目的有兩種常見研究思路,一是通過挖掘關(guān)鍵詞之間的關(guān)系,對查詢關(guān)鍵詞進(jìn)行擴(kuò)展以擴(kuò)大檢索范圍,例如,H.Rakhshani 等基于 BabelNet 對關(guān)鍵詞進(jìn)行消歧與同義擴(kuò)展,并將處理后的關(guān)鍵詞用于訓(xùn)練機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)相關(guān)文獻(xiàn)檢索[10];Yang 在建立語言模型的基礎(chǔ)上。

  計(jì)算了法律領(lǐng)域內(nèi)關(guān)鍵詞間概念相似度,并進(jìn)一步通過詞共現(xiàn)關(guān)系挖掘相似詞實(shí)現(xiàn)了檢索擴(kuò)展[11];趙蓉英等通過共詞分析方法得到關(guān)鍵詞共現(xiàn)矩陣,并利用層次聚類方法來進(jìn)行關(guān)鍵詞聚類,通過詞聚類結(jié)果來檢索文獻(xiàn)[12];張孝飛等基于 WordNet 計(jì)算查詢詞與其他詞的相似度進(jìn)行查詢詞概念擴(kuò)展,擴(kuò)展出同義詞、上下位詞來實(shí)現(xiàn)查詢擴(kuò)展[13]。另外一種是通過計(jì)算查詢關(guān)鍵詞與文獻(xiàn)的相似度,對檢索結(jié)果進(jìn)行篩選。

  例如,Liao 等在用 TF-IDF 方法分配關(guān)鍵詞權(quán)重的基礎(chǔ)上,構(gòu)建了文獻(xiàn)-關(guān)鍵詞網(wǎng)絡(luò),并通過隨機(jī)游走算法對網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整以揭示關(guān)鍵詞與文獻(xiàn)的關(guān)系從而實(shí)現(xiàn)最相關(guān)文獻(xiàn)檢索[14];Li 等從用戶日志中提取關(guān)鍵詞數(shù)據(jù)用于訓(xùn)練具有文獻(xiàn)標(biāo)題分類與檢索功能的 DNN 與 CNN 模型,從結(jié)果來看將關(guān)鍵詞用于模型訓(xùn)練能找到與用戶需求關(guān)聯(lián)較強(qiáng)的文獻(xiàn)[15];阮光冊等通過主題模型與關(guān)聯(lián)規(guī)則方法來對用于共詞分析的關(guān)鍵詞進(jìn)行篩選以提高文獻(xiàn)檢索效果[16];吳漢卿等在對關(guān)鍵詞進(jìn)行共詞分析的基礎(chǔ)上通過度中心性確定重要關(guān)鍵詞來進(jìn)行文獻(xiàn)檢索[17]。

  1.2 關(guān)鍵詞層次關(guān)系

  挖掘關(guān)鍵詞層次關(guān)系挖掘其目的旨在使得詞間關(guān)系實(shí)現(xiàn)從扁平化向?qū)哟位霓D(zhuǎn)變,即對關(guān)鍵詞之間的同義、上下義等關(guān)系進(jìn)行抽取并建立等級結(jié)構(gòu)。目前,在挖掘關(guān)鍵詞間層次關(guān)系時(shí),常見的思路是從共現(xiàn)關(guān)系著手,先尋找相關(guān)詞再進(jìn)一步挖掘詞間上下位關(guān)系。

  例如,G.Tibély等以復(fù)雜網(wǎng)絡(luò)理論為基礎(chǔ),依靠加權(quán)網(wǎng)絡(luò)與共現(xiàn)關(guān)系從網(wǎng)絡(luò)中提取關(guān)鍵詞的層次關(guān)系,并在后續(xù)研究中將其應(yīng)用于在線新聞門戶的關(guān)鍵詞層次關(guān)系挖掘,證明其在關(guān)鍵詞語義挖掘上的價(jià)值[18-19];Li 等依據(jù)關(guān)鍵詞的共現(xiàn)關(guān)系、詞對關(guān)系及 TF-IDF 方法建立了關(guān)鍵詞層次結(jié)構(gòu)并驗(yàn)證了其在查詢擴(kuò)展上的有效性[20];N.Akhtar 等將形式概念分析與關(guān)鍵詞共現(xiàn)關(guān)系相結(jié)合,探索了從文獻(xiàn)集合中抽取關(guān)鍵詞層級的可行性[21];熊回香等依據(jù)關(guān)鍵詞的抽象化程度及共現(xiàn)關(guān)系對關(guān)鍵詞層次關(guān)系進(jìn)行挖掘[22-23];房小可等進(jìn)一步將熊回香所提方法應(yīng)用到個性化推薦中,驗(yàn)證了關(guān)鍵詞層次關(guān)系挖掘的必要性[24]。

  1.3 現(xiàn)狀述評

  通過對相關(guān)文獻(xiàn)的回顧,可以發(fā)現(xiàn)在基于關(guān)鍵詞進(jìn)行文獻(xiàn)檢索時(shí),要挖掘關(guān)鍵詞之間及關(guān)鍵詞與文獻(xiàn)間關(guān)系主要有詞典挖掘、深度學(xué)習(xí)模型挖掘、詞共現(xiàn)挖掘三種方法。其中,詞典挖掘因?yàn)樵~典建立需要消耗大量人力成本而難以滿足當(dāng)前需求,深度學(xué)習(xí)模型挖掘在檢索關(guān)聯(lián)較高文獻(xiàn)時(shí)具有不錯效果但難以實(shí)現(xiàn)較好擴(kuò)展,詞共現(xiàn)挖掘可以檢索出相關(guān)文獻(xiàn)但相較于基于詞典的方法其在語義理解及可擴(kuò)展性上存在一定不足。

  在共詞分析的基礎(chǔ)上進(jìn)一步挖掘詞間層次關(guān)系是解決現(xiàn)存問題的有效思路,層次關(guān)系基于共詞分析又兼具部分詞典功能,將其應(yīng)用于文獻(xiàn)檢索具有不錯前景。但是,現(xiàn)有研究在挖掘關(guān)鍵詞間層次關(guān)系時(shí),主要聚焦于如何從兩個詞之間的共現(xiàn)關(guān)系出發(fā)延展得到上下位關(guān)系,而忽略了詞與層次結(jié)構(gòu)中其他詞的聯(lián)系,也尚未探討整個層次結(jié)構(gòu)應(yīng)該具有哪些特征,構(gòu)建關(guān)鍵詞層次結(jié)構(gòu)應(yīng)依照何種標(biāo)準(zhǔn)等問題?傮w而言,關(guān)鍵詞層次結(jié)構(gòu)的建立體系還有待完善,需要結(jié)合相應(yīng)理論并從應(yīng)用角度出發(fā)對其進(jìn)行系統(tǒng)性的探討與改進(jìn),才能更好的構(gòu)建關(guān)鍵詞層次結(jié)構(gòu),并將其應(yīng)用于科技文獻(xiàn)檢索等工作。

  2 研究思路與框架

  2.1 層次結(jié)構(gòu)相關(guān)概念

  為清晰地論述本文思路,首先對文中所用有關(guān)層次結(jié)構(gòu)概念進(jìn)行界定。

  1)關(guān)鍵詞概念范圍。在本文中,概念范圍是指與關(guān)鍵詞相關(guān)的研究的范圍大小,若與關(guān)鍵詞相關(guān)的研究主題越多,則關(guān)鍵詞概念范圍越大,一般的概念范圍可用關(guān)鍵詞涉及的文檔數(shù)表示,即關(guān)鍵詞出現(xiàn)在越多的科技文獻(xiàn)中則其概念范圍越大。

  2)關(guān)鍵詞詞頻。因本文所選擇的關(guān)鍵詞僅為科技文獻(xiàn)作者直接標(biāo)注的詞,不包括從題目、摘要或全文中通過文本內(nèi)容挖掘方法提取出的詞,故關(guān)鍵詞在一篇科技文獻(xiàn)中出現(xiàn)的次數(shù)只有 0 或 1 兩種可能,進(jìn)而可用關(guān)鍵詞在文獻(xiàn)集中的詞頻來表示關(guān)鍵詞涉及的文檔數(shù),即用關(guān)鍵詞詞頻來表示關(guān)鍵詞概念范圍。3)關(guān)鍵詞概念距離。若兩個關(guān)鍵詞的概念范圍存在重合,且概念范圍不完全一致,則可以說兩個關(guān)鍵詞之間存在概念距離。對于關(guān)鍵詞 j 來說,關(guān)鍵詞 i 相對于關(guān)鍵詞 j 的概念距離可通過公式(1)計(jì)算。

  2.2 層次結(jié)構(gòu)構(gòu)建基礎(chǔ)

  如前文所述,在為關(guān)鍵詞建立層次結(jié)構(gòu)時(shí)應(yīng)從系統(tǒng)、整體、全面的角度出發(fā),既應(yīng)考慮到關(guān)鍵詞間的上下層級相關(guān)性,又應(yīng)對層次結(jié)構(gòu)的整體特性進(jìn)行考量。

  1)關(guān)鍵詞間相關(guān)性。關(guān)鍵詞間相關(guān)性在本文中主要指關(guān)鍵詞間的父子關(guān)系,該關(guān)系的確立大致可以分為三個步驟:首先,比較兩個關(guān)鍵詞概念范圍,概念范圍較大的關(guān)鍵詞屬于上一層級,概念范圍較小的關(guān)鍵詞屬于下一層級;隨后,計(jì)算關(guān)鍵詞之間的概念距離,并依據(jù)概念距離設(shè)定一閾值判斷關(guān)鍵詞之間是否具有足夠強(qiáng)的相關(guān)性;最后,綜合關(guān)鍵詞的概念范圍及關(guān)鍵詞之間的概念距離確立父子關(guān)系,形成父子關(guān)系的關(guān)鍵詞之間應(yīng)具有較強(qiáng)的相關(guān)性,父節(jié)點(diǎn)概念范圍大于子節(jié)點(diǎn)概念范圍,且父子節(jié)點(diǎn)之間的概念范圍差值應(yīng)大于一定閾值。

  2)層次結(jié)構(gòu)整體特性。層次結(jié)構(gòu)的整體特征主要是指在建立層次結(jié)構(gòu)時(shí)應(yīng)考慮到層次結(jié)構(gòu)整體的概念范圍、層次結(jié)構(gòu)的穩(wěn)定性以及不同層級之間的概念范圍差。

  其中,層次結(jié)構(gòu)的概念范圍大小主要由組成結(jié)構(gòu)的各節(jié)點(diǎn)概念范圍決定,首先,所選的根節(jié)點(diǎn)概念范圍越大,則層次結(jié)構(gòu)整體可達(dá)到的概念范圍上限越大,其次,加入層次結(jié)構(gòu)的子節(jié)點(diǎn)概念范圍越大,則能使得層次結(jié)構(gòu)整體概念范圍越接近其上限;層次結(jié)構(gòu)的穩(wěn)定性即是前文所提的層級穩(wěn)定性,用以判斷關(guān)鍵詞是否能繼續(xù)分化;不同層級之間的概念范圍差則是前文所提的層級概念差,用以判斷層級的概念范圍是否隨著層級的遞進(jìn)而濃縮。

  2.3 層次結(jié)構(gòu)構(gòu)建框架

  在前文論述的基礎(chǔ)上,本文從層級間相關(guān)性出發(fā)對關(guān)鍵詞之間的父子關(guān)系進(jìn)行挖掘,從層次結(jié)構(gòu)整體特性出發(fā)對關(guān)鍵詞之間的層次結(jié)構(gòu)進(jìn)行規(guī)范與完善,建立了相對系統(tǒng)、完整的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建框架。

  1)數(shù)據(jù)收集與處理層。從文獻(xiàn)數(shù)據(jù)庫中采集科技文獻(xiàn)數(shù)據(jù),進(jìn)行數(shù)據(jù)的篩選與統(tǒng)計(jì)工作,對關(guān)鍵詞出現(xiàn)的文檔數(shù)及關(guān)鍵詞共現(xiàn)情況進(jìn)行統(tǒng)計(jì)分別得到關(guān)鍵詞詞頻與關(guān)鍵詞共現(xiàn)關(guān)系。

  2)關(guān)鍵詞父子關(guān)系挖掘?qū)。依?jù)關(guān)鍵詞詞頻得到關(guān)鍵詞概念范圍,結(jié)合關(guān)鍵詞概念范圍以及關(guān)鍵詞共現(xiàn)關(guān)系計(jì)算關(guān)鍵詞概念距離,綜合關(guān)鍵詞概念范圍與關(guān)鍵詞概念距離挖掘關(guān)鍵詞父子關(guān)系,并計(jì)算關(guān)鍵詞概念范圍指數(shù),為關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建奠定基礎(chǔ)。

  3)層次結(jié)構(gòu)構(gòu)建層。以關(guān)鍵詞概念范圍判斷其自身關(guān)聯(lián)的研究范圍大小,以關(guān)鍵詞概念范圍指數(shù)判斷其依據(jù)父子關(guān)系可延伸擴(kuò)展的概念范圍大小,結(jié)合自身及可擴(kuò)展的概念大小確定根節(jié)點(diǎn),并依次為其加入具有較大概念范圍及概念范圍指數(shù)的子節(jié)點(diǎn),子節(jié)點(diǎn)全部加入層級后再將子節(jié)點(diǎn)作為新的父節(jié)點(diǎn)并重復(fù)上述過程完成關(guān)鍵詞層次結(jié)構(gòu)的初步構(gòu)建。

  4)層次結(jié)構(gòu)優(yōu)化層。在初步建立關(guān)鍵詞層次結(jié)構(gòu)后,統(tǒng)計(jì)每一層及的節(jié)點(diǎn)數(shù),并進(jìn)行上下層級節(jié)點(diǎn)數(shù)的比較從而分析層級穩(wěn)定性;計(jì)算層級的平均概念范圍,并得到上下層級之間的層級概念差從而分析層級在概念范圍上的遞進(jìn)關(guān)系;綜合層級穩(wěn)定性與層級概念差對關(guān)鍵詞層級進(jìn)行優(yōu)化與修改,完成關(guān)鍵詞層次結(jié)構(gòu)的構(gòu)建。

  2.4 文獻(xiàn)檢索及評價(jià)方法在完成層次結(jié)構(gòu)構(gòu)建后,下一步是將層次結(jié)構(gòu)應(yīng)用于科技文獻(xiàn)檢索中,以科研工作者為服務(wù)對象,探究檢索效果。本文從兩方面探討基于關(guān)鍵詞層次結(jié)構(gòu)的文獻(xiàn)檢索效率,其一是考察通過層次結(jié)構(gòu)是否能檢索到更多相關(guān)文獻(xiàn),其二是探究通過層次結(jié)構(gòu)是否能找到一些具有拓展性的文獻(xiàn)。對于第一點(diǎn)。

  本文分別選取位于不同層級的關(guān)鍵詞來進(jìn)行文獻(xiàn)檢索,以期發(fā)現(xiàn)通過哪一層級的關(guān)鍵詞進(jìn)行檢索能找到更多文獻(xiàn),其效果通過文獻(xiàn)查全率判斷;對于第二點(diǎn),本文在通過不同層級關(guān)鍵詞進(jìn)行文獻(xiàn)檢索的基礎(chǔ)上,對相鄰層級檢索結(jié)果進(jìn)行對比,分析通過不同關(guān)鍵詞找到的文獻(xiàn)是否具有一定的區(qū)別,其效果通過文獻(xiàn)重合率判斷。下面分別對文獻(xiàn)查全率與文獻(xiàn)重合率的計(jì)算方法進(jìn)行說明。

  3 層次結(jié)構(gòu)構(gòu)建實(shí)證

  本文選擇情報(bào)學(xué)領(lǐng)域?yàn)檠芯繉ο,通過從中國知網(wǎng)上采集情報(bào)學(xué)期刊論文數(shù)據(jù)進(jìn)行研究實(shí)證,情報(bào)學(xué)是一門具有交叉學(xué)科特點(diǎn)的應(yīng)用型學(xué)科,該學(xué)科中的論文具有較強(qiáng)的學(xué)科交叉性,會應(yīng)用到多學(xué)科的理論與方法,以其作為研究對象具有較強(qiáng)的普適性,相關(guān)成果能較為容易地遷移到其他學(xué)科。在本章中首先基于 2.3 節(jié)所提框架進(jìn)行層次結(jié)構(gòu)構(gòu)建實(shí)證。

  3.1 數(shù)據(jù)收集與處理

  我們對《中國圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《情報(bào)科學(xué)》《情報(bào)理論與實(shí)踐》《情報(bào)雜志》《情報(bào)資料工作》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》《圖書情報(bào)工作》《圖書情報(bào)知識》《圖書與情報(bào)》《現(xiàn)代情報(bào)》與《信息資源管理學(xué)報(bào)》共 12 種情報(bào)學(xué)核心期刊 2020 年度發(fā)表的科技文獻(xiàn)進(jìn)行采集,隨后對文獻(xiàn)進(jìn)行篩選,去除“本刊訊”、“人物訪談”等類型的文獻(xiàn),僅保留解決實(shí)際問題的文獻(xiàn),最后共收集到相關(guān)文獻(xiàn) 4667 篇。

  3.2 層次結(jié)構(gòu)

  初步構(gòu)建完成數(shù)據(jù)處理后,層次結(jié)構(gòu)的初步構(gòu)建可分為預(yù)選根節(jié)點(diǎn)、確立根節(jié)點(diǎn)、加入子節(jié)點(diǎn)以及層級遞進(jìn) 4 個步驟。

  1)預(yù)選根節(jié)點(diǎn)。在選擇根節(jié)點(diǎn)時(shí),首先按詞頻排序選擇靠前的 10 個具有較大概念范圍的關(guān)鍵詞作為預(yù)選根節(jié)點(diǎn)。

  2)確立根節(jié)點(diǎn)。對于預(yù)選根節(jié)點(diǎn),計(jì)算其與其他詞間概念距離,并計(jì)算概念距離閾值從而確定子節(jié)點(diǎn),而后計(jì)算子節(jié)點(diǎn)概念范圍與概念范圍指數(shù) μ。通過比較詞間概念距離本文將概念距離閾值設(shè)為 0.25。

  “大數(shù)據(jù)”“影響因素”與“網(wǎng)絡(luò)輿情”具有較高的概念范圍指數(shù)與子節(jié)點(diǎn)數(shù),分別計(jì)算三個詞概念范圍達(dá)到指數(shù) μ 的子節(jié)點(diǎn)與其的平均距離,以衡量詞間緊密程度。其中,“大數(shù)據(jù)”的平均概念距離為 0.271,“影響因素”的平均概念距離為 0.331,“網(wǎng)絡(luò)輿情”的平均概念距離為 0.290。進(jìn)行綜合考慮后,選擇關(guān)鍵詞“影響因素”作為根節(jié)點(diǎn)。

  3)加入子節(jié)點(diǎn)。首先,選擇與“影響因素”概念距離 λ 達(dá)到 0.25 且概念范圍達(dá)到 7 的 9個關(guān)鍵詞作為候選子節(jié)點(diǎn)。隨后,為控制節(jié)點(diǎn)數(shù),設(shè)置父節(jié)點(diǎn)最多具有 5 個子節(jié)點(diǎn),計(jì)算候選子節(jié)點(diǎn)的概念范圍與概念范圍指數(shù) μ。最后,若候選子節(jié)點(diǎn)數(shù)大于 5,則依次比較其概念范圍指數(shù) μ,概念范圍達(dá)到 μ 的子節(jié)點(diǎn)數(shù)以及概念范圍(詞頻),按大小先后加入層次結(jié)構(gòu)。子節(jié)點(diǎn)數(shù)據(jù)如表 5 所示。

  4)層級遞進(jìn)。按照先后順序加入子節(jié)點(diǎn)后,將子節(jié)點(diǎn)作為新的父節(jié)點(diǎn),重復(fù)步驟 3)逐步向?qū)哟谓Y(jié)構(gòu)中加入新的節(jié)點(diǎn)。初步構(gòu)造了以“影響因素”為第一層級的,具有 5 層結(jié)構(gòu)的關(guān)鍵詞層次結(jié)構(gòu)。

  3.3 層次結(jié)構(gòu)優(yōu)化

  在初步建立層次結(jié)構(gòu)之后,需按照層級穩(wěn)定性與層級概念差對其優(yōu)化。1)層級穩(wěn)定性。如表 6 中的數(shù)據(jù),從第一層級至第四層級,每層節(jié)點(diǎn)數(shù)呈現(xiàn)穩(wěn)定增長趨勢,而從第四層級至第五層級,節(jié)點(diǎn)數(shù)僅增加 8 個,第四層中關(guān)鍵詞難以繼續(xù)分化概念,即層次結(jié)構(gòu)在第四層時(shí)達(dá)到穩(wěn)定。2)層級概念差。依據(jù)表 6 中的數(shù)據(jù)比較每一層級的概念范圍均值,可以發(fā)現(xiàn)從第一層級至第四層級,層級之間均存在一定差值,而從第四層級至第五層級,差值接近于 0,即第四層級與第五層級間概念遞進(jìn)性較差。綜合層級穩(wěn)定性及層級概念差,對層次結(jié)構(gòu)進(jìn)行優(yōu)化調(diào)整,僅保留前四層級。

  4 科技文獻(xiàn)檢索實(shí)證

  在構(gòu)建層次結(jié)構(gòu)后,本章將進(jìn)行科技文獻(xiàn)檢索實(shí)證,以探討基于層次結(jié)構(gòu)的文獻(xiàn)檢索效果。

  4.1 測試數(shù)據(jù)的選擇

  因本文是對不同層級中關(guān)鍵詞的檢索效果進(jìn)行對比,故以構(gòu)建的“影響因素”層次結(jié)構(gòu)為參照,設(shè)置第一層-第二層、第二層-第三層、第三層-第四層共三組比對組,對于每組從采集的 4667 篇科技文獻(xiàn)中篩選出十篇同時(shí)含有相鄰層級關(guān)鍵詞的文獻(xiàn),最后共篩選出測試文獻(xiàn)30 篇。

  4.2 檢索結(jié)果探析

  依據(jù)文獻(xiàn)查全率結(jié)果,對于一篇科技文獻(xiàn)中的關(guān)鍵詞,其所處層級越深,則通過該關(guān)鍵詞可檢索到的參考文獻(xiàn)越多,且隨著層級的增長,處于較深層級的關(guān)鍵詞相較于處于較淺層級的關(guān)鍵詞在查全率上的優(yōu)勢也會逐漸遞增。

  基于文獻(xiàn)重合率結(jié)果,通過不同層級關(guān)鍵詞檢索到的文獻(xiàn)具有一定的重合,但重合率會隨著層級的遞進(jìn)而逐漸縮小,即可說明具有上下級關(guān)系的關(guān)鍵詞查找的文獻(xiàn)范圍具有較大差異,且差異程度隨著層級的遞進(jìn)而增強(qiáng),通過層次結(jié)構(gòu)可以發(fā)現(xiàn)一些拓展性較強(qiáng)的知識。此外,通過層次結(jié)構(gòu)也可以對科研工作者的檢索意圖進(jìn)行明確,例如,若同時(shí)以關(guān)鍵詞“科研人員”與“科學(xué)數(shù)據(jù)素養(yǎng)”作為檢索詞,借助層次結(jié)構(gòu),可以推測其有較大可能要進(jìn)行與“影響因素”有關(guān)的研究。

  5 結(jié)束語

  關(guān)鍵詞是科技文獻(xiàn)特征的直觀體現(xiàn),已被廣泛應(yīng)用于科技文獻(xiàn)檢索工作中。為了提高基于關(guān)鍵詞的科技文獻(xiàn)檢索效果,本文在共詞分析的基礎(chǔ)上,通過梳理相關(guān)文獻(xiàn),提出了一個系統(tǒng)、完整的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建框架,并驗(yàn)證了層次結(jié)構(gòu)在科技文獻(xiàn)檢索工作中的具體效果。從結(jié)果來看,層次結(jié)構(gòu)具有明確科研工作者檢索目標(biāo),擴(kuò)展檢索結(jié)果,引申相關(guān)知識的作用。在今后的研究中可以進(jìn)一步探討層次結(jié)構(gòu)構(gòu)建思路,嘗試將其與實(shí)體識別、關(guān)系抽取等工作相結(jié)合,或是對其應(yīng)用進(jìn)行拓展與深化從而達(dá)到更好的科研輔助效果。

  參考文獻(xiàn):

  [1] 中 國 科 學(xué) 技 術(shù) 信 息 研 究 所 .2020 中 國 卓 越 科 技 論 文 報(bào) 告 [EB/OL].[2022-03-19].

  [2] 中 國 科 學(xué) 技 術(shù) 信 息 研 究 所 .2021 中 國 卓 越 科 技 論 文 報(bào) 告 [EB/OL].[2022-03-19].

  [3]XU Mingying, DU Junping, XUE Zhe, et al. A semi-supervised semantic-enhanced frameworkfor scientific literature retrieval[J]. Neurocomputing, 2021, 461(2): 450-461.

  [4]張敏,丁良萍,劉歡.面向科技文獻(xiàn)的多維語義索引構(gòu)建思路及實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2021,44(8):139-145

  .[5]柴慶鳳,史霖炎,梅珊,等.基于人工特征和機(jī)器特征融合的科技文獻(xiàn)知識元抽取[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(8):132-143.

  [6]趙京勝,朱巧明,周國棟,等.自動關(guān)鍵詞抽取研究綜述[J].軟件學(xué)報(bào),2017,28(9):2431-2449.

  [7]胡昌平,陳果.科技論文關(guān)鍵詞特征及其對共詞分析的影響[J].情報(bào)學(xué)報(bào),2014,33(1):23-32.

  [8]胡昌平,林鑫. 科技文獻(xiàn)檢索中基于主題詞表分面化改造的分面構(gòu)建 [J].情報(bào)學(xué)報(bào),2015,34(8):875-884.

  作者:熊回香,葉佳鑫(華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430079)

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/29985.html