亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 面向科技文獻檢索的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建> 正文

面向科技文獻檢索的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建

所屬分類:文史論文 閱讀次 時間:2022-04-13 10:58

本文摘要:摘 要:[目的/意義]關(guān)鍵詞是描述科技文獻內(nèi)容特征的最小知識單元,在文獻檢索工作中發(fā)揮著重要作用。針對關(guān)鍵詞語義關(guān)系缺乏限制檢索效果的問題,挖掘了關(guān)鍵詞層次關(guān)系,以優(yōu)化檢索結(jié)果。[方法/過程]通過分析層次結(jié)構(gòu)整體特征、關(guān)鍵詞涉及的研究主題與關(guān)鍵詞間的概念重

  摘 要:[目的/意義]關(guān)鍵詞是描述科技文獻內(nèi)容特征的最小知識單元,在文獻檢索工作中發(fā)揮著重要作用。針對關(guān)鍵詞語義關(guān)系缺乏限制檢索效果的問題,挖掘了關(guān)鍵詞層次關(guān)系,以優(yōu)化檢索結(jié)果。[方法/過程]通過分析層次結(jié)構(gòu)整體特征、關(guān)鍵詞涉及的研究主題與關(guān)鍵詞間的概念重合關(guān)系,歸納了概念范圍、概念距離與概念距離指數(shù)等概念以規(guī)范、指導(dǎo)層次結(jié)構(gòu)建立工作,并借助層次結(jié)構(gòu)實現(xiàn)了科技文獻檢索。[結(jié)果/結(jié)論]以實證數(shù)據(jù)為例,演示了關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建步驟,探討了層次結(jié)構(gòu)在科技文獻檢索中的作用,從結(jié)果來看層次結(jié)構(gòu)具有明確檢索目標、擴大檢索范圍、拓展檢索知識的作用。

  關(guān)鍵詞:科技文獻檢索;層次結(jié)構(gòu);共詞分析;文本語義挖掘

科技文獻檢索

  引言

  科技文獻檢索是科研工作的重要一環(huán),具有啟迪思路、開拓視野的作用。然而,學(xué)科大數(shù)據(jù)時代的來臨,在豐富科研資源的同時,也為科技文獻檢索工作帶來一定困難。近年來,期刊論文、會議論文、學(xué)位論文、專利文本等類型的科技文獻數(shù)量不斷激增。據(jù)中信所統(tǒng)計,僅就卓越科技論文而言,2020 年中國卓越科技論文數(shù)量為 46.38 萬篇相較于 2019 年的 38.73萬篇增長近 20%[1-2]。

  科研工作者正面臨科技文獻數(shù)量持續(xù)增長,知識檢索難度日益增加的困境,如何對科技文獻檢索工作進行優(yōu)化以滿足廣大科研工作者的需求已成為亟待解決的問題。目前,學(xué)者在探索科技文獻檢索問題時,常用的思路是從文獻內(nèi)部挖掘細粒度知識并對其進行組織以實現(xiàn)標引[3-4]。

  科技文獻中的知識,其表現(xiàn)形式通常又以標題、作者、摘要、關(guān)鍵詞等文獻元數(shù)據(jù)與大量的文本內(nèi)容為主,在其中關(guān)鍵詞是表征文獻內(nèi)容的最小知識單元,因其便利性已被廣泛應(yīng)用于文獻組織與檢索工作[5-6]。在基于關(guān)鍵詞挖掘文獻間知識關(guān)聯(lián)并提供檢索服務(wù)時,關(guān)鍵詞之間的共現(xiàn)關(guān)系常被用于實現(xiàn)知識挖掘,但存在同類詞間關(guān)系難挖掘[7]、詞間邏輯關(guān)聯(lián)較缺乏[8]、整體語義挖掘不全面等問題[9]。

  為解決上述問題,更好地發(fā)揮關(guān)鍵詞在科技文獻檢索中的作用,本文在共詞分析的基礎(chǔ)上,進一步挖掘了關(guān)鍵詞所關(guān)聯(lián)的研究范圍以及不同關(guān)鍵詞間研究范圍的重合度,以確定關(guān)鍵詞在研究范圍中的上下位關(guān)系,厘清關(guān)鍵詞間的邏輯關(guān)聯(lián)與語義脈絡(luò),從而建立關(guān)鍵詞層次結(jié)構(gòu),并將關(guān)鍵詞層次結(jié)構(gòu)應(yīng)用于科技文獻檢索中,提高檢索工作的效率與質(zhì)量。

  1 研究現(xiàn)狀及述評

  1.1 基于關(guān)鍵詞的科技文獻檢索

  目前在基于關(guān)鍵詞的科技文獻檢索工作中,基于檢索目的有兩種常見研究思路,一是通過挖掘關(guān)鍵詞之間的關(guān)系,對查詢關(guān)鍵詞進行擴展以擴大檢索范圍,例如,H.Rakhshani 等基于 BabelNet 對關(guān)鍵詞進行消歧與同義擴展,并將處理后的關(guān)鍵詞用于訓(xùn)練機器學(xué)習(xí)模型實現(xiàn)相關(guān)文獻檢索[10];Yang 在建立語言模型的基礎(chǔ)上。

  計算了法律領(lǐng)域內(nèi)關(guān)鍵詞間概念相似度,并進一步通過詞共現(xiàn)關(guān)系挖掘相似詞實現(xiàn)了檢索擴展[11];趙蓉英等通過共詞分析方法得到關(guān)鍵詞共現(xiàn)矩陣,并利用層次聚類方法來進行關(guān)鍵詞聚類,通過詞聚類結(jié)果來檢索文獻[12];張孝飛等基于 WordNet 計算查詢詞與其他詞的相似度進行查詢詞概念擴展,擴展出同義詞、上下位詞來實現(xiàn)查詢擴展[13]。另外一種是通過計算查詢關(guān)鍵詞與文獻的相似度,對檢索結(jié)果進行篩選。

  例如,Liao 等在用 TF-IDF 方法分配關(guān)鍵詞權(quán)重的基礎(chǔ)上,構(gòu)建了文獻-關(guān)鍵詞網(wǎng)絡(luò),并通過隨機游走算法對網(wǎng)絡(luò)權(quán)重進行調(diào)整以揭示關(guān)鍵詞與文獻的關(guān)系從而實現(xiàn)最相關(guān)文獻檢索[14];Li 等從用戶日志中提取關(guān)鍵詞數(shù)據(jù)用于訓(xùn)練具有文獻標題分類與檢索功能的 DNN 與 CNN 模型,從結(jié)果來看將關(guān)鍵詞用于模型訓(xùn)練能找到與用戶需求關(guān)聯(lián)較強的文獻[15];阮光冊等通過主題模型與關(guān)聯(lián)規(guī)則方法來對用于共詞分析的關(guān)鍵詞進行篩選以提高文獻檢索效果[16];吳漢卿等在對關(guān)鍵詞進行共詞分析的基礎(chǔ)上通過度中心性確定重要關(guān)鍵詞來進行文獻檢索[17]。

  1.2 關(guān)鍵詞層次關(guān)系

  挖掘關(guān)鍵詞層次關(guān)系挖掘其目的旨在使得詞間關(guān)系實現(xiàn)從扁平化向?qū)哟位霓D(zhuǎn)變,即對關(guān)鍵詞之間的同義、上下義等關(guān)系進行抽取并建立等級結(jié)構(gòu)。目前,在挖掘關(guān)鍵詞間層次關(guān)系時,常見的思路是從共現(xiàn)關(guān)系著手,先尋找相關(guān)詞再進一步挖掘詞間上下位關(guān)系。

  例如,G.Tibély等以復(fù)雜網(wǎng)絡(luò)理論為基礎(chǔ),依靠加權(quán)網(wǎng)絡(luò)與共現(xiàn)關(guān)系從網(wǎng)絡(luò)中提取關(guān)鍵詞的層次關(guān)系,并在后續(xù)研究中將其應(yīng)用于在線新聞門戶的關(guān)鍵詞層次關(guān)系挖掘,證明其在關(guān)鍵詞語義挖掘上的價值[18-19];Li 等依據(jù)關(guān)鍵詞的共現(xiàn)關(guān)系、詞對關(guān)系及 TF-IDF 方法建立了關(guān)鍵詞層次結(jié)構(gòu)并驗證了其在查詢擴展上的有效性[20];N.Akhtar 等將形式概念分析與關(guān)鍵詞共現(xiàn)關(guān)系相結(jié)合,探索了從文獻集合中抽取關(guān)鍵詞層級的可行性[21];熊回香等依據(jù)關(guān)鍵詞的抽象化程度及共現(xiàn)關(guān)系對關(guān)鍵詞層次關(guān)系進行挖掘[22-23];房小可等進一步將熊回香所提方法應(yīng)用到個性化推薦中,驗證了關(guān)鍵詞層次關(guān)系挖掘的必要性[24]。

  1.3 現(xiàn)狀述評

  通過對相關(guān)文獻的回顧,可以發(fā)現(xiàn)在基于關(guān)鍵詞進行文獻檢索時,要挖掘關(guān)鍵詞之間及關(guān)鍵詞與文獻間關(guān)系主要有詞典挖掘、深度學(xué)習(xí)模型挖掘、詞共現(xiàn)挖掘三種方法。其中,詞典挖掘因為詞典建立需要消耗大量人力成本而難以滿足當前需求,深度學(xué)習(xí)模型挖掘在檢索關(guān)聯(lián)較高文獻時具有不錯效果但難以實現(xiàn)較好擴展,詞共現(xiàn)挖掘可以檢索出相關(guān)文獻但相較于基于詞典的方法其在語義理解及可擴展性上存在一定不足。

  在共詞分析的基礎(chǔ)上進一步挖掘詞間層次關(guān)系是解決現(xiàn)存問題的有效思路,層次關(guān)系基于共詞分析又兼具部分詞典功能,將其應(yīng)用于文獻檢索具有不錯前景。但是,現(xiàn)有研究在挖掘關(guān)鍵詞間層次關(guān)系時,主要聚焦于如何從兩個詞之間的共現(xiàn)關(guān)系出發(fā)延展得到上下位關(guān)系,而忽略了詞與層次結(jié)構(gòu)中其他詞的聯(lián)系,也尚未探討整個層次結(jié)構(gòu)應(yīng)該具有哪些特征,構(gòu)建關(guān)鍵詞層次結(jié)構(gòu)應(yīng)依照何種標準等問題?傮w而言,關(guān)鍵詞層次結(jié)構(gòu)的建立體系還有待完善,需要結(jié)合相應(yīng)理論并從應(yīng)用角度出發(fā)對其進行系統(tǒng)性的探討與改進,才能更好的構(gòu)建關(guān)鍵詞層次結(jié)構(gòu),并將其應(yīng)用于科技文獻檢索等工作。

  2 研究思路與框架

  2.1 層次結(jié)構(gòu)相關(guān)概念

  為清晰地論述本文思路,首先對文中所用有關(guān)層次結(jié)構(gòu)概念進行界定。

  1)關(guān)鍵詞概念范圍。在本文中,概念范圍是指與關(guān)鍵詞相關(guān)的研究的范圍大小,若與關(guān)鍵詞相關(guān)的研究主題越多,則關(guān)鍵詞概念范圍越大,一般的概念范圍可用關(guān)鍵詞涉及的文檔數(shù)表示,即關(guān)鍵詞出現(xiàn)在越多的科技文獻中則其概念范圍越大。

  2)關(guān)鍵詞詞頻。因本文所選擇的關(guān)鍵詞僅為科技文獻作者直接標注的詞,不包括從題目、摘要或全文中通過文本內(nèi)容挖掘方法提取出的詞,故關(guān)鍵詞在一篇科技文獻中出現(xiàn)的次數(shù)只有 0 或 1 兩種可能,進而可用關(guān)鍵詞在文獻集中的詞頻來表示關(guān)鍵詞涉及的文檔數(shù),即用關(guān)鍵詞詞頻來表示關(guān)鍵詞概念范圍。3)關(guān)鍵詞概念距離。若兩個關(guān)鍵詞的概念范圍存在重合,且概念范圍不完全一致,則可以說兩個關(guān)鍵詞之間存在概念距離。對于關(guān)鍵詞 j 來說,關(guān)鍵詞 i 相對于關(guān)鍵詞 j 的概念距離可通過公式(1)計算。

  2.2 層次結(jié)構(gòu)構(gòu)建基礎(chǔ)

  如前文所述,在為關(guān)鍵詞建立層次結(jié)構(gòu)時應(yīng)從系統(tǒng)、整體、全面的角度出發(fā),既應(yīng)考慮到關(guān)鍵詞間的上下層級相關(guān)性,又應(yīng)對層次結(jié)構(gòu)的整體特性進行考量。

  1)關(guān)鍵詞間相關(guān)性。關(guān)鍵詞間相關(guān)性在本文中主要指關(guān)鍵詞間的父子關(guān)系,該關(guān)系的確立大致可以分為三個步驟:首先,比較兩個關(guān)鍵詞概念范圍,概念范圍較大的關(guān)鍵詞屬于上一層級,概念范圍較小的關(guān)鍵詞屬于下一層級;隨后,計算關(guān)鍵詞之間的概念距離,并依據(jù)概念距離設(shè)定一閾值判斷關(guān)鍵詞之間是否具有足夠強的相關(guān)性;最后,綜合關(guān)鍵詞的概念范圍及關(guān)鍵詞之間的概念距離確立父子關(guān)系,形成父子關(guān)系的關(guān)鍵詞之間應(yīng)具有較強的相關(guān)性,父節(jié)點概念范圍大于子節(jié)點概念范圍,且父子節(jié)點之間的概念范圍差值應(yīng)大于一定閾值。

  2)層次結(jié)構(gòu)整體特性。層次結(jié)構(gòu)的整體特征主要是指在建立層次結(jié)構(gòu)時應(yīng)考慮到層次結(jié)構(gòu)整體的概念范圍、層次結(jié)構(gòu)的穩(wěn)定性以及不同層級之間的概念范圍差。

  其中,層次結(jié)構(gòu)的概念范圍大小主要由組成結(jié)構(gòu)的各節(jié)點概念范圍決定,首先,所選的根節(jié)點概念范圍越大,則層次結(jié)構(gòu)整體可達到的概念范圍上限越大,其次,加入層次結(jié)構(gòu)的子節(jié)點概念范圍越大,則能使得層次結(jié)構(gòu)整體概念范圍越接近其上限;層次結(jié)構(gòu)的穩(wěn)定性即是前文所提的層級穩(wěn)定性,用以判斷關(guān)鍵詞是否能繼續(xù)分化;不同層級之間的概念范圍差則是前文所提的層級概念差,用以判斷層級的概念范圍是否隨著層級的遞進而濃縮。

  2.3 層次結(jié)構(gòu)構(gòu)建框架

  在前文論述的基礎(chǔ)上,本文從層級間相關(guān)性出發(fā)對關(guān)鍵詞之間的父子關(guān)系進行挖掘,從層次結(jié)構(gòu)整體特性出發(fā)對關(guān)鍵詞之間的層次結(jié)構(gòu)進行規(guī)范與完善,建立了相對系統(tǒng)、完整的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建框架。

  1)數(shù)據(jù)收集與處理層。從文獻數(shù)據(jù)庫中采集科技文獻數(shù)據(jù),進行數(shù)據(jù)的篩選與統(tǒng)計工作,對關(guān)鍵詞出現(xiàn)的文檔數(shù)及關(guān)鍵詞共現(xiàn)情況進行統(tǒng)計分別得到關(guān)鍵詞詞頻與關(guān)鍵詞共現(xiàn)關(guān)系。

  2)關(guān)鍵詞父子關(guān)系挖掘?qū)印R罁?jù)關(guān)鍵詞詞頻得到關(guān)鍵詞概念范圍,結(jié)合關(guān)鍵詞概念范圍以及關(guān)鍵詞共現(xiàn)關(guān)系計算關(guān)鍵詞概念距離,綜合關(guān)鍵詞概念范圍與關(guān)鍵詞概念距離挖掘關(guān)鍵詞父子關(guān)系,并計算關(guān)鍵詞概念范圍指數(shù),為關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建奠定基礎(chǔ)。

  3)層次結(jié)構(gòu)構(gòu)建層。以關(guān)鍵詞概念范圍判斷其自身關(guān)聯(lián)的研究范圍大小,以關(guān)鍵詞概念范圍指數(shù)判斷其依據(jù)父子關(guān)系可延伸擴展的概念范圍大小,結(jié)合自身及可擴展的概念大小確定根節(jié)點,并依次為其加入具有較大概念范圍及概念范圍指數(shù)的子節(jié)點,子節(jié)點全部加入層級后再將子節(jié)點作為新的父節(jié)點并重復(fù)上述過程完成關(guān)鍵詞層次結(jié)構(gòu)的初步構(gòu)建。

  4)層次結(jié)構(gòu)優(yōu)化層。在初步建立關(guān)鍵詞層次結(jié)構(gòu)后,統(tǒng)計每一層及的節(jié)點數(shù),并進行上下層級節(jié)點數(shù)的比較從而分析層級穩(wěn)定性;計算層級的平均概念范圍,并得到上下層級之間的層級概念差從而分析層級在概念范圍上的遞進關(guān)系;綜合層級穩(wěn)定性與層級概念差對關(guān)鍵詞層級進行優(yōu)化與修改,完成關(guān)鍵詞層次結(jié)構(gòu)的構(gòu)建。

  2.4 文獻檢索及評價方法在完成層次結(jié)構(gòu)構(gòu)建后,下一步是將層次結(jié)構(gòu)應(yīng)用于科技文獻檢索中,以科研工作者為服務(wù)對象,探究檢索效果。本文從兩方面探討基于關(guān)鍵詞層次結(jié)構(gòu)的文獻檢索效率,其一是考察通過層次結(jié)構(gòu)是否能檢索到更多相關(guān)文獻,其二是探究通過層次結(jié)構(gòu)是否能找到一些具有拓展性的文獻。對于第一點。

  本文分別選取位于不同層級的關(guān)鍵詞來進行文獻檢索,以期發(fā)現(xiàn)通過哪一層級的關(guān)鍵詞進行檢索能找到更多文獻,其效果通過文獻查全率判斷;對于第二點,本文在通過不同層級關(guān)鍵詞進行文獻檢索的基礎(chǔ)上,對相鄰層級檢索結(jié)果進行對比,分析通過不同關(guān)鍵詞找到的文獻是否具有一定的區(qū)別,其效果通過文獻重合率判斷。下面分別對文獻查全率與文獻重合率的計算方法進行說明。

  3 層次結(jié)構(gòu)構(gòu)建實證

  本文選擇情報學(xué)領(lǐng)域為研究對象,通過從中國知網(wǎng)上采集情報學(xué)期刊論文數(shù)據(jù)進行研究實證,情報學(xué)是一門具有交叉學(xué)科特點的應(yīng)用型學(xué)科,該學(xué)科中的論文具有較強的學(xué)科交叉性,會應(yīng)用到多學(xué)科的理論與方法,以其作為研究對象具有較強的普適性,相關(guān)成果能較為容易地遷移到其他學(xué)科。在本章中首先基于 2.3 節(jié)所提框架進行層次結(jié)構(gòu)構(gòu)建實證。

  3.1 數(shù)據(jù)收集與處理

  我們對《中國圖書館學(xué)報》《情報學(xué)報》《情報科學(xué)》《情報理論與實踐》《情報雜志》《情報資料工作》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》《圖書情報工作》《圖書情報知識》《圖書與情報》《現(xiàn)代情報》與《信息資源管理學(xué)報》共 12 種情報學(xué)核心期刊 2020 年度發(fā)表的科技文獻進行采集,隨后對文獻進行篩選,去除“本刊訊”、“人物訪談”等類型的文獻,僅保留解決實際問題的文獻,最后共收集到相關(guān)文獻 4667 篇。

  3.2 層次結(jié)構(gòu)

  初步構(gòu)建完成數(shù)據(jù)處理后,層次結(jié)構(gòu)的初步構(gòu)建可分為預(yù)選根節(jié)點、確立根節(jié)點、加入子節(jié)點以及層級遞進 4 個步驟。

  1)預(yù)選根節(jié)點。在選擇根節(jié)點時,首先按詞頻排序選擇靠前的 10 個具有較大概念范圍的關(guān)鍵詞作為預(yù)選根節(jié)點。

  2)確立根節(jié)點。對于預(yù)選根節(jié)點,計算其與其他詞間概念距離,并計算概念距離閾值從而確定子節(jié)點,而后計算子節(jié)點概念范圍與概念范圍指數(shù) μ。通過比較詞間概念距離本文將概念距離閾值設(shè)為 0.25。

  “大數(shù)據(jù)”“影響因素”與“網(wǎng)絡(luò)輿情”具有較高的概念范圍指數(shù)與子節(jié)點數(shù),分別計算三個詞概念范圍達到指數(shù) μ 的子節(jié)點與其的平均距離,以衡量詞間緊密程度。其中,“大數(shù)據(jù)”的平均概念距離為 0.271,“影響因素”的平均概念距離為 0.331,“網(wǎng)絡(luò)輿情”的平均概念距離為 0.290。進行綜合考慮后,選擇關(guān)鍵詞“影響因素”作為根節(jié)點。

  3)加入子節(jié)點。首先,選擇與“影響因素”概念距離 λ 達到 0.25 且概念范圍達到 7 的 9個關(guān)鍵詞作為候選子節(jié)點。隨后,為控制節(jié)點數(shù),設(shè)置父節(jié)點最多具有 5 個子節(jié)點,計算候選子節(jié)點的概念范圍與概念范圍指數(shù) μ。最后,若候選子節(jié)點數(shù)大于 5,則依次比較其概念范圍指數(shù) μ,概念范圍達到 μ 的子節(jié)點數(shù)以及概念范圍(詞頻),按大小先后加入層次結(jié)構(gòu)。子節(jié)點數(shù)據(jù)如表 5 所示。

  4)層級遞進。按照先后順序加入子節(jié)點后,將子節(jié)點作為新的父節(jié)點,重復(fù)步驟 3)逐步向?qū)哟谓Y(jié)構(gòu)中加入新的節(jié)點。初步構(gòu)造了以“影響因素”為第一層級的,具有 5 層結(jié)構(gòu)的關(guān)鍵詞層次結(jié)構(gòu)。

  3.3 層次結(jié)構(gòu)優(yōu)化

  在初步建立層次結(jié)構(gòu)之后,需按照層級穩(wěn)定性與層級概念差對其優(yōu)化。1)層級穩(wěn)定性。如表 6 中的數(shù)據(jù),從第一層級至第四層級,每層節(jié)點數(shù)呈現(xiàn)穩(wěn)定增長趨勢,而從第四層級至第五層級,節(jié)點數(shù)僅增加 8 個,第四層中關(guān)鍵詞難以繼續(xù)分化概念,即層次結(jié)構(gòu)在第四層時達到穩(wěn)定。2)層級概念差。依據(jù)表 6 中的數(shù)據(jù)比較每一層級的概念范圍均值,可以發(fā)現(xiàn)從第一層級至第四層級,層級之間均存在一定差值,而從第四層級至第五層級,差值接近于 0,即第四層級與第五層級間概念遞進性較差。綜合層級穩(wěn)定性及層級概念差,對層次結(jié)構(gòu)進行優(yōu)化調(diào)整,僅保留前四層級。

  4 科技文獻檢索實證

  在構(gòu)建層次結(jié)構(gòu)后,本章將進行科技文獻檢索實證,以探討基于層次結(jié)構(gòu)的文獻檢索效果。

  4.1 測試數(shù)據(jù)的選擇

  因本文是對不同層級中關(guān)鍵詞的檢索效果進行對比,故以構(gòu)建的“影響因素”層次結(jié)構(gòu)為參照,設(shè)置第一層-第二層、第二層-第三層、第三層-第四層共三組比對組,對于每組從采集的 4667 篇科技文獻中篩選出十篇同時含有相鄰層級關(guān)鍵詞的文獻,最后共篩選出測試文獻30 篇。

  4.2 檢索結(jié)果探析

  依據(jù)文獻查全率結(jié)果,對于一篇科技文獻中的關(guān)鍵詞,其所處層級越深,則通過該關(guān)鍵詞可檢索到的參考文獻越多,且隨著層級的增長,處于較深層級的關(guān)鍵詞相較于處于較淺層級的關(guān)鍵詞在查全率上的優(yōu)勢也會逐漸遞增。

  基于文獻重合率結(jié)果,通過不同層級關(guān)鍵詞檢索到的文獻具有一定的重合,但重合率會隨著層級的遞進而逐漸縮小,即可說明具有上下級關(guān)系的關(guān)鍵詞查找的文獻范圍具有較大差異,且差異程度隨著層級的遞進而增強,通過層次結(jié)構(gòu)可以發(fā)現(xiàn)一些拓展性較強的知識。此外,通過層次結(jié)構(gòu)也可以對科研工作者的檢索意圖進行明確,例如,若同時以關(guān)鍵詞“科研人員”與“科學(xué)數(shù)據(jù)素養(yǎng)”作為檢索詞,借助層次結(jié)構(gòu),可以推測其有較大可能要進行與“影響因素”有關(guān)的研究。

  5 結(jié)束語

  關(guān)鍵詞是科技文獻特征的直觀體現(xiàn),已被廣泛應(yīng)用于科技文獻檢索工作中。為了提高基于關(guān)鍵詞的科技文獻檢索效果,本文在共詞分析的基礎(chǔ)上,通過梳理相關(guān)文獻,提出了一個系統(tǒng)、完整的關(guān)鍵詞層次結(jié)構(gòu)構(gòu)建框架,并驗證了層次結(jié)構(gòu)在科技文獻檢索工作中的具體效果。從結(jié)果來看,層次結(jié)構(gòu)具有明確科研工作者檢索目標,擴展檢索結(jié)果,引申相關(guān)知識的作用。在今后的研究中可以進一步探討層次結(jié)構(gòu)構(gòu)建思路,嘗試將其與實體識別、關(guān)系抽取等工作相結(jié)合,或是對其應(yīng)用進行拓展與深化從而達到更好的科研輔助效果。

  參考文獻:

  [1] 中 國 科 學(xué) 技 術(shù) 信 息 研 究 所 .2020 中 國 卓 越 科 技 論 文 報 告 [EB/OL].[2022-03-19].

  [2] 中 國 科 學(xué) 技 術(shù) 信 息 研 究 所 .2021 中 國 卓 越 科 技 論 文 報 告 [EB/OL].[2022-03-19].

  [3]XU Mingying, DU Junping, XUE Zhe, et al. A semi-supervised semantic-enhanced frameworkfor scientific literature retrieval[J]. Neurocomputing, 2021, 461(2): 450-461.

  [4]張敏,丁良萍,劉歡.面向科技文獻的多維語義索引構(gòu)建思路及實現(xiàn)[J].情報理論與實踐,2021,44(8):139-145

  .[5]柴慶鳳,史霖炎,梅珊,等.基于人工特征和機器特征融合的科技文獻知識元抽取[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(8):132-143.

  [6]趙京勝,朱巧明,周國棟,等.自動關(guān)鍵詞抽取研究綜述[J].軟件學(xué)報,2017,28(9):2431-2449.

  [7]胡昌平,陳果.科技論文關(guān)鍵詞特征及其對共詞分析的影響[J].情報學(xué)報,2014,33(1):23-32.

  [8]胡昌平,林鑫. 科技文獻檢索中基于主題詞表分面化改造的分面構(gòu)建 [J].情報學(xué)報,2015,34(8):875-884.

  作者:熊回香,葉佳鑫(華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430079)

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/29985.html