基于被引逆文檔權(quán)重的專家專長識別與分析

所屬分類：經(jīng)濟論文閱讀次時間：2021-08-20 10:20

本文摘要：摘要：[目的/意義]識別專家專長有助于發(fā)現(xiàn)具有相同或相近研究方向的研究者，對開展細(xì)粒度的專家評價與分析具有重要意義。[方法/過程]基于學(xué)術(shù)論文關(guān)鍵詞構(gòu)建專長種子詞典，采用語義相似度計算對詞典進(jìn)行擴展與對齊;融合專長術(shù)語被引頻次、作者貢獻(xiàn)率與專長術(shù)

　　摘要：[目的/意義]識別專家專長有助于發(fā)現(xiàn)具有相同或相近研究方向的研究者，對開展細(xì)粒度的專家評價與分析具有重要意義。[方法/過程]基于學(xué)術(shù)論文關(guān)鍵詞構(gòu)建專長種子詞典，采用語義相似度計算對詞典進(jìn)行擴展與對齊;融合專長術(shù)語被引頻次、作者貢獻(xiàn)率與專長術(shù)語逆文檔頻率，提出專家專長術(shù)語的被引-逆文檔權(quán)重計算方法;結(jié)合專長權(quán)重得分及排名，識別專家的代表性研究專長，并進(jìn)行專家評價與分析。[結(jié)果/結(jié)論]經(jīng)實驗驗證，本研究提出的專家專長識別方法能夠客觀地反映專家專長的影響力，同時在細(xì)粒度專家評估、專家推薦以及學(xué)科熱點分析等相關(guān)領(lǐng)域具有一定的實踐參考價值。

　　關(guān)鍵詞：信息計量語義挖掘?qū)ｉL識別專家評價

圖書管理信息

　　1引言

　　2020年10月，中共中央國務(wù)院出臺《深化新時代教育評價改革總體方案》，強調(diào)高校教師科研評價的重要性，并提出要根據(jù)不同學(xué)科、不同崗位特點，堅持分類評價，推行代表性成果評價，探索長周期評價，完善同行專家評議機制，注重個人評價與團隊評價相結(jié)合[1]。然而，隨著新興學(xué)科、交叉學(xué)科的不斷涌現(xiàn)，多樣化的信息資源與科研成果數(shù)量大、種類多、更新快等特點，使得傳統(tǒng)信息計量學(xué)方法無法滿足新時代的科技人才評價需求。

　　因此，如何應(yīng)對融合態(tài)的哲學(xué)社會科學(xué)發(fā)展趨勢，制定細(xì)粒度的科學(xué)人才評價管理體系，提升多元化的科技人才隊伍建設(shè)水平，進(jìn)而優(yōu)化學(xué)科資源的利用效果，促進(jìn)新時代學(xué)術(shù)科研創(chuàng)新發(fā)展，成為了當(dāng)前亟待解決的問題。隨著“小同行”概念的提出，研究者開始對學(xué)科領(lǐng)域內(nèi)相同或相近研究方向的專家開展細(xì)粒度評價與分析。識別專家專長可以發(fā)現(xiàn)“小同行”專家群體，并支持專家遴選、開展多維專家評價與分析工作。

　　統(tǒng)計法是最常見的專家專長識別方法，李剛等基于詞頻提取專家專長，并對我國圖書情報與檔案管理領(lǐng)域的相似研究專家進(jìn)行聚類及可視化分析[2];在考慮文檔位置的基礎(chǔ)上，唐曉波等通過統(tǒng)計醫(yī)生學(xué)術(shù)成果的關(guān)鍵詞，構(gòu)建醫(yī)生畫像的成果特征[3];劉曉豫等將關(guān)鍵詞作為候選專長術(shù)語，抽取作者-關(guān)鍵詞矩陣，并結(jié)合TFIDF加權(quán)構(gòu)建專家專長[4]。

　　部分研究者基于網(wǎng)絡(luò)分析方法進(jìn)行專長識別，朱偉珠等在詞頻分析的基礎(chǔ)上構(gòu)建了概念知識網(wǎng)絡(luò)，并采用Kcore層次理論劃分學(xué)科領(lǐng)域的層次結(jié)構(gòu)及其研究子群[5];劉萍與周夢歡提出了基于共詞網(wǎng)絡(luò)的專家專長識別方法[6]。陳罛等則將TextRank和概念鏈接技術(shù)相結(jié)合識別表示專家專長的候選專長術(shù)語，并基于署名位序與被引數(shù)等信息，使用層次分析法為專長術(shù)語分配權(quán)重[7]。此外，部分研究者基于主題分析識別專家專長，張曉娟等利用PLSA對每位專家的論文產(chǎn)出進(jìn)行主題建模，并分析圖情領(lǐng)域?qū)＜业难芯款I(lǐng)域[8]，陳紅伶等將Word2vec詞向量模型與LDA主題模型相結(jié)合，構(gòu)建專家特征并識別學(xué)術(shù)共同體[9]。

　　目前專家專長識別方法較為局限，大部分研究者采用統(tǒng)計術(shù)語詞頻的方法構(gòu)建專家專長標(biāo)簽，且在術(shù)語權(quán)重的計算中引入了一定的主觀因素。基于領(lǐng)域知識庫識別專家專長需要集合專家知識進(jìn)行領(lǐng)域本體構(gòu)建，而基于主題分析等方法抽取的專家專長識別方法則又存在可解釋性較差等問題。當(dāng)前專家專長識別相關(guān)研究大多以專家研究成果的相關(guān)文本或網(wǎng)絡(luò)關(guān)系來抽取代表性專長，忽略了成果對學(xué)科領(lǐng)域所產(chǎn)生的影響以及專家在成果中的貢獻(xiàn)大小等因素。

　　因此，本研究提出了基于被引-逆文檔權(quán)重的專家專長識別方法。將論文關(guān)鍵詞與詞向量模型相結(jié)合，自動構(gòu)建專家專長術(shù)語詞典。融合作者貢獻(xiàn)率、被引頻次與專長術(shù)語逆文檔頻率，提出專長術(shù)語權(quán)重計算方法。通過計算專家的專長權(quán)重得分進(jìn)行排序，最終提取專家的代表性專長標(biāo)簽。本研究提出的專家專長識別方法能夠結(jié)合相關(guān)領(lǐng)域研究者規(guī)模、專家在相關(guān)領(lǐng)域中的影響力等因素，客觀地提取出專家的代表性專長，對專家評估、專家推薦與學(xué)科熱點分析等方面而言具有重要實踐意義。

　　2相關(guān)研究

　　2.1專家學(xué)術(shù)評價研究

　　學(xué)界針對專家評價開展了多方面的探索，傳統(tǒng)研究者主要通過篇目分析法、引文分析法對科技人才進(jìn)行評價[10]。較為經(jīng)典的專家評價方法包含h指數(shù)[11]與p指數(shù)[12]，其主要通過一定時期內(nèi)發(fā)表論文數(shù)及被引數(shù)等構(gòu)建專家評價指標(biāo)。同時部分研究者從論文數(shù)、署名位序及發(fā)表時間等方面優(yōu)化評價指標(biāo)并構(gòu)建了衍生專家評價指數(shù)[13-15]。但劉中興與楊建林指出，我國圖情領(lǐng)域?qū)＜业膫€人學(xué)術(shù)評價指標(biāo)使用仍處于發(fā)展階段，學(xué)者們主要針對h類指數(shù)的指標(biāo)開展研究，而對個人學(xué)術(shù)綜合評價的多元指標(biāo)融合途徑研究較少，包括個人學(xué)術(shù)評價在內(nèi)的學(xué)術(shù)評價研究仍需要進(jìn)一步完善[16]。

　　近年來，社會網(wǎng)絡(luò)分析[17-18]、主題分析[8]與專家知識地圖[19-20]等也逐漸成為了學(xué)科領(lǐng)域開展專家評價與分析的常見方法;此外，部分研究者還構(gòu)建了專家知識圖譜進(jìn)行專家評估與分析，常見的專家知識圖譜包括了基于合作關(guān)系的專家知識圖譜、基于文檔內(nèi)容分析的專家知識圖譜、基于鏈接分析的專家知識地圖的圖譜、綜合內(nèi)容分析和鏈接分析的專家知識圖譜等[21]。但是，目前專家的細(xì)粒度評價與分析研究還相對較少，由于學(xué)科或研究方向存在差異性等因素，僅以分?jǐn)?shù)來評價專家的影響力是存在局限性的。同時，在專家評價相關(guān)研究中，學(xué)者通常選擇特定領(lǐng)域的部分專家開展分析，其研究方法不能對海量專家學(xué)者進(jìn)行細(xì)粒度的影響力評價。

　　2.2關(guān)鍵詞抽取與專長詞典構(gòu)建

　　基于領(lǐng)域知識庫的專家專長表示方法能夠?qū)＜覍ｉL進(jìn)行準(zhǔn)確的描述，為構(gòu)建能夠反映領(lǐng)域知識的專長詞典，需要從研究成果中抽取出能夠反映和區(qū)分研究主題的術(shù)語。常見的專長詞典構(gòu)建方法是利用作者給出的論文關(guān)鍵詞，如范曉玉等采用科研人員發(fā)表的文獻(xiàn)關(guān)鍵詞，構(gòu)建專家的研究主題及興趣標(biāo)簽[22]。部分研究者通過統(tǒng)計從論文摘要中挖掘的關(guān)鍵詞構(gòu)建專長詞典，如毛進(jìn)等選擇專家研究成果中的高頻名詞代表專家的研究專長[23]。同時，陳罛等則將詞共現(xiàn)網(wǎng)絡(luò)與TextRank相結(jié)合來形成學(xué)術(shù)專長候選詞[7]。

　　隨著自然語言處理領(lǐng)域的發(fā)展，一部分研究者對于如何從學(xué)術(shù)論文摘要及正文中識別關(guān)鍵詞開展了研究，并將詞向量模型[24]與深度學(xué)習(xí)模型[25]引入論文關(guān)鍵詞抽取任務(wù)中。此外，領(lǐng)域知識庫也受到了學(xué)者的關(guān)注，陸偉等將中國圖書館分類法與管理科學(xué)主題詞表相結(jié)合，構(gòu)建圖情領(lǐng)域?qū)＜覍ｉL詞典，將不同專家的研究成果進(jìn)行映射[26];胡月紅和劉萍通過抽取學(xué)術(shù)論文領(lǐng)域術(shù)語，并基于關(guān)聯(lián)規(guī)則、形式概念分析，挖掘術(shù)語間的關(guān)系，構(gòu)建情報學(xué)領(lǐng)域本體[27]�；趯＜抑R與領(lǐng)域本體構(gòu)建術(shù)語詞典的方法，不僅需要海量的專家領(lǐng)域知識，同時在應(yīng)對新興研究熱點時往往會有遲滯性。而通過TextRank等算法或自然語言處理方法自動構(gòu)建術(shù)語詞典，雖然能夠減少專長本體的人工標(biāo)注成本，但也帶來了可解釋性較低、不能有效表示詞與詞之間關(guān)系等問題。

　　2.3署名位序與作者貢獻(xiàn)研究

　　在學(xué)科融合、學(xué)科交叉的背景下，越來越多的專家傾向于采用合作的方式開展研究，不同的署名位序能夠直接體現(xiàn)專家的貢獻(xiàn)大小。本研究對圖書館、情報與文獻(xiàn)學(xué)領(lǐng)域發(fā)表的5萬余篇論文的作者進(jìn)行統(tǒng)計分析后發(fā)現(xiàn)，獨立作者發(fā)表的文章數(shù)量呈遞減的趨勢。署名位序往往和專家在研究中的貢獻(xiàn)大小相關(guān)[28]，也帶來了科研成果的專家貢獻(xiàn)比例分配問題[29]。

　　丁敬達(dá)等基于其構(gòu)建的作者貢獻(xiàn)率測度方法，提出通過計算專家按研究貢獻(xiàn)率得分的總被引頻次[30]，評價該專家在該領(lǐng)域的學(xué)術(shù)影響力。本研究采用N.T.Hagen提出的作者貢獻(xiàn)率等級分配公式[31]計算專家在論文中的貢獻(xiàn)度，將專家署名位序及貢獻(xiàn)率計算方法應(yīng)用于專家專長詞權(quán)重計算，從而將表示論文影響力的被引頻次按照貢獻(xiàn)率進(jìn)行分配，凸顯文章的重要貢獻(xiàn)者，體現(xiàn)重要作者在該研究領(lǐng)域的科研影響力。

　　3基于被引-逆文檔權(quán)重的專家專長識別模型框架

　　從研究成果中提取專家被研究領(lǐng)域所認(rèn)可的研究專長是開展細(xì)粒度專家評價與分析工作的前提，本文通過對海量論文數(shù)據(jù)進(jìn)行分析，將專長術(shù)語被引頻次、作者貢獻(xiàn)率與專長術(shù)語逆文檔頻率相結(jié)合，構(gòu)建基于被引-逆文檔權(quán)重的專家專長識別模型。該框架主要包括數(shù)據(jù)預(yù)處理、專長術(shù)語詞典構(gòu)建以及專家專長表示3個部分。

　　3.1數(shù)據(jù)預(yù)處理

　　為保證數(shù)據(jù)的完備性，在數(shù)據(jù)預(yù)處理階段將采集自多平臺的中文期刊論文數(shù)據(jù)進(jìn)行整合，并提取規(guī)范的學(xué)術(shù)論文數(shù)據(jù)以開展進(jìn)一步分析。本文的數(shù)據(jù)預(yù)處理流程主要包括：(1)數(shù)據(jù)獲取。基于知網(wǎng)、萬方數(shù)據(jù)庫導(dǎo)出目標(biāo)期刊論文的元數(shù)據(jù)，采用selenium構(gòu)建爬蟲，爬取論文被引數(shù)據(jù)。(2)數(shù)據(jù)清洗及篩選。數(shù)據(jù)清洗主要將不同數(shù)據(jù)庫論文數(shù)據(jù)進(jìn)行規(guī)范化，合并數(shù)據(jù)后篩選過濾標(biāo)題摘要過短、作者字段為空以及重復(fù)的樣本，并定義規(guī)則去除其中的通知、收稿資訊等相關(guān)記錄。

　　3.2專長術(shù)語詞典構(gòu)建

　　關(guān)鍵詞是對論文內(nèi)容進(jìn)行高度凝練和概括的詞[22]，能夠較好地反映專家的研究方向及研究能力。本研究采用領(lǐng)域近10年發(fā)表論文數(shù)據(jù)為研究對象，以文本中的關(guān)鍵詞構(gòu)建專長種子詞典，將種子詞典作為外部詞典引入分詞工具中，經(jīng)過對摘要和標(biāo)題進(jìn)行分詞、去停用詞等預(yù)處理，構(gòu)建Word2vec詞向量模型。從論文標(biāo)題、摘要中提取高頻詞作為擴展候選詞，基于詞向量模型進(jìn)行語義相似度比較。采用與種子詞典中具有高相似度的擴展候選詞，建立關(guān)鍵詞-擴展候選詞同義詞表。

　　在后續(xù)的自然語言處理過程中，以同義詞表將文本中異形同義的擴展候選詞轉(zhuǎn)化為規(guī)范化的關(guān)鍵詞。同時，采用與種子詞典中關(guān)鍵詞相似程度均較低的候選詞構(gòu)建專長擴展詞典，識別出與種子詞典中關(guān)鍵詞含義均不同的高頻詞，并通過人工過濾該詞典中不能有效反映專家研究方向及研究能力的詞。最后，將種子詞典與專長擴展詞典進(jìn)行整合，得到基于語義擴展的專長詞典。

　　3.3專家專長表示

　　專家專長表示包括專長詞提取及專長詞權(quán)重計算兩部分。在專長詞提取部分，采用同義詞表將原文中的高頻詞轉(zhuǎn)化為標(biāo)準(zhǔn)化表達(dá)的專長術(shù)語，并將專長種子詞典與專長擴展詞典相融合，然后利用該詞典標(biāo)注論文數(shù)據(jù)集中的專長術(shù)語。最后，提取出各專家的的專長詞與相關(guān)論文信息。在專長權(quán)重計算部分，本研究采用專長術(shù)語所在論文被引數(shù)作為主要因素之一，以專家在相關(guān)領(lǐng)域所產(chǎn)生的影響力大小客觀衡量專長的權(quán)重得分。

　　由于詞向量模型的訓(xùn)練語料規(guī)模存在局限性，部分在語義擴展階段引入的詞匯不能有效反映專家專長，與此同時，逆文檔頻率能夠反映字詞是否有較好的類別區(qū)分能力[32]，因此本文將逆文檔頻率引入專長詞權(quán)重，如公式(2)所示。通過計算專長詞在論文數(shù)據(jù)集中的逆文檔頻率，一方面能夠過濾不能表征論文研究內(nèi)容的常用詞，另一方面能夠?qū)⑾嚓P(guān)研究領(lǐng)域的規(guī)模作為考量因素，避免領(lǐng)域?qū)＜已芯績?nèi)容的趨同性，從而促進(jìn)多研究方向共同發(fā)展。此外，在權(quán)重得分計算中引入基于專家署名位序的作者貢獻(xiàn)率因素，能夠有效凸顯相關(guān)領(lǐng)域的重要研究者。

　　4實驗與結(jié)果分析

　　4.1數(shù)據(jù)采集

　　本研究以南大核心CSSCI來源中文期刊目錄(2019-2020)中圖書館、情報與文獻(xiàn)學(xué)領(lǐng)域的20個期刊為研究對象，通過知網(wǎng)采集學(xué)術(shù)論文元數(shù)據(jù)，同時以萬方進(jìn)行數(shù)據(jù)補充。采集2010年1月1日至2020年4月25日期間發(fā)表的論文相關(guān)信息共54698篇。采集字段包括來源庫、題名、作者、單位、文獻(xiàn)來源、關(guān)鍵詞、摘要、發(fā)表時間、第一責(zé)任人、基金、年、卷、期、頁碼、分類號以及被引次數(shù)，元數(shù)據(jù)主要通過知網(wǎng)及萬方提供的數(shù)據(jù)服務(wù)導(dǎo)出，被引次數(shù)基于Selenium構(gòu)建爬蟲采集。在數(shù)據(jù)預(yù)處理階段，將萬方、CNKI數(shù)據(jù)庫來源的論文數(shù)據(jù)進(jìn)行整合，去除標(biāo)題摘要過短、作者字段為空的樣本，并去除其中的通知、收稿資訊等相關(guān)記錄，合并重復(fù)記錄，最終獲得文章共49399篇。

　　4.2實驗過程

　　為挖掘能夠描述專家專長的術(shù)語，本文以論文數(shù)據(jù)集中詞頻大于3的關(guān)鍵詞構(gòu)建專長種子詞典，共計7990個詞。將專長種子詞典導(dǎo)入jieba分詞工具的外部詞典，經(jīng)對論文數(shù)據(jù)集的標(biāo)題和摘要進(jìn)行分詞、去停用詞等預(yù)處理，設(shè)定參數(shù)維度為100，上下文窗口大小為5，最低詞頻3次訓(xùn)練Word2Vec詞向量模型。

　　從標(biāo)題與摘要中提取詞頻大于100的高頻詞作為擴展候選詞，基于詞向量模型對高頻詞與專長種子詞典中的關(guān)鍵詞進(jìn)行語義相似度比較。若高頻詞能夠從專長種子詞典中發(fā)現(xiàn)相似度大于0.9的關(guān)鍵詞，則選擇最相似的關(guān)鍵詞構(gòu)建關(guān)鍵詞-擴展候選詞同義詞表，共建立關(guān)鍵詞-擴展候選詞映射關(guān)系94對。若高頻詞與專長種子詞典中的關(guān)鍵詞相似度均低于0.6，則將該高頻詞納入專長擴展詞典，刪除沒有意義的詞如“在內(nèi)”“兩種”等，最終構(gòu)建包含37個詞的專長擴展詞典如“核心”“背景”和“新穎”等。最終，通過關(guān)鍵詞-擴展候選詞同義詞表將論文中的高頻詞進(jìn)行規(guī)范性表達(dá)，同時融合專長種子詞典與專長擴展詞典，構(gòu)建基于語義擴展的專長詞典，詞典共包含8027個詞。

　　首先，將論文的標(biāo)題與摘要進(jìn)行分詞、去停用詞處理，其次，通過關(guān)鍵詞-擴展候選詞同義詞表將其中部分的高頻詞替換為標(biāo)準(zhǔn)化表達(dá)的關(guān)鍵詞，并將處理后的標(biāo)題、摘要與文章的關(guān)鍵詞進(jìn)行拼接，構(gòu)建該論文的詞表。通過基于語義擴展的專長詞典保留論文文本中選擇能夠較好反映專家專長的詞。最后，在經(jīng)過預(yù)處理的論文數(shù)據(jù)集中計算專長術(shù)語的逆文檔頻率。同時，提取各專家相關(guān)的署名序位、論文被引次數(shù)等信息，并基于專家署名位序計算專家在論文中的貢獻(xiàn)率。其中，基于被引-逆文檔權(quán)重方法識別結(jié)果顯示，邱均平在計量分析可視化和計量工具研究(CiteSpaceII)專長方面的得分最高，而基于TFIDF的實驗結(jié)果得出“五計學(xué)”是其具有代表性的研究專長。

　　通過分析相關(guān)研究成果可知，邱均平在“五計學(xué)”相關(guān)領(lǐng)域共發(fā)表4篇論文，主要集中于2019年，且該概念的相關(guān)研究專家僅有18人。而基于被引-逆文檔權(quán)重的方法選取了邱均平專家高被引的研究成果構(gòu)建其代表性專長標(biāo)簽，并綜合了不同專長詞研究者規(guī)模因素選擇專長術(shù)語，如在“CiteSpaceII”的相關(guān)研究內(nèi)容中，最高被引249次，“學(xué)科知識擴散”相關(guān)研究分別被引48和54次。

　　為驗證基于被引-逆文檔權(quán)重方法的有效性，本研究在發(fā)文量大于3的專家中隨機選擇了100位專家，分別使用兩種方法提取專家得分最高的專長，并對該專長的相關(guān)論文進(jìn)行可視化分析。其中，被引-逆文檔權(quán)重方法用以提取專家專長的論文采用公式3計算專家專長術(shù)語權(quán)重得分，將專家專長按照權(quán)重得分進(jìn)行排序，得到專家的代表性研究專長。

　　4.3結(jié)果分析

　　為驗證本研究提出的基于被引-逆文檔權(quán)重的專家專長識別方法的有效性，本文進(jìn)行三部分的實證分析：首先，對本研究提出的識別方法和TFIDF方法的專家專長識別效果進(jìn)行對比;其次，抽取多位專家的代表性專長，并開展特定研究專長的權(quán)威研究者分析以及針對不同研究階段專家學(xué)者的專長影響力評價;最后，選取研究領(lǐng)域高h(yuǎn)指數(shù)專家抽取其代表性專長，進(jìn)行科研團隊熱門研究主題分析。

　　4.3.1專家專長識別對比分析

　　TFIDF算法是較為常用的專家專長識別方法之一，分為詞頻與逆文檔頻率兩部分，該算法考慮了關(guān)鍵詞對文檔的重要性及類別區(qū)分能力。本研究利用TFIDF方法與本研究提出方法進(jìn)行專家專長識別效果的對比。將每一位專家相關(guān)的論文信息進(jìn)行整合，利用基于語義擴展的專長詞典構(gòu)建專家關(guān)鍵詞的TFIDF矩陣。以邱均平為例，兩種方法提取出的權(quán)重得分前10的專家專長對比：共132篇，篇均被引數(shù)為17.72次，而TFIDF方法用以提取專家專長的論文共155篇，篇均被引數(shù)為8.66次。

　　TFIDF方法用以抽取專長的論文被引數(shù)普遍較低，說明該方法在抽取專長時僅考慮了相關(guān)研究內(nèi)容的數(shù)量及研究者規(guī)模，易于在研究者規(guī)模較小的研究內(nèi)容中選擇專長詞。而本研究提出的方法所采用論文的平均被引數(shù)遠(yuǎn)高于TFIDF方法。因此，本文認(rèn)為基于被引-逆文檔權(quán)重方法抽取的專長能夠反映專家被同行所認(rèn)可的代表性研究方向，并且能夠挖掘出研究領(lǐng)域較新且認(rèn)可度較高的研究主題，對于促進(jìn)學(xué)科多研究方向共同發(fā)展具有重要意義。

　　4.3.2專家專長評價

　　本文提出的專家專長識別方法，能夠從多維度開展專家評價與分析。計算領(lǐng)域研究者的專長權(quán)重得分并排序，能夠挖掘研究領(lǐng)域的權(quán)威專家，或評價專家在該領(lǐng)域的研究影響力。以“大數(shù)據(jù)”相關(guān)研究為例，將題名、關(guān)鍵詞或摘要中包含“大數(shù)據(jù)”的論文作為研究對象，統(tǒng)計領(lǐng)域內(nèi)的專家論文信息并計算其專長權(quán)重得分。

　　此外，對專家的代表性專長及其專長權(quán)重進(jìn)行分析，能夠有效評價專家的學(xué)術(shù)影響力。本研究基于國內(nèi)“十二五”期間CSSCI情報學(xué)領(lǐng)域高產(chǎn)作者與高被引作者排名、高產(chǎn)青年作者與高被引青年作者排名[33]，按權(quán)重得分提取專家的代表性研究專長并構(gòu)建雷達(dá)圖，同時展示其在該專長上的影響力排名。

　　通過對不同研究階段的專家進(jìn)行對比分析發(fā)現(xiàn)，學(xué)科高產(chǎn)與高被引研究專家往往在多個研究方向上均有較為深厚的學(xué)術(shù)積淀，與此同時，青年研究專家也能夠通過其研究積累，在主要的部分研究方向上取得較為優(yōu)秀的成績。本研究所提出的專家專長識別方法綜合考慮了專家在專長領(lǐng)域的貢獻(xiàn)大小，并基于專長術(shù)語研究領(lǐng)域規(guī)模為專家選擇了代表性專長，能夠直觀反映出專家研究在學(xué)科領(lǐng)域中的影響力，并有利于促進(jìn)專家的個人成果建設(shè)，支持開展多維度的專家評價工作。

　　圖書館評職知識：圖書情報副研究館員職稱評選條件

　　5結(jié)語

　　本文基于詞向量模型構(gòu)建了描述專家專長的詞典，并將專長術(shù)語被引頻次、作者貢獻(xiàn)率與專長術(shù)語逆文檔頻率計算公式相融合，提出了基于被引-逆文檔權(quán)重的專家專長識別方法。該方法能夠基于專家的代表性研究成果提取專家專長，同時考慮研究者規(guī)模和論文影響力等因素，從學(xué)科領(lǐng)域影響力維度豐富了現(xiàn)有的專家專長識別方法。同時，該方法能夠挖掘特定專長的權(quán)威專家、開展細(xì)粒度的專家評價以及分析學(xué)科領(lǐng)域熱點等。實驗結(jié)果初步驗證了本研究所提出的專家專長識別方法的有效性，為專家評價與學(xué)科分析提供了新視角。但本文所構(gòu)建的專家專長識別方法仍存在一定不足，例如數(shù)據(jù)集僅采用了南大核心CSSCI來源中文期刊目錄相關(guān)論文，且在數(shù)據(jù)選擇過程中未對綜述、實證研究等不同類型的論文加以區(qū)分。

　　此外，通過論文關(guān)鍵詞與詞向量模型語義擴展構(gòu)建專長詞典，不能有效地揭示學(xué)科與術(shù)語的關(guān)系，不能有效區(qū)分描述研究主題和研究方法的術(shù)語，以及存在部分細(xì)粒度專長術(shù)語仍然需要專家知識進(jìn)行解析才能夠較好地描述專家專長。因此，如何融合學(xué)科領(lǐng)域知識本體，進(jìn)一步優(yōu)化專家專長識別方法，構(gòu)建更加全面系統(tǒng)的細(xì)粒度專家評價模型，還有待進(jìn)一步的研究探索。

　　參考文獻(xiàn)：

　　[1]國務(wù)院辦公廳.深化新時代教育評價改革總體方案[EB/OL].[2021-01-15].http：//www.gov.cn/zhengce/202010/13/content_5551032.htm.

　　[2]李剛，余益飛，杜雯.高校LIS教師群體中的“小同行”研究(2001-2010年)[J].圖書情報知識，2011(6)：78-85.

　　[3]唐曉波，高和璇.基于特征分析和標(biāo)簽提取的醫(yī)生畫像構(gòu)建研究[J].情報科學(xué)，2020，38(5)：3-10.

　　[4]劉曉豫，朱東華，汪雪鋒，等.多專長專家識別方法研究———以大數(shù)據(jù)領(lǐng)域為例[J].圖書情報工作，2018，62(3)：55-63.

　　[5]朱偉珠，李春發(fā).基于概念知識網(wǎng)絡(luò)的“小同行”評議專家遴選方法實證研究[J].情報雜志，2017，36(7)：78-83，88.

　　[6]劉萍，周夢歡.基于共詞網(wǎng)絡(luò)的專家專長挖掘[J].情報科學(xué)，2012，30(12)：1815-1819.

　　[7]陳罛，李楠，梁冰，等.基于成果特征的學(xué)者學(xué)術(shù)專長識別方法[J].圖書情報工作，2019，63(20)：96-103.

　　[8]張曉娟，陸偉，程齊凱.PLSA在圖情領(lǐng)域?qū)＜覍ｉL識別中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù)，2012(2)：76-81.

　　[9]陳紅伶，楊佳穎，許鑫.基于題錄摘要語義建模的學(xué)術(shù)共同體識別———以國內(nèi)圖情領(lǐng)域?qū)W者為例[J].情報理論與實踐，2020，43(5)：170-176.

　　作者：唐曉波1，2周禾深1李詩軒3牟昊4