本文摘要:摘要:[目的]為幫助學者快速地找到合適的科研合作者,促進科研產(chǎn)出、增進學術(shù)交流。[方法]本文采用 LDA 主題模型、PageRank 算法、社會網(wǎng)絡分析法等方法,全面深入挖掘?qū)W者的自然屬性、興趣屬性、能力屬性、社交屬性 4 個維度特征以構(gòu)建學者畫像,并基于學者偏好開展科
摘要:[目的]為幫助學者快速地找到合適的科研合作者,促進科研產(chǎn)出、增進學術(shù)交流。[方法]本文采用 LDA 主題模型、PageRank 算法、社會網(wǎng)絡分析法等方法,全面深入挖掘?qū)W者的自然屬性、興趣屬性、能力屬性、社交屬性 4 個維度特征以構(gòu)建學者畫像,并基于學者偏好開展科研合作者推薦。[結(jié)果]從 CNKI 和 CSSCI 中獲取圖書情報領域 14007 篇文獻、13292 條引文數(shù)據(jù)及 11869 位作者驗證本文所提模型,最終向目標學者推薦了 20 名研究興趣相似及互補的潛在科研合作者。[局限]本文未能很好地解決冷啟動問題,且在學者能力表征方面忽略了不同署名順序的作者對論文的貢獻度,在實證環(huán)節(jié)數(shù)據(jù)量選擇有限。[結(jié)論]本模型可以有效地向目標學者推薦高權(quán)威度、高相關(guān)度,且科研生產(chǎn)力和社交關(guān)系等多方面特征均高度匹配的潛在科研合作者,具有較好地應用價值。
關(guān)鍵詞:學者畫像;科研合作者推薦;LDA 主題模型;PageRank 算法;社會網(wǎng)絡分析法
1 引言
近年來,學科知識的交叉融合使得科學研究呈現(xiàn)出綜合性和復雜性的趨勢,研究人員為高效解決現(xiàn)有科研問題,通常開展協(xié)同互助的科學活動,該過程也被稱為科研合作。多項研究顯示科研合作能夠有效提高學者科研質(zhì)量、促進科研產(chǎn)出[1],所以,高質(zhì)量的科研合作可極大激勵學者進行科研交流和思維碰撞,從而推動科學發(fā)展。當前,大多數(shù)學者通過社交圈、參加學術(shù)會議、歷史合作記錄等途徑來選擇科研合作者,這些方式容易受到時間、空間等因素的影響且可供選擇范圍受限,導致學者錯失與潛在合作者進行科研合作的機會;雖然學者可以利用科研社交平臺進行學術(shù)交流發(fā)現(xiàn)潛在合作者,但上述平臺存在的數(shù)據(jù)過載及數(shù)據(jù)質(zhì)量良莠不齊的問題同樣不容忽視[2]。
因此,充分挖掘?qū)W者特征為其推薦科研合作者勢在必行。鑒于學者相關(guān)數(shù)據(jù)來源多樣,不同學者開展合作原因各異,而現(xiàn)有研究往往通過學者興趣、權(quán)威度或社交屬性等單項或其中多項屬性開展推薦,未能構(gòu)建學者信息全貌,使得科研合作者推薦研究存在一定局限。所以,本文將致力于廣泛收集學者數(shù)據(jù),構(gòu)建學者畫像,精細分析學者自然屬性、興趣屬性、能力屬性和社交屬性,開展基于學者畫像的科研合作者推薦研究,以期提高現(xiàn)有科學合作者推薦水平。
2 相關(guān)研究
對于科研合作這一社會現(xiàn)象的機制和規(guī)律分析,一直受到國內(nèi)外學者的廣泛關(guān)注,不少社會學、圖書情報領域的學者從科研合作的概念[3,4,5]、模式[6,7,8,9]、影響因素[10,11,12,13,14]等維度入手,開展了一系列高質(zhì)量研究,針對科研潛在合作者的推薦研究相對較少,且已有成果基于研究方法可大致分為四類:基于內(nèi)容的推薦、基于信息計量學指標的推薦、基于鏈接關(guān)系的推薦以及混合推薦。
基于內(nèi)容的推薦其核心在于表征學者歷史研究內(nèi)容,從而將研究領域最相近的科研合作者推薦給目標學者,其中,Rosen[15]等人在 LDA 模型中加入了文獻的作者信息,提出了ATM 模型,可用于學者分類、相似學者推薦和學者興趣集中的研究;LIU[16]等提取學者研究主題和學者的活躍度、保守度等基本特征。
構(gòu)建了一個尋找高潛力科研合作者的推薦框架;劉萍[17]等引入關(guān)鍵詞信息對學者進行社團劃分,而后借助LDA 模型提取學者的研究主題,實現(xiàn)科研合作者推薦;谛畔⒂嬃恐笜说膶W者推薦研究通常借助學者發(fā)表的論文數(shù)量以及論文的被引量等指標實現(xiàn)權(quán)威學者的識別與推薦,自 Hirsch[18]在 2005 年提出的 h 指數(shù)后,多位學者[19,20,21,22,23]針對h 指數(shù)直升不降、忽視高被引文獻等不足提出改進,完善了學者評價指標,提高了權(quán)威學者的識別效率。
此外,蒲姍姍[24]等引入面向主題的 h 指數(shù)以區(qū)別不同研究方向下的學者影響力,以此構(gòu)建綜合考慮學者的研究興趣、知識結(jié)構(gòu)與影響力的科研合作學者推薦模型;阪溄雨P(guān)系的學者推薦主要是利用學術(shù)網(wǎng)絡的鏈接結(jié)構(gòu),識別高影響力的核心節(jié)點并結(jié)合其他評價算法指標開展推薦,國外學者Erjia[25]等為衡量學者影響力提出了一種考慮引文和協(xié)作網(wǎng)絡拓撲結(jié)構(gòu)的加權(quán)PageRank 算法,結(jié)合學者興趣,幫助目標學者發(fā)現(xiàn)潛在合作者;Pham[26]等將論文的內(nèi)容分析納入科研合作者鏈路測度,設計了一種基于內(nèi)容相似度的網(wǎng)絡鏈接預測指標以發(fā)現(xiàn)更多潛在合作者;鄧少偉[27]等借助論文合著關(guān)系開發(fā)了一種基于合著網(wǎng)絡的推薦系統(tǒng),為學者匹配科研合作者;余傳明[28,29]集成基于節(jié)點位置的網(wǎng)絡表示學習模型與基于網(wǎng)絡結(jié)構(gòu)的網(wǎng)絡表示學習模型,利用機器學習進行深度挖掘,實現(xiàn)科研合作者推薦。由于上述三種方法評價維度較為單一。
因此,基于這三種方法的混合推薦法成為更受學者青睞的主流推薦方法。綜合已有研究可知,科研合作者推薦較好的融合了當前學術(shù)界的技術(shù)方法,在一定程度上發(fā)掘出了與目標學者更高相似度、更高權(quán)威度及更高活躍度的科研合作者,但與權(quán)威學者推薦、學術(shù)興趣相似學者推薦、審稿專家推薦、問題服務專家推薦等方向的研究相比,科研合作者推薦研究不僅關(guān)注學者的研究興趣、研究能力等屬性,還應關(guān)注包括學術(shù)年齡、隸屬機構(gòu)的物理距離和所屬學科發(fā)展水平等自然屬性。
因此,如何充分獲取并挖掘?qū)W者自然屬性、興趣屬性、能力屬性及社交屬性,精細構(gòu)建學者畫像成為提高科研合作學者推薦的科學性和準確性亟待解決的問題之一;诖,本文將利用多項數(shù)據(jù)平臺充分收集學者個人數(shù)據(jù)、論文數(shù)據(jù)、引文數(shù)據(jù)和合作數(shù)據(jù),利用 LDA、PageRank 等算法提取學者多維屬性,融合構(gòu)建學者畫像從而實現(xiàn)科研合作者推薦。
3 基于學者畫像的科研合作者推薦框架
本文提出基于學者畫像的科研合作者推薦模型,從多個學術(shù)資源數(shù)據(jù)庫中采集多源數(shù)據(jù),按照一定規(guī)則對其清洗加工后,抽取學者的自然屬性、興趣屬性、能力屬性及社交屬性,從而精準構(gòu)建學者畫像,此外,本模型提供了基于用戶偏好和領域內(nèi)專家決策(AHP 方法)的兩種參數(shù)獲取機制用以加權(quán)融合上述四項屬性,綜合計算待推薦學者排名,最終實現(xiàn)基于學者畫像的科研合作者推薦。
3.1 學者自然屬性
學者自然屬性包括基本的個人屬性,例如職稱和教育背景可用來表征學者學術(shù)能力,年齡和性別具有科研合作的同質(zhì)性,并且由于自然屬性穩(wěn)定性較好,短時間內(nèi)不會有較大變動,新入門的學者往往可依據(jù)自然屬性找到部分潛在合作者,因而學者的自然屬性常被用于科研合作者推薦領域。
(1)學術(shù)年齡學術(shù)年齡是指一位學者進行學術(shù)相關(guān)工作的年限,其計算方法是最近一篇學術(shù)論文發(fā)表年份減去第一篇文章學術(shù)論文年份,本文用 AA(Academic Age)表示學術(shù)年齡。有研究表明學者更傾向于與具有相似年齡、學術(shù)年齡的學者合作,本文將借鑒已有研究[30]將學者按照學術(shù)年齡分為 3 組,即:入門學者(AA<12)、青年學者(12≤AA<24)和資深學者(24≤AA),并據(jù)此進行等級量化處理,得到學術(shù)年齡評級。
(2)教育背景或職稱在學術(shù)界更高的職稱往往代表著更高的學術(shù)權(quán)威性,意味著更高質(zhì)量的合作產(chǎn)出,因此學者們會更傾向于同高級職稱的學者進行科研合作。我國各級科研院所已基本建立起完備的評價體系來授予學者職稱,對于尚無職稱的學者可以考慮利用教育背景和職稱之間的相互關(guān)系,為其劃分等級,例如,博士處于學術(shù)生涯的早期階段,其獨立科研的能力尚需加強,因此在量化評級時,將博士與初級職稱劃分為同一級別,鑒于博士后經(jīng)過學術(shù)訓練已基本達到初級學者的水平,且部分地區(qū)政策博士后出站可以直接申請副高級職稱,因此本文將博士后定級至中級職稱。
(3)機構(gòu)地理距離受益于網(wǎng)絡通訊的快速發(fā)展,在線交流極大地削弱了地理距離的影響,但已有研究表明[32],受時間、空間的限制,地理距離對科研合作仍有明顯的負向作用。通常情況下,科研合作主要發(fā)生在機構(gòu)內(nèi)、校內(nèi)[9]、省內(nèi)和國內(nèi)[34],機構(gòu)地理距離較遠意味著學者所處單位經(jīng)濟水平、學科建設水平、政治、文化等背景差異較大,直接溝通的成本隨之增加。
以至于無法迅速有效地溝通和解決合作中出現(xiàn)問題,可能會降低合作的可能性,甚至導致合作中止,不利于學者之間建立信任關(guān)系,因此,關(guān)注學者的地理距離指標便能夠在降低成本的前提下提高交流效率。鑒于學者所屬城市眾多,且省內(nèi)進行科研合作的主力軍為省會城市,因此本文將省份之間的經(jīng)緯度作為地理距離的測量單位。
3.2 學者興趣
屬性學者興趣屬性是學者特征提取的核心,已有研究發(fā)現(xiàn),當外部條件具備時,影響科研活動的決定因素是研究者的研究興趣[10]。在科研合作場景中,擁有相似或相同研究興趣的學者建立合作關(guān)系的成本較低,合作的可能性更高[5];與此同時,科學研究綜合性和復雜性的發(fā)展趨勢促使學者積極尋求具有互補知識或技能的學者以擴充自身知識體系。因此,本部分將精確表征學者興趣,挖掘?qū)W者動態(tài)特征,為其尋求研究興趣相似及互補學者。
4 實證研究
4.1 數(shù)據(jù)收集與預處理
本文選擇《中文核心期刊要目總覽》第八版(2017 年版本)和 CSSCI(2016年版本)中 16 種影響因子大于 2 的圖書情報領域核心期刊作為本文數(shù)據(jù)來源,以確保涵蓋圖書情報學研究前沿和主流方向。在 CNKI 中選取上述期刊于2015-2019 年發(fā)表的文獻 14007 篇,將期刊來源類別限制為 CSSCI,文獻分類目錄選擇“圖書情報與數(shù)字圖書館”,在 CSSCI 中同樣選取上述期刊發(fā)文年代為2015-2019 年的 13292 條引文數(shù)據(jù),將學科類別限制“圖書館、情報與文獻學”。
分析“熊回香”教授的推薦結(jié)果可知,從學者個人屬性維度而言,本模型成功將職稱較高、與目標學者學術(shù)年齡相近、機構(gòu)距離相近的學者識別出;從學者興趣屬性維度而言,興趣相似推薦列表中,推薦學者均有和“熊回香”教授相近的研究方向,比如,“熊回香”教授的文章涉及學術(shù)能力評價、期刊評價、合作網(wǎng)絡、期刊引用等信息計量學指標,推薦結(jié)果中有多位學者研究領域為信息計量與科學評價相關(guān);興趣互補推薦列表中,黃如花、鄂麗君等多位學者研究方向為圖書館學領域,如數(shù)字圖書館、信息服務、閱讀推廣等,金武剛、易斌等學者研究方向為公共文化服務相關(guān)領域,均為“熊回香”教授研究研究方向“網(wǎng)絡信息組織與檢索”的互補知識,能有效擴展該學者的研究思路和知識覆蓋面。
從學者能力屬性維度而言,推薦列表中有 16 位學者的 h 指數(shù)均>15,機構(gòu)均為 985 建設水平以上,具有較高的權(quán)威度和較好的聲譽。且本文提出的融合逐年發(fā)文數(shù)的h 指數(shù),不僅有效地融入了時間指標,還降低了部分 h 指數(shù)高,但是近期活躍度下降的學者的推薦得分;從學者社交屬性維度而言,推薦學者的被引 PageRank值、學者合作中心度、機構(gòu)合作中心度均較高,如學者邱均平、馬費成、趙蓉英、蘇新寧均具有較高的被引 PageRank 值,學者邱均平、朱慶華、畢強,機構(gòu)武漢大學、南京大學、吉林大學在學者和機構(gòu)合作網(wǎng)絡中具有較高的中心度且處于中心位置,這些指標表明推薦學者的論文影響力和質(zhì)量較高,且合作的意愿較為強烈。
5 結(jié)語
本文基于學者多源數(shù)據(jù)從自然屬性、興趣屬性、能力屬性和社交屬性四個維度構(gòu)建了學者畫像,開展科研合作者推薦研究。在自然屬性維度中,重點分析了學者學術(shù)年齡、職稱或教育背景、機構(gòu)所屬省份三項特征;在興趣屬性維度中,引入遺忘因子處理學者所著文章摘要得到學者興趣-概率分布,并得到與目標學者研究興趣相似或互補的學者。
在能力屬性維度中,以融合了逐年發(fā)文年數(shù)的 h指數(shù)(ℎ𝑇)為主,機構(gòu)的整體建設水平和領域內(nèi)學科建設水平為輔,綜合表征學者權(quán)威度和活躍度;在社交屬性維度中,利用 PageRank 算法和 Gephi 軟件挖掘?qū)W者的引文合作網(wǎng)絡關(guān)系以揭示學者知識交流和傳播的能力。
而后,本模型提供了用戶偏好參數(shù)獲取接口和領域內(nèi)專家層析分析法賦權(quán)兩種方式用以線性加權(quán)融合上述 4 個維度的 11 項指標,得分較高的 top-N 學者為推薦的潛在合作學者,生成興趣相似與互補兩類推薦列表供目標學者參考。
最后,文章收集 CNKI 和CSSCI 中圖書情報領域近五年的學者和文本資源信息,對模型的可行性和推薦結(jié)果的有效性進行驗證,取得良好運行效果。但整體來看,本研究仍存在一定的不足,例如對新入門學者未能完全解決推薦中的冷啟動問題,沒有考慮不同署名順序的作者對論文的貢獻度,從而影響到學者興趣的精確表征和學術(shù)能力的評定。此外,實證環(huán)節(jié)數(shù)據(jù)量選擇有限,未采用更多學科領域、更大的樣本數(shù)據(jù)集以及更多語種的樣本對該模型進行更加科學全面的驗證,后續(xù)筆者也將以此為契機,開展更為充分全面的學術(shù)探索,以期為科研合作者推薦研究提供更高效可行的方案。
參考文獻
[1]West J D,Jacquet J, King M M,et al.The role of gender in scholarly authorship[J].PLoSONE,2013,8(07):e66212.
[2]Wang W,Yu S, Bekele T M,et al.Scientific Collaboration Patterns Vary with Scholars'AcademicAges[J].Scientometrics,2017,112(01):329-343.
[3]Katz J S. Scale independent indicators and research assessment[J]. Science and PublicPolicy,2000,27(01):23-36.
[4]Chavarro D A, Orozco L A. Policy change in the Colombian research evaluation system of research groups: Theneed for a different route[J]. Criterio Jurídico Garantista,2011,3(04):118-134
.[5]趙蓉英,溫芳芳.科研合作與知識交流[J].圖書情報工作,2011,55(20):6-10.(Zhao Rongying,Wen Fangfang.Scientific research cooperation and knowledge communication[J]Library AndInformation Service, 2011,55 (20): 6-10.)
[6]張麗華,田丹,曲建升.科研合作模式與科研人員角色的變化規(guī)律分析——以病毒學領域職業(yè)生涯至少為30 年的作者為例[J].情報學報,2020,39(07):719-730.(Zhang Lihua, Tian Dan, Qu Jiansheng.Analysis of change in research collaboration patterns and the role ofscientific researchers——Author in Virology with a career period of at least 30 years[J] Journal of The ChinaSociety for Scientific and Technical Information, 2020,39 (07): 719-730.)
[7]enckendorff P,Zehrer A.Career and Collaboration Patterns in Tourism Research[J].Current Issues inTourism,2016,19(14):1-19.
作者:董文慧 熊回香 杜 瑾 王妞妞
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///dzlw/29959.html