本文摘要:摘要:[目的]為幫助學(xué)者快速地找到合適的科研合作者,促進(jìn)科研產(chǎn)出、增進(jìn)學(xué)術(shù)交流。[方法]本文采用 LDA 主題模型、PageRank 算法、社會網(wǎng)絡(luò)分析法等方法,全面深入挖掘?qū)W者的自然屬性、興趣屬性、能力屬性、社交屬性 4 個維度特征以構(gòu)建學(xué)者畫像,并基于學(xué)者偏好開展科
摘要:[目的]為幫助學(xué)者快速地找到合適的科研合作者,促進(jìn)科研產(chǎn)出、增進(jìn)學(xué)術(shù)交流。[方法]本文采用 LDA 主題模型、PageRank 算法、社會網(wǎng)絡(luò)分析法等方法,全面深入挖掘?qū)W者的自然屬性、興趣屬性、能力屬性、社交屬性 4 個維度特征以構(gòu)建學(xué)者畫像,并基于學(xué)者偏好開展科研合作者推薦。[結(jié)果]從 CNKI 和 CSSCI 中獲取圖書情報領(lǐng)域 14007 篇文獻(xiàn)、13292 條引文數(shù)據(jù)及 11869 位作者驗證本文所提模型,最終向目標(biāo)學(xué)者推薦了 20 名研究興趣相似及互補(bǔ)的潛在科研合作者。[局限]本文未能很好地解決冷啟動問題,且在學(xué)者能力表征方面忽略了不同署名順序的作者對論文的貢獻(xiàn)度,在實(shí)證環(huán)節(jié)數(shù)據(jù)量選擇有限。[結(jié)論]本模型可以有效地向目標(biāo)學(xué)者推薦高權(quán)威度、高相關(guān)度,且科研生產(chǎn)力和社交關(guān)系等多方面特征均高度匹配的潛在科研合作者,具有較好地應(yīng)用價值。
關(guān)鍵詞:學(xué)者畫像;科研合作者推薦;LDA 主題模型;PageRank 算法;社會網(wǎng)絡(luò)分析法
1 引言
近年來,學(xué)科知識的交叉融合使得科學(xué)研究呈現(xiàn)出綜合性和復(fù)雜性的趨勢,研究人員為高效解決現(xiàn)有科研問題,通常開展協(xié)同互助的科學(xué)活動,該過程也被稱為科研合作。多項研究顯示科研合作能夠有效提高學(xué)者科研質(zhì)量、促進(jìn)科研產(chǎn)出[1],所以,高質(zhì)量的科研合作可極大激勵學(xué)者進(jìn)行科研交流和思維碰撞,從而推動科學(xué)發(fā)展。當(dāng)前,大多數(shù)學(xué)者通過社交圈、參加學(xué)術(shù)會議、歷史合作記錄等途徑來選擇科研合作者,這些方式容易受到時間、空間等因素的影響且可供選擇范圍受限,導(dǎo)致學(xué)者錯失與潛在合作者進(jìn)行科研合作的機(jī)會;雖然學(xué)者可以利用科研社交平臺進(jìn)行學(xué)術(shù)交流發(fā)現(xiàn)潛在合作者,但上述平臺存在的數(shù)據(jù)過載及數(shù)據(jù)質(zhì)量良莠不齊的問題同樣不容忽視[2]。
因此,充分挖掘?qū)W者特征為其推薦科研合作者勢在必行。鑒于學(xué)者相關(guān)數(shù)據(jù)來源多樣,不同學(xué)者開展合作原因各異,而現(xiàn)有研究往往通過學(xué)者興趣、權(quán)威度或社交屬性等單項或其中多項屬性開展推薦,未能構(gòu)建學(xué)者信息全貌,使得科研合作者推薦研究存在一定局限。所以,本文將致力于廣泛收集學(xué)者數(shù)據(jù),構(gòu)建學(xué)者畫像,精細(xì)分析學(xué)者自然屬性、興趣屬性、能力屬性和社交屬性,開展基于學(xué)者畫像的科研合作者推薦研究,以期提高現(xiàn)有科學(xué)合作者推薦水平。
2 相關(guān)研究
對于科研合作這一社會現(xiàn)象的機(jī)制和規(guī)律分析,一直受到國內(nèi)外學(xué)者的廣泛關(guān)注,不少社會學(xué)、圖書情報領(lǐng)域的學(xué)者從科研合作的概念[3,4,5]、模式[6,7,8,9]、影響因素[10,11,12,13,14]等維度入手,開展了一系列高質(zhì)量研究,針對科研潛在合作者的推薦研究相對較少,且已有成果基于研究方法可大致分為四類:基于內(nèi)容的推薦、基于信息計量學(xué)指標(biāo)的推薦、基于鏈接關(guān)系的推薦以及混合推薦。
基于內(nèi)容的推薦其核心在于表征學(xué)者歷史研究內(nèi)容,從而將研究領(lǐng)域最相近的科研合作者推薦給目標(biāo)學(xué)者,其中,Rosen[15]等人在 LDA 模型中加入了文獻(xiàn)的作者信息,提出了ATM 模型,可用于學(xué)者分類、相似學(xué)者推薦和學(xué)者興趣集中的研究;LIU[16]等提取學(xué)者研究主題和學(xué)者的活躍度、保守度等基本特征。
構(gòu)建了一個尋找高潛力科研合作者的推薦框架;劉萍[17]等引入關(guān)鍵詞信息對學(xué)者進(jìn)行社團(tuán)劃分,而后借助LDA 模型提取學(xué)者的研究主題,實(shí)現(xiàn)科研合作者推薦。基于信息計量指標(biāo)的學(xué)者推薦研究通常借助學(xué)者發(fā)表的論文數(shù)量以及論文的被引量等指標(biāo)實(shí)現(xiàn)權(quán)威學(xué)者的識別與推薦,自 Hirsch[18]在 2005 年提出的 h 指數(shù)后,多位學(xué)者[19,20,21,22,23]針對h 指數(shù)直升不降、忽視高被引文獻(xiàn)等不足提出改進(jìn),完善了學(xué)者評價指標(biāo),提高了權(quán)威學(xué)者的識別效率。
此外,蒲姍姍[24]等引入面向主題的 h 指數(shù)以區(qū)別不同研究方向下的學(xué)者影響力,以此構(gòu)建綜合考慮學(xué)者的研究興趣、知識結(jié)構(gòu)與影響力的科研合作學(xué)者推薦模型;阪溄雨P(guān)系的學(xué)者推薦主要是利用學(xué)術(shù)網(wǎng)絡(luò)的鏈接結(jié)構(gòu),識別高影響力的核心節(jié)點(diǎn)并結(jié)合其他評價算法指標(biāo)開展推薦,國外學(xué)者Erjia[25]等為衡量學(xué)者影響力提出了一種考慮引文和協(xié)作網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的加權(quán)PageRank 算法,結(jié)合學(xué)者興趣,幫助目標(biāo)學(xué)者發(fā)現(xiàn)潛在合作者;Pham[26]等將論文的內(nèi)容分析納入科研合作者鏈路測度,設(shè)計了一種基于內(nèi)容相似度的網(wǎng)絡(luò)鏈接預(yù)測指標(biāo)以發(fā)現(xiàn)更多潛在合作者;鄧少偉[27]等借助論文合著關(guān)系開發(fā)了一種基于合著網(wǎng)絡(luò)的推薦系統(tǒng),為學(xué)者匹配科研合作者;余傳明[28,29]集成基于節(jié)點(diǎn)位置的網(wǎng)絡(luò)表示學(xué)習(xí)模型與基于網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)模型,利用機(jī)器學(xué)習(xí)進(jìn)行深度挖掘,實(shí)現(xiàn)科研合作者推薦。由于上述三種方法評價維度較為單一。
因此,基于這三種方法的混合推薦法成為更受學(xué)者青睞的主流推薦方法。綜合已有研究可知,科研合作者推薦較好的融合了當(dāng)前學(xué)術(shù)界的技術(shù)方法,在一定程度上發(fā)掘出了與目標(biāo)學(xué)者更高相似度、更高權(quán)威度及更高活躍度的科研合作者,但與權(quán)威學(xué)者推薦、學(xué)術(shù)興趣相似學(xué)者推薦、審稿專家推薦、問題服務(wù)專家推薦等方向的研究相比,科研合作者推薦研究不僅關(guān)注學(xué)者的研究興趣、研究能力等屬性,還應(yīng)關(guān)注包括學(xué)術(shù)年齡、隸屬機(jī)構(gòu)的物理距離和所屬學(xué)科發(fā)展水平等自然屬性。
因此,如何充分獲取并挖掘?qū)W者自然屬性、興趣屬性、能力屬性及社交屬性,精細(xì)構(gòu)建學(xué)者畫像成為提高科研合作學(xué)者推薦的科學(xué)性和準(zhǔn)確性亟待解決的問題之一;诖,本文將利用多項數(shù)據(jù)平臺充分收集學(xué)者個人數(shù)據(jù)、論文數(shù)據(jù)、引文數(shù)據(jù)和合作數(shù)據(jù),利用 LDA、PageRank 等算法提取學(xué)者多維屬性,融合構(gòu)建學(xué)者畫像從而實(shí)現(xiàn)科研合作者推薦。
3 基于學(xué)者畫像的科研合作者推薦框架
本文提出基于學(xué)者畫像的科研合作者推薦模型,從多個學(xué)術(shù)資源數(shù)據(jù)庫中采集多源數(shù)據(jù),按照一定規(guī)則對其清洗加工后,抽取學(xué)者的自然屬性、興趣屬性、能力屬性及社交屬性,從而精準(zhǔn)構(gòu)建學(xué)者畫像,此外,本模型提供了基于用戶偏好和領(lǐng)域內(nèi)專家決策(AHP 方法)的兩種參數(shù)獲取機(jī)制用以加權(quán)融合上述四項屬性,綜合計算待推薦學(xué)者排名,最終實(shí)現(xiàn)基于學(xué)者畫像的科研合作者推薦。
3.1 學(xué)者自然屬性
學(xué)者自然屬性包括基本的個人屬性,例如職稱和教育背景可用來表征學(xué)者學(xué)術(shù)能力,年齡和性別具有科研合作的同質(zhì)性,并且由于自然屬性穩(wěn)定性較好,短時間內(nèi)不會有較大變動,新入門的學(xué)者往往可依據(jù)自然屬性找到部分潛在合作者,因而學(xué)者的自然屬性常被用于科研合作者推薦領(lǐng)域。
(1)學(xué)術(shù)年齡學(xué)術(shù)年齡是指一位學(xué)者進(jìn)行學(xué)術(shù)相關(guān)工作的年限,其計算方法是最近一篇學(xué)術(shù)論文發(fā)表年份減去第一篇文章學(xué)術(shù)論文年份,本文用 AA(Academic Age)表示學(xué)術(shù)年齡。有研究表明學(xué)者更傾向于與具有相似年齡、學(xué)術(shù)年齡的學(xué)者合作,本文將借鑒已有研究[30]將學(xué)者按照學(xué)術(shù)年齡分為 3 組,即:入門學(xué)者(AA<12)、青年學(xué)者(12≤AA<24)和資深學(xué)者(24≤AA),并據(jù)此進(jìn)行等級量化處理,得到學(xué)術(shù)年齡評級。
(2)教育背景或職稱在學(xué)術(shù)界更高的職稱往往代表著更高的學(xué)術(shù)權(quán)威性,意味著更高質(zhì)量的合作產(chǎn)出,因此學(xué)者們會更傾向于同高級職稱的學(xué)者進(jìn)行科研合作。我國各級科研院所已基本建立起完備的評價體系來授予學(xué)者職稱,對于尚無職稱的學(xué)者可以考慮利用教育背景和職稱之間的相互關(guān)系,為其劃分等級,例如,博士處于學(xué)術(shù)生涯的早期階段,其獨(dú)立科研的能力尚需加強(qiáng),因此在量化評級時,將博士與初級職稱劃分為同一級別,鑒于博士后經(jīng)過學(xué)術(shù)訓(xùn)練已基本達(dá)到初級學(xué)者的水平,且部分地區(qū)政策博士后出站可以直接申請副高級職稱,因此本文將博士后定級至中級職稱。
(3)機(jī)構(gòu)地理距離受益于網(wǎng)絡(luò)通訊的快速發(fā)展,在線交流極大地削弱了地理距離的影響,但已有研究表明[32],受時間、空間的限制,地理距離對科研合作仍有明顯的負(fù)向作用。通常情況下,科研合作主要發(fā)生在機(jī)構(gòu)內(nèi)、校內(nèi)[9]、省內(nèi)和國內(nèi)[34],機(jī)構(gòu)地理距離較遠(yuǎn)意味著學(xué)者所處單位經(jīng)濟(jì)水平、學(xué)科建設(shè)水平、政治、文化等背景差異較大,直接溝通的成本隨之增加。
以至于無法迅速有效地溝通和解決合作中出現(xiàn)問題,可能會降低合作的可能性,甚至導(dǎo)致合作中止,不利于學(xué)者之間建立信任關(guān)系,因此,關(guān)注學(xué)者的地理距離指標(biāo)便能夠在降低成本的前提下提高交流效率。鑒于學(xué)者所屬城市眾多,且省內(nèi)進(jìn)行科研合作的主力軍為省會城市,因此本文將省份之間的經(jīng)緯度作為地理距離的測量單位。
3.2 學(xué)者興趣
屬性學(xué)者興趣屬性是學(xué)者特征提取的核心,已有研究發(fā)現(xiàn),當(dāng)外部條件具備時,影響科研活動的決定因素是研究者的研究興趣[10]。在科研合作場景中,擁有相似或相同研究興趣的學(xué)者建立合作關(guān)系的成本較低,合作的可能性更高[5];與此同時,科學(xué)研究綜合性和復(fù)雜性的發(fā)展趨勢促使學(xué)者積極尋求具有互補(bǔ)知識或技能的學(xué)者以擴(kuò)充自身知識體系。因此,本部分將精確表征學(xué)者興趣,挖掘?qū)W者動態(tài)特征,為其尋求研究興趣相似及互補(bǔ)學(xué)者。
4 實(shí)證研究
4.1 數(shù)據(jù)收集與預(yù)處理
本文選擇《中文核心期刊要目總覽》第八版(2017 年版本)和 CSSCI(2016年版本)中 16 種影響因子大于 2 的圖書情報領(lǐng)域核心期刊作為本文數(shù)據(jù)來源,以確保涵蓋圖書情報學(xué)研究前沿和主流方向。在 CNKI 中選取上述期刊于2015-2019 年發(fā)表的文獻(xiàn) 14007 篇,將期刊來源類別限制為 CSSCI,文獻(xiàn)分類目錄選擇“圖書情報與數(shù)字圖書館”,在 CSSCI 中同樣選取上述期刊發(fā)文年代為2015-2019 年的 13292 條引文數(shù)據(jù),將學(xué)科類別限制“圖書館、情報與文獻(xiàn)學(xué)”。
分析“熊回香”教授的推薦結(jié)果可知,從學(xué)者個人屬性維度而言,本模型成功將職稱較高、與目標(biāo)學(xué)者學(xué)術(shù)年齡相近、機(jī)構(gòu)距離相近的學(xué)者識別出;從學(xué)者興趣屬性維度而言,興趣相似推薦列表中,推薦學(xué)者均有和“熊回香”教授相近的研究方向,比如,“熊回香”教授的文章涉及學(xué)術(shù)能力評價、期刊評價、合作網(wǎng)絡(luò)、期刊引用等信息計量學(xué)指標(biāo),推薦結(jié)果中有多位學(xué)者研究領(lǐng)域為信息計量與科學(xué)評價相關(guān);興趣互補(bǔ)推薦列表中,黃如花、鄂麗君等多位學(xué)者研究方向為圖書館學(xué)領(lǐng)域,如數(shù)字圖書館、信息服務(wù)、閱讀推廣等,金武剛、易斌等學(xué)者研究方向為公共文化服務(wù)相關(guān)領(lǐng)域,均為“熊回香”教授研究研究方向“網(wǎng)絡(luò)信息組織與檢索”的互補(bǔ)知識,能有效擴(kuò)展該學(xué)者的研究思路和知識覆蓋面。
從學(xué)者能力屬性維度而言,推薦列表中有 16 位學(xué)者的 h 指數(shù)均>15,機(jī)構(gòu)均為 985 建設(shè)水平以上,具有較高的權(quán)威度和較好的聲譽(yù)。且本文提出的融合逐年發(fā)文數(shù)的h 指數(shù),不僅有效地融入了時間指標(biāo),還降低了部分 h 指數(shù)高,但是近期活躍度下降的學(xué)者的推薦得分;從學(xué)者社交屬性維度而言,推薦學(xué)者的被引 PageRank值、學(xué)者合作中心度、機(jī)構(gòu)合作中心度均較高,如學(xué)者邱均平、馬費(fèi)成、趙蓉英、蘇新寧均具有較高的被引 PageRank 值,學(xué)者邱均平、朱慶華、畢強(qiáng),機(jī)構(gòu)武漢大學(xué)、南京大學(xué)、吉林大學(xué)在學(xué)者和機(jī)構(gòu)合作網(wǎng)絡(luò)中具有較高的中心度且處于中心位置,這些指標(biāo)表明推薦學(xué)者的論文影響力和質(zhì)量較高,且合作的意愿較為強(qiáng)烈。
5 結(jié)語
本文基于學(xué)者多源數(shù)據(jù)從自然屬性、興趣屬性、能力屬性和社交屬性四個維度構(gòu)建了學(xué)者畫像,開展科研合作者推薦研究。在自然屬性維度中,重點(diǎn)分析了學(xué)者學(xué)術(shù)年齡、職稱或教育背景、機(jī)構(gòu)所屬省份三項特征;在興趣屬性維度中,引入遺忘因子處理學(xué)者所著文章摘要得到學(xué)者興趣-概率分布,并得到與目標(biāo)學(xué)者研究興趣相似或互補(bǔ)的學(xué)者。
在能力屬性維度中,以融合了逐年發(fā)文年數(shù)的 h指數(shù)(ℎ𝑇)為主,機(jī)構(gòu)的整體建設(shè)水平和領(lǐng)域內(nèi)學(xué)科建設(shè)水平為輔,綜合表征學(xué)者權(quán)威度和活躍度;在社交屬性維度中,利用 PageRank 算法和 Gephi 軟件挖掘?qū)W者的引文合作網(wǎng)絡(luò)關(guān)系以揭示學(xué)者知識交流和傳播的能力。
而后,本模型提供了用戶偏好參數(shù)獲取接口和領(lǐng)域內(nèi)專家層析分析法賦權(quán)兩種方式用以線性加權(quán)融合上述 4 個維度的 11 項指標(biāo),得分較高的 top-N 學(xué)者為推薦的潛在合作學(xué)者,生成興趣相似與互補(bǔ)兩類推薦列表供目標(biāo)學(xué)者參考。
最后,文章收集 CNKI 和CSSCI 中圖書情報領(lǐng)域近五年的學(xué)者和文本資源信息,對模型的可行性和推薦結(jié)果的有效性進(jìn)行驗證,取得良好運(yùn)行效果。但整體來看,本研究仍存在一定的不足,例如對新入門學(xué)者未能完全解決推薦中的冷啟動問題,沒有考慮不同署名順序的作者對論文的貢獻(xiàn)度,從而影響到學(xué)者興趣的精確表征和學(xué)術(shù)能力的評定。此外,實(shí)證環(huán)節(jié)數(shù)據(jù)量選擇有限,未采用更多學(xué)科領(lǐng)域、更大的樣本數(shù)據(jù)集以及更多語種的樣本對該模型進(jìn)行更加科學(xué)全面的驗證,后續(xù)筆者也將以此為契機(jī),開展更為充分全面的學(xué)術(shù)探索,以期為科研合作者推薦研究提供更高效可行的方案。
參考文獻(xiàn)
[1]West J D,Jacquet J, King M M,et al.The role of gender in scholarly authorship[J].PLoSONE,2013,8(07):e66212.
[2]Wang W,Yu S, Bekele T M,et al.Scientific Collaboration Patterns Vary with Scholars'AcademicAges[J].Scientometrics,2017,112(01):329-343.
[3]Katz J S. Scale independent indicators and research assessment[J]. Science and PublicPolicy,2000,27(01):23-36.
[4]Chavarro D A, Orozco L A. Policy change in the Colombian research evaluation system of research groups: Theneed for a different route[J]. Criterio Jurídico Garantista,2011,3(04):118-134
.[5]趙蓉英,溫芳芳.科研合作與知識交流[J].圖書情報工作,2011,55(20):6-10.(Zhao Rongying,Wen Fangfang.Scientific research cooperation and knowledge communication[J]Library AndInformation Service, 2011,55 (20): 6-10.)
[6]張麗華,田丹,曲建升.科研合作模式與科研人員角色的變化規(guī)律分析——以病毒學(xué)領(lǐng)域職業(yè)生涯至少為30 年的作者為例[J].情報學(xué)報,2020,39(07):719-730.(Zhang Lihua, Tian Dan, Qu Jiansheng.Analysis of change in research collaboration patterns and the role ofscientific researchers——Author in Virology with a career period of at least 30 years[J] Journal of The ChinaSociety for Scientific and Technical Information, 2020,39 (07): 719-730.)
[7]enckendorff P,Zehrer A.Career and Collaboration Patterns in Tourism Research[J].Current Issues inTourism,2016,19(14):1-19.
作者:董文慧 熊回香 杜 瑾 王妞妞
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/29959.html