科研人員職業(yè)高峰前后的研究主題轉換特征識別

所屬分類：經濟論文閱讀次時間：2021-09-18 10:15

本文摘要：摘要：[目的/意義]探索科研人員職業(yè)發(fā)展情況及其研究主題的變化規(guī)律不僅可以揭示科學生產力發(fā)展的內在機制，也有助于對科學事業(yè)的發(fā)展提供更好的政策指導與支持。[方法/過程]基于自然科學、社會科學、藝術與人文科學的代表性學科數(shù)據(jù)，對科研人員的職業(yè)高峰

　　摘要：[目的/意義]探索科研人員職業(yè)發(fā)展情況及其研究主題的變化規(guī)律不僅可以揭示科學生產力發(fā)展的內在機制，也有助于對科學事業(yè)的發(fā)展提供更好的政策指導與支持。[方法/過程]基于自然科學、社會科學、藝術與人文科學的代表性學科數(shù)據(jù)，對科研人員的職業(yè)高峰進行識別。在此基礎上以職業(yè)高峰作為科研人員學術生涯的劃分依據(jù)，采用自然語言處理中的Top2Vec主題建模方法識別研究主題，對科研人員學術生涯不同階段所研究主題的主題相似度和主題轉換概率進行分析。[結果/結論]研究結果表明，各學科科研人員總體上在經歷職業(yè)高峰之后的主題轉換會更加頻繁;而精英學者在經歷職業(yè)高峰后其研究主題則反而更加專一。

　　關鍵詞：科研人員職業(yè)高峰Top2Vec主題轉換主題相似度

職業(yè)高峰論壇

　　1引言

　　對于科研人員的職業(yè)生涯變化規(guī)律及其主題變遷的研究一直以來都是圖書情報學領域的研究熱點，尤其是對科研拔尖人才的研究更是社會與學術界關注的重點[1]。根據(jù)馬太效應[2]，科學家個體在職業(yè)生涯中取得優(yōu)秀成績能夠帶來聲譽和認可。這些聲譽和認可往往可以轉化為有形資產，反過來有助于其未來職業(yè)的成功。最近發(fā)表在Nature上的一項研究也發(fā)現(xiàn)科研人員職業(yè)生涯中通常會涉及一段“高光時期”(hotstreak)。在這段時期內科學家個體的表現(xiàn)會大大高于其正常表現(xiàn)，最為顯著的特征就是科學家個人在這段時期內的成果備受矚目(科研成果被高頻引用)[3]。

　　圖書館人員評職知識：圖書情報副研究館員職稱評選條件

　　盡管現(xiàn)有的研究發(fā)現(xiàn)在科學家職業(yè)生涯中存在類似的高光時期或高峰期，但是鮮有研究去深入挖掘職業(yè)高峰前后科研人員個體的科研工作到底發(fā)生了何種變化，特別是科研人員以及精英學者們在職業(yè)高峰期前后其研究主題發(fā)生了怎樣的變化。2019年6月，中共中央辦公廳和國務院辦公廳在《關于進一步弘揚科學家精神加強作風和學風建設的意見》[4]中指出：“要加大對優(yōu)秀科技工作者和創(chuàng)新團隊的穩(wěn)定支持力度，以加快培育促進科技事業(yè)健康發(fā)展”。從這個角度來說，對科研人員尤其是優(yōu)秀科研人員活動機制的研究也是為了對科學事業(yè)的進一步發(fā)展提供更好的政策指導與支持。

　　因此，有必要在實施國家科技發(fā)展戰(zhàn)略的大環(huán)境下，對科研人員尤其是優(yōu)秀科研工作者的科研學研究活動的特征進行細致地探索與分析。由于知識的發(fā)展是連續(xù)的、流動的和多領域交叉的，科研人員所研究主題的變化反映了信息收集與知識傳遞的不斷變化[5]。另外，近年來科學知識迅猛發(fā)展，新問題、新知識層出不窮。有鑒于此，筆者嘗試結合科研人員職業(yè)高峰與研究主題兩個維度，分別從自然科學、社會科學、藝術與人文科學中選擇不同學科領域的數(shù)據(jù)，采用自然語言處理(NLP)方法，從科研人員職業(yè)高峰的視角對科研人員所研究主題的變化進行具體分析，以期對科研人員以及精英學者們在職業(yè)高峰前后研究主題的變化特征取得更清晰的認知和更深入的洞見。

　　2相關研究現(xiàn)狀

　　了解科學家個體研究活動機制及其學術生涯過程中的重要里程碑，有助于深入探索科學生產力的動態(tài)模式。從社會學理論來講，年輕科學家作為學術界的“邊緣人”，在特定想法或學術流派中的投入尚少，沒有積累較多的聲譽，因此不用過分擔心科研失敗帶來的損失，往往也更容易做出成績，同時年輕科學家善于從新視角去看待老問題，他們興趣更為廣泛、精力更加充沛、學術熱情更高，盡管他們缺乏經驗，但研究原創(chuàng)性高。

　　年老科學家雖在研究經驗的積累、獨立判斷、處理矛盾等方面更勝一籌，但他們缺少熱情，會產生許多沒有靈感的作品也就不容易做出重大突破[6，7]。B.F.Jones等[8]通過對諾貝爾獎學者的職業(yè)生涯研究，發(fā)現(xiàn)富有想法的年輕人更容易在硬科學(hardscience)研究中做出重大突破。此外，學術界有許多研究工作對科研人員的職業(yè)高峰及其所對應的科研成就展開了研究[9-12]。

　　這些研究工作雖然對科研人員的學術生涯發(fā)展給予了高度重視，但是對職業(yè)高峰的界定并不統(tǒng)一，研究視角也相對單一，并沒有關注伴隨科研人員職業(yè)高峰的科研工作發(fā)生了怎樣的變化。在2020年最新的一項研究中，研究者在證實諾貝爾獎得主比其他科學家在學術生涯早期就擁有更多的發(fā)文量與更高的被引量的同時，還發(fā)現(xiàn)了獲獎后得主們科研成果影響力下滑的短暫的“諾貝爾低谷”(NobelDip)現(xiàn)象[13]。

　　這意味著科研人員在經歷了職業(yè)高峰之后，在具體的科學工作中會發(fā)生一些有趣的變化。其中，科研人員職業(yè)高峰前后研究主題的變化成為學術界關注的一個問題。具有前瞻性的主題可能會促使高影響力研究成果的產生，這不僅可以提高科學家的聲譽，也可以給整個領域創(chuàng)造研究機會。鑒于研究主題對科研人員個體學術生涯以及對學科和創(chuàng)新政策的影響，迫切地需要采取定量方法來理解科學家們在整個學術生涯中其研究主題是如何變化的[14-16]。

　　近年來，國內外學術界均有學者聚焦于量化和模擬科學家學術生涯中研究主題的演變[17-20]。盡管研究主題的頻繁變化可能會帶來失敗和生產力下降的風險，但是也有研究表明一個穩(wěn)定而又有重點的研究團隊雖然有助于科學家保持生產力，但卻不利于創(chuàng)新[21，22]。

　　通常而言，科研人員在其學術生涯過程中所研究的主題內容不可能是一成不變的，科學家轉換自己的研究主題可能是在保守與冒險之間權衡的結果[23]。A.Hoonlor等[24]選擇計算機領域的期刊與會議論文進行分析發(fā)現(xiàn)，科學家的研究重點大約以10年為一個周期發(fā)生變化，只有少部分研究者在同一主題年復一年地長期發(fā)表文章;A.Rzhetsky等[25]將學科知識建模為網絡。

　　通過分析發(fā)表在30多年內的數(shù)百萬篇生物醫(yī)學論文發(fā)現(xiàn)，生物醫(yī)學領域的科學家越來越追求保守的研究策略，傾向于探索中心主題的局部鄰域而不是進行大跨度的主題轉換;T.Jia等[26]則以物理學領域的分類代碼為依據(jù)，發(fā)現(xiàn)物理學家的研究興趣從學術生涯的開始到學術生涯的結束，其間發(fā)生了極大的轉變;A.Zeng等[27]在最近的一項研究中發(fā)現(xiàn)，如今的科研人員相比更早的研究者更頻繁地在不同主題之間切換，并且學術生涯早期的高轉換率與較低的整體生產力有關。

　　綜上，學術界關于科研人員職業(yè)高峰與學術生涯中研究主題轉換的相關研究已經分別積累了一定的成果。但在現(xiàn)有的研究中，鮮有學者將科研人員個體職業(yè)高峰與其研究主題轉換聯(lián)系起來進行分析。有鑒于此，筆者從自然科學、社會科學、藝術與人文科學3個學科領域中分別選取代表性學科，對科研人員以及精英學者們學術生涯中不同階段的研究主題變化特征進行深入研究，以期為揭示科學生產力發(fā)展機制提供可資借鑒的參考。

　　3相關理論基礎

　　3.1科研人員研究主題識別

　　識別科研人員的研究主題，主要是通過對其已發(fā)表的成果文獻進行自然語言處理(NLP)，從中發(fā)現(xiàn)大型文檔集合中的潛在語義結構，通常也被稱為主題分類。當前應用最廣泛的主題建模方法包括概率潛在語義分析(probabilisticlatentsemanticanalysis，PLSA)[28]和隱含狄利克雷分布(latentdirichletallocation，LDA)[29]等方法。

　　盡管這些建模方法在學術研究中很受歡迎，但也存在一些缺陷。比如為了使模型達到最佳效果，在建模之前通常需要做一些預處理，如自定義停用詞列表、進行詞干提取、詞元化以及花費大量精力去預先設置合適的主題數(shù)量等。此外，大部分主題建模方法依賴于文檔的詞袋表示，忽略了單詞的順序和語義。為了克服這些缺陷，筆者采用2020年最新提出的Top2Vec[30]主題建模方法對科研人員公開發(fā)表的文獻進行主題建模以識別其研究主題。

　　Top2Vec作為一種分布式主題向量模型，它利用文檔和單詞的語義嵌入來尋找主題。在語義空間中發(fā)現(xiàn)的文檔密集區(qū)域的數(shù)量被認為是突出主題的數(shù)量。其中，主題向量是從文檔的密集區(qū)域中計算出來的，密集區(qū)域是由非常相似的文檔組成的，通過計算“質心”(centroid)來得到主題向量，即同一密集簇中所有文檔向量的算術平均值。

　　“質心”能夠很好地代表文檔密集區(qū)域的主題向量，最接近這個主題向量的詞也就是在語義上能夠最好地描述它的詞。最終得到的主題向量與文檔和詞向量的共同嵌入，詞向量之間的距離表示語義相似度。Top2Vec生成的主題也被證明比概率生成模型具有更大的信息量以及包含更具有代表性的語料。該模型不需要去停用詞，也無需進行詞干提取和詞元化等預處理，它可以自動查找主題數(shù)量。

　　3.2主題相似性和主題轉換概率

　　筆者選取主題相似度得分和主題轉換概率兩個指標來測量科研人員研究主題的變換情況。相似度得分可以衡量科研人員在不同主題轉換過程中到底進行了多大幅度的主題遷移;主題轉換概率用于判斷科研人員研究主題轉換頻率的高低。研究工作采用余弦相似度計算主題間的相似性得分，該方法已經被證實是當前自然語言處理中應用最廣泛的語義距離測度方法。

　　4研究方法與流程

　　4.1數(shù)據(jù)來源與流程框架

　　在多學科視角下(自然科學、社會科學、藝術與人文科學)探測科研人員高峰期前/后的科研主題變化特征，需要在以往僅針對某單一學科領域的基礎上考慮更多的因素。針對單一學科的研究無需考慮文檔數(shù)量因素，但多學科視野下學科間差別懸殊的文檔數(shù)量可能會給主題建模與統(tǒng)計結果造成偏倚，不利于學科間的橫向比較�；谶@一原因，筆者選取了真菌學、圖書情報學、哲學3個在文檔數(shù)量上大體相當?shù)膶W科分別作為自然科學、社會科學、藝術與人文科學的代表。

　　以WebofScience核心數(shù)據(jù)庫作為基礎數(shù)據(jù)來源，采用高級檢索，檢索式分別為“SU=MYCOLOGY”“SU=INFORMATIONSCIENCE&LIBRARYSCIENCE”“SU=PHILOSOPHY”，檢索日期為2020年11月1日，檢索時間段為1985年至今，將文獻類別限定為“Article”，語種限定為“English”，最終獲得158446篇文獻。

　　其中，真菌學文獻43000篇，圖書情報學文獻65961篇，哲學文獻49485篇。在此基礎上，進一步提取文獻中所包含的作者，并按照所屬學科進行分組。根據(jù)ORCID標識符對重名作者進行人工核查且不重復計數(shù)，共得到266388位作者。其中，真菌學113241位，圖書情報學106730位，哲學46417位。

　　此外，考慮到原Top2Vec算法所依賴的TensorFlowText安裝包對Windows系統(tǒng)的限制，因此為了使研究方法具有更好的泛化性和研究復現(xiàn)性，筆者在深度學習PyTorch框架下使用基于Top2Vec的主題建模方法。相比于原本的Top2Vec建模方法，不僅保留了原模型的內核，同時具有更好的系統(tǒng)兼容性。傳統(tǒng)認知下，重要獎項、高水平成果等都可以作為科研人員職業(yè)高峰的標志。但學術界中重要獎項鳳毛麟角，不足以據(jù)此考量更廣泛的科研人員隊伍。且獎項更側重學術界對此前成就的認可，而不是科學研究本身在獲獎時達到最高峰。

　　因此，學術界主要采用高被引論文作為識別科研人員職業(yè)高峰的依據(jù)，特別是針對長時間周期某單一學科進行研究時，主要采用設定統(tǒng)一年限(如10年)內的引文頻次[3，32]�？紤]到本研究對象跨越3個學科門類，且論文半衰期(halflife)受到文獻類型、學科性質等多方面因素的影響，不適合采用統(tǒng)一年限內的引文頻次作為標準，加之“睡美人”文獻等因素的影響，筆者使用絕對被引頻次最高的論文作為科研人員職業(yè)高峰的標志，并將最高被引發(fā)表當年視為該科研人員達到職業(yè)高峰。

　　5研究結果

　　5.1主題相似性與轉換概率的宏觀分析

　　為保障實驗結果的有效性，研究工作對此前得到的266388位作者進一步篩查。首先刪除具有缺失值的數(shù)據(jù)，其次選取發(fā)表文獻數(shù)不低于5篇的科研人員。最終得到真菌學作者5427位，圖書情報學作者3912位，哲學作者1371位。將科研人員被引頻次最高文獻的發(fā)表作為判定其達到職業(yè)高峰的標準，以科研人員最高被引文獻發(fā)表當年為職業(yè)高峰期(CareerPeak，CP)。

　　5.2精英學者高峰期前后主題轉換特征

　　各學科的精英學者通常是所在學科科技進步的領軍力量。在學術界已經關注到精英學者與普通學者在學術生涯與創(chuàng)造力上的差異的同時[33]，政府也出臺政策加大對科技拔尖人才與優(yōu)秀科技工作者的鼓勵與支持[4]。這部分研究進一步探查精英學者在職業(yè)高峰期前后研究主題的轉換特征，以期為國家科技政策的制定與實施提供科學依據(jù)。目前，學術界對精英學者的識別往往根據(jù)其科研成果貢獻數(shù)量(高發(fā)文)、被學術界認可程度(高被引)等指標加以判識。

　　在具體的研究中，兼顧發(fā)文量與被引量指標篩選各學科發(fā)文數(shù)量排名前1%，且單篇論文平均被引頻次排名前1%的學者。同時，為使結果具有普遍性，不考慮“一閃即逝”的科研人員，確保從事科學研究不小于10年的高發(fā)文且高被引科研人員作為領域精英學者展開分析。按照上述標準進行篩選，獲得真菌學精英學者170位，圖書情報學精英學者246位，哲學精英學者97位。如果說前序的分析關注科研人員在每個時段內的研究主題轉換幅度與頻繁程度，那么這部分研究則更關注精英學者在以職業(yè)高峰為分界線的前后兩個階段的研究主題轉換的差異。

　　6結論與討論

　　筆者采用文獻計量學與文檔主題建模相結合的方法，對真菌學、圖書情報學和哲學3個學科科研人員職業(yè)高峰及其相關的研究主題轉換特征進行探索。綜合上述分析的結果，初步得出以下結論：

　　(1)科研人員總體上在經歷職業(yè)高峰之后主題轉換會更頻繁。在針對科研人員總體的分析中，盡管職業(yè)高峰前后的主題相似度差異并不明顯，但是主題轉換概率這一指標卻體現(xiàn)出職業(yè)高峰前后的明顯差異。各學科的科研人員在經歷職業(yè)高峰期之后的主題轉換率要不同程度地高于職業(yè)高峰期之前的主題轉換率。這一結果說明就科研人員的總體而言，未達到職業(yè)高峰期的科研人員其研究主題轉換并不頻繁，而經歷過職業(yè)高峰期之后，科研人員研究主題的轉換比高峰期之前更頻繁。

　　(2)精英學者在經歷了職業(yè)高峰之后其研究主題會更加專一。精英學者高峰期前后的主題相似度表明，大多數(shù)精英學者在職業(yè)高峰期前后的研究主題具有很高的相似性，并且高峰期之后的主題轉換概率相比高峰期之前更低。這一結果說明，科研人員中精英學者的主題轉換表現(xiàn)出與科研人員總體隊伍近乎截然相反的特征：越是在科學研究中表現(xiàn)優(yōu)秀的精英學者，越在經歷職業(yè)高峰之后傾向于更加專一的研究方向，其研究主題也越發(fā)青睞于“十年磨一劍”。

　　在科學技術飛速發(fā)展的今天，發(fā)現(xiàn)和揭示科研人員學術生涯發(fā)展過程中的模式與特征，有助于揭示科學生產力發(fā)展機制，對于科研管理部門制定積極的科研政策，更好地引導科研人員實現(xiàn)科技創(chuàng)新，具有重要的促進作用。研究中也存在一些不足之處，在自然科學、社會科學、藝術與人文科學中各選擇一個學科作為代表，尚不足以覆蓋更大范圍的科學研究領域。通過主題建模及主題相似度測度科研人員主題轉換偏重語義信息，對于更細密的學科與研究方向分類體現(xiàn)尚不完全充分。未來的研究中，將進一步包容更廣泛的科學領域，采用更細致的分析方法展開更深入的研究。

　　參考文獻：

　　[1]周建中，閆昊，孫粒.我國科研人員職業(yè)生涯成長軌跡與影響因素研究[J].科研管理，2019，40(10)：126-141.

　　[2]MERTONRK.Themattheweffectinscience[J].Internationaljournalofdermatology，1968，27(3810)：56-63.

　　[3]LIUL，WANGY，SINATRAR，etal.Hotstreaksinartistic，cultural，andscientificcareers[J].Nature，2018，559(7714)：396-399.

　　[4]中共中央，國務院.關于進一步弘揚科學家精神加強作風和學風建設的意見[EB/OL].[2021-07-18].http：//www.gov.cn/zhengce/201906/11/content_5399239.htm.

　　[5]RUANW，HOUH，HUZ.Detectingdynamicsofhottopicswithalluvialdiagrams：atimelinevisualization[J].Journalofdataandinformationscience，2017，2(3)：37-48

　　作者：陳立雪滕廣青呂晶庹銳