本文摘要:摘要:[目的/意義]探索科研人員職業(yè)發(fā)展情況及其研究主題的變化規(guī)律不僅可以揭示科學(xué)生產(chǎn)力發(fā)展的內(nèi)在機制,也有助于對科學(xué)事業(yè)的發(fā)展提供更好的政策指導(dǎo)與支持。[方法/過程]基于自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)的代表性學(xué)科數(shù)據(jù),對科研人員的職業(yè)高峰
摘要:[目的/意義]探索科研人員職業(yè)發(fā)展情況及其研究主題的變化規(guī)律不僅可以揭示科學(xué)生產(chǎn)力發(fā)展的內(nèi)在機制,也有助于對科學(xué)事業(yè)的發(fā)展提供更好的政策指導(dǎo)與支持。[方法/過程]基于自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)的代表性學(xué)科數(shù)據(jù),對科研人員的職業(yè)高峰進行識別。在此基礎(chǔ)上以職業(yè)高峰作為科研人員學(xué)術(shù)生涯的劃分依據(jù),采用自然語言處理中的Top2Vec主題建模方法識別研究主題,對科研人員學(xué)術(shù)生涯不同階段所研究主題的主題相似度和主題轉(zhuǎn)換概率進行分析。[結(jié)果/結(jié)論]研究結(jié)果表明,各學(xué)科科研人員總體上在經(jīng)歷職業(yè)高峰之后的主題轉(zhuǎn)換會更加頻繁;而精英學(xué)者在經(jīng)歷職業(yè)高峰后其研究主題則反而更加專一。
關(guān)鍵詞:科研人員職業(yè)高峰Top2Vec主題轉(zhuǎn)換主題相似度
1引言
對于科研人員的職業(yè)生涯變化規(guī)律及其主題變遷的研究一直以來都是圖書情報學(xué)領(lǐng)域的研究熱點,尤其是對科研拔尖人才的研究更是社會與學(xué)術(shù)界關(guān)注的重點[1]。根據(jù)馬太效應(yīng)[2],科學(xué)家個體在職業(yè)生涯中取得優(yōu)秀成績能夠帶來聲譽和認可。這些聲譽和認可往往可以轉(zhuǎn)化為有形資產(chǎn),反過來有助于其未來職業(yè)的成功。最近發(fā)表在Nature上的一項研究也發(fā)現(xiàn)科研人員職業(yè)生涯中通常會涉及一段“高光時期”(hotstreak)。在這段時期內(nèi)科學(xué)家個體的表現(xiàn)會大大高于其正常表現(xiàn),最為顯著的特征就是科學(xué)家個人在這段時期內(nèi)的成果備受矚目(科研成果被高頻引用)[3]。
圖書館人員評職知識: 圖書情報副研究館員職稱評選條件
盡管現(xiàn)有的研究發(fā)現(xiàn)在科學(xué)家職業(yè)生涯中存在類似的高光時期或高峰期,但是鮮有研究去深入挖掘職業(yè)高峰前后科研人員個體的科研工作到底發(fā)生了何種變化,特別是科研人員以及精英學(xué)者們在職業(yè)高峰期前后其研究主題發(fā)生了怎樣的變化。2019年6月,中共中央辦公廳和國務(wù)院辦公廳在《關(guān)于進一步弘揚科學(xué)家精神加強作風(fēng)和學(xué)風(fēng)建設(shè)的意見》[4]中指出:“要加大對優(yōu)秀科技工作者和創(chuàng)新團隊的穩(wěn)定支持力度,以加快培育促進科技事業(yè)健康發(fā)展”。從這個角度來說,對科研人員尤其是優(yōu)秀科研人員活動機制的研究也是為了對科學(xué)事業(yè)的進一步發(fā)展提供更好的政策指導(dǎo)與支持。
因此,有必要在實施國家科技發(fā)展戰(zhàn)略的大環(huán)境下,對科研人員尤其是優(yōu)秀科研工作者的科研學(xué)研究活動的特征進行細致地探索與分析。由于知識的發(fā)展是連續(xù)的、流動的和多領(lǐng)域交叉的,科研人員所研究主題的變化反映了信息收集與知識傳遞的不斷變化[5]。另外,近年來科學(xué)知識迅猛發(fā)展,新問題、新知識層出不窮。有鑒于此,筆者嘗試結(jié)合科研人員職業(yè)高峰與研究主題兩個維度,分別從自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)中選擇不同學(xué)科領(lǐng)域的數(shù)據(jù),采用自然語言處理(NLP)方法,從科研人員職業(yè)高峰的視角對科研人員所研究主題的變化進行具體分析,以期對科研人員以及精英學(xué)者們在職業(yè)高峰前后研究主題的變化特征取得更清晰的認知和更深入的洞見。
2相關(guān)研究現(xiàn)狀
了解科學(xué)家個體研究活動機制及其學(xué)術(shù)生涯過程中的重要里程碑,有助于深入探索科學(xué)生產(chǎn)力的動態(tài)模式。從社會學(xué)理論來講,年輕科學(xué)家作為學(xué)術(shù)界的“邊緣人”,在特定想法或?qū)W術(shù)流派中的投入尚少,沒有積累較多的聲譽,因此不用過分擔心科研失敗帶來的損失,往往也更容易做出成績,同時年輕科學(xué)家善于從新視角去看待老問題,他們興趣更為廣泛、精力更加充沛、學(xué)術(shù)熱情更高,盡管他們?nèi)狈?jīng)驗,但研究原創(chuàng)性高。
年老科學(xué)家雖在研究經(jīng)驗的積累、獨立判斷、處理矛盾等方面更勝一籌,但他們?nèi)鄙贌崆,會產(chǎn)生許多沒有靈感的作品也就不容易做出重大突破[6,7]。B.F.Jones等[8]通過對諾貝爾獎學(xué)者的職業(yè)生涯研究,發(fā)現(xiàn)富有想法的年輕人更容易在硬科學(xué)(hardscience)研究中做出重大突破。此外,學(xué)術(shù)界有許多研究工作對科研人員的職業(yè)高峰及其所對應(yīng)的科研成就展開了研究[9-12]。
這些研究工作雖然對科研人員的學(xué)術(shù)生涯發(fā)展給予了高度重視,但是對職業(yè)高峰的界定并不統(tǒng)一,研究視角也相對單一,并沒有關(guān)注伴隨科研人員職業(yè)高峰的科研工作發(fā)生了怎樣的變化。在2020年最新的一項研究中,研究者在證實諾貝爾獎得主比其他科學(xué)家在學(xué)術(shù)生涯早期就擁有更多的發(fā)文量與更高的被引量的同時,還發(fā)現(xiàn)了獲獎后得主們科研成果影響力下滑的短暫的“諾貝爾低谷”(NobelDip)現(xiàn)象[13]。
這意味著科研人員在經(jīng)歷了職業(yè)高峰之后,在具體的科學(xué)工作中會發(fā)生一些有趣的變化。其中,科研人員職業(yè)高峰前后研究主題的變化成為學(xué)術(shù)界關(guān)注的一個問題。具有前瞻性的主題可能會促使高影響力研究成果的產(chǎn)生,這不僅可以提高科學(xué)家的聲譽,也可以給整個領(lǐng)域創(chuàng)造研究機會。鑒于研究主題對科研人員個體學(xué)術(shù)生涯以及對學(xué)科和創(chuàng)新政策的影響,迫切地需要采取定量方法來理解科學(xué)家們在整個學(xué)術(shù)生涯中其研究主題是如何變化的[14-16]。
近年來,國內(nèi)外學(xué)術(shù)界均有學(xué)者聚焦于量化和模擬科學(xué)家學(xué)術(shù)生涯中研究主題的演變[17-20]。盡管研究主題的頻繁變化可能會帶來失敗和生產(chǎn)力下降的風(fēng)險,但是也有研究表明一個穩(wěn)定而又有重點的研究團隊雖然有助于科學(xué)家保持生產(chǎn)力,但卻不利于創(chuàng)新[21,22]。
通常而言,科研人員在其學(xué)術(shù)生涯過程中所研究的主題內(nèi)容不可能是一成不變的,科學(xué)家轉(zhuǎn)換自己的研究主題可能是在保守與冒險之間權(quán)衡的結(jié)果[23]。A.Hoonlor等[24]選擇計算機領(lǐng) 域的期刊與會議論文進行分析發(fā)現(xiàn),科學(xué)家的研究重點大約以10年為一個周期發(fā)生變化,只有少部分研究者在同一主題年復(fù)一年地長期發(fā)表文章;A.Rzhetsky等[25]將學(xué)科知識建模為網(wǎng)絡(luò)。
通過分析發(fā)表在30多年內(nèi)的數(shù)百萬篇生物醫(yī)學(xué)論文發(fā)現(xiàn),生物醫(yī)學(xué)領(lǐng)域的科學(xué)家越來越追求保守的研究策略,傾向于探索中心主題的局部鄰域而不是進行大跨度的主題轉(zhuǎn)換;T.Jia等[26]則以物理學(xué)領(lǐng)域的分類代碼為依據(jù),發(fā)現(xiàn)物理學(xué)家的研究興趣從學(xué)術(shù)生涯的開始到學(xué)術(shù)生涯的結(jié)束,其間發(fā)生了極大的轉(zhuǎn)變;A.Zeng等[27]在最近的一項研究中發(fā)現(xiàn),如今的科研人員相比更早的研究者更頻繁地在不同主題之間切換,并且學(xué)術(shù)生涯早期的高轉(zhuǎn)換率與較低的整體生產(chǎn)力有關(guān)。
綜上,學(xué)術(shù)界關(guān)于科研人員職業(yè)高峰與學(xué)術(shù)生涯中研究主題轉(zhuǎn)換的相關(guān)研究已經(jīng)分別積累了一定的成果。但在現(xiàn)有的研究中,鮮有學(xué)者將科研人員個體職業(yè)高峰與其研究主題轉(zhuǎn)換聯(lián)系起來進行分析。有鑒于此,筆者從自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)3個學(xué)科領(lǐng)域中分別選取代表性學(xué)科,對科研人員以及精英學(xué)者們學(xué)術(shù)生涯中不同階段的研究主題變化特征進行深入研究,以期為揭示科學(xué)生產(chǎn)力發(fā)展機制提供可資借鑒的參考。
3相關(guān)理論基礎(chǔ)
3.1科研人員研究主題識別
識別科研人員的研究主題,主要是通過對其已發(fā)表的成果文獻進行自然語言處理(NLP),從中發(fā)現(xiàn)大型文檔集合中的潛在語義結(jié)構(gòu),通常也被稱為主題分類。當前應(yīng)用最廣泛的主題建模方法包括概率潛在語義分析(probabilisticlatentsemanticanalysis,PLSA)[28]和隱含狄利克雷分布(latentdirichletallocation,LDA)[29]等方法。
盡管這些建模方法在學(xué)術(shù)研究中很受歡迎,但也存在一些缺陷。比如為了使模型達到最佳效果,在建模之前通常需要做一些預(yù)處理,如自定義停用詞列表、進行詞干提取、詞元化以及花費大量精力去預(yù)先設(shè)置合適的主題數(shù)量等。此外,大部分主題建模方法依賴于文檔的詞袋表示,忽略了單詞的順序和語義。為了克服這些缺陷,筆者采用2020年最新提出的Top2Vec[30]主題建模方法對科研人員公開發(fā)表的文獻進行主題建模以識別其研究主題。
Top2Vec作為一種分布式主題向量模型,它利用文檔和單詞的語義嵌入來尋找主題。在語義空間中發(fā)現(xiàn)的文檔密集區(qū)域的數(shù)量被認為是突出主題的數(shù)量。其中,主題向量是從文檔的密集區(qū)域中計算出來的,密集區(qū)域是由非常相似的文檔組成的,通過計算“質(zhì)心”(centroid)來得到主題向量,即同一密集簇中所有文檔向量的算術(shù)平均值。
“質(zhì)心”能夠很好地代表文檔密集區(qū)域的主題向量,最接近這個主題向量的詞也就是在語義上能夠最好地描述它的詞。最終得到的主題向量與文檔和詞向量的共同嵌入,詞向量之間的距離表示語義相似度。Top2Vec生成的主題也被證明比概率生成模型具有更大的信息量以及包含更具有代表性的語料。該模型不需要去停用詞,也無需進行詞干提取和詞元化等預(yù)處理,它可以自動查找主題數(shù)量。
3.2主題相似性和主題轉(zhuǎn)換概率
筆者選取主題相似度得分和主題轉(zhuǎn)換概率兩個指標來測量科研人員研究主題的變換情況。相似度得分可以衡量科研人員在不同主題轉(zhuǎn)換過程中到底進行了多大幅度的主題遷移;主題轉(zhuǎn)換概率用于判斷科研人員研究主題轉(zhuǎn)換頻率的高低。研究工作采用余弦相似度計算主題間的相似性得分,該方法已經(jīng)被證實是當前自然語言處理中應(yīng)用最廣泛的語義距離測度方法。
4研究方法與流程
4.1數(shù)據(jù)來源與流程框架
在多學(xué)科視角下(自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué))探測科研人員高峰期前/后的科研主題變化特征,需要在以往僅針對某單一學(xué)科領(lǐng)域的基礎(chǔ)上考慮更多的因素。針對單一學(xué)科的研究無需考慮文檔數(shù)量因素,但多學(xué)科視野下學(xué)科間差別懸殊的文檔數(shù)量可能會給主題建模與統(tǒng)計結(jié)果造成偏倚,不利于學(xué)科間的橫向比較。基于這一原因,筆者選取了真菌學(xué)、圖書情報學(xué)、哲學(xué)3個在文檔數(shù)量上大體相當?shù)膶W(xué)科分別作為自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)的代表。
以WebofScience核心數(shù)據(jù)庫作為基礎(chǔ)數(shù)據(jù)來源,采用高級檢索,檢索式分別為“SU=MYCOLOGY”“SU=INFORMATIONSCIENCE&LIBRARYSCIENCE”“SU=PHILOSOPHY”,檢索日期為2020年11月1日,檢索時間段為1985年至今,將文獻類別限定為“Article”,語種限定為“English”,最終獲得158446篇文獻。
其中,真菌學(xué)文獻43000篇,圖書情報學(xué)文獻65961篇,哲學(xué)文獻49485篇。在此基礎(chǔ)上,進一步提取文獻中所包含的作者,并按照所屬學(xué)科進行分組。根據(jù)ORCID標識符對重名作者進行人工核查且不重復(fù)計數(shù),共得到266388位作者。其中,真菌學(xué)113241位,圖書情報學(xué)106730位,哲學(xué)46417位。
此外,考慮到原Top2Vec算法所依賴的TensorFlowText安裝包對Windows系統(tǒng)的限制,因此為了使研究方法具有更好的泛化性和研究復(fù)現(xiàn)性,筆者在深度學(xué)習(xí)PyTorch框架下使用基于Top2Vec的主題建模方法。相比于原本的Top2Vec建模方法,不僅保留了原模型的內(nèi)核,同時具有更好的系統(tǒng)兼容性。傳統(tǒng)認知下,重要獎項、高水平成果等都可以作為科研人員職業(yè)高峰的標志。但學(xué)術(shù)界中重要獎項鳳毛麟角,不足以據(jù)此考量更廣泛的科研人員隊伍。且獎項更側(cè)重學(xué)術(shù)界對此前成就的認可,而不是科學(xué)研究本身在獲獎時達到最高峰。
因此,學(xué)術(shù)界主要采用高被引論文作為識別科研人員職業(yè)高峰的依據(jù),特別是針對長時間周期某單一學(xué)科進行研究時,主要采用設(shè)定統(tǒng)一年限(如10年)內(nèi)的引文頻次[3,32]?紤]到本研究對象跨越3個學(xué)科門類,且論文半衰期(halflife)受到文獻類型、學(xué)科性質(zhì)等多方面因素的影響,不適合采用統(tǒng)一年限內(nèi)的引文頻次作為標準,加之“睡美人”文獻等因素的影響,筆者使用絕對被引頻次最高的論文作為科研人員職業(yè)高峰的標志,并將最高被引發(fā)表當年視為該科研人員達到職業(yè)高峰。
5研究結(jié)果
5.1主題相似性與轉(zhuǎn)換概率的宏觀分析
為保障實驗結(jié)果的有效性,研究工作對此前得到的266388位作者進一步篩查。首先刪除具有缺失值的數(shù)據(jù),其次選取發(fā)表文獻數(shù)不低于5篇的科研人員。最終得到真菌學(xué)作者5427位,圖書情報學(xué)作者3912位,哲學(xué)作者1371位。將科研人員被引頻次最高文獻的發(fā)表作為判定其達到職業(yè)高峰的標準,以科研人員最高被引文獻發(fā)表當年為職業(yè)高峰期(CareerPeak,CP)。
5.2精英學(xué)者高峰期前后主題轉(zhuǎn)換特征
各學(xué)科的精英學(xué)者通常是所在學(xué)科科技進步的領(lǐng)軍力量。在學(xué)術(shù)界已經(jīng)關(guān)注到精英學(xué)者與普通學(xué)者在學(xué)術(shù)生涯與創(chuàng)造力上的差異的同時[33],政府也出臺政策加大對科技拔尖人才與優(yōu)秀科技工作者的鼓勵與支持[4]。這部分研究進一步探查精英學(xué)者在職業(yè)高峰期前后研究主題的轉(zhuǎn)換特征,以期為國家科技政策的制定與實施提供科學(xué)依據(jù)。目前,學(xué)術(shù)界對精英學(xué)者的識別往往根據(jù)其科研成果貢獻數(shù)量(高發(fā)文)、被學(xué)術(shù)界認可程度(高被引)等指標加以判識。
在具體的研究中,兼顧發(fā)文量與被引量指標篩選各學(xué)科發(fā)文數(shù)量排名前1%,且單篇論文平均被引頻次排名前1%的學(xué)者。同時,為使結(jié)果具有普遍性,不考慮“一閃即逝”的科研人員,確保從事科學(xué)研究不小于10年的高發(fā)文且高被引科研人員作為領(lǐng)域精英學(xué)者展開分析。按照上述標準進行篩選,獲得真菌學(xué)精英學(xué)者170位,圖書情報學(xué)精英學(xué)者246位,哲學(xué)精英學(xué)者97位。如果說前序的分析關(guān)注科研人員在每個時段內(nèi)的研究主題轉(zhuǎn)換幅度與頻繁程度,那么這部分研究則更關(guān)注精英學(xué)者在以職業(yè)高峰為分界線的前后兩個階段的研究主題轉(zhuǎn)換的差異。
6結(jié)論與討論
筆者采用文獻計量學(xué)與文檔主題建模相結(jié)合的方法,對真菌學(xué)、圖書情報學(xué)和哲學(xué)3個學(xué)科科研人員職業(yè)高峰及其相關(guān)的研究主題轉(zhuǎn)換特征進行探索。綜合上述分析的結(jié)果,初步得出以下結(jié)論:
(1)科研人員總體上在經(jīng)歷職業(yè)高峰之后主題轉(zhuǎn)換會更頻繁。在針對科研人員總體的分析中,盡管職業(yè)高峰前后的主題相似度差異并不明顯,但是主題轉(zhuǎn)換概率這一指標卻體現(xiàn)出職業(yè)高峰前后的明顯差異。各學(xué)科的科研人員在經(jīng)歷職業(yè)高峰期之后的主題轉(zhuǎn)換率要不同程度地高于職業(yè)高峰期之前的主題轉(zhuǎn)換率。這一結(jié)果說明就科研人員的總體而言,未達到職業(yè)高峰期的科研人員其研究主題轉(zhuǎn)換并不頻繁,而經(jīng)歷過職業(yè)高峰期之后,科研人員研究主題的轉(zhuǎn)換比高峰期之前更頻繁。
(2)精英學(xué)者在經(jīng)歷了職業(yè)高峰之后其研究主題會更加專一。精英學(xué)者高峰期前后的主題相似度表明,大多數(shù)精英學(xué)者在職業(yè)高峰期前后的研究主題具有很高的相似性,并且高峰期之后的主題轉(zhuǎn)換概率相比高峰期之前更低。這一結(jié)果說明,科研人員中精英學(xué)者的主題轉(zhuǎn)換表現(xiàn)出與科研人員總體隊伍近乎截然相反的特征:越是在科學(xué)研究中表現(xiàn)優(yōu)秀的精英學(xué)者,越在經(jīng)歷職業(yè)高峰之后傾向于更加專一的研究方向,其研究主題也越發(fā)青睞于“十年磨一劍”。
在科學(xué)技術(shù)飛速發(fā)展的今天,發(fā)現(xiàn)和揭示科研人員學(xué)術(shù)生涯發(fā)展過程中的模式與特征,有助于揭示科學(xué)生產(chǎn)力發(fā)展機制,對于科研管理部門制定積極的科研政策,更好地引導(dǎo)科研人員實現(xiàn)科技創(chuàng)新,具有重要的促進作用。研究中也存在一些不足之處,在自然科學(xué)、社會科學(xué)、藝術(shù)與人文科學(xué)中各選擇一個學(xué)科作為代表,尚不足以覆蓋更大范圍的科學(xué)研究領(lǐng)域。通過主題建模及主題相似度測度科研人員主題轉(zhuǎn)換偏重語義信息,對于更細密的學(xué)科與研究方向分類體現(xiàn)尚不完全充分。未來的研究中,將進一步包容更廣泛的科學(xué)領(lǐng)域,采用更細致的分析方法展開更深入的研究。
參考文獻:
[1]周建中,閆昊,孫粒.我國科研人員職業(yè)生涯成長軌跡與影響因素研究[J].科研管理,2019,40(10):126-141.
[2]MERTONRK.Themattheweffectinscience[J].Internationaljournalofdermatology,1968,27(3810):56-63.
[3]LIUL,WANGY,SINATRAR,etal.Hotstreaksinartistic,cultural,andscientificcareers[J].Nature,2018,559(7714):396-399.
[4]中共中央,國務(wù)院.關(guān)于進一步弘揚科學(xué)家精神加強作風(fēng)和學(xué)風(fēng)建設(shè)的意見[EB/OL].[2021-07-18].http://www.gov.cn/zhengce/201906/11/content_5399239.htm.
[5]RUANW,HOUH,HUZ.Detectingdynamicsofhottopicswithalluvialdiagrams:atimelinevisualization[J].Journalofdataandinformationscience,2017,2(3):37-48
作者:陳立雪滕廣青呂晶庹銳
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/28190.html