亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)教育論文》 高?蒲匈Y源的個性化融合推薦> 正文

高校科研資源的個性化融合推薦

所屬分類:教育論文 閱讀次 時間:2022-02-21 10:50

本文摘要:摘要:為滿足高校師生對科研資源復(fù)雜的個性化服務(wù)需求,設(shè)計了高校科研資源個性化服務(wù)系統(tǒng),簡稱個性化科研服務(wù)系統(tǒng)(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高校科研用戶的個性化科研資源服務(wù)需求,設(shè)計了基于數(shù)據(jù)層、融合多種推薦策略的推

  摘要:為滿足高校師生對科研資源復(fù)雜的個性化服務(wù)需求,設(shè)計了高?蒲匈Y源個性化服務(wù)系統(tǒng),簡稱個性化科研服務(wù)系統(tǒng)(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高校科研用戶的個性化科研資源服務(wù)需求,設(shè)計了基于數(shù)據(jù)層、融合多種推薦策略的推薦計算層、應(yīng)用呈現(xiàn)層的多引擎融合推薦系統(tǒng)架構(gòu);基于不同推薦場景,比較了不同的推薦算法并對選擇的算法進(jìn)行了針對性優(yōu)化;探討了用戶模型和科研資源模型的設(shè)計,實現(xiàn)了基于資源熱度、項目內(nèi)容相似度、相似用戶協(xié)同過濾的Top推薦。系統(tǒng)提升了高校師生獲取科研資源的體驗,為高?蒲匈Y源個性化服務(wù)系統(tǒng)建設(shè)提供了新思路。

  關(guān)鍵詞:融合推薦;個性化;推薦系統(tǒng);高?蒲

高校資源融合

  高?蒲幸巡饺“大數(shù)據(jù)時代”,各種科研管理系統(tǒng)、科研服務(wù)平臺收集、儲存了海量的科研數(shù)據(jù)和資源文檔[1]。在信息需求越來越個性化的今天,各行業(yè)都嘗試開發(fā)并應(yīng)用基于各種算法和模型的個性化推薦系統(tǒng)。Amazon通過在網(wǎng)站上使用推薦系統(tǒng),對用戶的瀏覽、購買行為進(jìn)行分析,進(jìn)而對曾經(jīng)在該網(wǎng)站有過瀏覽或購買行為的用戶進(jìn)行個性化推薦。據(jù)VentureBeat的統(tǒng)計,采用個性化推薦技術(shù),使得亞馬遜網(wǎng)站的銷售額提高了以上,個性化推薦技術(shù)的應(yīng)用也越來越廣[23]。

  高校師生在科研活動中檢索科研資源的時間,占整個科研用時的50%以上,相較其他類型用戶,個性化需求也更多樣化、更復(fù)雜[4]。目前,師生獲取科研數(shù)據(jù)和科研資源,主要還是使用基于關(guān)鍵字的信息查詢檢索方式,且國內(nèi)各類科研管理系統(tǒng)和科研數(shù)據(jù)服務(wù)平臺的功能還較單一,無法滿足科研用戶個性化數(shù)據(jù)服務(wù)需求[5。

  造成一方面科研資源信息過載,面對海量科研數(shù)據(jù)用戶卻束手無策,不能方便、快捷地獲得需要的科研資源;另一方面,用戶要清楚知道自己的資源需求并能明確表示出需求,才能使用搜索引擎查找想要的資源,F(xiàn)有的資源檢索或管理系統(tǒng)不能主動把用戶可能感興趣的科研資源推薦給用戶,使得寶貴的科研資源得不到充分利用。在大數(shù)據(jù)背景下,以某外國語大學(xué)為例,針對高校師生復(fù)雜多樣的個性化科研資源需求,探索基于融合推薦的個性化科研資源服務(wù)系統(tǒng)的設(shè)計。

  1相關(guān)工作

  1.1科研資源個性化服務(wù)需求

  通過對高?蒲杏脩暨M(jìn)行問卷調(diào)查,總結(jié)出師生們主要的個性化資源服務(wù)需求為:通過輸入自己的研究課題或者論文標(biāo)題,獲得類似的科研項目資源,為自己的科研提供有用的幫助;獲得當(dāng)前本專業(yè)相關(guān)研究方向的熱度值較高的科研資源、科研成果,進(jìn)而了解當(dāng)前學(xué)科的主要研究方向;了解學(xué)科同行當(dāng)前所從事的研究課題、研究動態(tài),特別是能獲得一些自己都不曾想到但又感興趣的相關(guān)資源,為自己的研究找尋參考的方向和可以借鑒的思想。

  1.2融合推薦系統(tǒng)架構(gòu)

  任何單一的推薦策略都不能滿足高校用戶復(fù)雜多樣的個性化需求,因此為PSRSS設(shè)計了融合多種推薦策略的推薦系統(tǒng)架構(gòu),由數(shù)據(jù)層、融合推薦層、應(yīng)用呈現(xiàn)層組成。數(shù)據(jù)層:由基礎(chǔ)數(shù)據(jù)和對數(shù)據(jù)的處理構(gòu)成;A(chǔ)數(shù)據(jù)包括用戶信息數(shù)據(jù)、科研資源數(shù)據(jù)、用戶行為等源數(shù)據(jù),科研用戶數(shù)據(jù)主要來自于包含用戶個人基本信息的人事系統(tǒng)數(shù)據(jù)庫;科研資源數(shù)據(jù)主要來自于科研、教改管理系統(tǒng)的用戶科研成果數(shù)據(jù)如科研論文、專著、專利、研究報告、科研項目等;用戶行為數(shù)據(jù)是用戶在使用PSRSS或其他科研系統(tǒng)時的行為日志數(shù)據(jù)。

  數(shù)據(jù)處理是從業(yè)務(wù)數(shù)據(jù)庫中抽取所需數(shù)據(jù)并進(jìn)行轉(zhuǎn)換、清洗、標(biāo)準(zhǔn)化、融和等預(yù)處理,為推薦引擎提供所需數(shù)據(jù)。融合推薦層:該層是個性化服務(wù)系統(tǒng)的核心,在數(shù)據(jù)層提供的數(shù)據(jù)基礎(chǔ)上,構(gòu)建科研用戶特征、科研資源項目特征、用戶與項目、用戶與用戶、項目與項目間的關(guān)系特征。采用熱度推薦、基于UserCF推薦和使用IFTDF方法的基于項目內(nèi)容的推薦算法,構(gòu)建系統(tǒng)融合推薦引擎,以滿足高?蒲杏脩魪(fù)雜多樣的個性化服務(wù)需求;該層還包括對系統(tǒng)召回項目進(jìn)行排序和過濾的模塊[910]。應(yīng)用呈現(xiàn)層:根據(jù)應(yīng)用需要,通過不同的形式向用戶呈現(xiàn)推薦的結(jié)果。

  2科研資源大數(shù)據(jù)處理

  PSRSS要存儲和處理的數(shù)據(jù)量都是級,同時基于對數(shù)據(jù)分布式計算和高吞吐量的處理要求,系統(tǒng)采用Apach的Hadoop大數(shù)據(jù)技術(shù)框架對科研資源大數(shù)據(jù)進(jìn)行存儲和處理,具體處理過程:建立數(shù)據(jù)列表:根據(jù)系統(tǒng)需求建立需要的數(shù)據(jù)列表包括數(shù)據(jù)的屬性、數(shù)據(jù)之間的關(guān)系等。建立原始數(shù)據(jù)存儲(RDS,rawdatastores)和轉(zhuǎn)換后的數(shù)據(jù)存儲(TDS,transformeddatastrores):

  物理上通過在Hive上建立兩個數(shù)據(jù)庫來實現(xiàn),使得所有數(shù)據(jù)都被分布存儲到HDFS上。數(shù)據(jù)抽。篟DS作為具體業(yè)務(wù)系統(tǒng)和PSRSS之間的過渡區(qū),它可以避免對源系統(tǒng)的侵入和性能影響,并為細(xì)節(jié)數(shù)據(jù)查詢提供支持。使用Sqoop把各業(yè)務(wù)系統(tǒng)相關(guān)數(shù)據(jù)抽取到RDS,使用Flume從日志文件中獲取用戶從外網(wǎng)使用科研資源的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換與裝載:建立數(shù)據(jù)列表到RDS的映射,根據(jù)融合推薦系統(tǒng)的需要,使用HiveQL腳本對數(shù)據(jù)進(jìn)行轉(zhuǎn)換和處理,包括對數(shù)據(jù)進(jìn)行去重、補(bǔ)全、查錯糾錯、標(biāo)準(zhǔn)化等處理,將數(shù)據(jù)從RDS裝載到TDS中。

  完成首次的數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL,Extract、Transform、Load)過程后,還需要根據(jù)系統(tǒng)需要定期執(zhí)行數(shù)據(jù)ETL過程,比如按照每天進(jìn)行一次自動化的增量數(shù)據(jù)ETL過程。 科研用戶模型和資源項目模型的構(gòu)建建立科研用戶和科研資源項目之間的關(guān)聯(lián),實現(xiàn)個性化推薦服務(wù),推薦系統(tǒng)要經(jīng)過構(gòu)建科研用戶模型和科研資源模型、根據(jù)用戶特征運(yùn)用不同的推薦算法對資源項目進(jìn)行召回計算、向用戶呈現(xiàn)科研資源推薦列表這個重要步驟[1112?蒲杏脩裟P秃涂蒲匈Y源模型決定著PSRSS的輸出。

  2.1構(gòu)建科研用戶模型

  在PSRSS的用戶模型中包括用戶基本信息和用戶的資源興趣模型,即用戶在使用系統(tǒng)和資源時的一些行為信息,PSRSS要向用戶推薦他們感興趣的各種科研資源,不僅要記錄用戶對資源項目的具體行為數(shù)據(jù),還要記錄用戶使用PSRSS的行為數(shù)據(jù),如用戶瀏覽某個資源項目內(nèi)容的具體時長,這些行為數(shù)據(jù)將用于項目熱度和用戶興趣模型的更新。由于高?蒲杏脩粼谑褂脗性化科研服務(wù)系統(tǒng)時,往往只專注于所需資源項目的內(nèi)容本身,他們會查詢、瀏覽閱讀、下載獲取,不太會對相應(yīng)項目進(jìn)行主動評價,很難獲得用戶對資源項目的顯式行為記錄。

  因此,采用隱式的方式,記錄并利用用戶使用PSRSS和資源數(shù)據(jù)庫的行為日志,建立并更新用戶模型。本系統(tǒng)用戶模型使用20世紀(jì)70年代由GeraldSalton等提出的VSM(向量空間模型,VectorSpaceModel)表示,該模型最初用于處理文檔,通過識別并獲取文檔的個關(guān)鍵字特征以表示文檔,分別為每個特征賦予合適的權(quán)值,進(jìn)而構(gòu)造一個表示該文檔的特征向量。

  當(dāng)文檔被表示為文檔空間的向量后,就能計算不同文檔向量間的相似度并據(jù)此度量文檔間的相似性。在PSRSS中,當(dāng)用戶對某個科研資源項目做出某種行為時,其行為值為,這些行為反映了用戶對資源項目的不同興趣度,賦予每種行為不同的權(quán)值,的取值為0~1且權(quán)值總和為。

  2.2構(gòu)建科研資源模型

  采用基于資源項目內(nèi)容主題模型的資源推薦策略,通過給能反映資源項目主要內(nèi)容特征的主題計算權(quán)值向量,從而使用該向量計算得到資源項目間的相似度,可以比較精確地向用戶推薦其可能感興趣的科研資源。高校的主要科研資源類型有科研論文、研究報告、著作、縱向和橫向課題、專利、各種比賽成果等。考慮到進(jìn)行基于科研資源項目內(nèi)容推薦的需要,特別是推薦算法中引入項目時間因素的改進(jìn)設(shè)計,在對科研資源進(jìn)行建模時設(shè)計了包括資源項目ID、資源建立時間、資源長度、資源類型、資源內(nèi)容關(guān)鍵字特征作為科研資源模型的元素。

  1)type為科研資源項目的類型,在系統(tǒng)冷啟動階段向用戶做熱度推薦時,將根據(jù)用戶的專業(yè)、研究方向、資源類型提供初始的資源項目推薦,比如向英語學(xué)院研究英語國家文化的教師推薦相應(yīng)類型的論文或其他資源。

  2)duration是資源項目在系統(tǒng)中發(fā)布后存在的時間,反應(yīng)了資源項目的新舊程度,在推薦過程中,我們要考慮時間因素對用戶興趣度的影響。

  3)length為資源項目內(nèi)容長度,目前主要的資源項目,其內(nèi)容形式主要以文本為主,用戶閱讀瀏覽的時間和項目內(nèi)容的長度,共同決定了用戶對該資源項目的興趣度。

  4)為資源項目標(biāo)題關(guān)鍵字列表,在進(jìn)行基于項目內(nèi)容的推薦時,使用TFIDF方法從資源標(biāo)題計算得到該資源項目的關(guān)鍵字列表。

  3算法選擇與優(yōu)化

  3.1算法選擇個性化推薦算法是個性化科研服務(wù)的基礎(chǔ),主要的推薦算法有基于內(nèi)容(contentbased)的推薦、基于協(xié)同過濾(collaborativefiltering)的推薦、基于關(guān)聯(lián)規(guī)則(associationrulebased)的推薦、基于效用(utilitybased)的推薦、基于知識(knowledgebased)的推薦和組合(hybrid)推薦等。基于內(nèi)容的推薦是在項目內(nèi)容信息上做出推薦,不需要用戶對項目進(jìn)行顯式評價操作,可通過使用機(jī)器學(xué)習(xí)的方法從描述內(nèi)容特征的事項中,獲取用戶的興趣特征并找到與用戶感興趣的相似內(nèi)容向用戶推薦,可通過增加特征維度的方法來提高該算法的推薦精度。

  基于內(nèi)容的推薦,不需要大量的用戶項目評分記錄,可用于新建立的資源項目的推薦,解決項目冷啟動問題。協(xié)同過濾推薦算法包括基于用戶的協(xié)同過濾(UserCF)和基于項目的協(xié)同過濾(ItemCF),是一種基于近鄰的推薦算法[15]。在電商商品和圖書館資源推薦時多采用ItemCF,因為用戶在找尋這類物品時的興趣是比較穩(wěn)定的,因此可以向其推薦與當(dāng)前瀏覽物品相似的商品。

  在PSRSS中,當(dāng)要向用戶推薦有關(guān)本專業(yè)的同行當(dāng)前關(guān)注的科研資源時,科研資源的時效性、專業(yè)性和熱度,比根據(jù)用戶的系統(tǒng)使用日志學(xué)習(xí)得到的興趣更有用;谟脩舻膮f(xié)同過濾推薦策略還能向用戶推薦可能讓其驚喜的資源項目。根據(jù)PSRSS的應(yīng)用場景需要,融合推薦引擎在系統(tǒng)冷啟動階段,采用基于項目熱度的推薦算法,向用戶推薦相關(guān)專業(yè)和研究方向的各類熱度值較高的科研資源;在用戶有了較多的系統(tǒng)使用行為記錄后,選用基于用戶的協(xié)同過濾推薦算法,向用戶推薦有相似興趣的本學(xué)科專業(yè)的同行感興趣的科研資源;當(dāng)用戶收藏、閱讀或下載了某項科研資源時,選用基于內(nèi)容的推薦算法,向用戶推薦與其當(dāng)前感興趣的資源相似的科研資源。

  3.2算法優(yōu)化

  3.2.1項目熱度值計算

  用戶剛開始使用PSRSS時,系統(tǒng)是無法向用戶提供個性化服務(wù)的,面臨用戶冷啟動問題,此時采用基于項目熱度的推薦算法,對科研資源基于專業(yè)學(xué)科、研究方向等基本信息進(jìn)行劃分,然后按照項目熱度對科研資源進(jìn)行排序,將熱度值較高項目推薦給感興趣的用戶。

  當(dāng)一個資源項目錄入系統(tǒng)數(shù)據(jù)庫后,就為其初始化一個熱度分,項目也就同時進(jìn)入了推薦候選列表,不同科研資源的初始熱度分是不一樣的,可以根據(jù)資源類別并按照作者的專業(yè)水平如專業(yè)職稱等條件,賦予不同資源不同的初始熱度值。隨著資源項目不斷被用戶閱讀、收藏、下載,對應(yīng)的被用戶行為影響的熱度不斷增加。還有影響資源熱度的其他因素,他們會使資源熱度降低,比如時間因素。

  3.2.2項目向量化

  PSRSS的主要推薦內(nèi)容是非結(jié)構(gòu)化的科研資源文檔,不能直接將其映射到向量空間,這些資源的標(biāo)題包含了關(guān)于該資源的核心關(guān)鍵信息,能反映資源的主要內(nèi)容特征,用戶也主要是利用各個資源項目的標(biāo)題信息來對下一步的動作如點開閱讀、收藏、下載或者直接略過,做出決定的。利用TFIDF算法從項目標(biāo)題提取出項目關(guān)鍵詞,將關(guān)鍵詞的TFIDF值作為該關(guān)鍵詞的權(quán)值,將包含項目核心特征信息的項目標(biāo)題映射為表示項目的特征向量,用以計算項目之間的相似度[1617],進(jìn)行基于內(nèi)容的推薦。

  4科研資源的Top推薦

  這個階段就是在優(yōu)化根據(jù)應(yīng)用場景需要選擇的推薦算法基礎(chǔ)上,計算用戶對還沒有使用過的科研資源的興趣度,基于用戶興趣度和其他的資源特征,對待推薦資源列表按降序進(jìn)行排序,將列表前面的項資源推薦給用戶。

  4.1用戶冷啟動階段

  這個階段,根據(jù)項目的熱度值為用戶進(jìn)行推薦,使用式計算項目熱度值。可以根據(jù)作者專業(yè)職稱級別,為不同用戶設(shè)置不同的權(quán)值如:中級及以下作者權(quán)值為0.6,副高級作者權(quán)值為0.8,正高級及以上作者權(quán)值為。根據(jù)=0.2×收藏次數(shù)+0.4×閱讀次數(shù)+0.4×下載次數(shù),計算用戶行為對項目分值的更新。

  系統(tǒng)啟動階段,可以綜合考慮作者特征和資源特征為每類資源賦予不同的初始熱度值,系統(tǒng)運(yùn)行后,可以結(jié)合每類資源的平均熱度值計算新建項目初始熱度值。在此基礎(chǔ)上,結(jié)合項目作者的權(quán)值使用式便可計算出每個資源項目的當(dāng)前熱度值,根據(jù)資源類別對每類資源按熱度降序排序,將與用戶專業(yè)和研究方向相關(guān)的排名靠前的項各類資源推薦給用戶。

  4.2相似資源項目推薦

  文中使用Python的jieba庫作為分詞工具,對資源文檔標(biāo)題進(jìn)行分詞處理,在此基礎(chǔ)上去除停用詞,然后使用TFIDF方法計算單詞的TFIDF值,構(gòu)造項目標(biāo)題關(guān)鍵詞向量。當(dāng)用戶對某個資源項目進(jìn)行了閱讀、下載等感興趣的操作,系統(tǒng)便根據(jù)當(dāng)前項目的關(guān)鍵詞向量,使用余弦相似度公式(11),計算其與其他該類項目的相似度,然后依據(jù)按項目相似度降序排序的結(jié)果,向用戶做Top推薦。

  5系統(tǒng)效果評估

  針對系統(tǒng)的融合推薦引擎,使用推薦準(zhǔn)確率作為評價系統(tǒng)推薦效果的評估指標(biāo),主要以用戶使用PSRSS系統(tǒng)產(chǎn)生并存儲在用戶資源項目評分表userresitemscore數(shù)據(jù)表的數(shù)據(jù)作為實驗數(shù)據(jù),這些數(shù)據(jù)是用戶對科研資源的各種操作記錄如內(nèi)容瀏覽、下載、收藏。該表有用戶數(shù)206,資源項目數(shù)124,表項即用戶對資源項目操作數(shù)35215,將科研資源數(shù)據(jù)的80%用作訓(xùn)練集,20%用作測試集并計算系統(tǒng)融合推薦引擎的推薦準(zhǔn)確率。

  針對基于項目熱度和基于項目內(nèi)容的推薦。結(jié)果顯示,在推薦列表長度為時有較好準(zhǔn)確率,隨著的增大,準(zhǔn)確率逐漸下降。當(dāng)較小時,基于項目熱度的推薦效果更好,這反映出科研用戶對當(dāng)前熱點科研項目的關(guān)注度較高。當(dāng)繼續(xù)增大后,基于內(nèi)容的推薦效果更好,反映出此時科研的學(xué)科專業(yè)性及用戶對與自己當(dāng)前研究內(nèi)容相關(guān)的科研資源的關(guān)注度,對推薦效果有更大的影響。

  6結(jié)語

  文中調(diào)研了高?蒲杏脩舻目蒲匈Y源個性化服務(wù)需求,設(shè)計了融合推薦系統(tǒng)架構(gòu)。根據(jù)應(yīng)用場景選擇合適的推薦算法并進(jìn)行了針對性的優(yōu)化,考慮閱讀時間長短對用戶興趣度的影響,加入閱讀時間影響因子以修正用戶興趣度值的計算;建立資源項目到用戶的倒查表,解決稀疏數(shù)據(jù)的計算效率問題;在進(jìn)行基于內(nèi)容的推薦時,利用科研用戶的專業(yè)、研究方向等特征進(jìn)行分類、排序,提高推薦的準(zhǔn)確性;利用用戶權(quán)值和時間影響因子計算項目熱度值,并解決了系統(tǒng)冷啟動問題。結(jié)合多種推薦策略,構(gòu)建了融合推薦引擎,提高了推薦效率和推薦準(zhǔn)確率,為個性化科研資源服務(wù)系統(tǒng)的建設(shè)提供了新的參考。本研究還可進(jìn)一步挖掘高?蒲杏脩舻拇髷(shù)據(jù)資源服務(wù)需求,優(yōu)化系統(tǒng)架構(gòu),提高用戶推薦滿意度;為其他系統(tǒng)應(yīng)用設(shè)計API接口,拓展向師生主動推薦科研資源的渠道。

  參考文獻(xiàn):

  覃福鈿,李晶.大數(shù)據(jù)對高校教學(xué)研的影響與探索[J].計算機(jī)工程與科學(xué),2019,41(S1):238241.QinFD,LiJ.Influenceandexplorationofbigdataonuniversityteachingandresearch[J].ComputerEngineering&Science,2019,41(S1):238241.(inChinese)

  LindenSmithYorkJ.Amazon.comrecommendations:itemtoitemcollaborativefiltering[J].IEEEInternetComputing2003,):7680.

  C.A.GomezUribeandN.HuntTheNetflixRecommendersystem:algorithms,businessvalue,andinnovation[J].ACMTransactionsonManagementInformationSystems2016,):19.

  陳媛媛.高?蒲袛(shù)據(jù)管理服務(wù)能力研究[J].情報雜志,2020,39(6):203207.ChenYY.Onresearchdatamanagementserviceabilityofcollegesanduniversities[J].JournalofIntelligence,2020,39(6):203207.(inChinese)

  劉茲恒,曾麗瑩.我國高?蒲袛(shù)據(jù)管理與共享平臺調(diào)研與比較分析[J].情報資料工作,2017(6):9095.LiuZH,ZengLY.InvestigationandcomparativeanalysisofscientificresearchdatamanagementandsharingplatformofuniversitiesinChina[J].InformationandDocumentationServices,2017(6):9095.(inChinese)

  作者:劉冬鄰

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jylw/29600.html