本文摘要:摘要:為滿足高校師生對(duì)科研資源復(fù)雜的個(gè)性化服務(wù)需求,設(shè)計(jì)了高?蒲匈Y源個(gè)性化服務(wù)系統(tǒng),簡(jiǎn)稱(chēng)個(gè)性化科研服務(wù)系統(tǒng)(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高?蒲杏脩(hù)的個(gè)性化科研資源服務(wù)需求,設(shè)計(jì)了基于數(shù)據(jù)層、融合多種推薦策略的推
摘要:為滿足高校師生對(duì)科研資源復(fù)雜的個(gè)性化服務(wù)需求,設(shè)計(jì)了高校科研資源個(gè)性化服務(wù)系統(tǒng),簡(jiǎn)稱(chēng)個(gè)性化科研服務(wù)系統(tǒng)(PSRSS,personalizedscientificresearchservicesystem)。全面分析了高?蒲杏脩(hù)的個(gè)性化科研資源服務(wù)需求,設(shè)計(jì)了基于數(shù)據(jù)層、融合多種推薦策略的推薦計(jì)算層、應(yīng)用呈現(xiàn)層的多引擎融合推薦系統(tǒng)架構(gòu);基于不同推薦場(chǎng)景,比較了不同的推薦算法并對(duì)選擇的算法進(jìn)行了針對(duì)性?xún)?yōu)化;探討了用戶(hù)模型和科研資源模型的設(shè)計(jì),實(shí)現(xiàn)了基于資源熱度、項(xiàng)目?jī)?nèi)容相似度、相似用戶(hù)協(xié)同過(guò)濾的Top推薦。系統(tǒng)提升了高校師生獲取科研資源的體驗(yàn),為高?蒲匈Y源個(gè)性化服務(wù)系統(tǒng)建設(shè)提供了新思路。
關(guān)鍵詞:融合推薦;個(gè)性化;推薦系統(tǒng);高?蒲
高校科研已步入“大數(shù)據(jù)時(shí)代”,各種科研管理系統(tǒng)、科研服務(wù)平臺(tái)收集、儲(chǔ)存了海量的科研數(shù)據(jù)和資源文檔[1]。在信息需求越來(lái)越個(gè)性化的今天,各行業(yè)都嘗試開(kāi)發(fā)并應(yīng)用基于各種算法和模型的個(gè)性化推薦系統(tǒng)。Amazon通過(guò)在網(wǎng)站上使用推薦系統(tǒng),對(duì)用戶(hù)的瀏覽、購(gòu)買(mǎi)行為進(jìn)行分析,進(jìn)而對(duì)曾經(jīng)在該網(wǎng)站有過(guò)瀏覽或購(gòu)買(mǎi)行為的用戶(hù)進(jìn)行個(gè)性化推薦。據(jù)VentureBeat的統(tǒng)計(jì),采用個(gè)性化推薦技術(shù),使得亞馬遜網(wǎng)站的銷(xiāo)售額提高了以上,個(gè)性化推薦技術(shù)的應(yīng)用也越來(lái)越廣[23]。
高校師生在科研活動(dòng)中檢索科研資源的時(shí)間,占整個(gè)科研用時(shí)的50%以上,相較其他類(lèi)型用戶(hù),個(gè)性化需求也更多樣化、更復(fù)雜[4]。目前,師生獲取科研數(shù)據(jù)和科研資源,主要還是使用基于關(guān)鍵字的信息查詢(xún)檢索方式,且國(guó)內(nèi)各類(lèi)科研管理系統(tǒng)和科研數(shù)據(jù)服務(wù)平臺(tái)的功能還較單一,無(wú)法滿足科研用戶(hù)個(gè)性化數(shù)據(jù)服務(wù)需求[5。
造成一方面科研資源信息過(guò)載,面對(duì)海量科研數(shù)據(jù)用戶(hù)卻束手無(wú)策,不能方便、快捷地獲得需要的科研資源;另一方面,用戶(hù)要清楚知道自己的資源需求并能明確表示出需求,才能使用搜索引擎查找想要的資源,F(xiàn)有的資源檢索或管理系統(tǒng)不能主動(dòng)把用戶(hù)可能感興趣的科研資源推薦給用戶(hù),使得寶貴的科研資源得不到充分利用。在大數(shù)據(jù)背景下,以某外國(guó)語(yǔ)大學(xué)為例,針對(duì)高校師生復(fù)雜多樣的個(gè)性化科研資源需求,探索基于融合推薦的個(gè)性化科研資源服務(wù)系統(tǒng)的設(shè)計(jì)。
1相關(guān)工作
1.1科研資源個(gè)性化服務(wù)需求
通過(guò)對(duì)高?蒲杏脩(hù)進(jìn)行問(wèn)卷調(diào)查,總結(jié)出師生們主要的個(gè)性化資源服務(wù)需求為:通過(guò)輸入自己的研究課題或者論文標(biāo)題,獲得類(lèi)似的科研項(xiàng)目資源,為自己的科研提供有用的幫助;獲得當(dāng)前本專(zhuān)業(yè)相關(guān)研究方向的熱度值較高的科研資源、科研成果,進(jìn)而了解當(dāng)前學(xué)科的主要研究方向;了解學(xué)科同行當(dāng)前所從事的研究課題、研究動(dòng)態(tài),特別是能獲得一些自己都不曾想到但又感興趣的相關(guān)資源,為自己的研究找尋參考的方向和可以借鑒的思想。
1.2融合推薦系統(tǒng)架構(gòu)
任何單一的推薦策略都不能滿足高校用戶(hù)復(fù)雜多樣的個(gè)性化需求,因此為PSRSS設(shè)計(jì)了融合多種推薦策略的推薦系統(tǒng)架構(gòu),由數(shù)據(jù)層、融合推薦層、應(yīng)用呈現(xiàn)層組成。數(shù)據(jù)層:由基礎(chǔ)數(shù)據(jù)和對(duì)數(shù)據(jù)的處理構(gòu)成;A(chǔ)數(shù)據(jù)包括用戶(hù)信息數(shù)據(jù)、科研資源數(shù)據(jù)、用戶(hù)行為等源數(shù)據(jù),科研用戶(hù)數(shù)據(jù)主要來(lái)自于包含用戶(hù)個(gè)人基本信息的人事系統(tǒng)數(shù)據(jù)庫(kù);科研資源數(shù)據(jù)主要來(lái)自于科研、教改管理系統(tǒng)的用戶(hù)科研成果數(shù)據(jù)如科研論文、專(zhuān)著、專(zhuān)利、研究報(bào)告、科研項(xiàng)目等;用戶(hù)行為數(shù)據(jù)是用戶(hù)在使用PSRSS或其他科研系統(tǒng)時(shí)的行為日志數(shù)據(jù)。
數(shù)據(jù)處理是從業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取所需數(shù)據(jù)并進(jìn)行轉(zhuǎn)換、清洗、標(biāo)準(zhǔn)化、融和等預(yù)處理,為推薦引擎提供所需數(shù)據(jù)。融合推薦層:該層是個(gè)性化服務(wù)系統(tǒng)的核心,在數(shù)據(jù)層提供的數(shù)據(jù)基礎(chǔ)上,構(gòu)建科研用戶(hù)特征、科研資源項(xiàng)目特征、用戶(hù)與項(xiàng)目、用戶(hù)與用戶(hù)、項(xiàng)目與項(xiàng)目間的關(guān)系特征。采用熱度推薦、基于UserCF推薦和使用IFTDF方法的基于項(xiàng)目?jī)?nèi)容的推薦算法,構(gòu)建系統(tǒng)融合推薦引擎,以滿足高?蒲杏脩(hù)復(fù)雜多樣的個(gè)性化服務(wù)需求;該層還包括對(duì)系統(tǒng)召回項(xiàng)目進(jìn)行排序和過(guò)濾的模塊[910]。應(yīng)用呈現(xiàn)層:根據(jù)應(yīng)用需要,通過(guò)不同的形式向用戶(hù)呈現(xiàn)推薦的結(jié)果。
2科研資源大數(shù)據(jù)處理
PSRSS要存儲(chǔ)和處理的數(shù)據(jù)量都是級(jí),同時(shí)基于對(duì)數(shù)據(jù)分布式計(jì)算和高吞吐量的處理要求,系統(tǒng)采用Apach的Hadoop大數(shù)據(jù)技術(shù)框架對(duì)科研資源大數(shù)據(jù)進(jìn)行存儲(chǔ)和處理,具體處理過(guò)程:建立數(shù)據(jù)列表:根據(jù)系統(tǒng)需求建立需要的數(shù)據(jù)列表包括數(shù)據(jù)的屬性、數(shù)據(jù)之間的關(guān)系等。建立原始數(shù)據(jù)存儲(chǔ)(RDS,rawdatastores)和轉(zhuǎn)換后的數(shù)據(jù)存儲(chǔ)(TDS,transformeddatastrores):
物理上通過(guò)在Hive上建立兩個(gè)數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn),使得所有數(shù)據(jù)都被分布存儲(chǔ)到HDFS上。數(shù)據(jù)抽。篟DS作為具體業(yè)務(wù)系統(tǒng)和PSRSS之間的過(guò)渡區(qū),它可以避免對(duì)源系統(tǒng)的侵入和性能影響,并為細(xì)節(jié)數(shù)據(jù)查詢(xún)提供支持。使用Sqoop把各業(yè)務(wù)系統(tǒng)相關(guān)數(shù)據(jù)抽取到RDS,使用Flume從日志文件中獲取用戶(hù)從外網(wǎng)使用科研資源的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換與裝載:建立數(shù)據(jù)列表到RDS的映射,根據(jù)融合推薦系統(tǒng)的需要,使用HiveQL腳本對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和處理,包括對(duì)數(shù)據(jù)進(jìn)行去重、補(bǔ)全、查錯(cuò)糾錯(cuò)、標(biāo)準(zhǔn)化等處理,將數(shù)據(jù)從RDS裝載到TDS中。
完成首次的數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL,Extract、Transform、Load)過(guò)程后,還需要根據(jù)系統(tǒng)需要定期執(zhí)行數(shù)據(jù)ETL過(guò)程,比如按照每天進(jìn)行一次自動(dòng)化的增量數(shù)據(jù)ETL過(guò)程。 科研用戶(hù)模型和資源項(xiàng)目模型的構(gòu)建建立科研用戶(hù)和科研資源項(xiàng)目之間的關(guān)聯(lián),實(shí)現(xiàn)個(gè)性化推薦服務(wù),推薦系統(tǒng)要經(jīng)過(guò)構(gòu)建科研用戶(hù)模型和科研資源模型、根據(jù)用戶(hù)特征運(yùn)用不同的推薦算法對(duì)資源項(xiàng)目進(jìn)行召回計(jì)算、向用戶(hù)呈現(xiàn)科研資源推薦列表這個(gè)重要步驟[1112?蒲杏脩(hù)模型和科研資源模型決定著PSRSS的輸出。
2.1構(gòu)建科研用戶(hù)模型
在PSRSS的用戶(hù)模型中包括用戶(hù)基本信息和用戶(hù)的資源興趣模型,即用戶(hù)在使用系統(tǒng)和資源時(shí)的一些行為信息,PSRSS要向用戶(hù)推薦他們感興趣的各種科研資源,不僅要記錄用戶(hù)對(duì)資源項(xiàng)目的具體行為數(shù)據(jù),還要記錄用戶(hù)使用PSRSS的行為數(shù)據(jù),如用戶(hù)瀏覽某個(gè)資源項(xiàng)目?jī)?nèi)容的具體時(shí)長(zhǎng),這些行為數(shù)據(jù)將用于項(xiàng)目熱度和用戶(hù)興趣模型的更新。由于高?蒲杏脩(hù)在使用個(gè)性化科研服務(wù)系統(tǒng)時(shí),往往只專(zhuān)注于所需資源項(xiàng)目的內(nèi)容本身,他們會(huì)查詢(xún)、瀏覽閱讀、下載獲取,不太會(huì)對(duì)相應(yīng)項(xiàng)目進(jìn)行主動(dòng)評(píng)價(jià),很難獲得用戶(hù)對(duì)資源項(xiàng)目的顯式行為記錄。
因此,采用隱式的方式,記錄并利用用戶(hù)使用PSRSS和資源數(shù)據(jù)庫(kù)的行為日志,建立并更新用戶(hù)模型。本系統(tǒng)用戶(hù)模型使用20世紀(jì)70年代由GeraldSalton等提出的VSM(向量空間模型,VectorSpaceModel)表示,該模型最初用于處理文檔,通過(guò)識(shí)別并獲取文檔的個(gè)關(guān)鍵字特征以表示文檔,分別為每個(gè)特征賦予合適的權(quán)值,進(jìn)而構(gòu)造一個(gè)表示該文檔的特征向量。
當(dāng)文檔被表示為文檔空間的向量后,就能計(jì)算不同文檔向量間的相似度并據(jù)此度量文檔間的相似性。在PSRSS中,當(dāng)用戶(hù)對(duì)某個(gè)科研資源項(xiàng)目做出某種行為時(shí),其行為值為,這些行為反映了用戶(hù)對(duì)資源項(xiàng)目的不同興趣度,賦予每種行為不同的權(quán)值,的取值為0~1且權(quán)值總和為。
2.2構(gòu)建科研資源模型
采用基于資源項(xiàng)目?jī)?nèi)容主題模型的資源推薦策略,通過(guò)給能反映資源項(xiàng)目主要內(nèi)容特征的主題計(jì)算權(quán)值向量,從而使用該向量計(jì)算得到資源項(xiàng)目間的相似度,可以比較精確地向用戶(hù)推薦其可能感興趣的科研資源。高校的主要科研資源類(lèi)型有科研論文、研究報(bào)告、著作、縱向和橫向課題、專(zhuān)利、各種比賽成果等。考慮到進(jìn)行基于科研資源項(xiàng)目?jī)?nèi)容推薦的需要,特別是推薦算法中引入項(xiàng)目時(shí)間因素的改進(jìn)設(shè)計(jì),在對(duì)科研資源進(jìn)行建模時(shí)設(shè)計(jì)了包括資源項(xiàng)目ID、資源建立時(shí)間、資源長(zhǎng)度、資源類(lèi)型、資源內(nèi)容關(guān)鍵字特征作為科研資源模型的元素。
1)type為科研資源項(xiàng)目的類(lèi)型,在系統(tǒng)冷啟動(dòng)階段向用戶(hù)做熱度推薦時(shí),將根據(jù)用戶(hù)的專(zhuān)業(yè)、研究方向、資源類(lèi)型提供初始的資源項(xiàng)目推薦,比如向英語(yǔ)學(xué)院研究英語(yǔ)國(guó)家文化的教師推薦相應(yīng)類(lèi)型的論文或其他資源。
2)duration是資源項(xiàng)目在系統(tǒng)中發(fā)布后存在的時(shí)間,反應(yīng)了資源項(xiàng)目的新舊程度,在推薦過(guò)程中,我們要考慮時(shí)間因素對(duì)用戶(hù)興趣度的影響。
3)length為資源項(xiàng)目?jī)?nèi)容長(zhǎng)度,目前主要的資源項(xiàng)目,其內(nèi)容形式主要以文本為主,用戶(hù)閱讀瀏覽的時(shí)間和項(xiàng)目?jī)?nèi)容的長(zhǎng)度,共同決定了用戶(hù)對(duì)該資源項(xiàng)目的興趣度。
4)為資源項(xiàng)目標(biāo)題關(guān)鍵字列表,在進(jìn)行基于項(xiàng)目?jī)?nèi)容的推薦時(shí),使用TFIDF方法從資源標(biāo)題計(jì)算得到該資源項(xiàng)目的關(guān)鍵字列表。
3算法選擇與優(yōu)化
3.1算法選擇個(gè)性化推薦算法是個(gè)性化科研服務(wù)的基礎(chǔ),主要的推薦算法有基于內(nèi)容(contentbased)的推薦、基于協(xié)同過(guò)濾(collaborativefiltering)的推薦、基于關(guān)聯(lián)規(guī)則(associationrulebased)的推薦、基于效用(utilitybased)的推薦、基于知識(shí)(knowledgebased)的推薦和組合(hybrid)推薦等;趦(nèi)容的推薦是在項(xiàng)目?jī)?nèi)容信息上做出推薦,不需要用戶(hù)對(duì)項(xiàng)目進(jìn)行顯式評(píng)價(jià)操作,可通過(guò)使用機(jī)器學(xué)習(xí)的方法從描述內(nèi)容特征的事項(xiàng)中,獲取用戶(hù)的興趣特征并找到與用戶(hù)感興趣的相似內(nèi)容向用戶(hù)推薦,可通過(guò)增加特征維度的方法來(lái)提高該算法的推薦精度。
基于內(nèi)容的推薦,不需要大量的用戶(hù)項(xiàng)目評(píng)分記錄,可用于新建立的資源項(xiàng)目的推薦,解決項(xiàng)目冷啟動(dòng)問(wèn)題。協(xié)同過(guò)濾推薦算法包括基于用戶(hù)的協(xié)同過(guò)濾(UserCF)和基于項(xiàng)目的協(xié)同過(guò)濾(ItemCF),是一種基于近鄰的推薦算法[15]。在電商商品和圖書(shū)館資源推薦時(shí)多采用ItemCF,因?yàn)橛脩?hù)在找尋這類(lèi)物品時(shí)的興趣是比較穩(wěn)定的,因此可以向其推薦與當(dāng)前瀏覽物品相似的商品。
在PSRSS中,當(dāng)要向用戶(hù)推薦有關(guān)本專(zhuān)業(yè)的同行當(dāng)前關(guān)注的科研資源時(shí),科研資源的時(shí)效性、專(zhuān)業(yè)性和熱度,比根據(jù)用戶(hù)的系統(tǒng)使用日志學(xué)習(xí)得到的興趣更有用。基于用戶(hù)的協(xié)同過(guò)濾推薦策略還能向用戶(hù)推薦可能讓其驚喜的資源項(xiàng)目。根據(jù)PSRSS的應(yīng)用場(chǎng)景需要,融合推薦引擎在系統(tǒng)冷啟動(dòng)階段,采用基于項(xiàng)目熱度的推薦算法,向用戶(hù)推薦相關(guān)專(zhuān)業(yè)和研究方向的各類(lèi)熱度值較高的科研資源;在用戶(hù)有了較多的系統(tǒng)使用行為記錄后,選用基于用戶(hù)的協(xié)同過(guò)濾推薦算法,向用戶(hù)推薦有相似興趣的本學(xué)科專(zhuān)業(yè)的同行感興趣的科研資源;當(dāng)用戶(hù)收藏、閱讀或下載了某項(xiàng)科研資源時(shí),選用基于內(nèi)容的推薦算法,向用戶(hù)推薦與其當(dāng)前感興趣的資源相似的科研資源。
3.2算法優(yōu)化
3.2.1項(xiàng)目熱度值計(jì)算
用戶(hù)剛開(kāi)始使用PSRSS時(shí),系統(tǒng)是無(wú)法向用戶(hù)提供個(gè)性化服務(wù)的,面臨用戶(hù)冷啟動(dòng)問(wèn)題,此時(shí)采用基于項(xiàng)目熱度的推薦算法,對(duì)科研資源基于專(zhuān)業(yè)學(xué)科、研究方向等基本信息進(jìn)行劃分,然后按照項(xiàng)目熱度對(duì)科研資源進(jìn)行排序,將熱度值較高項(xiàng)目推薦給感興趣的用戶(hù)。
當(dāng)一個(gè)資源項(xiàng)目錄入系統(tǒng)數(shù)據(jù)庫(kù)后,就為其初始化一個(gè)熱度分,項(xiàng)目也就同時(shí)進(jìn)入了推薦候選列表,不同科研資源的初始熱度分是不一樣的,可以根據(jù)資源類(lèi)別并按照作者的專(zhuān)業(yè)水平如專(zhuān)業(yè)職稱(chēng)等條件,賦予不同資源不同的初始熱度值。隨著資源項(xiàng)目不斷被用戶(hù)閱讀、收藏、下載,對(duì)應(yīng)的被用戶(hù)行為影響的熱度不斷增加。還有影響資源熱度的其他因素,他們會(huì)使資源熱度降低,比如時(shí)間因素。
3.2.2項(xiàng)目向量化
PSRSS的主要推薦內(nèi)容是非結(jié)構(gòu)化的科研資源文檔,不能直接將其映射到向量空間,這些資源的標(biāo)題包含了關(guān)于該資源的核心關(guān)鍵信息,能反映資源的主要內(nèi)容特征,用戶(hù)也主要是利用各個(gè)資源項(xiàng)目的標(biāo)題信息來(lái)對(duì)下一步的動(dòng)作如點(diǎn)開(kāi)閱讀、收藏、下載或者直接略過(guò),做出決定的。利用TFIDF算法從項(xiàng)目標(biāo)題提取出項(xiàng)目關(guān)鍵詞,將關(guān)鍵詞的TFIDF值作為該關(guān)鍵詞的權(quán)值,將包含項(xiàng)目核心特征信息的項(xiàng)目標(biāo)題映射為表示項(xiàng)目的特征向量,用以計(jì)算項(xiàng)目之間的相似度[1617],進(jìn)行基于內(nèi)容的推薦。
4科研資源的Top推薦
這個(gè)階段就是在優(yōu)化根據(jù)應(yīng)用場(chǎng)景需要選擇的推薦算法基礎(chǔ)上,計(jì)算用戶(hù)對(duì)還沒(méi)有使用過(guò)的科研資源的興趣度,基于用戶(hù)興趣度和其他的資源特征,對(duì)待推薦資源列表按降序進(jìn)行排序,將列表前面的項(xiàng)資源推薦給用戶(hù)。
4.1用戶(hù)冷啟動(dòng)階段
這個(gè)階段,根據(jù)項(xiàng)目的熱度值為用戶(hù)進(jìn)行推薦,使用式計(jì)算項(xiàng)目熱度值。可以根據(jù)作者專(zhuān)業(yè)職稱(chēng)級(jí)別,為不同用戶(hù)設(shè)置不同的權(quán)值如:中級(jí)及以下作者權(quán)值為0.6,副高級(jí)作者權(quán)值為0.8,正高級(jí)及以上作者權(quán)值為。根據(jù)=0.2×收藏次數(shù)+0.4×閱讀次數(shù)+0.4×下載次數(shù),計(jì)算用戶(hù)行為對(duì)項(xiàng)目分值的更新。
系統(tǒng)啟動(dòng)階段,可以綜合考慮作者特征和資源特征為每類(lèi)資源賦予不同的初始熱度值,系統(tǒng)運(yùn)行后,可以結(jié)合每類(lèi)資源的平均熱度值計(jì)算新建項(xiàng)目初始熱度值。在此基礎(chǔ)上,結(jié)合項(xiàng)目作者的權(quán)值使用式便可計(jì)算出每個(gè)資源項(xiàng)目的當(dāng)前熱度值,根據(jù)資源類(lèi)別對(duì)每類(lèi)資源按熱度降序排序,將與用戶(hù)專(zhuān)業(yè)和研究方向相關(guān)的排名靠前的項(xiàng)各類(lèi)資源推薦給用戶(hù)。
4.2相似資源項(xiàng)目推薦
文中使用Python的jieba庫(kù)作為分詞工具,對(duì)資源文檔標(biāo)題進(jìn)行分詞處理,在此基礎(chǔ)上去除停用詞,然后使用TFIDF方法計(jì)算單詞的TFIDF值,構(gòu)造項(xiàng)目標(biāo)題關(guān)鍵詞向量。當(dāng)用戶(hù)對(duì)某個(gè)資源項(xiàng)目進(jìn)行了閱讀、下載等感興趣的操作,系統(tǒng)便根據(jù)當(dāng)前項(xiàng)目的關(guān)鍵詞向量,使用余弦相似度公式(11),計(jì)算其與其他該類(lèi)項(xiàng)目的相似度,然后依據(jù)按項(xiàng)目相似度降序排序的結(jié)果,向用戶(hù)做Top推薦。
5系統(tǒng)效果評(píng)估
針對(duì)系統(tǒng)的融合推薦引擎,使用推薦準(zhǔn)確率作為評(píng)價(jià)系統(tǒng)推薦效果的評(píng)估指標(biāo),主要以用戶(hù)使用PSRSS系統(tǒng)產(chǎn)生并存儲(chǔ)在用戶(hù)資源項(xiàng)目評(píng)分表userresitemscore數(shù)據(jù)表的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),這些數(shù)據(jù)是用戶(hù)對(duì)科研資源的各種操作記錄如內(nèi)容瀏覽、下載、收藏。該表有用戶(hù)數(shù)206,資源項(xiàng)目數(shù)124,表項(xiàng)即用戶(hù)對(duì)資源項(xiàng)目操作數(shù)35215,將科研資源數(shù)據(jù)的80%用作訓(xùn)練集,20%用作測(cè)試集并計(jì)算系統(tǒng)融合推薦引擎的推薦準(zhǔn)確率。
針對(duì)基于項(xiàng)目熱度和基于項(xiàng)目?jī)?nèi)容的推薦。結(jié)果顯示,在推薦列表長(zhǎng)度為時(shí)有較好準(zhǔn)確率,隨著的增大,準(zhǔn)確率逐漸下降。當(dāng)較小時(shí),基于項(xiàng)目熱度的推薦效果更好,這反映出科研用戶(hù)對(duì)當(dāng)前熱點(diǎn)科研項(xiàng)目的關(guān)注度較高。當(dāng)繼續(xù)增大后,基于內(nèi)容的推薦效果更好,反映出此時(shí)科研的學(xué)科專(zhuān)業(yè)性及用戶(hù)對(duì)與自己當(dāng)前研究?jī)?nèi)容相關(guān)的科研資源的關(guān)注度,對(duì)推薦效果有更大的影響。
6結(jié)語(yǔ)
文中調(diào)研了高校科研用戶(hù)的科研資源個(gè)性化服務(wù)需求,設(shè)計(jì)了融合推薦系統(tǒng)架構(gòu)。根據(jù)應(yīng)用場(chǎng)景選擇合適的推薦算法并進(jìn)行了針對(duì)性的優(yōu)化,考慮閱讀時(shí)間長(zhǎng)短對(duì)用戶(hù)興趣度的影響,加入閱讀時(shí)間影響因子以修正用戶(hù)興趣度值的計(jì)算;建立資源項(xiàng)目到用戶(hù)的倒查表,解決稀疏數(shù)據(jù)的計(jì)算效率問(wèn)題;在進(jìn)行基于內(nèi)容的推薦時(shí),利用科研用戶(hù)的專(zhuān)業(yè)、研究方向等特征進(jìn)行分類(lèi)、排序,提高推薦的準(zhǔn)確性;利用用戶(hù)權(quán)值和時(shí)間影響因子計(jì)算項(xiàng)目熱度值,并解決了系統(tǒng)冷啟動(dòng)問(wèn)題。結(jié)合多種推薦策略,構(gòu)建了融合推薦引擎,提高了推薦效率和推薦準(zhǔn)確率,為個(gè)性化科研資源服務(wù)系統(tǒng)的建設(shè)提供了新的參考。本研究還可進(jìn)一步挖掘高?蒲杏脩(hù)的大數(shù)據(jù)資源服務(wù)需求,優(yōu)化系統(tǒng)架構(gòu),提高用戶(hù)推薦滿意度;為其他系統(tǒng)應(yīng)用設(shè)計(jì)API接口,拓展向師生主動(dòng)推薦科研資源的渠道。
參考文獻(xiàn):
覃福鈿,李晶.大數(shù)據(jù)對(duì)高校教學(xué)研的影響與探索[J].計(jì)算機(jī)工程與科學(xué),2019,41(S1):238241.QinFD,LiJ.Influenceandexplorationofbigdataonuniversityteachingandresearch[J].ComputerEngineering&Science,2019,41(S1):238241.(inChinese)
LindenSmithYorkJ.Amazon.comrecommendations:itemtoitemcollaborativefiltering[J].IEEEInternetComputing2003,):7680.
C.A.GomezUribeandN.HuntTheNetflixRecommendersystem:algorithms,businessvalue,andinnovation[J].ACMTransactionsonManagementInformationSystems2016,):19.
陳媛媛.高?蒲袛(shù)據(jù)管理服務(wù)能力研究[J].情報(bào)雜志,2020,39(6):203207.ChenYY.Onresearchdatamanagementserviceabilityofcollegesanduniversities[J].JournalofIntelligence,2020,39(6):203207.(inChinese)
劉茲恒,曾麗瑩.我國(guó)高?蒲袛(shù)據(jù)管理與共享平臺(tái)調(diào)研與比較分析[J].情報(bào)資料工作,2017(6):9095.LiuZH,ZengLY.InvestigationandcomparativeanalysisofscientificresearchdatamanagementandsharingplatformofuniversitiesinChina[J].InformationandDocumentationServices,2017(6):9095.(inChinese)
作者:劉冬鄰
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jylw/29600.html