本文摘要:摘要:[目的/意義]在線健康社區(qū)中對高影響力用戶的有效識別,有助于健康信息需求者發(fā)現(xiàn)有價值的健康信息,對于降低健康信息查找成本和提高健康行為決策的有效性具有重要意義。[方法/過程]從用戶交互性和評論情感傾向出發(fā),利用PageRank和SVM等算法構建出在線
摘要:[目的/意義]在線健康社區(qū)中對高影響力用戶的有效識別,有助于健康信息需求者發(fā)現(xiàn)有價值的健康信息,對于降低健康信息查找成本和提高健康行為決策的有效性具有重要意義。[方法/過程]從用戶交互性和評論情感傾向出發(fā),利用PageRank和SVM等算法構建出在線健康社區(qū)用戶影響力的測量方法,并以醫(yī)享網(wǎng)為實驗對象,從發(fā)布內(nèi)容使用價值的視角,進一步計算了該社區(qū)中用戶的綜合影響力,并對案例用戶進行分析。[結果/結論]分析結果表明該算法具有一定的合理性,能夠對PageRank算法的影響力計算結果進行優(yōu)化;同時,利用TFIDF和互信息算法揭示了高綜合影響力用戶發(fā)布的信息內(nèi)容與社區(qū)其他用戶群體內(nèi)容主題基本一致,該類用戶對社區(qū)的主題方向起到一定的引導作用。因此,通過本研究所構建的方法可以有效識別高影響力的用戶,有助于健康信息需求者及時準確的發(fā)現(xiàn)所需信息,提高健康信息的使用效果,從而豐富在線健康社區(qū)用戶信息行為的理論和實踐研究。
關鍵詞:PageRank 情感傾向在線健康社區(qū)用戶影響力
1 引言
“互聯(lián)網(wǎng)+醫(yī)療”發(fā)展戰(zhàn)略是順應時代的產(chǎn)物,也是向智能醫(yī)療轉變的必經(jīng)之路。用戶不僅可以在線預約掛號、查閱資料,還能夠得到意向領域專家的解答或者病友的經(jīng)驗傳授與討論,縮短傳統(tǒng)醫(yī)療中尋根問藥的時間成本,大大提高了用戶的參與感與治療效率。
健康論文范例:體檢中心對亞健康人群健康管理模式的探討
據(jù)醫(yī)療相關數(shù)據(jù)顯示,2018年全國超過99萬家衛(wèi)生機構總會診人次達到33.8億[1],2019年在線咨詢總量達5.6億次,未來將持續(xù)保持上升趨勢[2]。同時,《“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》[3]也鼓勵在線健康社區(qū)運用互聯(lián)網(wǎng)的相關技術加快實現(xiàn)資源互通、信息共享與遠程醫(yī)療等服務,不斷健全互聯(lián)網(wǎng)+醫(yī)療的一體化服務體系,加強醫(yī)院、醫(yī)生與患者間的有效溝通。
目前,國內(nèi)健康問題討論規(guī)模較大的在線社區(qū)以醫(yī)享網(wǎng)、39健康論壇與好大夫在線等網(wǎng)站為主,這些在線社區(qū)用戶多,知識傳播速度快,產(chǎn)生了大量的信息與數(shù)據(jù),為健康信息需求用戶提供了有價值的健康信 息。在線社區(qū)中存在一些活躍程度較高的用戶,他們能夠吸引到其他用戶的關注和互動,從而在一定程度上影響其他用戶的信息行為和健康決策,對于整個在線社區(qū)的信息傳播具有較強的導向作用。
然而,用戶的活躍程度與其所發(fā)布的信息的使用價值間并非存在直接關系,如一些用戶具有較強的交互影響力,在社區(qū)活躍程度較高,求助和抒發(fā)情感等行為頻繁,所發(fā)布的信息也受到較多關注,但其他用戶對其評價不高,在一定程度上反映了其信息的使用價值有限;還有一些用戶盡管交互活躍程度不高,但其所發(fā)布的信息受到的積極評價較多,其所發(fā)布的信息具有較好的應用價值。
因此,從信息使用價值角度出發(fā),如何結合用戶活躍性和交互情感傾向性識別來判斷在線健康社區(qū)用戶的綜合影響力,對于幫助用戶便捷、有效地利用健康信息,做出客觀的健康行為決策等方面具有重要意義。本研究擬在融合用戶交互活躍性和評論情感傾向的基礎上,探索性地構建在線健康社區(qū)用戶綜合影響力的測量算法,并在相應的在線健康社區(qū)中進行實驗和結果分析,以期為有效挖掘在線健康社區(qū)中有影響力的用戶和有價值的健康信息提供一定的方法和參考。
2 相關研究
用戶影響力的分析與測量是在線社交媒體和在線社區(qū)相關研究領域中,學者所關注的重要研究方向之一。目前關于用戶影響力的相關研究主要采用特征值統(tǒng)計分析方法、社會網(wǎng)絡分析方法以及PageRank方法等。
特征值統(tǒng)計分析方法主要通過統(tǒng)計能夠反映在線社區(qū)用戶活躍特征的相關特征值,并進行一定的指標和權重的設定,從而計算用戶的影響力。如王佳敏等[4]在分析用戶影響力時,主要統(tǒng)計了影響力指標和活躍度兩個指標,其中影響力指標包括粉絲數(shù)、被轉發(fā)數(shù)、被評論數(shù)、是否認證4個特征值,活躍度指標包括微博數(shù)和關注人數(shù)兩個特征值。趙發(fā)珍等[5]利用博客的引用數(shù)量、回復數(shù)量、網(wǎng)頁內(nèi)外鏈接數(shù)等特征值進行用戶影響力的建模。董偉等[6]也通過獲取和分析在線社區(qū)中用戶的留存時間、發(fā)帖量、粉絲數(shù)等反映個人和交互維度的相關特征值,對活躍用戶進行了識別,并對其在社區(qū)中的影響力進行了分析。
社會網(wǎng)絡分析方法主要通過關系網(wǎng)絡結構中的屬性值來計算各個網(wǎng)絡節(jié)點在網(wǎng)絡中的重要性,如網(wǎng)絡密度、點度中心性、中介中心性、接近中心性及等。陳遠等[7]通過分析社會網(wǎng)絡的中心度、結構洞等指標來挖掘在線社區(qū)中用戶的影響力。謝英香等[8]則通過對社會網(wǎng)絡分析法中的中心度的分析,利用MDS等方法,分析了虛擬社區(qū)中的用戶的影響力,并進一步揭示該社區(qū)存在意見領袖現(xiàn)象。S.Jonnalagadda[9]等則綜合分析了點度中心性、點度中介性、以及點度緊密性等反映中心的指標,從而發(fā)現(xiàn)了醫(yī)學在線社區(qū)中具有較大影響的意見領袖。
3 研究設計
3.1 研究思路
本研究的思路主要包括四個步驟,首先是利用數(shù)據(jù)爬蟲對在線社區(qū)相關信息進行爬取,對數(shù)據(jù)進行預處理,并將最終可用的數(shù)據(jù)存入數(shù)據(jù)庫,包括用戶和評論信息兩個方面。其次,是對用戶的綜合影響力進行計算,綜合影響力主要包括三項子算法:①利用PageRank算法對用戶的交互影響力進行計算;②通過選擇最優(yōu)情感分類模型,對評論信息進行情感歸類與分析,并進一步對評論信息情感傾向值進行計算;③融合上述兩內(nèi)容的結果按照特定公式進行融合,并通過案例分析進行對比。再次,利用TFIDF與互信息算法進一步探究高綜合影響力用戶所生產(chǎn)的信息內(nèi)容與社區(qū)其他用戶群體內(nèi)容主題方向的關系,并通過可視化的方法進行比較分析。最后,對本研究的研究過程和方法進行總結,并提出相應的研究展望。
3.2 數(shù)據(jù)獲取與預處理
本研究以健康社區(qū)中的用戶所發(fā)布的信息及其評論信息為分析對象,使用Python語言構建多線程爬蟲工具,以Cookie參數(shù)與報頭信息作為用戶與瀏覽器表征工具,通過解析DOM樹獲得該社區(qū)中用戶交流之間的相關內(nèi)容,包括用戶昵稱、發(fā)帖內(nèi)容與相應的回帖信息。
此外,進一步對相關數(shù)據(jù)進行預處理,如分詞處理、用戶編碼映射表構建、用戶評論映射表構建、用戶評論者映射表構建、異常用戶處理等。本研究擬以醫(yī)享網(wǎng)社區(qū)的用戶生成內(nèi)容為例,并收集相應數(shù)據(jù)進行相關實驗和分析。
3.3 分析過程與技術
傳統(tǒng)PageRank算法中,較多考慮的是網(wǎng)站或者用戶之間的交互關系與權重,并不對其本身質(zhì)量進行分析,故本研究結合用戶交互關系與用戶評論等信息內(nèi)容進行分析,一方面發(fā)掘潛在網(wǎng)絡用戶影響力排名;另一方面對用戶情感傾向進行識別,并融合兩者進行綜合性探究。
4 研究結果
4.1 實驗數(shù)據(jù)
醫(yī)享網(wǎng)是國內(nèi)在線健康社區(qū)中用戶較多,可信度較高的社區(qū)之一,支持病例庫查詢,在線健康問題問答,其中痛風圈社區(qū)的內(nèi)容交互較為頻繁,論述相對全面[21]。故本研究設置醫(yī)享網(wǎng)的痛風圈作為數(shù)據(jù)來源,收集時間為2020年2月,依據(jù)相關公開內(nèi)容,設計爬蟲程序進行數(shù)據(jù)抽取,具體數(shù)據(jù)主要包括用戶昵稱、發(fā)帖與回帖內(nèi)容。
進一步對數(shù)據(jù)進行預處理,分詞處理,即使用JIBEA對用戶文本進行分詞,以進行高頻詞統(tǒng)計和互信息模型構建;用戶編碼映射表構建,即對所有用戶進行統(tǒng)一編碼,如用戶1、用戶2等順排至最后;用戶評論映射表,即對用戶所發(fā)表的評論內(nèi)容進行對應;用戶評論者映射表,即構建評論用戶1、用戶2等的用戶評論映射表;異常用戶處理即過濾掉評論或發(fā)帖與通風圈無關的用戶,如推送廣告用戶等。經(jīng)過最終預處理,共得到292位有效用戶的2560條有效交互內(nèi)容。
4.2.3 基于互信息的綜合影響力用戶文本內(nèi)容分析結果
為進一步探究高綜合影響力用戶對健康社區(qū)主題方向的影響,本研究選取了前20個高綜合影響力用戶和社區(qū)其他用戶評論內(nèi)容進行實驗,通過TFIDF與互信息兩種算法,構建了該用戶群的詞條共現(xiàn)網(wǎng)絡,為了更直觀和清楚展示其關聯(lián)效果與整體結構,借助Vosviewer軟件對該共現(xiàn)網(wǎng)絡進行了可視化分析。其中,疼痛、結晶、血癥、高尿酸、發(fā)作、關節(jié)、止痛、代謝、含量等半徑較大的15個節(jié)點代表高頻詞匯,而半徑較小的其他節(jié)點分別表示每個高頻詞的10個互信息關鍵詞,相連表示對應的一組數(shù)據(jù)。
高綜合影響力用戶主要關注的幾個問題集中在三個方面,其一是當痛風病發(fā)作的時候的表現(xiàn),如疼痛、臨睡前、侵蝕、結晶、沉淀、磷脂、關節(jié)、神經(jīng)等關鍵詞均在不同方面說明了病癥發(fā)生的癥狀、時間等內(nèi)容;其二是治療痛風所使用的藥物,包括秋水仙堿、雙氯芬酸鈉、阿西美辛、戴芬、秋水仙、別嘌呤、抗炎藥、止痛針等內(nèi)容;其三,為了更好的治療痛風所采用的食療輔助,如特別注意龍須菜、菠菜、蘑菇、鮮豌豆類含嘌呤較多的蔬菜,蛤類、動物內(nèi)臟、多飲水、少喝湯等。
5 總結與展望
5.1 研究總結
本研究從交互影響力和情感傾向兩個視角出發(fā),基于SVM算法的線性核函數(shù)建立了情緒識別模型,對文本有效性進行了識別與分析,并結合交互影響力與情感傾向性探討了用戶綜合影響力,得出以下結論:
首先,本研究通過對用戶交互影響力的計算,并結合相關案例,發(fā)現(xiàn)交互影響力更多強調(diào)了交互活躍性,但對于揭示用戶信息資源的有效性方面存在一定不足,因此并不能完全客觀的反映出用戶的真實影響力,需要引入評論情感傾向值對影響力做進一步的融合計算。
其次,通過對比機器學習的五種關于情感計算的主要算法中,發(fā)現(xiàn)SVM算法對于本文構建的評論情感傾向分類模型效果最優(yōu),為有效的計算用戶綜合影響力提供了技術支撐。
再次,本研究探索性地將PageRank交互影響力與評論情感傾向進行融合計算,并通過相應個案分析從信息內(nèi)容的角度對高影響力用戶做了進一步驗證,在一定程度上說明了本研究中的綜合影響力的算法具有較好的合理性和適用性。
此外,通過對高綜合影響力的高頻詞-互信息矩陣與其他用戶群體的高頻詞-互信息矩陣的比較發(fā)現(xiàn),二者相似程度較高,基本主題方向一致,這也在一定程度上說明了尋找高綜合影響力用戶的必要性,也進一步說明本研究的用戶影響力綜合計算方法可較為客觀的識別出主導健康社區(qū)內(nèi)容方向的具有較高影響力的用戶,有助于健康信息需求者能夠及時、準確從健康社區(qū)中獲得所需有價值的信息,提升健康信息的利用效果。
5.2 研究展望
本文提出了一種情緒識別模型以探索用戶生成內(nèi)容的情感傾向,從而構建用戶綜合影響力的研究方法,并進一步通過具體內(nèi)容分析論述了高綜合影響力用戶對社區(qū)方向的影響,但也存在一定的不足:
(1)交互影響力和情感分析算法的優(yōu)化。本研究用戶交互影響力主要基于PageRank算法,雖然該方法應用較為廣泛,但其在分析用戶影響力方面仍存在一定的改進空間,可在今后的研究中,結合用戶行為特征對該算法做進一步的優(yōu)化。此外,本研究中所用到的情感傾向分析的算法,今后可對更多的相關算法和框架進行比較分析,從而進一步提升相關計算的效率和準確性。
(2)研究數(shù)據(jù)的進一步豐富。本研究主要基于醫(yī)享網(wǎng)的痛風病圈數(shù)據(jù)進行了研究,在今后的研究中,可以進一步擴展健康社區(qū)的數(shù)據(jù)獲取范圍,通過比較不同健康社區(qū)中用戶綜合影響力的分布和特征,以不斷拓展和驗證本研究的適用性。
參考文獻:
[1]楊梓.最新!衛(wèi)健委發(fā)布全國醫(yī)療相關數(shù)據(jù)[EB/OL].[2021-04-27].https://www.sohu.com/a/247593213_439958.
[2]2018年中國健康醫(yī)療大數(shù)據(jù)行業(yè)發(fā)展現(xiàn)狀及發(fā)展趨勢分析[EB/OL].[2021-04-27].http://www.chyxx.com/industry/201806/649591.html.
作者:董偉陶金虎
轉載請注明來自發(fā)表學術論文網(wǎng):http:///jjlw/27301.html