亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內或國外 期刊或論文

您當前的位置:發(fā)表學術論文網電子論文》 電子技術論文發(fā)表解析新浪微博的冪律分布> 正文

電子技術論文發(fā)表解析新浪微博的冪律分布

所屬分類:電子論文 閱讀次 時間:2015-07-03 17:19

本文摘要:本篇文章是由 《電子器件》 發(fā)表的一篇電子論文,(雙月刊)創(chuàng)刊于1978年,由東南大學主辦。本刊主要向國內外介紹有關電子學科領域的新理論、新思想、新技術和具有國內外先進水平的最新研究成果和技術進展。本刊發(fā)揚學術民主,堅持雙百方針,為促進國內外學術

  本篇文章是由《電子器件 》發(fā)表的一篇電子論文,(雙月刊)創(chuàng)刊于1978年,由東南大學主辦。本刊主要向國內外介紹有關電子學科領域的新理論、新思想、新技術和具有國內外先進水平的最新研究成果和技術進展。本刊發(fā)揚學術民主,堅持雙百方針,為促進國內外學術交流、促進電子科學技術快速發(fā)展和國民經濟建設服務。

  摘 要: 網絡是一個包含了大量個體及個體之間相互作用的系統,近年來在對復雜網絡的研究過程中,科學家們發(fā)現了眾多的冪律分布現象。不僅網頁的點擊次數存在冪律分布現象,微博也同樣存在著冪律分布現象。利用新浪微博的API技術抓取了新浪微博數據,對其進行了詳細的數據清理和統計,對統計結果進行分析發(fā)現,新浪微博的轉發(fā)數也同樣存在著冪律分布現象。只有為數不多的微博,才能被大量的閱讀和轉發(fā),進而成為熱點微博,而絕大多數微博的閱讀次數和轉發(fā)次數都是非常少的。

  關鍵詞: 新浪微博; 轉發(fā)數; 冪律分布; Zipf定律

  0 引言

  全球復雜網絡權威、無尺度網絡的創(chuàng)立者、匈牙利計算機學會馮·諾依曼金質獎章獲得者Barabasi揭開人類行為背后隱藏的 “爆發(fā)”模式,指出人類活動模式不是隨機的,而是具有“爆發(fā)性”的。爆發(fā)的本質規(guī)律就是冪律分布。冪律分布現象的共性是絕大多數事件的規(guī)模很小,而只有少數事件的規(guī)模相當大。著名的Zipf定律是冪律的主要形式之一,哈佛大學的語言學專家Zipf發(fā)現,如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關系。這一定律表明:只有極少數的單詞被經常使用,而絕大多數單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個體的尺度相差懸殊,缺乏一個具有代表性的規(guī)模,或者說,存在“爆發(fā)”(或稱“涌現”)現象。

  本文抓取了新浪微博的微博數據,并獲得轉發(fā)數,對微博的轉發(fā)現象進行統計并試著分析產生該現象的原因。

  1 抓取數據來源說明

  數據來源于新浪微博8月份實時微博。考慮到每天新浪微博的數據量巨大,每天新產生微博約1億條左右。隨機抽樣需要樣本空間巨大。所以我們采取隨機抓取關注列表里的820人的微博

  1.1 數據抓取技術

  數據的抓取是基于新浪API的信息獲取。新浪微博 API 是應用編程接口(Application Programming Interface)的縮寫。開放API就是“在互聯網時代,把互聯網產品的服務封裝成一系列計算機易識別的數據接口開放出去,供第三方開發(fā)者使用”。微博開放平臺包含了新浪微博平臺海量的微博信息、用戶間的關注關系以及隨時隨地信息的擴散式的傳播機制。通過API,用戶可以實時地獲取監(jiān)控微博賬號的各種相關數據,包括微博的轉發(fā)數,評論數等。用戶使用新浪微博API的前提是需要通過身份認證。OAuth用戶身份認證:開放授權(OAuth)是一個開放標準,允許用戶讓第三方應用訪問該用戶在某一網站上存儲的私密資源(如照片、視頻、聯系人列表),而無需將用戶名和密碼提供給第三方應用。因此,OAuth 為新浪微博API提供了一個安全、高效的認證機制,其具體過程如下。

  ⑴ 用戶向新浪微博開放平臺提出開發(fā)者服務申請,提交實名身份認證。

 、 向新浪微博開放平臺OAuth服務商提交創(chuàng)建應用請求,獲得應用資料,并將其中的應用編號App Key和應用口令App Secret寫入認證程序配置文件。

 、 利用新浪微博 SDK 提供的認證程序,向新浪微博服務器提交API使用申請,填寫申請者微博賬號、口令,獲取第三方軟件應用許可。

  ⑷ 申請成功后,服務器在瀏覽器返回URL地址中提供一個由32位十六進制數組成的認證碼Access_code,用戶將此認證碼提交給認證服務器,服務器同意用戶請求,

  向其頒發(fā)通過新浪微博授權的API調用令牌Access_Token與對應的密鑰。

 、 用戶利用此令牌作為參量調用相應的API接口。通過上述OAuth認證登錄新浪微博開放平臺成功后,用戶便可調用開放平臺的各種接口,令牌使用期限為24小時,超過期限后需重新進行認證才能繼續(xù)調用API接口。

  1.2 轉發(fā)數獲取

  2 數據統計分布情況

  所統計的微博數量去除重復后,共計4253條。以2000為區(qū)間單位,統計轉發(fā)數落在每個區(qū)間內的微博條數。統計表明,以轉發(fā)數在0-2000區(qū)間內的微博最多,共計3963條。最少的轉發(fā)數區(qū)間的微博條數為0條,極差為3963。按微博轉發(fā)數分段統計情況如表2和圖2所示?梢耘袛,轉發(fā)數的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現象。

  從表2和圖2可見,微博轉發(fā)數分布較大程度上符合Zipf定律。熱門的微博非常少,越冷門的微博數量越多。其中,轉發(fā)數在區(qū)間0-2000的微博數明顯高于其他區(qū)間,可視為“爆發(fā)點”。在該區(qū)間內,主要分布的大多是粉絲人數較少的用戶發(fā)布的微博,沒有龐大的粉絲基礎,所以轉發(fā)數普遍很低。還有一部分微博雖然是有粉絲數較多的用戶發(fā)布的,但是該微博不能吸引用戶的興趣,不能成為熱點事件,轉發(fā)數也就普遍偏低。其中轉發(fā)數最高的微博為張杰在發(fā)布新單曲“我在這”時,自己在路上邊走邊拍攝的一段視頻,該微博轉發(fā)數介于82000-84000區(qū)間。

  3 原因分析

  新浪微博中的冪律分布現象屬于復雜網絡中普遍存在的冪律分布現象的一種。在網絡動態(tài)演化的過程中,成長性和優(yōu)先連接性是無標度網絡度分布呈現冪律的兩個最根本原因。所謂成長性是指網絡節(jié)點數的增加,在本文中主要指新浪微博數量的增加,新微博的增加更多的是依靠大多數沒有巨大粉絲數量基礎的普通用戶發(fā)布的,也包括有巨大粉絲數量基礎的用戶所發(fā)布的那些不能引起用戶興趣和轉發(fā)欲望的微博。優(yōu)先連接性是指,轉發(fā)數高的熱門微博總是由粉絲數量基礎巨大的用戶發(fā)布或者轉發(fā),比如,一條新的有轉發(fā)價值的微博由普通用戶直接發(fā)布后,因為該用戶的粉絲數量很少,也不能被大量的用戶閱讀和轉發(fā),往往是這條微博在自己的少量用戶的粉絲圈里轉發(fā)后就被新熱點微博淹沒掉了。如果該條微博被粉絲數量基礎巨大的用戶轉發(fā)后,能閱讀和轉發(fā)該微博的用戶呈現出跳躍式增加的方式增多,就會被大量粉絲用戶轉發(fā),而轉發(fā)次數就呈現飆升的現象。并且隨著時間的演進,微博的轉發(fā)數逐漸呈現出一種轉發(fā)數多的會被轉的更多,轉發(fā)數少的微博直接被淹沒掉的現象。

  參考文獻:

  [1] 姚科.開放API:新浪微博必經之路[J].互聯網天地,2010.8:73-74

  [2] 胡海波,王林.冪律分布研究簡史[J].物理,2005.12:889-890

  [3] 黃延煒,劉嘉勇.新浪微博數據獲取技術研究[J].信息安全與通信保密,2013.6:71-72

  [4] 張嗣瀛.復雜系統、復雜網絡自相似結構的涌現規(guī)律[J].復雜系統與復雜性科學,2006.4:41-51

發(fā)表學術論文網

轉載請注明來自發(fā)表學術論文網:http:///dzlw/3767.html