亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)電子論文》 電子技術(shù)論文發(fā)表解析新浪微博的冪律分布> 正文

電子技術(shù)論文發(fā)表解析新浪微博的冪律分布

所屬分類:電子論文 閱讀次 時間:2015-07-03 17:19

本文摘要:本篇文章是由 《電子器件》 發(fā)表的一篇電子論文,(雙月刊)創(chuàng)刊于1978年,由東南大學(xué)主辦。本刊主要向國內(nèi)外介紹有關(guān)電子學(xué)科領(lǐng)域的新理論、新思想、新技術(shù)和具有國內(nèi)外先進水平的最新研究成果和技術(shù)進展。本刊發(fā)揚學(xué)術(shù)民主,堅持雙百方針,為促進國內(nèi)外學(xué)術(shù)

  本篇文章是由《電子器件 》發(fā)表的一篇電子論文,(雙月刊)創(chuàng)刊于1978年,由東南大學(xué)主辦。本刊主要向國內(nèi)外介紹有關(guān)電子學(xué)科領(lǐng)域的新理論、新思想、新技術(shù)和具有國內(nèi)外先進水平的最新研究成果和技術(shù)進展。本刊發(fā)揚學(xué)術(shù)民主,堅持雙百方針,為促進國內(nèi)外學(xué)術(shù)交流、促進電子科學(xué)技術(shù)快速發(fā)展和國民經(jīng)濟建設(shè)服務(wù)。

  摘 要: 網(wǎng)絡(luò)是一個包含了大量個體及個體之間相互作用的系統(tǒng),近年來在對復(fù)雜網(wǎng)絡(luò)的研究過程中,科學(xué)家們發(fā)現(xiàn)了眾多的冪律分布現(xiàn)象。不僅網(wǎng)頁的點擊次數(shù)存在冪律分布現(xiàn)象,微博也同樣存在著冪律分布現(xiàn)象。利用新浪微博的API技術(shù)抓取了新浪微博數(shù)據(jù),對其進行了詳細的數(shù)據(jù)清理和統(tǒng)計,對統(tǒng)計結(jié)果進行分析發(fā)現(xiàn),新浪微博的轉(zhuǎn)發(fā)數(shù)也同樣存在著冪律分布現(xiàn)象。只有為數(shù)不多的微博,才能被大量的閱讀和轉(zhuǎn)發(fā),進而成為熱點微博,而絕大多數(shù)微博的閱讀次數(shù)和轉(zhuǎn)發(fā)次數(shù)都是非常少的。

  關(guān)鍵詞: 新浪微博; 轉(zhuǎn)發(fā)數(shù); 冪律分布; Zipf定律

  0 引言

  全球復(fù)雜網(wǎng)絡(luò)權(quán)威、無尺度網(wǎng)絡(luò)的創(chuàng)立者、匈牙利計算機學(xué)會馮·諾依曼金質(zhì)獎?wù)芦@得者Barabasi揭開人類行為背后隱藏的 “爆發(fā)”模式,指出人類活動模式不是隨機的,而是具有“爆發(fā)性”的。爆發(fā)的本質(zhì)規(guī)律就是冪律分布。冪律分布現(xiàn)象的共性是絕大多數(shù)事件的規(guī)模很小,而只有少數(shù)事件的規(guī)模相當(dāng)大。著名的Zipf定律是冪律的主要形式之一,哈佛大學(xué)的語言學(xué)專家Zipf發(fā)現(xiàn),如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡單的反比關(guān)系。這一定律表明:只有極少數(shù)的單詞被經(jīng)常使用,而絕大多數(shù)單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個體的尺度相差懸殊,缺乏一個具有代表性的規(guī)模,或者說,存在“爆發(fā)”(或稱“涌現(xiàn)”)現(xiàn)象。

  本文抓取了新浪微博的微博數(shù)據(jù),并獲得轉(zhuǎn)發(fā)數(shù),對微博的轉(zhuǎn)發(fā)現(xiàn)象進行統(tǒng)計并試著分析產(chǎn)生該現(xiàn)象的原因。

  1 抓取數(shù)據(jù)來源說明

  數(shù)據(jù)來源于新浪微博8月份實時微博?紤]到每天新浪微博的數(shù)據(jù)量巨大,每天新產(chǎn)生微博約1億條左右。隨機抽樣需要樣本空間巨大。所以我們采取隨機抓取關(guān)注列表里的820人的微博

  1.1 數(shù)據(jù)抓取技術(shù)

  數(shù)據(jù)的抓取是基于新浪API的信息獲取。新浪微博 API 是應(yīng)用編程接口(Application Programming Interface)的縮寫。開放API就是“在互聯(lián)網(wǎng)時代,把互聯(lián)網(wǎng)產(chǎn)品的服務(wù)封裝成一系列計算機易識別的數(shù)據(jù)接口開放出去,供第三方開發(fā)者使用”。微博開放平臺包含了新浪微博平臺海量的微博信息、用戶間的關(guān)注關(guān)系以及隨時隨地信息的擴散式的傳播機制。通過API,用戶可以實時地獲取監(jiān)控微博賬號的各種相關(guān)數(shù)據(jù),包括微博的轉(zhuǎn)發(fā)數(shù),評論數(shù)等。用戶使用新浪微博API的前提是需要通過身份認(rèn)證。OAuth用戶身份認(rèn)證:開放授權(quán)(OAuth)是一個開放標(biāo)準(zhǔn),允許用戶讓第三方應(yīng)用訪問該用戶在某一網(wǎng)站上存儲的私密資源(如照片、視頻、聯(lián)系人列表),而無需將用戶名和密碼提供給第三方應(yīng)用。因此,OAuth 為新浪微博API提供了一個安全、高效的認(rèn)證機制,其具體過程如下。

 、 用戶向新浪微博開放平臺提出開發(fā)者服務(wù)申請,提交實名身份認(rèn)證。

  ⑵ 向新浪微博開放平臺OAuth服務(wù)商提交創(chuàng)建應(yīng)用請求,獲得應(yīng)用資料,并將其中的應(yīng)用編號App Key和應(yīng)用口令A(yù)pp Secret寫入認(rèn)證程序配置文件。

  ⑶ 利用新浪微博 SDK 提供的認(rèn)證程序,向新浪微博服務(wù)器提交API使用申請,填寫申請者微博賬號、口令,獲取第三方軟件應(yīng)用許可。

 、 申請成功后,服務(wù)器在瀏覽器返回URL地址中提供一個由32位十六進制數(shù)組成的認(rèn)證碼Access_code,用戶將此認(rèn)證碼提交給認(rèn)證服務(wù)器,服務(wù)器同意用戶請求,

  向其頒發(fā)通過新浪微博授權(quán)的API調(diào)用令牌Access_Token與對應(yīng)的密鑰。

 、 用戶利用此令牌作為參量調(diào)用相應(yīng)的API接口。通過上述OAuth認(rèn)證登錄新浪微博開放平臺成功后,用戶便可調(diào)用開放平臺的各種接口,令牌使用期限為24小時,超過期限后需重新進行認(rèn)證才能繼續(xù)調(diào)用API接口。

  1.2 轉(zhuǎn)發(fā)數(shù)獲取

  2 數(shù)據(jù)統(tǒng)計分布情況

  所統(tǒng)計的微博數(shù)量去除重復(fù)后,共計4253條。以2000為區(qū)間單位,統(tǒng)計轉(zhuǎn)發(fā)數(shù)落在每個區(qū)間內(nèi)的微博條數(shù)。統(tǒng)計表明,以轉(zhuǎn)發(fā)數(shù)在0-2000區(qū)間內(nèi)的微博最多,共計3963條。最少的轉(zhuǎn)發(fā)數(shù)區(qū)間的微博條數(shù)為0條,極差為3963。按微博轉(zhuǎn)發(fā)數(shù)分段統(tǒng)計情況如表2和圖2所示?梢耘袛啵D(zhuǎn)發(fā)數(shù)的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現(xiàn)象。

  從表2和圖2可見,微博轉(zhuǎn)發(fā)數(shù)分布較大程度上符合Zipf定律。熱門的微博非常少,越冷門的微博數(shù)量越多。其中,轉(zhuǎn)發(fā)數(shù)在區(qū)間0-2000的微博數(shù)明顯高于其他區(qū)間,可視為“爆發(fā)點”。在該區(qū)間內(nèi),主要分布的大多是粉絲人數(shù)較少的用戶發(fā)布的微博,沒有龐大的粉絲基礎(chǔ),所以轉(zhuǎn)發(fā)數(shù)普遍很低。還有一部分微博雖然是有粉絲數(shù)較多的用戶發(fā)布的,但是該微博不能吸引用戶的興趣,不能成為熱點事件,轉(zhuǎn)發(fā)數(shù)也就普遍偏低。其中轉(zhuǎn)發(fā)數(shù)最高的微博為張杰在發(fā)布新單曲“我在這”時,自己在路上邊走邊拍攝的一段視頻,該微博轉(zhuǎn)發(fā)數(shù)介于82000-84000區(qū)間。

  3 原因分析

  新浪微博中的冪律分布現(xiàn)象屬于復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象的一種。在網(wǎng)絡(luò)動態(tài)演化的過程中,成長性和優(yōu)先連接性是無標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個最根本原因。所謂成長性是指網(wǎng)絡(luò)節(jié)點數(shù)的增加,在本文中主要指新浪微博數(shù)量的增加,新微博的增加更多的是依靠大多數(shù)沒有巨大粉絲數(shù)量基礎(chǔ)的普通用戶發(fā)布的,也包括有巨大粉絲數(shù)量基礎(chǔ)的用戶所發(fā)布的那些不能引起用戶興趣和轉(zhuǎn)發(fā)欲望的微博。優(yōu)先連接性是指,轉(zhuǎn)發(fā)數(shù)高的熱門微博總是由粉絲數(shù)量基礎(chǔ)巨大的用戶發(fā)布或者轉(zhuǎn)發(fā),比如,一條新的有轉(zhuǎn)發(fā)價值的微博由普通用戶直接發(fā)布后,因為該用戶的粉絲數(shù)量很少,也不能被大量的用戶閱讀和轉(zhuǎn)發(fā),往往是這條微博在自己的少量用戶的粉絲圈里轉(zhuǎn)發(fā)后就被新熱點微博淹沒掉了。如果該條微博被粉絲數(shù)量基礎(chǔ)巨大的用戶轉(zhuǎn)發(fā)后,能閱讀和轉(zhuǎn)發(fā)該微博的用戶呈現(xiàn)出跳躍式增加的方式增多,就會被大量粉絲用戶轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)次數(shù)就呈現(xiàn)飆升的現(xiàn)象。并且隨著時間的演進,微博的轉(zhuǎn)發(fā)數(shù)逐漸呈現(xiàn)出一種轉(zhuǎn)發(fā)數(shù)多的會被轉(zhuǎn)的更多,轉(zhuǎn)發(fā)數(shù)少的微博直接被淹沒掉的現(xiàn)象。

  參考文獻:

  [1] 姚科.開放API:新浪微博必經(jīng)之路[J].互聯(lián)網(wǎng)天地,2010.8:73-74

  [2] 胡海波,王林.冪律分布研究簡史[J].物理,2005.12:889-890

  [3] 黃延煒,劉嘉勇.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保密,2013.6:71-72

  [4] 張嗣瀛.復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)自相似結(jié)構(gòu)的涌現(xiàn)規(guī)律[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2006.4:41-51

發(fā)表學(xué)術(shù)論文網(wǎng)

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/3767.html