亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)電子論文》 國(guó)外科技網(wǎng)站反爬蟲(chóng)研究及數(shù)據(jù)獲取對(duì)策研究> 正文

國(guó)外科技網(wǎng)站反爬蟲(chóng)研究及數(shù)據(jù)獲取對(duì)策研究

所屬分類(lèi):電子論文 閱讀次 時(shí)間:2020-04-09 11:00

本文摘要:摘要:當(dāng)前,來(lái)自國(guó)外網(wǎng)站的互聯(lián)網(wǎng)開(kāi)源科技信息已經(jīng)成為科技情報(bào)的重要表現(xiàn)形式和組成部分,利用垂直爬取技術(shù)抽

  摘要:當(dāng)前,來(lái)自國(guó)外網(wǎng)站的互聯(lián)網(wǎng)開(kāi)源科技信息已經(jīng)成為科技情報(bào)的重要表現(xiàn)形式和組成部分,利用垂直爬取技術(shù)抽取、集成、解析、跟蹤、研究這些網(wǎng)頁(yè)信息可幫助科研人員實(shí)時(shí)、全面、深入地了解領(lǐng)域內(nèi)的研究現(xiàn)狀。然而國(guó)內(nèi)目前訪問(wèn)國(guó)外某些網(wǎng)站困難;且國(guó)外很多網(wǎng)站都加強(qiáng)了反爬蟲(chóng)技術(shù)策略與應(yīng)用,爬蟲(chóng)技術(shù)總是不斷被反爬蟲(chóng)技術(shù)超越,特定主題內(nèi)容規(guī);畔@取尤為困難。采用簡(jiǎn)單的搜索方式難以獲取,且有些信息具有很強(qiáng)的時(shí)效性,人工跟蹤難度大、時(shí)間耗費(fèi)多,不利于數(shù)據(jù)的長(zhǎng)期積累。為此,我們重點(diǎn)針對(duì)開(kāi)源信息獲取的反爬蟲(chóng)技術(shù)開(kāi)展了研究,提出針對(duì)性的解決方案,系統(tǒng)地介紹了反爬蟲(chóng)技術(shù)和爬蟲(chóng)技術(shù)的應(yīng)用。

  關(guān)鍵詞:爬蟲(chóng);反爬蟲(chóng);信息采集;搜索引擎;python

信息化研究

  0引言

  當(dāng)前,互聯(lián)網(wǎng)開(kāi)源信息已經(jīng)成為科技情報(bào)的重要表現(xiàn)形式和組成部分,特別是重點(diǎn)科技網(wǎng)站的信息,代表了全球最新的科技發(fā)展現(xiàn)狀和趨勢(shì),但有些信息處于網(wǎng)站深層結(jié)構(gòu)中,采用簡(jiǎn)單的搜索方式難以獲取,且具有很強(qiáng)的時(shí)效性,人工跟蹤難度大、時(shí)間耗費(fèi)多,不易于長(zhǎng)期積累。通過(guò)爬蟲(chóng)技術(shù)對(duì)這些開(kāi)源數(shù)據(jù)自動(dòng)抽取、集成、解析后得到的信息,可支撐科研人員在當(dāng)前大數(shù)據(jù)背景下對(duì)情報(bào)作出快速反應(yīng),滿足這種需求需要基于爬蟲(chóng)技術(shù)的數(shù)據(jù)采集與加工處理[3]。目前,國(guó)外很多重點(diǎn)科技網(wǎng)站都加強(qiáng)了反爬蟲(chóng)技術(shù)研究與應(yīng)用,爬蟲(chóng)技術(shù)總是不斷被反爬蟲(chóng)技術(shù)超越,特定主題內(nèi)容規(guī);畔@取尤為困難,因此迫切需要系統(tǒng)地開(kāi)展網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究[1]。

  1網(wǎng)站反爬蟲(chóng)策略研究

  爬蟲(chóng)和反爬蟲(chóng)技術(shù)是矛與盾之爭(zhēng),且換代周期越來(lái)越短,故需要長(zhǎng)期化、系統(tǒng)化、平臺(tái)化、標(biāo)準(zhǔn)化的研究,以避免每次遇到不同的爬蟲(chóng)和反爬蟲(chóng)問(wèn)題都重新進(jìn)行重復(fù)冗余的工作[2]。一是針對(duì)信息源網(wǎng)站開(kāi)展反爬蟲(chóng)技術(shù)研究,進(jìn)而針對(duì)性地提出解決方案,從而合法、高效、便捷地獲取開(kāi)源信息。二是針對(duì)惡意爬蟲(chóng)攻擊,研究相應(yīng)的反爬蟲(chóng)解決方案(例如,如何制定上下策略,如何匹配規(guī)則,如何更換懲罰等),限制網(wǎng)絡(luò)爬蟲(chóng)大量無(wú)效的訪問(wèn)以及惡意爬取信息。只有加強(qiáng)網(wǎng)站反爬蟲(chóng)技術(shù)措施的應(yīng)用,才能有效屏蔽爬蟲(chóng)工具惡意竊取數(shù)據(jù)。

  在用爬蟲(chóng)工具爬取數(shù)據(jù)時(shí),經(jīng)常會(huì)遇到數(shù)據(jù)雖然在瀏覽器上顯示但卻抓取不到的情況,其原因也許是向服務(wù)器提交不恰當(dāng)?shù)谋韱伪痪芙^,也許是需要注冊(cè)才能訪問(wèn)、IP地址已經(jīng)被限制請(qǐng)求、復(fù)雜的驗(yàn)證碼攔截等。我們共分析了50個(gè)國(guó)外科技門(mén)戶(hù)網(wǎng)站,共133條信息源,其中網(wǎng)站欄目也叫“爬蟲(chóng)入口”(同一個(gè)網(wǎng)站包含多個(gè)信息源,但同一網(wǎng)站不同信息源的反爬蟲(chóng)策略可能不同,例如網(wǎng)站的文獻(xiàn)類(lèi)欄目跟視頻類(lèi)欄目反爬蟲(chóng)策略不同)。由于篇幅原因,表1列舉了幾個(gè)具有代表性反爬蟲(chóng)措施的典型網(wǎng)站欄目所應(yīng)用的反爬蟲(chóng)策略。

  2反爬蟲(chóng)解決方案

  2.1服務(wù)端限制

  反爬蟲(chóng)技術(shù)通常先在服務(wù)器端進(jìn)行請(qǐng)求限制,防止爬蟲(chóng)進(jìn)行數(shù)據(jù)請(qǐng)求,從源頭限制惡意數(shù)據(jù)爬取。通常有如下幾種方式。

  (1)“請(qǐng)求頭設(shè)置”反爬蟲(chóng)策略:HTTP的請(qǐng)求頭是在每次向網(wǎng)絡(luò)服務(wù)器發(fā)送請(qǐng)求時(shí),傳遞的一組屬性和配置信息。HTTP定義了十幾種請(qǐng)求頭類(lèi)型,如python-requests、User-Agent等,易被發(fā)現(xiàn),網(wǎng)站運(yùn)維如發(fā)現(xiàn)攜帶有這類(lèi)請(qǐng)求頭的數(shù)據(jù)包,拒絕訪問(wèn),爬蟲(chóng)任務(wù)即刻失敗,通常會(huì)返回403錯(cuò)誤。目前幾乎所有網(wǎng)站都模擬了請(qǐng)求頭設(shè)置。例如www.northropgrumman.com-AnnualReports,www.afcea.org-Magazine等。

  雖然目標(biāo)網(wǎng)站可能會(huì)對(duì)HTTP請(qǐng)求頭的每個(gè)屬性進(jìn)行“是否常規(guī)訪問(wèn)”的判斷,但如果把User-Agent屬性設(shè)置成其他無(wú)關(guān)參數(shù),偽裝成通用搜索引擎或者其他瀏覽器請(qǐng)求頭,例如設(shè)置r=requests.get(url,headers={’User-Agent’:’Baiduspider’})就可解決。

  (2)“簽名請(qǐng)求規(guī)則”反爬蟲(chóng)策略:簽名請(qǐng)求指在請(qǐng)求url中增加一個(gè)sign字段,通常取值為自定義字段的md5校驗(yàn)碼。對(duì)于每一次HTTP或者HTTPS協(xié)議請(qǐng)求,網(wǎng)站根據(jù)訪問(wèn)中的簽名信息驗(yàn)證訪問(wèn)請(qǐng)求者身份,判斷是否允許繼續(xù)訪問(wèn)。例如www.militaryaerospace.com網(wǎng)站應(yīng)用的就是此種反爬蟲(chóng)策略。爬蟲(chóng)技術(shù)人員對(duì)待此類(lèi)網(wǎng)站,通常會(huì)判斷發(fā)起請(qǐng)求方,如果是JS發(fā)起的請(qǐng)求,簽名規(guī)則可以在JS函數(shù)中尋找,再根據(jù)規(guī)則去構(gòu)造簽名;如果是App發(fā)起的請(qǐng)求,最大可能是由于前端調(diào)用原生封裝,或者原生發(fā)起等多種原因。情況復(fù)雜的,需要反編譯App包,但也不一定能成功,需要反復(fù)調(diào)試驗(yàn)證。

  (3)“流量限制”反爬蟲(chóng)策略:防護(hù)措施完備的網(wǎng)站會(huì)監(jiān)控用戶(hù)是否快速地提交表單,或者快速地與網(wǎng)站進(jìn)行交互,從而限制速度異常、短時(shí)間大量下載信息的IP訪問(wèn)。但此種方法極其容易誤傷其他正常瀏覽用戶(hù),因?yàn)橥粎^(qū)域內(nèi)的其他用戶(hù)可能有著相同的IP,所以一般運(yùn)維人員很少采用此方法限制爬蟲(chóng)。而爬蟲(chóng)技術(shù)人員如果發(fā)現(xiàn)請(qǐng)求被限制,可嘗試請(qǐng)求延遲,通過(guò)AJAX延時(shí)加載、異步更新腳本技術(shù)延遲網(wǎng)頁(yè)加載的速度,避免被目標(biāo)網(wǎng)站查封,具體延遲時(shí)間應(yīng)根據(jù)實(shí)際情況設(shè)定。如www.ict.fraunhofer.de、www.ieeexplore.ieee.org、萊茵金屬防務(wù)公司網(wǎng)站等可采用此種方法。

  除此之外還可考慮使用分布式爬取或者購(gòu)買(mǎi)代理IP設(shè)置代理池的方式解決,筆者就是采用直接購(gòu)買(mǎi)專(zhuān)業(yè)代理的方式進(jìn)行解決,實(shí)踐證明應(yīng)用效果很好。目前有很多收費(fèi)的代理IP服務(wù)平臺(tái),有各種服務(wù)方式,可滿足各種應(yīng)用需求。但需要注意,合理控制數(shù)據(jù)爬取速度是爬蟲(chóng)行業(yè)應(yīng)該遵守的規(guī)則,惡意速度的訪問(wèn)爬取會(huì)消耗服務(wù)器資源,嚴(yán)重情況甚至?xí)涯繕?biāo)網(wǎng)站拖垮。

  (4)“cookie/cookies限制”反爬蟲(chóng)策略:“cookie/cookies限制”指服務(wù)器對(duì)每一個(gè)訪問(wèn)網(wǎng)頁(yè)的用戶(hù)都設(shè)置cookie/cookies,給其一個(gè)cookie/cookies字段。網(wǎng)站為了辨別用戶(hù)身份、進(jìn)行session跟蹤,當(dāng)該cookies訪問(wèn)超過(guò)某一個(gè)閾值時(shí)就禁止掉該cookie/cookies,導(dǎo)致數(shù)據(jù)爬取失敗。如https://www.militaryaerospace.com/sea-technology/sea-technology-articles.html就是此類(lèi)情況。網(wǎng)絡(luò)爬蟲(chóng)想要模擬真實(shí)用戶(hù)請(qǐng)求發(fā)送給目標(biāo)站點(diǎn),就需要擬造匿名身份,然后填入cookie/cookies中,在每一次訪問(wèn)時(shí)帶上cookie/cookies,如果登錄用戶(hù)cookie/cookies信息在固定周期內(nèi)失效,那就要找到登錄接口,重新模擬登錄,存儲(chǔ)cookie/cookies,再重新發(fā)起數(shù)據(jù)請(qǐng)求,不斷循環(huán)此步驟。

  (5)“驗(yàn)證碼限制”反爬蟲(chóng)策略:驗(yàn)證碼是基于人能從圖片中識(shí)別出文字和數(shù)字而機(jī)器卻不能的原理產(chǎn)生的,是網(wǎng)站最常用來(lái)驗(yàn)證是爬取機(jī)器人還是普通用戶(hù)在瀏覽的方式之一。但由于近幾年機(jī)器學(xué)習(xí)和人工智能技術(shù)的飛速發(fā)展,機(jī)器和人之間的差距越來(lái)越小,驗(yàn)證碼技術(shù)的發(fā)展已經(jīng)迭代了多次。從最初的數(shù)字字母驗(yàn)證碼到中文驗(yàn)證碼、再到圖像驗(yàn)證碼,網(wǎng)絡(luò)安全技術(shù)人員不斷地與爬蟲(chóng)技術(shù)作斗爭(zhēng),驗(yàn)證碼技術(shù)的發(fā)展史就是爬蟲(chóng)技術(shù)和反爬蟲(chóng)技術(shù)的博弈史。目前滑動(dòng)拼圖驗(yàn)證則是驗(yàn)證碼的升級(jí)版,要求必須滑動(dòng)拼圖到指定位置才能通過(guò)驗(yàn)證進(jìn)行下一步操作。爬蟲(chóng)工具可建立簡(jiǎn)單的驗(yàn)證碼庫(kù),如對(duì)圖片里的字母或者數(shù)字進(jìn)行識(shí)別讀取,可使用識(shí)圖的模塊包或一些驗(yàn)證碼識(shí)別第三方庫(kù)(pytesser,PIL)來(lái)破解。但復(fù)雜驗(yàn)證碼,無(wú)法通過(guò)識(shí)圖識(shí)別,可以考慮使用第三方收費(fèi)服務(wù)或通過(guò)機(jī)器學(xué)習(xí)讓爬蟲(chóng)自動(dòng)識(shí)別復(fù)雜驗(yàn)證碼,識(shí)別后程序自動(dòng)輸入驗(yàn)證碼繼續(xù)數(shù)據(jù)爬取。

  (6)“數(shù)據(jù)加密”反爬蟲(chóng)策略:有些網(wǎng)站把a(bǔ)jax請(qǐng)求的所有參數(shù)全部加密,根本沒(méi)辦法構(gòu)造所需要的數(shù)據(jù)請(qǐng)求,如美國(guó)復(fù)合材料世界網(wǎng)站Magazine欄目,全文文件加密內(nèi)嵌在flash插件中,無(wú)法爬取。有的網(wǎng)站反爬蟲(chóng)策略更復(fù)雜,還把一些基本的功能都封裝了,全部都是在調(diào)用網(wǎng)站自己的接口,且接口參數(shù)也是加密的,如www.compositesworld.com。遇到這樣的網(wǎng)站,爬蟲(chóng)可以考慮用selenium+phantomJS框架,調(diào)用瀏覽器內(nèi)核,并利用phantomJS執(zhí)行js模擬人為操作,觸發(fā)頁(yè)面中的js腳本。從填寫(xiě)表單到點(diǎn)擊按鈕再到滾動(dòng)頁(yè)面,不考慮具體的請(qǐng)求和響應(yīng)過(guò)程,全程模擬人瀏覽頁(yè)面獲取數(shù)據(jù)的過(guò)程。用這套框架幾乎能繞過(guò)大多數(shù)的反爬蟲(chóng),因?yàn)樗皇莻窝b成瀏覽器來(lái)獲取數(shù)據(jù),它本身就是瀏覽器。

  (7)“Youtube鏈接”反爬蟲(chóng)策略:很多國(guó)外科技公司網(wǎng)站都以Youtube為平臺(tái)設(shè)有專(zhuān)門(mén)視頻頻道,介紹其最新產(chǎn)品、技術(shù)路線、技術(shù)原理等。針對(duì)Youtube平臺(tái)市場(chǎng)上有較為成熟的開(kāi)源工具,爬取解決方案主要是解決代理訪問(wèn)和開(kāi)源工具的有機(jī)結(jié)合。先爬取采集任務(wù)入口下所有列表頁(yè)地址,根據(jù)地址調(diào)用國(guó)外代理,再利用Youtube-DL開(kāi)源工具進(jìn)行二次封裝爬取視頻,通過(guò)技術(shù)手段判定爬取任務(wù)是否完成。代理負(fù)責(zé)避開(kāi)流量監(jiān)控,開(kāi)源工具負(fù)責(zé)解決Youtube加密防爬。

  2.2前端限制

  前端通常利用“CSS或HTML標(biāo)簽”“自定義字體”“元素錯(cuò)位”等干擾混淆關(guān)鍵數(shù)據(jù)的反爬策略,保護(hù)數(shù)據(jù)安全。

  (1)“CSS或HTML標(biāo)簽”干擾反爬蟲(chóng)策略:前端通過(guò)CSS或者HTML標(biāo)簽控制一些關(guān)鍵信息安全,例如利用CSS來(lái)控制圖片的偏移量顯示出來(lái),或把文字偽裝成圖片,干擾混淆關(guān)鍵數(shù)據(jù),如https://www.defensemedianetwork.com/sections/photos-videos/等網(wǎng)站就是如此。針對(duì)此類(lèi)反爬蟲(chóng)機(jī)制沒(méi)有通用手段,需要對(duì)網(wǎng)頁(yè)抽樣分析,反復(fù)測(cè)試,尋找其規(guī)則,然后替換成正確的數(shù)據(jù)。例如需要先請(qǐng)求初始網(wǎng)頁(yè)得到CSS文件和相應(yīng)數(shù)據(jù)的span標(biāo)簽的CSS屬性,再?gòu)腃SS文件中提取出svg文件和一些CSS屬性的偏移量。

  (2)“自定義字體”反爬蟲(chóng)策略:某些網(wǎng)站在源碼上的字體不是正常字體編碼,而是自定義的一種字體,調(diào)用自定義的TTF文件來(lái)渲染網(wǎng)頁(yè)中的文字,真實(shí)內(nèi)容通過(guò)一種對(duì)應(yīng)關(guān)系最終在頁(yè)面上展示,而不在網(wǎng)頁(yè)源代碼中展示,通過(guò)復(fù)制或者簡(jiǎn)單的采集無(wú)法爬取到真實(shí)的數(shù)據(jù),例如www.sto.nato.int等網(wǎng)站就是這種情況。雖然反爬蟲(chóng)在源代碼中隱藏了真正的字體,但最終如果要在頁(yè)面上展示還是需要導(dǎo)入字體包,找到字體文件,下載后使用font解析模塊包對(duì)TTF文件進(jìn)行解析,解析出一個(gè)字體編碼集合,與模塊包里的文字編碼進(jìn)行映射,再反推轉(zhuǎn)換對(duì)應(yīng)關(guān)系即可獲得真實(shí)正確的內(nèi)容。

  (3)“元素錯(cuò)位”反爬蟲(chóng)策略:不管是爬蟲(chóng)還是自動(dòng)化測(cè)試,元素定位是爬蟲(chóng)最基本而且必需的一個(gè)步驟,如用BeautifulSoupfind定位,BeautifulSoupcss定位、selenium定位等。“元素錯(cuò)位”反爬蟲(chóng)策略是指網(wǎng)站維護(hù)人員利用偽裝或錯(cuò)位一些關(guān)鍵信息的定位,讓爬蟲(chóng)爬不到真實(shí)正確的內(nèi)容。如設(shè)置一個(gè)合同數(shù)據(jù)相關(guān)網(wǎng)頁(yè)內(nèi)容中的價(jià)格顯示,先用backgroudimage標(biāo)簽渲染,再用標(biāo)簽設(shè)置偏移量,展示錯(cuò)誤的標(biāo)簽,形成視覺(jué)上正確的價(jià)格。本次研究的國(guó)外網(wǎng)站暫未遇到此情況,這種反爬蟲(chóng)策略在國(guó)內(nèi)應(yīng)用較多。通常先用上述各種方法找到樣式文件,根據(jù)backgroudpostion值和圖片數(shù)字進(jìn)行映射,然后根據(jù)HTML標(biāo)簽里class名稱(chēng),匹配出CSS里對(duì)應(yīng)class中content的內(nèi)容進(jìn)行替換。

  (4)“隱藏元素”反爬蟲(chóng)策略:用隱含字段阻止網(wǎng)絡(luò)數(shù)據(jù)采集的方式主要有兩種。第一種是表單頁(yè)面上的一個(gè)字段可以用服務(wù)器生成的隨機(jī)變量表示。如果提交時(shí)這個(gè)值不在表單處理頁(yè)面上,服務(wù)器就認(rèn)為這個(gè)提交不是從原始表單頁(yè)面上提交的,而是由一個(gè)網(wǎng)絡(luò)機(jī)器人提交。另一種是通過(guò)隱藏偽裝元素保護(hù)重要數(shù)據(jù),在重要數(shù)據(jù)的標(biāo)簽里加入一些干擾性標(biāo)簽,干擾數(shù)據(jù)的獲取。元素的屬性隱藏和顯示,主要是通過(guò)type="hidden"和style="display:none;"屬性控制,在元素屬性里面讓它隱藏,如www.enisa.europa.eu-CorporateDocuments、Facebook等就是如此。繞開(kāi)第一種表單交驗(yàn)的方式最佳方法為先采集表單所在頁(yè)面上生成的隨機(jī)變量,然后再提交到表單,處理頁(yè)面第二種情況則需要過(guò)濾掉干擾混淆的HTML標(biāo)簽,或者只讀取有效數(shù)據(jù)的HTML標(biāo)簽的內(nèi)容。

  3結(jié)論與建議

  除了掌握以上各種針對(duì)服務(wù)器端和前端的不同解決方案外,在策略管理上我們還需要遵循以下4個(gè)基本原則。

  (1)遵守Robots協(xié)議網(wǎng)絡(luò)爬蟲(chóng)技術(shù)逐漸從僅作為搜索引擎的工具,到成為互聯(lián)網(wǎng)公司數(shù)據(jù)競(jìng)爭(zhēng)的標(biāo)配裝備,已被廣泛地應(yīng)用于各個(gè)行業(yè),但由此引發(fā)的企業(yè)之間關(guān)于數(shù)據(jù)權(quán)利的爭(zhēng)議層出不窮。Robots協(xié)議全稱(chēng)RobotsExclusionProtocol,也稱(chēng)為爬蟲(chóng)協(xié)議,該協(xié)議是網(wǎng)絡(luò)爬蟲(chóng)行業(yè)需要廣泛遵守的協(xié)議。網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取、哪些頁(yè)面不能抓取。爬取數(shù)據(jù)的前提是遵守Robots協(xié)議,在合法的情況下獲得數(shù)據(jù)[3]。

  (2)采用適用的代理以保障研究爬蟲(chóng)技術(shù)渠道暢通任何項(xiàng)目想要大規(guī)模爬取數(shù)據(jù)或者解決反爬蟲(chóng)技術(shù)問(wèn)題,基本需求就是選用合適的代理,沒(méi)有代理IP,爬蟲(chóng)工作將寸步難行。從數(shù)據(jù)爬取規(guī)模、速度等需求方面考慮購(gòu)買(mǎi)代理后,還需要優(yōu)化方案,合理分配資源,才能更高效更快速更穩(wěn)定地進(jìn)行爬蟲(chóng)工作。有時(shí)還需要實(shí)現(xiàn)必要的IP輪轉(zhuǎn)、請(qǐng)求限制、會(huì)話管理以及黑名單邏輯來(lái)預(yù)防代理被屏蔽。

  (3)開(kāi)發(fā)專(zhuān)用監(jiān)控系統(tǒng)、及時(shí)發(fā)現(xiàn)網(wǎng)站變化目標(biāo)網(wǎng)站發(fā)生的結(jié)構(gòu)性改變是爬蟲(chóng)失效的主要原因,靠人工檢查采集任務(wù)發(fā)生變化與否是不現(xiàn)實(shí)的,如通過(guò)人工比對(duì)目標(biāo)網(wǎng)站信息的標(biāo)題、發(fā)布時(shí)間、摘要、內(nèi)容、作者等,一旦采集任務(wù)超過(guò)10個(gè),每天的工作量就會(huì)大大增加。因此,需要開(kāi)發(fā)專(zhuān)用監(jiān)控系統(tǒng),這種系統(tǒng)會(huì)對(duì)爬取任務(wù)進(jìn)行頻繁的輪巡檢查,一旦發(fā)現(xiàn)任何變化第一時(shí)間會(huì)發(fā)出通知。

  (4)搭建專(zhuān)業(yè)的反爬蟲(chóng)平臺(tái)通過(guò)本項(xiàng)目研究發(fā)現(xiàn),一般大型門(mén)戶(hù)網(wǎng)站都會(huì)用到反爬蟲(chóng)策略,且其采用的反爬蟲(chóng)策略復(fù)雜多樣而且更新迅速,一般規(guī);呐廊(shù)據(jù)需要搭建一個(gè)專(zhuān)業(yè)的反爬蟲(chóng)和爬蟲(chóng)技術(shù)實(shí)驗(yàn)平臺(tái),來(lái)管理反爬蟲(chóng)策略并提供相應(yīng)的解決方案,節(jié)省反復(fù)開(kāi)發(fā)反爬蟲(chóng)策略的成本,提高爬蟲(chóng)技術(shù)的快速反應(yīng)能力,減少反爬蟲(chóng)策略的失效時(shí)間。沒(méi)有一個(gè)好的平臺(tái)支撐,策略很難在最短的時(shí)間內(nèi)生效。

  參考文獻(xiàn):

  [1]潘曉英,陳柳,余慧敏,等.主題爬蟲(chóng)技術(shù)研究綜述[J/OL].計(jì)算機(jī)應(yīng)用研究:1-6.[2019-10-21].https://doi.org/10.19734/j.issn.1001-3695.2018.11.0790.

  [2]潘洪敏.反爬蟲(chóng)探索(1)——爬蟲(chóng)[EB/OL].[2018-07-25].https://mp.weixin.qq.com/s/_yjAr_7nKu-IiShBmicyxQ.

  [3]張嘉琳.由Robots協(xié)議引發(fā)的不正當(dāng)競(jìng)爭(zhēng)問(wèn)題思考——以3百大戰(zhàn)為視角[J].法制與社會(huì),2013(23):96-97.

  計(jì)算機(jī)論文投稿刊物:《信息化研究》(雙月刊)創(chuàng)刊于1975年,由江蘇省電子學(xué)會(huì)主辦。本刊以前瞻性、權(quán)威性、實(shí)用性為主特色,跟蹤電子信息技術(shù)的最新發(fā)展動(dòng)態(tài),報(bào)道最新的實(shí)用電子技術(shù)和新產(chǎn)品,是電子信息技術(shù)應(yīng)用領(lǐng)域內(nèi)具有權(quán)威性和影響力的綜合性技術(shù)刊物。

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/22383.html