國外科技網(wǎng)站反爬蟲研究及數(shù)據(jù)獲取對策研究

所屬分類：電子論文閱讀次時間：2020-04-09 11:00

本文摘要：摘要：當(dāng)前，來自國外網(wǎng)站的互聯(lián)網(wǎng)開源科技信息已經(jīng)成為科技情報的重要表現(xiàn)形式和組成部分，利用垂直爬取技術(shù)抽

　　摘要：當(dāng)前，來自國外網(wǎng)站的互聯(lián)網(wǎng)開源科技信息已經(jīng)成為科技情報的重要表現(xiàn)形式和組成部分，利用垂直爬取技術(shù)抽取、集成、解析、跟蹤、研究這些網(wǎng)頁信息可幫助科研人員實時、全面、深入地了解領(lǐng)域內(nèi)的研究現(xiàn)狀。然而國內(nèi)目前訪問國外某些網(wǎng)站困難;且國外很多網(wǎng)站都加強了反爬蟲技術(shù)策略與應(yīng)用，爬蟲技術(shù)總是不斷被反爬蟲技術(shù)超越，特定主題內(nèi)容規(guī)模化信息獲取尤為困難。采用簡單的搜索方式難以獲取，且有些信息具有很強的時效性，人工跟蹤難度大、時間耗費多，不利于數(shù)據(jù)的長期積累。為此，我們重點針對開源信息獲取的反爬蟲技術(shù)開展了研究，提出針對性的解決方案，系統(tǒng)地介紹了反爬蟲技術(shù)和爬蟲技術(shù)的應(yīng)用。

　　關(guān)鍵詞：爬蟲;反爬蟲;信息采集;搜索引擎;python

信息化研究

　　0引言

　　當(dāng)前，互聯(lián)網(wǎng)開源信息已經(jīng)成為科技情報的重要表現(xiàn)形式和組成部分，特別是重點科技網(wǎng)站的信息，代表了全球最新的科技發(fā)展現(xiàn)狀和趨勢，但有些信息處于網(wǎng)站深層結(jié)構(gòu)中，采用簡單的搜索方式難以獲取，且具有很強的時效性，人工跟蹤難度大、時間耗費多，不易于長期積累。通過爬蟲技術(shù)對這些開源數(shù)據(jù)自動抽取、集成、解析后得到的信息，可支撐科研人員在當(dāng)前大數(shù)據(jù)背景下對情報作出快速反應(yīng)，滿足這種需求需要基于爬蟲技術(shù)的數(shù)據(jù)采集與加工處理[3]。目前，國外很多重點科技網(wǎng)站都加強了反爬蟲技術(shù)研究與應(yīng)用，爬蟲技術(shù)總是不斷被反爬蟲技術(shù)超越，特定主題內(nèi)容規(guī)�；畔@取尤為困難，因此迫切需要系統(tǒng)地開展網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究[1]。

　　1網(wǎng)站反爬蟲策略研究

　　爬蟲和反爬蟲技術(shù)是矛與盾之爭，且換代周期越來越短，故需要長期化、系統(tǒng)化、平臺化、標準化的研究，以避免每次遇到不同的爬蟲和反爬蟲問題都重新進行重復(fù)冗余的工作[2]。一是針對信息源網(wǎng)站開展反爬蟲技術(shù)研究，進而針對性地提出解決方案，從而合法、高效、便捷地獲取開源信息。二是針對惡意爬蟲攻擊，研究相應(yīng)的反爬蟲解決方案(例如，如何制定上下策略，如何匹配規(guī)則，如何更換懲罰等)，限制網(wǎng)絡(luò)爬蟲大量無效的訪問以及惡意爬取信息。只有加強網(wǎng)站反爬蟲技術(shù)措施的應(yīng)用，才能有效屏蔽爬蟲工具惡意竊取數(shù)據(jù)。

　　在用爬蟲工具爬取數(shù)據(jù)時，經(jīng)常會遇到數(shù)據(jù)雖然在瀏覽器上顯示但卻抓取不到的情況，其原因也許是向服務(wù)器提交不恰當(dāng)?shù)谋韱伪痪芙^，也許是需要注冊才能訪問、IP地址已經(jīng)被限制請求、復(fù)雜的驗證碼攔截等。我們共分析了50個國外科技門戶網(wǎng)站，共133條信息源，其中網(wǎng)站欄目也叫“爬蟲入口”(同一個網(wǎng)站包含多個信息源，但同一網(wǎng)站不同信息源的反爬蟲策略可能不同，例如網(wǎng)站的文獻類欄目跟視頻類欄目反爬蟲策略不同)。由于篇幅原因，表1列舉了幾個具有代表性反爬蟲措施的典型網(wǎng)站欄目所應(yīng)用的反爬蟲策略。

　　2反爬蟲解決方案

　　2.1服務(wù)端限制

　　反爬蟲技術(shù)通常先在服務(wù)器端進行請求限制，防止爬蟲進行數(shù)據(jù)請求，從源頭限制惡意數(shù)據(jù)爬取。通常有如下幾種方式。

　　(1)“請求頭設(shè)置”反爬蟲策略：HTTP的請求頭是在每次向網(wǎng)絡(luò)服務(wù)器發(fā)送請求時，傳遞的一組屬性和配置信息。HTTP定義了十幾種請求頭類型，如python-requests、User-Agent等，易被發(fā)現(xiàn)，網(wǎng)站運維如發(fā)現(xiàn)攜帶有這類請求頭的數(shù)據(jù)包，拒絕訪問，爬蟲任務(wù)即刻失敗，通常會返回403錯誤。目前幾乎所有網(wǎng)站都模擬了請求頭設(shè)置。例如www.northropgrumman.com-AnnualReports，www.afcea.org-Magazine等。

　　雖然目標網(wǎng)站可能會對HTTP請求頭的每個屬性進行“是否常規(guī)訪問”的判斷，但如果把User-Agent屬性設(shè)置成其他無關(guān)參數(shù)，偽裝成通用搜索引擎或者其他瀏覽器請求頭，例如設(shè)置r=requests.get(url,headers={’User-Agent’:’Baiduspider’})就可解決。

　　(2)“簽名請求規(guī)則”反爬蟲策略：簽名請求指在請求url中增加一個sign字段，通常取值為自定義字段的md5校驗碼。對于每一次HTTP或者HTTPS協(xié)議請求，網(wǎng)站根據(jù)訪問中的簽名信息驗證訪問請求者身份，判斷是否允許繼續(xù)訪問。例如www.militaryaerospace.com網(wǎng)站應(yīng)用的就是此種反爬蟲策略。爬蟲技術(shù)人員對待此類網(wǎng)站，通常會判斷發(fā)起請求方，如果是JS發(fā)起的請求，簽名規(guī)則可以在JS函數(shù)中尋找，再根據(jù)規(guī)則去構(gòu)造簽名;如果是App發(fā)起的請求，最大可能是由于前端調(diào)用原生封裝，或者原生發(fā)起等多種原因。情況復(fù)雜的，需要反編譯App包，但也不一定能成功，需要反復(fù)調(diào)試驗證。

　　(3)“流量限制”反爬蟲策略：防護措施完備的網(wǎng)站會監(jiān)控用戶是否快速地提交表單，或者快速地與網(wǎng)站進行交互，從而限制速度異常、短時間大量下載信息的IP訪問。但此種方法極其容易誤傷其他正常瀏覽用戶，因為同一區(qū)域內(nèi)的其他用戶可能有著相同的IP，所以一般運維人員很少采用此方法限制爬蟲。而爬蟲技術(shù)人員如果發(fā)現(xiàn)請求被限制，可嘗試請求延遲，通過AJAX延時加載、異步更新腳本技術(shù)延遲網(wǎng)頁加載的速度，避免被目標網(wǎng)站查封，具體延遲時間應(yīng)根據(jù)實際情況設(shè)定。如www.ict.fraunhofer.de、www.ieeexplore.ieee.org、萊茵金屬防務(wù)公司網(wǎng)站等可采用此種方法。

　　除此之外還可考慮使用分布式爬取或者購買代理IP設(shè)置代理池的方式解決，筆者就是采用直接購買專業(yè)代理的方式進行解決，實踐證明應(yīng)用效果很好。目前有很多收費的代理IP服務(wù)平臺，有各種服務(wù)方式，可滿足各種應(yīng)用需求。但需要注意，合理控制數(shù)據(jù)爬取速度是爬蟲行業(yè)應(yīng)該遵守的規(guī)則，惡意速度的訪問爬取會消耗服務(wù)器資源，嚴重情況甚至?xí)涯繕司W(wǎng)站拖垮。

　　(4)“cookie/cookies限制”反爬蟲策略：“cookie/cookies限制”指服務(wù)器對每一個訪問網(wǎng)頁的用戶都設(shè)置cookie/cookies，給其一個cookie/cookies字段。網(wǎng)站為了辨別用戶身份、進行session跟蹤，當(dāng)該cookies訪問超過某一個閾值時就禁止掉該cookie/cookies，導(dǎo)致數(shù)據(jù)爬取失敗。如https://www.militaryaerospace.com/sea-technology/sea-technology-articles.html就是此類情況。網(wǎng)絡(luò)爬蟲想要模擬真實用戶請求發(fā)送給目標站點，就需要擬造匿名身份，然后填入cookie/cookies中，在每一次訪問時帶上cookie/cookies，如果登錄用戶cookie/cookies信息在固定周期內(nèi)失效，那就要找到登錄接口，重新模擬登錄，存儲cookie/cookies，再重新發(fā)起數(shù)據(jù)請求，不斷循環(huán)此步驟。

　　(5)“驗證碼限制”反爬蟲策略：驗證碼是基于人能從圖片中識別出文字和數(shù)字而機器卻不能的原理產(chǎn)生的，是網(wǎng)站最常用來驗證是爬取機器人還是普通用戶在瀏覽的方式之一。但由于近幾年機器學(xué)習(xí)和人工智能技術(shù)的飛速發(fā)展，機器和人之間的差距越來越小，驗證碼技術(shù)的發(fā)展已經(jīng)迭代了多次。從最初的數(shù)字字母驗證碼到中文驗證碼、再到圖像驗證碼，網(wǎng)絡(luò)安全技術(shù)人員不斷地與爬蟲技術(shù)作斗爭，驗證碼技術(shù)的發(fā)展史就是爬蟲技術(shù)和反爬蟲技術(shù)的博弈史。目前滑動拼圖驗證則是驗證碼的升級版，要求必須滑動拼圖到指定位置才能通過驗證進行下一步操作。爬蟲工具可建立簡單的驗證碼庫，如對圖片里的字母或者數(shù)字進行識別讀取，可使用識圖的模塊包或一些驗證碼識別第三方庫(pytesser，PIL)來破解。但復(fù)雜驗證碼，無法通過識圖識別，可以考慮使用第三方收費服務(wù)或通過機器學(xué)習(xí)讓爬蟲自動識別復(fù)雜驗證碼，識別后程序自動輸入驗證碼繼續(xù)數(shù)據(jù)爬取。

　　(6)“數(shù)據(jù)加密”反爬蟲策略：有些網(wǎng)站把ajax請求的所有參數(shù)全部加密，根本沒辦法構(gòu)造所需要的數(shù)據(jù)請求，如美國復(fù)合材料世界網(wǎng)站Magazine欄目，全文文件加密內(nèi)嵌在flash插件中，無法爬取。有的網(wǎng)站反爬蟲策略更復(fù)雜，還把一些基本的功能都封裝了，全部都是在調(diào)用網(wǎng)站自己的接口，且接口參數(shù)也是加密的，如www.compositesworld.com。遇到這樣的網(wǎng)站，爬蟲可以考慮用selenium+phantomJS框架，調(diào)用瀏覽器內(nèi)核，并利用phantomJS執(zhí)行js模擬人為操作，觸發(fā)頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面，不考慮具體的請求和響應(yīng)過程，全程模擬人瀏覽頁面獲取數(shù)據(jù)的過程。用這套框架幾乎能繞過大多數(shù)的反爬蟲，因為它不是偽裝成瀏覽器來獲取數(shù)據(jù)，它本身就是瀏覽器。

　　(7)“Youtube鏈接”反爬蟲策略：很多國外科技公司網(wǎng)站都以Youtube為平臺設(shè)有專門視頻頻道，介紹其最新產(chǎn)品、技術(shù)路線、技術(shù)原理等。針對Youtube平臺市場上有較為成熟的開源工具，爬取解決方案主要是解決代理訪問和開源工具的有機結(jié)合。先爬取采集任務(wù)入口下所有列表頁地址，根據(jù)地址調(diào)用國外代理，再利用Youtube-DL開源工具進行二次封裝爬取視頻，通過技術(shù)手段判定爬取任務(wù)是否完成。代理負責(zé)避開流量監(jiān)控，開源工具負責(zé)解決Youtube加密防爬。

　　2.2前端限制

　　前端通常利用“CSS或HTML標簽”“自定義字體”“元素錯位”等干擾混淆關(guān)鍵數(shù)據(jù)的反爬策略，保護數(shù)據(jù)安全。

　　(1)“CSS或HTML標簽”干擾反爬蟲策略：前端通過CSS或者HTML標簽控制一些關(guān)鍵信息安全，例如利用CSS來控制圖片的偏移量顯示出來，或把文字偽裝成圖片，干擾混淆關(guān)鍵數(shù)據(jù)，如https://www.defensemedianetwork.com/sections/photos-videos/等網(wǎng)站就是如此。針對此類反爬蟲機制沒有通用手段，需要對網(wǎng)頁抽樣分析，反復(fù)測試，尋找其規(guī)則，然后替換成正確的數(shù)據(jù)。例如需要先請求初始網(wǎng)頁得到CSS文件和相應(yīng)數(shù)據(jù)的span標簽的CSS屬性，再從CSS文件中提取出svg文件和一些CSS屬性的偏移量。

　　(2)“自定義字體”反爬蟲策略：某些網(wǎng)站在源碼上的字體不是正常字體編碼，而是自定義的一種字體，調(diào)用自定義的TTF文件來渲染網(wǎng)頁中的文字，真實內(nèi)容通過一種對應(yīng)關(guān)系最終在頁面上展示，而不在網(wǎng)頁源代碼中展示，通過復(fù)制或者簡單的采集無法爬取到真實的數(shù)據(jù)，例如www.sto.nato.int等網(wǎng)站就是這種情況。雖然反爬蟲在源代碼中隱藏了真正的字體，但最終如果要在頁面上展示還是需要導(dǎo)入字體包，找到字體文件，下載后使用font解析模塊包對TTF文件進行解析，解析出一個字體編碼集合，與模塊包里的文字編碼進行映射，再反推轉(zhuǎn)換對應(yīng)關(guān)系即可獲得真實正確的內(nèi)容。

　　(3)“元素錯位”反爬蟲策略：不管是爬蟲還是自動化測試，元素定位是爬蟲最基本而且必需的一個步驟，如用BeautifulSoupfind定位，BeautifulSoupcss定位、selenium定位等。“元素錯位”反爬蟲策略是指網(wǎng)站維護人員利用偽裝或錯位一些關(guān)鍵信息的定位，讓爬蟲爬不到真實正確的內(nèi)容。如設(shè)置一個合同數(shù)據(jù)相關(guān)網(wǎng)頁內(nèi)容中的價格顯示，先用backgroudimage標簽渲染，再用標簽設(shè)置偏移量，展示錯誤的標簽，形成視覺上正確的價格。本次研究的國外網(wǎng)站暫未遇到此情況，這種反爬蟲策略在國內(nèi)應(yīng)用較多。通常先用上述各種方法找到樣式文件，根據(jù)backgroudpostion值和圖片數(shù)字進行映射，然后根據(jù)HTML標簽里class名稱，匹配出CSS里對應(yīng)class中content的內(nèi)容進行替換。

　　(4)“隱藏元素”反爬蟲策略：用隱含字段阻止網(wǎng)絡(luò)數(shù)據(jù)采集的方式主要有兩種。第一種是表單頁面上的一個字段可以用服務(wù)器生成的隨機變量表示。如果提交時這個值不在表單處理頁面上，服務(wù)器就認為這個提交不是從原始表單頁面上提交的，而是由一個網(wǎng)絡(luò)機器人提交。另一種是通過隱藏偽裝元素保護重要數(shù)據(jù)，在重要數(shù)據(jù)的標簽里加入一些干擾性標簽，干擾數(shù)據(jù)的獲取。元素的屬性隱藏和顯示，主要是通過type="hidden"和style="display:none;"屬性控制，在元素屬性里面讓它隱藏，如www.enisa.europa.eu-CorporateDocuments、Facebook等就是如此。繞開第一種表單交驗的方式最佳方法為先采集表單所在頁面上生成的隨機變量，然后再提交到表單，處理頁面第二種情況則需要過濾掉干擾混淆的HTML標簽，或者只讀取有效數(shù)據(jù)的HTML標簽的內(nèi)容。

　　3結(jié)論與建議

　　除了掌握以上各種針對服務(wù)器端和前端的不同解決方案外，在策略管理上我們還需要遵循以下4個基本原則。

　　(1)遵守Robots協(xié)議網(wǎng)絡(luò)爬蟲技術(shù)逐漸從僅作為搜索引擎的工具，到成為互聯(lián)網(wǎng)公司數(shù)據(jù)競爭的標配裝備，已被廣泛地應(yīng)用于各個行業(yè)，但由此引發(fā)的企業(yè)之間關(guān)于數(shù)據(jù)權(quán)利的爭議層出不窮。Robots協(xié)議全稱RobotsExclusionProtocol，也稱為爬蟲協(xié)議，該協(xié)議是網(wǎng)絡(luò)爬蟲行業(yè)需要廣泛遵守的協(xié)議。網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取、哪些頁面不能抓取。爬取數(shù)據(jù)的前提是遵守Robots協(xié)議，在合法的情況下獲得數(shù)據(jù)[3]。

　　(2)采用適用的代理以保障研究爬蟲技術(shù)渠道暢通任何項目想要大規(guī)模爬取數(shù)據(jù)或者解決反爬蟲技術(shù)問題，基本需求就是選用合適的代理，沒有代理IP，爬蟲工作將寸步難行。從數(shù)據(jù)爬取規(guī)模、速度等需求方面考慮購買代理后，還需要優(yōu)化方案，合理分配資源，才能更高效更快速更穩(wěn)定地進行爬蟲工作。有時還需要實現(xiàn)必要的IP輪轉(zhuǎn)、請求限制、會話管理以及黑名單邏輯來預(yù)防代理被屏蔽。

　　(3)開發(fā)專用監(jiān)控系統(tǒng)、及時發(fā)現(xiàn)網(wǎng)站變化目標網(wǎng)站發(fā)生的結(jié)構(gòu)性改變是爬蟲失效的主要原因，靠人工檢查采集任務(wù)發(fā)生變化與否是不現(xiàn)實的，如通過人工比對目標網(wǎng)站信息的標題、發(fā)布時間、摘要、內(nèi)容、作者等，一旦采集任務(wù)超過10個，每天的工作量就會大大增加。因此，需要開發(fā)專用監(jiān)控系統(tǒng)，這種系統(tǒng)會對爬取任務(wù)進行頻繁的輪巡檢查，一旦發(fā)現(xiàn)任何變化第一時間會發(fā)出通知。

　　(4)搭建專業(yè)的反爬蟲平臺通過本項目研究發(fā)現(xiàn)，一般大型門戶網(wǎng)站都會用到反爬蟲策略，且其采用的反爬蟲策略復(fù)雜多樣而且更新迅速，一般規(guī)�；呐廊�(shù)據(jù)需要搭建一個專業(yè)的反爬蟲和爬蟲技術(shù)實驗平臺，來管理反爬蟲策略并提供相應(yīng)的解決方案，節(jié)省反復(fù)開發(fā)反爬蟲策略的成本，提高爬蟲技術(shù)的快速反應(yīng)能力，減少反爬蟲策略的失效時間。沒有一個好的平臺支撐，策略很難在最短的時間內(nèi)生效。

　　參考文獻：

　　[1]潘曉英,陳柳,余慧敏,等.主題爬蟲技術(shù)研究綜述[J/OL].計算機應(yīng)用研究:1-6.[2019-10-21].https://doi.org/10.19734/j.issn.1001-3695.2018.11.0790.

　　[2]潘洪敏.反爬蟲探索(1)——爬蟲[EB/OL].[2018-07-25].https://mp.weixin.qq.com/s/_yjAr_7nKu-IiShBmicyxQ.

　　[3]張嘉琳.由Robots協(xié)議引發(fā)的不正當(dāng)競爭問題思考——以3百大戰(zhàn)為視角[J].法制與社會,2013(23):96-97.

　　計算機論文投稿刊物：《信息化研究》(雙月刊)創(chuàng)刊于1975年，由江蘇省電子學(xué)會主辦。本刊以前瞻性、權(quán)威性、實用性為主特色，跟蹤電子信息技術(shù)的最新發(fā)展動態(tài)，報道最新的實用電子技術(shù)和新產(chǎn)品，是電子信息技術(shù)應(yīng)用領(lǐng)域內(nèi)具有權(quán)威性和影響力的綜合性技術(shù)刊物。