網(wǎng)絡(luò )爬蟲(chóng)

優(yōu)采云發(fā)布時(shí)間: 2020-05-14 08:09

　　[編輯]

　　網(wǎng)絡(luò )爬蟲(chóng)又名“網(wǎng)絡(luò )蜘蛛”，是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)找尋網(wǎng)頁(yè)，從網(wǎng)站某一個(gè)頁(yè)面開(kāi)始，讀取網(wǎng)頁(yè)的內容，找到在網(wǎng)頁(yè)中的其它鏈接地址，然后通過(guò)這種鏈接地址找尋下一個(gè)網(wǎng)頁(yè)，這樣仍然循環(huán)下去，直到根據某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取完為止的技術(shù)。

　　[編輯]

　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、主題網(wǎng)路爬蟲(chóng)(Topical Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。實(shí)際應用中一般是將系統幾種爬蟲(chóng)技術(shù)互相結合。

　　(一)通用網(wǎng)路爬蟲(chóng)(general purpose web crawler)

　　通用網(wǎng)路爬蟲(chóng)按照預先設定的一個(gè)或若干初始*敏*感*詞*URL開(kāi)始，以此獲得初始網(wǎng)頁(yè)上的URL列表，在爬行過(guò)程中不斷從URL隊列中獲一個(gè)的URL，進(jìn)而訪(fǎng)問(wèn)并下載該頁(yè)面。頁(yè)面下載后頁(yè)面解析器除去頁(yè)面上的HTML標記后得到頁(yè)面內容，將摘要、URL等信息保存到Web數據庫中，同時(shí)抽取當前頁(yè)面上新的URL，保存到URL隊列，直到滿(mǎn)足系統停止條件。其工作流程如圖1所示。

　　通用爬蟲(chóng)主要存在以下幾方面的局限性：1)由于抓取目標是盡可能大的覆蓋網(wǎng)路，所以爬行的結果中包含大量用戶(hù)不需要的網(wǎng)頁(yè)；2)不能挺好地搜索和獲取信息濃度密集且具有一定結構的數據；3)通用搜索引擎大多是基于關(guān)鍵字的檢索，對于支持語(yǔ)義信息的查詢(xún)和索引擎智能化的要求無(wú)法實(shí)現。

　　由此可見(jiàn)，通用爬蟲(chóng)想在爬行網(wǎng)頁(yè)時(shí)，既保證網(wǎng)頁(yè)的質(zhì)量和數目，又要保證網(wǎng)頁(yè)的時(shí)效性是很難實(shí)現的。

　　(二)主題網(wǎng)路爬蟲(chóng)(Topical Web Crawler)

　　1.主題爬蟲(chóng)原理

　　主題爬蟲(chóng)并不追求大的覆蓋率，也不是全盤(pán)接受所有的網(wǎng)頁(yè)和URL，它按照既定的抓取目標，有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所須要的信息，不僅客服了通用爬蟲(chóng)存在的問(wèn)題，而H-返回的數據資源更精確。主題爬蟲(chóng)的基本工作原理是根據預先確定的主題，分析超鏈接和剛才抓取的網(wǎng)頁(yè)內容，獲取下一個(gè)要爬行的URL，盡可能保證多爬行與主題相關(guān)的網(wǎng)頁(yè)，因此主題爬蟲(chóng)要解決以下關(guān)鍵問(wèn)題：1)如何判斷一個(gè)早已抓取的網(wǎng)頁(yè)是否與主題相關(guān)；2)如何過(guò)濾掉海量的網(wǎng)頁(yè)中與主題不相關(guān)的或則相關(guān)度較低的網(wǎng)頁(yè)；3)如何有目的、有控制的抓取與特定主題相關(guān)的web頁(yè)面信息；4)如何決定待訪(fǎng)問(wèn)URL的訪(fǎng)問(wèn)順序；5)如何提升主題爬蟲(chóng)的覆蓋度；6)如何協(xié)調抓取目標的描述或定義與網(wǎng)頁(yè)分析算法及候選URL排序算法之問(wèn)的關(guān)系；7)如何找尋和發(fā)覺(jué)高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源。高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源除了可以大大提升主題爬蟲(chóng)收集Web頁(yè)面的效率和質(zhì)量，還可以為主題表示模型的優(yōu)化等應用提供支持。

　　2.主題爬蟲(chóng)模塊設計

　　主題爬蟲(chóng)的目標是盡可能多的發(fā)覺(jué)和收集與預定主題相關(guān)的網(wǎng)頁(yè)網(wǎng)絡(luò )爬蟲(chóng)，其最大特征在于具備剖析網(wǎng)頁(yè)內容和判斷主題相關(guān)度的能力。根據主題爬蟲(chóng)的工作原理，下面設計了一個(gè)主題爬蟲(chóng)系統，主要有頁(yè)面采集模塊、頁(yè)面剖析模塊、相關(guān)度估算模塊、頁(yè)面過(guò)濾模塊和鏈接排序模塊幾部份組成網(wǎng)絡(luò )爬蟲(chóng)，其總體功能模塊結構如圖2所示。

　　頁(yè)面采集模塊：主要是依據待訪(fǎng)問(wèn)URL隊列進(jìn)行頁(yè)面下載，再交給網(wǎng)頁(yè)剖析模型處理以抽取網(wǎng)頁(yè)主題向量空間模型。該模塊是任何爬蟲(chóng)系統都必不可少的模塊。頁(yè)面剖析模塊：該模塊的功能是對采集到的頁(yè)面進(jìn)行剖析，主要用于聯(lián)接超鏈接排序模塊和頁(yè)面相關(guān)度估算模塊。

　　頁(yè)面相關(guān)度估算模塊：該模塊是整個(gè)系統的核心模塊，主要用于評估與主題的相關(guān)度，并提供相關(guān)的爬行策略用以指導爬蟲(chóng)的爬行過(guò)程。URL的超鏈接評價(jià)得分越高，爬行的優(yōu)先級就越高。其主要思想是，在系統爬行之前，頁(yè)面相關(guān)度估算模塊按照用戶(hù)輸入的關(guān)鍵字和初始文本信息進(jìn)行學(xué)習，訓練一個(gè)頁(yè)面相關(guān)度評價(jià)模型。當一個(gè)被覺(jué)得是主題相關(guān)的頁(yè)面爬行出來(lái)以后，該頁(yè)面就被送入頁(yè)面相關(guān)度評價(jià)器估算其主題相關(guān)度值，若該值小于或等于給定的某儔值，則該頁(yè)面就被存入頁(yè)面庫，否則遺棄¨。頁(yè)面過(guò)濾模塊：過(guò)濾掉與主題無(wú)關(guān)的鏈接，同時(shí)將該URL及其所有蘊涵的子鏈接一并清除。通過(guò)過(guò)濾，爬蟲(chóng)就無(wú)需遍歷與主題不相關(guān)的頁(yè)面，從而保證了爬行效率。排序模塊：將過(guò)濾后頁(yè)面根據優(yōu)先級高低加入到待訪(fǎng)問(wèn)的URL隊列里。

　　3.主題爬蟲(chóng)流程設計

　　主題爬蟲(chóng)須要依照一定的網(wǎng)頁(yè)剖析算法，過(guò)濾掉與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其倒入等待抓取的URL隊列。然后，它會(huì )依照一定的搜索策略從待抓取的隊列中選擇下一個(gè)要抓取的URL，并重復上述過(guò)程，直到滿(mǎn)足系統停止條件為止。所有被抓取網(wǎng)頁(yè)就會(huì )被系統儲存，經(jīng)過(guò)一定的剖析、過(guò)濾，然后構建索引，以便用戶(hù)查詢(xún)和檢索；這一過(guò)程所得到的剖析結果可以對之后的抓取過(guò)程提供反饋和指導。其工作流程如圖3所示。

　　4.深度網(wǎng)路爬蟲(chóng)(Deep Web Crawler)

　　1994年Dr．jillEllsworth提出DeepWeb(深層頁(yè)面)的概念，即DeepWeb是指普通搜索引擎無(wú)法發(fā)覺(jué)的信息內容的Web頁(yè)面¨。DeepWeb中的信息量比普通的網(wǎng)頁(yè)信息量多，而且質(zhì)量更高。但是普通的搜索引擎因為技術(shù)限制而收集不到這種高質(zhì)量、高權威的信息。這些信息一般隱藏在深度Web頁(yè)面的小型動(dòng)態(tài)數據庫中，涉及數據集成、中文語(yǔ)義辨識等眾多領(lǐng)域。如此龐大的信息資源假如沒(méi)有合理的、高效的方式去獲取，將是巨大的損失。因此，對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現實(shí)意義和理論價(jià)值。

　　常規的網(wǎng)路爬蟲(chóng)在運行中難以發(fā)覺(jué)隱藏在普通網(wǎng)頁(yè)中的信息和規律，缺乏一定的主動(dòng)性和智能性。比如須要輸入用戶(hù)名和密碼的頁(yè)面，或者包含頁(yè)腳導航的頁(yè)面均未能爬行。深度爬蟲(chóng)的設計針對常規網(wǎng)路爬蟲(chóng)的那些不足，將其結構做以改進(jìn)，增加了表單剖析和頁(yè)面狀態(tài)保持兩個(gè)部份，其結構如圖4所示，通過(guò)剖析網(wǎng)頁(yè)的結構并將其歸類(lèi)為普通網(wǎng)頁(yè)或存在更多信息的深度網(wǎng)頁(yè)，針對深度網(wǎng)頁(yè)構造合適的表單參數而且遞交，以得到更多的頁(yè)面。深度爬蟲(chóng)的流程圖如圖4所示。深度爬蟲(chóng)與常規爬蟲(chóng)的不同是，深度爬蟲(chóng)在下載完成頁(yè)面然后并沒(méi)有立刻遍歷其中的所有超鏈接，而是使用一定的算法將其進(jìn)行分類(lèi)，對于不同的類(lèi)別采取不同的方式估算查詢(xún)參數，并將參數再度遞交到服務(wù)器。如果遞交的查詢(xún)參數正確，那么將會(huì )得到隱藏的頁(yè)面和鏈接。深度爬蟲(chóng)的目標是盡可能多地訪(fǎng)問(wèn)和搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)，由于深度頁(yè)面是通過(guò)遞交表單的形式訪(fǎng)問(wèn)，因此爬行深度頁(yè)面存在以下三個(gè)方面的困難：1)深度爬蟲(chóng)須要有高效的算法去應對數目巨大的深層頁(yè)面數據；2)很多服務(wù)器端DeepWeb要求校準表單輸入，如用戶(hù)名、密碼、校驗碼等，如果校準失敗，將不能爬到DeepWeb數據；3)需要JavaScript等腳本支持剖析客戶(hù)端DeepWeb。

　　[編輯]

　　(1)IP地址搜索策略

　　IP地址搜索策略是先給爬蟲(chóng)一個(gè)起始的IP地址，然后按照IP地址以遞增的形式搜索本IP地址段后的每一個(gè)地址中的文檔，它完全不考慮各文檔中指向其它Web站點(diǎn)的超級鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面，因此能否發(fā)覺(jué)這些沒(méi)被其它文檔引用的新文檔的信息源；但是缺點(diǎn)是不適宜*敏*感*詞*搜索。

　　(2)深度優(yōu)先搜索策略

　　深度優(yōu)先搜索是一種在開(kāi)發(fā)爬蟲(chóng)初期使用較多的方式。它的目的是要達到被搜索結構的葉結點(diǎn)(即這些不包含任何超鏈的HTML文件)。例如，在一個(gè)HTML文件中，當一個(gè)超鏈被選擇后，被鏈接的HTML文件將執行深度優(yōu)先搜索，也就是說(shuō)在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索順著(zhù)HTML文件上的超鏈走到不能再深入為止，然后返回到某一個(gè)HTML文件，再繼續選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時(shí)，說(shuō)明搜索早已結束。

　　(3)寬度優(yōu)先搜索策略

　　寬度優(yōu)先搜索的過(guò)程是先搜索完一個(gè)Web頁(yè)面中所有的超級鏈接，然后再繼續搜索下一層，直到底層為止。例如，一個(gè)HTML文件中有三個(gè)超鏈，選擇其中之一并處理相應的HTML文件，然后不再選擇第二個(gè)HTML文件中的任何超鏈，而是返回并選擇第二個(gè)超鏈，處理相應的HTML文件，再返回，選擇第三個(gè)超鏈并處理相應的HTML文件。當一層上的所有超鏈都已被選擇過(guò)，就可以開(kāi)始在剛剛處理過(guò)的HIML文件中搜索其余的超鏈。

　　寬度優(yōu)先搜索策略的優(yōu)點(diǎn)：一個(gè)是保證了對淺層的優(yōu)先處理，當遇見(jiàn)一個(gè)無(wú)窮盡的深層分支時(shí)，不會(huì )造成陷進(jìn)www中的深層文檔中出現出不來(lái)的情況發(fā)生；另一個(gè)是它能在兩個(gè)HTML文件之間找到最短路徑。

　　寬度優(yōu)先搜索策略一般是實(shí)現爬蟲(chóng)的最佳策略，因為它容易實(shí)現，而且具備大多數期望的功能。但是假如要遍歷一個(gè)指定的站點(diǎn)或則深層嵌套的HTML文件集，用長(cháng)度優(yōu)先搜索策略則須要耗費比較長(cháng)的時(shí)間才會(huì )抵達深層的HTML文件。

　　[編輯]

　　于成龍,于洪波.網(wǎng)絡(luò )爬蟲(chóng)技術(shù)研究[J].東莞理工學(xué)院學(xué)報.2011,5 蔡笑倫.網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的發(fā)展趁機[J].科技信息.2010,12

　　來(lái)自"https://wiki.mbalib.com/wiki/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB"

　　本條目對我有幫助8

　　賞

　　MBA智庫APP

　　掃一掃，下載MBA智庫APP

0

2020-05-14

0 個(gè)評論

要回復文章請先登錄或注冊

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

AI時(shí)代內容工廠(chǎng)

網(wǎng)絡(luò )爬蟲(chóng)

0 個(gè)評論

發(fā)起人