亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

網(wǎng)絡(luò )爬蟲(chóng)

優(yōu)采云 發(fā)布時(shí)間: 2020-05-14 08:09

  [編輯]

  網(wǎng)絡(luò )爬蟲(chóng)又名“網(wǎng)絡(luò )蜘蛛”,是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)找尋網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面開(kāi)始,讀取網(wǎng)頁(yè)的內容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這種鏈接地址找尋下一個(gè)網(wǎng)頁(yè),這樣仍然循環(huán)下去,直到根據某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取完為止的技術(shù)。

  [編輯]

  網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、主題網(wǎng)路爬蟲(chóng)(Topical Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。實(shí)際應用中一般是將系統幾種爬蟲(chóng)技術(shù)互相結合。

  (一)通用網(wǎng)路爬蟲(chóng)(general purpose web crawler)

  通用網(wǎng)路爬蟲(chóng)按照預先設定的一個(gè)或若干初始*敏*感*詞*URL開(kāi)始,以此獲得初始網(wǎng)頁(yè)上的URL列表,在爬行過(guò)程中不斷從URL隊列中獲一個(gè)的URL,進(jìn)而訪(fǎng)問(wèn)并下載該頁(yè)面。頁(yè)面下載后頁(yè)面解析器除去頁(yè)面上的HTML標記后得到頁(yè)面內容,將摘要、URL等信息保存到Web數據庫中,同時(shí)抽取當前頁(yè)面上新的URL,保存到URL隊列,直到滿(mǎn)足系統停止條件。其工作流程如圖1所示。

  

  通用爬蟲(chóng)主要存在以下幾方面的局限性:1)由于抓取目標是盡可能大的覆蓋網(wǎng)路,所以爬行的結果中包含大量用戶(hù)不需要的網(wǎng)頁(yè);2)不能挺好地搜索和獲取信息濃度密集且具有一定結構的數據;3)通用搜索引擎大多是基于關(guān)鍵字的檢索,對于支持語(yǔ)義信息的查詢(xún)和索引擎智能化的要求無(wú)法實(shí)現。

  由此可見(jiàn),通用爬蟲(chóng)想在爬行網(wǎng)頁(yè)時(shí),既保證網(wǎng)頁(yè)的質(zhì)量和數目,又要保證網(wǎng)頁(yè)的時(shí)效性是很難實(shí)現的。

  (二)主題網(wǎng)路爬蟲(chóng)(Topical Web Crawler)

  1.主題爬蟲(chóng)原理

  主題爬蟲(chóng)并不追求大的覆蓋率,也不是全盤(pán)接受所有的網(wǎng)頁(yè)和URL,它按照既定的抓取目標,有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所須要的信息,不僅客服了通用爬蟲(chóng)存在的問(wèn)題,而H-返回的數據資源更精確。主題爬蟲(chóng)的基本工作原理是根據預先確定的主題,分析超鏈接和剛才抓取的網(wǎng)頁(yè)內容,獲取下一個(gè)要爬行的URL,盡可能保證多爬行與主題相關(guān)的網(wǎng)頁(yè),因此主題爬蟲(chóng)要解決以下關(guān)鍵問(wèn)題:1)如何判斷一個(gè)早已抓取的網(wǎng)頁(yè)是否與主題相關(guān);2)如何過(guò)濾掉海量的網(wǎng)頁(yè)中與主題不相關(guān)的或則相關(guān)度較低的網(wǎng)頁(yè);3)如何有目的、有控制的抓取與特定主題相關(guān)的web頁(yè)面信息;4)如何決定待訪(fǎng)問(wèn)URL的訪(fǎng)問(wèn)順序;5)如何提升主題爬蟲(chóng)的覆蓋度;6)如何協(xié)調抓取目標的描述或定義與網(wǎng)頁(yè)分析算法及候選URL排序算法之問(wèn)的關(guān)系;7)如何找尋和發(fā)覺(jué)高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源。高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源除了可以大大提升主題爬蟲(chóng)收集Web頁(yè)面的效率和質(zhì)量,還可以為主題表示模型的優(yōu)化等應用提供支持。

  2.主題爬蟲(chóng)模塊設計

  主題爬蟲(chóng)的目標是盡可能多的發(fā)覺(jué)和收集與預定主題相關(guān)的網(wǎng)頁(yè)網(wǎng)絡(luò )爬蟲(chóng),其最大特征在于具備剖析網(wǎng)頁(yè)內容和判斷主題相關(guān)度的能力。根據主題爬蟲(chóng)的工作原理,下面設計了一個(gè)主題爬蟲(chóng)系統,主要有頁(yè)面采集模塊、頁(yè)面剖析模塊、相關(guān)度估算模塊、頁(yè)面過(guò)濾模塊和鏈接排序模塊幾部份組成網(wǎng)絡(luò )爬蟲(chóng),其總體功能模塊結構如圖2所示。

  

  頁(yè)面采集模塊:主要是依據待訪(fǎng)問(wèn)URL隊列進(jìn)行頁(yè)面下載,再交給網(wǎng)頁(yè)剖析模型處理以抽取網(wǎng)頁(yè)主題向量空間模型。該模塊是任何爬蟲(chóng)系統都必不可少的模塊。頁(yè)面剖析模塊:該模塊的功能是對采集到的頁(yè)面進(jìn)行剖析,主要用于聯(lián)接超鏈接排序模塊和頁(yè)面相關(guān)度估算模塊。

  頁(yè)面相關(guān)度估算模塊:該模塊是整個(gè)系統的核心模塊,主要用于評估與主題的相關(guān)度,并提供相關(guān)的爬行策略用以指導爬蟲(chóng)的爬行過(guò)程。URL的超鏈接評價(jià)得分越高,爬行的優(yōu)先級就越高。其主要思想是,在系統爬行之前,頁(yè)面相關(guān)度估算模塊按照用戶(hù)輸入的關(guān)鍵字和初始文本信息進(jìn)行學(xué)習,訓練一個(gè)頁(yè)面相關(guān)度評價(jià)模型。當一個(gè)被覺(jué)得是主題相關(guān)的頁(yè)面爬行出來(lái)以后,該頁(yè)面就被送入頁(yè)面相關(guān)度評價(jià)器估算其主題相關(guān)度值,若該值小于或等于給定的某儔值,則該頁(yè)面就被存入頁(yè)面庫,否則遺棄¨。頁(yè)面過(guò)濾模塊:過(guò)濾掉與主題無(wú)關(guān)的鏈接,同時(shí)將該URL及其所有蘊涵的子鏈接一并清除。通過(guò)過(guò)濾,爬蟲(chóng)就無(wú)需遍歷與主題不相關(guān)的頁(yè)面,從而保證了爬行效率。排序模塊:將過(guò)濾后頁(yè)面根據優(yōu)先級高低加入到待訪(fǎng)問(wèn)的URL隊列里。

  3.主題爬蟲(chóng)流程設計

  主題爬蟲(chóng)須要依照一定的網(wǎng)頁(yè)剖析算法,過(guò)濾掉與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它會(huì )依照一定的搜索策略從待抓取的隊列中選擇下一個(gè)要抓取的URL,并重復上述過(guò)程,直到滿(mǎn)足系統停止條件為止。所有被抓取網(wǎng)頁(yè)就會(huì )被系統儲存,經(jīng)過(guò)一定的剖析、過(guò)濾,然后構建索引,以便用戶(hù)查詢(xún)和檢索;這一過(guò)程所得到的剖析結果可以對之后的抓取過(guò)程提供反饋和指導。其工作流程如圖3所示。

  

  4.深度網(wǎng)路爬蟲(chóng)(Deep Web Crawler)

  1994年Dr.jillEllsworth提出DeepWeb(深層頁(yè)面)的概念,即DeepWeb是指普通搜索引擎無(wú)法發(fā)覺(jué)的信息內容的Web頁(yè)面¨。DeepWeb中的信息量比普通的網(wǎng)頁(yè)信息量多,而且質(zhì)量更高。但是普通的搜索引擎因為技術(shù)限制而收集不到這種高質(zhì)量、高權威的信息。這些信息一般隱藏在深度Web頁(yè)面的小型動(dòng)態(tài)數據庫中,涉及數據集成、中文語(yǔ)義辨識等眾多領(lǐng)域。如此龐大的信息資源假如沒(méi)有合理的、高效的方式去獲取,將是巨大的損失。因此,對于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現實(shí)意義和理論價(jià)值。

  常規的網(wǎng)路爬蟲(chóng)在運行中難以發(fā)覺(jué)隱藏在普通網(wǎng)頁(yè)中的信息和規律,缺乏一定的主動(dòng)性和智能性。比如須要輸入用戶(hù)名和密碼的頁(yè)面,或者包含頁(yè)腳導航的頁(yè)面均未能爬行。深度爬蟲(chóng)的設計針對常規網(wǎng)路爬蟲(chóng)的那些不足,將其結構做以改進(jìn),增加了表單剖析和頁(yè)面狀態(tài)保持兩個(gè)部份,其結構如圖4所示,通過(guò)剖析網(wǎng)頁(yè)的結構并將其歸類(lèi)為普通網(wǎng)頁(yè)或存在更多信息的深度網(wǎng)頁(yè),針對深度網(wǎng)頁(yè)構造合適的表單參數而且遞交,以得到更多的頁(yè)面。深度爬蟲(chóng)的流程圖如圖4所示。深度爬蟲(chóng)與常規爬蟲(chóng)的不同是,深度爬蟲(chóng)在下載完成頁(yè)面然后并沒(méi)有立刻遍歷其中的所有超鏈接,而是使用一定的算法將其進(jìn)行分類(lèi),對于不同的類(lèi)別采取不同的方式估算查詢(xún)參數,并將參數再度遞交到服務(wù)器。如果遞交的查詢(xún)參數正確,那么將會(huì )得到隱藏的頁(yè)面和鏈接。深度爬蟲(chóng)的目標是盡可能多地訪(fǎng)問(wèn)和搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè),由于深度頁(yè)面是通過(guò)遞交表單的形式訪(fǎng)問(wèn),因此爬行深度頁(yè)面存在以下三個(gè)方面的困難:1)深度爬蟲(chóng)須要有高效的算法去應對數目巨大的深層頁(yè)面數據;2)很多服務(wù)器端DeepWeb要求校準表單輸入,如用戶(hù)名、密碼、校驗碼等,如果校準失敗,將不能爬到DeepWeb數據;3)需要JavaScript等腳本支持剖析客戶(hù)端DeepWeb。

  

  [編輯]

  (1)IP地址搜索策略

  IP地址搜索策略是先給爬蟲(chóng)一個(gè)起始的IP地址,然后按照IP地址以遞增的形式搜索本IP地址段后的每一個(gè)地址中的文檔,它完全不考慮各文檔中指向其它Web站點(diǎn)的超級鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面,因此能否發(fā)覺(jué)這些沒(méi)被其它文檔引用的新文檔的信息源;但是缺點(diǎn)是不適宜*敏*感*詞*搜索。

  (2)深度優(yōu)先搜索策略

  深度優(yōu)先搜索是一種在開(kāi)發(fā)爬蟲(chóng)初期使用較多的方式。它的目的是要達到被搜索結構的葉結點(diǎn)(即這些不包含任何超鏈的HTML文件)。例如,在一個(gè)HTML文件中,當一個(gè)超鏈被選擇后,被鏈接的HTML文件將執行深度優(yōu)先搜索,也就是說(shuō)在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索順著(zhù)HTML文件上的超鏈走到不能再深入為止,然后返回到某一個(gè)HTML文件,再繼續選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時(shí),說(shuō)明搜索早已結束。

  (3)寬度優(yōu)先搜索策略

  寬度優(yōu)先搜索的過(guò)程是先搜索完一個(gè)Web頁(yè)面中所有的超級鏈接,然后再繼續搜索下一層,直到底層為止。例如,一個(gè)HTML文件中有三個(gè)超鏈,選擇其中之一并處理相應的HTML文件,然后不再選擇第二個(gè)HTML文件中的任何超鏈,而是返回并選擇第二個(gè)超鏈,處理相應的HTML文件,再返回,選擇第三個(gè)超鏈并處理相應的HTML文件。當一層上的所有超鏈都已被選擇過(guò),就可以開(kāi)始在剛剛處理過(guò)的HIML文件中搜索其余的超鏈。

  寬度優(yōu)先搜索策略的優(yōu)點(diǎn):一個(gè)是保證了對淺層的優(yōu)先處理,當遇見(jiàn)一個(gè)無(wú)窮盡的深層分支時(shí),不會(huì )造成陷進(jìn)www中的深層文檔中出現出不來(lái)的情況發(fā)生;另一個(gè)是它能在兩個(gè)HTML文件之間找到最短路徑。

  寬度優(yōu)先搜索策略一般是實(shí)現爬蟲(chóng)的最佳策略,因為它容易實(shí)現,而且具備大多數期望的功能。但是假如要遍歷一個(gè)指定的站點(diǎn)或則深層嵌套的HTML文件集,用長(cháng)度優(yōu)先搜索策略則須要耗費比較長(cháng)的時(shí)間才會(huì )抵達深層的HTML文件。

  [編輯]

  于成龍,于洪波.網(wǎng)絡(luò )爬蟲(chóng)技術(shù)研究[J].東莞理工學(xué)院學(xué)報.2011,5 蔡笑倫.網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的發(fā)展趁機[J].科技信息.2010,12

  來(lái)自"https://wiki.mbalib.com/wiki/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB"

  本條目對我有幫助8

  賞

  MBA智庫APP

  

  掃一掃,下載MBA智庫APP

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久