亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<button id="8r6gq"><ol id="8r6gq"><meter id="8r6gq"></meter></ol></button>

<mark id="8r6gq"><code id="8r6gq"></code></mark>

增量模型

增量模型

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

請問(wèn)哪些是網(wǎng)絡(luò )爬蟲(chóng)??？是干哪些的呢？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 324 次瀏覽 ? 2020-05-14 08:04 ? 來(lái)自相關(guān)話(huà)題

　　
　　展開(kāi)全部
　　爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本，類(lèi)似一個(gè)機器人，能把他人網(wǎng)站的信息弄到自己的筆記本上，再做一些過(guò)濾，篩選，歸納，整理，排序等等。
　　網(wǎng)絡(luò )爬蟲(chóng)能做哪些：數據采集。
　　網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
　　
　　擴展資料：
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方法，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略。
　　1) 深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費。
　　2) 廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面，處于較淺目錄層次的頁(yè)面首先被爬行。當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么，不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1) 統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3) 基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么，而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
　　參考資料：
　　百度百科-網(wǎng)絡(luò )爬蟲(chóng) 查看全部

　　

　　展開(kāi)全部
　　爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本，類(lèi)似一個(gè)機器人，能把他人網(wǎng)站的信息弄到自己的筆記本上，再做一些過(guò)濾，篩選，歸納，整理，排序等等。
　　網(wǎng)絡(luò )爬蟲(chóng)能做哪些：數據采集。
　　網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
　　

　　擴展資料：
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方法，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略。
　　1) 深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費。
　　2) 廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面，處于較淺目錄層次的頁(yè)面首先被爬行。當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么，不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1) 統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3) 基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么，而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
　　參考資料：
　　百度百科-網(wǎng)絡(luò )爬蟲(chóng)

一個(gè)網(wǎng)站除了百度以外爬蟲(chóng)其爬蟲(chóng)是那什么呀

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 321 次瀏覽 ? 2020-05-06 08:02 ? 來(lái)自相關(guān)話(huà)題

　　
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬
　　蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web
　　Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。
　　實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web
　　Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
　　由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。
　　這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方
　　式，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略[1]
　　。
　　1)
　　深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。
　　爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，
　　但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
　　。
　　2)
　　廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng)，處于較淺目錄層次的頁(yè)面首先被爬行。
　　當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。
　　這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng)，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)，不足之處在于需較長(cháng)時(shí)間能夠爬行
　　到目錄層次較深的頁(yè)面[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused
　　Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
　　和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群
　　對特定領(lǐng)域信息的需求[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
　　。
　　1)
　　基于內容評價(jià)的爬行策略：DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中，提出了 Fish Search
　　算法，它將用戶(hù)輸入的查詢(xún)詞作為主題，包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān)，其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度的高低。
　　Herseovic對 Fish Search 算法進(jìn) 行了改進(jìn) ，提出了 Sharksearch
　　算法，利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
　　。
　　2) 基于鏈接結構評價(jià)的爬行策略：Web
　　頁(yè)面作為一種半結構化文檔，包含好多結構信息，可拿來(lái)評價(jià)鏈接重要性。 PageRank
　　算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序，也可用于評價(jià)鏈接重要性，具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
　　另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法，它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
　　權重，并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　3) 基于提高學(xué)習的爬行策略：Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng)，利用貝葉斯分類(lèi)器，根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi)，為每位鏈接估算出重要性，從而決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　4) 基于語(yǔ)境圖的爬行策略：Diligenti
　　等人提出了一種通過(guò)構建語(yǔ)境圖（Context Graphs）學(xué)習網(wǎng)頁(yè)之間的相關(guān)度，訓練一個(gè)機器學(xué)習系統，通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
　　頁(yè)面的距離，距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)（IIT）和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
　　該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量，而是一組具有相同主題的網(wǎng)頁(yè)。
　　它包含兩個(gè)重要模塊：一個(gè)是分類(lèi)器，用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度，確定是否與主題相關(guān)；另一個(gè)是凈化器，用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
　　的中心頁(yè)面[1]
　　。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指
　　對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
　　和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
　　，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量
　　式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
　　。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
　　頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1)
　　統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3)
　　基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
　　。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣
　　度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
　　WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定，而是采用一種自適應的方
　　法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
　　Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。
　　為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
　　，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
　　。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface
　　Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。
　　表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
　　是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
　　頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web
　　中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
　　。
　　Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
　?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器）和兩個(gè)爬蟲(chóng)內部數據結構（URL 列表、LVS 表）。其中
　　LVS（Label Value Set）表示標簽/數值集合，用來(lái)表示填充表單的數據源[1]
　　。
　　Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě)，包含兩種類(lèi)型：
　　1)
　　基于領(lǐng)域知識的表單填寫(xiě)：此方式通常會(huì )維持一個(gè)本體庫，通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
　　表單信息的多注解方式，將數據表單按語(yǔ)義分配到各個(gè)組中
　　，對每組從多方面注解，結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽；鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容，
　　同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
　　。
　　2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě)：
　　此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識，將網(wǎng)頁(yè)表單表示成 DOM 樹(shù)，從中提取表單各數組值。 Desouky 等人提出一種 LEHW
　　方法，該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式，將表單分辨為單屬性表單和多屬性表單，分別進(jìn)行處理；孫彬等人提出一種基于 XQuery
　　的搜索系統，它就能模擬表單和特殊頁(yè)面標記切換，把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元，按照一定規則排除無(wú)效表單，將 Web 文檔構造成 DOM
　　樹(shù)，利用 XQuery 將文字屬性映射到表單數組[1]
　　。
　　Raghavan 等人提出的 HIWE 系統中，爬行管理器負責管理整個(gè)爬行過(guò)程，分析下載的頁(yè)面，將包含表單的頁(yè)面遞交表單處理器處理，表單處理器先從頁(yè)面中提取表單，從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單，由爬行控制器下載相應的結果頁(yè)面[1]
　　。查看全部

　　

　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬
　　蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web
　　Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。
　　實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web
　　Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
　　由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。
　　這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方
　　式，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略[1]
　　。
　　1)
　　深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。
　　爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，
　　但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
　　。
　　2)
　　廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng)，處于較淺目錄層次的頁(yè)面首先被爬行。
　　當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。
　　這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng)，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)，不足之處在于需較長(cháng)時(shí)間能夠爬行
　　到目錄層次較深的頁(yè)面[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused
　　Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
　　和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群
　　對特定領(lǐng)域信息的需求[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
　　。
　　1)
　　基于內容評價(jià)的爬行策略：DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中，提出了 Fish Search
　　算法，它將用戶(hù)輸入的查詢(xún)詞作為主題，包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān)，其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度的高低。
　　Herseovic對 Fish Search 算法進(jìn) 行了改進(jìn) ，提出了 Sharksearch
　　算法，利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
　　。
　　2) 基于鏈接結構評價(jià)的爬行策略：Web
　　頁(yè)面作為一種半結構化文檔，包含好多結構信息，可拿來(lái)評價(jià)鏈接重要性。 PageRank
　　算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序，也可用于評價(jià)鏈接重要性，具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
　　另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法，它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
　　權重，并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　3) 基于提高學(xué)習的爬行策略：Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng)，利用貝葉斯分類(lèi)器，根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi)，為每位鏈接估算出重要性，從而決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　4) 基于語(yǔ)境圖的爬行策略：Diligenti
　　等人提出了一種通過(guò)構建語(yǔ)境圖（Context Graphs）學(xué)習網(wǎng)頁(yè)之間的相關(guān)度，訓練一個(gè)機器學(xué)習系統，通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
　　頁(yè)面的距離，距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)（IIT）和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
　　該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量，而是一組具有相同主題的網(wǎng)頁(yè)。
　　它包含兩個(gè)重要模塊：一個(gè)是分類(lèi)器，用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度，確定是否與主題相關(guān)；另一個(gè)是凈化器，用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
　　的中心頁(yè)面[1]
　　。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指
　　對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
　　和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
　　，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量
　　式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
　　。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
　　頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1)
　　統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3)
　　基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
　　。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣
　　度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
　　WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定，而是采用一種自適應的方
　　法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
　　Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。
　　為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
　　，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
　　。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface
　　Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。
　　表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
　　是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
　　頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web
　　中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
　　。
　　Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
　?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器）和兩個(gè)爬蟲(chóng)內部數據結構（URL 列表、LVS 表）。其中
　　LVS（Label Value Set）表示標簽/數值集合，用來(lái)表示填充表單的數據源[1]
　　。
　　Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě)，包含兩種類(lèi)型：
　　1)
　　基于領(lǐng)域知識的表單填寫(xiě)：此方式通常會(huì )維持一個(gè)本體庫，通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
　　表單信息的多注解方式，將數據表單按語(yǔ)義分配到各個(gè)組中
　　，對每組從多方面注解，結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽；鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容，
　　同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
　　。
　　2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě)：
　　此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識，將網(wǎng)頁(yè)表單表示成 DOM 樹(shù)，從中提取表單各數組值。 Desouky 等人提出一種 LEHW
　　方法，該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式，將表單分辨為單屬性表單和多屬性表單，分別進(jìn)行處理；孫彬等人提出一種基于 XQuery
　　的搜索系統，它就能模擬表單和特殊頁(yè)面標記切換，把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元，按照一定規則排除無(wú)效表單，將 Web 文檔構造成 DOM
　　樹(shù)，利用 XQuery 將文字屬性映射到表單數組[1]
　　。
　　Raghavan 等人提出的 HIWE 系統中，爬行管理器負責管理整個(gè)爬行過(guò)程，分析下載的頁(yè)面，將包含表單的頁(yè)面遞交表單處理器處理，表單處理器先從頁(yè)面中提取表單，從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單，由爬行控制器下載相應的結果頁(yè)面[1]
　　。

請問(wèn)哪些是網(wǎng)絡(luò )爬蟲(chóng)??？是干哪些的呢？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 324 次瀏覽 ? 2020-05-14 08:04 ? 來(lái)自相關(guān)話(huà)題

　　
　　展開(kāi)全部
　　爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本，類(lèi)似一個(gè)機器人，能把他人網(wǎng)站的信息弄到自己的筆記本上，再做一些過(guò)濾，篩選，歸納，整理，排序等等。
　　網(wǎng)絡(luò )爬蟲(chóng)能做哪些：數據采集。
　　網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
　　
　　擴展資料：
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方法，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略。
　　1) 深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費。
　　2) 廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面，處于較淺目錄層次的頁(yè)面首先被爬行。當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么，不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1) 統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3) 基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么，而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
　　參考資料：
　　百度百科-網(wǎng)絡(luò )爬蟲(chóng) 查看全部

　　

　　展開(kāi)全部
　　爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本，類(lèi)似一個(gè)機器人，能把他人網(wǎng)站的信息弄到自己的筆記本上，再做一些過(guò)濾，篩選，歸納，整理，排序等等。
　　網(wǎng)絡(luò )爬蟲(chóng)能做哪些：數據采集。
　　網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
　　

　　擴展資料：
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方法，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略。
　　1) 深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費。
　　2) 廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面，處于較淺目錄層次的頁(yè)面首先被爬行。當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么，不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1) 統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3) 基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么，而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
　　參考資料：
　　百度百科-網(wǎng)絡(luò )爬蟲(chóng)

一個(gè)網(wǎng)站除了百度以外爬蟲(chóng)其爬蟲(chóng)是那什么呀

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 321 次瀏覽 ? 2020-05-06 08:02 ? 來(lái)自相關(guān)話(huà)題

　　
　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬
　　蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web
　　Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。
　　實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web
　　Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
　　由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。
　　這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方
　　式，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略[1]
　　。
　　1)
　　深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。
　　爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，
　　但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
　　。
　　2)
　　廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng)，處于較淺目錄層次的頁(yè)面首先被爬行。
　　當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。
　　這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng)，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)，不足之處在于需較長(cháng)時(shí)間能夠爬行
　　到目錄層次較深的頁(yè)面[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused
　　Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
　　和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群
　　對特定領(lǐng)域信息的需求[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
　　。
　　1)
　　基于內容評價(jià)的爬行策略：DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中，提出了 Fish Search
　　算法，它將用戶(hù)輸入的查詢(xún)詞作為主題，包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān)，其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度的高低。
　　Herseovic對 Fish Search 算法進(jìn) 行了改進(jìn) ，提出了 Sharksearch
　　算法，利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
　　。
　　2) 基于鏈接結構評價(jià)的爬行策略：Web
　　頁(yè)面作為一種半結構化文檔，包含好多結構信息，可拿來(lái)評價(jià)鏈接重要性。 PageRank
　　算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序，也可用于評價(jià)鏈接重要性，具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
　　另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法，它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
　　權重，并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　3) 基于提高學(xué)習的爬行策略：Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng)，利用貝葉斯分類(lèi)器，根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi)，為每位鏈接估算出重要性，從而決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　4) 基于語(yǔ)境圖的爬行策略：Diligenti
　　等人提出了一種通過(guò)構建語(yǔ)境圖（Context Graphs）學(xué)習網(wǎng)頁(yè)之間的相關(guān)度，訓練一個(gè)機器學(xué)習系統，通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
　　頁(yè)面的距離，距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)（IIT）和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
　　該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量，而是一組具有相同主題的網(wǎng)頁(yè)。
　　它包含兩個(gè)重要模塊：一個(gè)是分類(lèi)器，用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度，確定是否與主題相關(guān)；另一個(gè)是凈化器，用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
　　的中心頁(yè)面[1]
　　。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指
　　對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
　　和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
　　，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量
　　式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
　　。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
　　頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1)
　　統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3)
　　基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
　　。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣
　　度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
　　WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定，而是采用一種自適應的方
　　法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
　　Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。
　　為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
　　，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
　　。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface
　　Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。
　　表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
　　是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
　　頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web
　　中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
　　。
　　Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
　?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器）和兩個(gè)爬蟲(chóng)內部數據結構（URL 列表、LVS 表）。其中
　　LVS（Label Value Set）表示標簽/數值集合，用來(lái)表示填充表單的數據源[1]
　　。
　　Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě)，包含兩種類(lèi)型：
　　1)
　　基于領(lǐng)域知識的表單填寫(xiě)：此方式通常會(huì )維持一個(gè)本體庫，通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
　　表單信息的多注解方式，將數據表單按語(yǔ)義分配到各個(gè)組中
　　，對每組從多方面注解，結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽；鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容，
　　同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
　　。
　　2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě)：
　　此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識，將網(wǎng)頁(yè)表單表示成 DOM 樹(shù)，從中提取表單各數組值。 Desouky 等人提出一種 LEHW
　　方法，該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式，將表單分辨為單屬性表單和多屬性表單，分別進(jìn)行處理；孫彬等人提出一種基于 XQuery
　　的搜索系統，它就能模擬表單和特殊頁(yè)面標記切換，把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元，按照一定規則排除無(wú)效表單，將 Web 文檔構造成 DOM
　　樹(shù)，利用 XQuery 將文字屬性映射到表單數組[1]
　　。
　　Raghavan 等人提出的 HIWE 系統中，爬行管理器負責管理整個(gè)爬行過(guò)程，分析下載的頁(yè)面，將包含表單的頁(yè)面遞交表單處理器處理，表單處理器先從頁(yè)面中提取表單，從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單，由爬行控制器下載相應的結果頁(yè)面[1]
　　。查看全部

　　

　　網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù)，大致可以分為以下幾種類(lèi)型：通用網(wǎng)路爬
　　蟲(chóng)（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused Web
　　Crawler）、增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）、深層網(wǎng)絡(luò )爬蟲(chóng)（Deep Web Crawler）。
　　實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)
　　通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)（Scalable Web
　　Crawler），爬行對象從一些種子 URL 擴充到整個(gè) Web，主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
　　由于商業(yè)緣由，它們的技術(shù)細節甚少公布下來(lái)。
　　這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大，對于爬行速率和儲存空間要求較高，對于爬行頁(yè)面的次序要求相對較低，同時(shí)因為待刷新的頁(yè)面太多，通常采用并行工作方
　　式，但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。雖然存在一定缺陷，通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題，有較強的應用價(jià)值[1]
　　。
　　通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率，通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略[1]
　　。
　　1)
　　深度優(yōu)先策略：其基本方式是根據深度由低到高的次序，依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接，直到不能再深入為止。
　　爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931，爬行任務(wù)結束。這種策略比較適宜垂直搜索或站內搜索，
　　但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
　　。
　　2)
　　廣度優(yōu)先策略：此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng)，處于較淺目錄層次的頁(yè)面首先被爬行。
　　當同一層次中的頁(yè)面爬行完畢后，爬蟲(chóng)再深入下一層繼續爬行。
　　這種策略才能有效控制頁(yè)面的爬行深度，避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng)，實(shí)現便捷，無(wú)需儲存大量中間節點(diǎn)，不足之處在于需較長(cháng)時(shí)間能夠爬行
　　到目錄層次較深的頁(yè)面[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)（Focused
　　Crawler），又稱(chēng)主題網(wǎng)路爬蟲(chóng)（Topical Crawler），是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
　　和通用網(wǎng)路爬蟲(chóng)相比，聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面，極大地節約了硬件和網(wǎng)路資源，保存的頁(yè)面也因為數目少而更新快，還可以挺好地滿(mǎn)足一些特定人群
　　對特定領(lǐng)域信息的需求[1]
　　。
　　聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比，增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性，不同的方式估算出的重要性不同，由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
　　。
　　1)
　　基于內容評價(jià)的爬行策略：DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中，提出了 Fish Search
　　算法，它將用戶(hù)輸入的查詢(xún)詞作為主題，包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān)，其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度的高低。
　　Herseovic對 Fish Search 算法進(jìn) 行了改進(jìn) ，提出了 Sharksearch
　　算法，利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
　　。
　　2) 基于鏈接結構評價(jià)的爬行策略：Web
　　頁(yè)面作為一種半結構化文檔，包含好多結構信息，可拿來(lái)評價(jià)鏈接重要性。 PageRank
　　算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序，也可用于評價(jià)鏈接重要性，具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
　　另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法，它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
　　權重，并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　3) 基于提高學(xué)習的爬行策略：Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng)，利用貝葉斯分類(lèi)器，根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi)，為每位鏈接估算出重要性，從而決定鏈接的訪(fǎng)問(wèn)次序[1]
　　。
　　4) 基于語(yǔ)境圖的爬行策略：Diligenti
　　等人提出了一種通過(guò)構建語(yǔ)境圖（Context Graphs）學(xué)習網(wǎng)頁(yè)之間的相關(guān)度，訓練一個(gè)機器學(xué)習系統，通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
　　頁(yè)面的距離，距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)（IIT）和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
　　該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量，而是一組具有相同主題的網(wǎng)頁(yè)。
　　它包含兩個(gè)重要模塊：一個(gè)是分類(lèi)器，用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度，確定是否與主題相關(guān)；另一個(gè)是凈化器，用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
　　的中心頁(yè)面[1]
　　。
　　增量式網(wǎng)絡(luò )爬蟲(chóng)
　　增量式網(wǎng)絡(luò )爬蟲(chóng)（Incremental Web Crawler）是指
　　對已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng)，它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
　　和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
　　，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效降低數據下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的花費，但是降低了爬行算法的復雜度和實(shí)現難度。增量
　　式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
　　。
　　增量式爬蟲(chóng)有兩個(gè)目標：保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
　　頁(yè)面集中頁(yè)面的質(zhì)量。為實(shí)現第一個(gè)目標，增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容，常用的方式有：1)
　　統一更新法：爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻度；2) 個(gè)體更新法：爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面；3)
　　基于分類(lèi)的更新法：爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi)，然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
　　。
　　為實(shí)現第二個(gè)目標，增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序，常用的策略有：廣
　　度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
　　WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng)，它采用一個(gè)優(yōu)化模型控制爬行過(guò)程，并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定，而是采用一種自適應的方
　　法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
　　Web，將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi)，分別采用不同爬行策略。
　　為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局，它依據網(wǎng)頁(yè)變化時(shí)間局部性規律，在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
　　，為盡早獲取新網(wǎng)頁(yè)，它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
　　。
　　Deep Web 爬蟲(chóng)
　　Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)（Surface
　　Web）和深層網(wǎng)頁(yè)（Deep Web，也稱(chēng) Invisible Web Pages 或 Hidden Web）。
　　表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面，以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
　　是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
　　頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web
　　中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
　　。
　　Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
　?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器）和兩個(gè)爬蟲(chóng)內部數據結構（URL 列表、LVS 表）。其中
　　LVS（Label Value Set）表示標簽/數值集合，用來(lái)表示填充表單的數據源[1]
　　。
　　Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě)，包含兩種類(lèi)型：
　　1)
　　基于領(lǐng)域知識的表單填寫(xiě)：此方式通常會(huì )維持一個(gè)本體庫，通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
　　表單信息的多注解方式，將數據表單按語(yǔ)義分配到各個(gè)組中
　　，對每組從多方面注解，結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽；鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容，
　　同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
　　。
　　2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě)：
　　此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識，將網(wǎng)頁(yè)表單表示成 DOM 樹(shù)，從中提取表單各數組值。 Desouky 等人提出一種 LEHW
　　方法，該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式，將表單分辨為單屬性表單和多屬性表單，分別進(jìn)行處理；孫彬等人提出一種基于 XQuery
　　的搜索系統，它就能模擬表單和特殊頁(yè)面標記切換，把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元，按照一定規則排除無(wú)效表單，將 Web 文檔構造成 DOM
　　樹(shù)，利用 XQuery 將文字屬性映射到表單數組[1]
　　。
　　Raghavan 等人提出的 HIWE 系統中，爬行管理器負責管理整個(gè)爬行過(guò)程，分析下載的頁(yè)面，將包含表單的頁(yè)面遞交表單處理器處理，表單處理器先從頁(yè)面中提取表單，從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單，由爬行控制器下載相應的結果頁(yè)面[1]
　　。

更多...

話(huà)題描述

相關(guān)話(huà)題

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<noframes id="koxj5"></noframes>

<option id="koxj5"><strong id="koxj5"></strong></option>