增量模型
請問(wèn)哪些是網(wǎng)絡(luò )爬蟲(chóng)???是干哪些的呢?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 324 次瀏覽 ? 2020-05-14 08:04
展開(kāi)全部
爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本,類(lèi)似一個(gè)機器人,能把他人網(wǎng)站的信息弄到自己的筆記本上,再做一些過(guò)濾,篩選,歸納,整理,排序等等。
網(wǎng)絡(luò )爬蟲(chóng)能做哪些:數據采集。
網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
擴展資料:
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。 實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的 。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。 由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。 這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方法,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值 。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略 。
1) 深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。 爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索, 但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費 。
2) 廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面,處于較淺目錄層次的頁(yè)面首先被爬行。 當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。 這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題,實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么,不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。 和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求 。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同 。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。 和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集 。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1) 統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3) 基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么,而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。 為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。 表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源 。
參考資料:
百度百科-網(wǎng)絡(luò )爬蟲(chóng) 查看全部

展開(kāi)全部
爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本,類(lèi)似一個(gè)機器人,能把他人網(wǎng)站的信息弄到自己的筆記本上,再做一些過(guò)濾,篩選,歸納,整理,排序等等。
網(wǎng)絡(luò )爬蟲(chóng)能做哪些:數據采集。
網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
擴展資料:
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。 實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的 。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。 由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。 這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方法,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值 。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略 。
1) 深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。 爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索, 但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費 。
2) 廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面,處于較淺目錄層次的頁(yè)面首先被爬行。 當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。 這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題,實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么,不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。 和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求 。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同 。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。 和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集 。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1) 統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3) 基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么,而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。 為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。 表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源 。
參考資料:
百度百科-網(wǎng)絡(luò )爬蟲(chóng)
一個(gè)網(wǎng)站除了百度以外爬蟲(chóng)其爬蟲(chóng)是那什么呀
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 321 次瀏覽 ? 2020-05-06 08:02
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬
蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web
Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。
實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web
Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。
這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方
式,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值[1]
。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略[1]
。
1)
深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。
爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索,
但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
。
2)
廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng),處于較淺目錄層次的頁(yè)面首先被爬行。
當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。
這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng),實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn),不足之處在于需較長(cháng)時(shí)間能夠爬行
到目錄層次較深的頁(yè)面[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused
Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群
對特定領(lǐng)域信息的需求[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
。
1)
基于內容評價(jià)的爬行策略:DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中,提出了 Fish Search
算法,它將用戶(hù)輸入的查詢(xún)詞作為主題,包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān),其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度 的 高 低 。
Herseovic對 Fish Search 算 法 進(jìn) 行 了 改 進(jìn) ,提 出 了 Sharksearch
算法,利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
。
2) 基于鏈接結構評價(jià)的爬行策略 :Web
頁(yè)面作為一種半結構化文檔,包含好多結構信息,可拿來(lái)評價(jià)鏈接重要性。 PageRank
算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序,也可用于評價(jià)鏈接重要性,具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法,它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
權重,并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
。
3) 基于提高學(xué)習的爬行策略:Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng),利用貝葉斯分類(lèi)器,根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi),為每位鏈接估算出重要性,從而決定鏈接的訪(fǎng)問(wèn)次序[1]
。
4) 基于語(yǔ)境圖的爬行策略:Diligenti
等人提出了一種通過(guò)構建語(yǔ)境圖(Context Graphs)學(xué)習網(wǎng)頁(yè)之間的相關(guān)度,訓練一個(gè)機器學(xué)習系統,通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
頁(yè)面的距離,距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)(IIT)和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量,而是一組具有相同主題的網(wǎng)頁(yè)。
它包含兩個(gè)重要模塊:一個(gè)是分類(lèi)器,用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度,確定是否與主題相關(guān);另一個(gè)是凈化器,用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
的中心頁(yè)面[1]
。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指
對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量
式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1)
統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3)
基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣
度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定,而是采用一種自適應的方
法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。
為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface
Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。
表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web
中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
。
Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器)和兩個(gè)爬蟲(chóng)內部數據結構(URL 列表、LVS 表)。 其中
LVS(Label Value Set)表示標簽/數值集合,用來(lái)表示填充表單的數據源[1]
。
Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě),包含兩種類(lèi)型:
1)
基于領(lǐng)域知識的表單填寫(xiě):此方式通常會(huì )維持一個(gè)本體庫,通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
表單信息的多注解方式,將數據表單按語(yǔ)義分配到各個(gè)組中
,對每組從多方面注解,結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽;鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容,
同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
。
2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě):
此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識,將網(wǎng)頁(yè)表單表示成 DOM 樹(shù),從中提取表單各數組值。 Desouky 等人提出一種 LEHW
方法,該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式,將表單分辨為單屬性表單和多屬性表單,分別進(jìn)行處理;孫彬等人提出一種基于 XQuery
的搜索系統,它就能模擬表單和特殊頁(yè)面標記切換,把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元,按照一定規則排除無(wú)效表單,將 Web 文檔構造成 DOM
樹(shù),利用 XQuery 將文字屬性映射到表單數組[1]
。
Raghavan 等人提出的 HIWE 系統中,爬行管理器負責管理整個(gè)爬行過(guò)程,分析下載的頁(yè)面,將包含表單的頁(yè)面遞交表單處理器處理,表單處理器先從頁(yè)面中提取表單,從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單,由爬行控制器下載相應的結果頁(yè)面[1]
。 查看全部

網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬
蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web
Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。
實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web
Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。
這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方
式,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值[1]
。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略[1]
。
1)
深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。
爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索,
但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
。
2)
廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng),處于較淺目錄層次的頁(yè)面首先被爬行。
當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。
這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng),實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn),不足之處在于需較長(cháng)時(shí)間能夠爬行
到目錄層次較深的頁(yè)面[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused
Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群
對特定領(lǐng)域信息的需求[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
。
1)
基于內容評價(jià)的爬行策略:DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中,提出了 Fish Search
算法,它將用戶(hù)輸入的查詢(xún)詞作為主題,包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān),其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度 的 高 低 。
Herseovic對 Fish Search 算 法 進(jìn) 行 了 改 進(jìn) ,提 出 了 Sharksearch
算法,利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
。
2) 基于鏈接結構評價(jià)的爬行策略 :Web
頁(yè)面作為一種半結構化文檔,包含好多結構信息,可拿來(lái)評價(jià)鏈接重要性。 PageRank
算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序,也可用于評價(jià)鏈接重要性,具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法,它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
權重,并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
。
3) 基于提高學(xué)習的爬行策略:Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng),利用貝葉斯分類(lèi)器,根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi),為每位鏈接估算出重要性,從而決定鏈接的訪(fǎng)問(wèn)次序[1]
。
4) 基于語(yǔ)境圖的爬行策略:Diligenti
等人提出了一種通過(guò)構建語(yǔ)境圖(Context Graphs)學(xué)習網(wǎng)頁(yè)之間的相關(guān)度,訓練一個(gè)機器學(xué)習系統,通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
頁(yè)面的距離,距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)(IIT)和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量,而是一組具有相同主題的網(wǎng)頁(yè)。
它包含兩個(gè)重要模塊:一個(gè)是分類(lèi)器,用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度,確定是否與主題相關(guān);另一個(gè)是凈化器,用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
的中心頁(yè)面[1]
。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指
對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量
式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1)
統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3)
基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣
度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定,而是采用一種自適應的方
法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。
為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface
Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。
表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web
中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
。
Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器)和兩個(gè)爬蟲(chóng)內部數據結構(URL 列表、LVS 表)。 其中
LVS(Label Value Set)表示標簽/數值集合,用來(lái)表示填充表單的數據源[1]
。
Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě),包含兩種類(lèi)型:
1)
基于領(lǐng)域知識的表單填寫(xiě):此方式通常會(huì )維持一個(gè)本體庫,通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
表單信息的多注解方式,將數據表單按語(yǔ)義分配到各個(gè)組中
,對每組從多方面注解,結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽;鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容,
同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
。
2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě):
此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識,將網(wǎng)頁(yè)表單表示成 DOM 樹(shù),從中提取表單各數組值。 Desouky 等人提出一種 LEHW
方法,該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式,將表單分辨為單屬性表單和多屬性表單,分別進(jìn)行處理;孫彬等人提出一種基于 XQuery
的搜索系統,它就能模擬表單和特殊頁(yè)面標記切換,把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元,按照一定規則排除無(wú)效表單,將 Web 文檔構造成 DOM
樹(shù),利用 XQuery 將文字屬性映射到表單數組[1]
。
Raghavan 等人提出的 HIWE 系統中,爬行管理器負責管理整個(gè)爬行過(guò)程,分析下載的頁(yè)面,將包含表單的頁(yè)面遞交表單處理器處理,表單處理器先從頁(yè)面中提取表單,從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單,由爬行控制器下載相應的結果頁(yè)面[1]
。
請問(wèn)哪些是網(wǎng)絡(luò )爬蟲(chóng)???是干哪些的呢?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 324 次瀏覽 ? 2020-05-14 08:04
展開(kāi)全部
爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本,類(lèi)似一個(gè)機器人,能把他人網(wǎng)站的信息弄到自己的筆記本上,再做一些過(guò)濾,篩選,歸納,整理,排序等等。
網(wǎng)絡(luò )爬蟲(chóng)能做哪些:數據采集。
網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
擴展資料:
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。 實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的 。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。 由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。 這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方法,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值 。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略 。
1) 深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。 爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索, 但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費 。
2) 廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面,處于較淺目錄層次的頁(yè)面首先被爬行。 當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。 這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題,實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么,不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。 和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求 。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同 。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。 和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集 。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1) 統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3) 基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么,而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。 為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。 表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源 。
參考資料:
百度百科-網(wǎng)絡(luò )爬蟲(chóng) 查看全部

展開(kāi)全部
爬蟲(chóng)就是才能手動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)并將網(wǎng)站內容下載出來(lái)的636f70797a686964616f31333366303235的程序或腳本,類(lèi)似一個(gè)機器人,能把他人網(wǎng)站的信息弄到自己的筆記本上,再做一些過(guò)濾,篩選,歸納,整理,排序等等。
網(wǎng)絡(luò )爬蟲(chóng)能做哪些:數據采集。
網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。
擴展資料:
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。 實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的 。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。 由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。 這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方法,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值 。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略 。
1) 深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。 爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索, 但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費 。
2) 廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面,處于較淺目錄層次的頁(yè)面首先被爬行。 當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。 這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題,實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn)爬蟲(chóng)軟件是什么,不足之處在于需較長(cháng)時(shí)間能夠爬行到目錄層次較深的頁(yè)面。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)。 和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群對特定領(lǐng)域信息的需求 。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同 。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。 和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面 ,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集 。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1) 統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3) 基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè) 。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的 WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定爬蟲(chóng)軟件是什么,而是采用一種自適應的方式按照原先爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外 Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。 為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè) ,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè) 。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。 表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web 是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web 頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源 。
參考資料:
百度百科-網(wǎng)絡(luò )爬蟲(chóng)
一個(gè)網(wǎng)站除了百度以外爬蟲(chóng)其爬蟲(chóng)是那什么呀
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 321 次瀏覽 ? 2020-05-06 08:02
網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬
蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web
Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。
實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web
Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。
這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方
式,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值[1]
。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略[1]
。
1)
深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。
爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索,
但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
。
2)
廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng),處于較淺目錄層次的頁(yè)面首先被爬行。
當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。
這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng),實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn),不足之處在于需較長(cháng)時(shí)間能夠爬行
到目錄層次較深的頁(yè)面[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused
Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群
對特定領(lǐng)域信息的需求[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
。
1)
基于內容評價(jià)的爬行策略:DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中,提出了 Fish Search
算法,它將用戶(hù)輸入的查詢(xún)詞作為主題,包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān),其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度 的 高 低 。
Herseovic對 Fish Search 算 法 進(jìn) 行 了 改 進(jìn) ,提 出 了 Sharksearch
算法,利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
。
2) 基于鏈接結構評價(jià)的爬行策略 :Web
頁(yè)面作為一種半結構化文檔,包含好多結構信息,可拿來(lái)評價(jià)鏈接重要性。 PageRank
算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序,也可用于評價(jià)鏈接重要性,具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法,它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
權重,并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
。
3) 基于提高學(xué)習的爬行策略:Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng),利用貝葉斯分類(lèi)器,根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi),為每位鏈接估算出重要性,從而決定鏈接的訪(fǎng)問(wèn)次序[1]
。
4) 基于語(yǔ)境圖的爬行策略:Diligenti
等人提出了一種通過(guò)構建語(yǔ)境圖(Context Graphs)學(xué)習網(wǎng)頁(yè)之間的相關(guān)度,訓練一個(gè)機器學(xué)習系統,通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
頁(yè)面的距離,距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)(IIT)和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量,而是一組具有相同主題的網(wǎng)頁(yè)。
它包含兩個(gè)重要模塊:一個(gè)是分類(lèi)器,用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度,確定是否與主題相關(guān);另一個(gè)是凈化器,用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
的中心頁(yè)面[1]
。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指
對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量
式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1)
統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3)
基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣
度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定,而是采用一種自適應的方
法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。
為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface
Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。
表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web
中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
。
Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器)和兩個(gè)爬蟲(chóng)內部數據結構(URL 列表、LVS 表)。 其中
LVS(Label Value Set)表示標簽/數值集合,用來(lái)表示填充表單的數據源[1]
。
Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě),包含兩種類(lèi)型:
1)
基于領(lǐng)域知識的表單填寫(xiě):此方式通常會(huì )維持一個(gè)本體庫,通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
表單信息的多注解方式,將數據表單按語(yǔ)義分配到各個(gè)組中
,對每組從多方面注解,結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽;鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容,
同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
。
2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě):
此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識,將網(wǎng)頁(yè)表單表示成 DOM 樹(shù),從中提取表單各數組值。 Desouky 等人提出一種 LEHW
方法,該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式,將表單分辨為單屬性表單和多屬性表單,分別進(jìn)行處理;孫彬等人提出一種基于 XQuery
的搜索系統,它就能模擬表單和特殊頁(yè)面標記切換,把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元,按照一定規則排除無(wú)效表單,將 Web 文檔構造成 DOM
樹(shù),利用 XQuery 將文字屬性映射到表單數組[1]
。
Raghavan 等人提出的 HIWE 系統中,爬行管理器負責管理整個(gè)爬行過(guò)程,分析下載的頁(yè)面,將包含表單的頁(yè)面遞交表單處理器處理,表單處理器先從頁(yè)面中提取表單,從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單,由爬行控制器下載相應的結果頁(yè)面[1]
。 查看全部

網(wǎng)絡(luò )爬蟲(chóng)根據系統結構和實(shí)現技術(shù),大致可以分為以下幾種類(lèi)型:通用網(wǎng)路爬
蟲(chóng)(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused Web
Crawler)、增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)、深層網(wǎng)絡(luò )爬蟲(chóng)(Deep Web Crawler)。
實(shí)際的網(wǎng)路爬蟲(chóng)系統一般是幾種爬蟲(chóng)技術(shù)相結合實(shí)現的[1]
。
通用網(wǎng)路爬蟲(chóng)
通用網(wǎng)路爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web
Crawler),爬行對象從一些種子 URL 擴充到整個(gè) Web,主要為門(mén)戶(hù)站點(diǎn)搜索引擎和小型 Web 服務(wù)提供商采集數據。
由于商業(yè)緣由,它們的技術(shù)細節甚少公布下來(lái)。
這類(lèi)網(wǎng)路爬蟲(chóng)的爬行范圍和數目巨大,對于爬行速率和儲存空間要求較高,對于爬行頁(yè)面的次序要求相對較低,同時(shí)因為待刷新的頁(yè)面太多,通常采用并行工作方
式,但須要較長(cháng)時(shí)間能夠刷新一次頁(yè)面。 雖然存在一定缺陷,通用網(wǎng)路爬蟲(chóng)適用于為搜索引擎搜索廣泛的主題,有較強的應用價(jià)值[1]
。
通用網(wǎng)路爬蟲(chóng)的結構大致可以分為頁(yè)面爬行模塊 、頁(yè)面剖析模塊、鏈接過(guò)濾模塊、頁(yè)面數據庫、URL 隊列、初始 URL 集合幾個(gè)部份。為提升工作效率,通用網(wǎng)路爬蟲(chóng)會(huì )采取一定的爬行策略。 常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略[1]
。
1)
深度優(yōu)先策略:其基本方式是根據深度由低到高的次序,依次訪(fǎng)問(wèn)下一級網(wǎng)頁(yè)鏈接,直到不能再深入為止。
爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節點(diǎn)進(jìn)一步搜索其它鏈接。 當所有鏈接遍歷完后e799bee5baa6e79fa5e98193e78988e69d8331333361313931,爬行任務(wù)結束。 這種策略比較適宜垂直搜索或站內搜索,
但爬行頁(yè)面內容層次較深的站點(diǎn)時(shí)會(huì )導致資源的巨大浪費[1]
。
2)
廣度優(yōu)先策略:此策略根據網(wǎng)頁(yè)內容目錄層次深淺來(lái)爬行頁(yè)面百度網(wǎng)絡(luò )爬蟲(chóng),處于較淺目錄層次的頁(yè)面首先被爬行。
當同一層次中的頁(yè)面爬行完畢后,爬蟲(chóng)再深入下一層繼續爬行。
這種策略才能有效控制頁(yè)面的爬行深度,避免碰到一個(gè)無(wú)窮深層分支時(shí)未能結束爬行的問(wèn)題百度網(wǎng)絡(luò )爬蟲(chóng),實(shí)現便捷,無(wú)需儲存大量中間節點(diǎn),不足之處在于需較長(cháng)時(shí)間能夠爬行
到目錄層次較深的頁(yè)面[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)
聚焦網(wǎng)絡(luò )爬蟲(chóng)(Focused
Crawler),又稱(chēng)主題網(wǎng)路爬蟲(chóng)(Topical Crawler),是指選擇性地爬行這些與預先定義好的主題相關(guān)頁(yè)面的網(wǎng)路爬蟲(chóng)[8]。
和通用網(wǎng)路爬蟲(chóng)相比,聚焦爬蟲(chóng)只須要爬行與主題相關(guān)的頁(yè)面,極大地節約了硬件和網(wǎng)路資源,保存的頁(yè)面也因為數目少而更新快,還可以挺好地滿(mǎn)足一些特定人群
對特定領(lǐng)域信息的需求[1]
。
聚焦網(wǎng)絡(luò )爬蟲(chóng)和通用網(wǎng)路爬蟲(chóng)相比,增加了鏈接評價(jià)模塊以及內容評價(jià)模塊。聚焦爬蟲(chóng)爬行策略實(shí)現的關(guān)鍵是評價(jià)頁(yè)面內容和鏈接的重要性,不同的方式估算出的重要性不同,由此引起鏈接的訪(fǎng)問(wèn)次序也不同[1]
。
1)
基于內容評價(jià)的爬行策略:DeBra將文本相似度的估算方式引入到網(wǎng)路爬蟲(chóng)中,提出了 Fish Search
算法,它將用戶(hù)輸入的查詢(xún)詞作為主題,包含查詢(xún)詞的頁(yè)面被視為與主題相關(guān),其局限性在于難以評價(jià)頁(yè)面與主題相關(guān) 度 的 高 低 。
Herseovic對 Fish Search 算 法 進(jìn) 行 了 改 進(jìn) ,提 出 了 Sharksearch
算法,利用空間向量模型估算頁(yè)面與主題的相關(guān)度大小[1]
。
2) 基于鏈接結構評價(jià)的爬行策略 :Web
頁(yè)面作為一種半結構化文檔,包含好多結構信息,可拿來(lái)評價(jià)鏈接重要性。 PageRank
算法最初用于搜索引擎信息檢索中對查詢(xún)結果進(jìn)行排序,也可用于評價(jià)鏈接重要性,具體做法就是每次選擇 PageRank 值較大頁(yè)面中的鏈接來(lái)訪(fǎng)問(wèn)。
另一個(gè)借助 Web結構評價(jià)鏈接價(jià)值的方式是 HITS 方法,它通過(guò)估算每位已訪(fǎng)問(wèn)頁(yè)面的 Authority 權重和 Hub
權重,并借此決定鏈接的訪(fǎng)問(wèn)次序[1]
。
3) 基于提高學(xué)習的爬行策略:Rennie 和 McCallum 將提高學(xué)習引入聚焦爬蟲(chóng),利用貝葉斯分類(lèi)器,根據整個(gè)網(wǎng)頁(yè)文本和鏈接文本對超鏈接進(jìn)行分類(lèi),為每位鏈接估算出重要性,從而決定鏈接的訪(fǎng)問(wèn)次序[1]
。
4) 基于語(yǔ)境圖的爬行策略:Diligenti
等人提出了一種通過(guò)構建語(yǔ)境圖(Context Graphs)學(xué)習網(wǎng)頁(yè)之間的相關(guān)度,訓練一個(gè)機器學(xué)習系統,通過(guò)該系統可估算當前頁(yè)面到相關(guān) Web
頁(yè)面的距離,距離越逾的頁(yè)面中的鏈接優(yōu)先訪(fǎng)問(wèn)。印度理工大學(xué)(IIT)和 IBM 研究中心的研究人員開(kāi)發(fā)了一個(gè)典型的聚焦網(wǎng)路爬蟲(chóng)。
該爬蟲(chóng)對主題的定義既不是采用關(guān)鍵詞也不是加權矢量,而是一組具有相同主題的網(wǎng)頁(yè)。
它包含兩個(gè)重要模塊:一個(gè)是分類(lèi)器,用來(lái)估算所爬行的頁(yè)面與主題的相關(guān)度,確定是否與主題相關(guān);另一個(gè)是凈化器,用來(lái)辨識通過(guò)較少鏈接聯(lián)接到大量相關(guān)頁(yè)面
的中心頁(yè)面[1]
。
增量式網(wǎng)絡(luò )爬蟲(chóng)
增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是 指
對 已 下 載 網(wǎng) 頁(yè) 采 取 增 量式更新和只爬行新形成的或則早已發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它還能在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。
和周期性爬行和刷新頁(yè)面的網(wǎng)路爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì )在須要的時(shí)侯爬行新形成或發(fā)生更新的頁(yè)面
,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效降低數據下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的花費,但是降低了爬行算法的復雜度和實(shí)現難度。增量
式網(wǎng)路爬蟲(chóng)的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬行 URL 集以及本地頁(yè)面URL 集[1]
。
增量式爬蟲(chóng)有兩個(gè)目標:保持本地頁(yè)面集中儲存的頁(yè)面為最新頁(yè)面和提升本地
頁(yè)面集中頁(yè)面的質(zhì)量。 為實(shí)現第一個(gè)目標,增量式爬蟲(chóng)須要通過(guò)重新訪(fǎng)問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面集中頁(yè)面內容,常用的方式有:1)
統一更新法:爬蟲(chóng)以相同的頻度訪(fǎng)問(wèn)所有網(wǎng)頁(yè),不考慮網(wǎng)頁(yè)的改變頻度;2) 個(gè)體更新法:爬蟲(chóng)依據個(gè)體網(wǎng)頁(yè)的改變頻度來(lái)重新訪(fǎng)問(wèn)各頁(yè)面;3)
基于分類(lèi)的更新法:爬蟲(chóng)依照網(wǎng)頁(yè)改變頻度將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類(lèi),然后以不同的頻度訪(fǎng)問(wèn)這兩類(lèi)網(wǎng)頁(yè)[1]
。
為實(shí)現第二個(gè)目標,增量式爬蟲(chóng)須要對網(wǎng)頁(yè)的重要性排序,常用的策略有:廣
度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開(kāi)發(fā)的
WebFountain是一個(gè)功能強悍的增量式網(wǎng)路爬蟲(chóng),它采用一個(gè)優(yōu)化模型控制爬行過(guò)程,并沒(méi)有對頁(yè)面變化過(guò)程做任何統計假定,而是采用一種自適應的方
法依照當初爬行周期里爬行結果和網(wǎng)頁(yè)實(shí)際變化速率對頁(yè)面更新頻度進(jìn)行調整。北京大學(xué)的天網(wǎng)增量爬行系統致力爬行國外
Web,將網(wǎng)頁(yè)分為變化網(wǎng)頁(yè)和新網(wǎng)頁(yè)兩類(lèi),分別采用不同爬行策略。
為減輕對大量網(wǎng)頁(yè)變化歷史維護造成的性能困局,它依據網(wǎng)頁(yè)變化時(shí)間局部性規律,在短時(shí)期內直接爬行多次變化的網(wǎng)頁(yè)
,為盡早獲取新網(wǎng)頁(yè),它借助索引型網(wǎng)頁(yè)跟蹤新出現網(wǎng)頁(yè)[1]
。
Deep Web 爬蟲(chóng)
Web 頁(yè)面按存在形式可以分為表層網(wǎng)頁(yè)(Surface
Web)和深層網(wǎng)頁(yè)(Deep Web,也稱(chēng) Invisible Web Pages 或 Hidden Web)。
表層網(wǎng)頁(yè)是指傳統搜索引擎可以索引的頁(yè)面,以超鏈接可以抵達的靜態(tài)網(wǎng)頁(yè)為主構成的 Web 頁(yè)面。Deep Web
是這些大部分內容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶(hù)遞交一些關(guān)鍵詞能夠獲得的 Web
頁(yè)面。例如這些用戶(hù)注冊后內容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出:Deep Web
中可訪(fǎng)問(wèn)信息容量是 Surface Web 的幾百倍,是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源[1]
。
Deep Web 爬蟲(chóng)體系結構包含六個(gè)基本功能模塊
?。ㄅ佬锌刂破?、解析器、表單分析器、表單處理器、響應分析器、LVS 控制器)和兩個(gè)爬蟲(chóng)內部數據結構(URL 列表、LVS 表)。 其中
LVS(Label Value Set)表示標簽/數值集合,用來(lái)表示填充表單的數據源[1]
。
Deep Web 爬蟲(chóng)爬行過(guò)程中最重要部份就是表單填寫(xiě),包含兩種類(lèi)型:
1)
基于領(lǐng)域知識的表單填寫(xiě):此方式通常會(huì )維持一個(gè)本體庫,通過(guò)語(yǔ)義剖析來(lái)選定合適的關(guān)鍵詞填寫(xiě)表單。 Yiyao Lu[25]等人提出一種獲取 Form
表單信息的多注解方式,將數據表單按語(yǔ)義分配到各個(gè)組中
,對每組從多方面注解,結合各類(lèi)注解結果來(lái)預測一個(gè)最終的注解標簽;鄭冬冬等人借助一個(gè)預定義的領(lǐng)域本體知識庫來(lái)辨識 Deep Web 頁(yè)面內容,
同時(shí)借助一些來(lái)自 Web 站點(diǎn)導航模式來(lái)辨識手動(dòng)填寫(xiě)表單時(shí)所需進(jìn)行的路徑導航[1]
。
2) 基于網(wǎng)頁(yè)結構剖析的表單填寫(xiě):
此方式通常無(wú)領(lǐng)域知識或僅有有限的領(lǐng)域知識,將網(wǎng)頁(yè)表單表示成 DOM 樹(shù),從中提取表單各數組值。 Desouky 等人提出一種 LEHW
方法,該方式將 HTML 網(wǎng)頁(yè)表示為DOM 樹(shù)方式,將表單分辨為單屬性表單和多屬性表單,分別進(jìn)行處理;孫彬等人提出一種基于 XQuery
的搜索系統,它就能模擬表單和特殊頁(yè)面標記切換,把網(wǎng)頁(yè)關(guān)鍵字切換信息描述為三元組單元,按照一定規則排除無(wú)效表單,將 Web 文檔構造成 DOM
樹(shù),利用 XQuery 將文字屬性映射到表單數組[1]
。
Raghavan 等人提出的 HIWE 系統中,爬行管理器負責管理整個(gè)爬行過(guò)程,分析下載的頁(yè)面,將包含表單的頁(yè)面遞交表單處理器處理,表單處理器先從頁(yè)面中提取表單,從預先打算好的數據集中選擇數據手動(dòng)填充并遞交表單,由爬行控制器下載相應的結果頁(yè)面[1]
。


