亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

設計一個(gè)網(wǎng)路爬蟲(chóng)系統 用哪些手段

優(yōu)采云 發(fā)布時(shí)間: 2020-05-20 08:02

  展開(kāi)全部

  網(wǎng)絡(luò )爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò )機器人,在FOAF社區中間,更時(shí)不時(shí)的稱(chēng)為網(wǎng)頁(yè)追逐者),是一種根據一定的規則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或則腳本。另外一些不常使用的名子還有螞蟻網(wǎng)絡(luò )爬蟲(chóng)設計,自動(dòng)索引,模擬程序或則蠕蟲(chóng)?;谀繕藬祿J降呐老x(chóng)針對的是網(wǎng)頁(yè)上的數據,所抓取的數據通常要符合一定的模式,或者可以轉化或映射為目標數據模式。另一種描述方法是構建目標領(lǐng)域的本體或辭典,用于從語(yǔ)義角度剖析不同特點(diǎn)在某一主題中的重要程度。網(wǎng)頁(yè)爬蟲(chóng)的高層體系結構一個(gè)爬蟲(chóng)不能象里面所說(shuō)的網(wǎng)絡(luò )爬蟲(chóng)設計,僅僅只有一個(gè)好的抓取策略,還須要有一個(gè)高度優(yōu)化的結構。Shkapenyuk和Suel(Shkapenyuk和Suel,2002)指出:設計一個(gè)短時(shí)間內,一秒下載幾個(gè)頁(yè)面的頗慢的爬蟲(chóng)是一件很容易的事情,而要設計一個(gè)使用幾周可以下載百萬(wàn)級頁(yè)面的高性能的爬蟲(chóng),將會(huì )在系統設計,I/O和網(wǎng)路效率,健壯性和易用性方面碰到諸多挑戰。網(wǎng)路爬蟲(chóng)是搜索引擎的核心,他們算法和結構上的細節被當成商業(yè)機密。當爬蟲(chóng)的設計發(fā)布時(shí),總會(huì )有一些為了制止他人復制工作而缺位的細節。人們也e68a847a6431333363386135開(kāi)始關(guān)注主要用于制止主要搜索引擎發(fā)布她們的排序算法的“搜索引擎垃圾電郵”。爬蟲(chóng)身分辨識網(wǎng)路爬蟲(chóng)通過(guò)使用http請求的用戶(hù)代理(UserAgent)字段來(lái)向網(wǎng)路服務(wù)器表明她們的身分。網(wǎng)絡(luò )管理員則通過(guò)檢測網(wǎng)路服務(wù)器的日志,使用用戶(hù)代理數組來(lái)辨別哪一個(gè)爬蟲(chóng)以前訪(fǎng)問(wèn)過(guò)以及它訪(fǎng)問(wèn)的頻度。用戶(hù)代理數組可能會(huì )包含一個(gè)可以使管理員獲取爬蟲(chóng)信息的URL。郵件抓取器和其他懷有惡意的網(wǎng)路爬蟲(chóng)一般不會(huì )留任何的用戶(hù)代理數組內容,或者她們也會(huì )將她們的身分偽裝成瀏覽器或則其他的著(zhù)名爬蟲(chóng)。對于網(wǎng)絡(luò )爬蟲(chóng),留下用戶(hù)標志信息是非常重要的;這樣,網(wǎng)絡(luò )管理員在須要的時(shí)侯就可以聯(lián)系爬蟲(chóng)的主人。有時(shí),爬蟲(chóng)可能會(huì )深陷爬蟲(chóng)圈套或則讓一個(gè)服務(wù)器超負荷,這時(shí),爬蟲(chóng)主人須要讓爬蟲(chóng)停止。對這些有興趣了解特定爬蟲(chóng)訪(fǎng)問(wèn)時(shí)間網(wǎng)絡(luò )管理員來(lái)講,用戶(hù)標示信息是非常重要的。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久