亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

淺談網(wǎng)絡(luò )爬蟲(chóng)及其發(fā)展趨勢

優(yōu)采云 發(fā)布時(shí)間: 2020-05-11 08:02

  

  隨著(zhù)的發(fā)展壯大,人們獲取信息的途徑漸漸被網(wǎng)路所代替?;ヂ?lián)網(wǎng)發(fā)展早期,人們主要通過(guò)瀏覽門(mén)戶(hù)網(wǎng)站的方法獲取所需信息,但是隨著(zhù)Web的飛速發(fā)展, 用這些方法找尋自己所需信息顯得越來(lái)越困難。目前,人們大多通過(guò)搜索引擎獲取有用信息網(wǎng)絡(luò )爬蟲(chóng) 技術(shù),因此,搜索引擎技術(shù)的發(fā)展將直接影響人們獲取所需信息的速率和質(zhì)量。

  1994 年世界上第一個(gè)網(wǎng)絡(luò )檢索工具Web Crawler 問(wèn)世, 目前較流行的搜索引擎有、、Yahoo、Info seek、Inktomi、Teoma、Live Search 等。出于商業(yè)機密的考慮,現在各個(gè)搜索引擎使用的Crawler 系統的技術(shù)黑幕通常都不公開(kāi),現有的文獻資料也僅限于概要性介紹。隨著(zhù)網(wǎng)路信息資源呈指數級下降及網(wǎng)路信息資源動(dòng)態(tài)變化,傳統的搜索引擎提供的信息檢索服務(wù)已難以滿(mǎn)足人們愈加下降的對個(gè)性化服務(wù)的需求,正面臨著(zhù)巨大的挑戰。以何種策略訪(fǎng)問(wèn)網(wǎng)路,提高搜索效率,已成為近些年來(lái)專(zhuān)業(yè)搜索引擎研究的主要問(wèn)題之一。

  1、搜索引擎分類(lèi)

  搜索引擎按其形式主要分為全文搜索引擎、目錄索引類(lèi)搜索引擎和元搜索引擎三種。

  1.1 全文搜索引擎

  全文搜索引擎是名副其實(shí)的搜索引擎,通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站信息(以網(wǎng)頁(yè)文字為主)而構建的中,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列次序將結果返回給用戶(hù)。

  全文搜索引擎又可細分為兩種:a)擁有自己的檢索程序(Indexer),俗稱(chēng)“蜘蛛”(Spider)程序或“機器人”(Robot)程序,自建網(wǎng)頁(yè)數據庫,搜索結果直接從自身的數據庫中調用。b)租用其他引擎的數據庫,按自定的格式排列搜索結果。

  1.2 目錄索引型搜索引擎

  與全文搜索引擎不同的是,目錄索引型搜索引擎的索引數據庫是由編輯人員人工構建上去的,這些編輯人員在訪(fǎng)問(wèn)過(guò)某個(gè)Web 站點(diǎn)后,根據一套自定的衡量標準及主觀(guān)印象作出對該站點(diǎn)的描述,并按照站點(diǎn)的內容和性質(zhì)將其歸為一個(gè)預先分好的類(lèi)別,分門(mén)別類(lèi)地儲存在相應的目錄中。用戶(hù)在查詢(xún)時(shí),可以通過(guò)關(guān)鍵詞搜索,也可以按分類(lèi)目錄逐層檢索。

  因為目錄索引型的索引數據庫是借助人工來(lái)評價(jià)一個(gè)網(wǎng)站的內容,所以用戶(hù)從目錄搜索到的結果常常比全文檢索到的結果更具有參考價(jià)值。實(shí)際上,目前好多的搜索網(wǎng)站都同時(shí)提供目錄和全文搜索的搜索服務(wù),盡可能為用戶(hù)提供全面的查詢(xún)結果。

  1.3 元搜索引擎

  元搜索引擎是將用戶(hù)遞交的檢索懇求送到多個(gè)獨立的搜索引擎搜索,將檢索結果集中統一處理,以統一的格式提供給用戶(hù),因此有搜索引擎之上的搜索引擎之稱(chēng)。它將主要精力放到提升搜索速率、智能化處理搜索結果、個(gè)性搜索功能的設置和用戶(hù)檢索界面的友好性上,其查全率和查準率相對較高。它的特征是本身沒(méi)有儲存網(wǎng)頁(yè)信息的數據庫,當用戶(hù)查詢(xún)一個(gè)關(guān)鍵詞時(shí),它將用戶(hù)懇求轉換成其他搜索引擎能接受的命令格式,并行地訪(fǎng)問(wèn)數個(gè)搜索引擎來(lái)查詢(xún)這個(gè)關(guān)鍵詞,將這種搜索引擎返回的結果經(jīng)過(guò)處理后再返回給用戶(hù)。在搜索結果排列方面,有的直接按來(lái)源引擎排列搜索結果,有的則按自定的規則將結果重新排列組合。

  2、網(wǎng)絡(luò )爬蟲(chóng)技術(shù)

  2.1 網(wǎng)絡(luò )爬蟲(chóng)的工作原理

  網(wǎng)絡(luò )爬蟲(chóng)源自Spider(或Crawler、robots、wanderer)等的譯音。網(wǎng)絡(luò )爬蟲(chóng)的定義有廣義和狹義之分,狹義的定義為:利用標準的http 協(xié)議,根據超級鏈接和Web 文檔檢索的方式遍歷萬(wàn)維網(wǎng)信息空間的軟件程序。廣義的定義為:所有能借助http協(xié)議檢索Web 文檔的軟件都稱(chēng)之為網(wǎng)路爬蟲(chóng)。

  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)功能太強悍的手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)下載網(wǎng)頁(yè),是搜索引擎的重要組成部份。它通過(guò)懇求站點(diǎn)上的HTML 文檔訪(fǎng)問(wèn)某一站點(diǎn)。它遍歷Web 空間,不斷從一個(gè)站點(diǎn)到另一個(gè)站點(diǎn),自動(dòng)構建索引,并加入到網(wǎng)頁(yè)數據庫中。網(wǎng)絡(luò )爬蟲(chóng)步入某個(gè)超級文本時(shí),利用HTML 語(yǔ)言的標記結構來(lái)搜索信息及獲取指向其他超級文本的URL 地址,可以完全不依賴(lài)用戶(hù)干預實(shí)現網(wǎng)路上的手動(dòng)“爬行”和搜索。網(wǎng)絡(luò )爬蟲(chóng)在搜索時(shí)常常采用一定的搜索策略。

  2.2 網(wǎng)絡(luò )爬蟲(chóng)的搜索策略

  1)深度優(yōu)先搜索策略

  深度優(yōu)先搜索是在開(kāi)發(fā)爬蟲(chóng)初期使用較多的方式,它的目的是要達到被搜索結構的葉結點(diǎn)(即這些不包含任何超級鏈接的HTML文件)。在一個(gè)HTML文件中,當一個(gè)超級鏈接被選擇后,被鏈接的HTML文件將執行深度優(yōu)先搜索,即在搜索其余的超級鏈接結果之前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索順著(zhù)HTML文件上的超級鏈接走到不能再深入為止,然后返回到某一個(gè)HTML文件,再繼續選擇該HTML文件中的其他超級鏈接。當不再有其他超級鏈接可選擇時(shí),說(shuō)明搜索早已結束。其優(yōu)點(diǎn)是能遍歷一個(gè)Web站點(diǎn)或深層嵌套的文檔集合。缺點(diǎn)是因為Web結構相當深,有可能導致一旦進(jìn)去再也出不來(lái)的情況發(fā)生。

  2)寬度優(yōu)先搜索策略

  在長(cháng)度優(yōu)先搜索中,先搜索完一個(gè)Web頁(yè)面中所有的超級鏈接,然后再繼續搜索下一層,直到底層為止。例如,一個(gè)HTML 文件中有3個(gè)超級鏈接,選擇其中之一,處理相應的HTML文件,然后不再選擇第二個(gè)HTML文件中的任何超級鏈接,而是返回,選擇第二個(gè)超級鏈接,處理相應的HTML文件,再返回,選擇第三個(gè)超級鏈接,并處理相應的HTML文件。一旦一層上的所有超級鏈接都被選擇過(guò),就可以開(kāi)始在剛剛處理過(guò)的HIML文件中搜索其余的超級鏈接。這就保證了對淺層的首先處理。當遇見(jiàn)一個(gè)無(wú)窮盡的深層分支時(shí)網(wǎng)絡(luò )爬蟲(chóng) 技術(shù),不會(huì )造成陷進(jìn)WWW的深層文檔中出不來(lái)的情況發(fā)生。寬度優(yōu)先搜索策略還有一個(gè)優(yōu)點(diǎn),它能在兩個(gè)HTML文件之間找到最短路徑。寬度優(yōu)先搜索策略一般是實(shí)現爬蟲(chóng)的最佳策略,因為它容易實(shí)現,而且具備大多數期望的功能。但是假如要遍歷一個(gè)指定的站點(diǎn)或則深層嵌套的HTML文件集,用長(cháng)度優(yōu)先搜索策略則須要耗費較長(cháng)時(shí)間能夠抵達深層的HTML文件。

  綜合考慮以上幾種策略和國外信息導航系統搜索信息的特性,國內通常采用以長(cháng)度優(yōu)先搜索策略為主,線(xiàn)性搜索策略為輔的搜索策略。對于個(gè)別不被引用的或極少被引用的HTML文件,寬度優(yōu)先搜索策略可能會(huì )遺漏那些孤立的信息源,可以用線(xiàn)性搜索策略作為它的補充。

  3)聚焦搜索策略

  聚焦爬蟲(chóng)的爬行策略只跳出某個(gè)特定主題的頁(yè)面,根據“最好優(yōu)先原則”進(jìn)行訪(fǎng)問(wèn),快速、有效地獲得更多的與主題相關(guān)的頁(yè)面,主要通過(guò)內容與Web的鏈接結構指導進(jìn)一步的頁(yè)面抓取。聚焦爬蟲(chóng)會(huì )給它所下載的頁(yè)面一個(gè)評價(jià)分,根據得分排序插入到一個(gè)隊列中。最好的下一個(gè)搜索對彈出隊列中的第一個(gè)頁(yè)面進(jìn)行剖析后執行,這種策略保證爬蟲(chóng)能優(yōu)先跟蹤這些最有可能鏈接到目標頁(yè)面的頁(yè)面。決定網(wǎng)路爬蟲(chóng)搜索策略的關(guān)鍵是怎樣評價(jià)鏈接價(jià)值,即鏈接價(jià)值的估算方式,不同的價(jià)值評價(jià)方式估算出的鏈接的價(jià)值不同,表現出的鏈接的“重要程度”也不同,從而決定了不同的搜索策略。由于鏈接包含于頁(yè)面之中,而一般具有較高價(jià)值的頁(yè)面包含的鏈接也具有較高價(jià)值,因而對鏈接價(jià)值的評價(jià)有時(shí)也轉換為對頁(yè)面價(jià)值的評價(jià)。這種策略一般運用在專(zhuān)業(yè)搜索引擎中,因為這些搜索引擎只關(guān)心某一特定主題的頁(yè)面。

  【福利】填問(wèn)卷送精選測試禮包+接口測試課程!為測試行業(yè)做點(diǎn)事!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久