亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

淺談網(wǎng)絡(luò )爬蟲(chóng)及其發(fā)展趨勢

優(yōu)采云發(fā)布時(shí)間: 2020-05-11 08:02

　　

　　隨著(zhù)的發(fā)展壯大，人們獲取信息的途徑漸漸被網(wǎng)路所代替?；ヂ?lián)網(wǎng)發(fā)展早期，人們主要通過(guò)瀏覽門(mén)戶(hù)網(wǎng)站的方法獲取所需信息，但是隨著(zhù)Web的飛速發(fā)展，用這些方法找尋自己所需信息顯得越來(lái)越困難。目前，人們大多通過(guò)搜索引擎獲取有用信息網(wǎng)絡(luò )爬蟲(chóng) 技術(shù)，因此，搜索引擎技術(shù)的發(fā)展將直接影響人們獲取所需信息的速率和質(zhì)量。

　　1994 年世界上第一個(gè)網(wǎng)絡(luò )檢索工具Web Crawler 問(wèn)世，目前較流行的搜索引擎有、、Yahoo、Info seek、Inktomi、Teoma、Live Search 等。出于商業(yè)機密的考慮，現在各個(gè)搜索引擎使用的Crawler 系統的技術(shù)黑幕通常都不公開(kāi)，現有的文獻資料也僅限于概要性介紹。隨著(zhù)網(wǎng)路信息資源呈指數級下降及網(wǎng)路信息資源動(dòng)態(tài)變化，傳統的搜索引擎提供的信息檢索服務(wù)已難以滿(mǎn)足人們愈加下降的對個(gè)性化服務(wù)的需求，正面臨著(zhù)巨大的挑戰。以何種策略訪(fǎng)問(wèn)網(wǎng)路，提高搜索效率，已成為近些年來(lái)專(zhuān)業(yè)搜索引擎研究的主要問(wèn)題之一。

　　1、搜索引擎分類(lèi)

　　搜索引擎按其形式主要分為全文搜索引擎、目錄索引類(lèi)搜索引擎和元搜索引擎三種。

　　1.1 全文搜索引擎

　　全文搜索引擎是名副其實(shí)的搜索引擎，通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站信息（以網(wǎng)頁(yè)文字為主）而構建的中，檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄，然后按一定的排列次序將結果返回給用戶(hù)。

　　全文搜索引擎又可細分為兩種：a）擁有自己的檢索程序（Indexer），俗稱(chēng)“蜘蛛”（Spider）程序或“機器人”（Robot）程序，自建網(wǎng)頁(yè)數據庫，搜索結果直接從自身的數據庫中調用。b）租用其他引擎的數據庫，按自定的格式排列搜索結果。

　　1.2 目錄索引型搜索引擎

　　與全文搜索引擎不同的是，目錄索引型搜索引擎的索引數據庫是由編輯人員人工構建上去的，這些編輯人員在訪(fǎng)問(wèn)過(guò)某個(gè)Web 站點(diǎn)后，根據一套自定的衡量標準及主觀(guān)印象作出對該站點(diǎn)的描述，并按照站點(diǎn)的內容和性質(zhì)將其歸為一個(gè)預先分好的類(lèi)別，分門(mén)別類(lèi)地儲存在相應的目錄中。用戶(hù)在查詢(xún)時(shí)，可以通過(guò)關(guān)鍵詞搜索，也可以按分類(lèi)目錄逐層檢索。

　　因為目錄索引型的索引數據庫是借助人工來(lái)評價(jià)一個(gè)網(wǎng)站的內容，所以用戶(hù)從目錄搜索到的結果常常比全文檢索到的結果更具有參考價(jià)值。實(shí)際上，目前好多的搜索網(wǎng)站都同時(shí)提供目錄和全文搜索的搜索服務(wù)，盡可能為用戶(hù)提供全面的查詢(xún)結果。

　　1.3 元搜索引擎

　　元搜索引擎是將用戶(hù)遞交的檢索懇求送到多個(gè)獨立的搜索引擎搜索，將檢索結果集中統一處理，以統一的格式提供給用戶(hù)，因此有搜索引擎之上的搜索引擎之稱(chēng)。它將主要精力放到提升搜索速率、智能化處理搜索結果、個(gè)性搜索功能的設置和用戶(hù)檢索界面的友好性上，其查全率和查準率相對較高。它的特征是本身沒(méi)有儲存網(wǎng)頁(yè)信息的數據庫，當用戶(hù)查詢(xún)一個(gè)關(guān)鍵詞時(shí)，它將用戶(hù)懇求轉換成其他搜索引擎能接受的命令格式，并行地訪(fǎng)問(wèn)數個(gè)搜索引擎來(lái)查詢(xún)這個(gè)關(guān)鍵詞，將這種搜索引擎返回的結果經(jīng)過(guò)處理后再返回給用戶(hù)。在搜索結果排列方面，有的直接按來(lái)源引擎排列搜索結果，有的則按自定的規則將結果重新排列組合。

　　2、網(wǎng)絡(luò )爬蟲(chóng)技術(shù)

　　2.1 網(wǎng)絡(luò )爬蟲(chóng)的工作原理

　　網(wǎng)絡(luò )爬蟲(chóng)源自Spider（或Crawler、robots、wanderer）等的譯音。網(wǎng)絡(luò )爬蟲(chóng)的定義有廣義和狹義之分，狹義的定義為：利用標準的http 協(xié)議，根據超級鏈接和Web 文檔檢索的方式遍歷萬(wàn)維網(wǎng)信息空間的軟件程序。廣義的定義為：所有能借助http協(xié)議檢索Web 文檔的軟件都稱(chēng)之為網(wǎng)路爬蟲(chóng)。

　　網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)功能太強悍的手動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)下載網(wǎng)頁(yè)，是搜索引擎的重要組成部份。它通過(guò)懇求站點(diǎn)上的HTML 文檔訪(fǎng)問(wèn)某一站點(diǎn)。它遍歷Web 空間，不斷從一個(gè)站點(diǎn)到另一個(gè)站點(diǎn)，自動(dòng)構建索引，并加入到網(wǎng)頁(yè)數據庫中。網(wǎng)絡(luò )爬蟲(chóng)步入某個(gè)超級文本時(shí)，利用HTML 語(yǔ)言的標記結構來(lái)搜索信息及獲取指向其他超級文本的URL 地址，可以完全不依賴(lài)用戶(hù)干預實(shí)現網(wǎng)路上的手動(dòng)“爬行”和搜索。網(wǎng)絡(luò )爬蟲(chóng)在搜索時(shí)常常采用一定的搜索策略。

　　2.2 網(wǎng)絡(luò )爬蟲(chóng)的搜索策略

　　1）深度優(yōu)先搜索策略

　　深度優(yōu)先搜索是在開(kāi)發(fā)爬蟲(chóng)初期使用較多的方式，它的目的是要達到被搜索結構的葉結點(diǎn)（即這些不包含任何超級鏈接的HTML文件）。在一個(gè)HTML文件中，當一個(gè)超級鏈接被選擇后，被鏈接的HTML文件將執行深度優(yōu)先搜索，即在搜索其余的超級鏈接結果之前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索順著(zhù)HTML文件上的超級鏈接走到不能再深入為止，然后返回到某一個(gè)HTML文件，再繼續選擇該HTML文件中的其他超級鏈接。當不再有其他超級鏈接可選擇時(shí)，說(shuō)明搜索早已結束。其優(yōu)點(diǎn)是能遍歷一個(gè)Web站點(diǎn)或深層嵌套的文檔集合。缺點(diǎn)是因為Web結構相當深，有可能導致一旦進(jìn)去再也出不來(lái)的情況發(fā)生。

　　2）寬度優(yōu)先搜索策略

　　在長(cháng)度優(yōu)先搜索中，先搜索完一個(gè)Web頁(yè)面中所有的超級鏈接，然后再繼續搜索下一層，直到底層為止。例如，一個(gè)HTML 文件中有3個(gè)超級鏈接，選擇其中之一，處理相應的HTML文件，然后不再選擇第二個(gè)HTML文件中的任何超級鏈接，而是返回，選擇第二個(gè)超級鏈接，處理相應的HTML文件，再返回，選擇第三個(gè)超級鏈接，并處理相應的HTML文件。一旦一層上的所有超級鏈接都被選擇過(guò)，就可以開(kāi)始在剛剛處理過(guò)的HIML文件中搜索其余的超級鏈接。這就保證了對淺層的首先處理。當遇見(jiàn)一個(gè)無(wú)窮盡的深層分支時(shí)網(wǎng)絡(luò )爬蟲(chóng) 技術(shù)，不會(huì )造成陷進(jìn)WWW的深層文檔中出不來(lái)的情況發(fā)生。寬度優(yōu)先搜索策略還有一個(gè)優(yōu)點(diǎn)，它能在兩個(gè)HTML文件之間找到最短路徑。寬度優(yōu)先搜索策略一般是實(shí)現爬蟲(chóng)的最佳策略，因為它容易實(shí)現，而且具備大多數期望的功能。但是假如要遍歷一個(gè)指定的站點(diǎn)或則深層嵌套的HTML文件集，用長(cháng)度優(yōu)先搜索策略則須要耗費較長(cháng)時(shí)間能夠抵達深層的HTML文件。

　　綜合考慮以上幾種策略和國外信息導航系統搜索信息的特性，國內通常采用以長(cháng)度優(yōu)先搜索策略為主，線(xiàn)性搜索策略為輔的搜索策略。對于個(gè)別不被引用的或極少被引用的HTML文件，寬度優(yōu)先搜索策略可能會(huì )遺漏那些孤立的信息源，可以用線(xiàn)性搜索策略作為它的補充。

　　3）聚焦搜索策略

　　聚焦爬蟲(chóng)的爬行策略只跳出某個(gè)特定主題的頁(yè)面，根據“最好優(yōu)先原則”進(jìn)行訪(fǎng)問(wèn)，快速、有效地獲得更多的與主題相關(guān)的頁(yè)面，主要通過(guò)內容與Web的鏈接結構指導進(jìn)一步的頁(yè)面抓取。聚焦爬蟲(chóng)會(huì )給它所下載的頁(yè)面一個(gè)評價(jià)分，根據得分排序插入到一個(gè)隊列中。最好的下一個(gè)搜索對彈出隊列中的第一個(gè)頁(yè)面進(jìn)行剖析后執行，這種策略保證爬蟲(chóng)能優(yōu)先跟蹤這些最有可能鏈接到目標頁(yè)面的頁(yè)面。決定網(wǎng)路爬蟲(chóng)搜索策略的關(guān)鍵是怎樣評價(jià)鏈接價(jià)值，即鏈接價(jià)值的估算方式，不同的價(jià)值評價(jià)方式估算出的鏈接的價(jià)值不同，表現出的鏈接的“重要程度”也不同，從而決定了不同的搜索策略。由于鏈接包含于頁(yè)面之中，而一般具有較高價(jià)值的頁(yè)面包含的鏈接也具有較高價(jià)值，因而對鏈接價(jià)值的評價(jià)有時(shí)也轉換為對頁(yè)面價(jià)值的評價(jià)。這種策略一般運用在專(zhuān)業(yè)搜索引擎中，因為這些搜索引擎只關(guān)心某一特定主題的頁(yè)面。

　　【福利】填問(wèn)卷送精選測試禮包+接口測試課程！為測試行業(yè)做點(diǎn)事！

0

2020-05-11

搜索引擎網(wǎng)絡(luò )爬蟲(chóng) web技術(shù)

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久