搜索引擎優(yōu)化(seo)的基本工作模塊(SEO人員需要了解搜索引擎的工作原理,你知道嗎?)
優(yōu)采云 發(fā)布時(shí)間: 2022-04-20 12:25搜索引擎優(yōu)化(seo)的基本工作模塊(SEO人員需要了解搜索引擎的工作原理,你知道嗎?)
SEO 需要了解搜索引擎的工作原理以及它們的工作原理,以便更好地優(yōu)化 網(wǎng)站。搜索引擎的基本工作原理包括以下四個(gè)過(guò)程:爬取建庫、檢索排序、外部投票、結果展示。搜索引擎工作原理流程圖如圖2-2所示。百度也正式發(fā)布了《搜索引擎的工作原理》,百度從官方的角度發(fā)出了一些聲音,糾正了網(wǎng)上對搜索引擎的一些誤解。
搜索引擎蜘蛛如何工作
隨著(zhù)互聯(lián)網(wǎng)信息的爆炸式增長(cháng),如何有效地獲取和利用這些信息是搜索引擎工作的首要環(huán)節。數據爬取系統作為整個(gè)搜索系統的上游,主要負責互聯(lián)網(wǎng)信息的采集、存儲和更新。它像蜘蛛一樣在網(wǎng)絡(luò )中爬行,因此通常被稱(chēng)為“蜘蛛”。比如我們常用的搜索引擎蜘蛛有Baiduspider、Googlebot、搜狗網(wǎng)絡(luò )蜘蛛等。
蜘蛛爬取系統是搜索引擎數據來(lái)源的重要保障。如果把Web理解為一個(gè)有向圖,那么蜘蛛的工作過(guò)程可以認為是對這個(gè)有向圖的遍歷。從一些重要的*敏*感*詞*URL開(kāi)始,通過(guò)頁(yè)面上的超鏈接關(guān)系,不斷發(fā)現新的URL并進(jìn)行爬取,從而盡可能多地爬取有價(jià)值的網(wǎng)頁(yè)。對于百度這樣的大型爬蟲(chóng)系統,由于網(wǎng)頁(yè)隨時(shí)都有被修改、刪除或者新的超鏈接出現的可能,所以需要不斷更新爬蟲(chóng)過(guò)去爬過(guò)的頁(yè)面,維護一個(gè)URL庫和頁(yè)面庫。
蜘蛛爬取系統基本框架圖,包括鏈接存儲系統、鏈接選擇系統、DNS解析服務(wù)系統、爬取調度系統、網(wǎng)頁(yè)分析系統、鏈接提取系統、鏈接分析系統、網(wǎng)頁(yè)存儲系統。百度蜘蛛通過(guò)本系統的配合完成對互聯(lián)網(wǎng)頁(yè)面的爬取。
圖 2-3
1.爬取策略類(lèi)型
圖2-3看似簡(jiǎn)單,但Baiduspider在爬取過(guò)程中實(shí)際上面臨著(zhù)一個(gè)超級復雜的網(wǎng)絡(luò )環(huán)境。一致性,在不給網(wǎng)站體驗帶來(lái)壓力的同時(shí),需要設計多種復雜的抓取策略。這里有一個(gè)簡(jiǎn)單的介紹:
(1)爬取友好度
龐大數量級的互聯(lián)網(wǎng)資源要求爬蟲(chóng)系統盡可能高效地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取有價(jià)值的資源。這就產(chǎn)生了另一個(gè)問(wèn)題:消耗被逮捕的網(wǎng)站的帶寬會(huì )造成訪(fǎng)問(wèn)壓力。如果度數過(guò)大,將直接影響被捕網(wǎng)站的正常用戶(hù)訪(fǎng)問(wèn)行為。所以在爬取過(guò)程中要控制好爬取壓力,既不影響網(wǎng)站的正常用戶(hù)訪(fǎng)問(wèn),又要盡可能多地搶到有價(jià)值的資源。
通常,最基本的是基于IP的壓力控制。因為如果是基于域名的話(huà),可能會(huì )出現一個(gè)域名對應多個(gè)IP(很多大網(wǎng)站)或者多個(gè)域名對應同一個(gè)IP(小網(wǎng)站共享IP)的問(wèn)題. 在實(shí)踐中,往往根據IP和域名的各種情況進(jìn)行壓力分配控制。同時(shí),站長(cháng)平臺也推出了壓力反饋工具。站長(cháng)可以自己手動(dòng)調節抓取壓力網(wǎng)站。這時(shí)百度蜘蛛會(huì )根據站長(cháng)的要求,優(yōu)先控制抓取壓力。
對同一站點(diǎn)的爬取速度控制一般分為兩類(lèi):一類(lèi)是一段時(shí)間內的爬取頻率;另一種是一段時(shí)間內的爬行流量。同一個(gè)站點(diǎn)在不同時(shí)間的爬取速度也是不同的。例如,根據具體的網(wǎng)站類(lèi)型,在夜間爬行可能會(huì )更快。主要思路是錯開(kāi)正常用戶(hù)訪(fǎng)問(wèn)的高峰,不斷調整。不同的站點(diǎn)也需要不同的爬取率。
(2)常用爬取返回碼
下面簡(jiǎn)單介紹一下百度支持的幾種返回碼。
?、?最常見(jiàn)的 404 代表“NOT FOUND”。認為網(wǎng)頁(yè)無(wú)效,通常會(huì )從庫中刪除。同時(shí),如果蜘蛛在短期內再次找到這個(gè)網(wǎng)址,也不會(huì )被抓取。
?、?03代表“Service Unavailable”,表示網(wǎng)頁(yè)暫時(shí)無(wú)法訪(fǎng)問(wèn)。通常,網(wǎng)站 暫時(shí)關(guān)閉,帶寬受限。對于返回503狀態(tài)碼的網(wǎng)頁(yè),百度蜘蛛不會(huì )直接刪除這個(gè)網(wǎng)址,會(huì )在短時(shí)間內多次訪(fǎng)問(wèn)。如果網(wǎng)頁(yè)已經(jīng)恢復,會(huì )正常爬??;如果繼續返回 503,則該 URL 仍會(huì )被訪(fǎng)問(wèn)。被認為是斷開(kāi)的鏈接,已從庫中刪除。
?、?03代表“Forbidden”,表示該網(wǎng)頁(yè)當前被禁止訪(fǎng)問(wèn)。如果是新的URL,蜘蛛暫時(shí)不會(huì )抓取,短期內會(huì )多次訪(fǎng)問(wèn);如果是已有的收錄 URL,則不會(huì )直接刪除,短期內還會(huì )多次訪(fǎng)問(wèn)。如果網(wǎng)頁(yè)正常訪(fǎng)問(wèn),則正常爬??;如果仍然禁止訪(fǎng)問(wèn),該 URL 也將被視為無(wú)效鏈接,將從庫中刪除。
?、?01代表“Moved Permanently”,表示網(wǎng)頁(yè)被重定向到一個(gè)新的URL。遇到網(wǎng)站遷移、域名替換、網(wǎng)站改版時(shí),建議使用301返回碼,并使用站長(cháng)平臺網(wǎng)站改版工具,減少改版帶來(lái)的網(wǎng)站流量損失.
(3)識別多個(gè) URL 重定向
Internet 上的某些網(wǎng)頁(yè)由于各種原因具有 URL 重定向狀態(tài)。為了正常抓取這些資源,需要蜘蛛識別和判斷URL重定向,同時(shí)防止作弊。重定向可以分為三類(lèi):http 30x 重定向、元刷新重定向和 js 重定向。此外,百度還支持Canonical標簽,在效果上也可以認為是間接重定向。
(4)搶優(yōu)先分配
由于互聯(lián)網(wǎng)資源的巨*敏*感*詞*和快速變化,搜索引擎幾乎不可能對所有資源進(jìn)行合理的抓取和更新并保持一致性。因此,爬蟲(chóng)系統需要設計合理的爬取優(yōu)先級分配策略,主要包括深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、社交分享引導策略等。自己的優(yōu)點(diǎn)和缺點(diǎn)。在實(shí)際情況中,往往會(huì )結合使用多種策略來(lái)達到最佳的抓取效果。
(5)重復 URL 過(guò)濾
在爬取過(guò)程中,蜘蛛需要判斷一個(gè)頁(yè)面是否被爬取過(guò)。如果還沒(méi)有被爬取過(guò),就會(huì )對網(wǎng)頁(yè)進(jìn)行爬取,放到被爬取的url集合中。判斷是否被爬取的核心是快速查找對比,還涉及到URL規范化識別。例如,收錄大量無(wú)效參數的 URL,但實(shí)際上是同一頁(yè)面,將被視為同一 URL。
(6)暗網(wǎng)數據采集
互聯(lián)網(wǎng)上有很多暫時(shí)無(wú)法被搜索引擎捕獲的數據,稱(chēng)為暗網(wǎng)數據。一方面,網(wǎng)站的大量數據存在于網(wǎng)絡(luò )數據庫中,蜘蛛很難通過(guò)爬取網(wǎng)頁(yè)獲取完整的內容;該問(wèn)題還會(huì )導致搜索引擎無(wú)法抓取。目前暗網(wǎng)數據獲取的主要思路還是使用開(kāi)放平臺提交數據,比如“百度站長(cháng)平臺”、“百度開(kāi)放平臺”等。
(7)搶反作弊
爬蟲(chóng)在爬取過(guò)程中經(jīng)常會(huì )遇到所謂的爬蟲(chóng)黑洞,或者面臨大量低質(zhì)量頁(yè)面的問(wèn)題,這就要求在爬蟲(chóng)系統中也應該設計一套完整的爬蟲(chóng)防作弊系統。比如分析URL特征,分析頁(yè)面大小和內容,分析爬取規模對應的站點(diǎn)規模等。
聲明:本站所有文章,除非另有說(shuō)明或標記,均發(fā)布在本站原創(chuàng )。任何個(gè)人或組織未經(jīng)本站同意,不得復制、盜用、采集、將本站內容發(fā)布到任何網(wǎng)站、書(shū)籍等媒體平臺。本站內容如有侵犯原作者合法權益的,您可以聯(lián)系我們處理。
新用戶(hù)正常
支付寶掃描
微信掃一掃>獎勵領(lǐng)取海報鏈接





