百度爬蟲(chóng)抓取規則及4個(gè)吸引爬蟲(chóng)的有效策略【碼迷SEO內參】
優(yōu)采云 發(fā)布時(shí)間: 2020-06-21 08:00
通過(guò)百度專(zhuān)利闡述本質(zhì)
百度爬蟲(chóng)多久爬一次,百度爬蟲(chóng)多久更新,百度爬蟲(chóng)爬了以后到底多久收錄,帶著(zhù)這種問(wèn)題,碼迷帶你一探百度的相關(guān)專(zhuān)利。
碼迷認為《2.7資源平衡性的確定方式、裝置、設備以及存儲介質(zhì)》足以揭秘以上好多的問(wèn)題,也太能使SEOer們回味。
百度對網(wǎng)站的抓取策略很大程度上參考了經(jīng)濟學(xué)上面的基尼系數算法,來(lái)有效平衡爬蟲(chóng)資源分配。
百度專(zhuān)利是這樣說(shuō)的:
搜索資源是搜索引擎類(lèi)產(chǎn)品的基石,一條資源(典型的,一個(gè)資源站點(diǎn)中更新的一個(gè)網(wǎng)頁(yè))從形成到詮釋給搜索用戶(hù)要經(jīng)歷資源抓取、入庫(也正式資源收錄于資源庫中)、召回(也即資源的分發(fā))、排序、展現等一系列過(guò)程。其中資源的抓取、入庫是召回的基礎;請求召回的資源數目的多少是對資源抓取、入庫質(zhì)量?jì)?yōu)良的有效指標,也是影響用戶(hù)體驗的主要誘因。在現有技術(shù)中,沒(méi)有對資源庫中資源的收錄與分發(fā)的平衡性進(jìn)行評判的技巧。
本發(fā)明施行例提供了一種資源平衡性的確定方式、裝置、設備以及儲存介質(zhì),通過(guò)應用評判經(jīng)濟分配的公正程度的目標經(jīng)濟學(xué)參數的估算方式,使用設定時(shí)間區間內資源庫針對各個(gè)資源站點(diǎn)的資源收錄量以及資源分發(fā)量,計算用于評判所述資源庫的資源收錄及分發(fā)的平衡性的資源平衡性參數的技術(shù)手段,創(chuàng )造性的給出了一種有效評判資源庫中資源的收錄與分發(fā)平衡性的新方式,使得用戶(hù)可以依照估算得到的資源平衡性參數百度爬蟲(chóng),量化的感知出資源庫中資源的收錄與分發(fā)是否平衡,并因而可以依據該資源平衡性參數的估算結果,適應性的調整針對所述資源庫的資源抓取策略。
碼迷大白話(huà):有排行的網(wǎng)頁(yè)數目占總網(wǎng)站的百分比才是決定爬蟲(chóng)抓取頻度的重要指標。
百度專(zhuān)利還說(shuō):
[0086]
例如,可以設定一個(gè)平衡閥值條件為:0.4-0.6,如果估算得到的資源平衡性參數滿(mǎn)足該平衡閥值條件,則可以確定當前的資源抓取策略比較合理,資源的收錄及分發(fā)過(guò)程比較平衡;如果估算得到的資源平衡性參數不滿(mǎn)足該平衡閥值條件,則可以確定當前的資源抓取策略不太合理,進(jìn)而可以獲取資源收錄量與資源分發(fā)量之間的差值超過(guò)設定門(mén)限(例如,資源收錄量-資源分發(fā)量小于1000,或者資源分發(fā)量-資源收錄量小于1000等)的異常資源站點(diǎn)。
[0087]相應的,根據所述異常資源站點(diǎn)的資源收錄量與資源分發(fā)量之間的差別類(lèi)型(資源收錄量小于資源分發(fā)量,或者資源分發(fā)量小于資源收錄量),對所述異常資源站點(diǎn)的資源抓取策略進(jìn)行適應性調整(例如:增大或則減少對所述異常資源站點(diǎn)的抓取頻度,和/或抓取深度等)。
碼迷大白話(huà):垃圾內容越發(fā)越?jīng)]爬蟲(chóng)來(lái)
《CN2.8一種網(wǎng)站數據抓取裝置及技巧》
本發(fā)明提供了一種網(wǎng)站數據抓取裝置及方式,以更合理而且快速的調度抓取網(wǎng)站數據百度爬蟲(chóng),使得在有限的資源下盡可能地讓搜索引擎所抓取的網(wǎng)站數據才能保持較高的更新水平。
[0005] 具體方案如下 :提供一種網(wǎng)站數據抓取方式,包括 :a. 獲取多條爬蟲(chóng)日志,以產(chǎn)生日志文件,其中所述每一爬蟲(chóng)日志包括互相關(guān)聯(lián)的站點(diǎn)名稱(chēng)、IP 地址、網(wǎng)站數據以及抓取時(shí)間 ;b. 以所述站點(diǎn)名稱(chēng)為基準將所述日志文件合并到合并日志文件中,在所述合并日志文件中,每一所述站點(diǎn)名稱(chēng)下關(guān)聯(lián)有一個(gè)或多個(gè)在所述爬蟲(chóng)日志中與所述站點(diǎn)名稱(chēng)相關(guān)聯(lián)的IP 地址,每一所述站點(diǎn)名稱(chēng)下進(jìn)一步關(guān)聯(lián)有在所述爬蟲(chóng)日志中與所述站點(diǎn)名稱(chēng)相關(guān)聯(lián)的抓取時(shí)間和網(wǎng)站數據 ;c. 以所述 IP 地址為基準對所述合并日志文件進(jìn)行倒排處理,以獲取倒排日志文件,在所述倒排日志文件中,每一所述 IP 地址下關(guān)聯(lián)有一個(gè)或多個(gè)在所述合并日志文件中與所述 IP 地址相關(guān)聯(lián)的站點(diǎn)名稱(chēng),每一所述站點(diǎn)名稱(chēng)進(jìn)一步關(guān)聯(lián)有在所述合并日志文件中與所述站點(diǎn)名稱(chēng)相關(guān)聯(lián)的抓取時(shí)間和網(wǎng)站數據 ;d. 對所述倒排日志文件中每一所述 IP 地址下的站點(diǎn)名稱(chēng)進(jìn)行應用策略估算,以獲取多個(gè)以?xún)?yōu)先級別排列的待抓取站點(diǎn)名稱(chēng)以及對應的待抓取 IP 地址,形成待抓取列表。
碼迷大白話(huà):同IP網(wǎng)站優(yōu)先抓取權重高的網(wǎng)站,抓取次數根據服務(wù)器性能計算來(lái)抓。假如一臺服務(wù)器單日最多能1000個(gè)IP,里面有8個(gè)站,其中權重最高的站每晚更新1萬(wàn)內容,那其他站連爬蟲(chóng)駕臨機會(huì )都沒(méi)有。
百度專(zhuān)利上面說(shuō)了,網(wǎng)頁(yè)被搜到被點(diǎn)擊的概率,網(wǎng)站整個(gè)網(wǎng)頁(yè)數目、IP資源分配都可以影響爬蟲(chóng)駕臨頻度,通過(guò)以上百度剖析,碼迷總結了一個(gè)爬蟲(chóng)頻度公式如下,暫且叫碼迷爬蟲(chóng)頻度公式吧
百度爬蟲(chóng)頻度 = 鏈接發(fā)覺(jué)概率 * 有效排行頁(yè)面占比 * 有效收錄頁(yè)面數目 - 同IP其他網(wǎng)站數*其他網(wǎng)站權重
很明顯我們要吸引百度爬蟲(chóng)蜘蛛,可以通過(guò)以下手段
如果網(wǎng)站外鏈越多,爬蟲(chóng)發(fā)覺(jué)的概率也越大。所以很多人問(wèn):蜘蛛池有用嗎?
碼迷并沒(méi)有找到外鏈與爬蟲(chóng)之間的關(guān)系,但是通過(guò)往年的經(jīng)驗來(lái)看,一個(gè)網(wǎng)站的有效外鏈越多,越容易獲得百度蜘蛛發(fā)覺(jué),蜘蛛池只是增強網(wǎng)頁(yè)被蜘蛛的爬取概率,但是碼迷這兒還沒(méi)有證據證明,蜘蛛池才能提升有效收錄率。
蜘蛛池是有效的,但是蜘蛛池本質(zhì)上是一個(gè)站群系統,如果蜘蛛池上面內容都是灰色地帶的內容,做合法行業(yè)的網(wǎng)站建議盡量保持距離。
新站怎么吸引爬蟲(chóng)?我的網(wǎng)站上線(xiàn)很久了,發(fā)了很多內容,為什么沒(méi)有收錄?
持續的優(yōu)質(zhì)內容輸出,一方面降低百度有效收錄率,另一方面降低搜索曝光率才是最重要的吸引蜘蛛的途徑。
如果你花費了百度的爬蟲(chóng)資源即使了,百度雖然收錄了你的網(wǎng)頁(yè),但是卻沒(méi)有人來(lái)搜或則沒(méi)有前三頁(yè)的排行。百度假如認為你的網(wǎng)站辣么多內容木有人用,這跟狼來(lái)了的故事是一個(gè)道理。
這個(gè)不展開(kāi)說(shuō)明了
做個(gè)別行業(yè)的老師還會(huì )搭配蜘蛛池來(lái)降低鏈接發(fā)覺(jué)的機率,利用泛目錄程序生成海量的內容頁(yè)面,增加有效收錄頁(yè)面數目。這個(gè)時(shí)侯要如何使百度感覺(jué)你形成的網(wǎng)頁(yè)有人搜,有人看,才能提升有效排行頁(yè)面占比,那么你刷快排了嗎?
百度爬蟲(chóng)多久爬一次?
這個(gè)取決于你的網(wǎng)站頁(yè)面數、網(wǎng)站質(zhì)量,一般單頁(yè)站點(diǎn)在每晚1次左右。你從百度獲取的流量越多,爬蟲(chóng)也爬的越勤勞。
百度爬蟲(chóng)多久收錄?
首先,新站爬取后,并不會(huì )立刻收錄,如果內容質(zhì)量好,并持續降低內容,預計1個(gè)月左右。
其次,優(yōu)質(zhì)老站當天就有收錄,也就是秒收。
最后,垃圾站取決于你的心態(tài),垃圾內容越多,越不收錄。
百度爬蟲(chóng)多久更新?
分兩種情況,
第1種,網(wǎng)站內容被爬蟲(chóng)訪(fǎng)問(wèn)后,如果內容質(zhì)量垃圾,收錄蜘蛛訪(fǎng)問(wèn)后1-3天內,如果沒(méi)有快照蜘蛛訪(fǎng)問(wèn),多久都不會(huì )有更新。
第2種,網(wǎng)站內容質(zhì)量好,快照蜘蛛訪(fǎng)問(wèn)后通常1-3天內快照必然更新,否則是你的站沒(méi)有過(guò)考察期,要等1-3個(gè)月不等。
文末福利
今天就那些,下一節我們將拿一個(gè)案例來(lái)剖析。微信公眾號優(yōu)質(zhì)評論前10名將會(huì )獲得碼迷整理的66個(gè)百度專(zhuān)利,先到先得。




