昆明網(wǎng)絡(luò )營(yíng)銷(xiāo)培訓之百度蜘蛛Baiduspider的user-agent是什么?
優(yōu)采云 發(fā)布時(shí)間: 2021-06-15 05:18昆明網(wǎng)絡(luò )營(yíng)銷(xiāo)培訓之百度蜘蛛Baiduspider的user-agent是什么?
昆明網(wǎng)絡(luò )營(yíng)銷(xiāo)培訓先行普及知識。百度蜘蛛是百度搜索引擎的自動(dòng)程序。它的作用是訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè),建立索引庫,方便用戶(hù)在百度搜索引擎網(wǎng)站上搜索到你的網(wǎng)頁(yè)。
一、百度 SpiderBaiduspider 什么是用戶(hù)代理?
百度產(chǎn)品使用不同的用戶(hù)代理:
產(chǎn)品名稱(chēng)對應用戶(hù)代理
無(wú)線(xiàn)搜索百度蜘蛛
圖片搜索Baiduspider-image
視頻搜索百度蜘蛛視頻
新聞搜索Baiduspider-news
百度采集baiduspider-favo
百度聯(lián)盟Baiduspider-cpro
商業(yè)搜索百度蜘蛛廣告
網(wǎng)頁(yè)和其他搜索百度蜘蛛
二、百度蜘蛛百度蜘蛛對網(wǎng)站服務(wù)器造成的訪(fǎng)問(wèn)壓力是什么?
為了對目標資源取得更好的檢索效果,百度蜘蛛需要對你的網(wǎng)站保持一定的抓取量。
我們盡量不對網(wǎng)站施加不合理的負擔,會(huì )根據服務(wù)器容量、網(wǎng)站quality、網(wǎng)站update等綜合因素進(jìn)行調整。
如果您覺(jué)得百度蜘蛛的訪(fǎng)問(wèn)有任何不合理的行為,您可以向百度投訴平臺舉報。
三、為什么百度蜘蛛Baiduspider老是爬我的網(wǎng)站?
Baiduspider 將繼續抓取您網(wǎng)站 上新生成或不斷更新的頁(yè)面。
另外,您還可以在網(wǎng)站訪(fǎng)問(wèn)日志中查看百度蜘蛛的訪(fǎng)問(wèn)是否正常,防止有人冒充百度蜘蛛頻繁抓取您的網(wǎng)站。
如果您發(fā)現Baiduspider異常抓取您的網(wǎng)站,請通過(guò)投訴平臺反饋給我們,并盡量提供Baiduspider對您網(wǎng)站的訪(fǎng)問(wèn)日志,以便我們進(jìn)行跟蹤處理。
四、如何判斷是否冒充百度蜘蛛爬蟲(chóng)?
建議您使用DNS反向檢查的方式來(lái)判斷爬取源的IP是否屬于百度。驗證方法因平臺而異。比如linux/windows/os三個(gè)平臺下的驗證方法如下:
1、linux平臺下可以使用host ip命令破譯ip來(lái)判斷是否來(lái)自百度蜘蛛。
Baiduspider 的主機名以 *.或 *.baidu.jp。如果不是 *.或者*.baidu.jp,都是假的。
$ 主機 123.125.66.120
120.66.125.123.in-addr.arpa 域名指針
.
主持人 119.63.195.254
254.195.63.119.in-addr.arpa 域名指針
BaiduMobaider-119-63-195-254.crawl.baidu.jp.
2、windows平臺或IBM OS/2平臺下,可以使用nslookup ip命令解密ip來(lái)判斷是否來(lái)自百度蜘蛛。打開(kāi)命令處理器,輸入nslookup xxx.xxx .x??xx.xxx(IP地址)解析ip判斷是否來(lái)自百度蜘蛛。百度蜘蛛的主機名以*格式命名?;?*.baidu.jp,而不是 *.或者*.baidu.jp是冒充的。
3、 mac os平臺下,可以使用dig命令解密ip來(lái)判斷是否來(lái)自百度蜘蛛。
打開(kāi)命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)解析ip判斷是否來(lái)自百度蜘蛛。百度蜘蛛的主機名以*格式命名?;?*.baidu.jp。不是 *?;蛘?*.baidu.jp 是冒充的。
五、我不希望我的網(wǎng)站被百度蜘蛛Baiduspider訪(fǎng)問(wèn),我該怎么辦?
Baiduspider 遵守互聯(lián)網(wǎng)機器人協(xié)議。您可以使用robots.txt文件完全禁止百度蜘蛛訪(fǎng)問(wèn)您的網(wǎng)站,或者禁止百度蜘蛛訪(fǎng)問(wèn)您網(wǎng)站上的部分文件。
注意:禁止百度蜘蛛訪(fǎng)問(wèn)您的網(wǎng)站,您在網(wǎng)站上的網(wǎng)頁(yè)將無(wú)法在百度搜索引擎和百度提供搜索引擎服務(wù)的所有搜索引擎中搜索到。
昆明網(wǎng)絡(luò )營(yíng)銷(xiāo)培訓建議您可以根據每個(gè)產(chǎn)品的不同用戶(hù)代理設置不同的抓取規則。如果要完全禁止所有百度產(chǎn)品收錄,可以直接設置Baiduspider禁止爬取。
以下機器人實(shí)現禁止所有來(lái)自百度的蜘蛛抓?。?/p>
用戶(hù)代理:百度蜘蛛
禁止:/
以下robots實(shí)現禁止所有來(lái)自百度的抓取,但允許圖片搜索抓取/image/目錄:
用戶(hù)代理:百度蜘蛛
禁止:/
用戶(hù)代理:Baiduspider-image
允許:/image/
請注意:Baiduspider-cpro 抓取的網(wǎng)頁(yè)不會(huì )被索引,但會(huì )執行與客戶(hù)約定的操作。因此,不遵守機器人協(xié)議。如果Baiduspider-cpro給您帶來(lái)麻煩,請聯(lián)系我們。
Baiduspider-ads 抓取的網(wǎng)頁(yè)不會(huì )被索引,但會(huì )執行與客戶(hù)約定的操作。因此,不遵守機器人協(xié)議。如果百度蜘蛛廣告給您帶來(lái)麻煩,請聯(lián)系您的客戶(hù)服務(wù)專(zhuān)員。
六、為什么我的網(wǎng)站添加了robots.txt,在百度上還是可以搜索到?
因為更新搜索引擎索引數據庫需要時(shí)間。雖然百度蜘蛛已經(jīng)停止訪(fǎng)問(wèn)您在網(wǎng)站上的網(wǎng)頁(yè),但清除百度搜索引擎數據庫中已建立網(wǎng)頁(yè)的索引信息可能需要幾個(gè)月的時(shí)間。另請檢查您的機器人是否配置正確。
如果收錄急需您的拒絕,您也可以通過(guò)投訴平臺反饋請求處理。
七、我希望我的網(wǎng)站內容被百度收錄但不保存快照,我該怎么辦?
Baiduspider 符合互聯(lián)網(wǎng)元機器人協(xié)議。您可以使用網(wǎng)頁(yè)元設置使百度顯示僅索引網(wǎng)頁(yè),而不在搜索結果中顯示網(wǎng)頁(yè)快照。
和robots的更新一樣,因為更新搜索引擎索引庫需要時(shí)間,雖然你已經(jīng)通過(guò)網(wǎng)頁(yè)上的meta禁止百度在搜索結果中顯示該網(wǎng)頁(yè)的快照,如果百度搜索引擎數據庫已建立 網(wǎng)絡(luò )索引信息上線(xiàn)可能需要兩到四個(gè)星期的時(shí)間。
八、百度SpiderBaiduspider是爬蟲(chóng)導致的帶寬擁塞嗎?
百度蜘蛛的正常抓取不會(huì )阻塞你的網(wǎng)站帶寬。這種現象可能是有人冒充百度蜘蛛惡意抓取造成的。
如果您發(fā)現百度蜘蛛代理爬行導致帶寬擁塞,您可以將信息反饋給投訴平臺。如果能提供這段時(shí)間的網(wǎng)站訪(fǎng)問(wèn)日志就更好了。
我對百度蜘蛛有很多了解,希望它能大大提高您的網(wǎng)站optimization。昆明網(wǎng)絡(luò )營(yíng)銷(xiāo)培訓機構希望您能綜合利用這些資源!