亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

robots協(xié)議

robots協(xié)議

Robots合同探究:如何好好借助爬蟲(chóng)提升網(wǎng)站權重

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 293 次瀏覽 ? 2020-06-17 08:02 ? 來(lái)自相關(guān)話(huà)題

  Baiduspider-favo
  百度聯(lián)盟
  Baiduspider-cpro
  上午搜索
  Baiduspider-ads
  Disallow列舉的是要屏蔽(禁止搜索引擎訪(fǎng)問(wèn))的網(wǎng)頁(yè),以正斜線(xiàn) / 開(kāi)頭。
  如要屏蔽整個(gè)網(wǎng)站,直接使用正斜線(xiàn)即可;
  User-agent: *
Disallow: /
  屏蔽某個(gè)特定的目錄以及其中的所有內容,則在目錄名后添加正斜線(xiàn);
  User-agent: *
Disallow: /admin/
Disallow: /doc/app
  使用 "*" and "$" :Baiduspider支持使用轉義 "*" 和 "$" 來(lái)模糊匹配url。
  "*" 匹配0或多個(gè)任意字符
  "$" 匹配行結束符。
  屏蔽以 plug- 開(kāi)頭的所有子目錄:用到 *
  User-agent: *
Disallow: /plug-*/
  屏蔽 php 結尾的文件:用到 $
  User-agent: *
Disallow: /*.php$
  屏蔽某個(gè)具體的頁(yè)面:
  User-agent: *
Disallow: /admin/index.html
  屏蔽所有的動(dòng)態(tài)頁(yè)面:
  User-agent: *
Disallow: /*?*
  禁止個(gè)別爬蟲(chóng)訪(fǎng)問(wèn)
  已屏蔽 Badbot 為例:
  User-agent: BadBot
Disallow: /
  只容許某個(gè)爬蟲(chóng)訪(fǎng)問(wèn)
  以百度爬蟲(chóng)為例:
  User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
  或者:
  User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
  允許所有的robots訪(fǎng)問(wèn)
  User-agent: *
Disallow:
  或者是:
  User-agent: *
Allow: /
  或者也可以建一個(gè)空文件 "/robots.txt"。
  屏蔽網(wǎng)站中的圖片、視頻等文件:
  User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.bmp$
Disallow: /*.mp4$
Disallow: /*.rmvb$
  只準許訪(fǎng)問(wèn) .html 結尾的 url
  Allow: /*.html$
User-agent: *
Disallow:
  我們再來(lái)結合兩個(gè)真實(shí)的范例來(lái)學(xué)習一下。
  先看這個(gè)事例:
  User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
  這個(gè)是淘寶網(wǎng)的Robots協(xié)議內容,相信你早已看下來(lái)了,淘寶網(wǎng)嚴禁百度的爬蟲(chóng)訪(fǎng)問(wèn)。
  再來(lái)看一個(gè)事例:
  User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /
  這個(gè)稍稍復雜點(diǎn),京東有2個(gè)目錄不希望所有的爬蟲(chóng)來(lái)抓。同時(shí)怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,京東完全屏蔽了一淘網(wǎng)的蜘蛛(EtaoSpider是一淘網(wǎng)的蜘蛛)。
  前面說(shuō)過(guò)爬蟲(chóng)會(huì )通過(guò)網(wǎng)頁(yè)內部的鏈接發(fā)覺(jué)新的網(wǎng)頁(yè)。但是若果沒(méi)有聯(lián)接指向的網(wǎng)頁(yè)怎樣辦?或者用戶(hù)輸入條件生成的動(dòng)態(tài)網(wǎng)頁(yè)怎樣辦?能否使網(wǎng)站管理員通知搜索引擎她們網(wǎng)站上有什么可供抓取的網(wǎng)頁(yè)?這就是sitemap,最簡(jiǎn)單的 Sitepmap 形式就是 XML 文件,在其中列舉網(wǎng)站中的網(wǎng)址以及關(guān)于每位網(wǎng)址的其他數據(上次更新的時(shí)間、更改的頻度以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等等),利用這種信息搜索引擎可以愈發(fā)智能地抓取網(wǎng)站內容。
  新的問(wèn)題來(lái)了,爬蟲(chóng)如何曉得這個(gè)網(wǎng)站有沒(méi)有提供sitemap文件,或者說(shuō)網(wǎng)站管理員生成了sitemap,(可能是多個(gè)文件),爬蟲(chóng)如何曉得放到那里呢?
  由于robots.txt的位置是固定的,于是你們就想到了把sitemap的位置信息置于robots.txt里。這就成為robots.txt里的新成員了。
  節選一段google robots.txt:
  Sitemap:
  Sitemap:
  插一句,考慮到一個(gè)網(wǎng)站的網(wǎng)頁(yè)諸多,sitemap人工維護不太靠譜,google提供了工具可以手動(dòng)生成sitemap。
  其實(shí)嚴格來(lái)說(shuō)這部份內容不屬于robots.txt。
  robots.txt的本意是為了使網(wǎng)站管理員管理可以出現在搜索引擎里的網(wǎng)站內容。但是,即使使用 robots.txt 文件使爬蟲(chóng)未能抓取那些內容,搜索引擎也可以通過(guò)其他方法找到這種網(wǎng)頁(yè)并將它添加到索引中。例如,其他網(wǎng)站仍可能鏈接到該網(wǎng)站。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息(如指向相關(guān)網(wǎng)站的鏈接中的定位文字或開(kāi)放式目錄管理系統中的標題)有可能會(huì )出現在引擎的搜索結果中。如果想徹底對搜索引擎隱身那咋辦呢?答案是:元標記,即meta tag。
  比如要完全制止一個(gè)網(wǎng)頁(yè)的內容列在搜索引擎索引中(即使有其他網(wǎng)站鏈接到此網(wǎng)頁(yè)),可使用 noindex 元標記。只要搜索引擎查看該網(wǎng)頁(yè),便會(huì )聽(tīng)到 noindex 元標記并制止該網(wǎng)頁(yè)顯示在索引中,這里注意noindex元標記提供的是一種逐頁(yè)控制對網(wǎng)站的訪(fǎng)問(wèn)的形式。
  要避免所有搜索引擎將網(wǎng)站中的網(wǎng)頁(yè)編入索引,在網(wǎng)頁(yè)的部份添加:
  <meta name="robots" content="noindex">
  這里的name取值可以設置為某個(gè)搜索引擎的User-agent因而指定屏蔽某一個(gè)搜索引擎。
  除了noindex外,還有其他元標記,比如說(shuō)nofollow,禁止爬蟲(chóng)自此頁(yè)面中跟蹤鏈接。詳細信息可以參考Google支持的元標記,這里提一句:noindex和nofollow在HTML 4.01規范里有描述,但是其他tag的在不同引擎支持到哪些程度各不相同,還請讀者自行查閱各個(gè)引擎的說(shuō)明文檔。
  除了控制什么可以抓什么不能抓之外,robots.txt還可以拿來(lái)控制爬蟲(chóng)抓取的速度。如何做到的呢?通過(guò)設置爬蟲(chóng)在兩次抓取之間等待的秒數。
  Crawl-delay:5
  表示本次抓取后下一次抓取前須要等待5秒。
  注意:google早已不支持這些方法了,在webmaster tools里提供了一個(gè)功能可以更直觀(guān)的控制抓取速度。
  這里插一句正題,幾年前以前有一段時(shí)間robots.txt還支持復雜的參數:Visit-time,只有在visit-time指定的時(shí)間段里,爬蟲(chóng)才可以訪(fǎng)問(wèn);Request-rate: 用來(lái)限制URL的讀取頻度,用于控制不同的時(shí)間段采用不同的抓取速度。后來(lái)恐怕支持的人很少,就逐漸的廢黜了,目前google和baidu都早已不支持這個(gè)規則了,其他小的引擎公司其實(shí)從來(lái)都沒(méi)有支持過(guò)。
  Robots協(xié)議不是哪些技術(shù)壁壘,而只是一種相互尊重的合同,好比私家花園的旁邊掛著(zhù)“閑人免進(jìn)”,尊重者繞道而行,不尊重者仍然可以推門(mén)而入。目前,Robots協(xié)議在實(shí)際使用中,還存在一些問(wèn)題。
  robots.txt本身也是須要抓取的,出于效率考慮,一般爬蟲(chóng)不會(huì )每次抓取網(wǎng)站網(wǎng)頁(yè)前都抓一下robots.txt,加上robots.txt更新不頻繁,內容須要解析。通常爬蟲(chóng)的做法是先抓取一次,解析后緩存出來(lái),而且是相當長(cháng)的時(shí)間。假設網(wǎng)站管理員更新了robots.txt,修改了個(gè)別規則,但是對爬蟲(chóng)來(lái)說(shuō)并不會(huì )立即生效,只有當爬蟲(chóng)上次抓取robots.txt以后才會(huì )看見(jiàn)最新的內容。尷尬的是,爬蟲(chóng)上次抓取robots.txt的時(shí)間并不是由網(wǎng)站管理員控制的。當然,有些搜索引擎提供了web 工具可以使網(wǎng)站管理員通知搜索引擎那種url發(fā)生了變化,建議重新抓取。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時(shí)抓取一直是不確定的,只是比完全不通知要好點(diǎn)。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
  不知是無(wú)意還是有意,反正有些爬蟲(chóng)不太遵循或則完全忽視r(shí)obots.txt,不排除開(kāi)發(fā)人員能力的問(wèn)題,比如說(shuō)根本不知道robots.txt。另外,本身robots.txt不是一種強制舉措怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,如果網(wǎng)站有數據須要保密,必需采取技術(shù)舉措,比如說(shuō):用戶(hù)驗證,加密,ip攔截,訪(fǎng)問(wèn)頻度控制等。
  在互聯(lián)網(wǎng)世界中,每天都有不計其數的爬蟲(chóng)在日夜不息地爬取數據,其中惡意爬蟲(chóng)的數目甚至低于非惡意爬蟲(chóng)。遵守Robots協(xié)議的爬蟲(chóng)才是好爬蟲(chóng),但是并不是每位爬蟲(chóng)就會(huì )主動(dòng)違背Robots協(xié)議。
  惡意爬蟲(chóng)可以帶來(lái)好多潛在恐嚇,比如電商網(wǎng)站的商品信息被爬取可能會(huì )被競爭對手借助,過(guò)多的爬蟲(chóng)都會(huì )占用帶寬資源、甚至造成網(wǎng)站宕機。
  反惡意爬蟲(chóng)是一件漫長(cháng)而繁重的任務(wù),如果借助自身實(shí)力無(wú)法解決,可以利用豈安科技的業(yè)務(wù)風(fēng)險剖析平臺 WARDEN 來(lái)反惡意爬蟲(chóng),根據自己的需求來(lái)訂制功能。 查看全部

  Baiduspider-favo
  百度聯(lián)盟
  Baiduspider-cpro
  上午搜索
  Baiduspider-ads
  Disallow列舉的是要屏蔽(禁止搜索引擎訪(fǎng)問(wèn))的網(wǎng)頁(yè),以正斜線(xiàn) / 開(kāi)頭。
  如要屏蔽整個(gè)網(wǎng)站,直接使用正斜線(xiàn)即可;
  User-agent: *
Disallow: /
  屏蔽某個(gè)特定的目錄以及其中的所有內容,則在目錄名后添加正斜線(xiàn);
  User-agent: *
Disallow: /admin/
Disallow: /doc/app
  使用 "*" and "$" :Baiduspider支持使用轉義 "*" 和 "$" 來(lái)模糊匹配url。
  "*" 匹配0或多個(gè)任意字符
  "$" 匹配行結束符。
  屏蔽以 plug- 開(kāi)頭的所有子目錄:用到 *
  User-agent: *
Disallow: /plug-*/
  屏蔽 php 結尾的文件:用到 $
  User-agent: *
Disallow: /*.php$
  屏蔽某個(gè)具體的頁(yè)面:
  User-agent: *
Disallow: /admin/index.html
  屏蔽所有的動(dòng)態(tài)頁(yè)面:
  User-agent: *
Disallow: /*?*
  禁止個(gè)別爬蟲(chóng)訪(fǎng)問(wèn)
  已屏蔽 Badbot 為例:
  User-agent: BadBot
Disallow: /
  只容許某個(gè)爬蟲(chóng)訪(fǎng)問(wèn)
  以百度爬蟲(chóng)為例:
  User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
  或者:
  User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
  允許所有的robots訪(fǎng)問(wèn)
  User-agent: *
Disallow:
  或者是:
  User-agent: *
Allow: /
  或者也可以建一個(gè)空文件 "/robots.txt"。
  屏蔽網(wǎng)站中的圖片、視頻等文件:
  User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.bmp$
Disallow: /*.mp4$
Disallow: /*.rmvb$
  只準許訪(fǎng)問(wèn) .html 結尾的 url
  Allow: /*.html$
User-agent: *
Disallow:
  我們再來(lái)結合兩個(gè)真實(shí)的范例來(lái)學(xué)習一下。
  先看這個(gè)事例:
  User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
  這個(gè)是淘寶網(wǎng)的Robots協(xié)議內容,相信你早已看下來(lái)了,淘寶網(wǎng)嚴禁百度的爬蟲(chóng)訪(fǎng)問(wèn)。
  再來(lái)看一個(gè)事例:
  User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /
  這個(gè)稍稍復雜點(diǎn),京東有2個(gè)目錄不希望所有的爬蟲(chóng)來(lái)抓。同時(shí)怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,京東完全屏蔽了一淘網(wǎng)的蜘蛛(EtaoSpider是一淘網(wǎng)的蜘蛛)。
  前面說(shuō)過(guò)爬蟲(chóng)會(huì )通過(guò)網(wǎng)頁(yè)內部的鏈接發(fā)覺(jué)新的網(wǎng)頁(yè)。但是若果沒(méi)有聯(lián)接指向的網(wǎng)頁(yè)怎樣辦?或者用戶(hù)輸入條件生成的動(dòng)態(tài)網(wǎng)頁(yè)怎樣辦?能否使網(wǎng)站管理員通知搜索引擎她們網(wǎng)站上有什么可供抓取的網(wǎng)頁(yè)?這就是sitemap,最簡(jiǎn)單的 Sitepmap 形式就是 XML 文件,在其中列舉網(wǎng)站中的網(wǎng)址以及關(guān)于每位網(wǎng)址的其他數據(上次更新的時(shí)間、更改的頻度以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等等),利用這種信息搜索引擎可以愈發(fā)智能地抓取網(wǎng)站內容。
  新的問(wèn)題來(lái)了,爬蟲(chóng)如何曉得這個(gè)網(wǎng)站有沒(méi)有提供sitemap文件,或者說(shuō)網(wǎng)站管理員生成了sitemap,(可能是多個(gè)文件),爬蟲(chóng)如何曉得放到那里呢?
  由于robots.txt的位置是固定的,于是你們就想到了把sitemap的位置信息置于robots.txt里。這就成為robots.txt里的新成員了。
  節選一段google robots.txt:
  Sitemap:
  Sitemap:
  插一句,考慮到一個(gè)網(wǎng)站的網(wǎng)頁(yè)諸多,sitemap人工維護不太靠譜,google提供了工具可以手動(dòng)生成sitemap。
  其實(shí)嚴格來(lái)說(shuō)這部份內容不屬于robots.txt。
  robots.txt的本意是為了使網(wǎng)站管理員管理可以出現在搜索引擎里的網(wǎng)站內容。但是,即使使用 robots.txt 文件使爬蟲(chóng)未能抓取那些內容,搜索引擎也可以通過(guò)其他方法找到這種網(wǎng)頁(yè)并將它添加到索引中。例如,其他網(wǎng)站仍可能鏈接到該網(wǎng)站。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息(如指向相關(guān)網(wǎng)站的鏈接中的定位文字或開(kāi)放式目錄管理系統中的標題)有可能會(huì )出現在引擎的搜索結果中。如果想徹底對搜索引擎隱身那咋辦呢?答案是:元標記,即meta tag。
  比如要完全制止一個(gè)網(wǎng)頁(yè)的內容列在搜索引擎索引中(即使有其他網(wǎng)站鏈接到此網(wǎng)頁(yè)),可使用 noindex 元標記。只要搜索引擎查看該網(wǎng)頁(yè),便會(huì )聽(tīng)到 noindex 元標記并制止該網(wǎng)頁(yè)顯示在索引中,這里注意noindex元標記提供的是一種逐頁(yè)控制對網(wǎng)站的訪(fǎng)問(wèn)的形式。
  要避免所有搜索引擎將網(wǎng)站中的網(wǎng)頁(yè)編入索引,在網(wǎng)頁(yè)的部份添加:
  <meta name="robots" content="noindex">
  這里的name取值可以設置為某個(gè)搜索引擎的User-agent因而指定屏蔽某一個(gè)搜索引擎。
  除了noindex外,還有其他元標記,比如說(shuō)nofollow,禁止爬蟲(chóng)自此頁(yè)面中跟蹤鏈接。詳細信息可以參考Google支持的元標記,這里提一句:noindex和nofollow在HTML 4.01規范里有描述,但是其他tag的在不同引擎支持到哪些程度各不相同,還請讀者自行查閱各個(gè)引擎的說(shuō)明文檔。
  除了控制什么可以抓什么不能抓之外,robots.txt還可以拿來(lái)控制爬蟲(chóng)抓取的速度。如何做到的呢?通過(guò)設置爬蟲(chóng)在兩次抓取之間等待的秒數。
  Crawl-delay:5
  表示本次抓取后下一次抓取前須要等待5秒。
  注意:google早已不支持這些方法了,在webmaster tools里提供了一個(gè)功能可以更直觀(guān)的控制抓取速度。
  這里插一句正題,幾年前以前有一段時(shí)間robots.txt還支持復雜的參數:Visit-time,只有在visit-time指定的時(shí)間段里,爬蟲(chóng)才可以訪(fǎng)問(wèn);Request-rate: 用來(lái)限制URL的讀取頻度,用于控制不同的時(shí)間段采用不同的抓取速度。后來(lái)恐怕支持的人很少,就逐漸的廢黜了,目前google和baidu都早已不支持這個(gè)規則了,其他小的引擎公司其實(shí)從來(lái)都沒(méi)有支持過(guò)。
  Robots協(xié)議不是哪些技術(shù)壁壘,而只是一種相互尊重的合同,好比私家花園的旁邊掛著(zhù)“閑人免進(jìn)”,尊重者繞道而行,不尊重者仍然可以推門(mén)而入。目前,Robots協(xié)議在實(shí)際使用中,還存在一些問(wèn)題。
  robots.txt本身也是須要抓取的,出于效率考慮,一般爬蟲(chóng)不會(huì )每次抓取網(wǎng)站網(wǎng)頁(yè)前都抓一下robots.txt,加上robots.txt更新不頻繁,內容須要解析。通常爬蟲(chóng)的做法是先抓取一次,解析后緩存出來(lái),而且是相當長(cháng)的時(shí)間。假設網(wǎng)站管理員更新了robots.txt,修改了個(gè)別規則,但是對爬蟲(chóng)來(lái)說(shuō)并不會(huì )立即生效,只有當爬蟲(chóng)上次抓取robots.txt以后才會(huì )看見(jiàn)最新的內容。尷尬的是,爬蟲(chóng)上次抓取robots.txt的時(shí)間并不是由網(wǎng)站管理員控制的。當然,有些搜索引擎提供了web 工具可以使網(wǎng)站管理員通知搜索引擎那種url發(fā)生了變化,建議重新抓取。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時(shí)抓取一直是不確定的,只是比完全不通知要好點(diǎn)。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
  不知是無(wú)意還是有意,反正有些爬蟲(chóng)不太遵循或則完全忽視r(shí)obots.txt,不排除開(kāi)發(fā)人員能力的問(wèn)題,比如說(shuō)根本不知道robots.txt。另外,本身robots.txt不是一種強制舉措怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,如果網(wǎng)站有數據須要保密,必需采取技術(shù)舉措,比如說(shuō):用戶(hù)驗證,加密,ip攔截,訪(fǎng)問(wèn)頻度控制等。
  在互聯(lián)網(wǎng)世界中,每天都有不計其數的爬蟲(chóng)在日夜不息地爬取數據,其中惡意爬蟲(chóng)的數目甚至低于非惡意爬蟲(chóng)。遵守Robots協(xié)議的爬蟲(chóng)才是好爬蟲(chóng),但是并不是每位爬蟲(chóng)就會(huì )主動(dòng)違背Robots協(xié)議。
  惡意爬蟲(chóng)可以帶來(lái)好多潛在恐嚇,比如電商網(wǎng)站的商品信息被爬取可能會(huì )被競爭對手借助,過(guò)多的爬蟲(chóng)都會(huì )占用帶寬資源、甚至造成網(wǎng)站宕機。
  反惡意爬蟲(chóng)是一件漫長(cháng)而繁重的任務(wù),如果借助自身實(shí)力無(wú)法解決,可以利用豈安科技的業(yè)務(wù)風(fēng)險剖析平臺 WARDEN 來(lái)反惡意爬蟲(chóng),根據自己的需求來(lái)訂制功能。

Robots協(xié)議是哪些?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 259 次瀏覽 ? 2020-05-09 08:01 ? 來(lái)自相關(guān)話(huà)題

  網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:
  一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
  如果有些東西您不能確認是不是違規,可以向身邊律師同事咨詢(xún)或則百度微軟,切莫存僥幸心理!
  屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息犯罪似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金手銬可擺在哪里呢!
  這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。
  Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。
  大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?
  很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。
  
User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)
Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
  Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。
  豆瓣的 robots.txt 文件表示:
  常見(jiàn)的搜索引擎爬蟲(chóng)有:
  因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。
  robots.txt 相關(guān)新聞:
  黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:
  
  通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。
  DedeCMS 模版原型如下:
  
  不妨試一試,打開(kāi)以下 URL:
  :8010/csrf/uploads
  如果在根目錄域名后加/dede,可步入后臺。
  
  它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。
  黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。 查看全部

  網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:
  一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
  如果有些東西您不能確認是不是違規,可以向身邊律師同事咨詢(xún)或則百度微軟,切莫存僥幸心理!
  屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息犯罪似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金手銬可擺在哪里呢!
  這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。
  Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。
  大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?
  很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。
  
User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)
Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
  Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。
  豆瓣的 robots.txt 文件表示:
  常見(jiàn)的搜索引擎爬蟲(chóng)有:
  因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。
  robots.txt 相關(guān)新聞:
  黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:
  
  通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。
  DedeCMS 模版原型如下:
  
  不妨試一試,打開(kāi)以下 URL:
  :8010/csrf/uploads
  如果在根目錄域名后加/dede,可步入后臺。
  
  它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。
  黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。

網(wǎng)站根目錄下的robots.txt寫(xiě)法和robots txt合同規則

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 363 次瀏覽 ? 2020-05-08 08:03 ? 來(lái)自相關(guān)話(huà)題

  
  網(wǎng)站根目錄下的robots txt文件是獻給搜索引擎“看”的,用戶(hù)網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。例如網(wǎng)站后臺管理系統關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者涉及到隱私的內容,或者秘密內容關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者僅限小范圍傳播的內容。雖然此文件沒(méi)有任何外部的鏈接,但是通常情況下,搜索引擎還是會(huì )定期手動(dòng)檢索網(wǎng)站的根目錄是否存在此文件。
  如果您想使搜索引擎抓取收錄網(wǎng)站上所有內容,請設置網(wǎng)站根目錄下的robots.txt文件內容為空,或者刪掉網(wǎng)站根目錄下的robots.txt文件。
  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol)。
  
  robots.txt并不是某一個(gè)公司制訂的,真實(shí)Robots協(xié)議的起源,是在互聯(lián)網(wǎng)從業(yè)人員的公開(kāi)郵件組上面討論而且誕生的。1994年6月30日,在經(jīng)過(guò)搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長(cháng)共同討論后,正式發(fā)布了一份行業(yè)規范,即robots.txt合同。慢慢的,這一合同被幾乎所有的搜索引擎采用,包括中國的搜索引擎公司。
  User-agent: *
  Disallow: / (*為鍵值,/為目錄)
  User-agent: BadBot
  Disallow: /
  User-agent: Baiduspider
  allow:/
  Disallow: /*.asp$
  Disallow: /admin/
  Disallow: /abc/*.htm
  Disallow: /*?*
  Disallow: /.jpg$
  Disallow:/user/mimi.html (例如商業(yè)機密或隱私內容)
  Allow: /mimi/
  Allow: /tmp
  Allow: .htm$
  Allow: .gif$ 查看全部

  
  網(wǎng)站根目錄下的robots txt文件是獻給搜索引擎“看”的,用戶(hù)網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。例如網(wǎng)站后臺管理系統關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者涉及到隱私的內容,或者秘密內容關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者僅限小范圍傳播的內容。雖然此文件沒(méi)有任何外部的鏈接,但是通常情況下,搜索引擎還是會(huì )定期手動(dòng)檢索網(wǎng)站的根目錄是否存在此文件。
  如果您想使搜索引擎抓取收錄網(wǎng)站上所有內容,請設置網(wǎng)站根目錄下的robots.txt文件內容為空,或者刪掉網(wǎng)站根目錄下的robots.txt文件。
  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol)。
  
  robots.txt并不是某一個(gè)公司制訂的,真實(shí)Robots協(xié)議的起源,是在互聯(lián)網(wǎng)從業(yè)人員的公開(kāi)郵件組上面討論而且誕生的。1994年6月30日,在經(jīng)過(guò)搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長(cháng)共同討論后,正式發(fā)布了一份行業(yè)規范,即robots.txt合同。慢慢的,這一合同被幾乎所有的搜索引擎采用,包括中國的搜索引擎公司。
  User-agent: *
  Disallow: / (*為鍵值,/為目錄)
  User-agent: BadBot
  Disallow: /
  User-agent: Baiduspider
  allow:/
  Disallow: /*.asp$
  Disallow: /admin/
  Disallow: /abc/*.htm
  Disallow: /*?*
  Disallow: /.jpg$
  Disallow:/user/mimi.html (例如商業(yè)機密或隱私內容)
  Allow: /mimi/
  Allow: /tmp
  Allow: .htm$
  Allow: .gif$

Robots合同探究:如何好好借助爬蟲(chóng)提升網(wǎng)站權重

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 293 次瀏覽 ? 2020-06-17 08:02 ? 來(lái)自相關(guān)話(huà)題

  Baiduspider-favo
  百度聯(lián)盟
  Baiduspider-cpro
  上午搜索
  Baiduspider-ads
  Disallow列舉的是要屏蔽(禁止搜索引擎訪(fǎng)問(wèn))的網(wǎng)頁(yè),以正斜線(xiàn) / 開(kāi)頭。
  如要屏蔽整個(gè)網(wǎng)站,直接使用正斜線(xiàn)即可;
  User-agent: *
Disallow: /
  屏蔽某個(gè)特定的目錄以及其中的所有內容,則在目錄名后添加正斜線(xiàn);
  User-agent: *
Disallow: /admin/
Disallow: /doc/app
  使用 "*" and "$" :Baiduspider支持使用轉義 "*" 和 "$" 來(lái)模糊匹配url。
  "*" 匹配0或多個(gè)任意字符
  "$" 匹配行結束符。
  屏蔽以 plug- 開(kāi)頭的所有子目錄:用到 *
  User-agent: *
Disallow: /plug-*/
  屏蔽 php 結尾的文件:用到 $
  User-agent: *
Disallow: /*.php$
  屏蔽某個(gè)具體的頁(yè)面:
  User-agent: *
Disallow: /admin/index.html
  屏蔽所有的動(dòng)態(tài)頁(yè)面:
  User-agent: *
Disallow: /*?*
  禁止個(gè)別爬蟲(chóng)訪(fǎng)問(wèn)
  已屏蔽 Badbot 為例:
  User-agent: BadBot
Disallow: /
  只容許某個(gè)爬蟲(chóng)訪(fǎng)問(wèn)
  以百度爬蟲(chóng)為例:
  User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
  或者:
  User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
  允許所有的robots訪(fǎng)問(wèn)
  User-agent: *
Disallow:
  或者是:
  User-agent: *
Allow: /
  或者也可以建一個(gè)空文件 "/robots.txt"。
  屏蔽網(wǎng)站中的圖片、視頻等文件:
  User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.bmp$
Disallow: /*.mp4$
Disallow: /*.rmvb$
  只準許訪(fǎng)問(wèn) .html 結尾的 url
  Allow: /*.html$
User-agent: *
Disallow:
  我們再來(lái)結合兩個(gè)真實(shí)的范例來(lái)學(xué)習一下。
  先看這個(gè)事例:
  User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
  這個(gè)是淘寶網(wǎng)的Robots協(xié)議內容,相信你早已看下來(lái)了,淘寶網(wǎng)嚴禁百度的爬蟲(chóng)訪(fǎng)問(wèn)。
  再來(lái)看一個(gè)事例:
  User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /
  這個(gè)稍稍復雜點(diǎn),京東有2個(gè)目錄不希望所有的爬蟲(chóng)來(lái)抓。同時(shí)怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,京東完全屏蔽了一淘網(wǎng)的蜘蛛(EtaoSpider是一淘網(wǎng)的蜘蛛)。
  前面說(shuō)過(guò)爬蟲(chóng)會(huì )通過(guò)網(wǎng)頁(yè)內部的鏈接發(fā)覺(jué)新的網(wǎng)頁(yè)。但是若果沒(méi)有聯(lián)接指向的網(wǎng)頁(yè)怎樣辦?或者用戶(hù)輸入條件生成的動(dòng)態(tài)網(wǎng)頁(yè)怎樣辦?能否使網(wǎng)站管理員通知搜索引擎她們網(wǎng)站上有什么可供抓取的網(wǎng)頁(yè)?這就是sitemap,最簡(jiǎn)單的 Sitepmap 形式就是 XML 文件,在其中列舉網(wǎng)站中的網(wǎng)址以及關(guān)于每位網(wǎng)址的其他數據(上次更新的時(shí)間、更改的頻度以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等等),利用這種信息搜索引擎可以愈發(fā)智能地抓取網(wǎng)站內容。
  新的問(wèn)題來(lái)了,爬蟲(chóng)如何曉得這個(gè)網(wǎng)站有沒(méi)有提供sitemap文件,或者說(shuō)網(wǎng)站管理員生成了sitemap,(可能是多個(gè)文件),爬蟲(chóng)如何曉得放到那里呢?
  由于robots.txt的位置是固定的,于是你們就想到了把sitemap的位置信息置于robots.txt里。這就成為robots.txt里的新成員了。
  節選一段google robots.txt:
  Sitemap:
  Sitemap:
  插一句,考慮到一個(gè)網(wǎng)站的網(wǎng)頁(yè)諸多,sitemap人工維護不太靠譜,google提供了工具可以手動(dòng)生成sitemap。
  其實(shí)嚴格來(lái)說(shuō)這部份內容不屬于robots.txt。
  robots.txt的本意是為了使網(wǎng)站管理員管理可以出現在搜索引擎里的網(wǎng)站內容。但是,即使使用 robots.txt 文件使爬蟲(chóng)未能抓取那些內容,搜索引擎也可以通過(guò)其他方法找到這種網(wǎng)頁(yè)并將它添加到索引中。例如,其他網(wǎng)站仍可能鏈接到該網(wǎng)站。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息(如指向相關(guān)網(wǎng)站的鏈接中的定位文字或開(kāi)放式目錄管理系統中的標題)有可能會(huì )出現在引擎的搜索結果中。如果想徹底對搜索引擎隱身那咋辦呢?答案是:元標記,即meta tag。
  比如要完全制止一個(gè)網(wǎng)頁(yè)的內容列在搜索引擎索引中(即使有其他網(wǎng)站鏈接到此網(wǎng)頁(yè)),可使用 noindex 元標記。只要搜索引擎查看該網(wǎng)頁(yè),便會(huì )聽(tīng)到 noindex 元標記并制止該網(wǎng)頁(yè)顯示在索引中,這里注意noindex元標記提供的是一種逐頁(yè)控制對網(wǎng)站的訪(fǎng)問(wèn)的形式。
  要避免所有搜索引擎將網(wǎng)站中的網(wǎng)頁(yè)編入索引,在網(wǎng)頁(yè)的部份添加:
  <meta name="robots" content="noindex">
  這里的name取值可以設置為某個(gè)搜索引擎的User-agent因而指定屏蔽某一個(gè)搜索引擎。
  除了noindex外,還有其他元標記,比如說(shuō)nofollow,禁止爬蟲(chóng)自此頁(yè)面中跟蹤鏈接。詳細信息可以參考Google支持的元標記,這里提一句:noindex和nofollow在HTML 4.01規范里有描述,但是其他tag的在不同引擎支持到哪些程度各不相同,還請讀者自行查閱各個(gè)引擎的說(shuō)明文檔。
  除了控制什么可以抓什么不能抓之外,robots.txt還可以拿來(lái)控制爬蟲(chóng)抓取的速度。如何做到的呢?通過(guò)設置爬蟲(chóng)在兩次抓取之間等待的秒數。
  Crawl-delay:5
  表示本次抓取后下一次抓取前須要等待5秒。
  注意:google早已不支持這些方法了,在webmaster tools里提供了一個(gè)功能可以更直觀(guān)的控制抓取速度。
  這里插一句正題,幾年前以前有一段時(shí)間robots.txt還支持復雜的參數:Visit-time,只有在visit-time指定的時(shí)間段里,爬蟲(chóng)才可以訪(fǎng)問(wèn);Request-rate: 用來(lái)限制URL的讀取頻度,用于控制不同的時(shí)間段采用不同的抓取速度。后來(lái)恐怕支持的人很少,就逐漸的廢黜了,目前google和baidu都早已不支持這個(gè)規則了,其他小的引擎公司其實(shí)從來(lái)都沒(méi)有支持過(guò)。
  Robots協(xié)議不是哪些技術(shù)壁壘,而只是一種相互尊重的合同,好比私家花園的旁邊掛著(zhù)“閑人免進(jìn)”,尊重者繞道而行,不尊重者仍然可以推門(mén)而入。目前,Robots協(xié)議在實(shí)際使用中,還存在一些問(wèn)題。
  robots.txt本身也是須要抓取的,出于效率考慮,一般爬蟲(chóng)不會(huì )每次抓取網(wǎng)站網(wǎng)頁(yè)前都抓一下robots.txt,加上robots.txt更新不頻繁,內容須要解析。通常爬蟲(chóng)的做法是先抓取一次,解析后緩存出來(lái),而且是相當長(cháng)的時(shí)間。假設網(wǎng)站管理員更新了robots.txt,修改了個(gè)別規則,但是對爬蟲(chóng)來(lái)說(shuō)并不會(huì )立即生效,只有當爬蟲(chóng)上次抓取robots.txt以后才會(huì )看見(jiàn)最新的內容。尷尬的是,爬蟲(chóng)上次抓取robots.txt的時(shí)間并不是由網(wǎng)站管理員控制的。當然,有些搜索引擎提供了web 工具可以使網(wǎng)站管理員通知搜索引擎那種url發(fā)生了變化,建議重新抓取。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時(shí)抓取一直是不確定的,只是比完全不通知要好點(diǎn)。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
  不知是無(wú)意還是有意,反正有些爬蟲(chóng)不太遵循或則完全忽視r(shí)obots.txt,不排除開(kāi)發(fā)人員能力的問(wèn)題,比如說(shuō)根本不知道robots.txt。另外,本身robots.txt不是一種強制舉措怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,如果網(wǎng)站有數據須要保密,必需采取技術(shù)舉措,比如說(shuō):用戶(hù)驗證,加密,ip攔截,訪(fǎng)問(wèn)頻度控制等。
  在互聯(lián)網(wǎng)世界中,每天都有不計其數的爬蟲(chóng)在日夜不息地爬取數據,其中惡意爬蟲(chóng)的數目甚至低于非惡意爬蟲(chóng)。遵守Robots協(xié)議的爬蟲(chóng)才是好爬蟲(chóng),但是并不是每位爬蟲(chóng)就會(huì )主動(dòng)違背Robots協(xié)議。
  惡意爬蟲(chóng)可以帶來(lái)好多潛在恐嚇,比如電商網(wǎng)站的商品信息被爬取可能會(huì )被競爭對手借助,過(guò)多的爬蟲(chóng)都會(huì )占用帶寬資源、甚至造成網(wǎng)站宕機。
  反惡意爬蟲(chóng)是一件漫長(cháng)而繁重的任務(wù),如果借助自身實(shí)力無(wú)法解決,可以利用豈安科技的業(yè)務(wù)風(fēng)險剖析平臺 WARDEN 來(lái)反惡意爬蟲(chóng),根據自己的需求來(lái)訂制功能。 查看全部

  Baiduspider-favo
  百度聯(lián)盟
  Baiduspider-cpro
  上午搜索
  Baiduspider-ads
  Disallow列舉的是要屏蔽(禁止搜索引擎訪(fǎng)問(wèn))的網(wǎng)頁(yè),以正斜線(xiàn) / 開(kāi)頭。
  如要屏蔽整個(gè)網(wǎng)站,直接使用正斜線(xiàn)即可;
  User-agent: *
Disallow: /
  屏蔽某個(gè)特定的目錄以及其中的所有內容,則在目錄名后添加正斜線(xiàn);
  User-agent: *
Disallow: /admin/
Disallow: /doc/app
  使用 "*" and "$" :Baiduspider支持使用轉義 "*" 和 "$" 來(lái)模糊匹配url。
  "*" 匹配0或多個(gè)任意字符
  "$" 匹配行結束符。
  屏蔽以 plug- 開(kāi)頭的所有子目錄:用到 *
  User-agent: *
Disallow: /plug-*/
  屏蔽 php 結尾的文件:用到 $
  User-agent: *
Disallow: /*.php$
  屏蔽某個(gè)具體的頁(yè)面:
  User-agent: *
Disallow: /admin/index.html
  屏蔽所有的動(dòng)態(tài)頁(yè)面:
  User-agent: *
Disallow: /*?*
  禁止個(gè)別爬蟲(chóng)訪(fǎng)問(wèn)
  已屏蔽 Badbot 為例:
  User-agent: BadBot
Disallow: /
  只容許某個(gè)爬蟲(chóng)訪(fǎng)問(wèn)
  以百度爬蟲(chóng)為例:
  User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
  或者:
  User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
  允許所有的robots訪(fǎng)問(wèn)
  User-agent: *
Disallow:
  或者是:
  User-agent: *
Allow: /
  或者也可以建一個(gè)空文件 "/robots.txt"。
  屏蔽網(wǎng)站中的圖片、視頻等文件:
  User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.bmp$
Disallow: /*.mp4$
Disallow: /*.rmvb$
  只準許訪(fǎng)問(wèn) .html 結尾的 url
  Allow: /*.html$
User-agent: *
Disallow:
  我們再來(lái)結合兩個(gè)真實(shí)的范例來(lái)學(xué)習一下。
  先看這個(gè)事例:
  User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
  這個(gè)是淘寶網(wǎng)的Robots協(xié)議內容,相信你早已看下來(lái)了,淘寶網(wǎng)嚴禁百度的爬蟲(chóng)訪(fǎng)問(wèn)。
  再來(lái)看一個(gè)事例:
  User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /
  這個(gè)稍稍復雜點(diǎn),京東有2個(gè)目錄不希望所有的爬蟲(chóng)來(lái)抓。同時(shí)怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,京東完全屏蔽了一淘網(wǎng)的蜘蛛(EtaoSpider是一淘網(wǎng)的蜘蛛)。
  前面說(shuō)過(guò)爬蟲(chóng)會(huì )通過(guò)網(wǎng)頁(yè)內部的鏈接發(fā)覺(jué)新的網(wǎng)頁(yè)。但是若果沒(méi)有聯(lián)接指向的網(wǎng)頁(yè)怎樣辦?或者用戶(hù)輸入條件生成的動(dòng)態(tài)網(wǎng)頁(yè)怎樣辦?能否使網(wǎng)站管理員通知搜索引擎她們網(wǎng)站上有什么可供抓取的網(wǎng)頁(yè)?這就是sitemap,最簡(jiǎn)單的 Sitepmap 形式就是 XML 文件,在其中列舉網(wǎng)站中的網(wǎng)址以及關(guān)于每位網(wǎng)址的其他數據(上次更新的時(shí)間、更改的頻度以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等等),利用這種信息搜索引擎可以愈發(fā)智能地抓取網(wǎng)站內容。
  新的問(wèn)題來(lái)了,爬蟲(chóng)如何曉得這個(gè)網(wǎng)站有沒(méi)有提供sitemap文件,或者說(shuō)網(wǎng)站管理員生成了sitemap,(可能是多個(gè)文件),爬蟲(chóng)如何曉得放到那里呢?
  由于robots.txt的位置是固定的,于是你們就想到了把sitemap的位置信息置于robots.txt里。這就成為robots.txt里的新成員了。
  節選一段google robots.txt:
  Sitemap:
  Sitemap:
  插一句,考慮到一個(gè)網(wǎng)站的網(wǎng)頁(yè)諸多,sitemap人工維護不太靠譜,google提供了工具可以手動(dòng)生成sitemap。
  其實(shí)嚴格來(lái)說(shuō)這部份內容不屬于robots.txt。
  robots.txt的本意是為了使網(wǎng)站管理員管理可以出現在搜索引擎里的網(wǎng)站內容。但是,即使使用 robots.txt 文件使爬蟲(chóng)未能抓取那些內容,搜索引擎也可以通過(guò)其他方法找到這種網(wǎng)頁(yè)并將它添加到索引中。例如,其他網(wǎng)站仍可能鏈接到該網(wǎng)站。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息(如指向相關(guān)網(wǎng)站的鏈接中的定位文字或開(kāi)放式目錄管理系統中的標題)有可能會(huì )出現在引擎的搜索結果中。如果想徹底對搜索引擎隱身那咋辦呢?答案是:元標記,即meta tag。
  比如要完全制止一個(gè)網(wǎng)頁(yè)的內容列在搜索引擎索引中(即使有其他網(wǎng)站鏈接到此網(wǎng)頁(yè)),可使用 noindex 元標記。只要搜索引擎查看該網(wǎng)頁(yè),便會(huì )聽(tīng)到 noindex 元標記并制止該網(wǎng)頁(yè)顯示在索引中,這里注意noindex元標記提供的是一種逐頁(yè)控制對網(wǎng)站的訪(fǎng)問(wèn)的形式。
  要避免所有搜索引擎將網(wǎng)站中的網(wǎng)頁(yè)編入索引,在網(wǎng)頁(yè)的部份添加:
  <meta name="robots" content="noindex">
  這里的name取值可以設置為某個(gè)搜索引擎的User-agent因而指定屏蔽某一個(gè)搜索引擎。
  除了noindex外,還有其他元標記,比如說(shuō)nofollow,禁止爬蟲(chóng)自此頁(yè)面中跟蹤鏈接。詳細信息可以參考Google支持的元標記,這里提一句:noindex和nofollow在HTML 4.01規范里有描述,但是其他tag的在不同引擎支持到哪些程度各不相同,還請讀者自行查閱各個(gè)引擎的說(shuō)明文檔。
  除了控制什么可以抓什么不能抓之外,robots.txt還可以拿來(lái)控制爬蟲(chóng)抓取的速度。如何做到的呢?通過(guò)設置爬蟲(chóng)在兩次抓取之間等待的秒數。
  Crawl-delay:5
  表示本次抓取后下一次抓取前須要等待5秒。
  注意:google早已不支持這些方法了,在webmaster tools里提供了一個(gè)功能可以更直觀(guān)的控制抓取速度。
  這里插一句正題,幾年前以前有一段時(shí)間robots.txt還支持復雜的參數:Visit-time,只有在visit-time指定的時(shí)間段里,爬蟲(chóng)才可以訪(fǎng)問(wèn);Request-rate: 用來(lái)限制URL的讀取頻度,用于控制不同的時(shí)間段采用不同的抓取速度。后來(lái)恐怕支持的人很少,就逐漸的廢黜了,目前google和baidu都早已不支持這個(gè)規則了,其他小的引擎公司其實(shí)從來(lái)都沒(méi)有支持過(guò)。
  Robots協(xié)議不是哪些技術(shù)壁壘,而只是一種相互尊重的合同,好比私家花園的旁邊掛著(zhù)“閑人免進(jìn)”,尊重者繞道而行,不尊重者仍然可以推門(mén)而入。目前,Robots協(xié)議在實(shí)際使用中,還存在一些問(wèn)題。
  robots.txt本身也是須要抓取的,出于效率考慮,一般爬蟲(chóng)不會(huì )每次抓取網(wǎng)站網(wǎng)頁(yè)前都抓一下robots.txt,加上robots.txt更新不頻繁,內容須要解析。通常爬蟲(chóng)的做法是先抓取一次,解析后緩存出來(lái),而且是相當長(cháng)的時(shí)間。假設網(wǎng)站管理員更新了robots.txt,修改了個(gè)別規則,但是對爬蟲(chóng)來(lái)說(shuō)并不會(huì )立即生效,只有當爬蟲(chóng)上次抓取robots.txt以后才會(huì )看見(jiàn)最新的內容。尷尬的是,爬蟲(chóng)上次抓取robots.txt的時(shí)間并不是由網(wǎng)站管理員控制的。當然,有些搜索引擎提供了web 工具可以使網(wǎng)站管理員通知搜索引擎那種url發(fā)生了變化,建議重新抓取。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時(shí)抓取一直是不確定的,只是比完全不通知要好點(diǎn)。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
  不知是無(wú)意還是有意,反正有些爬蟲(chóng)不太遵循或則完全忽視r(shí)obots.txt,不排除開(kāi)發(fā)人員能力的問(wèn)題,比如說(shuō)根本不知道robots.txt。另外,本身robots.txt不是一種強制舉措怎么利用爬蟲(chóng)技術(shù) 提高網(wǎng)站排名,如果網(wǎng)站有數據須要保密,必需采取技術(shù)舉措,比如說(shuō):用戶(hù)驗證,加密,ip攔截,訪(fǎng)問(wèn)頻度控制等。
  在互聯(lián)網(wǎng)世界中,每天都有不計其數的爬蟲(chóng)在日夜不息地爬取數據,其中惡意爬蟲(chóng)的數目甚至低于非惡意爬蟲(chóng)。遵守Robots協(xié)議的爬蟲(chóng)才是好爬蟲(chóng),但是并不是每位爬蟲(chóng)就會(huì )主動(dòng)違背Robots協(xié)議。
  惡意爬蟲(chóng)可以帶來(lái)好多潛在恐嚇,比如電商網(wǎng)站的商品信息被爬取可能會(huì )被競爭對手借助,過(guò)多的爬蟲(chóng)都會(huì )占用帶寬資源、甚至造成網(wǎng)站宕機。
  反惡意爬蟲(chóng)是一件漫長(cháng)而繁重的任務(wù),如果借助自身實(shí)力無(wú)法解決,可以利用豈安科技的業(yè)務(wù)風(fēng)險剖析平臺 WARDEN 來(lái)反惡意爬蟲(chóng),根據自己的需求來(lái)訂制功能。

Robots協(xié)議是哪些?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 259 次瀏覽 ? 2020-05-09 08:01 ? 來(lái)自相關(guān)話(huà)題

  網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:
  一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
  如果有些東西您不能確認是不是違規,可以向身邊律師同事咨詢(xún)或則百度微軟,切莫存僥幸心理!
  屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息犯罪似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金手銬可擺在哪里呢!
  這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。
  Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。
  大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?
  很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。
  
User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)
Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
  Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。
  豆瓣的 robots.txt 文件表示:
  常見(jiàn)的搜索引擎爬蟲(chóng)有:
  因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。
  robots.txt 相關(guān)新聞:
  黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:
  
  通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。
  DedeCMS 模版原型如下:
  
  不妨試一試,打開(kāi)以下 URL:
  :8010/csrf/uploads
  如果在根目錄域名后加/dede,可步入后臺。
  
  它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。
  黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。 查看全部

  網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:
  一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
  如果有些東西您不能確認是不是違規,可以向身邊律師同事咨詢(xún)或則百度微軟,切莫存僥幸心理!
  屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息犯罪似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金手銬可擺在哪里呢!
  這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。
  Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。
  大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?
  很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。
  
User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)
Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
  Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。
  豆瓣的 robots.txt 文件表示:
  常見(jiàn)的搜索引擎爬蟲(chóng)有:
  因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。
  robots.txt 相關(guān)新聞:
  黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:
  
  通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。
  DedeCMS 模版原型如下:
  
  不妨試一試,打開(kāi)以下 URL:
  :8010/csrf/uploads
  如果在根目錄域名后加/dede,可步入后臺。
  
  它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。
  黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。

網(wǎng)站根目錄下的robots.txt寫(xiě)法和robots txt合同規則

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 363 次瀏覽 ? 2020-05-08 08:03 ? 來(lái)自相關(guān)話(huà)題

  
  網(wǎng)站根目錄下的robots txt文件是獻給搜索引擎“看”的,用戶(hù)網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。例如網(wǎng)站后臺管理系統關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者涉及到隱私的內容,或者秘密內容關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者僅限小范圍傳播的內容。雖然此文件沒(méi)有任何外部的鏈接,但是通常情況下,搜索引擎還是會(huì )定期手動(dòng)檢索網(wǎng)站的根目錄是否存在此文件。
  如果您想使搜索引擎抓取收錄網(wǎng)站上所有內容,請設置網(wǎng)站根目錄下的robots.txt文件內容為空,或者刪掉網(wǎng)站根目錄下的robots.txt文件。
  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol)。
  
  robots.txt并不是某一個(gè)公司制訂的,真實(shí)Robots協(xié)議的起源,是在互聯(lián)網(wǎng)從業(yè)人員的公開(kāi)郵件組上面討論而且誕生的。1994年6月30日,在經(jīng)過(guò)搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長(cháng)共同討論后,正式發(fā)布了一份行業(yè)規范,即robots.txt合同。慢慢的,這一合同被幾乎所有的搜索引擎采用,包括中國的搜索引擎公司。
  User-agent: *
  Disallow: / (*為鍵值,/為目錄)
  User-agent: BadBot
  Disallow: /
  User-agent: Baiduspider
  allow:/
  Disallow: /*.asp$
  Disallow: /admin/
  Disallow: /abc/*.htm
  Disallow: /*?*
  Disallow: /.jpg$
  Disallow:/user/mimi.html (例如商業(yè)機密或隱私內容)
  Allow: /mimi/
  Allow: /tmp
  Allow: .htm$
  Allow: .gif$ 查看全部

  
  網(wǎng)站根目錄下的robots txt文件是獻給搜索引擎“看”的,用戶(hù)網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。例如網(wǎng)站后臺管理系統關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者涉及到隱私的內容,或者秘密內容關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,或者僅限小范圍傳播的內容。雖然此文件沒(méi)有任何外部的鏈接,但是通常情況下,搜索引擎還是會(huì )定期手動(dòng)檢索網(wǎng)站的根目錄是否存在此文件。
  如果您想使搜索引擎抓取收錄網(wǎng)站上所有內容,請設置網(wǎng)站根目錄下的robots.txt文件內容為空,或者刪掉網(wǎng)站根目錄下的robots.txt文件。
  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol)。
  
  robots.txt并不是某一個(gè)公司制訂的,真實(shí)Robots協(xié)議的起源,是在互聯(lián)網(wǎng)從業(yè)人員的公開(kāi)郵件組上面討論而且誕生的。1994年6月30日,在經(jīng)過(guò)搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長(cháng)共同討論后,正式發(fā)布了一份行業(yè)規范,即robots.txt合同。慢慢的,這一合同被幾乎所有的搜索引擎采用,包括中國的搜索引擎公司。
  User-agent: *
  Disallow: / (*為鍵值,/為目錄)
  User-agent: BadBot
  Disallow: /
  User-agent: Baiduspider
  allow:/
  Disallow: /*.asp$
  Disallow: /admin/
  Disallow: /abc/*.htm
  Disallow: /*?*
  Disallow: /.jpg$
  Disallow:/user/mimi.html (例如商業(yè)機密或隱私內容)
  Allow: /mimi/
  Allow: /tmp
  Allow: .htm$
  Allow: .gif$

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久