Robots協(xié)議是哪些?
優(yōu)采云 發(fā)布時(shí)間: 2020-05-09 08:01網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:
一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
如果有些東西您不能確認是不是違規,可以向身邊*敏*感*詞*同事咨詢(xún)或則百度微軟,切莫存僥幸心理!
屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息*敏*感*詞*似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金*敏*感*詞*可擺在哪里呢!
這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。
Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。
大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?
很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。
User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)
Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...
Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。
豆瓣的 robots.txt 文件表示:
常見(jiàn)的搜索引擎爬蟲(chóng)有:
因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。
robots.txt 相關(guān)新聞:
黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:
通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。
DedeCMS 模版原型如下:
不妨試一試,打開(kāi)以下 URL:
:8010/csrf/uploads
如果在根目錄域名后加/dede,可步入后臺。
它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。
黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。





