亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

Robots協(xié)議是哪些？

優(yōu)采云發(fā)布時(shí)間: 2020-05-09 08:01

　　網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)！沒(méi)有法律規定爬蟲(chóng)是違規的，也沒(méi)有法律規定爬蟲(chóng)不違規，主要看爬取數據的類(lèi)型，如：

　　一般來(lái)說(shuō)，高度敏感的數據根本爬不了；如果是公司要求爬的，那出了事情就是公司的責任。

　　如果有些東西您不能確認是不是違規，可以向身邊*敏*感*詞*同事咨詢(xún)或則百度微軟，切莫存僥幸心理！

　　屏幕后面的您心中一定要有桿稱(chēng)，搞爬蟲(chóng)真的可能會(huì )入獄的。信息*敏*感*詞*似乎是直接入獄的，而且不是按天算的，畢竟玫瑰金*敏*感*詞*可擺在哪里呢！

　　這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò)，Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大，就當一個(gè)常識學(xué)一下，也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt，Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬，不容許的就不爬唄。

　　Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范，全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準（Robots exclusion protocol）”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt，這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng)，哪些頁(yè)面是可以抓取的，哪些不可以。

　　大多數網(wǎng)站都有 Robots 協(xié)議，那怎么查看網(wǎng)站的 Robots 協(xié)議呢？

　　很簡(jiǎn)單，在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如，通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。

　　

User-agent: * #所有爬蟲(chóng)，如百度、谷歌、必應

Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /forum/

Disallow: /new_subject

Disallow: /service/iframe

Disallow: /j/

Disallow: /link2/

Disallow: /recommend/

Disallow: /doubanapp/card

Disallow: /update/topic/

Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt

Sitemap: https://www.douban.com/sitemap_index.xml

Sitemap: https://www.douban.com/sitemap_updated_index.xml

#sitemap文件里面是新產(chǎn)生的URL，有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等，可以減少網(wǎng)站的帶寬消耗。

User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)

Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)

User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng)，當網(wǎng)頁(yè)投放了谷歌的廣告時(shí)，他就會(huì )來(lái)抓取，對網(wǎng)頁(yè)進(jìn)行分析，然后投放最佳的廣告...

Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /j/

　　Allow 代表準許訪(fǎng)問(wèn)，Disallow 就是嚴禁訪(fǎng)問(wèn)，User-agent 可以判定是哪家爬蟲(chóng)，經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。

　　豆瓣的 robots.txt 文件表示：

　　常見(jiàn)的搜索引擎爬蟲(chóng)有：

　　因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾，robots.txt 協(xié)議處于網(wǎng)站的根目錄下，任何人都可以直接輸入路徑打開(kāi)并查看上面的內容，就可以比較清楚的了解網(wǎng)站的結構。

　　robots.txt 相關(guān)新聞：

　　黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如，我在某個(gè)網(wǎng)站的域名后加上/robots.txt：

　　

　　通過(guò)剖析里面這份 Robots 協(xié)議，發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成（/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的）。

　　DedeCMS 模版原型如下：

　　

　　不妨試一試，打開(kāi)以下 URL：

　　:8010/csrf/uploads

　　如果在根目錄域名后加/dede，可步入后臺。

　　

　　它的登陸用戶(hù)名是 admin，登錄密碼是 admin123。

　　黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。

0

2020-05-09

robots協(xié)議

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久