亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

Robots協(xié)議是哪些?

優(yōu)采云 發(fā)布時(shí)間: 2020-05-09 08:01

  網(wǎng)絡(luò )爬蟲(chóng)似乎是一種黑色產(chǎn)業(yè)!沒(méi)有法律規定爬蟲(chóng)是違規的,也沒(méi)有法律規定爬蟲(chóng)不違規,主要看爬取數據的類(lèi)型,如:

  一般來(lái)說(shuō),高度敏感的數據根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。

  如果有些東西您不能確認是不是違規,可以向身邊*敏*感*詞*同事咨詢(xún)或則百度微軟,切莫存僥幸心理!

  屏幕后面的您心中一定要有桿稱(chēng),搞爬蟲(chóng)真的可能會(huì )入獄的。信息*敏*感*詞*似乎是直接入獄的,而且不是按天算的,畢竟玫瑰金*敏*感*詞*可擺在哪里呢!

  這桿稱(chēng)就是 Robot.txt 協(xié)議。不過(guò),Robot.txt 對學(xué)習聚焦型爬蟲(chóng)的我們幫助不大,就當一個(gè)常識學(xué)一下,也可以按照 Robot.txt 協(xié)議列舉的網(wǎng)頁(yè)作為指標關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,Robot.txt 協(xié)議容許的網(wǎng)頁(yè)我們能夠爬,不容許的就不爬唄。

  Robots 協(xié)議是互聯(lián)網(wǎng)爬蟲(chóng)的一項公認的道德規范,全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準(Robots exclusion protocol)”關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這個(gè)合同拿來(lái)告訴通用型爬蟲(chóng),哪些頁(yè)面是可以抓取的,哪些不可以。

  大多數網(wǎng)站都有 Robots 協(xié)議,那怎么查看網(wǎng)站的 Robots 協(xié)議呢 ?

  很簡(jiǎn)單,在網(wǎng)站的根目錄域名后加上/robots.txt就可以了。例如,通過(guò) 這個(gè)鏈接可以查看網(wǎng)店的 Robots 協(xié)議。

  

User-agent: * #所有爬蟲(chóng),如百度、谷歌、必應

Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /forum/

Disallow: /new_subject

Disallow: /service/iframe

Disallow: /j/

Disallow: /link2/

Disallow: /recommend/

Disallow: /doubanapp/card

Disallow: /update/topic/

Allow: /ads.txt #允許訪(fǎng)問(wèn) /ads.txt

Sitemap: https://www.douban.com/sitemap_index.xml

Sitemap: https://www.douban.com/sitemap_updated_index.xml

#sitemap文件里面是新產(chǎn)生的URL,有豆瓣網(wǎng)前一天的影評、書(shū)評、帖子等等,可以減少網(wǎng)站的帶寬消耗。

User-agent: Wandoujia Spider #如果是豌豆莢爬蟲(chóng)

Disallow: / #禁止訪(fǎng)問(wèn)所有頁(yè)面(完全屏蔽)

User-agent: Mediapartners-Google #谷歌的廣告爬蟲(chóng),當網(wǎng)頁(yè)投放了谷歌的廣告時(shí),他就會(huì )來(lái)抓取,對網(wǎng)頁(yè)進(jìn)行分析,然后投放最佳的廣告...

Disallow: /subject_search #禁止訪(fǎng)問(wèn) /subject_search

Disallow: /amazon_search

Disallow: /search

Disallow: /group/search

Disallow: /event/search

Disallow: /celebrities/search

Disallow: /location/drama/search

Disallow: /j/

  Allow 代表準許訪(fǎng)問(wèn),Disallow 就是嚴禁訪(fǎng)問(wèn),User-agent 可以判定是哪家爬蟲(chóng),經(jīng)常形成新數據網(wǎng)站 sitemap 文件會(huì )用的比較多。

  豆瓣的 robots.txt 文件表示:

  常見(jiàn)的搜索引擎爬蟲(chóng)有:

  因為網(wǎng)站上的目錄貌似就是筆記本里的文件夾,robots.txt 協(xié)議處于網(wǎng)站的根目錄下,任何人都可以直接輸入路徑打開(kāi)并查看上面的內容,就可以比較清楚的了解網(wǎng)站的結構。

  robots.txt 相關(guān)新聞:

  黑客方法也可以通過(guò) robots.txt 協(xié)議聽(tīng)到這個(gè)網(wǎng)站是不是一個(gè)網(wǎng)站模版系統建成的。比如,我在某個(gè)網(wǎng)站的域名后加上/robots.txt:

  

  通過(guò)剖析里面這份 Robots 協(xié)議,發(fā)現這個(gè)網(wǎng)站是 DedeCMS 模板搭建而成(/plus/ad_js.php 等都是 DedeCMS 網(wǎng)站通用的)。

  DedeCMS 模版原型如下:

  

  不妨試一試,打開(kāi)以下 URL:

  :8010/csrf/uploads

  如果在根目錄域名后加/dede,可步入后臺。

  

  它的登陸用戶(hù)名是 admin,登錄密碼是 admin123。

  黑客們也是通過(guò)類(lèi)似的方法獲取網(wǎng)站的管理權限......如找尋當前模版版本的通殺漏洞、字典爆破管理員密碼等。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久