亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

關(guān)于爬蟲(chóng)程序的合法性?

優(yōu)采云 發(fā)布時(shí)間: 2020-05-10 08:03

  

  希望本回答能解決樓主的問(wèn)題。此回答摘錄自本人所寫(xiě)的書(shū)《Python 網(wǎng)絡(luò )爬蟲(chóng):從入門(mén)到實(shí)踐》第一章

  從目前的情況來(lái)看,如果抓取的數據屬于個(gè)人使用或科研范疇爬蟲(chóng)程序,基本不存在問(wèn)題; 而假如數據屬于商業(yè)贏(yíng)利范疇,就要就事而論,有可能屬于*敏*感*詞*,也有可能不違規。

  網(wǎng)絡(luò )爬蟲(chóng)領(lǐng)域目前還屬于拓荒階段,雖然互聯(lián)網(wǎng)世界早已通過(guò)自身的合同構建起一定的道德規范(Robots 協(xié)議),但法律部份還在完善和建立中。也就是說(shuō),現在這個(gè)領(lǐng)域暫時(shí)還是灰色地帶。

  Robots 協(xié)議

  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。它是國際互聯(lián)網(wǎng)界通行的道德規范,雖然沒(méi)有寫(xiě)入法律,但是每一個(gè)爬蟲(chóng)都應當遵循這項合同。

  下面以淘寶網(wǎng)的robots.txt為例:

  這里僅截取部份,查看完整可以訪(fǎng)問(wèn)taobao.com/robots.txt

  User-agent: Baiduspider #百度爬蟲(chóng)引擎

Allow: /article #允許訪(fǎng)問(wèn)/article.htm,/article/12345.com

Allow: /oshtml

Allow: /wenzhang

Disallow: /product/ #禁止訪(fǎng)問(wèn)/product/12345.com

Disallow: / #禁止了訪(fǎng)問(wèn)除Allow規定頁(yè)面的其他所有頁(yè)面

User-Agent: Googlebot #谷歌爬蟲(chóng)引擎

Allow: /article

Allow: /oshtml

Allow: /product #允許訪(fǎng)問(wèn)/product.htm,/product/12345.com

Allow: /spu

Allow: /dianpu

Allow: /wenzhang

Allow: /oversea

Disallow: /

  在前面的robots文件中,淘寶網(wǎng)對用戶(hù)代理為百度爬蟲(chóng)引擎進(jìn)行規定。

  以”Allow”項的值開(kāi)頭的URL 是容許robot訪(fǎng)問(wèn)的。例如,”Allow: /article”允許百度爬蟲(chóng)引擎訪(fǎng)問(wèn)”/article.htm,/article/12345.com”等等。

  以Disallow項為開(kāi)頭的鏈接是不容許百度爬蟲(chóng)引擎訪(fǎng)問(wèn)的。例如,”Disallow: /product/”不容許百度爬蟲(chóng)引擎訪(fǎng)問(wèn) ”/product/12345.com” 等等。

  最后一行,”Disallow: /”則嚴禁了百度爬蟲(chóng)訪(fǎng)問(wèn)不僅”Allow”規定頁(yè)面的其他所有頁(yè)面。

  因此,當你在百度搜索“淘寶”的時(shí)侯,搜索結果下方的篆字會(huì )出現:“由于該網(wǎng)站的robots.txt文件存在限制指令(限制搜索引擎抓?。?,系統未能提供該頁(yè)面的內容描述”。百度作為一個(gè)搜索引擎,良好地遵循了淘寶網(wǎng)的 robot.txt 協(xié)議,所以你是不能從百度上搜索到天貓內部的產(chǎn)品信息的。

  

  

  淘寶的Robots協(xié)議對微軟爬蟲(chóng)的待遇則不一樣,和百度爬蟲(chóng)不同的是,它容許微軟爬蟲(chóng)爬取產(chǎn)品的頁(yè)面,”Allow: /product”。因此,當你在微軟搜索“淘寶 iphone7”的時(shí)侯,可以搜索到天貓中的產(chǎn)品。

  

  

  因此,當你爬取網(wǎng)站數據時(shí),無(wú)論你是否僅僅用來(lái)個(gè)人使用,都應當遵循robots協(xié)議。

  2. 網(wǎng)絡(luò )爬蟲(chóng)的約束

  除了上述的 Robot 協(xié)議之外,我們使用網(wǎng)路爬蟲(chóng)的時(shí)侯要對自己進(jìn)行約束:過(guò)于快速或則頻密的網(wǎng)絡(luò )爬蟲(chóng)就會(huì )對服務(wù)器形成巨大的壓力,網(wǎng)站可能封鎖你的IP,甚至采取進(jìn)一步的法律行動(dòng)。

  各大互聯(lián)網(wǎng)大鱷也早已開(kāi)始調集資源,限制爬蟲(chóng),保護真正用戶(hù)的流量和降低有價(jià)值數據的流失。

  2007年,愛(ài)幫網(wǎng)借助垂直搜索技術(shù)獲取了大眾點(diǎn)評網(wǎng)上的商戶(hù)簡(jiǎn)介和消費者點(diǎn)評爬蟲(chóng)程序,并且直接大量使用,于是大眾點(diǎn)評網(wǎng)多次要求愛(ài)幫停止使用大眾點(diǎn)評網(wǎng)的內容。而愛(ài)幫網(wǎng)則以自己是垂直搜索網(wǎng)站為由,拒絕停止抓取大眾點(diǎn)評網(wǎng)上的內容,并且指責大眾點(diǎn)評網(wǎng)對那些內容所享有的著(zhù)作權。為此,雙方開(kāi)打了兩場(chǎng)官司。2011年1月,北京海淀*敏*感*詞*作出裁定:愛(ài)幫網(wǎng)侵害大眾點(diǎn)評網(wǎng)著(zhù)作權創(chuàng )立,愛(ài)幫網(wǎng)應該停止侵權并賠付大眾點(diǎn)評網(wǎng)經(jīng)濟損失和訴訟必要開(kāi)支。

  2013年10月,百度訴360違背Robots協(xié)議,百度方面覺(jué)得,360違背了Robots協(xié)議,擅自抓取、復制百度網(wǎng)站內容并生成快照向用戶(hù)提供。2014年08月07日,北京市第一中級人民*敏*感*詞*做出二審裁定,*敏*感*詞*覺(jué)得被告奇虎360的行為違背了《反不正當競爭法》相關(guān)規定,應賠付上訴百度公司70萬(wàn)元。

  雖然說(shuō),大眾點(diǎn)評上的點(diǎn)評數據,百度知道的問(wèn)答由用戶(hù)創(chuàng )建而非企業(yè),但是搭建平臺須要投入營(yíng)運、技術(shù)和人力成本,那么平臺擁有對數據的所有權,使用權和分發(fā)權。

  以上兩起敗訴告訴我們,在爬取網(wǎng)站的時(shí)侯,需要限制自己的爬蟲(chóng),遵守Robots協(xié)議和約束網(wǎng)路爬蟲(chóng)程序的速率;在使用數據的時(shí)侯,必須要遵循網(wǎng)站的知識產(chǎn)權。如果違犯了這種規定,很可能會(huì )吃官司,并且敗訴機率相當高。

  以上回答摘錄自本人所寫(xiě)的書(shū)《Python 網(wǎng)絡(luò )爬蟲(chóng):從入門(mén)到實(shí)踐》第一章:網(wǎng)絡(luò )爬蟲(chóng)合法嗎?

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久