亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

網(wǎng)絡(luò )爬蟲(chóng)是哪些?網(wǎng)絡(luò )爬蟲(chóng)是怎樣工作的?

優(yōu)采云 發(fā)布時(shí)間: 2020-05-02 08:08

  

  摘要:一篇文章了解爬蟲(chóng)的前世今生與未來(lái)

  什么是網(wǎng)絡(luò )爬蟲(chóng)?

  網(wǎng)絡(luò )爬蟲(chóng),也稱(chēng)為網(wǎng)頁(yè)抓取和網(wǎng)頁(yè)數據提取,基本上是指通過(guò)超文本傳輸協(xié)議(HTTP)或通過(guò)網(wǎng)頁(yè)瀏覽器獲取萬(wàn)維網(wǎng)上可用的數據。(摘自Wikipedia)

  網(wǎng)絡(luò )爬蟲(chóng)是怎樣工作的?

  通常,爬取網(wǎng)頁(yè)數據時(shí),只須要2個(gè)步驟。

  打開(kāi)網(wǎng)頁(yè)→將具體的數據從網(wǎng)頁(yè)中復制并導入到表格或數據庫中。

  

  這一切是怎么開(kāi)始的?

  盡管對許多人來(lái)說(shuō),網(wǎng)絡(luò )爬蟲(chóng)聽(tīng)上去象是“大數據”或“機器學(xué)習”一類(lèi)的新概念,但實(shí)際上,網(wǎng)絡(luò )數據抓取的歷史要長(cháng)得多,可以溯源到萬(wàn)維網(wǎng)(或淺顯的“互聯(lián)網(wǎng)”)誕生之時(shí)。

  一開(kāi)始,互聯(lián)網(wǎng)還沒(méi)有搜索。在搜索引擎被開(kāi)發(fā)下來(lái)之前,互聯(lián)網(wǎng)只是文件傳輸協(xié)議(FTP)站點(diǎn)的集合,用戶(hù)可以在這種站點(diǎn)中導航以找到特定的共享文件。

  為了查找和組合互聯(lián)網(wǎng)上可用的分布式數據,人們創(chuàng )建了一個(gè)自動(dòng)化程序,稱(chēng)為網(wǎng)絡(luò )爬蟲(chóng)/機器人,可以抓取互聯(lián)網(wǎng)上的所有網(wǎng)頁(yè),然后將所有頁(yè)面上的內容復制到數據庫中制做索引。

  

  隨后,互聯(lián)網(wǎng)發(fā)展上去,最終有數百萬(wàn)級的網(wǎng)頁(yè)生成,這些網(wǎng)頁(yè)包含大量不同的方式的數據,其中包括文本、圖像、視頻和音頻?;ヂ?lián)網(wǎng)弄成了一個(gè)開(kāi)放的數據源。

  隨著(zhù)數據資源顯得十分豐富且容易搜索,人們發(fā)覺(jué)從網(wǎng)頁(yè)上找到她們想要的信息是一件極其簡(jiǎn)單的事情,他們一般分布在大量的網(wǎng)站上。但另一個(gè)問(wèn)題出現了,當她們想要數據的時(shí)侯,并非每位網(wǎng)站都提供下載按鍵,如果進(jìn)行自動(dòng)復制其實(shí)是極其低效且平庸的。

  

  這就是網(wǎng)路爬蟲(chóng)誕生的誘因。網(wǎng)絡(luò )爬蟲(chóng)實(shí)際上是由網(wǎng)頁(yè)機器人/爬蟲(chóng)驅動(dòng)的,其功能與搜索引擎相同。簡(jiǎn)單來(lái)說(shuō)就是,抓取和復制。唯一的不同可能是規模。網(wǎng)絡(luò )數據抓取是從特定的網(wǎng)站提取特定的數據,而搜索引擎一般是在萬(wàn)維網(wǎng)上搜索出大部分的網(wǎng)站。

  時(shí)間軸

  1989年萬(wàn)維網(wǎng)的誕生

  

  從技術(shù)上講,萬(wàn)維網(wǎng)和因特網(wǎng)有所不同。前者是指信息空間,后者是由數臺計算機聯(lián)接上去的內部網(wǎng)路。

  感謝Tim Berners-Lee,萬(wàn)維網(wǎng)的發(fā)明者,他發(fā)明的三件東西,往后成為了我們日常生活中的一部分。

  1990年第一個(gè)網(wǎng)絡(luò )瀏覽器

  它也由Tim Berners-Lee發(fā)明,被稱(chēng)為WorldWide網(wǎng)頁(yè)(無(wú)空間),以WWW項目命名。在網(wǎng)路出現一年后,人們有了一條途徑去瀏覽它并與之互動(dòng)。

  1991年第一個(gè)網(wǎng)頁(yè)服務(wù)器和第一個(gè) 網(wǎng)頁(yè)頁(yè)面

  網(wǎng)頁(yè)的數目以緩慢的速率下降。到1994年,HTTP服務(wù)器的數目超過(guò)200臺。

  1993年6月第一臺網(wǎng)頁(yè)機器人——萬(wàn)維網(wǎng)漫游器

  雖然它的功能和昨天的網(wǎng)頁(yè)機器人一樣,但它只是拿來(lái)檢測網(wǎng)頁(yè)的大小。

  1993年12月首個(gè)基于爬蟲(chóng)的網(wǎng)路搜索引擎—JumpStation

  

  由于當時(shí)網(wǎng)路上的網(wǎng)站并不多,搜索引擎過(guò)去經(jīng)常依賴(lài)人工網(wǎng)站管理員來(lái)搜集和編輯鏈接,使其成為一種特定的格式。

  JumpStation帶來(lái)了新的飛越。它是第一個(gè)借助網(wǎng)路機器人的WWW搜索引擎。

  從那時(shí)起,人們開(kāi)始使用這種程序化的網(wǎng)路爬蟲(chóng)程序來(lái)搜集和組織互聯(lián)網(wǎng)。從Infoseek、Altavista和Excite,到現在的必應和微軟,搜索引擎機器人的核心依舊保持不變:

  找到一個(gè)網(wǎng)頁(yè)頁(yè)面,下載(獲取)它,抓取網(wǎng)頁(yè)頁(yè)面上顯示的所有信息,然后將其添加到搜索引擎的數據庫中。

  由于網(wǎng)頁(yè)頁(yè)面是為人類(lèi)用戶(hù)設計的,不是為了自動(dòng)化使用,即使開(kāi)發(fā)了網(wǎng)頁(yè)機器人,計算機工程師和科學(xué)家一直很難進(jìn)行網(wǎng)路數據抓取,更不用說(shuō)普通人了。因此,人們仍然致力于讓網(wǎng)路爬蟲(chóng)顯得愈發(fā)容易使用。

  2000年網(wǎng)頁(yè)API和API爬蟲(chóng)

  

  API表示應用程序編程插口。它是一個(gè)插口,通過(guò)提供搭建好的模塊,使開(kāi)發(fā)程序愈加方便。

  2000年,Salesforce和eBay推出了自己的API,程序員可以用它訪(fǎng)問(wèn)并下載一些公開(kāi)數據。

  從那時(shí)起,許多網(wǎng)站都提供網(wǎng)頁(yè)API使人們可以訪(fǎng)問(wèn)她們的公共數據庫。

  發(fā)送一組HTTP請求,然后接收JSON或XML的回饋。

  網(wǎng)頁(yè)API通過(guò)搜集網(wǎng)站提供的數據,為開(kāi)發(fā)人員提供了一種更友好的網(wǎng)路爬蟲(chóng)形式。

  2004 年P(guān)ython Beautiful Soup

  

  不是所有的網(wǎng)站都提供API。即使她們提供了,他們也不一定會(huì )提供你想要的所有數據。因此,程序員們仍在開(kāi)發(fā)一種才能建立網(wǎng)路爬蟲(chóng)的方式。

  2004年,Beautiful Soup發(fā)布。它是一個(gè)為Python設計的庫。

  在計算機編程中,庫是腳本模塊的集合,就像常用的算法一樣,它容許不用重畫(huà)就可以使用,從而簡(jiǎn)化了編程過(guò)程。

  通過(guò)簡(jiǎn)單的命令,Beautiful Soup可以理解站點(diǎn)的結構,并幫助從HTML容器中解析內容。它被覺(jué)得是用于網(wǎng)路爬蟲(chóng)的最復雜和最先進(jìn)的庫,也是現今最常見(jiàn)和最流行的方式之一。

  2005-2006年網(wǎng)路抓取軟件的可視化

  

  2006年,Stefan Andresen和他的Kapow軟件(Kofax于2013年競購)發(fā)布了網(wǎng)頁(yè)集成平臺6.0版本,這是一種可視化的網(wǎng)路爬蟲(chóng)軟件,它容許用戶(hù)輕松簡(jiǎn)單的選擇網(wǎng)頁(yè)內容,并將這種數據構造成可用的excel文件或數據庫。

  

  八爪魚(yú)數據采集器

  最終,可視化的網(wǎng)路數據抓取軟件可以使大量非程序員自己進(jìn)行網(wǎng)路爬蟲(chóng)。

  從那時(shí)起,網(wǎng)絡(luò )抓取開(kāi)始成為主流?,F在,對于非程序員來(lái)說(shuō),他們可以很容易地找到80多個(gè)可提供可視化過(guò)程的的數據采集軟件。

  

  網(wǎng)絡(luò )爬蟲(chóng)未來(lái)將怎樣發(fā)展?

  我們總是想要更多的數據。我們搜集數據,處理數據,并把數據轉換成各種各樣的成品,比如研究,洞察剖析,信息,故事,資產(chǎn)等等。我們過(guò)去經(jīng)常耗費大量的時(shí)間、精力和金錢(qián)在找尋和搜集數據上,以至于只有大公司和組織能夠負擔得起。

  在2018年,我們所知的萬(wàn)維網(wǎng)網(wǎng)絡(luò )爬蟲(chóng)技術(shù)是什么,或淺顯的“互聯(lián)網(wǎng)”,由超過(guò)18億個(gè)網(wǎng)站組成。只需點(diǎn)擊幾下鍵盤(pán),就可以獲得這么巨大的數據量。隨著(zhù)越來(lái)越多的人上網(wǎng),每秒形成的數據也越來(lái)越多。

  

  如今,是一個(gè)比歷史上任何時(shí)期都要便捷的時(shí)代。任何個(gè)人、公司和組織都還能獲得她們想要的數據,只要這種數據在網(wǎng)頁(yè)上是公開(kāi)可用的。

  多虧了網(wǎng)路爬蟲(chóng)/機器人、API、標準數據庫和各類(lèi)開(kāi)箱即用的軟件,一旦有人有了獲取數據的意愿,就有了獲取數據的方式?;蛘?,他們也可以求救于這些她們接觸得到又支付的起費用的專(zhuān)業(yè)人士。

  在自由職業(yè)任務(wù)平臺guru.com上搜索“網(wǎng)絡(luò )爬蟲(chóng)”時(shí),你可以得到10088個(gè)搜索結果,這意味著(zhù)超過(guò)10000名自由職業(yè)者在這個(gè)網(wǎng)站上提供網(wǎng)路抓取服務(wù)。

  而在同類(lèi)的網(wǎng)站,Upwork上的搜索結果有13190個(gè),fievere.com上的結果是1024個(gè)。

  各行各業(yè)的公司對網(wǎng)路數據的需求不斷下降,推動(dòng)了網(wǎng)路抓取行業(yè)的發(fā)展,帶來(lái)了新的市場(chǎng)、就業(yè)機會(huì )和商業(yè)機會(huì )。

  

  與此同時(shí),與其他新興行業(yè)一樣,網(wǎng)絡(luò )抓取也伴隨著(zhù)法律方面的疑慮。

  圍繞網(wǎng)路爬蟲(chóng)合法性的討論情況仍存在。它的合法與否與具體案例背景相關(guān)。目前,這種趨勢下誕生的許多有趣的法律問(wèn)題一直沒(méi)有得到解答,或者取決于十分具體的案例背景。

  雖然網(wǎng)路抓取早已存在了太長(cháng)一段時(shí)間,但法庭才剛才開(kāi)基礎大數據相關(guān)的法律理論的應用。

  由于與網(wǎng)路爬取和數據抓取的仍處于發(fā)展階段,所以它的發(fā)展一直未穩定出來(lái)且難以預測。然而,有一件事是肯定的,那就是,只要有互聯(lián)網(wǎng),就有網(wǎng)路抓取。

  

  是網(wǎng)路抓取使新生的互聯(lián)網(wǎng)顯得可以搜索,使爆炸式下降的互聯(lián)網(wǎng)顯得愈發(fā)容易訪(fǎng)問(wèn)和獲取。

  毫無(wú)疑問(wèn)網(wǎng)絡(luò )爬蟲(chóng)技術(shù)是什么,在可預見(jiàn)的未來(lái),互聯(lián)網(wǎng)和網(wǎng)路抓取,將繼續穩定地往前邁向。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久