亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

網(wǎng)絡(luò )爬蟲(chóng)是哪些？網(wǎng)絡(luò )爬蟲(chóng)是怎樣工作的？

優(yōu)采云發(fā)布時(shí)間: 2020-05-02 08:08

　　

　　摘要：一篇文章了解爬蟲(chóng)的前世今生與未來(lái)

　　什么是網(wǎng)絡(luò )爬蟲(chóng)?

　　網(wǎng)絡(luò )爬蟲(chóng)，也稱(chēng)為網(wǎng)頁(yè)抓取和網(wǎng)頁(yè)數據提取，基本上是指通過(guò)超文本傳輸協(xié)議(HTTP)或通過(guò)網(wǎng)頁(yè)瀏覽器獲取萬(wàn)維網(wǎng)上可用的數據。（摘自Wikipedia）

　　網(wǎng)絡(luò )爬蟲(chóng)是怎樣工作的?

　　通常，爬取網(wǎng)頁(yè)數據時(shí)，只須要2個(gè)步驟。

　　打開(kāi)網(wǎng)頁(yè)→將具體的數據從網(wǎng)頁(yè)中復制并導入到表格或數據庫中。

　　

　　這一切是怎么開(kāi)始的?

　　盡管對許多人來(lái)說(shuō)，網(wǎng)絡(luò )爬蟲(chóng)聽(tīng)上去象是“大數據”或“機器學(xué)習”一類(lèi)的新概念，但實(shí)際上，網(wǎng)絡(luò )數據抓取的歷史要長(cháng)得多，可以溯源到萬(wàn)維網(wǎng)(或淺顯的“互聯(lián)網(wǎng)”)誕生之時(shí)。

　　一開(kāi)始，互聯(lián)網(wǎng)還沒(méi)有搜索。在搜索引擎被開(kāi)發(fā)下來(lái)之前，互聯(lián)網(wǎng)只是文件傳輸協(xié)議(FTP)站點(diǎn)的集合，用戶(hù)可以在這種站點(diǎn)中導航以找到特定的共享文件。

　　為了查找和組合互聯(lián)網(wǎng)上可用的分布式數據，人們創(chuàng )建了一個(gè)自動(dòng)化程序，稱(chēng)為網(wǎng)絡(luò )爬蟲(chóng)/機器人，可以抓取互聯(lián)網(wǎng)上的所有網(wǎng)頁(yè)，然后將所有頁(yè)面上的內容復制到數據庫中制做索引。

　　

　　隨后，互聯(lián)網(wǎng)發(fā)展上去，最終有數百萬(wàn)級的網(wǎng)頁(yè)生成，這些網(wǎng)頁(yè)包含大量不同的方式的數據，其中包括文本、圖像、視頻和音頻?；ヂ?lián)網(wǎng)弄成了一個(gè)開(kāi)放的數據源。

　　隨著(zhù)數據資源顯得十分豐富且容易搜索，人們發(fā)覺(jué)從網(wǎng)頁(yè)上找到她們想要的信息是一件極其簡(jiǎn)單的事情，他們一般分布在大量的網(wǎng)站上。但另一個(gè)問(wèn)題出現了，當她們想要數據的時(shí)侯，并非每位網(wǎng)站都提供下載按鍵，如果進(jìn)行自動(dòng)復制其實(shí)是極其低效且平庸的。

　　

　　這就是網(wǎng)路爬蟲(chóng)誕生的誘因。網(wǎng)絡(luò )爬蟲(chóng)實(shí)際上是由網(wǎng)頁(yè)機器人/爬蟲(chóng)驅動(dòng)的，其功能與搜索引擎相同。簡(jiǎn)單來(lái)說(shuō)就是，抓取和復制。唯一的不同可能是規模。網(wǎng)絡(luò )數據抓取是從特定的網(wǎng)站提取特定的數據，而搜索引擎一般是在萬(wàn)維網(wǎng)上搜索出大部分的網(wǎng)站。

　　時(shí)間軸

　　1989年萬(wàn)維網(wǎng)的誕生

　　

　　從技術(shù)上講，萬(wàn)維網(wǎng)和因特網(wǎng)有所不同。前者是指信息空間，后者是由數臺計算機聯(lián)接上去的內部網(wǎng)路。

　　感謝Tim Berners-Lee，萬(wàn)維網(wǎng)的發(fā)明者，他發(fā)明的三件東西，往后成為了我們日常生活中的一部分。

　　1990年第一個(gè)網(wǎng)絡(luò )瀏覽器

　　它也由Tim Berners-Lee發(fā)明，被稱(chēng)為WorldWide網(wǎng)頁(yè)(無(wú)空間)，以WWW項目命名。在網(wǎng)路出現一年后，人們有了一條途徑去瀏覽它并與之互動(dòng)。

　　1991年第一個(gè)網(wǎng)頁(yè)服務(wù)器和第一個(gè) 網(wǎng)頁(yè)頁(yè)面

　　網(wǎng)頁(yè)的數目以緩慢的速率下降。到1994年，HTTP服務(wù)器的數目超過(guò)200臺。

　　1993年6月第一臺網(wǎng)頁(yè)機器人——萬(wàn)維網(wǎng)漫游器

　　雖然它的功能和昨天的網(wǎng)頁(yè)機器人一樣，但它只是拿來(lái)檢測網(wǎng)頁(yè)的大小。

　　1993年12月首個(gè)基于爬蟲(chóng)的網(wǎng)路搜索引擎—JumpStation

　　

　　由于當時(shí)網(wǎng)路上的網(wǎng)站并不多，搜索引擎過(guò)去經(jīng)常依賴(lài)人工網(wǎng)站管理員來(lái)搜集和編輯鏈接，使其成為一種特定的格式。

　　JumpStation帶來(lái)了新的飛越。它是第一個(gè)借助網(wǎng)路機器人的WWW搜索引擎。

　　從那時(shí)起，人們開(kāi)始使用這種程序化的網(wǎng)路爬蟲(chóng)程序來(lái)搜集和組織互聯(lián)網(wǎng)。從Infoseek、Altavista和Excite，到現在的必應和微軟，搜索引擎機器人的核心依舊保持不變：

　　找到一個(gè)網(wǎng)頁(yè)頁(yè)面，下載(獲取)它，抓取網(wǎng)頁(yè)頁(yè)面上顯示的所有信息，然后將其添加到搜索引擎的數據庫中。

　　由于網(wǎng)頁(yè)頁(yè)面是為人類(lèi)用戶(hù)設計的，不是為了自動(dòng)化使用，即使開(kāi)發(fā)了網(wǎng)頁(yè)機器人，計算機工程師和科學(xué)家一直很難進(jìn)行網(wǎng)路數據抓取，更不用說(shuō)普通人了。因此，人們仍然致力于讓網(wǎng)路爬蟲(chóng)顯得愈發(fā)容易使用。

　　2000年網(wǎng)頁(yè)API和API爬蟲(chóng)

　　

　　API表示應用程序編程插口。它是一個(gè)插口，通過(guò)提供搭建好的模塊，使開(kāi)發(fā)程序愈加方便。

　　2000年，Salesforce和eBay推出了自己的API，程序員可以用它訪(fǎng)問(wèn)并下載一些公開(kāi)數據。

　　從那時(shí)起，許多網(wǎng)站都提供網(wǎng)頁(yè)API使人們可以訪(fǎng)問(wèn)她們的公共數據庫。

　　發(fā)送一組HTTP請求，然后接收JSON或XML的回饋。

　　網(wǎng)頁(yè)API通過(guò)搜集網(wǎng)站提供的數據，為開(kāi)發(fā)人員提供了一種更友好的網(wǎng)路爬蟲(chóng)形式。

　　2004 年P(guān)ython Beautiful Soup

　　

　　不是所有的網(wǎng)站都提供API。即使她們提供了，他們也不一定會(huì )提供你想要的所有數據。因此，程序員們仍在開(kāi)發(fā)一種才能建立網(wǎng)路爬蟲(chóng)的方式。

　　2004年，Beautiful Soup發(fā)布。它是一個(gè)為Python設計的庫。

　　在計算機編程中，庫是腳本模塊的集合，就像常用的算法一樣，它容許不用重畫(huà)就可以使用，從而簡(jiǎn)化了編程過(guò)程。

　　通過(guò)簡(jiǎn)單的命令，Beautiful Soup可以理解站點(diǎn)的結構，并幫助從HTML容器中解析內容。它被覺(jué)得是用于網(wǎng)路爬蟲(chóng)的最復雜和最先進(jìn)的庫，也是現今最常見(jiàn)和最流行的方式之一。

　　2005-2006年網(wǎng)路抓取軟件的可視化

　　

　　2006年，Stefan Andresen和他的Kapow軟件(Kofax于2013年競購)發(fā)布了網(wǎng)頁(yè)集成平臺6.0版本，這是一種可視化的網(wǎng)路爬蟲(chóng)軟件，它容許用戶(hù)輕松簡(jiǎn)單的選擇網(wǎng)頁(yè)內容，并將這種數據構造成可用的excel文件或數據庫。

　　

　　八爪魚(yú)數據采集器

　　最終，可視化的網(wǎng)路數據抓取軟件可以使大量非程序員自己進(jìn)行網(wǎng)路爬蟲(chóng)。

　　從那時(shí)起，網(wǎng)絡(luò )抓取開(kāi)始成為主流?，F在，對于非程序員來(lái)說(shuō)，他們可以很容易地找到80多個(gè)可提供可視化過(guò)程的的數據采集軟件。

　　

　　網(wǎng)絡(luò )爬蟲(chóng)未來(lái)將怎樣發(fā)展?

　　我們總是想要更多的數據。我們搜集數據，處理數據，并把數據轉換成各種各樣的成品，比如研究，洞察剖析，信息，故事，資產(chǎn)等等。我們過(guò)去經(jīng)常耗費大量的時(shí)間、精力和金錢(qián)在找尋和搜集數據上，以至于只有大公司和組織能夠負擔得起。

　　在2018年，我們所知的萬(wàn)維網(wǎng)網(wǎng)絡(luò )爬蟲(chóng)技術(shù)是什么，或淺顯的“互聯(lián)網(wǎng)”，由超過(guò)18億個(gè)網(wǎng)站組成。只需點(diǎn)擊幾下鍵盤(pán)，就可以獲得這么巨大的數據量。隨著(zhù)越來(lái)越多的人上網(wǎng)，每秒形成的數據也越來(lái)越多。

　　

　　如今，是一個(gè)比歷史上任何時(shí)期都要便捷的時(shí)代。任何個(gè)人、公司和組織都還能獲得她們想要的數據，只要這種數據在網(wǎng)頁(yè)上是公開(kāi)可用的。

　　多虧了網(wǎng)路爬蟲(chóng)/機器人、API、標準數據庫和各類(lèi)開(kāi)箱即用的軟件，一旦有人有了獲取數據的意愿，就有了獲取數據的方式?；蛘?，他們也可以求救于這些她們接觸得到又支付的起費用的專(zhuān)業(yè)人士。

　　在自由職業(yè)任務(wù)平臺guru.com上搜索“網(wǎng)絡(luò )爬蟲(chóng)”時(shí)，你可以得到10088個(gè)搜索結果，這意味著(zhù)超過(guò)10000名自由職業(yè)者在這個(gè)網(wǎng)站上提供網(wǎng)路抓取服務(wù)。

　　而在同類(lèi)的網(wǎng)站，Upwork上的搜索結果有13190個(gè)，fievere.com上的結果是1024個(gè)。

　　各行各業(yè)的公司對網(wǎng)路數據的需求不斷下降，推動(dòng)了網(wǎng)路抓取行業(yè)的發(fā)展，帶來(lái)了新的市場(chǎng)、就業(yè)機會(huì )和商業(yè)機會(huì )。

　　

　　與此同時(shí)，與其他新興行業(yè)一樣，網(wǎng)絡(luò )抓取也伴隨著(zhù)法律方面的疑慮。

　　圍繞網(wǎng)路爬蟲(chóng)合法性的討論情況仍存在。它的合法與否與具體案例背景相關(guān)。目前，這種趨勢下誕生的許多有趣的法律問(wèn)題一直沒(méi)有得到解答，或者取決于十分具體的案例背景。

　　雖然網(wǎng)路抓取早已存在了太長(cháng)一段時(shí)間，但法庭才剛才開(kāi)基礎大數據相關(guān)的法律理論的應用。

　　由于與網(wǎng)路爬取和數據抓取的仍處于發(fā)展階段，所以它的發(fā)展一直未穩定出來(lái)且難以預測。然而，有一件事是肯定的，那就是，只要有互聯(lián)網(wǎng)，就有網(wǎng)路抓取。

　　

　　是網(wǎng)路抓取使新生的互聯(lián)網(wǎng)顯得可以搜索，使爆炸式下降的互聯(lián)網(wǎng)顯得愈發(fā)容易訪(fǎng)問(wèn)和獲取。

　　毫無(wú)疑問(wèn)網(wǎng)絡(luò )爬蟲(chóng)技術(shù)是什么，在可預見(jiàn)的未來(lái)，互聯(lián)網(wǎng)和網(wǎng)路抓取，將繼續穩定地往前邁向。

0

2020-05-02

網(wǎng)絡(luò )爬蟲(chóng) 網(wǎng)頁(yè)抓取

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久