八爪魚(yú)采集器能代替python爬蟲(chóng)嗎?
優(yōu)采云 發(fā)布時(shí)間: 2020-05-19 08:02
44 人贊成了該回答
作為同時(shí)使用八爪魚(yú)采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己尋思技術(shù)的互聯(lián)網(wǎng)營(yíng)運喵。。。我來(lái)說(shuō)說(shuō)心得看法。
八爪魚(yú)有一些優(yōu)勢,比如學(xué)習成本低,可視化流程,快速搭建采集系統。能直接導入excel文件和導入到數據庫中。降低采集成本,云采集提供10個(gè)節點(diǎn),也能省事不少。
不好的地方就是,即使看似很簡(jiǎn)單了,而且還有更傻瓜化的smart模式,但是上面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě),不過(guò)說(shuō)實(shí)話(huà)心得太多,還沒(méi)仔細整理。
首先上面的循環(huán)都是xpath元素定位,如果用單純的傻瓜化點(diǎn)擊定位的話(huà),很生硬,大批量采集頁(yè)面的時(shí)侯很容易出錯。另外用這個(gè)工具的,因為便捷,小白太多,成天有人問(wèn)普通問(wèn)題,他們都不會(huì )看頁(yè)面結構,也不懂xpath,很容易出現采集不全,無(wú)限翻頁(yè)等問(wèn)題。
但是八爪魚(yú)采集器的ajax加載,模擬手機頁(yè)面,過(guò)濾廣告,滾動(dòng)至頁(yè)面底端等功能堪比利器,一個(gè)勾選才能搞定。寫(xiě)代碼很麻煩的,實(shí)現這種功能費力。
八爪魚(yú)雖然只是工具,自由度肯定完敗編程。勝在便捷,快速,低成本。
八爪魚(yú)判定語(yǔ)錄較弱,無(wú)法進(jìn)行復雜判定,也未能執行復雜邏輯。還有就是八爪魚(yú)只有企業(yè)版能夠解決驗證碼問(wèn)題,一般版本未能接入打碼平臺。
還有一點(diǎn)就是沒(méi)有ocr功能,58同城和趕集網(wǎng)采集的電話(huà)號碼都是圖片格式,python可以用開(kāi)源圖象辨識庫解決,對接進(jìn)去辨識便可。
這里更新一下:
之前寫(xiě)的覺(jué)得有片面性,畢竟是那個(gè)時(shí)代我的心境下寫(xiě)下來(lái)的。一段時(shí)間以后,思考了一下,數據采集的需求才是決定最終使用哪些工具的。如果我是大量數據采集需求的話(huà),爬蟲(chóng)一定是不可避開(kāi)的,因為代碼的自由度更高。八爪魚(yú)的目標我感覺(jué)也不是代替python,而是實(shí)現人人都能上手的采集器這個(gè)目標。
另一點(diǎn)就是python學(xué)習容易,部署簡(jiǎn)單,開(kāi)源免費。即使只學(xué)了scrapy也能解決一些問(wèn)題了,不過(guò)麻煩的就是原本一些工具里很簡(jiǎn)單選擇能夠搞定的功能八爪魚(yú)采集器高級模式,必須靠自己寫(xiě)或則拷貝他人的代碼能夠實(shí)現,如果不是專(zhuān)職寫(xiě)爬蟲(chóng)的話(huà),很快就想從入門(mén)到舍棄了……
綜合寫(xiě)了一下對比和坑,放在知乎專(zhuān)欄里了八爪魚(yú)采集器高級模式,有興趣的可以去瞧瞧:
淺談一下近來(lái)使用八爪魚(yú)采集器碰到的坑(還有對比其他采集軟件和爬蟲(chóng)) - 知乎專(zhuān)欄
編輯于 2017-12-17
深圳視界信息技術(shù)*敏*感*詞* CEO
10 人贊成了該回答
八爪魚(yú)是工具,python是代碼,八爪魚(yú)的目標是使有須要采集網(wǎng)頁(yè)的人都可以使用工具輕松達到目的,就這個(gè)目的來(lái)講,八爪魚(yú)就是要代替諸多公司自己爬蟲(chóng)工程師團隊開(kāi)發(fā)的python爬蟲(chóng)程序,我認為完全替代有點(diǎn)困難,總有些人就是一定要求自己開(kāi)發(fā)的,這種就沒(méi)辦法了,但是從成本,效率,響應需求變化的能力,通用性,易用性,IP資源,防封能力,智能化程度,對使用人員的要求等等審視爬蟲(chóng)做的好不好的指標來(lái)看的話(huà),八爪魚(yú)目前所達到的技術(shù)和產(chǎn)品能力,一般的技術(shù)團隊用python是難以達到的。
發(fā)布于 2017-07-04




