亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

如何完整寫(xiě)一個(gè)爬蟲(chóng)框架

優(yōu)采云發(fā)布時(shí)間: 2020-05-03 08:02

　　

　　本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式，具有挺好的參考價(jià)值，希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架，希望能幫助到你們。

　　產(chǎn)生爬蟲(chóng)框架：

　　1、建立一個(gè)scrapy爬蟲(chóng)工程

　　2、在工程中形成一個(gè)scrapy爬蟲(chóng)

　　3、配置spider爬蟲(chóng)

　　4、運行爬蟲(chóng)，獲取網(wǎng)頁(yè)

　　具體操作：

　　1、建立工程

　　定義一個(gè)工程，名稱(chēng)為：python123demo

　　方法：

　　在cmd中，d: 步入盤(pán)符， cd pycodes 步入文件pycodes

　　然后輸入

　　scrapy startproject python123demo

　　在pycodes中會(huì )生成一個(gè)文件：

　　

　　

　　_init_.py不需要用戶(hù)編撰

　　

　　

　　2、在工程中形成一個(gè)scrapy爬蟲(chóng)

　　執行一條命令，給出爬蟲(chóng)名子和爬取的網(wǎng)站

　　產(chǎn)生爬蟲(chóng)：

　　

　　生成一個(gè)名稱(chēng)為 demo 的spider

　　僅限生成 demo.py,其內容為：

　　

　　name = 'demo' 當前爬蟲(chóng)名子為demo

　　allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接，該域名由cmd命令臺輸入

　　start_urls = [] 爬取的初始頁(yè)面

　　parse()用于處理相應，解析內容產(chǎn)生字典，發(fā)現新的url爬取懇求

　　3、配置形成的spider爬蟲(chóng)，使之滿(mǎn)足我們的需求

　　將解析的頁(yè)面保存成文件

　　修改demo.py文件

　　

　　4、運行爬蟲(chóng)，獲取網(wǎng)頁(yè)

　　打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)

　　

　　然后我的筆記本上出現了一個(gè)錯誤

　　

　　windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊，但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤，更方便的做法是

　　pip3 install pypiwin32

　　這是py3的解決方案

　　注意：py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤

　　安裝完成后，重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架，成功！撒花！

　　

　　捕獲頁(yè)面儲存在 demo.html文件中

　　

　　demo.py 所對應的完整代碼：

　　

　　兩版本等價(jià)：

　　

　　以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容，更多請關(guān)注php中文網(wǎng)其它相關(guān)文章！

0

2020-05-03

爬蟲(chóng) 框架域名

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久