如何完整寫(xiě)一個(gè)爬蟲(chóng)框架
優(yōu)采云 發(fā)布時(shí)間: 2020-05-03 08:02
本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。
產(chǎn)生爬蟲(chóng)框架:
1、建立一個(gè)scrapy爬蟲(chóng)工程
2、在工程中形成一個(gè)scrapy爬蟲(chóng)
3、配置spider爬蟲(chóng)
4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
具體操作:
1、建立工程
定義一個(gè)工程,名稱(chēng)為:python123demo
方法:
在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes
然后輸入
scrapy startproject python123demo
在pycodes中會(huì )生成一個(gè)文件:
_init_.py不需要用戶(hù)編撰
2、在工程中形成一個(gè)scrapy爬蟲(chóng)
執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站
產(chǎn)生爬蟲(chóng):
生成一個(gè)名稱(chēng)為 demo 的spider
僅限生成 demo.py,其內容為:
name = 'demo' 當前爬蟲(chóng)名子為demo
allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入
start_urls = [] 爬取的初始頁(yè)面
parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求
3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求
將解析的頁(yè)面保存成文件
修改demo.py文件
4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)
然后我的筆記本上出現了一個(gè)錯誤
windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是
pip3 install pypiwin32
這是py3的解決方案
注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤
安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!
捕獲頁(yè)面儲存在 demo.html文件中
demo.py 所對應的完整代碼:
兩版本等價(jià):
以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!














