亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

如何完整寫(xiě)一個(gè)爬蟲(chóng)框架

優(yōu)采云 發(fā)布時(shí)間: 2020-05-03 08:02

  

  本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。

  產(chǎn)生爬蟲(chóng)框架:

  1、建立一個(gè)scrapy爬蟲(chóng)工程

  2、在工程中形成一個(gè)scrapy爬蟲(chóng)

  3、配置spider爬蟲(chóng)

  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)

  具體操作:

  1、建立工程

  定義一個(gè)工程,名稱(chēng)為:python123demo

  方法:

  在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes

  然后輸入

  scrapy startproject python123demo

  在pycodes中會(huì )生成一個(gè)文件:

  

  

  _init_.py不需要用戶(hù)編撰

  

  

  2、在工程中形成一個(gè)scrapy爬蟲(chóng)

  執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站

  產(chǎn)生爬蟲(chóng):

  

  生成一個(gè)名稱(chēng)為 demo 的spider

  僅限生成 demo.py,其內容為:

  

  name = 'demo' 當前爬蟲(chóng)名子為demo

  allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入

  start_urls = [] 爬取的初始頁(yè)面

  parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求

  3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求

  將解析的頁(yè)面保存成文件

  修改demo.py文件

  

  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)

  打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)

  

  然后我的筆記本上出現了一個(gè)錯誤

  

  windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是

  pip3 install pypiwin32

  這是py3的解決方案

  注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤

  安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!

  

  捕獲頁(yè)面儲存在 demo.html文件中

  

  demo.py 所對應的完整代碼:

  

  兩版本等價(jià):

  

  以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久