querylist采集微信公眾號文章(工具Python3+版本Fiddler下載地址(圖)下載)
優(yōu)采云 發(fā)布時(shí)間: 2021-09-11 08:14querylist采集微信公眾號文章(工具Python3+版本Fiddler下載地址(圖)下載)
代碼測試有效期至2019/03/08
微信爬蟲(chóng)步驟:
必需品:
我的微信公眾號Fiddler抓包工具Python 3+版
提琴手下載鏈接
HTTP 代理工具也稱(chēng)為抓包工具。主流的抓包工具是Windows平臺的Fiddler,macOS平臺的Charles,阿里開(kāi)源了一個(gè)叫AnyProxy的工具。它們的基本原理類(lèi)似,即通過(guò)在移動(dòng)客戶(hù)端上設置代理IP和端口,所有來(lái)自客戶(hù)端的HTTP和HTTPS請求都會(huì )通過(guò)代理工具。在代理工具中,您可以清楚地看到每個(gè)請求。然后可以分析詳細信息以找出每個(gè)請求的構造方式。搞清楚這些之后,我們就可以用Python來(lái)模擬發(fā)起請求了,然后就可以得到我們想要的數據了。
安裝包超過(guò)4M。配置前,首先確保您的手機和電腦在同一個(gè)局域網(wǎng)內。如果不在同一個(gè)局域網(wǎng)內,可以購買(mǎi)*敏*感*詞*WiFi,在電腦上搭建一個(gè)極簡(jiǎn)的無(wú)線(xiàn)路由器。一路點(diǎn)擊下一步,完成安裝過(guò)程。
Fiddler 配置選擇工具> Fiddler 選項> 連接 Fiddler 的默認端口為8888,如果該端口已經(jīng)被其他程序占用,需要手動(dòng)更改,勾選允許遠程計算機連接,其他選項即可。 , 配置更新后記得重啟Fiddler。一定要重啟Fiddler,否則代理將失效。 .接下來(lái)需要配置手機,但是這里微信有pc客戶(hù)端,所以不需要配置手機
現在打開(kāi)微信,隨機選擇一個(gè)公眾號,進(jìn)入公眾號的【查看歷史信息】
同時(shí)觀(guān)察 Fiddler 的主面板。當微信從公眾號介紹頁(yè)面進(jìn)入歷史消息頁(yè)面時(shí),已經(jīng)可以在Fiddler上看到請求進(jìn)來(lái)了。這些請求是微信APP向服務(wù)器發(fā)送的請求?,F在簡(jiǎn)單介紹一下這個(gè)請求面板上各個(gè)模塊的含義。
我將上面的主面板分成了 7 個(gè)塊。需要了解每個(gè)區塊的內容,然后才可以使用Python代碼模擬微信請求。 1、服務(wù)器響應結果,200表示服務(wù)器成功響應了2、請求協(xié)議,微信請求協(xié)議是基于HTTPS的,所以之前一定要配置好,否則看不到HTTPS請求。 3、微信服務(wù)器主機名4、請求路徑5、請求行,包括請求方法(GET)、請求協(xié)議(HTTP/1.1)、請求路徑(/mp/profile_ext...)一長(cháng)串參數)6、收錄cookie信息的請求頭。7、微信服務(wù)器返回的響應數據,我們切換到TextView和WebView看看返回的數據是什么樣子的。
TextView模式下的預覽效果為服務(wù)器返回的HTML源代碼
WebView 模式是 HTML 代碼的渲染效果。其實(shí)就是我們在手機微信上看到的效果,但是因為風(fēng)格欠缺,沒(méi)有看到手機上的美化效果。
如果服務(wù)器返回的是Json格式或者XML,也可以切換到對應的頁(yè)面進(jìn)行預覽查看。
開(kāi)始抓?。?/p>
1、擁有微信公眾號
登錄微信公眾號,在菜單欄:素材管理—>新建素材,出現如下頁(yè)面
F12查看網(wǎng)絡(luò ),點(diǎn)擊圖中位置
公眾號和user-Agent的cookies如下
Fakeid和token獲取如下: