微信文章自動(dòng)化爬取過(guò)程中出現的問(wèn)題及解決辦法!
優(yōu)采云 發(fā)布時(shí)間: 2021-08-21 03:30微信文章自動(dòng)化爬取過(guò)程中出現的問(wèn)題及解決辦法!
實(shí)現功能
微信賬號目前可以獲取具體指標:biz、昵稱(chēng)、微信ID、頭像、二維碼、*敏*感*詞*、認證、認證信息、賬號主題、歸屬地等
WeChat文章目前可用的具體指標(包括但不限于):閱讀數、點(diǎn)贊(瀏覽)數、評論內容和總評論數、正文內容、圖片、視頻地址、是否原創(chuàng )、永久鏈接原文等
實(shí)施技術(shù)和工具
經(jīng)過(guò)大量長(cháng)期測試,保證微信客戶(hù)端采集300公眾號每天文章數據穩定運行,不會(huì )被封號。如果您頻繁訪(fǎng)問(wèn)微信公眾號的歷史消息頁(yè)面,將被禁止24小時(shí)。
目前比較好的策略:訪(fǎng)問(wèn)文章頁(yè)面后休眠5秒,訪(fǎng)問(wèn)微信公眾號歷史消息頁(yè)面后休眠150秒。
微信購買(mǎi)渠道qq客服:1653925422 60元購買(mǎi)了一個(gè)非實(shí)名微信賬號。購買(mǎi)賬號后,不得添加好友,否則將被微信賬號永久屏蔽為營(yíng)銷(xiāo)賬號。僅用于訪(fǎng)問(wèn)微信。公眾號文章不會(huì )被封。
詳細設計
1、 先準備一批微信公眾號biz,爬進(jìn)redis隊列。
數據庫設計
兩個(gè)redis消息隊列
1、微信公眾號業(yè)務(wù)隊列待抓取
wechat_biz_quene list 先進(jìn)先出隊列
復制代碼
2、獲取的微信文章detail頁(yè)面url隊列用于遍歷獲取的歷史文章對應的閱讀、點(diǎn)贊、評論。
<p>2、在模擬器中打開(kāi)微信atx框架,模擬點(diǎn)擊要運行的第一個(gè)公眾號拼接的歷史消息界面,后續流程和數據流邏輯如下圖所示