分享:如何爬取微信公眾號的所有文章
優(yōu)采云 發(fā)布時(shí)間: 2020-11-11 08:00如何抓取所有文章微信官方帳戶(hù)
準備階段
為了實(shí)現此采集器,我們需要使用以下工具
此外,此采集器使用微信官方帳戶(hù)后臺編輯界面。原理是,當我們插入超鏈接時(shí),微信將調用特殊的API(請參見(jiàn)下圖)以獲取指定官方帳戶(hù)的文章列表。因此,我們還需要擁有一個(gè)官方帳戶(hù)。
fig1
正式開(kāi)始
我們需要登錄到WeChat官方帳戶(hù),依次單擊“物料管理”,“新建圖形消息”,然后單擊上方的超鏈接。
fig2
下一步,按F12鍵打開(kāi)Chrome的開(kāi)發(fā)者工具,然后選擇“網(wǎng)絡(luò )”
fig3
這時(shí),在上一個(gè)超鏈接界面中,單擊“選擇另一個(gè)官方帳戶(hù)”,然后輸入您要抓取的官方帳戶(hù)(例如,中國移動(dòng))
fig4
這時(shí),先前的網(wǎng)絡(luò )將刷新一些鏈接,其中以“ appmsg”開(kāi)頭的內容是我們需要分析的
fig5
我們解析請求的網(wǎng)址
https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MzI1MjU5MjMzNA==&type=9&query=&token=143406284&lang=zh_CN&f=json&ajax=1
分為三個(gè)部分
通過(guò)不斷瀏覽下一頁(yè),我們發(fā)現每次僅開(kāi)始更改,并且每次增加5(即count的值)。
接下來(lái),我們使用Python獲取相同的資源,但是直接運行以下代碼無(wú)法獲取資源
import requests
url = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MzI1MjU5MjMzNA==&type=9&query=&token=1957521839&lang=zh_CN&f=json&ajax=1"
requests.get(url).json()
# {'base_resp': {'ret': 200003, 'err_msg': 'invalid session'}}
之所以能夠在瀏覽器上獲取資源,是因為我們登錄了微信官方賬號后端。而且Python沒(méi)有我們的登錄信息,因此該請求無(wú)效。我們需要在請求中設置headers參數,并傳入Cookie和User-Agent以模擬登錄
因為標題信息的內容每次都會(huì )改變,所以我將這些內容放在一個(gè)單獨的文件“ wechat.yaml”中,信息如下
cookie: ua_id=wuzWM9FKE14...
user_agent: Mozilla/5.0...
您只需要稍后閱讀
# 讀取cookie和user_agent
import yaml
with open("wechat.yaml", "r") as file:
file_data = file.read()
config = yaml.safe_load(file_data)
headers = {
"Cookie": config['cookie'],
"User-Agent": config['user_agent']
}
requests.get(url, headers=headers, verify=False).json()
在返回的JSON中,我們可以看到每個(gè)文章的標題(標題),摘要(摘要),鏈接(鏈接),推送時(shí)間(update_time)和封面地址(封面)。
appmsgid是每個(gè)推文的唯一標識符,而aid是每個(gè)推文的唯一標識符。
fig6
實(shí)際上,除了cookie外,URL中的token參數還將用于限制采集器,因此上述代碼的輸出可能為{'base_resp':{'ret':200040,'err_msg ':'無(wú)效的csrf令牌'}}
接下來(lái),我們編寫(xiě)一個(gè)循環(huán)以獲取文章的所有JSON并保存。
import json
import requests
import time
import random
import yaml
with open("wechat.yaml", "r") as file:
file_data = file.read()
config = yaml.safe_load(file_data)
headers = {
"Cookie": config['cookie'],
"User-Agent": config['user_agent']
}
# 請求參數
url = "https://mp.weixin.qq.com/cgi-bin/appmsg"
begin = "0"
params = {
"action": "list_ex",
"begin": begin,
"count": "5",
"fakeid": config['fakeid'],
"type": "9",
"token": config['token'],
"lang": "zh_CN",
"f": "json",
"ajax": "1"
}
# 存放結果
app_msg_list = []
# 在不知道公眾號有多少文章的情況下,使用while語(yǔ)句
# 也方便重新運行時(shí)設置頁(yè)數
i = 0
while True:
begin = i * 5
params["begin"] = str(begin)
# 隨機暫停幾秒,避免過(guò)快的請求導致過(guò)快的被查到
time.sleep(random.randint(1,10))
resp = requests.get(url, headers=headers, params = params, verify=False)
# 微信流量控制, 退出
if resp.json()['base_resp']['ret'] == 200013:
print("frequencey control, stop at {}".format(str(begin)))
break
# 如果返回的內容中為空則結束
if len(resp.json()['app_msg_list']) == 0:
print("all ariticle parsed")
break
app_msg_list.append(resp.json())
# 翻頁(yè)
i += 1
在上面的代碼中,我還將偽造品和令牌存儲在“ wechat.yaml”文件中。這是因為fakeid是每個(gè)正式帳戶(hù)唯一的標識符,并且令牌會(huì )經(jīng)常更改。此信息可以通過(guò)解析URL獲得,也可以從開(kāi)發(fā)人員工具中查看
fig7
爬行一段時(shí)間后,您會(huì )遇到以下問(wèn)題
{'base_resp': {'err_msg': 'freq control', 'ret': 200013}}
這時(shí),當您嘗試在官方帳戶(hù)的背景中插入超鏈接時(shí),會(huì )出現以下提示
fig8
這是官方帳戶(hù)的流量限制,通常需要等待30-60分鐘才能繼續。為了完美地解決此問(wèn)題,您可能需要申請多個(gè)官方帳戶(hù),您可能需要與微信官方帳戶(hù)登錄系統進(jìn)行對抗,或者您可能需要建立代理池。
但是我不需要工業(yè)級的采集器,我只想搜尋我自己的官方帳戶(hù)信息,因此請等待一個(gè)小時(shí),再次登錄到官方帳戶(hù),獲取Cookie和令牌并運行它。我不想為自己的利益挑戰別人的工作。
最后,將結果保存為JSON格式。
# 保存結果為JSON
json_name = "mp_data_{}.json".format(str(begin))
with open(json_name, "w") as file:
file.write(json.dumps(app_msg_list, indent=2, ensure_ascii=False))
或提取文章標識符,標題,URL和發(fā)布時(shí)間的四列,并將它們另存為CSV。
info_list = []
for msg in app_msg_list:
if "app_msg_list" in msg:
for item in msg["app_msg_list"]:
info = '"{}","{}","{}","{}"'.format(str(item["aid"]), item['title'], item['link'], str(item['create_time']))
info_list.append(info)
# save as csv
with open("app_msg_list.csv", "w") as file:
file.writelines("\n".join(info_list))