搜狗搜索采集公眾號歷史消息(圖)問(wèn)題解析
優(yōu)采云 發(fā)布時(shí)間: 2021-08-24 07:37搜狗搜索采集公眾號歷史消息(圖)問(wèn)題解析
通過(guò)搜狗搜索采集公眾號的歷史記錄存在一些問(wèn)題:
1、有驗證碼;
2、歷史消息列表只有最近10條群發(fā)消息;
3、文章地址有有效期;
4、據說(shuō)批量采集需要改ip;
通過(guò)我之前的文章方法,沒(méi)有出現這樣的問(wèn)題,雖然采集系統設置不像傳統的采集器寫(xiě)規則爬行那么簡(jiǎn)單。但是batch采集構建一次后的效率還是可以的。而且采集的文章地址是永久有效的,你可以通過(guò)采集獲取一個(gè)公眾號的所有歷史信息。
先從公眾號文章的鏈接地址說(shuō)起:
1、微信右上角菜單復制的鏈接地址:
2、從歷史消息列表中獲取的地址:
#wechat_redirect
3、完整真實(shí)地址:
%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&1w_head
以上三個(gè)地址是同一篇文章文章的地址,在不同位置獲取時(shí)得到三個(gè)完全不同的結果。
和歷史新聞頁(yè)面一樣,微信也有自動(dòng)添加參數的機制。第一個(gè)地址是通過(guò)復制鏈接獲得的,看起來(lái)像一個(gè)變相的代碼。其實(shí)沒(méi)用,我們不去想。第二個(gè)地址是通過(guò)上面文章介紹的方法從json文章歷史消息列表中得到的鏈接地址,我們可以把這個(gè)地址保存到數據庫中。然后就可以通過(guò)這個(gè)地址從服務(wù)器獲取文章的內容了。第三個(gè)鏈接添加參數后,目的是讓文章頁(yè)面中的閱讀js獲取閱讀和點(diǎn)贊的json結果。在我們之前的文章方法中,因為文章頁(yè)面是由客戶(hù)端打開(kāi)顯示的,因為有這些參數,文章頁(yè)面中的js會(huì )自動(dòng)獲取閱讀量,所以我們可以通過(guò)代理服務(wù)獲取這個(gè)文章的閱讀量。
本文章的內容是根據本專(zhuān)欄前面文章介紹的方法獲得的大量微信文章,我們詳細研究了如何獲取文章內容和其他一些有用的信息。方法。
?。ㄎ恼耹ist 保存在我的數據庫中,一些字段)
1、Get文章源代碼:
文章源代碼可以通過(guò)php函數file_get_content()讀入一個(gè)變量。因為微信文章的源碼可以從瀏覽器打開(kāi),這里就不貼了,以免浪費頁(yè)面空間。
2、源代碼中的有用信息:
1)原創(chuàng )內容:
原創(chuàng )內容收錄在一個(gè)標簽中,通過(guò)php代碼獲?。?/p>
<p>