微信公眾號采集文章的幾種方案
優(yōu)采云 發(fā)布時(shí)間: 2020-04-18 09:52
以下是幾種微信公眾號采集文章的幾種方案,供你們參考!
微信公眾號采集
方案一:基于搜狗入口
在網(wǎng)上能搜索到的公眾號文章采集相關(guān)的信息來(lái)看來(lái)看,這是最多、最直接、也是最簡(jiǎn)單的一種方案。
一般流程是:
1、搜狗微信搜索入口進(jìn)行公眾號搜索
2、選取公眾號步入公眾號歷史文章列表3、對文章內容進(jìn)行解析入庫
采集過(guò)于頻繁的話(huà),搜狗搜索和公眾號歷史文章列表訪(fǎng)問(wèn)就會(huì )出現驗證碼。直接采用通常的腳本采集是難以領(lǐng)到驗證碼的。這里可以使用無(wú)頭瀏覽器來(lái)進(jìn)行訪(fǎng)問(wèn),通過(guò)對接打碼平臺識別驗證碼。無(wú)頭瀏覽器可采用selenium。
即便采用無(wú)頭瀏覽器同樣存在問(wèn)題:
1、效率低下(實(shí)際上就是在跑一個(gè)完整的瀏覽器來(lái)模擬人類(lèi)操作)
2、網(wǎng)頁(yè)資源瀏覽器加載難以控制,腳本對瀏覽器加載很難控制3、驗證碼識別也未能做到100%,中途太可能會(huì )打斷抓取流程
如果堅持使用搜狗入口并想進(jìn)行完美采集的話(huà)只有降低代理IP。順便說(shuō)一句,公開(kāi)免費的IP地址就別想了微信文章采集,非常不穩定,而且基本都被陌陌給封了。
除了面臨搜狗/微信的反爬蟲(chóng)機制之外,采用此方案還有其他的缺點(diǎn):
無(wú)法獲得閱讀數、點(diǎn)贊數等用于評估文章質(zhì)量的關(guān)鍵信息
無(wú)法及時(shí)獲得早已發(fā)布公眾號文章,只能作定期的重復爬取只能獲得近來(lái)十條群發(fā)文章
方案二:對手機陌陌進(jìn)行中間人攻擊
中間人攻擊本是某種黑客手法,用于截取客戶(hù)端與服務(wù)端之間的通訊信息。這種方案的思路是在手機陌陌和陌陌服務(wù)器之間搭建一個(gè)"HTTPS代理",用于查獲手機陌陌獲取的公眾號文章信息。一般性步驟是:
1、手機陌陌搜索一個(gè)公眾號
2、點(diǎn)擊步入公眾號歷史文章頁(yè)面3、代理辨識早已步入列表頁(yè),進(jìn)行內容查獲,同時(shí)按照實(shí)際情況返回繼續下拉或爬取新的公眾號的js代碼
這種方案才能實(shí)現自動(dòng)化的緣由是:
1、微信公眾號使用的是HTTPS合同,且內容未加密
2、微信公眾號文章列表和詳情本質(zhì)上是個(gè)Web頁(yè)面,可以嵌入js代碼進(jìn)行控制這些方案的優(yōu)點(diǎn):
1、一般情況下不會(huì )被屏蔽
2、能領(lǐng)到點(diǎn)贊數和閱讀數等文章評估信息3、能領(lǐng)到公眾號全部的歷史文章
當然,也存在好多缺點(diǎn):
1、需要一個(gè)常年聯(lián)網(wǎng)的實(shí)體手機
2、前期須要設置代理,工作量比較大3、本質(zhì)上還是個(gè)輪查的過(guò)程,而不是實(shí)時(shí)推送4、同樣有Web加載難以控制的風(fēng)險,且本地網(wǎng)路環(huán)境對其影響特別大5、存在著(zhù)陌陌插口發(fā)生變更代碼不再適應的情況
這種方案還存在著(zhù)一些變種,比如:
1、通過(guò)lua腳本控制公眾號搜索而不是靠代理返回嵌入的js代碼
2、通過(guò)GUI操作腳本控制PC端陌陌
但都存在"不能精確穩定控制"的缺點(diǎn)
方案三:網(wǎng)頁(yè)陌陌抓包剖析
在被陌陌反爬蟲(chóng)虐了很長(cháng)時(shí)間以后,和同學(xué)腦部風(fēng)暴找尋新的微信公眾號采集文章爬取方案。就剖析有什么能獲得數據的入口。模糊記得網(wǎng)頁(yè)陌陌是有公眾號文章閱讀功能的,正好我曾把玩過(guò)一段時(shí)間個(gè)人陌陌機器人,主要使用的是ItChat這個(gè)Python包。它實(shí)現的原理就是對網(wǎng)頁(yè)陌陌進(jìn)行抓包剖析,匯總成個(gè)人陌陌插口,目標就是所有網(wǎng)頁(yè)陌陌能實(shí)現的功能它都能實(shí)現。。所以就有了一個(gè)初步的方案——通過(guò)ItChat使微信公眾號文章自己推送過(guò)來(lái)??旆艑W(xué)的時(shí)侯和朋友提了一下,他也很感興趣,第二天就實(shí)現下來(lái)了驗證代碼(ItChat實(shí)現相應功能代碼十分簡(jiǎn)略微信文章采集,內容解析部份之前就做了,可以直接用)。
這種方案的主要流程是:
1、服務(wù)器端通過(guò)ItChat登入網(wǎng)頁(yè)陌陌
2、當公眾號發(fā)布新文章推送的時(shí)侯,會(huì )被服務(wù)端查獲進(jìn)行后續的解析入庫
這種方案的優(yōu)點(diǎn)是:
1、基本零間隔獲取早已發(fā)布的公眾號文章
2、能獲取點(diǎn)贊數、閱讀數3、只需手機陌陌保持登入,不用其他操作
當然缺點(diǎn)也是有的:
1、需要一臺常年聯(lián)網(wǎng)的手機
2、手機陌陌不能主動(dòng)退出,或長(cháng)時(shí)間死機
微信公眾號采集文章基本上就是和騰訊斗智斗勇,費心吃力。直到如今也沒(méi)能找到一個(gè)完美的解決方案,只能按照實(shí)際的采集目標,擇優(yōu)選定。要完全服務(wù)端,不依賴(lài)手機陌陌,不需要點(diǎn)贊數閱讀數,有大量代理IP就采用方案一;本地網(wǎng)路穩定且有富裕的手機就用方案二;需要及時(shí)獲得公眾號發(fā)布的最新文章的話(huà)就用方案三。




