亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

使用搜狗微信入口制作微信文章采集器API

優(yōu)采云 發(fā)布時(shí)間: 2020-08-06 20:05

  移動(dòng)客戶(hù)端使用提琴手或查爾斯等其他捕獲工具捕獲數據包,這是一種相對主流的方法(我覺(jué)得是orz),是一種更有效的方法,可以快速捕獲微信官方帳戶(hù)信息和歷史新聞. 該方法也有缺點(diǎn): cookie很快過(guò)期,大約需要半天. 還可以專(zhuān)門(mén)獲取某些官方帳戶(hù)的歷史信息. 通過(guò)模擬微信登錄自動(dòng)獲取cookie似乎非常困難. 我很無(wú)聊,無(wú)法實(shí)現. 看來(lái)微信登錄是TCP協(xié)議?

  搜狗微信門(mén)戶(hù)比其他門(mén)戶(hù)友好得多. 應該是微信搜索引擎和搜狗有合作,所以搜狗可以進(jìn)入微信搜索. 搜狗微信有兩種類(lèi)型,一種是通過(guò)關(guān)鍵詞搜索文章,另一種是通過(guò)關(guān)鍵詞搜索官方賬號,搜索到的微信賬號最多只能獲得十筆最新新聞推送(這意味著(zhù)指定的公眾不能通過(guò)這種方法抓取歷史新聞). 該方法還有一些應用場(chǎng)景,例如獲取大量有關(guān)某個(gè)關(guān)鍵字的文章,例如執行計劃任務(wù),或者以一定間隔抓取某個(gè)微信官方帳戶(hù)的最新十次推送以獲取其最新推送. 它比網(wǎng)上的微信要好得多. 搜狗微信更新也是實(shí)時(shí)且直接相關(guān)的.

  我對appium自動(dòng)化和Xposed框架了解不多. 鴉片類(lèi)似于硒. 為了在移動(dòng)終端上進(jìn)行自動(dòng)化測試,您可以模擬點(diǎn)擊. Xposed框架有很多工作要做. Xposed可以執行一些其他功能,而無(wú)需修改apk. 爬蟲(chóng)自然是可能的. 此外,它還可以自動(dòng)抓取紅包,自動(dòng)回復機器人以及修改微步數等騷動(dòng)操作.

  我寫(xiě)爬蟲(chóng)游戲已有一段時(shí)間了. 我個(gè)人認為,除了具有防爬網(wǎng)和爬網(wǎng)的效率外,還有另一個(gè)領(lǐng)域很難實(shí)現. 履帶的穩定性和堅固性需要考慮到許多異常情況,并且是合理有效的. 在這一點(diǎn)上,我認為我仍然需要向主要的爬蟲(chóng)學(xué)習. (我覺(jué)得我一直在談?wù)摵芏鄸|西,還沒(méi)有開(kāi)始做我的身體(orz),請不要對那個(gè)覺(jué)得我很冗長(cháng)的大個(gè)子生氣. )

  使用搜狗微信編寫(xiě)一個(gè)爬蟲(chóng)界面,代碼非常簡(jiǎn)單,只有兩百行代碼. (我在這里不得不抱怨. 我在python中寫(xiě)太多了. 我總是有一種幻想,我很尷尬,編程很簡(jiǎn)單. 幾行代碼可以實(shí)現非常強大的功能. 這時(shí),我需要編寫(xiě)CPP并冷靜下來(lái),讓自己知道什么是真正的編程. )

  

  以下記錄了編寫(xiě)此采集器界面腳本的過(guò)程:

  1. 頁(yè)面請求分析(以官方帳戶(hù)搜索為例):

  

  您可以看到第一個(gè)http請求數據包是我們想要的結果,請檢查其查詢(xún)字符串,如下所示:

  

  它看起來(lái)并不簡(jiǎn)單. 我們獲得以下信息:

  請求網(wǎng)址是

  請求類(lèi)型為Get

  請求參數如上所示

  發(fā)現將請求參數tyepe更改為2是為了獲得關(guān)鍵字搜索文章的結果

  這相對簡(jiǎn)單

  2. 模擬頁(yè)面請求:

  我們直接使用url,請求參數params和Google Chrome的用戶(hù)代理請求,發(fā)現我們可以成功獲取所需頁(yè)面的源代碼,然后在下方獲得第一個(gè)官方帳戶(hù)搜索結果. 是的(這意味著(zhù)需要正確指定官方帳戶(hù)名稱(chēng),如果過(guò)于模糊,則有可能獲得類(lèi)似的官方帳戶(hù)結果).

  3. 分析頁(yè)面:

  首先確定爬行思路,第一步是獲取微信公眾號鏈接,然后通過(guò)微信公眾號鏈接獲取最新的十項推送相關(guān)信息,包括標題,日期,作者,內容摘要,內容鏈接(實(shí)際上,我們發(fā)現,通過(guò)微信推送鏈接,我們可以輕松獲取推送的主要內容,但不包括喜歡和閱讀的次數. 這些數據只能在微信移動(dòng)終端上查看. 如果有一次機會(huì ),它將在下次記錄. 在您的手機微信上下載爬蟲(chóng)的過(guò)程.

  因此第一步,我們將獲得官方帳戶(hù)鏈接:

  

  這里我們可以直接使用正則表達式提?。ㄟ@種簡(jiǎn)單方法不需要xpath和bs4. 依賴(lài)標準庫和第三方庫仍然有所不同. )

  

 ?。ê鼙副凰∽柚?,請更改一個(gè). )

  

  第二步是根據微信官方賬號鏈接獲取最近十條推送消息:

  

 ?。ㄎ抑粚?xiě)過(guò)一篇關(guān)于orz的文章,我會(huì )繼續努力. )

  ctlr U查看網(wǎng)頁(yè)的源代碼,并發(fā)現原創(chuàng )信息位于js變量中.

  

  易于處理,繼續常規提取,將json格式的字符串轉換為python中的字典,有兩種方法,一種是使用json.loads方法,第二種是使用內置的eval方法. 兩種方法之間存在一些差異,例如單引號和雙引號. json格式使用雙引號,而python詞典中通常使用單引號.

  

  好的,已經(jīng)獲得了原創(chuàng )的推送信息數據,但是我們不需要很多信息,因此我們可以將其刪除. 值得一提的是,datetime的值是一個(gè)時(shí)間戳,我們需要將其轉換為直觀(guān)的Time表達式.

  

  至此,微信公眾號上的抓取工具已基本解決. 接下來(lái),需要將其封裝為一個(gè)類(lèi). 代碼的主要部分如下.

  

  此外,我還寫(xiě)了關(guān)于關(guān)鍵字搜索文章,AccountAPI,ArticleAPI的爬網(wǎng)程序接口,父類(lèi)是AP類(lèi),并且該API類(lèi)具有query_url,params,header,_get_response,_get_datetime以及其他用于由AccountAPI和ArticleAPI共享.

  代碼位于github倉庫中,如果您有興趣,可以看看

  放置兩個(gè)屏幕截圖以供使用

  

 ?。ˋrticleAPI)

  

 ?。ˋccountAPI)

  結論:

  諸如此類(lèi)的原創(chuàng )爬蟲(chóng)將其稱(chēng)為api,我有點(diǎn)大膽. 這只是一個(gè)小麻煩,很難做到優(yōu)雅,您需要向大兄弟學(xué)習.

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久