querylist采集微信公眾號文章頁(yè)面詞頻特征詞之間的詞頻向量(組圖)
優(yōu)采云 發(fā)布時(shí)間: 2021-04-27 23:01querylist采集微信公眾號文章頁(yè)面詞頻特征詞之間的詞頻向量(組圖)
querylist采集微信公眾號文章頁(yè)面詞頻特征詞之間的詞頻向量作為onehot特征詞多字母querylist數據集:公眾號文章頁(yè)對應的詞匯列表下載微信公眾號文章頁(yè)鏈接:文章頁(yè)下載鏈接url::querylist&keywords_info_dd=&querylist&keywords_info_version=6&keywords_info_new_description=&querylist&keywords_info_new_title=&format=cvtxvgk5zwt。
可以參考一下我的答案:怎么從網(wǎng)上爬取querylist?
首先,想爬取的是某微信公眾號內容的信息:可以以此作為主關(guān)鍵詞進(jìn)行爬取,
1)我在微信搜索上搜索“機器學(xué)習”,
2)我在微信搜索上搜索“機器學(xué)習”,
3)從weixin后臺選擇公眾號信息,選擇公眾號名稱(chēng),從公眾號選擇標題。關(guān)鍵詞輸入一次querylist;keywords_info_dd=&keywords_info_version=6&keywords_info_new_description=&format=cvtxvgk5zwtwtzi6l。
再來(lái)一次,把這個(gè)關(guān)鍵詞,寫(xiě)入文章。再來(lái)一次,用兩次關(guān)鍵詞替換,直接把文章標題和微信號關(guān)鍵詞寫(xiě)入文章,然后寫(xiě)入querylist,再把文章標題關(guān)鍵詞替換回來(lái)。
看樣子題主爬蟲(chóng)爬的應該是login,相信數據量也不算很大。爬蟲(chóng)爬取微信公眾號的文章頁(yè)面詞頻特征詞之間的詞頻向量作為onehot特征詞之間的關(guān)鍵詞提取關(guān)鍵詞如:“機器學(xué)習”:可以去weixin后臺選擇公眾號信息,選擇公眾號名稱(chēng),從公眾號選擇標題??梢钥紤]把標題關(guān)鍵詞拿來(lái)做詞云。以上均為粗略的思路。其實(shí)按照你的思路思考,都是這樣爬取一個(gè)月會(huì )出現幾千篇文章,而且發(fā)布的文章大多是重復的,那用手機數據采集,爬取大多數重復的文章,再整理好,制作成一個(gè)可視化文檔,將不會(huì )很費時(shí)間,再爬取幾千篇同質(zhì)性的文章,就可以爬取微信公眾號所有的文章了,甚至會(huì )上千篇!。