搜狗微信網(wǎng)站,網(wǎng)站如下圖。抓取的說(shuō)明和準備
優(yōu)采云 發(fā)布時(shí)間: 2021-05-09 04:12
搜狗微信網(wǎng)站,網(wǎng)站如下圖。抓取的說(shuō)明和準備
請記住,定期并定期捕獲微信官方帳戶(hù)文章的實(shí)現
爬行之前的說(shuō)明和準備
為此爬網(wǎng)選擇的語(yǔ)言是java。 文章不會(huì )發(fā)布整個(gè)項目的所有代碼,而只會(huì )提供核心代碼的解釋和爬網(wǎng)的想法。
數據捕獲
搶劫來(lái)源文章是搜狗微信網(wǎng)站,而網(wǎng)站如下所示。
爬行的想法如下
通常,抓取微信公眾號的文章使用微信公眾號的ID作為關(guān)鍵字。我們可以直接跳轉到要通過(guò)url +關(guān)鍵字捕獲官方帳戶(hù)的頁(yè)面。微信公眾號的名稱(chēng)或ID;
// 搜狗微信搜索鏈接入口
String sogou_search_url = "http://weixin.sogou.com/weixin?type=1&query="
+ keyword + "&ie=utf8&s_from=input&_sug_=n&_sug_type_=";
為了避免網(wǎng)站最初對抓取工具的攔截,我們可以使用Selenium(瀏覽器自動(dòng)測試框架)來(lái)偽裝我們的抓取工具。我們使用鉻。在這里,我們需要注意我們的chrome版本和所使用的webdriver版本。對應;
ChromeOptions chromeOptions = new ChromeOptions();
// 全屏,為了接下來(lái)防抓取做準備
chromeOptions.addArguments("--start-maximized");
System.setProperty("webdriver.chrome.driver", chromedriver);
WebDriver webDriver = new ChromeDriver(chromeOptions);
到達微信公眾號列表頁(yè)面,如下圖所示,以獲取微信公眾號鏈接。
<p> // 獲取當前頁(yè)面的微信公眾號列表
List weixin_list = webDriver
.findElements(By.cssSelector("div[class='txt-box']"));
// 獲取進(jìn)入公眾號的鏈接
String weixin_url = "";
for (int i = 0; i