微信熱門(mén)文章采集方法以及詳盡步驟.docx
優(yōu)采云 發(fā)布時(shí)間: 2020-08-18 10:43微信熱門(mén)文章采集方法以及詳盡步驟.docx
文檔介紹:
微信熱門(mén)文章采集方法以及詳盡步驟
本文將以搜狗陌陌文章為例,介紹使用優(yōu)采云采集網(wǎng)頁(yè)文章正文的技巧。文章正文里通常包括文本和圖片兩種。本文將采集文章正文中的文本+圖片URL。
將采集以下數組:文章標題、時(shí)間、來(lái)源和正文(正文中的所有文本,將合并到一個(gè)excel單元格中,將使用到“自定義數據合并方法”功能,請你們注意)。同時(shí),采集文章正文中的文本+圖片URL,將用到“判斷條件”,“判斷條件”的使用,有很多須要注意的地方。以下兩個(gè)教程,大家可先熟悉一下。
“自定義數據合并方法”詳解教程:
orialdetail-1/zdyhb_7.html
“判斷條件”詳解教程:
orialdetail-1/judge.html
采集網(wǎng)站:
使用功能點(diǎn):
分頁(yè)列表信息采集
orial/fylb-70.aspx?t=1
Xpath
rch?query=XPath
AJAX點(diǎn)擊和翻頁(yè)
orial/ajaxdjfy_7.aspx?t=1
判斷條件
orialdetail-1/judge.html
AJAX滾動(dòng)
orialdetail-1/ajgd_7.html
步驟1:創(chuàng )建采集任務(wù)
1)進(jìn)入主界面,選擇“自定義模式”
微信熱門(mén)文章采集方法步驟1
2)將要采集的網(wǎng)址URL復制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存網(wǎng)址”
微信熱門(mén)文章采集方法步驟2
步驟2:創(chuàng )建翻頁(yè)循環(huán)
在頁(yè)面右上角,打開(kāi)“流程”,以詮釋出“流程設計器”和“定制當前操作”兩個(gè)藍籌股。網(wǎng)頁(yè)打開(kāi)后,默認顯示“熱門(mén)”文章。下拉頁(yè)面,找到并點(diǎn)擊“加載更多內容”按鈕,在操作提示框中,選擇“更多操作”
微信熱門(mén)文章采集方法步驟3
選擇“循環(huán)點(diǎn)擊單個(gè)元素”,以創(chuàng )建一個(gè)翻頁(yè)循環(huán)
微信熱門(mén)文章采集方法步驟4
由于此網(wǎng)頁(yè)涉及Ajax技術(shù),我們須要進(jìn)行一些中級選項的設置。選中“點(diǎn)擊元素”步驟,打開(kāi)“高級選項”,勾選“Ajax加載數據”,設置時(shí)間為“2秒”
微信熱門(mén)文章采集方法步驟5
注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過(guò)在后臺與服務(wù)器進(jìn)行少量數據交換,可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下,對網(wǎng)頁(yè)的某部份進(jìn)行更新。
表現特點(diǎn):a、點(diǎn)擊網(wǎng)頁(yè)中某個(gè)選項時(shí),大部分網(wǎng)站的網(wǎng)址不會(huì )改變;b、網(wǎng)頁(yè)不是完全加載,只是局部進(jìn)行了數據加載,有所變化。