微信公眾號內容采集教程. docx29頁(yè)
優(yōu)采云 發(fā)布時(shí)間: 2020-08-06 14:14優(yōu)采云·云采集服務(wù)平臺微信公眾號文章文本采集教程很多時(shí)候,我們需要采集網(wǎng)頁(yè)文章的文本. 本文以搜狗微信文章為例,介紹利用優(yōu)采云采集網(wǎng)頁(yè)正文的方法. 文章的正文通常包括文本和圖片. 本文僅演示了在正文中采集文本的方法,圖像采集將在另一個(gè)教程中進(jìn)行討論. 本文將采集以下字段: 文章標題,時(shí)間,來(lái)源和正文(正文中的所有文本都將合并到excel單元格中,并且將使用“自定義數據合并方法”功能,請注意). 以下是“自定義數據合并方法”的詳細教程,您可以首先學(xué)習: /tutorialdetail-1/zdyhb_7.html集合網(wǎng)站: /使用功能點(diǎn): 分頁(yè)列表信息集合“ HYPERLINK” /tutorial/fylb-70.aspx ?t = 1“ /tutorial/fylb-70.aspx?t=1Xpath HYPERLINK” / search?query = XPath“ / search?query = XPathAJAX點(diǎn)擊并翻頁(yè)HYPERLINK” /tutorialdetail-1/ajaxdjfy_7.html“ / tutorialdetail- 1 / ajaxdjfy_7.html步驟1: 創(chuàng )建采集任務(wù)1)進(jìn)入主界面,選擇“自定義模式”微信公眾號文章正文采集步驟12)復制要采集的URL并粘貼到網(wǎng)站輸入框中,單擊“保存”. URL”微信公眾號2文本采集步驟2 HYPERLINK” / article / javascript :;”步驟2: 創(chuàng )建翻頁(yè)循環(huán)在頁(yè)面的右上角,打開(kāi)“ Process”以顯示“ Process Designer”和“ Customize Current Operation”的兩個(gè)部分.
打開(kāi)網(wǎng)頁(yè)后,默認顯示“熱門(mén)”文章. 向下滾動(dòng)頁(yè)面,找到并單擊“加載更多內容”按鈕,在操作提示框中選擇“更多操作”,微信公眾號文章正文采集步驟3,選擇“循環(huán)點(diǎn)擊單個(gè)元素”,創(chuàng )建頁(yè)面翻轉循環(huán)微信公眾號文章文本采集步驟4由于此網(wǎng)頁(yè)涉及Ajax技術(shù),因此我們需要設置一些高級選項. 選擇“單擊元素”步驟,打開(kāi)“高級選項”,選中“ Ajax加載數據”,將時(shí)間設置為“ 2秒”,微信公眾號文章正文采集步驟5注意: AJAX是延遲加載和異步更新的腳本通過(guò)在后臺與服務(wù)器進(jìn)行少量數據交換的技術(shù),可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下更新網(wǎng)頁(yè)的特定部分. 性能特點(diǎn): 當您單擊網(wǎng)頁(yè)中的一個(gè)選項時(shí),大多數網(wǎng)站的URL不會(huì )更改. b. 該網(wǎng)頁(yè)未完全加載,僅部分加載了數據并進(jìn)行了更改. 驗證方法: 單擊該操作后,URL輸入欄將不會(huì )在瀏覽器的加載狀態(tài)或轉彎狀態(tài)下顯示. 觀(guān)察該網(wǎng)頁(yè),我們發(fā)現單擊“加載更多內容” 5次后,頁(yè)面將加載到底部,總共顯示100條文章. 因此,我們將整個(gè)“循環(huán)旋轉”步驟設置為執行5次. 選擇“循環(huán)翻頁(yè)”步驟,打開(kāi)“高級選項”,打開(kāi)“滿(mǎn)足以下條件時(shí)退出循環(huán)”,將循環(huán)數設置為“ 5”,單擊“確定”,微信公眾號文章正文采集步驟6第3步: 創(chuàng )建一個(gè)列表循環(huán)并提取數據HYPERLINK“ / article / javascript :;”移動(dòng)鼠標,然后選擇頁(yè)面上的第一個(gè)文章鏈接.
系統將自動(dòng)識別相似的鏈接. 在操作提示框中,選擇“全選”微信公眾號文章正文采集步驟7,選擇“單擊每個(gè)鏈接”,微信公眾號文章正文采集步驟8,系統將自動(dòng)進(jìn)入文章明細頁(yè)面. 單擊要采集的字段(在此處單擊文章標題),然后在操作提示框中選擇“采集此元素的文本”. 文章發(fā)布時(shí)間和文章來(lái)源字段的采集方法與微信公眾號文章正文采集步驟9相同. 接下來(lái),將采集文章正文. 首先點(diǎn)擊文章正文的第一段,系統會(huì )自動(dòng)識別頁(yè)面中的相似元素,選擇“全選”微信公眾號文章正文采集步驟105),可以看到所有正文段落均被選中并轉綠色. 選擇“采集以下元素文本”微信公眾號文章正文采集步驟11注意: 在字段表中,您可以自定義字段以修改微信公眾號文章正文采集步驟126)上述操作之后,正文將全部采集的(默認是文本的每個(gè)段落都是一個(gè)單元格). 一般來(lái)說(shuō),我們希望將采集的文本合并到同一單元格中. 單擊“自定義數據字段”按鈕,選擇“自定義數據合并方法”,選中“多次提取并將同一字段合并到一行,即,追加到同一字段,例如文本頁(yè)面合并”,然后單擊“確定”,微信公眾號文章正文采集步驟13,“自定義數據字段”按鈕選擇“自定義數據合并方法”,微信公眾號文章正文采集步驟14,微信公眾號文章正文采集步驟如圖15所示. : 修改Xpath1)選擇整個(gè)“循環(huán)步驟”,打開(kāi)“高級選項”,可以看到由彩云生成的默認值是固定元素列表,該列表定位了前20條微信公眾號文章正文采集步驟162的鏈接)在Firefox中打開(kāi)采集網(wǎng)頁(yè)并觀(guān)察源代碼.
我們發(fā)現通過(guò)此Xpath: // DIV [@ class ='main-left'] / DIV [3] / UL / LI / DIV [2] / H3 [1] / A,在頁(yè)面All中需要微信公眾號文章正文采集步驟中有100條微信公眾號文章,在步驟173)將修改后的Xpath復制并粘貼到優(yōu)采云中顯示的位置,然后單擊“確定”,微信公眾號文章正文采集步驟18步驟5 : 我們將繼續觀(guān)察流程圖結構的修改. 5次單擊“加載更多內容”后,此頁(yè)面將加載所有100條文章. 因此,我們的配置規則的思想是首先建立一個(gè)翻頁(yè)周期,加載全部100條文章,然后創(chuàng )建一個(gè)周期列表并提取數據1)選擇整個(gè)``循環(huán)''步驟并將其拖出``循環(huán)''頁(yè)面翻頁(yè)”步驟. 如果您不執行此操作,將會(huì )有很多重復的數據. 微信公眾號文章正文采集步驟19拖動(dòng)完成后,如下圖所示,微信公眾號文章正文采集步驟20步驟6: 數據采集和導出1)單擊左上角單擊角上的“保存”,然后點(diǎn)擊“開(kāi)始采集”,選擇“開(kāi)始本地采集”,微信公眾號文本采集步驟21. 采集完成后,彈出提示,選擇“導出數據”,選擇“適當的導出方式”,將采集的數據導出到微信公眾號文章正文采集步驟223)這里我們選擇excel作為導出格式. 數據導出后,如下圖所示,微信公眾號文章正文采集步驟23如上圖所示,部分文章的正文未采集.
這是因為系統自動(dòng)生成了文章正文的循環(huán)列表的Xpath: // [@ id =“ js_content”] / P,因此無(wú)法找到本文的正文. 將Xpath修改為: // [@@ =“ =” js_content“] // P,所有文章正文都可以位于微信公眾號文章正文采集步驟23微信公眾號文章正文采集步驟24說(shuō)明: 本文的方法是僅適合采集搜狗微信文章正文內容. 無(wú)法在文本中采集圖片. 如果需要采集圖片,則需要在此過(guò)程中添加判斷條件. 相關(guān)集合教程: 京東商品信息集合豆瓣電影簡(jiǎn)短評論集合58全市信息集合優(yōu)采云-一個(gè)由70萬(wàn)用戶(hù)選擇的網(wǎng)絡(luò )數據采集器. 1.操作簡(jiǎn)單,任何人都可以使用: 不需要技術(shù)背景,可以通過(guò)瀏覽Internet進(jìn)行采集. 完全可視化該過(guò)程,單擊鼠標以完成操作,您可以在2分鐘內快速上手. 2.強大的功能,可以在任何網(wǎng)站上采集: 單擊,登錄,翻頁(yè),識別驗證碼,瀑布流,Ajax腳本異步加載數據頁(yè),所有這些都可以通過(guò)簡(jiǎn)單的設置進(jìn)行采集. 3.云采集,也可以關(guān)閉. 配置采集任務(wù)后,可以將其關(guān)閉,并可以在云中執行該任務(wù). 龐大的云采集集群不間斷運行24 * 7,因此無(wú)需擔心IP被阻塞和網(wǎng)絡(luò )中斷. 4.免費功能+增值服務(wù),可以按需選擇. 免費版具有所有功能,可以滿(mǎn)足用戶(hù)的基本采集需求. 同時(shí),建立了一些增值服務(wù)(例如私有云)以滿(mǎn)足高端付費企業(yè)用戶(hù)的需求.