微信公眾號內容采集教程. docx29頁(yè)

優(yōu)采云發(fā)布時(shí)間: 2020-08-06 14:14

　　優(yōu)采云·云采集服務(wù)平臺微信公眾號文章文本采集教程很多時(shí)候，我們需要采集網(wǎng)頁(yè)文章的文本. 本文以搜狗微信文章為例，介紹利用優(yōu)采云采集網(wǎng)頁(yè)正文的方法. 文章的正文通常包括文本和圖片. 本文僅演示了在正文中采集文本的方法，圖像采集將在另一個(gè)教程中進(jìn)行討論. 本文將采集以下字段: 文章標題，時(shí)間，來(lái)源和正文（正文中的所有文本都將合并到excel單元格中，并且將使用“自定義數據合并方法”功能，請注意）. 以下是“自定義數據合并方法”的詳細教程，您可以首先學(xué)習: /tutorialdetail-1/zdyhb_7.html集合網(wǎng)站: /使用功能點(diǎn): 分頁(yè)列表信息集合“ HYPERLINK” /tutorial/fylb-70.aspx ？t = 1“ /tutorial/fylb-70.aspx?t=1Xpath HYPERLINK” / search？query = XPath“ / search？query = XPathAJAX點(diǎn)擊并翻頁(yè)HYPERLINK” /tutorialdetail-1/ajaxdjfy_7.html“ / tutorialdetail- 1 / ajaxdjfy_7.html步驟1: 創(chuàng )建采集任務(wù)1）進(jìn)入主界面，選擇“自定義模式”微信公眾號文章正文采集步驟12）復制要采集的URL并粘貼到網(wǎng)站輸入框中，單擊“保存”. URL”微信公眾號2文本采集步驟2 HYPERLINK” / article / javascript :;”步驟2: 創(chuàng )建翻頁(yè)循環(huán)在頁(yè)面的右上角，打開(kāi)“ Process”以顯示“ Process Designer”和“ Customize Current Operation”的兩個(gè)部分.

　　打開(kāi)網(wǎng)頁(yè)后，默認顯示“熱門(mén)”文章. 向下滾動(dòng)頁(yè)面，找到并單擊“加載更多內容”按鈕，在操作提示框中選擇“更多操作”，微信公眾號文章正文采集步驟3，選擇“循環(huán)點(diǎn)擊單個(gè)元素”，創(chuàng )建頁(yè)面翻轉循環(huán)微信公眾號文章文本采集步驟4由于此網(wǎng)頁(yè)涉及Ajax技術(shù)，因此我們需要設置一些高級選項. 選擇“單擊元素”步驟，打開(kāi)“高級選項”，選中“ Ajax加載數據”，將時(shí)間設置為“ 2秒”，微信公眾號文章正文采集步驟5注意: AJAX是延遲加載和異步更新的腳本通過(guò)在后臺與服務(wù)器進(jìn)行少量數據交換的技術(shù)，可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下更新網(wǎng)頁(yè)的特定部分. 性能特點(diǎn): 當您單擊網(wǎng)頁(yè)中的一個(gè)選項時(shí)，大多數網(wǎng)站的URL不會(huì )更改. b. 該網(wǎng)頁(yè)未完全加載，僅部分加載了數據并進(jìn)行了更改. 驗證方法: 單擊該操作后，URL輸入欄將不會(huì )在瀏覽器的加載狀態(tài)或轉彎狀態(tài)下顯示. 觀(guān)察該網(wǎng)頁(yè)，我們發(fā)現單擊“加載更多內容” 5次后，頁(yè)面將加載到底部，總共顯示100條文章. 因此，我們將整個(gè)“循環(huán)旋轉”步驟設置為執行5次. 選擇“循環(huán)翻頁(yè)”步驟，打開(kāi)“高級選項”，打開(kāi)“滿(mǎn)足以下條件時(shí)退出循環(huán)”，將循環(huán)數設置為“ 5”，單擊“確定”，微信公眾號文章正文采集步驟6第3步: 創(chuàng )建一個(gè)列表循環(huán)并提取數據HYPERLINK“ / article / javascript :;”移動(dòng)鼠標，然后選擇頁(yè)面上的第一個(gè)文章鏈接.

　　系統將自動(dòng)識別相似的鏈接. 在操作提示框中，選擇“全選”微信公眾號文章正文采集步驟7，選擇“單擊每個(gè)鏈接”，微信公眾號文章正文采集步驟8，系統將自動(dòng)進(jìn)入文章明細頁(yè)面. 單擊要采集的字段（在此處單擊文章標題），然后在操作提示框中選擇“采集此元素的文本”. 文章發(fā)布時(shí)間和文章來(lái)源字段的采集方法與微信公眾號文章正文采集步驟9相同. 接下來(lái)，將采集文章正文. 首先點(diǎn)擊文章正文的第一段，系統會(huì )自動(dòng)識別頁(yè)面中的相似元素，選擇“全選”微信公眾號文章正文采集步驟105），可以看到所有正文段落均被選中并轉綠色. 選擇“采集以下元素文本”微信公眾號文章正文采集步驟11注意: 在字段表中，您可以自定義字段以修改微信公眾號文章正文采集步驟126）上述操作之后，正文將全部采集的（默認是文本的每個(gè)段落都是一個(gè)單元格）. 一般來(lái)說(shuō)，我們希望將采集的文本合并到同一單元格中. 單擊“自定義數據字段”按鈕，選擇“自定義數據合并方法”，選中“多次提取并將同一字段合并到一行，即，追加到同一字段，例如文本頁(yè)面合并”，然后單擊“確定”，微信公眾號文章正文采集步驟13，“自定義數據字段”按鈕選擇“自定義數據合并方法”，微信公眾號文章正文采集步驟14，微信公眾號文章正文采集步驟如圖15所示. : 修改Xpath1）選擇整個(gè)“循環(huán)步驟”，打開(kāi)“高級選項”，可以看到由彩云生成的默認值是固定元素列表，該列表定位了前20條微信公眾號文章正文采集步驟162的鏈接）在Firefox中打開(kāi)采集網(wǎng)頁(yè)并觀(guān)察源代碼.

　　我們發(fā)現通過(guò)此Xpath: // DIV [@ class ='main-left'] / DIV [3] / UL / LI / DIV [2] / H3 [1] / A，在頁(yè)面All中需要微信公眾號文章正文采集步驟中有100條微信公眾號文章，在步驟173）將修改后的Xpath復制并粘貼到優(yōu)采云中顯示的位置，然后單擊“確定”，微信公眾號文章正文采集步驟18步驟5 : 我們將繼續觀(guān)察流程圖結構的修改. 5次單擊“加載更多內容”后，此頁(yè)面將加載所有100條文章. 因此，我們的配置規則的思想是首先建立一個(gè)翻頁(yè)周期，加載全部100條文章，然后創(chuàng )建一個(gè)周期列表并提取數據1）選擇整個(gè)``循環(huán)''步驟并將其拖出``循環(huán)''頁(yè)面翻頁(yè)”步驟. 如果您不執行此操作，將會(huì )有很多重復的數據. 微信公眾號文章正文采集步驟19拖動(dòng)完成后，如下圖所示，微信公眾號文章正文采集步驟20步驟6: 數據采集和導出1）單擊左上角單擊角上的“保存”，然后點(diǎn)擊“開(kāi)始采集”，選擇“開(kāi)始本地采集”，微信公眾號文本采集步驟21. 采集完成后，彈出提示，選擇“導出數據”，選擇“適當的導出方式”，將采集的數據導出到微信公眾號文章正文采集步驟223）這里我們選擇excel作為導出格式. 數據導出后，如下圖所示，微信公眾號文章正文采集步驟23如上圖所示，部分文章的正文未采集.

　　這是因為系統自動(dòng)生成了文章正文的循環(huán)列表的Xpath: // [@ id =“ js_content”] / P，因此無(wú)法找到本文的正文. 將Xpath修改為: // [@@ =“ =” js_content“] // P，所有文章正文都可以位于微信公眾號文章正文采集步驟23微信公眾號文章正文采集步驟24說(shuō)明: 本文的方法是僅適合采集搜狗微信文章正文內容. 無(wú)法在文本中采集圖片. 如果需要采集圖片，則需要在此過(guò)程中添加判斷條件. 相關(guān)集合教程: 京東商品信息集合豆瓣電影簡(jiǎn)短評論集合58全市信息集合優(yōu)采云-一個(gè)由70萬(wàn)用戶(hù)選擇的網(wǎng)絡(luò )數據采集器. 1.操作簡(jiǎn)單，任何人都可以使用: 不需要技術(shù)背景，可以通過(guò)瀏覽Internet進(jìn)行采集. 完全可視化該過(guò)程，單擊鼠標以完成操作，您可以在2分鐘內快速上手. 2.強大的功能，可以在任何網(wǎng)站上采集: 單擊，登錄，翻頁(yè)，識別驗證碼，瀑布流，Ajax腳本異步加載數據頁(yè)，所有這些都可以通過(guò)簡(jiǎn)單的設置進(jìn)行采集. 3.云采集，也可以關(guān)閉. 配置采集任務(wù)后，可以將其關(guān)閉，并可以在云中執行該任務(wù). 龐大的云采集集群不間斷運行24 * 7，因此無(wú)需擔心IP被阻塞和網(wǎng)絡(luò )中斷. 4.免費功能+增值服務(wù)，可以按需選擇. 免費版具有所有功能，可以滿(mǎn)足用戶(hù)的基本采集需求. 同時(shí)，建立了一些增值服務(wù)（例如私有云）以滿(mǎn)足高端付費企業(yè)用戶(hù)的需求.

0

2020-08-06

querylist采集微信公眾號文章

0 個(gè)評論

要回復文章請先登錄或注冊

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

AI時(shí)代內容工廠(chǎng)

微信公眾號內容采集教程. docx29頁(yè)

0 個(gè)評論

發(fā)起人

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

AI時(shí)代內容工廠(chǎng)

微信公眾號內容采集教程. docx29頁(yè)

0 個(gè)評論

發(fā)起人

相關(guān)問(wèn)題