文章采集站教程
優(yōu)采云 發(fā)布時(shí)間: 2020-05-16 08:06
八爪魚(yú)·云采集服務(wù)平臺 文章采集站教程文章采集站是 SEO 眾多方法中的一種,主要是通過(guò)使用工具將大量的文章采集 下來(lái),然后通過(guò)程序加工整理,列表整合,相關(guān)推薦,從而獲取不錯的 SEO 流 量。將大量的文章采集下來(lái)是很重要的一環(huán),這里推薦一個(gè)工具,可以自定義的 去采集多個(gè)主流媒體的文章, 下面僅以微信公眾號采集為例,去介紹文章采集的 一個(gè)思路,其它文章媒體也是同樣的采集方法。采集網(wǎng)站:使用功能點(diǎn):? 分頁(yè)列表信息采集 ? Xpath ? AJAX 點(diǎn)擊和翻頁(yè)步驟 1:創(chuàng )建采集任務(wù)1)進(jìn)入主界面,選擇“自定義模式”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 12)將要采集的網(wǎng)址 URL 復制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存網(wǎng)址”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 2步驟 2:創(chuàng )建翻頁(yè)循環(huán)1)在頁(yè)面右上角,打開(kāi)“流程”,以突顯出“流程設計器”和“定制當前操作” 兩個(gè)藍籌股。網(wǎng)頁(yè)打開(kāi)后,默認顯示“熱門(mén)”文章。下拉頁(yè)面,找到并點(diǎn)擊“加載 更多內容”按鈕,在操作提示框中,選擇“更多操作”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 32)選擇“循環(huán)點(diǎn)擊單個(gè)元素”,以創(chuàng )建一個(gè)翻頁(yè)循環(huán)八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 4因為此網(wǎng)頁(yè)涉及 Ajax 技術(shù),我們須要進(jìn)行一些中級選項的設置。
選中“點(diǎn)擊元 素”步驟,打開(kāi)“高級選項”,勾選“Ajax 加載數據”,設置時(shí)間為“2 秒”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 5注:AJAX 即延時(shí)加載、異步更新的一種腳本技術(shù),通過(guò)在后臺與服務(wù)器進(jìn)行少 量數據交換,可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下,對網(wǎng)頁(yè)的某部份進(jìn)行更新。 表現特點(diǎn):a、點(diǎn)擊網(wǎng)頁(yè)中某個(gè)選項時(shí),大部分網(wǎng)站的網(wǎng)址不會(huì )改變; b、網(wǎng)頁(yè) 不是完全加載,只是局部進(jìn)行了數據加載,有所變化。 驗證方法:點(diǎn)擊操作后,在瀏覽器中文章采集站,網(wǎng)址輸入欄不會(huì )出現加載中的狀態(tài)或則轉 圈狀態(tài)。八爪魚(yú)·云采集服務(wù)平臺 觀(guān)察網(wǎng)頁(yè),我們發(fā)覺(jué),通過(guò) 5 次點(diǎn)擊“加載更多內容”,頁(yè)面加載到最頂部,一 共顯示 100 篇文章。因此,我們設置整個(gè)“循環(huán)翻頁(yè)”步驟執行 5 次。選中“循 環(huán)翻頁(yè)”步驟,打開(kāi)“高級選項”,打開(kāi)“滿(mǎn)足以下條件時(shí)退出循環(huán)”,設置循 環(huán)次數等于“5 次”,點(diǎn)擊“確定”微信公眾號文章采集步驟 6步驟 3:創(chuàng )建列表循環(huán)并提取數據1)移動(dòng)滑鼠,選中頁(yè)面里第一條文章鏈接。系統會(huì )手動(dòng)辨識相像鏈接,在操作 提示框中,選擇“選中全部”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 72)選擇“循環(huán)點(diǎn)擊每位鏈接”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 83)系統會(huì )手動(dòng)步入文章詳情頁(yè)。
點(diǎn)擊須要采集的數組 (這里先點(diǎn)擊了文章標題) , 在操作提示框中,選擇“采集該元素的文本”。文章發(fā)布時(shí)間、文章來(lái)源數組的 采集方法同理八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 94)接下來(lái)開(kāi)始采集文章正文。先點(diǎn)擊文章正文的第一段,系統會(huì )手動(dòng)辨識頁(yè)面 內的同類(lèi)元素,選擇“選中全部”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 105) 可以看見(jiàn), 所有的正文段落均被選中,變?yōu)榧t色。選擇“采集以下元素文本”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 11注意:在數組表中,可進(jìn)行數組的自定義更改八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 126) 經(jīng)過(guò)如上操作文章采集站, 正文都會(huì )被全部采集下來(lái) (默認為每一段正文為一個(gè)單元格) 。 一般而言, 我們希望采集的正文, 合并為同一個(gè)單元格。 點(diǎn)擊 “自定義數據字段” 按鈕,選擇“自定義數據合并方法”,勾選“同一數組多次提取合并為一行,即 追加到同一數組,例如正文分頁(yè)合并”,再點(diǎn)擊“確定”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 13“自定義數據字段”按鈕八爪魚(yú)·云采集服務(wù)平臺 選擇“自定義數據合并方法”微信公眾號文章采集步驟 14八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 15如圖進(jìn)行勾選步驟 4:修改 Xpath1)選中整個(gè)“循環(huán)步驟”,打開(kāi)“高級選項”,可以看見(jiàn),八爪魚(yú)默認生成的 是固定元素列表,定位的是前 20 篇文章的鏈接八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 162) 在火狐瀏覽器中打開(kāi)要采集的網(wǎng)頁(yè)并觀(guān)察源碼。
我們發(fā)覺(jué), 通過(guò)此條 Xpath: //DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A, 頁(yè)面中所需的 100 篇文章均被定位了八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 173)將修改后的 Xpath,復制粘貼到八爪魚(yú)中所示位置,然后點(diǎn)擊“確定”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 18步驟 5:修改流程圖結構我們繼續觀(guān)察,通過(guò) 5 次點(diǎn)擊“加載更多內容”后,此網(wǎng)頁(yè)加載出全部 100 篇 文章。 因而我們配置規則的思路是, 先構建翻頁(yè)循環(huán), 加載出全部 100 篇文章, 再完善循環(huán)列表,提取數據 1)選中整個(gè)“循環(huán)”步驟,將其拖出“循環(huán)翻頁(yè)”步驟。如果不進(jìn)行此項操作, 那么將會(huì )出現好多重復數據八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 19拖動(dòng)完成后,如下圖所示八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 20步驟 6:數據采集及導入1)點(diǎn)擊左上角的“保存”,然后點(diǎn)擊“開(kāi)始采集”,選擇“啟動(dòng)本地采集”八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 212)采集完成后,會(huì )跳出提示,選擇“導出數據”,選擇“合適的導入方法”, 將采集好的數據導入八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 223)這里我們選擇 excel 作為導入為格式,數據導入后如下圖八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 234)如上圖,部分文章的正文沒(méi)有采集到。
那是因為,系統手動(dòng)生成的文章正文 的循環(huán)列表的 Xpath://[@id="js_content"]/P,定位不到此篇文章的正文。 將 Xpath 修改為://[@id="js_content"]//P,所有的文章正文均可被定位到八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 23更改 Xpath 前八爪魚(yú)·云采集服務(wù)平臺 微信公眾號文章采集步驟 24說(shuō)明: 本文的方式僅適用于采集搜狗陌陌文章正文的文本內容,不可采集正文中 的圖片,如需采集圖片,則需在流程中加入一個(gè)判定條件。相關(guān)采集教程: 網(wǎng)易自媒體文章采集 新浪博客文章采集 uc 頭條文章采集 自媒體文章怎么采集 八爪魚(yú)·云采集服務(wù)平臺 歡樂(lè )書(shū)客小說(shuō)采集 百家號爆文采集 百度新聞采集 八爪魚(yú)——70 萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。 1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景,會(huì )上網(wǎng)才能采集。完全可視化 流程,點(diǎn)擊滑鼠完成操作,2 分鐘即可快速入門(mén)。 2、功能強悍,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁(yè)、識別驗證碼、瀑布 流、Ajax 腳本異步加載數據的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設置進(jìn)行采集。 3、云采集,關(guān)機也可以。配置好采集任務(wù)后可死機,任務(wù)可在云端執行。龐大 云采集集群 24*7 不間斷運行,不用害怕 IP 被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可按需選擇。免費版具備所有功能,能夠滿(mǎn)足用戶(hù)的 基本采集需求。同時(shí)設置了一些增值服務(wù)(如私有云),滿(mǎn)足低端付費企業(yè)用戶(hù) 的須要。



