網(wǎng)站內容采集器
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-05-29 10:11
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-05-26 10:37
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-05-25 02:41
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-05-24 15:35
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 139 次瀏覽 ? 2022-05-23 20:29
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2022-05-23 15:58
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-05-22 16:55
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-05-21 20:55
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-05-21 07:04
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-05-20 18:32
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-05-15 03:39
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-05-14 00:47
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 107 次瀏覽 ? 2022-05-13 07:57
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 112 次瀏覽 ? 2022-05-08 02:30
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-05-05 12:11
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2022-05-05 12:06
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
趕集網(wǎng)站內容采集器采集電商網(wǎng)站的類(lèi)型及注意事項
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 107 次瀏覽 ? 2022-05-04 20:01
網(wǎng)站內容采集器采集網(wǎng)站內容到自己網(wǎng)站,不用編輯,自動(dòng)排版。趕集網(wǎng)站內容采集器采集58同城內容網(wǎng)站采集器采集電商網(wǎng)站內容方便快捷,操作簡(jiǎn)單,無(wú)需技術(shù),可批量處理網(wǎng)站內容,適合專(zhuān)業(yè)網(wǎng)站編輯人員來(lái)操作??焖俨杉?8同城,趕集網(wǎng)站內容,無(wú)需編輯直接就可以排版發(fā)布到自己網(wǎng)站上,對于一些慢慢積累網(wǎng)站內容需要長(cháng)期更新的朋友十分的實(shí)用。
“采集”網(wǎng)站的類(lèi)型不同:有的是特指專(zhuān)業(yè)網(wǎng)站的免費采集,有的是指采集一些一般網(wǎng)站的免費采集;所謂特指和一般網(wǎng)站,這里的網(wǎng)站一般指付費大站或是大站的首頁(yè)采集。而個(gè)人站長(cháng)、建站中的采集網(wǎng)站,都是將個(gè)人站長(cháng)的站內內容直接爬下來(lái)去放自己網(wǎng)站就行了。原因是大站用免費鏈接或是二級域名是有必要的,因為大站一般都會(huì )有很多免費收錄,建站是需要很多的花費來(lái)建立網(wǎng)站的。
如果僅是采集,對于原網(wǎng)站是沒(méi)有損害的,對于普通站長(cháng)來(lái)說(shuō)沒(méi)有任何影響。而付費大站的收錄基本上很難保持,這是其主要損害點(diǎn)。所以如果僅僅采集,還是不建議采集。至于您的網(wǎng)站的簡(jiǎn)單度,在采集網(wǎng)站面前,那就是一個(gè)基本入門(mén)級別的應用。我覺(jué)得只要網(wǎng)站不是亂七八糟的情況都是可以采集的。
網(wǎng)站內容抓取-樂(lè )觀(guān)建站-let'sgohome網(wǎng)站采集最好使用國外的云采集,真的非??焖?,所以針對國內網(wǎng)站來(lái)說(shuō),一般看到有國外網(wǎng)站出現有采集,就會(huì )第一時(shí)間跳過(guò)。
1、將網(wǎng)站內容精準化。精準網(wǎng)站采集無(wú)非就是針對性采集,能提高采集內容的質(zhì)量,提高網(wǎng)站的權重,從而增加網(wǎng)站的點(diǎn)擊率。采集內容可以省去優(yōu)化網(wǎng)站的功夫,對建站來(lái)說(shuō)很有用。
2、用戶(hù)體驗好。像百度和谷歌,為了加強用戶(hù)體驗,就會(huì )有針對性的對網(wǎng)站內容進(jìn)行抓取。這些抓取內容就能使得用戶(hù)體驗好。
3、交互性強。如果搜索引擎是一個(gè)弱信息接收器,那么網(wǎng)站內容采集就能增加網(wǎng)站的信息采集效率。比如一個(gè)網(wǎng)站有很多分類(lèi)頁(yè)面,如果我們都采集過(guò)來(lái),我們將將同一頁(yè)面同一關(guān)鍵詞進(jìn)行采集,那么我們就可以獲得更多網(wǎng)站內容。
4、讓自己的網(wǎng)站更加統一化。搜索引擎是按照頁(yè)面進(jìn)行爬取,如果一些頁(yè)面無(wú)人關(guān)注,那就抓取到即可。但是如果我們也抓取,那么我們就可以對頁(yè)面進(jìn)行分類(lèi),讓用戶(hù)能更加快速搜索到我們的網(wǎng)站。 查看全部
趕集網(wǎng)站內容采集器采集電商網(wǎng)站的類(lèi)型及注意事項
網(wǎng)站內容采集器采集網(wǎng)站內容到自己網(wǎng)站,不用編輯,自動(dòng)排版。趕集網(wǎng)站內容采集器采集58同城內容網(wǎng)站采集器采集電商網(wǎng)站內容方便快捷,操作簡(jiǎn)單,無(wú)需技術(shù),可批量處理網(wǎng)站內容,適合專(zhuān)業(yè)網(wǎng)站編輯人員來(lái)操作??焖俨杉?8同城,趕集網(wǎng)站內容,無(wú)需編輯直接就可以排版發(fā)布到自己網(wǎng)站上,對于一些慢慢積累網(wǎng)站內容需要長(cháng)期更新的朋友十分的實(shí)用。
“采集”網(wǎng)站的類(lèi)型不同:有的是特指專(zhuān)業(yè)網(wǎng)站的免費采集,有的是指采集一些一般網(wǎng)站的免費采集;所謂特指和一般網(wǎng)站,這里的網(wǎng)站一般指付費大站或是大站的首頁(yè)采集。而個(gè)人站長(cháng)、建站中的采集網(wǎng)站,都是將個(gè)人站長(cháng)的站內內容直接爬下來(lái)去放自己網(wǎng)站就行了。原因是大站用免費鏈接或是二級域名是有必要的,因為大站一般都會(huì )有很多免費收錄,建站是需要很多的花費來(lái)建立網(wǎng)站的。
如果僅是采集,對于原網(wǎng)站是沒(méi)有損害的,對于普通站長(cháng)來(lái)說(shuō)沒(méi)有任何影響。而付費大站的收錄基本上很難保持,這是其主要損害點(diǎn)。所以如果僅僅采集,還是不建議采集。至于您的網(wǎng)站的簡(jiǎn)單度,在采集網(wǎng)站面前,那就是一個(gè)基本入門(mén)級別的應用。我覺(jué)得只要網(wǎng)站不是亂七八糟的情況都是可以采集的。
網(wǎng)站內容抓取-樂(lè )觀(guān)建站-let'sgohome網(wǎng)站采集最好使用國外的云采集,真的非??焖?,所以針對國內網(wǎng)站來(lái)說(shuō),一般看到有國外網(wǎng)站出現有采集,就會(huì )第一時(shí)間跳過(guò)。
1、將網(wǎng)站內容精準化。精準網(wǎng)站采集無(wú)非就是針對性采集,能提高采集內容的質(zhì)量,提高網(wǎng)站的權重,從而增加網(wǎng)站的點(diǎn)擊率。采集內容可以省去優(yōu)化網(wǎng)站的功夫,對建站來(lái)說(shuō)很有用。
2、用戶(hù)體驗好。像百度和谷歌,為了加強用戶(hù)體驗,就會(huì )有針對性的對網(wǎng)站內容進(jìn)行抓取。這些抓取內容就能使得用戶(hù)體驗好。
3、交互性強。如果搜索引擎是一個(gè)弱信息接收器,那么網(wǎng)站內容采集就能增加網(wǎng)站的信息采集效率。比如一個(gè)網(wǎng)站有很多分類(lèi)頁(yè)面,如果我們都采集過(guò)來(lái),我們將將同一頁(yè)面同一關(guān)鍵詞進(jìn)行采集,那么我們就可以獲得更多網(wǎng)站內容。
4、讓自己的網(wǎng)站更加統一化。搜索引擎是按照頁(yè)面進(jìn)行爬取,如果一些頁(yè)面無(wú)人關(guān)注,那就抓取到即可。但是如果我們也抓取,那么我們就可以對頁(yè)面進(jìn)行分類(lèi),讓用戶(hù)能更加快速搜索到我們的網(wǎng)站。
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-05-04 17:00
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
? 優(yōu)采云采集器——最良心的爬蟲(chóng)軟件
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2022-05-04 17:00
2020 年如果讓我推薦一款大眾向的數據采集軟件,那一定是優(yōu)采云采集器[1]了。和我之前推薦的 相比,如果說(shuō) web scraper 是小而精的瑞士軍刀,那優(yōu)采云采集器就是大而全的重型武器,基本上可以解決所有的數據爬取問(wèn)題。
下面我們就來(lái)聊聊,這款軟件的優(yōu)秀之處。
一、產(chǎn)品特點(diǎn)1.跨平臺
優(yōu)采云采集器是一款桌面應用軟件,支持三大操作系統:Linux、Windows 和 Mac,可以直接在官網(wǎng)上免費下載[2]。
2.功能強大
優(yōu)采云采集器把采集工作分為兩種類(lèi)型:智能模式和流程圖模式。
智能模式[3]就是加載網(wǎng)頁(yè)后,軟件自動(dòng)分析網(wǎng)頁(yè)結構,智能識別網(wǎng)頁(yè)內容,簡(jiǎn)化操作流程。這種模式比較適合簡(jiǎn)單的網(wǎng)頁(yè),經(jīng)過(guò)我的測試,識別準確率還是挺高的。
流程圖模式[4]的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
3.導出無(wú)限制
這個(gè)可以說(shuō)是優(yōu)采云采集器最良心的功能了。
市面上有很多的數據采集軟件,出于商業(yè)化的目的,多多少少會(huì )對數據導出進(jìn)行限制。不清楚套路的人經(jīng)常用相關(guān)軟件辛辛苦苦采集了一堆數據,結果發(fā)現導出數據需要花錢(qián)。
優(yōu)采云采集器就沒(méi)有這個(gè)問(wèn)題,它的付費點(diǎn)[5]主要是體現在 IP 池和采集加速等高級功能上,不但導出數據不花錢(qián),還支持 Excel、CSV、TXT、HTML 多種導出格式,并且支持直接導出到數據庫,對于普通的用戶(hù)來(lái)說(shuō)完全夠用了。
4.教程詳細
我在本文動(dòng)筆之前曾經(jīng)想過(guò)先寫(xiě)幾篇優(yōu)采云采集器的使用教程,但是看了他們的官網(wǎng)教程后就知道沒(méi)這個(gè)必要了,因為寫(xiě)的實(shí)在是太詳細了。
優(yōu)采云采集器的官網(wǎng)提供了兩種教程,一種是視頻教程[6],每個(gè)視頻五分鐘左右;一種是圖文教程[7],手把手教學(xué)??赐赀@兩類(lèi)教程后還可以看看他們的文檔中心[8],寫(xiě)的也非常詳細,基本覆蓋了該軟件的各個(gè)功能點(diǎn)。
二、基礎功能1.數據抓取
基本的數據抓取非常簡(jiǎn)單:我們只要點(diǎn)擊「添加字段」那個(gè)按鈕,就會(huì )出現一個(gè)選擇魔棒,然后點(diǎn)選要抓取的數據,就能采集數據了:
2.翻頁(yè)功能
我在介紹 時(shí)曾把網(wǎng)頁(yè)翻頁(yè)分為 3 大類(lèi):滾動(dòng)加載、分頁(yè)器加載和點(diǎn)擊下一頁(yè)加載。
對于這三種基礎翻頁(yè)類(lèi)型,優(yōu)采云采集器也是完全支持的。
不像 web scraper 的分頁(yè)功能散落在各種選擇器上,優(yōu)采云采集器的分頁(yè)配置集中在一個(gè)地方上,只要通過(guò)下拉選擇,就可以輕松配置分頁(yè)模式。相關(guān)的配置教程可見(jiàn)官網(wǎng)教程:如何設置分頁(yè)[9]。
3.復雜表單
對于一些多項聯(lián)動(dòng)篩選的網(wǎng)頁(yè),優(yōu)采云采集器也能很好的處理。我們可以利用優(yōu)采云采集器里的流程圖模式,去自定義一些交互規則。
例如下圖,我就利用了流程圖模式里的點(diǎn)擊組件模擬點(diǎn)擊篩選按鈕,非常方便。
三、進(jìn)階使用1.數據清洗
我在介紹 時(shí),說(shuō) web scraper 只提供了基礎的正則匹配功能,可以在數據抓取時(shí)對數據進(jìn)行初步的清洗。
相比之下,優(yōu)采云采集器提供了更多的功能:強大的過(guò)濾配置,完整的正則功能和全面的文字處理配置。當然,功能強大的同時(shí)也帶來(lái)了復雜度的提升,需要有更多的耐心去學(xué)習使用。
下面是官網(wǎng)上和數據清洗有關(guān)的教程,大家可以參考學(xué)習:
2.流程圖模式
本文前面也介紹過(guò)了,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
比如說(shuō)下圖這個(gè)流程圖,就是模擬真人瀏覽微博時(shí)的行為去抓取相關(guān)數據。
經(jīng)過(guò)我個(gè)人的幾次測試,我認為流程圖模式有一定的學(xué)習門(mén)檻,但是和從頭學(xué)習 python 爬蟲(chóng)比起來(lái),學(xué)習曲線(xiàn)還是緩和了不少。如果對流程圖模式很感興趣,可以去官網(wǎng)[13]上學(xué)習,寫(xiě)的非常詳細。
3.XPath/CSS/Regex
無(wú)論是什么爬蟲(chóng)軟件,他們都是基于一定的規則去抓取數據的。XPath/CSS/Regex 就是幾個(gè)常見(jiàn)的匹配規則。優(yōu)采云采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數據。
比如說(shuō)某個(gè)網(wǎng)頁(yè)里存在數據 A,但只有鼠標移到對應的文字上才會(huì )以彈窗的形式顯示出來(lái),這時(shí)候我們就可以自己寫(xiě)一個(gè)對應的選擇器去篩選數據。
XPath
XPath 是一種在爬蟲(chóng)中運用非常廣泛的數據查詢(xún)語(yǔ)言。我們可以通過(guò) XPath 教程[14]去學(xué)習這個(gè)語(yǔ)言的運用。
CSS
這里的 CSS 特指的 CSS 選擇器,我之前介紹 web scraper 的高級技巧時(shí),講解過(guò) CSS 選擇器的使用場(chǎng)景和注意事項。感興趣的人可以看我寫(xiě)的 。
Regex
Regex 就是正則表達式。我們也可以通過(guò)正則表達式去選擇數據。我也寫(xiě)過(guò)一些。但是個(gè)人認為在字段選擇器這個(gè)場(chǎng)景下,正則表達式?jīng)]有 XPath 和 CSS 選擇器好用。
4.定時(shí)抓取/IP 池/打碼功能
這幾個(gè)都是優(yōu)采云采集器的付費功能,我沒(méi)有開(kāi)會(huì )員,所以也不知道使用體驗怎么樣。在此我做個(gè)小小的科普,給大家解釋一下這幾個(gè)名詞是什么意思。
定時(shí)抓取
定時(shí)抓取非常好理解,就是到了某個(gè)固定的時(shí)間爬蟲(chóng)軟件就會(huì )自動(dòng)抓取數據。市面上有一些比價(jià)軟件,背后就是運行著(zhù)非常多的定時(shí)爬蟲(chóng),每隔幾分鐘爬一下價(jià)格信息,以達到價(jià)格監控的目的。
IP 池
互聯(lián)網(wǎng)上 90% 的流量都是爬蟲(chóng)貢獻的,為了降低服務(wù)器的壓力,互聯(lián)網(wǎng)公司會(huì )有一些風(fēng)控策略,里面就有一種是限制 IP 流量。比如說(shuō)互聯(lián)網(wǎng)公司后臺檢測到某個(gè) IP 有大量的數據請求,超過(guò)了正常范圍,就會(huì )暫時(shí)的封鎖這個(gè) IP,不返回相關(guān)數據。這時(shí)候爬蟲(chóng)軟件就會(huì )自己維護一個(gè) IP 池,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。
打碼功能
這個(gè)功能就是內置了驗證碼識別器,可以實(shí)現機器打碼 or 手動(dòng)打碼,也是繞過(guò)網(wǎng)站風(fēng)控的一種方法。
四、總結
個(gè)人認為優(yōu)采云采集器是一款非常優(yōu)秀的數據采集軟件。它提供的免費功能可以解決絕大部分編程小白的數據抓取需求。
如果有一些編程基礎,可以明顯的看出一些功能是對編程語(yǔ)言邏輯的封裝,比如說(shuō)流程圖模式是對流程控制的封裝,數據清洗功能是對字符串處理函數的封裝。這些高階功能擴展了優(yōu)采云采集器的能力,也增大了學(xué)習難度。
我個(gè)人看來(lái),如果是輕量的數據抓取需求,更傾向于使用 web scraper;需求比較復雜,優(yōu)采云采集器是個(gè)不錯的選擇;如果涉及到定時(shí)抓取等高級需求,自己寫(xiě)爬蟲(chóng)代碼反而更加可控。
總而言之,優(yōu)采云采集器是一款優(yōu)秀的數據采集軟件,非常推薦大家學(xué)習和使用。
聯(lián)系我 查看全部
? 優(yōu)采云采集器——最良心的爬蟲(chóng)軟件
2020 年如果讓我推薦一款大眾向的數據采集軟件,那一定是優(yōu)采云采集器[1]了。和我之前推薦的 相比,如果說(shuō) web scraper 是小而精的瑞士軍刀,那優(yōu)采云采集器就是大而全的重型武器,基本上可以解決所有的數據爬取問(wèn)題。
下面我們就來(lái)聊聊,這款軟件的優(yōu)秀之處。
一、產(chǎn)品特點(diǎn)1.跨平臺
優(yōu)采云采集器是一款桌面應用軟件,支持三大操作系統:Linux、Windows 和 Mac,可以直接在官網(wǎng)上免費下載[2]。
2.功能強大
優(yōu)采云采集器把采集工作分為兩種類(lèi)型:智能模式和流程圖模式。
智能模式[3]就是加載網(wǎng)頁(yè)后,軟件自動(dòng)分析網(wǎng)頁(yè)結構,智能識別網(wǎng)頁(yè)內容,簡(jiǎn)化操作流程。這種模式比較適合簡(jiǎn)單的網(wǎng)頁(yè),經(jīng)過(guò)我的測試,識別準確率還是挺高的。
流程圖模式[4]的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
3.導出無(wú)限制
這個(gè)可以說(shuō)是優(yōu)采云采集器最良心的功能了。
市面上有很多的數據采集軟件,出于商業(yè)化的目的,多多少少會(huì )對數據導出進(jìn)行限制。不清楚套路的人經(jīng)常用相關(guān)軟件辛辛苦苦采集了一堆數據,結果發(fā)現導出數據需要花錢(qián)。
優(yōu)采云采集器就沒(méi)有這個(gè)問(wèn)題,它的付費點(diǎn)[5]主要是體現在 IP 池和采集加速等高級功能上,不但導出數據不花錢(qián),還支持 Excel、CSV、TXT、HTML 多種導出格式,并且支持直接導出到數據庫,對于普通的用戶(hù)來(lái)說(shuō)完全夠用了。
4.教程詳細
我在本文動(dòng)筆之前曾經(jīng)想過(guò)先寫(xiě)幾篇優(yōu)采云采集器的使用教程,但是看了他們的官網(wǎng)教程后就知道沒(méi)這個(gè)必要了,因為寫(xiě)的實(shí)在是太詳細了。
優(yōu)采云采集器的官網(wǎng)提供了兩種教程,一種是視頻教程[6],每個(gè)視頻五分鐘左右;一種是圖文教程[7],手把手教學(xué)??赐赀@兩類(lèi)教程后還可以看看他們的文檔中心[8],寫(xiě)的也非常詳細,基本覆蓋了該軟件的各個(gè)功能點(diǎn)。
二、基礎功能1.數據抓取
基本的數據抓取非常簡(jiǎn)單:我們只要點(diǎn)擊「添加字段」那個(gè)按鈕,就會(huì )出現一個(gè)選擇魔棒,然后點(diǎn)選要抓取的數據,就能采集數據了:
2.翻頁(yè)功能
我在介紹 時(shí)曾把網(wǎng)頁(yè)翻頁(yè)分為 3 大類(lèi):滾動(dòng)加載、分頁(yè)器加載和點(diǎn)擊下一頁(yè)加載。
對于這三種基礎翻頁(yè)類(lèi)型,優(yōu)采云采集器也是完全支持的。
不像 web scraper 的分頁(yè)功能散落在各種選擇器上,優(yōu)采云采集器的分頁(yè)配置集中在一個(gè)地方上,只要通過(guò)下拉選擇,就可以輕松配置分頁(yè)模式。相關(guān)的配置教程可見(jiàn)官網(wǎng)教程:如何設置分頁(yè)[9]。
3.復雜表單
對于一些多項聯(lián)動(dòng)篩選的網(wǎng)頁(yè),優(yōu)采云采集器也能很好的處理。我們可以利用優(yōu)采云采集器里的流程圖模式,去自定義一些交互規則。
例如下圖,我就利用了流程圖模式里的點(diǎn)擊組件模擬點(diǎn)擊篩選按鈕,非常方便。
三、進(jìn)階使用1.數據清洗
我在介紹 時(shí),說(shuō) web scraper 只提供了基礎的正則匹配功能,可以在數據抓取時(shí)對數據進(jìn)行初步的清洗。
相比之下,優(yōu)采云采集器提供了更多的功能:強大的過(guò)濾配置,完整的正則功能和全面的文字處理配置。當然,功能強大的同時(shí)也帶來(lái)了復雜度的提升,需要有更多的耐心去學(xué)習使用。
下面是官網(wǎng)上和數據清洗有關(guān)的教程,大家可以參考學(xué)習:
2.流程圖模式
本文前面也介紹過(guò)了,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
比如說(shuō)下圖這個(gè)流程圖,就是模擬真人瀏覽微博時(shí)的行為去抓取相關(guān)數據。
經(jīng)過(guò)我個(gè)人的幾次測試,我認為流程圖模式有一定的學(xué)習門(mén)檻,但是和從頭學(xué)習 python 爬蟲(chóng)比起來(lái),學(xué)習曲線(xiàn)還是緩和了不少。如果對流程圖模式很感興趣,可以去官網(wǎng)[13]上學(xué)習,寫(xiě)的非常詳細。
3.XPath/CSS/Regex
無(wú)論是什么爬蟲(chóng)軟件,他們都是基于一定的規則去抓取數據的。XPath/CSS/Regex 就是幾個(gè)常見(jiàn)的匹配規則。優(yōu)采云采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數據。
比如說(shuō)某個(gè)網(wǎng)頁(yè)里存在數據 A,但只有鼠標移到對應的文字上才會(huì )以彈窗的形式顯示出來(lái),這時(shí)候我們就可以自己寫(xiě)一個(gè)對應的選擇器去篩選數據。
XPath
XPath 是一種在爬蟲(chóng)中運用非常廣泛的數據查詢(xún)語(yǔ)言。我們可以通過(guò) XPath 教程[14]去學(xué)習這個(gè)語(yǔ)言的運用。
CSS
這里的 CSS 特指的 CSS 選擇器,我之前介紹 web scraper 的高級技巧時(shí),講解過(guò) CSS 選擇器的使用場(chǎng)景和注意事項。感興趣的人可以看我寫(xiě)的 。
Regex
Regex 就是正則表達式。我們也可以通過(guò)正則表達式去選擇數據。我也寫(xiě)過(guò)一些。但是個(gè)人認為在字段選擇器這個(gè)場(chǎng)景下,正則表達式?jīng)]有 XPath 和 CSS 選擇器好用。
4.定時(shí)抓取/IP 池/打碼功能
這幾個(gè)都是優(yōu)采云采集器的付費功能,我沒(méi)有開(kāi)會(huì )員,所以也不知道使用體驗怎么樣。在此我做個(gè)小小的科普,給大家解釋一下這幾個(gè)名詞是什么意思。
定時(shí)抓取
定時(shí)抓取非常好理解,就是到了某個(gè)固定的時(shí)間爬蟲(chóng)軟件就會(huì )自動(dòng)抓取數據。市面上有一些比價(jià)軟件,背后就是運行著(zhù)非常多的定時(shí)爬蟲(chóng),每隔幾分鐘爬一下價(jià)格信息,以達到價(jià)格監控的目的。
IP 池
互聯(lián)網(wǎng)上 90% 的流量都是爬蟲(chóng)貢獻的,為了降低服務(wù)器的壓力,互聯(lián)網(wǎng)公司會(huì )有一些風(fēng)控策略,里面就有一種是限制 IP 流量。比如說(shuō)互聯(lián)網(wǎng)公司后臺檢測到某個(gè) IP 有大量的數據請求,超過(guò)了正常范圍,就會(huì )暫時(shí)的封鎖這個(gè) IP,不返回相關(guān)數據。這時(shí)候爬蟲(chóng)軟件就會(huì )自己維護一個(gè) IP 池,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。
打碼功能
這個(gè)功能就是內置了驗證碼識別器,可以實(shí)現機器打碼 or 手動(dòng)打碼,也是繞過(guò)網(wǎng)站風(fēng)控的一種方法。
四、總結
個(gè)人認為優(yōu)采云采集器是一款非常優(yōu)秀的數據采集軟件。它提供的免費功能可以解決絕大部分編程小白的數據抓取需求。
如果有一些編程基礎,可以明顯的看出一些功能是對編程語(yǔ)言邏輯的封裝,比如說(shuō)流程圖模式是對流程控制的封裝,數據清洗功能是對字符串處理函數的封裝。這些高階功能擴展了優(yōu)采云采集器的能力,也增大了學(xué)習難度。
我個(gè)人看來(lái),如果是輕量的數據抓取需求,更傾向于使用 web scraper;需求比較復雜,優(yōu)采云采集器是個(gè)不錯的選擇;如果涉及到定時(shí)抓取等高級需求,自己寫(xiě)爬蟲(chóng)代碼反而更加可控。
總而言之,優(yōu)采云采集器是一款優(yōu)秀的數據采集軟件,非常推薦大家學(xué)習和使用。
聯(lián)系我
【教程】使用優(yōu)采云采集器軟件爬取網(wǎng)頁(yè)數據
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 174 次瀏覽 ? 2022-05-04 16:05
地圖可視化離不開(kāi)數據的支撐,很多人苦于無(wú)法獲取數據或者不知道怎么獲取數據,可能很多人聽(tīng)說(shuō)過(guò)“爬蟲(chóng)”,也聽(tīng)說(shuō)過(guò)通過(guò)Python來(lái)“寫(xiě)爬蟲(chóng)”,畢竟這是獲取網(wǎng)頁(yè)數據的主要手段之一。但是對于很多不熟悉Python語(yǔ)言的人來(lái)說(shuō),“寫(xiě)爬蟲(chóng)”的技術(shù)難度高,學(xué)習過(guò)程耗時(shí)。今天,我們將介紹一個(gè)數據采集軟件——優(yōu)采云采集器,并提供一個(gè)簡(jiǎn)要使用教程,使您無(wú)需編寫(xiě)代碼就可以爬取網(wǎng)頁(yè)數據。
在開(kāi)始收集數據前,我們需進(jìn)去優(yōu)采云采集器官網(wǎng),下載軟件并安裝。網(wǎng)址:,可點(diǎn)擊左下“閱讀原文”可直接訪(fǎng)問(wèn)。
爬取網(wǎng)頁(yè)數據的步驟:
1.打開(kāi)優(yōu)采云采集器。
2.新建分組:菜單欄“開(kāi)始”,點(diǎn)擊新建分組,輸入采集網(wǎng)站名稱(chēng)為分組名稱(chēng),(通常在“采網(wǎng)址”和“采內容”選項下打勾)。
3.新建任務(wù):選擇新建的分組,點(diǎn)擊“新建任務(wù)”或者鼠標右鍵選擇“新建任務(wù)”,進(jìn)入到新建頁(yè)面。任務(wù)規則名為采集的對象名。新建任務(wù)界面中,包含四個(gè)步驟:網(wǎng)址采集規則、內容采集規則、內容發(fā)布規則和其他設置。
4.添加網(wǎng)址
第一步:網(wǎng)址采集規則
查看需爬取網(wǎng)址的特點(diǎn),選擇起始網(wǎng)址的添加方式(普通網(wǎng)址、批量網(wǎng)址、文本導入和數據庫導入)。點(diǎn)擊起始網(wǎng)址任務(wù)條中的“向導編輯”,在網(wǎng)址格式中添加地址,確定即可。本例選取北京市安居客小區網(wǎng)址為例,經(jīng)觀(guān)察測試可知,網(wǎng)頁(yè)的網(wǎng)址出現規律,選擇批量網(wǎng)址。
回到“網(wǎng)址采集規則”頁(yè)面,設置起始網(wǎng)址就是內容頁(yè)網(wǎng)址,并給“任務(wù)規則名”命名。網(wǎng)頁(yè)。
第二步:內容采集規則
打開(kāi)北京安居客網(wǎng)址,F12或(Fn+F12),點(diǎn)擊鼠標選取方式。通過(guò)鼠標依次點(diǎn)小區名稱(chēng)、小區地址以及當月價(jià)格等網(wǎng)頁(yè)中所需要的信息對應的位置,獲取相關(guān)代碼,鼠標右鍵,復制選擇。
根據這些HTML內容和自己需要的內容,在標簽列表中,點(diǎn)擊操作任務(wù)欄中的“添加”來(lái)增加新的標簽,或者點(diǎn)擊已有的標簽,進(jìn)行修改。在標簽編輯欄中,標簽提取方式有前后截取、正則提取、正文提取等方式。數據處理對話(huà)框中,文件下載中的數據支持圖片、flash等文件。
*號為所需要采集的參數。
輸入網(wǎng)頁(yè)網(wǎng)址,測試結果。
測試結果無(wú)誤后,選擇數據保存。注意:保存文件時(shí),模板設置一定要與收集的數據字段一致。
運行。
結果查看。
優(yōu)采云采集器不僅僅可以采集網(wǎng)頁(yè)數據,還可以基于A(yíng)PI進(jìn)行數據采集。大家不妨操作試試,定會(huì )有不一樣的收獲(楊慧測試、撰寫(xiě))。
查看全部
【教程】使用優(yōu)采云采集器軟件爬取網(wǎng)頁(yè)數據
地圖可視化離不開(kāi)數據的支撐,很多人苦于無(wú)法獲取數據或者不知道怎么獲取數據,可能很多人聽(tīng)說(shuō)過(guò)“爬蟲(chóng)”,也聽(tīng)說(shuō)過(guò)通過(guò)Python來(lái)“寫(xiě)爬蟲(chóng)”,畢竟這是獲取網(wǎng)頁(yè)數據的主要手段之一。但是對于很多不熟悉Python語(yǔ)言的人來(lái)說(shuō),“寫(xiě)爬蟲(chóng)”的技術(shù)難度高,學(xué)習過(guò)程耗時(shí)。今天,我們將介紹一個(gè)數據采集軟件——優(yōu)采云采集器,并提供一個(gè)簡(jiǎn)要使用教程,使您無(wú)需編寫(xiě)代碼就可以爬取網(wǎng)頁(yè)數據。
在開(kāi)始收集數據前,我們需進(jìn)去優(yōu)采云采集器官網(wǎng),下載軟件并安裝。網(wǎng)址:,可點(diǎn)擊左下“閱讀原文”可直接訪(fǎng)問(wèn)。
爬取網(wǎng)頁(yè)數據的步驟:
1.打開(kāi)優(yōu)采云采集器。
2.新建分組:菜單欄“開(kāi)始”,點(diǎn)擊新建分組,輸入采集網(wǎng)站名稱(chēng)為分組名稱(chēng),(通常在“采網(wǎng)址”和“采內容”選項下打勾)。
3.新建任務(wù):選擇新建的分組,點(diǎn)擊“新建任務(wù)”或者鼠標右鍵選擇“新建任務(wù)”,進(jìn)入到新建頁(yè)面。任務(wù)規則名為采集的對象名。新建任務(wù)界面中,包含四個(gè)步驟:網(wǎng)址采集規則、內容采集規則、內容發(fā)布規則和其他設置。
4.添加網(wǎng)址
第一步:網(wǎng)址采集規則
查看需爬取網(wǎng)址的特點(diǎn),選擇起始網(wǎng)址的添加方式(普通網(wǎng)址、批量網(wǎng)址、文本導入和數據庫導入)。點(diǎn)擊起始網(wǎng)址任務(wù)條中的“向導編輯”,在網(wǎng)址格式中添加地址,確定即可。本例選取北京市安居客小區網(wǎng)址為例,經(jīng)觀(guān)察測試可知,網(wǎng)頁(yè)的網(wǎng)址出現規律,選擇批量網(wǎng)址。
回到“網(wǎng)址采集規則”頁(yè)面,設置起始網(wǎng)址就是內容頁(yè)網(wǎng)址,并給“任務(wù)規則名”命名。網(wǎng)頁(yè)。
第二步:內容采集規則
打開(kāi)北京安居客網(wǎng)址,F12或(Fn+F12),點(diǎn)擊鼠標選取方式。通過(guò)鼠標依次點(diǎn)小區名稱(chēng)、小區地址以及當月價(jià)格等網(wǎng)頁(yè)中所需要的信息對應的位置,獲取相關(guān)代碼,鼠標右鍵,復制選擇。
根據這些HTML內容和自己需要的內容,在標簽列表中,點(diǎn)擊操作任務(wù)欄中的“添加”來(lái)增加新的標簽,或者點(diǎn)擊已有的標簽,進(jìn)行修改。在標簽編輯欄中,標簽提取方式有前后截取、正則提取、正文提取等方式。數據處理對話(huà)框中,文件下載中的數據支持圖片、flash等文件。
*號為所需要采集的參數。
輸入網(wǎng)頁(yè)網(wǎng)址,測試結果。
測試結果無(wú)誤后,選擇數據保存。注意:保存文件時(shí),模板設置一定要與收集的數據字段一致。
運行。
結果查看。
優(yōu)采云采集器不僅僅可以采集網(wǎng)頁(yè)數據,還可以基于A(yíng)PI進(jìn)行數據采集。大家不妨操作試試,定會(huì )有不一樣的收獲(楊慧測試、撰寫(xiě))。
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-05-29 10:11
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-05-26 10:37
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-05-25 02:41
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-05-24 15:35
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 139 次瀏覽 ? 2022-05-23 20:29
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2022-05-23 15:58
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-05-22 16:55
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-05-21 20:55
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-05-21 07:04
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-05-20 18:32
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-05-15 03:39
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-05-14 00:47
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。 查看全部
淺析通用爬蟲(chóng)軟件—— 集搜客與優(yōu)采云采集器
大 數 據 人
報道DT時(shí)代應用資訊及動(dòng)態(tài),爆料剖析行業(yè)熱點(diǎn)新聞
最近想用爬蟲(chóng)軟件來(lái)采集網(wǎng)頁(yè)上的一些數據,根據百度的推薦以及相關(guān)關(guān)鍵詞查詢(xún),找到了兩款軟件:“集搜客”和“優(yōu)采云”,兩款軟件都有可視化界面,對于編程思維比較薄弱的用戶(hù)來(lái)說(shuō),這兩款軟件上手容易,操作簡(jiǎn)單易懂。今天就帶大家來(lái)了解對比一下這兩款通用的網(wǎng)絡(luò )爬蟲(chóng)軟件。
1.軟件安裝
優(yōu)采云:優(yōu)采云安裝跟其他獨立軟件一樣,從官網(wǎng)下載,直接點(diǎn)擊setup.exe安裝。
集搜客:集搜客網(wǎng)站上下載的軟件也是一個(gè)自解壓exe程序,雙擊啟動(dòng)安裝,看到的是火狐瀏覽器安裝過(guò)程,原來(lái)集搜客軟件是作為火狐插件發(fā)布的。
2.軟件界面布局
優(yōu)采云:優(yōu)采云的界面布局可以歸為指引型界面,用戶(hù)進(jìn)入軟件界面可以看到軟件使用提示信息,如圖一所示,包括向導模式與高級模式,同時(shí)列出了學(xué)習資源,采集規則,數據下載等等。對于初次使用的用戶(hù)來(lái)說(shuō),起到了很好的指引作用。
圖一:優(yōu)采云操作界面展示
集搜客:集搜客軟件分成兩個(gè)操作界面,MS謀數臺(圖2)和DS打數機(圖3),謀數臺負責制定規則(網(wǎng)頁(yè)標注),打數機負責采集數據(網(wǎng)絡(luò )爬蟲(chóng)),一個(gè)謀、一個(gè)打,聽(tīng)起來(lái)還是比較符合其特征。集搜客啟動(dòng)后的界面沒(méi)有顯示使用幫助資源,而是位于“幫助”菜單中。
圖2:集搜客謀數臺界面
圖3:集搜客打數機界面
3.操作流程
優(yōu)采云:優(yōu)采云的操作流程主要分為4個(gè)步驟(如圖4所示),分別為:
設置基本信息、設計工作流程、設置采集選項、完成。
圖4:優(yōu)采云操作流程
圖5:優(yōu)采云設計流程
集搜客:集搜客的操作沒(méi)有流程的概念,似乎定義采集規則可以不遵守既定操作順序,而是有一個(gè)要領(lǐng)“建立一個(gè)箱子,把你要的內容摘進(jìn)去”。所以我們稱(chēng)之為4“塊”操作(如圖6所示):包括命名主題、創(chuàng )建整理箱、規劃爬蟲(chóng)路線(xiàn)和定義連續動(dòng)作。
圖6:集搜客的4塊功能
綜上所述,優(yōu)采云的工作流程特征十分明顯,用戶(hù)決定軟件怎樣動(dòng)作,什么時(shí)候動(dòng)作,動(dòng)作施加給哪里,從哪里采集內容等。而集搜客想讓用戶(hù)專(zhuān)注于摘什么數據,如果用戶(hù)在摘取以外還想擴展范圍那就定義爬蟲(chóng)路線(xiàn),如果還想做些動(dòng)作那就定義連續動(dòng)作,整個(gè)流程細節用戶(hù)不用關(guān)心。
4.數據存儲方式
優(yōu)采云:優(yōu)采云分成單機運行和云采集,數據導出支持EXCEL、SQL、TXT等常用格式。
集搜客:集搜客沒(méi)有云采集,因為爬蟲(chóng)都在用戶(hù)自己電腦上跑,用戶(hù)想把爬蟲(chóng)放云上那是用戶(hù)自己的事。跑下來(lái)的數據以XML格式存儲,可見(jiàn)這是一種中間結果,集搜客官網(wǎng)提供了XML轉EXCEL的工具,也在會(huì )員中心提供了基于云存儲的數據導入和清洗功能,入庫后可以導出成EXCEL格式。
5.收費模式
優(yōu)采云:簡(jiǎn)單來(lái)說(shuō)是一種軟件銷(xiāo)售模式(不排除免費版),除此之外用戶(hù)下規則要積分,跑數據也要積分,而積分可以用錢(qián)購買(mǎi)或者參與社區活動(dòng)換積分。
集搜客:集搜客簡(jiǎn)單來(lái)說(shuō)是一種服務(wù)收費模式,軟件功能全部免費,如果需要一些爬蟲(chóng)管理和數據管理的服務(wù),則根據服務(wù)類(lèi)型、數量和時(shí)間進(jìn)行收費。同樣,下載規則要積分,如果使用云存儲,根據存儲量和存儲時(shí)間收費。積分同樣也可以用錢(qián)購買(mǎi),或者參與社區活動(dòng)賺積分。
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 107 次瀏覽 ? 2022-05-13 07:57
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 112 次瀏覽 ? 2022-05-08 02:30
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-05-05 12:11
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑 查看全部
通過(guò)優(yōu)采云采集器下載郵箱中的Apple繳費賬單
背景概述
年終想回顧2021年在蘋(píng)果App Store上的投入開(kāi)銷(xiāo),進(jìn)行一下統計并回顧哪些應用買(mǎi)的值與不值。購買(mǎi)記錄分布在mac store和app stroe,干脆就直接從 Apple id所關(guān)聯(lián)的郵箱賬單里面快速抽取出來(lái)這一年的賬單郵件,通過(guò)一個(gè)網(wǎng)頁(yè)采集工具簡(jiǎn)單配置規則,實(shí)現郵件里面的收據憑證的快速采集并導出本地Excel。
準備物料操作過(guò)程0)進(jìn)入優(yōu)采云采集器官網(wǎng)下載客戶(hù)端并安裝
過(guò)程參考官方文檔
1)郵箱歸置賬單文件夾2)選擇“流程圖模式”3)設置郵件頁(yè)面地址
4)根據點(diǎn)擊操作配置對應的流程圖
一共四個(gè)操作,具體操作和方法可以參考官網(wǎng)視頻教程:數據采集教程流程圖模式第一個(gè)采集案例_優(yōu)采云采集器 ()
點(diǎn)擊1:打開(kāi)網(wǎng)頁(yè)
點(diǎn)擊2:“蘋(píng)果賬單文件夾”
循環(huán)列點(diǎn)擊:創(chuàng )建郵件列表點(diǎn)擊循環(huán)
插入3秒“定時(shí)等待”
5)設置提取數據及修改字段名稱(chēng)6)運行采集腳本
7)導出采集數據內容
選擇保存文件位置,導出即可。
注意默認的文件名稱(chēng)可能太長(cháng)導致無(wú)法保存,在本地找不到文件或者是有bug,修改文件名后就沒(méi)這種現象。
心得體會(huì )及踩坑
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2022-05-05 12:06
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程: 查看全部
互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云數據采集系統以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時(shí)間內,輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規范化數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集,編輯,規范化,擺脫對人工搜索及收集數據的依賴(lài),從而降低獲取信息的成本,提高效率。
下載網(wǎng)址:
折疊編輯本段主要功能
簡(jiǎn)單來(lái)講,使用優(yōu)采云可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數據,生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容:
1. 金融數據,如季報,年報,財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監控競爭對手最新信息,包括商品價(jià)格及庫存;
4. 監控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現和收集潛在客戶(hù)信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺之間同步商品信息,做到在一個(gè)平臺發(fā)布,其他平臺自動(dòng)更新。
折疊編輯本段產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,完全可視化圖形操作,無(wú)需專(zhuān)業(yè)IT人員,任何會(huì )使用電腦上網(wǎng)的人都可以輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,可以很短的時(shí)間內 獲取成千上萬(wàn)條信息。
折疊拖拽式采集流程
模擬人的操作思維模式,可以登陸,輸入數據,點(diǎn)擊鏈接,按鈕等,還能對不同情況采取不同的采集流程。
折疊圖文識別
內置可擴展的OCR接口,支持解析圖片中的文字,可將圖片上的文字提取出來(lái)。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按照指定的周期自動(dòng)采集,并且還支持最快一分鐘一次的實(shí)時(shí)采集。
折疊2分鐘快速入門(mén)
內置從入門(mén)到精通所需要的視頻教程,2分鐘就能上手使用,另外還有文檔,論壇,qq群等。
折疊免費使用
它是免費的,并且免費版本沒(méi)有任何功能限制,你現在就可以試一試,立即下載安裝。
配置視頻教程:
趕集網(wǎng)站內容采集器采集電商網(wǎng)站的類(lèi)型及注意事項
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 107 次瀏覽 ? 2022-05-04 20:01
網(wǎng)站內容采集器采集網(wǎng)站內容到自己網(wǎng)站,不用編輯,自動(dòng)排版。趕集網(wǎng)站內容采集器采集58同城內容網(wǎng)站采集器采集電商網(wǎng)站內容方便快捷,操作簡(jiǎn)單,無(wú)需技術(shù),可批量處理網(wǎng)站內容,適合專(zhuān)業(yè)網(wǎng)站編輯人員來(lái)操作??焖俨杉?8同城,趕集網(wǎng)站內容,無(wú)需編輯直接就可以排版發(fā)布到自己網(wǎng)站上,對于一些慢慢積累網(wǎng)站內容需要長(cháng)期更新的朋友十分的實(shí)用。
“采集”網(wǎng)站的類(lèi)型不同:有的是特指專(zhuān)業(yè)網(wǎng)站的免費采集,有的是指采集一些一般網(wǎng)站的免費采集;所謂特指和一般網(wǎng)站,這里的網(wǎng)站一般指付費大站或是大站的首頁(yè)采集。而個(gè)人站長(cháng)、建站中的采集網(wǎng)站,都是將個(gè)人站長(cháng)的站內內容直接爬下來(lái)去放自己網(wǎng)站就行了。原因是大站用免費鏈接或是二級域名是有必要的,因為大站一般都會(huì )有很多免費收錄,建站是需要很多的花費來(lái)建立網(wǎng)站的。
如果僅是采集,對于原網(wǎng)站是沒(méi)有損害的,對于普通站長(cháng)來(lái)說(shuō)沒(méi)有任何影響。而付費大站的收錄基本上很難保持,這是其主要損害點(diǎn)。所以如果僅僅采集,還是不建議采集。至于您的網(wǎng)站的簡(jiǎn)單度,在采集網(wǎng)站面前,那就是一個(gè)基本入門(mén)級別的應用。我覺(jué)得只要網(wǎng)站不是亂七八糟的情況都是可以采集的。
網(wǎng)站內容抓取-樂(lè )觀(guān)建站-let'sgohome網(wǎng)站采集最好使用國外的云采集,真的非??焖?,所以針對國內網(wǎng)站來(lái)說(shuō),一般看到有國外網(wǎng)站出現有采集,就會(huì )第一時(shí)間跳過(guò)。
1、將網(wǎng)站內容精準化。精準網(wǎng)站采集無(wú)非就是針對性采集,能提高采集內容的質(zhì)量,提高網(wǎng)站的權重,從而增加網(wǎng)站的點(diǎn)擊率。采集內容可以省去優(yōu)化網(wǎng)站的功夫,對建站來(lái)說(shuō)很有用。
2、用戶(hù)體驗好。像百度和谷歌,為了加強用戶(hù)體驗,就會(huì )有針對性的對網(wǎng)站內容進(jìn)行抓取。這些抓取內容就能使得用戶(hù)體驗好。
3、交互性強。如果搜索引擎是一個(gè)弱信息接收器,那么網(wǎng)站內容采集就能增加網(wǎng)站的信息采集效率。比如一個(gè)網(wǎng)站有很多分類(lèi)頁(yè)面,如果我們都采集過(guò)來(lái),我們將將同一頁(yè)面同一關(guān)鍵詞進(jìn)行采集,那么我們就可以獲得更多網(wǎng)站內容。
4、讓自己的網(wǎng)站更加統一化。搜索引擎是按照頁(yè)面進(jìn)行爬取,如果一些頁(yè)面無(wú)人關(guān)注,那就抓取到即可。但是如果我們也抓取,那么我們就可以對頁(yè)面進(jìn)行分類(lèi),讓用戶(hù)能更加快速搜索到我們的網(wǎng)站。 查看全部
趕集網(wǎng)站內容采集器采集電商網(wǎng)站的類(lèi)型及注意事項
網(wǎng)站內容采集器采集網(wǎng)站內容到自己網(wǎng)站,不用編輯,自動(dòng)排版。趕集網(wǎng)站內容采集器采集58同城內容網(wǎng)站采集器采集電商網(wǎng)站內容方便快捷,操作簡(jiǎn)單,無(wú)需技術(shù),可批量處理網(wǎng)站內容,適合專(zhuān)業(yè)網(wǎng)站編輯人員來(lái)操作??焖俨杉?8同城,趕集網(wǎng)站內容,無(wú)需編輯直接就可以排版發(fā)布到自己網(wǎng)站上,對于一些慢慢積累網(wǎng)站內容需要長(cháng)期更新的朋友十分的實(shí)用。
“采集”網(wǎng)站的類(lèi)型不同:有的是特指專(zhuān)業(yè)網(wǎng)站的免費采集,有的是指采集一些一般網(wǎng)站的免費采集;所謂特指和一般網(wǎng)站,這里的網(wǎng)站一般指付費大站或是大站的首頁(yè)采集。而個(gè)人站長(cháng)、建站中的采集網(wǎng)站,都是將個(gè)人站長(cháng)的站內內容直接爬下來(lái)去放自己網(wǎng)站就行了。原因是大站用免費鏈接或是二級域名是有必要的,因為大站一般都會(huì )有很多免費收錄,建站是需要很多的花費來(lái)建立網(wǎng)站的。
如果僅是采集,對于原網(wǎng)站是沒(méi)有損害的,對于普通站長(cháng)來(lái)說(shuō)沒(méi)有任何影響。而付費大站的收錄基本上很難保持,這是其主要損害點(diǎn)。所以如果僅僅采集,還是不建議采集。至于您的網(wǎng)站的簡(jiǎn)單度,在采集網(wǎng)站面前,那就是一個(gè)基本入門(mén)級別的應用。我覺(jué)得只要網(wǎng)站不是亂七八糟的情況都是可以采集的。
網(wǎng)站內容抓取-樂(lè )觀(guān)建站-let'sgohome網(wǎng)站采集最好使用國外的云采集,真的非??焖?,所以針對國內網(wǎng)站來(lái)說(shuō),一般看到有國外網(wǎng)站出現有采集,就會(huì )第一時(shí)間跳過(guò)。
1、將網(wǎng)站內容精準化。精準網(wǎng)站采集無(wú)非就是針對性采集,能提高采集內容的質(zhì)量,提高網(wǎng)站的權重,從而增加網(wǎng)站的點(diǎn)擊率。采集內容可以省去優(yōu)化網(wǎng)站的功夫,對建站來(lái)說(shuō)很有用。
2、用戶(hù)體驗好。像百度和谷歌,為了加強用戶(hù)體驗,就會(huì )有針對性的對網(wǎng)站內容進(jìn)行抓取。這些抓取內容就能使得用戶(hù)體驗好。
3、交互性強。如果搜索引擎是一個(gè)弱信息接收器,那么網(wǎng)站內容采集就能增加網(wǎng)站的信息采集效率。比如一個(gè)網(wǎng)站有很多分類(lèi)頁(yè)面,如果我們都采集過(guò)來(lái),我們將將同一頁(yè)面同一關(guān)鍵詞進(jìn)行采集,那么我們就可以獲得更多網(wǎng)站內容。
4、讓自己的網(wǎng)站更加統一化。搜索引擎是按照頁(yè)面進(jìn)行爬取,如果一些頁(yè)面無(wú)人關(guān)注,那就抓取到即可。但是如果我們也抓取,那么我們就可以對頁(yè)面進(jìn)行分類(lèi),讓用戶(hù)能更加快速搜索到我們的網(wǎng)站。
優(yōu)采云采集器使用教程
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-05-04 17:00
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
查看全部
優(yōu)采云采集器使用教程
點(diǎn)擊【熱門(mén)采集模板】中的模板,或者【更多>>】,進(jìn)入采集模板展示頁(yè)面??赏ㄟ^(guò)【模板類(lèi)型】、【搜索模板】多種方法,尋找目標模板。
?、?沒(méi)有所需的模板
如果沒(méi)有找到想要的模板,請進(jìn)入模板展示頁(yè)面后,點(diǎn)擊右上角【我想要新模板】,提交新模板制作需求。
官方會(huì )評估需求,排期制作新的模板。
2、【采集模板】如何使用
Step1:進(jìn)入【模板詳情頁(yè)】后,仔細閱讀【模板介紹】、【采集字段預覽】、【采集參數預覽】、【示例數據】,確認此模板采的數據符合需求。
注意:模板中的字段是固定的,無(wú)法自行增加字段。如果想要增加模板中的字段,請聯(lián)系官方客服。
Step2:確定模板符合需求以后,點(diǎn)擊【立即使用】,自行【配置參數】。常見(jiàn)的參數有關(guān)鍵詞、頁(yè)數、城市、URL等。
請認真查看【模板介紹】中的使用方法說(shuō)明和參數說(shuō)明,輸入格式正確的參數,否則將影響模板的使用。
Step3:然后點(diǎn)擊【保存并啟動(dòng)】,選擇啟動(dòng)【本地采集】。優(yōu)采云自動(dòng)啟動(dòng)1個(gè)采集任務(wù)并采集數據。
Step4:數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
通過(guò)【采集模板】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
怎么自定義采集?
使用【智能識別】
【智能識別】,只需輸入網(wǎng)址,自動(dòng)智能識別網(wǎng)頁(yè)數據。支持自動(dòng)識別列表型網(wǎng)頁(yè)數據、滾動(dòng)和翻頁(yè)。
在首頁(yè)輸入框中,輸入目標網(wǎng)址,點(diǎn)擊【開(kāi)始采集】。優(yōu)采云自動(dòng)打開(kāi)網(wǎng)頁(yè)并開(kāi)始智能識別。
給它一點(diǎn)時(shí)間,等待智能識別完成。
智能識別成功,一個(gè)網(wǎng)頁(yè)可能有多組數據,優(yōu)采云會(huì )將所有數據識別出來(lái),然后智能推薦最常用的那組。如果推薦的不是想要的,可自行【切換識別結果】。同時(shí),可自動(dòng)識別出網(wǎng)頁(yè)的滾動(dòng)和翻頁(yè)。此示例網(wǎng)址,無(wú)需滾動(dòng),只需翻頁(yè),故只識別并勾選【翻頁(yè)并采集多頁(yè)數據】。
自動(dòng)識別完成后,點(diǎn)擊【生成采集設置】,可自動(dòng)生成相應的采集流程,方便用戶(hù)編輯修改。
然后,點(diǎn)擊左上角的【采集】,選擇【啟動(dòng)本地采集】,優(yōu)采云就會(huì )開(kāi)始全自動(dòng)采集數據。
采集完成后,以所需的方式導出數據即可。
通過(guò)【智能識別】創(chuàng )建并保存的任務(wù),會(huì )放在【我的任務(wù)】中。在【我的任務(wù)】界面,可以對任務(wù)進(jìn)行多種操作并查看任務(wù)采集到的歷史數據。
值得注意的是,目前自動(dòng)識別,僅支持識別列表型網(wǎng)頁(yè)、滾動(dòng)和翻頁(yè)
支持一下
生活不易,文中的小卡片希望大家可以【點(diǎn)擊一下】,你的順手點(diǎn)擊將是我堅持的動(dòng)力,點(diǎn)擊一下即可,感謝萬(wàn)分!
? 優(yōu)采云采集器——最良心的爬蟲(chóng)軟件
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2022-05-04 17:00
2020 年如果讓我推薦一款大眾向的數據采集軟件,那一定是優(yōu)采云采集器[1]了。和我之前推薦的 相比,如果說(shuō) web scraper 是小而精的瑞士軍刀,那優(yōu)采云采集器就是大而全的重型武器,基本上可以解決所有的數據爬取問(wèn)題。
下面我們就來(lái)聊聊,這款軟件的優(yōu)秀之處。
一、產(chǎn)品特點(diǎn)1.跨平臺
優(yōu)采云采集器是一款桌面應用軟件,支持三大操作系統:Linux、Windows 和 Mac,可以直接在官網(wǎng)上免費下載[2]。
2.功能強大
優(yōu)采云采集器把采集工作分為兩種類(lèi)型:智能模式和流程圖模式。
智能模式[3]就是加載網(wǎng)頁(yè)后,軟件自動(dòng)分析網(wǎng)頁(yè)結構,智能識別網(wǎng)頁(yè)內容,簡(jiǎn)化操作流程。這種模式比較適合簡(jiǎn)單的網(wǎng)頁(yè),經(jīng)過(guò)我的測試,識別準確率還是挺高的。
流程圖模式[4]的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
3.導出無(wú)限制
這個(gè)可以說(shuō)是優(yōu)采云采集器最良心的功能了。
市面上有很多的數據采集軟件,出于商業(yè)化的目的,多多少少會(huì )對數據導出進(jìn)行限制。不清楚套路的人經(jīng)常用相關(guān)軟件辛辛苦苦采集了一堆數據,結果發(fā)現導出數據需要花錢(qián)。
優(yōu)采云采集器就沒(méi)有這個(gè)問(wèn)題,它的付費點(diǎn)[5]主要是體現在 IP 池和采集加速等高級功能上,不但導出數據不花錢(qián),還支持 Excel、CSV、TXT、HTML 多種導出格式,并且支持直接導出到數據庫,對于普通的用戶(hù)來(lái)說(shuō)完全夠用了。
4.教程詳細
我在本文動(dòng)筆之前曾經(jīng)想過(guò)先寫(xiě)幾篇優(yōu)采云采集器的使用教程,但是看了他們的官網(wǎng)教程后就知道沒(méi)這個(gè)必要了,因為寫(xiě)的實(shí)在是太詳細了。
優(yōu)采云采集器的官網(wǎng)提供了兩種教程,一種是視頻教程[6],每個(gè)視頻五分鐘左右;一種是圖文教程[7],手把手教學(xué)??赐赀@兩類(lèi)教程后還可以看看他們的文檔中心[8],寫(xiě)的也非常詳細,基本覆蓋了該軟件的各個(gè)功能點(diǎn)。
二、基礎功能1.數據抓取
基本的數據抓取非常簡(jiǎn)單:我們只要點(diǎn)擊「添加字段」那個(gè)按鈕,就會(huì )出現一個(gè)選擇魔棒,然后點(diǎn)選要抓取的數據,就能采集數據了:
2.翻頁(yè)功能
我在介紹 時(shí)曾把網(wǎng)頁(yè)翻頁(yè)分為 3 大類(lèi):滾動(dòng)加載、分頁(yè)器加載和點(diǎn)擊下一頁(yè)加載。
對于這三種基礎翻頁(yè)類(lèi)型,優(yōu)采云采集器也是完全支持的。
不像 web scraper 的分頁(yè)功能散落在各種選擇器上,優(yōu)采云采集器的分頁(yè)配置集中在一個(gè)地方上,只要通過(guò)下拉選擇,就可以輕松配置分頁(yè)模式。相關(guān)的配置教程可見(jiàn)官網(wǎng)教程:如何設置分頁(yè)[9]。
3.復雜表單
對于一些多項聯(lián)動(dòng)篩選的網(wǎng)頁(yè),優(yōu)采云采集器也能很好的處理。我們可以利用優(yōu)采云采集器里的流程圖模式,去自定義一些交互規則。
例如下圖,我就利用了流程圖模式里的點(diǎn)擊組件模擬點(diǎn)擊篩選按鈕,非常方便。
三、進(jìn)階使用1.數據清洗
我在介紹 時(shí),說(shuō) web scraper 只提供了基礎的正則匹配功能,可以在數據抓取時(shí)對數據進(jìn)行初步的清洗。
相比之下,優(yōu)采云采集器提供了更多的功能:強大的過(guò)濾配置,完整的正則功能和全面的文字處理配置。當然,功能強大的同時(shí)也帶來(lái)了復雜度的提升,需要有更多的耐心去學(xué)習使用。
下面是官網(wǎng)上和數據清洗有關(guān)的教程,大家可以參考學(xué)習:
2.流程圖模式
本文前面也介紹過(guò)了,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
比如說(shuō)下圖這個(gè)流程圖,就是模擬真人瀏覽微博時(shí)的行為去抓取相關(guān)數據。
經(jīng)過(guò)我個(gè)人的幾次測試,我認為流程圖模式有一定的學(xué)習門(mén)檻,但是和從頭學(xué)習 python 爬蟲(chóng)比起來(lái),學(xué)習曲線(xiàn)還是緩和了不少。如果對流程圖模式很感興趣,可以去官網(wǎng)[13]上學(xué)習,寫(xiě)的非常詳細。
3.XPath/CSS/Regex
無(wú)論是什么爬蟲(chóng)軟件,他們都是基于一定的規則去抓取數據的。XPath/CSS/Regex 就是幾個(gè)常見(jiàn)的匹配規則。優(yōu)采云采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數據。
比如說(shuō)某個(gè)網(wǎng)頁(yè)里存在數據 A,但只有鼠標移到對應的文字上才會(huì )以彈窗的形式顯示出來(lái),這時(shí)候我們就可以自己寫(xiě)一個(gè)對應的選擇器去篩選數據。
XPath
XPath 是一種在爬蟲(chóng)中運用非常廣泛的數據查詢(xún)語(yǔ)言。我們可以通過(guò) XPath 教程[14]去學(xué)習這個(gè)語(yǔ)言的運用。
CSS
這里的 CSS 特指的 CSS 選擇器,我之前介紹 web scraper 的高級技巧時(shí),講解過(guò) CSS 選擇器的使用場(chǎng)景和注意事項。感興趣的人可以看我寫(xiě)的 。
Regex
Regex 就是正則表達式。我們也可以通過(guò)正則表達式去選擇數據。我也寫(xiě)過(guò)一些。但是個(gè)人認為在字段選擇器這個(gè)場(chǎng)景下,正則表達式?jīng)]有 XPath 和 CSS 選擇器好用。
4.定時(shí)抓取/IP 池/打碼功能
這幾個(gè)都是優(yōu)采云采集器的付費功能,我沒(méi)有開(kāi)會(huì )員,所以也不知道使用體驗怎么樣。在此我做個(gè)小小的科普,給大家解釋一下這幾個(gè)名詞是什么意思。
定時(shí)抓取
定時(shí)抓取非常好理解,就是到了某個(gè)固定的時(shí)間爬蟲(chóng)軟件就會(huì )自動(dòng)抓取數據。市面上有一些比價(jià)軟件,背后就是運行著(zhù)非常多的定時(shí)爬蟲(chóng),每隔幾分鐘爬一下價(jià)格信息,以達到價(jià)格監控的目的。
IP 池
互聯(lián)網(wǎng)上 90% 的流量都是爬蟲(chóng)貢獻的,為了降低服務(wù)器的壓力,互聯(lián)網(wǎng)公司會(huì )有一些風(fēng)控策略,里面就有一種是限制 IP 流量。比如說(shuō)互聯(lián)網(wǎng)公司后臺檢測到某個(gè) IP 有大量的數據請求,超過(guò)了正常范圍,就會(huì )暫時(shí)的封鎖這個(gè) IP,不返回相關(guān)數據。這時(shí)候爬蟲(chóng)軟件就會(huì )自己維護一個(gè) IP 池,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。
打碼功能
這個(gè)功能就是內置了驗證碼識別器,可以實(shí)現機器打碼 or 手動(dòng)打碼,也是繞過(guò)網(wǎng)站風(fēng)控的一種方法。
四、總結
個(gè)人認為優(yōu)采云采集器是一款非常優(yōu)秀的數據采集軟件。它提供的免費功能可以解決絕大部分編程小白的數據抓取需求。
如果有一些編程基礎,可以明顯的看出一些功能是對編程語(yǔ)言邏輯的封裝,比如說(shuō)流程圖模式是對流程控制的封裝,數據清洗功能是對字符串處理函數的封裝。這些高階功能擴展了優(yōu)采云采集器的能力,也增大了學(xué)習難度。
我個(gè)人看來(lái),如果是輕量的數據抓取需求,更傾向于使用 web scraper;需求比較復雜,優(yōu)采云采集器是個(gè)不錯的選擇;如果涉及到定時(shí)抓取等高級需求,自己寫(xiě)爬蟲(chóng)代碼反而更加可控。
總而言之,優(yōu)采云采集器是一款優(yōu)秀的數據采集軟件,非常推薦大家學(xué)習和使用。
聯(lián)系我 查看全部
? 優(yōu)采云采集器——最良心的爬蟲(chóng)軟件
2020 年如果讓我推薦一款大眾向的數據采集軟件,那一定是優(yōu)采云采集器[1]了。和我之前推薦的 相比,如果說(shuō) web scraper 是小而精的瑞士軍刀,那優(yōu)采云采集器就是大而全的重型武器,基本上可以解決所有的數據爬取問(wèn)題。
下面我們就來(lái)聊聊,這款軟件的優(yōu)秀之處。
一、產(chǎn)品特點(diǎn)1.跨平臺
優(yōu)采云采集器是一款桌面應用軟件,支持三大操作系統:Linux、Windows 和 Mac,可以直接在官網(wǎng)上免費下載[2]。
2.功能強大
優(yōu)采云采集器把采集工作分為兩種類(lèi)型:智能模式和流程圖模式。
智能模式[3]就是加載網(wǎng)頁(yè)后,軟件自動(dòng)分析網(wǎng)頁(yè)結構,智能識別網(wǎng)頁(yè)內容,簡(jiǎn)化操作流程。這種模式比較適合簡(jiǎn)單的網(wǎng)頁(yè),經(jīng)過(guò)我的測試,識別準確率還是挺高的。
流程圖模式[4]的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
3.導出無(wú)限制
這個(gè)可以說(shuō)是優(yōu)采云采集器最良心的功能了。
市面上有很多的數據采集軟件,出于商業(yè)化的目的,多多少少會(huì )對數據導出進(jìn)行限制。不清楚套路的人經(jīng)常用相關(guān)軟件辛辛苦苦采集了一堆數據,結果發(fā)現導出數據需要花錢(qián)。
優(yōu)采云采集器就沒(méi)有這個(gè)問(wèn)題,它的付費點(diǎn)[5]主要是體現在 IP 池和采集加速等高級功能上,不但導出數據不花錢(qián),還支持 Excel、CSV、TXT、HTML 多種導出格式,并且支持直接導出到數據庫,對于普通的用戶(hù)來(lái)說(shuō)完全夠用了。
4.教程詳細
我在本文動(dòng)筆之前曾經(jīng)想過(guò)先寫(xiě)幾篇優(yōu)采云采集器的使用教程,但是看了他們的官網(wǎng)教程后就知道沒(méi)這個(gè)必要了,因為寫(xiě)的實(shí)在是太詳細了。
優(yōu)采云采集器的官網(wǎng)提供了兩種教程,一種是視頻教程[6],每個(gè)視頻五分鐘左右;一種是圖文教程[7],手把手教學(xué)??赐赀@兩類(lèi)教程后還可以看看他們的文檔中心[8],寫(xiě)的也非常詳細,基本覆蓋了該軟件的各個(gè)功能點(diǎn)。
二、基礎功能1.數據抓取
基本的數據抓取非常簡(jiǎn)單:我們只要點(diǎn)擊「添加字段」那個(gè)按鈕,就會(huì )出現一個(gè)選擇魔棒,然后點(diǎn)選要抓取的數據,就能采集數據了:
2.翻頁(yè)功能
我在介紹 時(shí)曾把網(wǎng)頁(yè)翻頁(yè)分為 3 大類(lèi):滾動(dòng)加載、分頁(yè)器加載和點(diǎn)擊下一頁(yè)加載。
對于這三種基礎翻頁(yè)類(lèi)型,優(yōu)采云采集器也是完全支持的。
不像 web scraper 的分頁(yè)功能散落在各種選擇器上,優(yōu)采云采集器的分頁(yè)配置集中在一個(gè)地方上,只要通過(guò)下拉選擇,就可以輕松配置分頁(yè)模式。相關(guān)的配置教程可見(jiàn)官網(wǎng)教程:如何設置分頁(yè)[9]。
3.復雜表單
對于一些多項聯(lián)動(dòng)篩選的網(wǎng)頁(yè),優(yōu)采云采集器也能很好的處理。我們可以利用優(yōu)采云采集器里的流程圖模式,去自定義一些交互規則。
例如下圖,我就利用了流程圖模式里的點(diǎn)擊組件模擬點(diǎn)擊篩選按鈕,非常方便。
三、進(jìn)階使用1.數據清洗
我在介紹 時(shí),說(shuō) web scraper 只提供了基礎的正則匹配功能,可以在數據抓取時(shí)對數據進(jìn)行初步的清洗。
相比之下,優(yōu)采云采集器提供了更多的功能:強大的過(guò)濾配置,完整的正則功能和全面的文字處理配置。當然,功能強大的同時(shí)也帶來(lái)了復雜度的提升,需要有更多的耐心去學(xué)習使用。
下面是官網(wǎng)上和數據清洗有關(guān)的教程,大家可以參考學(xué)習:
2.流程圖模式
本文前面也介紹過(guò)了,流程圖模式的本質(zhì)就是圖形化編程。我們可以利用優(yōu)采云采集器提供的各種控件,模擬編程語(yǔ)言中的各種條件控制語(yǔ)句,從而模擬真人瀏覽網(wǎng)頁(yè)的各種行為爬取數據。
比如說(shuō)下圖這個(gè)流程圖,就是模擬真人瀏覽微博時(shí)的行為去抓取相關(guān)數據。
經(jīng)過(guò)我個(gè)人的幾次測試,我認為流程圖模式有一定的學(xué)習門(mén)檻,但是和從頭學(xué)習 python 爬蟲(chóng)比起來(lái),學(xué)習曲線(xiàn)還是緩和了不少。如果對流程圖模式很感興趣,可以去官網(wǎng)[13]上學(xué)習,寫(xiě)的非常詳細。
3.XPath/CSS/Regex
無(wú)論是什么爬蟲(chóng)軟件,他們都是基于一定的規則去抓取數據的。XPath/CSS/Regex 就是幾個(gè)常見(jiàn)的匹配規則。優(yōu)采云采集器支持自定義這幾種選擇器,可以更靈活的選擇要抓取的數據。
比如說(shuō)某個(gè)網(wǎng)頁(yè)里存在數據 A,但只有鼠標移到對應的文字上才會(huì )以彈窗的形式顯示出來(lái),這時(shí)候我們就可以自己寫(xiě)一個(gè)對應的選擇器去篩選數據。
XPath
XPath 是一種在爬蟲(chóng)中運用非常廣泛的數據查詢(xún)語(yǔ)言。我們可以通過(guò) XPath 教程[14]去學(xué)習這個(gè)語(yǔ)言的運用。
CSS
這里的 CSS 特指的 CSS 選擇器,我之前介紹 web scraper 的高級技巧時(shí),講解過(guò) CSS 選擇器的使用場(chǎng)景和注意事項。感興趣的人可以看我寫(xiě)的 。
Regex
Regex 就是正則表達式。我們也可以通過(guò)正則表達式去選擇數據。我也寫(xiě)過(guò)一些。但是個(gè)人認為在字段選擇器這個(gè)場(chǎng)景下,正則表達式?jīng)]有 XPath 和 CSS 選擇器好用。
4.定時(shí)抓取/IP 池/打碼功能
這幾個(gè)都是優(yōu)采云采集器的付費功能,我沒(méi)有開(kāi)會(huì )員,所以也不知道使用體驗怎么樣。在此我做個(gè)小小的科普,給大家解釋一下這幾個(gè)名詞是什么意思。
定時(shí)抓取
定時(shí)抓取非常好理解,就是到了某個(gè)固定的時(shí)間爬蟲(chóng)軟件就會(huì )自動(dòng)抓取數據。市面上有一些比價(jià)軟件,背后就是運行著(zhù)非常多的定時(shí)爬蟲(chóng),每隔幾分鐘爬一下價(jià)格信息,以達到價(jià)格監控的目的。
IP 池
互聯(lián)網(wǎng)上 90% 的流量都是爬蟲(chóng)貢獻的,為了降低服務(wù)器的壓力,互聯(lián)網(wǎng)公司會(huì )有一些風(fēng)控策略,里面就有一種是限制 IP 流量。比如說(shuō)互聯(lián)網(wǎng)公司后臺檢測到某個(gè) IP 有大量的數據請求,超過(guò)了正常范圍,就會(huì )暫時(shí)的封鎖這個(gè) IP,不返回相關(guān)數據。這時(shí)候爬蟲(chóng)軟件就會(huì )自己維護一個(gè) IP 池,用不同的 IP 發(fā)送請求,降低 IP 封鎖的概率。
打碼功能
這個(gè)功能就是內置了驗證碼識別器,可以實(shí)現機器打碼 or 手動(dòng)打碼,也是繞過(guò)網(wǎng)站風(fēng)控的一種方法。
四、總結
個(gè)人認為優(yōu)采云采集器是一款非常優(yōu)秀的數據采集軟件。它提供的免費功能可以解決絕大部分編程小白的數據抓取需求。
如果有一些編程基礎,可以明顯的看出一些功能是對編程語(yǔ)言邏輯的封裝,比如說(shuō)流程圖模式是對流程控制的封裝,數據清洗功能是對字符串處理函數的封裝。這些高階功能擴展了優(yōu)采云采集器的能力,也增大了學(xué)習難度。
我個(gè)人看來(lái),如果是輕量的數據抓取需求,更傾向于使用 web scraper;需求比較復雜,優(yōu)采云采集器是個(gè)不錯的選擇;如果涉及到定時(shí)抓取等高級需求,自己寫(xiě)爬蟲(chóng)代碼反而更加可控。
總而言之,優(yōu)采云采集器是一款優(yōu)秀的數據采集軟件,非常推薦大家學(xué)習和使用。
聯(lián)系我
【教程】使用優(yōu)采云采集器軟件爬取網(wǎng)頁(yè)數據
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 174 次瀏覽 ? 2022-05-04 16:05
地圖可視化離不開(kāi)數據的支撐,很多人苦于無(wú)法獲取數據或者不知道怎么獲取數據,可能很多人聽(tīng)說(shuō)過(guò)“爬蟲(chóng)”,也聽(tīng)說(shuō)過(guò)通過(guò)Python來(lái)“寫(xiě)爬蟲(chóng)”,畢竟這是獲取網(wǎng)頁(yè)數據的主要手段之一。但是對于很多不熟悉Python語(yǔ)言的人來(lái)說(shuō),“寫(xiě)爬蟲(chóng)”的技術(shù)難度高,學(xué)習過(guò)程耗時(shí)。今天,我們將介紹一個(gè)數據采集軟件——優(yōu)采云采集器,并提供一個(gè)簡(jiǎn)要使用教程,使您無(wú)需編寫(xiě)代碼就可以爬取網(wǎng)頁(yè)數據。
在開(kāi)始收集數據前,我們需進(jìn)去優(yōu)采云采集器官網(wǎng),下載軟件并安裝。網(wǎng)址:,可點(diǎn)擊左下“閱讀原文”可直接訪(fǎng)問(wèn)。
爬取網(wǎng)頁(yè)數據的步驟:
1.打開(kāi)優(yōu)采云采集器。
2.新建分組:菜單欄“開(kāi)始”,點(diǎn)擊新建分組,輸入采集網(wǎng)站名稱(chēng)為分組名稱(chēng),(通常在“采網(wǎng)址”和“采內容”選項下打勾)。
3.新建任務(wù):選擇新建的分組,點(diǎn)擊“新建任務(wù)”或者鼠標右鍵選擇“新建任務(wù)”,進(jìn)入到新建頁(yè)面。任務(wù)規則名為采集的對象名。新建任務(wù)界面中,包含四個(gè)步驟:網(wǎng)址采集規則、內容采集規則、內容發(fā)布規則和其他設置。
4.添加網(wǎng)址
第一步:網(wǎng)址采集規則
查看需爬取網(wǎng)址的特點(diǎn),選擇起始網(wǎng)址的添加方式(普通網(wǎng)址、批量網(wǎng)址、文本導入和數據庫導入)。點(diǎn)擊起始網(wǎng)址任務(wù)條中的“向導編輯”,在網(wǎng)址格式中添加地址,確定即可。本例選取北京市安居客小區網(wǎng)址為例,經(jīng)觀(guān)察測試可知,網(wǎng)頁(yè)的網(wǎng)址出現規律,選擇批量網(wǎng)址。
回到“網(wǎng)址采集規則”頁(yè)面,設置起始網(wǎng)址就是內容頁(yè)網(wǎng)址,并給“任務(wù)規則名”命名。網(wǎng)頁(yè)。
第二步:內容采集規則
打開(kāi)北京安居客網(wǎng)址,F12或(Fn+F12),點(diǎn)擊鼠標選取方式。通過(guò)鼠標依次點(diǎn)小區名稱(chēng)、小區地址以及當月價(jià)格等網(wǎng)頁(yè)中所需要的信息對應的位置,獲取相關(guān)代碼,鼠標右鍵,復制選擇。
根據這些HTML內容和自己需要的內容,在標簽列表中,點(diǎn)擊操作任務(wù)欄中的“添加”來(lái)增加新的標簽,或者點(diǎn)擊已有的標簽,進(jìn)行修改。在標簽編輯欄中,標簽提取方式有前后截取、正則提取、正文提取等方式。數據處理對話(huà)框中,文件下載中的數據支持圖片、flash等文件。
*號為所需要采集的參數。
輸入網(wǎng)頁(yè)網(wǎng)址,測試結果。
測試結果無(wú)誤后,選擇數據保存。注意:保存文件時(shí),模板設置一定要與收集的數據字段一致。
運行。
結果查看。
優(yōu)采云采集器不僅僅可以采集網(wǎng)頁(yè)數據,還可以基于A(yíng)PI進(jìn)行數據采集。大家不妨操作試試,定會(huì )有不一樣的收獲(楊慧測試、撰寫(xiě))。
查看全部
【教程】使用優(yōu)采云采集器軟件爬取網(wǎng)頁(yè)數據
地圖可視化離不開(kāi)數據的支撐,很多人苦于無(wú)法獲取數據或者不知道怎么獲取數據,可能很多人聽(tīng)說(shuō)過(guò)“爬蟲(chóng)”,也聽(tīng)說(shuō)過(guò)通過(guò)Python來(lái)“寫(xiě)爬蟲(chóng)”,畢竟這是獲取網(wǎng)頁(yè)數據的主要手段之一。但是對于很多不熟悉Python語(yǔ)言的人來(lái)說(shuō),“寫(xiě)爬蟲(chóng)”的技術(shù)難度高,學(xué)習過(guò)程耗時(shí)。今天,我們將介紹一個(gè)數據采集軟件——優(yōu)采云采集器,并提供一個(gè)簡(jiǎn)要使用教程,使您無(wú)需編寫(xiě)代碼就可以爬取網(wǎng)頁(yè)數據。
在開(kāi)始收集數據前,我們需進(jìn)去優(yōu)采云采集器官網(wǎng),下載軟件并安裝。網(wǎng)址:,可點(diǎn)擊左下“閱讀原文”可直接訪(fǎng)問(wèn)。
爬取網(wǎng)頁(yè)數據的步驟:
1.打開(kāi)優(yōu)采云采集器。
2.新建分組:菜單欄“開(kāi)始”,點(diǎn)擊新建分組,輸入采集網(wǎng)站名稱(chēng)為分組名稱(chēng),(通常在“采網(wǎng)址”和“采內容”選項下打勾)。
3.新建任務(wù):選擇新建的分組,點(diǎn)擊“新建任務(wù)”或者鼠標右鍵選擇“新建任務(wù)”,進(jìn)入到新建頁(yè)面。任務(wù)規則名為采集的對象名。新建任務(wù)界面中,包含四個(gè)步驟:網(wǎng)址采集規則、內容采集規則、內容發(fā)布規則和其他設置。
4.添加網(wǎng)址
第一步:網(wǎng)址采集規則
查看需爬取網(wǎng)址的特點(diǎn),選擇起始網(wǎng)址的添加方式(普通網(wǎng)址、批量網(wǎng)址、文本導入和數據庫導入)。點(diǎn)擊起始網(wǎng)址任務(wù)條中的“向導編輯”,在網(wǎng)址格式中添加地址,確定即可。本例選取北京市安居客小區網(wǎng)址為例,經(jīng)觀(guān)察測試可知,網(wǎng)頁(yè)的網(wǎng)址出現規律,選擇批量網(wǎng)址。
回到“網(wǎng)址采集規則”頁(yè)面,設置起始網(wǎng)址就是內容頁(yè)網(wǎng)址,并給“任務(wù)規則名”命名。網(wǎng)頁(yè)。
第二步:內容采集規則
打開(kāi)北京安居客網(wǎng)址,F12或(Fn+F12),點(diǎn)擊鼠標選取方式。通過(guò)鼠標依次點(diǎn)小區名稱(chēng)、小區地址以及當月價(jià)格等網(wǎng)頁(yè)中所需要的信息對應的位置,獲取相關(guān)代碼,鼠標右鍵,復制選擇。
根據這些HTML內容和自己需要的內容,在標簽列表中,點(diǎn)擊操作任務(wù)欄中的“添加”來(lái)增加新的標簽,或者點(diǎn)擊已有的標簽,進(jìn)行修改。在標簽編輯欄中,標簽提取方式有前后截取、正則提取、正文提取等方式。數據處理對話(huà)框中,文件下載中的數據支持圖片、flash等文件。
*號為所需要采集的參數。
輸入網(wǎng)頁(yè)網(wǎng)址,測試結果。
測試結果無(wú)誤后,選擇數據保存。注意:保存文件時(shí),模板設置一定要與收集的數據字段一致。
運行。
結果查看。
優(yōu)采云采集器不僅僅可以采集網(wǎng)頁(yè)數據,還可以基于A(yíng)PI進(jìn)行數據采集。大家不妨操作試試,定會(huì )有不一樣的收獲(楊慧測試、撰寫(xiě))。


