亚洲久久精品无码免费看_話(huà)題：webcollector - 自動(dòng)文章采集器-優(yōu)采云官網(wǎng)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

webcollector

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

基于 Java 的開(kāi)源網(wǎng)路爬蟲(chóng)框架

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 281 次瀏覽 ? 2020-05-15 08:00 ? 來(lái)自相關(guān)話(huà)題

　　WebCollector 是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的Java爬蟲(chóng)框架（內核），它提供精簡(jiǎn)的的 API，只需少量代碼即可實(shí)現一個(gè)功能強悍的爬蟲(chóng)。WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本，支持分布式爬取。
　　目前WebCollector-Python項目已在Github上開(kāi)源，歡迎諸位前來(lái)貢獻代碼：
　　WebCollector 致力于維護一個(gè)穩定、可擴的爬蟲(chóng)內核，便于開(kāi)發(fā)者進(jìn)行靈活的二次開(kāi)發(fā)。內核具有太強的擴展性，用戶(hù)可以在內核基礎上開(kāi)發(fā)自己想要的爬蟲(chóng)。源碼中集成了 Jsoup，可進(jìn)行精準的網(wǎng)頁(yè)解析。2.x 版本中集成了 selenium，可以處理 JavaScript 生成的數據。
　　Maven：
　　
　　最新Maven地址請參考文檔：
　　文檔地址：
　　內核架構圖：
　　
　　自定義遍歷策略，可完成更為復雜的遍歷業(yè)務(wù)，例如分頁(yè)、AJAX
　　可以為每位 URL 設置附加信息(MetaData)，利用附加信息可以完成好多復雜業(yè)務(wù)，例如深度獲取、錨文本獲取、引用頁(yè)面獲取、POST 參數傳遞、增量更新等。
　　使用插件機制，用戶(hù)可訂制自己的Http請求、過(guò)濾器、執行器等插件。
　　內置一套基于顯存的插件（RamCrawler)，不依賴(lài)文件系統或數據庫，適合一次性爬取，例如實(shí)時(shí)爬取搜索引擎。
　　內置一套基于 Berkeley DB（BreadthCrawler)的插件：適合處理常年和大量級的任務(wù)java單機爬蟲(chóng)框架，并具有斷點(diǎn)爬取功能，不會(huì )由于宕機、關(guān)閉造成數據遺失。
　　集成 selenium，可以對 JavaScript 生成信息進(jìn)行抽取
　　可輕松自定義 http 請求，并外置多代理隨機切換功能。可通過(guò)定義 http 請求實(shí)現模擬登陸。
　　使用 slf4j 作為日志店面，可對接多種日志
　　使用類(lèi)似Hadoop的Configuration機制，可為每位爬蟲(chóng)訂制配置信息。
　　網(wǎng)頁(yè)正文提取項目 ContentExtractor 已劃入 WebCollector 維護。
　　WebCollector 的正文抽取 API 都被封裝為 ContentExtractor 類(lèi)的靜態(tài)方式?？梢猿槿〗Y構化新聞，也可以只抽取網(wǎng)頁(yè)的正文（或正文所在 Element)。
　　正文抽取療效指標 :
　　標題抽取和日期抽取使用簡(jiǎn)單啟發(fā)式算法java單機爬蟲(chóng)框架，并沒(méi)有象正文抽取算法一樣在標準數據集上測試，算法仍在更新中。查看全部

　　最新Maven地址請參考文檔：
　　文檔地址：
　　內核架構圖：
　　

　　自定義遍歷策略，可完成更為復雜的遍歷業(yè)務(wù)，例如分頁(yè)、AJAX
　　可以為每位 URL 設置附加信息(MetaData)，利用附加信息可以完成好多復雜業(yè)務(wù)，例如深度獲取、錨文本獲取、引用頁(yè)面獲取、POST 參數傳遞、增量更新等。
　　使用插件機制，用戶(hù)可訂制自己的Http請求、過(guò)濾器、執行器等插件。
　　內置一套基于顯存的插件（RamCrawler)，不依賴(lài)文件系統或數據庫，適合一次性爬取，例如實(shí)時(shí)爬取搜索引擎。
　　內置一套基于 Berkeley DB（BreadthCrawler)的插件：適合處理常年和大量級的任務(wù)java單機爬蟲(chóng)框架，并具有斷點(diǎn)爬取功能，不會(huì )由于宕機、關(guān)閉造成數據遺失。
　　集成 selenium，可以對 JavaScript 生成信息進(jìn)行抽取
　　可輕松自定義 http 請求，并外置多代理隨機切換功能。可通過(guò)定義 http 請求實(shí)現模擬登陸。
　　使用 slf4j 作為日志店面，可對接多種日志
　　使用類(lèi)似Hadoop的Configuration機制，可為每位爬蟲(chóng)訂制配置信息。
　　網(wǎng)頁(yè)正文提取項目 ContentExtractor 已劃入 WebCollector 維護。
　　WebCollector 的正文抽取 API 都被封裝為 ContentExtractor 類(lèi)的靜態(tài)方式?？梢猿槿〗Y構化新聞，也可以只抽取網(wǎng)頁(yè)的正文（或正文所在 Element)。
　　正文抽取療效指標 :
　　標題抽取和日期抽取使用簡(jiǎn)單啟發(fā)式算法java單機爬蟲(chóng)框架，并沒(méi)有象正文抽取算法一樣在標準數據集上測試，算法仍在更新中。