亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

基于Java的小型分布式網(wǎng)路爬蟲(chóng)體系結構

優(yōu)采云 發(fā)布時(shí)間: 2020-05-11 08:02

  【IT168技術(shù)】分類(lèi)

  分布式網(wǎng)路爬蟲(chóng)包含多個(gè)爬蟲(chóng),每個(gè)爬蟲(chóng)須要完成的任務(wù)和單個(gè)的爬行器類(lèi)似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在本地的c盤(pán)分布式爬蟲(chóng)架構,從中抽取URL并順著(zhù)這種URL的指向繼續爬行。由于并行爬行器須要分割下載任務(wù),可能爬蟲(chóng)會(huì )將自己抽取的URL發(fā)送給其他爬蟲(chóng)。這些爬蟲(chóng)可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。

  根據爬蟲(chóng)的分散程度不同,可以把分布式爬行器分成以下兩大類(lèi):

  1、基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng):這種分布式爬行器的所有爬蟲(chóng)在同一個(gè)局域網(wǎng)里運行,通過(guò)高速的網(wǎng)路聯(lián)接互相通訊。這些爬蟲(chóng)通過(guò)同一個(gè)網(wǎng)路去訪(fǎng)問(wèn)外部互聯(lián)網(wǎng),下載網(wǎng)頁(yè),所有的網(wǎng)路負載都集中在她們所在的那種局域網(wǎng)的出口上。由于局域網(wǎng)的帶寬較高,爬蟲(chóng)之間的通訊的效率能否得到保證;但是網(wǎng)路出口的總帶寬上限是固定的,爬蟲(chóng)的數目會(huì )遭到局域網(wǎng)出口帶寬的限制。

  2、基于廣域網(wǎng)分布式網(wǎng)路爬蟲(chóng):當并行爬行器的爬蟲(chóng)分別運行在不同地理位置(或網(wǎng)路位置),我們稱(chēng)這些并行爬行器為分布式爬行器。例如,分布式爬行器的爬蟲(chóng)可能坐落中國,日本,和英國,分別負責下載這三地的網(wǎng)頁(yè);或者坐落CHINANET,CERNET,CEINET,分別負責下載這三個(gè)網(wǎng)路的中的網(wǎng)頁(yè)。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)路流量,減小網(wǎng)路出口的負載。如果爬蟲(chóng)分布在不同的地理位置(或網(wǎng)路位置),需要間隔多長(cháng)時(shí)間進(jìn)行一次互相通訊就成為了一個(gè)值得考慮的問(wèn)題。爬蟲(chóng)之間的通信帶寬可能是有限的,通常須要通過(guò)互聯(lián)網(wǎng)進(jìn)行通訊。

  大型分布式網(wǎng)路爬蟲(chóng)體系*敏*感*詞*

  

  分布式網(wǎng)路爬蟲(chóng)是一項非常復雜系統。需要考慮好多方面誘因。性能可以說(shuō)是它這重要的指標。當然硬件層面的資源也是必須的。

  架構

  下面是項目的總體構架,第一個(gè)版本基于此方案來(lái)做。

  上面的web層包括:控制臺、基本權限、監控展示等,還可以依據須要再一步進(jìn)行擴充。

  核心層由控制者統一調度,將任務(wù)發(fā)給工人隊列中的工人進(jìn)行爬取操作。各個(gè)結點(diǎn)動(dòng)態(tài)的向監控模塊發(fā)送模塊狀態(tài)等信息,統一由展示層展示。

  

  項目目標

  眾推,開(kāi)源版的明日頭條!

  基于hadoop思維的分布式網(wǎng)路爬蟲(chóng)。

  目前早已將fourinone、jeesite、webmagic整合進(jìn)來(lái),并且進(jìn)一步進(jìn)行改進(jìn)。想最終弄成一個(gè)基于設計器的動(dòng)態(tài)可配置的分布式爬蟲(chóng)系統,這個(gè)是第一階段的目標。

  項目目前情況

  目前項目進(jìn)展情況:

  1、sourceer,可以接入多種數據源,接口早已定義(加入builder封裝,可以使用簡(jiǎn)單爬蟲(chóng))。

  2、web構架工程(web工程上傳并測試成功,權限、基礎框架改建,導入等早已錄成視頻,刪除activiti,刪除cms部分)。

  3、分布式框架研究(分布式項目發(fā)包,添加部份注釋?zhuān)瑴y試單機單工人爬取)。

  4、插件化整合。

  5、文章等各類(lèi)去重形式及算法(目前已實(shí)現bloomfilter分布式爬蟲(chóng)架構,指紋算法去重,已經(jīng)實(shí)現simhash,分詞算法(ansj))。

  6、分類(lèi)器測試(bayes,文本分類(lèi)單機測試成功)。

  項目地址:

  (分布式爬蟲(chóng))

  (去重過(guò)濾器)

  (文本分類(lèi)器)

  (文檔目錄)

  項目界面:

  啟動(dòng)jetty,目前皮膚暫時(shí)還未換。

  

  總結

  目前項目正在進(jìn)一步建立當中,希望能得到你更多的意見(jiàn)!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久