亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

搜索引擎技術(shù)

搜索引擎技術(shù)

淄博網(wǎng)站建設做好后的更新維護

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 277 次瀏覽 ? 2020-07-13 08:01 ? 來(lái)自相關(guān)話(huà)題

  
  淄博網(wǎng)站建設首先要從用戶(hù)督查到數據整理剖析,以及網(wǎng)站策劃方案訂制,到最后頁(yè)面設計、制作及程序開(kāi)發(fā),先后須要長(cháng)達幾個(gè)月能夠將網(wǎng)站建設好。
  網(wǎng)站建設是一個(gè)十分繁雜的工作??上У氖?,歷經(jīng)周折反復設計制做的網(wǎng)站,很多公司并沒(méi)有給與足夠的注重。至少有一半以上的公司網(wǎng)站,設計制做完成后經(jīng)年累月沒(méi)有絲毫更新維護。
  甚至有些網(wǎng)站的服務(wù)器遭到功擊,網(wǎng)頁(yè)內容遭到篡改后仍然沒(méi)有覺(jué)察,反而是網(wǎng)站服務(wù)商發(fā)覺(jué)后才進(jìn)行技術(shù)處理。這是一個(gè)嚴重的思想誤區,即便信息多樣化推廣多元化的明天,網(wǎng)站已經(jīng)不是單一的宣傳展示渠道。但是其仍然是企業(yè)在互聯(lián)網(wǎng)上的形象名片,很多用戶(hù)第一次對公司進(jìn)行了解的渠道就是網(wǎng)站。
  一、安全維護
  雖然有些公司,網(wǎng)站對其業(yè)務(wù)拓展的幫助并不大,只須要一個(gè)簡(jiǎn)單的網(wǎng)站就可以,還有好多公司根本就沒(méi)有網(wǎng)站。但是既然早已設計制做了網(wǎng)站,就須要對其負責,因為它其實(shí)是企業(yè)在互聯(lián)網(wǎng)上品牌形象的展示窗口。
  試想一下,當一個(gè)求職者,通過(guò)搜索引擎找尋公司官網(wǎng)初步了解公司的時(shí)侯,打開(kāi)的網(wǎng)站發(fā)現早已被篡改的面目全非,會(huì )有如何的體會(huì )?同樣的道理,一個(gè)初次合作的顧客淄博網(wǎng)站優(yōu)化,想更深入了解下公司的業(yè)務(wù)和實(shí)力,打開(kāi)網(wǎng)站后發(fā)覺(jué)中病毒了,客戶(hù)會(huì )不會(huì )心生疑問(wèn)呢?
  所以,如果真的沒(méi)有時(shí)間去維護更新網(wǎng)站,或者認為網(wǎng)站的好處不大,可以關(guān)掉網(wǎng)站。但是若果網(wǎng)站繼續在運行,就一定要做好安全維護工作,確保不會(huì )給公司形象帶來(lái)負面作用。
  二、內容維護
  經(jīng)常更新內容的網(wǎng)站,給瀏覽的用戶(hù)耳目一新的覺(jué)得,說(shuō)明這個(gè)公司飽含生機和活力,所以網(wǎng)站內容是應當時(shí)常更新的。而且從搜索引擎的角度出發(fā),其也十分喜歡時(shí)常更新的網(wǎng)站,給予的認可和肯定是,當用戶(hù)通過(guò)個(gè)別網(wǎng)站相關(guān)關(guān)鍵詞搜索的時(shí)侯淄博網(wǎng)站優(yōu)化,網(wǎng)站的自然排位都會(huì )很高。無(wú)疑的,這樣會(huì )降低企業(yè)的爆光度,進(jìn)而帶來(lái)咨詢(xún)量和成交量。
  網(wǎng)站內容時(shí)常更新的另外一個(gè)用處,是網(wǎng)站維護人員常常瀏覽網(wǎng)站,網(wǎng)站一旦發(fā)生非正?,F象,就可以盡可能快的被發(fā)覺(jué)。
  這里須要說(shuō)明的一點(diǎn)是,網(wǎng)站內容是一個(gè)相對籠統的說(shuō)法,其除了限于文字內容,還包括圖片、視頻等。網(wǎng)站內容更新并不是上傳內容到網(wǎng)站頁(yè)面上就可以,而是要充分考慮用戶(hù)體驗,比如加載速率、及各種終端的兼容等等。
  三、整站優(yōu)化
  提及優(yōu)化,很多人第一反應其實(shí)是搜索引擎自然排名,這里說(shuō)的范圍其實(shí)更大一些。優(yōu)化的原意是不斷改進(jìn),通過(guò)剖析網(wǎng)站的流量數據,不斷調整網(wǎng)站代碼程序、內容、布局等,讓其更有利于用戶(hù)體驗的提高。而且公司在不同時(shí)期,對網(wǎng)站的需求是不一樣的,并非每次更改都須要重新設計制做,那么網(wǎng)站細枝末葉的調整更改,其就是網(wǎng)站優(yōu)化的本職工作。
  提示:網(wǎng)站的優(yōu)化自然也包括面向搜索引擎的工作,合理的關(guān)鍵詞布局、內容及鏈接建設等,是可以有效獲得理想的自然排位的。應該說(shuō)不存在的單純的網(wǎng)站優(yōu)化,其一定是配合網(wǎng)站安全維護和內容維護同步進(jìn)行。 查看全部

  
  淄博網(wǎng)站建設首先要從用戶(hù)督查到數據整理剖析,以及網(wǎng)站策劃方案訂制,到最后頁(yè)面設計、制作及程序開(kāi)發(fā),先后須要長(cháng)達幾個(gè)月能夠將網(wǎng)站建設好。
  網(wǎng)站建設是一個(gè)十分繁雜的工作??上У氖?,歷經(jīng)周折反復設計制做的網(wǎng)站,很多公司并沒(méi)有給與足夠的注重。至少有一半以上的公司網(wǎng)站,設計制做完成后經(jīng)年累月沒(méi)有絲毫更新維護。
  甚至有些網(wǎng)站的服務(wù)器遭到功擊,網(wǎng)頁(yè)內容遭到篡改后仍然沒(méi)有覺(jué)察,反而是網(wǎng)站服務(wù)商發(fā)覺(jué)后才進(jìn)行技術(shù)處理。這是一個(gè)嚴重的思想誤區,即便信息多樣化推廣多元化的明天,網(wǎng)站已經(jīng)不是單一的宣傳展示渠道。但是其仍然是企業(yè)在互聯(lián)網(wǎng)上的形象名片,很多用戶(hù)第一次對公司進(jìn)行了解的渠道就是網(wǎng)站。
  一、安全維護
  雖然有些公司,網(wǎng)站對其業(yè)務(wù)拓展的幫助并不大,只須要一個(gè)簡(jiǎn)單的網(wǎng)站就可以,還有好多公司根本就沒(méi)有網(wǎng)站。但是既然早已設計制做了網(wǎng)站,就須要對其負責,因為它其實(shí)是企業(yè)在互聯(lián)網(wǎng)上品牌形象的展示窗口。
  試想一下,當一個(gè)求職者,通過(guò)搜索引擎找尋公司官網(wǎng)初步了解公司的時(shí)侯,打開(kāi)的網(wǎng)站發(fā)現早已被篡改的面目全非,會(huì )有如何的體會(huì )?同樣的道理,一個(gè)初次合作的顧客淄博網(wǎng)站優(yōu)化,想更深入了解下公司的業(yè)務(wù)和實(shí)力,打開(kāi)網(wǎng)站后發(fā)覺(jué)中病毒了,客戶(hù)會(huì )不會(huì )心生疑問(wèn)呢?
  所以,如果真的沒(méi)有時(shí)間去維護更新網(wǎng)站,或者認為網(wǎng)站的好處不大,可以關(guān)掉網(wǎng)站。但是若果網(wǎng)站繼續在運行,就一定要做好安全維護工作,確保不會(huì )給公司形象帶來(lái)負面作用。
  二、內容維護
  經(jīng)常更新內容的網(wǎng)站,給瀏覽的用戶(hù)耳目一新的覺(jué)得,說(shuō)明這個(gè)公司飽含生機和活力,所以網(wǎng)站內容是應當時(shí)常更新的。而且從搜索引擎的角度出發(fā),其也十分喜歡時(shí)常更新的網(wǎng)站,給予的認可和肯定是,當用戶(hù)通過(guò)個(gè)別網(wǎng)站相關(guān)關(guān)鍵詞搜索的時(shí)侯淄博網(wǎng)站優(yōu)化,網(wǎng)站的自然排位都會(huì )很高。無(wú)疑的,這樣會(huì )降低企業(yè)的爆光度,進(jìn)而帶來(lái)咨詢(xún)量和成交量。
  網(wǎng)站內容時(shí)常更新的另外一個(gè)用處,是網(wǎng)站維護人員常常瀏覽網(wǎng)站,網(wǎng)站一旦發(fā)生非正?,F象,就可以盡可能快的被發(fā)覺(jué)。
  這里須要說(shuō)明的一點(diǎn)是,網(wǎng)站內容是一個(gè)相對籠統的說(shuō)法,其除了限于文字內容,還包括圖片、視頻等。網(wǎng)站內容更新并不是上傳內容到網(wǎng)站頁(yè)面上就可以,而是要充分考慮用戶(hù)體驗,比如加載速率、及各種終端的兼容等等。
  三、整站優(yōu)化
  提及優(yōu)化,很多人第一反應其實(shí)是搜索引擎自然排名,這里說(shuō)的范圍其實(shí)更大一些。優(yōu)化的原意是不斷改進(jìn),通過(guò)剖析網(wǎng)站的流量數據,不斷調整網(wǎng)站代碼程序、內容、布局等,讓其更有利于用戶(hù)體驗的提高。而且公司在不同時(shí)期,對網(wǎng)站的需求是不一樣的,并非每次更改都須要重新設計制做,那么網(wǎng)站細枝末葉的調整更改,其就是網(wǎng)站優(yōu)化的本職工作。
  提示:網(wǎng)站的優(yōu)化自然也包括面向搜索引擎的工作,合理的關(guān)鍵詞布局、內容及鏈接建設等,是可以有效獲得理想的自然排位的。應該說(shuō)不存在的單純的網(wǎng)站優(yōu)化,其一定是配合網(wǎng)站安全維護和內容維護同步進(jìn)行。

基于C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 291 次瀏覽 ? 2020-05-28 08:01 ? 來(lái)自相關(guān)話(huà)題

  基于 C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現的研究綜述作者:xxx 指導老師:xxx摘要:本文歸納了網(wǎng)路爬蟲(chóng)的設計與實(shí)現方面的研究?jì)热?,概括了網(wǎng)路爬蟲(chóng)的定 摘要 義與爬取策略、網(wǎng)絡(luò )爬蟲(chóng)的體系結構、設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)身分的 識別等方面的觀(guān)點(diǎn),并總結了怎樣通過(guò)一個(gè)或多個(gè)給定的種子網(wǎng)站,將網(wǎng)站上相 應的網(wǎng)頁(yè)抓取出來(lái),并將其存入數據庫或文本文件中的研究成果。本文也強調了 如何通過(guò)解決傳統的通用搜索引擎在個(gè)別領(lǐng)域的局限性, 幫助人們愈加有效地提 取與借助互聯(lián)網(wǎng)信息,進(jìn)而提升人們在檢索信息效率方面的研究需求。最后,本 文提出了一個(gè)滿(mǎn)足用戶(hù)需求的網(wǎng)路爬蟲(chóng)的開(kāi)發(fā)方案。 關(guān)鍵詞:網(wǎng)絡(luò )爬蟲(chóng) ;通用搜索引擎 ;互聯(lián)網(wǎng) 關(guān)鍵詞The Design and Implementation of Web Spider Based on C++Author:xxxTutor: xxx Abstract:This paper summarizes the research about the design and implementation of the web spider, summarizesthe view aboutthe definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider ,and summarizes the research about how to catch the web-pages which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’sresearch needs in the area of information retrieval. In the end, the paper proposesa web spider development planwhich can meet the user’s needs. Keywords:WebSpiders ;Tradition Universal Search Engine ; Internet隨著(zhù)網(wǎng)路技術(shù)的發(fā)展,信息的提取與借助在人們的日常生活中越來(lái)越重要。
  搜索 引擎因為才能從廣袤的網(wǎng)路資源中給用戶(hù)提供對用戶(hù)有用的信息而獲得長(cháng)足的 發(fā)展,自誕生以來(lái),搜索引擎獲得了越來(lái)越多用戶(hù)的追捧,成為人們日常生活中 檢索信息必不可少的搜索工具。 研究背景 隨著(zhù)經(jīng)濟社會(huì )的發(fā)展,人們對信息搜索提出了更高的要求。傳統搜索引擎c++網(wǎng)絡(luò )爬蟲(chóng), 例如傳統的通用搜索引擎 AltaVista,Yahoo!和 Google 大都是基于關(guān)鍵字的檢 索,對按照語(yǔ)義信息提出的查詢(xún)卻無(wú)能為力,搜索結果往往包含大量用戶(hù)并不關(guān) 心的網(wǎng)頁(yè);隨著(zhù)萬(wàn)維網(wǎng)的數據方式的不斷豐富與網(wǎng)路技術(shù)的不斷發(fā)展,圖片、數 據庫、音頻及視頻多媒體等不同數據方式大量出現,傳統搜索引擎對這種信息含 量密集且具有一定數據結構的數據不能挺好的獲取和發(fā)覺(jué)。另外,傳統搜索引擎 有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)路數據資源之間的矛盾也日漸突出。 為了解決這種問(wèn)題,人們設計實(shí)現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站,定向抓 取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)路爬蟲(chóng)。網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)下載網(wǎng)頁(yè)的程序,它按照既定 的抓取目標,有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所須要的信息。 它并不追求大的覆蓋率,而將目標定為抓取與某一特定主題內容相關(guān)的網(wǎng)頁(yè),為 面向主題的用戶(hù)查詢(xún)打算數據資源。
   1.網(wǎng)絡(luò )爬蟲(chóng)的定義及爬行策略 一個(gè)網(wǎng)路蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪(fǎng)問(wèn)的 URL 鏈接開(kāi)始,可以稱(chēng)這種 URL 為種子。爬蟲(chóng)訪(fǎng)問(wèn)那些鏈接,它分辨出這種頁(yè)面 的所有超鏈接,然后添加到這個(gè) URL 列表,可以比作檢索前沿。這些 URL 按照一 定的策略反復訪(fǎng)問(wèn),直到滿(mǎn)足一定的條件結束。其工作流程如下:圖 1 網(wǎng)絡(luò )爬蟲(chóng)的工作流程網(wǎng)頁(yè)爬蟲(chóng)的行為一般是四種策略組合的結果。這四種策略分別是選擇策略、 重新訪(fǎng)問(wèn)策略、平衡禮貌策略、并行策略。其中,選擇策略,用來(lái)決定所要下載 的頁(yè)面; 重新訪(fǎng)問(wèn)策略, 用來(lái)決定什么時(shí)候檢測頁(yè)面的更新變化; 平衡禮貌策略, 指出如何防止站點(diǎn)超員;并行策略,指出如何協(xié)同達到分布式抓取的療效。 2.網(wǎng)絡(luò )爬蟲(chóng)體系結構 網(wǎng)絡(luò )爬蟲(chóng)的結構主要分為以下幾個(gè)部份: (1)下載模塊,(2)網(wǎng)頁(yè)剖析模塊, (3) URL去重模塊,(4) URL分配模塊, 如圖2所示:圖2系統構架圖2.1下載模塊 下載模塊負責抓取網(wǎng)頁(yè), 是整個(gè)系統的基本與關(guān)鍵部份,直接影響爬行療效。 該模塊通常包含3 個(gè)子模塊: (1) 下載線(xiàn)程; (2) Host控制子模塊; (3) DNS 解 析子模塊。
   2.2網(wǎng)頁(yè)剖析模塊 網(wǎng)頁(yè)剖析主要是內容剖析和鏈接抽取。 網(wǎng)頁(yè)中有很多不同的編碼格式, 這些 格式來(lái)自不同的文本( 簡(jiǎn)體中文、繁體英文、英文等) 。這些不同的文本信息會(huì ) 影響到后續的正文抽取和副詞等模塊。網(wǎng)頁(yè)剖析中須要考慮到這類(lèi)問(wèn)題。 HTML,XML網(wǎng)頁(yè)不僅標題和正文以外, 會(huì )有許多版權信息、 廣告鏈接以及公共 的頻道鏈接, 這些鏈接和文本通常沒(méi)有很大的價(jià)值, 在提取網(wǎng)頁(yè)內容的時(shí)侯,需 要過(guò)濾這種無(wú)用的鏈接。對于DOC, PPT, XLS, PDF 等帶格式的文件, 網(wǎng)絡(luò )爬蟲(chóng) 都要提取出文件里的純文本內容。對于多媒體、圖片等文件, 一般是通過(guò)鏈接的 錨文本( 即鏈接文本) 和相關(guān)的文件注釋來(lái)判定那些文件的內容。 2.3 URL去重模塊 在下載的過(guò)程中, 不可防止地會(huì )碰到重復的鏈接, 如何去除那些重復的鏈 接, 是個(gè)很復雜的議程。URL的去重可以說(shuō)是爬蟲(chóng)系統中最重要的一部分, 直接 影響爬行效率和療效。 目前主流網(wǎng)路爬蟲(chóng)的URL 去重機制主要有兩種方法: (1) 完全顯存形式; (2) 基于c盤(pán)的緩存方法。完全顯存形式就是指估算URL 的Hash 值, 一般用4 至6個(gè)字節表示, 這樣10 億個(gè)網(wǎng)頁(yè)的URL 就須要5 到8個(gè)G的顯存。
   另一種方法是開(kāi)一個(gè)大鏈表進(jìn)行按位驗證, 這樣只需后者八分之一的顯存, 但有可能錯判, 且誤判率隨著(zhù)爬行規模的減小而提升。 基于c盤(pán)的緩存方法則是將大部分數據放 在c盤(pán)上, 內存里儲存一個(gè)緩存, 然后按照策略更新緩存。 由于c盤(pán)的速率比內 存慢一個(gè)數量級, 一旦所查URL不命中緩存, 就必須在c盤(pán)中進(jìn)行查找, 從而大 大影響效率。 2.4 URL分配模塊 抓取的效率主要依賴(lài)于硬件資源、網(wǎng)絡(luò )的帶寬以及程序執行效率等。普通單 處理機系統受限于CPU 的處理能力、 磁盤(pán)存儲的容量, 不可能具備處理海量信息 的能力, 這就要求Crawler 支持分布式協(xié)同工作。 URL 分配模塊主要考慮兩個(gè)問(wèn)題: (1) 在節點(diǎn)間界定URL的策略, 即怎樣分 配下載任務(wù);(2) 優(yōu)化性能, 比如負載均衡、協(xié)同工作的開(kāi)支等。 3.設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題 3.1 可伸縮性 面對網(wǎng)路上數以萬(wàn)億計的網(wǎng)頁(yè), 使用有限的資源運轉一個(gè)高性能、 可伸縮的 Crawler 是一個(gè)首要任務(wù)。完成這項任務(wù)一般有3 點(diǎn)要求。首先, 采用的算法和 數據結構要才能支持Crawler 處理海量的網(wǎng)頁(yè)。 其次, 在有限資源下, 爬行的平 均速率必須維持一個(gè)較高的水平。
   第三, 在添加硬件的情況下, 性能才能得到線(xiàn) 性下降。 在效率方面, 由于網(wǎng)絡(luò )爬蟲(chóng)可以看成是一個(gè)生產(chǎn)者消費者模型, 如何讓 各個(gè)模塊協(xié)調工作, 以達到最佳性能, 也是一個(gè)嚴重的挑戰。 3.2 提高下載質(zhì)量 網(wǎng)絡(luò )爬蟲(chóng)的目標是抓取互聯(lián)網(wǎng)上所有有價(jià)值的網(wǎng)頁(yè)。 哪些網(wǎng)頁(yè)有價(jià)值, 如何 抓取這種網(wǎng)頁(yè), 這些問(wèn)題須要對網(wǎng)頁(yè)的質(zhì)量有一個(gè)較為全面的評價(jià)。 而評價(jià)標準 主要依賴(lài)對互聯(lián)網(wǎng)和用戶(hù)需求的理解。其中, 主要包括以下幾個(gè)方面的問(wèn)題: ①網(wǎng)頁(yè)之間的鏈接關(guān)系。 ②URL 本身的質(zhì)量。 ③網(wǎng)頁(yè)重復情況。 ④網(wǎng)頁(yè)內容的評價(jià)。 3.3 網(wǎng)頁(yè)更新 目前網(wǎng)頁(yè)更新的方法有兩種: 一種是周期性進(jìn)行更新。 Crawler 第一次爬行 到設定好的規模后, 停止爬行, 然后每隔一段( 固定的) 時(shí)間對本地的索引數 據庫網(wǎng)頁(yè)進(jìn)行一次全面的信息更新維護, 即替換掉陳舊的信息, 加入新生成的 網(wǎng)頁(yè)。更新周期通常以禮拜或月為計量單位。我們稱(chēng)這些為周期性Crawler。另 一種是增量式信息更新方式。 因為互聯(lián)網(wǎng)中包含的大量網(wǎng)頁(yè)的更新周期是不一致 的, 有的變化無(wú)常, 有的非常穩定。 因此應當以網(wǎng)頁(yè)的變化周期作為進(jìn)行有效性 驗證的根據。
   在每一次網(wǎng)頁(yè)的更新過(guò)程中, 只對這些最有可能發(fā)生變化的網(wǎng)頁(yè)進(jìn) 行更新, 以不同的頻度更新不同的網(wǎng)頁(yè)。Crawler會(huì )仍然不停地爬行, 更新陳舊 的網(wǎng)頁(yè), 并用新的更重要的網(wǎng)頁(yè)替換掉次重要的網(wǎng)頁(yè)。 我們稱(chēng)采用這些方法的爬蟲(chóng)為增量式Crawler。 從理論上來(lái)講, 增量式Crawler比周期性Crawler 效率更高。 但怎么確定每位網(wǎng)頁(yè)的更新頻度, 是一個(gè)難點(diǎn)。 4.爬蟲(chóng)身分辨識 網(wǎng)絡(luò )爬蟲(chóng)通過(guò)使用 http 請求的用戶(hù)代理數組來(lái)向網(wǎng)路服務(wù)器表明她們的 身份。網(wǎng)絡(luò )管理員則通過(guò)檢測網(wǎng)路服務(wù)器的日志,使用用戶(hù)代理數組來(lái)辨別哪一 個(gè)爬蟲(chóng)以前訪(fǎng)問(wèn)過(guò)以及它訪(fǎng)問(wèn)的頻度。 用戶(hù)代理數組可能會(huì )包含一個(gè)可以使管理 員獲取爬蟲(chóng)更多信息的 URL。郵件抓取器和其他懷有惡意的網(wǎng)路爬蟲(chóng)一般不會(huì )留 任何的用戶(hù)代理數組內容, 或者她們也會(huì )將她們的身分偽裝成瀏覽器或則其他的 知名爬蟲(chóng)。 5.開(kāi)發(fā)工具介紹 5.1 Windows .NET Framework 2.0 開(kāi)發(fā)平臺 NET Framework 是支持生成和運行下一代應用程序和 XML Web services 的內部 Windows 組件。NET Framework 主要包含一個(gè)特別大的代碼庫,可以在顧客語(yǔ)言 ( 如 C++) 中 通 過(guò) 面 向 對 象 編 程 技 術(shù) (OOP) 來(lái) 使 用 這 些 代 碼 。
   這 個(gè) 部 分 .NET Framework 庫定義了一些基本類(lèi)型。庫分為不同的模塊,這樣就可以按照希望得 到的結果來(lái)選擇使用其中的各個(gè)部份。 5.2 開(kāi)發(fā)工具 C++ C++是由 C 子語(yǔ)言、 面向對象的 C++、 泛型編程語(yǔ)言和 STL (C++標準模板庫, Standard Template Library)組成的程序設計語(yǔ)言。C++支持 C 語(yǔ)言的幾乎全部 功能,在句型上與 C 語(yǔ)言?xún)H有極微妙的差異。C++強大(但容易失控的)模板功 能使它能在編譯期完成許多工作,從而大大提升運行期效率。隨著(zhù) STL 的不斷發(fā) 展,它早已漸漸成為 C++程序設計中不可或缺的部份,其效率可能比通常的 native 代碼低些,但是其安全性與規范性讓它大受歡迎。 5.3 后臺數據庫 ACCESS 數據庫 Microsoft Office Access(前名 Microsoft Access)是由谷歌發(fā)布的關(guān)聯(lián) 式數據庫管理系統。它結合了 Microsoft Jet Database Engine 和 圖形用戶(hù)界 面兩項特征,是 Microsoft Office 的成員之一。它簡(jiǎn)單易用,可以勝任小批量 的查詢(xún)工作。
   三、總結 本文分別從目前搜索引擎的發(fā)展現況、網(wǎng)絡(luò )爬蟲(chóng)的定義、爬行策略、爬蟲(chóng)的體系 結構、 設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)的身分辨識等方面介紹了怎樣設計一個(gè) 網(wǎng)絡(luò )爬蟲(chóng),另外本文也從開(kāi)發(fā)所需的操作系統、開(kāi)發(fā)工具以及所涉及到的數據庫 技術(shù)等方面簡(jiǎn)單介紹了怎樣實(shí)現一個(gè)網(wǎng)絡(luò )爬蟲(chóng), 并最終確立了使用 Windows .NET Framework 2.0 開(kāi)發(fā)平臺、C++與 ACCESS 的開(kāi)發(fā)方案。本文的最終目標是設計實(shí) 現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站, 定向抓取相關(guān)網(wǎng)頁(yè)資源并將其內容存入數 據庫或文本文件中的網(wǎng)路爬蟲(chóng)。參考文獻:[1] 劉金紅,陸余良.主題網(wǎng)路爬蟲(chóng)研究綜述[J].計算機應用研究,2007,(10):70-79. [2] 羅剛,王振東. 自己動(dòng)手寫(xiě)網(wǎng)路爬蟲(chóng)[M].清華大學(xué)出版社,2010c++網(wǎng)絡(luò )爬蟲(chóng),(10). [3] 大連海事大學(xué)計算機科學(xué)與技術(shù)學(xué)院.主題搜索引擎中網(wǎng)路爬蟲(chóng)的搜索策略研究[J].計算 機工程與科學(xué),2008,(03):44-46. [4] 羅剛.自己動(dòng)手寫(xiě)搜索引擎[M].電子工業(yè)出版社,2009,(11). [5] 鄭志高,劉慶圣,陳立彬.基于主題網(wǎng)路爬蟲(chóng)的網(wǎng)路學(xué)習資源搜集平臺的設計[J].中國教 育信息化,2010,(01):55-67. [6] 汪濤,樊孝忠.主題爬蟲(chóng)的設計與實(shí)現[J].計算機應用,2004,(S1):110-121. [7] 汪濤,樊孝忠.鏈接分析對主題爬蟲(chóng)的改進(jìn)[J].計算機應用,2004,(S2):55-70. [8] 尹江, 尹治本, 黃洪.網(wǎng)絡(luò )爬蟲(chóng)效率困局的剖析與解決方案[J].計算機應用, 2008, (5):20-31. [9] 汪濤, 樊孝忠, 顧益軍, 劉林.基于概念剖析的主題爬蟲(chóng)設計[J].北京理工大學(xué)學(xué)報, 2004, (10):33-41. [10] 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕.中文搜索引擎概念檢索初探[J]. 計算機 工程與應用,2000,(06):66-75. [11] 潘春華,馮太明,武港山.基于聯(lián)通爬蟲(chóng)的專(zhuān)用 Web 信息搜集系統的設計[J].計算機工程 與應用,2003,(36):99-109. [12] 赫楓齡, 左萬(wàn)利.利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J].吉林大學(xué)學(xué)報(信息科學(xué) 版),2005,(01):100-108. 查看全部

  基于 C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現的研究綜述作者:xxx 指導老師:xxx摘要:本文歸納了網(wǎng)路爬蟲(chóng)的設計與實(shí)現方面的研究?jì)热?,概括了網(wǎng)路爬蟲(chóng)的定 摘要 義與爬取策略、網(wǎng)絡(luò )爬蟲(chóng)的體系結構、設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)身分的 識別等方面的觀(guān)點(diǎn),并總結了怎樣通過(guò)一個(gè)或多個(gè)給定的種子網(wǎng)站,將網(wǎng)站上相 應的網(wǎng)頁(yè)抓取出來(lái),并將其存入數據庫或文本文件中的研究成果。本文也強調了 如何通過(guò)解決傳統的通用搜索引擎在個(gè)別領(lǐng)域的局限性, 幫助人們愈加有效地提 取與借助互聯(lián)網(wǎng)信息,進(jìn)而提升人們在檢索信息效率方面的研究需求。最后,本 文提出了一個(gè)滿(mǎn)足用戶(hù)需求的網(wǎng)路爬蟲(chóng)的開(kāi)發(fā)方案。 關(guān)鍵詞:網(wǎng)絡(luò )爬蟲(chóng) ;通用搜索引擎 ;互聯(lián)網(wǎng) 關(guān)鍵詞The Design and Implementation of Web Spider Based on C++Author:xxxTutor: xxx Abstract:This paper summarizes the research about the design and implementation of the web spider, summarizesthe view aboutthe definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider ,and summarizes the research about how to catch the web-pages which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’sresearch needs in the area of information retrieval. In the end, the paper proposesa web spider development planwhich can meet the user’s needs. Keywords:WebSpiders ;Tradition Universal Search Engine ; Internet隨著(zhù)網(wǎng)路技術(shù)的發(fā)展,信息的提取與借助在人們的日常生活中越來(lái)越重要。
  搜索 引擎因為才能從廣袤的網(wǎng)路資源中給用戶(hù)提供對用戶(hù)有用的信息而獲得長(cháng)足的 發(fā)展,自誕生以來(lái),搜索引擎獲得了越來(lái)越多用戶(hù)的追捧,成為人們日常生活中 檢索信息必不可少的搜索工具。 研究背景 隨著(zhù)經(jīng)濟社會(huì )的發(fā)展,人們對信息搜索提出了更高的要求。傳統搜索引擎c++網(wǎng)絡(luò )爬蟲(chóng), 例如傳統的通用搜索引擎 AltaVista,Yahoo!和 Google 大都是基于關(guān)鍵字的檢 索,對按照語(yǔ)義信息提出的查詢(xún)卻無(wú)能為力,搜索結果往往包含大量用戶(hù)并不關(guān) 心的網(wǎng)頁(yè);隨著(zhù)萬(wàn)維網(wǎng)的數據方式的不斷豐富與網(wǎng)路技術(shù)的不斷發(fā)展,圖片、數 據庫、音頻及視頻多媒體等不同數據方式大量出現,傳統搜索引擎對這種信息含 量密集且具有一定數據結構的數據不能挺好的獲取和發(fā)覺(jué)。另外,傳統搜索引擎 有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)路數據資源之間的矛盾也日漸突出。 為了解決這種問(wèn)題,人們設計實(shí)現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站,定向抓 取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)路爬蟲(chóng)。網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)下載網(wǎng)頁(yè)的程序,它按照既定 的抓取目標,有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所須要的信息。 它并不追求大的覆蓋率,而將目標定為抓取與某一特定主題內容相關(guān)的網(wǎng)頁(yè),為 面向主題的用戶(hù)查詢(xún)打算數據資源。
   1.網(wǎng)絡(luò )爬蟲(chóng)的定義及爬行策略 一個(gè)網(wǎng)路蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪(fǎng)問(wèn)的 URL 鏈接開(kāi)始,可以稱(chēng)這種 URL 為種子。爬蟲(chóng)訪(fǎng)問(wèn)那些鏈接,它分辨出這種頁(yè)面 的所有超鏈接,然后添加到這個(gè) URL 列表,可以比作檢索前沿。這些 URL 按照一 定的策略反復訪(fǎng)問(wèn),直到滿(mǎn)足一定的條件結束。其工作流程如下:圖 1 網(wǎng)絡(luò )爬蟲(chóng)的工作流程網(wǎng)頁(yè)爬蟲(chóng)的行為一般是四種策略組合的結果。這四種策略分別是選擇策略、 重新訪(fǎng)問(wèn)策略、平衡禮貌策略、并行策略。其中,選擇策略,用來(lái)決定所要下載 的頁(yè)面; 重新訪(fǎng)問(wèn)策略, 用來(lái)決定什么時(shí)候檢測頁(yè)面的更新變化; 平衡禮貌策略, 指出如何防止站點(diǎn)超員;并行策略,指出如何協(xié)同達到分布式抓取的療效。 2.網(wǎng)絡(luò )爬蟲(chóng)體系結構 網(wǎng)絡(luò )爬蟲(chóng)的結構主要分為以下幾個(gè)部份: (1)下載模塊,(2)網(wǎng)頁(yè)剖析模塊, (3) URL去重模塊,(4) URL分配模塊, 如圖2所示:圖2系統構架圖2.1下載模塊 下載模塊負責抓取網(wǎng)頁(yè), 是整個(gè)系統的基本與關(guān)鍵部份,直接影響爬行療效。 該模塊通常包含3 個(gè)子模塊: (1) 下載線(xiàn)程; (2) Host控制子模塊; (3) DNS 解 析子模塊。
   2.2網(wǎng)頁(yè)剖析模塊 網(wǎng)頁(yè)剖析主要是內容剖析和鏈接抽取。 網(wǎng)頁(yè)中有很多不同的編碼格式, 這些 格式來(lái)自不同的文本( 簡(jiǎn)體中文、繁體英文、英文等) 。這些不同的文本信息會(huì ) 影響到后續的正文抽取和副詞等模塊。網(wǎng)頁(yè)剖析中須要考慮到這類(lèi)問(wèn)題。 HTML,XML網(wǎng)頁(yè)不僅標題和正文以外, 會(huì )有許多版權信息、 廣告鏈接以及公共 的頻道鏈接, 這些鏈接和文本通常沒(méi)有很大的價(jià)值, 在提取網(wǎng)頁(yè)內容的時(shí)侯,需 要過(guò)濾這種無(wú)用的鏈接。對于DOC, PPT, XLS, PDF 等帶格式的文件, 網(wǎng)絡(luò )爬蟲(chóng) 都要提取出文件里的純文本內容。對于多媒體、圖片等文件, 一般是通過(guò)鏈接的 錨文本( 即鏈接文本) 和相關(guān)的文件注釋來(lái)判定那些文件的內容。 2.3 URL去重模塊 在下載的過(guò)程中, 不可防止地會(huì )碰到重復的鏈接, 如何去除那些重復的鏈 接, 是個(gè)很復雜的議程。URL的去重可以說(shuō)是爬蟲(chóng)系統中最重要的一部分, 直接 影響爬行效率和療效。 目前主流網(wǎng)路爬蟲(chóng)的URL 去重機制主要有兩種方法: (1) 完全顯存形式; (2) 基于c盤(pán)的緩存方法。完全顯存形式就是指估算URL 的Hash 值, 一般用4 至6個(gè)字節表示, 這樣10 億個(gè)網(wǎng)頁(yè)的URL 就須要5 到8個(gè)G的顯存。
   另一種方法是開(kāi)一個(gè)大鏈表進(jìn)行按位驗證, 這樣只需后者八分之一的顯存, 但有可能錯判, 且誤判率隨著(zhù)爬行規模的減小而提升。 基于c盤(pán)的緩存方法則是將大部分數據放 在c盤(pán)上, 內存里儲存一個(gè)緩存, 然后按照策略更新緩存。 由于c盤(pán)的速率比內 存慢一個(gè)數量級, 一旦所查URL不命中緩存, 就必須在c盤(pán)中進(jìn)行查找, 從而大 大影響效率。 2.4 URL分配模塊 抓取的效率主要依賴(lài)于硬件資源、網(wǎng)絡(luò )的帶寬以及程序執行效率等。普通單 處理機系統受限于CPU 的處理能力、 磁盤(pán)存儲的容量, 不可能具備處理海量信息 的能力, 這就要求Crawler 支持分布式協(xié)同工作。 URL 分配模塊主要考慮兩個(gè)問(wèn)題: (1) 在節點(diǎn)間界定URL的策略, 即怎樣分 配下載任務(wù);(2) 優(yōu)化性能, 比如負載均衡、協(xié)同工作的開(kāi)支等。 3.設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題 3.1 可伸縮性 面對網(wǎng)路上數以萬(wàn)億計的網(wǎng)頁(yè), 使用有限的資源運轉一個(gè)高性能、 可伸縮的 Crawler 是一個(gè)首要任務(wù)。完成這項任務(wù)一般有3 點(diǎn)要求。首先, 采用的算法和 數據結構要才能支持Crawler 處理海量的網(wǎng)頁(yè)。 其次, 在有限資源下, 爬行的平 均速率必須維持一個(gè)較高的水平。
   第三, 在添加硬件的情況下, 性能才能得到線(xiàn) 性下降。 在效率方面, 由于網(wǎng)絡(luò )爬蟲(chóng)可以看成是一個(gè)生產(chǎn)者消費者模型, 如何讓 各個(gè)模塊協(xié)調工作, 以達到最佳性能, 也是一個(gè)嚴重的挑戰。 3.2 提高下載質(zhì)量 網(wǎng)絡(luò )爬蟲(chóng)的目標是抓取互聯(lián)網(wǎng)上所有有價(jià)值的網(wǎng)頁(yè)。 哪些網(wǎng)頁(yè)有價(jià)值, 如何 抓取這種網(wǎng)頁(yè), 這些問(wèn)題須要對網(wǎng)頁(yè)的質(zhì)量有一個(gè)較為全面的評價(jià)。 而評價(jià)標準 主要依賴(lài)對互聯(lián)網(wǎng)和用戶(hù)需求的理解。其中, 主要包括以下幾個(gè)方面的問(wèn)題: ①網(wǎng)頁(yè)之間的鏈接關(guān)系。 ②URL 本身的質(zhì)量。 ③網(wǎng)頁(yè)重復情況。 ④網(wǎng)頁(yè)內容的評價(jià)。 3.3 網(wǎng)頁(yè)更新 目前網(wǎng)頁(yè)更新的方法有兩種: 一種是周期性進(jìn)行更新。 Crawler 第一次爬行 到設定好的規模后, 停止爬行, 然后每隔一段( 固定的) 時(shí)間對本地的索引數 據庫網(wǎng)頁(yè)進(jìn)行一次全面的信息更新維護, 即替換掉陳舊的信息, 加入新生成的 網(wǎng)頁(yè)。更新周期通常以禮拜或月為計量單位。我們稱(chēng)這些為周期性Crawler。另 一種是增量式信息更新方式。 因為互聯(lián)網(wǎng)中包含的大量網(wǎng)頁(yè)的更新周期是不一致 的, 有的變化無(wú)常, 有的非常穩定。 因此應當以網(wǎng)頁(yè)的變化周期作為進(jìn)行有效性 驗證的根據。
   在每一次網(wǎng)頁(yè)的更新過(guò)程中, 只對這些最有可能發(fā)生變化的網(wǎng)頁(yè)進(jìn) 行更新, 以不同的頻度更新不同的網(wǎng)頁(yè)。Crawler會(huì )仍然不停地爬行, 更新陳舊 的網(wǎng)頁(yè), 并用新的更重要的網(wǎng)頁(yè)替換掉次重要的網(wǎng)頁(yè)。 我們稱(chēng)采用這些方法的爬蟲(chóng)為增量式Crawler。 從理論上來(lái)講, 增量式Crawler比周期性Crawler 效率更高。 但怎么確定每位網(wǎng)頁(yè)的更新頻度, 是一個(gè)難點(diǎn)。 4.爬蟲(chóng)身分辨識 網(wǎng)絡(luò )爬蟲(chóng)通過(guò)使用 http 請求的用戶(hù)代理數組來(lái)向網(wǎng)路服務(wù)器表明她們的 身份。網(wǎng)絡(luò )管理員則通過(guò)檢測網(wǎng)路服務(wù)器的日志,使用用戶(hù)代理數組來(lái)辨別哪一 個(gè)爬蟲(chóng)以前訪(fǎng)問(wèn)過(guò)以及它訪(fǎng)問(wèn)的頻度。 用戶(hù)代理數組可能會(huì )包含一個(gè)可以使管理 員獲取爬蟲(chóng)更多信息的 URL。郵件抓取器和其他懷有惡意的網(wǎng)路爬蟲(chóng)一般不會(huì )留 任何的用戶(hù)代理數組內容, 或者她們也會(huì )將她們的身分偽裝成瀏覽器或則其他的 知名爬蟲(chóng)。 5.開(kāi)發(fā)工具介紹 5.1 Windows .NET Framework 2.0 開(kāi)發(fā)平臺 NET Framework 是支持生成和運行下一代應用程序和 XML Web services 的內部 Windows 組件。NET Framework 主要包含一個(gè)特別大的代碼庫,可以在顧客語(yǔ)言 ( 如 C++) 中 通 過(guò) 面 向 對 象 編 程 技 術(shù) (OOP) 來(lái) 使 用 這 些 代 碼 。
   這 個(gè) 部 分 .NET Framework 庫定義了一些基本類(lèi)型。庫分為不同的模塊,這樣就可以按照希望得 到的結果來(lái)選擇使用其中的各個(gè)部份。 5.2 開(kāi)發(fā)工具 C++ C++是由 C 子語(yǔ)言、 面向對象的 C++、 泛型編程語(yǔ)言和 STL (C++標準模板庫, Standard Template Library)組成的程序設計語(yǔ)言。C++支持 C 語(yǔ)言的幾乎全部 功能,在句型上與 C 語(yǔ)言?xún)H有極微妙的差異。C++強大(但容易失控的)模板功 能使它能在編譯期完成許多工作,從而大大提升運行期效率。隨著(zhù) STL 的不斷發(fā) 展,它早已漸漸成為 C++程序設計中不可或缺的部份,其效率可能比通常的 native 代碼低些,但是其安全性與規范性讓它大受歡迎。 5.3 后臺數據庫 ACCESS 數據庫 Microsoft Office Access(前名 Microsoft Access)是由谷歌發(fā)布的關(guān)聯(lián) 式數據庫管理系統。它結合了 Microsoft Jet Database Engine 和 圖形用戶(hù)界 面兩項特征,是 Microsoft Office 的成員之一。它簡(jiǎn)單易用,可以勝任小批量 的查詢(xún)工作。
   三、總結 本文分別從目前搜索引擎的發(fā)展現況、網(wǎng)絡(luò )爬蟲(chóng)的定義、爬行策略、爬蟲(chóng)的體系 結構、 設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)的身分辨識等方面介紹了怎樣設計一個(gè) 網(wǎng)絡(luò )爬蟲(chóng),另外本文也從開(kāi)發(fā)所需的操作系統、開(kāi)發(fā)工具以及所涉及到的數據庫 技術(shù)等方面簡(jiǎn)單介紹了怎樣實(shí)現一個(gè)網(wǎng)絡(luò )爬蟲(chóng), 并最終確立了使用 Windows .NET Framework 2.0 開(kāi)發(fā)平臺、C++與 ACCESS 的開(kāi)發(fā)方案。本文的最終目標是設計實(shí) 現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站, 定向抓取相關(guān)網(wǎng)頁(yè)資源并將其內容存入數 據庫或文本文件中的網(wǎng)路爬蟲(chóng)。參考文獻:[1] 劉金紅,陸余良.主題網(wǎng)路爬蟲(chóng)研究綜述[J].計算機應用研究,2007,(10):70-79. [2] 羅剛,王振東. 自己動(dòng)手寫(xiě)網(wǎng)路爬蟲(chóng)[M].清華大學(xué)出版社,2010c++網(wǎng)絡(luò )爬蟲(chóng),(10). [3] 大連海事大學(xué)計算機科學(xué)與技術(shù)學(xué)院.主題搜索引擎中網(wǎng)路爬蟲(chóng)的搜索策略研究[J].計算 機工程與科學(xué),2008,(03):44-46. [4] 羅剛.自己動(dòng)手寫(xiě)搜索引擎[M].電子工業(yè)出版社,2009,(11). [5] 鄭志高,劉慶圣,陳立彬.基于主題網(wǎng)路爬蟲(chóng)的網(wǎng)路學(xué)習資源搜集平臺的設計[J].中國教 育信息化,2010,(01):55-67. [6] 汪濤,樊孝忠.主題爬蟲(chóng)的設計與實(shí)現[J].計算機應用,2004,(S1):110-121. [7] 汪濤,樊孝忠.鏈接分析對主題爬蟲(chóng)的改進(jìn)[J].計算機應用,2004,(S2):55-70. [8] 尹江, 尹治本, 黃洪.網(wǎng)絡(luò )爬蟲(chóng)效率困局的剖析與解決方案[J].計算機應用, 2008, (5):20-31. [9] 汪濤, 樊孝忠, 顧益軍, 劉林.基于概念剖析的主題爬蟲(chóng)設計[J].北京理工大學(xué)學(xué)報, 2004, (10):33-41. [10] 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕.中文搜索引擎概念檢索初探[J]. 計算機 工程與應用,2000,(06):66-75. [11] 潘春華,馮太明,武港山.基于聯(lián)通爬蟲(chóng)的專(zhuān)用 Web 信息搜集系統的設計[J].計算機工程 與應用,2003,(36):99-109. [12] 赫楓齡, 左萬(wàn)利.利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J].吉林大學(xué)學(xué)報(信息科學(xué) 版),2005,(01):100-108.

推薦一些33款開(kāi)源爬蟲(chóng)軟件

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 479 次瀏覽 ? 2020-05-13 08:03 ? 來(lái)自相關(guān)話(huà)題

  
  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理爬蟲(chóng)程序,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Java爬蟲(chóng)
  1、Arachnid
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  2、crawlzilla
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla不僅爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java SHELL
  操作系統: Linux
  項目主頁(yè):
  下載地址:
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  3、Ex-Crawler
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  4、Heritrix
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  5、heyDr
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  6、ItSucks
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  7、jcrawl
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email、qq。
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  8、JSpider
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi)極少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  授權合同: LGPL
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能強悍,容易擴充
  9、Leopdo
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  10、MetaSeeker
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分,可以分成:
 ?。?)服務(wù)器側:一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
 ?。?)客戶(hù)端:一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi)爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  MetaSeeker工具包是免費使用的,下載地址:
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  11、Playfish
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:1.下載一側的.war包導出到eclipse中, 2.使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。 4.然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  12、Spiderman
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  13、webmagic
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由黃億華貢獻
  14、Web-Harvest
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Java
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  15、WebSPHINX
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  16、YaCy
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: Java Perl
  操作系統:跨平臺
  特點(diǎn):基于P2P的分布式Web搜索引擎
  Python爬蟲(chóng)
  17、QuickRecon
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統: Windows Linux
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  18、PyRailgun
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺 Windows Linux OS X
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  #readme
  19、Scrapy
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  C++++爬蟲(chóng)
  20、hispider
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架,沒(méi)有細化需求,目前只是能提取URL, URL排重,異步DNS解析,隊列化任務(wù),支持N機分布式下載,支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  基于unix/linux系統的開(kāi)發(fā)
  異步DNS解析
  URL排重
  支持HTTP 壓縮編碼傳輸 gzip/deflate
  字符集判定手動(dòng)轉換成UTF-8編碼
  文檔壓縮儲存
  支持多下載節點(diǎn)分布式下載
  支持網(wǎng)站定向下載(需要配置 hispiderd.ini whitelist )
  可通過(guò) :3721/查看下載情況統計,下載任務(wù)控制(可停止和恢復任務(wù))
  依賴(lài)基本通訊庫libevbase 和 libsbase (安裝的時(shí)侯須要先安裝這個(gè)兩個(gè)庫).
  工作流程:
  從中心節點(diǎn)取URL(包括URL對應的任務(wù)號, IP和port,也可能須要自己解析)
  連接服務(wù)器發(fā)送懇求
  等待數據頭判定是否須要的數據(目前主要取text類(lèi)型的數據)
  等待完成數據(有length頭的直接等待說(shuō)明寬度的數據否則等待比較大的數字之后設置超時(shí))
  數據完成或則超時(shí), zlib壓縮數據返回給中心服務(wù)器,數據可能包括自己解析DNS信息,壓縮后數據寬度+壓縮后數據,如果出錯就直接返回任務(wù)號以及相關(guān)信息
  中心服務(wù)器收到帶有任務(wù)號的數據,查看是否包括數據,如果沒(méi)有數據直接置任務(wù)號對應的狀態(tài)為錯誤,如果有數據提取數據種link 然后儲存數據到文檔文件.
  完成后返回一個(gè)新的任務(wù).
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載,支持網(wǎng)站定向下載
  21、larbin
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它構建url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  22、Methabot
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Windows Linux
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  爬蟲(chóng)
  23、NWebCrawler
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  可配置:線(xiàn)程數,等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級,下載文件夾。
  統計信息:URL數目,總下載文件,總下載字節數,CPU利用率和可用顯存。
  Preferential crawler:用戶(hù)可以設置優(yōu)先級的MIME類(lèi)型。
  Robust: 10+ URL normalization rules, crawler trap avoiding rules.
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  24、Sinawler
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外爬蟲(chóng)程序,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費:拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布!該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力!以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!
  界面上提供參數設置,靈活便捷
  拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息
  自動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率
  任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)
  良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  25、spidernet
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持text/html資源的獲取.可以設定爬行深度,最大下載字節數限制,支持gzip解碼,支持以gbk(gb2312)和utf8編碼的資源;存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能,希望遞交你的代碼.
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  26、Web Crawler
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  授權合同: LGPL
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  27、網(wǎng)絡(luò )礦工
  網(wǎng)站數據采集軟件網(wǎng)路礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  PHP爬蟲(chóng)
  28、OpenWebSpider
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān)鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  30、ThinkUp
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  31、微購
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。 查看全部

  
  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理爬蟲(chóng)程序,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Java爬蟲(chóng)
  1、Arachnid
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  2、crawlzilla
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla不僅爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java SHELL
  操作系統: Linux
  項目主頁(yè):
  下載地址:
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  3、Ex-Crawler
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  4、Heritrix
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  5、heyDr
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  6、ItSucks
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  7、jcrawl
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email、qq。
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  8、JSpider
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi)極少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  授權合同: LGPL
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能強悍,容易擴充
  9、Leopdo
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  10、MetaSeeker
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分,可以分成:
 ?。?)服務(wù)器側:一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
 ?。?)客戶(hù)端:一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi)爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  MetaSeeker工具包是免費使用的,下載地址:
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  11、Playfish
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:1.下載一側的.war包導出到eclipse中, 2.使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。 4.然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  12、Spiderman
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  13、webmagic
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由黃億華貢獻
  14、Web-Harvest
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Java
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  15、WebSPHINX
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  16、YaCy
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: Java Perl
  操作系統:跨平臺
  特點(diǎn):基于P2P的分布式Web搜索引擎
  Python爬蟲(chóng)
  17、QuickRecon
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統: Windows Linux
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  18、PyRailgun
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺 Windows Linux OS X
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  #readme
  19、Scrapy
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  C++++爬蟲(chóng)
  20、hispider
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架,沒(méi)有細化需求,目前只是能提取URL, URL排重,異步DNS解析,隊列化任務(wù),支持N機分布式下載,支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  基于unix/linux系統的開(kāi)發(fā)
  異步DNS解析
  URL排重
  支持HTTP 壓縮編碼傳輸 gzip/deflate
  字符集判定手動(dòng)轉換成UTF-8編碼
  文檔壓縮儲存
  支持多下載節點(diǎn)分布式下載
  支持網(wǎng)站定向下載(需要配置 hispiderd.ini whitelist )
  可通過(guò) :3721/查看下載情況統計,下載任務(wù)控制(可停止和恢復任務(wù))
  依賴(lài)基本通訊庫libevbase 和 libsbase (安裝的時(shí)侯須要先安裝這個(gè)兩個(gè)庫).
  工作流程:
  從中心節點(diǎn)取URL(包括URL對應的任務(wù)號, IP和port,也可能須要自己解析)
  連接服務(wù)器發(fā)送懇求
  等待數據頭判定是否須要的數據(目前主要取text類(lèi)型的數據)
  等待完成數據(有length頭的直接等待說(shuō)明寬度的數據否則等待比較大的數字之后設置超時(shí))
  數據完成或則超時(shí), zlib壓縮數據返回給中心服務(wù)器,數據可能包括自己解析DNS信息,壓縮后數據寬度+壓縮后數據,如果出錯就直接返回任務(wù)號以及相關(guān)信息
  中心服務(wù)器收到帶有任務(wù)號的數據,查看是否包括數據,如果沒(méi)有數據直接置任務(wù)號對應的狀態(tài)為錯誤,如果有數據提取數據種link 然后儲存數據到文檔文件.
  完成后返回一個(gè)新的任務(wù).
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載,支持網(wǎng)站定向下載
  21、larbin
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它構建url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  22、Methabot
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Windows Linux
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  爬蟲(chóng)
  23、NWebCrawler
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  可配置:線(xiàn)程數,等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級,下載文件夾。
  統計信息:URL數目,總下載文件,總下載字節數,CPU利用率和可用顯存。
  Preferential crawler:用戶(hù)可以設置優(yōu)先級的MIME類(lèi)型。
  Robust: 10+ URL normalization rules, crawler trap avoiding rules.
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  24、Sinawler
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外爬蟲(chóng)程序,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費:拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布!該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力!以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!
  界面上提供參數設置,靈活便捷
  拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息
  自動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率
  任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)
  良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  25、spidernet
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持text/html資源的獲取.可以設定爬行深度,最大下載字節數限制,支持gzip解碼,支持以gbk(gb2312)和utf8編碼的資源;存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能,希望遞交你的代碼.
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  26、Web Crawler
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  授權合同: LGPL
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  27、網(wǎng)絡(luò )礦工
  網(wǎng)站數據采集軟件網(wǎng)路礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  PHP爬蟲(chóng)
  28、OpenWebSpider
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān)鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  30、ThinkUp
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  31、微購
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。

33款可用來(lái)抓數據的開(kāi)源爬蟲(chóng)軟件工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 496 次瀏覽 ? 2020-05-07 08:02 ? 來(lái)自相關(guān)話(huà)題

  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla 除了爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java JavaScript SHELL
  操作系統: Linux
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email,qq.
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider 的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi) 很少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了 解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  特點(diǎn):功能強悍,容易擴充
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分網(wǎng)頁(yè)爬蟲(chóng)軟件,可以分成:
  服務(wù)器側:
  一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是網(wǎng)頁(yè)爬蟲(chóng)軟件,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
  客戶(hù)端:
  一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都 取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi) 爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:
  下載一側的.war包導出到eclipse中,使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫,修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由 黃億華貢獻
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  特點(diǎn):基于P2P的分布式Web搜索引擎
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架, 沒(méi)有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務(wù), 支持N機分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  工作流程:
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載, 支持網(wǎng)站定向下載
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就 是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它完善url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費: 拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。 你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布! 該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力! 以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!界面上提供參數設置,靈活便捷拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息手動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C# .NET
  操作系統: Windows
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能, 希望遞交你的代碼.
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置 過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  網(wǎng)站數據采集軟件 網(wǎng)絡(luò )礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān) 鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更 強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。 查看全部

  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla 除了爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java JavaScript SHELL
  操作系統: Linux
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email,qq.
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider 的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi) 很少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了 解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  特點(diǎn):功能強悍,容易擴充
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分網(wǎng)頁(yè)爬蟲(chóng)軟件,可以分成:
  服務(wù)器側:
  一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是網(wǎng)頁(yè)爬蟲(chóng)軟件,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
  客戶(hù)端:
  一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都 取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi) 爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:
  下載一側的.war包導出到eclipse中,使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫,修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由 黃億華貢獻
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  特點(diǎn):基于P2P的分布式Web搜索引擎
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架, 沒(méi)有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務(wù), 支持N機分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  工作流程:
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載, 支持網(wǎng)站定向下載
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就 是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它完善url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費: 拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。 你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布! 該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力! 以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!界面上提供參數設置,靈活便捷拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息手動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C# .NET
  操作系統: Windows
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能, 希望遞交你的代碼.
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置 過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  網(wǎng)站數據采集軟件 網(wǎng)絡(luò )礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān) 鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更 強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。

織夢(mèng)網(wǎng)站后臺管理系統操作指南

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 317 次瀏覽 ? 2020-04-12 11:01 ? 來(lái)自相關(guān)話(huà)題

  
  《網(wǎng)站后臺管理系統操作指南》網(wǎng)站后臺管理系統操作指南盟動(dòng)力網(wǎng)路服務(wù)中心 MENGDONGLI.COM上海盟動(dòng)力網(wǎng)路地址:重慶江北區觀(guān)音橋紅鼎國際 B 棟一單元 29-16___________________________________________________________________________________________第1頁(yè)《網(wǎng)站后臺管理系統操作指南》 一、系統運行環(huán)境 PHP 運行環(huán)境:Linux 操作系統 / PHP5 以上 / Mysql 數據庫 / Zend Optimizer 3.2.8 .NET 運行環(huán)境:Window 操作系統 / .net 3.5 以上 / Mssql 數據庫A. 二、操作系統概述圖(2-01) 如圖(2-01)窗口中的用戶(hù)名和密碼。當用戶(hù)輸入用戶(hù)名和密碼以后,用滑鼠左鍵點(diǎn) 擊登錄按鍵即可步入系統。___________________________________________________________________________________________第2頁(yè)《網(wǎng)站后臺管理系統操作指南》圖(2-02) 如圖(2-02)窗口為用戶(hù)登陸后的操作系統界面,界面框架主要由頸部、左部、右部(主 窗口)三部份組成。
  1. 頭部:由管理系統的 LOGO 及三組按鍵組成。第一組:系統主頁(yè):返回系統登入后的第一個(gè)頁(yè)面,如圖(2-02) 網(wǎng)站主頁(yè):點(diǎn)擊打開(kāi)網(wǎng)站前臺首頁(yè),旨在便捷后臺操作后轉入前臺瀏覽療效。 清除緩存:該功能主要是清理服務(wù)器上的緩存,清空網(wǎng)站臨時(shí)文件。 用戶(hù)反饋:即網(wǎng)站后臺管理系統操作問(wèn)題可以遞交織夢(mèng)企業(yè)信息管理系統進(jìn)行反饋。 注銷(xiāo):即退出網(wǎng)站后臺管理系統。第二組:a.即系統主頁(yè),如圖(2-02)b.即進(jìn)行信息發(fā)布頁(yè)面,點(diǎn)擊添加文檔即可進(jìn)行信息發(fā)布:靜態(tài)網(wǎng)頁(yè)化更有益網(wǎng)站搜索引擎優(yōu)化是細節上的優(yōu)化,同樣一個(gè)網(wǎng)站,同樣一些內容,為什么有的排行好, 有的排行差,這就在于網(wǎng)站的細節,細節決定勝敗,怎么使網(wǎng)站排名更好,網(wǎng)站權重更高,___________________________________________________________________________________________第3頁(yè)《網(wǎng)站后臺管理系統操作指南》 不妨先從網(wǎng)頁(yè)的基礎打起,讓網(wǎng)頁(yè)靜態(tài)化是你不悔的選擇,網(wǎng)站靜態(tài)化有哪些優(yōu)勢,下面 與你們剖析下網(wǎng)站靜態(tài)化的優(yōu)點(diǎn)所在:一、靜態(tài)網(wǎng)頁(yè)化之提升速率 眾所周知,不管是 asp、php、jsp、.net 等動(dòng)態(tài)程序,都須要讀取調用數據庫內容,才 能顯示數據,相對于流量比較大,就降低了數據庫的讀取次數,占用很大的服務(wù)器資源, 影響網(wǎng)站速度。
  而采用網(wǎng)站做成靜態(tài)的,直接去掉了讀取數據庫的操作,減少了環(huán)節,提 高了網(wǎng)站反應速率。 二、靜態(tài)網(wǎng)頁(yè)化之搜索引擎 從網(wǎng)站優(yōu)化來(lái)剖析,搜索引擎更喜歡靜態(tài)的網(wǎng)頁(yè),靜態(tài)網(wǎng)頁(yè)與動(dòng)態(tài)網(wǎng)頁(yè)相比,搜索引 擎更喜歡靜的,更易于抓取,搜索引擎 SEO 排名更容易提升,自然也目前一些行業(yè)、門(mén)戶(hù) 網(wǎng)站,如新浪、搜狐、網(wǎng)易、阿里巴巴、百度、慧聰等,頁(yè)面大多都采用靜態(tài)或偽靜態(tài)網(wǎng) 頁(yè)來(lái)顯示,更易于搜索引擎抓取與排行。 三、靜態(tài)網(wǎng)頁(yè)化之網(wǎng)站穩定 1、從安全角度講,靜態(tài)網(wǎng)頁(yè)不易受到黑客攻擊,除開(kāi)源程序采用的是開(kāi)源 cms織夢(mèng)網(wǎng)站內容管理系統,如果 黑客不知道你網(wǎng)站的后臺、網(wǎng)站采用程序、數據庫的地址,靜態(tài)網(wǎng)頁(yè)更不容易遭到黑客的 攻擊。 2、從網(wǎng)站穩定性來(lái)講,如果程序、數據庫出了問(wèn)題,會(huì )直接影響網(wǎng)站的訪(fǎng)問(wèn),而靜態(tài) 網(wǎng)頁(yè)就防止了這么情況,不會(huì )由于程序等,而損失網(wǎng)站數據,影響正常打開(kāi),損失用戶(hù)體 驗,影響網(wǎng)站信任度。B. 三、欄目管理模塊操作1. 欄目列表網(wǎng)站特色模塊除產(chǎn)品展示外,前臺與后臺欄目完全對應,前臺顯示欄目?jì)热?,后臺則 管理欄目?jì)热?,旨在為顧客提供便捷、易懂的操作方法。___________________________________________________________________________________________第4頁(yè)《網(wǎng)站后臺管理系統操作指南》在欄目列表中用戶(hù)可以對類(lèi)別分別進(jìn)行預覽|內容|增加泛型|更改|刪除及排序調整 等操作。
  C. 四、內容管理模塊操作(4-01)1. 添加信息? 圖(4-01)為添加信息頁(yè)面,填寫(xiě)相應信息,提交。 ? 為保障信息對應的完整性,當多語(yǔ)言版本的時(shí)侯,添加完一種語(yǔ)言信息后,其它語(yǔ)言版本的信息也要盡量填寫(xiě)。 ? 允許上傳的產(chǎn)品圖片后綴格式有(文件.后綴):GIF、JPG、PNG。 ? 注意選擇所有界面中的語(yǔ)言版本。 ? 所有界面中的 代表有提示,鼠標經(jīng)過(guò)時(shí)會(huì )顯示該內容會(huì )在前臺出現的位置,主要是便捷用戶(hù)明晰添加內容將來(lái)顯示的位置。___________________________________________________________________________________________第5頁(yè)《網(wǎng)站后臺管理系統操作指南》文章標題(Title 標簽)、關(guān)鍵詞(Keywords 標簽)、內容摘要(Description 標簽)說(shuō)明:該圖說(shuō)明相關(guān)標簽在搜索引擎中顯示的位置這兒將對 Title、Keywords、Description 等標簽做詳細說(shuō)明,系統內其它優(yōu)化設置皆為相同。怎樣寫(xiě) Title 標簽?在網(wǎng)頁(yè)的優(yōu)化上,最重要的誘因之一就是網(wǎng)頁(yè)的標題標簽 Title Tag。
   通常在寫(xiě)標題標簽時(shí),應該考慮到以下幾個(gè)誘因:1)所有的網(wǎng)頁(yè)都應當有適宜自己的獨到的 Title Tag。有很多網(wǎng)站都犯了一個(gè)太中級的 錯誤,也就是所有網(wǎng)頁(yè)都用同一個(gè)標題,比如說(shuō)“歡迎視察***公司”。實(shí)際上每一個(gè)網(wǎng)頁(yè) 雖然都屬于同一個(gè)網(wǎng)站,但肯定會(huì )是在談不同的東西,可能是你的產(chǎn)品,可能是你的服務(wù)。 不同的網(wǎng)頁(yè)必須要寫(xiě)出針對這個(gè)網(wǎng)頁(yè)具體內容的標題標簽。2)標題標簽應當對用戶(hù)有足夠的吸引力。當你的網(wǎng)頁(yè)在搜索引擎被列舉時(shí),網(wǎng)頁(yè)的標 題就是來(lái)自于標題標簽。用戶(hù)在判定應當點(diǎn)擊哪一個(gè)網(wǎng)站時(shí),很大程度上就取決于你的標 題寫(xiě)的怎么樣?是否對用戶(hù)有足夠的吸引力?如果你的標簽只是一堆關(guān)鍵詞拼湊,卻不知 所云,就算你的排行靠前,用戶(hù)不點(diǎn)擊也沒(méi)有哪些用。3)標題標簽中應當富含關(guān)鍵詞。這個(gè)關(guān)鍵詞應當是針對這一頁(yè)的,而不是你整個(gè)網(wǎng)站 的。比如說(shuō),這個(gè)貼子是在談標題標簽,很自然標題上面就富含標題標簽。而不是我整個(gè) 網(wǎng)站要優(yōu)化的關(guān)鍵詞“虛擬主機”。同時(shí)關(guān)鍵詞應當很自然的被融入在一句合乎邏輯的通順 句子里,而不是死板的關(guān)鍵詞拼湊。4)一般來(lái)說(shuō),搜索引擎只考慮標題標簽中有限的字數,比如說(shuō)前十到前十五個(gè)字。所 以太長(cháng)的飽含關(guān)鍵詞的 title tag,只能讓你的網(wǎng)站看起來(lái)更象垃圾。
  有的人覺(jué)得,盡可能把 關(guān)鍵詞置于標題標簽的最前面。也有人覺(jué)得,隨著(zhù)搜索引擎排名技術(shù)的改進(jìn),關(guān)鍵詞在前 面還是旁邊,其實(shí)無(wú)關(guān)緊要。只要你的標題標簽別很長(cháng)了就行。5)在可能的情況下,盡量在標題標簽中提及你的品牌,或你的網(wǎng)站名。當然品牌或網(wǎng) 站名稱(chēng)與關(guān)鍵詞比較,應該處于次要地位。比如一般我在寫(xiě)網(wǎng)頁(yè)時(shí),都是這樣結構標題標 簽:文章名 – 分類(lèi)名 – 網(wǎng)站名___________________________________________________________________________________________第6頁(yè)《網(wǎng)站后臺管理系統操作指南》如果很長(cháng)的話(huà),就只要 文章名 – 網(wǎng)站名 或者還嫌長(cháng)的話(huà),就只要文章名。怎樣選 Keywords 標簽?關(guān)鍵字標簽 Keywords 是拿來(lái)描述一個(gè)網(wǎng)頁(yè)的屬性,不過(guò)要列舉的內容是關(guān)鍵詞。這 就意味著(zhù),要依照網(wǎng)頁(yè)的主題和內容選擇合適的關(guān)鍵詞。在選擇關(guān)鍵詞時(shí),除了要考慮與 網(wǎng)頁(yè)核心內容相關(guān)之外,還應當是用戶(hù)便于通過(guò)搜索引擎檢索的。注意:1)不同的關(guān)鍵詞之間,應用全角冒號隔開(kāi)(英文輸入狀態(tài)下),不要使用空格或|間隔; 2)是 keywords,不是 keyword; 3)關(guān)鍵字標簽中的內容應當是一個(gè)個(gè)的句子,而不是一段話(huà)。
  關(guān)鍵字標簽 Keywords, 曾經(jīng)是搜索引擎排名中很重要的誘因,但如今早已被好多搜索引擎完全忽視。如果我們加 上這個(gè)標簽對網(wǎng)頁(yè)的綜合表現沒(méi)有益處,不過(guò),如果使用不恰當的話(huà),對網(wǎng)頁(yè)反倒沒(méi)有好 處,還有欺詐的嫌疑。在使用關(guān)鍵字標簽 Keywords 時(shí),要注意以下幾點(diǎn):1)關(guān)鍵字標簽中的內容要與網(wǎng)頁(yè)核心內容相關(guān),確信使用的關(guān)鍵詞出現在網(wǎng)頁(yè)文本中。 2)使用用戶(hù)便于通過(guò)搜索引擎檢索的關(guān)鍵字,過(guò)于冷僻的詞匯不太適宜做 META 標 簽中的關(guān)鍵詞。 3)不要重復使用關(guān)鍵詞,否則可能會(huì )被搜索引擎懲罰。 4)一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞標簽里最多包含 3-5 個(gè)最重要的關(guān)鍵詞,不要超過(guò) 5 個(gè)。 5)每個(gè)網(wǎng)頁(yè)的關(guān)鍵詞應當不一樣。怎樣寫(xiě) Description 標簽?1)含有豐富的資料。將描述標簽作為“關(guān)于我們”這樣的簡(jiǎn)介,而不是“立即訂購” 這樣的廣告。為了宣傳某個(gè)特殊風(fēng)波或則交易而去改動(dòng)這個(gè)標簽并不值得。2)與頁(yè)面標題匹配。因為你不清楚人們將何時(shí)或則以何種形式閱讀自己的描述標簽, 所以為保險起見(jiàn),它應當與優(yōu)化過(guò)的頁(yè)面標題相符。因此不要在描述標簽中重復標題文字。3)包含關(guān)鍵字。雖然描述標簽 description tag 在影響排行方面并不是一個(gè)很重要的因 素,但是它對正好看見(jiàn)描述標簽的搜索者卻影響很大。
  因而,你應當在描述標簽中包含目 標關(guān)鍵字,因為她們在搜索結果中會(huì )被加粗。4)關(guān)鍵字不要過(guò)度。在描述標簽中拼湊長(cháng)長(cháng)的關(guān)鍵字列表不會(huì )給您的排行帶來(lái)哪些好 處,并有可能使搜索者形成一種被忽略的覺(jué)得。5)內容要奇特。與 HTML 標題意義,為了匹配每位頁(yè)面的內容,應該專(zhuān)門(mén)為每個(gè)頁(yè) 面撰寫(xiě)不同的描述標簽 description tag。___________________________________________________________________________________________第7頁(yè)《網(wǎng)站后臺管理系統操作指南》D. 五、權限管理模塊操作織夢(mèng) DedeEIMS 的系統用戶(hù)分為2個(gè)類(lèi)型:超級管理員、普通發(fā)布員。超級管理員是織夢(mèng) 企業(yè)信息管理系統的總管理的帳號,一般為網(wǎng)站主或則技術(shù)聯(lián)盟成員擁有,賬號包含織夢(mèng) 企業(yè)信息管理系統后臺的所有權限。普通發(fā)布員,即系統后臺內容發(fā)布員,用于企業(yè)添加 新聞資訊、產(chǎn)品信息或則更新站點(diǎn)等常規操作的用戶(hù)擁有。登陸系統后臺,進(jìn)入[系統設置]-[系統用戶(hù)管理]項目,我們可以查看系統的所有用戶(hù),在 這里我們可以進(jìn)行以下3個(gè)類(lèi)型的操作: 編輯績(jì)效統計:用于查看站點(diǎn)編輯人員工作量,可以查看當月或則本周發(fā)布的內容量; 增加管理員:用于降低系統的管理人員,可以添加超級管理員及普通信息發(fā)布員; 用戶(hù)組管理:系統用戶(hù)隸屬的用戶(hù)組管理界面,可以進(jìn)行用戶(hù)組的相關(guān)操作; 我們可以添加一個(gè)管理員,點(diǎn)擊“增加管理員”,會(huì )步入降低管理員的頁(yè)面,按照需求填寫(xiě) 管理員的相關(guān)信息。
  ___________________________________________________________________________________________第8頁(yè)《網(wǎng)站后臺管理系統操作指南》添加成功后系統會(huì )手動(dòng)添加一個(gè)用戶(hù)到會(huì )員列表中在刪掉的時(shí)侯須要刪掉管理員及用戶(hù)會(huì )員帳號以確保才能刪掉添加的成員。6.系統設置說(shuō)明系統設置部份,我們登陸系統后臺查看[系統設置]-[系統基本參數],我們可以看見(jiàn)系 統設置分為以下幾個(gè)部份:站點(diǎn)設置、核心設置、附件設置、會(huì )員設置、性能選項、其他 選項、添加新變量幾個(gè)部份的內容。___________________________________________________________________________________________第9頁(yè)《網(wǎng)站后臺管理系統操作指南》說(shuō)明: 站點(diǎn)設置:站點(diǎn)的常規設置,例如站點(diǎn)名稱(chēng)、站點(diǎn)的地址以及采用風(fēng)格等選項; 核心設置:系統安裝目錄,加密設置以及時(shí)區和 FTP 配置等選項; 附件設置:涉及到系統管理員上傳附件的文件格式、文件規格等選項設置; 會(huì )員設置:關(guān)于前臺會(huì )員中心及會(huì )員注冊相關(guān)設置; 性能選項:根據您服務(wù)器的配置情況合理的對站點(diǎn)性能進(jìn)行設置才能保證網(wǎng)站能夠訪(fǎng)問(wèn)更快、 執行效率更高; 其他選項:過(guò)濾及 IP 限制等設置項目; 添加新變量:二次開(kāi)發(fā)中涉及到的設置項;織夢(mèng)的系統參數設置分為2個(gè)部份的內容,一個(gè)是頁(yè)面顯示的部份,另外一個(gè)是用于功能 設置的,我們在系統模板中可以通過(guò)系統全局變量調用的標簽來(lái)對一些顯示類(lèi)型的設置進(jìn) 行調用,例如我們在系統模板中使用{dede:global.cfg_description/}來(lái)調用網(wǎng)站后臺設置中 的網(wǎng)站描述部份的內容。
  功能設置部份的內容我們也會(huì )在系統設置中詳盡說(shuō)明參數的相關(guān) 描述。 我們在二次開(kāi)發(fā)中也可以使用這種設置,通過(guò)$GLOBALS['cfg_templets_dir']全局變量來(lái)調 用,非常便捷。我們可以通過(guò)系統后臺的添加變量來(lái)自由擴充全局變量,以便于我們進(jìn)行 系統的二次開(kāi)發(fā)。站點(diǎn)設置 站點(diǎn)根網(wǎng)址(cfg_basehost):網(wǎng)站根節點(diǎn)網(wǎng)址,例如設置 ,主要 用于生成一些超鏈接中加入站點(diǎn)根網(wǎng)址,例如:百度新聞、站點(diǎn) RSS、系統上傳附件等 網(wǎng)頁(yè)主頁(yè)鏈接(cfg_indexurl):用于前臺模板調用網(wǎng)站主站聯(lián)接 主頁(yè)鏈接名(cfg_indexname):網(wǎng)站主頁(yè)的聯(lián)接名稱(chēng),默認為“主頁(yè)” 網(wǎng)站名稱(chēng)(cfg_webname):全局站點(diǎn)的名稱(chēng),通常顯示在網(wǎng)頁(yè)頁(yè)面的標題欄部份,默 認為“我的網(wǎng)站” 文檔 HTML 默認保存路徑(cfg_arcdir):網(wǎng)站生成靜態(tài)頁(yè)面 HTML 存放路徑,默認為 “/html”,可以依照自己須要進(jìn)行設置 圖 片 / 上 傳 文 件 默 認 路 徑 ( cfg_medias_dir ): 網(wǎng) 站 附 件 上 傳 默 認 保 存 路 徑 , 默 認 為 “/uploads”,可以依照自己須要進(jìn)行更改 編輯器(是/否)使用 XHTML(cfg_fck_xhtml):控制網(wǎng)站內容編輯器是否啟用 XHTML 類(lèi)型的標記織夢(mèng)網(wǎng)站內容管理系統,默認是不起用的 模板默認風(fēng)格(cfg_df_style):默認模板的風(fēng)格,設置后模板的路徑變?yōu)椤?tremplets/[設 置模板風(fēng)格]”,默認是 default,即“/tremplets/default/” 網(wǎng)站版權、編譯 JS 等頂部調用信息(cfg_powerby):網(wǎng)站底部版權及 js 調用信息,一 般可以將流量統計代碼加入到這兒,前臺進(jìn)行調用 站點(diǎn)默認關(guān)鍵字(cfg_keywords):用于顯示站點(diǎn)默認關(guān)鍵字,便于 SEO,通常顯示在___________________________________________________________________________________________第 10 頁(yè)《網(wǎng)站后臺管理系統操作指南》 首頁(yè)的<meta>中,可以按照自己需求進(jìn)行更改 站點(diǎn)描述(cfg_description):用于顯示站點(diǎn)默認描述,便于 SEO,通常顯示在首頁(yè)的 <meta>中,可以按照自己需求進(jìn)行更改 網(wǎng)站備案號(cfg_beian):用于顯示網(wǎng)站備案號的相關(guān)內容,可以依照自己須要進(jìn)行設置___________________________________________________________________________________________第 11 頁(yè) 查看全部

  
  《網(wǎng)站后臺管理系統操作指南》網(wǎng)站后臺管理系統操作指南盟動(dòng)力網(wǎng)路服務(wù)中心 MENGDONGLI.COM上海盟動(dòng)力網(wǎng)路地址:重慶江北區觀(guān)音橋紅鼎國際 B 棟一單元 29-16___________________________________________________________________________________________第1頁(yè)《網(wǎng)站后臺管理系統操作指南》 一、系統運行環(huán)境 PHP 運行環(huán)境:Linux 操作系統 / PHP5 以上 / Mysql 數據庫 / Zend Optimizer 3.2.8 .NET 運行環(huán)境:Window 操作系統 / .net 3.5 以上 / Mssql 數據庫A. 二、操作系統概述圖(2-01) 如圖(2-01)窗口中的用戶(hù)名和密碼。當用戶(hù)輸入用戶(hù)名和密碼以后,用滑鼠左鍵點(diǎn) 擊登錄按鍵即可步入系統。___________________________________________________________________________________________第2頁(yè)《網(wǎng)站后臺管理系統操作指南》圖(2-02) 如圖(2-02)窗口為用戶(hù)登陸后的操作系統界面,界面框架主要由頸部、左部、右部(主 窗口)三部份組成。
  1. 頭部:由管理系統的 LOGO 及三組按鍵組成。第一組:系統主頁(yè):返回系統登入后的第一個(gè)頁(yè)面,如圖(2-02) 網(wǎng)站主頁(yè):點(diǎn)擊打開(kāi)網(wǎng)站前臺首頁(yè),旨在便捷后臺操作后轉入前臺瀏覽療效。 清除緩存:該功能主要是清理服務(wù)器上的緩存,清空網(wǎng)站臨時(shí)文件。 用戶(hù)反饋:即網(wǎng)站后臺管理系統操作問(wèn)題可以遞交織夢(mèng)企業(yè)信息管理系統進(jìn)行反饋。 注銷(xiāo):即退出網(wǎng)站后臺管理系統。第二組:a.即系統主頁(yè),如圖(2-02)b.即進(jìn)行信息發(fā)布頁(yè)面,點(diǎn)擊添加文檔即可進(jìn)行信息發(fā)布:靜態(tài)網(wǎng)頁(yè)化更有益網(wǎng)站搜索引擎優(yōu)化是細節上的優(yōu)化,同樣一個(gè)網(wǎng)站,同樣一些內容,為什么有的排行好, 有的排行差,這就在于網(wǎng)站的細節,細節決定勝敗,怎么使網(wǎng)站排名更好,網(wǎng)站權重更高,___________________________________________________________________________________________第3頁(yè)《網(wǎng)站后臺管理系統操作指南》 不妨先從網(wǎng)頁(yè)的基礎打起,讓網(wǎng)頁(yè)靜態(tài)化是你不悔的選擇,網(wǎng)站靜態(tài)化有哪些優(yōu)勢,下面 與你們剖析下網(wǎng)站靜態(tài)化的優(yōu)點(diǎn)所在:一、靜態(tài)網(wǎng)頁(yè)化之提升速率 眾所周知,不管是 asp、php、jsp、.net 等動(dòng)態(tài)程序,都須要讀取調用數據庫內容,才 能顯示數據,相對于流量比較大,就降低了數據庫的讀取次數,占用很大的服務(wù)器資源, 影響網(wǎng)站速度。
  而采用網(wǎng)站做成靜態(tài)的,直接去掉了讀取數據庫的操作,減少了環(huán)節,提 高了網(wǎng)站反應速率。 二、靜態(tài)網(wǎng)頁(yè)化之搜索引擎 從網(wǎng)站優(yōu)化來(lái)剖析,搜索引擎更喜歡靜態(tài)的網(wǎng)頁(yè),靜態(tài)網(wǎng)頁(yè)與動(dòng)態(tài)網(wǎng)頁(yè)相比,搜索引 擎更喜歡靜的,更易于抓取,搜索引擎 SEO 排名更容易提升,自然也目前一些行業(yè)、門(mén)戶(hù) 網(wǎng)站,如新浪、搜狐、網(wǎng)易、阿里巴巴、百度、慧聰等,頁(yè)面大多都采用靜態(tài)或偽靜態(tài)網(wǎng) 頁(yè)來(lái)顯示,更易于搜索引擎抓取與排行。 三、靜態(tài)網(wǎng)頁(yè)化之網(wǎng)站穩定 1、從安全角度講,靜態(tài)網(wǎng)頁(yè)不易受到黑客攻擊,除開(kāi)源程序采用的是開(kāi)源 cms織夢(mèng)網(wǎng)站內容管理系統,如果 黑客不知道你網(wǎng)站的后臺、網(wǎng)站采用程序、數據庫的地址,靜態(tài)網(wǎng)頁(yè)更不容易遭到黑客的 攻擊。 2、從網(wǎng)站穩定性來(lái)講,如果程序、數據庫出了問(wèn)題,會(huì )直接影響網(wǎng)站的訪(fǎng)問(wèn),而靜態(tài) 網(wǎng)頁(yè)就防止了這么情況,不會(huì )由于程序等,而損失網(wǎng)站數據,影響正常打開(kāi),損失用戶(hù)體 驗,影響網(wǎng)站信任度。B. 三、欄目管理模塊操作1. 欄目列表網(wǎng)站特色模塊除產(chǎn)品展示外,前臺與后臺欄目完全對應,前臺顯示欄目?jì)热?,后臺則 管理欄目?jì)热?,旨在為顧客提供便捷、易懂的操作方法。___________________________________________________________________________________________第4頁(yè)《網(wǎng)站后臺管理系統操作指南》在欄目列表中用戶(hù)可以對類(lèi)別分別進(jìn)行預覽|內容|增加泛型|更改|刪除及排序調整 等操作。
  C. 四、內容管理模塊操作(4-01)1. 添加信息? 圖(4-01)為添加信息頁(yè)面,填寫(xiě)相應信息,提交。 ? 為保障信息對應的完整性,當多語(yǔ)言版本的時(shí)侯,添加完一種語(yǔ)言信息后,其它語(yǔ)言版本的信息也要盡量填寫(xiě)。 ? 允許上傳的產(chǎn)品圖片后綴格式有(文件.后綴):GIF、JPG、PNG。 ? 注意選擇所有界面中的語(yǔ)言版本。 ? 所有界面中的 代表有提示,鼠標經(jīng)過(guò)時(shí)會(huì )顯示該內容會(huì )在前臺出現的位置,主要是便捷用戶(hù)明晰添加內容將來(lái)顯示的位置。___________________________________________________________________________________________第5頁(yè)《網(wǎng)站后臺管理系統操作指南》文章標題(Title 標簽)、關(guān)鍵詞(Keywords 標簽)、內容摘要(Description 標簽)說(shuō)明:該圖說(shuō)明相關(guān)標簽在搜索引擎中顯示的位置這兒將對 Title、Keywords、Description 等標簽做詳細說(shuō)明,系統內其它優(yōu)化設置皆為相同。怎樣寫(xiě) Title 標簽?在網(wǎng)頁(yè)的優(yōu)化上,最重要的誘因之一就是網(wǎng)頁(yè)的標題標簽 Title Tag。
   通常在寫(xiě)標題標簽時(shí),應該考慮到以下幾個(gè)誘因:1)所有的網(wǎng)頁(yè)都應當有適宜自己的獨到的 Title Tag。有很多網(wǎng)站都犯了一個(gè)太中級的 錯誤,也就是所有網(wǎng)頁(yè)都用同一個(gè)標題,比如說(shuō)“歡迎視察***公司”。實(shí)際上每一個(gè)網(wǎng)頁(yè) 雖然都屬于同一個(gè)網(wǎng)站,但肯定會(huì )是在談不同的東西,可能是你的產(chǎn)品,可能是你的服務(wù)。 不同的網(wǎng)頁(yè)必須要寫(xiě)出針對這個(gè)網(wǎng)頁(yè)具體內容的標題標簽。2)標題標簽應當對用戶(hù)有足夠的吸引力。當你的網(wǎng)頁(yè)在搜索引擎被列舉時(shí),網(wǎng)頁(yè)的標 題就是來(lái)自于標題標簽。用戶(hù)在判定應當點(diǎn)擊哪一個(gè)網(wǎng)站時(shí),很大程度上就取決于你的標 題寫(xiě)的怎么樣?是否對用戶(hù)有足夠的吸引力?如果你的標簽只是一堆關(guān)鍵詞拼湊,卻不知 所云,就算你的排行靠前,用戶(hù)不點(diǎn)擊也沒(méi)有哪些用。3)標題標簽中應當富含關(guān)鍵詞。這個(gè)關(guān)鍵詞應當是針對這一頁(yè)的,而不是你整個(gè)網(wǎng)站 的。比如說(shuō),這個(gè)貼子是在談標題標簽,很自然標題上面就富含標題標簽。而不是我整個(gè) 網(wǎng)站要優(yōu)化的關(guān)鍵詞“虛擬主機”。同時(shí)關(guān)鍵詞應當很自然的被融入在一句合乎邏輯的通順 句子里,而不是死板的關(guān)鍵詞拼湊。4)一般來(lái)說(shuō),搜索引擎只考慮標題標簽中有限的字數,比如說(shuō)前十到前十五個(gè)字。所 以太長(cháng)的飽含關(guān)鍵詞的 title tag,只能讓你的網(wǎng)站看起來(lái)更象垃圾。
  有的人覺(jué)得,盡可能把 關(guān)鍵詞置于標題標簽的最前面。也有人覺(jué)得,隨著(zhù)搜索引擎排名技術(shù)的改進(jìn),關(guān)鍵詞在前 面還是旁邊,其實(shí)無(wú)關(guān)緊要。只要你的標題標簽別很長(cháng)了就行。5)在可能的情況下,盡量在標題標簽中提及你的品牌,或你的網(wǎng)站名。當然品牌或網(wǎng) 站名稱(chēng)與關(guān)鍵詞比較,應該處于次要地位。比如一般我在寫(xiě)網(wǎng)頁(yè)時(shí),都是這樣結構標題標 簽:文章名 – 分類(lèi)名 – 網(wǎng)站名___________________________________________________________________________________________第6頁(yè)《網(wǎng)站后臺管理系統操作指南》如果很長(cháng)的話(huà),就只要 文章名 – 網(wǎng)站名 或者還嫌長(cháng)的話(huà),就只要文章名。怎樣選 Keywords 標簽?關(guān)鍵字標簽 Keywords 是拿來(lái)描述一個(gè)網(wǎng)頁(yè)的屬性,不過(guò)要列舉的內容是關(guān)鍵詞。這 就意味著(zhù),要依照網(wǎng)頁(yè)的主題和內容選擇合適的關(guān)鍵詞。在選擇關(guān)鍵詞時(shí),除了要考慮與 網(wǎng)頁(yè)核心內容相關(guān)之外,還應當是用戶(hù)便于通過(guò)搜索引擎檢索的。注意:1)不同的關(guān)鍵詞之間,應用全角冒號隔開(kāi)(英文輸入狀態(tài)下),不要使用空格或|間隔; 2)是 keywords,不是 keyword; 3)關(guān)鍵字標簽中的內容應當是一個(gè)個(gè)的句子,而不是一段話(huà)。
  關(guān)鍵字標簽 Keywords, 曾經(jīng)是搜索引擎排名中很重要的誘因,但如今早已被好多搜索引擎完全忽視。如果我們加 上這個(gè)標簽對網(wǎng)頁(yè)的綜合表現沒(méi)有益處,不過(guò),如果使用不恰當的話(huà),對網(wǎng)頁(yè)反倒沒(méi)有好 處,還有欺詐的嫌疑。在使用關(guān)鍵字標簽 Keywords 時(shí),要注意以下幾點(diǎn):1)關(guān)鍵字標簽中的內容要與網(wǎng)頁(yè)核心內容相關(guān),確信使用的關(guān)鍵詞出現在網(wǎng)頁(yè)文本中。 2)使用用戶(hù)便于通過(guò)搜索引擎檢索的關(guān)鍵字,過(guò)于冷僻的詞匯不太適宜做 META 標 簽中的關(guān)鍵詞。 3)不要重復使用關(guān)鍵詞,否則可能會(huì )被搜索引擎懲罰。 4)一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞標簽里最多包含 3-5 個(gè)最重要的關(guān)鍵詞,不要超過(guò) 5 個(gè)。 5)每個(gè)網(wǎng)頁(yè)的關(guān)鍵詞應當不一樣。怎樣寫(xiě) Description 標簽?1)含有豐富的資料。將描述標簽作為“關(guān)于我們”這樣的簡(jiǎn)介,而不是“立即訂購” 這樣的廣告。為了宣傳某個(gè)特殊風(fēng)波或則交易而去改動(dòng)這個(gè)標簽并不值得。2)與頁(yè)面標題匹配。因為你不清楚人們將何時(shí)或則以何種形式閱讀自己的描述標簽, 所以為保險起見(jiàn),它應當與優(yōu)化過(guò)的頁(yè)面標題相符。因此不要在描述標簽中重復標題文字。3)包含關(guān)鍵字。雖然描述標簽 description tag 在影響排行方面并不是一個(gè)很重要的因 素,但是它對正好看見(jiàn)描述標簽的搜索者卻影響很大。
  因而,你應當在描述標簽中包含目 標關(guān)鍵字,因為她們在搜索結果中會(huì )被加粗。4)關(guān)鍵字不要過(guò)度。在描述標簽中拼湊長(cháng)長(cháng)的關(guān)鍵字列表不會(huì )給您的排行帶來(lái)哪些好 處,并有可能使搜索者形成一種被忽略的覺(jué)得。5)內容要奇特。與 HTML 標題意義,為了匹配每位頁(yè)面的內容,應該專(zhuān)門(mén)為每個(gè)頁(yè) 面撰寫(xiě)不同的描述標簽 description tag。___________________________________________________________________________________________第7頁(yè)《網(wǎng)站后臺管理系統操作指南》D. 五、權限管理模塊操作織夢(mèng) DedeEIMS 的系統用戶(hù)分為2個(gè)類(lèi)型:超級管理員、普通發(fā)布員。超級管理員是織夢(mèng) 企業(yè)信息管理系統的總管理的帳號,一般為網(wǎng)站主或則技術(shù)聯(lián)盟成員擁有,賬號包含織夢(mèng) 企業(yè)信息管理系統后臺的所有權限。普通發(fā)布員,即系統后臺內容發(fā)布員,用于企業(yè)添加 新聞資訊、產(chǎn)品信息或則更新站點(diǎn)等常規操作的用戶(hù)擁有。登陸系統后臺,進(jìn)入[系統設置]-[系統用戶(hù)管理]項目,我們可以查看系統的所有用戶(hù),在 這里我們可以進(jìn)行以下3個(gè)類(lèi)型的操作: 編輯績(jì)效統計:用于查看站點(diǎn)編輯人員工作量,可以查看當月或則本周發(fā)布的內容量; 增加管理員:用于降低系統的管理人員,可以添加超級管理員及普通信息發(fā)布員; 用戶(hù)組管理:系統用戶(hù)隸屬的用戶(hù)組管理界面,可以進(jìn)行用戶(hù)組的相關(guān)操作; 我們可以添加一個(gè)管理員,點(diǎn)擊“增加管理員”,會(huì )步入降低管理員的頁(yè)面,按照需求填寫(xiě) 管理員的相關(guān)信息。
  ___________________________________________________________________________________________第8頁(yè)《網(wǎng)站后臺管理系統操作指南》添加成功后系統會(huì )手動(dòng)添加一個(gè)用戶(hù)到會(huì )員列表中在刪掉的時(shí)侯須要刪掉管理員及用戶(hù)會(huì )員帳號以確保才能刪掉添加的成員。6.系統設置說(shuō)明系統設置部份,我們登陸系統后臺查看[系統設置]-[系統基本參數],我們可以看見(jiàn)系 統設置分為以下幾個(gè)部份:站點(diǎn)設置、核心設置、附件設置、會(huì )員設置、性能選項、其他 選項、添加新變量幾個(gè)部份的內容。___________________________________________________________________________________________第9頁(yè)《網(wǎng)站后臺管理系統操作指南》說(shuō)明: 站點(diǎn)設置:站點(diǎn)的常規設置,例如站點(diǎn)名稱(chēng)、站點(diǎn)的地址以及采用風(fēng)格等選項; 核心設置:系統安裝目錄,加密設置以及時(shí)區和 FTP 配置等選項; 附件設置:涉及到系統管理員上傳附件的文件格式、文件規格等選項設置; 會(huì )員設置:關(guān)于前臺會(huì )員中心及會(huì )員注冊相關(guān)設置; 性能選項:根據您服務(wù)器的配置情況合理的對站點(diǎn)性能進(jìn)行設置才能保證網(wǎng)站能夠訪(fǎng)問(wèn)更快、 執行效率更高; 其他選項:過(guò)濾及 IP 限制等設置項目; 添加新變量:二次開(kāi)發(fā)中涉及到的設置項;織夢(mèng)的系統參數設置分為2個(gè)部份的內容,一個(gè)是頁(yè)面顯示的部份,另外一個(gè)是用于功能 設置的,我們在系統模板中可以通過(guò)系統全局變量調用的標簽來(lái)對一些顯示類(lèi)型的設置進(jìn) 行調用,例如我們在系統模板中使用{dede:global.cfg_description/}來(lái)調用網(wǎng)站后臺設置中 的網(wǎng)站描述部份的內容。
  功能設置部份的內容我們也會(huì )在系統設置中詳盡說(shuō)明參數的相關(guān) 描述。 我們在二次開(kāi)發(fā)中也可以使用這種設置,通過(guò)$GLOBALS['cfg_templets_dir']全局變量來(lái)調 用,非常便捷。我們可以通過(guò)系統后臺的添加變量來(lái)自由擴充全局變量,以便于我們進(jìn)行 系統的二次開(kāi)發(fā)。站點(diǎn)設置 站點(diǎn)根網(wǎng)址(cfg_basehost):網(wǎng)站根節點(diǎn)網(wǎng)址,例如設置 ,主要 用于生成一些超鏈接中加入站點(diǎn)根網(wǎng)址,例如:百度新聞、站點(diǎn) RSS、系統上傳附件等 網(wǎng)頁(yè)主頁(yè)鏈接(cfg_indexurl):用于前臺模板調用網(wǎng)站主站聯(lián)接 主頁(yè)鏈接名(cfg_indexname):網(wǎng)站主頁(yè)的聯(lián)接名稱(chēng),默認為“主頁(yè)” 網(wǎng)站名稱(chēng)(cfg_webname):全局站點(diǎn)的名稱(chēng),通常顯示在網(wǎng)頁(yè)頁(yè)面的標題欄部份,默 認為“我的網(wǎng)站” 文檔 HTML 默認保存路徑(cfg_arcdir):網(wǎng)站生成靜態(tài)頁(yè)面 HTML 存放路徑,默認為 “/html”,可以依照自己須要進(jìn)行設置 圖 片 / 上 傳 文 件 默 認 路 徑 ( cfg_medias_dir ): 網(wǎng) 站 附 件 上 傳 默 認 保 存 路 徑 , 默 認 為 “/uploads”,可以依照自己須要進(jìn)行更改 編輯器(是/否)使用 XHTML(cfg_fck_xhtml):控制網(wǎng)站內容編輯器是否啟用 XHTML 類(lèi)型的標記織夢(mèng)網(wǎng)站內容管理系統,默認是不起用的 模板默認風(fēng)格(cfg_df_style):默認模板的風(fēng)格,設置后模板的路徑變?yōu)椤?tremplets/[設 置模板風(fēng)格]”,默認是 default,即“/tremplets/default/” 網(wǎng)站版權、編譯 JS 等頂部調用信息(cfg_powerby):網(wǎng)站底部版權及 js 調用信息,一 般可以將流量統計代碼加入到這兒,前臺進(jìn)行調用 站點(diǎn)默認關(guān)鍵字(cfg_keywords):用于顯示站點(diǎn)默認關(guān)鍵字,便于 SEO,通常顯示在___________________________________________________________________________________________第 10 頁(yè)《網(wǎng)站后臺管理系統操作指南》 首頁(yè)的<meta>中,可以按照自己需求進(jìn)行更改 站點(diǎn)描述(cfg_description):用于顯示站點(diǎn)默認描述,便于 SEO,通常顯示在首頁(yè)的 <meta>中,可以按照自己需求進(jìn)行更改 網(wǎng)站備案號(cfg_beian):用于顯示網(wǎng)站備案號的相關(guān)內容,可以依照自己須要進(jìn)行設置___________________________________________________________________________________________第 11 頁(yè)

淄博網(wǎng)站建設做好后的更新維護

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 277 次瀏覽 ? 2020-07-13 08:01 ? 來(lái)自相關(guān)話(huà)題

  
  淄博網(wǎng)站建設首先要從用戶(hù)督查到數據整理剖析,以及網(wǎng)站策劃方案訂制,到最后頁(yè)面設計、制作及程序開(kāi)發(fā),先后須要長(cháng)達幾個(gè)月能夠將網(wǎng)站建設好。
  網(wǎng)站建設是一個(gè)十分繁雜的工作??上У氖?,歷經(jīng)周折反復設計制做的網(wǎng)站,很多公司并沒(méi)有給與足夠的注重。至少有一半以上的公司網(wǎng)站,設計制做完成后經(jīng)年累月沒(méi)有絲毫更新維護。
  甚至有些網(wǎng)站的服務(wù)器遭到功擊,網(wǎng)頁(yè)內容遭到篡改后仍然沒(méi)有覺(jué)察,反而是網(wǎng)站服務(wù)商發(fā)覺(jué)后才進(jìn)行技術(shù)處理。這是一個(gè)嚴重的思想誤區,即便信息多樣化推廣多元化的明天,網(wǎng)站已經(jīng)不是單一的宣傳展示渠道。但是其仍然是企業(yè)在互聯(lián)網(wǎng)上的形象名片,很多用戶(hù)第一次對公司進(jìn)行了解的渠道就是網(wǎng)站。
  一、安全維護
  雖然有些公司,網(wǎng)站對其業(yè)務(wù)拓展的幫助并不大,只須要一個(gè)簡(jiǎn)單的網(wǎng)站就可以,還有好多公司根本就沒(méi)有網(wǎng)站。但是既然早已設計制做了網(wǎng)站,就須要對其負責,因為它其實(shí)是企業(yè)在互聯(lián)網(wǎng)上品牌形象的展示窗口。
  試想一下,當一個(gè)求職者,通過(guò)搜索引擎找尋公司官網(wǎng)初步了解公司的時(shí)侯,打開(kāi)的網(wǎng)站發(fā)現早已被篡改的面目全非,會(huì )有如何的體會(huì )?同樣的道理,一個(gè)初次合作的顧客淄博網(wǎng)站優(yōu)化,想更深入了解下公司的業(yè)務(wù)和實(shí)力,打開(kāi)網(wǎng)站后發(fā)覺(jué)中病毒了,客戶(hù)會(huì )不會(huì )心生疑問(wèn)呢?
  所以,如果真的沒(méi)有時(shí)間去維護更新網(wǎng)站,或者認為網(wǎng)站的好處不大,可以關(guān)掉網(wǎng)站。但是若果網(wǎng)站繼續在運行,就一定要做好安全維護工作,確保不會(huì )給公司形象帶來(lái)負面作用。
  二、內容維護
  經(jīng)常更新內容的網(wǎng)站,給瀏覽的用戶(hù)耳目一新的覺(jué)得,說(shuō)明這個(gè)公司飽含生機和活力,所以網(wǎng)站內容是應當時(shí)常更新的。而且從搜索引擎的角度出發(fā),其也十分喜歡時(shí)常更新的網(wǎng)站,給予的認可和肯定是,當用戶(hù)通過(guò)個(gè)別網(wǎng)站相關(guān)關(guān)鍵詞搜索的時(shí)侯淄博網(wǎng)站優(yōu)化,網(wǎng)站的自然排位都會(huì )很高。無(wú)疑的,這樣會(huì )降低企業(yè)的爆光度,進(jìn)而帶來(lái)咨詢(xún)量和成交量。
  網(wǎng)站內容時(shí)常更新的另外一個(gè)用處,是網(wǎng)站維護人員常常瀏覽網(wǎng)站,網(wǎng)站一旦發(fā)生非正?,F象,就可以盡可能快的被發(fā)覺(jué)。
  這里須要說(shuō)明的一點(diǎn)是,網(wǎng)站內容是一個(gè)相對籠統的說(shuō)法,其除了限于文字內容,還包括圖片、視頻等。網(wǎng)站內容更新并不是上傳內容到網(wǎng)站頁(yè)面上就可以,而是要充分考慮用戶(hù)體驗,比如加載速率、及各種終端的兼容等等。
  三、整站優(yōu)化
  提及優(yōu)化,很多人第一反應其實(shí)是搜索引擎自然排名,這里說(shuō)的范圍其實(shí)更大一些。優(yōu)化的原意是不斷改進(jìn),通過(guò)剖析網(wǎng)站的流量數據,不斷調整網(wǎng)站代碼程序、內容、布局等,讓其更有利于用戶(hù)體驗的提高。而且公司在不同時(shí)期,對網(wǎng)站的需求是不一樣的,并非每次更改都須要重新設計制做,那么網(wǎng)站細枝末葉的調整更改,其就是網(wǎng)站優(yōu)化的本職工作。
  提示:網(wǎng)站的優(yōu)化自然也包括面向搜索引擎的工作,合理的關(guān)鍵詞布局、內容及鏈接建設等,是可以有效獲得理想的自然排位的。應該說(shuō)不存在的單純的網(wǎng)站優(yōu)化,其一定是配合網(wǎng)站安全維護和內容維護同步進(jìn)行。 查看全部

  
  淄博網(wǎng)站建設首先要從用戶(hù)督查到數據整理剖析,以及網(wǎng)站策劃方案訂制,到最后頁(yè)面設計、制作及程序開(kāi)發(fā),先后須要長(cháng)達幾個(gè)月能夠將網(wǎng)站建設好。
  網(wǎng)站建設是一個(gè)十分繁雜的工作??上У氖?,歷經(jīng)周折反復設計制做的網(wǎng)站,很多公司并沒(méi)有給與足夠的注重。至少有一半以上的公司網(wǎng)站,設計制做完成后經(jīng)年累月沒(méi)有絲毫更新維護。
  甚至有些網(wǎng)站的服務(wù)器遭到功擊,網(wǎng)頁(yè)內容遭到篡改后仍然沒(méi)有覺(jué)察,反而是網(wǎng)站服務(wù)商發(fā)覺(jué)后才進(jìn)行技術(shù)處理。這是一個(gè)嚴重的思想誤區,即便信息多樣化推廣多元化的明天,網(wǎng)站已經(jīng)不是單一的宣傳展示渠道。但是其仍然是企業(yè)在互聯(lián)網(wǎng)上的形象名片,很多用戶(hù)第一次對公司進(jìn)行了解的渠道就是網(wǎng)站。
  一、安全維護
  雖然有些公司,網(wǎng)站對其業(yè)務(wù)拓展的幫助并不大,只須要一個(gè)簡(jiǎn)單的網(wǎng)站就可以,還有好多公司根本就沒(méi)有網(wǎng)站。但是既然早已設計制做了網(wǎng)站,就須要對其負責,因為它其實(shí)是企業(yè)在互聯(lián)網(wǎng)上品牌形象的展示窗口。
  試想一下,當一個(gè)求職者,通過(guò)搜索引擎找尋公司官網(wǎng)初步了解公司的時(shí)侯,打開(kāi)的網(wǎng)站發(fā)現早已被篡改的面目全非,會(huì )有如何的體會(huì )?同樣的道理,一個(gè)初次合作的顧客淄博網(wǎng)站優(yōu)化,想更深入了解下公司的業(yè)務(wù)和實(shí)力,打開(kāi)網(wǎng)站后發(fā)覺(jué)中病毒了,客戶(hù)會(huì )不會(huì )心生疑問(wèn)呢?
  所以,如果真的沒(méi)有時(shí)間去維護更新網(wǎng)站,或者認為網(wǎng)站的好處不大,可以關(guān)掉網(wǎng)站。但是若果網(wǎng)站繼續在運行,就一定要做好安全維護工作,確保不會(huì )給公司形象帶來(lái)負面作用。
  二、內容維護
  經(jīng)常更新內容的網(wǎng)站,給瀏覽的用戶(hù)耳目一新的覺(jué)得,說(shuō)明這個(gè)公司飽含生機和活力,所以網(wǎng)站內容是應當時(shí)常更新的。而且從搜索引擎的角度出發(fā),其也十分喜歡時(shí)常更新的網(wǎng)站,給予的認可和肯定是,當用戶(hù)通過(guò)個(gè)別網(wǎng)站相關(guān)關(guān)鍵詞搜索的時(shí)侯淄博網(wǎng)站優(yōu)化,網(wǎng)站的自然排位都會(huì )很高。無(wú)疑的,這樣會(huì )降低企業(yè)的爆光度,進(jìn)而帶來(lái)咨詢(xún)量和成交量。
  網(wǎng)站內容時(shí)常更新的另外一個(gè)用處,是網(wǎng)站維護人員常常瀏覽網(wǎng)站,網(wǎng)站一旦發(fā)生非正?,F象,就可以盡可能快的被發(fā)覺(jué)。
  這里須要說(shuō)明的一點(diǎn)是,網(wǎng)站內容是一個(gè)相對籠統的說(shuō)法,其除了限于文字內容,還包括圖片、視頻等。網(wǎng)站內容更新并不是上傳內容到網(wǎng)站頁(yè)面上就可以,而是要充分考慮用戶(hù)體驗,比如加載速率、及各種終端的兼容等等。
  三、整站優(yōu)化
  提及優(yōu)化,很多人第一反應其實(shí)是搜索引擎自然排名,這里說(shuō)的范圍其實(shí)更大一些。優(yōu)化的原意是不斷改進(jìn),通過(guò)剖析網(wǎng)站的流量數據,不斷調整網(wǎng)站代碼程序、內容、布局等,讓其更有利于用戶(hù)體驗的提高。而且公司在不同時(shí)期,對網(wǎng)站的需求是不一樣的,并非每次更改都須要重新設計制做,那么網(wǎng)站細枝末葉的調整更改,其就是網(wǎng)站優(yōu)化的本職工作。
  提示:網(wǎng)站的優(yōu)化自然也包括面向搜索引擎的工作,合理的關(guān)鍵詞布局、內容及鏈接建設等,是可以有效獲得理想的自然排位的。應該說(shuō)不存在的單純的網(wǎng)站優(yōu)化,其一定是配合網(wǎng)站安全維護和內容維護同步進(jìn)行。

基于C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 291 次瀏覽 ? 2020-05-28 08:01 ? 來(lái)自相關(guān)話(huà)題

  基于 C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現的研究綜述作者:xxx 指導老師:xxx摘要:本文歸納了網(wǎng)路爬蟲(chóng)的設計與實(shí)現方面的研究?jì)热?,概括了網(wǎng)路爬蟲(chóng)的定 摘要 義與爬取策略、網(wǎng)絡(luò )爬蟲(chóng)的體系結構、設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)身分的 識別等方面的觀(guān)點(diǎn),并總結了怎樣通過(guò)一個(gè)或多個(gè)給定的種子網(wǎng)站,將網(wǎng)站上相 應的網(wǎng)頁(yè)抓取出來(lái),并將其存入數據庫或文本文件中的研究成果。本文也強調了 如何通過(guò)解決傳統的通用搜索引擎在個(gè)別領(lǐng)域的局限性, 幫助人們愈加有效地提 取與借助互聯(lián)網(wǎng)信息,進(jìn)而提升人們在檢索信息效率方面的研究需求。最后,本 文提出了一個(gè)滿(mǎn)足用戶(hù)需求的網(wǎng)路爬蟲(chóng)的開(kāi)發(fā)方案。 關(guān)鍵詞:網(wǎng)絡(luò )爬蟲(chóng) ;通用搜索引擎 ;互聯(lián)網(wǎng) 關(guān)鍵詞The Design and Implementation of Web Spider Based on C++Author:xxxTutor: xxx Abstract:This paper summarizes the research about the design and implementation of the web spider, summarizesthe view aboutthe definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider ,and summarizes the research about how to catch the web-pages which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’sresearch needs in the area of information retrieval. In the end, the paper proposesa web spider development planwhich can meet the user’s needs. Keywords:WebSpiders ;Tradition Universal Search Engine ; Internet隨著(zhù)網(wǎng)路技術(shù)的發(fā)展,信息的提取與借助在人們的日常生活中越來(lái)越重要。
  搜索 引擎因為才能從廣袤的網(wǎng)路資源中給用戶(hù)提供對用戶(hù)有用的信息而獲得長(cháng)足的 發(fā)展,自誕生以來(lái),搜索引擎獲得了越來(lái)越多用戶(hù)的追捧,成為人們日常生活中 檢索信息必不可少的搜索工具。 研究背景 隨著(zhù)經(jīng)濟社會(huì )的發(fā)展,人們對信息搜索提出了更高的要求。傳統搜索引擎c++網(wǎng)絡(luò )爬蟲(chóng), 例如傳統的通用搜索引擎 AltaVista,Yahoo!和 Google 大都是基于關(guān)鍵字的檢 索,對按照語(yǔ)義信息提出的查詢(xún)卻無(wú)能為力,搜索結果往往包含大量用戶(hù)并不關(guān) 心的網(wǎng)頁(yè);隨著(zhù)萬(wàn)維網(wǎng)的數據方式的不斷豐富與網(wǎng)路技術(shù)的不斷發(fā)展,圖片、數 據庫、音頻及視頻多媒體等不同數據方式大量出現,傳統搜索引擎對這種信息含 量密集且具有一定數據結構的數據不能挺好的獲取和發(fā)覺(jué)。另外,傳統搜索引擎 有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)路數據資源之間的矛盾也日漸突出。 為了解決這種問(wèn)題,人們設計實(shí)現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站,定向抓 取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)路爬蟲(chóng)。網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)下載網(wǎng)頁(yè)的程序,它按照既定 的抓取目標,有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所須要的信息。 它并不追求大的覆蓋率,而將目標定為抓取與某一特定主題內容相關(guān)的網(wǎng)頁(yè),為 面向主題的用戶(hù)查詢(xún)打算數據資源。
   1.網(wǎng)絡(luò )爬蟲(chóng)的定義及爬行策略 一個(gè)網(wǎng)路蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪(fǎng)問(wèn)的 URL 鏈接開(kāi)始,可以稱(chēng)這種 URL 為種子。爬蟲(chóng)訪(fǎng)問(wèn)那些鏈接,它分辨出這種頁(yè)面 的所有超鏈接,然后添加到這個(gè) URL 列表,可以比作檢索前沿。這些 URL 按照一 定的策略反復訪(fǎng)問(wèn),直到滿(mǎn)足一定的條件結束。其工作流程如下:圖 1 網(wǎng)絡(luò )爬蟲(chóng)的工作流程網(wǎng)頁(yè)爬蟲(chóng)的行為一般是四種策略組合的結果。這四種策略分別是選擇策略、 重新訪(fǎng)問(wèn)策略、平衡禮貌策略、并行策略。其中,選擇策略,用來(lái)決定所要下載 的頁(yè)面; 重新訪(fǎng)問(wèn)策略, 用來(lái)決定什么時(shí)候檢測頁(yè)面的更新變化; 平衡禮貌策略, 指出如何防止站點(diǎn)超員;并行策略,指出如何協(xié)同達到分布式抓取的療效。 2.網(wǎng)絡(luò )爬蟲(chóng)體系結構 網(wǎng)絡(luò )爬蟲(chóng)的結構主要分為以下幾個(gè)部份: (1)下載模塊,(2)網(wǎng)頁(yè)剖析模塊, (3) URL去重模塊,(4) URL分配模塊, 如圖2所示:圖2系統構架圖2.1下載模塊 下載模塊負責抓取網(wǎng)頁(yè), 是整個(gè)系統的基本與關(guān)鍵部份,直接影響爬行療效。 該模塊通常包含3 個(gè)子模塊: (1) 下載線(xiàn)程; (2) Host控制子模塊; (3) DNS 解 析子模塊。
   2.2網(wǎng)頁(yè)剖析模塊 網(wǎng)頁(yè)剖析主要是內容剖析和鏈接抽取。 網(wǎng)頁(yè)中有很多不同的編碼格式, 這些 格式來(lái)自不同的文本( 簡(jiǎn)體中文、繁體英文、英文等) 。這些不同的文本信息會(huì ) 影響到后續的正文抽取和副詞等模塊。網(wǎng)頁(yè)剖析中須要考慮到這類(lèi)問(wèn)題。 HTML,XML網(wǎng)頁(yè)不僅標題和正文以外, 會(huì )有許多版權信息、 廣告鏈接以及公共 的頻道鏈接, 這些鏈接和文本通常沒(méi)有很大的價(jià)值, 在提取網(wǎng)頁(yè)內容的時(shí)侯,需 要過(guò)濾這種無(wú)用的鏈接。對于DOC, PPT, XLS, PDF 等帶格式的文件, 網(wǎng)絡(luò )爬蟲(chóng) 都要提取出文件里的純文本內容。對于多媒體、圖片等文件, 一般是通過(guò)鏈接的 錨文本( 即鏈接文本) 和相關(guān)的文件注釋來(lái)判定那些文件的內容。 2.3 URL去重模塊 在下載的過(guò)程中, 不可防止地會(huì )碰到重復的鏈接, 如何去除那些重復的鏈 接, 是個(gè)很復雜的議程。URL的去重可以說(shuō)是爬蟲(chóng)系統中最重要的一部分, 直接 影響爬行效率和療效。 目前主流網(wǎng)路爬蟲(chóng)的URL 去重機制主要有兩種方法: (1) 完全顯存形式; (2) 基于c盤(pán)的緩存方法。完全顯存形式就是指估算URL 的Hash 值, 一般用4 至6個(gè)字節表示, 這樣10 億個(gè)網(wǎng)頁(yè)的URL 就須要5 到8個(gè)G的顯存。
   另一種方法是開(kāi)一個(gè)大鏈表進(jìn)行按位驗證, 這樣只需后者八分之一的顯存, 但有可能錯判, 且誤判率隨著(zhù)爬行規模的減小而提升。 基于c盤(pán)的緩存方法則是將大部分數據放 在c盤(pán)上, 內存里儲存一個(gè)緩存, 然后按照策略更新緩存。 由于c盤(pán)的速率比內 存慢一個(gè)數量級, 一旦所查URL不命中緩存, 就必須在c盤(pán)中進(jìn)行查找, 從而大 大影響效率。 2.4 URL分配模塊 抓取的效率主要依賴(lài)于硬件資源、網(wǎng)絡(luò )的帶寬以及程序執行效率等。普通單 處理機系統受限于CPU 的處理能力、 磁盤(pán)存儲的容量, 不可能具備處理海量信息 的能力, 這就要求Crawler 支持分布式協(xié)同工作。 URL 分配模塊主要考慮兩個(gè)問(wèn)題: (1) 在節點(diǎn)間界定URL的策略, 即怎樣分 配下載任務(wù);(2) 優(yōu)化性能, 比如負載均衡、協(xié)同工作的開(kāi)支等。 3.設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題 3.1 可伸縮性 面對網(wǎng)路上數以萬(wàn)億計的網(wǎng)頁(yè), 使用有限的資源運轉一個(gè)高性能、 可伸縮的 Crawler 是一個(gè)首要任務(wù)。完成這項任務(wù)一般有3 點(diǎn)要求。首先, 采用的算法和 數據結構要才能支持Crawler 處理海量的網(wǎng)頁(yè)。 其次, 在有限資源下, 爬行的平 均速率必須維持一個(gè)較高的水平。
   第三, 在添加硬件的情況下, 性能才能得到線(xiàn) 性下降。 在效率方面, 由于網(wǎng)絡(luò )爬蟲(chóng)可以看成是一個(gè)生產(chǎn)者消費者模型, 如何讓 各個(gè)模塊協(xié)調工作, 以達到最佳性能, 也是一個(gè)嚴重的挑戰。 3.2 提高下載質(zhì)量 網(wǎng)絡(luò )爬蟲(chóng)的目標是抓取互聯(lián)網(wǎng)上所有有價(jià)值的網(wǎng)頁(yè)。 哪些網(wǎng)頁(yè)有價(jià)值, 如何 抓取這種網(wǎng)頁(yè), 這些問(wèn)題須要對網(wǎng)頁(yè)的質(zhì)量有一個(gè)較為全面的評價(jià)。 而評價(jià)標準 主要依賴(lài)對互聯(lián)網(wǎng)和用戶(hù)需求的理解。其中, 主要包括以下幾個(gè)方面的問(wèn)題: ①網(wǎng)頁(yè)之間的鏈接關(guān)系。 ②URL 本身的質(zhì)量。 ③網(wǎng)頁(yè)重復情況。 ④網(wǎng)頁(yè)內容的評價(jià)。 3.3 網(wǎng)頁(yè)更新 目前網(wǎng)頁(yè)更新的方法有兩種: 一種是周期性進(jìn)行更新。 Crawler 第一次爬行 到設定好的規模后, 停止爬行, 然后每隔一段( 固定的) 時(shí)間對本地的索引數 據庫網(wǎng)頁(yè)進(jìn)行一次全面的信息更新維護, 即替換掉陳舊的信息, 加入新生成的 網(wǎng)頁(yè)。更新周期通常以禮拜或月為計量單位。我們稱(chēng)這些為周期性Crawler。另 一種是增量式信息更新方式。 因為互聯(lián)網(wǎng)中包含的大量網(wǎng)頁(yè)的更新周期是不一致 的, 有的變化無(wú)常, 有的非常穩定。 因此應當以網(wǎng)頁(yè)的變化周期作為進(jìn)行有效性 驗證的根據。
   在每一次網(wǎng)頁(yè)的更新過(guò)程中, 只對這些最有可能發(fā)生變化的網(wǎng)頁(yè)進(jìn) 行更新, 以不同的頻度更新不同的網(wǎng)頁(yè)。Crawler會(huì )仍然不停地爬行, 更新陳舊 的網(wǎng)頁(yè), 并用新的更重要的網(wǎng)頁(yè)替換掉次重要的網(wǎng)頁(yè)。 我們稱(chēng)采用這些方法的爬蟲(chóng)為增量式Crawler。 從理論上來(lái)講, 增量式Crawler比周期性Crawler 效率更高。 但怎么確定每位網(wǎng)頁(yè)的更新頻度, 是一個(gè)難點(diǎn)。 4.爬蟲(chóng)身分辨識 網(wǎng)絡(luò )爬蟲(chóng)通過(guò)使用 http 請求的用戶(hù)代理數組來(lái)向網(wǎng)路服務(wù)器表明她們的 身份。網(wǎng)絡(luò )管理員則通過(guò)檢測網(wǎng)路服務(wù)器的日志,使用用戶(hù)代理數組來(lái)辨別哪一 個(gè)爬蟲(chóng)以前訪(fǎng)問(wèn)過(guò)以及它訪(fǎng)問(wèn)的頻度。 用戶(hù)代理數組可能會(huì )包含一個(gè)可以使管理 員獲取爬蟲(chóng)更多信息的 URL。郵件抓取器和其他懷有惡意的網(wǎng)路爬蟲(chóng)一般不會(huì )留 任何的用戶(hù)代理數組內容, 或者她們也會(huì )將她們的身分偽裝成瀏覽器或則其他的 知名爬蟲(chóng)。 5.開(kāi)發(fā)工具介紹 5.1 Windows .NET Framework 2.0 開(kāi)發(fā)平臺 NET Framework 是支持生成和運行下一代應用程序和 XML Web services 的內部 Windows 組件。NET Framework 主要包含一個(gè)特別大的代碼庫,可以在顧客語(yǔ)言 ( 如 C++) 中 通 過(guò) 面 向 對 象 編 程 技 術(shù) (OOP) 來(lái) 使 用 這 些 代 碼 。
   這 個(gè) 部 分 .NET Framework 庫定義了一些基本類(lèi)型。庫分為不同的模塊,這樣就可以按照希望得 到的結果來(lái)選擇使用其中的各個(gè)部份。 5.2 開(kāi)發(fā)工具 C++ C++是由 C 子語(yǔ)言、 面向對象的 C++、 泛型編程語(yǔ)言和 STL (C++標準模板庫, Standard Template Library)組成的程序設計語(yǔ)言。C++支持 C 語(yǔ)言的幾乎全部 功能,在句型上與 C 語(yǔ)言?xún)H有極微妙的差異。C++強大(但容易失控的)模板功 能使它能在編譯期完成許多工作,從而大大提升運行期效率。隨著(zhù) STL 的不斷發(fā) 展,它早已漸漸成為 C++程序設計中不可或缺的部份,其效率可能比通常的 native 代碼低些,但是其安全性與規范性讓它大受歡迎。 5.3 后臺數據庫 ACCESS 數據庫 Microsoft Office Access(前名 Microsoft Access)是由谷歌發(fā)布的關(guān)聯(lián) 式數據庫管理系統。它結合了 Microsoft Jet Database Engine 和 圖形用戶(hù)界 面兩項特征,是 Microsoft Office 的成員之一。它簡(jiǎn)單易用,可以勝任小批量 的查詢(xún)工作。
   三、總結 本文分別從目前搜索引擎的發(fā)展現況、網(wǎng)絡(luò )爬蟲(chóng)的定義、爬行策略、爬蟲(chóng)的體系 結構、 設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)的身分辨識等方面介紹了怎樣設計一個(gè) 網(wǎng)絡(luò )爬蟲(chóng),另外本文也從開(kāi)發(fā)所需的操作系統、開(kāi)發(fā)工具以及所涉及到的數據庫 技術(shù)等方面簡(jiǎn)單介紹了怎樣實(shí)現一個(gè)網(wǎng)絡(luò )爬蟲(chóng), 并最終確立了使用 Windows .NET Framework 2.0 開(kāi)發(fā)平臺、C++與 ACCESS 的開(kāi)發(fā)方案。本文的最終目標是設計實(shí) 現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站, 定向抓取相關(guān)網(wǎng)頁(yè)資源并將其內容存入數 據庫或文本文件中的網(wǎng)路爬蟲(chóng)。參考文獻:[1] 劉金紅,陸余良.主題網(wǎng)路爬蟲(chóng)研究綜述[J].計算機應用研究,2007,(10):70-79. [2] 羅剛,王振東. 自己動(dòng)手寫(xiě)網(wǎng)路爬蟲(chóng)[M].清華大學(xué)出版社,2010c++網(wǎng)絡(luò )爬蟲(chóng),(10). [3] 大連海事大學(xué)計算機科學(xué)與技術(shù)學(xué)院.主題搜索引擎中網(wǎng)路爬蟲(chóng)的搜索策略研究[J].計算 機工程與科學(xué),2008,(03):44-46. [4] 羅剛.自己動(dòng)手寫(xiě)搜索引擎[M].電子工業(yè)出版社,2009,(11). [5] 鄭志高,劉慶圣,陳立彬.基于主題網(wǎng)路爬蟲(chóng)的網(wǎng)路學(xué)習資源搜集平臺的設計[J].中國教 育信息化,2010,(01):55-67. [6] 汪濤,樊孝忠.主題爬蟲(chóng)的設計與實(shí)現[J].計算機應用,2004,(S1):110-121. [7] 汪濤,樊孝忠.鏈接分析對主題爬蟲(chóng)的改進(jìn)[J].計算機應用,2004,(S2):55-70. [8] 尹江, 尹治本, 黃洪.網(wǎng)絡(luò )爬蟲(chóng)效率困局的剖析與解決方案[J].計算機應用, 2008, (5):20-31. [9] 汪濤, 樊孝忠, 顧益軍, 劉林.基于概念剖析的主題爬蟲(chóng)設計[J].北京理工大學(xué)學(xué)報, 2004, (10):33-41. [10] 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕.中文搜索引擎概念檢索初探[J]. 計算機 工程與應用,2000,(06):66-75. [11] 潘春華,馮太明,武港山.基于聯(lián)通爬蟲(chóng)的專(zhuān)用 Web 信息搜集系統的設計[J].計算機工程 與應用,2003,(36):99-109. [12] 赫楓齡, 左萬(wàn)利.利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J].吉林大學(xué)學(xué)報(信息科學(xué) 版),2005,(01):100-108. 查看全部

  基于 C++的網(wǎng)路爬蟲(chóng)的設計與實(shí)現的研究綜述作者:xxx 指導老師:xxx摘要:本文歸納了網(wǎng)路爬蟲(chóng)的設計與實(shí)現方面的研究?jì)热?,概括了網(wǎng)路爬蟲(chóng)的定 摘要 義與爬取策略、網(wǎng)絡(luò )爬蟲(chóng)的體系結構、設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)身分的 識別等方面的觀(guān)點(diǎn),并總結了怎樣通過(guò)一個(gè)或多個(gè)給定的種子網(wǎng)站,將網(wǎng)站上相 應的網(wǎng)頁(yè)抓取出來(lái),并將其存入數據庫或文本文件中的研究成果。本文也強調了 如何通過(guò)解決傳統的通用搜索引擎在個(gè)別領(lǐng)域的局限性, 幫助人們愈加有效地提 取與借助互聯(lián)網(wǎng)信息,進(jìn)而提升人們在檢索信息效率方面的研究需求。最后,本 文提出了一個(gè)滿(mǎn)足用戶(hù)需求的網(wǎng)路爬蟲(chóng)的開(kāi)發(fā)方案。 關(guān)鍵詞:網(wǎng)絡(luò )爬蟲(chóng) ;通用搜索引擎 ;互聯(lián)網(wǎng) 關(guān)鍵詞The Design and Implementation of Web Spider Based on C++Author:xxxTutor: xxx Abstract:This paper summarizes the research about the design and implementation of the web spider, summarizesthe view aboutthe definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider ,and summarizes the research about how to catch the web-pages which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’sresearch needs in the area of information retrieval. In the end, the paper proposesa web spider development planwhich can meet the user’s needs. Keywords:WebSpiders ;Tradition Universal Search Engine ; Internet隨著(zhù)網(wǎng)路技術(shù)的發(fā)展,信息的提取與借助在人們的日常生活中越來(lái)越重要。
  搜索 引擎因為才能從廣袤的網(wǎng)路資源中給用戶(hù)提供對用戶(hù)有用的信息而獲得長(cháng)足的 發(fā)展,自誕生以來(lái),搜索引擎獲得了越來(lái)越多用戶(hù)的追捧,成為人們日常生活中 檢索信息必不可少的搜索工具。 研究背景 隨著(zhù)經(jīng)濟社會(huì )的發(fā)展,人們對信息搜索提出了更高的要求。傳統搜索引擎c++網(wǎng)絡(luò )爬蟲(chóng), 例如傳統的通用搜索引擎 AltaVista,Yahoo!和 Google 大都是基于關(guān)鍵字的檢 索,對按照語(yǔ)義信息提出的查詢(xún)卻無(wú)能為力,搜索結果往往包含大量用戶(hù)并不關(guān) 心的網(wǎng)頁(yè);隨著(zhù)萬(wàn)維網(wǎng)的數據方式的不斷豐富與網(wǎng)路技術(shù)的不斷發(fā)展,圖片、數 據庫、音頻及視頻多媒體等不同數據方式大量出現,傳統搜索引擎對這種信息含 量密集且具有一定數據結構的數據不能挺好的獲取和發(fā)覺(jué)。另外,傳統搜索引擎 有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)路數據資源之間的矛盾也日漸突出。 為了解決這種問(wèn)題,人們設計實(shí)現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站,定向抓 取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)路爬蟲(chóng)。網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)下載網(wǎng)頁(yè)的程序,它按照既定 的抓取目標,有選擇的訪(fǎng)問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所須要的信息。 它并不追求大的覆蓋率,而將目標定為抓取與某一特定主題內容相關(guān)的網(wǎng)頁(yè),為 面向主題的用戶(hù)查詢(xún)打算數據資源。
   1.網(wǎng)絡(luò )爬蟲(chóng)的定義及爬行策略 一個(gè)網(wǎng)路蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪(fǎng)問(wèn)的 URL 鏈接開(kāi)始,可以稱(chēng)這種 URL 為種子。爬蟲(chóng)訪(fǎng)問(wèn)那些鏈接,它分辨出這種頁(yè)面 的所有超鏈接,然后添加到這個(gè) URL 列表,可以比作檢索前沿。這些 URL 按照一 定的策略反復訪(fǎng)問(wèn),直到滿(mǎn)足一定的條件結束。其工作流程如下:圖 1 網(wǎng)絡(luò )爬蟲(chóng)的工作流程網(wǎng)頁(yè)爬蟲(chóng)的行為一般是四種策略組合的結果。這四種策略分別是選擇策略、 重新訪(fǎng)問(wèn)策略、平衡禮貌策略、并行策略。其中,選擇策略,用來(lái)決定所要下載 的頁(yè)面; 重新訪(fǎng)問(wèn)策略, 用來(lái)決定什么時(shí)候檢測頁(yè)面的更新變化; 平衡禮貌策略, 指出如何防止站點(diǎn)超員;并行策略,指出如何協(xié)同達到分布式抓取的療效。 2.網(wǎng)絡(luò )爬蟲(chóng)體系結構 網(wǎng)絡(luò )爬蟲(chóng)的結構主要分為以下幾個(gè)部份: (1)下載模塊,(2)網(wǎng)頁(yè)剖析模塊, (3) URL去重模塊,(4) URL分配模塊, 如圖2所示:圖2系統構架圖2.1下載模塊 下載模塊負責抓取網(wǎng)頁(yè), 是整個(gè)系統的基本與關(guān)鍵部份,直接影響爬行療效。 該模塊通常包含3 個(gè)子模塊: (1) 下載線(xiàn)程; (2) Host控制子模塊; (3) DNS 解 析子模塊。
   2.2網(wǎng)頁(yè)剖析模塊 網(wǎng)頁(yè)剖析主要是內容剖析和鏈接抽取。 網(wǎng)頁(yè)中有很多不同的編碼格式, 這些 格式來(lái)自不同的文本( 簡(jiǎn)體中文、繁體英文、英文等) 。這些不同的文本信息會(huì ) 影響到后續的正文抽取和副詞等模塊。網(wǎng)頁(yè)剖析中須要考慮到這類(lèi)問(wèn)題。 HTML,XML網(wǎng)頁(yè)不僅標題和正文以外, 會(huì )有許多版權信息、 廣告鏈接以及公共 的頻道鏈接, 這些鏈接和文本通常沒(méi)有很大的價(jià)值, 在提取網(wǎng)頁(yè)內容的時(shí)侯,需 要過(guò)濾這種無(wú)用的鏈接。對于DOC, PPT, XLS, PDF 等帶格式的文件, 網(wǎng)絡(luò )爬蟲(chóng) 都要提取出文件里的純文本內容。對于多媒體、圖片等文件, 一般是通過(guò)鏈接的 錨文本( 即鏈接文本) 和相關(guān)的文件注釋來(lái)判定那些文件的內容。 2.3 URL去重模塊 在下載的過(guò)程中, 不可防止地會(huì )碰到重復的鏈接, 如何去除那些重復的鏈 接, 是個(gè)很復雜的議程。URL的去重可以說(shuō)是爬蟲(chóng)系統中最重要的一部分, 直接 影響爬行效率和療效。 目前主流網(wǎng)路爬蟲(chóng)的URL 去重機制主要有兩種方法: (1) 完全顯存形式; (2) 基于c盤(pán)的緩存方法。完全顯存形式就是指估算URL 的Hash 值, 一般用4 至6個(gè)字節表示, 這樣10 億個(gè)網(wǎng)頁(yè)的URL 就須要5 到8個(gè)G的顯存。
   另一種方法是開(kāi)一個(gè)大鏈表進(jìn)行按位驗證, 這樣只需后者八分之一的顯存, 但有可能錯判, 且誤判率隨著(zhù)爬行規模的減小而提升。 基于c盤(pán)的緩存方法則是將大部分數據放 在c盤(pán)上, 內存里儲存一個(gè)緩存, 然后按照策略更新緩存。 由于c盤(pán)的速率比內 存慢一個(gè)數量級, 一旦所查URL不命中緩存, 就必須在c盤(pán)中進(jìn)行查找, 從而大 大影響效率。 2.4 URL分配模塊 抓取的效率主要依賴(lài)于硬件資源、網(wǎng)絡(luò )的帶寬以及程序執行效率等。普通單 處理機系統受限于CPU 的處理能力、 磁盤(pán)存儲的容量, 不可能具備處理海量信息 的能力, 這就要求Crawler 支持分布式協(xié)同工作。 URL 分配模塊主要考慮兩個(gè)問(wèn)題: (1) 在節點(diǎn)間界定URL的策略, 即怎樣分 配下載任務(wù);(2) 優(yōu)化性能, 比如負載均衡、協(xié)同工作的開(kāi)支等。 3.設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題 3.1 可伸縮性 面對網(wǎng)路上數以萬(wàn)億計的網(wǎng)頁(yè), 使用有限的資源運轉一個(gè)高性能、 可伸縮的 Crawler 是一個(gè)首要任務(wù)。完成這項任務(wù)一般有3 點(diǎn)要求。首先, 采用的算法和 數據結構要才能支持Crawler 處理海量的網(wǎng)頁(yè)。 其次, 在有限資源下, 爬行的平 均速率必須維持一個(gè)較高的水平。
   第三, 在添加硬件的情況下, 性能才能得到線(xiàn) 性下降。 在效率方面, 由于網(wǎng)絡(luò )爬蟲(chóng)可以看成是一個(gè)生產(chǎn)者消費者模型, 如何讓 各個(gè)模塊協(xié)調工作, 以達到最佳性能, 也是一個(gè)嚴重的挑戰。 3.2 提高下載質(zhì)量 網(wǎng)絡(luò )爬蟲(chóng)的目標是抓取互聯(lián)網(wǎng)上所有有價(jià)值的網(wǎng)頁(yè)。 哪些網(wǎng)頁(yè)有價(jià)值, 如何 抓取這種網(wǎng)頁(yè), 這些問(wèn)題須要對網(wǎng)頁(yè)的質(zhì)量有一個(gè)較為全面的評價(jià)。 而評價(jià)標準 主要依賴(lài)對互聯(lián)網(wǎng)和用戶(hù)需求的理解。其中, 主要包括以下幾個(gè)方面的問(wèn)題: ①網(wǎng)頁(yè)之間的鏈接關(guān)系。 ②URL 本身的質(zhì)量。 ③網(wǎng)頁(yè)重復情況。 ④網(wǎng)頁(yè)內容的評價(jià)。 3.3 網(wǎng)頁(yè)更新 目前網(wǎng)頁(yè)更新的方法有兩種: 一種是周期性進(jìn)行更新。 Crawler 第一次爬行 到設定好的規模后, 停止爬行, 然后每隔一段( 固定的) 時(shí)間對本地的索引數 據庫網(wǎng)頁(yè)進(jìn)行一次全面的信息更新維護, 即替換掉陳舊的信息, 加入新生成的 網(wǎng)頁(yè)。更新周期通常以禮拜或月為計量單位。我們稱(chēng)這些為周期性Crawler。另 一種是增量式信息更新方式。 因為互聯(lián)網(wǎng)中包含的大量網(wǎng)頁(yè)的更新周期是不一致 的, 有的變化無(wú)常, 有的非常穩定。 因此應當以網(wǎng)頁(yè)的變化周期作為進(jìn)行有效性 驗證的根據。
   在每一次網(wǎng)頁(yè)的更新過(guò)程中, 只對這些最有可能發(fā)生變化的網(wǎng)頁(yè)進(jìn) 行更新, 以不同的頻度更新不同的網(wǎng)頁(yè)。Crawler會(huì )仍然不停地爬行, 更新陳舊 的網(wǎng)頁(yè), 并用新的更重要的網(wǎng)頁(yè)替換掉次重要的網(wǎng)頁(yè)。 我們稱(chēng)采用這些方法的爬蟲(chóng)為增量式Crawler。 從理論上來(lái)講, 增量式Crawler比周期性Crawler 效率更高。 但怎么確定每位網(wǎng)頁(yè)的更新頻度, 是一個(gè)難點(diǎn)。 4.爬蟲(chóng)身分辨識 網(wǎng)絡(luò )爬蟲(chóng)通過(guò)使用 http 請求的用戶(hù)代理數組來(lái)向網(wǎng)路服務(wù)器表明她們的 身份。網(wǎng)絡(luò )管理員則通過(guò)檢測網(wǎng)路服務(wù)器的日志,使用用戶(hù)代理數組來(lái)辨別哪一 個(gè)爬蟲(chóng)以前訪(fǎng)問(wèn)過(guò)以及它訪(fǎng)問(wèn)的頻度。 用戶(hù)代理數組可能會(huì )包含一個(gè)可以使管理 員獲取爬蟲(chóng)更多信息的 URL。郵件抓取器和其他懷有惡意的網(wǎng)路爬蟲(chóng)一般不會(huì )留 任何的用戶(hù)代理數組內容, 或者她們也會(huì )將她們的身分偽裝成瀏覽器或則其他的 知名爬蟲(chóng)。 5.開(kāi)發(fā)工具介紹 5.1 Windows .NET Framework 2.0 開(kāi)發(fā)平臺 NET Framework 是支持生成和運行下一代應用程序和 XML Web services 的內部 Windows 組件。NET Framework 主要包含一個(gè)特別大的代碼庫,可以在顧客語(yǔ)言 ( 如 C++) 中 通 過(guò) 面 向 對 象 編 程 技 術(shù) (OOP) 來(lái) 使 用 這 些 代 碼 。
   這 個(gè) 部 分 .NET Framework 庫定義了一些基本類(lèi)型。庫分為不同的模塊,這樣就可以按照希望得 到的結果來(lái)選擇使用其中的各個(gè)部份。 5.2 開(kāi)發(fā)工具 C++ C++是由 C 子語(yǔ)言、 面向對象的 C++、 泛型編程語(yǔ)言和 STL (C++標準模板庫, Standard Template Library)組成的程序設計語(yǔ)言。C++支持 C 語(yǔ)言的幾乎全部 功能,在句型上與 C 語(yǔ)言?xún)H有極微妙的差異。C++強大(但容易失控的)模板功 能使它能在編譯期完成許多工作,從而大大提升運行期效率。隨著(zhù) STL 的不斷發(fā) 展,它早已漸漸成為 C++程序設計中不可或缺的部份,其效率可能比通常的 native 代碼低些,但是其安全性與規范性讓它大受歡迎。 5.3 后臺數據庫 ACCESS 數據庫 Microsoft Office Access(前名 Microsoft Access)是由谷歌發(fā)布的關(guān)聯(lián) 式數據庫管理系統。它結合了 Microsoft Jet Database Engine 和 圖形用戶(hù)界 面兩項特征,是 Microsoft Office 的成員之一。它簡(jiǎn)單易用,可以勝任小批量 的查詢(xún)工作。
   三、總結 本文分別從目前搜索引擎的發(fā)展現況、網(wǎng)絡(luò )爬蟲(chóng)的定義、爬行策略、爬蟲(chóng)的體系 結構、 設計網(wǎng)路爬蟲(chóng)的關(guān)鍵問(wèn)題以及爬蟲(chóng)的身分辨識等方面介紹了怎樣設計一個(gè) 網(wǎng)絡(luò )爬蟲(chóng),另外本文也從開(kāi)發(fā)所需的操作系統、開(kāi)發(fā)工具以及所涉及到的數據庫 技術(shù)等方面簡(jiǎn)單介紹了怎樣實(shí)現一個(gè)網(wǎng)絡(luò )爬蟲(chóng), 并最終確立了使用 Windows .NET Framework 2.0 開(kāi)發(fā)平臺、C++與 ACCESS 的開(kāi)發(fā)方案。本文的最終目標是設計實(shí) 現一個(gè)才能依據用戶(hù)提供的種子網(wǎng)站, 定向抓取相關(guān)網(wǎng)頁(yè)資源并將其內容存入數 據庫或文本文件中的網(wǎng)路爬蟲(chóng)。參考文獻:[1] 劉金紅,陸余良.主題網(wǎng)路爬蟲(chóng)研究綜述[J].計算機應用研究,2007,(10):70-79. [2] 羅剛,王振東. 自己動(dòng)手寫(xiě)網(wǎng)路爬蟲(chóng)[M].清華大學(xué)出版社,2010c++網(wǎng)絡(luò )爬蟲(chóng),(10). [3] 大連海事大學(xué)計算機科學(xué)與技術(shù)學(xué)院.主題搜索引擎中網(wǎng)路爬蟲(chóng)的搜索策略研究[J].計算 機工程與科學(xué),2008,(03):44-46. [4] 羅剛.自己動(dòng)手寫(xiě)搜索引擎[M].電子工業(yè)出版社,2009,(11). [5] 鄭志高,劉慶圣,陳立彬.基于主題網(wǎng)路爬蟲(chóng)的網(wǎng)路學(xué)習資源搜集平臺的設計[J].中國教 育信息化,2010,(01):55-67. [6] 汪濤,樊孝忠.主題爬蟲(chóng)的設計與實(shí)現[J].計算機應用,2004,(S1):110-121. [7] 汪濤,樊孝忠.鏈接分析對主題爬蟲(chóng)的改進(jìn)[J].計算機應用,2004,(S2):55-70. [8] 尹江, 尹治本, 黃洪.網(wǎng)絡(luò )爬蟲(chóng)效率困局的剖析與解決方案[J].計算機應用, 2008, (5):20-31. [9] 汪濤, 樊孝忠, 顧益軍, 劉林.基于概念剖析的主題爬蟲(chóng)設計[J].北京理工大學(xué)學(xué)報, 2004, (10):33-41. [10] 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕.中文搜索引擎概念檢索初探[J]. 計算機 工程與應用,2000,(06):66-75. [11] 潘春華,馮太明,武港山.基于聯(lián)通爬蟲(chóng)的專(zhuān)用 Web 信息搜集系統的設計[J].計算機工程 與應用,2003,(36):99-109. [12] 赫楓齡, 左萬(wàn)利.利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J].吉林大學(xué)學(xué)報(信息科學(xué) 版),2005,(01):100-108.

推薦一些33款開(kāi)源爬蟲(chóng)軟件

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 479 次瀏覽 ? 2020-05-13 08:03 ? 來(lái)自相關(guān)話(huà)題

  
  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理爬蟲(chóng)程序,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Java爬蟲(chóng)
  1、Arachnid
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  2、crawlzilla
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla不僅爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java SHELL
  操作系統: Linux
  項目主頁(yè):
  下載地址:
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  3、Ex-Crawler
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  4、Heritrix
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  5、heyDr
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  6、ItSucks
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  7、jcrawl
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email、qq。
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  8、JSpider
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi)極少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  授權合同: LGPL
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能強悍,容易擴充
  9、Leopdo
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  10、MetaSeeker
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分,可以分成:
 ?。?)服務(wù)器側:一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
 ?。?)客戶(hù)端:一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi)爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  MetaSeeker工具包是免費使用的,下載地址:
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  11、Playfish
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:1.下載一側的.war包導出到eclipse中, 2.使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。 4.然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  12、Spiderman
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  13、webmagic
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由黃億華貢獻
  14、Web-Harvest
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Java
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  15、WebSPHINX
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  16、YaCy
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: Java Perl
  操作系統:跨平臺
  特點(diǎn):基于P2P的分布式Web搜索引擎
  Python爬蟲(chóng)
  17、QuickRecon
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統: Windows Linux
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  18、PyRailgun
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺 Windows Linux OS X
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  #readme
  19、Scrapy
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  C++++爬蟲(chóng)
  20、hispider
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架,沒(méi)有細化需求,目前只是能提取URL, URL排重,異步DNS解析,隊列化任務(wù),支持N機分布式下載,支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  基于unix/linux系統的開(kāi)發(fā)
  異步DNS解析
  URL排重
  支持HTTP 壓縮編碼傳輸 gzip/deflate
  字符集判定手動(dòng)轉換成UTF-8編碼
  文檔壓縮儲存
  支持多下載節點(diǎn)分布式下載
  支持網(wǎng)站定向下載(需要配置 hispiderd.ini whitelist )
  可通過(guò) :3721/查看下載情況統計,下載任務(wù)控制(可停止和恢復任務(wù))
  依賴(lài)基本通訊庫libevbase 和 libsbase (安裝的時(shí)侯須要先安裝這個(gè)兩個(gè)庫).
  工作流程:
  從中心節點(diǎn)取URL(包括URL對應的任務(wù)號, IP和port,也可能須要自己解析)
  連接服務(wù)器發(fā)送懇求
  等待數據頭判定是否須要的數據(目前主要取text類(lèi)型的數據)
  等待完成數據(有length頭的直接等待說(shuō)明寬度的數據否則等待比較大的數字之后設置超時(shí))
  數據完成或則超時(shí), zlib壓縮數據返回給中心服務(wù)器,數據可能包括自己解析DNS信息,壓縮后數據寬度+壓縮后數據,如果出錯就直接返回任務(wù)號以及相關(guān)信息
  中心服務(wù)器收到帶有任務(wù)號的數據,查看是否包括數據,如果沒(méi)有數據直接置任務(wù)號對應的狀態(tài)為錯誤,如果有數據提取數據種link 然后儲存數據到文檔文件.
  完成后返回一個(gè)新的任務(wù).
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載,支持網(wǎng)站定向下載
  21、larbin
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它構建url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  22、Methabot
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Windows Linux
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  爬蟲(chóng)
  23、NWebCrawler
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  可配置:線(xiàn)程數,等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級,下載文件夾。
  統計信息:URL數目,總下載文件,總下載字節數,CPU利用率和可用顯存。
  Preferential crawler:用戶(hù)可以設置優(yōu)先級的MIME類(lèi)型。
  Robust: 10+ URL normalization rules, crawler trap avoiding rules.
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  24、Sinawler
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外爬蟲(chóng)程序,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費:拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布!該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力!以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!
  界面上提供參數設置,靈活便捷
  拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息
  自動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率
  任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)
  良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  25、spidernet
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持text/html資源的獲取.可以設定爬行深度,最大下載字節數限制,支持gzip解碼,支持以gbk(gb2312)和utf8編碼的資源;存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能,希望遞交你的代碼.
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  26、Web Crawler
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  授權合同: LGPL
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  27、網(wǎng)絡(luò )礦工
  網(wǎng)站數據采集軟件網(wǎng)路礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  PHP爬蟲(chóng)
  28、OpenWebSpider
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān)鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  30、ThinkUp
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  31、微購
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。 查看全部

  
  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理爬蟲(chóng)程序,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Java爬蟲(chóng)
  1、Arachnid
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  2、crawlzilla
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla不僅爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java SHELL
  操作系統: Linux
  項目主頁(yè):
  下載地址:
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  3、Ex-Crawler
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  4、Heritrix
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  5、heyDr
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  6、ItSucks
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  7、jcrawl
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email、qq。
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  8、JSpider
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi)極少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  授權合同: LGPL
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能強悍,容易擴充
  9、Leopdo
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  10、MetaSeeker
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分,可以分成:
 ?。?)服務(wù)器側:一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
 ?。?)客戶(hù)端:一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi)爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  MetaSeeker工具包是免費使用的,下載地址:
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  11、Playfish
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:1.下載一側的.war包導出到eclipse中, 2.使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫, 3.修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。 4.然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  12、Spiderman
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  13、webmagic
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  授權合同: Apache
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由黃億華貢獻
  14、Web-Harvest
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Java
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  15、WebSPHINX
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  16、YaCy
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: Java Perl
  操作系統:跨平臺
  特點(diǎn):基于P2P的分布式Web搜索引擎
  Python爬蟲(chóng)
  17、QuickRecon
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統: Windows Linux
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  18、PyRailgun
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺 Windows Linux OS X
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  #readme
  19、Scrapy
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: Python
  操作系統:跨平臺
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  C++++爬蟲(chóng)
  20、hispider
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架,沒(méi)有細化需求,目前只是能提取URL, URL排重,異步DNS解析,隊列化任務(wù),支持N機分布式下載,支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  基于unix/linux系統的開(kāi)發(fā)
  異步DNS解析
  URL排重
  支持HTTP 壓縮編碼傳輸 gzip/deflate
  字符集判定手動(dòng)轉換成UTF-8編碼
  文檔壓縮儲存
  支持多下載節點(diǎn)分布式下載
  支持網(wǎng)站定向下載(需要配置 hispiderd.ini whitelist )
  可通過(guò) :3721/查看下載情況統計,下載任務(wù)控制(可停止和恢復任務(wù))
  依賴(lài)基本通訊庫libevbase 和 libsbase (安裝的時(shí)侯須要先安裝這個(gè)兩個(gè)庫).
  工作流程:
  從中心節點(diǎn)取URL(包括URL對應的任務(wù)號, IP和port,也可能須要自己解析)
  連接服務(wù)器發(fā)送懇求
  等待數據頭判定是否須要的數據(目前主要取text類(lèi)型的數據)
  等待完成數據(有length頭的直接等待說(shuō)明寬度的數據否則等待比較大的數字之后設置超時(shí))
  數據完成或則超時(shí), zlib壓縮數據返回給中心服務(wù)器,數據可能包括自己解析DNS信息,壓縮后數據寬度+壓縮后數據,如果出錯就直接返回任務(wù)號以及相關(guān)信息
  中心服務(wù)器收到帶有任務(wù)號的數據,查看是否包括數據,如果沒(méi)有數據直接置任務(wù)號對應的狀態(tài)為錯誤,如果有數據提取數據種link 然后儲存數據到文檔文件.
  完成后返回一個(gè)新的任務(wù).
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載,支持網(wǎng)站定向下載
  21、larbin
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它構建url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  22、Methabot
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Windows Linux
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  爬蟲(chóng)
  23、NWebCrawler
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  可配置:線(xiàn)程數,等待時(shí)間,連接超時(shí),允許MIME類(lèi)型和優(yōu)先級,下載文件夾。
  統計信息:URL數目,總下載文件,總下載字節數,CPU利用率和可用顯存。
  Preferential crawler:用戶(hù)可以設置優(yōu)先級的MIME類(lèi)型。
  Robust: 10+ URL normalization rules, crawler trap avoiding rules.
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  24、Sinawler
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外爬蟲(chóng)程序,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費:拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布!該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力!以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!
  界面上提供參數設置,靈活便捷
  拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息
  自動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率
  任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)
  良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  25、spidernet
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持text/html資源的獲取.可以設定爬行深度,最大下載字節數限制,支持gzip解碼,支持以gbk(gb2312)和utf8編碼的資源;存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能,希望遞交你的代碼.
  授權合同: MIT
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  26、Web Crawler
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  開(kāi)發(fā)語(yǔ)言: Java
  操作系統:跨平臺
  授權合同: LGPL
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  27、網(wǎng)絡(luò )礦工
  網(wǎng)站數據采集軟件網(wǎng)路礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C#.NET
  操作系統: Windows
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  PHP爬蟲(chóng)
  28、OpenWebSpider
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  授權合同:未知
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān)鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  30、ThinkUp
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  授權合同: GPL
  開(kāi)發(fā)語(yǔ)言: PHP
  操作系統:跨平臺
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  31、微購
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。

33款可用來(lái)抓數據的開(kāi)源爬蟲(chóng)軟件工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 496 次瀏覽 ? 2020-05-07 08:02 ? 來(lái)自相關(guān)話(huà)題

  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla 除了爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java JavaScript SHELL
  操作系統: Linux
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email,qq.
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider 的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi) 很少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了 解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  特點(diǎn):功能強悍,容易擴充
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分網(wǎng)頁(yè)爬蟲(chóng)軟件,可以分成:
  服務(wù)器側:
  一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是網(wǎng)頁(yè)爬蟲(chóng)軟件,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
  客戶(hù)端:
  一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都 取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi) 爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:
  下載一側的.war包導出到eclipse中,使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫,修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由 黃億華貢獻
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  特點(diǎn):基于P2P的分布式Web搜索引擎
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架, 沒(méi)有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務(wù), 支持N機分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  工作流程:
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載, 支持網(wǎng)站定向下載
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就 是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它完善url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費: 拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。 你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布! 該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力! 以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!界面上提供參數設置,靈活便捷拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息手動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C# .NET
  操作系統: Windows
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能, 希望遞交你的代碼.
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置 過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  網(wǎng)站數據采集軟件 網(wǎng)絡(luò )礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān) 鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更 強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。 查看全部

  要玩大數據,沒(méi)有數據如何玩?這里推薦一些33款開(kāi)源爬蟲(chóng)軟件給你們。
  爬蟲(chóng),即網(wǎng)路爬蟲(chóng),是一種手動(dòng)獲取網(wǎng)頁(yè)內容的程序。是搜索引擎的重要組成部份,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲(chóng)而作出的優(yōu)化。
  網(wǎng)絡(luò )爬蟲(chóng)是一個(gè)手動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當前頁(yè)面上抽取新的URL裝入隊列,直到滿(mǎn)足系統的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復雜,需要按照一定的網(wǎng)頁(yè)剖析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其倒入等待抓取的URL隊列。然后,它將按照一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復上述過(guò)程,直到達到系統的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì )被系統儲存,進(jìn)行一定的剖析、過(guò)濾,并構建索引,以便以后的查詢(xún)和檢索;對于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的剖析結果還可能對之后的抓取過(guò)程給出反饋和指導。
  世界上已然成形的爬蟲(chóng)軟件多達上百種,本文對較為著(zhù)名及常見(jiàn)的開(kāi)源爬蟲(chóng)軟件進(jìn)行梳理,按開(kāi)發(fā)語(yǔ)言進(jìn)行匯總。雖然搜索引擎也有爬蟲(chóng),但本次我匯總的只是爬蟲(chóng)軟件,而非小型、復雜的搜索引擎,因為好多兄弟只是想爬取數據,而非營(yíng)運一個(gè)搜索引擎。
  
  Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡(jiǎn)單的HTML剖析器才能剖析包含HTML內容的輸入流.通過(guò)實(shí)現Arachnid的泛型才能夠開(kāi)發(fā)一個(gè)簡(jiǎn)單的Web spiders并才能在Web站上的每位頁(yè)面被解析然后降低幾行代碼調用。 Arachnid的下載包中包含兩個(gè)spider應用程序事例用于演示怎么使用該框架。
  特點(diǎn):微型爬蟲(chóng)框架,含有一個(gè)大型HTML解析器
  許可證:GPL
  crawlzilla 是一個(gè)幫你輕松構建搜索引擎的自由軟件,有了它,你就不用借助商業(yè)公司的搜索引擎,也不用再苦惱公司內部網(wǎng)站資料索引的問(wèn)題。
  由 nutch 專(zhuān)案為核心,并整合更多相關(guān)套件,并卡發(fā)設計安裝與管理UI,讓使用者更方便上手。
  crawlzilla 除了爬取基本的 html 外,還能剖析網(wǎng)頁(yè)上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁(yè)搜索引擎,而是網(wǎng)站的完整資料索引庫。
  擁有英文動(dòng)詞能力,讓你的搜索更精準。
  crawlzilla的特色與目標,最主要就是提供使用者一個(gè)便捷好用易安裝的搜索平臺。
  授權合同: Apache License 2
  開(kāi)發(fā)語(yǔ)言: Java JavaScript SHELL
  操作系統: Linux
  特點(diǎn):安裝簡(jiǎn)易,擁有英文動(dòng)詞功能
  Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項目分成兩部份,一個(gè)是守護進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數據庫儲存網(wǎng)頁(yè)信息。
  特點(diǎn):由守護進(jìn)程執行,使用數據庫儲存網(wǎng)頁(yè)信息
  Heritrix 是一個(gè)由 java 開(kāi)發(fā)的、開(kāi)源的網(wǎng)路爬蟲(chóng),用戶(hù)可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶(hù)實(shí)現自己的抓取邏輯。
  Heritrix采用的是模塊化的設計,各個(gè)模塊由一個(gè)控制器類(lèi)(CrawlController類(lèi))來(lái)協(xié)調,控制器是整體的核心。
  代碼托管:
  特點(diǎn):嚴格遵循robots文件的排除指示和META robots標簽
  
  heyDr是一款基于java的輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架,遵循GNU GPL V3合同。
  用戶(hù)可以通過(guò)heyDr建立自己的垂直資源爬蟲(chóng),用于搭建垂直搜索引擎前期的數據打算。
  特點(diǎn):輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
  ItSucks是一個(gè)java web spider(web機器人,爬蟲(chóng))開(kāi)源項目。支持通過(guò)下載模板和正則表達式來(lái)定義下載規則。提供一個(gè)swing GUI操作界面。
  特點(diǎn):提供swing GUI操作界面
  jcrawl是一款精巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件,基于用戶(hù)定義的符號,比如email,qq.
  特點(diǎn):輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各類(lèi)類(lèi)型的文件
  JSpider是一個(gè)用Java實(shí)現的WebSpider,JSpider的執行格式如下:
  jspider [ConfigName]
  URL一定要加上合同名稱(chēng),如:,否則會(huì )報錯。如果市掉ConfigName,則采用默認配置。
  JSpider 的行為是由配置文件具體配置的,比如采用哪些插件,結果儲存方法等等都在conf\[ConfigName]\目錄下設置。JSpider默認的配置種類(lèi) 很少,用途也不大。但是JSpider十分容易擴充,可以借助它開(kāi)發(fā)強悍的網(wǎng)頁(yè)抓取與數據剖析工具。要做到這種,需要對JSpider的原理有深入的了 解,然后按照自己的需求開(kāi)發(fā)插件,撰寫(xiě)配置文件。
  特點(diǎn):功能強悍,容易擴充
  用JAVA編撰的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  特點(diǎn):包括全文和分類(lèi)垂直搜索,以及動(dòng)詞系統
  是一套完整的網(wǎng)頁(yè)內容抓取、格式化、數據集成、存儲管理和搜索解決方案。
  網(wǎng)絡(luò )爬蟲(chóng)有多種實(shí)現方式,如果依照布署在哪里分網(wǎng)頁(yè)爬蟲(chóng)軟件,可以分成:
  服務(wù)器側:
  一般是一個(gè)多線(xiàn)程程序,同時(shí)下載多個(gè)目標HTML,可以用PHP, Java, Python(當前太流行)等做,可以速率做得很快,一般綜合搜索引擎的爬蟲(chóng)這樣做。但是網(wǎng)頁(yè)爬蟲(chóng)軟件,如果對方厭惡爬蟲(chóng),很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗損的帶寬也是很貴的。建議看一下Beautiful soap。
  客戶(hù)端:
  一般實(shí)現定題爬蟲(chóng),或者是聚焦爬蟲(chóng),做綜合搜索引擎不容易成功,而垂直搜訴或則比價(jià)服務(wù)或則推薦引擎,相對容易好多,這類(lèi)爬蟲(chóng)不是哪些頁(yè)面都 取的,而是只取你關(guān)系的頁(yè)面,而且只取頁(yè)面上關(guān)心的內容,例如提取黃頁(yè)信息,商品價(jià)錢(qián)信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類(lèi) 爬蟲(chóng)可以布署好多,而且可以挺有侵略性,對方很難封鎖。
  MetaSeeker中的網(wǎng)路爬蟲(chóng)就屬于前者。
  MetaSeeker工具包借助Mozilla平臺的能力,只要是Firefox見(jiàn)到的東西,它都能提取。
  特點(diǎn):網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
  playfish是一個(gè)采用java技術(shù),綜合應用多個(gè)開(kāi)源java組件實(shí)現的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性的網(wǎng)頁(yè)抓取工具
  應用開(kāi)源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。
  這個(gè)項目目前還挺不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正則表達式。目前通過(guò)這個(gè)工具可以抓取各種峰會(huì ),貼吧,以及各種CMS系統。像Discuz!,phpbb,論壇跟博客的文章,通過(guò)本工具都可以輕松抓取。抓取定義完全采用XML,適合Java開(kāi)發(fā)人員使用。
  使用方式:
  下載一側的.war包導出到eclipse中,使用WebContent/sql下的wcc.sql文件構建一個(gè)范例數據庫,修改src包下wcc.core的dbConfig.txt,將用戶(hù)名與密碼設置成你自己的mysql用戶(hù)名密碼。然后運行SystemCore,運行時(shí)侯會(huì )在控制臺,無(wú)參數會(huì )執行默認的example.xml的配置文件,帶參數時(shí)侯名稱(chēng)為配置文件名。
  系統自帶了3個(gè)事例,分別為baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一個(gè)采用 discuz峰會(huì )的內容。
  特點(diǎn):通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
  Spiderman 是一個(gè)基于微內核+插件式構架的網(wǎng)路蜘蛛,它的目標是通過(guò)簡(jiǎn)單的方式能夠將復雜的目標網(wǎng)頁(yè)信息抓取并解析為自己所須要的業(yè)務(wù)數據。
  怎么使用?
  首先,確定好你的目標網(wǎng)站以及目標網(wǎng)頁(yè)(即某一類(lèi)你想要獲取數據的網(wǎng)頁(yè),例如網(wǎng)易新聞的新聞頁(yè)面)
  然后,打開(kāi)目標頁(yè)面,分析頁(yè)面的HTML結構,得到你想要數據的XPath,具體XPath如何獲取請看下文。
  最后,在一個(gè)xml配置文件里填寫(xiě)好參數,運行Spiderman吧!
  特點(diǎn):靈活、擴展性強,微內核+插件式構架,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編撰一句代碼
  webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現一個(gè)爬蟲(chóng)。
  
  webmagic采用完全模塊化的設計,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持手動(dòng)重試、自定義UA/cookie等功能。
  
  webmagic包含強悍的頁(yè)面抽取功能,開(kāi)發(fā)者可以方便的使用css selector、xpath和正則表達式進(jìn)行鏈接和內容的提取,支持多個(gè)選擇器鏈式調用。
  webmagic的使用文檔:
  查看源代碼:
  特點(diǎn):功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取。
  備注:這是一款國產(chǎn)開(kāi)源軟件,由 黃億華貢獻
  Web-Harvest是一個(gè)Java開(kāi)源Web數據抽取工具。它就能搜集指定的Web頁(yè)面并從這種頁(yè)面中提取有用的數據。Web-Harvest主要是運用了象XSLT,XQuery,正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的操作。
  其實(shí)現原理是,根據預先定義的配置文件用httpclient獲取頁(yè)面的全部?jì)热荩P(guān)于httpclient的內容,本博有些文章已介紹),然后運用XPath、XQuery、正則表達式等這種技術(shù)來(lái)實(shí)現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)也是采用類(lèi)似的原理實(shí)現的。Web-Harvest應用,關(guān)鍵就是理解和定義配置文件,其他的就是考慮如何處理數據的Java代碼。當然在爬蟲(chóng)開(kāi)始前,也可以把Java變量填充到配置文件中,實(shí)現動(dòng)態(tài)的配置。
  特點(diǎn):運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
  WebSPHINX是一個(gè)Java類(lèi)包和Web爬蟲(chóng)的交互式開(kāi)發(fā)環(huán)境。Web爬蟲(chóng)(也叫作機器人或蜘蛛)是可以手動(dòng)瀏覽與處理Web頁(yè)面的程序。WebSPHINX由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包。
  授權合同:Apache
  開(kāi)發(fā)語(yǔ)言:Java
  特點(diǎn):由兩部份組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
  YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項目是建立基于p2p Web索引網(wǎng)路的一個(gè)新技巧.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等.
  特點(diǎn):基于P2P的分布式Web搜索引擎
  QuickRecon是一個(gè)簡(jiǎn)單的信息搜集工具,它可以幫助你查找子域名名稱(chēng)、perform zone transfe、收集電子郵件地址和使用microformats找尋人際關(guān)系等。QuickRecon使用python編撰,支持linux和 windows操作系統。
  特點(diǎn):具有查找子域名名稱(chēng)、收集電子郵件地址并找尋人際關(guān)系等功能
  這是一個(gè)十分簡(jiǎn)單易用的抓取工具。支持抓取javascript渲染的頁(yè)面的簡(jiǎn)單實(shí)用高效的python網(wǎng)頁(yè)爬蟲(chóng)抓取模塊
  特點(diǎn):簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
  備注:此軟件也是由國人開(kāi)放
  github下載:
  Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現的爬蟲(chóng)框架,用戶(hù)只須要訂制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內容以及各類(lèi)圖片,非常之便捷~
  github源代碼:
  特點(diǎn):基于Twisted的異步處理框架,文檔齊全
  HiSpider is a fast and high performance spider with high speed
  嚴格說(shuō)只能是一個(gè)spider系統的框架, 沒(méi)有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務(wù), 支持N機分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).
  特征和用法:
  工作流程:
  授權合同: BSD
  開(kāi)發(fā)語(yǔ)言: C/C++
  操作系統: Linux
  特點(diǎn):支持多機分布式下載, 支持網(wǎng)站定向下載
  larbin是一種開(kāi)源的網(wǎng)路爬蟲(chóng)/網(wǎng)路蜘蛛,由美國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能否跟蹤頁(yè)面的url進(jìn)行擴充的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就 是說(shuō)larbin只抓取網(wǎng)頁(yè),至于怎樣parse的事情則由用戶(hù)自己完成。另外,如何儲存到數據庫以及完善索引的事情 larbin也不提供。一個(gè)簡(jiǎn)單的larbin的爬蟲(chóng)可以每晚獲?。担埃叭f(wàn)的網(wǎng)頁(yè)。
  利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它完善url 列表群,例如針對所有的網(wǎng)頁(yè)進(jìn)行 url retrive后,進(jìn)行xml的連結的獲取?;蛘呤?mp3,或者訂制larbin,可以作為搜索引擎的信息的來(lái)源。
  特點(diǎn):高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
  Methabot 是一個(gè)經(jīng)過(guò)速率優(yōu)化的高可配置的 WEB、FTP、本地文件系統的爬蟲(chóng)軟件。
  特點(diǎn):過(guò)速率優(yōu)化、可抓取WEB、FTP及本地文件系統
  源代碼:
  NWebCrawler是一款開(kāi)源,C#開(kāi)發(fā)網(wǎng)路爬蟲(chóng)程序。
  特性:
  授權合同: GPLv2
  開(kāi)發(fā)語(yǔ)言: C#
  操作系統: Windows
  項目主頁(yè):
  特點(diǎn):統計信息、執行過(guò)程可視化
  國內第一個(gè)針對微博數據的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。
  登錄后,可以指定用戶(hù)為起點(diǎn),以該用戶(hù)的關(guān)注人、粉絲為線(xiàn)索,延人脈關(guān)系收集用戶(hù)基本信息、微博數據、評論數據。
  該應用獲取的數據可作為科研、與新浪微博相關(guān)的研制等的數據支持,但切勿用于商業(yè)用途。該應用基于.NET2.0框架,需SQL SERVER作為后臺數據庫,并提供了針對SQL Server的數據庫腳本文件。
  另外,由于新浪微博API的限制,爬取的數據可能不夠完整(如獲取粉絲數目的限制、獲取微博數目的限制等)
  本程序版權歸作者所有。你可以免費: 拷貝、分發(fā)、呈現和演出當前作品,制作派生作品。 你不可將當前作品用于商業(yè)目的。
  5.x版本早已發(fā)布! 該版本共有6個(gè)后臺工作線(xiàn)程:爬取用戶(hù)基本信息的機器人、爬取用戶(hù)關(guān)系的機器人、爬取用戶(hù)標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人,以及調節懇求頻度的機器人。更高的性能!最大限度挖掘爬蟲(chóng)潛力! 以現今測試的結果看,已經(jīng)才能滿(mǎn)足自用。
  本程序的特征:
  6個(gè)后臺工作線(xiàn)程,最大限度挖掘爬蟲(chóng)性能潛力!界面上提供參數設置,靈活便捷拋棄app.config配置文件,自己實(shí)現配置信息的加密儲存,保護數據庫賬號信息手動(dòng)調整懇求頻度,防止超限,也防止過(guò)慢,降低效率任意對爬蟲(chóng)控制,可隨時(shí)暫停、繼續、停止爬蟲(chóng)良好的用戶(hù)體驗
  授權合同: GPLv3
  開(kāi)發(fā)語(yǔ)言: C# .NET
  操作系統: Windows
  spidernet是一個(gè)以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數據文件.
  源碼中TODO:標記描述了未完成功能, 希望遞交你的代碼.
  github源代碼:
  特點(diǎn):以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存數據
  mart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接字段開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O置 過(guò)濾器限制爬回去的鏈接,默認提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監聽(tīng)器。介紹內容來(lái)自Open-Open
  特點(diǎn):多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
  網(wǎng)站數據采集軟件 網(wǎng)絡(luò )礦工[url=http://www.hqbet6457.com/]采集器(原soukey采摘)
  Soukey采摘網(wǎng)站數據采集軟件是一款基于.Net平臺的開(kāi)源軟件,也是網(wǎng)站數據采集軟件類(lèi)型中惟一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì )影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。
  特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
  OpenWebSpider是一個(gè)開(kāi)源多線(xiàn)程Web Spider(robot:機器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。
  特點(diǎn):開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
  29、PhpDig
  PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引構建一個(gè)詞匯表。當搜索查詢(xún)時(shí),它將按一定的排序規則顯示包含關(guān) 鍵字的搜索結果頁(yè)面。PhpDig包含一個(gè)模板系統并才能索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更 強、層次更深的個(gè)性化搜索引擎,利用它構建針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
  演示:
  特點(diǎn):具有采集網(wǎng)頁(yè)內容、提交表單功能
  ThinkUp 是一個(gè)可以采集推特,facebook等社交網(wǎng)路數據的社會(huì )媒體視角引擎。通過(guò)采集個(gè)人的社交網(wǎng)絡(luò )帳號中的數據,對其存檔以及處理的交互剖析工具,并將數據圖形化便于更直觀(guān)的查看。
  
  
  github源碼:
  特點(diǎn):采集推特、臉譜等社交網(wǎng)路數據的社會(huì )媒體視角引擎,可進(jìn)行交互剖析并將結果以可視化方式詮釋
  微購社會(huì )化購物系統是一款基于ThinkPHP框架開(kāi)發(fā)的開(kāi)源的購物分享系統,同時(shí)它也是一套針對站長(cháng)、開(kāi)源的的淘寶客網(wǎng)站程序,它整合了天貓、天貓、淘寶客等300多家商品數據采集接口,為廣大的淘寶客站長(cháng)提供傻瓜式淘客建站服務(wù),會(huì )HTML都會(huì )做程序模板,免費開(kāi)放下載,是廣大淘客站長(cháng)的首選。

織夢(mèng)網(wǎng)站后臺管理系統操作指南

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 317 次瀏覽 ? 2020-04-12 11:01 ? 來(lái)自相關(guān)話(huà)題

  
  《網(wǎng)站后臺管理系統操作指南》網(wǎng)站后臺管理系統操作指南盟動(dòng)力網(wǎng)路服務(wù)中心 MENGDONGLI.COM上海盟動(dòng)力網(wǎng)路地址:重慶江北區觀(guān)音橋紅鼎國際 B 棟一單元 29-16___________________________________________________________________________________________第1頁(yè)《網(wǎng)站后臺管理系統操作指南》 一、系統運行環(huán)境 PHP 運行環(huán)境:Linux 操作系統 / PHP5 以上 / Mysql 數據庫 / Zend Optimizer 3.2.8 .NET 運行環(huán)境:Window 操作系統 / .net 3.5 以上 / Mssql 數據庫A. 二、操作系統概述圖(2-01) 如圖(2-01)窗口中的用戶(hù)名和密碼。當用戶(hù)輸入用戶(hù)名和密碼以后,用滑鼠左鍵點(diǎn) 擊登錄按鍵即可步入系統。___________________________________________________________________________________________第2頁(yè)《網(wǎng)站后臺管理系統操作指南》圖(2-02) 如圖(2-02)窗口為用戶(hù)登陸后的操作系統界面,界面框架主要由頸部、左部、右部(主 窗口)三部份組成。
  1. 頭部:由管理系統的 LOGO 及三組按鍵組成。第一組:系統主頁(yè):返回系統登入后的第一個(gè)頁(yè)面,如圖(2-02) 網(wǎng)站主頁(yè):點(diǎn)擊打開(kāi)網(wǎng)站前臺首頁(yè),旨在便捷后臺操作后轉入前臺瀏覽療效。 清除緩存:該功能主要是清理服務(wù)器上的緩存,清空網(wǎng)站臨時(shí)文件。 用戶(hù)反饋:即網(wǎng)站后臺管理系統操作問(wèn)題可以遞交織夢(mèng)企業(yè)信息管理系統進(jìn)行反饋。 注銷(xiāo):即退出網(wǎng)站后臺管理系統。第二組:a.即系統主頁(yè),如圖(2-02)b.即進(jìn)行信息發(fā)布頁(yè)面,點(diǎn)擊添加文檔即可進(jìn)行信息發(fā)布:靜態(tài)網(wǎng)頁(yè)化更有益網(wǎng)站搜索引擎優(yōu)化是細節上的優(yōu)化,同樣一個(gè)網(wǎng)站,同樣一些內容,為什么有的排行好, 有的排行差,這就在于網(wǎng)站的細節,細節決定勝敗,怎么使網(wǎng)站排名更好,網(wǎng)站權重更高,___________________________________________________________________________________________第3頁(yè)《網(wǎng)站后臺管理系統操作指南》 不妨先從網(wǎng)頁(yè)的基礎打起,讓網(wǎng)頁(yè)靜態(tài)化是你不悔的選擇,網(wǎng)站靜態(tài)化有哪些優(yōu)勢,下面 與你們剖析下網(wǎng)站靜態(tài)化的優(yōu)點(diǎn)所在:一、靜態(tài)網(wǎng)頁(yè)化之提升速率 眾所周知,不管是 asp、php、jsp、.net 等動(dòng)態(tài)程序,都須要讀取調用數據庫內容,才 能顯示數據,相對于流量比較大,就降低了數據庫的讀取次數,占用很大的服務(wù)器資源, 影響網(wǎng)站速度。
  而采用網(wǎng)站做成靜態(tài)的,直接去掉了讀取數據庫的操作,減少了環(huán)節,提 高了網(wǎng)站反應速率。 二、靜態(tài)網(wǎng)頁(yè)化之搜索引擎 從網(wǎng)站優(yōu)化來(lái)剖析,搜索引擎更喜歡靜態(tài)的網(wǎng)頁(yè),靜態(tài)網(wǎng)頁(yè)與動(dòng)態(tài)網(wǎng)頁(yè)相比,搜索引 擎更喜歡靜的,更易于抓取,搜索引擎 SEO 排名更容易提升,自然也目前一些行業(yè)、門(mén)戶(hù) 網(wǎng)站,如新浪、搜狐、網(wǎng)易、阿里巴巴、百度、慧聰等,頁(yè)面大多都采用靜態(tài)或偽靜態(tài)網(wǎng) 頁(yè)來(lái)顯示,更易于搜索引擎抓取與排行。 三、靜態(tài)網(wǎng)頁(yè)化之網(wǎng)站穩定 1、從安全角度講,靜態(tài)網(wǎng)頁(yè)不易受到黑客攻擊,除開(kāi)源程序采用的是開(kāi)源 cms織夢(mèng)網(wǎng)站內容管理系統,如果 黑客不知道你網(wǎng)站的后臺、網(wǎng)站采用程序、數據庫的地址,靜態(tài)網(wǎng)頁(yè)更不容易遭到黑客的 攻擊。 2、從網(wǎng)站穩定性來(lái)講,如果程序、數據庫出了問(wèn)題,會(huì )直接影響網(wǎng)站的訪(fǎng)問(wèn),而靜態(tài) 網(wǎng)頁(yè)就防止了這么情況,不會(huì )由于程序等,而損失網(wǎng)站數據,影響正常打開(kāi),損失用戶(hù)體 驗,影響網(wǎng)站信任度。B. 三、欄目管理模塊操作1. 欄目列表網(wǎng)站特色模塊除產(chǎn)品展示外,前臺與后臺欄目完全對應,前臺顯示欄目?jì)热?,后臺則 管理欄目?jì)热?,旨在為顧客提供便捷、易懂的操作方法。___________________________________________________________________________________________第4頁(yè)《網(wǎng)站后臺管理系統操作指南》在欄目列表中用戶(hù)可以對類(lèi)別分別進(jìn)行預覽|內容|增加泛型|更改|刪除及排序調整 等操作。
  C. 四、內容管理模塊操作(4-01)1. 添加信息? 圖(4-01)為添加信息頁(yè)面,填寫(xiě)相應信息,提交。 ? 為保障信息對應的完整性,當多語(yǔ)言版本的時(shí)侯,添加完一種語(yǔ)言信息后,其它語(yǔ)言版本的信息也要盡量填寫(xiě)。 ? 允許上傳的產(chǎn)品圖片后綴格式有(文件.后綴):GIF、JPG、PNG。 ? 注意選擇所有界面中的語(yǔ)言版本。 ? 所有界面中的 代表有提示,鼠標經(jīng)過(guò)時(shí)會(huì )顯示該內容會(huì )在前臺出現的位置,主要是便捷用戶(hù)明晰添加內容將來(lái)顯示的位置。___________________________________________________________________________________________第5頁(yè)《網(wǎng)站后臺管理系統操作指南》文章標題(Title 標簽)、關(guān)鍵詞(Keywords 標簽)、內容摘要(Description 標簽)說(shuō)明:該圖說(shuō)明相關(guān)標簽在搜索引擎中顯示的位置這兒將對 Title、Keywords、Description 等標簽做詳細說(shuō)明,系統內其它優(yōu)化設置皆為相同。怎樣寫(xiě) Title 標簽?在網(wǎng)頁(yè)的優(yōu)化上,最重要的誘因之一就是網(wǎng)頁(yè)的標題標簽 Title Tag。
   通常在寫(xiě)標題標簽時(shí),應該考慮到以下幾個(gè)誘因:1)所有的網(wǎng)頁(yè)都應當有適宜自己的獨到的 Title Tag。有很多網(wǎng)站都犯了一個(gè)太中級的 錯誤,也就是所有網(wǎng)頁(yè)都用同一個(gè)標題,比如說(shuō)“歡迎視察***公司”。實(shí)際上每一個(gè)網(wǎng)頁(yè) 雖然都屬于同一個(gè)網(wǎng)站,但肯定會(huì )是在談不同的東西,可能是你的產(chǎn)品,可能是你的服務(wù)。 不同的網(wǎng)頁(yè)必須要寫(xiě)出針對這個(gè)網(wǎng)頁(yè)具體內容的標題標簽。2)標題標簽應當對用戶(hù)有足夠的吸引力。當你的網(wǎng)頁(yè)在搜索引擎被列舉時(shí),網(wǎng)頁(yè)的標 題就是來(lái)自于標題標簽。用戶(hù)在判定應當點(diǎn)擊哪一個(gè)網(wǎng)站時(shí),很大程度上就取決于你的標 題寫(xiě)的怎么樣?是否對用戶(hù)有足夠的吸引力?如果你的標簽只是一堆關(guān)鍵詞拼湊,卻不知 所云,就算你的排行靠前,用戶(hù)不點(diǎn)擊也沒(méi)有哪些用。3)標題標簽中應當富含關(guān)鍵詞。這個(gè)關(guān)鍵詞應當是針對這一頁(yè)的,而不是你整個(gè)網(wǎng)站 的。比如說(shuō),這個(gè)貼子是在談標題標簽,很自然標題上面就富含標題標簽。而不是我整個(gè) 網(wǎng)站要優(yōu)化的關(guān)鍵詞“虛擬主機”。同時(shí)關(guān)鍵詞應當很自然的被融入在一句合乎邏輯的通順 句子里,而不是死板的關(guān)鍵詞拼湊。4)一般來(lái)說(shuō),搜索引擎只考慮標題標簽中有限的字數,比如說(shuō)前十到前十五個(gè)字。所 以太長(cháng)的飽含關(guān)鍵詞的 title tag,只能讓你的網(wǎng)站看起來(lái)更象垃圾。
  有的人覺(jué)得,盡可能把 關(guān)鍵詞置于標題標簽的最前面。也有人覺(jué)得,隨著(zhù)搜索引擎排名技術(shù)的改進(jìn),關(guān)鍵詞在前 面還是旁邊,其實(shí)無(wú)關(guān)緊要。只要你的標題標簽別很長(cháng)了就行。5)在可能的情況下,盡量在標題標簽中提及你的品牌,或你的網(wǎng)站名。當然品牌或網(wǎng) 站名稱(chēng)與關(guān)鍵詞比較,應該處于次要地位。比如一般我在寫(xiě)網(wǎng)頁(yè)時(shí),都是這樣結構標題標 簽:文章名 – 分類(lèi)名 – 網(wǎng)站名___________________________________________________________________________________________第6頁(yè)《網(wǎng)站后臺管理系統操作指南》如果很長(cháng)的話(huà),就只要 文章名 – 網(wǎng)站名 或者還嫌長(cháng)的話(huà),就只要文章名。怎樣選 Keywords 標簽?關(guān)鍵字標簽 Keywords 是拿來(lái)描述一個(gè)網(wǎng)頁(yè)的屬性,不過(guò)要列舉的內容是關(guān)鍵詞。這 就意味著(zhù),要依照網(wǎng)頁(yè)的主題和內容選擇合適的關(guān)鍵詞。在選擇關(guān)鍵詞時(shí),除了要考慮與 網(wǎng)頁(yè)核心內容相關(guān)之外,還應當是用戶(hù)便于通過(guò)搜索引擎檢索的。注意:1)不同的關(guān)鍵詞之間,應用全角冒號隔開(kāi)(英文輸入狀態(tài)下),不要使用空格或|間隔; 2)是 keywords,不是 keyword; 3)關(guān)鍵字標簽中的內容應當是一個(gè)個(gè)的句子,而不是一段話(huà)。
  關(guān)鍵字標簽 Keywords, 曾經(jīng)是搜索引擎排名中很重要的誘因,但如今早已被好多搜索引擎完全忽視。如果我們加 上這個(gè)標簽對網(wǎng)頁(yè)的綜合表現沒(méi)有益處,不過(guò),如果使用不恰當的話(huà),對網(wǎng)頁(yè)反倒沒(méi)有好 處,還有欺詐的嫌疑。在使用關(guān)鍵字標簽 Keywords 時(shí),要注意以下幾點(diǎn):1)關(guān)鍵字標簽中的內容要與網(wǎng)頁(yè)核心內容相關(guān),確信使用的關(guān)鍵詞出現在網(wǎng)頁(yè)文本中。 2)使用用戶(hù)便于通過(guò)搜索引擎檢索的關(guān)鍵字,過(guò)于冷僻的詞匯不太適宜做 META 標 簽中的關(guān)鍵詞。 3)不要重復使用關(guān)鍵詞,否則可能會(huì )被搜索引擎懲罰。 4)一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞標簽里最多包含 3-5 個(gè)最重要的關(guān)鍵詞,不要超過(guò) 5 個(gè)。 5)每個(gè)網(wǎng)頁(yè)的關(guān)鍵詞應當不一樣。怎樣寫(xiě) Description 標簽?1)含有豐富的資料。將描述標簽作為“關(guān)于我們”這樣的簡(jiǎn)介,而不是“立即訂購” 這樣的廣告。為了宣傳某個(gè)特殊風(fēng)波或則交易而去改動(dòng)這個(gè)標簽并不值得。2)與頁(yè)面標題匹配。因為你不清楚人們將何時(shí)或則以何種形式閱讀自己的描述標簽, 所以為保險起見(jiàn),它應當與優(yōu)化過(guò)的頁(yè)面標題相符。因此不要在描述標簽中重復標題文字。3)包含關(guān)鍵字。雖然描述標簽 description tag 在影響排行方面并不是一個(gè)很重要的因 素,但是它對正好看見(jiàn)描述標簽的搜索者卻影響很大。
  因而,你應當在描述標簽中包含目 標關(guān)鍵字,因為她們在搜索結果中會(huì )被加粗。4)關(guān)鍵字不要過(guò)度。在描述標簽中拼湊長(cháng)長(cháng)的關(guān)鍵字列表不會(huì )給您的排行帶來(lái)哪些好 處,并有可能使搜索者形成一種被忽略的覺(jué)得。5)內容要奇特。與 HTML 標題意義,為了匹配每位頁(yè)面的內容,應該專(zhuān)門(mén)為每個(gè)頁(yè) 面撰寫(xiě)不同的描述標簽 description tag。___________________________________________________________________________________________第7頁(yè)《網(wǎng)站后臺管理系統操作指南》D. 五、權限管理模塊操作織夢(mèng) DedeEIMS 的系統用戶(hù)分為2個(gè)類(lèi)型:超級管理員、普通發(fā)布員。超級管理員是織夢(mèng) 企業(yè)信息管理系統的總管理的帳號,一般為網(wǎng)站主或則技術(shù)聯(lián)盟成員擁有,賬號包含織夢(mèng) 企業(yè)信息管理系統后臺的所有權限。普通發(fā)布員,即系統后臺內容發(fā)布員,用于企業(yè)添加 新聞資訊、產(chǎn)品信息或則更新站點(diǎn)等常規操作的用戶(hù)擁有。登陸系統后臺,進(jìn)入[系統設置]-[系統用戶(hù)管理]項目,我們可以查看系統的所有用戶(hù),在 這里我們可以進(jìn)行以下3個(gè)類(lèi)型的操作: 編輯績(jì)效統計:用于查看站點(diǎn)編輯人員工作量,可以查看當月或則本周發(fā)布的內容量; 增加管理員:用于降低系統的管理人員,可以添加超級管理員及普通信息發(fā)布員; 用戶(hù)組管理:系統用戶(hù)隸屬的用戶(hù)組管理界面,可以進(jìn)行用戶(hù)組的相關(guān)操作; 我們可以添加一個(gè)管理員,點(diǎn)擊“增加管理員”,會(huì )步入降低管理員的頁(yè)面,按照需求填寫(xiě) 管理員的相關(guān)信息。
  ___________________________________________________________________________________________第8頁(yè)《網(wǎng)站后臺管理系統操作指南》添加成功后系統會(huì )手動(dòng)添加一個(gè)用戶(hù)到會(huì )員列表中在刪掉的時(shí)侯須要刪掉管理員及用戶(hù)會(huì )員帳號以確保才能刪掉添加的成員。6.系統設置說(shuō)明系統設置部份,我們登陸系統后臺查看[系統設置]-[系統基本參數],我們可以看見(jiàn)系 統設置分為以下幾個(gè)部份:站點(diǎn)設置、核心設置、附件設置、會(huì )員設置、性能選項、其他 選項、添加新變量幾個(gè)部份的內容。___________________________________________________________________________________________第9頁(yè)《網(wǎng)站后臺管理系統操作指南》說(shuō)明: 站點(diǎn)設置:站點(diǎn)的常規設置,例如站點(diǎn)名稱(chēng)、站點(diǎn)的地址以及采用風(fēng)格等選項; 核心設置:系統安裝目錄,加密設置以及時(shí)區和 FTP 配置等選項; 附件設置:涉及到系統管理員上傳附件的文件格式、文件規格等選項設置; 會(huì )員設置:關(guān)于前臺會(huì )員中心及會(huì )員注冊相關(guān)設置; 性能選項:根據您服務(wù)器的配置情況合理的對站點(diǎn)性能進(jìn)行設置才能保證網(wǎng)站能夠訪(fǎng)問(wèn)更快、 執行效率更高; 其他選項:過(guò)濾及 IP 限制等設置項目; 添加新變量:二次開(kāi)發(fā)中涉及到的設置項;織夢(mèng)的系統參數設置分為2個(gè)部份的內容,一個(gè)是頁(yè)面顯示的部份,另外一個(gè)是用于功能 設置的,我們在系統模板中可以通過(guò)系統全局變量調用的標簽來(lái)對一些顯示類(lèi)型的設置進(jìn) 行調用,例如我們在系統模板中使用{dede:global.cfg_description/}來(lái)調用網(wǎng)站后臺設置中 的網(wǎng)站描述部份的內容。
  功能設置部份的內容我們也會(huì )在系統設置中詳盡說(shuō)明參數的相關(guān) 描述。 我們在二次開(kāi)發(fā)中也可以使用這種設置,通過(guò)$GLOBALS['cfg_templets_dir']全局變量來(lái)調 用,非常便捷。我們可以通過(guò)系統后臺的添加變量來(lái)自由擴充全局變量,以便于我們進(jìn)行 系統的二次開(kāi)發(fā)。站點(diǎn)設置 站點(diǎn)根網(wǎng)址(cfg_basehost):網(wǎng)站根節點(diǎn)網(wǎng)址,例如設置 ,主要 用于生成一些超鏈接中加入站點(diǎn)根網(wǎng)址,例如:百度新聞、站點(diǎn) RSS、系統上傳附件等 網(wǎng)頁(yè)主頁(yè)鏈接(cfg_indexurl):用于前臺模板調用網(wǎng)站主站聯(lián)接 主頁(yè)鏈接名(cfg_indexname):網(wǎng)站主頁(yè)的聯(lián)接名稱(chēng),默認為“主頁(yè)” 網(wǎng)站名稱(chēng)(cfg_webname):全局站點(diǎn)的名稱(chēng),通常顯示在網(wǎng)頁(yè)頁(yè)面的標題欄部份,默 認為“我的網(wǎng)站” 文檔 HTML 默認保存路徑(cfg_arcdir):網(wǎng)站生成靜態(tài)頁(yè)面 HTML 存放路徑,默認為 “/html”,可以依照自己須要進(jìn)行設置 圖 片 / 上 傳 文 件 默 認 路 徑 ( cfg_medias_dir ): 網(wǎng) 站 附 件 上 傳 默 認 保 存 路 徑 , 默 認 為 “/uploads”,可以依照自己須要進(jìn)行更改 編輯器(是/否)使用 XHTML(cfg_fck_xhtml):控制網(wǎng)站內容編輯器是否啟用 XHTML 類(lèi)型的標記織夢(mèng)網(wǎng)站內容管理系統,默認是不起用的 模板默認風(fēng)格(cfg_df_style):默認模板的風(fēng)格,設置后模板的路徑變?yōu)椤?tremplets/[設 置模板風(fēng)格]”,默認是 default,即“/tremplets/default/” 網(wǎng)站版權、編譯 JS 等頂部調用信息(cfg_powerby):網(wǎng)站底部版權及 js 調用信息,一 般可以將流量統計代碼加入到這兒,前臺進(jìn)行調用 站點(diǎn)默認關(guān)鍵字(cfg_keywords):用于顯示站點(diǎn)默認關(guān)鍵字,便于 SEO,通常顯示在___________________________________________________________________________________________第 10 頁(yè)《網(wǎng)站后臺管理系統操作指南》 首頁(yè)的<meta>中,可以按照自己需求進(jìn)行更改 站點(diǎn)描述(cfg_description):用于顯示站點(diǎn)默認描述,便于 SEO,通常顯示在首頁(yè)的 <meta>中,可以按照自己需求進(jìn)行更改 網(wǎng)站備案號(cfg_beian):用于顯示網(wǎng)站備案號的相關(guān)內容,可以依照自己須要進(jìn)行設置___________________________________________________________________________________________第 11 頁(yè) 查看全部

  
  《網(wǎng)站后臺管理系統操作指南》網(wǎng)站后臺管理系統操作指南盟動(dòng)力網(wǎng)路服務(wù)中心 MENGDONGLI.COM上海盟動(dòng)力網(wǎng)路地址:重慶江北區觀(guān)音橋紅鼎國際 B 棟一單元 29-16___________________________________________________________________________________________第1頁(yè)《網(wǎng)站后臺管理系統操作指南》 一、系統運行環(huán)境 PHP 運行環(huán)境:Linux 操作系統 / PHP5 以上 / Mysql 數據庫 / Zend Optimizer 3.2.8 .NET 運行環(huán)境:Window 操作系統 / .net 3.5 以上 / Mssql 數據庫A. 二、操作系統概述圖(2-01) 如圖(2-01)窗口中的用戶(hù)名和密碼。當用戶(hù)輸入用戶(hù)名和密碼以后,用滑鼠左鍵點(diǎn) 擊登錄按鍵即可步入系統。___________________________________________________________________________________________第2頁(yè)《網(wǎng)站后臺管理系統操作指南》圖(2-02) 如圖(2-02)窗口為用戶(hù)登陸后的操作系統界面,界面框架主要由頸部、左部、右部(主 窗口)三部份組成。
  1. 頭部:由管理系統的 LOGO 及三組按鍵組成。第一組:系統主頁(yè):返回系統登入后的第一個(gè)頁(yè)面,如圖(2-02) 網(wǎng)站主頁(yè):點(diǎn)擊打開(kāi)網(wǎng)站前臺首頁(yè),旨在便捷后臺操作后轉入前臺瀏覽療效。 清除緩存:該功能主要是清理服務(wù)器上的緩存,清空網(wǎng)站臨時(shí)文件。 用戶(hù)反饋:即網(wǎng)站后臺管理系統操作問(wèn)題可以遞交織夢(mèng)企業(yè)信息管理系統進(jìn)行反饋。 注銷(xiāo):即退出網(wǎng)站后臺管理系統。第二組:a.即系統主頁(yè),如圖(2-02)b.即進(jìn)行信息發(fā)布頁(yè)面,點(diǎn)擊添加文檔即可進(jìn)行信息發(fā)布:靜態(tài)網(wǎng)頁(yè)化更有益網(wǎng)站搜索引擎優(yōu)化是細節上的優(yōu)化,同樣一個(gè)網(wǎng)站,同樣一些內容,為什么有的排行好, 有的排行差,這就在于網(wǎng)站的細節,細節決定勝敗,怎么使網(wǎng)站排名更好,網(wǎng)站權重更高,___________________________________________________________________________________________第3頁(yè)《網(wǎng)站后臺管理系統操作指南》 不妨先從網(wǎng)頁(yè)的基礎打起,讓網(wǎng)頁(yè)靜態(tài)化是你不悔的選擇,網(wǎng)站靜態(tài)化有哪些優(yōu)勢,下面 與你們剖析下網(wǎng)站靜態(tài)化的優(yōu)點(diǎn)所在:一、靜態(tài)網(wǎng)頁(yè)化之提升速率 眾所周知,不管是 asp、php、jsp、.net 等動(dòng)態(tài)程序,都須要讀取調用數據庫內容,才 能顯示數據,相對于流量比較大,就降低了數據庫的讀取次數,占用很大的服務(wù)器資源, 影響網(wǎng)站速度。
  而采用網(wǎng)站做成靜態(tài)的,直接去掉了讀取數據庫的操作,減少了環(huán)節,提 高了網(wǎng)站反應速率。 二、靜態(tài)網(wǎng)頁(yè)化之搜索引擎 從網(wǎng)站優(yōu)化來(lái)剖析,搜索引擎更喜歡靜態(tài)的網(wǎng)頁(yè),靜態(tài)網(wǎng)頁(yè)與動(dòng)態(tài)網(wǎng)頁(yè)相比,搜索引 擎更喜歡靜的,更易于抓取,搜索引擎 SEO 排名更容易提升,自然也目前一些行業(yè)、門(mén)戶(hù) 網(wǎng)站,如新浪、搜狐、網(wǎng)易、阿里巴巴、百度、慧聰等,頁(yè)面大多都采用靜態(tài)或偽靜態(tài)網(wǎng) 頁(yè)來(lái)顯示,更易于搜索引擎抓取與排行。 三、靜態(tài)網(wǎng)頁(yè)化之網(wǎng)站穩定 1、從安全角度講,靜態(tài)網(wǎng)頁(yè)不易受到黑客攻擊,除開(kāi)源程序采用的是開(kāi)源 cms織夢(mèng)網(wǎng)站內容管理系統,如果 黑客不知道你網(wǎng)站的后臺、網(wǎng)站采用程序、數據庫的地址,靜態(tài)網(wǎng)頁(yè)更不容易遭到黑客的 攻擊。 2、從網(wǎng)站穩定性來(lái)講,如果程序、數據庫出了問(wèn)題,會(huì )直接影響網(wǎng)站的訪(fǎng)問(wèn),而靜態(tài) 網(wǎng)頁(yè)就防止了這么情況,不會(huì )由于程序等,而損失網(wǎng)站數據,影響正常打開(kāi),損失用戶(hù)體 驗,影響網(wǎng)站信任度。B. 三、欄目管理模塊操作1. 欄目列表網(wǎng)站特色模塊除產(chǎn)品展示外,前臺與后臺欄目完全對應,前臺顯示欄目?jì)热?,后臺則 管理欄目?jì)热?,旨在為顧客提供便捷、易懂的操作方法。___________________________________________________________________________________________第4頁(yè)《網(wǎng)站后臺管理系統操作指南》在欄目列表中用戶(hù)可以對類(lèi)別分別進(jìn)行預覽|內容|增加泛型|更改|刪除及排序調整 等操作。
  C. 四、內容管理模塊操作(4-01)1. 添加信息? 圖(4-01)為添加信息頁(yè)面,填寫(xiě)相應信息,提交。 ? 為保障信息對應的完整性,當多語(yǔ)言版本的時(shí)侯,添加完一種語(yǔ)言信息后,其它語(yǔ)言版本的信息也要盡量填寫(xiě)。 ? 允許上傳的產(chǎn)品圖片后綴格式有(文件.后綴):GIF、JPG、PNG。 ? 注意選擇所有界面中的語(yǔ)言版本。 ? 所有界面中的 代表有提示,鼠標經(jīng)過(guò)時(shí)會(huì )顯示該內容會(huì )在前臺出現的位置,主要是便捷用戶(hù)明晰添加內容將來(lái)顯示的位置。___________________________________________________________________________________________第5頁(yè)《網(wǎng)站后臺管理系統操作指南》文章標題(Title 標簽)、關(guān)鍵詞(Keywords 標簽)、內容摘要(Description 標簽)說(shuō)明:該圖說(shuō)明相關(guān)標簽在搜索引擎中顯示的位置這兒將對 Title、Keywords、Description 等標簽做詳細說(shuō)明,系統內其它優(yōu)化設置皆為相同。怎樣寫(xiě) Title 標簽?在網(wǎng)頁(yè)的優(yōu)化上,最重要的誘因之一就是網(wǎng)頁(yè)的標題標簽 Title Tag。
   通常在寫(xiě)標題標簽時(shí),應該考慮到以下幾個(gè)誘因:1)所有的網(wǎng)頁(yè)都應當有適宜自己的獨到的 Title Tag。有很多網(wǎng)站都犯了一個(gè)太中級的 錯誤,也就是所有網(wǎng)頁(yè)都用同一個(gè)標題,比如說(shuō)“歡迎視察***公司”。實(shí)際上每一個(gè)網(wǎng)頁(yè) 雖然都屬于同一個(gè)網(wǎng)站,但肯定會(huì )是在談不同的東西,可能是你的產(chǎn)品,可能是你的服務(wù)。 不同的網(wǎng)頁(yè)必須要寫(xiě)出針對這個(gè)網(wǎng)頁(yè)具體內容的標題標簽。2)標題標簽應當對用戶(hù)有足夠的吸引力。當你的網(wǎng)頁(yè)在搜索引擎被列舉時(shí),網(wǎng)頁(yè)的標 題就是來(lái)自于標題標簽。用戶(hù)在判定應當點(diǎn)擊哪一個(gè)網(wǎng)站時(shí),很大程度上就取決于你的標 題寫(xiě)的怎么樣?是否對用戶(hù)有足夠的吸引力?如果你的標簽只是一堆關(guān)鍵詞拼湊,卻不知 所云,就算你的排行靠前,用戶(hù)不點(diǎn)擊也沒(méi)有哪些用。3)標題標簽中應當富含關(guān)鍵詞。這個(gè)關(guān)鍵詞應當是針對這一頁(yè)的,而不是你整個(gè)網(wǎng)站 的。比如說(shuō),這個(gè)貼子是在談標題標簽,很自然標題上面就富含標題標簽。而不是我整個(gè) 網(wǎng)站要優(yōu)化的關(guān)鍵詞“虛擬主機”。同時(shí)關(guān)鍵詞應當很自然的被融入在一句合乎邏輯的通順 句子里,而不是死板的關(guān)鍵詞拼湊。4)一般來(lái)說(shuō),搜索引擎只考慮標題標簽中有限的字數,比如說(shuō)前十到前十五個(gè)字。所 以太長(cháng)的飽含關(guān)鍵詞的 title tag,只能讓你的網(wǎng)站看起來(lái)更象垃圾。
  有的人覺(jué)得,盡可能把 關(guān)鍵詞置于標題標簽的最前面。也有人覺(jué)得,隨著(zhù)搜索引擎排名技術(shù)的改進(jìn),關(guān)鍵詞在前 面還是旁邊,其實(shí)無(wú)關(guān)緊要。只要你的標題標簽別很長(cháng)了就行。5)在可能的情況下,盡量在標題標簽中提及你的品牌,或你的網(wǎng)站名。當然品牌或網(wǎng) 站名稱(chēng)與關(guān)鍵詞比較,應該處于次要地位。比如一般我在寫(xiě)網(wǎng)頁(yè)時(shí),都是這樣結構標題標 簽:文章名 – 分類(lèi)名 – 網(wǎng)站名___________________________________________________________________________________________第6頁(yè)《網(wǎng)站后臺管理系統操作指南》如果很長(cháng)的話(huà),就只要 文章名 – 網(wǎng)站名 或者還嫌長(cháng)的話(huà),就只要文章名。怎樣選 Keywords 標簽?關(guān)鍵字標簽 Keywords 是拿來(lái)描述一個(gè)網(wǎng)頁(yè)的屬性,不過(guò)要列舉的內容是關(guān)鍵詞。這 就意味著(zhù),要依照網(wǎng)頁(yè)的主題和內容選擇合適的關(guān)鍵詞。在選擇關(guān)鍵詞時(shí),除了要考慮與 網(wǎng)頁(yè)核心內容相關(guān)之外,還應當是用戶(hù)便于通過(guò)搜索引擎檢索的。注意:1)不同的關(guān)鍵詞之間,應用全角冒號隔開(kāi)(英文輸入狀態(tài)下),不要使用空格或|間隔; 2)是 keywords,不是 keyword; 3)關(guān)鍵字標簽中的內容應當是一個(gè)個(gè)的句子,而不是一段話(huà)。
  關(guān)鍵字標簽 Keywords, 曾經(jīng)是搜索引擎排名中很重要的誘因,但如今早已被好多搜索引擎完全忽視。如果我們加 上這個(gè)標簽對網(wǎng)頁(yè)的綜合表現沒(méi)有益處,不過(guò),如果使用不恰當的話(huà),對網(wǎng)頁(yè)反倒沒(méi)有好 處,還有欺詐的嫌疑。在使用關(guān)鍵字標簽 Keywords 時(shí),要注意以下幾點(diǎn):1)關(guān)鍵字標簽中的內容要與網(wǎng)頁(yè)核心內容相關(guān),確信使用的關(guān)鍵詞出現在網(wǎng)頁(yè)文本中。 2)使用用戶(hù)便于通過(guò)搜索引擎檢索的關(guān)鍵字,過(guò)于冷僻的詞匯不太適宜做 META 標 簽中的關(guān)鍵詞。 3)不要重復使用關(guān)鍵詞,否則可能會(huì )被搜索引擎懲罰。 4)一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞標簽里最多包含 3-5 個(gè)最重要的關(guān)鍵詞,不要超過(guò) 5 個(gè)。 5)每個(gè)網(wǎng)頁(yè)的關(guān)鍵詞應當不一樣。怎樣寫(xiě) Description 標簽?1)含有豐富的資料。將描述標簽作為“關(guān)于我們”這樣的簡(jiǎn)介,而不是“立即訂購” 這樣的廣告。為了宣傳某個(gè)特殊風(fēng)波或則交易而去改動(dòng)這個(gè)標簽并不值得。2)與頁(yè)面標題匹配。因為你不清楚人們將何時(shí)或則以何種形式閱讀自己的描述標簽, 所以為保險起見(jiàn),它應當與優(yōu)化過(guò)的頁(yè)面標題相符。因此不要在描述標簽中重復標題文字。3)包含關(guān)鍵字。雖然描述標簽 description tag 在影響排行方面并不是一個(gè)很重要的因 素,但是它對正好看見(jiàn)描述標簽的搜索者卻影響很大。
  因而,你應當在描述標簽中包含目 標關(guān)鍵字,因為她們在搜索結果中會(huì )被加粗。4)關(guān)鍵字不要過(guò)度。在描述標簽中拼湊長(cháng)長(cháng)的關(guān)鍵字列表不會(huì )給您的排行帶來(lái)哪些好 處,并有可能使搜索者形成一種被忽略的覺(jué)得。5)內容要奇特。與 HTML 標題意義,為了匹配每位頁(yè)面的內容,應該專(zhuān)門(mén)為每個(gè)頁(yè) 面撰寫(xiě)不同的描述標簽 description tag。___________________________________________________________________________________________第7頁(yè)《網(wǎng)站后臺管理系統操作指南》D. 五、權限管理模塊操作織夢(mèng) DedeEIMS 的系統用戶(hù)分為2個(gè)類(lèi)型:超級管理員、普通發(fā)布員。超級管理員是織夢(mèng) 企業(yè)信息管理系統的總管理的帳號,一般為網(wǎng)站主或則技術(shù)聯(lián)盟成員擁有,賬號包含織夢(mèng) 企業(yè)信息管理系統后臺的所有權限。普通發(fā)布員,即系統后臺內容發(fā)布員,用于企業(yè)添加 新聞資訊、產(chǎn)品信息或則更新站點(diǎn)等常規操作的用戶(hù)擁有。登陸系統后臺,進(jìn)入[系統設置]-[系統用戶(hù)管理]項目,我們可以查看系統的所有用戶(hù),在 這里我們可以進(jìn)行以下3個(gè)類(lèi)型的操作: 編輯績(jì)效統計:用于查看站點(diǎn)編輯人員工作量,可以查看當月或則本周發(fā)布的內容量; 增加管理員:用于降低系統的管理人員,可以添加超級管理員及普通信息發(fā)布員; 用戶(hù)組管理:系統用戶(hù)隸屬的用戶(hù)組管理界面,可以進(jìn)行用戶(hù)組的相關(guān)操作; 我們可以添加一個(gè)管理員,點(diǎn)擊“增加管理員”,會(huì )步入降低管理員的頁(yè)面,按照需求填寫(xiě) 管理員的相關(guān)信息。
  ___________________________________________________________________________________________第8頁(yè)《網(wǎng)站后臺管理系統操作指南》添加成功后系統會(huì )手動(dòng)添加一個(gè)用戶(hù)到會(huì )員列表中在刪掉的時(shí)侯須要刪掉管理員及用戶(hù)會(huì )員帳號以確保才能刪掉添加的成員。6.系統設置說(shuō)明系統設置部份,我們登陸系統后臺查看[系統設置]-[系統基本參數],我們可以看見(jiàn)系 統設置分為以下幾個(gè)部份:站點(diǎn)設置、核心設置、附件設置、會(huì )員設置、性能選項、其他 選項、添加新變量幾個(gè)部份的內容。___________________________________________________________________________________________第9頁(yè)《網(wǎng)站后臺管理系統操作指南》說(shuō)明: 站點(diǎn)設置:站點(diǎn)的常規設置,例如站點(diǎn)名稱(chēng)、站點(diǎn)的地址以及采用風(fēng)格等選項; 核心設置:系統安裝目錄,加密設置以及時(shí)區和 FTP 配置等選項; 附件設置:涉及到系統管理員上傳附件的文件格式、文件規格等選項設置; 會(huì )員設置:關(guān)于前臺會(huì )員中心及會(huì )員注冊相關(guān)設置; 性能選項:根據您服務(wù)器的配置情況合理的對站點(diǎn)性能進(jìn)行設置才能保證網(wǎng)站能夠訪(fǎng)問(wèn)更快、 執行效率更高; 其他選項:過(guò)濾及 IP 限制等設置項目; 添加新變量:二次開(kāi)發(fā)中涉及到的設置項;織夢(mèng)的系統參數設置分為2個(gè)部份的內容,一個(gè)是頁(yè)面顯示的部份,另外一個(gè)是用于功能 設置的,我們在系統模板中可以通過(guò)系統全局變量調用的標簽來(lái)對一些顯示類(lèi)型的設置進(jìn) 行調用,例如我們在系統模板中使用{dede:global.cfg_description/}來(lái)調用網(wǎng)站后臺設置中 的網(wǎng)站描述部份的內容。
  功能設置部份的內容我們也會(huì )在系統設置中詳盡說(shuō)明參數的相關(guān) 描述。 我們在二次開(kāi)發(fā)中也可以使用這種設置,通過(guò)$GLOBALS['cfg_templets_dir']全局變量來(lái)調 用,非常便捷。我們可以通過(guò)系統后臺的添加變量來(lái)自由擴充全局變量,以便于我們進(jìn)行 系統的二次開(kāi)發(fā)。站點(diǎn)設置 站點(diǎn)根網(wǎng)址(cfg_basehost):網(wǎng)站根節點(diǎn)網(wǎng)址,例如設置 ,主要 用于生成一些超鏈接中加入站點(diǎn)根網(wǎng)址,例如:百度新聞、站點(diǎn) RSS、系統上傳附件等 網(wǎng)頁(yè)主頁(yè)鏈接(cfg_indexurl):用于前臺模板調用網(wǎng)站主站聯(lián)接 主頁(yè)鏈接名(cfg_indexname):網(wǎng)站主頁(yè)的聯(lián)接名稱(chēng),默認為“主頁(yè)” 網(wǎng)站名稱(chēng)(cfg_webname):全局站點(diǎn)的名稱(chēng),通常顯示在網(wǎng)頁(yè)頁(yè)面的標題欄部份,默 認為“我的網(wǎng)站” 文檔 HTML 默認保存路徑(cfg_arcdir):網(wǎng)站生成靜態(tài)頁(yè)面 HTML 存放路徑,默認為 “/html”,可以依照自己須要進(jìn)行設置 圖 片 / 上 傳 文 件 默 認 路 徑 ( cfg_medias_dir ): 網(wǎng) 站 附 件 上 傳 默 認 保 存 路 徑 , 默 認 為 “/uploads”,可以依照自己須要進(jìn)行更改 編輯器(是/否)使用 XHTML(cfg_fck_xhtml):控制網(wǎng)站內容編輯器是否啟用 XHTML 類(lèi)型的標記織夢(mèng)網(wǎng)站內容管理系統,默認是不起用的 模板默認風(fēng)格(cfg_df_style):默認模板的風(fēng)格,設置后模板的路徑變?yōu)椤?tremplets/[設 置模板風(fēng)格]”,默認是 default,即“/tremplets/default/” 網(wǎng)站版權、編譯 JS 等頂部調用信息(cfg_powerby):網(wǎng)站底部版權及 js 調用信息,一 般可以將流量統計代碼加入到這兒,前臺進(jìn)行調用 站點(diǎn)默認關(guān)鍵字(cfg_keywords):用于顯示站點(diǎn)默認關(guān)鍵字,便于 SEO,通常顯示在___________________________________________________________________________________________第 10 頁(yè)《網(wǎng)站后臺管理系統操作指南》 首頁(yè)的<meta>中,可以按照自己需求進(jìn)行更改 站點(diǎn)描述(cfg_description):用于顯示站點(diǎn)默認描述,便于 SEO,通常顯示在首頁(yè)的 <meta>中,可以按照自己需求進(jìn)行更改 網(wǎng)站備案號(cfg_beian):用于顯示網(wǎng)站備案號的相關(guān)內容,可以依照自己須要進(jìn)行設置___________________________________________________________________________________________第 11 頁(yè)

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久