rss
Wordpress采集插件
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 414 次瀏覽 ? 2020-07-23 08:02
隨心所欲地把自己喜歡的RSS上面的文章自動(dòng)發(fā)布到自己的wordpress 博客上,使得 wordpress 具有了類(lèi)似于有些 CMS 的手動(dòng)采集功能。 使用方式:
s1、下載jay_smart_rss,解壓后把jay_smart_rss.php、wp-cron.php和wp-cron-update- rss.php上傳到/wp-content /plugins/目錄下;把wp_smartrss.php和wp_smartrss_hide.php上傳到博客根目錄下。
s2、在插件管理頁(yè)面激活jay_smart_rss。成功激活后,選項下邊會(huì )多出一個(gè)Smart RSS,點(diǎn)擊“Smart RSS”,然后在A(yíng)dd New前面添加你想要發(fā)布到你的博客上的文章源RSS地址,選擇相應的目錄,然后“Save”。
s3、在瀏覽器里輸入“”,如果聽(tīng)到系統開(kāi)始讀取你設定的RSS地址,同時(shí)插入文章成功,恭喜你,大功正式告成。
s4、完成第3步后,到插件管理界面激活插件wp-cron.php和wp-cron-update-rss.php,不出意外的話(huà),你的博客自此 可 以手動(dòng)從設定的RSS讀取文章并手動(dòng)在相應的目錄發(fā)布下來(lái)了。程序在手動(dòng)更新期間博客頁(yè)面頂部會(huì )出現如下提示:All News is Auto Updating, Supported by Jay Smart RSS
2.Caffeinated Content
Caffeinated Content是一個(gè)十分強悍的WordPress插件,根據關(guān)鍵詞搜索Youtube、Yahoo Answer、Articles、Files而獲取相關(guān)內容,可保留原文也可翻譯成多個(gè)國家語(yǔ)言,并可以定時(shí)定量手動(dòng)發(fā)布到你的博客上的插件工具。
下載解壓后上傳到plugins根目錄下,到后臺激活即可,完全破解使用,內有注冊碼,放心使用。
這個(gè)功能是非常強悍的,只可惜沒(méi)有針對英文設置幾個(gè)比較好的信息源頭,如果想自行做二次開(kāi)發(fā),用這個(gè)做基礎是非常好的選擇。
3.WP-o-Matic
WP-o-Matic是一款療效特別不錯的WordPress采集插件,雖然少了手動(dòng)分類(lèi)功能,但該插件在各個(gè)方面都表現的尚佳,相對于 wordpress采集插件Caffeinated Content來(lái)說(shuō),wp-o-matic是不錯的選擇,通過(guò)RSS完成blog的手動(dòng)采集。
WP-o-Matic安裝使用方式:
s1、解壓后上傳插件到你的plugins根目錄。
s2、需要在傲游或safari中使用激活WP-o-Matic插件。
s3、激活插件后設置欄出現WP-o-Matic選項點(diǎn)擊步入第一步的設置。
s4、進(jìn)行Add campaign里進(jìn)行采集設置,主要在feeds里添加要采集的目標站的feeds,categories選擇采集分類(lèi)。
s5、在options里設置采集路徑等,默認就行,Cache images要求完善個(gè)“Cache”文件夾并更改權限為777。每次采集都須要在add campaign執行,addcampaign設置完成后點(diǎn)擊submit后,如果未設置好wordpress采集插件,他會(huì )提示你,直到Campaign added successfully. Edit it or fetch it now后點(diǎn)擊fetch it now。
4.Wordpress Auto Get Rss
WordPress Auto Get Rss是一個(gè)可以在Wordpress博客程序上手動(dòng)更新、發(fā)布文章的插件,通過(guò)任何RSS或Atom供稿。
使用Wordpress Auto Get Rss構建一個(gè)手動(dòng)的博客,比如視頻博客、創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS摘要。Wordpress Autoblogs是一強悍的工具,現在可更新下載最新版本,Wordpress Get-Rss。
WordPress Auto Get Rss是一個(gè)功能強悍的 autoblogging為WordPress插件手動(dòng)創(chuàng )建博客的任何RSS或Atom供稿職位。 Autoblogging是一個(gè)偉大的方法來(lái)自動(dòng)化你的WordPress職位,讓您可以專(zhuān)注于掙錢(qián),你的努力與您的博客。隨著(zhù)幾十功 能wordpress采集插件,Wordpress Auto Get Rss是世界上最強悍的autoblog為WordPress插件軟件可用的最好方式手動(dòng)博客內容。
特點(diǎn):
圖像和視頻支持,自定義模板后,先進(jìn)的后過(guò)濾,增強標記引擎,正則表達式搜索和替換,創(chuàng )建圖片縮略圖,用自己的價(jià)值觀(guān)覆蓋feeds數據,完全支持WordPress的2.7和更高版本,見(jiàn)Wordpress Auto Get Rss的功能
此外,我們還降低了一個(gè)全面的在線(xiàn)幫助,電子郵件支持,客戶(hù)峰會(huì ),以確保您可以快速,輕松地開(kāi)始在WordPress autoblogging!
您可以使用Wordpress Auto Get Rss構建一個(gè)博客網(wǎng)路,自動(dòng)化的視頻博客,創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS提要??蓾裥苑蹌〢utoblogs是一個(gè)偉大的方法快速建立關(guān)鍵字密度的內容,獲得與您的博客,并完全自動(dòng)化您的博客上。
更妙的是,自動(dòng)化的博客內容是一個(gè)挺好的取代域名停放。而不是顯示的則垃圾通用寄存網(wǎng)頁(yè)前瞻性的廣告,可以提供真正的內容,請在搜索引擎索引,建立網(wǎng)頁(yè)排行,并形成流量。你會(huì )驚奇地發(fā)覺(jué)您的域值快速下降!
5.autoblogged+wordpress做英語(yǔ)采集站
AutoBlogged 是一個(gè)十分強悍的 WordPress 插件,通過(guò)任意的 RSS 或 Atom Feed,自動(dòng)生成日志。使用這個(gè)插件,可以輕松的構建博客網(wǎng)路,生成文章,圖片,視頻博客,聚合多個(gè) feeds。
主要特征:
支持圖片及視頻
自定義日志模板
高級日志過(guò)濾
增強的tag 引擎
正則表達式搜索,替換
生成縮略圖
支持 WordPress 2.7 及以上
查看所有特征
6.wordpress手動(dòng)采集發(fā)布插件WP Robot
今天講的這個(gè)wp插件是一個(gè)基于wordpress平臺的內容采集工具。wp robot是一個(gè)款英語(yǔ)站工具,這個(gè)插件的惡果我都不說(shuō)了,畢竟仁者見(jiàn)仁智者見(jiàn)智!
功能主要包括:
1)支持采集yahoo answers的英語(yǔ)、法語(yǔ)、英語(yǔ)和西班牙語(yǔ)的采集;
2)使用的yahoo的官方api,
3)一個(gè)貼子里可以有5個(gè)文檔內容
4)可以選取目標關(guān)鍵詞,然后wp robot插件手動(dòng)去搜索相關(guān)貼子主題來(lái)采集best answers或其他分類(lèi)的貼子內容。按照我的經(jīng)驗,如果主題選擇的好,多注冊一些垃圾域名,然后不停的采集 查看全部
隨心所欲地把自己喜歡的RSS上面的文章自動(dòng)發(fā)布到自己的wordpress 博客上,使得 wordpress 具有了類(lèi)似于有些 CMS 的手動(dòng)采集功能。 使用方式:
s1、下載jay_smart_rss,解壓后把jay_smart_rss.php、wp-cron.php和wp-cron-update- rss.php上傳到/wp-content /plugins/目錄下;把wp_smartrss.php和wp_smartrss_hide.php上傳到博客根目錄下。
s2、在插件管理頁(yè)面激活jay_smart_rss。成功激活后,選項下邊會(huì )多出一個(gè)Smart RSS,點(diǎn)擊“Smart RSS”,然后在A(yíng)dd New前面添加你想要發(fā)布到你的博客上的文章源RSS地址,選擇相應的目錄,然后“Save”。
s3、在瀏覽器里輸入“”,如果聽(tīng)到系統開(kāi)始讀取你設定的RSS地址,同時(shí)插入文章成功,恭喜你,大功正式告成。
s4、完成第3步后,到插件管理界面激活插件wp-cron.php和wp-cron-update-rss.php,不出意外的話(huà),你的博客自此 可 以手動(dòng)從設定的RSS讀取文章并手動(dòng)在相應的目錄發(fā)布下來(lái)了。程序在手動(dòng)更新期間博客頁(yè)面頂部會(huì )出現如下提示:All News is Auto Updating, Supported by Jay Smart RSS
2.Caffeinated Content
Caffeinated Content是一個(gè)十分強悍的WordPress插件,根據關(guān)鍵詞搜索Youtube、Yahoo Answer、Articles、Files而獲取相關(guān)內容,可保留原文也可翻譯成多個(gè)國家語(yǔ)言,并可以定時(shí)定量手動(dòng)發(fā)布到你的博客上的插件工具。
下載解壓后上傳到plugins根目錄下,到后臺激活即可,完全破解使用,內有注冊碼,放心使用。
這個(gè)功能是非常強悍的,只可惜沒(méi)有針對英文設置幾個(gè)比較好的信息源頭,如果想自行做二次開(kāi)發(fā),用這個(gè)做基礎是非常好的選擇。
3.WP-o-Matic
WP-o-Matic是一款療效特別不錯的WordPress采集插件,雖然少了手動(dòng)分類(lèi)功能,但該插件在各個(gè)方面都表現的尚佳,相對于 wordpress采集插件Caffeinated Content來(lái)說(shuō),wp-o-matic是不錯的選擇,通過(guò)RSS完成blog的手動(dòng)采集。
WP-o-Matic安裝使用方式:
s1、解壓后上傳插件到你的plugins根目錄。
s2、需要在傲游或safari中使用激活WP-o-Matic插件。
s3、激活插件后設置欄出現WP-o-Matic選項點(diǎn)擊步入第一步的設置。
s4、進(jìn)行Add campaign里進(jìn)行采集設置,主要在feeds里添加要采集的目標站的feeds,categories選擇采集分類(lèi)。
s5、在options里設置采集路徑等,默認就行,Cache images要求完善個(gè)“Cache”文件夾并更改權限為777。每次采集都須要在add campaign執行,addcampaign設置完成后點(diǎn)擊submit后,如果未設置好wordpress采集插件,他會(huì )提示你,直到Campaign added successfully. Edit it or fetch it now后點(diǎn)擊fetch it now。
4.Wordpress Auto Get Rss
WordPress Auto Get Rss是一個(gè)可以在Wordpress博客程序上手動(dòng)更新、發(fā)布文章的插件,通過(guò)任何RSS或Atom供稿。
使用Wordpress Auto Get Rss構建一個(gè)手動(dòng)的博客,比如視頻博客、創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS摘要。Wordpress Autoblogs是一強悍的工具,現在可更新下載最新版本,Wordpress Get-Rss。
WordPress Auto Get Rss是一個(gè)功能強悍的 autoblogging為WordPress插件手動(dòng)創(chuàng )建博客的任何RSS或Atom供稿職位。 Autoblogging是一個(gè)偉大的方法來(lái)自動(dòng)化你的WordPress職位,讓您可以專(zhuān)注于掙錢(qián),你的努力與您的博客。隨著(zhù)幾十功 能wordpress采集插件,Wordpress Auto Get Rss是世界上最強悍的autoblog為WordPress插件軟件可用的最好方式手動(dòng)博客內容。
特點(diǎn):
圖像和視頻支持,自定義模板后,先進(jìn)的后過(guò)濾,增強標記引擎,正則表達式搜索和替換,創(chuàng )建圖片縮略圖,用自己的價(jià)值觀(guān)覆蓋feeds數據,完全支持WordPress的2.7和更高版本,見(jiàn)Wordpress Auto Get Rss的功能
此外,我們還降低了一個(gè)全面的在線(xiàn)幫助,電子郵件支持,客戶(hù)峰會(huì ),以確保您可以快速,輕松地開(kāi)始在WordPress autoblogging!
您可以使用Wordpress Auto Get Rss構建一個(gè)博客網(wǎng)路,自動(dòng)化的視頻博客,創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS提要??蓾裥苑蹌〢utoblogs是一個(gè)偉大的方法快速建立關(guān)鍵字密度的內容,獲得與您的博客,并完全自動(dòng)化您的博客上。
更妙的是,自動(dòng)化的博客內容是一個(gè)挺好的取代域名停放。而不是顯示的則垃圾通用寄存網(wǎng)頁(yè)前瞻性的廣告,可以提供真正的內容,請在搜索引擎索引,建立網(wǎng)頁(yè)排行,并形成流量。你會(huì )驚奇地發(fā)覺(jué)您的域值快速下降!
5.autoblogged+wordpress做英語(yǔ)采集站
AutoBlogged 是一個(gè)十分強悍的 WordPress 插件,通過(guò)任意的 RSS 或 Atom Feed,自動(dòng)生成日志。使用這個(gè)插件,可以輕松的構建博客網(wǎng)路,生成文章,圖片,視頻博客,聚合多個(gè) feeds。
主要特征:
支持圖片及視頻
自定義日志模板
高級日志過(guò)濾
增強的tag 引擎
正則表達式搜索,替換
生成縮略圖
支持 WordPress 2.7 及以上
查看所有特征
6.wordpress手動(dòng)采集發(fā)布插件WP Robot
今天講的這個(gè)wp插件是一個(gè)基于wordpress平臺的內容采集工具。wp robot是一個(gè)款英語(yǔ)站工具,這個(gè)插件的惡果我都不說(shuō)了,畢竟仁者見(jiàn)仁智者見(jiàn)智!
功能主要包括:
1)支持采集yahoo answers的英語(yǔ)、法語(yǔ)、英語(yǔ)和西班牙語(yǔ)的采集;
2)使用的yahoo的官方api,
3)一個(gè)貼子里可以有5個(gè)文檔內容
4)可以選取目標關(guān)鍵詞,然后wp robot插件手動(dòng)去搜索相關(guān)貼子主題來(lái)采集best answers或其他分類(lèi)的貼子內容。按照我的經(jīng)驗,如果主題選擇的好,多注冊一些垃圾域名,然后不停的采集
采集俠下載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 674 次瀏覽 ? 2020-06-15 08:02
采集俠是一款十分實(shí)用的網(wǎng)站全手動(dòng)數據采集軟件。采集俠可以幫助用戶(hù)快速進(jìn)行seo采集與數據手動(dòng)更新操作,讓用戶(hù)才能快速提高自己網(wǎng)站seo排名,只需一鍵點(diǎn)擊即可獲得不錯采集效果,是用戶(hù)提供自己門(mén)戶(hù)網(wǎng)站排名最佳工具。
采集俠功能介紹:
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热?,方便?jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
5、 多種偽原創(chuàng )及優(yōu)化方法,提高收錄率及排行
自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、網(wǎng)址過(guò)濾、同義詞替換、插入seo成語(yǔ)、關(guān)鍵詞添加鏈接等多種方式手段對采集回來(lái)的文章加工處理,增強采集文章原創(chuàng )性,利于搜索引擎優(yōu)化,提高搜索引擎收錄、網(wǎng)站權重及關(guān)鍵詞排行。
6、插件全手動(dòng)采集,無(wú)需人工干預
織夢(mèng)采集俠根據預先設定是采集任務(wù),根據所設定的采集方式采集網(wǎng)址,然后手動(dòng)抓取網(wǎng)頁(yè)內容,程序通過(guò)精確估算剖析網(wǎng)頁(yè),丟棄掉不是文章內容頁(yè)的網(wǎng)址,提取出優(yōu)秀文章內容,最后進(jìn)行偽原創(chuàng ),導入,生成,這一切操作程序都是全手動(dòng)完成,無(wú)需人工干預。
7、手工發(fā)布文章亦可偽原創(chuàng )和搜索優(yōu)化處理
織夢(mèng)采集俠并不僅僅是一款采集插件,更是一款織夢(mèng)必備偽原創(chuàng )及搜索優(yōu)化插件,手工發(fā)布的文章可以經(jīng)過(guò)織夢(mèng)采集俠的偽原創(chuàng )和搜索優(yōu)化處理,可以對文章進(jìn)行同義詞替換,自動(dòng)內鏈,隨機插入關(guān)鍵詞鏈接和文章內包含關(guān)鍵詞將手動(dòng)添加指定鏈接等功能,是一款織夢(mèng)必備插件。
8、定時(shí)定量進(jìn)行采集偽原創(chuàng )SEO更新
插件有兩個(gè)觸發(fā)采集方式,一種是在頁(yè)面內添加代碼由用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新采集俠,另外種我們?yōu)樯虡I(yè)用戶(hù)提供的遠程觸發(fā)采集服務(wù),新站無(wú)有人訪(fǎng)問(wèn)即可定時(shí)定量采集更新,無(wú)需人工干預。
9、綁定織夢(mèng)采集節點(diǎn)采集俠,定時(shí)采集偽原創(chuàng )SEO更新
綁定織夢(mèng)采集節點(diǎn)的功能,讓織夢(mèng)CMS自帶的采集功能也能定時(shí)手動(dòng)采集更新。方便早已設置了采集規則的用戶(hù)定時(shí)采集更新。
10、定時(shí)定量更新待初審文稿
縱使你數據庫上面有成千上萬(wàn)篇文章,織夢(mèng)采集俠亦可按照您的須要每晚在您設置的時(shí)間段內定時(shí)定量初審更新。 查看全部
采集俠是一款十分實(shí)用的網(wǎng)站全手動(dòng)數據采集軟件。采集俠可以幫助用戶(hù)快速進(jìn)行seo采集與數據手動(dòng)更新操作,讓用戶(hù)才能快速提高自己網(wǎng)站seo排名,只需一鍵點(diǎn)擊即可獲得不錯采集效果,是用戶(hù)提供自己門(mén)戶(hù)網(wǎng)站排名最佳工具。
采集俠功能介紹:
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热?,方便?jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
5、 多種偽原創(chuàng )及優(yōu)化方法,提高收錄率及排行
自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、網(wǎng)址過(guò)濾、同義詞替換、插入seo成語(yǔ)、關(guān)鍵詞添加鏈接等多種方式手段對采集回來(lái)的文章加工處理,增強采集文章原創(chuàng )性,利于搜索引擎優(yōu)化,提高搜索引擎收錄、網(wǎng)站權重及關(guān)鍵詞排行。
6、插件全手動(dòng)采集,無(wú)需人工干預
織夢(mèng)采集俠根據預先設定是采集任務(wù),根據所設定的采集方式采集網(wǎng)址,然后手動(dòng)抓取網(wǎng)頁(yè)內容,程序通過(guò)精確估算剖析網(wǎng)頁(yè),丟棄掉不是文章內容頁(yè)的網(wǎng)址,提取出優(yōu)秀文章內容,最后進(jìn)行偽原創(chuàng ),導入,生成,這一切操作程序都是全手動(dòng)完成,無(wú)需人工干預。
7、手工發(fā)布文章亦可偽原創(chuàng )和搜索優(yōu)化處理
織夢(mèng)采集俠并不僅僅是一款采集插件,更是一款織夢(mèng)必備偽原創(chuàng )及搜索優(yōu)化插件,手工發(fā)布的文章可以經(jīng)過(guò)織夢(mèng)采集俠的偽原創(chuàng )和搜索優(yōu)化處理,可以對文章進(jìn)行同義詞替換,自動(dòng)內鏈,隨機插入關(guān)鍵詞鏈接和文章內包含關(guān)鍵詞將手動(dòng)添加指定鏈接等功能,是一款織夢(mèng)必備插件。
8、定時(shí)定量進(jìn)行采集偽原創(chuàng )SEO更新
插件有兩個(gè)觸發(fā)采集方式,一種是在頁(yè)面內添加代碼由用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新采集俠,另外種我們?yōu)樯虡I(yè)用戶(hù)提供的遠程觸發(fā)采集服務(wù),新站無(wú)有人訪(fǎng)問(wèn)即可定時(shí)定量采集更新,無(wú)需人工干預。
9、綁定織夢(mèng)采集節點(diǎn)采集俠,定時(shí)采集偽原創(chuàng )SEO更新
綁定織夢(mèng)采集節點(diǎn)的功能,讓織夢(mèng)CMS自帶的采集功能也能定時(shí)手動(dòng)采集更新。方便早已設置了采集規則的用戶(hù)定時(shí)采集更新。
10、定時(shí)定量更新待初審文稿
縱使你數據庫上面有成千上萬(wàn)篇文章,織夢(mèng)采集俠亦可按照您的須要每晚在您設置的時(shí)間段內定時(shí)定量初審更新。
dede織夢(mèng)采集俠下載v2.8 破解版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 667 次瀏覽 ? 2020-06-05 08:02
dede織夢(mèng)采集俠是一款采集應用工具,可以幫助廣大用戶(hù)在線(xiàn)進(jìn)行織夢(mèng)采集,這款軟件主要是為廣大須要做網(wǎng)站的用戶(hù)所打算,讓你們可以快速采集同類(lèi)網(wǎng)站的相關(guān)資源,幫助你們構建起自己的資源信息頁(yè)面與相關(guān)庫集。
采集版分UTF8和GBK兩個(gè)版本,根據自己使用的dedecms版本來(lái)選擇!
因文件是用mac系統打包的,會(huì )自帶_MACOSX、.DS_Store文件,不影響使用,有強迫癥的可以刪掉。覆蓋破解文件的時(shí)侯不用管這種文件。
1、【您自行去采集俠官方下載最新v2.8版本假如官網(wǎng)不能打開(kāi)就用我備份好的,解壓后有個(gè)采集俠官方插件文件夾,自行選擇安裝對應的版本),然后安裝到您的織夢(mèng)后臺,如果之前安裝過(guò)2.7版本,請先刪掉!】
2、注意安裝的時(shí)侯版本千萬(wàn)不要選錯了,UTF8就裝UTF8,GBK就用GBK的不要混用!
3、【覆蓋破解文件】(共三個(gè)文件CaiJiXia、include和Plugins)
Plugins : 直接覆蓋到網(wǎng)站的根目錄
include : 直接覆蓋到網(wǎng)站的根目錄
CaiJiXia: 網(wǎng)站默認后臺是dede,如果你沒(méi)有更改后臺目錄的話(huà)那就是覆蓋 /dede/apps/下面,如果后臺訪(fǎng)問(wèn)路徑被更改過(guò)的話(huà),那就把dede換成你更改的名稱(chēng)。例:dede已更改成test, 那就覆蓋/test/apps/目錄下
4、【破解程序使用對域名無(wú)限制】
5、【覆蓋后須要清除下瀏覽器緩存, 推薦使用微軟或則火狐瀏覽器,不要用IE內核瀏覽器,清理緩存有時(shí)清的不干凈】
6、PHP版本必須5.3+
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘采集俠,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热莶杉瘋b,方便簡(jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
PC官方版
安卓官方手機版
IOS官方手機版 查看全部

dede織夢(mèng)采集俠是一款采集應用工具,可以幫助廣大用戶(hù)在線(xiàn)進(jìn)行織夢(mèng)采集,這款軟件主要是為廣大須要做網(wǎng)站的用戶(hù)所打算,讓你們可以快速采集同類(lèi)網(wǎng)站的相關(guān)資源,幫助你們構建起自己的資源信息頁(yè)面與相關(guān)庫集。
采集版分UTF8和GBK兩個(gè)版本,根據自己使用的dedecms版本來(lái)選擇!
因文件是用mac系統打包的,會(huì )自帶_MACOSX、.DS_Store文件,不影響使用,有強迫癥的可以刪掉。覆蓋破解文件的時(shí)侯不用管這種文件。
1、【您自行去采集俠官方下載最新v2.8版本假如官網(wǎng)不能打開(kāi)就用我備份好的,解壓后有個(gè)采集俠官方插件文件夾,自行選擇安裝對應的版本),然后安裝到您的織夢(mèng)后臺,如果之前安裝過(guò)2.7版本,請先刪掉!】
2、注意安裝的時(shí)侯版本千萬(wàn)不要選錯了,UTF8就裝UTF8,GBK就用GBK的不要混用!
3、【覆蓋破解文件】(共三個(gè)文件CaiJiXia、include和Plugins)
Plugins : 直接覆蓋到網(wǎng)站的根目錄
include : 直接覆蓋到網(wǎng)站的根目錄
CaiJiXia: 網(wǎng)站默認后臺是dede,如果你沒(méi)有更改后臺目錄的話(huà)那就是覆蓋 /dede/apps/下面,如果后臺訪(fǎng)問(wèn)路徑被更改過(guò)的話(huà),那就把dede換成你更改的名稱(chēng)。例:dede已更改成test, 那就覆蓋/test/apps/目錄下
4、【破解程序使用對域名無(wú)限制】
5、【覆蓋后須要清除下瀏覽器緩存, 推薦使用微軟或則火狐瀏覽器,不要用IE內核瀏覽器,清理緩存有時(shí)清的不干凈】
6、PHP版本必須5.3+
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘采集俠,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热莶杉瘋b,方便簡(jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
PC官方版
安卓官方手機版
IOS官方手機版
分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 365 次瀏覽 ? 2020-05-09 08:02
分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現——分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現?一、 研究所屬范圍分布式網(wǎng)路爬蟲(chóng)包含多個(gè)爬蟲(chóng), 每個(gè)爬蟲(chóng)須要完成的任務(wù)和單個(gè)的爬行器類(lèi)似, 它們從互聯(lián) 網(wǎng)上下載網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在本地的c盤(pán),從中抽取 URL 并順著(zhù)這種 URL 的指向繼續爬 行。由于并行爬行器須要分割下載任務(wù),可能爬蟲(chóng)會(huì )將自己抽取的 URL 發(fā)送給其他爬蟲(chóng)。 這些爬蟲(chóng)可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。根據爬蟲(chóng)的分散程度不同,可以把分布式爬行器分成以下兩大類(lèi): 1、基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng):這種分布式爬行器的所有爬蟲(chóng)在同一個(gè)局域網(wǎng)里運行,通過(guò)高 速的網(wǎng)路聯(lián)接互相通訊。這些爬蟲(chóng)通過(guò)同一個(gè)網(wǎng)路去訪(fǎng)問(wèn)外部互聯(lián)網(wǎng),下載網(wǎng)頁(yè),所有的網(wǎng) 絡(luò )負載都集中在她們所在的那種局域網(wǎng)的出口上。 由于局域網(wǎng)的帶寬較高, 爬蟲(chóng)之間的通訊 的效率能否得到保證; 但是網(wǎng)路出口的總帶寬上限是固定的, 爬蟲(chóng)的數目會(huì )遭到局域網(wǎng)出口 帶寬的限制。 2、基于廣域網(wǎng)分布式網(wǎng)路爬蟲(chóng):當并行爬行器的爬蟲(chóng)分別運行在不同地理位置(或網(wǎng)路位置), 我們稱(chēng)這些并行爬行器為分布式爬行器。
例如,分布式爬行器的爬蟲(chóng)可能坐落中國,日本, 和英國,分別負責下載這三地的網(wǎng)頁(yè);或者坐落 CHINANET,CERNET,CEINET,分別負責 下載這三個(gè)網(wǎng)路的中的網(wǎng)頁(yè)。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)路流量, 減小網(wǎng)路出口的負載。如果爬蟲(chóng)分布在不同的地理位置(或網(wǎng)路位置),需要間隔多長(cháng)時(shí)間 進(jìn)行一次互相通訊就成為了一個(gè)值得考慮的問(wèn)題。 爬蟲(chóng)之間的通信帶寬可能是有限的, 通常 需要通過(guò)互聯(lián)網(wǎng)進(jìn)行通訊。 在實(shí)際應用中, 基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)應用的更廣一些, 而基于廣域網(wǎng)的爬蟲(chóng)因為 實(shí)現復雜, 設計和實(shí)現成本偏高, 一般只有實(shí)力雄厚和采集任務(wù)較重的大公司才能使用這些 爬蟲(chóng)。本論文所設計的爬蟲(chóng)就是基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)。二、分布式網(wǎng)路爬蟲(chóng)整體剖析分布式網(wǎng)路爬蟲(chóng)的整體設計重點(diǎn)應當在于爬蟲(chóng)怎樣進(jìn)行通訊。目前分布式網(wǎng) 絡(luò )爬蟲(chóng)按通訊方法不同分布式網(wǎng)絡(luò )爬蟲(chóng)可以分為主從模式、 自治模式與混和模式 三種。主從模式是指由一臺主機作為控制節點(diǎn)負責所有運行網(wǎng)路爬蟲(chóng)的主機進(jìn)行管理, 爬蟲(chóng)只 需要從控制節點(diǎn)哪里接收任務(wù), 并把新生成任務(wù)遞交給控制節點(diǎn)就可以了, 在這個(gè)過(guò)程中不 必與其他爬蟲(chóng)通訊,這種方法實(shí)現簡(jiǎn)單利于管理。
而控制節點(diǎn)則須要與所有爬蟲(chóng)進(jìn)行通訊, 它須要一個(gè)地址列表來(lái)保存系統中所有爬蟲(chóng)的信息。 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 協(xié)調 者須要更新地址列表里的數據, 這一過(guò)程對于系統中的爬蟲(chóng)是透明的。 但是隨著(zhù)爬蟲(chóng)網(wǎng)頁(yè)數 量的降低。 控制節點(diǎn)會(huì )成為整個(gè)系統的困局而造成整個(gè)分布式網(wǎng)路爬蟲(chóng)系統性能增長(cháng)。 主從 模式的整體結構圖:自治模式是指系統中沒(méi)有協(xié)調者,所有的爬蟲(chóng)都必須互相通訊,比主從模式 下爬蟲(chóng)要復雜一些。自治模式的通訊方法可以使用全聯(lián)接通訊或環(huán)型通訊。全連 接通訊是指所用爬蟲(chóng)都可以互相發(fā)送信息, 使用這些方法的每位網(wǎng)絡(luò )爬蟲(chóng)會(huì )維護 一個(gè)地址列表,表中儲存著(zhù)整個(gè)系統中所有爬蟲(chóng)的位置,每次通訊時(shí)可以直接把 數據發(fā)送給須要此數據的爬蟲(chóng)。當系統中的爬蟲(chóng)數目發(fā)生變化時(shí),每個(gè)爬蟲(chóng)的地 址列表都須要進(jìn)行更新。環(huán)形通訊是指爬蟲(chóng)在邏輯上構成一個(gè)環(huán)形網(wǎng),數據在環(huán) 上按順時(shí)針或逆時(shí)針雙向傳輸, 每個(gè)爬蟲(chóng)的地址列表中只保存其前驅和后繼的信 息。爬蟲(chóng)接收到數據然后判定數據是否是發(fā)送給自己的,如果數據不是發(fā)送給自 己的,就把數據轉發(fā)給后繼;如果數據是發(fā)送給自己的,就不再發(fā)送。假設整個(gè) 系統中有 n 個(gè)爬蟲(chóng), 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 系統中只有 n-1 個(gè)爬蟲(chóng)的 地址列表須要進(jìn)行更新。
混合模式是結合前面兩種模式的特性的一種折中模式。該模式所有的爬蟲(chóng)都可以 相互通訊同時(shí)都具有任務(wù)分配功能。不過(guò)所有爬蟲(chóng)中有個(gè)特殊的爬蟲(chóng),該爬蟲(chóng)主 要功能對早已經(jīng)過(guò)爬蟲(chóng)任務(wù)分配后未能分配的任務(wù)進(jìn)行集中分配。 使用這個(gè)方法 的每位網(wǎng)路爬蟲(chóng)只需維護自己采集范圍的地址列表。 而特殊爬蟲(chóng)需不僅保存自己 采集范圍的地址列表外還保存須要進(jìn)行集中分配的地址列表。 混合模式的整體結 構圖:三、大型分布式網(wǎng)路爬蟲(chóng)體系結構圖: 大型分布式網(wǎng)路爬蟲(chóng)體系結構圖:從這種圖可以看出,分布式網(wǎng)路爬蟲(chóng)是一項非常復雜系統。需要考慮好多方面誘因。性 能可以說(shuō)是它這重要的指標。當然硬件層面的資源也是必須的。不過(guò)不在本系列考慮范圍。 從上篇開(kāi)始, 我將從單機網(wǎng)路爬蟲(chóng)一步步介紹我們須要考慮的問(wèn)題的解決方案。 如果你們有 更好的解決方案。歡迎指教。 吉日的一句話(huà)說(shuō)的太有道理, 一個(gè)人一輩子只能做好幾件事。 希望你們支持我的這個(gè)系 列。談?wù)劸W(wǎng)路爬蟲(chóng)設計中的問(wèn)題?網(wǎng)絡(luò )蜘蛛現今開(kāi)源的早已有好幾個(gè)了,Larbin,Nutch,Heritrix 都各有用戶(hù)之地,要做 一個(gè)自己的爬蟲(chóng)要解決很多個(gè)問(wèn)題分詞技術(shù) 爬蟲(chóng),比如調度算法、更新策略、分布式存儲等,我們來(lái)一一 看一下。
一個(gè)爬蟲(chóng)要做的事主要有以下這種 1. 2. 3. 從一個(gè)網(wǎng)頁(yè)入口,分析鏈接,一層一層的遍歷,或者從一組網(wǎng)頁(yè)入口,或者 從一個(gè) rss 源列表開(kāi)始爬 rss; 獲取每位頁(yè)面的源碼保存在c盤(pán)或則數據庫里; 遍歷抓出來(lái)的網(wǎng)頁(yè)進(jìn)行處理,比如提取正文,消重等;4. 根據用途把處理后的文本進(jìn)行索引、分類(lèi)、聚類(lèi)等操作。 以上是個(gè)人理解哦,呵呵。這些過(guò)程中,大約有如下問(wèn)題 如何獲取網(wǎng)頁(yè)源或則 RSS 源 如果是通常的爬蟲(chóng)的話(huà), 就是給幾個(gè)入口頁(yè)面, 然后沿著(zhù)超鏈接以遍歷圖的算法一個(gè)頁(yè)面一 個(gè)頁(yè)面的爬,這種情況網(wǎng)頁(yè)源極少,可以選擇從 hao123 等網(wǎng)址大全的網(wǎng)站為入口開(kāi)始爬。 如果做垂直搜索的話(huà)就人工去搜集一些這個(gè)行業(yè)的網(wǎng)站, 形成一個(gè)列表, 從這個(gè)列表開(kāi)始爬。 如果是爬 RSS 的話(huà),需要先搜集 RSS 源,現在大的門(mén)戶(hù)的新聞頻道和主流的博客系統都有 rss 的功能,可以先爬一遍網(wǎng)站,找出 rss 的鏈接,要獲取每位鏈接的內容,分析是否是 rss 格式,如果是就把這個(gè)鏈接保存到 rss 源數據庫里,以后就專(zhuān)門(mén)爬這個(gè) rss 源的 rss。還有一 種就是人工來(lái)整理,一般 blog 的 rss 都是有規律的,主域名跟一個(gè)用戶(hù)名旁邊再跟上一個(gè) rss 的固定頁(yè)面,比如 ,這樣就弄一個(gè)用戶(hù)字典,拼接 rss 地址, 然后用程序去偵測是否有這個(gè)頁(yè)面來(lái)整理出每位網(wǎng)站的 rss 源。
整理出 rss 源后再 人工設置 rss 源的權重及刷新時(shí)間間隔等。 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理, 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理,而不會(huì )相互等待或則重復處理 如果現今有 500 萬(wàn)個(gè)頁(yè)面要去爬,肯定要用多線(xiàn)程或則分布式多進(jìn)程去處理了??梢园秧?yè) 面進(jìn)行水平分割,每個(gè)線(xiàn)程處理一段兒,這樣每位線(xiàn)程之間不需要同步,各自處理各自的就 行了。比如給這 500W 個(gè)頁(yè)面分配一個(gè)自增 ID,2 個(gè)線(xiàn)程的話(huà)就讓第一個(gè)線(xiàn)程去爬 1,3,5 的網(wǎng)頁(yè),第二個(gè)線(xiàn)程去爬 2,4,6 的網(wǎng)頁(yè),這樣做空個(gè)線(xiàn)程間基本上能均衡,而且不會(huì )相 互等待,而且不會(huì )重復處理,也不會(huì )拉掉網(wǎng)頁(yè)。每個(gè)線(xiàn)程一次取出 1w 個(gè)頁(yè)面,并記錄最高 的源頁(yè)面 ID 號,處理完這一批后再從數據庫里提取小于這個(gè)源頁(yè)面 ID 號的下 1W 個(gè)頁(yè)面, 直到抓取完本線(xiàn)程要處理的所有頁(yè)面。1w 這個(gè)值按照機器的顯存可做適當的調整。為了防 止抓了半截兒關(guān)機,所以要支持斷點(diǎn)續抓,要為每位線(xiàn)程的處理進(jìn)度保存狀態(tài),每取一批網(wǎng) 頁(yè)都要記錄本線(xiàn)程最大的網(wǎng)頁(yè) ID,記錄到數據庫里,進(jìn)程重啟后可以讀取這個(gè) ID,接著(zhù)抓 后面的頁(yè)面。 如何盡量的借助 CPU,盡量的不使線(xiàn)程處于等待、休眠、阻塞等空閑狀態(tài)并且要盡量用少 ,盡量的不使線(xiàn)程處于等待、休眠、 的線(xiàn)程以降低上下文切換。
的線(xiàn)程以降低上下文切換。 爬蟲(chóng)有兩個(gè)地方須要 IO 操作,抓網(wǎng)頁(yè)的時(shí)侯須要通過(guò)網(wǎng)卡訪(fǎng)問(wèn)網(wǎng)路,抓到網(wǎng)頁(yè)后要把內容 寫(xiě)到c盤(pán)或則數據庫里。所以這兩個(gè)部份要用異步 IO 操作,這樣可以不用線(xiàn)程阻塞在那里 等待網(wǎng)頁(yè)抓過(guò)來(lái)或則寫(xiě)完磁盤(pán)文件,網(wǎng)卡和硬碟都支持顯存直接讀取,大量的 IO 操作會(huì )在 硬件驅動(dòng)的隊列里排隊,而不消耗任何 CPU。.net 的異步操作使用了線(xiàn)程池,不用自己頻繁 的創(chuàng )建和銷(xiāo)毀線(xiàn)程,減少了開(kāi)支,所以線(xiàn)程模型不用考慮,IO 模型也不用考慮,.net 的異 步 IO 操作直接使用了完成端口,很高效了,內存模型也不需要考慮,整個(gè)抓取過(guò)程各線(xiàn)程不需要訪(fǎng)問(wèn)共享資源分詞技術(shù) 爬蟲(chóng),除了數據庫里的源頁(yè)面,各管各的,而且也是每位線(xiàn)程分段處理,可 以實(shí)現無(wú)鎖編程。 如何不采集重復的網(wǎng)頁(yè) 去重可以使用 king 總監的布隆過(guò)濾器,每個(gè)線(xiàn)程使用一個(gè) bitarray,里面保存本批源頁(yè)面先前 抓取的頁(yè)面的哈希值情況,抓取出來(lái)的源頁(yè)面剖析鏈接后,去這個(gè) bitarray 里判定曾經(jīng)有沒(méi) 有抓過(guò)這個(gè)頁(yè)面,沒(méi)有的話(huà)就抓出來(lái),抓過(guò)的話(huà)就不管了。假設一個(gè)源頁(yè)面有 30 個(gè)鏈接把, 一批 10W 個(gè)源頁(yè)面, 300w 個(gè)鏈接的 bitarray 應該也不會(huì )占很大顯存。
所以有個(gè)五六個(gè)線(xiàn)程 同時(shí)處理也是沒(méi)問(wèn)題的。 抓出來(lái)的頁(yè)面更快的保存保存到分布式文件系統還是保存在數據庫里 如果保存到c盤(pán), 可以每位域名創(chuàng )建一個(gè)文件夾, 凡是這個(gè)網(wǎng)站的頁(yè)面都放在這個(gè)文件夾下, 只要文件名不一樣,就不會(huì )出現沖突。如果把頁(yè)面保存到c盤(pán),數據庫有自己的一套鎖管理 機制,直接用 bulk copy 放數據庫就行了。一般頻繁的寫(xiě)c盤(pán)可能會(huì )導致 CPU 過(guò)高,而頻繁 的寫(xiě)數據庫 CPU 還好一些。而且 sqlserver2008 支持 filestream 類(lèi)型的數組,在保存大文本字 段的時(shí)侯有挺好的性能,并且能夠使用數據庫的 API 來(lái)訪(fǎng)問(wèn)。所以我認為假如沒(méi)有 GFS 那 樣高效成熟的分布式文件系統的話(huà)還不如存 sqlserver 里面呢。 如何有效的依據網(wǎng)頁(yè)的更新頻度來(lái)調整爬蟲(chóng)的采集時(shí)間間隔 做爬蟲(chóng)要了解一些 HTTP 協(xié)議,如果要抓的網(wǎng)頁(yè)支持 Last-Modified 或者 ETag 頭,我們可以先 發(fā)個(gè) head 請求來(lái)試探這個(gè)頁(yè)面有沒(méi)有變化來(lái)決定是否要重新抓取,但是很多網(wǎng)站根本就不 支持這個(gè)東西,所以使爬蟲(chóng)也太費力,讓自己的網(wǎng)站也會(huì )損失更多的性能。這樣我們就要自 己去標明每個(gè)源頁(yè)面的更新時(shí)間間隔及權重,再依照這兩個(gè)值去用一定的算法制訂蜘蛛的更 新策略。
采集下來(lái)的數據做什么用 可以抓取一個(gè)行業(yè)的網(wǎng)站,在本地進(jìn)行動(dòng)詞和索引,做成垂直搜索引擎??梢杂靡欢ǖ挠柧?算法對抓取出來(lái)的頁(yè)面進(jìn)行自動(dòng)分類(lèi),做成新聞門(mén)戶(hù)。也可以用死小風(fēng)行的文本相似度算法處理 后進(jìn)行文本降維處理。 如何不影響對方網(wǎng)站的性能 現在很多網(wǎng)站都被爬蟲(chóng)爬怕了, 因為有些蜘蛛弄住一個(gè)網(wǎng)站可勁兒的爬, 爬的人家網(wǎng)站的正 常用戶(hù)都未能訪(fǎng)問(wèn)了。所以很多站長(cháng)想了很多辦法來(lái)對付爬蟲(chóng),所以我們寫(xiě)爬蟲(chóng)也要遵守機器 人合同,控制單位時(shí)間內對一個(gè)網(wǎng)站的訪(fǎng)問(wèn)量。 查看全部

分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現——分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現?一、 研究所屬范圍分布式網(wǎng)路爬蟲(chóng)包含多個(gè)爬蟲(chóng), 每個(gè)爬蟲(chóng)須要完成的任務(wù)和單個(gè)的爬行器類(lèi)似, 它們從互聯(lián) 網(wǎng)上下載網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在本地的c盤(pán),從中抽取 URL 并順著(zhù)這種 URL 的指向繼續爬 行。由于并行爬行器須要分割下載任務(wù),可能爬蟲(chóng)會(huì )將自己抽取的 URL 發(fā)送給其他爬蟲(chóng)。 這些爬蟲(chóng)可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。根據爬蟲(chóng)的分散程度不同,可以把分布式爬行器分成以下兩大類(lèi): 1、基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng):這種分布式爬行器的所有爬蟲(chóng)在同一個(gè)局域網(wǎng)里運行,通過(guò)高 速的網(wǎng)路聯(lián)接互相通訊。這些爬蟲(chóng)通過(guò)同一個(gè)網(wǎng)路去訪(fǎng)問(wèn)外部互聯(lián)網(wǎng),下載網(wǎng)頁(yè),所有的網(wǎng) 絡(luò )負載都集中在她們所在的那種局域網(wǎng)的出口上。 由于局域網(wǎng)的帶寬較高, 爬蟲(chóng)之間的通訊 的效率能否得到保證; 但是網(wǎng)路出口的總帶寬上限是固定的, 爬蟲(chóng)的數目會(huì )遭到局域網(wǎng)出口 帶寬的限制。 2、基于廣域網(wǎng)分布式網(wǎng)路爬蟲(chóng):當并行爬行器的爬蟲(chóng)分別運行在不同地理位置(或網(wǎng)路位置), 我們稱(chēng)這些并行爬行器為分布式爬行器。
例如,分布式爬行器的爬蟲(chóng)可能坐落中國,日本, 和英國,分別負責下載這三地的網(wǎng)頁(yè);或者坐落 CHINANET,CERNET,CEINET,分別負責 下載這三個(gè)網(wǎng)路的中的網(wǎng)頁(yè)。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)路流量, 減小網(wǎng)路出口的負載。如果爬蟲(chóng)分布在不同的地理位置(或網(wǎng)路位置),需要間隔多長(cháng)時(shí)間 進(jìn)行一次互相通訊就成為了一個(gè)值得考慮的問(wèn)題。 爬蟲(chóng)之間的通信帶寬可能是有限的, 通常 需要通過(guò)互聯(lián)網(wǎng)進(jìn)行通訊。 在實(shí)際應用中, 基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)應用的更廣一些, 而基于廣域網(wǎng)的爬蟲(chóng)因為 實(shí)現復雜, 設計和實(shí)現成本偏高, 一般只有實(shí)力雄厚和采集任務(wù)較重的大公司才能使用這些 爬蟲(chóng)。本論文所設計的爬蟲(chóng)就是基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)。二、分布式網(wǎng)路爬蟲(chóng)整體剖析分布式網(wǎng)路爬蟲(chóng)的整體設計重點(diǎn)應當在于爬蟲(chóng)怎樣進(jìn)行通訊。目前分布式網(wǎng) 絡(luò )爬蟲(chóng)按通訊方法不同分布式網(wǎng)絡(luò )爬蟲(chóng)可以分為主從模式、 自治模式與混和模式 三種。主從模式是指由一臺主機作為控制節點(diǎn)負責所有運行網(wǎng)路爬蟲(chóng)的主機進(jìn)行管理, 爬蟲(chóng)只 需要從控制節點(diǎn)哪里接收任務(wù), 并把新生成任務(wù)遞交給控制節點(diǎn)就可以了, 在這個(gè)過(guò)程中不 必與其他爬蟲(chóng)通訊,這種方法實(shí)現簡(jiǎn)單利于管理。
而控制節點(diǎn)則須要與所有爬蟲(chóng)進(jìn)行通訊, 它須要一個(gè)地址列表來(lái)保存系統中所有爬蟲(chóng)的信息。 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 協(xié)調 者須要更新地址列表里的數據, 這一過(guò)程對于系統中的爬蟲(chóng)是透明的。 但是隨著(zhù)爬蟲(chóng)網(wǎng)頁(yè)數 量的降低。 控制節點(diǎn)會(huì )成為整個(gè)系統的困局而造成整個(gè)分布式網(wǎng)路爬蟲(chóng)系統性能增長(cháng)。 主從 模式的整體結構圖:自治模式是指系統中沒(méi)有協(xié)調者,所有的爬蟲(chóng)都必須互相通訊,比主從模式 下爬蟲(chóng)要復雜一些。自治模式的通訊方法可以使用全聯(lián)接通訊或環(huán)型通訊。全連 接通訊是指所用爬蟲(chóng)都可以互相發(fā)送信息, 使用這些方法的每位網(wǎng)絡(luò )爬蟲(chóng)會(huì )維護 一個(gè)地址列表,表中儲存著(zhù)整個(gè)系統中所有爬蟲(chóng)的位置,每次通訊時(shí)可以直接把 數據發(fā)送給須要此數據的爬蟲(chóng)。當系統中的爬蟲(chóng)數目發(fā)生變化時(shí),每個(gè)爬蟲(chóng)的地 址列表都須要進(jìn)行更新。環(huán)形通訊是指爬蟲(chóng)在邏輯上構成一個(gè)環(huán)形網(wǎng),數據在環(huán) 上按順時(shí)針或逆時(shí)針雙向傳輸, 每個(gè)爬蟲(chóng)的地址列表中只保存其前驅和后繼的信 息。爬蟲(chóng)接收到數據然后判定數據是否是發(fā)送給自己的,如果數據不是發(fā)送給自 己的,就把數據轉發(fā)給后繼;如果數據是發(fā)送給自己的,就不再發(fā)送。假設整個(gè) 系統中有 n 個(gè)爬蟲(chóng), 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 系統中只有 n-1 個(gè)爬蟲(chóng)的 地址列表須要進(jìn)行更新。
混合模式是結合前面兩種模式的特性的一種折中模式。該模式所有的爬蟲(chóng)都可以 相互通訊同時(shí)都具有任務(wù)分配功能。不過(guò)所有爬蟲(chóng)中有個(gè)特殊的爬蟲(chóng),該爬蟲(chóng)主 要功能對早已經(jīng)過(guò)爬蟲(chóng)任務(wù)分配后未能分配的任務(wù)進(jìn)行集中分配。 使用這個(gè)方法 的每位網(wǎng)路爬蟲(chóng)只需維護自己采集范圍的地址列表。 而特殊爬蟲(chóng)需不僅保存自己 采集范圍的地址列表外還保存須要進(jìn)行集中分配的地址列表。 混合模式的整體結 構圖:三、大型分布式網(wǎng)路爬蟲(chóng)體系結構圖: 大型分布式網(wǎng)路爬蟲(chóng)體系結構圖:從這種圖可以看出,分布式網(wǎng)路爬蟲(chóng)是一項非常復雜系統。需要考慮好多方面誘因。性 能可以說(shuō)是它這重要的指標。當然硬件層面的資源也是必須的。不過(guò)不在本系列考慮范圍。 從上篇開(kāi)始, 我將從單機網(wǎng)路爬蟲(chóng)一步步介紹我們須要考慮的問(wèn)題的解決方案。 如果你們有 更好的解決方案。歡迎指教。 吉日的一句話(huà)說(shuō)的太有道理, 一個(gè)人一輩子只能做好幾件事。 希望你們支持我的這個(gè)系 列。談?wù)劸W(wǎng)路爬蟲(chóng)設計中的問(wèn)題?網(wǎng)絡(luò )蜘蛛現今開(kāi)源的早已有好幾個(gè)了,Larbin,Nutch,Heritrix 都各有用戶(hù)之地,要做 一個(gè)自己的爬蟲(chóng)要解決很多個(gè)問(wèn)題分詞技術(shù) 爬蟲(chóng),比如調度算法、更新策略、分布式存儲等,我們來(lái)一一 看一下。
一個(gè)爬蟲(chóng)要做的事主要有以下這種 1. 2. 3. 從一個(gè)網(wǎng)頁(yè)入口,分析鏈接,一層一層的遍歷,或者從一組網(wǎng)頁(yè)入口,或者 從一個(gè) rss 源列表開(kāi)始爬 rss; 獲取每位頁(yè)面的源碼保存在c盤(pán)或則數據庫里; 遍歷抓出來(lái)的網(wǎng)頁(yè)進(jìn)行處理,比如提取正文,消重等;4. 根據用途把處理后的文本進(jìn)行索引、分類(lèi)、聚類(lèi)等操作。 以上是個(gè)人理解哦,呵呵。這些過(guò)程中,大約有如下問(wèn)題 如何獲取網(wǎng)頁(yè)源或則 RSS 源 如果是通常的爬蟲(chóng)的話(huà), 就是給幾個(gè)入口頁(yè)面, 然后沿著(zhù)超鏈接以遍歷圖的算法一個(gè)頁(yè)面一 個(gè)頁(yè)面的爬,這種情況網(wǎng)頁(yè)源極少,可以選擇從 hao123 等網(wǎng)址大全的網(wǎng)站為入口開(kāi)始爬。 如果做垂直搜索的話(huà)就人工去搜集一些這個(gè)行業(yè)的網(wǎng)站, 形成一個(gè)列表, 從這個(gè)列表開(kāi)始爬。 如果是爬 RSS 的話(huà),需要先搜集 RSS 源,現在大的門(mén)戶(hù)的新聞頻道和主流的博客系統都有 rss 的功能,可以先爬一遍網(wǎng)站,找出 rss 的鏈接,要獲取每位鏈接的內容,分析是否是 rss 格式,如果是就把這個(gè)鏈接保存到 rss 源數據庫里,以后就專(zhuān)門(mén)爬這個(gè) rss 源的 rss。還有一 種就是人工來(lái)整理,一般 blog 的 rss 都是有規律的,主域名跟一個(gè)用戶(hù)名旁邊再跟上一個(gè) rss 的固定頁(yè)面,比如 ,這樣就弄一個(gè)用戶(hù)字典,拼接 rss 地址, 然后用程序去偵測是否有這個(gè)頁(yè)面來(lái)整理出每位網(wǎng)站的 rss 源。
整理出 rss 源后再 人工設置 rss 源的權重及刷新時(shí)間間隔等。 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理, 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理,而不會(huì )相互等待或則重復處理 如果現今有 500 萬(wàn)個(gè)頁(yè)面要去爬,肯定要用多線(xiàn)程或則分布式多進(jìn)程去處理了??梢园秧?yè) 面進(jìn)行水平分割,每個(gè)線(xiàn)程處理一段兒,這樣每位線(xiàn)程之間不需要同步,各自處理各自的就 行了。比如給這 500W 個(gè)頁(yè)面分配一個(gè)自增 ID,2 個(gè)線(xiàn)程的話(huà)就讓第一個(gè)線(xiàn)程去爬 1,3,5 的網(wǎng)頁(yè),第二個(gè)線(xiàn)程去爬 2,4,6 的網(wǎng)頁(yè),這樣做空個(gè)線(xiàn)程間基本上能均衡,而且不會(huì )相 互等待,而且不會(huì )重復處理,也不會(huì )拉掉網(wǎng)頁(yè)。每個(gè)線(xiàn)程一次取出 1w 個(gè)頁(yè)面,并記錄最高 的源頁(yè)面 ID 號,處理完這一批后再從數據庫里提取小于這個(gè)源頁(yè)面 ID 號的下 1W 個(gè)頁(yè)面, 直到抓取完本線(xiàn)程要處理的所有頁(yè)面。1w 這個(gè)值按照機器的顯存可做適當的調整。為了防 止抓了半截兒關(guān)機,所以要支持斷點(diǎn)續抓,要為每位線(xiàn)程的處理進(jìn)度保存狀態(tài),每取一批網(wǎng) 頁(yè)都要記錄本線(xiàn)程最大的網(wǎng)頁(yè) ID,記錄到數據庫里,進(jìn)程重啟后可以讀取這個(gè) ID,接著(zhù)抓 后面的頁(yè)面。 如何盡量的借助 CPU,盡量的不使線(xiàn)程處于等待、休眠、阻塞等空閑狀態(tài)并且要盡量用少 ,盡量的不使線(xiàn)程處于等待、休眠、 的線(xiàn)程以降低上下文切換。
的線(xiàn)程以降低上下文切換。 爬蟲(chóng)有兩個(gè)地方須要 IO 操作,抓網(wǎng)頁(yè)的時(shí)侯須要通過(guò)網(wǎng)卡訪(fǎng)問(wèn)網(wǎng)路,抓到網(wǎng)頁(yè)后要把內容 寫(xiě)到c盤(pán)或則數據庫里。所以這兩個(gè)部份要用異步 IO 操作,這樣可以不用線(xiàn)程阻塞在那里 等待網(wǎng)頁(yè)抓過(guò)來(lái)或則寫(xiě)完磁盤(pán)文件,網(wǎng)卡和硬碟都支持顯存直接讀取,大量的 IO 操作會(huì )在 硬件驅動(dòng)的隊列里排隊,而不消耗任何 CPU。.net 的異步操作使用了線(xiàn)程池,不用自己頻繁 的創(chuàng )建和銷(xiāo)毀線(xiàn)程,減少了開(kāi)支,所以線(xiàn)程模型不用考慮,IO 模型也不用考慮,.net 的異 步 IO 操作直接使用了完成端口,很高效了,內存模型也不需要考慮,整個(gè)抓取過(guò)程各線(xiàn)程不需要訪(fǎng)問(wèn)共享資源分詞技術(shù) 爬蟲(chóng),除了數據庫里的源頁(yè)面,各管各的,而且也是每位線(xiàn)程分段處理,可 以實(shí)現無(wú)鎖編程。 如何不采集重復的網(wǎng)頁(yè) 去重可以使用 king 總監的布隆過(guò)濾器,每個(gè)線(xiàn)程使用一個(gè) bitarray,里面保存本批源頁(yè)面先前 抓取的頁(yè)面的哈希值情況,抓取出來(lái)的源頁(yè)面剖析鏈接后,去這個(gè) bitarray 里判定曾經(jīng)有沒(méi) 有抓過(guò)這個(gè)頁(yè)面,沒(méi)有的話(huà)就抓出來(lái),抓過(guò)的話(huà)就不管了。假設一個(gè)源頁(yè)面有 30 個(gè)鏈接把, 一批 10W 個(gè)源頁(yè)面, 300w 個(gè)鏈接的 bitarray 應該也不會(huì )占很大顯存。
所以有個(gè)五六個(gè)線(xiàn)程 同時(shí)處理也是沒(méi)問(wèn)題的。 抓出來(lái)的頁(yè)面更快的保存保存到分布式文件系統還是保存在數據庫里 如果保存到c盤(pán), 可以每位域名創(chuàng )建一個(gè)文件夾, 凡是這個(gè)網(wǎng)站的頁(yè)面都放在這個(gè)文件夾下, 只要文件名不一樣,就不會(huì )出現沖突。如果把頁(yè)面保存到c盤(pán),數據庫有自己的一套鎖管理 機制,直接用 bulk copy 放數據庫就行了。一般頻繁的寫(xiě)c盤(pán)可能會(huì )導致 CPU 過(guò)高,而頻繁 的寫(xiě)數據庫 CPU 還好一些。而且 sqlserver2008 支持 filestream 類(lèi)型的數組,在保存大文本字 段的時(shí)侯有挺好的性能,并且能夠使用數據庫的 API 來(lái)訪(fǎng)問(wèn)。所以我認為假如沒(méi)有 GFS 那 樣高效成熟的分布式文件系統的話(huà)還不如存 sqlserver 里面呢。 如何有效的依據網(wǎng)頁(yè)的更新頻度來(lái)調整爬蟲(chóng)的采集時(shí)間間隔 做爬蟲(chóng)要了解一些 HTTP 協(xié)議,如果要抓的網(wǎng)頁(yè)支持 Last-Modified 或者 ETag 頭,我們可以先 發(fā)個(gè) head 請求來(lái)試探這個(gè)頁(yè)面有沒(méi)有變化來(lái)決定是否要重新抓取,但是很多網(wǎng)站根本就不 支持這個(gè)東西,所以使爬蟲(chóng)也太費力,讓自己的網(wǎng)站也會(huì )損失更多的性能。這樣我們就要自 己去標明每個(gè)源頁(yè)面的更新時(shí)間間隔及權重,再依照這兩個(gè)值去用一定的算法制訂蜘蛛的更 新策略。
采集下來(lái)的數據做什么用 可以抓取一個(gè)行業(yè)的網(wǎng)站,在本地進(jìn)行動(dòng)詞和索引,做成垂直搜索引擎??梢杂靡欢ǖ挠柧?算法對抓取出來(lái)的頁(yè)面進(jìn)行自動(dòng)分類(lèi),做成新聞門(mén)戶(hù)。也可以用死小風(fēng)行的文本相似度算法處理 后進(jìn)行文本降維處理。 如何不影響對方網(wǎng)站的性能 現在很多網(wǎng)站都被爬蟲(chóng)爬怕了, 因為有些蜘蛛弄住一個(gè)網(wǎng)站可勁兒的爬, 爬的人家網(wǎng)站的正 常用戶(hù)都未能訪(fǎng)問(wèn)了。所以很多站長(cháng)想了很多辦法來(lái)對付爬蟲(chóng),所以我們寫(xiě)爬蟲(chóng)也要遵守機器 人合同,控制單位時(shí)間內對一個(gè)網(wǎng)站的訪(fǎng)問(wèn)量。
Wordpress采集插件
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 414 次瀏覽 ? 2020-07-23 08:02
隨心所欲地把自己喜歡的RSS上面的文章自動(dòng)發(fā)布到自己的wordpress 博客上,使得 wordpress 具有了類(lèi)似于有些 CMS 的手動(dòng)采集功能。 使用方式:
s1、下載jay_smart_rss,解壓后把jay_smart_rss.php、wp-cron.php和wp-cron-update- rss.php上傳到/wp-content /plugins/目錄下;把wp_smartrss.php和wp_smartrss_hide.php上傳到博客根目錄下。
s2、在插件管理頁(yè)面激活jay_smart_rss。成功激活后,選項下邊會(huì )多出一個(gè)Smart RSS,點(diǎn)擊“Smart RSS”,然后在A(yíng)dd New前面添加你想要發(fā)布到你的博客上的文章源RSS地址,選擇相應的目錄,然后“Save”。
s3、在瀏覽器里輸入“”,如果聽(tīng)到系統開(kāi)始讀取你設定的RSS地址,同時(shí)插入文章成功,恭喜你,大功正式告成。
s4、完成第3步后,到插件管理界面激活插件wp-cron.php和wp-cron-update-rss.php,不出意外的話(huà),你的博客自此 可 以手動(dòng)從設定的RSS讀取文章并手動(dòng)在相應的目錄發(fā)布下來(lái)了。程序在手動(dòng)更新期間博客頁(yè)面頂部會(huì )出現如下提示:All News is Auto Updating, Supported by Jay Smart RSS
2.Caffeinated Content
Caffeinated Content是一個(gè)十分強悍的WordPress插件,根據關(guān)鍵詞搜索Youtube、Yahoo Answer、Articles、Files而獲取相關(guān)內容,可保留原文也可翻譯成多個(gè)國家語(yǔ)言,并可以定時(shí)定量手動(dòng)發(fā)布到你的博客上的插件工具。
下載解壓后上傳到plugins根目錄下,到后臺激活即可,完全破解使用,內有注冊碼,放心使用。
這個(gè)功能是非常強悍的,只可惜沒(méi)有針對英文設置幾個(gè)比較好的信息源頭,如果想自行做二次開(kāi)發(fā),用這個(gè)做基礎是非常好的選擇。
3.WP-o-Matic
WP-o-Matic是一款療效特別不錯的WordPress采集插件,雖然少了手動(dòng)分類(lèi)功能,但該插件在各個(gè)方面都表現的尚佳,相對于 wordpress采集插件Caffeinated Content來(lái)說(shuō),wp-o-matic是不錯的選擇,通過(guò)RSS完成blog的手動(dòng)采集。
WP-o-Matic安裝使用方式:
s1、解壓后上傳插件到你的plugins根目錄。
s2、需要在傲游或safari中使用激活WP-o-Matic插件。
s3、激活插件后設置欄出現WP-o-Matic選項點(diǎn)擊步入第一步的設置。
s4、進(jìn)行Add campaign里進(jìn)行采集設置,主要在feeds里添加要采集的目標站的feeds,categories選擇采集分類(lèi)。
s5、在options里設置采集路徑等,默認就行,Cache images要求完善個(gè)“Cache”文件夾并更改權限為777。每次采集都須要在add campaign執行,addcampaign設置完成后點(diǎn)擊submit后,如果未設置好wordpress采集插件,他會(huì )提示你,直到Campaign added successfully. Edit it or fetch it now后點(diǎn)擊fetch it now。
4.Wordpress Auto Get Rss
WordPress Auto Get Rss是一個(gè)可以在Wordpress博客程序上手動(dòng)更新、發(fā)布文章的插件,通過(guò)任何RSS或Atom供稿。
使用Wordpress Auto Get Rss構建一個(gè)手動(dòng)的博客,比如視頻博客、創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS摘要。Wordpress Autoblogs是一強悍的工具,現在可更新下載最新版本,Wordpress Get-Rss。
WordPress Auto Get Rss是一個(gè)功能強悍的 autoblogging為WordPress插件手動(dòng)創(chuàng )建博客的任何RSS或Atom供稿職位。 Autoblogging是一個(gè)偉大的方法來(lái)自動(dòng)化你的WordPress職位,讓您可以專(zhuān)注于掙錢(qián),你的努力與您的博客。隨著(zhù)幾十功 能wordpress采集插件,Wordpress Auto Get Rss是世界上最強悍的autoblog為WordPress插件軟件可用的最好方式手動(dòng)博客內容。
特點(diǎn):
圖像和視頻支持,自定義模板后,先進(jìn)的后過(guò)濾,增強標記引擎,正則表達式搜索和替換,創(chuàng )建圖片縮略圖,用自己的價(jià)值觀(guān)覆蓋feeds數據,完全支持WordPress的2.7和更高版本,見(jiàn)Wordpress Auto Get Rss的功能
此外,我們還降低了一個(gè)全面的在線(xiàn)幫助,電子郵件支持,客戶(hù)峰會(huì ),以確保您可以快速,輕松地開(kāi)始在WordPress autoblogging!
您可以使用Wordpress Auto Get Rss構建一個(gè)博客網(wǎng)路,自動(dòng)化的視頻博客,創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS提要??蓾裥苑蹌〢utoblogs是一個(gè)偉大的方法快速建立關(guān)鍵字密度的內容,獲得與您的博客,并完全自動(dòng)化您的博客上。
更妙的是,自動(dòng)化的博客內容是一個(gè)挺好的取代域名停放。而不是顯示的則垃圾通用寄存網(wǎng)頁(yè)前瞻性的廣告,可以提供真正的內容,請在搜索引擎索引,建立網(wǎng)頁(yè)排行,并形成流量。你會(huì )驚奇地發(fā)覺(jué)您的域值快速下降!
5.autoblogged+wordpress做英語(yǔ)采集站
AutoBlogged 是一個(gè)十分強悍的 WordPress 插件,通過(guò)任意的 RSS 或 Atom Feed,自動(dòng)生成日志。使用這個(gè)插件,可以輕松的構建博客網(wǎng)路,生成文章,圖片,視頻博客,聚合多個(gè) feeds。
主要特征:
支持圖片及視頻
自定義日志模板
高級日志過(guò)濾
增強的tag 引擎
正則表達式搜索,替換
生成縮略圖
支持 WordPress 2.7 及以上
查看所有特征
6.wordpress手動(dòng)采集發(fā)布插件WP Robot
今天講的這個(gè)wp插件是一個(gè)基于wordpress平臺的內容采集工具。wp robot是一個(gè)款英語(yǔ)站工具,這個(gè)插件的惡果我都不說(shuō)了,畢竟仁者見(jiàn)仁智者見(jiàn)智!
功能主要包括:
1)支持采集yahoo answers的英語(yǔ)、法語(yǔ)、英語(yǔ)和西班牙語(yǔ)的采集;
2)使用的yahoo的官方api,
3)一個(gè)貼子里可以有5個(gè)文檔內容
4)可以選取目標關(guān)鍵詞,然后wp robot插件手動(dòng)去搜索相關(guān)貼子主題來(lái)采集best answers或其他分類(lèi)的貼子內容。按照我的經(jīng)驗,如果主題選擇的好,多注冊一些垃圾域名,然后不停的采集 查看全部
隨心所欲地把自己喜歡的RSS上面的文章自動(dòng)發(fā)布到自己的wordpress 博客上,使得 wordpress 具有了類(lèi)似于有些 CMS 的手動(dòng)采集功能。 使用方式:
s1、下載jay_smart_rss,解壓后把jay_smart_rss.php、wp-cron.php和wp-cron-update- rss.php上傳到/wp-content /plugins/目錄下;把wp_smartrss.php和wp_smartrss_hide.php上傳到博客根目錄下。
s2、在插件管理頁(yè)面激活jay_smart_rss。成功激活后,選項下邊會(huì )多出一個(gè)Smart RSS,點(diǎn)擊“Smart RSS”,然后在A(yíng)dd New前面添加你想要發(fā)布到你的博客上的文章源RSS地址,選擇相應的目錄,然后“Save”。
s3、在瀏覽器里輸入“”,如果聽(tīng)到系統開(kāi)始讀取你設定的RSS地址,同時(shí)插入文章成功,恭喜你,大功正式告成。
s4、完成第3步后,到插件管理界面激活插件wp-cron.php和wp-cron-update-rss.php,不出意外的話(huà),你的博客自此 可 以手動(dòng)從設定的RSS讀取文章并手動(dòng)在相應的目錄發(fā)布下來(lái)了。程序在手動(dòng)更新期間博客頁(yè)面頂部會(huì )出現如下提示:All News is Auto Updating, Supported by Jay Smart RSS
2.Caffeinated Content
Caffeinated Content是一個(gè)十分強悍的WordPress插件,根據關(guān)鍵詞搜索Youtube、Yahoo Answer、Articles、Files而獲取相關(guān)內容,可保留原文也可翻譯成多個(gè)國家語(yǔ)言,并可以定時(shí)定量手動(dòng)發(fā)布到你的博客上的插件工具。
下載解壓后上傳到plugins根目錄下,到后臺激活即可,完全破解使用,內有注冊碼,放心使用。
這個(gè)功能是非常強悍的,只可惜沒(méi)有針對英文設置幾個(gè)比較好的信息源頭,如果想自行做二次開(kāi)發(fā),用這個(gè)做基礎是非常好的選擇。
3.WP-o-Matic
WP-o-Matic是一款療效特別不錯的WordPress采集插件,雖然少了手動(dòng)分類(lèi)功能,但該插件在各個(gè)方面都表現的尚佳,相對于 wordpress采集插件Caffeinated Content來(lái)說(shuō),wp-o-matic是不錯的選擇,通過(guò)RSS完成blog的手動(dòng)采集。
WP-o-Matic安裝使用方式:
s1、解壓后上傳插件到你的plugins根目錄。
s2、需要在傲游或safari中使用激活WP-o-Matic插件。
s3、激活插件后設置欄出現WP-o-Matic選項點(diǎn)擊步入第一步的設置。
s4、進(jìn)行Add campaign里進(jìn)行采集設置,主要在feeds里添加要采集的目標站的feeds,categories選擇采集分類(lèi)。
s5、在options里設置采集路徑等,默認就行,Cache images要求完善個(gè)“Cache”文件夾并更改權限為777。每次采集都須要在add campaign執行,addcampaign設置完成后點(diǎn)擊submit后,如果未設置好wordpress采集插件,他會(huì )提示你,直到Campaign added successfully. Edit it or fetch it now后點(diǎn)擊fetch it now。
4.Wordpress Auto Get Rss
WordPress Auto Get Rss是一個(gè)可以在Wordpress博客程序上手動(dòng)更新、發(fā)布文章的插件,通過(guò)任何RSS或Atom供稿。
使用Wordpress Auto Get Rss構建一個(gè)手動(dòng)的博客,比如視頻博客、創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS摘要。Wordpress Autoblogs是一強悍的工具,現在可更新下載最新版本,Wordpress Get-Rss。
WordPress Auto Get Rss是一個(gè)功能強悍的 autoblogging為WordPress插件手動(dòng)創(chuàng )建博客的任何RSS或Atom供稿職位。 Autoblogging是一個(gè)偉大的方法來(lái)自動(dòng)化你的WordPress職位,讓您可以專(zhuān)注于掙錢(qián),你的努力與您的博客。隨著(zhù)幾十功 能wordpress采集插件,Wordpress Auto Get Rss是世界上最強悍的autoblog為WordPress插件軟件可用的最好方式手動(dòng)博客內容。
特點(diǎn):
圖像和視頻支持,自定義模板后,先進(jìn)的后過(guò)濾,增強標記引擎,正則表達式搜索和替換,創(chuàng )建圖片縮略圖,用自己的價(jià)值觀(guān)覆蓋feeds數據,完全支持WordPress的2.7和更高版本,見(jiàn)Wordpress Auto Get Rss的功能
此外,我們還降低了一個(gè)全面的在線(xiàn)幫助,電子郵件支持,客戶(hù)峰會(huì ),以確保您可以快速,輕松地開(kāi)始在WordPress autoblogging!
您可以使用Wordpress Auto Get Rss構建一個(gè)博客網(wǎng)路,自動(dòng)化的視頻博客,創(chuàng )建主題門(mén)戶(hù)網(wǎng)站,或聚合RSS提要??蓾裥苑蹌〢utoblogs是一個(gè)偉大的方法快速建立關(guān)鍵字密度的內容,獲得與您的博客,并完全自動(dòng)化您的博客上。
更妙的是,自動(dòng)化的博客內容是一個(gè)挺好的取代域名停放。而不是顯示的則垃圾通用寄存網(wǎng)頁(yè)前瞻性的廣告,可以提供真正的內容,請在搜索引擎索引,建立網(wǎng)頁(yè)排行,并形成流量。你會(huì )驚奇地發(fā)覺(jué)您的域值快速下降!
5.autoblogged+wordpress做英語(yǔ)采集站
AutoBlogged 是一個(gè)十分強悍的 WordPress 插件,通過(guò)任意的 RSS 或 Atom Feed,自動(dòng)生成日志。使用這個(gè)插件,可以輕松的構建博客網(wǎng)路,生成文章,圖片,視頻博客,聚合多個(gè) feeds。
主要特征:
支持圖片及視頻
自定義日志模板
高級日志過(guò)濾
增強的tag 引擎
正則表達式搜索,替換
生成縮略圖
支持 WordPress 2.7 及以上
查看所有特征
6.wordpress手動(dòng)采集發(fā)布插件WP Robot
今天講的這個(gè)wp插件是一個(gè)基于wordpress平臺的內容采集工具。wp robot是一個(gè)款英語(yǔ)站工具,這個(gè)插件的惡果我都不說(shuō)了,畢竟仁者見(jiàn)仁智者見(jiàn)智!
功能主要包括:
1)支持采集yahoo answers的英語(yǔ)、法語(yǔ)、英語(yǔ)和西班牙語(yǔ)的采集;
2)使用的yahoo的官方api,
3)一個(gè)貼子里可以有5個(gè)文檔內容
4)可以選取目標關(guān)鍵詞,然后wp robot插件手動(dòng)去搜索相關(guān)貼子主題來(lái)采集best answers或其他分類(lèi)的貼子內容。按照我的經(jīng)驗,如果主題選擇的好,多注冊一些垃圾域名,然后不停的采集
采集俠下載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 674 次瀏覽 ? 2020-06-15 08:02
采集俠是一款十分實(shí)用的網(wǎng)站全手動(dòng)數據采集軟件。采集俠可以幫助用戶(hù)快速進(jìn)行seo采集與數據手動(dòng)更新操作,讓用戶(hù)才能快速提高自己網(wǎng)站seo排名,只需一鍵點(diǎn)擊即可獲得不錯采集效果,是用戶(hù)提供自己門(mén)戶(hù)網(wǎng)站排名最佳工具。
采集俠功能介紹:
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热?,方便?jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
5、 多種偽原創(chuàng )及優(yōu)化方法,提高收錄率及排行
自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、網(wǎng)址過(guò)濾、同義詞替換、插入seo成語(yǔ)、關(guān)鍵詞添加鏈接等多種方式手段對采集回來(lái)的文章加工處理,增強采集文章原創(chuàng )性,利于搜索引擎優(yōu)化,提高搜索引擎收錄、網(wǎng)站權重及關(guān)鍵詞排行。
6、插件全手動(dòng)采集,無(wú)需人工干預
織夢(mèng)采集俠根據預先設定是采集任務(wù),根據所設定的采集方式采集網(wǎng)址,然后手動(dòng)抓取網(wǎng)頁(yè)內容,程序通過(guò)精確估算剖析網(wǎng)頁(yè),丟棄掉不是文章內容頁(yè)的網(wǎng)址,提取出優(yōu)秀文章內容,最后進(jìn)行偽原創(chuàng ),導入,生成,這一切操作程序都是全手動(dòng)完成,無(wú)需人工干預。
7、手工發(fā)布文章亦可偽原創(chuàng )和搜索優(yōu)化處理
織夢(mèng)采集俠并不僅僅是一款采集插件,更是一款織夢(mèng)必備偽原創(chuàng )及搜索優(yōu)化插件,手工發(fā)布的文章可以經(jīng)過(guò)織夢(mèng)采集俠的偽原創(chuàng )和搜索優(yōu)化處理,可以對文章進(jìn)行同義詞替換,自動(dòng)內鏈,隨機插入關(guān)鍵詞鏈接和文章內包含關(guān)鍵詞將手動(dòng)添加指定鏈接等功能,是一款織夢(mèng)必備插件。
8、定時(shí)定量進(jìn)行采集偽原創(chuàng )SEO更新
插件有兩個(gè)觸發(fā)采集方式,一種是在頁(yè)面內添加代碼由用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新采集俠,另外種我們?yōu)樯虡I(yè)用戶(hù)提供的遠程觸發(fā)采集服務(wù),新站無(wú)有人訪(fǎng)問(wèn)即可定時(shí)定量采集更新,無(wú)需人工干預。
9、綁定織夢(mèng)采集節點(diǎn)采集俠,定時(shí)采集偽原創(chuàng )SEO更新
綁定織夢(mèng)采集節點(diǎn)的功能,讓織夢(mèng)CMS自帶的采集功能也能定時(shí)手動(dòng)采集更新。方便早已設置了采集規則的用戶(hù)定時(shí)采集更新。
10、定時(shí)定量更新待初審文稿
縱使你數據庫上面有成千上萬(wàn)篇文章,織夢(mèng)采集俠亦可按照您的須要每晚在您設置的時(shí)間段內定時(shí)定量初審更新。 查看全部
采集俠是一款十分實(shí)用的網(wǎng)站全手動(dòng)數據采集軟件。采集俠可以幫助用戶(hù)快速進(jìn)行seo采集與數據手動(dòng)更新操作,讓用戶(hù)才能快速提高自己網(wǎng)站seo排名,只需一鍵點(diǎn)擊即可獲得不錯采集效果,是用戶(hù)提供自己門(mén)戶(hù)網(wǎng)站排名最佳工具。
采集俠功能介紹:
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热?,方便?jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
5、 多種偽原創(chuàng )及優(yōu)化方法,提高收錄率及排行
自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、網(wǎng)址過(guò)濾、同義詞替換、插入seo成語(yǔ)、關(guān)鍵詞添加鏈接等多種方式手段對采集回來(lái)的文章加工處理,增強采集文章原創(chuàng )性,利于搜索引擎優(yōu)化,提高搜索引擎收錄、網(wǎng)站權重及關(guān)鍵詞排行。
6、插件全手動(dòng)采集,無(wú)需人工干預
織夢(mèng)采集俠根據預先設定是采集任務(wù),根據所設定的采集方式采集網(wǎng)址,然后手動(dòng)抓取網(wǎng)頁(yè)內容,程序通過(guò)精確估算剖析網(wǎng)頁(yè),丟棄掉不是文章內容頁(yè)的網(wǎng)址,提取出優(yōu)秀文章內容,最后進(jìn)行偽原創(chuàng ),導入,生成,這一切操作程序都是全手動(dòng)完成,無(wú)需人工干預。
7、手工發(fā)布文章亦可偽原創(chuàng )和搜索優(yōu)化處理
織夢(mèng)采集俠并不僅僅是一款采集插件,更是一款織夢(mèng)必備偽原創(chuàng )及搜索優(yōu)化插件,手工發(fā)布的文章可以經(jīng)過(guò)織夢(mèng)采集俠的偽原創(chuàng )和搜索優(yōu)化處理,可以對文章進(jìn)行同義詞替換,自動(dòng)內鏈,隨機插入關(guān)鍵詞鏈接和文章內包含關(guān)鍵詞將手動(dòng)添加指定鏈接等功能,是一款織夢(mèng)必備插件。
8、定時(shí)定量進(jìn)行采集偽原創(chuàng )SEO更新
插件有兩個(gè)觸發(fā)采集方式,一種是在頁(yè)面內添加代碼由用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新采集俠,另外種我們?yōu)樯虡I(yè)用戶(hù)提供的遠程觸發(fā)采集服務(wù),新站無(wú)有人訪(fǎng)問(wèn)即可定時(shí)定量采集更新,無(wú)需人工干預。
9、綁定織夢(mèng)采集節點(diǎn)采集俠,定時(shí)采集偽原創(chuàng )SEO更新
綁定織夢(mèng)采集節點(diǎn)的功能,讓織夢(mèng)CMS自帶的采集功能也能定時(shí)手動(dòng)采集更新。方便早已設置了采集規則的用戶(hù)定時(shí)采集更新。
10、定時(shí)定量更新待初審文稿
縱使你數據庫上面有成千上萬(wàn)篇文章,織夢(mèng)采集俠亦可按照您的須要每晚在您設置的時(shí)間段內定時(shí)定量初審更新。
dede織夢(mèng)采集俠下載v2.8 破解版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 667 次瀏覽 ? 2020-06-05 08:02
dede織夢(mèng)采集俠是一款采集應用工具,可以幫助廣大用戶(hù)在線(xiàn)進(jìn)行織夢(mèng)采集,這款軟件主要是為廣大須要做網(wǎng)站的用戶(hù)所打算,讓你們可以快速采集同類(lèi)網(wǎng)站的相關(guān)資源,幫助你們構建起自己的資源信息頁(yè)面與相關(guān)庫集。
采集版分UTF8和GBK兩個(gè)版本,根據自己使用的dedecms版本來(lái)選擇!
因文件是用mac系統打包的,會(huì )自帶_MACOSX、.DS_Store文件,不影響使用,有強迫癥的可以刪掉。覆蓋破解文件的時(shí)侯不用管這種文件。
1、【您自行去采集俠官方下載最新v2.8版本假如官網(wǎng)不能打開(kāi)就用我備份好的,解壓后有個(gè)采集俠官方插件文件夾,自行選擇安裝對應的版本),然后安裝到您的織夢(mèng)后臺,如果之前安裝過(guò)2.7版本,請先刪掉!】
2、注意安裝的時(shí)侯版本千萬(wàn)不要選錯了,UTF8就裝UTF8,GBK就用GBK的不要混用!
3、【覆蓋破解文件】(共三個(gè)文件CaiJiXia、include和Plugins)
Plugins : 直接覆蓋到網(wǎng)站的根目錄
include : 直接覆蓋到網(wǎng)站的根目錄
CaiJiXia: 網(wǎng)站默認后臺是dede,如果你沒(méi)有更改后臺目錄的話(huà)那就是覆蓋 /dede/apps/下面,如果后臺訪(fǎng)問(wèn)路徑被更改過(guò)的話(huà),那就把dede換成你更改的名稱(chēng)。例:dede已更改成test, 那就覆蓋/test/apps/目錄下
4、【破解程序使用對域名無(wú)限制】
5、【覆蓋后須要清除下瀏覽器緩存, 推薦使用微軟或則火狐瀏覽器,不要用IE內核瀏覽器,清理緩存有時(shí)清的不干凈】
6、PHP版本必須5.3+
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘采集俠,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热莶杉瘋b,方便簡(jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
PC官方版
安卓官方手機版
IOS官方手機版 查看全部

dede織夢(mèng)采集俠是一款采集應用工具,可以幫助廣大用戶(hù)在線(xiàn)進(jìn)行織夢(mèng)采集,這款軟件主要是為廣大須要做網(wǎng)站的用戶(hù)所打算,讓你們可以快速采集同類(lèi)網(wǎng)站的相關(guān)資源,幫助你們構建起自己的資源信息頁(yè)面與相關(guān)庫集。
采集版分UTF8和GBK兩個(gè)版本,根據自己使用的dedecms版本來(lái)選擇!
因文件是用mac系統打包的,會(huì )自帶_MACOSX、.DS_Store文件,不影響使用,有強迫癥的可以刪掉。覆蓋破解文件的時(shí)侯不用管這種文件。
1、【您自行去采集俠官方下載最新v2.8版本假如官網(wǎng)不能打開(kāi)就用我備份好的,解壓后有個(gè)采集俠官方插件文件夾,自行選擇安裝對應的版本),然后安裝到您的織夢(mèng)后臺,如果之前安裝過(guò)2.7版本,請先刪掉!】
2、注意安裝的時(shí)侯版本千萬(wàn)不要選錯了,UTF8就裝UTF8,GBK就用GBK的不要混用!
3、【覆蓋破解文件】(共三個(gè)文件CaiJiXia、include和Plugins)
Plugins : 直接覆蓋到網(wǎng)站的根目錄
include : 直接覆蓋到網(wǎng)站的根目錄
CaiJiXia: 網(wǎng)站默認后臺是dede,如果你沒(méi)有更改后臺目錄的話(huà)那就是覆蓋 /dede/apps/下面,如果后臺訪(fǎng)問(wèn)路徑被更改過(guò)的話(huà),那就把dede換成你更改的名稱(chēng)。例:dede已更改成test, 那就覆蓋/test/apps/目錄下
4、【破解程序使用對域名無(wú)限制】
5、【覆蓋后須要清除下瀏覽器緩存, 推薦使用微軟或則火狐瀏覽器,不要用IE內核瀏覽器,清理緩存有時(shí)清的不干凈】
6、PHP版本必須5.3+
1、一鍵安裝,全手動(dòng)采集
織夢(mèng)采集俠安裝非常簡(jiǎn)單便捷,只需一分鐘采集俠,立即開(kāi)始采集,而且結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序,新手也能快速上手,而且我們還有專(zhuān)門(mén)的客服為商業(yè)顧客提供技術(shù)支持。
2、一詞采集,無(wú)須編撰采集規則
和傳統的采集模式不同的是織夢(mèng)采集俠可以依據用戶(hù)設定的關(guān)鍵詞進(jìn)行泛采集,泛采集的優(yōu)勢在于通過(guò)采集該關(guān)鍵詞的不同搜索結果,實(shí)現不對指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集,減少采集站點(diǎn)被搜索引擎判斷為鏡像站點(diǎn)被搜索引擎懲罰的危險。
3、RSS采集,輸入RSS地址即可采集內容
只要被采集的網(wǎng)站提供RSS訂閱地址,即可通過(guò)RSS進(jìn)行采集,只須要輸入RSS地址即可便捷的 采集到目標網(wǎng)站內容,無(wú)需編撰采集規則,方便簡(jiǎn)單。
4、定向采集,精確采集標題、正文、作者、來(lái)源
定向采集只須要提供列表URL和文章URL即可智能采集指定網(wǎng)站或欄目?jì)热莶杉瘋b,方便簡(jiǎn)單,編寫(xiě)簡(jiǎn)單規則便可精確采集標題、正文、作者、來(lái)源。
PC官方版
安卓官方手機版
IOS官方手機版
分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 365 次瀏覽 ? 2020-05-09 08:02
分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現——分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現?一、 研究所屬范圍分布式網(wǎng)路爬蟲(chóng)包含多個(gè)爬蟲(chóng), 每個(gè)爬蟲(chóng)須要完成的任務(wù)和單個(gè)的爬行器類(lèi)似, 它們從互聯(lián) 網(wǎng)上下載網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在本地的c盤(pán),從中抽取 URL 并順著(zhù)這種 URL 的指向繼續爬 行。由于并行爬行器須要分割下載任務(wù),可能爬蟲(chóng)會(huì )將自己抽取的 URL 發(fā)送給其他爬蟲(chóng)。 這些爬蟲(chóng)可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。根據爬蟲(chóng)的分散程度不同,可以把分布式爬行器分成以下兩大類(lèi): 1、基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng):這種分布式爬行器的所有爬蟲(chóng)在同一個(gè)局域網(wǎng)里運行,通過(guò)高 速的網(wǎng)路聯(lián)接互相通訊。這些爬蟲(chóng)通過(guò)同一個(gè)網(wǎng)路去訪(fǎng)問(wèn)外部互聯(lián)網(wǎng),下載網(wǎng)頁(yè),所有的網(wǎng) 絡(luò )負載都集中在她們所在的那種局域網(wǎng)的出口上。 由于局域網(wǎng)的帶寬較高, 爬蟲(chóng)之間的通訊 的效率能否得到保證; 但是網(wǎng)路出口的總帶寬上限是固定的, 爬蟲(chóng)的數目會(huì )遭到局域網(wǎng)出口 帶寬的限制。 2、基于廣域網(wǎng)分布式網(wǎng)路爬蟲(chóng):當并行爬行器的爬蟲(chóng)分別運行在不同地理位置(或網(wǎng)路位置), 我們稱(chēng)這些并行爬行器為分布式爬行器。
例如,分布式爬行器的爬蟲(chóng)可能坐落中國,日本, 和英國,分別負責下載這三地的網(wǎng)頁(yè);或者坐落 CHINANET,CERNET,CEINET,分別負責 下載這三個(gè)網(wǎng)路的中的網(wǎng)頁(yè)。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)路流量, 減小網(wǎng)路出口的負載。如果爬蟲(chóng)分布在不同的地理位置(或網(wǎng)路位置),需要間隔多長(cháng)時(shí)間 進(jìn)行一次互相通訊就成為了一個(gè)值得考慮的問(wèn)題。 爬蟲(chóng)之間的通信帶寬可能是有限的, 通常 需要通過(guò)互聯(lián)網(wǎng)進(jìn)行通訊。 在實(shí)際應用中, 基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)應用的更廣一些, 而基于廣域網(wǎng)的爬蟲(chóng)因為 實(shí)現復雜, 設計和實(shí)現成本偏高, 一般只有實(shí)力雄厚和采集任務(wù)較重的大公司才能使用這些 爬蟲(chóng)。本論文所設計的爬蟲(chóng)就是基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)。二、分布式網(wǎng)路爬蟲(chóng)整體剖析分布式網(wǎng)路爬蟲(chóng)的整體設計重點(diǎn)應當在于爬蟲(chóng)怎樣進(jìn)行通訊。目前分布式網(wǎng) 絡(luò )爬蟲(chóng)按通訊方法不同分布式網(wǎng)絡(luò )爬蟲(chóng)可以分為主從模式、 自治模式與混和模式 三種。主從模式是指由一臺主機作為控制節點(diǎn)負責所有運行網(wǎng)路爬蟲(chóng)的主機進(jìn)行管理, 爬蟲(chóng)只 需要從控制節點(diǎn)哪里接收任務(wù), 并把新生成任務(wù)遞交給控制節點(diǎn)就可以了, 在這個(gè)過(guò)程中不 必與其他爬蟲(chóng)通訊,這種方法實(shí)現簡(jiǎn)單利于管理。
而控制節點(diǎn)則須要與所有爬蟲(chóng)進(jìn)行通訊, 它須要一個(gè)地址列表來(lái)保存系統中所有爬蟲(chóng)的信息。 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 協(xié)調 者須要更新地址列表里的數據, 這一過(guò)程對于系統中的爬蟲(chóng)是透明的。 但是隨著(zhù)爬蟲(chóng)網(wǎng)頁(yè)數 量的降低。 控制節點(diǎn)會(huì )成為整個(gè)系統的困局而造成整個(gè)分布式網(wǎng)路爬蟲(chóng)系統性能增長(cháng)。 主從 模式的整體結構圖:自治模式是指系統中沒(méi)有協(xié)調者,所有的爬蟲(chóng)都必須互相通訊,比主從模式 下爬蟲(chóng)要復雜一些。自治模式的通訊方法可以使用全聯(lián)接通訊或環(huán)型通訊。全連 接通訊是指所用爬蟲(chóng)都可以互相發(fā)送信息, 使用這些方法的每位網(wǎng)絡(luò )爬蟲(chóng)會(huì )維護 一個(gè)地址列表,表中儲存著(zhù)整個(gè)系統中所有爬蟲(chóng)的位置,每次通訊時(shí)可以直接把 數據發(fā)送給須要此數據的爬蟲(chóng)。當系統中的爬蟲(chóng)數目發(fā)生變化時(shí),每個(gè)爬蟲(chóng)的地 址列表都須要進(jìn)行更新。環(huán)形通訊是指爬蟲(chóng)在邏輯上構成一個(gè)環(huán)形網(wǎng),數據在環(huán) 上按順時(shí)針或逆時(shí)針雙向傳輸, 每個(gè)爬蟲(chóng)的地址列表中只保存其前驅和后繼的信 息。爬蟲(chóng)接收到數據然后判定數據是否是發(fā)送給自己的,如果數據不是發(fā)送給自 己的,就把數據轉發(fā)給后繼;如果數據是發(fā)送給自己的,就不再發(fā)送。假設整個(gè) 系統中有 n 個(gè)爬蟲(chóng), 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 系統中只有 n-1 個(gè)爬蟲(chóng)的 地址列表須要進(jìn)行更新。
混合模式是結合前面兩種模式的特性的一種折中模式。該模式所有的爬蟲(chóng)都可以 相互通訊同時(shí)都具有任務(wù)分配功能。不過(guò)所有爬蟲(chóng)中有個(gè)特殊的爬蟲(chóng),該爬蟲(chóng)主 要功能對早已經(jīng)過(guò)爬蟲(chóng)任務(wù)分配后未能分配的任務(wù)進(jìn)行集中分配。 使用這個(gè)方法 的每位網(wǎng)路爬蟲(chóng)只需維護自己采集范圍的地址列表。 而特殊爬蟲(chóng)需不僅保存自己 采集范圍的地址列表外還保存須要進(jìn)行集中分配的地址列表。 混合模式的整體結 構圖:三、大型分布式網(wǎng)路爬蟲(chóng)體系結構圖: 大型分布式網(wǎng)路爬蟲(chóng)體系結構圖:從這種圖可以看出,分布式網(wǎng)路爬蟲(chóng)是一項非常復雜系統。需要考慮好多方面誘因。性 能可以說(shuō)是它這重要的指標。當然硬件層面的資源也是必須的。不過(guò)不在本系列考慮范圍。 從上篇開(kāi)始, 我將從單機網(wǎng)路爬蟲(chóng)一步步介紹我們須要考慮的問(wèn)題的解決方案。 如果你們有 更好的解決方案。歡迎指教。 吉日的一句話(huà)說(shuō)的太有道理, 一個(gè)人一輩子只能做好幾件事。 希望你們支持我的這個(gè)系 列。談?wù)劸W(wǎng)路爬蟲(chóng)設計中的問(wèn)題?網(wǎng)絡(luò )蜘蛛現今開(kāi)源的早已有好幾個(gè)了,Larbin,Nutch,Heritrix 都各有用戶(hù)之地,要做 一個(gè)自己的爬蟲(chóng)要解決很多個(gè)問(wèn)題分詞技術(shù) 爬蟲(chóng),比如調度算法、更新策略、分布式存儲等,我們來(lái)一一 看一下。
一個(gè)爬蟲(chóng)要做的事主要有以下這種 1. 2. 3. 從一個(gè)網(wǎng)頁(yè)入口,分析鏈接,一層一層的遍歷,或者從一組網(wǎng)頁(yè)入口,或者 從一個(gè) rss 源列表開(kāi)始爬 rss; 獲取每位頁(yè)面的源碼保存在c盤(pán)或則數據庫里; 遍歷抓出來(lái)的網(wǎng)頁(yè)進(jìn)行處理,比如提取正文,消重等;4. 根據用途把處理后的文本進(jìn)行索引、分類(lèi)、聚類(lèi)等操作。 以上是個(gè)人理解哦,呵呵。這些過(guò)程中,大約有如下問(wèn)題 如何獲取網(wǎng)頁(yè)源或則 RSS 源 如果是通常的爬蟲(chóng)的話(huà), 就是給幾個(gè)入口頁(yè)面, 然后沿著(zhù)超鏈接以遍歷圖的算法一個(gè)頁(yè)面一 個(gè)頁(yè)面的爬,這種情況網(wǎng)頁(yè)源極少,可以選擇從 hao123 等網(wǎng)址大全的網(wǎng)站為入口開(kāi)始爬。 如果做垂直搜索的話(huà)就人工去搜集一些這個(gè)行業(yè)的網(wǎng)站, 形成一個(gè)列表, 從這個(gè)列表開(kāi)始爬。 如果是爬 RSS 的話(huà),需要先搜集 RSS 源,現在大的門(mén)戶(hù)的新聞頻道和主流的博客系統都有 rss 的功能,可以先爬一遍網(wǎng)站,找出 rss 的鏈接,要獲取每位鏈接的內容,分析是否是 rss 格式,如果是就把這個(gè)鏈接保存到 rss 源數據庫里,以后就專(zhuān)門(mén)爬這個(gè) rss 源的 rss。還有一 種就是人工來(lái)整理,一般 blog 的 rss 都是有規律的,主域名跟一個(gè)用戶(hù)名旁邊再跟上一個(gè) rss 的固定頁(yè)面,比如 ,這樣就弄一個(gè)用戶(hù)字典,拼接 rss 地址, 然后用程序去偵測是否有這個(gè)頁(yè)面來(lái)整理出每位網(wǎng)站的 rss 源。
整理出 rss 源后再 人工設置 rss 源的權重及刷新時(shí)間間隔等。 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理, 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理,而不會(huì )相互等待或則重復處理 如果現今有 500 萬(wàn)個(gè)頁(yè)面要去爬,肯定要用多線(xiàn)程或則分布式多進(jìn)程去處理了??梢园秧?yè) 面進(jìn)行水平分割,每個(gè)線(xiàn)程處理一段兒,這樣每位線(xiàn)程之間不需要同步,各自處理各自的就 行了。比如給這 500W 個(gè)頁(yè)面分配一個(gè)自增 ID,2 個(gè)線(xiàn)程的話(huà)就讓第一個(gè)線(xiàn)程去爬 1,3,5 的網(wǎng)頁(yè),第二個(gè)線(xiàn)程去爬 2,4,6 的網(wǎng)頁(yè),這樣做空個(gè)線(xiàn)程間基本上能均衡,而且不會(huì )相 互等待,而且不會(huì )重復處理,也不會(huì )拉掉網(wǎng)頁(yè)。每個(gè)線(xiàn)程一次取出 1w 個(gè)頁(yè)面,并記錄最高 的源頁(yè)面 ID 號,處理完這一批后再從數據庫里提取小于這個(gè)源頁(yè)面 ID 號的下 1W 個(gè)頁(yè)面, 直到抓取完本線(xiàn)程要處理的所有頁(yè)面。1w 這個(gè)值按照機器的顯存可做適當的調整。為了防 止抓了半截兒關(guān)機,所以要支持斷點(diǎn)續抓,要為每位線(xiàn)程的處理進(jìn)度保存狀態(tài),每取一批網(wǎng) 頁(yè)都要記錄本線(xiàn)程最大的網(wǎng)頁(yè) ID,記錄到數據庫里,進(jìn)程重啟后可以讀取這個(gè) ID,接著(zhù)抓 后面的頁(yè)面。 如何盡量的借助 CPU,盡量的不使線(xiàn)程處于等待、休眠、阻塞等空閑狀態(tài)并且要盡量用少 ,盡量的不使線(xiàn)程處于等待、休眠、 的線(xiàn)程以降低上下文切換。
的線(xiàn)程以降低上下文切換。 爬蟲(chóng)有兩個(gè)地方須要 IO 操作,抓網(wǎng)頁(yè)的時(shí)侯須要通過(guò)網(wǎng)卡訪(fǎng)問(wèn)網(wǎng)路,抓到網(wǎng)頁(yè)后要把內容 寫(xiě)到c盤(pán)或則數據庫里。所以這兩個(gè)部份要用異步 IO 操作,這樣可以不用線(xiàn)程阻塞在那里 等待網(wǎng)頁(yè)抓過(guò)來(lái)或則寫(xiě)完磁盤(pán)文件,網(wǎng)卡和硬碟都支持顯存直接讀取,大量的 IO 操作會(huì )在 硬件驅動(dòng)的隊列里排隊,而不消耗任何 CPU。.net 的異步操作使用了線(xiàn)程池,不用自己頻繁 的創(chuàng )建和銷(xiāo)毀線(xiàn)程,減少了開(kāi)支,所以線(xiàn)程模型不用考慮,IO 模型也不用考慮,.net 的異 步 IO 操作直接使用了完成端口,很高效了,內存模型也不需要考慮,整個(gè)抓取過(guò)程各線(xiàn)程不需要訪(fǎng)問(wèn)共享資源分詞技術(shù) 爬蟲(chóng),除了數據庫里的源頁(yè)面,各管各的,而且也是每位線(xiàn)程分段處理,可 以實(shí)現無(wú)鎖編程。 如何不采集重復的網(wǎng)頁(yè) 去重可以使用 king 總監的布隆過(guò)濾器,每個(gè)線(xiàn)程使用一個(gè) bitarray,里面保存本批源頁(yè)面先前 抓取的頁(yè)面的哈希值情況,抓取出來(lái)的源頁(yè)面剖析鏈接后,去這個(gè) bitarray 里判定曾經(jīng)有沒(méi) 有抓過(guò)這個(gè)頁(yè)面,沒(méi)有的話(huà)就抓出來(lái),抓過(guò)的話(huà)就不管了。假設一個(gè)源頁(yè)面有 30 個(gè)鏈接把, 一批 10W 個(gè)源頁(yè)面, 300w 個(gè)鏈接的 bitarray 應該也不會(huì )占很大顯存。
所以有個(gè)五六個(gè)線(xiàn)程 同時(shí)處理也是沒(méi)問(wèn)題的。 抓出來(lái)的頁(yè)面更快的保存保存到分布式文件系統還是保存在數據庫里 如果保存到c盤(pán), 可以每位域名創(chuàng )建一個(gè)文件夾, 凡是這個(gè)網(wǎng)站的頁(yè)面都放在這個(gè)文件夾下, 只要文件名不一樣,就不會(huì )出現沖突。如果把頁(yè)面保存到c盤(pán),數據庫有自己的一套鎖管理 機制,直接用 bulk copy 放數據庫就行了。一般頻繁的寫(xiě)c盤(pán)可能會(huì )導致 CPU 過(guò)高,而頻繁 的寫(xiě)數據庫 CPU 還好一些。而且 sqlserver2008 支持 filestream 類(lèi)型的數組,在保存大文本字 段的時(shí)侯有挺好的性能,并且能夠使用數據庫的 API 來(lái)訪(fǎng)問(wèn)。所以我認為假如沒(méi)有 GFS 那 樣高效成熟的分布式文件系統的話(huà)還不如存 sqlserver 里面呢。 如何有效的依據網(wǎng)頁(yè)的更新頻度來(lái)調整爬蟲(chóng)的采集時(shí)間間隔 做爬蟲(chóng)要了解一些 HTTP 協(xié)議,如果要抓的網(wǎng)頁(yè)支持 Last-Modified 或者 ETag 頭,我們可以先 發(fā)個(gè) head 請求來(lái)試探這個(gè)頁(yè)面有沒(méi)有變化來(lái)決定是否要重新抓取,但是很多網(wǎng)站根本就不 支持這個(gè)東西,所以使爬蟲(chóng)也太費力,讓自己的網(wǎng)站也會(huì )損失更多的性能。這樣我們就要自 己去標明每個(gè)源頁(yè)面的更新時(shí)間間隔及權重,再依照這兩個(gè)值去用一定的算法制訂蜘蛛的更 新策略。
采集下來(lái)的數據做什么用 可以抓取一個(gè)行業(yè)的網(wǎng)站,在本地進(jìn)行動(dòng)詞和索引,做成垂直搜索引擎??梢杂靡欢ǖ挠柧?算法對抓取出來(lái)的頁(yè)面進(jìn)行自動(dòng)分類(lèi),做成新聞門(mén)戶(hù)。也可以用死小風(fēng)行的文本相似度算法處理 后進(jìn)行文本降維處理。 如何不影響對方網(wǎng)站的性能 現在很多網(wǎng)站都被爬蟲(chóng)爬怕了, 因為有些蜘蛛弄住一個(gè)網(wǎng)站可勁兒的爬, 爬的人家網(wǎng)站的正 常用戶(hù)都未能訪(fǎng)問(wèn)了。所以很多站長(cháng)想了很多辦法來(lái)對付爬蟲(chóng),所以我們寫(xiě)爬蟲(chóng)也要遵守機器 人合同,控制單位時(shí)間內對一個(gè)網(wǎng)站的訪(fǎng)問(wèn)量。 查看全部

分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現——分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)體系結構設計 分布式網(wǎng)路爬蟲(chóng)關(guān)鍵技術(shù)剖析與實(shí)現?一、 研究所屬范圍分布式網(wǎng)路爬蟲(chóng)包含多個(gè)爬蟲(chóng), 每個(gè)爬蟲(chóng)須要完成的任務(wù)和單個(gè)的爬行器類(lèi)似, 它們從互聯(lián) 網(wǎng)上下載網(wǎng)頁(yè),并把網(wǎng)頁(yè)保存在本地的c盤(pán),從中抽取 URL 并順著(zhù)這種 URL 的指向繼續爬 行。由于并行爬行器須要分割下載任務(wù),可能爬蟲(chóng)會(huì )將自己抽取的 URL 發(fā)送給其他爬蟲(chóng)。 這些爬蟲(chóng)可能分布在同一個(gè)局域網(wǎng)之中,或者分散在不同的地理位置。根據爬蟲(chóng)的分散程度不同,可以把分布式爬行器分成以下兩大類(lèi): 1、基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng):這種分布式爬行器的所有爬蟲(chóng)在同一個(gè)局域網(wǎng)里運行,通過(guò)高 速的網(wǎng)路聯(lián)接互相通訊。這些爬蟲(chóng)通過(guò)同一個(gè)網(wǎng)路去訪(fǎng)問(wèn)外部互聯(lián)網(wǎng),下載網(wǎng)頁(yè),所有的網(wǎng) 絡(luò )負載都集中在她們所在的那種局域網(wǎng)的出口上。 由于局域網(wǎng)的帶寬較高, 爬蟲(chóng)之間的通訊 的效率能否得到保證; 但是網(wǎng)路出口的總帶寬上限是固定的, 爬蟲(chóng)的數目會(huì )遭到局域網(wǎng)出口 帶寬的限制。 2、基于廣域網(wǎng)分布式網(wǎng)路爬蟲(chóng):當并行爬行器的爬蟲(chóng)分別運行在不同地理位置(或網(wǎng)路位置), 我們稱(chēng)這些并行爬行器為分布式爬行器。
例如,分布式爬行器的爬蟲(chóng)可能坐落中國,日本, 和英國,分別負責下載這三地的網(wǎng)頁(yè);或者坐落 CHINANET,CERNET,CEINET,分別負責 下載這三個(gè)網(wǎng)路的中的網(wǎng)頁(yè)。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)路流量, 減小網(wǎng)路出口的負載。如果爬蟲(chóng)分布在不同的地理位置(或網(wǎng)路位置),需要間隔多長(cháng)時(shí)間 進(jìn)行一次互相通訊就成為了一個(gè)值得考慮的問(wèn)題。 爬蟲(chóng)之間的通信帶寬可能是有限的, 通常 需要通過(guò)互聯(lián)網(wǎng)進(jìn)行通訊。 在實(shí)際應用中, 基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)應用的更廣一些, 而基于廣域網(wǎng)的爬蟲(chóng)因為 實(shí)現復雜, 設計和實(shí)現成本偏高, 一般只有實(shí)力雄厚和采集任務(wù)較重的大公司才能使用這些 爬蟲(chóng)。本論文所設計的爬蟲(chóng)就是基于局域網(wǎng)分布式網(wǎng)路爬蟲(chóng)。二、分布式網(wǎng)路爬蟲(chóng)整體剖析分布式網(wǎng)路爬蟲(chóng)的整體設計重點(diǎn)應當在于爬蟲(chóng)怎樣進(jìn)行通訊。目前分布式網(wǎng) 絡(luò )爬蟲(chóng)按通訊方法不同分布式網(wǎng)絡(luò )爬蟲(chóng)可以分為主從模式、 自治模式與混和模式 三種。主從模式是指由一臺主機作為控制節點(diǎn)負責所有運行網(wǎng)路爬蟲(chóng)的主機進(jìn)行管理, 爬蟲(chóng)只 需要從控制節點(diǎn)哪里接收任務(wù), 并把新生成任務(wù)遞交給控制節點(diǎn)就可以了, 在這個(gè)過(guò)程中不 必與其他爬蟲(chóng)通訊,這種方法實(shí)現簡(jiǎn)單利于管理。
而控制節點(diǎn)則須要與所有爬蟲(chóng)進(jìn)行通訊, 它須要一個(gè)地址列表來(lái)保存系統中所有爬蟲(chóng)的信息。 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 協(xié)調 者須要更新地址列表里的數據, 這一過(guò)程對于系統中的爬蟲(chóng)是透明的。 但是隨著(zhù)爬蟲(chóng)網(wǎng)頁(yè)數 量的降低。 控制節點(diǎn)會(huì )成為整個(gè)系統的困局而造成整個(gè)分布式網(wǎng)路爬蟲(chóng)系統性能增長(cháng)。 主從 模式的整體結構圖:自治模式是指系統中沒(méi)有協(xié)調者,所有的爬蟲(chóng)都必須互相通訊,比主從模式 下爬蟲(chóng)要復雜一些。自治模式的通訊方法可以使用全聯(lián)接通訊或環(huán)型通訊。全連 接通訊是指所用爬蟲(chóng)都可以互相發(fā)送信息, 使用這些方法的每位網(wǎng)絡(luò )爬蟲(chóng)會(huì )維護 一個(gè)地址列表,表中儲存著(zhù)整個(gè)系統中所有爬蟲(chóng)的位置,每次通訊時(shí)可以直接把 數據發(fā)送給須要此數據的爬蟲(chóng)。當系統中的爬蟲(chóng)數目發(fā)生變化時(shí),每個(gè)爬蟲(chóng)的地 址列表都須要進(jìn)行更新。環(huán)形通訊是指爬蟲(chóng)在邏輯上構成一個(gè)環(huán)形網(wǎng),數據在環(huán) 上按順時(shí)針或逆時(shí)針雙向傳輸, 每個(gè)爬蟲(chóng)的地址列表中只保存其前驅和后繼的信 息。爬蟲(chóng)接收到數據然后判定數據是否是發(fā)送給自己的,如果數據不是發(fā)送給自 己的,就把數據轉發(fā)給后繼;如果數據是發(fā)送給自己的,就不再發(fā)送。假設整個(gè) 系統中有 n 個(gè)爬蟲(chóng), 當系統中的爬蟲(chóng)數目發(fā)生變化時(shí), 系統中只有 n-1 個(gè)爬蟲(chóng)的 地址列表須要進(jìn)行更新。
混合模式是結合前面兩種模式的特性的一種折中模式。該模式所有的爬蟲(chóng)都可以 相互通訊同時(shí)都具有任務(wù)分配功能。不過(guò)所有爬蟲(chóng)中有個(gè)特殊的爬蟲(chóng),該爬蟲(chóng)主 要功能對早已經(jīng)過(guò)爬蟲(chóng)任務(wù)分配后未能分配的任務(wù)進(jìn)行集中分配。 使用這個(gè)方法 的每位網(wǎng)路爬蟲(chóng)只需維護自己采集范圍的地址列表。 而特殊爬蟲(chóng)需不僅保存自己 采集范圍的地址列表外還保存須要進(jìn)行集中分配的地址列表。 混合模式的整體結 構圖:三、大型分布式網(wǎng)路爬蟲(chóng)體系結構圖: 大型分布式網(wǎng)路爬蟲(chóng)體系結構圖:從這種圖可以看出,分布式網(wǎng)路爬蟲(chóng)是一項非常復雜系統。需要考慮好多方面誘因。性 能可以說(shuō)是它這重要的指標。當然硬件層面的資源也是必須的。不過(guò)不在本系列考慮范圍。 從上篇開(kāi)始, 我將從單機網(wǎng)路爬蟲(chóng)一步步介紹我們須要考慮的問(wèn)題的解決方案。 如果你們有 更好的解決方案。歡迎指教。 吉日的一句話(huà)說(shuō)的太有道理, 一個(gè)人一輩子只能做好幾件事。 希望你們支持我的這個(gè)系 列。談?wù)劸W(wǎng)路爬蟲(chóng)設計中的問(wèn)題?網(wǎng)絡(luò )蜘蛛現今開(kāi)源的早已有好幾個(gè)了,Larbin,Nutch,Heritrix 都各有用戶(hù)之地,要做 一個(gè)自己的爬蟲(chóng)要解決很多個(gè)問(wèn)題分詞技術(shù) 爬蟲(chóng),比如調度算法、更新策略、分布式存儲等,我們來(lái)一一 看一下。
一個(gè)爬蟲(chóng)要做的事主要有以下這種 1. 2. 3. 從一個(gè)網(wǎng)頁(yè)入口,分析鏈接,一層一層的遍歷,或者從一組網(wǎng)頁(yè)入口,或者 從一個(gè) rss 源列表開(kāi)始爬 rss; 獲取每位頁(yè)面的源碼保存在c盤(pán)或則數據庫里; 遍歷抓出來(lái)的網(wǎng)頁(yè)進(jìn)行處理,比如提取正文,消重等;4. 根據用途把處理后的文本進(jìn)行索引、分類(lèi)、聚類(lèi)等操作。 以上是個(gè)人理解哦,呵呵。這些過(guò)程中,大約有如下問(wèn)題 如何獲取網(wǎng)頁(yè)源或則 RSS 源 如果是通常的爬蟲(chóng)的話(huà), 就是給幾個(gè)入口頁(yè)面, 然后沿著(zhù)超鏈接以遍歷圖的算法一個(gè)頁(yè)面一 個(gè)頁(yè)面的爬,這種情況網(wǎng)頁(yè)源極少,可以選擇從 hao123 等網(wǎng)址大全的網(wǎng)站為入口開(kāi)始爬。 如果做垂直搜索的話(huà)就人工去搜集一些這個(gè)行業(yè)的網(wǎng)站, 形成一個(gè)列表, 從這個(gè)列表開(kāi)始爬。 如果是爬 RSS 的話(huà),需要先搜集 RSS 源,現在大的門(mén)戶(hù)的新聞頻道和主流的博客系統都有 rss 的功能,可以先爬一遍網(wǎng)站,找出 rss 的鏈接,要獲取每位鏈接的內容,分析是否是 rss 格式,如果是就把這個(gè)鏈接保存到 rss 源數據庫里,以后就專(zhuān)門(mén)爬這個(gè) rss 源的 rss。還有一 種就是人工來(lái)整理,一般 blog 的 rss 都是有規律的,主域名跟一個(gè)用戶(hù)名旁邊再跟上一個(gè) rss 的固定頁(yè)面,比如 ,這樣就弄一個(gè)用戶(hù)字典,拼接 rss 地址, 然后用程序去偵測是否有這個(gè)頁(yè)面來(lái)整理出每位網(wǎng)站的 rss 源。
整理出 rss 源后再 人工設置 rss 源的權重及刷新時(shí)間間隔等。 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理, 如果源頁(yè)面好多,如何用多線(xiàn)程去有效的調度處理,而不會(huì )相互等待或則重復處理 如果現今有 500 萬(wàn)個(gè)頁(yè)面要去爬,肯定要用多線(xiàn)程或則分布式多進(jìn)程去處理了??梢园秧?yè) 面進(jìn)行水平分割,每個(gè)線(xiàn)程處理一段兒,這樣每位線(xiàn)程之間不需要同步,各自處理各自的就 行了。比如給這 500W 個(gè)頁(yè)面分配一個(gè)自增 ID,2 個(gè)線(xiàn)程的話(huà)就讓第一個(gè)線(xiàn)程去爬 1,3,5 的網(wǎng)頁(yè),第二個(gè)線(xiàn)程去爬 2,4,6 的網(wǎng)頁(yè),這樣做空個(gè)線(xiàn)程間基本上能均衡,而且不會(huì )相 互等待,而且不會(huì )重復處理,也不會(huì )拉掉網(wǎng)頁(yè)。每個(gè)線(xiàn)程一次取出 1w 個(gè)頁(yè)面,并記錄最高 的源頁(yè)面 ID 號,處理完這一批后再從數據庫里提取小于這個(gè)源頁(yè)面 ID 號的下 1W 個(gè)頁(yè)面, 直到抓取完本線(xiàn)程要處理的所有頁(yè)面。1w 這個(gè)值按照機器的顯存可做適當的調整。為了防 止抓了半截兒關(guān)機,所以要支持斷點(diǎn)續抓,要為每位線(xiàn)程的處理進(jìn)度保存狀態(tài),每取一批網(wǎng) 頁(yè)都要記錄本線(xiàn)程最大的網(wǎng)頁(yè) ID,記錄到數據庫里,進(jìn)程重啟后可以讀取這個(gè) ID,接著(zhù)抓 后面的頁(yè)面。 如何盡量的借助 CPU,盡量的不使線(xiàn)程處于等待、休眠、阻塞等空閑狀態(tài)并且要盡量用少 ,盡量的不使線(xiàn)程處于等待、休眠、 的線(xiàn)程以降低上下文切換。
的線(xiàn)程以降低上下文切換。 爬蟲(chóng)有兩個(gè)地方須要 IO 操作,抓網(wǎng)頁(yè)的時(shí)侯須要通過(guò)網(wǎng)卡訪(fǎng)問(wèn)網(wǎng)路,抓到網(wǎng)頁(yè)后要把內容 寫(xiě)到c盤(pán)或則數據庫里。所以這兩個(gè)部份要用異步 IO 操作,這樣可以不用線(xiàn)程阻塞在那里 等待網(wǎng)頁(yè)抓過(guò)來(lái)或則寫(xiě)完磁盤(pán)文件,網(wǎng)卡和硬碟都支持顯存直接讀取,大量的 IO 操作會(huì )在 硬件驅動(dòng)的隊列里排隊,而不消耗任何 CPU。.net 的異步操作使用了線(xiàn)程池,不用自己頻繁 的創(chuàng )建和銷(xiāo)毀線(xiàn)程,減少了開(kāi)支,所以線(xiàn)程模型不用考慮,IO 模型也不用考慮,.net 的異 步 IO 操作直接使用了完成端口,很高效了,內存模型也不需要考慮,整個(gè)抓取過(guò)程各線(xiàn)程不需要訪(fǎng)問(wèn)共享資源分詞技術(shù) 爬蟲(chóng),除了數據庫里的源頁(yè)面,各管各的,而且也是每位線(xiàn)程分段處理,可 以實(shí)現無(wú)鎖編程。 如何不采集重復的網(wǎng)頁(yè) 去重可以使用 king 總監的布隆過(guò)濾器,每個(gè)線(xiàn)程使用一個(gè) bitarray,里面保存本批源頁(yè)面先前 抓取的頁(yè)面的哈希值情況,抓取出來(lái)的源頁(yè)面剖析鏈接后,去這個(gè) bitarray 里判定曾經(jīng)有沒(méi) 有抓過(guò)這個(gè)頁(yè)面,沒(méi)有的話(huà)就抓出來(lái),抓過(guò)的話(huà)就不管了。假設一個(gè)源頁(yè)面有 30 個(gè)鏈接把, 一批 10W 個(gè)源頁(yè)面, 300w 個(gè)鏈接的 bitarray 應該也不會(huì )占很大顯存。
所以有個(gè)五六個(gè)線(xiàn)程 同時(shí)處理也是沒(méi)問(wèn)題的。 抓出來(lái)的頁(yè)面更快的保存保存到分布式文件系統還是保存在數據庫里 如果保存到c盤(pán), 可以每位域名創(chuàng )建一個(gè)文件夾, 凡是這個(gè)網(wǎng)站的頁(yè)面都放在這個(gè)文件夾下, 只要文件名不一樣,就不會(huì )出現沖突。如果把頁(yè)面保存到c盤(pán),數據庫有自己的一套鎖管理 機制,直接用 bulk copy 放數據庫就行了。一般頻繁的寫(xiě)c盤(pán)可能會(huì )導致 CPU 過(guò)高,而頻繁 的寫(xiě)數據庫 CPU 還好一些。而且 sqlserver2008 支持 filestream 類(lèi)型的數組,在保存大文本字 段的時(shí)侯有挺好的性能,并且能夠使用數據庫的 API 來(lái)訪(fǎng)問(wèn)。所以我認為假如沒(méi)有 GFS 那 樣高效成熟的分布式文件系統的話(huà)還不如存 sqlserver 里面呢。 如何有效的依據網(wǎng)頁(yè)的更新頻度來(lái)調整爬蟲(chóng)的采集時(shí)間間隔 做爬蟲(chóng)要了解一些 HTTP 協(xié)議,如果要抓的網(wǎng)頁(yè)支持 Last-Modified 或者 ETag 頭,我們可以先 發(fā)個(gè) head 請求來(lái)試探這個(gè)頁(yè)面有沒(méi)有變化來(lái)決定是否要重新抓取,但是很多網(wǎng)站根本就不 支持這個(gè)東西,所以使爬蟲(chóng)也太費力,讓自己的網(wǎng)站也會(huì )損失更多的性能。這樣我們就要自 己去標明每個(gè)源頁(yè)面的更新時(shí)間間隔及權重,再依照這兩個(gè)值去用一定的算法制訂蜘蛛的更 新策略。
采集下來(lái)的數據做什么用 可以抓取一個(gè)行業(yè)的網(wǎng)站,在本地進(jìn)行動(dòng)詞和索引,做成垂直搜索引擎??梢杂靡欢ǖ挠柧?算法對抓取出來(lái)的頁(yè)面進(jìn)行自動(dòng)分類(lèi),做成新聞門(mén)戶(hù)。也可以用死小風(fēng)行的文本相似度算法處理 后進(jìn)行文本降維處理。 如何不影響對方網(wǎng)站的性能 現在很多網(wǎng)站都被爬蟲(chóng)爬怕了, 因為有些蜘蛛弄住一個(gè)網(wǎng)站可勁兒的爬, 爬的人家網(wǎng)站的正 常用戶(hù)都未能訪(fǎng)問(wèn)了。所以很多站長(cháng)想了很多辦法來(lái)對付爬蟲(chóng),所以我們寫(xiě)爬蟲(chóng)也要遵守機器 人合同,控制單位時(shí)間內對一個(gè)網(wǎng)站的訪(fǎng)問(wèn)量。


