WEB基礎高性能網(wǎng)頁(yè)爬蟲(chóng)文章采集器特點(diǎn)及操作步驟
優(yōu)采云 發(fā)布時(shí)間: 2021-06-03 18:29WEB基礎高性能網(wǎng)頁(yè)爬蟲(chóng)文章采集器特點(diǎn)及操作步驟
基于WEB的高性能網(wǎng)絡(luò )爬蟲(chóng)文章采集器是一款通用的網(wǎng)頁(yè)采集爬蟲(chóng),無(wú)需配置模板,可以采集全球任何一個(gè)網(wǎng)站'全站精華文章?;赪EB的高性能網(wǎng)絡(luò )爬蟲(chóng)文章采集器屬于網(wǎng)絡(luò )蜘蛛爬蟲(chóng)程序,用于指定網(wǎng)站采集大量力量文章,將直接丟棄其中的垃圾網(wǎng)頁(yè)信息,只保存具有閱讀價(jià)值的信息和瀏覽價(jià)值的精華文章,自動(dòng)進(jìn)行HTM-TXT轉換,提取標題、正文圖片、正文等信息。
基于Web的高性能網(wǎng)絡(luò )爬蟲(chóng)文章采集器具有以下特點(diǎn):
1、采用北大天網(wǎng)的MD5指紋重復算法。對于相似相同的網(wǎng)頁(yè)信息,直接丟棄,采集不再重復。
2、采集信息含義:[[HT]]表示網(wǎng)頁(yè)標題[TITLE],[[HA]]表示文章title[H1],[[HC]]表示出現在這個(gè)文章頻率TOP10的前10個(gè)加權關(guān)鍵詞,[[UR]]代表網(wǎng)頁(yè)中文字圖片的鏈接,[[TXT]]之后的文字。
3、Spider Performance:本軟件開(kāi)啟300個(gè)線(xiàn)程,保證采集效率。壓力測試由采集100萬(wàn)力量文章進(jìn)行,以普通網(wǎng)民的聯(lián)網(wǎng)電腦為參考標準。一臺電腦一天可以遍歷200萬(wàn)個(gè)網(wǎng)頁(yè),采集20萬(wàn)力量文章,100萬(wàn)個(gè)精華文章只需要5天就可以完成采集。
4、正式版與免費版的區別在于,正式版允許采集的ssence文章數據自動(dòng)保存為ACCESS數據庫,而免費版不能將數據保存到數據庫。
基于WEB的高性能網(wǎng)絡(luò )爬蟲(chóng)文章采集器操作步驟:
1、使用前,請確保您的電腦可以連接網(wǎng)絡(luò ),并且防火墻沒(méi)有屏蔽該軟件。
2、Run SETUP.EXE 和 setup2.exe 安裝操作系統 system32 支持庫。
3、運行spider.exe,輸入URL入口,先點(diǎn)擊“手動(dòng)添加”按鈕,再點(diǎn)擊“開(kāi)始”按鈕,采集就會(huì )開(kāi)始執行。
基于WEB的高性能網(wǎng)絡(luò )爬蟲(chóng)文章采集器使用注意事項:
1、Grab Depth:填0表示不限制抓取深度;填3表示捕獲第三層。
2、通用蜘蛛模式和分類(lèi)蜘蛛模式的區別:假設URL入口為“”,如果選擇通用蜘蛛模式,則會(huì )遍歷“”中的每一個(gè)網(wǎng)頁(yè);如果選擇了分類(lèi)蜘蛛模式,只會(huì )遍歷“”里面的每個(gè)網(wǎng)頁(yè)。
3、按鈕“從MDB導入”:從TASK.MDB批量導入URL條目。
4、本軟件采集的原則是不越站。例如,如果給定的條目是“”,則只會(huì )在百度網(wǎng)站內部進(jìn)行抓取。
5、這個(gè)軟件采集進(jìn)程,偶爾會(huì )彈出一個(gè)或幾個(gè)“錯誤對話(huà)框”。請忽略它們。如果關(guān)閉“錯誤對話(huà)框”,采集軟件就會(huì )掛斷。如果軟件掛了,之前的采集信息不會(huì )丟失。當軟件再次啟動(dòng)執行采集時(shí),已經(jīng)采集的信息將不再是采集,可以很好的實(shí)現采集的增量。
6、用戶(hù)如何選擇采集subjects:例如,如果你想采集“股票”文章,你只需要將那些“股票”網(wǎng)站作為URL條目。



