c爬蟲(chóng)抓取網(wǎng)頁(yè)數據( 在爬蟲(chóng)系統中,等待抓取URL隊列是很重要的)
優(yōu)采云 發(fā)布時(shí)間: 2022-04-17 16:29c爬蟲(chóng)抓取網(wǎng)頁(yè)數據(
在爬蟲(chóng)系統中,等待抓取URL隊列是很重要的)
在爬蟲(chóng)系統中,等待爬取的URL隊列是一個(gè)非常重要的部分,而等待爬取的URL隊列中URL的順序也是一個(gè)非常重要的問(wèn)題,因為它會(huì )決定先爬到哪個(gè)頁(yè)面之后再爬取哪個(gè)頁(yè)面。而確定這些URL順序的方法稱(chēng)為爬取策略。下面主要介紹幾種常見(jiàn)的爬取策略:
1 深度優(yōu)先遍歷策略:深度優(yōu)先遍歷策略是指網(wǎng)絡(luò )爬蟲(chóng)會(huì )從起始頁(yè)開(kāi)始,每一個(gè)鏈接一次一個(gè)鏈接,直到處理完該行才會(huì )轉到下一個(gè)起始頁(yè),并且繼續關(guān)注鏈接。遍歷路徑為:AFG ,EHI ,B ,C,D
2 廣度優(yōu)先遍歷策略:廣度優(yōu)先遍歷策略的基本思想是將新下載的網(wǎng)頁(yè)中找到的鏈接直接放在待爬取的URL隊列的末尾。也就是說(shuō),網(wǎng)絡(luò )爬蟲(chóng)會(huì )優(yōu)先抓取起始網(wǎng)頁(yè)中的所有鏈接。爬取完所有網(wǎng)頁(yè)后,選擇其中一個(gè)鏈接的網(wǎng)頁(yè),繼續爬取該網(wǎng)頁(yè)鏈接的所有網(wǎng)頁(yè)。它的路徑可以這樣寫(xiě):ABCDEF ,G ,H,I
3 外鏈數策略:外鏈數是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)指向的鏈接數,外鏈數也表示一個(gè)網(wǎng)頁(yè)的內容被他人推薦的程度. 抓取系統會(huì )使用這個(gè)指標來(lái)評估網(wǎng)頁(yè)的重要性,從而確定不同網(wǎng)頁(yè)的抓取順序。
但是,在真實(shí)的網(wǎng)絡(luò )環(huán)境中,由于存在很多廣告鏈接、作弊鏈接等,反向鏈接的數量并不能完全等同于重要性。因此,很多搜索引擎經(jīng)常會(huì )考慮一些可靠的反向鏈接。
4.OPIC策略策略:這個(gè)算法其實(shí)是給網(wǎng)頁(yè)的重要性打分的。在算法開(kāi)始之前,所有頁(yè)面都會(huì )被賦予相同的初始*敏*感*詞*(cash)。當一個(gè)頁(yè)面 P 被下載后,將 P 的*敏*感*詞*分配給從 P 分析的所有鏈接,并清除 P 的*敏*感*詞*。URL隊列中所有待爬取的頁(yè)面,按照*敏*感*詞*數量排序。
5.大站點(diǎn)優(yōu)先策略:對URL隊列中所有待爬取的網(wǎng)頁(yè),按照所屬的網(wǎng)站進(jìn)行分類(lèi)。對于需要下載的頁(yè)面較多的網(wǎng)站,請先下載。這種策略也被稱(chēng)為大站優(yōu)先策略。



