火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
優(yōu)采云 發(fā)布時(shí)間: 2020-04-29 11:04火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
教程總目錄:火車(chē)頭采集器使用教程
我們首先打開(kāi)一篇文章,看看他的基本結構:標題和內容起始,以及是否有重復。
從右圖可以見(jiàn)到有標題重復,以及我們不需要的內容(他的廣告)
我們查看網(wǎng)頁(yè)的源代碼,CTRL+U
先搜索標題,看看標題都在什么位置
可以見(jiàn)到有三個(gè)位置都是標題,看到這三個(gè)位置,分析下前后的內容。最終我選擇了第三個(gè)作為采集標題的位置。
因為前后和其他文章更不容易出現不同的情況。避免出現某些文章采集標題為空的情況。
我們打開(kāi)火車(chē)頭采集器
將<h3>作為標題的開(kāi)頭字符串
</h3>作為標題的結尾字符串
這兩個(gè)字符串之間的內容,火車(chē)頭會(huì )全采集下來(lái),當做標題。所以不要選擇錯了
我們可以復制文章鏈接,在火車(chē)頭里先測試下標題才是是否正確。
在下邊有填測試聯(lián)接的位置
我們看見(jiàn)標題采集沒(méi)問(wèn)題
下面開(kāi)始找內容的采集規則
在文章頁(yè)面源代碼里我們搜索內容上面幾個(gè)字,發(fā)現有兩個(gè)位置,一個(gè)是底部的頁(yè)面描述,一個(gè)是真正的正文開(kāi)始位置。當然用下邊這個(gè)啦
下面這個(gè)正文開(kāi)始前的是他網(wǎng)站的廣告火車(chē)頭采集教程火車(chē)頭采集教程,我們要在廣告前面選定位置開(kāi)始采集
記得那句話(huà),火車(chē)頭會(huì )從你選定的位置,采集下來(lái)上面所有的字符!所以位置要選對!
我們選擇<div>最為采集起始位置,這個(gè)恰好也是實(shí)際正文內容的起始位置,并且在源碼里搜索不到第二處!
將<div>填入火車(chē)頭正文采集規則的開(kāi)頭字符串
然后是正文結束的位置
正文在這里結束,因為結束恰好是一段代碼,所以看著(zhù)可能比較亂。
請注意,搜索內容時(shí),空格不要帶,在源碼里空格是其他的字符串,會(huì )出現搜索不到的情況。
我們就選擇正文結束后的<div>作為火車(chē)頭采集結尾字符串
這個(gè)字符串在源碼里沒(méi)有其他重復位置,并且是正文DIV結束后的第一個(gè)內容!
下面我們測試一下內容的采集,看看療效
然后會(huì )發(fā)覺(jué)內容里有好多多余的字符款式之類(lèi)。
查看內容可以點(diǎn)擊內容前面的那種三個(gè)點(diǎn),就可以下來(lái)個(gè)窗口查看了
我們須要對內容進(jìn)行一下過(guò)濾
過(guò)濾掉不需要的字符
就是這個(gè)html標簽過(guò)濾
我們過(guò)濾掉:鏈接a標簽、圖像img標簽、字體font標簽、腳本script標簽、層DIV標簽、Span標簽
具體須要過(guò)濾什么,根據你采集的文章來(lái)決定,每個(gè)網(wǎng)站他發(fā)文習慣都不一樣。
這里我過(guò)濾掉圖片,并且沒(méi)有做文件下載(圖片下載)是因為圖片下載,需要單獨開(kāi)一篇文章來(lái)寫(xiě)。
我們在測試一下瞧瞧采集內容的療效
可以看見(jiàn)還是有字體相關(guān)的標簽存在,但是他是以<p開(kāi)頭的,還負責文章的段落作用。這里就沒(méi)辦法通過(guò)火車(chē)頭進(jìn)行過(guò)濾了。不過(guò)也沒(méi)啥影響。
到這兒文章標題和正文內容的采集規則就結束了。后續內容請查看教程總目錄
現在晚上12點(diǎn)了,停一下明日我再繼續寫(xiě)。














