火車(chē)頭采集器標簽循環(huán)采集
優(yōu)采云 發(fā)布時(shí)間: 2020-04-28 11:00? ? 我們要采集一個(gè)頁(yè)面里面同樣格式的多條數據的時(shí)侯,就可以針對一條信息設置好規則,勾選下標簽循環(huán)匹配,就可以把滿(mǎn)足這個(gè)規則的所有數據采集到如下圖:
比如采集這個(gè)網(wǎng)站:;method=doquery&querysid=g0002&showpage=1
我們查看頁(yè)面源代碼,我把源代碼復制到txt上面做了些簡(jiǎn)單的處理,讓你們看的更明白如下圖:
上圖聽(tīng)到船名都是“”開(kāi)始“”結束火車(chē)頭采集教程,我們構建一個(gè)規則分別是以“”開(kāi)始和以“”結束。
規則設置如下圖:
采集結果如下:
左側標簽循環(huán)處理哪里選了“添加為新記錄”,右側看見(jiàn)了船名都早已采集到了,并且每位船名都是一條獨立的信息,
看到上圖兩側有個(gè)選項“循環(huán)不足的記錄以第一條記錄補全”勾選上這個(gè),如果在循環(huán)過(guò)程中有的信息沒(méi)有采集到火車(chē)頭采集教程,就會(huì )用采集到的第一條數據填充。
假如兩側標簽循環(huán)處理哪里選了“用分隔符鏈接在上條的記錄后” 然后在下邊的“分隔符”哪一項設置分隔符,如下圖:
測試結果如下:
上圖可以看見(jiàn)每次循環(huán)采集到的結果都是用我們設置的分隔符聯(lián)接上去做為一條信息,注意和前面選擇“添加為新記錄”,采集結果的不同。
我們通過(guò)頁(yè)面源代碼,知道這個(gè)是個(gè)表格,那么我們就多說(shuō)些,表格怎么采集。如果我們還要繼續采集更多信息如下圖的“英文船名”,“航次”等等。
我們打開(kāi)頁(yè)面源代碼見(jiàn)到這種信息的開(kāi)始都是以“”開(kāi)始以“”結束,我們設置規則的時(shí)侯才會(huì )太困難,如右圖
那么看下我是怎樣采集到“英文船名”的規則如下:
在看下我采集“航次”規則是怎樣設置的:
設置完后測試采集如下圖:
成功采集了!
原理就是都是以“”開(kāi)始這么我們就通過(guò)這個(gè)字符出現的次數來(lái)劃分,結束字符全部都是“”。
上面設置的規則恰好說(shuō)明了這個(gè)一點(diǎn),船名是在第一次出現的旁邊,英文船名是在第二次出現“”的旁邊,航次是在第三次出現“”的前面。。。。。。。
后面以此類(lèi)推,中間不需要的東西我們就用“(*)”代替,表示任意??梢宰约簢L試寫(xiě)寫(xiě)。這個(gè)是常常采集表格要用的。
(資源庫 )









