火車(chē)采集器系列教程 之 使用正則采集鏈接
優(yōu)采云 發(fā)布時(shí)間: 2020-05-15 08:01
火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 先來(lái)瞧瞧這段加密后代碼 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4" target="_blank">蔡依林</a> 生成之后可以正常訪(fǎng)問(wèn)的聯(lián)接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我們能獲取到卻難以訪(fǎng)問(wèn)的鏈接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4 經(jīng)過(guò)對比我們可以看出,兩個(gè)鏈接只有 從 word=到&這之間的代碼不一樣,我們還可以看出,之間的代碼恰好對應 蔡依林 這個(gè)鏈接的標題,我們可以想,如果我們可以把這之間的亂碼用這段鏈接的標題來(lái)取代或則說(shuō)替換,那不就完全一樣了嗎? 是的,我們完全可以借助正則來(lái)采集這樣的網(wǎng)站地址! 列表地址: 在頁(yè)面鏈接的采集方法這兒,我們有兩個(gè)選擇,一個(gè)是自動(dòng)填寫(xiě)鏈接地址規則,一個(gè)是啟動(dòng)向導添加,進(jìn)入正則提取!以下火車(chē)采集器 正則提取,我們兩種方式都一并講解! 列車(chē)采集器系列教程 之 使用正則采集鏈接 一 下面,啟動(dòng)我們的列車(chē),建立一個(gè)站點(diǎn),建立一個(gè)任務(wù)! 自動(dòng)添加模式1,打開(kāi)自動(dòng)添加模式之后,我們先設置禁用系統手動(dòng)辨識聯(lián)接,啟用自定義聯(lián)接格式 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 2,修改我們的正則規則如下: <a href="(*)" target="_blank">[參數]</a> 這里, <a href=" 的作用是取固定字符在確定聯(lián)接所在區域,設定參數為我們想獲取的目標內容。
實(shí)際聯(lián)接設置為正確的可以訪(fǎng)問(wèn)的鏈接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[參數 1]&pic=1 這里的參數 1表示它就是獲取的參數,如果你想在其它地方再使用,可以繼續使用到參數 N,不過(guò)你要注意了,如果你要獲取多個(gè)參數,這里復雜了,請注意下邊這張圖片: 假如你要獲取多個(gè)參數火車(chē)采集器 正則提取,請注意她們出現的位次,在引用過(guò)程中,也要注意位次,不然會(huì )出現參數值傳遞錯誤!同時(shí),你可以將[參數 N]修改為你想獲取的參數。 在這里,如果有縮略圖,我們也可以加上縮略圖,也可以下載!將縮略圖標簽替換圖片地址就可以了! 向導添加信正則提取模式 在源地址處添加我們要采集的列表地址 進(jìn)一步設置正則參數,這里的參數就和我們剛才說(shuō)過(guò)的就是一模一樣的了,這兩種模式方式一樣,但也適用于采集不同地址的列表,就看你們的喜好了! 設置完成之后就可以提取地址并完了! 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 以下展示一下我們采集到的地址: 好了,經(jīng)過(guò)比較長(cháng)時(shí)間的制做,這份文檔加圖片的教程就制做得差不多了,現在是早上兩點(diǎn),應該休息了! 剩下的視頻部份,就等今天來(lái)完成吧!最后,感謝你們對火車(chē)頭的支持,3Q and 88 本文沒(méi)有來(lái)得急校對,如果出現錯誤的地方歡迎你們修正!



