正則
帝國CMS采集教程:帝國cms采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 426 次瀏覽 ? 2020-07-22 08:01
相關(guān)文章:帝國cms采集功能:采集新浪各地新聞欄目?jì)热?br /> 那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”帝國cms采集分頁(yè)教程,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟帝國cms采集分頁(yè)教程,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。 查看全部
相關(guān)文章:帝國cms采集功能:采集新浪各地新聞欄目?jì)热?br /> 那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”帝國cms采集分頁(yè)教程,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟帝國cms采集分頁(yè)教程,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。
帝國cms網(wǎng)站采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 500 次瀏覽 ? 2020-07-22 08:00
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。 查看全部

一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
帝國cms采集圖文教程(中)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 425 次瀏覽 ? 2020-07-21 08:03
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝! 查看全部
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝!
帝國cms采集教程二:如何采集內容分頁(yè)
站長(cháng)必讀 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 513 次瀏覽 ? 2020-07-20 08:05
上一講我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái)帝國cms采集分頁(yè)教程,這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示帝國cms采集分頁(yè)教程,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。 查看全部

上一講我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái)帝國cms采集分頁(yè)教程,這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示帝國cms采集分頁(yè)教程,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。
火車(chē)頭網(wǎng)頁(yè)正則提取電話(huà) – 火車(chē)頭正則采集電話(huà)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 727 次瀏覽 ? 2020-05-25 08:01
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no 查看全部
話(huà)說(shuō)好長(cháng)時(shí)間不用火車(chē)頭了。都有點(diǎn)蒙逼忘了。記得曾經(jīng)用火車(chē)頭采集論壇做垃圾文章網(wǎng)站,都多少年前的事情了,如今須要采集一些手機號,想想懶得寫(xiě)PHP,有現成的工具為何不用對吧,沒(méi)毛病。
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no
火車(chē)采集器系列教程 之 使用正則采集鏈接
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 752 次瀏覽 ? 2020-05-15 08:01
火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 先來(lái)瞧瞧這段加密后代碼 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4" target="_blank">蔡依林</a> 生成之后可以正常訪(fǎng)問(wèn)的聯(lián)接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我們能獲取到卻難以訪(fǎng)問(wèn)的鏈接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4 經(jīng)過(guò)對比我們可以看出,兩個(gè)鏈接只有 從 word=到&這之間的代碼不一樣,我們還可以看出,之間的代碼恰好對應 蔡依林 這個(gè)鏈接的標題,我們可以想,如果我們可以把這之間的亂碼用這段鏈接的標題來(lái)取代或則說(shuō)替換,那不就完全一樣了嗎? 是的,我們完全可以借助正則來(lái)采集這樣的網(wǎng)站地址! 列表地址: 在頁(yè)面鏈接的采集方法這兒,我們有兩個(gè)選擇,一個(gè)是自動(dòng)填寫(xiě)鏈接地址規則,一個(gè)是啟動(dòng)向導添加,進(jìn)入正則提取!以下火車(chē)采集器 正則提取,我們兩種方式都一并講解! 列車(chē)采集器系列教程 之 使用正則采集鏈接 一 下面,啟動(dòng)我們的列車(chē),建立一個(gè)站點(diǎn),建立一個(gè)任務(wù)! 自動(dòng)添加模式1,打開(kāi)自動(dòng)添加模式之后,我們先設置禁用系統手動(dòng)辨識聯(lián)接,啟用自定義聯(lián)接格式 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 2,修改我們的正則規則如下: <a href="(*)" target="_blank">[參數]</a> 這里, <a href=" 的作用是取固定字符在確定聯(lián)接所在區域,設定參數為我們想獲取的目標內容。
實(shí)際聯(lián)接設置為正確的可以訪(fǎng)問(wèn)的鏈接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[參數 1]&pic=1 這里的參數 1表示它就是獲取的參數,如果你想在其它地方再使用,可以繼續使用到參數 N,不過(guò)你要注意了,如果你要獲取多個(gè)參數,這里復雜了,請注意下邊這張圖片: 假如你要獲取多個(gè)參數火車(chē)采集器 正則提取,請注意她們出現的位次,在引用過(guò)程中,也要注意位次,不然會(huì )出現參數值傳遞錯誤!同時(shí),你可以將[參數 N]修改為你想獲取的參數。 在這里,如果有縮略圖,我們也可以加上縮略圖,也可以下載!將縮略圖標簽替換圖片地址就可以了! 向導添加信正則提取模式 在源地址處添加我們要采集的列表地址 進(jìn)一步設置正則參數,這里的參數就和我們剛才說(shuō)過(guò)的就是一模一樣的了,這兩種模式方式一樣,但也適用于采集不同地址的列表,就看你們的喜好了! 設置完成之后就可以提取地址并完了! 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 以下展示一下我們采集到的地址: 好了,經(jīng)過(guò)比較長(cháng)時(shí)間的制做,這份文檔加圖片的教程就制做得差不多了,現在是早上兩點(diǎn),應該休息了! 剩下的視頻部份,就等今天來(lái)完成吧!最后,感謝你們對火車(chē)頭的支持,3Q and 88 本文沒(méi)有來(lái)得急校對,如果出現錯誤的地方歡迎你們修正! 查看全部
火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 先來(lái)瞧瞧這段加密后代碼 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4" target="_blank">蔡依林</a> 生成之后可以正常訪(fǎng)問(wèn)的聯(lián)接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我們能獲取到卻難以訪(fǎng)問(wèn)的鏈接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4 經(jīng)過(guò)對比我們可以看出,兩個(gè)鏈接只有 從 word=到&這之間的代碼不一樣,我們還可以看出,之間的代碼恰好對應 蔡依林 這個(gè)鏈接的標題,我們可以想,如果我們可以把這之間的亂碼用這段鏈接的標題來(lái)取代或則說(shuō)替換,那不就完全一樣了嗎? 是的,我們完全可以借助正則來(lái)采集這樣的網(wǎng)站地址! 列表地址: 在頁(yè)面鏈接的采集方法這兒,我們有兩個(gè)選擇,一個(gè)是自動(dòng)填寫(xiě)鏈接地址規則,一個(gè)是啟動(dòng)向導添加,進(jìn)入正則提取!以下火車(chē)采集器 正則提取,我們兩種方式都一并講解! 列車(chē)采集器系列教程 之 使用正則采集鏈接 一 下面,啟動(dòng)我們的列車(chē),建立一個(gè)站點(diǎn),建立一個(gè)任務(wù)! 自動(dòng)添加模式1,打開(kāi)自動(dòng)添加模式之后,我們先設置禁用系統手動(dòng)辨識聯(lián)接,啟用自定義聯(lián)接格式 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 2,修改我們的正則規則如下: <a href="(*)" target="_blank">[參數]</a> 這里, <a href=" 的作用是取固定字符在確定聯(lián)接所在區域,設定參數為我們想獲取的目標內容。
實(shí)際聯(lián)接設置為正確的可以訪(fǎng)問(wèn)的鏈接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[參數 1]&pic=1 這里的參數 1表示它就是獲取的參數,如果你想在其它地方再使用,可以繼續使用到參數 N,不過(guò)你要注意了,如果你要獲取多個(gè)參數,這里復雜了,請注意下邊這張圖片: 假如你要獲取多個(gè)參數火車(chē)采集器 正則提取,請注意她們出現的位次,在引用過(guò)程中,也要注意位次,不然會(huì )出現參數值傳遞錯誤!同時(shí),你可以將[參數 N]修改為你想獲取的參數。 在這里,如果有縮略圖,我們也可以加上縮略圖,也可以下載!將縮略圖標簽替換圖片地址就可以了! 向導添加信正則提取模式 在源地址處添加我們要采集的列表地址 進(jìn)一步設置正則參數,這里的參數就和我們剛才說(shuō)過(guò)的就是一模一樣的了,這兩種模式方式一樣,但也適用于采集不同地址的列表,就看你們的喜好了! 設置完成之后就可以提取地址并完了! 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 以下展示一下我們采集到的地址: 好了,經(jīng)過(guò)比較長(cháng)時(shí)間的制做,這份文檔加圖片的教程就制做得差不多了,現在是早上兩點(diǎn),應該休息了! 剩下的視頻部份,就等今天來(lái)完成吧!最后,感謝你們對火車(chē)頭的支持,3Q and 88 本文沒(méi)有來(lái)得急校對,如果出現錯誤的地方歡迎你們修正!
帝國CMS采集教程:帝國cms采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 426 次瀏覽 ? 2020-07-22 08:01
相關(guān)文章:帝國cms采集功能:采集新浪各地新聞欄目?jì)热?br /> 那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”帝國cms采集分頁(yè)教程,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟帝國cms采集分頁(yè)教程,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。 查看全部
相關(guān)文章:帝國cms采集功能:采集新浪各地新聞欄目?jì)热?br /> 那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”帝國cms采集分頁(yè)教程,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟帝國cms采集分頁(yè)教程,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。
帝國cms網(wǎng)站采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 500 次瀏覽 ? 2020-07-22 08:00
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。 查看全部

一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
帝國cms采集圖文教程(中)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 425 次瀏覽 ? 2020-07-21 08:03
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝! 查看全部
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝!
帝國cms采集教程二:如何采集內容分頁(yè)
站長(cháng)必讀 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 513 次瀏覽 ? 2020-07-20 08:05
上一講我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái)帝國cms采集分頁(yè)教程,這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示帝國cms采集分頁(yè)教程,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。 查看全部

上一講我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內容分頁(yè)。不少的朋友在采集過(guò)程中,列表頁(yè)和內容頁(yè)都能可以挺好地設定正則,但常常失敗在內容分頁(yè)正則上,主要是對內容分頁(yè)正則不了解。帝國的內容分頁(yè)方式有兩種:(1)全部列舉式(2)上下頁(yè)導航式,但是這兩種內容分頁(yè)方式有哪些區別,采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊,對此有些朋友倍感太頭大,好的,我們先看下事例:
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái)帝國cms采集分頁(yè)教程,這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示帝國cms采集分頁(yè)教程,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí),老是采到第1頁(yè),其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
好的,這一講就到這兒,下一講我們主要介紹帝國cms采集過(guò)濾和替換。
火車(chē)頭網(wǎng)頁(yè)正則提取電話(huà) – 火車(chē)頭正則采集電話(huà)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 727 次瀏覽 ? 2020-05-25 08:01
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no 查看全部
話(huà)說(shuō)好長(cháng)時(shí)間不用火車(chē)頭了。都有點(diǎn)蒙逼忘了。記得曾經(jīng)用火車(chē)頭采集論壇做垃圾文章網(wǎng)站,都多少年前的事情了,如今須要采集一些手機號,想想懶得寫(xiě)PHP,有現成的工具為何不用對吧,沒(méi)毛病。
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no
火車(chē)采集器系列教程 之 使用正則采集鏈接
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 752 次瀏覽 ? 2020-05-15 08:01
火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 先來(lái)瞧瞧這段加密后代碼 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4" target="_blank">蔡依林</a> 生成之后可以正常訪(fǎng)問(wèn)的聯(lián)接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我們能獲取到卻難以訪(fǎng)問(wèn)的鏈接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4 經(jīng)過(guò)對比我們可以看出,兩個(gè)鏈接只有 從 word=到&這之間的代碼不一樣,我們還可以看出,之間的代碼恰好對應 蔡依林 這個(gè)鏈接的標題,我們可以想,如果我們可以把這之間的亂碼用這段鏈接的標題來(lái)取代或則說(shuō)替換,那不就完全一樣了嗎? 是的,我們完全可以借助正則來(lái)采集這樣的網(wǎng)站地址! 列表地址: 在頁(yè)面鏈接的采集方法這兒,我們有兩個(gè)選擇,一個(gè)是自動(dòng)填寫(xiě)鏈接地址規則,一個(gè)是啟動(dòng)向導添加,進(jìn)入正則提取!以下火車(chē)采集器 正則提取,我們兩種方式都一并講解! 列車(chē)采集器系列教程 之 使用正則采集鏈接 一 下面,啟動(dòng)我們的列車(chē),建立一個(gè)站點(diǎn),建立一個(gè)任務(wù)! 自動(dòng)添加模式1,打開(kāi)自動(dòng)添加模式之后,我們先設置禁用系統手動(dòng)辨識聯(lián)接,啟用自定義聯(lián)接格式 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 2,修改我們的正則規則如下: <a href="(*)" target="_blank">[參數]</a> 這里, <a href=" 的作用是取固定字符在確定聯(lián)接所在區域,設定參數為我們想獲取的目標內容。
實(shí)際聯(lián)接設置為正確的可以訪(fǎng)問(wèn)的鏈接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[參數 1]&pic=1 這里的參數 1表示它就是獲取的參數,如果你想在其它地方再使用,可以繼續使用到參數 N,不過(guò)你要注意了,如果你要獲取多個(gè)參數,這里復雜了,請注意下邊這張圖片: 假如你要獲取多個(gè)參數火車(chē)采集器 正則提取,請注意她們出現的位次,在引用過(guò)程中,也要注意位次,不然會(huì )出現參數值傳遞錯誤!同時(shí),你可以將[參數 N]修改為你想獲取的參數。 在這里,如果有縮略圖,我們也可以加上縮略圖,也可以下載!將縮略圖標簽替換圖片地址就可以了! 向導添加信正則提取模式 在源地址處添加我們要采集的列表地址 進(jìn)一步設置正則參數,這里的參數就和我們剛才說(shuō)過(guò)的就是一模一樣的了,這兩種模式方式一樣,但也適用于采集不同地址的列表,就看你們的喜好了! 設置完成之后就可以提取地址并完了! 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 以下展示一下我們采集到的地址: 好了,經(jīng)過(guò)比較長(cháng)時(shí)間的制做,這份文檔加圖片的教程就制做得差不多了,現在是早上兩點(diǎn),應該休息了! 剩下的視頻部份,就等今天來(lái)完成吧!最后,感謝你們對火車(chē)頭的支持,3Q and 88 本文沒(méi)有來(lái)得急校對,如果出現錯誤的地方歡迎你們修正! 查看全部
火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 先來(lái)瞧瞧這段加密后代碼 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4" target="_blank">蔡依林</a> 生成之后可以正常訪(fǎng)問(wèn)的聯(lián)接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我們能獲取到卻難以訪(fǎng)問(wèn)的鏈接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=&#34081;&#20381;&#26519;&z=4 經(jīng)過(guò)對比我們可以看出,兩個(gè)鏈接只有 從 word=到&這之間的代碼不一樣,我們還可以看出,之間的代碼恰好對應 蔡依林 這個(gè)鏈接的標題,我們可以想,如果我們可以把這之間的亂碼用這段鏈接的標題來(lái)取代或則說(shuō)替換,那不就完全一樣了嗎? 是的,我們完全可以借助正則來(lái)采集這樣的網(wǎng)站地址! 列表地址: 在頁(yè)面鏈接的采集方法這兒,我們有兩個(gè)選擇,一個(gè)是自動(dòng)填寫(xiě)鏈接地址規則,一個(gè)是啟動(dòng)向導添加,進(jìn)入正則提取!以下火車(chē)采集器 正則提取,我們兩種方式都一并講解! 列車(chē)采集器系列教程 之 使用正則采集鏈接 一 下面,啟動(dòng)我們的列車(chē),建立一個(gè)站點(diǎn),建立一個(gè)任務(wù)! 自動(dòng)添加模式1,打開(kāi)自動(dòng)添加模式之后,我們先設置禁用系統手動(dòng)辨識聯(lián)接,啟用自定義聯(lián)接格式 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 2,修改我們的正則規則如下: <a href="(*)" target="_blank">[參數]</a> 這里, <a href=" 的作用是取固定字符在確定聯(lián)接所在區域,設定參數為我們想獲取的目標內容。
實(shí)際聯(lián)接設置為正確的可以訪(fǎng)問(wèn)的鏈接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[參數 1]&pic=1 這里的參數 1表示它就是獲取的參數,如果你想在其它地方再使用,可以繼續使用到參數 N,不過(guò)你要注意了,如果你要獲取多個(gè)參數,這里復雜了,請注意下邊這張圖片: 假如你要獲取多個(gè)參數火車(chē)采集器 正則提取,請注意她們出現的位次,在引用過(guò)程中,也要注意位次,不然會(huì )出現參數值傳遞錯誤!同時(shí),你可以將[參數 N]修改為你想獲取的參數。 在這里,如果有縮略圖,我們也可以加上縮略圖,也可以下載!將縮略圖標簽替換圖片地址就可以了! 向導添加信正則提取模式 在源地址處添加我們要采集的列表地址 進(jìn)一步設置正則參數,這里的參數就和我們剛才說(shuō)過(guò)的就是一模一樣的了,這兩種模式方式一樣,但也適用于采集不同地址的列表,就看你們的喜好了! 設置完成之后就可以提取地址并完了! 火車(chē)采集器系列教程 之 使用正則采集網(wǎng)址 圖片版 以下展示一下我們采集到的地址: 好了,經(jīng)過(guò)比較長(cháng)時(shí)間的制做,這份文檔加圖片的教程就制做得差不多了,現在是早上兩點(diǎn),應該休息了! 剩下的視頻部份,就等今天來(lái)完成吧!最后,感謝你們對火車(chē)頭的支持,3Q and 88 本文沒(méi)有來(lái)得急校對,如果出現錯誤的地方歡迎你們修正!


