帝國cms采集圖文教程(中)
優(yōu)采云 發(fā)布時(shí)間: 2020-07-21 08:03帝國 cms 采集圖文教程(中) 上一講我們介紹了帝國 cms 采集基本流程帝國cms采集分頁(yè)教程, 那么我們這一講介紹帝國 cms 如何采集內容分頁(yè)。 不少的朋友在采集過(guò)程中, 列表頁(yè)和內容頁(yè)都能可以挺好地設定正則, 但常常失敗在內容分頁(yè)正則上, 主要是對內容分頁(yè)正則不了解。 帝國的內容分頁(yè)方式有兩種:(1) 全部列出式(2) 上下頁(yè)導航式, 但是這兩種內容分頁(yè)方式有哪些區別, 采集內容分頁(yè)時(shí)該用哪種,官方說(shuō)得比較模糊, 對此有些朋友倍感太頭大, 好的, 我們先看下事例: 一、 全部列出式 全部列表式只需看第一頁(yè)的頁(yè)面 HTML 代碼, 這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。 1、我們以“中華網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 3 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2 條和第 3 條分頁(yè), 所有的分頁(yè)都列下來(lái)了。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):二、 上下頁(yè)導航式 上下頁(yè)導航式是分頁(yè)采集的難點(diǎn), 他須要所有頁(yè)面都符合分頁(yè)正則才行, 在不熟悉的情況下,我們可以用第 1 頁(yè)和第 2 頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝!


