分頁(yè)
Dedecms采集含有分頁(yè)的普通文章的使用方式
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 648 次瀏覽 ? 2020-07-24 08:00
單擊“保存信息并步入下一步設置”后,便可步入“新增采集節點(diǎn):第二步設置內容數組獲取規則”頁(yè)面,如(圖1)所示,
系統將會(huì )手動(dòng)指定一個(gè)“預覽網(wǎng)址”,一般是文章列表頁(yè)的第一篇文章的網(wǎng)址。但是,由于第一篇文章中沒(méi)有涉及到分頁(yè)的部份,所以在這里自動(dòng)修改為第二篇文章的網(wǎng)址:“”,
上圖紅箭頭部份是寫(xiě)下邊來(lái)設定分頁(yè)部份的匹配規則。其具體操作步驟為:
打開(kāi)文章內容頁(yè)面,在網(wǎng)頁(yè)上單擊右鍵,在彈出的對話(huà)框中單擊“查看源文件“。在源代碼中,找到分頁(yè)代碼的開(kāi)始部份和結束部份,如(圖2)所示,
經(jīng)過(guò)觀(guān)察可知,分頁(yè)代碼坐落“
“和”
”之間。因此,在”內容分頁(yè)導航所在的區域匹配規則“中,應填寫(xiě)”
[內容]
“。對于分頁(yè)代碼的款式,一共有三種可供選擇,這里應選擇第一種” 全部列舉的分頁(yè)列表”。填寫(xiě)后,如(圖3)所示,
對于“固定采集項目”中的“內容摘要、關(guān)鍵字和縮略圖“三個(gè)部份,系統會(huì )用正則進(jìn)行手動(dòng)匹配,這里僅需配置過(guò)濾內容即可。下面主要介紹怎么獲取“文章標題、文章作者、文章來(lái)源、發(fā)布時(shí)間和文章內容”的采集規則,過(guò)濾規則僅簡(jiǎn)單涉及。
首先,打開(kāi)“預覽網(wǎng)址“的頁(yè)面并單擊右鍵,選擇”查看源代碼“,找到文章標題” OpenFlow網(wǎng)路是空談嗎?“織夢(mèng)采集規則中分頁(yè),如(圖4)所示,
圖18-在源代碼中的文章標題
這里的文章標題處在””之間,因此這兒應當填寫(xiě)”[內容]”作為文章標題的匹配規則。如果在文章標題中富含相關(guān)鏈接等,可使用過(guò)濾規則加以處理,這里無(wú)需設置。填寫(xiě)后,如(圖5)所示,
圖5-文章標題的采集規則
經(jīng)過(guò)查找北京班車(chē)租賃企業(yè)租車(chē)網(wǎng)站的源代碼和對比原文的標題部份,可發(fā)覺(jué)本文沒(méi)有涉及到作者,所以這兒不用填寫(xiě),空著(zhù)即可。
2.1.3 獲取文章來(lái)源的采集規則
在上圖19中,可發(fā)覺(jué)來(lái)源的內容介于“來(lái)源:“和“”之間,因此這兒應填寫(xiě)“來(lái)源:[內容]”作為文章來(lái)源的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖6所示,
圖6-文章來(lái)源的采集規則
再次回到圖17,可找到“時(shí)間:2011-05-13 11:47”,因此這兒應把“時(shí)間:[內容]”作為發(fā)布時(shí)間的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖7所示,
圖7-文章發(fā)布時(shí)間的采集規則
這個(gè)部份是編撰采集規則的重點(diǎn),也是難點(diǎn)。需要非常注意。
具體操作步驟:
?。╝)在在打開(kāi)的文章內容頁(yè)面的源代碼中,找到文章內容的開(kāi)始部份“計算機網(wǎng)路知識的學(xué)習”,如圖8所示,
圖8-文章內容的開(kāi)始部份
這里應把””作為匹配規則的開(kāi)始部份,注意到這段代碼中包含一段廣告代碼,需要采用過(guò)濾規則把其清除。經(jīng)觀(guān)察發(fā)覺(jué),這段JS廣告代碼是坐落“
”和“
”之間的。因此,應在“過(guò)濾規則”中填寫(xiě):“{dede:trim replace=’’}
(.*)
”{/dede:trim}。填寫(xiě)后,如(圖9)所示,
圖9-開(kāi)始部份的匹配規則及其過(guò)濾規則
?。╞)找到文章內容的結束部份,因為涉及到分頁(yè)部份織夢(mèng)采集規則中分頁(yè),所以應當選定分頁(yè)結束的位置,如圖10所示,
圖10-文章內容的結束部份
這里應選定“”作為文章內容的結束部份,由于在選定的內容中又包含了一段JS代碼,因此應再度使用過(guò)濾規則,把其清除。同時(shí),考慮到本頁(yè)沒(méi)有涉及到分頁(yè),所以在分頁(yè)代碼中的之間是空的。但是,如果頁(yè)面包含分頁(yè)的話(huà),也是應當使用過(guò)濾規則去掉的。此外,如果所設定的文章內容中,含有圖片、鏈接等不希望被采集到的內容,也應當使用過(guò)濾規則一并清除掉。填寫(xiě)完成后,如(圖11)所示,
圖11-文章內容的匹配規則
到這兒,“新增采集節點(diǎn):第二步設置內容數組獲取規則”,就設置完成了。來(lái)看一下整個(gè)配置頁(yè)面,如(圖12)所示,
圖12-設置后的新增采集節點(diǎn):第二步設置內容數組獲取規則
檢查無(wú)誤后,單擊“保存配置并預覽”。如果之前設置正確,單擊后,將會(huì )步入“新增采集節點(diǎn):測試內容數組設置”頁(yè)面并見(jiàn)到相應的文章內容。如(圖13)和(圖14)所示,
圖13-新增采集節點(diǎn):測試內容數組設置
圖14-新增采集節點(diǎn):測試內容數組設置
其中,圖中畫(huà)圈的地方代表的是分頁(yè)符號。
確定正確無(wú)誤后,如果單擊“僅保存”,系統將會(huì )提示“成功保存配置“并返回”采集節點(diǎn)管理“界面;如果單擊“保存并開(kāi)始采集“,將會(huì )步入”采集指定節點(diǎn)“界面。否則,請單擊“返回上一步進(jìn)行更改”。 查看全部

單擊“保存信息并步入下一步設置”后,便可步入“新增采集節點(diǎn):第二步設置內容數組獲取規則”頁(yè)面,如(圖1)所示,

系統將會(huì )手動(dòng)指定一個(gè)“預覽網(wǎng)址”,一般是文章列表頁(yè)的第一篇文章的網(wǎng)址。但是,由于第一篇文章中沒(méi)有涉及到分頁(yè)的部份,所以在這里自動(dòng)修改為第二篇文章的網(wǎng)址:“”,
上圖紅箭頭部份是寫(xiě)下邊來(lái)設定分頁(yè)部份的匹配規則。其具體操作步驟為:
打開(kāi)文章內容頁(yè)面,在網(wǎng)頁(yè)上單擊右鍵,在彈出的對話(huà)框中單擊“查看源文件“。在源代碼中,找到分頁(yè)代碼的開(kāi)始部份和結束部份,如(圖2)所示,

經(jīng)過(guò)觀(guān)察可知,分頁(yè)代碼坐落“
“和”
”之間。因此,在”內容分頁(yè)導航所在的區域匹配規則“中,應填寫(xiě)”
[內容]
“。對于分頁(yè)代碼的款式,一共有三種可供選擇,這里應選擇第一種” 全部列舉的分頁(yè)列表”。填寫(xiě)后,如(圖3)所示,

對于“固定采集項目”中的“內容摘要、關(guān)鍵字和縮略圖“三個(gè)部份,系統會(huì )用正則進(jìn)行手動(dòng)匹配,這里僅需配置過(guò)濾內容即可。下面主要介紹怎么獲取“文章標題、文章作者、文章來(lái)源、發(fā)布時(shí)間和文章內容”的采集規則,過(guò)濾規則僅簡(jiǎn)單涉及。
首先,打開(kāi)“預覽網(wǎng)址“的頁(yè)面并單擊右鍵,選擇”查看源代碼“,找到文章標題” OpenFlow網(wǎng)路是空談嗎?“織夢(mèng)采集規則中分頁(yè),如(圖4)所示,

圖18-在源代碼中的文章標題
這里的文章標題處在””之間,因此這兒應當填寫(xiě)”[內容]”作為文章標題的匹配規則。如果在文章標題中富含相關(guān)鏈接等,可使用過(guò)濾規則加以處理,這里無(wú)需設置。填寫(xiě)后,如(圖5)所示,
圖5-文章標題的采集規則
經(jīng)過(guò)查找北京班車(chē)租賃企業(yè)租車(chē)網(wǎng)站的源代碼和對比原文的標題部份,可發(fā)覺(jué)本文沒(méi)有涉及到作者,所以這兒不用填寫(xiě),空著(zhù)即可。
2.1.3 獲取文章來(lái)源的采集規則
在上圖19中,可發(fā)覺(jué)來(lái)源的內容介于“來(lái)源:“和“”之間,因此這兒應填寫(xiě)“來(lái)源:[內容]”作為文章來(lái)源的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖6所示,
圖6-文章來(lái)源的采集規則
再次回到圖17,可找到“時(shí)間:2011-05-13 11:47”,因此這兒應把“時(shí)間:[內容]”作為發(fā)布時(shí)間的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖7所示,
圖7-文章發(fā)布時(shí)間的采集規則
這個(gè)部份是編撰采集規則的重點(diǎn),也是難點(diǎn)。需要非常注意。
具體操作步驟:
?。╝)在在打開(kāi)的文章內容頁(yè)面的源代碼中,找到文章內容的開(kāi)始部份“計算機網(wǎng)路知識的學(xué)習”,如圖8所示,
圖8-文章內容的開(kāi)始部份
這里應把””作為匹配規則的開(kāi)始部份,注意到這段代碼中包含一段廣告代碼,需要采用過(guò)濾規則把其清除。經(jīng)觀(guān)察發(fā)覺(jué),這段JS廣告代碼是坐落“
”和“
”之間的。因此,應在“過(guò)濾規則”中填寫(xiě):“{dede:trim replace=’’}
(.*)
”{/dede:trim}。填寫(xiě)后,如(圖9)所示,
圖9-開(kāi)始部份的匹配規則及其過(guò)濾規則
?。╞)找到文章內容的結束部份,因為涉及到分頁(yè)部份織夢(mèng)采集規則中分頁(yè),所以應當選定分頁(yè)結束的位置,如圖10所示,
圖10-文章內容的結束部份
這里應選定“”作為文章內容的結束部份,由于在選定的內容中又包含了一段JS代碼,因此應再度使用過(guò)濾規則,把其清除。同時(shí),考慮到本頁(yè)沒(méi)有涉及到分頁(yè),所以在分頁(yè)代碼中的之間是空的。但是,如果頁(yè)面包含分頁(yè)的話(huà),也是應當使用過(guò)濾規則去掉的。此外,如果所設定的文章內容中,含有圖片、鏈接等不希望被采集到的內容,也應當使用過(guò)濾規則一并清除掉。填寫(xiě)完成后,如(圖11)所示,
圖11-文章內容的匹配規則
到這兒,“新增采集節點(diǎn):第二步設置內容數組獲取規則”,就設置完成了。來(lái)看一下整個(gè)配置頁(yè)面,如(圖12)所示,
圖12-設置后的新增采集節點(diǎn):第二步設置內容數組獲取規則
檢查無(wú)誤后,單擊“保存配置并預覽”。如果之前設置正確,單擊后,將會(huì )步入“新增采集節點(diǎn):測試內容數組設置”頁(yè)面并見(jiàn)到相應的文章內容。如(圖13)和(圖14)所示,
圖13-新增采集節點(diǎn):測試內容數組設置
圖14-新增采集節點(diǎn):測試內容數組設置
其中,圖中畫(huà)圈的地方代表的是分頁(yè)符號。
確定正確無(wú)誤后,如果單擊“僅保存”,系統將會(huì )提示“成功保存配置“并返回”采集節點(diǎn)管理“界面;如果單擊“保存并開(kāi)始采集“,將會(huì )步入”采集指定節點(diǎn)“界面。否則,請單擊“返回上一步進(jìn)行更改”。
解析織夢(mèng)v5.3的分頁(yè)采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 489 次瀏覽 ? 2020-07-23 08:01
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳織夢(mèng)采集規則中分頁(yè),發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有睡著(zhù),我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人怎樣看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想睡著(zhù),突然我一下睡意全無(wú),我很激動(dòng)了,我聽(tīng)到了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html 是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。
文章列表匹配規則。注意要多看幾頁(yè)找出相同的,列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
建議寫(xiě)上篩選,一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl
保存步入下一步設置。以看見(jiàn)下邊的圖為準。
3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè)織夢(mèng)采集規則中分頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。 查看全部
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳織夢(mèng)采集規則中分頁(yè),發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有睡著(zhù),我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人怎樣看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想睡著(zhù),突然我一下睡意全無(wú),我很激動(dòng)了,我聽(tīng)到了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html 是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。

文章列表匹配規則。注意要多看幾頁(yè)找出相同的,列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
建議寫(xiě)上篩選,一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl

保存步入下一步設置。以看見(jiàn)下邊的圖為準。

3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè)織夢(mèng)采集規則中分頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
織夢(mèng)CMS怎么做分頁(yè)的采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 519 次瀏覽 ? 2020-07-23 08:01
最近想做個(gè)技術(shù)型的網(wǎng)站,不知道用哪些cms來(lái)做,在網(wǎng)上搜索了一大堆,看到織夢(mèng)的采集功能還不錯,我也在想啊,做一個(gè)站假如所有的文章都須要站長(cháng)一個(gè)一個(gè)的加,那不是要嚇死啊,所以就選著(zhù)了織夢(mèng)。
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳,發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有午睡,我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人如何看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想午睡,突然我一下睡意全無(wú),我很激動(dòng)了,我看見(jiàn)了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。
文章列表匹配規則。注意要多看幾頁(yè)找出相同的織夢(mèng)采集規則中分頁(yè),列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
以下為引用的內容:
區域結束的html :
建議寫(xiě)上篩選織夢(mèng)采集規則中分頁(yè),一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl
保存步入下一步設置。以看見(jiàn)下邊的圖為準。
3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
以下為引用的內容:
[內容]
[內容]為我們須要的內容,這個(gè)我想你們都曉得了同理做好文章標題:(標題有兩個(gè)地方有,當然選簡(jiǎn)單的個(gè))
[內容]
文章作者:
[內容]
查看全部
最近想做個(gè)技術(shù)型的網(wǎng)站,不知道用哪些cms來(lái)做,在網(wǎng)上搜索了一大堆,看到織夢(mèng)的采集功能還不錯,我也在想啊,做一個(gè)站假如所有的文章都須要站長(cháng)一個(gè)一個(gè)的加,那不是要嚇死啊,所以就選著(zhù)了織夢(mèng)。
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳,發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有午睡,我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人如何看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想午睡,突然我一下睡意全無(wú),我很激動(dòng)了,我看見(jiàn)了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。

文章列表匹配規則。注意要多看幾頁(yè)找出相同的織夢(mèng)采集規則中分頁(yè),列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
以下為引用的內容:
區域結束的html :
建議寫(xiě)上篩選織夢(mèng)采集規則中分頁(yè),一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl

保存步入下一步設置。以看見(jiàn)下邊的圖為準。

3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
以下為引用的內容:
[內容]
[內容]為我們須要的內容,這個(gè)我想你們都曉得了同理做好文章標題:(標題有兩個(gè)地方有,當然選簡(jiǎn)單的個(gè))
[內容]
文章作者:

[內容]
帝國cms網(wǎng)站采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 498 次瀏覽 ? 2020-07-22 08:00
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。 查看全部

一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
帝國cms采集圖文教程(中)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 423 次瀏覽 ? 2020-07-21 08:03
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝! 查看全部
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝!
SEO站長(cháng)怎么批量采集文章??jì)?yōu)采云采集器操作教程
站長(cháng)必讀 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 813 次瀏覽 ? 2020-07-20 08:04
已經(jīng)很久沒(méi)有使用優(yōu)采云采集器了。想起以前做站群SEO那段時(shí)間,經(jīng)常會(huì )登錄優(yōu)采云采集器去采集各大相關(guān)網(wǎng)站的資訊內容。而且那種時(shí)侯采集之風(fēng)興起,到處是各類(lèi)采集站,尤其是小說(shuō)站、文章站等,動(dòng)不動(dòng)就是采集數十萬(wàn)的文章火車(chē)頭采集文章,網(wǎng)站做到權重4那是輕而易舉。雖然如今大部分網(wǎng)站很少采集了,但采集還是無(wú)處不在,因為一些所謂的原創(chuàng )站點(diǎn),文章內容很有可能也是采集之后再進(jìn)行加工制做而成的。所以把握一種采集技巧對SEO站長(cháng)而言還是挺有幫助的。下面小編分享的便是優(yōu)采云采集器使用教程,供菜鳥(niǎo)SEO參考。
優(yōu)采云采集器網(wǎng)址規則設置
第一步、打開(kāi)優(yōu)采云采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的火車(chē)頭采集文章,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
優(yōu)采云采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
優(yōu)采云采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,優(yōu)采云采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):優(yōu)采云采集器功能非常強悍,除了采集文章還可以采集視頻等,優(yōu)采云采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率。優(yōu)采云采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

已經(jīng)很久沒(méi)有使用優(yōu)采云采集器了。想起以前做站群SEO那段時(shí)間,經(jīng)常會(huì )登錄優(yōu)采云采集器去采集各大相關(guān)網(wǎng)站的資訊內容。而且那種時(shí)侯采集之風(fēng)興起,到處是各類(lèi)采集站,尤其是小說(shuō)站、文章站等,動(dòng)不動(dòng)就是采集數十萬(wàn)的文章火車(chē)頭采集文章,網(wǎng)站做到權重4那是輕而易舉。雖然如今大部分網(wǎng)站很少采集了,但采集還是無(wú)處不在,因為一些所謂的原創(chuàng )站點(diǎn),文章內容很有可能也是采集之后再進(jìn)行加工制做而成的。所以把握一種采集技巧對SEO站長(cháng)而言還是挺有幫助的。下面小編分享的便是優(yōu)采云采集器使用教程,供菜鳥(niǎo)SEO參考。

優(yōu)采云采集器網(wǎng)址規則設置
第一步、打開(kāi)優(yōu)采云采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的火車(chē)頭采集文章,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
優(yōu)采云采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

優(yōu)采云采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,優(yōu)采云采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):優(yōu)采云采集器功能非常強悍,除了采集文章還可以采集視頻等,優(yōu)采云采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率。優(yōu)采云采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
優(yōu)采云采集器如何采集內容頁(yè)的分頁(yè)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 506 次瀏覽 ? 2020-06-29 08:02
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。
相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞的時(shí)侯。經(jīng)常聽(tīng)到文章內頁(yè)上面還有分頁(yè),還要一個(gè)一個(gè)的去點(diǎn)擊,這樣就能把全篇文章看完。
首先,這種做法我個(gè)人而言是厭惡的。接著(zhù),他們這樣做的目的,只要值為了降低pv,提高一些百度聯(lián)盟或則哪些推廣的廣告而已,為了廣告費。都說(shuō)做網(wǎng)站,主要還是為了錢(qián)嘛,這點(diǎn)無(wú)可厚非。
但是,他們這樣的做,我們在采集數據的時(shí)侯,就碰到了如何去采集內容頁(yè)分頁(yè)的問(wèn)題了。
好的,那么接下來(lái)火車(chē)采集器 分頁(yè),我就來(lái)告訴你們,怎么用優(yōu)采云采集器去采集文章內容頁(yè)上面的分頁(yè)。
前面的采集網(wǎng)址,就一筆帶過(guò)了。不明白的小伙伴,可以瞧瞧后面的優(yōu)采云采集前面采集列表頁(yè)的教程。
第一步:我們在編撰抓取內容的規則時(shí),記得勾選右上方的【該標簽在分頁(yè)中匹配】。
如圖:
第二步:我們在采集內容頁(yè)把分頁(yè)獲取規則填上,這里是要抓取你的分頁(yè)的。也可以在標簽循環(huán)處理的選項下邊,填上分頁(yè)內容鏈接代碼。
如圖:
第三步:測試,我們編撰的采集分頁(yè)的規則正不正確。
如圖:
通過(guò)前面的幾個(gè)步驟火車(chē)采集器 分頁(yè),是不是太輕松的就把內容頁(yè)的分頁(yè)內容,采集下來(lái)了。感覺(jué)不錯就試試吧。
×作者:高蒙
地址: 查看全部

記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。
相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞的時(shí)侯。經(jīng)常聽(tīng)到文章內頁(yè)上面還有分頁(yè),還要一個(gè)一個(gè)的去點(diǎn)擊,這樣就能把全篇文章看完。
首先,這種做法我個(gè)人而言是厭惡的。接著(zhù),他們這樣做的目的,只要值為了降低pv,提高一些百度聯(lián)盟或則哪些推廣的廣告而已,為了廣告費。都說(shuō)做網(wǎng)站,主要還是為了錢(qián)嘛,這點(diǎn)無(wú)可厚非。
但是,他們這樣的做,我們在采集數據的時(shí)侯,就碰到了如何去采集內容頁(yè)分頁(yè)的問(wèn)題了。
好的,那么接下來(lái)火車(chē)采集器 分頁(yè),我就來(lái)告訴你們,怎么用優(yōu)采云采集器去采集文章內容頁(yè)上面的分頁(yè)。
前面的采集網(wǎng)址,就一筆帶過(guò)了。不明白的小伙伴,可以瞧瞧后面的優(yōu)采云采集前面采集列表頁(yè)的教程。
第一步:我們在編撰抓取內容的規則時(shí),記得勾選右上方的【該標簽在分頁(yè)中匹配】。
如圖:

第二步:我們在采集內容頁(yè)把分頁(yè)獲取規則填上,這里是要抓取你的分頁(yè)的。也可以在標簽循環(huán)處理的選項下邊,填上分頁(yè)內容鏈接代碼。
如圖:


第三步:測試,我們編撰的采集分頁(yè)的規則正不正確。
如圖:

通過(guò)前面的幾個(gè)步驟火車(chē)采集器 分頁(yè),是不是太輕松的就把內容頁(yè)的分頁(yè)內容,采集下來(lái)了。感覺(jué)不錯就試試吧。
×作者:高蒙
地址:
文章采集器抓取列表分頁(yè)示例
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 471 次瀏覽 ? 2020-06-25 08:00
對于設置列表分頁(yè),通過(guò)右圖的起始網(wǎng)址——批量網(wǎng)址來(lái)設置是最常見(jiàn)也是最常用的。
現在我們用另外一種獲取分頁(yè)的辦法,即通過(guò)列表上下頁(yè)無(wú)限分頁(yè)采集獲取功能來(lái)自動(dòng)獲取分頁(yè)。使用這個(gè)功能,起始頁(yè)就只須要把首頁(yè)地址添加進(jìn)去就可以了火車(chē)采集器 分頁(yè),如下圖:
然后步入[高級模式]——分頁(yè)設置,設置區域開(kāi)始字符串、區域結束字符串、地址式樣、分頁(yè)地址等數組。
我們以為例,先查看下第一頁(yè)分頁(yè)源代碼的情況,如下圖:
繼續查看下第二頁(yè)分頁(yè)源代碼的情況如下:
分析得出:當前頁(yè)都是在<div>后的<strong></strong>這個(gè)代碼前面緊接著(zhù)一個(gè)<a href="">就是下一頁(yè)地址。 也就是說(shuō)我們是要通過(guò)當前頁(yè)獲取下一頁(yè),這樣一級一級的向上獲取,直至把所有分頁(yè)獲取到。 所以,區域開(kāi)始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>
地址式樣按照截取區域的格式來(lái)寫(xiě):<a href="[參數]">,效果如下:
另外上圖 “4” 是表示獲取4頁(yè)的意思,默認為“0”表示不限,將采集所有分頁(yè)。這樣就可以用列車(chē)采集器獲取到我們須要的上下頁(yè)列表分頁(yè)了火車(chē)采集器 分頁(yè),用列車(chē)采集器抓取內容頁(yè)上下頁(yè)模式也是可以參考這些操作的,更多使用教程可以訪(fǎng)問(wèn)官網(wǎng)進(jìn)行學(xué)習。 查看全部
在使用文章采集器采集文章的過(guò)程中,我們常常須要對分頁(yè)進(jìn)行抓取,比如列表分頁(yè)或內容分頁(yè),這里我們就以列表分頁(yè)為例,為你們講解一下列車(chē)采集器是怎么操作分頁(yè)的。
對于設置列表分頁(yè),通過(guò)右圖的起始網(wǎng)址——批量網(wǎng)址來(lái)設置是最常見(jiàn)也是最常用的。

現在我們用另外一種獲取分頁(yè)的辦法,即通過(guò)列表上下頁(yè)無(wú)限分頁(yè)采集獲取功能來(lái)自動(dòng)獲取分頁(yè)。使用這個(gè)功能,起始頁(yè)就只須要把首頁(yè)地址添加進(jìn)去就可以了火車(chē)采集器 分頁(yè),如下圖:

然后步入[高級模式]——分頁(yè)設置,設置區域開(kāi)始字符串、區域結束字符串、地址式樣、分頁(yè)地址等數組。

我們以為例,先查看下第一頁(yè)分頁(yè)源代碼的情況,如下圖:

繼續查看下第二頁(yè)分頁(yè)源代碼的情況如下:

分析得出:當前頁(yè)都是在<div>后的<strong></strong>這個(gè)代碼前面緊接著(zhù)一個(gè)<a href="">就是下一頁(yè)地址。 也就是說(shuō)我們是要通過(guò)當前頁(yè)獲取下一頁(yè),這樣一級一級的向上獲取,直至把所有分頁(yè)獲取到。 所以,區域開(kāi)始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>

地址式樣按照截取區域的格式來(lái)寫(xiě):<a href="[參數]">,效果如下:

另外上圖 “4” 是表示獲取4頁(yè)的意思,默認為“0”表示不限,將采集所有分頁(yè)。這樣就可以用列車(chē)采集器獲取到我們須要的上下頁(yè)列表分頁(yè)了火車(chē)采集器 分頁(yè),用列車(chē)采集器抓取內容頁(yè)上下頁(yè)模式也是可以參考這些操作的,更多使用教程可以訪(fǎng)問(wèn)官網(wǎng)進(jìn)行學(xué)習。
【優(yōu)采云v7采集教程】分頁(yè)列表詳盡信息采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 482 次瀏覽 ? 2020-06-24 08:00
在下邊界面中更改數組名稱(chēng),修改完成以后,點(diǎn)擊“確定”保存優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 6步驟 6 點(diǎn)擊“保存并啟動(dòng)”,再再彈出的對話(huà)框中選擇“啟動(dòng)本地采集”。系 統會(huì )在本地開(kāi)啟一個(gè)采集任務(wù)并采集數據, 接下來(lái)選擇導入數據,這里以選擇導 出 excel2007 為例,然后點(diǎn)擊確定. 之后選擇文件儲存路徑,再點(diǎn)保存即可優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 7下邊是數據示例優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 8相關(guān)采集教程:黃頁(yè) 88 數據采集 趕集急聘信息采集 大眾點(diǎn)評評價(jià)采集優(yōu)采云——70 萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。 1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景八爪魚(yú)采集器 分頁(yè),會(huì )上網(wǎng)才能采集。完全可視化 流程,點(diǎn)擊滑鼠完成操作,2 分鐘即可快速入門(mén)。優(yōu)采云·云采集服務(wù)平臺 2、功能強悍,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁(yè)、識別驗證碼、瀑布 流、Ajax 腳本異步加載數據的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設置進(jìn)行采集。 3、云采集,關(guān)機也可以。配置好采集任務(wù)后可死機八爪魚(yú)采集器 分頁(yè),任務(wù)可在云端執行。龐大 云采集集群 24*7 不間斷運行,不用害怕 IP 被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可按需選擇。免費版具備所有功能,能夠滿(mǎn)足用戶(hù)的 基本采集需求。同時(shí)設置了一些增值服務(wù)(如私有云),滿(mǎn)足低端付費企業(yè)用戶(hù) 的須要。 查看全部
優(yōu)采云·云采集服務(wù)平臺 【優(yōu)采云采集教程】分頁(yè)列表詳盡信息采集方法好多網(wǎng)站有會(huì )這些模式, 多個(gè)列表頁(yè)面,點(diǎn)擊列表中的一行鏈接會(huì )打開(kāi)一個(gè)詳盡 信息頁(yè)面, 本文給你們演示怎么采集分頁(yè)列表詳情頁(yè)面里的信息。目的是使你們 了解如何創(chuàng )建循環(huán)翻頁(yè)并能正常采集網(wǎng)頁(yè)詳情的數據信息。本文教程里提到的示例網(wǎng)站地址為: 步驟 1 登陸優(yōu)采云 7.0 采集器→點(diǎn)擊新建任務(wù)→自定義采集, 進(jìn)入到任務(wù)配置頁(yè) 面: 然后輸入網(wǎng)址→保存網(wǎng)址, 系統會(huì )步入到流程設計頁(yè)面并手動(dòng)打開(kāi)上面輸入的網(wǎng) 址。優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 1 我們須要循環(huán)點(diǎn)擊右圖瀏覽器中影片名稱(chēng),再提取子頁(yè)面中的數據信息,所以我們 需要先做一個(gè)翻頁(yè)循環(huán)再做一個(gè)循環(huán)點(diǎn)擊影片名稱(chēng)提取數據的列表。 步驟 2 點(diǎn)擊右圖瀏覽器頁(yè)面中的“下一頁(yè)”按鈕,在彈出的對話(huà)框中選擇“循 環(huán)點(diǎn)擊下一頁(yè)”;優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 2下面對影片名稱(chēng)創(chuàng )建循環(huán)點(diǎn)擊 步驟 3 鼠標點(diǎn)擊右圖中第一個(gè)影片名稱(chēng)“教父:第二部”,在彈出的操作提示 中選擇“選中全部”選項, 然后選擇“循環(huán)點(diǎn)擊每位鏈接”選項優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 3優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 4接下來(lái)頁(yè)面就手動(dòng)跳轉到詳情頁(yè)面中去了,我們再做提取數據 步驟 4 點(diǎn)擊要提取的標題在彈出的提示框中選擇“采集該元素的文本”,然后 同樣的方法選擇點(diǎn)擊瀏覽器中的其他數組,再選擇“采集該元素的文本”優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 5步驟 5這樣提取完畢以后我們可以點(diǎn)一下流程按鍵,然后更改數組名稱(chēng)。
在下邊界面中更改數組名稱(chēng),修改完成以后,點(diǎn)擊“確定”保存優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 6步驟 6 點(diǎn)擊“保存并啟動(dòng)”,再再彈出的對話(huà)框中選擇“啟動(dòng)本地采集”。系 統會(huì )在本地開(kāi)啟一個(gè)采集任務(wù)并采集數據, 接下來(lái)選擇導入數據,這里以選擇導 出 excel2007 為例,然后點(diǎn)擊確定. 之后選擇文件儲存路徑,再點(diǎn)保存即可優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 7下邊是數據示例優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 8相關(guān)采集教程:黃頁(yè) 88 數據采集 趕集急聘信息采集 大眾點(diǎn)評評價(jià)采集優(yōu)采云——70 萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。 1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景八爪魚(yú)采集器 分頁(yè),會(huì )上網(wǎng)才能采集。完全可視化 流程,點(diǎn)擊滑鼠完成操作,2 分鐘即可快速入門(mén)。優(yōu)采云·云采集服務(wù)平臺 2、功能強悍,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁(yè)、識別驗證碼、瀑布 流、Ajax 腳本異步加載數據的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設置進(jìn)行采集。 3、云采集,關(guān)機也可以。配置好采集任務(wù)后可死機八爪魚(yú)采集器 分頁(yè),任務(wù)可在云端執行。龐大 云采集集群 24*7 不間斷運行,不用害怕 IP 被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可按需選擇。免費版具備所有功能,能夠滿(mǎn)足用戶(hù)的 基本采集需求。同時(shí)設置了一些增值服務(wù)(如私有云),滿(mǎn)足低端付費企業(yè)用戶(hù) 的須要。
火車(chē)頭文章采集規則分享? - 搜外問(wèn)答
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 500 次瀏覽 ? 2020-05-19 08:03
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
火車(chē)頭采集器采集文章操作教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 952 次瀏覽 ? 2020-04-27 11:03
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接火車(chē)頭采集教程,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試火車(chē)頭采集教程,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的采集工具。但請在版權范圍內采集。 查看全部
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接火車(chē)頭采集教程,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試火車(chē)頭采集教程,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的采集工具。但請在版權范圍內采集。
火車(chē)頭采集教程你把握多少
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 745 次瀏覽 ? 2020-04-24 11:04
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置火車(chē)頭采集教程,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是title標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整火車(chē)頭采集教程,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置火車(chē)頭采集教程,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是title標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。

注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整火車(chē)頭采集教程,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
【騰訊新聞】使用文章采集軟件快速提取網(wǎng)頁(yè)文章
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 489 次瀏覽 ? 2020-04-22 11:03
1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加文章自動(dòng)采集軟件,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè) 網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的市 域文章自動(dòng)采集軟件,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)然后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就 可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
第二步、內容采集規則 查看全部

1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加文章自動(dòng)采集軟件,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè) 網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的市 域文章自動(dòng)采集軟件,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)然后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就 可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
第二步、內容采集規則
火車(chē)頭采集:快速采集網(wǎng)頁(yè)文章教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 519 次瀏覽 ? 2020-04-18 11:00
1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多火車(chē)頭文章采集,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律火車(chē)頭文章采集,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化采集器,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè)網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的區域,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)以后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。 查看全部

1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多火車(chē)頭文章采集,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律火車(chē)頭文章采集,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化采集器,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè)網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的區域,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)以后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
SEO站長(cháng)怎么批量采集文章?火車(chē)頭采集器操作教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 529 次瀏覽 ? 2020-04-17 11:06
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列火車(chē)頭采集文章,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的火車(chē)頭采集文章,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列火車(chē)頭采集文章,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的火車(chē)頭采集文章,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
Dedecms采集含有分頁(yè)的普通文章的使用方式
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 648 次瀏覽 ? 2020-07-24 08:00
單擊“保存信息并步入下一步設置”后,便可步入“新增采集節點(diǎn):第二步設置內容數組獲取規則”頁(yè)面,如(圖1)所示,
系統將會(huì )手動(dòng)指定一個(gè)“預覽網(wǎng)址”,一般是文章列表頁(yè)的第一篇文章的網(wǎng)址。但是,由于第一篇文章中沒(méi)有涉及到分頁(yè)的部份,所以在這里自動(dòng)修改為第二篇文章的網(wǎng)址:“”,
上圖紅箭頭部份是寫(xiě)下邊來(lái)設定分頁(yè)部份的匹配規則。其具體操作步驟為:
打開(kāi)文章內容頁(yè)面,在網(wǎng)頁(yè)上單擊右鍵,在彈出的對話(huà)框中單擊“查看源文件“。在源代碼中,找到分頁(yè)代碼的開(kāi)始部份和結束部份,如(圖2)所示,
經(jīng)過(guò)觀(guān)察可知,分頁(yè)代碼坐落“
“和”
”之間。因此,在”內容分頁(yè)導航所在的區域匹配規則“中,應填寫(xiě)”
[內容]
“。對于分頁(yè)代碼的款式,一共有三種可供選擇,這里應選擇第一種” 全部列舉的分頁(yè)列表”。填寫(xiě)后,如(圖3)所示,
對于“固定采集項目”中的“內容摘要、關(guān)鍵字和縮略圖“三個(gè)部份,系統會(huì )用正則進(jìn)行手動(dòng)匹配,這里僅需配置過(guò)濾內容即可。下面主要介紹怎么獲取“文章標題、文章作者、文章來(lái)源、發(fā)布時(shí)間和文章內容”的采集規則,過(guò)濾規則僅簡(jiǎn)單涉及。
首先,打開(kāi)“預覽網(wǎng)址“的頁(yè)面并單擊右鍵,選擇”查看源代碼“,找到文章標題” OpenFlow網(wǎng)路是空談嗎?“織夢(mèng)采集規則中分頁(yè),如(圖4)所示,
圖18-在源代碼中的文章標題
這里的文章標題處在””之間,因此這兒應當填寫(xiě)”[內容]”作為文章標題的匹配規則。如果在文章標題中富含相關(guān)鏈接等,可使用過(guò)濾規則加以處理,這里無(wú)需設置。填寫(xiě)后,如(圖5)所示,
圖5-文章標題的采集規則
經(jīng)過(guò)查找北京班車(chē)租賃企業(yè)租車(chē)網(wǎng)站的源代碼和對比原文的標題部份,可發(fā)覺(jué)本文沒(méi)有涉及到作者,所以這兒不用填寫(xiě),空著(zhù)即可。
2.1.3 獲取文章來(lái)源的采集規則
在上圖19中,可發(fā)覺(jué)來(lái)源的內容介于“來(lái)源:“和“”之間,因此這兒應填寫(xiě)“來(lái)源:[內容]”作為文章來(lái)源的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖6所示,
圖6-文章來(lái)源的采集規則
再次回到圖17,可找到“時(shí)間:2011-05-13 11:47”,因此這兒應把“時(shí)間:[內容]”作為發(fā)布時(shí)間的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖7所示,
圖7-文章發(fā)布時(shí)間的采集規則
這個(gè)部份是編撰采集規則的重點(diǎn),也是難點(diǎn)。需要非常注意。
具體操作步驟:
?。╝)在在打開(kāi)的文章內容頁(yè)面的源代碼中,找到文章內容的開(kāi)始部份“計算機網(wǎng)路知識的學(xué)習”,如圖8所示,
圖8-文章內容的開(kāi)始部份
這里應把””作為匹配規則的開(kāi)始部份,注意到這段代碼中包含一段廣告代碼,需要采用過(guò)濾規則把其清除。經(jīng)觀(guān)察發(fā)覺(jué),這段JS廣告代碼是坐落“
”和“
”之間的。因此,應在“過(guò)濾規則”中填寫(xiě):“{dede:trim replace=’’}
(.*)
”{/dede:trim}。填寫(xiě)后,如(圖9)所示,
圖9-開(kāi)始部份的匹配規則及其過(guò)濾規則
?。╞)找到文章內容的結束部份,因為涉及到分頁(yè)部份織夢(mèng)采集規則中分頁(yè),所以應當選定分頁(yè)結束的位置,如圖10所示,
圖10-文章內容的結束部份
這里應選定“”作為文章內容的結束部份,由于在選定的內容中又包含了一段JS代碼,因此應再度使用過(guò)濾規則,把其清除。同時(shí),考慮到本頁(yè)沒(méi)有涉及到分頁(yè),所以在分頁(yè)代碼中的之間是空的。但是,如果頁(yè)面包含分頁(yè)的話(huà),也是應當使用過(guò)濾規則去掉的。此外,如果所設定的文章內容中,含有圖片、鏈接等不希望被采集到的內容,也應當使用過(guò)濾規則一并清除掉。填寫(xiě)完成后,如(圖11)所示,
圖11-文章內容的匹配規則
到這兒,“新增采集節點(diǎn):第二步設置內容數組獲取規則”,就設置完成了。來(lái)看一下整個(gè)配置頁(yè)面,如(圖12)所示,
圖12-設置后的新增采集節點(diǎn):第二步設置內容數組獲取規則
檢查無(wú)誤后,單擊“保存配置并預覽”。如果之前設置正確,單擊后,將會(huì )步入“新增采集節點(diǎn):測試內容數組設置”頁(yè)面并見(jiàn)到相應的文章內容。如(圖13)和(圖14)所示,
圖13-新增采集節點(diǎn):測試內容數組設置
圖14-新增采集節點(diǎn):測試內容數組設置
其中,圖中畫(huà)圈的地方代表的是分頁(yè)符號。
確定正確無(wú)誤后,如果單擊“僅保存”,系統將會(huì )提示“成功保存配置“并返回”采集節點(diǎn)管理“界面;如果單擊“保存并開(kāi)始采集“,將會(huì )步入”采集指定節點(diǎn)“界面。否則,請單擊“返回上一步進(jìn)行更改”。 查看全部

單擊“保存信息并步入下一步設置”后,便可步入“新增采集節點(diǎn):第二步設置內容數組獲取規則”頁(yè)面,如(圖1)所示,

系統將會(huì )手動(dòng)指定一個(gè)“預覽網(wǎng)址”,一般是文章列表頁(yè)的第一篇文章的網(wǎng)址。但是,由于第一篇文章中沒(méi)有涉及到分頁(yè)的部份,所以在這里自動(dòng)修改為第二篇文章的網(wǎng)址:“”,
上圖紅箭頭部份是寫(xiě)下邊來(lái)設定分頁(yè)部份的匹配規則。其具體操作步驟為:
打開(kāi)文章內容頁(yè)面,在網(wǎng)頁(yè)上單擊右鍵,在彈出的對話(huà)框中單擊“查看源文件“。在源代碼中,找到分頁(yè)代碼的開(kāi)始部份和結束部份,如(圖2)所示,

經(jīng)過(guò)觀(guān)察可知,分頁(yè)代碼坐落“
“和”
”之間。因此,在”內容分頁(yè)導航所在的區域匹配規則“中,應填寫(xiě)”
[內容]
“。對于分頁(yè)代碼的款式,一共有三種可供選擇,這里應選擇第一種” 全部列舉的分頁(yè)列表”。填寫(xiě)后,如(圖3)所示,

對于“固定采集項目”中的“內容摘要、關(guān)鍵字和縮略圖“三個(gè)部份,系統會(huì )用正則進(jìn)行手動(dòng)匹配,這里僅需配置過(guò)濾內容即可。下面主要介紹怎么獲取“文章標題、文章作者、文章來(lái)源、發(fā)布時(shí)間和文章內容”的采集規則,過(guò)濾規則僅簡(jiǎn)單涉及。
首先,打開(kāi)“預覽網(wǎng)址“的頁(yè)面并單擊右鍵,選擇”查看源代碼“,找到文章標題” OpenFlow網(wǎng)路是空談嗎?“織夢(mèng)采集規則中分頁(yè),如(圖4)所示,

圖18-在源代碼中的文章標題
這里的文章標題處在””之間,因此這兒應當填寫(xiě)”[內容]”作為文章標題的匹配規則。如果在文章標題中富含相關(guān)鏈接等,可使用過(guò)濾規則加以處理,這里無(wú)需設置。填寫(xiě)后,如(圖5)所示,
圖5-文章標題的采集規則
經(jīng)過(guò)查找北京班車(chē)租賃企業(yè)租車(chē)網(wǎng)站的源代碼和對比原文的標題部份,可發(fā)覺(jué)本文沒(méi)有涉及到作者,所以這兒不用填寫(xiě),空著(zhù)即可。
2.1.3 獲取文章來(lái)源的采集規則
在上圖19中,可發(fā)覺(jué)來(lái)源的內容介于“來(lái)源:“和“”之間,因此這兒應填寫(xiě)“來(lái)源:[內容]”作為文章來(lái)源的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖6所示,
圖6-文章來(lái)源的采集規則
再次回到圖17,可找到“時(shí)間:2011-05-13 11:47”,因此這兒應把“時(shí)間:[內容]”作為發(fā)布時(shí)間的采集規則。同樣,這里也不需要使用過(guò)濾規則。填寫(xiě)后,如圖7所示,
圖7-文章發(fā)布時(shí)間的采集規則
這個(gè)部份是編撰采集規則的重點(diǎn),也是難點(diǎn)。需要非常注意。
具體操作步驟:
?。╝)在在打開(kāi)的文章內容頁(yè)面的源代碼中,找到文章內容的開(kāi)始部份“計算機網(wǎng)路知識的學(xué)習”,如圖8所示,
圖8-文章內容的開(kāi)始部份
這里應把””作為匹配規則的開(kāi)始部份,注意到這段代碼中包含一段廣告代碼,需要采用過(guò)濾規則把其清除。經(jīng)觀(guān)察發(fā)覺(jué),這段JS廣告代碼是坐落“
”和“
”之間的。因此,應在“過(guò)濾規則”中填寫(xiě):“{dede:trim replace=’’}
(.*)
”{/dede:trim}。填寫(xiě)后,如(圖9)所示,
圖9-開(kāi)始部份的匹配規則及其過(guò)濾規則
?。╞)找到文章內容的結束部份,因為涉及到分頁(yè)部份織夢(mèng)采集規則中分頁(yè),所以應當選定分頁(yè)結束的位置,如圖10所示,
圖10-文章內容的結束部份
這里應選定“”作為文章內容的結束部份,由于在選定的內容中又包含了一段JS代碼,因此應再度使用過(guò)濾規則,把其清除。同時(shí),考慮到本頁(yè)沒(méi)有涉及到分頁(yè),所以在分頁(yè)代碼中的之間是空的。但是,如果頁(yè)面包含分頁(yè)的話(huà),也是應當使用過(guò)濾規則去掉的。此外,如果所設定的文章內容中,含有圖片、鏈接等不希望被采集到的內容,也應當使用過(guò)濾規則一并清除掉。填寫(xiě)完成后,如(圖11)所示,
圖11-文章內容的匹配規則
到這兒,“新增采集節點(diǎn):第二步設置內容數組獲取規則”,就設置完成了。來(lái)看一下整個(gè)配置頁(yè)面,如(圖12)所示,
圖12-設置后的新增采集節點(diǎn):第二步設置內容數組獲取規則
檢查無(wú)誤后,單擊“保存配置并預覽”。如果之前設置正確,單擊后,將會(huì )步入“新增采集節點(diǎn):測試內容數組設置”頁(yè)面并見(jiàn)到相應的文章內容。如(圖13)和(圖14)所示,
圖13-新增采集節點(diǎn):測試內容數組設置
圖14-新增采集節點(diǎn):測試內容數組設置
其中,圖中畫(huà)圈的地方代表的是分頁(yè)符號。
確定正確無(wú)誤后,如果單擊“僅保存”,系統將會(huì )提示“成功保存配置“并返回”采集節點(diǎn)管理“界面;如果單擊“保存并開(kāi)始采集“,將會(huì )步入”采集指定節點(diǎn)“界面。否則,請單擊“返回上一步進(jìn)行更改”。
解析織夢(mèng)v5.3的分頁(yè)采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 489 次瀏覽 ? 2020-07-23 08:01
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳織夢(mèng)采集規則中分頁(yè),發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有睡著(zhù),我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人怎樣看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想睡著(zhù),突然我一下睡意全無(wú),我很激動(dòng)了,我聽(tīng)到了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html 是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。
文章列表匹配規則。注意要多看幾頁(yè)找出相同的,列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
建議寫(xiě)上篩選,一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl
保存步入下一步設置。以看見(jiàn)下邊的圖為準。
3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè)織夢(mèng)采集規則中分頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。 查看全部
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳織夢(mèng)采集規則中分頁(yè),發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有睡著(zhù),我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人怎樣看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想睡著(zhù),突然我一下睡意全無(wú),我很激動(dòng)了,我聽(tīng)到了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html 是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。

文章列表匹配規則。注意要多看幾頁(yè)找出相同的,列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
建議寫(xiě)上篩選,一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl

保存步入下一步設置。以看見(jiàn)下邊的圖為準。

3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè)織夢(mèng)采集規則中分頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
織夢(mèng)CMS怎么做分頁(yè)的采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 519 次瀏覽 ? 2020-07-23 08:01
最近想做個(gè)技術(shù)型的網(wǎng)站,不知道用哪些cms來(lái)做,在網(wǎng)上搜索了一大堆,看到織夢(mèng)的采集功能還不錯,我也在想啊,做一個(gè)站假如所有的文章都須要站長(cháng)一個(gè)一個(gè)的加,那不是要嚇死啊,所以就選著(zhù)了織夢(mèng)。
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳,發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有午睡,我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人如何看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想午睡,突然我一下睡意全無(wú),我很激動(dòng)了,我看見(jiàn)了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。
文章列表匹配規則。注意要多看幾頁(yè)找出相同的織夢(mèng)采集規則中分頁(yè),列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
以下為引用的內容:
區域結束的html :
建議寫(xiě)上篩選織夢(mèng)采集規則中分頁(yè),一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl
保存步入下一步設置。以看見(jiàn)下邊的圖為準。
3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
以下為引用的內容:
[內容]
[內容]為我們須要的內容,這個(gè)我想你們都曉得了同理做好文章標題:(標題有兩個(gè)地方有,當然選簡(jiǎn)單的個(gè))
[內容]
文章作者:
[內容]
查看全部
最近想做個(gè)技術(shù)型的網(wǎng)站,不知道用哪些cms來(lái)做,在網(wǎng)上搜索了一大堆,看到織夢(mèng)的采集功能還不錯,我也在想啊,做一個(gè)站假如所有的文章都須要站長(cháng)一個(gè)一個(gè)的加,那不是要嚇死啊,所以就選著(zhù)了織夢(mèng)。
還好自己有點(diǎn)基礎,弄了三天就基本搞清織夢(mèng)的操作流程了,申請域名、空間,上傳程序。忙得是不亦樂(lè )乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)看看,哇,突然嚇了一跳,發(fā)現一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源舊址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有午睡,我差點(diǎn)都沒(méi)有信心了,想著(zhù)就是采集的文章只有一半,別人如何看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想午睡,突然我一下睡意全無(wú),我很激動(dòng)了,我看見(jiàn)了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始步入題外話(huà)了。直接看圖。如果看不懂請打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著(zhù)左側的采集,然后打開(kāi)采集節點(diǎn)管理,添加新節點(diǎn),選著(zhù)普通文章。1、文章列表頁(yè)采集節點(diǎn)名稱(chēng):自己按照你的網(wǎng)站目錄和采集內容結合上去。網(wǎng)址:(*).html是有規則的網(wǎng)址列表。如果有不規則追加就好了。如果只有一頁(yè)或幾頁(yè)沒(méi)有規則就直接寫(xiě)在下邊手工指定網(wǎng)址就好了。

文章列表匹配規則。注意要多看幾頁(yè)找出相同的織夢(mèng)采集規則中分頁(yè),列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區域開(kāi)始的html :
以下為引用的內容:
區域結束的html :
建議寫(xiě)上篩選織夢(mèng)采集規則中分頁(yè),一般寫(xiě)必須包含,這樣確切點(diǎn):/flashsl

保存步入下一步設置。以看見(jiàn)下邊的圖為準。

3、分頁(yè)設置預覽網(wǎng)址可以修改。選擇有分頁(yè)的頁(yè)面來(lái)預覽,當然最很多預覽幾頁(yè),主要是和上面一樣代碼可能有小變化,選著(zhù)相同的html代碼分頁(yè)匹配規則這兒只要做過(guò)一次就不難了。
看我的代碼 ,請和源網(wǎng)址,查看源文件對比。
以下為引用的內容:
[內容]
[內容]為我們須要的內容,這個(gè)我想你們都曉得了同理做好文章標題:(標題有兩個(gè)地方有,當然選簡(jiǎn)單的個(gè))
[內容]
文章作者:

[內容]
帝國cms網(wǎng)站采集內容分頁(yè)教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 498 次瀏覽 ? 2020-07-22 08:00
一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:
可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:
可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:
這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:
?。?)第2頁(yè)代碼:
從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):
4、取得 分頁(yè)鏈接正則([!--pageallzz--]):
5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:
注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。 查看全部

一、全部列出式
全部列表式只需看第一頁(yè)的頁(yè)面HTML代碼,這一頁(yè)的所有分頁(yè)鏈接都列下來(lái)了。
1、我們以“中華網(wǎng)內容分頁(yè)()”為例:

可以看見(jiàn)這條新聞總共有3條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2條和第3條分頁(yè),所有的分頁(yè)都列下來(lái)了。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

二、上下頁(yè)導航式
上下頁(yè)導航式是分頁(yè)采集的難點(diǎn),他須要所有頁(yè)面都符合分頁(yè)正則才行,在不熟悉的情況下,我們可以用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析之后確定分頁(yè)正則。
1、我們以下網(wǎng)站的內容分頁(yè)為例:

可以看見(jiàn)這條新聞總共有20條分頁(yè)。
2、查看源代碼:

這一頁(yè)里不僅早已采集到的第1條分頁(yè)外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁(yè),但是第9到第19條分頁(yè)并沒(méi)有列下來(lái),這時(shí)候我們拿用第1頁(yè)和第2頁(yè)的代碼來(lái)進(jìn)行對比剖析,來(lái)確定分頁(yè)正則:
?。?)第1頁(yè)代碼:

?。?)第2頁(yè)代碼:

從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”,“分頁(yè)鏈接”格式,“分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”,“分頁(yè)鏈接正則”。
3、取得 分頁(yè)區域正則([!--smallpageallzz--]):

4、取得 分頁(yè)鏈接正則([!--pageallzz--]):

5、為了便捷教程顯示,newstext我采集了標題而不是采集內容,預覽結果:

注意事項:
第一、在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。在第一頁(yè)的頁(yè)面HTML代碼里,內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè),這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。
第三、用上下頁(yè)導航式時(shí)帝國cms采集分頁(yè)教程,老是采到第1頁(yè)帝國cms采集分頁(yè)教程,其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò),這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。
第四、用上下頁(yè)導航式時(shí),可以采集到前幾頁(yè)了,但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤,截取范圍過(guò)大,導致重復截取前幾個(gè)分頁(yè)鏈接。
帝國cms采集圖文教程(中)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 423 次瀏覽 ? 2020-07-21 08:03
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝! 查看全部
1、 我們以“愛(ài)麗網(wǎng)內容分頁(yè)()”為例: 可以看見(jiàn)這條新聞總共有 20 條分頁(yè)。 2、 查看源代碼: 這一頁(yè)里不僅早已采集到的第 1 條分頁(yè)外, 還包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 條分頁(yè), 但是第 9 到第 19 條分頁(yè)并沒(méi)有列下來(lái), 這時(shí)候我們拿用第 1 頁(yè)和第 2頁(yè)的代碼來(lái)進(jìn)行對比剖析, 來(lái)確定分頁(yè)正則: (1) 第 1 頁(yè)代碼:(2) 第 2 頁(yè)代碼: 從這兩幅圖片可以見(jiàn)到她們有著(zhù)相同的“分頁(yè)區域開(kāi)始代碼”, “分頁(yè)鏈接”格式, “分頁(yè)區域結束代碼”,那么就可以確定“分頁(yè)區域正則”, “分頁(yè)鏈接正則”。 3、 取得 分頁(yè)區域正則([!--smallpageallzz--]): 4、 取得 分頁(yè)鏈接正則([!--pageallzz--]):5、 為了便捷教程顯示, newstext 我采集了標題而不是采集內容, 預覽結果: 注意事項: 第一、 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接全部列下來(lái)的情況下我們使用“全部列出式”。 在第一頁(yè)的頁(yè)面 HTML 代碼里, 內容分頁(yè)鏈接沒(méi)有全部列下來(lái)的情況下我們使用“上下頁(yè)導航式”。
第二、 用全部列舉式時(shí),采集規則正確并且莫名其妙的出現重復的分頁(yè)帝國cms采集分頁(yè)教程, 這時(shí)可以借助替換法把它過(guò)濾掉(下一講我們再說(shuō))。 第三、 用上下頁(yè)導航式時(shí), 老是采到第 1 頁(yè), 其他頁(yè)連個(gè)影子都沒(méi)有見(jiàn)過(guò), 這是因為分頁(yè)區域正則([!--smallpagezz--])截取錯誤。 第四、 用上下頁(yè)導航式時(shí), 可以采集到前幾頁(yè)了 , 但是接下來(lái)這前幾頁(yè)全部重復循環(huán)究竟,這也是由于分頁(yè)區域正則([!--smallpagezz--])截取錯誤, 截取范圍過(guò)大, 導致重復截取前幾個(gè)分頁(yè)鏈接。 好的, 這一講就到這兒, 下一講我們主要介紹帝國 cms 采集過(guò)濾和替換。 本文由 國外網(wǎng)站大全 原創(chuàng ), 轉載請標明出處, 謝謝!
SEO站長(cháng)怎么批量采集文章??jì)?yōu)采云采集器操作教程
站長(cháng)必讀 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 813 次瀏覽 ? 2020-07-20 08:04
已經(jīng)很久沒(méi)有使用優(yōu)采云采集器了。想起以前做站群SEO那段時(shí)間,經(jīng)常會(huì )登錄優(yōu)采云采集器去采集各大相關(guān)網(wǎng)站的資訊內容。而且那種時(shí)侯采集之風(fēng)興起,到處是各類(lèi)采集站,尤其是小說(shuō)站、文章站等,動(dòng)不動(dòng)就是采集數十萬(wàn)的文章火車(chē)頭采集文章,網(wǎng)站做到權重4那是輕而易舉。雖然如今大部分網(wǎng)站很少采集了,但采集還是無(wú)處不在,因為一些所謂的原創(chuàng )站點(diǎn),文章內容很有可能也是采集之后再進(jìn)行加工制做而成的。所以把握一種采集技巧對SEO站長(cháng)而言還是挺有幫助的。下面小編分享的便是優(yōu)采云采集器使用教程,供菜鳥(niǎo)SEO參考。
優(yōu)采云采集器網(wǎng)址規則設置
第一步、打開(kāi)優(yōu)采云采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的火車(chē)頭采集文章,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
優(yōu)采云采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
優(yōu)采云采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,優(yōu)采云采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):優(yōu)采云采集器功能非常強悍,除了采集文章還可以采集視頻等,優(yōu)采云采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率。優(yōu)采云采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

已經(jīng)很久沒(méi)有使用優(yōu)采云采集器了。想起以前做站群SEO那段時(shí)間,經(jīng)常會(huì )登錄優(yōu)采云采集器去采集各大相關(guān)網(wǎng)站的資訊內容。而且那種時(shí)侯采集之風(fēng)興起,到處是各類(lèi)采集站,尤其是小說(shuō)站、文章站等,動(dòng)不動(dòng)就是采集數十萬(wàn)的文章火車(chē)頭采集文章,網(wǎng)站做到權重4那是輕而易舉。雖然如今大部分網(wǎng)站很少采集了,但采集還是無(wú)處不在,因為一些所謂的原創(chuàng )站點(diǎn),文章內容很有可能也是采集之后再進(jìn)行加工制做而成的。所以把握一種采集技巧對SEO站長(cháng)而言還是挺有幫助的。下面小編分享的便是優(yōu)采云采集器使用教程,供菜鳥(niǎo)SEO參考。

優(yōu)采云采集器網(wǎng)址規則設置
第一步、打開(kāi)優(yōu)采云采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的火車(chē)頭采集文章,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
優(yōu)采云采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

優(yōu)采云采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,優(yōu)采云采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):優(yōu)采云采集器功能非常強悍,除了采集文章還可以采集視頻等,優(yōu)采云采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率。優(yōu)采云采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
優(yōu)采云采集器如何采集內容頁(yè)的分頁(yè)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 506 次瀏覽 ? 2020-06-29 08:02
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。
相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞的時(shí)侯。經(jīng)常聽(tīng)到文章內頁(yè)上面還有分頁(yè),還要一個(gè)一個(gè)的去點(diǎn)擊,這樣就能把全篇文章看完。
首先,這種做法我個(gè)人而言是厭惡的。接著(zhù),他們這樣做的目的,只要值為了降低pv,提高一些百度聯(lián)盟或則哪些推廣的廣告而已,為了廣告費。都說(shuō)做網(wǎng)站,主要還是為了錢(qián)嘛,這點(diǎn)無(wú)可厚非。
但是,他們這樣的做,我們在采集數據的時(shí)侯,就碰到了如何去采集內容頁(yè)分頁(yè)的問(wèn)題了。
好的,那么接下來(lái)火車(chē)采集器 分頁(yè),我就來(lái)告訴你們,怎么用優(yōu)采云采集器去采集文章內容頁(yè)上面的分頁(yè)。
前面的采集網(wǎng)址,就一筆帶過(guò)了。不明白的小伙伴,可以瞧瞧后面的優(yōu)采云采集前面采集列表頁(yè)的教程。
第一步:我們在編撰抓取內容的規則時(shí),記得勾選右上方的【該標簽在分頁(yè)中匹配】。
如圖:
第二步:我們在采集內容頁(yè)把分頁(yè)獲取規則填上,這里是要抓取你的分頁(yè)的。也可以在標簽循環(huán)處理的選項下邊,填上分頁(yè)內容鏈接代碼。
如圖:
第三步:測試,我們編撰的采集分頁(yè)的規則正不正確。
如圖:
通過(guò)前面的幾個(gè)步驟火車(chē)采集器 分頁(yè),是不是太輕松的就把內容頁(yè)的分頁(yè)內容,采集下來(lái)了。感覺(jué)不錯就試試吧。
×作者:高蒙
地址: 查看全部

記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞
記得在之前的教程早已教會(huì )了你們怎樣采集列表的分頁(yè),那么下邊我們繼續將,我們領(lǐng)到列表的url如何去采集文章內容頁(yè)。
相信你們在平常瀏覽網(wǎng)頁(yè)的時(shí)侯,特別是在打開(kāi)新聞網(wǎng)站,看新聞的時(shí)侯。經(jīng)常聽(tīng)到文章內頁(yè)上面還有分頁(yè),還要一個(gè)一個(gè)的去點(diǎn)擊,這樣就能把全篇文章看完。
首先,這種做法我個(gè)人而言是厭惡的。接著(zhù),他們這樣做的目的,只要值為了降低pv,提高一些百度聯(lián)盟或則哪些推廣的廣告而已,為了廣告費。都說(shuō)做網(wǎng)站,主要還是為了錢(qián)嘛,這點(diǎn)無(wú)可厚非。
但是,他們這樣的做,我們在采集數據的時(shí)侯,就碰到了如何去采集內容頁(yè)分頁(yè)的問(wèn)題了。
好的,那么接下來(lái)火車(chē)采集器 分頁(yè),我就來(lái)告訴你們,怎么用優(yōu)采云采集器去采集文章內容頁(yè)上面的分頁(yè)。
前面的采集網(wǎng)址,就一筆帶過(guò)了。不明白的小伙伴,可以瞧瞧后面的優(yōu)采云采集前面采集列表頁(yè)的教程。
第一步:我們在編撰抓取內容的規則時(shí),記得勾選右上方的【該標簽在分頁(yè)中匹配】。
如圖:

第二步:我們在采集內容頁(yè)把分頁(yè)獲取規則填上,這里是要抓取你的分頁(yè)的。也可以在標簽循環(huán)處理的選項下邊,填上分頁(yè)內容鏈接代碼。
如圖:


第三步:測試,我們編撰的采集分頁(yè)的規則正不正確。
如圖:

通過(guò)前面的幾個(gè)步驟火車(chē)采集器 分頁(yè),是不是太輕松的就把內容頁(yè)的分頁(yè)內容,采集下來(lái)了。感覺(jué)不錯就試試吧。
×作者:高蒙
地址:
文章采集器抓取列表分頁(yè)示例
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 471 次瀏覽 ? 2020-06-25 08:00
對于設置列表分頁(yè),通過(guò)右圖的起始網(wǎng)址——批量網(wǎng)址來(lái)設置是最常見(jiàn)也是最常用的。
現在我們用另外一種獲取分頁(yè)的辦法,即通過(guò)列表上下頁(yè)無(wú)限分頁(yè)采集獲取功能來(lái)自動(dòng)獲取分頁(yè)。使用這個(gè)功能,起始頁(yè)就只須要把首頁(yè)地址添加進(jìn)去就可以了火車(chē)采集器 分頁(yè),如下圖:
然后步入[高級模式]——分頁(yè)設置,設置區域開(kāi)始字符串、區域結束字符串、地址式樣、分頁(yè)地址等數組。
我們以為例,先查看下第一頁(yè)分頁(yè)源代碼的情況,如下圖:
繼續查看下第二頁(yè)分頁(yè)源代碼的情況如下:
分析得出:當前頁(yè)都是在<div>后的<strong></strong>這個(gè)代碼前面緊接著(zhù)一個(gè)<a href="">就是下一頁(yè)地址。 也就是說(shuō)我們是要通過(guò)當前頁(yè)獲取下一頁(yè),這樣一級一級的向上獲取,直至把所有分頁(yè)獲取到。 所以,區域開(kāi)始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>
地址式樣按照截取區域的格式來(lái)寫(xiě):<a href="[參數]">,效果如下:
另外上圖 “4” 是表示獲取4頁(yè)的意思,默認為“0”表示不限,將采集所有分頁(yè)。這樣就可以用列車(chē)采集器獲取到我們須要的上下頁(yè)列表分頁(yè)了火車(chē)采集器 分頁(yè),用列車(chē)采集器抓取內容頁(yè)上下頁(yè)模式也是可以參考這些操作的,更多使用教程可以訪(fǎng)問(wèn)官網(wǎng)進(jìn)行學(xué)習。 查看全部
在使用文章采集器采集文章的過(guò)程中,我們常常須要對分頁(yè)進(jìn)行抓取,比如列表分頁(yè)或內容分頁(yè),這里我們就以列表分頁(yè)為例,為你們講解一下列車(chē)采集器是怎么操作分頁(yè)的。
對于設置列表分頁(yè),通過(guò)右圖的起始網(wǎng)址——批量網(wǎng)址來(lái)設置是最常見(jiàn)也是最常用的。

現在我們用另外一種獲取分頁(yè)的辦法,即通過(guò)列表上下頁(yè)無(wú)限分頁(yè)采集獲取功能來(lái)自動(dòng)獲取分頁(yè)。使用這個(gè)功能,起始頁(yè)就只須要把首頁(yè)地址添加進(jìn)去就可以了火車(chē)采集器 分頁(yè),如下圖:

然后步入[高級模式]——分頁(yè)設置,設置區域開(kāi)始字符串、區域結束字符串、地址式樣、分頁(yè)地址等數組。

我們以為例,先查看下第一頁(yè)分頁(yè)源代碼的情況,如下圖:

繼續查看下第二頁(yè)分頁(yè)源代碼的情況如下:

分析得出:當前頁(yè)都是在<div>后的<strong></strong>這個(gè)代碼前面緊接著(zhù)一個(gè)<a href="">就是下一頁(yè)地址。 也就是說(shuō)我們是要通過(guò)當前頁(yè)獲取下一頁(yè),這樣一級一級的向上獲取,直至把所有分頁(yè)獲取到。 所以,區域開(kāi)始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>

地址式樣按照截取區域的格式來(lái)寫(xiě):<a href="[參數]">,效果如下:

另外上圖 “4” 是表示獲取4頁(yè)的意思,默認為“0”表示不限,將采集所有分頁(yè)。這樣就可以用列車(chē)采集器獲取到我們須要的上下頁(yè)列表分頁(yè)了火車(chē)采集器 分頁(yè),用列車(chē)采集器抓取內容頁(yè)上下頁(yè)模式也是可以參考這些操作的,更多使用教程可以訪(fǎng)問(wèn)官網(wǎng)進(jìn)行學(xué)習。
【優(yōu)采云v7采集教程】分頁(yè)列表詳盡信息采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 482 次瀏覽 ? 2020-06-24 08:00
在下邊界面中更改數組名稱(chēng),修改完成以后,點(diǎn)擊“確定”保存優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 6步驟 6 點(diǎn)擊“保存并啟動(dòng)”,再再彈出的對話(huà)框中選擇“啟動(dòng)本地采集”。系 統會(huì )在本地開(kāi)啟一個(gè)采集任務(wù)并采集數據, 接下來(lái)選擇導入數據,這里以選擇導 出 excel2007 為例,然后點(diǎn)擊確定. 之后選擇文件儲存路徑,再點(diǎn)保存即可優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 7下邊是數據示例優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 8相關(guān)采集教程:黃頁(yè) 88 數據采集 趕集急聘信息采集 大眾點(diǎn)評評價(jià)采集優(yōu)采云——70 萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。 1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景八爪魚(yú)采集器 分頁(yè),會(huì )上網(wǎng)才能采集。完全可視化 流程,點(diǎn)擊滑鼠完成操作,2 分鐘即可快速入門(mén)。優(yōu)采云·云采集服務(wù)平臺 2、功能強悍,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁(yè)、識別驗證碼、瀑布 流、Ajax 腳本異步加載數據的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設置進(jìn)行采集。 3、云采集,關(guān)機也可以。配置好采集任務(wù)后可死機八爪魚(yú)采集器 分頁(yè),任務(wù)可在云端執行。龐大 云采集集群 24*7 不間斷運行,不用害怕 IP 被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可按需選擇。免費版具備所有功能,能夠滿(mǎn)足用戶(hù)的 基本采集需求。同時(shí)設置了一些增值服務(wù)(如私有云),滿(mǎn)足低端付費企業(yè)用戶(hù) 的須要。 查看全部
優(yōu)采云·云采集服務(wù)平臺 【優(yōu)采云采集教程】分頁(yè)列表詳盡信息采集方法好多網(wǎng)站有會(huì )這些模式, 多個(gè)列表頁(yè)面,點(diǎn)擊列表中的一行鏈接會(huì )打開(kāi)一個(gè)詳盡 信息頁(yè)面, 本文給你們演示怎么采集分頁(yè)列表詳情頁(yè)面里的信息。目的是使你們 了解如何創(chuàng )建循環(huán)翻頁(yè)并能正常采集網(wǎng)頁(yè)詳情的數據信息。本文教程里提到的示例網(wǎng)站地址為: 步驟 1 登陸優(yōu)采云 7.0 采集器→點(diǎn)擊新建任務(wù)→自定義采集, 進(jìn)入到任務(wù)配置頁(yè) 面: 然后輸入網(wǎng)址→保存網(wǎng)址, 系統會(huì )步入到流程設計頁(yè)面并手動(dòng)打開(kāi)上面輸入的網(wǎng) 址。優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 1 我們須要循環(huán)點(diǎn)擊右圖瀏覽器中影片名稱(chēng),再提取子頁(yè)面中的數據信息,所以我們 需要先做一個(gè)翻頁(yè)循環(huán)再做一個(gè)循環(huán)點(diǎn)擊影片名稱(chēng)提取數據的列表。 步驟 2 點(diǎn)擊右圖瀏覽器頁(yè)面中的“下一頁(yè)”按鈕,在彈出的對話(huà)框中選擇“循 環(huán)點(diǎn)擊下一頁(yè)”;優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 2下面對影片名稱(chēng)創(chuàng )建循環(huán)點(diǎn)擊 步驟 3 鼠標點(diǎn)擊右圖中第一個(gè)影片名稱(chēng)“教父:第二部”,在彈出的操作提示 中選擇“選中全部”選項, 然后選擇“循環(huán)點(diǎn)擊每位鏈接”選項優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 3優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 4接下來(lái)頁(yè)面就手動(dòng)跳轉到詳情頁(yè)面中去了,我們再做提取數據 步驟 4 點(diǎn)擊要提取的標題在彈出的提示框中選擇“采集該元素的文本”,然后 同樣的方法選擇點(diǎn)擊瀏覽器中的其他數組,再選擇“采集該元素的文本”優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 5步驟 5這樣提取完畢以后我們可以點(diǎn)一下流程按鍵,然后更改數組名稱(chēng)。
在下邊界面中更改數組名稱(chēng),修改完成以后,點(diǎn)擊“確定”保存優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 6步驟 6 點(diǎn)擊“保存并啟動(dòng)”,再再彈出的對話(huà)框中選擇“啟動(dòng)本地采集”。系 統會(huì )在本地開(kāi)啟一個(gè)采集任務(wù)并采集數據, 接下來(lái)選擇導入數據,這里以選擇導 出 excel2007 為例,然后點(diǎn)擊確定. 之后選擇文件儲存路徑,再點(diǎn)保存即可優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 7下邊是數據示例優(yōu)采云·云采集服務(wù)平臺 分頁(yè)列表詳盡信息采集-圖 8相關(guān)采集教程:黃頁(yè) 88 數據采集 趕集急聘信息采集 大眾點(diǎn)評評價(jià)采集優(yōu)采云——70 萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。 1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景八爪魚(yú)采集器 分頁(yè),會(huì )上網(wǎng)才能采集。完全可視化 流程,點(diǎn)擊滑鼠完成操作,2 分鐘即可快速入門(mén)。優(yōu)采云·云采集服務(wù)平臺 2、功能強悍,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁(yè)、識別驗證碼、瀑布 流、Ajax 腳本異步加載數據的網(wǎng)頁(yè),均可經(jīng)過(guò)簡(jiǎn)單設置進(jìn)行采集。 3、云采集,關(guān)機也可以。配置好采集任務(wù)后可死機八爪魚(yú)采集器 分頁(yè),任務(wù)可在云端執行。龐大 云采集集群 24*7 不間斷運行,不用害怕 IP 被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可按需選擇。免費版具備所有功能,能夠滿(mǎn)足用戶(hù)的 基本采集需求。同時(shí)設置了一些增值服務(wù)(如私有云),滿(mǎn)足低端付費企業(yè)用戶(hù) 的須要。
火車(chē)頭文章采集規則分享? - 搜外問(wèn)答
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 500 次瀏覽 ? 2020-05-19 08:03
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
火車(chē)頭采集器采集文章操作教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 952 次瀏覽 ? 2020-04-27 11:03
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接火車(chē)頭采集教程,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試火車(chē)頭采集教程,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的采集工具。但請在版權范圍內采集。 查看全部
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接火車(chē)頭采集教程,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試火車(chē)頭采集教程,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的采集工具。但請在版權范圍內采集。
火車(chē)頭采集教程你把握多少
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 745 次瀏覽 ? 2020-04-24 11:04
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置火車(chē)頭采集教程,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是title標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整火車(chē)頭采集教程,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置火車(chē)頭采集教程,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是title標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。

注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整火車(chē)頭采集教程,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
【騰訊新聞】使用文章采集軟件快速提取網(wǎng)頁(yè)文章
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 489 次瀏覽 ? 2020-04-22 11:03
1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加文章自動(dòng)采集軟件,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè) 網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的市 域文章自動(dòng)采集軟件,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)然后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就 可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
第二步、內容采集規則 查看全部

1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加文章自動(dòng)采集軟件,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè) 網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的市 域文章自動(dòng)采集軟件,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)然后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就 可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
第二步、內容采集規則
火車(chē)頭采集:快速采集網(wǎng)頁(yè)文章教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 519 次瀏覽 ? 2020-04-18 11:00
1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多火車(chē)頭文章采集,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律火車(chē)頭文章采集,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化采集器,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè)網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的區域,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)以后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。 查看全部

1、添加起始網(wǎng)址:按照給出的網(wǎng)址打開(kāi)騰訊新聞,發(fā)現新聞頁(yè)面是以列表分頁(yè)的方式詮釋的,那么首先就要把列表頁(yè)的地址作為起始網(wǎng)址先添加到列車(chē)采集器中。
這里我們以添加6頁(yè)為例,我們可以點(diǎn)開(kāi)這6個(gè)分頁(yè)的網(wǎng)址一條條的添加到采集器中。但是假如我們要添加的網(wǎng)址好多火車(chē)頭文章采集,幾百或上千條,那么一條條的進(jìn)行添加就過(guò)分冗長(cháng),所以我們可以試著(zhù)找出網(wǎng)址之間的變化規律火車(chē)頭文章采集,進(jìn)行批量添加。
我們分別打開(kāi)第一頁(yè)、第二頁(yè)……觀(guān)察其網(wǎng)址變化采集器,可以發(fā)覺(jué)不僅第一頁(yè)之外,后面的分頁(yè)網(wǎng)址都是以“_數字”遞增的規律變化的,如下:
那么我們首先將不符合規律的第一頁(yè)網(wǎng)址“”添加到起始網(wǎng)址的列表中如下:
第一頁(yè)添加好了,那么前面的列表分頁(yè)我們選擇向導添加——批量網(wǎng)址添加,用一個(gè)通用的格式手動(dòng)產(chǎn)生所須要的網(wǎng)址,網(wǎng)址中的變量就可以用地址參數來(lái)取代,地址參數的規律須要我們設置一下,上述規律就是從2開(kāi)始,以1為遞增量,共計5項。填寫(xiě)完成后列車(chē)采集器V9手動(dòng)生成預覽如下圖,點(diǎn)擊確定后起始網(wǎng)址(這里就是列表頁(yè)網(wǎng)址)就添加好了。
2、獲取內容頁(yè)網(wǎng)址:通過(guò)觀(guān)察新聞頁(yè)面可以發(fā)覺(jué)列表分頁(yè)的下一級就是內容頁(yè),那么內容頁(yè)網(wǎng)址就是一級網(wǎng)址(列表頁(yè)為0級網(wǎng)址),這里我們使用最簡(jiǎn)單的“自動(dòng)獲取地址鏈接”的方法,通過(guò)剖析列表頁(yè)面的源代碼,可以找出新聞內容頁(yè)地址所在的區域,其開(kāi)始字符為:“<div class="mod newslist">”,結束字符為:“</div>”。填寫(xiě)以后列車(chē)采集器會(huì )在這個(gè)區域內手動(dòng)辨識地址鏈接,我們點(diǎn)擊網(wǎng)址采集測試就可以看見(jiàn)我們設置的規則采集到列表頁(yè)和內容頁(yè)網(wǎng)址是否正確和完整。
SEO站長(cháng)怎么批量采集文章?火車(chē)頭采集器操作教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 529 次瀏覽 ? 2020-04-17 11:06
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列火車(chē)頭采集文章,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的火車(chē)頭采集文章,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。

采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此,在填寫(xiě)規則是選擇等差數列火車(chē)頭采集文章,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。

多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。

步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的火車(chē)頭采集文章,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。

火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。

結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。


