火車(chē)頭
火車(chē)頭采集器v8免費版下載v8.6 綠色企業(yè)版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 543 次瀏覽 ? 2020-06-05 08:00
1、進(jìn)入火車(chē)頭主程序頁(yè)面
2、單擊新建的黑小三角火車(chē)采集器 v8 教程,新建任務(wù)
3、填寫(xiě)任務(wù)名,點(diǎn)擊第二步
4、分析目標頁(yè)面,找到要采集的內容。
5、查看源文件,找到要采的內容
6、使用瀏覽器找到目標內容,分析目標內容前后的代碼
7、此時(shí)標題的前后代碼為“<h2>”、“</h2>”。
8、雙擊采集器“標題”
9、選擇前后截取火車(chē)采集器 v8 教程,把前后代碼分別填進(jìn)去
10、或者,選擇正則提取,如圖,點(diǎn)擊確認
11、標題采集規則制做完成,開(kāi)始剖析其他標簽規則。內容中有不要的代碼(如圖div代碼不要),可以排除
12、雙擊內容,進(jìn)入數據處理,點(diǎn)擊添加,出現菜單,選擇html標簽過(guò)濾
13、勾選不要的代碼
14、檢查要的內容是否全部采集進(jìn)來(lái)了
和復制/粘貼一樣確切
采集/發(fā)布就像復制/粘貼一樣精準,用戶(hù)要的全都是真諦,怎能有遺漏!
能采集99%的網(wǎng)頁(yè)
幾乎所有網(wǎng)頁(yè)都能采集,即使須要驗證碼,登錄甚至防采集都能處理!
速度是普通采集器的7倍
火車(chē)采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
網(wǎng)頁(yè)采集的代名詞
獨具六年磨煉,成就業(yè)界領(lǐng)先品牌,想到網(wǎng)頁(yè)采集,就想到列車(chē)采集器! 查看全部
火車(chē)頭數據采集器旗艦版軟件是一款可以對網(wǎng)站數據進(jìn)行快速復制的網(wǎng)頁(yè)數據采集器,特別是從事網(wǎng)站建設或則須要建設新的網(wǎng)站時(shí),可以通過(guò)該軟件進(jìn)行快速的文章數據的采集,歡迎有須要的用戶(hù)來(lái)IT貓撲下載。

1、進(jìn)入火車(chē)頭主程序頁(yè)面

2、單擊新建的黑小三角火車(chē)采集器 v8 教程,新建任務(wù)
3、填寫(xiě)任務(wù)名,點(diǎn)擊第二步

4、分析目標頁(yè)面,找到要采集的內容。
5、查看源文件,找到要采的內容
6、使用瀏覽器找到目標內容,分析目標內容前后的代碼
7、此時(shí)標題的前后代碼為“<h2>”、“</h2>”。
8、雙擊采集器“標題”

9、選擇前后截取火車(chē)采集器 v8 教程,把前后代碼分別填進(jìn)去
10、或者,選擇正則提取,如圖,點(diǎn)擊確認

11、標題采集規則制做完成,開(kāi)始剖析其他標簽規則。內容中有不要的代碼(如圖div代碼不要),可以排除
12、雙擊內容,進(jìn)入數據處理,點(diǎn)擊添加,出現菜單,選擇html標簽過(guò)濾
13、勾選不要的代碼
14、檢查要的內容是否全部采集進(jìn)來(lái)了

和復制/粘貼一樣確切
采集/發(fā)布就像復制/粘貼一樣精準,用戶(hù)要的全都是真諦,怎能有遺漏!
能采集99%的網(wǎng)頁(yè)
幾乎所有網(wǎng)頁(yè)都能采集,即使須要驗證碼,登錄甚至防采集都能處理!
速度是普通采集器的7倍
火車(chē)采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
網(wǎng)頁(yè)采集的代名詞
獨具六年磨煉,成就業(yè)界領(lǐng)先品牌,想到網(wǎng)頁(yè)采集,就想到列車(chē)采集器!
火車(chē)頭采集器(LocoySpider) v8.6 正式版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 372 次瀏覽 ? 2020-06-04 08:05
火車(chē)頭采集器(LocoySpider)是一款專(zhuān)業(yè)的功能強悍的網(wǎng)路數據/信息挖掘軟件,通過(guò)靈活的配置,您可以太輕松的從網(wǎng)頁(yè)上抓取文字、圖片、文件等任何資源。程序支持遠程下載圖片文件,支持網(wǎng)站登陸后的信息采集,支持偵測文件真實(shí)地址,支持代理,支持防盜鏈的采集火車(chē)采集器v8.6破解版火車(chē)采集器v8.6破解版,支持采集數據直接入庫和模仿人手工發(fā)布等許多功能特性?;疖?chē)采集器支持從任何類(lèi)型的網(wǎng)站采集獲取您所須要的信息,如各類(lèi)新聞類(lèi)網(wǎng)站、論壇、電子商務(wù)網(wǎng)站、求職急聘網(wǎng)站等。同時(shí)具有強悍的網(wǎng)站登錄采集、多頁(yè)和分頁(yè)的采集、網(wǎng)站跨層采集、POST采集、腳本頁(yè)面采集、動(dòng)態(tài)頁(yè)面采集等中級采集功能。強大的php和c#插件支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現您所想要的任何更強大的功能?;疖?chē)采集器特有功能:1、支持所有網(wǎng)站編碼:完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。2、多種發(fā)布形式:支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。3、全手動(dòng):無(wú)人值守工作,配置好程序后,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。4、本地編輯:本地可視化編輯已采集的數據。5、采集測試:這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。6、管理便捷:使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作,再多的數據管理也太輕松。應用范圍垂直搜索(或稱(chēng)為專(zhuān)業(yè)搜索)服務(wù)信息凝聚和門(mén)戶(hù)服務(wù)企業(yè)網(wǎng)信息凝聚商業(yè)情報采集論壇或博客遷移智能信息代理個(gè)人信息檢索信息挖掘適用群體1、公司集團2、政府機關(guān)與部隊3、門(mén)戶(hù)網(wǎng)站4、新聞媒體5、廣告與市場(chǎng)研究機構6、金融機構7、電信聯(lián)通移動(dòng)8、科學(xué)與技術(shù)研究單位9、網(wǎng)站站長(cháng)10、電子商務(wù)(如網(wǎng)店店長(cháng)等)11、其他版本信息:火車(chē)采集器V8.6免費版和商業(yè)版本軟件要求筆記本安裝.NET2.0。
什么是“火車(chē)頭采集規則”?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 645 次瀏覽 ? 2020-06-01 08:02
數據抓取原理
火車(chē)采集器怎樣去抓取數據,取決于您的規則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采出來(lái),這就是采網(wǎng)址。程序按您的規則抓取列表頁(yè)面,從中剖析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內容。再按照您的采集規則,對下載到的網(wǎng)頁(yè)剖析,將標題內容等信息分離開(kāi)來(lái)并保存出來(lái)。如果您選擇了下載圖片等網(wǎng)路資源,程序會(huì )對采集到的數據進(jìn)行剖析,找出圖片,資源等的下載地址并下載到本地。
數據發(fā)布原理
在我們將數據采集下來(lái)后數據默認是保存在本地的,我們可以使用以下幾種方法對數據進(jìn)行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您若果只是查看數據,直接用相關(guān)軟件打開(kāi)查看即可。
2、Web發(fā)布到網(wǎng)站。程序會(huì )模仿瀏覽器向您的網(wǎng)站發(fā)送數據,可以實(shí)現您手工發(fā)布的療效。
3、直接入數據庫。您只需寫(xiě)幾個(gè)SQL句子,程序會(huì )將數據按您的SQL句子導出到數據庫中。
4、保存為本地文件。程序會(huì )讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程
火車(chē)采集器采集數據是分成兩個(gè)步驟的,一是采集數據,二是發(fā)布數據。這兩個(gè)過(guò)程是可以分開(kāi)的。
1、采集數據,這個(gè)包括采集網(wǎng)址,采集內容。這個(gè)過(guò)程是獲得數據的過(guò)程。我們做規則,在采的過(guò)程中也算是對內容做了處理。
2、發(fā)布內容就是將數據發(fā)布到自己的峰會(huì )火車(chē)采集器 規則,CMS的過(guò)程,也是實(shí)現數據為已有的過(guò)程??梢杂肳EB在線(xiàn)發(fā)布火車(chē)采集器 規則,數據庫入庫或存為本地文件。
具體的使用似乎是太靈活的,可以按照實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置??傊?,具體過(guò)程由您而定,火車(chē)采集器的強悍功能之一也就是彰顯在靈活中。
新增功能
無(wú)限級多頁(yè)采集
任務(wù)隊列運行管理功能
無(wú)限級分組任務(wù)管理,任務(wù)回收站功能
RSS地址采集功能
列表頁(yè)分頁(yè)采集獲取功能
列表頁(yè)附加參數獲取功能
列表頁(yè)及標簽XPath可視化提取功能
標簽純正則替換功能
Http插口查看運行情況
導出記錄為單個(gè)或多個(gè)Txt、html 文件
標簽間自由組合功能
針對標簽內容繼續發(fā)送Http懇求功能 查看全部

數據抓取原理
火車(chē)采集器怎樣去抓取數據,取決于您的規則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采出來(lái),這就是采網(wǎng)址。程序按您的規則抓取列表頁(yè)面,從中剖析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內容。再按照您的采集規則,對下載到的網(wǎng)頁(yè)剖析,將標題內容等信息分離開(kāi)來(lái)并保存出來(lái)。如果您選擇了下載圖片等網(wǎng)路資源,程序會(huì )對采集到的數據進(jìn)行剖析,找出圖片,資源等的下載地址并下載到本地。
數據發(fā)布原理
在我們將數據采集下來(lái)后數據默認是保存在本地的,我們可以使用以下幾種方法對數據進(jìn)行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您若果只是查看數據,直接用相關(guān)軟件打開(kāi)查看即可。
2、Web發(fā)布到網(wǎng)站。程序會(huì )模仿瀏覽器向您的網(wǎng)站發(fā)送數據,可以實(shí)現您手工發(fā)布的療效。
3、直接入數據庫。您只需寫(xiě)幾個(gè)SQL句子,程序會(huì )將數據按您的SQL句子導出到數據庫中。
4、保存為本地文件。程序會(huì )讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程
火車(chē)采集器采集數據是分成兩個(gè)步驟的,一是采集數據,二是發(fā)布數據。這兩個(gè)過(guò)程是可以分開(kāi)的。
1、采集數據,這個(gè)包括采集網(wǎng)址,采集內容。這個(gè)過(guò)程是獲得數據的過(guò)程。我們做規則,在采的過(guò)程中也算是對內容做了處理。
2、發(fā)布內容就是將數據發(fā)布到自己的峰會(huì )火車(chē)采集器 規則,CMS的過(guò)程,也是實(shí)現數據為已有的過(guò)程??梢杂肳EB在線(xiàn)發(fā)布火車(chē)采集器 規則,數據庫入庫或存為本地文件。
具體的使用似乎是太靈活的,可以按照實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置??傊?,具體過(guò)程由您而定,火車(chē)采集器的強悍功能之一也就是彰顯在靈活中。
新增功能
無(wú)限級多頁(yè)采集
任務(wù)隊列運行管理功能
無(wú)限級分組任務(wù)管理,任務(wù)回收站功能
RSS地址采集功能
列表頁(yè)分頁(yè)采集獲取功能
列表頁(yè)附加參數獲取功能
列表頁(yè)及標簽XPath可視化提取功能
標簽純正則替換功能
Http插口查看運行情況
導出記錄為單個(gè)或多個(gè)Txt、html 文件
標簽間自由組合功能
針對標簽內容繼續發(fā)送Http懇求功能
火車(chē)頭采集器V7.6企業(yè)破解版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 505 次瀏覽 ? 2020-05-27 08:03
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:875
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥火車(chē)采集器7.6破解版,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:876
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手火車(chē)采集器7.6破解版,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:877
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。 查看全部

火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:875
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥火車(chē)采集器7.6破解版,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:876
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手火車(chē)采集器7.6破解版,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:877
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器(Locoy Spider)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 599 次瀏覽 ? 2020-05-27 08:01
火車(chē)采集器是一款專(zhuān)業(yè)的網(wǎng)路數據采集/信息挖掘處理軟件,通過(guò)靈活的配置火車(chē)采集器8.6破解版,可以太輕松迅速地從網(wǎng) 頁(yè)上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺,各類(lèi)文件或其他數據庫系統中。被廣泛應用于數據采集挖掘、垂直搜索、 信息凝聚和門(mén)戶(hù)、企業(yè)網(wǎng)信息凝聚、商業(yè)情報、論壇或博客遷移、智能信息代理、個(gè)人信息檢索等領(lǐng)域,適用于各種對數據有采集挖掘需求的群體。
火車(chē)采集器軟件簡(jiǎn)介
火車(chē)采集器專(zhuān)注于數據采集領(lǐng)域,致力于幫助各種互聯(lián)網(wǎng)企業(yè),站長(cháng),網(wǎng)站編輯等提供數據采集解決方案及清除采集技術(shù)困局。積累了十萬(wàn)余免費顧客及逾萬(wàn)名 商業(yè)顧客火車(chē)采集器8.6破解版,產(chǎn)品及解決方案被華為軟件、阿里巴巴、網(wǎng)易、酷六網(wǎng)、中國科學(xué)技術(shù)信息研究所、總裝備部宣傳部等使用并認可,并常年為國外著(zhù)名互聯(lián)網(wǎng)企業(yè)提供數 據采集方案。自2005年11月21日發(fā)布第一版以來(lái),經(jīng)過(guò)十年多數十次的更新?lián)Q代升級,新發(fā)布的基于火車(chē)頭數據采集平臺的列車(chē)采集器V7版已產(chǎn)生具有非 常建立及強悍的功能特點(diǎn),以通用好用和良好的口碑聞名。
火車(chē)采集器程序功能上支持采集需要登陸查看的內容,支持偵測文件真實(shí)地址并下載遠程文件,支持二級隨機代理,支持采集數據直接入庫和模仿手工發(fā)布等許 多功能特性。同時(shí)又具有無(wú)限級網(wǎng)址采集、無(wú)限級多頁(yè)和分頁(yè)規則采集、POST采集、圖片文件添加水印、XPath可視化提取、正文辨識、ocr圖形圖象識 別,同義詞轉換翻譯偽原創(chuàng )等中級采集發(fā)布功能,可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取。強大的php和c#插件插口支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現 您對數據的萃取要求、定時(shí)任務(wù)及分布式采集客戶(hù)端又能保證您對數據的及時(shí)性及數據量的要求。
新版本列車(chē)采集器經(jīng)過(guò)一年的開(kāi)發(fā),終于和你們碰面了。新版本對程序進(jìn)行了完全的構建,升級為全新的采集平臺。軟件也改名為 火車(chē)頭數據采集平臺 ?;疖?chē)采集器是火車(chē)頭數據采集平臺的默認擴充。以后你們可以在該平臺上運行峰會(huì )采集器,微博采集器,XX采集器。企業(yè)用戶(hù)還可以使用我們提供的API,開(kāi) 發(fā)有自己特色的采集器在平臺上使用。
火車(chē)采集器軟件功能
1、無(wú)限級多頁(yè)采集,可以實(shí)現無(wú)限深度的采集。
2、任務(wù)隊列運行管理,支持Cron表達式。
3、無(wú)限級分組任務(wù)管理,任務(wù)回收站功能。
4、RSS地址采集功能。
5、列表頁(yè)分頁(yè)采集獲取功能。
6、列表頁(yè)附加參數獲取功能。
7、列表頁(yè)及標簽XPath可視化提取功能。
8、標簽純正則替換功能。
9、Http插口管理采集器運行。
10、導出記錄為單個(gè)或多個(gè)Txt、html 文件。
11、標簽間自由組合功能。
12、針對標簽內容繼續發(fā)送Http懇求功能。 查看全部

火車(chē)采集器是一款專(zhuān)業(yè)的網(wǎng)路數據采集/信息挖掘處理軟件,通過(guò)靈活的配置火車(chē)采集器8.6破解版,可以太輕松迅速地從網(wǎng) 頁(yè)上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺,各類(lèi)文件或其他數據庫系統中。被廣泛應用于數據采集挖掘、垂直搜索、 信息凝聚和門(mén)戶(hù)、企業(yè)網(wǎng)信息凝聚、商業(yè)情報、論壇或博客遷移、智能信息代理、個(gè)人信息檢索等領(lǐng)域,適用于各種對數據有采集挖掘需求的群體。
火車(chē)采集器軟件簡(jiǎn)介
火車(chē)采集器專(zhuān)注于數據采集領(lǐng)域,致力于幫助各種互聯(lián)網(wǎng)企業(yè),站長(cháng),網(wǎng)站編輯等提供數據采集解決方案及清除采集技術(shù)困局。積累了十萬(wàn)余免費顧客及逾萬(wàn)名 商業(yè)顧客火車(chē)采集器8.6破解版,產(chǎn)品及解決方案被華為軟件、阿里巴巴、網(wǎng)易、酷六網(wǎng)、中國科學(xué)技術(shù)信息研究所、總裝備部宣傳部等使用并認可,并常年為國外著(zhù)名互聯(lián)網(wǎng)企業(yè)提供數 據采集方案。自2005年11月21日發(fā)布第一版以來(lái),經(jīng)過(guò)十年多數十次的更新?lián)Q代升級,新發(fā)布的基于火車(chē)頭數據采集平臺的列車(chē)采集器V7版已產(chǎn)生具有非 常建立及強悍的功能特點(diǎn),以通用好用和良好的口碑聞名。
火車(chē)采集器程序功能上支持采集需要登陸查看的內容,支持偵測文件真實(shí)地址并下載遠程文件,支持二級隨機代理,支持采集數據直接入庫和模仿手工發(fā)布等許 多功能特性。同時(shí)又具有無(wú)限級網(wǎng)址采集、無(wú)限級多頁(yè)和分頁(yè)規則采集、POST采集、圖片文件添加水印、XPath可視化提取、正文辨識、ocr圖形圖象識 別,同義詞轉換翻譯偽原創(chuàng )等中級采集發(fā)布功能,可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取。強大的php和c#插件插口支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現 您對數據的萃取要求、定時(shí)任務(wù)及分布式采集客戶(hù)端又能保證您對數據的及時(shí)性及數據量的要求。
新版本列車(chē)采集器經(jīng)過(guò)一年的開(kāi)發(fā),終于和你們碰面了。新版本對程序進(jìn)行了完全的構建,升級為全新的采集平臺。軟件也改名為 火車(chē)頭數據采集平臺 ?;疖?chē)采集器是火車(chē)頭數據采集平臺的默認擴充。以后你們可以在該平臺上運行峰會(huì )采集器,微博采集器,XX采集器。企業(yè)用戶(hù)還可以使用我們提供的API,開(kāi) 發(fā)有自己特色的采集器在平臺上使用。

火車(chē)采集器軟件功能
1、無(wú)限級多頁(yè)采集,可以實(shí)現無(wú)限深度的采集。
2、任務(wù)隊列運行管理,支持Cron表達式。
3、無(wú)限級分組任務(wù)管理,任務(wù)回收站功能。
4、RSS地址采集功能。
5、列表頁(yè)分頁(yè)采集獲取功能。
6、列表頁(yè)附加參數獲取功能。
7、列表頁(yè)及標簽XPath可視化提取功能。
8、標簽純正則替換功能。
9、Http插口管理采集器運行。
10、導出記錄為單個(gè)或多個(gè)Txt、html 文件。
11、標簽間自由組合功能。
12、針對標簽內容繼續發(fā)送Http懇求功能。
火車(chē)頭網(wǎng)頁(yè)正則提取電話(huà) – 火車(chē)頭正則采集電話(huà)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 728 次瀏覽 ? 2020-05-25 08:01
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no 查看全部
話(huà)說(shuō)好長(cháng)時(shí)間不用火車(chē)頭了。都有點(diǎn)蒙逼忘了。記得曾經(jīng)用火車(chē)頭采集論壇做垃圾文章網(wǎng)站,都多少年前的事情了,如今須要采集一些手機號,想想懶得寫(xiě)PHP,有現成的工具為何不用對吧,沒(méi)毛病。
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no
火車(chē)頭按作者采集今日頭條全部文章的方式
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1084 次瀏覽 ? 2020-05-22 08:03
填寫(xiě)內容頁(yè)采集規則。
在瀏覽器打開(kāi)一篇文章,右鍵選擇“查看源代碼”?;疖?chē)頭采集器切換到“采集內容”選項卡,根據源代碼填寫(xiě)標題、正文、等規則。
需要注意的是填寫(xiě)“內容”采集規則時(shí),需要勾選“下載圖片選項”并設置好圖片保存的文件夾路徑和文件名。
填寫(xiě)發(fā)布規則,這步須要事先下載“WordPress免登錄發(fā)布模塊”并裝入火車(chē)頭采集器目錄Module文件夾中?;疖?chē)頭采集器切換到“發(fā)布內容設置”選項卡,勾選“啟用方法一:web在線(xiàn)發(fā)布到網(wǎng)站”,點(diǎn)擊“web發(fā)布配置”文章采集規則,在彈出對話(huà)框中選擇“WordPress4.X免登錄”,編碼模式設為“UTF-8”,網(wǎng)站根地址填寫(xiě)你博客的首頁(yè)地址,然后保存并選擇該發(fā)布配置。
將免登錄發(fā)布模塊般配套的文件“past.php”上傳到網(wǎng)站根目錄。
回到火車(chē)頭采集器,勾選采集網(wǎng)址、采集內容和發(fā)布三個(gè)復選框,點(diǎn)擊工具欄“開(kāi)始按鍵”,稍等幾分鐘,所有文章均被采集并發(fā)布到自建WordPress網(wǎng)站上,所有圖片均下載到設置的文件夾內。
最后通過(guò)FTP工具把所有圖片上傳到對應目錄,至此,今日頭條發(fā)布的所有文章均被同步到自建網(wǎng)站上。
文章所需工具以及根據本教程生成的采集規則均已打包上傳百度網(wǎng)盤(pán)(平臺不容許填寫(xiě)鏈接)文章采集規則,如有須要可以留下聯(lián)系方法或去9SiR博客下載,本文教程及軟件僅供交流學(xué)習使用,請勿用于惡意用途,否則后果自負。如果有這方面問(wèn)題的,歡迎到評論市留言。
文/九哥9SiR,未經(jīng)許可,轉載必究。如果你有疑問(wèn)請留言,如果認為本文有用,請轉發(fā)或收藏吧! 查看全部

填寫(xiě)內容頁(yè)采集規則。
在瀏覽器打開(kāi)一篇文章,右鍵選擇“查看源代碼”。火車(chē)頭采集器切換到“采集內容”選項卡,根據源代碼填寫(xiě)標題、正文、等規則。

需要注意的是填寫(xiě)“內容”采集規則時(shí),需要勾選“下載圖片選項”并設置好圖片保存的文件夾路徑和文件名。

填寫(xiě)發(fā)布規則,這步須要事先下載“WordPress免登錄發(fā)布模塊”并裝入火車(chē)頭采集器目錄Module文件夾中?;疖?chē)頭采集器切換到“發(fā)布內容設置”選項卡,勾選“啟用方法一:web在線(xiàn)發(fā)布到網(wǎng)站”,點(diǎn)擊“web發(fā)布配置”文章采集規則,在彈出對話(huà)框中選擇“WordPress4.X免登錄”,編碼模式設為“UTF-8”,網(wǎng)站根地址填寫(xiě)你博客的首頁(yè)地址,然后保存并選擇該發(fā)布配置。

將免登錄發(fā)布模塊般配套的文件“past.php”上傳到網(wǎng)站根目錄。
回到火車(chē)頭采集器,勾選采集網(wǎng)址、采集內容和發(fā)布三個(gè)復選框,點(diǎn)擊工具欄“開(kāi)始按鍵”,稍等幾分鐘,所有文章均被采集并發(fā)布到自建WordPress網(wǎng)站上,所有圖片均下載到設置的文件夾內。

最后通過(guò)FTP工具把所有圖片上傳到對應目錄,至此,今日頭條發(fā)布的所有文章均被同步到自建網(wǎng)站上。

文章所需工具以及根據本教程生成的采集規則均已打包上傳百度網(wǎng)盤(pán)(平臺不容許填寫(xiě)鏈接)文章采集規則,如有須要可以留下聯(lián)系方法或去9SiR博客下載,本文教程及軟件僅供交流學(xué)習使用,請勿用于惡意用途,否則后果自負。如果有這方面問(wèn)題的,歡迎到評論市留言。
文/九哥9SiR,未經(jīng)許可,轉載必究。如果你有疑問(wèn)請留言,如果認為本文有用,請轉發(fā)或收藏吧!
火車(chē)頭采集器顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 964 次瀏覽 ? 2020-05-22 08:02
火車(chē)頭采集問(wèn)題
我在web發(fā)布配置上面,跟著(zhù)視頻走的,為什么點(diǎn)擊獲取列表的時(shí)侯總是顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查配置!求指點(diǎn)!有人說(shuō),如果模塊沒(méi)有問(wèn)題,可能模塊和火車(chē)頭版本不兼容。用低版本的試試!我用8.4版本、V9版本也都不行,直接填寫(xiě)Id也不行!這是如何回事呢?
欄目列表獲取不到怎樣辦
請前輩進(jìn)來(lái)解說(shuō)下通常獲取欄目列表的幾種技巧。
一般簡(jiǎn)單的我還可以寫(xiě)下來(lái)獲取到欄目列表,但是有些后臺是框架結構,不知道象這樣的后臺如何獲取到欄目列表呢?求前輩指教啊有時(shí)候做下來(lái)的發(fā)布模塊通過(guò)火車(chē)頭外置瀏覽器登陸了半天也不成功,出現獲取不到網(wǎng)站分類(lèi)ID(如下圖1),發(fā)布文章不成功(如下圖2),這時(shí)候怎樣辦呢?莫非是發(fā)布模塊有問(wèn)題?如果發(fā)布模塊沒(méi)有問(wèn)題,應該如何解決呢?本節就來(lái)幫你們解決“wordpress火車(chē)頭發(fā)布模塊登陸不成功的問(wèn)題。
火車(chē)頭問(wèn)題解決方式
下載 http數據抓包軟件iddler ,現在最新版是4.51 ,安裝好打開(kāi)(怎么使用可以參閱下網(wǎng)上的相關(guān)教程)。
然后打開(kāi)網(wǎng)站后臺步入“寫(xiě)文章”頁(yè)面,
然后刷新這個(gè)“寫(xiě)文章”頁(yè)面,fiddler抓包工具都會(huì )抓取到頁(yè)面刷新時(shí)的網(wǎng)路信息數據用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,如下圖:
如上圖,找到一側的 /wp-admin/post-new.php 用鍵盤(pán)左鍵點(diǎn)擊一下它,然后,點(diǎn)擊兩側的” inspectors “按鈕,再點(diǎn)擊“ Raw ”按鈕,這時(shí)兩側會(huì )顯示抓包到的COOKIE信息(如上圖)用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,然后,我們可以點(diǎn)擊率“ view in notepad ”按鍵,以txt文本打開(kāi)COOKIE信息數據:
然后,把上圖中的 User-Agent 后的數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的User-Agent中(如下圖),再把COOKIE信息數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的 COOKIE中:
然后保存配置,再點(diǎn)擊一下上圖中的“獲取列表”測試一下是否聯(lián)接成功,如果聯(lián)接成功都會(huì )顯示你的網(wǎng)站的分類(lèi)下拉列表:
好了,問(wèn)題到此解決。希望對你有所幫助哦。呵呵,如果解決了你的問(wèn)題,就點(diǎn)個(gè)贊吧。呵呵呵你們可以加我陌陌:g_abc483。交流更多網(wǎng)站優(yōu)化和營(yíng)銷(xiāo)知識。 查看全部

火車(chē)頭采集問(wèn)題
我在web發(fā)布配置上面,跟著(zhù)視頻走的,為什么點(diǎn)擊獲取列表的時(shí)侯總是顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查配置!求指點(diǎn)!有人說(shuō),如果模塊沒(méi)有問(wèn)題,可能模塊和火車(chē)頭版本不兼容。用低版本的試試!我用8.4版本、V9版本也都不行,直接填寫(xiě)Id也不行!這是如何回事呢?

欄目列表獲取不到怎樣辦
請前輩進(jìn)來(lái)解說(shuō)下通常獲取欄目列表的幾種技巧。
一般簡(jiǎn)單的我還可以寫(xiě)下來(lái)獲取到欄目列表,但是有些后臺是框架結構,不知道象這樣的后臺如何獲取到欄目列表呢?求前輩指教啊有時(shí)候做下來(lái)的發(fā)布模塊通過(guò)火車(chē)頭外置瀏覽器登陸了半天也不成功,出現獲取不到網(wǎng)站分類(lèi)ID(如下圖1),發(fā)布文章不成功(如下圖2),這時(shí)候怎樣辦呢?莫非是發(fā)布模塊有問(wèn)題?如果發(fā)布模塊沒(méi)有問(wèn)題,應該如何解決呢?本節就來(lái)幫你們解決“wordpress火車(chē)頭發(fā)布模塊登陸不成功的問(wèn)題。
火車(chē)頭問(wèn)題解決方式
下載 http數據抓包軟件iddler ,現在最新版是4.51 ,安裝好打開(kāi)(怎么使用可以參閱下網(wǎng)上的相關(guān)教程)。
然后打開(kāi)網(wǎng)站后臺步入“寫(xiě)文章”頁(yè)面,
然后刷新這個(gè)“寫(xiě)文章”頁(yè)面,fiddler抓包工具都會(huì )抓取到頁(yè)面刷新時(shí)的網(wǎng)路信息數據用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,如下圖:

如上圖,找到一側的 /wp-admin/post-new.php 用鍵盤(pán)左鍵點(diǎn)擊一下它,然后,點(diǎn)擊兩側的” inspectors “按鈕,再點(diǎn)擊“ Raw ”按鈕,這時(shí)兩側會(huì )顯示抓包到的COOKIE信息(如上圖)用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,然后,我們可以點(diǎn)擊率“ view in notepad ”按鍵,以txt文本打開(kāi)COOKIE信息數據:
然后,把上圖中的 User-Agent 后的數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的User-Agent中(如下圖),再把COOKIE信息數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的 COOKIE中:
然后保存配置,再點(diǎn)擊一下上圖中的“獲取列表”測試一下是否聯(lián)接成功,如果聯(lián)接成功都會(huì )顯示你的網(wǎng)站的分類(lèi)下拉列表:
好了,問(wèn)題到此解決。希望對你有所幫助哦。呵呵,如果解決了你的問(wèn)題,就點(diǎn)個(gè)贊吧。呵呵呵你們可以加我陌陌:g_abc483。交流更多網(wǎng)站優(yōu)化和營(yíng)銷(xiāo)知識。
火車(chē)頭文章采集規則分享? - 搜外問(wèn)答
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 502 次瀏覽 ? 2020-05-19 08:03
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
火車(chē)頭采集器破解版死機解決辦法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 826 次瀏覽 ? 2020-05-16 08:00
火車(chē)頭采集器破解版掉幀問(wèn)題解決辦法
2017年5月以來(lái)火車(chē)采集器打不開(kāi),火車(chē)頭采集器V7、v8等版本的破解版程序在采集或發(fā)布過(guò)程中會(huì )出現掉幀問(wèn)題。采集發(fā)布任務(wù)基本未能順利完成,更別提24小時(shí)手動(dòng)采集了,那么火車(chē)頭采集器破解版死機問(wèn)題要如何解決呢?
打開(kāi)C:\Windows\System32\drivers\etc文件夾火車(chē)采集器打不開(kāi),找到hosts文件,將以下代碼粘貼到文件末尾保存并重啟火車(chē)頭即可解決掉幀問(wèn)題。
127.0.0.1 file.locoy.com
127.0.0.1 *.locoy.com
127.0.0.1 *.locoy.com*
127.0.0.1 log.locoy.com
127.0.0.1 61.191.55.91
127.0.0.1 61.191.55.*
127.0.0.1 file1.locoy.com
127.0.0.1 file2.locoy.com
127.0.0.1 file3.locoy.com
127.0.0.1 file4.locoy.com
127.0.0.1 file5.locoy.com
127.0.0.1 file6.locoy.com
127.0.0.1 file7.locoy.com
127.0.0.1 file8.locoy.com
127.0.0.1 file9.locoy.com
127.0.0.1 file10.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 www.locoy.com
127.0.0.1 check.locoy.com
127.0.0.1 61.191.55.91:818
本文標題:火車(chē)頭采集器破解版死機解決辦法
本文地址: 查看全部

火車(chē)頭采集器破解版掉幀問(wèn)題解決辦法
2017年5月以來(lái)火車(chē)采集器打不開(kāi),火車(chē)頭采集器V7、v8等版本的破解版程序在采集或發(fā)布過(guò)程中會(huì )出現掉幀問(wèn)題。采集發(fā)布任務(wù)基本未能順利完成,更別提24小時(shí)手動(dòng)采集了,那么火車(chē)頭采集器破解版死機問(wèn)題要如何解決呢?
打開(kāi)C:\Windows\System32\drivers\etc文件夾火車(chē)采集器打不開(kāi),找到hosts文件,將以下代碼粘貼到文件末尾保存并重啟火車(chē)頭即可解決掉幀問(wèn)題。
127.0.0.1 file.locoy.com
127.0.0.1 *.locoy.com
127.0.0.1 *.locoy.com*
127.0.0.1 log.locoy.com
127.0.0.1 61.191.55.91
127.0.0.1 61.191.55.*
127.0.0.1 file1.locoy.com
127.0.0.1 file2.locoy.com
127.0.0.1 file3.locoy.com
127.0.0.1 file4.locoy.com
127.0.0.1 file5.locoy.com
127.0.0.1 file6.locoy.com
127.0.0.1 file7.locoy.com
127.0.0.1 file8.locoy.com
127.0.0.1 file9.locoy.com
127.0.0.1 file10.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 www.locoy.com
127.0.0.1 check.locoy.com
127.0.0.1 61.191.55.91:818
本文標題:火車(chē)頭采集器破解版死機解決辦法
本文地址:
火車(chē)頭采集器 v9.1 破解版免費下載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 363 次瀏覽 ? 2020-05-14 08:09
火車(chē)頭采集器功能說(shuō)明:
1、支持采集數據直接入庫和模仿手工發(fā)布等許多功能特性
2、可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取
3、能夠快速的對網(wǎng)頁(yè)上數據信息進(jìn)行規范性的采集
4、完善采集包括文本、圖片、文件等信息
5、擁有強悍的采集功能,能夠采集那些須要登錄能夠查看的內容信息
6.能夠解析文件真實(shí)地址而且下載
火車(chē)頭采集器功能說(shuō)明:
1、全手動(dòng)
無(wú)人值守工作,配置好程序后火車(chē)采集器,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。
2、本地編輯
本地可視化編輯已采集的數據。
3、采集測試
這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。
4、管理便捷
使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作火車(chē)采集器,再多的數據管理也太輕松。
5、支持所有網(wǎng)站編碼
完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。
6、多種發(fā)布形式
支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。 查看全部
火車(chē)頭采集器是一款用于網(wǎng)頁(yè)數據采集的專(zhuān)業(yè)工具?;疖?chē)頭采集器可以帶給用戶(hù)最出色的網(wǎng)頁(yè)采集機制,對網(wǎng)頁(yè)中的各類(lèi)信息都才能完整建立的采集下來(lái),功能非常強悍,多樣化的特點(diǎn)帶來(lái)更全面的采集工作輔助。
火車(chē)頭采集器功能說(shuō)明:
1、支持采集數據直接入庫和模仿手工發(fā)布等許多功能特性
2、可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取
3、能夠快速的對網(wǎng)頁(yè)上數據信息進(jìn)行規范性的采集
4、完善采集包括文本、圖片、文件等信息
5、擁有強悍的采集功能,能夠采集那些須要登錄能夠查看的內容信息
6.能夠解析文件真實(shí)地址而且下載
火車(chē)頭采集器功能說(shuō)明:
1、全手動(dòng)
無(wú)人值守工作,配置好程序后火車(chē)采集器,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。
2、本地編輯
本地可視化編輯已采集的數據。
3、采集測試
這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。
4、管理便捷
使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作火車(chē)采集器,再多的數據管理也太輕松。
5、支持所有網(wǎng)站編碼
完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。
6、多種發(fā)布形式
支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。
火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1145 次瀏覽 ? 2020-04-29 11:04
教程總目錄:火車(chē)頭采集器使用教程
我們首先打開(kāi)一篇文章,看看他的基本結構:標題和內容起始,以及是否有重復。
從右圖可以見(jiàn)到有標題重復,以及我們不需要的內容(他的廣告)
我們查看網(wǎng)頁(yè)的源代碼,CTRL+U
先搜索標題,看看標題都在什么位置
可以見(jiàn)到有三個(gè)位置都是標題,看到這三個(gè)位置,分析下前后的內容。最終我選擇了第三個(gè)作為采集標題的位置。
因為前后和其他文章更不容易出現不同的情況。避免出現某些文章采集標題為空的情況。
我們打開(kāi)火車(chē)頭采集器
將<h3>作為標題的開(kāi)頭字符串
</h3>作為標題的結尾字符串
這兩個(gè)字符串之間的內容,火車(chē)頭會(huì )全采集下來(lái),當做標題。所以不要選擇錯了
我們可以復制文章鏈接,在火車(chē)頭里先測試下標題才是是否正確。
在下邊有填測試聯(lián)接的位置
我們看見(jiàn)標題采集沒(méi)問(wèn)題
下面開(kāi)始找內容的采集規則
在文章頁(yè)面源代碼里我們搜索內容上面幾個(gè)字,發(fā)現有兩個(gè)位置,一個(gè)是底部的頁(yè)面描述,一個(gè)是真正的正文開(kāi)始位置。當然用下邊這個(gè)啦
下面這個(gè)正文開(kāi)始前的是他網(wǎng)站的廣告火車(chē)頭采集教程火車(chē)頭采集教程,我們要在廣告前面選定位置開(kāi)始采集
記得那句話(huà),火車(chē)頭會(huì )從你選定的位置,采集下來(lái)上面所有的字符!所以位置要選對!
我們選擇<div>最為采集起始位置,這個(gè)恰好也是實(shí)際正文內容的起始位置,并且在源碼里搜索不到第二處!
將<div>填入火車(chē)頭正文采集規則的開(kāi)頭字符串
然后是正文結束的位置
正文在這里結束,因為結束恰好是一段代碼,所以看著(zhù)可能比較亂。
請注意,搜索內容時(shí),空格不要帶,在源碼里空格是其他的字符串,會(huì )出現搜索不到的情況。
我們就選擇正文結束后的<div>作為火車(chē)頭采集結尾字符串
這個(gè)字符串在源碼里沒(méi)有其他重復位置,并且是正文DIV結束后的第一個(gè)內容!
下面我們測試一下內容的采集,看看療效
然后會(huì )發(fā)覺(jué)內容里有好多多余的字符款式之類(lèi)。
查看內容可以點(diǎn)擊內容前面的那種三個(gè)點(diǎn),就可以下來(lái)個(gè)窗口查看了
我們須要對內容進(jìn)行一下過(guò)濾
過(guò)濾掉不需要的字符
就是這個(gè)html標簽過(guò)濾
我們過(guò)濾掉:鏈接a標簽、圖像img標簽、字體font標簽、腳本script標簽、層DIV標簽、Span標簽
具體須要過(guò)濾什么,根據你采集的文章來(lái)決定,每個(gè)網(wǎng)站他發(fā)文習慣都不一樣。
這里我過(guò)濾掉圖片,并且沒(méi)有做文件下載(圖片下載)是因為圖片下載,需要單獨開(kāi)一篇文章來(lái)寫(xiě)。
我們在測試一下瞧瞧采集內容的療效
可以看見(jiàn)還是有字體相關(guān)的標簽存在,但是他是以<p開(kāi)頭的,還負責文章的段落作用。這里就沒(méi)辦法通過(guò)火車(chē)頭進(jìn)行過(guò)濾了。不過(guò)也沒(méi)啥影響。
到這兒文章標題和正文內容的采集規則就結束了。后續內容請查看教程總目錄
現在晚上12點(diǎn)了,停一下明日我再繼續寫(xiě)。 查看全部
火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
教程總目錄:火車(chē)頭采集器使用教程
我們首先打開(kāi)一篇文章,看看他的基本結構:標題和內容起始,以及是否有重復。
從右圖可以見(jiàn)到有標題重復,以及我們不需要的內容(他的廣告)

我們查看網(wǎng)頁(yè)的源代碼,CTRL+U
先搜索標題,看看標題都在什么位置


可以見(jiàn)到有三個(gè)位置都是標題,看到這三個(gè)位置,分析下前后的內容。最終我選擇了第三個(gè)作為采集標題的位置。
因為前后和其他文章更不容易出現不同的情況。避免出現某些文章采集標題為空的情況。

我們打開(kāi)火車(chē)頭采集器
將<h3>作為標題的開(kāi)頭字符串
</h3>作為標題的結尾字符串
這兩個(gè)字符串之間的內容,火車(chē)頭會(huì )全采集下來(lái),當做標題。所以不要選擇錯了

我們可以復制文章鏈接,在火車(chē)頭里先測試下標題才是是否正確。
在下邊有填測試聯(lián)接的位置

我們看見(jiàn)標題采集沒(méi)問(wèn)題

下面開(kāi)始找內容的采集規則
在文章頁(yè)面源代碼里我們搜索內容上面幾個(gè)字,發(fā)現有兩個(gè)位置,一個(gè)是底部的頁(yè)面描述,一個(gè)是真正的正文開(kāi)始位置。當然用下邊這個(gè)啦

下面這個(gè)正文開(kāi)始前的是他網(wǎng)站的廣告火車(chē)頭采集教程火車(chē)頭采集教程,我們要在廣告前面選定位置開(kāi)始采集
記得那句話(huà),火車(chē)頭會(huì )從你選定的位置,采集下來(lái)上面所有的字符!所以位置要選對!
我們選擇<div>最為采集起始位置,這個(gè)恰好也是實(shí)際正文內容的起始位置,并且在源碼里搜索不到第二處!

將<div>填入火車(chē)頭正文采集規則的開(kāi)頭字符串

然后是正文結束的位置

正文在這里結束,因為結束恰好是一段代碼,所以看著(zhù)可能比較亂。
請注意,搜索內容時(shí),空格不要帶,在源碼里空格是其他的字符串,會(huì )出現搜索不到的情況。

我們就選擇正文結束后的<div>作為火車(chē)頭采集結尾字符串
這個(gè)字符串在源碼里沒(méi)有其他重復位置,并且是正文DIV結束后的第一個(gè)內容!

下面我們測試一下內容的采集,看看療效
然后會(huì )發(fā)覺(jué)內容里有好多多余的字符款式之類(lèi)。
查看內容可以點(diǎn)擊內容前面的那種三個(gè)點(diǎn),就可以下來(lái)個(gè)窗口查看了

我們須要對內容進(jìn)行一下過(guò)濾
過(guò)濾掉不需要的字符
就是這個(gè)html標簽過(guò)濾

我們過(guò)濾掉:鏈接a標簽、圖像img標簽、字體font標簽、腳本script標簽、層DIV標簽、Span標簽
具體須要過(guò)濾什么,根據你采集的文章來(lái)決定,每個(gè)網(wǎng)站他發(fā)文習慣都不一樣。
這里我過(guò)濾掉圖片,并且沒(méi)有做文件下載(圖片下載)是因為圖片下載,需要單獨開(kāi)一篇文章來(lái)寫(xiě)。
我們在測試一下瞧瞧采集內容的療效

可以看見(jiàn)還是有字體相關(guān)的標簽存在,但是他是以<p開(kāi)頭的,還負責文章的段落作用。這里就沒(méi)辦法通過(guò)火車(chē)頭進(jìn)行過(guò)濾了。不過(guò)也沒(méi)啥影響。
到這兒文章標題和正文內容的采集規則就結束了。后續內容請查看教程總目錄
現在晚上12點(diǎn)了,停一下明日我再繼續寫(xiě)。
phpcms V9 火車(chē)頭免登入采集發(fā)布教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 665 次瀏覽 ? 2020-04-29 11:03
phpcms因為后臺發(fā)布須要用到hash值,這個(gè)值對不上,發(fā)布會(huì )不成功,如果根據抓取cookie值登陸發(fā)布,可能須要時(shí)常換非常不便捷,需要有一個(gè)更方便的發(fā)布形式,本文就是介紹如此一個(gè)免登錄的插件形式。插件功兩部份,一個(gè)php文件須要上傳到網(wǎng)站目錄(具體那個(gè)目錄可以自定義為了便捷建議置于根目錄),文件名為了避免惡意發(fā)布可以自定義(一般沒(méi)必要);文件中重要的是插口密碼,這個(gè)也可以更改而且要記住自己更改了火車(chē)頭采集教程,在發(fā)布模塊里設置的須要一致就能發(fā)布成功
wpm是火車(chē)頭發(fā)布形式的模板文件,只須要在web發(fā)布模塊下右上角:更多》導入 ,即可
最后須要設置的是,1須要跟前面php文件中的密碼一樣,2位置路徑要對(如果更改了文件名和目錄),設置完可以點(diǎn)擊3獲取列表檢驗是否正?;疖?chē)頭采集教程,最后保存配置即可。
最后附上PHPCMS免登錄
phpcms V9 火車(chē)頭免登錄采集發(fā)布教程 查看全部
火車(chē)頭采集器是站長(cháng)文章發(fā)布神器,有了它更新文章都是一批一批的,對于采集來(lái)的文章,建議還是做些偽原創(chuàng )的處理,比如攪亂一下文章次序,增減、替換一些東西,效果能夠更好。關(guān)于采集主要有兩部份工作,一是采集,二是發(fā)布。采集主要是瞄準目標網(wǎng)站編寫(xiě)采集規則,發(fā)布指的是將采集的數據發(fā)布到網(wǎng)站數據庫里。
phpcms因為后臺發(fā)布須要用到hash值,這個(gè)值對不上,發(fā)布會(huì )不成功,如果根據抓取cookie值登陸發(fā)布,可能須要時(shí)常換非常不便捷,需要有一個(gè)更方便的發(fā)布形式,本文就是介紹如此一個(gè)免登錄的插件形式。插件功兩部份,一個(gè)php文件須要上傳到網(wǎng)站目錄(具體那個(gè)目錄可以自定義為了便捷建議置于根目錄),文件名為了避免惡意發(fā)布可以自定義(一般沒(méi)必要);文件中重要的是插口密碼,這個(gè)也可以更改而且要記住自己更改了火車(chē)頭采集教程,在發(fā)布模塊里設置的須要一致就能發(fā)布成功
wpm是火車(chē)頭發(fā)布形式的模板文件,只須要在web發(fā)布模塊下右上角:更多》導入 ,即可
最后須要設置的是,1須要跟前面php文件中的密碼一樣,2位置路徑要對(如果更改了文件名和目錄),設置完可以點(diǎn)擊3獲取列表檢驗是否正?;疖?chē)頭采集教程,最后保存配置即可。
最后附上PHPCMS免登錄
phpcms V9 火車(chē)頭免登錄采集發(fā)布教程
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 394 次瀏覽 ? 2020-04-28 11:03
********************************************************************
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
Finishied by Victor QQ:99767290
******************************************************************************
由于本教程是以實(shí)戰演練為主的火車(chē)頭采集教程,所以對于基礎知識部份,我們只能是粗放性的做一些講解,等諸位火車(chē)頭旅客對一些基本概念和操作流程有個(gè)初步的人時(shí)侯,我們在做一些方法上的闡述,當然這也離不開(kāi)我們自身的求知的欲望與火車(chē)頭諸位熱心前輩的幫助,,好了正題就不說(shuō)了,我門(mén)來(lái)講一下明天課程的主要內容:
1、了解在線(xiàn)發(fā)布的基本工作流程;
2、掌握基本的在線(xiàn)發(fā)布模塊的制做;
********************************************************************************************
一、了解CMS文章發(fā)布的基本工作流程
說(shuō)到火車(chē)頭的在線(xiàn)發(fā)布流程,我們很容易想到,我們在例如DEDECMS、PHPCMS等CMS(Content ManageSystem內容管理系統)的后臺發(fā)布一篇文章的基本流程,因為火車(chē)頭在線(xiàn)發(fā)布的流程基本上是和我們一般進(jìn)行的文章發(fā)布的流程是一樣的,我們來(lái)實(shí)際操作一下:
視頻“CMS文章發(fā)布”地址:
通過(guò)前面的操作,我們可以對后臺發(fā)布文章的基本流程做一下小結:
------------------------------------------------------------------------------
1、登陸后臺:
a、輸入訪(fǎng)問(wèn)后臺管理的路徑,這里是:
b、輸入用戶(hù)名和密碼的相關(guān)信息,有的需輸入驗證碼和Cookies有效期。
c、登陸到后臺管理頁(yè)面。
注:火車(chē)頭在這里不僅須要獲取用戶(hù)名、密碼、驗證碼等信息、還須要獲取Cookies信息(Cookies的概念我們在后面述說(shuō)。)。
---------------------------------------------------------------------------------
2、文章發(fā)布頁(yè)面,這里是:
:/d31/dede/article_add.php?channelid=1
在這個(gè)頁(yè)面我們將會(huì )進(jìn)行如下兩類(lèi)信息的操作錄入:
a、必要信息:文章標題火車(chē)頭采集教程,文章內容,文章所屬欄目(通常情況是這樣的)
以上幾個(gè)信息是必須輸入的,否則,程序會(huì )制止進(jìn)程并提示進(jìn)行錄入;
b、限制類(lèi)必要信息——文章所屬欄目;
這種信息的標志一般是以select下拉菜單定義的,它不象文章標題,文章內容這類(lèi)選項,雖然必須,但是你可以隨意寫(xiě),系統不會(huì )也不可能也沒(méi)必要提供你指定的或可以參考的選項。但是文章所屬欄目,出于信息管理便捷和系統的安全性,系統一般會(huì )使你指定所要發(fā)布信息的所屬欄目。
c、其他選項信息,如果我們沒(méi)有特殊要求,可以不去理會(huì )。
當然這個(gè)“不必理會(huì )”并不意味著(zhù)其他的信息選項是何必填寫(xiě)的,事實(shí)上,有些信息是程序得以進(jìn)行所必需的,但為了使用戶(hù)在操作上去更快捷簡(jiǎn)便,程序會(huì )依照常理進(jìn)行默認值得設置。 查看全部
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
********************************************************************
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
Finishied by Victor QQ:99767290
******************************************************************************
由于本教程是以實(shí)戰演練為主的火車(chē)頭采集教程,所以對于基礎知識部份,我們只能是粗放性的做一些講解,等諸位火車(chē)頭旅客對一些基本概念和操作流程有個(gè)初步的人時(shí)侯,我們在做一些方法上的闡述,當然這也離不開(kāi)我們自身的求知的欲望與火車(chē)頭諸位熱心前輩的幫助,,好了正題就不說(shuō)了,我門(mén)來(lái)講一下明天課程的主要內容:
1、了解在線(xiàn)發(fā)布的基本工作流程;
2、掌握基本的在線(xiàn)發(fā)布模塊的制做;
********************************************************************************************
一、了解CMS文章發(fā)布的基本工作流程
說(shuō)到火車(chē)頭的在線(xiàn)發(fā)布流程,我們很容易想到,我們在例如DEDECMS、PHPCMS等CMS(Content ManageSystem內容管理系統)的后臺發(fā)布一篇文章的基本流程,因為火車(chē)頭在線(xiàn)發(fā)布的流程基本上是和我們一般進(jìn)行的文章發(fā)布的流程是一樣的,我們來(lái)實(shí)際操作一下:
視頻“CMS文章發(fā)布”地址:
通過(guò)前面的操作,我們可以對后臺發(fā)布文章的基本流程做一下小結:
------------------------------------------------------------------------------
1、登陸后臺:
a、輸入訪(fǎng)問(wèn)后臺管理的路徑,這里是:
b、輸入用戶(hù)名和密碼的相關(guān)信息,有的需輸入驗證碼和Cookies有效期。
c、登陸到后臺管理頁(yè)面。
注:火車(chē)頭在這里不僅須要獲取用戶(hù)名、密碼、驗證碼等信息、還須要獲取Cookies信息(Cookies的概念我們在后面述說(shuō)。)。
---------------------------------------------------------------------------------
2、文章發(fā)布頁(yè)面,這里是:
:/d31/dede/article_add.php?channelid=1
在這個(gè)頁(yè)面我們將會(huì )進(jìn)行如下兩類(lèi)信息的操作錄入:
a、必要信息:文章標題火車(chē)頭采集教程,文章內容,文章所屬欄目(通常情況是這樣的)
以上幾個(gè)信息是必須輸入的,否則,程序會(huì )制止進(jìn)程并提示進(jìn)行錄入;
b、限制類(lèi)必要信息——文章所屬欄目;
這種信息的標志一般是以select下拉菜單定義的,它不象文章標題,文章內容這類(lèi)選項,雖然必須,但是你可以隨意寫(xiě),系統不會(huì )也不可能也沒(méi)必要提供你指定的或可以參考的選項。但是文章所屬欄目,出于信息管理便捷和系統的安全性,系統一般會(huì )使你指定所要發(fā)布信息的所屬欄目。
c、其他選項信息,如果我們沒(méi)有特殊要求,可以不去理會(huì )。
當然這個(gè)“不必理會(huì )”并不意味著(zhù)其他的信息選項是何必填寫(xiě)的,事實(shí)上,有些信息是程序得以進(jìn)行所必需的,但為了使用戶(hù)在操作上去更快捷簡(jiǎn)便,程序會(huì )依照常理進(jìn)行默認值得設置。
火車(chē)頭采集軟件使用教程(圖文版)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 848 次瀏覽 ? 2020-04-28 11:02
火車(chē)采集器 V2010SP3 版(實(shí)現內容手動(dòng)更新的采集軟件)前提:本軟件要求筆記本安裝 net framework2.0 或 2.0 以上框架支持。 一、火車(chē)采集器 V2010SP3 版,可供下載地址: 二、net framework2.0,可供下載地址: mework-2.0-For-Win98SE-ME-2000-XP/火車(chē)采集器和 net framework2.0 安裝好后,可進(jìn)行如下操作,操作步驟為: 一、 1.在一堆文件中,找到如下圖標(畫(huà)有紅方框、狀似火車(chē)頭的) ,并雙擊打開(kāi)。2.打開(kāi)后可以看見(jiàn)如下界面, 看著(zhù)很復雜,但對于菜鳥(niǎo)而言好多東西是暫時(shí)用不 到的。在界面空白處(如下圖紅框區域內)右擊,選擇箭頭所指“新建站點(diǎn)” 。 輸入站點(diǎn)名,例如:“西裝”,保存即可。3.在新建站點(diǎn)“西裝”(紅框區域)處選中再右擊,選擇從該站點(diǎn)新建任務(wù)。二、 第一步:采集網(wǎng)址規則 1.先要找到手動(dòng)更新的內容來(lái)源:如時(shí)常更新關(guān)注度較高的博客、專(zhuān)業(yè)網(wǎng)站等, 這里我們就拿淘寶論壇 bbs.taobao.com 舉個(gè)反例。找到開(kāi)始采集地址欄兩側, 點(diǎn)擊向導添加 。2.添加開(kāi)始采集地址中的多頁(yè)類(lèi)似地址方式前,要剖析一下它的類(lèi)似方式,例: 我們在淘寶論壇中搜索“西服”相關(guān)內容,然后任意翻閱不同的頁(yè)數查看它的網(wǎng) 頁(yè)地址。
第一頁(yè)地址、第二頁(yè)地址、第三頁(yè)地址分別為:以此類(lèi)推,分析出其不同點(diǎn)在于上圖紅框處的數字變化,因此:假如我們只采集 論壇的第一頁(yè),就在多頁(yè)類(lèi)似地址方式欄粘貼第一頁(yè)的網(wǎng)址,按一下(*)將選 中的數字 1 替換成(*),再將數字變化改為相應頁(yè)數:1, 然后點(diǎn)擊添加、完成。3.接著(zhù),找到如下圖的相應位置剖析規則并分別輸入:必須包含“thread”,不 得包含“post|pc”,任務(wù)名:這里設為“第一頁(yè)”?!究梢渣c(diǎn)擊開(kāi)始測試網(wǎng)址 采集,檢測一下是否將網(wǎng)頁(yè)都采集過(guò)來(lái)了。若要返回到剛剛上一級頁(yè)面,點(diǎn)擊返 回更改設置即可?!康诙剑翰杉瘍热菀巹t 1.打開(kāi)后, 可以看見(jiàn)如下界面, 我們在 (圖 2 紅框 1 處) 粘貼中將要采集頁(yè)面 “第 一頁(yè)”目錄中任意一個(gè)標題文章內容的網(wǎng)址,(如圖 1 箭頭所指文章標題,雙擊 打開(kāi)再采集打開(kāi)后的網(wǎng)頁(yè)網(wǎng)址),進(jìn)行測試。 (紅框 2 處)為標題、內容、作者、時(shí)間、出處,我們可以分別點(diǎn)擊這 5 個(gè)項目, 對采集來(lái)的頁(yè)面內容依照須要做更改。1圖2 2.點(diǎn)擊標題打開(kāi),將鏈接、下載圖片勾選上并確定,有些內容就被排除了。分析 過(guò)程中還有要排除的內容就點(diǎn)擊(下圖最左下方紅圈處) “內容排除中的添加并 確定”,其實(shí),就是將不要的內容復制粘貼到右圖排除內容的小方框內點(diǎn)確定。
然后返回上級頁(yè)面點(diǎn)擊測試就可刷新頁(yè)面, 這樣我們才能看見(jiàn)清除糟粕后更清晰 的內容。 【下圖所示,找到規律的內容就可用 (*)來(lái)代替, 完成排除內容操作?!?.修改內容部份時(shí),有個(gè)小技巧,就是將測試出的所有網(wǎng)頁(yè)內容復制粘貼到記事 本中查找,如此便能挺好的提升操作效率。例如,我們點(diǎn)開(kāi)的這篇文章,正文最 開(kāi)頭兩個(gè)字 “由于” 就可以用全文選中——編輯——查找的方式找到, 省時(shí)省力。4.把剛剛貼近正文“由于”前面的惟一的以<div>開(kāi)頭的代碼(如下圖紅色區域 處代碼)復制出來(lái),點(diǎn)擊內容,粘貼到右圖相應位置,輸入</div>,點(diǎn)擊確定,并測試更新一下,多 余的內容就被刪除了。5.一般作者、時(shí)間、出處都不怎樣須要改。 第三步:發(fā)布內容設置 1. 點(diǎn)開(kāi)第三步,(圖中 1.)把啟用勾選上,再點(diǎn)擊(圖中 2.)定義 web 在線(xiàn)發(fā) 布全局設置會(huì )彈出右圖 web 在線(xiàn)發(fā)布配置管理的欄目框,點(diǎn)擊添加。2.接著(zhù)在(1.網(wǎng)址/cms 根地址)里輸入:,點(diǎn)擊(圖中 2.在 內置瀏覽器中登陸)會(huì )彈出一個(gè)網(wǎng)頁(yè),不用管它直接關(guān)閉,這樣 cookie 值就自 動(dòng)獲取了。3.然后把剩余幾項根據右圖填上,(最新文章 [id=3])復制粘貼好后點(diǎn)擊獲 取列表,這里我們可以根據自己喜好起個(gè)配置名,如:第一頁(yè),最后保存設置。
4.在右圖空白處(如箭頭所示)右擊火車(chē)頭采集教程,選擇添加更多發(fā)布設置,彈出右右圖,選 擇我們剛剛設的“第一頁(yè)”添加。5.依次點(diǎn)擊選擇分類(lèi),獲取列表,輸入 ID 號:3,確定。再點(diǎn)擊最下邊的保存,總的保存一下。三、 1.選中“西裝”下的子目錄“第一頁(yè)”火車(chē)頭采集教程,點(diǎn)擊開(kāi)始,網(wǎng)址就被采過(guò)來(lái)了。然后可 以登陸 ,翻閱網(wǎng)頁(yè)最下方,看看是否有采集更新 來(lái)的新內容。2. 我們也可以登入 94zd.com/dede(織夢(mèng)內容管理系統)網(wǎng)頁(yè),輸入用戶(hù)名: admin,密碼:123451 檢查右右圖“最新文章”中是否有采集來(lái)的網(wǎng)頁(yè)文章目錄存在。如果沒(méi)有顯 示,可以在生成欄目中,進(jìn)行更新主頁(yè) HTML。完成?。?! 查看全部
火車(chē)采集器 V2010SP3 版(實(shí)現內容手動(dòng)更新的采集軟件)前提:本軟件要求筆記本安裝 net framework2.0 或 2.0 以上框架支持。 一、火車(chē)采集器 V2010SP3 版,可供下載地址: 二、net framework2.0,可供下載地址: mework-2.0-For-Win98SE-ME-2000-XP/火車(chē)采集器和 net framework2.0 安裝好后,可進(jìn)行如下操作,操作步驟為: 一、 1.在一堆文件中,找到如下圖標(畫(huà)有紅方框、狀似火車(chē)頭的) ,并雙擊打開(kāi)。2.打開(kāi)后可以看見(jiàn)如下界面, 看著(zhù)很復雜,但對于菜鳥(niǎo)而言好多東西是暫時(shí)用不 到的。在界面空白處(如下圖紅框區域內)右擊,選擇箭頭所指“新建站點(diǎn)” 。 輸入站點(diǎn)名,例如:“西裝”,保存即可。3.在新建站點(diǎn)“西裝”(紅框區域)處選中再右擊,選擇從該站點(diǎn)新建任務(wù)。二、 第一步:采集網(wǎng)址規則 1.先要找到手動(dòng)更新的內容來(lái)源:如時(shí)常更新關(guān)注度較高的博客、專(zhuān)業(yè)網(wǎng)站等, 這里我們就拿淘寶論壇 bbs.taobao.com 舉個(gè)反例。找到開(kāi)始采集地址欄兩側, 點(diǎn)擊向導添加 。2.添加開(kāi)始采集地址中的多頁(yè)類(lèi)似地址方式前,要剖析一下它的類(lèi)似方式,例: 我們在淘寶論壇中搜索“西服”相關(guān)內容,然后任意翻閱不同的頁(yè)數查看它的網(wǎng) 頁(yè)地址。
第一頁(yè)地址、第二頁(yè)地址、第三頁(yè)地址分別為:以此類(lèi)推,分析出其不同點(diǎn)在于上圖紅框處的數字變化,因此:假如我們只采集 論壇的第一頁(yè),就在多頁(yè)類(lèi)似地址方式欄粘貼第一頁(yè)的網(wǎng)址,按一下(*)將選 中的數字 1 替換成(*),再將數字變化改為相應頁(yè)數:1, 然后點(diǎn)擊添加、完成。3.接著(zhù),找到如下圖的相應位置剖析規則并分別輸入:必須包含“thread”,不 得包含“post|pc”,任務(wù)名:這里設為“第一頁(yè)”?!究梢渣c(diǎn)擊開(kāi)始測試網(wǎng)址 采集,檢測一下是否將網(wǎng)頁(yè)都采集過(guò)來(lái)了。若要返回到剛剛上一級頁(yè)面,點(diǎn)擊返 回更改設置即可?!康诙剑翰杉瘍热菀巹t 1.打開(kāi)后, 可以看見(jiàn)如下界面, 我們在 (圖 2 紅框 1 處) 粘貼中將要采集頁(yè)面 “第 一頁(yè)”目錄中任意一個(gè)標題文章內容的網(wǎng)址,(如圖 1 箭頭所指文章標題,雙擊 打開(kāi)再采集打開(kāi)后的網(wǎng)頁(yè)網(wǎng)址),進(jìn)行測試。 (紅框 2 處)為標題、內容、作者、時(shí)間、出處,我們可以分別點(diǎn)擊這 5 個(gè)項目, 對采集來(lái)的頁(yè)面內容依照須要做更改。1圖2 2.點(diǎn)擊標題打開(kāi),將鏈接、下載圖片勾選上并確定,有些內容就被排除了。分析 過(guò)程中還有要排除的內容就點(diǎn)擊(下圖最左下方紅圈處) “內容排除中的添加并 確定”,其實(shí),就是將不要的內容復制粘貼到右圖排除內容的小方框內點(diǎn)確定。
然后返回上級頁(yè)面點(diǎn)擊測試就可刷新頁(yè)面, 這樣我們才能看見(jiàn)清除糟粕后更清晰 的內容。 【下圖所示,找到規律的內容就可用 (*)來(lái)代替, 完成排除內容操作?!?.修改內容部份時(shí),有個(gè)小技巧,就是將測試出的所有網(wǎng)頁(yè)內容復制粘貼到記事 本中查找,如此便能挺好的提升操作效率。例如,我們點(diǎn)開(kāi)的這篇文章,正文最 開(kāi)頭兩個(gè)字 “由于” 就可以用全文選中——編輯——查找的方式找到, 省時(shí)省力。4.把剛剛貼近正文“由于”前面的惟一的以<div>開(kāi)頭的代碼(如下圖紅色區域 處代碼)復制出來(lái),點(diǎn)擊內容,粘貼到右圖相應位置,輸入</div>,點(diǎn)擊確定,并測試更新一下,多 余的內容就被刪除了。5.一般作者、時(shí)間、出處都不怎樣須要改。 第三步:發(fā)布內容設置 1. 點(diǎn)開(kāi)第三步,(圖中 1.)把啟用勾選上,再點(diǎn)擊(圖中 2.)定義 web 在線(xiàn)發(fā) 布全局設置會(huì )彈出右圖 web 在線(xiàn)發(fā)布配置管理的欄目框,點(diǎn)擊添加。2.接著(zhù)在(1.網(wǎng)址/cms 根地址)里輸入:,點(diǎn)擊(圖中 2.在 內置瀏覽器中登陸)會(huì )彈出一個(gè)網(wǎng)頁(yè),不用管它直接關(guān)閉,這樣 cookie 值就自 動(dòng)獲取了。3.然后把剩余幾項根據右圖填上,(最新文章 [id=3])復制粘貼好后點(diǎn)擊獲 取列表,這里我們可以根據自己喜好起個(gè)配置名,如:第一頁(yè),最后保存設置。
4.在右圖空白處(如箭頭所示)右擊火車(chē)頭采集教程,選擇添加更多發(fā)布設置,彈出右右圖,選 擇我們剛剛設的“第一頁(yè)”添加。5.依次點(diǎn)擊選擇分類(lèi),獲取列表,輸入 ID 號:3,確定。再點(diǎn)擊最下邊的保存,總的保存一下。三、 1.選中“西裝”下的子目錄“第一頁(yè)”火車(chē)頭采集教程,點(diǎn)擊開(kāi)始,網(wǎng)址就被采過(guò)來(lái)了。然后可 以登陸 ,翻閱網(wǎng)頁(yè)最下方,看看是否有采集更新 來(lái)的新內容。2. 我們也可以登入 94zd.com/dede(織夢(mèng)內容管理系統)網(wǎng)頁(yè),輸入用戶(hù)名: admin,密碼:123451 檢查右右圖“最新文章”中是否有采集來(lái)的網(wǎng)頁(yè)文章目錄存在。如果沒(méi)有顯 示,可以在生成欄目中,進(jìn)行更新主頁(yè) HTML。完成?。?!
織夢(mèng)火車(chē)頭采集讓它手動(dòng)生成首頁(yè)、上下篇
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 456 次瀏覽 ? 2020-04-28 11:01
織夢(mèng)使用火車(chē)頭采集器采集數據火車(chē)頭采集教程,發(fā)布文檔后是不會(huì )手動(dòng)生成首頁(yè)、上下篇、欄目頁(yè)的,我們可以給織夢(mèng)添加手動(dòng)生成代碼來(lái)實(shí)現
打開(kāi) /dede/inc/inc_archives_functions.php 最下邊加入3個(gè)函數
/*火車(chē)頭采集自動(dòng)更新主頁(yè)*/function?MakeIndex(){ global?$dsql,$cfg_basedir,$cfg_templets_dir,$cfg_df_style;????require_once(DEDEINC.'/arc.partview.class.php');
????$envs?=?$_sys_globals?=?array();
????$envs['aid']?=?0;
????$pv?=?new?PartView();
????$row?=?$pv->dsql->GetOne('SELECT?*?FROM?`dede_homepageset`');
????$templet?=?str_replace("{style}",?$cfg_df_style,?$row['templet']);
????$homeFile?=?dirname(__FILE__).'/../'.$row['position'];
????$homeFile?=?str_replace("//",?"/",?str_replace("\\",?"/",?$homeFile));
????$fp?=?fopen($homeFile,?'w')?or?die("無(wú)法更新網(wǎng)站主頁(yè)到:$homeFile?位置");
????fclose($fp);
????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/'.$templet;????if(!file_exists($tpl))
????{
????????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/default/index.htm';????????if(!file_exists($tpl))?exit("無(wú)法找到主頁(yè)模板:$tpl?");
????}
????$GLOBALS['_arclistEnv']?=?'index';
????$pv->SetTemplet($tpl);
????$pv->SaveToHtml($homeFile);
????$pv->Close();
}/*火車(chē)頭采集自動(dòng)更新欄目*/function?MakeParentType($typeid){ global?$dsql;
$typediarr?=?array();
array_push($typediarr,$typeid);
$row3?=?$dsql->GetOne("Select?reid,topid?From?`dede_arctype`?where?id=".$typeid); if(!in_array($row3['reid'],$typediarr)?and?$row3['reid']!=0)?array_push($typediarr,$row3['reid']); if(!in_array($row3['topid'],$typediarr)?and?$row3['topid']!=0)?array_push($typediarr,$row3['topid']); require_once(DEDEDATA."/cache/inc_catalog_base.inc"); require_once(DEDEINC."/channelunit.func.php"); require_once(DEDEINC."/arc.listview.class.php"); foreach($typediarr?as?$typeid)
{
$lv?=?new?ListView($typeid);
$lv->MakeHtml(1,$maxpagesize);
}
}/*火車(chē)頭采集自動(dòng)更新上下篇*/function?MakePreNext($aid,$typeid){ global?$dsql;????require_once(DEDEINC.'/arc.archives.class.php');
????$aid?=?intval($aid);
????$preRow?=??$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id<$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?DESC");
????$nextRow?=?$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id>$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?ASC");????if(is_array($preRow))
????{
????????$envs['aid']?=?$preRow['id'];
????????$arc?=?new?Archives($preRow['id']);
????????$arc->MakeHtml();
????}????if(is_array($nextRow))
????{
????????$envs['aid']?=?$nextRow['id'];
????????$arc?=?new?Archives($nextRow['id']);
????????$arc->MakeHtml();
????}
}
繼續在這個(gè)文件中找到
return?$revalue;
在它的下邊加入
MakePreNext($arcID,$typeid);MakeIndex();MakeParentType($typeid);
添加完后是這樣的
這樣添加好后火車(chē)頭采集教程,無(wú)論你用火車(chē)頭免登入插口還是WEB發(fā)布模塊,無(wú)論是普通文章模型還是圖集模型還是軟件模型,都可以手動(dòng)生成相關(guān)靜態(tài)文件了。 查看全部
織夢(mèng)使用火車(chē)頭采集器采集數據火車(chē)頭采集教程,發(fā)布文檔后是不會(huì )手動(dòng)生成首頁(yè)、上下篇、欄目頁(yè)的,我們可以給織夢(mèng)添加手動(dòng)生成代碼來(lái)實(shí)現
打開(kāi) /dede/inc/inc_archives_functions.php 最下邊加入3個(gè)函數
/*火車(chē)頭采集自動(dòng)更新主頁(yè)*/function?MakeIndex(){ global?$dsql,$cfg_basedir,$cfg_templets_dir,$cfg_df_style;????require_once(DEDEINC.'/arc.partview.class.php');
????$envs?=?$_sys_globals?=?array();
????$envs['aid']?=?0;
????$pv?=?new?PartView();
????$row?=?$pv->dsql->GetOne('SELECT?*?FROM?`dede_homepageset`');
????$templet?=?str_replace("{style}",?$cfg_df_style,?$row['templet']);
????$homeFile?=?dirname(__FILE__).'/../'.$row['position'];
????$homeFile?=?str_replace("//",?"/",?str_replace("\\",?"/",?$homeFile));
????$fp?=?fopen($homeFile,?'w')?or?die("無(wú)法更新網(wǎng)站主頁(yè)到:$homeFile?位置");
????fclose($fp);
????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/'.$templet;????if(!file_exists($tpl))
????{
????????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/default/index.htm';????????if(!file_exists($tpl))?exit("無(wú)法找到主頁(yè)模板:$tpl?");
????}
????$GLOBALS['_arclistEnv']?=?'index';
????$pv->SetTemplet($tpl);
????$pv->SaveToHtml($homeFile);
????$pv->Close();
}/*火車(chē)頭采集自動(dòng)更新欄目*/function?MakeParentType($typeid){ global?$dsql;
$typediarr?=?array();
array_push($typediarr,$typeid);
$row3?=?$dsql->GetOne("Select?reid,topid?From?`dede_arctype`?where?id=".$typeid); if(!in_array($row3['reid'],$typediarr)?and?$row3['reid']!=0)?array_push($typediarr,$row3['reid']); if(!in_array($row3['topid'],$typediarr)?and?$row3['topid']!=0)?array_push($typediarr,$row3['topid']); require_once(DEDEDATA."/cache/inc_catalog_base.inc"); require_once(DEDEINC."/channelunit.func.php"); require_once(DEDEINC."/arc.listview.class.php"); foreach($typediarr?as?$typeid)
{
$lv?=?new?ListView($typeid);
$lv->MakeHtml(1,$maxpagesize);
}
}/*火車(chē)頭采集自動(dòng)更新上下篇*/function?MakePreNext($aid,$typeid){ global?$dsql;????require_once(DEDEINC.'/arc.archives.class.php');
????$aid?=?intval($aid);
????$preRow?=??$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id<$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?DESC");
????$nextRow?=?$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id>$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?ASC");????if(is_array($preRow))
????{
????????$envs['aid']?=?$preRow['id'];
????????$arc?=?new?Archives($preRow['id']);
????????$arc->MakeHtml();
????}????if(is_array($nextRow))
????{
????????$envs['aid']?=?$nextRow['id'];
????????$arc?=?new?Archives($nextRow['id']);
????????$arc->MakeHtml();
????}
}
繼續在這個(gè)文件中找到
return?$revalue;
在它的下邊加入
MakePreNext($arcID,$typeid);MakeIndex();MakeParentType($typeid);
添加完后是這樣的

這樣添加好后火車(chē)頭采集教程,無(wú)論你用火車(chē)頭免登入插口還是WEB發(fā)布模塊,無(wú)論是普通文章模型還是圖集模型還是軟件模型,都可以手動(dòng)生成相關(guān)靜態(tài)文件了。
火車(chē)頭采集后使用5118偽原創(chuàng )教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1185 次瀏覽 ? 2020-04-28 11:01
經(jīng)過(guò)一段時(shí)間研究,目前早已把握了火車(chē)頭采集技術(shù)能力,火車(chē)頭采集對接開(kāi)源CMS程序手動(dòng)更新能力,可以結合ai偽原創(chuàng )插口 實(shí)現批量采集并直接發(fā)布到WP、DEDECMS網(wǎng)站。說(shuō)實(shí)在的,不是常常被人問(wèn)采集相關(guān)的問(wèn)題,我根本不樂(lè )意研究這種采集技術(shù)。
接下來(lái)談?wù)劵疖?chē)頭采集器集成5118智能原創(chuàng )功能吧,這也是5118明天剛推送的一篇公眾號文章。
在列車(chē)采集器中,利用5118智能原創(chuàng )插件,不再須要經(jīng)過(guò)人工處理,即能批量生產(chǎn)出內容指紋完全不同的文章,大幅提升了內容SEO采編的工作效率,讓文章更容易被收錄。5118智能原創(chuàng )-火車(chē)采集器插件下載鏈接: 提取碼: umjx
第一步,使用解壓軟件,提取插件安裝包中的文件,解壓到一個(gè)文件夾中。
第二步,打開(kāi)解壓后的文件夾,將上面的【5118 智能原創(chuàng ).dll】文件,放入在【火車(chē)采集器】安裝目錄下的Plugins文件夾里。
第三步,將文件夾中的【5118智能原創(chuàng )配置工具.exe】和
【Newtonsoft.Json.dll】文件,放入在【火車(chē)采集器】安裝目錄中。
第四步,在【火車(chē)采集器】的根目錄里,打開(kāi)【5118 智能原創(chuàng )配置工具.exe】,點(diǎn)擊“獲取API-Key”,將會(huì )在瀏覽器中打開(kāi)5118獲取API的頁(yè)面。
頁(yè)面中找到“一鍵智能原創(chuàng )API”,點(diǎn)擊復制按鍵,返回【5118 智能原創(chuàng )配置工具.exe】界面,粘貼API-Key到輸入框中。
一鍵智能原創(chuàng )API支持免費試用
當然5118偽原創(chuàng )是要訂購付費的,可申請100次免費使用,可選購一鍵智能原創(chuàng )API套餐。5118會(huì )員折扣碼 D569F5 [?]
第一步,打開(kāi)火車(chē)頭采集器,點(diǎn)擊開(kāi)始欄的【插件管理】,在插件管理框右側列表里,選中【5118智能原創(chuàng )】,在兩側框中輸入需采集的網(wǎng)址,點(diǎn)擊測試按鍵,查看插件是否正常。
第二步,測試沒(méi)有問(wèn)題后,開(kāi)始使用插件設置內容采集規則。
第三步,選擇已有采集任務(wù),在【其他設置】的一側欄目中選擇插件,在采集結果處理插件下拉框中,選擇【5118智能原創(chuàng ).dll】,點(diǎn)擊保存即可。
此處需注意,【內容采集規則】左側列表里的“內容”標簽,是插件將手動(dòng)智能原創(chuàng )的內容,固定標簽名稱(chēng)為“內容”。
導出任務(wù)數據時(shí),在任務(wù)列表里火車(chē)頭采集教程,選中對應任務(wù)項目,右側“發(fā)布”項必須勾選,否則數據難以導入。
第四步火車(chē)頭采集教程,查看5118智能原創(chuàng )插件療效。運行完成后,即可在之前所保存的地址中查看導入療效。所導入的內容,已經(jīng)是使用智能原創(chuàng )插件替換后的數據。 查看全部
經(jīng)過(guò)一段時(shí)間研究,目前早已把握了火車(chē)頭采集技術(shù)能力,火車(chē)頭采集對接開(kāi)源CMS程序手動(dòng)更新能力,可以結合ai偽原創(chuàng )插口 實(shí)現批量采集并直接發(fā)布到WP、DEDECMS網(wǎng)站。說(shuō)實(shí)在的,不是常常被人問(wèn)采集相關(guān)的問(wèn)題,我根本不樂(lè )意研究這種采集技術(shù)。

接下來(lái)談?wù)劵疖?chē)頭采集器集成5118智能原創(chuàng )功能吧,這也是5118明天剛推送的一篇公眾號文章。
在列車(chē)采集器中,利用5118智能原創(chuàng )插件,不再須要經(jīng)過(guò)人工處理,即能批量生產(chǎn)出內容指紋完全不同的文章,大幅提升了內容SEO采編的工作效率,讓文章更容易被收錄。5118智能原創(chuàng )-火車(chē)采集器插件下載鏈接: 提取碼: umjx
第一步,使用解壓軟件,提取插件安裝包中的文件,解壓到一個(gè)文件夾中。

第二步,打開(kāi)解壓后的文件夾,將上面的【5118 智能原創(chuàng ).dll】文件,放入在【火車(chē)采集器】安裝目錄下的Plugins文件夾里。

第三步,將文件夾中的【5118智能原創(chuàng )配置工具.exe】和
【Newtonsoft.Json.dll】文件,放入在【火車(chē)采集器】安裝目錄中。

第四步,在【火車(chē)采集器】的根目錄里,打開(kāi)【5118 智能原創(chuàng )配置工具.exe】,點(diǎn)擊“獲取API-Key”,將會(huì )在瀏覽器中打開(kāi)5118獲取API的頁(yè)面。

頁(yè)面中找到“一鍵智能原創(chuàng )API”,點(diǎn)擊復制按鍵,返回【5118 智能原創(chuàng )配置工具.exe】界面,粘貼API-Key到輸入框中。
一鍵智能原創(chuàng )API支持免費試用

當然5118偽原創(chuàng )是要訂購付費的,可申請100次免費使用,可選購一鍵智能原創(chuàng )API套餐。5118會(huì )員折扣碼 D569F5 [?]
第一步,打開(kāi)火車(chē)頭采集器,點(diǎn)擊開(kāi)始欄的【插件管理】,在插件管理框右側列表里,選中【5118智能原創(chuàng )】,在兩側框中輸入需采集的網(wǎng)址,點(diǎn)擊測試按鍵,查看插件是否正常。
第二步,測試沒(méi)有問(wèn)題后,開(kāi)始使用插件設置內容采集規則。

第三步,選擇已有采集任務(wù),在【其他設置】的一側欄目中選擇插件,在采集結果處理插件下拉框中,選擇【5118智能原創(chuàng ).dll】,點(diǎn)擊保存即可。

此處需注意,【內容采集規則】左側列表里的“內容”標簽,是插件將手動(dòng)智能原創(chuàng )的內容,固定標簽名稱(chēng)為“內容”。

導出任務(wù)數據時(shí),在任務(wù)列表里火車(chē)頭采集教程,選中對應任務(wù)項目,右側“發(fā)布”項必須勾選,否則數據難以導入。

第四步火車(chē)頭采集教程,查看5118智能原創(chuàng )插件療效。運行完成后,即可在之前所保存的地址中查看導入療效。所導入的內容,已經(jīng)是使用智能原創(chuàng )插件替換后的數據。
火車(chē)頭采集器標簽循環(huán)采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 683 次瀏覽 ? 2020-04-28 11:00
比如采集這個(gè)網(wǎng)站:;method=doquery&querysid=g0002&showpage=1
我們查看頁(yè)面源代碼,我把源代碼復制到txt上面做了些簡(jiǎn)單的處理,讓你們看的更明白如下圖:
上圖聽(tīng)到船名都是“”開(kāi)始“”結束火車(chē)頭采集教程,我們構建一個(gè)規則分別是以“”開(kāi)始和以“”結束。
規則設置如下圖:
采集結果如下:
左側標簽循環(huán)處理哪里選了“添加為新記錄”,右側看見(jiàn)了船名都早已采集到了,并且每位船名都是一條獨立的信息,
看到上圖兩側有個(gè)選項“循環(huán)不足的記錄以第一條記錄補全”勾選上這個(gè),如果在循環(huán)過(guò)程中有的信息沒(méi)有采集到火車(chē)頭采集教程,就會(huì )用采集到的第一條數據填充。
假如兩側標簽循環(huán)處理哪里選了“用分隔符鏈接在上條的記錄后” 然后在下邊的“分隔符”哪一項設置分隔符,如下圖:
測試結果如下:
上圖可以看見(jiàn)每次循環(huán)采集到的結果都是用我們設置的分隔符聯(lián)接上去做為一條信息,注意和前面選擇“添加為新記錄”,采集結果的不同。
我們通過(guò)頁(yè)面源代碼,知道這個(gè)是個(gè)表格,那么我們就多說(shuō)些,表格怎么采集。如果我們還要繼續采集更多信息如下圖的“英文船名”,“航次”等等。
我們打開(kāi)頁(yè)面源代碼見(jiàn)到這種信息的開(kāi)始都是以“”開(kāi)始以“”結束,我們設置規則的時(shí)侯才會(huì )太困難,如右圖
那么看下我是怎樣采集到“英文船名”的規則如下:
在看下我采集“航次”規則是怎樣設置的:
設置完后測試采集如下圖:
成功采集了!
原理就是都是以“”開(kāi)始這么我們就通過(guò)這個(gè)字符出現的次數來(lái)劃分,結束字符全部都是“”。
上面設置的規則恰好說(shuō)明了這個(gè)一點(diǎn),船名是在第一次出現的旁邊,英文船名是在第二次出現“”的旁邊,航次是在第三次出現“”的前面。。。。。。。
后面以此類(lèi)推,中間不需要的東西我們就用“(*)”代替,表示任意??梢宰约簢L試寫(xiě)寫(xiě)。這個(gè)是常常采集表格要用的。
(資源庫 ) 查看全部

比如采集這個(gè)網(wǎng)站:;method=doquery&querysid=g0002&showpage=1

我們查看頁(yè)面源代碼,我把源代碼復制到txt上面做了些簡(jiǎn)單的處理,讓你們看的更明白如下圖:

上圖聽(tīng)到船名都是“”開(kāi)始“”結束火車(chē)頭采集教程,我們構建一個(gè)規則分別是以“”開(kāi)始和以“”結束。
規則設置如下圖:

采集結果如下:

左側標簽循環(huán)處理哪里選了“添加為新記錄”,右側看見(jiàn)了船名都早已采集到了,并且每位船名都是一條獨立的信息,
看到上圖兩側有個(gè)選項“循環(huán)不足的記錄以第一條記錄補全”勾選上這個(gè),如果在循環(huán)過(guò)程中有的信息沒(méi)有采集到火車(chē)頭采集教程,就會(huì )用采集到的第一條數據填充。
假如兩側標簽循環(huán)處理哪里選了“用分隔符鏈接在上條的記錄后” 然后在下邊的“分隔符”哪一項設置分隔符,如下圖:

測試結果如下:

上圖可以看見(jiàn)每次循環(huán)采集到的結果都是用我們設置的分隔符聯(lián)接上去做為一條信息,注意和前面選擇“添加為新記錄”,采集結果的不同。
我們通過(guò)頁(yè)面源代碼,知道這個(gè)是個(gè)表格,那么我們就多說(shuō)些,表格怎么采集。如果我們還要繼續采集更多信息如下圖的“英文船名”,“航次”等等。

我們打開(kāi)頁(yè)面源代碼見(jiàn)到這種信息的開(kāi)始都是以“”開(kāi)始以“”結束,我們設置規則的時(shí)侯才會(huì )太困難,如右圖

那么看下我是怎樣采集到“英文船名”的規則如下:

在看下我采集“航次”規則是怎樣設置的:

設置完后測試采集如下圖:

成功采集了!
原理就是都是以“”開(kāi)始這么我們就通過(guò)這個(gè)字符出現的次數來(lái)劃分,結束字符全部都是“”。
上面設置的規則恰好說(shuō)明了這個(gè)一點(diǎn),船名是在第一次出現的旁邊,英文船名是在第二次出現“”的旁邊,航次是在第三次出現“”的前面。。。。。。。
后面以此類(lèi)推,中間不需要的東西我們就用“(*)”代替,表示任意??梢宰约簢L試寫(xiě)寫(xiě)。這個(gè)是常常采集表格要用的。
(資源庫 )
利用火車(chē)頭采集器采集趕集網(wǎng)急聘信息新視頻教程下
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 517 次瀏覽 ? 2020-04-28 11:00
第一章:中級教程開(kāi)篇章第1節:工欲善其事必先利其器fiddler來(lái)幫您剖析數據第二章:分類(lèi)信息網(wǎng)站58網(wǎng)站的采集第1節:58網(wǎng)站房屋轉租內容采集第2節:58網(wǎng)站手機號碼采集的突破形式第3節:利用采集器全手動(dòng)大量發(fā)布信息的方法第三章:火車(chē)頭采集器在采集騰訊網(wǎng)站內容的使用第1節:采集qq群上面的所有qq成員的方式第2節:騰訊網(wǎng)站的新聞采集第3節:微信文章搜索的內容采集第4節:微信公眾號搜索的內容采集第5節:騰訊視頻的代碼的采集第四章:采集數據合成成文本第1節:采集網(wǎng)站內容合成出多個(gè)txt文本文檔第2節:采集網(wǎng)站內容合成出word文檔的方式第3節:采集內容合成出csv文件,可以用于淘寶助手第4節:通過(guò)采集器合成html單頁(yè)面第五章:火車(chē)頭采集器在威客領(lǐng)域的使用第1節:威客網(wǎng)站自動(dòng)發(fā)貼模塊的制做第2節:利用威客發(fā)貼來(lái)使自己的任務(wù)帖永保第一第六章:優(yōu)酷網(wǎng)站相關(guān)內容采集的講解第1節:通過(guò)采集器采集優(yōu)酷網(wǎng)站的視頻和相關(guān)信息第2節:通過(guò)火車(chē)頭采集器監控優(yōu)酷最新視頻搜索量第七章:火車(chē)頭采集器采集百度相關(guān)內容第1節:采集百度關(guān)鍵詞搜索的結果并提取須要的網(wǎng)址域名第2節:火車(chē)頭采集器采集百度貼吧貼子內容和跟帖第3節:利用火車(chē)頭采集器采集百度新聞內容第4節:利用火車(chē)頭采集器采集百度軟件中心軟件第5節:利用火車(chē)頭采集器采集百度風(fēng)云榜相關(guān)最新信息第八章:火車(chē)頭采集器發(fā)布模塊的制做思路和技巧第1節:Web發(fā)布模塊的制做思路和技巧第2節:入庫模塊的制做思路和技巧dedecms,phpcms,ecshop,帝國cms,destoon,discuz
學(xué)習目的
通過(guò)學(xué)習火車(chē)頭采集器中級教程可以滿(mǎn)足大部分站長(cháng)對于網(wǎng)站采集的需求,本課程院士您火車(chē)頭采集器在各類(lèi)文字、視頻、音頻、彩票、圖片網(wǎng)站的采集方法以及火車(chē)頭采集器發(fā)布模塊的制做思路和技巧。本課程會(huì )隨著(zhù)市面上主流產(chǎn)品的迭代火車(chē)頭采集教程火車(chē)頭采集教程,而不斷的更新新的案例,一次訂購,終身學(xué)習。
適用人群
具有一定網(wǎng)站知識基礎的網(wǎng)站編輯、網(wǎng)絡(luò )營(yíng)銷(xiāo)從業(yè)者,電話(huà)營(yíng)銷(xiāo)從業(yè)者、SEOER、需要大量數據的、想提升自己對數據采集和合成效率的人。 查看全部
第一章:中級教程開(kāi)篇章第1節:工欲善其事必先利其器fiddler來(lái)幫您剖析數據第二章:分類(lèi)信息網(wǎng)站58網(wǎng)站的采集第1節:58網(wǎng)站房屋轉租內容采集第2節:58網(wǎng)站手機號碼采集的突破形式第3節:利用采集器全手動(dòng)大量發(fā)布信息的方法第三章:火車(chē)頭采集器在采集騰訊網(wǎng)站內容的使用第1節:采集qq群上面的所有qq成員的方式第2節:騰訊網(wǎng)站的新聞采集第3節:微信文章搜索的內容采集第4節:微信公眾號搜索的內容采集第5節:騰訊視頻的代碼的采集第四章:采集數據合成成文本第1節:采集網(wǎng)站內容合成出多個(gè)txt文本文檔第2節:采集網(wǎng)站內容合成出word文檔的方式第3節:采集內容合成出csv文件,可以用于淘寶助手第4節:通過(guò)采集器合成html單頁(yè)面第五章:火車(chē)頭采集器在威客領(lǐng)域的使用第1節:威客網(wǎng)站自動(dòng)發(fā)貼模塊的制做第2節:利用威客發(fā)貼來(lái)使自己的任務(wù)帖永保第一第六章:優(yōu)酷網(wǎng)站相關(guān)內容采集的講解第1節:通過(guò)采集器采集優(yōu)酷網(wǎng)站的視頻和相關(guān)信息第2節:通過(guò)火車(chē)頭采集器監控優(yōu)酷最新視頻搜索量第七章:火車(chē)頭采集器采集百度相關(guān)內容第1節:采集百度關(guān)鍵詞搜索的結果并提取須要的網(wǎng)址域名第2節:火車(chē)頭采集器采集百度貼吧貼子內容和跟帖第3節:利用火車(chē)頭采集器采集百度新聞內容第4節:利用火車(chē)頭采集器采集百度軟件中心軟件第5節:利用火車(chē)頭采集器采集百度風(fēng)云榜相關(guān)最新信息第八章:火車(chē)頭采集器發(fā)布模塊的制做思路和技巧第1節:Web發(fā)布模塊的制做思路和技巧第2節:入庫模塊的制做思路和技巧dedecms,phpcms,ecshop,帝國cms,destoon,discuz
學(xué)習目的
通過(guò)學(xué)習火車(chē)頭采集器中級教程可以滿(mǎn)足大部分站長(cháng)對于網(wǎng)站采集的需求,本課程院士您火車(chē)頭采集器在各類(lèi)文字、視頻、音頻、彩票、圖片網(wǎng)站的采集方法以及火車(chē)頭采集器發(fā)布模塊的制做思路和技巧。本課程會(huì )隨著(zhù)市面上主流產(chǎn)品的迭代火車(chē)頭采集教程火車(chē)頭采集教程,而不斷的更新新的案例,一次訂購,終身學(xué)習。
適用人群
具有一定網(wǎng)站知識基礎的網(wǎng)站編輯、網(wǎng)絡(luò )營(yíng)銷(xiāo)從業(yè)者,電話(huà)營(yíng)銷(xiāo)從業(yè)者、SEOER、需要大量數據的、想提升自己對數據采集和合成效率的人。
[蘋(píng)果CMSV10教程]火車(chē)頭采集文章資訊教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 799 次瀏覽 ? 2020-04-27 11:04
一直想寫(xiě)幾篇使小白看了也能用火車(chē)頭采集資訊 明星 視頻 的教程,因為有太多的小白來(lái)問(wèn)我這個(gè)問(wèn)題了,我說(shuō)大家去百度下,反饋回去的結果都是一樣說(shuō)沒(méi)有詳盡的配置教程,發(fā)布老是提示失敗。今天總算閑下來(lái)為小白們寫(xiě)一篇簡(jiǎn)單實(shí)用的采集教程。先寫(xiě)這個(gè)如何采集文章資訊的教程吧 。后面有時(shí)間了再更新視頻 和名星的,這個(gè)教程是寫(xiě)如何使用早已有了采集規則的教程。采集規則和火車(chē)頭軟件留言發(fā)送火車(chē)頭采集教程,按照我寫(xiě)的教程操作保證使你學(xué)會(huì )火車(chē)頭采集文章資訊了,好了開(kāi)始我們明天的采集教程吧。
教程分兩個(gè)大部分,一個(gè)是發(fā)布模塊的配置 再就是采集規則的配置,發(fā)布模塊和采集規則是兩個(gè)缺一不可的組成部分。有些小伙伴們說(shuō)在采集的時(shí)侯老是發(fā)布失敗是如何回事?最終說(shuō)到底就是這兩個(gè)地方?jīng)]有配置好造成。往下看
1,打開(kāi)火車(chē)頭軟件文件夾 點(diǎn)擊右圖這個(gè)啟動(dòng)程序圖標
2,軟件啟動(dòng)后點(diǎn)擊這個(gè)“發(fā)布”進(jìn)入到web發(fā)布模塊配置界面。
3,我發(fā)給大家火車(chē)頭軟件里早已導出了蘋(píng)果v10的4個(gè)發(fā)布模塊,雙擊“蘋(píng)果cms-v10文章”模塊對其編輯,編輯地方有3個(gè) 如下圖
?、?,編碼設置改成 UTF-8
?、?,網(wǎng)站跟地址把 “1.cn” 替換成你的網(wǎng)站主域名
?、?,登陸方法改成 不需要登錄http請求
?、?,都弄好后點(diǎn)擊右下角的測試配置,我們首先要確定下這個(gè)發(fā)布模塊是否可以正常使用,如果不能使用采集規則再正確也是發(fā)布不了的。點(diǎn)擊測試配置步入到測試配置頁(yè)面。如下圖
4,配置發(fā)布模塊最關(guān)鍵的一步,也是很多人出錯或是甚至弄不懂的地方。我用箭頭所指向的地方就是我們要配置的地方。如下圖
?、?,先來(lái)配置驗證密碼:驗證密碼就是站外入庫系聯(lián)接蘋(píng)果cms系統后臺的驗證碼 ,這個(gè)須要去系統后臺查看后填寫(xiě),找到驗證碼后雙擊一側“驗證密碼”在左邊的編輯框里復制粘貼到上面就可以了。系統后臺的驗證碼看右圖所示。找到后復制下來(lái)粘貼到我們的發(fā)布模塊里。
?、?,再來(lái)配置發(fā)布模塊的“名稱(chēng)”,這里模塊的名稱(chēng)雖然就是文章的標題,我們可以隨意起一個(gè)名子,這個(gè)地方要理解了 就是整篇文章都有一個(gè)標題,有了標題才可以發(fā)布,我們這兒是在測試發(fā)布模塊,所以要自動(dòng)填寫(xiě)一個(gè)標題,如果是采集規則的話(huà)這個(gè)地方是不用填寫(xiě)的,采集規則就會(huì )手動(dòng)采集網(wǎng)站上的標題的。我們起名稱(chēng)以“首搽”為例吧 雙擊名稱(chēng)后在左側填寫(xiě)首搽后點(diǎn)擊更改就可以了 。
?、?,再來(lái)配置下“分類(lèi)名稱(chēng)”和“分類(lèi)編號”這兩個(gè)也是在系統的后臺來(lái)確定的,就是你要采集文章到網(wǎng)站哪個(gè)分類(lèi)的名稱(chēng)和編號,看右圖所示
來(lái)到系統后臺點(diǎn)擊基礎>>>分類(lèi)管理 拉到下邊(第2張圖)我們可以看見(jiàn)資訊的頂尖分類(lèi)和子分類(lèi) 一共三個(gè),這三個(gè)分類(lèi)我們都是發(fā)布文章的分類(lèi),都可以使用,我們就隨意選擇一個(gè)分類(lèi)“頭條”這個(gè)分類(lèi)吧。這里的頭條就是我們的分類(lèi)名稱(chēng),頭條上面的18就是分類(lèi)編號。所以我們就由此得到了分類(lèi)的名稱(chēng)和編號,直接填寫(xiě)到發(fā)布模塊的配置即可。
?、?一起都填寫(xiě)完畢后就是最后的測試了,我們點(diǎn)擊“發(fā)表文章測試“下面下來(lái)的就是發(fā)布入庫成功的相關(guān)提示。我們可以到網(wǎng)站前臺看下有沒(méi)有這個(gè)文章。
?、菸覀儊?lái)到網(wǎng)站的前臺點(diǎn)擊導航欄的分類(lèi),可以看見(jiàn)一個(gè)標題名稱(chēng)為首搽的文章,這也代表了我們文章發(fā)布模塊配置成功。
5,由于文字篇幅寬度的限制我們在下一篇文章里介紹文章采集規則的配置火車(chē)頭采集教程,看完下半部份的配置相信你一定會(huì )用火車(chē)頭來(lái)采集文章資訊到自己的網(wǎng)站上。 查看全部
一直想寫(xiě)幾篇使小白看了也能用火車(chē)頭采集資訊 明星 視頻 的教程,因為有太多的小白來(lái)問(wèn)我這個(gè)問(wèn)題了,我說(shuō)大家去百度下,反饋回去的結果都是一樣說(shuō)沒(méi)有詳盡的配置教程,發(fā)布老是提示失敗。今天總算閑下來(lái)為小白們寫(xiě)一篇簡(jiǎn)單實(shí)用的采集教程。先寫(xiě)這個(gè)如何采集文章資訊的教程吧 。后面有時(shí)間了再更新視頻 和名星的,這個(gè)教程是寫(xiě)如何使用早已有了采集規則的教程。采集規則和火車(chē)頭軟件留言發(fā)送火車(chē)頭采集教程,按照我寫(xiě)的教程操作保證使你學(xué)會(huì )火車(chē)頭采集文章資訊了,好了開(kāi)始我們明天的采集教程吧。
教程分兩個(gè)大部分,一個(gè)是發(fā)布模塊的配置 再就是采集規則的配置,發(fā)布模塊和采集規則是兩個(gè)缺一不可的組成部分。有些小伙伴們說(shuō)在采集的時(shí)侯老是發(fā)布失敗是如何回事?最終說(shuō)到底就是這兩個(gè)地方?jīng)]有配置好造成。往下看
1,打開(kāi)火車(chē)頭軟件文件夾 點(diǎn)擊右圖這個(gè)啟動(dòng)程序圖標

2,軟件啟動(dòng)后點(diǎn)擊這個(gè)“發(fā)布”進(jìn)入到web發(fā)布模塊配置界面。

3,我發(fā)給大家火車(chē)頭軟件里早已導出了蘋(píng)果v10的4個(gè)發(fā)布模塊,雙擊“蘋(píng)果cms-v10文章”模塊對其編輯,編輯地方有3個(gè) 如下圖

?、?,編碼設置改成 UTF-8
?、?,網(wǎng)站跟地址把 “1.cn” 替換成你的網(wǎng)站主域名
?、?,登陸方法改成 不需要登錄http請求
?、?,都弄好后點(diǎn)擊右下角的測試配置,我們首先要確定下這個(gè)發(fā)布模塊是否可以正常使用,如果不能使用采集規則再正確也是發(fā)布不了的。點(diǎn)擊測試配置步入到測試配置頁(yè)面。如下圖
4,配置發(fā)布模塊最關(guān)鍵的一步,也是很多人出錯或是甚至弄不懂的地方。我用箭頭所指向的地方就是我們要配置的地方。如下圖

?、?,先來(lái)配置驗證密碼:驗證密碼就是站外入庫系聯(lián)接蘋(píng)果cms系統后臺的驗證碼 ,這個(gè)須要去系統后臺查看后填寫(xiě),找到驗證碼后雙擊一側“驗證密碼”在左邊的編輯框里復制粘貼到上面就可以了。系統后臺的驗證碼看右圖所示。找到后復制下來(lái)粘貼到我們的發(fā)布模塊里。

?、?,再來(lái)配置發(fā)布模塊的“名稱(chēng)”,這里模塊的名稱(chēng)雖然就是文章的標題,我們可以隨意起一個(gè)名子,這個(gè)地方要理解了 就是整篇文章都有一個(gè)標題,有了標題才可以發(fā)布,我們這兒是在測試發(fā)布模塊,所以要自動(dòng)填寫(xiě)一個(gè)標題,如果是采集規則的話(huà)這個(gè)地方是不用填寫(xiě)的,采集規則就會(huì )手動(dòng)采集網(wǎng)站上的標題的。我們起名稱(chēng)以“首搽”為例吧 雙擊名稱(chēng)后在左側填寫(xiě)首搽后點(diǎn)擊更改就可以了 。

?、?,再來(lái)配置下“分類(lèi)名稱(chēng)”和“分類(lèi)編號”這兩個(gè)也是在系統的后臺來(lái)確定的,就是你要采集文章到網(wǎng)站哪個(gè)分類(lèi)的名稱(chēng)和編號,看右圖所示


來(lái)到系統后臺點(diǎn)擊基礎>>>分類(lèi)管理 拉到下邊(第2張圖)我們可以看見(jiàn)資訊的頂尖分類(lèi)和子分類(lèi) 一共三個(gè),這三個(gè)分類(lèi)我們都是發(fā)布文章的分類(lèi),都可以使用,我們就隨意選擇一個(gè)分類(lèi)“頭條”這個(gè)分類(lèi)吧。這里的頭條就是我們的分類(lèi)名稱(chēng),頭條上面的18就是分類(lèi)編號。所以我們就由此得到了分類(lèi)的名稱(chēng)和編號,直接填寫(xiě)到發(fā)布模塊的配置即可。
?、?一起都填寫(xiě)完畢后就是最后的測試了,我們點(diǎn)擊“發(fā)表文章測試“下面下來(lái)的就是發(fā)布入庫成功的相關(guān)提示。我們可以到網(wǎng)站前臺看下有沒(méi)有這個(gè)文章。

?、菸覀儊?lái)到網(wǎng)站的前臺點(diǎn)擊導航欄的分類(lèi),可以看見(jiàn)一個(gè)標題名稱(chēng)為首搽的文章,這也代表了我們文章發(fā)布模塊配置成功。

5,由于文字篇幅寬度的限制我們在下一篇文章里介紹文章采集規則的配置火車(chē)頭采集教程,看完下半部份的配置相信你一定會(huì )用火車(chē)頭來(lái)采集文章資訊到自己的網(wǎng)站上。
火車(chē)頭采集器v8免費版下載v8.6 綠色企業(yè)版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 543 次瀏覽 ? 2020-06-05 08:00
1、進(jìn)入火車(chē)頭主程序頁(yè)面
2、單擊新建的黑小三角火車(chē)采集器 v8 教程,新建任務(wù)
3、填寫(xiě)任務(wù)名,點(diǎn)擊第二步
4、分析目標頁(yè)面,找到要采集的內容。
5、查看源文件,找到要采的內容
6、使用瀏覽器找到目標內容,分析目標內容前后的代碼
7、此時(shí)標題的前后代碼為“<h2>”、“</h2>”。
8、雙擊采集器“標題”
9、選擇前后截取火車(chē)采集器 v8 教程,把前后代碼分別填進(jìn)去
10、或者,選擇正則提取,如圖,點(diǎn)擊確認
11、標題采集規則制做完成,開(kāi)始剖析其他標簽規則。內容中有不要的代碼(如圖div代碼不要),可以排除
12、雙擊內容,進(jìn)入數據處理,點(diǎn)擊添加,出現菜單,選擇html標簽過(guò)濾
13、勾選不要的代碼
14、檢查要的內容是否全部采集進(jìn)來(lái)了
和復制/粘貼一樣確切
采集/發(fā)布就像復制/粘貼一樣精準,用戶(hù)要的全都是真諦,怎能有遺漏!
能采集99%的網(wǎng)頁(yè)
幾乎所有網(wǎng)頁(yè)都能采集,即使須要驗證碼,登錄甚至防采集都能處理!
速度是普通采集器的7倍
火車(chē)采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
網(wǎng)頁(yè)采集的代名詞
獨具六年磨煉,成就業(yè)界領(lǐng)先品牌,想到網(wǎng)頁(yè)采集,就想到列車(chē)采集器! 查看全部
火車(chē)頭數據采集器旗艦版軟件是一款可以對網(wǎng)站數據進(jìn)行快速復制的網(wǎng)頁(yè)數據采集器,特別是從事網(wǎng)站建設或則須要建設新的網(wǎng)站時(shí),可以通過(guò)該軟件進(jìn)行快速的文章數據的采集,歡迎有須要的用戶(hù)來(lái)IT貓撲下載。

1、進(jìn)入火車(chē)頭主程序頁(yè)面

2、單擊新建的黑小三角火車(chē)采集器 v8 教程,新建任務(wù)
3、填寫(xiě)任務(wù)名,點(diǎn)擊第二步

4、分析目標頁(yè)面,找到要采集的內容。
5、查看源文件,找到要采的內容
6、使用瀏覽器找到目標內容,分析目標內容前后的代碼
7、此時(shí)標題的前后代碼為“<h2>”、“</h2>”。
8、雙擊采集器“標題”

9、選擇前后截取火車(chē)采集器 v8 教程,把前后代碼分別填進(jìn)去
10、或者,選擇正則提取,如圖,點(diǎn)擊確認

11、標題采集規則制做完成,開(kāi)始剖析其他標簽規則。內容中有不要的代碼(如圖div代碼不要),可以排除
12、雙擊內容,進(jìn)入數據處理,點(diǎn)擊添加,出現菜單,選擇html標簽過(guò)濾
13、勾選不要的代碼
14、檢查要的內容是否全部采集進(jìn)來(lái)了

和復制/粘貼一樣確切
采集/發(fā)布就像復制/粘貼一樣精準,用戶(hù)要的全都是真諦,怎能有遺漏!
能采集99%的網(wǎng)頁(yè)
幾乎所有網(wǎng)頁(yè)都能采集,即使須要驗證碼,登錄甚至防采集都能處理!
速度是普通采集器的7倍
火車(chē)采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
網(wǎng)頁(yè)采集的代名詞
獨具六年磨煉,成就業(yè)界領(lǐng)先品牌,想到網(wǎng)頁(yè)采集,就想到列車(chē)采集器!
火車(chē)頭采集器(LocoySpider) v8.6 正式版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 372 次瀏覽 ? 2020-06-04 08:05
火車(chē)頭采集器(LocoySpider)是一款專(zhuān)業(yè)的功能強悍的網(wǎng)路數據/信息挖掘軟件,通過(guò)靈活的配置,您可以太輕松的從網(wǎng)頁(yè)上抓取文字、圖片、文件等任何資源。程序支持遠程下載圖片文件,支持網(wǎng)站登陸后的信息采集,支持偵測文件真實(shí)地址,支持代理,支持防盜鏈的采集火車(chē)采集器v8.6破解版火車(chē)采集器v8.6破解版,支持采集數據直接入庫和模仿人手工發(fā)布等許多功能特性?;疖?chē)采集器支持從任何類(lèi)型的網(wǎng)站采集獲取您所須要的信息,如各類(lèi)新聞類(lèi)網(wǎng)站、論壇、電子商務(wù)網(wǎng)站、求職急聘網(wǎng)站等。同時(shí)具有強悍的網(wǎng)站登錄采集、多頁(yè)和分頁(yè)的采集、網(wǎng)站跨層采集、POST采集、腳本頁(yè)面采集、動(dòng)態(tài)頁(yè)面采集等中級采集功能。強大的php和c#插件支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現您所想要的任何更強大的功能?;疖?chē)采集器特有功能:1、支持所有網(wǎng)站編碼:完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。2、多種發(fā)布形式:支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。3、全手動(dòng):無(wú)人值守工作,配置好程序后,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。4、本地編輯:本地可視化編輯已采集的數據。5、采集測試:這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。6、管理便捷:使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作,再多的數據管理也太輕松。應用范圍垂直搜索(或稱(chēng)為專(zhuān)業(yè)搜索)服務(wù)信息凝聚和門(mén)戶(hù)服務(wù)企業(yè)網(wǎng)信息凝聚商業(yè)情報采集論壇或博客遷移智能信息代理個(gè)人信息檢索信息挖掘適用群體1、公司集團2、政府機關(guān)與部隊3、門(mén)戶(hù)網(wǎng)站4、新聞媒體5、廣告與市場(chǎng)研究機構6、金融機構7、電信聯(lián)通移動(dòng)8、科學(xué)與技術(shù)研究單位9、網(wǎng)站站長(cháng)10、電子商務(wù)(如網(wǎng)店店長(cháng)等)11、其他版本信息:火車(chē)采集器V8.6免費版和商業(yè)版本軟件要求筆記本安裝.NET2.0。
什么是“火車(chē)頭采集規則”?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 645 次瀏覽 ? 2020-06-01 08:02
數據抓取原理
火車(chē)采集器怎樣去抓取數據,取決于您的規則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采出來(lái),這就是采網(wǎng)址。程序按您的規則抓取列表頁(yè)面,從中剖析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內容。再按照您的采集規則,對下載到的網(wǎng)頁(yè)剖析,將標題內容等信息分離開(kāi)來(lái)并保存出來(lái)。如果您選擇了下載圖片等網(wǎng)路資源,程序會(huì )對采集到的數據進(jìn)行剖析,找出圖片,資源等的下載地址并下載到本地。
數據發(fā)布原理
在我們將數據采集下來(lái)后數據默認是保存在本地的,我們可以使用以下幾種方法對數據進(jìn)行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您若果只是查看數據,直接用相關(guān)軟件打開(kāi)查看即可。
2、Web發(fā)布到網(wǎng)站。程序會(huì )模仿瀏覽器向您的網(wǎng)站發(fā)送數據,可以實(shí)現您手工發(fā)布的療效。
3、直接入數據庫。您只需寫(xiě)幾個(gè)SQL句子,程序會(huì )將數據按您的SQL句子導出到數據庫中。
4、保存為本地文件。程序會(huì )讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程
火車(chē)采集器采集數據是分成兩個(gè)步驟的,一是采集數據,二是發(fā)布數據。這兩個(gè)過(guò)程是可以分開(kāi)的。
1、采集數據,這個(gè)包括采集網(wǎng)址,采集內容。這個(gè)過(guò)程是獲得數據的過(guò)程。我們做規則,在采的過(guò)程中也算是對內容做了處理。
2、發(fā)布內容就是將數據發(fā)布到自己的峰會(huì )火車(chē)采集器 規則,CMS的過(guò)程,也是實(shí)現數據為已有的過(guò)程??梢杂肳EB在線(xiàn)發(fā)布火車(chē)采集器 規則,數據庫入庫或存為本地文件。
具體的使用似乎是太靈活的,可以按照實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置??傊?,具體過(guò)程由您而定,火車(chē)采集器的強悍功能之一也就是彰顯在靈活中。
新增功能
無(wú)限級多頁(yè)采集
任務(wù)隊列運行管理功能
無(wú)限級分組任務(wù)管理,任務(wù)回收站功能
RSS地址采集功能
列表頁(yè)分頁(yè)采集獲取功能
列表頁(yè)附加參數獲取功能
列表頁(yè)及標簽XPath可視化提取功能
標簽純正則替換功能
Http插口查看運行情況
導出記錄為單個(gè)或多個(gè)Txt、html 文件
標簽間自由組合功能
針對標簽內容繼續發(fā)送Http懇求功能 查看全部

數據抓取原理
火車(chē)采集器怎樣去抓取數據,取決于您的規則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采出來(lái),這就是采網(wǎng)址。程序按您的規則抓取列表頁(yè)面,從中剖析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內容。再按照您的采集規則,對下載到的網(wǎng)頁(yè)剖析,將標題內容等信息分離開(kāi)來(lái)并保存出來(lái)。如果您選擇了下載圖片等網(wǎng)路資源,程序會(huì )對采集到的數據進(jìn)行剖析,找出圖片,資源等的下載地址并下載到本地。
數據發(fā)布原理
在我們將數據采集下來(lái)后數據默認是保存在本地的,我們可以使用以下幾種方法對數據進(jìn)行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您若果只是查看數據,直接用相關(guān)軟件打開(kāi)查看即可。
2、Web發(fā)布到網(wǎng)站。程序會(huì )模仿瀏覽器向您的網(wǎng)站發(fā)送數據,可以實(shí)現您手工發(fā)布的療效。
3、直接入數據庫。您只需寫(xiě)幾個(gè)SQL句子,程序會(huì )將數據按您的SQL句子導出到數據庫中。
4、保存為本地文件。程序會(huì )讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程
火車(chē)采集器采集數據是分成兩個(gè)步驟的,一是采集數據,二是發(fā)布數據。這兩個(gè)過(guò)程是可以分開(kāi)的。
1、采集數據,這個(gè)包括采集網(wǎng)址,采集內容。這個(gè)過(guò)程是獲得數據的過(guò)程。我們做規則,在采的過(guò)程中也算是對內容做了處理。
2、發(fā)布內容就是將數據發(fā)布到自己的峰會(huì )火車(chē)采集器 規則,CMS的過(guò)程,也是實(shí)現數據為已有的過(guò)程??梢杂肳EB在線(xiàn)發(fā)布火車(chē)采集器 規則,數據庫入庫或存為本地文件。
具體的使用似乎是太靈活的,可以按照實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置??傊?,具體過(guò)程由您而定,火車(chē)采集器的強悍功能之一也就是彰顯在靈活中。
新增功能
無(wú)限級多頁(yè)采集
任務(wù)隊列運行管理功能
無(wú)限級分組任務(wù)管理,任務(wù)回收站功能
RSS地址采集功能
列表頁(yè)分頁(yè)采集獲取功能
列表頁(yè)附加參數獲取功能
列表頁(yè)及標簽XPath可視化提取功能
標簽純正則替換功能
Http插口查看運行情況
導出記錄為單個(gè)或多個(gè)Txt、html 文件
標簽間自由組合功能
針對標簽內容繼續發(fā)送Http懇求功能
火車(chē)頭采集器V7.6企業(yè)破解版
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 505 次瀏覽 ? 2020-05-27 08:03
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:875
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥火車(chē)采集器7.6破解版,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:876
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手火車(chē)采集器7.6破解版,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:877
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。
使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。 查看全部

火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:875
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥火車(chē)采集器7.6破解版,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:876
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手火車(chē)采集器7.6破解版,都在等待大神出現。
火車(chē)頭采集器V7.6企業(yè)破解版軟件庫房 windows 采集器 火車(chē)頭破解版 火車(chē)頭免費版 2019-03-21 閱讀:877
這個(gè)版本是火車(chē)頭免登錄直接破解版本,非常好用,做站群仍然用它!
火車(chē)頭數據采集器是一款互聯(lián)網(wǎng)數據抓取工具,火車(chē)頭軟件V7.6旗艦版,軟件功能強悍,操作簡(jiǎn)單,用戶(hù)通過(guò)軟件才能十分便捷快捷的進(jìn)行互聯(lián)網(wǎng)上任何數據的獲取、處理。有須要的小伙伴就趕快來(lái)下載啦。

使用火車(chē)頭采集器7.6破解版的同學(xué),這幾天火車(chē)頭群里好多人都出現了死機的情況,運行時(shí)間不定都會(huì )出現手動(dòng)退出。
在沒(méi)有死機之前,我發(fā)覺(jué)這個(gè)7.6破解版,就出現一些病癥,比如在標簽規則里使用正規則提取點(diǎn)擊保存,再打開(kāi)規則卻弄成了前后提取了。
提示:如果有能力還是建議你們用正版。
對于這個(gè)死機許多網(wǎng)友卻無(wú)從下手,都在等待大神出現。
火車(chē)頭采集器(Locoy Spider)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 599 次瀏覽 ? 2020-05-27 08:01
火車(chē)采集器是一款專(zhuān)業(yè)的網(wǎng)路數據采集/信息挖掘處理軟件,通過(guò)靈活的配置火車(chē)采集器8.6破解版,可以太輕松迅速地從網(wǎng) 頁(yè)上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺,各類(lèi)文件或其他數據庫系統中。被廣泛應用于數據采集挖掘、垂直搜索、 信息凝聚和門(mén)戶(hù)、企業(yè)網(wǎng)信息凝聚、商業(yè)情報、論壇或博客遷移、智能信息代理、個(gè)人信息檢索等領(lǐng)域,適用于各種對數據有采集挖掘需求的群體。
火車(chē)采集器軟件簡(jiǎn)介
火車(chē)采集器專(zhuān)注于數據采集領(lǐng)域,致力于幫助各種互聯(lián)網(wǎng)企業(yè),站長(cháng),網(wǎng)站編輯等提供數據采集解決方案及清除采集技術(shù)困局。積累了十萬(wàn)余免費顧客及逾萬(wàn)名 商業(yè)顧客火車(chē)采集器8.6破解版,產(chǎn)品及解決方案被華為軟件、阿里巴巴、網(wǎng)易、酷六網(wǎng)、中國科學(xué)技術(shù)信息研究所、總裝備部宣傳部等使用并認可,并常年為國外著(zhù)名互聯(lián)網(wǎng)企業(yè)提供數 據采集方案。自2005年11月21日發(fā)布第一版以來(lái),經(jīng)過(guò)十年多數十次的更新?lián)Q代升級,新發(fā)布的基于火車(chē)頭數據采集平臺的列車(chē)采集器V7版已產(chǎn)生具有非 常建立及強悍的功能特點(diǎn),以通用好用和良好的口碑聞名。
火車(chē)采集器程序功能上支持采集需要登陸查看的內容,支持偵測文件真實(shí)地址并下載遠程文件,支持二級隨機代理,支持采集數據直接入庫和模仿手工發(fā)布等許 多功能特性。同時(shí)又具有無(wú)限級網(wǎng)址采集、無(wú)限級多頁(yè)和分頁(yè)規則采集、POST采集、圖片文件添加水印、XPath可視化提取、正文辨識、ocr圖形圖象識 別,同義詞轉換翻譯偽原創(chuàng )等中級采集發(fā)布功能,可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取。強大的php和c#插件插口支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現 您對數據的萃取要求、定時(shí)任務(wù)及分布式采集客戶(hù)端又能保證您對數據的及時(shí)性及數據量的要求。
新版本列車(chē)采集器經(jīng)過(guò)一年的開(kāi)發(fā),終于和你們碰面了。新版本對程序進(jìn)行了完全的構建,升級為全新的采集平臺。軟件也改名為 火車(chē)頭數據采集平臺 ?;疖?chē)采集器是火車(chē)頭數據采集平臺的默認擴充。以后你們可以在該平臺上運行峰會(huì )采集器,微博采集器,XX采集器。企業(yè)用戶(hù)還可以使用我們提供的API,開(kāi) 發(fā)有自己特色的采集器在平臺上使用。
火車(chē)采集器軟件功能
1、無(wú)限級多頁(yè)采集,可以實(shí)現無(wú)限深度的采集。
2、任務(wù)隊列運行管理,支持Cron表達式。
3、無(wú)限級分組任務(wù)管理,任務(wù)回收站功能。
4、RSS地址采集功能。
5、列表頁(yè)分頁(yè)采集獲取功能。
6、列表頁(yè)附加參數獲取功能。
7、列表頁(yè)及標簽XPath可視化提取功能。
8、標簽純正則替換功能。
9、Http插口管理采集器運行。
10、導出記錄為單個(gè)或多個(gè)Txt、html 文件。
11、標簽間自由組合功能。
12、針對標簽內容繼續發(fā)送Http懇求功能。 查看全部

火車(chē)采集器是一款專(zhuān)業(yè)的網(wǎng)路數據采集/信息挖掘處理軟件,通過(guò)靈活的配置火車(chē)采集器8.6破解版,可以太輕松迅速地從網(wǎng) 頁(yè)上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺,各類(lèi)文件或其他數據庫系統中。被廣泛應用于數據采集挖掘、垂直搜索、 信息凝聚和門(mén)戶(hù)、企業(yè)網(wǎng)信息凝聚、商業(yè)情報、論壇或博客遷移、智能信息代理、個(gè)人信息檢索等領(lǐng)域,適用于各種對數據有采集挖掘需求的群體。
火車(chē)采集器軟件簡(jiǎn)介
火車(chē)采集器專(zhuān)注于數據采集領(lǐng)域,致力于幫助各種互聯(lián)網(wǎng)企業(yè),站長(cháng),網(wǎng)站編輯等提供數據采集解決方案及清除采集技術(shù)困局。積累了十萬(wàn)余免費顧客及逾萬(wàn)名 商業(yè)顧客火車(chē)采集器8.6破解版,產(chǎn)品及解決方案被華為軟件、阿里巴巴、網(wǎng)易、酷六網(wǎng)、中國科學(xué)技術(shù)信息研究所、總裝備部宣傳部等使用并認可,并常年為國外著(zhù)名互聯(lián)網(wǎng)企業(yè)提供數 據采集方案。自2005年11月21日發(fā)布第一版以來(lái),經(jīng)過(guò)十年多數十次的更新?lián)Q代升級,新發(fā)布的基于火車(chē)頭數據采集平臺的列車(chē)采集器V7版已產(chǎn)生具有非 常建立及強悍的功能特點(diǎn),以通用好用和良好的口碑聞名。
火車(chē)采集器程序功能上支持采集需要登陸查看的內容,支持偵測文件真實(shí)地址并下載遠程文件,支持二級隨機代理,支持采集數據直接入庫和模仿手工發(fā)布等許 多功能特性。同時(shí)又具有無(wú)限級網(wǎng)址采集、無(wú)限級多頁(yè)和分頁(yè)規則采集、POST采集、圖片文件添加水印、XPath可視化提取、正文辨識、ocr圖形圖象識 別,同義詞轉換翻譯偽原創(chuàng )等中級采集發(fā)布功能,可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取。強大的php和c#插件插口支持,讓您可以通過(guò)二次開(kāi)發(fā)實(shí)現 您對數據的萃取要求、定時(shí)任務(wù)及分布式采集客戶(hù)端又能保證您對數據的及時(shí)性及數據量的要求。
新版本列車(chē)采集器經(jīng)過(guò)一年的開(kāi)發(fā),終于和你們碰面了。新版本對程序進(jìn)行了完全的構建,升級為全新的采集平臺。軟件也改名為 火車(chē)頭數據采集平臺 ?;疖?chē)采集器是火車(chē)頭數據采集平臺的默認擴充。以后你們可以在該平臺上運行峰會(huì )采集器,微博采集器,XX采集器。企業(yè)用戶(hù)還可以使用我們提供的API,開(kāi) 發(fā)有自己特色的采集器在平臺上使用。

火車(chē)采集器軟件功能
1、無(wú)限級多頁(yè)采集,可以實(shí)現無(wú)限深度的采集。
2、任務(wù)隊列運行管理,支持Cron表達式。
3、無(wú)限級分組任務(wù)管理,任務(wù)回收站功能。
4、RSS地址采集功能。
5、列表頁(yè)分頁(yè)采集獲取功能。
6、列表頁(yè)附加參數獲取功能。
7、列表頁(yè)及標簽XPath可視化提取功能。
8、標簽純正則替換功能。
9、Http插口管理采集器運行。
10、導出記錄為單個(gè)或多個(gè)Txt、html 文件。
11、標簽間自由組合功能。
12、針對標簽內容繼續發(fā)送Http懇求功能。
火車(chē)頭網(wǎng)頁(yè)正則提取電話(huà) – 火車(chē)頭正則采集電話(huà)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 728 次瀏覽 ? 2020-05-25 08:01
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no 查看全部
話(huà)說(shuō)好長(cháng)時(shí)間不用火車(chē)頭了。都有點(diǎn)蒙逼忘了。記得曾經(jīng)用火車(chē)頭采集論壇做垃圾文章網(wǎng)站,都多少年前的事情了,如今須要采集一些手機號,想想懶得寫(xiě)PHP,有現成的工具為何不用對吧,沒(méi)毛病。
分分鐘搞定,咱們先熟悉一下火車(chē)頭的規則。
(?<content>[\s\S]*?)
Content //代表內容
? //表示匹配0次或則1次
\s //匹配所有空白字符
\S //匹配所有非空白字符
* //修飾匹配次數為 0 次或任意次
火車(chē)頭采集手機號的正則:(?<content>1[34578]{1}[0-9]{9})
火車(chē)頭采集郵箱的正則:(?<content>[\w\-\.]+@[\w\-\.]+\.\w+)
--------------------下方是正則表達式說(shuō)明。-----------------------
表1.常用的元字符代碼說(shuō)明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或頓號或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配詞組的開(kāi)始或結束
^ 匹配字符串的開(kāi)始$匹配字符串的結束
表2.常用的限定符代碼/語(yǔ)法說(shuō)明
* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次
表3.常用的反義代碼代碼/語(yǔ)法說(shuō)明
\W 匹配任意不是字母,數字,下劃線(xiàn),漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是詞組開(kāi)頭或結束的位置
[^x] 匹配不僅x以外的任意字符
[^aeiou] 匹配不僅aeiou這幾個(gè)字母以外的任意字符
常用分組句型
表5.懶惰限定符代碼/語(yǔ)法說(shuō)明
*? 重復任意次,但盡可能少重復
+? 重復1次或更多次,但盡可能少重復
?? 重復0次或1次,但盡可能少重復
{n,m}? 重復n到m次,但盡可能少重復
{n,}? 重復n次以上,但盡可能少重復
表7.尚未詳盡討論的句型代碼/語(yǔ)法說(shuō)明
\a 報案字符(打印它的療效是筆記本嘀一聲)
\b 一般是詞組分界位置,但若果在字符類(lèi)里使用代表退格
\t 制表符火車(chē)采集器 手機正則表達式,Tab
\r 回車(chē)
\v 豎向制表符
\f 換頁(yè)符
\n 換行符
\e Escape
\0nn ASCII代碼中八進(jìn)制代碼為nn的字符
\xnn ASCII代碼中十六進(jìn)制代碼為nn的字符
\unnnn Unicode代碼中十六進(jìn)制代碼為nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項的影響)
\Z 字符串結尾或行尾(不受處理多行選項的影響)
\z 字符串結尾(類(lèi)似$火車(chē)采集器 手機正則表達式,但不受處理多行選項的影響)
\G 當前搜索的開(kāi)頭
\p{name} Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
(?>exp) 貪婪子表達式(?<x>-<y>exp)平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 為表達式旁邊的部份改變處理選項
(?(exp)yes|no) 把exp當成零寬正向先行斷定,如果在這個(gè)位置能匹配,使用yes作為此組的表達式;否則使用no(?(exp)yes)同上,只是使用空表達式作為no
(?(name)yes|no) 假如命名為name的組捕獲到了內容,使用yes作為表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作為no
火車(chē)頭按作者采集今日頭條全部文章的方式
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1084 次瀏覽 ? 2020-05-22 08:03
填寫(xiě)內容頁(yè)采集規則。
在瀏覽器打開(kāi)一篇文章,右鍵選擇“查看源代碼”?;疖?chē)頭采集器切換到“采集內容”選項卡,根據源代碼填寫(xiě)標題、正文、等規則。
需要注意的是填寫(xiě)“內容”采集規則時(shí),需要勾選“下載圖片選項”并設置好圖片保存的文件夾路徑和文件名。
填寫(xiě)發(fā)布規則,這步須要事先下載“WordPress免登錄發(fā)布模塊”并裝入火車(chē)頭采集器目錄Module文件夾中?;疖?chē)頭采集器切換到“發(fā)布內容設置”選項卡,勾選“啟用方法一:web在線(xiàn)發(fā)布到網(wǎng)站”,點(diǎn)擊“web發(fā)布配置”文章采集規則,在彈出對話(huà)框中選擇“WordPress4.X免登錄”,編碼模式設為“UTF-8”,網(wǎng)站根地址填寫(xiě)你博客的首頁(yè)地址,然后保存并選擇該發(fā)布配置。
將免登錄發(fā)布模塊般配套的文件“past.php”上傳到網(wǎng)站根目錄。
回到火車(chē)頭采集器,勾選采集網(wǎng)址、采集內容和發(fā)布三個(gè)復選框,點(diǎn)擊工具欄“開(kāi)始按鍵”,稍等幾分鐘,所有文章均被采集并發(fā)布到自建WordPress網(wǎng)站上,所有圖片均下載到設置的文件夾內。
最后通過(guò)FTP工具把所有圖片上傳到對應目錄,至此,今日頭條發(fā)布的所有文章均被同步到自建網(wǎng)站上。
文章所需工具以及根據本教程生成的采集規則均已打包上傳百度網(wǎng)盤(pán)(平臺不容許填寫(xiě)鏈接)文章采集規則,如有須要可以留下聯(lián)系方法或去9SiR博客下載,本文教程及軟件僅供交流學(xué)習使用,請勿用于惡意用途,否則后果自負。如果有這方面問(wèn)題的,歡迎到評論市留言。
文/九哥9SiR,未經(jīng)許可,轉載必究。如果你有疑問(wèn)請留言,如果認為本文有用,請轉發(fā)或收藏吧! 查看全部

填寫(xiě)內容頁(yè)采集規則。
在瀏覽器打開(kāi)一篇文章,右鍵選擇“查看源代碼”。火車(chē)頭采集器切換到“采集內容”選項卡,根據源代碼填寫(xiě)標題、正文、等規則。

需要注意的是填寫(xiě)“內容”采集規則時(shí),需要勾選“下載圖片選項”并設置好圖片保存的文件夾路徑和文件名。

填寫(xiě)發(fā)布規則,這步須要事先下載“WordPress免登錄發(fā)布模塊”并裝入火車(chē)頭采集器目錄Module文件夾中?;疖?chē)頭采集器切換到“發(fā)布內容設置”選項卡,勾選“啟用方法一:web在線(xiàn)發(fā)布到網(wǎng)站”,點(diǎn)擊“web發(fā)布配置”文章采集規則,在彈出對話(huà)框中選擇“WordPress4.X免登錄”,編碼模式設為“UTF-8”,網(wǎng)站根地址填寫(xiě)你博客的首頁(yè)地址,然后保存并選擇該發(fā)布配置。

將免登錄發(fā)布模塊般配套的文件“past.php”上傳到網(wǎng)站根目錄。
回到火車(chē)頭采集器,勾選采集網(wǎng)址、采集內容和發(fā)布三個(gè)復選框,點(diǎn)擊工具欄“開(kāi)始按鍵”,稍等幾分鐘,所有文章均被采集并發(fā)布到自建WordPress網(wǎng)站上,所有圖片均下載到設置的文件夾內。

最后通過(guò)FTP工具把所有圖片上傳到對應目錄,至此,今日頭條發(fā)布的所有文章均被同步到自建網(wǎng)站上。

文章所需工具以及根據本教程生成的采集規則均已打包上傳百度網(wǎng)盤(pán)(平臺不容許填寫(xiě)鏈接)文章采集規則,如有須要可以留下聯(lián)系方法或去9SiR博客下載,本文教程及軟件僅供交流學(xué)習使用,請勿用于惡意用途,否則后果自負。如果有這方面問(wèn)題的,歡迎到評論市留言。
文/九哥9SiR,未經(jīng)許可,轉載必究。如果你有疑問(wèn)請留言,如果認為本文有用,請轉發(fā)或收藏吧!
火車(chē)頭采集器顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 964 次瀏覽 ? 2020-05-22 08:02
火車(chē)頭采集問(wèn)題
我在web發(fā)布配置上面,跟著(zhù)視頻走的,為什么點(diǎn)擊獲取列表的時(shí)侯總是顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查配置!求指點(diǎn)!有人說(shuō),如果模塊沒(méi)有問(wèn)題,可能模塊和火車(chē)頭版本不兼容。用低版本的試試!我用8.4版本、V9版本也都不行,直接填寫(xiě)Id也不行!這是如何回事呢?
欄目列表獲取不到怎樣辦
請前輩進(jìn)來(lái)解說(shuō)下通常獲取欄目列表的幾種技巧。
一般簡(jiǎn)單的我還可以寫(xiě)下來(lái)獲取到欄目列表,但是有些后臺是框架結構,不知道象這樣的后臺如何獲取到欄目列表呢?求前輩指教啊有時(shí)候做下來(lái)的發(fā)布模塊通過(guò)火車(chē)頭外置瀏覽器登陸了半天也不成功,出現獲取不到網(wǎng)站分類(lèi)ID(如下圖1),發(fā)布文章不成功(如下圖2),這時(shí)候怎樣辦呢?莫非是發(fā)布模塊有問(wèn)題?如果發(fā)布模塊沒(méi)有問(wèn)題,應該如何解決呢?本節就來(lái)幫你們解決“wordpress火車(chē)頭發(fā)布模塊登陸不成功的問(wèn)題。
火車(chē)頭問(wèn)題解決方式
下載 http數據抓包軟件iddler ,現在最新版是4.51 ,安裝好打開(kāi)(怎么使用可以參閱下網(wǎng)上的相關(guān)教程)。
然后打開(kāi)網(wǎng)站后臺步入“寫(xiě)文章”頁(yè)面,
然后刷新這個(gè)“寫(xiě)文章”頁(yè)面,fiddler抓包工具都會(huì )抓取到頁(yè)面刷新時(shí)的網(wǎng)路信息數據用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,如下圖:
如上圖,找到一側的 /wp-admin/post-new.php 用鍵盤(pán)左鍵點(diǎn)擊一下它,然后,點(diǎn)擊兩側的” inspectors “按鈕,再點(diǎn)擊“ Raw ”按鈕,這時(shí)兩側會(huì )顯示抓包到的COOKIE信息(如上圖)用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,然后,我們可以點(diǎn)擊率“ view in notepad ”按鍵,以txt文本打開(kāi)COOKIE信息數據:
然后,把上圖中的 User-Agent 后的數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的User-Agent中(如下圖),再把COOKIE信息數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的 COOKIE中:
然后保存配置,再點(diǎn)擊一下上圖中的“獲取列表”測試一下是否聯(lián)接成功,如果聯(lián)接成功都會(huì )顯示你的網(wǎng)站的分類(lèi)下拉列表:
好了,問(wèn)題到此解決。希望對你有所幫助哦。呵呵,如果解決了你的問(wèn)題,就點(diǎn)個(gè)贊吧。呵呵呵你們可以加我陌陌:g_abc483。交流更多網(wǎng)站優(yōu)化和營(yíng)銷(xiāo)知識。 查看全部

火車(chē)頭采集問(wèn)題
我在web發(fā)布配置上面,跟著(zhù)視頻走的,為什么點(diǎn)擊獲取列表的時(shí)侯總是顯示:沒(méi)有獲取到任何分類(lèi)列表,請復查配置!求指點(diǎn)!有人說(shuō),如果模塊沒(méi)有問(wèn)題,可能模塊和火車(chē)頭版本不兼容。用低版本的試試!我用8.4版本、V9版本也都不行,直接填寫(xiě)Id也不行!這是如何回事呢?

欄目列表獲取不到怎樣辦
請前輩進(jìn)來(lái)解說(shuō)下通常獲取欄目列表的幾種技巧。
一般簡(jiǎn)單的我還可以寫(xiě)下來(lái)獲取到欄目列表,但是有些后臺是框架結構,不知道象這樣的后臺如何獲取到欄目列表呢?求前輩指教啊有時(shí)候做下來(lái)的發(fā)布模塊通過(guò)火車(chē)頭外置瀏覽器登陸了半天也不成功,出現獲取不到網(wǎng)站分類(lèi)ID(如下圖1),發(fā)布文章不成功(如下圖2),這時(shí)候怎樣辦呢?莫非是發(fā)布模塊有問(wèn)題?如果發(fā)布模塊沒(méi)有問(wèn)題,應該如何解決呢?本節就來(lái)幫你們解決“wordpress火車(chē)頭發(fā)布模塊登陸不成功的問(wèn)題。
火車(chē)頭問(wèn)題解決方式
下載 http數據抓包軟件iddler ,現在最新版是4.51 ,安裝好打開(kāi)(怎么使用可以參閱下網(wǎng)上的相關(guān)教程)。
然后打開(kāi)網(wǎng)站后臺步入“寫(xiě)文章”頁(yè)面,
然后刷新這個(gè)“寫(xiě)文章”頁(yè)面,fiddler抓包工具都會(huì )抓取到頁(yè)面刷新時(shí)的網(wǎng)路信息數據用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,如下圖:

如上圖,找到一側的 /wp-admin/post-new.php 用鍵盤(pán)左鍵點(diǎn)擊一下它,然后,點(diǎn)擊兩側的” inspectors “按鈕,再點(diǎn)擊“ Raw ”按鈕,這時(shí)兩側會(huì )顯示抓包到的COOKIE信息(如上圖)用火車(chē)采集器發(fā)布信息時(shí) 如何獲取網(wǎng)站欄目id,然后,我們可以點(diǎn)擊率“ view in notepad ”按鍵,以txt文本打開(kāi)COOKIE信息數據:
然后,把上圖中的 User-Agent 后的數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的User-Agent中(如下圖),再把COOKIE信息數據復制到你的網(wǎng)站火車(chē)頭的“Web發(fā)布配置管理”中的 COOKIE中:
然后保存配置,再點(diǎn)擊一下上圖中的“獲取列表”測試一下是否聯(lián)接成功,如果聯(lián)接成功都會(huì )顯示你的網(wǎng)站的分類(lèi)下拉列表:
好了,問(wèn)題到此解決。希望對你有所幫助哦。呵呵,如果解決了你的問(wèn)題,就點(diǎn)個(gè)贊吧。呵呵呵你們可以加我陌陌:g_abc483。交流更多網(wǎng)站優(yōu)化和營(yíng)銷(xiāo)知識。
火車(chē)頭文章采集規則分享? - 搜外問(wèn)答
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 502 次瀏覽 ? 2020-05-19 08:03
第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。 查看全部

第一步、打開(kāi)火車(chē)頭采集器,點(diǎn)擊【新建】創(chuàng )建一個(gè)新任務(wù),填寫(xiě)一個(gè)任務(wù)名,設置采集網(wǎng)址規則,分別設置列表頁(yè)采集規則和列表頁(yè)所在的文章頁(yè)規則,分為以下兩個(gè)步驟。
步驟1:添加起始網(wǎng)址,點(diǎn)擊【添加】,選擇批量/多頁(yè),在地址格式設置須要采集的網(wǎng)頁(yè)鏈接,點(diǎn)擊【添加】和【完成】即可。此步驟目的是確立有多少個(gè)欄目分頁(yè)鏈接。
采集網(wǎng)頁(yè)鏈接方法說(shuō)明:首先確定要采集的網(wǎng)頁(yè)欄目頁(yè),分別查看欄目分頁(yè)1、分頁(yè)2和分頁(yè)3鏈接規律,對比后會(huì )發(fā)覺(jué)分頁(yè)2和分頁(yè)3鏈接太象,只有2和3變化了(分頁(yè)1雖然也是這么,為了SEO格式通常做了隱藏,所以分頁(yè)1和欄目首頁(yè)鏈接一致)可以剖析是根據等差數列排列,其實(shí)絕大多數的網(wǎng)站欄目頁(yè)分頁(yè)都是等差數列來(lái)排列的,包括尹華峰博客也是這么。因此火車(chē)采集器 規則,在填寫(xiě)規則是選擇等差數列,在地址格式處填寫(xiě)分頁(yè)2的鏈接,將變化的數字用(*)代替,根據欄目分頁(yè)的多少設置項數即可。
步驟2:多級網(wǎng)址獲取,點(diǎn)擊【添加】,選擇網(wǎng)址獲取選項,添加提取網(wǎng)址的規則,使用熟練后建議使用結果網(wǎng)址過(guò)濾功能,將須要包含的網(wǎng)址和毋須包含的網(wǎng)址寫(xiě)進(jìn)去,可以測試一下規則是否填寫(xiě)正確,然后保存即可。此步驟目的是確立每位欄目下的文章頁(yè)鏈接。
多級網(wǎng)址獲取方法說(shuō)明:我們要獲取的是該欄目下的文章頁(yè)鏈接,去原網(wǎng)頁(yè)查看欄目分頁(yè)的源代碼,在該源碼頁(yè)找到第一篇文章頁(yè)鏈接的位置,然后在里面選定一小段通用代碼,一定是每位欄目頁(yè)就會(huì )出現的代碼,通常的表現形式會(huì )帶有list或則article的代碼。
火車(chē)頭采集器內容規則設置
第二步、設置采集內容規則,可以在典型頁(yè)面處填寫(xiě)一篇文章頁(yè)鏈接進(jìn)行測試,分別設置標題采集規則和內容采集規則,也分為兩個(gè)步驟。
步驟a:雙擊【標題】標簽,一般網(wǎng)頁(yè)的標題是<title>標簽,所以這一步可以默認,如果有須要的話(huà)是可以設置內容過(guò)濾,以及內容替換的。
步驟b:雙擊【內容】標簽,內容提取規則和第一步的步驟2多級網(wǎng)址獲取方式是一樣的。這里是獲取內容,所以是查看內容頁(yè)的源代碼,在該頁(yè)面找到正文內容,在正文首段里面截取一小段通用代碼,該代碼也是所有文章頁(yè)就會(huì )出現的,通常的表現形式是article標簽為起始,</article>為結束。同樣也可以設置內容過(guò)濾、內容替換以及標簽過(guò)濾等,將不需要的信息過(guò)濾掉。如不需要圖片,可以勾選過(guò)濾掉img圖片標簽。
火車(chē)頭采集器發(fā)布內容設置
第三步、發(fā)布內容設置,勾選須要啟用的發(fā)布形式,保存即可火車(chē)采集器 規則,然后在任務(wù)列表處右鍵任務(wù)名,點(diǎn)擊【開(kāi)始任務(wù)】等待采集完成。
注,火車(chē)頭采集器發(fā)布內容分為兩個(gè)形式,方式一是web在線(xiàn)發(fā)布到網(wǎng)站,需要添加發(fā)布配置。新手不建議直接發(fā)布到網(wǎng)站,建議勾選第二個(gè)保存為本地。至于文件模板可以【查看默認模板】,然后選擇TXT格式即可。
結語(yǔ):火車(chē)頭采集器功能非常強悍,除了采集文章還可以采集視頻等,火車(chē)頭采集器使用規則并不難,根本不需要懂哪些編程之類(lèi)的語(yǔ)言,只需能讀懂一些常用的簡(jiǎn)單代碼即可,操作一兩次基本可以完全把握,是一款非常棒的SEO工具。作為網(wǎng)站優(yōu)化人員,我們采集文章后可以對內容進(jìn)行更改和調整,讓內容愈加建立,同時(shí)也可以大大提升SEO人員的工作效率?;疖?chē)頭采集器使用方式就介紹到這兒了,不懂的同學(xué)可以下方留言,盡我所知給與解答。
火車(chē)頭采集器破解版死機解決辦法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 826 次瀏覽 ? 2020-05-16 08:00
火車(chē)頭采集器破解版掉幀問(wèn)題解決辦法
2017年5月以來(lái)火車(chē)采集器打不開(kāi),火車(chē)頭采集器V7、v8等版本的破解版程序在采集或發(fā)布過(guò)程中會(huì )出現掉幀問(wèn)題。采集發(fā)布任務(wù)基本未能順利完成,更別提24小時(shí)手動(dòng)采集了,那么火車(chē)頭采集器破解版死機問(wèn)題要如何解決呢?
打開(kāi)C:\Windows\System32\drivers\etc文件夾火車(chē)采集器打不開(kāi),找到hosts文件,將以下代碼粘貼到文件末尾保存并重啟火車(chē)頭即可解決掉幀問(wèn)題。
127.0.0.1 file.locoy.com
127.0.0.1 *.locoy.com
127.0.0.1 *.locoy.com*
127.0.0.1 log.locoy.com
127.0.0.1 61.191.55.91
127.0.0.1 61.191.55.*
127.0.0.1 file1.locoy.com
127.0.0.1 file2.locoy.com
127.0.0.1 file3.locoy.com
127.0.0.1 file4.locoy.com
127.0.0.1 file5.locoy.com
127.0.0.1 file6.locoy.com
127.0.0.1 file7.locoy.com
127.0.0.1 file8.locoy.com
127.0.0.1 file9.locoy.com
127.0.0.1 file10.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 www.locoy.com
127.0.0.1 check.locoy.com
127.0.0.1 61.191.55.91:818
本文標題:火車(chē)頭采集器破解版死機解決辦法
本文地址: 查看全部

火車(chē)頭采集器破解版掉幀問(wèn)題解決辦法
2017年5月以來(lái)火車(chē)采集器打不開(kāi),火車(chē)頭采集器V7、v8等版本的破解版程序在采集或發(fā)布過(guò)程中會(huì )出現掉幀問(wèn)題。采集發(fā)布任務(wù)基本未能順利完成,更別提24小時(shí)手動(dòng)采集了,那么火車(chē)頭采集器破解版死機問(wèn)題要如何解決呢?
打開(kāi)C:\Windows\System32\drivers\etc文件夾火車(chē)采集器打不開(kāi),找到hosts文件,將以下代碼粘貼到文件末尾保存并重啟火車(chē)頭即可解決掉幀問(wèn)題。
127.0.0.1 file.locoy.com
127.0.0.1 *.locoy.com
127.0.0.1 *.locoy.com*
127.0.0.1 log.locoy.com
127.0.0.1 61.191.55.91
127.0.0.1 61.191.55.*
127.0.0.1 file1.locoy.com
127.0.0.1 file2.locoy.com
127.0.0.1 file3.locoy.com
127.0.0.1 file4.locoy.com
127.0.0.1 file5.locoy.com
127.0.0.1 file6.locoy.com
127.0.0.1 file7.locoy.com
127.0.0.1 file8.locoy.com
127.0.0.1 file9.locoy.com
127.0.0.1 file10.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 update.locoy.com
127.0.0.1 www.locoy.com
127.0.0.1 check.locoy.com
127.0.0.1 61.191.55.91:818
本文標題:火車(chē)頭采集器破解版死機解決辦法
本文地址:
火車(chē)頭采集器 v9.1 破解版免費下載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 363 次瀏覽 ? 2020-05-14 08:09
火車(chē)頭采集器功能說(shuō)明:
1、支持采集數據直接入庫和模仿手工發(fā)布等許多功能特性
2、可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取
3、能夠快速的對網(wǎng)頁(yè)上數據信息進(jìn)行規范性的采集
4、完善采集包括文本、圖片、文件等信息
5、擁有強悍的采集功能,能夠采集那些須要登錄能夠查看的內容信息
6.能夠解析文件真實(shí)地址而且下載
火車(chē)頭采集器功能說(shuō)明:
1、全手動(dòng)
無(wú)人值守工作,配置好程序后火車(chē)采集器,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。
2、本地編輯
本地可視化編輯已采集的數據。
3、采集測試
這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。
4、管理便捷
使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作火車(chē)采集器,再多的數據管理也太輕松。
5、支持所有網(wǎng)站編碼
完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。
6、多種發(fā)布形式
支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。 查看全部
火車(chē)頭采集器是一款用于網(wǎng)頁(yè)數據采集的專(zhuān)業(yè)工具?;疖?chē)頭采集器可以帶給用戶(hù)最出色的網(wǎng)頁(yè)采集機制,對網(wǎng)頁(yè)中的各類(lèi)信息都才能完整建立的采集下來(lái),功能非常強悍,多樣化的特點(diǎn)帶來(lái)更全面的采集工作輔助。
火車(chē)頭采集器功能說(shuō)明:
1、支持采集數據直接入庫和模仿手工發(fā)布等許多功能特性
2、可以完成您在瀏覽器內能看見(jiàn)的各種信息的提取
3、能夠快速的對網(wǎng)頁(yè)上數據信息進(jìn)行規范性的采集
4、完善采集包括文本、圖片、文件等信息
5、擁有強悍的采集功能,能夠采集那些須要登錄能夠查看的內容信息
6.能夠解析文件真實(shí)地址而且下載
火車(chē)頭采集器功能說(shuō)明:
1、全手動(dòng)
無(wú)人值守工作,配置好程序后火車(chē)采集器,程序將根據您的設置手動(dòng)運行,完全無(wú)需人工干預。
2、本地編輯
本地可視化編輯已采集的數據。
3、采集測試
這是其它任何同類(lèi)采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。
4、管理便捷
使用站點(diǎn)+任務(wù)形式管理采集節點(diǎn),任務(wù)支持批量操作火車(chē)采集器,再多的數據管理也太輕松。
5、支持所有網(wǎng)站編碼
完美支持采集所有編碼格式的網(wǎng)頁(yè),程序還可以手動(dòng)辨識網(wǎng)頁(yè)編碼。
6、多種發(fā)布形式
支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過(guò)系統的發(fā)布模塊能實(shí)現采集器和網(wǎng)站程序間的完美結合。
火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1145 次瀏覽 ? 2020-04-29 11:04
教程總目錄:火車(chē)頭采集器使用教程
我們首先打開(kāi)一篇文章,看看他的基本結構:標題和內容起始,以及是否有重復。
從右圖可以見(jiàn)到有標題重復,以及我們不需要的內容(他的廣告)
我們查看網(wǎng)頁(yè)的源代碼,CTRL+U
先搜索標題,看看標題都在什么位置
可以見(jiàn)到有三個(gè)位置都是標題,看到這三個(gè)位置,分析下前后的內容。最終我選擇了第三個(gè)作為采集標題的位置。
因為前后和其他文章更不容易出現不同的情況。避免出現某些文章采集標題為空的情況。
我們打開(kāi)火車(chē)頭采集器
將<h3>作為標題的開(kāi)頭字符串
</h3>作為標題的結尾字符串
這兩個(gè)字符串之間的內容,火車(chē)頭會(huì )全采集下來(lái),當做標題。所以不要選擇錯了
我們可以復制文章鏈接,在火車(chē)頭里先測試下標題才是是否正確。
在下邊有填測試聯(lián)接的位置
我們看見(jiàn)標題采集沒(méi)問(wèn)題
下面開(kāi)始找內容的采集規則
在文章頁(yè)面源代碼里我們搜索內容上面幾個(gè)字,發(fā)現有兩個(gè)位置,一個(gè)是底部的頁(yè)面描述,一個(gè)是真正的正文開(kāi)始位置。當然用下邊這個(gè)啦
下面這個(gè)正文開(kāi)始前的是他網(wǎng)站的廣告火車(chē)頭采集教程火車(chē)頭采集教程,我們要在廣告前面選定位置開(kāi)始采集
記得那句話(huà),火車(chē)頭會(huì )從你選定的位置,采集下來(lái)上面所有的字符!所以位置要選對!
我們選擇<div>最為采集起始位置,這個(gè)恰好也是實(shí)際正文內容的起始位置,并且在源碼里搜索不到第二處!
將<div>填入火車(chē)頭正文采集規則的開(kāi)頭字符串
然后是正文結束的位置
正文在這里結束,因為結束恰好是一段代碼,所以看著(zhù)可能比較亂。
請注意,搜索內容時(shí),空格不要帶,在源碼里空格是其他的字符串,會(huì )出現搜索不到的情況。
我們就選擇正文結束后的<div>作為火車(chē)頭采集結尾字符串
這個(gè)字符串在源碼里沒(méi)有其他重復位置,并且是正文DIV結束后的第一個(gè)內容!
下面我們測試一下內容的采集,看看療效
然后會(huì )發(fā)覺(jué)內容里有好多多余的字符款式之類(lèi)。
查看內容可以點(diǎn)擊內容前面的那種三個(gè)點(diǎn),就可以下來(lái)個(gè)窗口查看了
我們須要對內容進(jìn)行一下過(guò)濾
過(guò)濾掉不需要的字符
就是這個(gè)html標簽過(guò)濾
我們過(guò)濾掉:鏈接a標簽、圖像img標簽、字體font標簽、腳本script標簽、層DIV標簽、Span標簽
具體須要過(guò)濾什么,根據你采集的文章來(lái)決定,每個(gè)網(wǎng)站他發(fā)文習慣都不一樣。
這里我過(guò)濾掉圖片,并且沒(méi)有做文件下載(圖片下載)是因為圖片下載,需要單獨開(kāi)一篇文章來(lái)寫(xiě)。
我們在測試一下瞧瞧采集內容的療效
可以看見(jiàn)還是有字體相關(guān)的標簽存在,但是他是以<p開(kāi)頭的,還負責文章的段落作用。這里就沒(méi)辦法通過(guò)火車(chē)頭進(jìn)行過(guò)濾了。不過(guò)也沒(méi)啥影響。
到這兒文章標題和正文內容的采集規則就結束了。后續內容請查看教程總目錄
現在晚上12點(diǎn)了,停一下明日我再繼續寫(xiě)。 查看全部
火車(chē)頭采集器使用教程–分析目標網(wǎng)站要采集內容的位置及規則
教程總目錄:火車(chē)頭采集器使用教程
我們首先打開(kāi)一篇文章,看看他的基本結構:標題和內容起始,以及是否有重復。
從右圖可以見(jiàn)到有標題重復,以及我們不需要的內容(他的廣告)

我們查看網(wǎng)頁(yè)的源代碼,CTRL+U
先搜索標題,看看標題都在什么位置


可以見(jiàn)到有三個(gè)位置都是標題,看到這三個(gè)位置,分析下前后的內容。最終我選擇了第三個(gè)作為采集標題的位置。
因為前后和其他文章更不容易出現不同的情況。避免出現某些文章采集標題為空的情況。

我們打開(kāi)火車(chē)頭采集器
將<h3>作為標題的開(kāi)頭字符串
</h3>作為標題的結尾字符串
這兩個(gè)字符串之間的內容,火車(chē)頭會(huì )全采集下來(lái),當做標題。所以不要選擇錯了

我們可以復制文章鏈接,在火車(chē)頭里先測試下標題才是是否正確。
在下邊有填測試聯(lián)接的位置

我們看見(jiàn)標題采集沒(méi)問(wèn)題

下面開(kāi)始找內容的采集規則
在文章頁(yè)面源代碼里我們搜索內容上面幾個(gè)字,發(fā)現有兩個(gè)位置,一個(gè)是底部的頁(yè)面描述,一個(gè)是真正的正文開(kāi)始位置。當然用下邊這個(gè)啦

下面這個(gè)正文開(kāi)始前的是他網(wǎng)站的廣告火車(chē)頭采集教程火車(chē)頭采集教程,我們要在廣告前面選定位置開(kāi)始采集
記得那句話(huà),火車(chē)頭會(huì )從你選定的位置,采集下來(lái)上面所有的字符!所以位置要選對!
我們選擇<div>最為采集起始位置,這個(gè)恰好也是實(shí)際正文內容的起始位置,并且在源碼里搜索不到第二處!

將<div>填入火車(chē)頭正文采集規則的開(kāi)頭字符串

然后是正文結束的位置

正文在這里結束,因為結束恰好是一段代碼,所以看著(zhù)可能比較亂。
請注意,搜索內容時(shí),空格不要帶,在源碼里空格是其他的字符串,會(huì )出現搜索不到的情況。

我們就選擇正文結束后的<div>作為火車(chē)頭采集結尾字符串
這個(gè)字符串在源碼里沒(méi)有其他重復位置,并且是正文DIV結束后的第一個(gè)內容!

下面我們測試一下內容的采集,看看療效
然后會(huì )發(fā)覺(jué)內容里有好多多余的字符款式之類(lèi)。
查看內容可以點(diǎn)擊內容前面的那種三個(gè)點(diǎn),就可以下來(lái)個(gè)窗口查看了

我們須要對內容進(jìn)行一下過(guò)濾
過(guò)濾掉不需要的字符
就是這個(gè)html標簽過(guò)濾

我們過(guò)濾掉:鏈接a標簽、圖像img標簽、字體font標簽、腳本script標簽、層DIV標簽、Span標簽
具體須要過(guò)濾什么,根據你采集的文章來(lái)決定,每個(gè)網(wǎng)站他發(fā)文習慣都不一樣。
這里我過(guò)濾掉圖片,并且沒(méi)有做文件下載(圖片下載)是因為圖片下載,需要單獨開(kāi)一篇文章來(lái)寫(xiě)。
我們在測試一下瞧瞧采集內容的療效

可以看見(jiàn)還是有字體相關(guān)的標簽存在,但是他是以<p開(kāi)頭的,還負責文章的段落作用。這里就沒(méi)辦法通過(guò)火車(chē)頭進(jìn)行過(guò)濾了。不過(guò)也沒(méi)啥影響。
到這兒文章標題和正文內容的采集規則就結束了。后續內容請查看教程總目錄
現在晚上12點(diǎn)了,停一下明日我再繼續寫(xiě)。
phpcms V9 火車(chē)頭免登入采集發(fā)布教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 665 次瀏覽 ? 2020-04-29 11:03
phpcms因為后臺發(fā)布須要用到hash值,這個(gè)值對不上,發(fā)布會(huì )不成功,如果根據抓取cookie值登陸發(fā)布,可能須要時(shí)常換非常不便捷,需要有一個(gè)更方便的發(fā)布形式,本文就是介紹如此一個(gè)免登錄的插件形式。插件功兩部份,一個(gè)php文件須要上傳到網(wǎng)站目錄(具體那個(gè)目錄可以自定義為了便捷建議置于根目錄),文件名為了避免惡意發(fā)布可以自定義(一般沒(méi)必要);文件中重要的是插口密碼,這個(gè)也可以更改而且要記住自己更改了火車(chē)頭采集教程,在發(fā)布模塊里設置的須要一致就能發(fā)布成功
wpm是火車(chē)頭發(fā)布形式的模板文件,只須要在web發(fā)布模塊下右上角:更多》導入 ,即可
最后須要設置的是,1須要跟前面php文件中的密碼一樣,2位置路徑要對(如果更改了文件名和目錄),設置完可以點(diǎn)擊3獲取列表檢驗是否正?;疖?chē)頭采集教程,最后保存配置即可。
最后附上PHPCMS免登錄
phpcms V9 火車(chē)頭免登錄采集發(fā)布教程 查看全部
火車(chē)頭采集器是站長(cháng)文章發(fā)布神器,有了它更新文章都是一批一批的,對于采集來(lái)的文章,建議還是做些偽原創(chuàng )的處理,比如攪亂一下文章次序,增減、替換一些東西,效果能夠更好。關(guān)于采集主要有兩部份工作,一是采集,二是發(fā)布。采集主要是瞄準目標網(wǎng)站編寫(xiě)采集規則,發(fā)布指的是將采集的數據發(fā)布到網(wǎng)站數據庫里。
phpcms因為后臺發(fā)布須要用到hash值,這個(gè)值對不上,發(fā)布會(huì )不成功,如果根據抓取cookie值登陸發(fā)布,可能須要時(shí)常換非常不便捷,需要有一個(gè)更方便的發(fā)布形式,本文就是介紹如此一個(gè)免登錄的插件形式。插件功兩部份,一個(gè)php文件須要上傳到網(wǎng)站目錄(具體那個(gè)目錄可以自定義為了便捷建議置于根目錄),文件名為了避免惡意發(fā)布可以自定義(一般沒(méi)必要);文件中重要的是插口密碼,這個(gè)也可以更改而且要記住自己更改了火車(chē)頭采集教程,在發(fā)布模塊里設置的須要一致就能發(fā)布成功
wpm是火車(chē)頭發(fā)布形式的模板文件,只須要在web發(fā)布模塊下右上角:更多》導入 ,即可
最后須要設置的是,1須要跟前面php文件中的密碼一樣,2位置路徑要對(如果更改了文件名和目錄),設置完可以點(diǎn)擊3獲取列表檢驗是否正?;疖?chē)頭采集教程,最后保存配置即可。
最后附上PHPCMS免登錄
phpcms V9 火車(chē)頭免登錄采集發(fā)布教程
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 394 次瀏覽 ? 2020-04-28 11:03
********************************************************************
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
Finishied by Victor QQ:99767290
******************************************************************************
由于本教程是以實(shí)戰演練為主的火車(chē)頭采集教程,所以對于基礎知識部份,我們只能是粗放性的做一些講解,等諸位火車(chē)頭旅客對一些基本概念和操作流程有個(gè)初步的人時(shí)侯,我們在做一些方法上的闡述,當然這也離不開(kāi)我們自身的求知的欲望與火車(chē)頭諸位熱心前輩的幫助,,好了正題就不說(shuō)了,我門(mén)來(lái)講一下明天課程的主要內容:
1、了解在線(xiàn)發(fā)布的基本工作流程;
2、掌握基本的在線(xiàn)發(fā)布模塊的制做;
********************************************************************************************
一、了解CMS文章發(fā)布的基本工作流程
說(shuō)到火車(chē)頭的在線(xiàn)發(fā)布流程,我們很容易想到,我們在例如DEDECMS、PHPCMS等CMS(Content ManageSystem內容管理系統)的后臺發(fā)布一篇文章的基本流程,因為火車(chē)頭在線(xiàn)發(fā)布的流程基本上是和我們一般進(jìn)行的文章發(fā)布的流程是一樣的,我們來(lái)實(shí)際操作一下:
視頻“CMS文章發(fā)布”地址:
通過(guò)前面的操作,我們可以對后臺發(fā)布文章的基本流程做一下小結:
------------------------------------------------------------------------------
1、登陸后臺:
a、輸入訪(fǎng)問(wèn)后臺管理的路徑,這里是:
b、輸入用戶(hù)名和密碼的相關(guān)信息,有的需輸入驗證碼和Cookies有效期。
c、登陸到后臺管理頁(yè)面。
注:火車(chē)頭在這里不僅須要獲取用戶(hù)名、密碼、驗證碼等信息、還須要獲取Cookies信息(Cookies的概念我們在后面述說(shuō)。)。
---------------------------------------------------------------------------------
2、文章發(fā)布頁(yè)面,這里是:
:/d31/dede/article_add.php?channelid=1
在這個(gè)頁(yè)面我們將會(huì )進(jìn)行如下兩類(lèi)信息的操作錄入:
a、必要信息:文章標題火車(chē)頭采集教程,文章內容,文章所屬欄目(通常情況是這樣的)
以上幾個(gè)信息是必須輸入的,否則,程序會(huì )制止進(jìn)程并提示進(jìn)行錄入;
b、限制類(lèi)必要信息——文章所屬欄目;
這種信息的標志一般是以select下拉菜單定義的,它不象文章標題,文章內容這類(lèi)選項,雖然必須,但是你可以隨意寫(xiě),系統不會(huì )也不可能也沒(méi)必要提供你指定的或可以參考的選項。但是文章所屬欄目,出于信息管理便捷和系統的安全性,系統一般會(huì )使你指定所要發(fā)布信息的所屬欄目。
c、其他選項信息,如果我們沒(méi)有特殊要求,可以不去理會(huì )。
當然這個(gè)“不必理會(huì )”并不意味著(zhù)其他的信息選項是何必填寫(xiě)的,事實(shí)上,有些信息是程序得以進(jìn)行所必需的,但為了使用戶(hù)在操作上去更快捷簡(jiǎn)便,程序會(huì )依照常理進(jìn)行默認值得設置。 查看全部
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
********************************************************************
火車(chē)頭采集器教程之實(shí)戰視頻(二)——CMS(DEDE)在線(xiàn)發(fā)布模塊的制做
Finishied by Victor QQ:99767290
******************************************************************************
由于本教程是以實(shí)戰演練為主的火車(chē)頭采集教程,所以對于基礎知識部份,我們只能是粗放性的做一些講解,等諸位火車(chē)頭旅客對一些基本概念和操作流程有個(gè)初步的人時(shí)侯,我們在做一些方法上的闡述,當然這也離不開(kāi)我們自身的求知的欲望與火車(chē)頭諸位熱心前輩的幫助,,好了正題就不說(shuō)了,我門(mén)來(lái)講一下明天課程的主要內容:
1、了解在線(xiàn)發(fā)布的基本工作流程;
2、掌握基本的在線(xiàn)發(fā)布模塊的制做;
********************************************************************************************
一、了解CMS文章發(fā)布的基本工作流程
說(shuō)到火車(chē)頭的在線(xiàn)發(fā)布流程,我們很容易想到,我們在例如DEDECMS、PHPCMS等CMS(Content ManageSystem內容管理系統)的后臺發(fā)布一篇文章的基本流程,因為火車(chē)頭在線(xiàn)發(fā)布的流程基本上是和我們一般進(jìn)行的文章發(fā)布的流程是一樣的,我們來(lái)實(shí)際操作一下:
視頻“CMS文章發(fā)布”地址:
通過(guò)前面的操作,我們可以對后臺發(fā)布文章的基本流程做一下小結:
------------------------------------------------------------------------------
1、登陸后臺:
a、輸入訪(fǎng)問(wèn)后臺管理的路徑,這里是:
b、輸入用戶(hù)名和密碼的相關(guān)信息,有的需輸入驗證碼和Cookies有效期。
c、登陸到后臺管理頁(yè)面。
注:火車(chē)頭在這里不僅須要獲取用戶(hù)名、密碼、驗證碼等信息、還須要獲取Cookies信息(Cookies的概念我們在后面述說(shuō)。)。
---------------------------------------------------------------------------------
2、文章發(fā)布頁(yè)面,這里是:
:/d31/dede/article_add.php?channelid=1
在這個(gè)頁(yè)面我們將會(huì )進(jìn)行如下兩類(lèi)信息的操作錄入:
a、必要信息:文章標題火車(chē)頭采集教程,文章內容,文章所屬欄目(通常情況是這樣的)
以上幾個(gè)信息是必須輸入的,否則,程序會(huì )制止進(jìn)程并提示進(jìn)行錄入;
b、限制類(lèi)必要信息——文章所屬欄目;
這種信息的標志一般是以select下拉菜單定義的,它不象文章標題,文章內容這類(lèi)選項,雖然必須,但是你可以隨意寫(xiě),系統不會(huì )也不可能也沒(méi)必要提供你指定的或可以參考的選項。但是文章所屬欄目,出于信息管理便捷和系統的安全性,系統一般會(huì )使你指定所要發(fā)布信息的所屬欄目。
c、其他選項信息,如果我們沒(méi)有特殊要求,可以不去理會(huì )。
當然這個(gè)“不必理會(huì )”并不意味著(zhù)其他的信息選項是何必填寫(xiě)的,事實(shí)上,有些信息是程序得以進(jìn)行所必需的,但為了使用戶(hù)在操作上去更快捷簡(jiǎn)便,程序會(huì )依照常理進(jìn)行默認值得設置。
火車(chē)頭采集軟件使用教程(圖文版)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 848 次瀏覽 ? 2020-04-28 11:02
火車(chē)采集器 V2010SP3 版(實(shí)現內容手動(dòng)更新的采集軟件)前提:本軟件要求筆記本安裝 net framework2.0 或 2.0 以上框架支持。 一、火車(chē)采集器 V2010SP3 版,可供下載地址: 二、net framework2.0,可供下載地址: mework-2.0-For-Win98SE-ME-2000-XP/火車(chē)采集器和 net framework2.0 安裝好后,可進(jìn)行如下操作,操作步驟為: 一、 1.在一堆文件中,找到如下圖標(畫(huà)有紅方框、狀似火車(chē)頭的) ,并雙擊打開(kāi)。2.打開(kāi)后可以看見(jiàn)如下界面, 看著(zhù)很復雜,但對于菜鳥(niǎo)而言好多東西是暫時(shí)用不 到的。在界面空白處(如下圖紅框區域內)右擊,選擇箭頭所指“新建站點(diǎn)” 。 輸入站點(diǎn)名,例如:“西裝”,保存即可。3.在新建站點(diǎn)“西裝”(紅框區域)處選中再右擊,選擇從該站點(diǎn)新建任務(wù)。二、 第一步:采集網(wǎng)址規則 1.先要找到手動(dòng)更新的內容來(lái)源:如時(shí)常更新關(guān)注度較高的博客、專(zhuān)業(yè)網(wǎng)站等, 這里我們就拿淘寶論壇 bbs.taobao.com 舉個(gè)反例。找到開(kāi)始采集地址欄兩側, 點(diǎn)擊向導添加 。2.添加開(kāi)始采集地址中的多頁(yè)類(lèi)似地址方式前,要剖析一下它的類(lèi)似方式,例: 我們在淘寶論壇中搜索“西服”相關(guān)內容,然后任意翻閱不同的頁(yè)數查看它的網(wǎng) 頁(yè)地址。
第一頁(yè)地址、第二頁(yè)地址、第三頁(yè)地址分別為:以此類(lèi)推,分析出其不同點(diǎn)在于上圖紅框處的數字變化,因此:假如我們只采集 論壇的第一頁(yè),就在多頁(yè)類(lèi)似地址方式欄粘貼第一頁(yè)的網(wǎng)址,按一下(*)將選 中的數字 1 替換成(*),再將數字變化改為相應頁(yè)數:1, 然后點(diǎn)擊添加、完成。3.接著(zhù),找到如下圖的相應位置剖析規則并分別輸入:必須包含“thread”,不 得包含“post|pc”,任務(wù)名:這里設為“第一頁(yè)”?!究梢渣c(diǎn)擊開(kāi)始測試網(wǎng)址 采集,檢測一下是否將網(wǎng)頁(yè)都采集過(guò)來(lái)了。若要返回到剛剛上一級頁(yè)面,點(diǎn)擊返 回更改設置即可?!康诙剑翰杉瘍热菀巹t 1.打開(kāi)后, 可以看見(jiàn)如下界面, 我們在 (圖 2 紅框 1 處) 粘貼中將要采集頁(yè)面 “第 一頁(yè)”目錄中任意一個(gè)標題文章內容的網(wǎng)址,(如圖 1 箭頭所指文章標題,雙擊 打開(kāi)再采集打開(kāi)后的網(wǎng)頁(yè)網(wǎng)址),進(jìn)行測試。 (紅框 2 處)為標題、內容、作者、時(shí)間、出處,我們可以分別點(diǎn)擊這 5 個(gè)項目, 對采集來(lái)的頁(yè)面內容依照須要做更改。1圖2 2.點(diǎn)擊標題打開(kāi),將鏈接、下載圖片勾選上并確定,有些內容就被排除了。分析 過(guò)程中還有要排除的內容就點(diǎn)擊(下圖最左下方紅圈處) “內容排除中的添加并 確定”,其實(shí),就是將不要的內容復制粘貼到右圖排除內容的小方框內點(diǎn)確定。
然后返回上級頁(yè)面點(diǎn)擊測試就可刷新頁(yè)面, 這樣我們才能看見(jiàn)清除糟粕后更清晰 的內容。 【下圖所示,找到規律的內容就可用 (*)來(lái)代替, 完成排除內容操作?!?.修改內容部份時(shí),有個(gè)小技巧,就是將測試出的所有網(wǎng)頁(yè)內容復制粘貼到記事 本中查找,如此便能挺好的提升操作效率。例如,我們點(diǎn)開(kāi)的這篇文章,正文最 開(kāi)頭兩個(gè)字 “由于” 就可以用全文選中——編輯——查找的方式找到, 省時(shí)省力。4.把剛剛貼近正文“由于”前面的惟一的以<div>開(kāi)頭的代碼(如下圖紅色區域 處代碼)復制出來(lái),點(diǎn)擊內容,粘貼到右圖相應位置,輸入</div>,點(diǎn)擊確定,并測試更新一下,多 余的內容就被刪除了。5.一般作者、時(shí)間、出處都不怎樣須要改。 第三步:發(fā)布內容設置 1. 點(diǎn)開(kāi)第三步,(圖中 1.)把啟用勾選上,再點(diǎn)擊(圖中 2.)定義 web 在線(xiàn)發(fā) 布全局設置會(huì )彈出右圖 web 在線(xiàn)發(fā)布配置管理的欄目框,點(diǎn)擊添加。2.接著(zhù)在(1.網(wǎng)址/cms 根地址)里輸入:,點(diǎn)擊(圖中 2.在 內置瀏覽器中登陸)會(huì )彈出一個(gè)網(wǎng)頁(yè),不用管它直接關(guān)閉,這樣 cookie 值就自 動(dòng)獲取了。3.然后把剩余幾項根據右圖填上,(最新文章 [id=3])復制粘貼好后點(diǎn)擊獲 取列表,這里我們可以根據自己喜好起個(gè)配置名,如:第一頁(yè),最后保存設置。
4.在右圖空白處(如箭頭所示)右擊火車(chē)頭采集教程,選擇添加更多發(fā)布設置,彈出右右圖,選 擇我們剛剛設的“第一頁(yè)”添加。5.依次點(diǎn)擊選擇分類(lèi),獲取列表,輸入 ID 號:3,確定。再點(diǎn)擊最下邊的保存,總的保存一下。三、 1.選中“西裝”下的子目錄“第一頁(yè)”火車(chē)頭采集教程,點(diǎn)擊開(kāi)始,網(wǎng)址就被采過(guò)來(lái)了。然后可 以登陸 ,翻閱網(wǎng)頁(yè)最下方,看看是否有采集更新 來(lái)的新內容。2. 我們也可以登入 94zd.com/dede(織夢(mèng)內容管理系統)網(wǎng)頁(yè),輸入用戶(hù)名: admin,密碼:123451 檢查右右圖“最新文章”中是否有采集來(lái)的網(wǎng)頁(yè)文章目錄存在。如果沒(méi)有顯 示,可以在生成欄目中,進(jìn)行更新主頁(yè) HTML。完成?。?! 查看全部
火車(chē)采集器 V2010SP3 版(實(shí)現內容手動(dòng)更新的采集軟件)前提:本軟件要求筆記本安裝 net framework2.0 或 2.0 以上框架支持。 一、火車(chē)采集器 V2010SP3 版,可供下載地址: 二、net framework2.0,可供下載地址: mework-2.0-For-Win98SE-ME-2000-XP/火車(chē)采集器和 net framework2.0 安裝好后,可進(jìn)行如下操作,操作步驟為: 一、 1.在一堆文件中,找到如下圖標(畫(huà)有紅方框、狀似火車(chē)頭的) ,并雙擊打開(kāi)。2.打開(kāi)后可以看見(jiàn)如下界面, 看著(zhù)很復雜,但對于菜鳥(niǎo)而言好多東西是暫時(shí)用不 到的。在界面空白處(如下圖紅框區域內)右擊,選擇箭頭所指“新建站點(diǎn)” 。 輸入站點(diǎn)名,例如:“西裝”,保存即可。3.在新建站點(diǎn)“西裝”(紅框區域)處選中再右擊,選擇從該站點(diǎn)新建任務(wù)。二、 第一步:采集網(wǎng)址規則 1.先要找到手動(dòng)更新的內容來(lái)源:如時(shí)常更新關(guān)注度較高的博客、專(zhuān)業(yè)網(wǎng)站等, 這里我們就拿淘寶論壇 bbs.taobao.com 舉個(gè)反例。找到開(kāi)始采集地址欄兩側, 點(diǎn)擊向導添加 。2.添加開(kāi)始采集地址中的多頁(yè)類(lèi)似地址方式前,要剖析一下它的類(lèi)似方式,例: 我們在淘寶論壇中搜索“西服”相關(guān)內容,然后任意翻閱不同的頁(yè)數查看它的網(wǎng) 頁(yè)地址。
第一頁(yè)地址、第二頁(yè)地址、第三頁(yè)地址分別為:以此類(lèi)推,分析出其不同點(diǎn)在于上圖紅框處的數字變化,因此:假如我們只采集 論壇的第一頁(yè),就在多頁(yè)類(lèi)似地址方式欄粘貼第一頁(yè)的網(wǎng)址,按一下(*)將選 中的數字 1 替換成(*),再將數字變化改為相應頁(yè)數:1, 然后點(diǎn)擊添加、完成。3.接著(zhù),找到如下圖的相應位置剖析規則并分別輸入:必須包含“thread”,不 得包含“post|pc”,任務(wù)名:這里設為“第一頁(yè)”?!究梢渣c(diǎn)擊開(kāi)始測試網(wǎng)址 采集,檢測一下是否將網(wǎng)頁(yè)都采集過(guò)來(lái)了。若要返回到剛剛上一級頁(yè)面,點(diǎn)擊返 回更改設置即可?!康诙剑翰杉瘍热菀巹t 1.打開(kāi)后, 可以看見(jiàn)如下界面, 我們在 (圖 2 紅框 1 處) 粘貼中將要采集頁(yè)面 “第 一頁(yè)”目錄中任意一個(gè)標題文章內容的網(wǎng)址,(如圖 1 箭頭所指文章標題,雙擊 打開(kāi)再采集打開(kāi)后的網(wǎng)頁(yè)網(wǎng)址),進(jìn)行測試。 (紅框 2 處)為標題、內容、作者、時(shí)間、出處,我們可以分別點(diǎn)擊這 5 個(gè)項目, 對采集來(lái)的頁(yè)面內容依照須要做更改。1圖2 2.點(diǎn)擊標題打開(kāi),將鏈接、下載圖片勾選上并確定,有些內容就被排除了。分析 過(guò)程中還有要排除的內容就點(diǎn)擊(下圖最左下方紅圈處) “內容排除中的添加并 確定”,其實(shí),就是將不要的內容復制粘貼到右圖排除內容的小方框內點(diǎn)確定。
然后返回上級頁(yè)面點(diǎn)擊測試就可刷新頁(yè)面, 這樣我們才能看見(jiàn)清除糟粕后更清晰 的內容。 【下圖所示,找到規律的內容就可用 (*)來(lái)代替, 完成排除內容操作?!?.修改內容部份時(shí),有個(gè)小技巧,就是將測試出的所有網(wǎng)頁(yè)內容復制粘貼到記事 本中查找,如此便能挺好的提升操作效率。例如,我們點(diǎn)開(kāi)的這篇文章,正文最 開(kāi)頭兩個(gè)字 “由于” 就可以用全文選中——編輯——查找的方式找到, 省時(shí)省力。4.把剛剛貼近正文“由于”前面的惟一的以<div>開(kāi)頭的代碼(如下圖紅色區域 處代碼)復制出來(lái),點(diǎn)擊內容,粘貼到右圖相應位置,輸入</div>,點(diǎn)擊確定,并測試更新一下,多 余的內容就被刪除了。5.一般作者、時(shí)間、出處都不怎樣須要改。 第三步:發(fā)布內容設置 1. 點(diǎn)開(kāi)第三步,(圖中 1.)把啟用勾選上,再點(diǎn)擊(圖中 2.)定義 web 在線(xiàn)發(fā) 布全局設置會(huì )彈出右圖 web 在線(xiàn)發(fā)布配置管理的欄目框,點(diǎn)擊添加。2.接著(zhù)在(1.網(wǎng)址/cms 根地址)里輸入:,點(diǎn)擊(圖中 2.在 內置瀏覽器中登陸)會(huì )彈出一個(gè)網(wǎng)頁(yè),不用管它直接關(guān)閉,這樣 cookie 值就自 動(dòng)獲取了。3.然后把剩余幾項根據右圖填上,(最新文章 [id=3])復制粘貼好后點(diǎn)擊獲 取列表,這里我們可以根據自己喜好起個(gè)配置名,如:第一頁(yè),最后保存設置。
4.在右圖空白處(如箭頭所示)右擊火車(chē)頭采集教程,選擇添加更多發(fā)布設置,彈出右右圖,選 擇我們剛剛設的“第一頁(yè)”添加。5.依次點(diǎn)擊選擇分類(lèi),獲取列表,輸入 ID 號:3,確定。再點(diǎn)擊最下邊的保存,總的保存一下。三、 1.選中“西裝”下的子目錄“第一頁(yè)”火車(chē)頭采集教程,點(diǎn)擊開(kāi)始,網(wǎng)址就被采過(guò)來(lái)了。然后可 以登陸 ,翻閱網(wǎng)頁(yè)最下方,看看是否有采集更新 來(lái)的新內容。2. 我們也可以登入 94zd.com/dede(織夢(mèng)內容管理系統)網(wǎng)頁(yè),輸入用戶(hù)名: admin,密碼:123451 檢查右右圖“最新文章”中是否有采集來(lái)的網(wǎng)頁(yè)文章目錄存在。如果沒(méi)有顯 示,可以在生成欄目中,進(jìn)行更新主頁(yè) HTML。完成?。?!
織夢(mèng)火車(chē)頭采集讓它手動(dòng)生成首頁(yè)、上下篇
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 456 次瀏覽 ? 2020-04-28 11:01
織夢(mèng)使用火車(chē)頭采集器采集數據火車(chē)頭采集教程,發(fā)布文檔后是不會(huì )手動(dòng)生成首頁(yè)、上下篇、欄目頁(yè)的,我們可以給織夢(mèng)添加手動(dòng)生成代碼來(lái)實(shí)現
打開(kāi) /dede/inc/inc_archives_functions.php 最下邊加入3個(gè)函數
/*火車(chē)頭采集自動(dòng)更新主頁(yè)*/function?MakeIndex(){ global?$dsql,$cfg_basedir,$cfg_templets_dir,$cfg_df_style;????require_once(DEDEINC.'/arc.partview.class.php');
????$envs?=?$_sys_globals?=?array();
????$envs['aid']?=?0;
????$pv?=?new?PartView();
????$row?=?$pv->dsql->GetOne('SELECT?*?FROM?`dede_homepageset`');
????$templet?=?str_replace("{style}",?$cfg_df_style,?$row['templet']);
????$homeFile?=?dirname(__FILE__).'/../'.$row['position'];
????$homeFile?=?str_replace("//",?"/",?str_replace("\\",?"/",?$homeFile));
????$fp?=?fopen($homeFile,?'w')?or?die("無(wú)法更新網(wǎng)站主頁(yè)到:$homeFile?位置");
????fclose($fp);
????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/'.$templet;????if(!file_exists($tpl))
????{
????????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/default/index.htm';????????if(!file_exists($tpl))?exit("無(wú)法找到主頁(yè)模板:$tpl?");
????}
????$GLOBALS['_arclistEnv']?=?'index';
????$pv->SetTemplet($tpl);
????$pv->SaveToHtml($homeFile);
????$pv->Close();
}/*火車(chē)頭采集自動(dòng)更新欄目*/function?MakeParentType($typeid){ global?$dsql;
$typediarr?=?array();
array_push($typediarr,$typeid);
$row3?=?$dsql->GetOne("Select?reid,topid?From?`dede_arctype`?where?id=".$typeid); if(!in_array($row3['reid'],$typediarr)?and?$row3['reid']!=0)?array_push($typediarr,$row3['reid']); if(!in_array($row3['topid'],$typediarr)?and?$row3['topid']!=0)?array_push($typediarr,$row3['topid']); require_once(DEDEDATA."/cache/inc_catalog_base.inc"); require_once(DEDEINC."/channelunit.func.php"); require_once(DEDEINC."/arc.listview.class.php"); foreach($typediarr?as?$typeid)
{
$lv?=?new?ListView($typeid);
$lv->MakeHtml(1,$maxpagesize);
}
}/*火車(chē)頭采集自動(dòng)更新上下篇*/function?MakePreNext($aid,$typeid){ global?$dsql;????require_once(DEDEINC.'/arc.archives.class.php');
????$aid?=?intval($aid);
????$preRow?=??$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id<$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?DESC");
????$nextRow?=?$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id>$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?ASC");????if(is_array($preRow))
????{
????????$envs['aid']?=?$preRow['id'];
????????$arc?=?new?Archives($preRow['id']);
????????$arc->MakeHtml();
????}????if(is_array($nextRow))
????{
????????$envs['aid']?=?$nextRow['id'];
????????$arc?=?new?Archives($nextRow['id']);
????????$arc->MakeHtml();
????}
}
繼續在這個(gè)文件中找到
return?$revalue;
在它的下邊加入
MakePreNext($arcID,$typeid);MakeIndex();MakeParentType($typeid);
添加完后是這樣的
這樣添加好后火車(chē)頭采集教程,無(wú)論你用火車(chē)頭免登入插口還是WEB發(fā)布模塊,無(wú)論是普通文章模型還是圖集模型還是軟件模型,都可以手動(dòng)生成相關(guān)靜態(tài)文件了。 查看全部
織夢(mèng)使用火車(chē)頭采集器采集數據火車(chē)頭采集教程,發(fā)布文檔后是不會(huì )手動(dòng)生成首頁(yè)、上下篇、欄目頁(yè)的,我們可以給織夢(mèng)添加手動(dòng)生成代碼來(lái)實(shí)現
打開(kāi) /dede/inc/inc_archives_functions.php 最下邊加入3個(gè)函數
/*火車(chē)頭采集自動(dòng)更新主頁(yè)*/function?MakeIndex(){ global?$dsql,$cfg_basedir,$cfg_templets_dir,$cfg_df_style;????require_once(DEDEINC.'/arc.partview.class.php');
????$envs?=?$_sys_globals?=?array();
????$envs['aid']?=?0;
????$pv?=?new?PartView();
????$row?=?$pv->dsql->GetOne('SELECT?*?FROM?`dede_homepageset`');
????$templet?=?str_replace("{style}",?$cfg_df_style,?$row['templet']);
????$homeFile?=?dirname(__FILE__).'/../'.$row['position'];
????$homeFile?=?str_replace("//",?"/",?str_replace("\\",?"/",?$homeFile));
????$fp?=?fopen($homeFile,?'w')?or?die("無(wú)法更新網(wǎng)站主頁(yè)到:$homeFile?位置");
????fclose($fp);
????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/'.$templet;????if(!file_exists($tpl))
????{
????????$tpl?=?$cfg_basedir.$cfg_templets_dir.'/default/index.htm';????????if(!file_exists($tpl))?exit("無(wú)法找到主頁(yè)模板:$tpl?");
????}
????$GLOBALS['_arclistEnv']?=?'index';
????$pv->SetTemplet($tpl);
????$pv->SaveToHtml($homeFile);
????$pv->Close();
}/*火車(chē)頭采集自動(dòng)更新欄目*/function?MakeParentType($typeid){ global?$dsql;
$typediarr?=?array();
array_push($typediarr,$typeid);
$row3?=?$dsql->GetOne("Select?reid,topid?From?`dede_arctype`?where?id=".$typeid); if(!in_array($row3['reid'],$typediarr)?and?$row3['reid']!=0)?array_push($typediarr,$row3['reid']); if(!in_array($row3['topid'],$typediarr)?and?$row3['topid']!=0)?array_push($typediarr,$row3['topid']); require_once(DEDEDATA."/cache/inc_catalog_base.inc"); require_once(DEDEINC."/channelunit.func.php"); require_once(DEDEINC."/arc.listview.class.php"); foreach($typediarr?as?$typeid)
{
$lv?=?new?ListView($typeid);
$lv->MakeHtml(1,$maxpagesize);
}
}/*火車(chē)頭采集自動(dòng)更新上下篇*/function?MakePreNext($aid,$typeid){ global?$dsql;????require_once(DEDEINC.'/arc.archives.class.php');
????$aid?=?intval($aid);
????$preRow?=??$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id<$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?DESC");
????$nextRow?=?$dsql->GetOne("SELECT?id?FROM?`dede_arctiny`?WHERE?id>$aid?AND?arcrank>-1?AND?typeid='$typeid'?ORDER?BY?id?ASC");????if(is_array($preRow))
????{
????????$envs['aid']?=?$preRow['id'];
????????$arc?=?new?Archives($preRow['id']);
????????$arc->MakeHtml();
????}????if(is_array($nextRow))
????{
????????$envs['aid']?=?$nextRow['id'];
????????$arc?=?new?Archives($nextRow['id']);
????????$arc->MakeHtml();
????}
}
繼續在這個(gè)文件中找到
return?$revalue;
在它的下邊加入
MakePreNext($arcID,$typeid);MakeIndex();MakeParentType($typeid);
添加完后是這樣的

這樣添加好后火車(chē)頭采集教程,無(wú)論你用火車(chē)頭免登入插口還是WEB發(fā)布模塊,無(wú)論是普通文章模型還是圖集模型還是軟件模型,都可以手動(dòng)生成相關(guān)靜態(tài)文件了。
火車(chē)頭采集后使用5118偽原創(chuàng )教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1185 次瀏覽 ? 2020-04-28 11:01
經(jīng)過(guò)一段時(shí)間研究,目前早已把握了火車(chē)頭采集技術(shù)能力,火車(chē)頭采集對接開(kāi)源CMS程序手動(dòng)更新能力,可以結合ai偽原創(chuàng )插口 實(shí)現批量采集并直接發(fā)布到WP、DEDECMS網(wǎng)站。說(shuō)實(shí)在的,不是常常被人問(wèn)采集相關(guān)的問(wèn)題,我根本不樂(lè )意研究這種采集技術(shù)。
接下來(lái)談?wù)劵疖?chē)頭采集器集成5118智能原創(chuàng )功能吧,這也是5118明天剛推送的一篇公眾號文章。
在列車(chē)采集器中,利用5118智能原創(chuàng )插件,不再須要經(jīng)過(guò)人工處理,即能批量生產(chǎn)出內容指紋完全不同的文章,大幅提升了內容SEO采編的工作效率,讓文章更容易被收錄。5118智能原創(chuàng )-火車(chē)采集器插件下載鏈接: 提取碼: umjx
第一步,使用解壓軟件,提取插件安裝包中的文件,解壓到一個(gè)文件夾中。
第二步,打開(kāi)解壓后的文件夾,將上面的【5118 智能原創(chuàng ).dll】文件,放入在【火車(chē)采集器】安裝目錄下的Plugins文件夾里。
第三步,將文件夾中的【5118智能原創(chuàng )配置工具.exe】和
【Newtonsoft.Json.dll】文件,放入在【火車(chē)采集器】安裝目錄中。
第四步,在【火車(chē)采集器】的根目錄里,打開(kāi)【5118 智能原創(chuàng )配置工具.exe】,點(diǎn)擊“獲取API-Key”,將會(huì )在瀏覽器中打開(kāi)5118獲取API的頁(yè)面。
頁(yè)面中找到“一鍵智能原創(chuàng )API”,點(diǎn)擊復制按鍵,返回【5118 智能原創(chuàng )配置工具.exe】界面,粘貼API-Key到輸入框中。
一鍵智能原創(chuàng )API支持免費試用
當然5118偽原創(chuàng )是要訂購付費的,可申請100次免費使用,可選購一鍵智能原創(chuàng )API套餐。5118會(huì )員折扣碼 D569F5 [?]
第一步,打開(kāi)火車(chē)頭采集器,點(diǎn)擊開(kāi)始欄的【插件管理】,在插件管理框右側列表里,選中【5118智能原創(chuàng )】,在兩側框中輸入需采集的網(wǎng)址,點(diǎn)擊測試按鍵,查看插件是否正常。
第二步,測試沒(méi)有問(wèn)題后,開(kāi)始使用插件設置內容采集規則。
第三步,選擇已有采集任務(wù),在【其他設置】的一側欄目中選擇插件,在采集結果處理插件下拉框中,選擇【5118智能原創(chuàng ).dll】,點(diǎn)擊保存即可。
此處需注意,【內容采集規則】左側列表里的“內容”標簽,是插件將手動(dòng)智能原創(chuàng )的內容,固定標簽名稱(chēng)為“內容”。
導出任務(wù)數據時(shí),在任務(wù)列表里火車(chē)頭采集教程,選中對應任務(wù)項目,右側“發(fā)布”項必須勾選,否則數據難以導入。
第四步火車(chē)頭采集教程,查看5118智能原創(chuàng )插件療效。運行完成后,即可在之前所保存的地址中查看導入療效。所導入的內容,已經(jīng)是使用智能原創(chuàng )插件替換后的數據。 查看全部
經(jīng)過(guò)一段時(shí)間研究,目前早已把握了火車(chē)頭采集技術(shù)能力,火車(chē)頭采集對接開(kāi)源CMS程序手動(dòng)更新能力,可以結合ai偽原創(chuàng )插口 實(shí)現批量采集并直接發(fā)布到WP、DEDECMS網(wǎng)站。說(shuō)實(shí)在的,不是常常被人問(wèn)采集相關(guān)的問(wèn)題,我根本不樂(lè )意研究這種采集技術(shù)。

接下來(lái)談?wù)劵疖?chē)頭采集器集成5118智能原創(chuàng )功能吧,這也是5118明天剛推送的一篇公眾號文章。
在列車(chē)采集器中,利用5118智能原創(chuàng )插件,不再須要經(jīng)過(guò)人工處理,即能批量生產(chǎn)出內容指紋完全不同的文章,大幅提升了內容SEO采編的工作效率,讓文章更容易被收錄。5118智能原創(chuàng )-火車(chē)采集器插件下載鏈接: 提取碼: umjx
第一步,使用解壓軟件,提取插件安裝包中的文件,解壓到一個(gè)文件夾中。

第二步,打開(kāi)解壓后的文件夾,將上面的【5118 智能原創(chuàng ).dll】文件,放入在【火車(chē)采集器】安裝目錄下的Plugins文件夾里。

第三步,將文件夾中的【5118智能原創(chuàng )配置工具.exe】和
【Newtonsoft.Json.dll】文件,放入在【火車(chē)采集器】安裝目錄中。

第四步,在【火車(chē)采集器】的根目錄里,打開(kāi)【5118 智能原創(chuàng )配置工具.exe】,點(diǎn)擊“獲取API-Key”,將會(huì )在瀏覽器中打開(kāi)5118獲取API的頁(yè)面。

頁(yè)面中找到“一鍵智能原創(chuàng )API”,點(diǎn)擊復制按鍵,返回【5118 智能原創(chuàng )配置工具.exe】界面,粘貼API-Key到輸入框中。
一鍵智能原創(chuàng )API支持免費試用

當然5118偽原創(chuàng )是要訂購付費的,可申請100次免費使用,可選購一鍵智能原創(chuàng )API套餐。5118會(huì )員折扣碼 D569F5 [?]
第一步,打開(kāi)火車(chē)頭采集器,點(diǎn)擊開(kāi)始欄的【插件管理】,在插件管理框右側列表里,選中【5118智能原創(chuàng )】,在兩側框中輸入需采集的網(wǎng)址,點(diǎn)擊測試按鍵,查看插件是否正常。
第二步,測試沒(méi)有問(wèn)題后,開(kāi)始使用插件設置內容采集規則。

第三步,選擇已有采集任務(wù),在【其他設置】的一側欄目中選擇插件,在采集結果處理插件下拉框中,選擇【5118智能原創(chuàng ).dll】,點(diǎn)擊保存即可。

此處需注意,【內容采集規則】左側列表里的“內容”標簽,是插件將手動(dòng)智能原創(chuàng )的內容,固定標簽名稱(chēng)為“內容”。

導出任務(wù)數據時(shí),在任務(wù)列表里火車(chē)頭采集教程,選中對應任務(wù)項目,右側“發(fā)布”項必須勾選,否則數據難以導入。

第四步火車(chē)頭采集教程,查看5118智能原創(chuàng )插件療效。運行完成后,即可在之前所保存的地址中查看導入療效。所導入的內容,已經(jīng)是使用智能原創(chuàng )插件替換后的數據。
火車(chē)頭采集器標簽循環(huán)采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 683 次瀏覽 ? 2020-04-28 11:00
比如采集這個(gè)網(wǎng)站:;method=doquery&querysid=g0002&showpage=1
我們查看頁(yè)面源代碼,我把源代碼復制到txt上面做了些簡(jiǎn)單的處理,讓你們看的更明白如下圖:
上圖聽(tīng)到船名都是“”開(kāi)始“”結束火車(chē)頭采集教程,我們構建一個(gè)規則分別是以“”開(kāi)始和以“”結束。
規則設置如下圖:
采集結果如下:
左側標簽循環(huán)處理哪里選了“添加為新記錄”,右側看見(jiàn)了船名都早已采集到了,并且每位船名都是一條獨立的信息,
看到上圖兩側有個(gè)選項“循環(huán)不足的記錄以第一條記錄補全”勾選上這個(gè),如果在循環(huán)過(guò)程中有的信息沒(méi)有采集到火車(chē)頭采集教程,就會(huì )用采集到的第一條數據填充。
假如兩側標簽循環(huán)處理哪里選了“用分隔符鏈接在上條的記錄后” 然后在下邊的“分隔符”哪一項設置分隔符,如下圖:
測試結果如下:
上圖可以看見(jiàn)每次循環(huán)采集到的結果都是用我們設置的分隔符聯(lián)接上去做為一條信息,注意和前面選擇“添加為新記錄”,采集結果的不同。
我們通過(guò)頁(yè)面源代碼,知道這個(gè)是個(gè)表格,那么我們就多說(shuō)些,表格怎么采集。如果我們還要繼續采集更多信息如下圖的“英文船名”,“航次”等等。
我們打開(kāi)頁(yè)面源代碼見(jiàn)到這種信息的開(kāi)始都是以“”開(kāi)始以“”結束,我們設置規則的時(shí)侯才會(huì )太困難,如右圖
那么看下我是怎樣采集到“英文船名”的規則如下:
在看下我采集“航次”規則是怎樣設置的:
設置完后測試采集如下圖:
成功采集了!
原理就是都是以“”開(kāi)始這么我們就通過(guò)這個(gè)字符出現的次數來(lái)劃分,結束字符全部都是“”。
上面設置的規則恰好說(shuō)明了這個(gè)一點(diǎn),船名是在第一次出現的旁邊,英文船名是在第二次出現“”的旁邊,航次是在第三次出現“”的前面。。。。。。。
后面以此類(lèi)推,中間不需要的東西我們就用“(*)”代替,表示任意??梢宰约簢L試寫(xiě)寫(xiě)。這個(gè)是常常采集表格要用的。
(資源庫 ) 查看全部

比如采集這個(gè)網(wǎng)站:;method=doquery&querysid=g0002&showpage=1

我們查看頁(yè)面源代碼,我把源代碼復制到txt上面做了些簡(jiǎn)單的處理,讓你們看的更明白如下圖:

上圖聽(tīng)到船名都是“”開(kāi)始“”結束火車(chē)頭采集教程,我們構建一個(gè)規則分別是以“”開(kāi)始和以“”結束。
規則設置如下圖:

采集結果如下:

左側標簽循環(huán)處理哪里選了“添加為新記錄”,右側看見(jiàn)了船名都早已采集到了,并且每位船名都是一條獨立的信息,
看到上圖兩側有個(gè)選項“循環(huán)不足的記錄以第一條記錄補全”勾選上這個(gè),如果在循環(huán)過(guò)程中有的信息沒(méi)有采集到火車(chē)頭采集教程,就會(huì )用采集到的第一條數據填充。
假如兩側標簽循環(huán)處理哪里選了“用分隔符鏈接在上條的記錄后” 然后在下邊的“分隔符”哪一項設置分隔符,如下圖:

測試結果如下:

上圖可以看見(jiàn)每次循環(huán)采集到的結果都是用我們設置的分隔符聯(lián)接上去做為一條信息,注意和前面選擇“添加為新記錄”,采集結果的不同。
我們通過(guò)頁(yè)面源代碼,知道這個(gè)是個(gè)表格,那么我們就多說(shuō)些,表格怎么采集。如果我們還要繼續采集更多信息如下圖的“英文船名”,“航次”等等。

我們打開(kāi)頁(yè)面源代碼見(jiàn)到這種信息的開(kāi)始都是以“”開(kāi)始以“”結束,我們設置規則的時(shí)侯才會(huì )太困難,如右圖

那么看下我是怎樣采集到“英文船名”的規則如下:

在看下我采集“航次”規則是怎樣設置的:

設置完后測試采集如下圖:

成功采集了!
原理就是都是以“”開(kāi)始這么我們就通過(guò)這個(gè)字符出現的次數來(lái)劃分,結束字符全部都是“”。
上面設置的規則恰好說(shuō)明了這個(gè)一點(diǎn),船名是在第一次出現的旁邊,英文船名是在第二次出現“”的旁邊,航次是在第三次出現“”的前面。。。。。。。
后面以此類(lèi)推,中間不需要的東西我們就用“(*)”代替,表示任意??梢宰约簢L試寫(xiě)寫(xiě)。這個(gè)是常常采集表格要用的。
(資源庫 )
利用火車(chē)頭采集器采集趕集網(wǎng)急聘信息新視頻教程下
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 517 次瀏覽 ? 2020-04-28 11:00
第一章:中級教程開(kāi)篇章第1節:工欲善其事必先利其器fiddler來(lái)幫您剖析數據第二章:分類(lèi)信息網(wǎng)站58網(wǎng)站的采集第1節:58網(wǎng)站房屋轉租內容采集第2節:58網(wǎng)站手機號碼采集的突破形式第3節:利用采集器全手動(dòng)大量發(fā)布信息的方法第三章:火車(chē)頭采集器在采集騰訊網(wǎng)站內容的使用第1節:采集qq群上面的所有qq成員的方式第2節:騰訊網(wǎng)站的新聞采集第3節:微信文章搜索的內容采集第4節:微信公眾號搜索的內容采集第5節:騰訊視頻的代碼的采集第四章:采集數據合成成文本第1節:采集網(wǎng)站內容合成出多個(gè)txt文本文檔第2節:采集網(wǎng)站內容合成出word文檔的方式第3節:采集內容合成出csv文件,可以用于淘寶助手第4節:通過(guò)采集器合成html單頁(yè)面第五章:火車(chē)頭采集器在威客領(lǐng)域的使用第1節:威客網(wǎng)站自動(dòng)發(fā)貼模塊的制做第2節:利用威客發(fā)貼來(lái)使自己的任務(wù)帖永保第一第六章:優(yōu)酷網(wǎng)站相關(guān)內容采集的講解第1節:通過(guò)采集器采集優(yōu)酷網(wǎng)站的視頻和相關(guān)信息第2節:通過(guò)火車(chē)頭采集器監控優(yōu)酷最新視頻搜索量第七章:火車(chē)頭采集器采集百度相關(guān)內容第1節:采集百度關(guān)鍵詞搜索的結果并提取須要的網(wǎng)址域名第2節:火車(chē)頭采集器采集百度貼吧貼子內容和跟帖第3節:利用火車(chē)頭采集器采集百度新聞內容第4節:利用火車(chē)頭采集器采集百度軟件中心軟件第5節:利用火車(chē)頭采集器采集百度風(fēng)云榜相關(guān)最新信息第八章:火車(chē)頭采集器發(fā)布模塊的制做思路和技巧第1節:Web發(fā)布模塊的制做思路和技巧第2節:入庫模塊的制做思路和技巧dedecms,phpcms,ecshop,帝國cms,destoon,discuz
學(xué)習目的
通過(guò)學(xué)習火車(chē)頭采集器中級教程可以滿(mǎn)足大部分站長(cháng)對于網(wǎng)站采集的需求,本課程院士您火車(chē)頭采集器在各類(lèi)文字、視頻、音頻、彩票、圖片網(wǎng)站的采集方法以及火車(chē)頭采集器發(fā)布模塊的制做思路和技巧。本課程會(huì )隨著(zhù)市面上主流產(chǎn)品的迭代火車(chē)頭采集教程火車(chē)頭采集教程,而不斷的更新新的案例,一次訂購,終身學(xué)習。
適用人群
具有一定網(wǎng)站知識基礎的網(wǎng)站編輯、網(wǎng)絡(luò )營(yíng)銷(xiāo)從業(yè)者,電話(huà)營(yíng)銷(xiāo)從業(yè)者、SEOER、需要大量數據的、想提升自己對數據采集和合成效率的人。 查看全部
第一章:中級教程開(kāi)篇章第1節:工欲善其事必先利其器fiddler來(lái)幫您剖析數據第二章:分類(lèi)信息網(wǎng)站58網(wǎng)站的采集第1節:58網(wǎng)站房屋轉租內容采集第2節:58網(wǎng)站手機號碼采集的突破形式第3節:利用采集器全手動(dòng)大量發(fā)布信息的方法第三章:火車(chē)頭采集器在采集騰訊網(wǎng)站內容的使用第1節:采集qq群上面的所有qq成員的方式第2節:騰訊網(wǎng)站的新聞采集第3節:微信文章搜索的內容采集第4節:微信公眾號搜索的內容采集第5節:騰訊視頻的代碼的采集第四章:采集數據合成成文本第1節:采集網(wǎng)站內容合成出多個(gè)txt文本文檔第2節:采集網(wǎng)站內容合成出word文檔的方式第3節:采集內容合成出csv文件,可以用于淘寶助手第4節:通過(guò)采集器合成html單頁(yè)面第五章:火車(chē)頭采集器在威客領(lǐng)域的使用第1節:威客網(wǎng)站自動(dòng)發(fā)貼模塊的制做第2節:利用威客發(fā)貼來(lái)使自己的任務(wù)帖永保第一第六章:優(yōu)酷網(wǎng)站相關(guān)內容采集的講解第1節:通過(guò)采集器采集優(yōu)酷網(wǎng)站的視頻和相關(guān)信息第2節:通過(guò)火車(chē)頭采集器監控優(yōu)酷最新視頻搜索量第七章:火車(chē)頭采集器采集百度相關(guān)內容第1節:采集百度關(guān)鍵詞搜索的結果并提取須要的網(wǎng)址域名第2節:火車(chē)頭采集器采集百度貼吧貼子內容和跟帖第3節:利用火車(chē)頭采集器采集百度新聞內容第4節:利用火車(chē)頭采集器采集百度軟件中心軟件第5節:利用火車(chē)頭采集器采集百度風(fēng)云榜相關(guān)最新信息第八章:火車(chē)頭采集器發(fā)布模塊的制做思路和技巧第1節:Web發(fā)布模塊的制做思路和技巧第2節:入庫模塊的制做思路和技巧dedecms,phpcms,ecshop,帝國cms,destoon,discuz
學(xué)習目的
通過(guò)學(xué)習火車(chē)頭采集器中級教程可以滿(mǎn)足大部分站長(cháng)對于網(wǎng)站采集的需求,本課程院士您火車(chē)頭采集器在各類(lèi)文字、視頻、音頻、彩票、圖片網(wǎng)站的采集方法以及火車(chē)頭采集器發(fā)布模塊的制做思路和技巧。本課程會(huì )隨著(zhù)市面上主流產(chǎn)品的迭代火車(chē)頭采集教程火車(chē)頭采集教程,而不斷的更新新的案例,一次訂購,終身學(xué)習。
適用人群
具有一定網(wǎng)站知識基礎的網(wǎng)站編輯、網(wǎng)絡(luò )營(yíng)銷(xiāo)從業(yè)者,電話(huà)營(yíng)銷(xiāo)從業(yè)者、SEOER、需要大量數據的、想提升自己對數據采集和合成效率的人。
[蘋(píng)果CMSV10教程]火車(chē)頭采集文章資訊教程
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 799 次瀏覽 ? 2020-04-27 11:04
一直想寫(xiě)幾篇使小白看了也能用火車(chē)頭采集資訊 明星 視頻 的教程,因為有太多的小白來(lái)問(wèn)我這個(gè)問(wèn)題了,我說(shuō)大家去百度下,反饋回去的結果都是一樣說(shuō)沒(méi)有詳盡的配置教程,發(fā)布老是提示失敗。今天總算閑下來(lái)為小白們寫(xiě)一篇簡(jiǎn)單實(shí)用的采集教程。先寫(xiě)這個(gè)如何采集文章資訊的教程吧 。后面有時(shí)間了再更新視頻 和名星的,這個(gè)教程是寫(xiě)如何使用早已有了采集規則的教程。采集規則和火車(chē)頭軟件留言發(fā)送火車(chē)頭采集教程,按照我寫(xiě)的教程操作保證使你學(xué)會(huì )火車(chē)頭采集文章資訊了,好了開(kāi)始我們明天的采集教程吧。
教程分兩個(gè)大部分,一個(gè)是發(fā)布模塊的配置 再就是采集規則的配置,發(fā)布模塊和采集規則是兩個(gè)缺一不可的組成部分。有些小伙伴們說(shuō)在采集的時(shí)侯老是發(fā)布失敗是如何回事?最終說(shuō)到底就是這兩個(gè)地方?jīng)]有配置好造成。往下看
1,打開(kāi)火車(chē)頭軟件文件夾 點(diǎn)擊右圖這個(gè)啟動(dòng)程序圖標
2,軟件啟動(dòng)后點(diǎn)擊這個(gè)“發(fā)布”進(jìn)入到web發(fā)布模塊配置界面。
3,我發(fā)給大家火車(chē)頭軟件里早已導出了蘋(píng)果v10的4個(gè)發(fā)布模塊,雙擊“蘋(píng)果cms-v10文章”模塊對其編輯,編輯地方有3個(gè) 如下圖
?、?,編碼設置改成 UTF-8
?、?,網(wǎng)站跟地址把 “1.cn” 替換成你的網(wǎng)站主域名
?、?,登陸方法改成 不需要登錄http請求
?、?,都弄好后點(diǎn)擊右下角的測試配置,我們首先要確定下這個(gè)發(fā)布模塊是否可以正常使用,如果不能使用采集規則再正確也是發(fā)布不了的。點(diǎn)擊測試配置步入到測試配置頁(yè)面。如下圖
4,配置發(fā)布模塊最關(guān)鍵的一步,也是很多人出錯或是甚至弄不懂的地方。我用箭頭所指向的地方就是我們要配置的地方。如下圖
?、?,先來(lái)配置驗證密碼:驗證密碼就是站外入庫系聯(lián)接蘋(píng)果cms系統后臺的驗證碼 ,這個(gè)須要去系統后臺查看后填寫(xiě),找到驗證碼后雙擊一側“驗證密碼”在左邊的編輯框里復制粘貼到上面就可以了。系統后臺的驗證碼看右圖所示。找到后復制下來(lái)粘貼到我們的發(fā)布模塊里。
?、?,再來(lái)配置發(fā)布模塊的“名稱(chēng)”,這里模塊的名稱(chēng)雖然就是文章的標題,我們可以隨意起一個(gè)名子,這個(gè)地方要理解了 就是整篇文章都有一個(gè)標題,有了標題才可以發(fā)布,我們這兒是在測試發(fā)布模塊,所以要自動(dòng)填寫(xiě)一個(gè)標題,如果是采集規則的話(huà)這個(gè)地方是不用填寫(xiě)的,采集規則就會(huì )手動(dòng)采集網(wǎng)站上的標題的。我們起名稱(chēng)以“首搽”為例吧 雙擊名稱(chēng)后在左側填寫(xiě)首搽后點(diǎn)擊更改就可以了 。
?、?,再來(lái)配置下“分類(lèi)名稱(chēng)”和“分類(lèi)編號”這兩個(gè)也是在系統的后臺來(lái)確定的,就是你要采集文章到網(wǎng)站哪個(gè)分類(lèi)的名稱(chēng)和編號,看右圖所示
來(lái)到系統后臺點(diǎn)擊基礎>>>分類(lèi)管理 拉到下邊(第2張圖)我們可以看見(jiàn)資訊的頂尖分類(lèi)和子分類(lèi) 一共三個(gè),這三個(gè)分類(lèi)我們都是發(fā)布文章的分類(lèi),都可以使用,我們就隨意選擇一個(gè)分類(lèi)“頭條”這個(gè)分類(lèi)吧。這里的頭條就是我們的分類(lèi)名稱(chēng),頭條上面的18就是分類(lèi)編號。所以我們就由此得到了分類(lèi)的名稱(chēng)和編號,直接填寫(xiě)到發(fā)布模塊的配置即可。
?、?一起都填寫(xiě)完畢后就是最后的測試了,我們點(diǎn)擊“發(fā)表文章測試“下面下來(lái)的就是發(fā)布入庫成功的相關(guān)提示。我們可以到網(wǎng)站前臺看下有沒(méi)有這個(gè)文章。
?、菸覀儊?lái)到網(wǎng)站的前臺點(diǎn)擊導航欄的分類(lèi),可以看見(jiàn)一個(gè)標題名稱(chēng)為首搽的文章,這也代表了我們文章發(fā)布模塊配置成功。
5,由于文字篇幅寬度的限制我們在下一篇文章里介紹文章采集規則的配置火車(chē)頭采集教程,看完下半部份的配置相信你一定會(huì )用火車(chē)頭來(lái)采集文章資訊到自己的網(wǎng)站上。 查看全部
一直想寫(xiě)幾篇使小白看了也能用火車(chē)頭采集資訊 明星 視頻 的教程,因為有太多的小白來(lái)問(wèn)我這個(gè)問(wèn)題了,我說(shuō)大家去百度下,反饋回去的結果都是一樣說(shuō)沒(méi)有詳盡的配置教程,發(fā)布老是提示失敗。今天總算閑下來(lái)為小白們寫(xiě)一篇簡(jiǎn)單實(shí)用的采集教程。先寫(xiě)這個(gè)如何采集文章資訊的教程吧 。后面有時(shí)間了再更新視頻 和名星的,這個(gè)教程是寫(xiě)如何使用早已有了采集規則的教程。采集規則和火車(chē)頭軟件留言發(fā)送火車(chē)頭采集教程,按照我寫(xiě)的教程操作保證使你學(xué)會(huì )火車(chē)頭采集文章資訊了,好了開(kāi)始我們明天的采集教程吧。
教程分兩個(gè)大部分,一個(gè)是發(fā)布模塊的配置 再就是采集規則的配置,發(fā)布模塊和采集規則是兩個(gè)缺一不可的組成部分。有些小伙伴們說(shuō)在采集的時(shí)侯老是發(fā)布失敗是如何回事?最終說(shuō)到底就是這兩個(gè)地方?jīng)]有配置好造成。往下看
1,打開(kāi)火車(chē)頭軟件文件夾 點(diǎn)擊右圖這個(gè)啟動(dòng)程序圖標

2,軟件啟動(dòng)后點(diǎn)擊這個(gè)“發(fā)布”進(jìn)入到web發(fā)布模塊配置界面。

3,我發(fā)給大家火車(chē)頭軟件里早已導出了蘋(píng)果v10的4個(gè)發(fā)布模塊,雙擊“蘋(píng)果cms-v10文章”模塊對其編輯,編輯地方有3個(gè) 如下圖

?、?,編碼設置改成 UTF-8
?、?,網(wǎng)站跟地址把 “1.cn” 替換成你的網(wǎng)站主域名
?、?,登陸方法改成 不需要登錄http請求
?、?,都弄好后點(diǎn)擊右下角的測試配置,我們首先要確定下這個(gè)發(fā)布模塊是否可以正常使用,如果不能使用采集規則再正確也是發(fā)布不了的。點(diǎn)擊測試配置步入到測試配置頁(yè)面。如下圖
4,配置發(fā)布模塊最關(guān)鍵的一步,也是很多人出錯或是甚至弄不懂的地方。我用箭頭所指向的地方就是我們要配置的地方。如下圖

?、?,先來(lái)配置驗證密碼:驗證密碼就是站外入庫系聯(lián)接蘋(píng)果cms系統后臺的驗證碼 ,這個(gè)須要去系統后臺查看后填寫(xiě),找到驗證碼后雙擊一側“驗證密碼”在左邊的編輯框里復制粘貼到上面就可以了。系統后臺的驗證碼看右圖所示。找到后復制下來(lái)粘貼到我們的發(fā)布模塊里。

?、?,再來(lái)配置發(fā)布模塊的“名稱(chēng)”,這里模塊的名稱(chēng)雖然就是文章的標題,我們可以隨意起一個(gè)名子,這個(gè)地方要理解了 就是整篇文章都有一個(gè)標題,有了標題才可以發(fā)布,我們這兒是在測試發(fā)布模塊,所以要自動(dòng)填寫(xiě)一個(gè)標題,如果是采集規則的話(huà)這個(gè)地方是不用填寫(xiě)的,采集規則就會(huì )手動(dòng)采集網(wǎng)站上的標題的。我們起名稱(chēng)以“首搽”為例吧 雙擊名稱(chēng)后在左側填寫(xiě)首搽后點(diǎn)擊更改就可以了 。

?、?,再來(lái)配置下“分類(lèi)名稱(chēng)”和“分類(lèi)編號”這兩個(gè)也是在系統的后臺來(lái)確定的,就是你要采集文章到網(wǎng)站哪個(gè)分類(lèi)的名稱(chēng)和編號,看右圖所示


來(lái)到系統后臺點(diǎn)擊基礎>>>分類(lèi)管理 拉到下邊(第2張圖)我們可以看見(jiàn)資訊的頂尖分類(lèi)和子分類(lèi) 一共三個(gè),這三個(gè)分類(lèi)我們都是發(fā)布文章的分類(lèi),都可以使用,我們就隨意選擇一個(gè)分類(lèi)“頭條”這個(gè)分類(lèi)吧。這里的頭條就是我們的分類(lèi)名稱(chēng),頭條上面的18就是分類(lèi)編號。所以我們就由此得到了分類(lèi)的名稱(chēng)和編號,直接填寫(xiě)到發(fā)布模塊的配置即可。
?、?一起都填寫(xiě)完畢后就是最后的測試了,我們點(diǎn)擊“發(fā)表文章測試“下面下來(lái)的就是發(fā)布入庫成功的相關(guān)提示。我們可以到網(wǎng)站前臺看下有沒(méi)有這個(gè)文章。

?、菸覀儊?lái)到網(wǎng)站的前臺點(diǎn)擊導航欄的分類(lèi),可以看見(jiàn)一個(gè)標題名稱(chēng)為首搽的文章,這也代表了我們文章發(fā)布模塊配置成功。

5,由于文字篇幅寬度的限制我們在下一篇文章里介紹文章采集規則的配置火車(chē)頭采集教程,看完下半部份的配置相信你一定會(huì )用火車(chē)頭來(lái)采集文章資訊到自己的網(wǎng)站上。


