采集文章系統
采集文章系統(采集文章系統方面有免費的,沒(méi)有限制的可以試試)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2021-12-27 00:01
采集文章系統方面有免費的,沒(méi)有限制的,可以試試尋文識文,微信小程序的,隨時(shí)隨地想搜就搜。文章判斷系統有免費的,也有收費的。你可以留言找找試試。
同問(wèn),
應該很多是不收費的。你要哪個(gè)平臺的,我再推薦你個(gè)app,喜馬拉雅fm,
前段時(shí)間去知乎回答了很多類(lèi)似的問(wèn)題
現在有啊知識星球
我也是關(guān)注很多,總覺(jué)得免費的太少。
目前有很多收費的課程不過(guò)最近人品很好還免費我覺(jué)得您可以試試用投票助手這個(gè)免費的app試試看,可以從公眾號導出很多數據的,可以根據自己需要添加自己感興趣的公眾號,收入進(jìn)一步了解更多知識最后,
最近更新的中信某行的培訓課程()分享出來(lái)幫助你了解一下(`)想要的話(huà)可以私信我呀~如果需要直接知乎找我也可以
有一個(gè)收費的但是看起來(lái)還不錯的課程收費198
真的不收費這是一個(gè)每天會(huì )發(fā)送一些鏈接的公眾號(名字就不打了)你可以在百度上搜索關(guān)鍵詞即可啊鏈接就是鏈接你懂的結果還挺好的我是沒(méi)做免費,
我有每天一個(gè)不用付費的公眾號的鏈接,
我在做公眾號閱讀的時(shí)候有一個(gè)公眾號導出,能幫助你。 查看全部
采集文章系統(采集文章系統方面有免費的,沒(méi)有限制的可以試試)
采集文章系統方面有免費的,沒(méi)有限制的,可以試試尋文識文,微信小程序的,隨時(shí)隨地想搜就搜。文章判斷系統有免費的,也有收費的。你可以留言找找試試。
同問(wèn),
應該很多是不收費的。你要哪個(gè)平臺的,我再推薦你個(gè)app,喜馬拉雅fm,
前段時(shí)間去知乎回答了很多類(lèi)似的問(wèn)題
現在有啊知識星球
我也是關(guān)注很多,總覺(jué)得免費的太少。
目前有很多收費的課程不過(guò)最近人品很好還免費我覺(jué)得您可以試試用投票助手這個(gè)免費的app試試看,可以從公眾號導出很多數據的,可以根據自己需要添加自己感興趣的公眾號,收入進(jìn)一步了解更多知識最后,
最近更新的中信某行的培訓課程()分享出來(lái)幫助你了解一下(`)想要的話(huà)可以私信我呀~如果需要直接知乎找我也可以
有一個(gè)收費的但是看起來(lái)還不錯的課程收費198
真的不收費這是一個(gè)每天會(huì )發(fā)送一些鏈接的公眾號(名字就不打了)你可以在百度上搜索關(guān)鍵詞即可啊鏈接就是鏈接你懂的結果還挺好的我是沒(méi)做免費,
我有每天一個(gè)不用付費的公眾號的鏈接,
我在做公眾號閱讀的時(shí)候有一個(gè)公眾號導出,能幫助你。
采集文章系統(YGBOOK輕量級小說(shuō)網(wǎng)站系統使用資料和文件的更新信息闡述 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-12-24 05:11
)
下面我們來(lái)解釋一下YGBOOK小說(shuō)采集System v1.4文件上YGBOOK小說(shuō)采集System v1.4文件的相關(guān)使用信息和更新信息。
YGBOOK小說(shuō)采集系統v1.4
YGBOOK小說(shuō)內容管理系統(以下簡(jiǎn)稱(chēng)YGBOOK)提供了基于ThinkPHP+MySQL技術(shù)開(kāi)發(fā)的輕量級小說(shuō)網(wǎng)站解決方案。
YGBOOK是一種介于cms和小偷網(wǎng)站之間的新型網(wǎng)站系統,批量采集目標網(wǎng)站數據,數據存儲。不僅網(wǎng)址完全不一樣,模板也不一樣,數據也是你的。它對網(wǎng)站管理員是完全免費的。只需設置網(wǎng)站,它就會(huì )自動(dòng)采集+自動(dòng)更新。
本軟件基于SEO性能優(yōu)秀的筆趣閣模板,經(jīng)過(guò)多次優(yōu)化,呈現給大家一個(gè)SEO優(yōu)秀、外觀(guān)優(yōu)雅的新穎網(wǎng)站系統。
YGBOOK免費版提供了基本的新穎功能,包括:
1.自動(dòng)采集2345導航小說(shuō)數據,內置采集規則,無(wú)需自己設置管理
2.數據存儲,無(wú)需擔心目標站修改或掛起
3.網(wǎng)站 提供小說(shuō)介紹和章節列表展示,章節閱讀采用跳轉原站模式,避免版權問(wèn)題。
4. 自帶偽靜態(tài)功能,但不能自由定制,無(wú)手機版,無(wú)站點(diǎn)搜索,無(wú)站點(diǎn)地圖,無(wú)結構化數據
YGBOOK是基于ThinkPHP+MYSQL開(kāi)發(fā)的,可以運行在大多數常見(jiàn)的服務(wù)器上。
比如windows服務(wù)器,IIS+PHP+MYSQL,
Linux服務(wù)器,Apache/Nginx+PHP+MYSQL
強烈推薦使用Linux服務(wù)器,可以發(fā)揮更大的性能優(yōu)勢
軟件方面,PHP要求5.3或更高版本,低于5.3的版本無(wú)法運行。
硬件方面,一般配置的虛擬主機可以正常運行系統,如果有服務(wù)器就更好了。
偽靜態(tài)配置參考壓縮包中的txt文件,不同環(huán)境有不同的配置說(shuō)明(內置.htacess文件為兼容性重新優(yōu)化,解決了“沒(méi)有指定輸入文件”的問(wèn)題??赡茉?apache+nts 模式下發(fā)生)
安裝步驟:
1.解壓文件上傳到對應目錄等
2.網(wǎng)站 必須配置偽靜態(tài)(參考上一步的配置)才能正常安裝使用(第一次訪(fǎng)問(wèn)首頁(yè)會(huì )自動(dòng)進(jìn)入安裝頁(yè)面,或手動(dòng)輸入域名.com/install)
3.同意使用協(xié)議進(jìn)入下一步檢查目錄權限
4. 測試通過(guò)后,填寫(xiě)通用數據庫配置項,填寫(xiě)正確即可完成安裝。安裝成功后會(huì )自動(dòng)進(jìn)入后臺頁(yè)面域名.com/admin,填寫(xiě)安裝時(shí)輸入的后臺管理員和密碼進(jìn)行登錄
5.在后臺文章列表頁(yè)面,可以手動(dòng)采集文章,批量處理采集文章數據。初次安裝后,建議采集在網(wǎng)站的內容中填寫(xiě)一些數據。網(wǎng)站 運行過(guò)程中會(huì )自動(dòng)執行采集操作(前臺訪(fǎng)問(wèn)觸發(fā),蜘蛛也可以觸發(fā)采集),無(wú)需人工干預。
YGBOOK小說(shuō)采集系統更新日志:
v1.4
增加百度站點(diǎn)地圖功能
安裝1.4版本后,您的站點(diǎn)地圖地址為“您的域名/home/sitemap/baidu.xml”
將域名替換為自己的域名后,提交至百度站長(cháng)平臺即可
方便百度蜘蛛的抓取
v1.3
添加對 php7 的支持
查看全部
采集文章系統(YGBOOK輕量級小說(shuō)網(wǎng)站系統使用資料和文件的更新信息闡述
)
下面我們來(lái)解釋一下YGBOOK小說(shuō)采集System v1.4文件上YGBOOK小說(shuō)采集System v1.4文件的相關(guān)使用信息和更新信息。
YGBOOK小說(shuō)采集系統v1.4
YGBOOK小說(shuō)內容管理系統(以下簡(jiǎn)稱(chēng)YGBOOK)提供了基于ThinkPHP+MySQL技術(shù)開(kāi)發(fā)的輕量級小說(shuō)網(wǎng)站解決方案。
YGBOOK是一種介于cms和小偷網(wǎng)站之間的新型網(wǎng)站系統,批量采集目標網(wǎng)站數據,數據存儲。不僅網(wǎng)址完全不一樣,模板也不一樣,數據也是你的。它對網(wǎng)站管理員是完全免費的。只需設置網(wǎng)站,它就會(huì )自動(dòng)采集+自動(dòng)更新。
本軟件基于SEO性能優(yōu)秀的筆趣閣模板,經(jīng)過(guò)多次優(yōu)化,呈現給大家一個(gè)SEO優(yōu)秀、外觀(guān)優(yōu)雅的新穎網(wǎng)站系統。
YGBOOK免費版提供了基本的新穎功能,包括:
1.自動(dòng)采集2345導航小說(shuō)數據,內置采集規則,無(wú)需自己設置管理
2.數據存儲,無(wú)需擔心目標站修改或掛起
3.網(wǎng)站 提供小說(shuō)介紹和章節列表展示,章節閱讀采用跳轉原站模式,避免版權問(wèn)題。
4. 自帶偽靜態(tài)功能,但不能自由定制,無(wú)手機版,無(wú)站點(diǎn)搜索,無(wú)站點(diǎn)地圖,無(wú)結構化數據
YGBOOK是基于ThinkPHP+MYSQL開(kāi)發(fā)的,可以運行在大多數常見(jiàn)的服務(wù)器上。
比如windows服務(wù)器,IIS+PHP+MYSQL,
Linux服務(wù)器,Apache/Nginx+PHP+MYSQL
強烈推薦使用Linux服務(wù)器,可以發(fā)揮更大的性能優(yōu)勢
軟件方面,PHP要求5.3或更高版本,低于5.3的版本無(wú)法運行。
硬件方面,一般配置的虛擬主機可以正常運行系統,如果有服務(wù)器就更好了。
偽靜態(tài)配置參考壓縮包中的txt文件,不同環(huán)境有不同的配置說(shuō)明(內置.htacess文件為兼容性重新優(yōu)化,解決了“沒(méi)有指定輸入文件”的問(wèn)題??赡茉?apache+nts 模式下發(fā)生)
安裝步驟:
1.解壓文件上傳到對應目錄等
2.網(wǎng)站 必須配置偽靜態(tài)(參考上一步的配置)才能正常安裝使用(第一次訪(fǎng)問(wèn)首頁(yè)會(huì )自動(dòng)進(jìn)入安裝頁(yè)面,或手動(dòng)輸入域名.com/install)
3.同意使用協(xié)議進(jìn)入下一步檢查目錄權限
4. 測試通過(guò)后,填寫(xiě)通用數據庫配置項,填寫(xiě)正確即可完成安裝。安裝成功后會(huì )自動(dòng)進(jìn)入后臺頁(yè)面域名.com/admin,填寫(xiě)安裝時(shí)輸入的后臺管理員和密碼進(jìn)行登錄
5.在后臺文章列表頁(yè)面,可以手動(dòng)采集文章,批量處理采集文章數據。初次安裝后,建議采集在網(wǎng)站的內容中填寫(xiě)一些數據。網(wǎng)站 運行過(guò)程中會(huì )自動(dòng)執行采集操作(前臺訪(fǎng)問(wèn)觸發(fā),蜘蛛也可以觸發(fā)采集),無(wú)需人工干預。
YGBOOK小說(shuō)采集系統更新日志:
v1.4
增加百度站點(diǎn)地圖功能
安裝1.4版本后,您的站點(diǎn)地圖地址為“您的域名/home/sitemap/baidu.xml”
將域名替換為自己的域名后,提交至百度站長(cháng)平臺即可
方便百度蜘蛛的抓取
v1.3
添加對 php7 的支持
采集文章系統(采集系統操作說(shuō)明(傻瓜版)插件圖(1))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2021-12-24 05:10
采集系統操作說(shuō)明(傻瓜版)
1.準備工作
1.1 安裝 FireBug 瀏覽器插件
圖片(1):FireBug插件安裝
1.2 找到需要采集網(wǎng)站
的目標
<p>使用以下教程示例:/main/zxnews.shtml 用于演示1.3 登錄cms,進(jìn)入需要的頻道,進(jìn)入采集系統。 查看全部
采集文章系統(采集系統操作說(shuō)明(傻瓜版)插件圖(1))
采集系統操作說(shuō)明(傻瓜版)
1.準備工作
1.1 安裝 FireBug 瀏覽器插件
圖片(1):FireBug插件安裝
1.2 找到需要采集網(wǎng)站
的目標
<p>使用以下教程示例:/main/zxnews.shtml 用于演示1.3 登錄cms,進(jìn)入需要的頻道,進(jìn)入采集系統。
采集文章系統( 持續更新,微信公眾號文章批量采集系統的構建(圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2021-12-23 13:26
持續更新,微信公眾號文章批量采集系統的構建(圖))
持續更新,微信公眾號文章批量采集系統建設
持續更新,微信公眾號文章批量采集系統建設
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)入口現在還是一樣,只是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)到了2015年,html5垃圾站就不做了。取而代之的是,采集的目標是針對本地新聞資訊公眾號,將前端展示做成一個(gè)app。所以一個(gè)可以自動(dòng)< @采集 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信技術(shù)的不斷升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。首先,讓'
czNjY2NA==#wechat_webview_type=1&wechat_redirect
========2017 年 1 月 11 日更新 ========== 查看全部
采集文章系統(
持續更新,微信公眾號文章批量采集系統的構建(圖))
持續更新,微信公眾號文章批量采集系統建設
持續更新,微信公眾號文章批量采集系統建設
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)入口現在還是一樣,只是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)到了2015年,html5垃圾站就不做了。取而代之的是,采集的目標是針對本地新聞資訊公眾號,將前端展示做成一個(gè)app。所以一個(gè)可以自動(dòng)< @采集 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信技術(shù)的不斷升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。首先,讓'
czNjY2NA==#wechat_webview_type=1&wechat_redirect
========2017 年 1 月 11 日更新 ==========
采集文章系統(優(yōu)采云采集器IP:預估日均-預估:備案信息)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2021-12-22 14:08
網(wǎng)站說(shuō)明:[優(yōu)采云采集器]是一個(gè)完全在線(xiàn)的配置和云采集網(wǎng)站文章采集工具。功能強大,操作非常簡(jiǎn)單,無(wú)需安裝任何客戶(hù)端或插件;支持在線(xiàn)視覺(jué)點(diǎn)擊;集成智能抽取引擎,自動(dòng)識別數據和規則;獨家第一書(shū)簽一鍵采集;與各種cms網(wǎng)站、Http接口等無(wú)縫對接,是一款免費的在線(xiàn)網(wǎng)頁(yè)文章采集軟件。.
去網(wǎng)站
體重信息
搜索引擎優(yōu)化信息
百度來(lái)源:51~70 IP 移動(dòng)來(lái)源:30~40 IP 出站鏈接:8 主頁(yè)內部鏈接:46
收錄信息
百度收錄:21,500360收錄:-神馬收錄:-搜狗收錄:152Google收錄:-
反鏈接信息
百度反鏈:83,100,000 360 反鏈:-神馬反鏈:-搜狗反鏈:201 谷歌反鏈:-
排名信息
世界排名:-國內排名:-預估日均IP:-預估日均PV:-
記錄信息
備案號:粵ICP備17116157-1號性質(zhì):公司名稱(chēng):審核時(shí)間:2017-09-13
域名信息
年齡:4月29日時(shí)間:2017年8月24日
服務(wù)器信息
協(xié)議類(lèi)型:-頁(yè)面類(lèi)型:-服務(wù)器類(lèi)型:-程序支持:-連接識別:-消息發(fā)送:未知GZIP檢測:未啟用GZIP壓縮源文件大?。?壓縮大?。?jiǎn)⒂肎ZIP估計達到0.@ > 01KB 壓縮率:估計0.@>00% 最后修改時(shí)間:未知
評價(jià)網(wǎng)站
[優(yōu)采云采集器] 網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站文章采集本軟件被網(wǎng)友主動(dòng)提交給修永證券收錄@ >整理收錄,收錄的時(shí)間是2021-12-22 10:47:09,目前已經(jīng)有點(diǎn)擊?!緝?yōu)采云采集器】網(wǎng)頁(yè)資料采集器-免費在線(xiàn)網(wǎng)站文章采集 軟件世界排名第一,國內排名第一No.-第一,日均IP約-,百度權重為0,百度收錄有21500,百度之道約51~70個(gè)IP,備案號粵ICP備17116157-1號,域名name注冊于2010年8月24日,至今已經(jīng)4年3月29日,本次測評結果僅供參考,[優(yōu)采云采集器]網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站<
-結尾- 查看全部
采集文章系統(優(yōu)采云采集器IP:預估日均-預估:備案信息)
網(wǎng)站說(shuō)明:[優(yōu)采云采集器]是一個(gè)完全在線(xiàn)的配置和云采集網(wǎng)站文章采集工具。功能強大,操作非常簡(jiǎn)單,無(wú)需安裝任何客戶(hù)端或插件;支持在線(xiàn)視覺(jué)點(diǎn)擊;集成智能抽取引擎,自動(dòng)識別數據和規則;獨家第一書(shū)簽一鍵采集;與各種cms網(wǎng)站、Http接口等無(wú)縫對接,是一款免費的在線(xiàn)網(wǎng)頁(yè)文章采集軟件。.
去網(wǎng)站
體重信息






搜索引擎優(yōu)化信息
百度來(lái)源:51~70 IP 移動(dòng)來(lái)源:30~40 IP 出站鏈接:8 主頁(yè)內部鏈接:46
收錄信息
百度收錄:21,500360收錄:-神馬收錄:-搜狗收錄:152Google收錄:-
反鏈接信息
百度反鏈:83,100,000 360 反鏈:-神馬反鏈:-搜狗反鏈:201 谷歌反鏈:-
排名信息
世界排名:-國內排名:-預估日均IP:-預估日均PV:-
記錄信息
備案號:粵ICP備17116157-1號性質(zhì):公司名稱(chēng):審核時(shí)間:2017-09-13
域名信息
年齡:4月29日時(shí)間:2017年8月24日
服務(wù)器信息
協(xié)議類(lèi)型:-頁(yè)面類(lèi)型:-服務(wù)器類(lèi)型:-程序支持:-連接識別:-消息發(fā)送:未知GZIP檢測:未啟用GZIP壓縮源文件大?。?壓縮大?。?jiǎn)⒂肎ZIP估計達到0.@ > 01KB 壓縮率:估計0.@>00% 最后修改時(shí)間:未知
評價(jià)網(wǎng)站
[優(yōu)采云采集器] 網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站文章采集本軟件被網(wǎng)友主動(dòng)提交給修永證券收錄@ >整理收錄,收錄的時(shí)間是2021-12-22 10:47:09,目前已經(jīng)有點(diǎn)擊?!緝?yōu)采云采集器】網(wǎng)頁(yè)資料采集器-免費在線(xiàn)網(wǎng)站文章采集 軟件世界排名第一,國內排名第一No.-第一,日均IP約-,百度權重為0,百度收錄有21500,百度之道約51~70個(gè)IP,備案號粵ICP備17116157-1號,域名name注冊于2010年8月24日,至今已經(jīng)4年3月29日,本次測評結果僅供參考,[優(yōu)采云采集器]網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站<
-結尾-
采集文章系統(簡(jiǎn)潔易用、永久免費的PHP文章管理系統和Access可供選擇)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-12-18 07:17
Rookie 文章 管理系統是一個(gè)簡(jiǎn)單易用、永遠免費的 PHP文章 管理系統;內置采集功能,Rookie官方采集每天海量數據供用戶(hù)選擇。系統安裝時(shí)有Mysql和Access兩個(gè)數據庫可供選擇。
后臺功能介紹:
1、基本設置:基本信息、網(wǎng)站設置、導航管理、模塊開(kāi)啟關(guān)閉、安全設置、管理員賬號、其他設置;
2、文章管理:文章列表,發(fā)布文章,文章分類(lèi);
3、用戶(hù)交互:消息管理、評論管理、友情鏈接;
4、文件管理:模板選擇、圖片管理、資源管理;
5、Data采集:采集設置、公共數據、高級數據;
6、高級應用:新頻道、頻道標題、后臺導航管理。
安裝注意事項:
1、 我們推薦的PHP版本為PHP 5.3,推薦的本地測試環(huán)境為upupw;
2、 全新安裝需要將upload文件夾中的所有子目錄和文件(注意在里面)上傳到網(wǎng)站的根目錄下,然后打開(kāi)網(wǎng)站瀏覽器,按提示選擇數據庫,填寫(xiě)數據庫信息,最后點(diǎn)擊安裝按鈕完成安裝;
3、 本系統默認設置為1小時(shí)內只能登錄后臺10次??梢栽凇昂笈_-基本設置-安全設置”中修改時(shí)長(cháng)和登錄次數,避免調試時(shí)無(wú)法登錄后臺。
升級說(shuō)明:
由于本版本較上一版本有較大提升,為避免升級過(guò)程中對舊版網(wǎng)站造成災難性影響,本版本不提供升級程序。
預防措施:
1、本系統的Access數據庫僅在部分Windows服務(wù)器上有效。建議想使用Access數據庫的用戶(hù)在購買(mǎi)主機時(shí)選擇Windows主機,可能需要修改服務(wù)器配置;
2、因為本系統使用的是UTF-8編碼,所以在Windows下不能使用記事本進(jìn)行編輯,因為記事本會(huì )自動(dòng)添加BOM頭導致程序異常。建議使用專(zhuān)業(yè)的Dreamweaver或Notepad++的小型編輯器;
3、網(wǎng)站移動(dòng)前請清除后臺Smarty緩存,或者移動(dòng)后手動(dòng)刪除index/compile和admin/compile目錄下的所有文件,否則網(wǎng)站移動(dòng)后可能會(huì )出錯.
4、這個(gè)系統在發(fā)布前經(jīng)過(guò)多次測試,一般核心功能不會(huì )出錯。如果您在使用過(guò)程中遇到程序錯誤,請從您自己的運行環(huán)境中查找原因。請不要一遇到問(wèn)題就將責任推到我們身上,甚至懷疑我們故意留下缺陷來(lái)收費。有助于解決問(wèn)題和個(gè)人進(jìn)步。如果您確定錯誤是由我們的程序引起的,您可以將問(wèn)題發(fā)送到我們的郵箱,我們將在確認后免費為您提供解決方案。同時(shí),我們非常感謝您的反饋!
后臺路徑:網(wǎng)站path/admin
菜鳥(niǎo)文章管理系統更新日志:
更新?tīng)顟B(tài):
1、改變前端界面風(fēng)格;
2、去除后臺一些不實(shí)用的功能;
3、 修改網(wǎng)址樣式;
4、簡(jiǎn)化代碼。 查看全部
采集文章系統(簡(jiǎn)潔易用、永久免費的PHP文章管理系統和Access可供選擇)
Rookie 文章 管理系統是一個(gè)簡(jiǎn)單易用、永遠免費的 PHP文章 管理系統;內置采集功能,Rookie官方采集每天海量數據供用戶(hù)選擇。系統安裝時(shí)有Mysql和Access兩個(gè)數據庫可供選擇。
后臺功能介紹:
1、基本設置:基本信息、網(wǎng)站設置、導航管理、模塊開(kāi)啟關(guān)閉、安全設置、管理員賬號、其他設置;
2、文章管理:文章列表,發(fā)布文章,文章分類(lèi);
3、用戶(hù)交互:消息管理、評論管理、友情鏈接;
4、文件管理:模板選擇、圖片管理、資源管理;
5、Data采集:采集設置、公共數據、高級數據;
6、高級應用:新頻道、頻道標題、后臺導航管理。
安裝注意事項:
1、 我們推薦的PHP版本為PHP 5.3,推薦的本地測試環(huán)境為upupw;
2、 全新安裝需要將upload文件夾中的所有子目錄和文件(注意在里面)上傳到網(wǎng)站的根目錄下,然后打開(kāi)網(wǎng)站瀏覽器,按提示選擇數據庫,填寫(xiě)數據庫信息,最后點(diǎn)擊安裝按鈕完成安裝;
3、 本系統默認設置為1小時(shí)內只能登錄后臺10次??梢栽凇昂笈_-基本設置-安全設置”中修改時(shí)長(cháng)和登錄次數,避免調試時(shí)無(wú)法登錄后臺。
升級說(shuō)明:
由于本版本較上一版本有較大提升,為避免升級過(guò)程中對舊版網(wǎng)站造成災難性影響,本版本不提供升級程序。
預防措施:
1、本系統的Access數據庫僅在部分Windows服務(wù)器上有效。建議想使用Access數據庫的用戶(hù)在購買(mǎi)主機時(shí)選擇Windows主機,可能需要修改服務(wù)器配置;
2、因為本系統使用的是UTF-8編碼,所以在Windows下不能使用記事本進(jìn)行編輯,因為記事本會(huì )自動(dòng)添加BOM頭導致程序異常。建議使用專(zhuān)業(yè)的Dreamweaver或Notepad++的小型編輯器;
3、網(wǎng)站移動(dòng)前請清除后臺Smarty緩存,或者移動(dòng)后手動(dòng)刪除index/compile和admin/compile目錄下的所有文件,否則網(wǎng)站移動(dòng)后可能會(huì )出錯.
4、這個(gè)系統在發(fā)布前經(jīng)過(guò)多次測試,一般核心功能不會(huì )出錯。如果您在使用過(guò)程中遇到程序錯誤,請從您自己的運行環(huán)境中查找原因。請不要一遇到問(wèn)題就將責任推到我們身上,甚至懷疑我們故意留下缺陷來(lái)收費。有助于解決問(wèn)題和個(gè)人進(jìn)步。如果您確定錯誤是由我們的程序引起的,您可以將問(wèn)題發(fā)送到我們的郵箱,我們將在確認后免費為您提供解決方案。同時(shí),我們非常感謝您的反饋!
后臺路徑:網(wǎng)站path/admin
菜鳥(niǎo)文章管理系統更新日志:
更新?tīng)顟B(tài):
1、改變前端界面風(fēng)格;
2、去除后臺一些不實(shí)用的功能;
3、 修改網(wǎng)址樣式;
4、簡(jiǎn)化代碼。
采集文章系統(《Web》主題Web信息采集的基本問(wèn)題及難點(diǎn)解析)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2021-12-15 21:14
《基于主題的Web信息采集系統設計與實(shí)現.pdf》由會(huì )員共享,可在線(xiàn)閱讀。更多相關(guān)《基于主題的Web信息采集系統設計與實(shí)現.pdf(3頁(yè)典藏版)》請在威川搜索。
1、Volume 29, Issue 17 12917 Computer Engineering 2003 年 10 月 2003 年 10 月 軟件技術(shù)與數據庫 文章 編號:l00o-3428(2003)l70l0203 文檔識別碼:A 中文圈分類(lèi)號:TP391基于學(xué)科的Web信息采集系統設計與實(shí)現李勝濤,趙章杰,于志華(中國科學(xué)院計算技術(shù)研究所軟件研究室,北京100080) 摘要:基于學(xué)科的Web信息采集是信息檢索領(lǐng)域一個(gè)新興的實(shí)用方向,也是信息處理技術(shù)的研究熱點(diǎn)。文章分析主題Web信息采集的基本問(wèn)題, 提出難點(diǎn)及相關(guān)解決方案,并在此基礎上,“天大”主題網(wǎng)站信息采集系統的設計與實(shí)現
2、。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題 采集 Desin and Realization 0f Focused Web Crawler。李勝濤, 趙占西, 于志華 (中國科學(xué)院計算技術(shù)研究所軟件部, 北京 l00080) l 摘要 l 聚焦網(wǎng)絡(luò )爬蟲(chóng)是信息檢索領(lǐng)域的一個(gè)新的實(shí)用方向
3、ieva1本文論述了聚焦網(wǎng)絡(luò )爬蟲(chóng)的原理、難點(diǎn)和措施,然后分析了SkyReach聚焦網(wǎng)絡(luò )爬蟲(chóng)的設計。信息檢索;信息處理;聚焦爬蟲(chóng)l樂(lè )_樂(lè ) 基于Web信息采集,發(fā)布及相關(guān)信息處理日益成為關(guān)注的焦點(diǎn)。傳統we詞采集的目標是盡可能地采集
4、信息頁(yè),和采集頁(yè)的準確性關(guān)注較少,它有很多缺陷。隨著(zhù)www的爆發(fā)式增長(cháng),信息速度采集越來(lái)越不能滿(mǎn)足實(shí)際需求。最近的實(shí)驗表明,即使是大規模的信息采集系統也只有 30-40 個(gè)網(wǎng)絡(luò )覆蓋。主題采集可以將整個(gè)Web按主題采集劃分成塊,并整合不同的塊,提高整個(gè)Web采集的覆蓋率。對于傳統信息采集,需要幾周到一個(gè)月的時(shí)間才能再次刷新?!?I,使得頁(yè)面失敗率非常大。一個(gè)好的緩解方法是使用采集主題,通過(guò)減少采集的頁(yè)面數量來(lái)減少刷新時(shí)間,從而降低采集的失敗率 頁(yè)。傳統信息采集消耗大量的系統和網(wǎng)絡(luò )資源,而且大部分利用率很低,基于主題的采集有效提高了采集對頁(yè)面的使用率。
5、2 Theme-based web information采集System Model 21 System Model Topic Web Information采集,也稱(chēng)為T(mén)opicSpecific Crawling,主要是指選擇性搜索那些和預定義的主題集相關(guān)頁(yè)面執行采集的行為。我們設計了“天大”主題采集系統,其系統模型如圖1所示。為了實(shí)現自動(dòng)信息采集,整個(gè)過(guò)程分為6大模塊:主題選擇、初始URL選擇、Spider采集、頁(yè)面分析、URL與主題關(guān)聯(lián)判斷、頁(yè)面與主題關(guān)聯(lián)判斷。22.主題的選擇。起點(diǎn)的選擇與我采集 為了有效地開(kāi)展采集主題,需要考慮的一個(gè)重要問(wèn)題是主題選擇。由于隨機的學(xué)科術(shù)語(yǔ)可能會(huì )極大地影響采集的效果,系統一般會(huì )為用戶(hù)提供一個(gè)學(xué)科類(lèi)別目錄供用戶(hù)選擇。為了有效地
6、為了確定用戶(hù)選擇的主題的含義,用戶(hù)應該提供對該主題的進(jìn)一步描述,例如提供幾個(gè)表達該主題含義的文本。我們的系統按照中國圖書(shū)館分類(lèi)法的一級目錄和二級目錄對主題進(jìn)行分類(lèi),并在每個(gè)主題下配備了一些主題文本供用戶(hù)選擇。采集器 從一組種子 URL 開(kāi)始,通過(guò) Web 協(xié)議擴展到需要的頁(yè)面。根據 LinkageSibling Locality 特性,系統需要選擇高質(zhì)量的主題 URL 作為初始種子 URL 集。23 Spider采集 1O2 One Circle I 信息自動(dòng)采集的6大塊。這部分在系統的最底層,也叫“網(wǎng)絡(luò )蜘蛛”,專(zhuān)門(mén)處理Web,
7、各種文件如聲音)。目前系統主要針對HTTP協(xié)議,其主要任務(wù)是為每個(gè)Spider分配URL以獲取實(shí)際數據采集,并根據需要動(dòng)態(tài)分配Spider的數量,如圖2。 基金項目:中科院計算所前沿青年基金項目(200162808) 作者:李勝濤(1976一),男,碩士研究生,主要研究方向:智能代理、信息采集) , 信息檢索, 文本分類(lèi); 趙章杰, 于志華, Ph.D. 博士生錄取日期破: 2002073I | 回歸天破: 2002-1028 維普資訊http://圖2 蜘蛛合集: 合集采集頁(yè)面的24頁(yè)分析之后,您需要提取鏈接、元數據、文本、標題和摘要以進(jìn)行后續過(guò)濾和其他處理。這里主要介紹鏈接和標簽。
8、 問(wèn)題提取。鏈接的提取如下: 首先,識別頁(yè)面類(lèi)型。顯然,只有“xffhtml”類(lèi)型的頁(yè)面需要分析鏈接。頁(yè)面的類(lèi)型可以從響應頭的分析中得到。部分www站點(diǎn)返回的響應信息格式不完整。這時(shí)候就需要分析頁(yè)面URL中的文件擴展名來(lái)確定頁(yè)面類(lèi)型。當遇到諸如等帶有鏈接的標簽時(shí),從標簽結構的屬性中找到目標URL,從標簽對中提取文本作為鏈接的描述性文本(擴展元數據)。這兩個(gè)數據代表鏈接。頁(yè)面中標題的提取分為3個(gè)步驟:(一)確定正文開(kāi)頭的位置,從文章的開(kāi)頭開(kāi)始,逐段掃描,直到某段長(cháng)度不小于設置的正文最小長(cháng)度,假設該段為正文中的A段。(2) 從文本位置向前搜索可能是標題的一段,根據字體
9、大小、居中、變色等特性找到最合適的一段文字作為標題。(3)通過(guò)給定參數調整標題段,使標題提取更準確。對標題段前后段stTitlePara進(jìn)行句法、語(yǔ)義、統計分析,準確判斷標題段真實(shí)位置. 25 URL和主核的相關(guān)性確定有效提高主題Web信息采集的可靠性(召回率和準確率的結合)和效率,系統需要在采集的過(guò)程中加入過(guò)濾機制@> 并采用綜合擴展的 I Pagerank 方法進(jìn)行元數據和鏈接分析。25I 擴展元數據的含義 雖然目前的元數據計算(HTML 中添加的一種標記,寫(xiě)成)并不理想,但人們已經(jīng)發(fā)現使用其他 HTML 標簽如錨點(diǎn)等信息可以有效引導搜索和基于主題信息采集。為了
1 根據0、的區別,這些標記信息統稱(chēng)為HTML擴展元數據。252 擴展元數據方法的ReIevance Weighting或RW算法如下: f 0 (ur): (0(,), M(ur1) 如max(O(t). l 0 規范其中, M(ur1)指的是與這個(gè)URL相關(guān)的所有擴展元數據的集合,O(t)指的是擴展元數據中某個(gè)詞與主題的相關(guān)性。c是用戶(hù)設置的相關(guān)性閾值. RW 方法是通過(guò)查看擴展元數據中單詞和主題詞的相似度來(lái)計算的,同義詞之間的相似度為100,同義詞之間的相似度為50-100,遠距離詞之間的相似度為0 50。這樣就大大降低了相關(guān)頁(yè)面誤判的可能性,
11、頁(yè)面被判斷為相關(guān)頁(yè)面的可能性)。25 3 鏈接分析方法 PageRank 是谷歌的一個(gè)重要搜索算法,它有效地幫助搜索引擎識別那些重要的頁(yè)面,并將它們排在搜索結果的前列。該方法定義為:給定一個(gè)網(wǎng)頁(yè)A,假設指向它的網(wǎng)頁(yè)有T.,,T.設c(A)為A到其他網(wǎng)頁(yè)的鏈接數,PR(A)為A的PageRank, d為衰減因子(一般設置為085),然后有一個(gè)跳躍,c+254的IPageRank算法通過(guò)觀(guān)察:PageRank方法雖然有很強的尋找重要頁(yè)面的能力,但是它找到的重要頁(yè)面是為了一個(gè)廣泛的話(huà)題,而不是基于特定的話(huà)題。因此,一個(gè)頁(yè)面被大量不相關(guān)的話(huà)題指向PageRan
1 2、k的值高于與mang問(wèn)題相關(guān)的少數頁(yè)面組所指向的頁(yè)面的PageRank值,這是不合理的。如果大量主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值高于少數主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值,則必須使用它。為此,我們對PageRank方法進(jìn)行了改進(jìn),根據鏈接關(guān)系加入一定的語(yǔ)義信息權重,使生成的重要頁(yè)面針對某個(gè)主題,形成1PageRank算法。IPageRank算法不僅利用PageRank的優(yōu)勢尋找重要頁(yè)面,還利用RW算法提高鏈接的相關(guān)性。改進(jìn)后的公式如下 (3) PR(I): (卜(,)+dl IPR(T) 芝.(ur) (<
13、) Lan Yiyi PR(T) 0 (Ill 1) 0 (IllI) 其中A為給定的網(wǎng)頁(yè),假設指向它的網(wǎng)頁(yè)有T.,, Tn.u, ur u rII 為網(wǎng)頁(yè)T、T、指向A的鏈接,kI、k2、kn分別為網(wǎng)頁(yè)TT中收錄的鏈接數,IPR(A)為A的IPageRank值,d為衰減因子(也設置為085)。IPageRank的實(shí)際含義可以用話(huà)題瀏覽者來(lái)解釋。假設Web上有一個(gè)話(huà)題瀏覽者,IPPageRank(函數IPR(A)是它訪(fǎng)問(wèn)頁(yè)面A的概率)。它從初始頁(yè)面集開(kāi)始,跟隨頁(yè)面鏈接,從不進(jìn)行“返回”操作,在每個(gè)頁(yè)面上,瀏覽者對該頁(yè)面中的每個(gè)鏈接感興趣的概率與鏈接和主題相關(guān)。
14、關(guān)星成正比。瀏覽者也可能對這個(gè)頁(yè)面上的鏈接不再感興趣,從而隨機選擇一個(gè)新頁(yè)面開(kāi)始新的瀏覽,離開(kāi)的概率設置為d。從直觀(guān)上看,如果有很多頁(yè)面指向一個(gè)頁(yè)面,那么這個(gè)頁(yè)面的PageRank會(huì )比較高,但IPPageRank值不一定高,除非大部分都和主題相關(guān);如果有高IPPageRank的頁(yè)面指向它,這個(gè)頁(yè)面的IPageRank也會(huì )很高。26 頁(yè)面與主題相關(guān)性判斷 為了進(jìn)一步提高采集頁(yè)面的準確率,需要對已經(jīng)被采集的頁(yè)面進(jìn)行主題相關(guān)性評估,即頁(yè)面過(guò)濾。提高所有采集的準確率 主題頁(yè)面通過(guò)排除低評估結果(小于設置閾值)的頁(yè)面。我們采用的方法是基于關(guān)鍵詞的向量空間模型算法。3個(gè)系統
1 5、的實(shí)現 我們對“天大”主題Web信息采集系統的預測算法和系統的基本性能進(jìn)行了測試,得到了滿(mǎn)意的結果。(1)測試集的選擇選擇旅游信息作為測試主題。采集了20個(gè)旅游主題網(wǎng)站,加入了60個(gè)無(wú)關(guān)的網(wǎng)站組成測試集,其中收錄一個(gè)以上l03.維普信息頁(yè)。(2)算法測試和性能測試使用相同的初始URL集,使用廣度優(yōu)先算法、PageRank算法和IPageRank算法對采集進(jìn)行采集數據。為了得到每種方法的結果準確的結果,實(shí)驗中暫停了頁(yè)面和主題相關(guān)性確定模塊。在實(shí)驗過(guò)程中,記錄采集頁(yè)碼為500、1000、l 500一、4000H采集狀態(tài),計算采集狀態(tài)。@采集準確性和資源
16、源發(fā)現率,如表1所示。表一采集準確率與資源發(fā)現率采集準確率資源發(fā)現率寬度優(yōu)先級35 lOO PageRank 29 3O IPageRank 68 86 表2 測試結果,性能測試結果評價(jià)采集的最終準確率76較高(優(yōu)點(diǎn))最終資源發(fā)現率高8O(優(yōu)點(diǎn))30MB內存(估計)較大(缺點(diǎn))測試平臺為CPU Intel Pill 800、內存為128MB,操作系統為Window 2000 Professional電腦。采集時(shí),系統設置10個(gè)線(xiàn)程,采用的URL預測算法為IPageRank。測試的性能指標包括最終采集頁(yè)面的準確率,采集頁(yè)面的資源釋放
17、 當前速率、內存使用情況、測試結果如表2所示。 4 結束語(yǔ) 我基于主題研究了webf語(yǔ)言和信息技術(shù),并設計了一個(gè)實(shí)用的系統。在原有技術(shù)的基礎上,設計了許多獨特的新算法,如Spider采集、標題提取、URL主題預測、頁(yè)面主題相關(guān)性判斷等。特別是對著(zhù)名的谷歌算法進(jìn)行了改進(jìn),使其適用于基于主題的采集,同時(shí)保持原有的優(yōu)勢。實(shí)驗表明,基于主題的采集優(yōu)勢明顯。隨著(zhù)Web服務(wù)向個(gè)性化方向的推進(jìn),Agent技術(shù)的發(fā)展,以及遷移思想的出現,用于檢索的Web信息采集 科技必將走向主題化、個(gè)性化的主動(dòng)信息采集服務(wù)方向全方位拓展。參考文獻 I Aggarwal C, AIGar
18、awi F、Yu PIntelligent Crawling on the World Wide Web with Arbitrary PredicatesIn Proceedings of the 1 0th IntematiouaI WWW Conference200 l 2 Brin S, Page L,大型超文本網(wǎng)絡(luò )搜索引擎的切片剖析第七屆國際萬(wàn)維網(wǎng)會(huì )議,I 998 3 Diligen
19、ti M, Coetzee FM, Lawrence S, et a1Gori Focused Crawling Using Context GraphsVLDB Conference, 2000 4 Menczer F, Srinivasan GPP, Ruiz MEvaluating Topic-driven Web CrawlersIn Proceedings of the 24th Annual International Acms@ >IGIR 會(huì )議,200 l(接第 8I 頁(yè)) 3 Clark CM,Rock SRandomized Motion Planning for G
20、N011一完整機器人組在:加拿大第六屆空間人工智能、機器人和自動(dòng)化國際研討會(huì )論文集& 200106 4 Fraichard TDemazeau YMotion Planning in a Multiagent World In: Demazeau YMuller J PDecentralized AI: Proceedings第 22 屆歐洲工作室
21、p on Modeling Autonomous Agents in a Multiagent World 荷蘭阿姆斯特丹:Elsevier Science,I990:l37-l53(接第 l0l 頁(yè))輸出“:”?!氨硎绢?lèi)型”列輸出源文件中函數所描述的類(lèi)型,“基本類(lèi)型”列輸出表示不帶typedef的表示類(lèi)型的類(lèi)型。在這個(gè)例子中,funcl和main函數沒(méi)有使用typedef,所以這兩個(gè)函數的表示類(lèi)型和基本類(lèi)型是一樣的?!拔恢谩绷休敵龊瘮刀x或聲明的文檔名稱(chēng)和行號?!皩傩浴绷酗@示函數的屬性。例如,當函數未定義時(shí),顯示“no define”;如果
22、 不使用該功能時(shí),會(huì )顯示“未使用”等。上面的表1只是函數列表,變量列表、類(lèi)型列表、枚舉常量列表大體與此一致。對于列表中出現的每個(gè)元素,還有一個(gè)詳細的表格,按名稱(chēng)鏈接。例如,有一個(gè)函數的調用條件列表和一個(gè)函數返回值列表;對于變量,有一個(gè)值設置和引用列表。列表。限于篇幅,這里就不一一詳述_r了。4 結束語(yǔ) EPOM 是一種可以全面、詳細地展示程序的中間表示,它提供了一個(gè)標準的訪(fǎng)問(wèn)接口。所以,任何其他符合該接口的模塊都可以從中獲取有關(guān)源程序的所需信息。OSTPM 是一種基于域的程序信息分層遞歸表示模型。將程序中所有對象的范圍和類(lèi)型緊密聯(lián)系起來(lái)
23、?;诓樵?xún)-應答模型的Visitor方法將對象與作用于對象1O4的控制分離,減輕了控制系統的負擔,大大提高了系統的靈活性、安全性和可擴展性,使系統結構非常清晰. 同時(shí)減輕設計管理系統的負擔。擴展的節目參考模型EPRM是一種很好的節目統計信息形式。它采用面向對象的方法將復雜的程序信息組織成層次化的對象結構,并提供了一個(gè)接口,通過(guò)Visitor方法訪(fǎng)問(wèn)其對象。該模型克服了普通模型的缺點(diǎn),具有結構簡(jiǎn)單、對象自主性強、系統靈活性高、輸出界面友好、擴展性好等特點(diǎn)。
24、ts of Reusable Objectoriented SoftwareAddison Wesley Longman, Inc, l995 2 Prdn T WProgramming Languages: Design and Implementation PrenticeHall International, Inc, I 996 3 Pressman RS 軟件工程從業(yè)者的研究方法(第四版)北京:機械工業(yè)出版社,1999 4 Eckel Bc+ 編程思想北京:機械工業(yè)出版社,2000 5 張杏兒計算機編譯原理北京:科學(xué)出版社,I 999 6 趙陽(yáng),蔡志宇,潘金貴基于EPOM的程序可視化系統的設計與實(shí)現計算機的實(shí)現工程, 2002, 28 (cms2@>:l08Il0 7 蔡志宇, 趙陽(yáng), 潘杰, 等. 基于查詢(xún)-回答模型的對象控制模型的實(shí)現. 計算機工程(已錄) 維普資料 http:// 查看全部
采集文章系統(《Web》主題Web信息采集的基本問(wèn)題及難點(diǎn)解析)
《基于主題的Web信息采集系統設計與實(shí)現.pdf》由會(huì )員共享,可在線(xiàn)閱讀。更多相關(guān)《基于主題的Web信息采集系統設計與實(shí)現.pdf(3頁(yè)典藏版)》請在威川搜索。
1、Volume 29, Issue 17 12917 Computer Engineering 2003 年 10 月 2003 年 10 月 軟件技術(shù)與數據庫 文章 編號:l00o-3428(2003)l70l0203 文檔識別碼:A 中文圈分類(lèi)號:TP391基于學(xué)科的Web信息采集系統設計與實(shí)現李勝濤,趙章杰,于志華(中國科學(xué)院計算技術(shù)研究所軟件研究室,北京100080) 摘要:基于學(xué)科的Web信息采集是信息檢索領(lǐng)域一個(gè)新興的實(shí)用方向,也是信息處理技術(shù)的研究熱點(diǎn)。文章分析主題Web信息采集的基本問(wèn)題, 提出難點(diǎn)及相關(guān)解決方案,并在此基礎上,“天大”主題網(wǎng)站信息采集系統的設計與實(shí)現
2、。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題 采集 Desin and Realization 0f Focused Web Crawler。李勝濤, 趙占西, 于志華 (中國科學(xué)院計算技術(shù)研究所軟件部, 北京 l00080) l 摘要 l 聚焦網(wǎng)絡(luò )爬蟲(chóng)是信息檢索領(lǐng)域的一個(gè)新的實(shí)用方向
3、ieva1本文論述了聚焦網(wǎng)絡(luò )爬蟲(chóng)的原理、難點(diǎn)和措施,然后分析了SkyReach聚焦網(wǎng)絡(luò )爬蟲(chóng)的設計。信息檢索;信息處理;聚焦爬蟲(chóng)l樂(lè )_樂(lè ) 基于Web信息采集,發(fā)布及相關(guān)信息處理日益成為關(guān)注的焦點(diǎn)。傳統we詞采集的目標是盡可能地采集
4、信息頁(yè),和采集頁(yè)的準確性關(guān)注較少,它有很多缺陷。隨著(zhù)www的爆發(fā)式增長(cháng),信息速度采集越來(lái)越不能滿(mǎn)足實(shí)際需求。最近的實(shí)驗表明,即使是大規模的信息采集系統也只有 30-40 個(gè)網(wǎng)絡(luò )覆蓋。主題采集可以將整個(gè)Web按主題采集劃分成塊,并整合不同的塊,提高整個(gè)Web采集的覆蓋率。對于傳統信息采集,需要幾周到一個(gè)月的時(shí)間才能再次刷新?!?I,使得頁(yè)面失敗率非常大。一個(gè)好的緩解方法是使用采集主題,通過(guò)減少采集的頁(yè)面數量來(lái)減少刷新時(shí)間,從而降低采集的失敗率 頁(yè)。傳統信息采集消耗大量的系統和網(wǎng)絡(luò )資源,而且大部分利用率很低,基于主題的采集有效提高了采集對頁(yè)面的使用率。
5、2 Theme-based web information采集System Model 21 System Model Topic Web Information采集,也稱(chēng)為T(mén)opicSpecific Crawling,主要是指選擇性搜索那些和預定義的主題集相關(guān)頁(yè)面執行采集的行為。我們設計了“天大”主題采集系統,其系統模型如圖1所示。為了實(shí)現自動(dòng)信息采集,整個(gè)過(guò)程分為6大模塊:主題選擇、初始URL選擇、Spider采集、頁(yè)面分析、URL與主題關(guān)聯(lián)判斷、頁(yè)面與主題關(guān)聯(lián)判斷。22.主題的選擇。起點(diǎn)的選擇與我采集 為了有效地開(kāi)展采集主題,需要考慮的一個(gè)重要問(wèn)題是主題選擇。由于隨機的學(xué)科術(shù)語(yǔ)可能會(huì )極大地影響采集的效果,系統一般會(huì )為用戶(hù)提供一個(gè)學(xué)科類(lèi)別目錄供用戶(hù)選擇。為了有效地
6、為了確定用戶(hù)選擇的主題的含義,用戶(hù)應該提供對該主題的進(jìn)一步描述,例如提供幾個(gè)表達該主題含義的文本。我們的系統按照中國圖書(shū)館分類(lèi)法的一級目錄和二級目錄對主題進(jìn)行分類(lèi),并在每個(gè)主題下配備了一些主題文本供用戶(hù)選擇。采集器 從一組種子 URL 開(kāi)始,通過(guò) Web 協(xié)議擴展到需要的頁(yè)面。根據 LinkageSibling Locality 特性,系統需要選擇高質(zhì)量的主題 URL 作為初始種子 URL 集。23 Spider采集 1O2 One Circle I 信息自動(dòng)采集的6大塊。這部分在系統的最底層,也叫“網(wǎng)絡(luò )蜘蛛”,專(zhuān)門(mén)處理Web,
7、各種文件如聲音)。目前系統主要針對HTTP協(xié)議,其主要任務(wù)是為每個(gè)Spider分配URL以獲取實(shí)際數據采集,并根據需要動(dòng)態(tài)分配Spider的數量,如圖2。 基金項目:中科院計算所前沿青年基金項目(200162808) 作者:李勝濤(1976一),男,碩士研究生,主要研究方向:智能代理、信息采集) , 信息檢索, 文本分類(lèi); 趙章杰, 于志華, Ph.D. 博士生錄取日期破: 2002073I | 回歸天破: 2002-1028 維普資訊http://圖2 蜘蛛合集: 合集采集頁(yè)面的24頁(yè)分析之后,您需要提取鏈接、元數據、文本、標題和摘要以進(jìn)行后續過(guò)濾和其他處理。這里主要介紹鏈接和標簽。
8、 問(wèn)題提取。鏈接的提取如下: 首先,識別頁(yè)面類(lèi)型。顯然,只有“xffhtml”類(lèi)型的頁(yè)面需要分析鏈接。頁(yè)面的類(lèi)型可以從響應頭的分析中得到。部分www站點(diǎn)返回的響應信息格式不完整。這時(shí)候就需要分析頁(yè)面URL中的文件擴展名來(lái)確定頁(yè)面類(lèi)型。當遇到諸如等帶有鏈接的標簽時(shí),從標簽結構的屬性中找到目標URL,從標簽對中提取文本作為鏈接的描述性文本(擴展元數據)。這兩個(gè)數據代表鏈接。頁(yè)面中標題的提取分為3個(gè)步驟:(一)確定正文開(kāi)頭的位置,從文章的開(kāi)頭開(kāi)始,逐段掃描,直到某段長(cháng)度不小于設置的正文最小長(cháng)度,假設該段為正文中的A段。(2) 從文本位置向前搜索可能是標題的一段,根據字體
9、大小、居中、變色等特性找到最合適的一段文字作為標題。(3)通過(guò)給定參數調整標題段,使標題提取更準確。對標題段前后段stTitlePara進(jìn)行句法、語(yǔ)義、統計分析,準確判斷標題段真實(shí)位置. 25 URL和主核的相關(guān)性確定有效提高主題Web信息采集的可靠性(召回率和準確率的結合)和效率,系統需要在采集的過(guò)程中加入過(guò)濾機制@> 并采用綜合擴展的 I Pagerank 方法進(jìn)行元數據和鏈接分析。25I 擴展元數據的含義 雖然目前的元數據計算(HTML 中添加的一種標記,寫(xiě)成)并不理想,但人們已經(jīng)發(fā)現使用其他 HTML 標簽如錨點(diǎn)等信息可以有效引導搜索和基于主題信息采集。為了
1 根據0、的區別,這些標記信息統稱(chēng)為HTML擴展元數據。252 擴展元數據方法的ReIevance Weighting或RW算法如下: f 0 (ur): (0(,), M(ur1) 如max(O(t). l 0 規范其中, M(ur1)指的是與這個(gè)URL相關(guān)的所有擴展元數據的集合,O(t)指的是擴展元數據中某個(gè)詞與主題的相關(guān)性。c是用戶(hù)設置的相關(guān)性閾值. RW 方法是通過(guò)查看擴展元數據中單詞和主題詞的相似度來(lái)計算的,同義詞之間的相似度為100,同義詞之間的相似度為50-100,遠距離詞之間的相似度為0 50。這樣就大大降低了相關(guān)頁(yè)面誤判的可能性,
11、頁(yè)面被判斷為相關(guān)頁(yè)面的可能性)。25 3 鏈接分析方法 PageRank 是谷歌的一個(gè)重要搜索算法,它有效地幫助搜索引擎識別那些重要的頁(yè)面,并將它們排在搜索結果的前列。該方法定義為:給定一個(gè)網(wǎng)頁(yè)A,假設指向它的網(wǎng)頁(yè)有T.,,T.設c(A)為A到其他網(wǎng)頁(yè)的鏈接數,PR(A)為A的PageRank, d為衰減因子(一般設置為085),然后有一個(gè)跳躍,c+254的IPageRank算法通過(guò)觀(guān)察:PageRank方法雖然有很強的尋找重要頁(yè)面的能力,但是它找到的重要頁(yè)面是為了一個(gè)廣泛的話(huà)題,而不是基于特定的話(huà)題。因此,一個(gè)頁(yè)面被大量不相關(guān)的話(huà)題指向PageRan
1 2、k的值高于與mang問(wèn)題相關(guān)的少數頁(yè)面組所指向的頁(yè)面的PageRank值,這是不合理的。如果大量主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值高于少數主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值,則必須使用它。為此,我們對PageRank方法進(jìn)行了改進(jìn),根據鏈接關(guān)系加入一定的語(yǔ)義信息權重,使生成的重要頁(yè)面針對某個(gè)主題,形成1PageRank算法。IPageRank算法不僅利用PageRank的優(yōu)勢尋找重要頁(yè)面,還利用RW算法提高鏈接的相關(guān)性。改進(jìn)后的公式如下 (3) PR(I): (卜(,)+dl IPR(T) 芝.(ur) (<
13、) Lan Yiyi PR(T) 0 (Ill 1) 0 (IllI) 其中A為給定的網(wǎng)頁(yè),假設指向它的網(wǎng)頁(yè)有T.,, Tn.u, ur u rII 為網(wǎng)頁(yè)T、T、指向A的鏈接,kI、k2、kn分別為網(wǎng)頁(yè)TT中收錄的鏈接數,IPR(A)為A的IPageRank值,d為衰減因子(也設置為085)。IPageRank的實(shí)際含義可以用話(huà)題瀏覽者來(lái)解釋。假設Web上有一個(gè)話(huà)題瀏覽者,IPPageRank(函數IPR(A)是它訪(fǎng)問(wèn)頁(yè)面A的概率)。它從初始頁(yè)面集開(kāi)始,跟隨頁(yè)面鏈接,從不進(jìn)行“返回”操作,在每個(gè)頁(yè)面上,瀏覽者對該頁(yè)面中的每個(gè)鏈接感興趣的概率與鏈接和主題相關(guān)。
14、關(guān)星成正比。瀏覽者也可能對這個(gè)頁(yè)面上的鏈接不再感興趣,從而隨機選擇一個(gè)新頁(yè)面開(kāi)始新的瀏覽,離開(kāi)的概率設置為d。從直觀(guān)上看,如果有很多頁(yè)面指向一個(gè)頁(yè)面,那么這個(gè)頁(yè)面的PageRank會(huì )比較高,但IPPageRank值不一定高,除非大部分都和主題相關(guān);如果有高IPPageRank的頁(yè)面指向它,這個(gè)頁(yè)面的IPageRank也會(huì )很高。26 頁(yè)面與主題相關(guān)性判斷 為了進(jìn)一步提高采集頁(yè)面的準確率,需要對已經(jīng)被采集的頁(yè)面進(jìn)行主題相關(guān)性評估,即頁(yè)面過(guò)濾。提高所有采集的準確率 主題頁(yè)面通過(guò)排除低評估結果(小于設置閾值)的頁(yè)面。我們采用的方法是基于關(guān)鍵詞的向量空間模型算法。3個(gè)系統
1 5、的實(shí)現 我們對“天大”主題Web信息采集系統的預測算法和系統的基本性能進(jìn)行了測試,得到了滿(mǎn)意的結果。(1)測試集的選擇選擇旅游信息作為測試主題。采集了20個(gè)旅游主題網(wǎng)站,加入了60個(gè)無(wú)關(guān)的網(wǎng)站組成測試集,其中收錄一個(gè)以上l03.維普信息頁(yè)。(2)算法測試和性能測試使用相同的初始URL集,使用廣度優(yōu)先算法、PageRank算法和IPageRank算法對采集進(jìn)行采集數據。為了得到每種方法的結果準確的結果,實(shí)驗中暫停了頁(yè)面和主題相關(guān)性確定模塊。在實(shí)驗過(guò)程中,記錄采集頁(yè)碼為500、1000、l 500一、4000H采集狀態(tài),計算采集狀態(tài)。@采集準確性和資源
16、源發(fā)現率,如表1所示。表一采集準確率與資源發(fā)現率采集準確率資源發(fā)現率寬度優(yōu)先級35 lOO PageRank 29 3O IPageRank 68 86 表2 測試結果,性能測試結果評價(jià)采集的最終準確率76較高(優(yōu)點(diǎn))最終資源發(fā)現率高8O(優(yōu)點(diǎn))30MB內存(估計)較大(缺點(diǎn))測試平臺為CPU Intel Pill 800、內存為128MB,操作系統為Window 2000 Professional電腦。采集時(shí),系統設置10個(gè)線(xiàn)程,采用的URL預測算法為IPageRank。測試的性能指標包括最終采集頁(yè)面的準確率,采集頁(yè)面的資源釋放
17、 當前速率、內存使用情況、測試結果如表2所示。 4 結束語(yǔ) 我基于主題研究了webf語(yǔ)言和信息技術(shù),并設計了一個(gè)實(shí)用的系統。在原有技術(shù)的基礎上,設計了許多獨特的新算法,如Spider采集、標題提取、URL主題預測、頁(yè)面主題相關(guān)性判斷等。特別是對著(zhù)名的谷歌算法進(jìn)行了改進(jìn),使其適用于基于主題的采集,同時(shí)保持原有的優(yōu)勢。實(shí)驗表明,基于主題的采集優(yōu)勢明顯。隨著(zhù)Web服務(wù)向個(gè)性化方向的推進(jìn),Agent技術(shù)的發(fā)展,以及遷移思想的出現,用于檢索的Web信息采集 科技必將走向主題化、個(gè)性化的主動(dòng)信息采集服務(wù)方向全方位拓展。參考文獻 I Aggarwal C, AIGar
18、awi F、Yu PIntelligent Crawling on the World Wide Web with Arbitrary PredicatesIn Proceedings of the 1 0th IntematiouaI WWW Conference200 l 2 Brin S, Page L,大型超文本網(wǎng)絡(luò )搜索引擎的切片剖析第七屆國際萬(wàn)維網(wǎng)會(huì )議,I 998 3 Diligen
19、ti M, Coetzee FM, Lawrence S, et a1Gori Focused Crawling Using Context GraphsVLDB Conference, 2000 4 Menczer F, Srinivasan GPP, Ruiz MEvaluating Topic-driven Web CrawlersIn Proceedings of the 24th Annual International Acms@ >IGIR 會(huì )議,200 l(接第 8I 頁(yè)) 3 Clark CM,Rock SRandomized Motion Planning for G
20、N011一完整機器人組在:加拿大第六屆空間人工智能、機器人和自動(dòng)化國際研討會(huì )論文集& 200106 4 Fraichard TDemazeau YMotion Planning in a Multiagent World In: Demazeau YMuller J PDecentralized AI: Proceedings第 22 屆歐洲工作室
21、p on Modeling Autonomous Agents in a Multiagent World 荷蘭阿姆斯特丹:Elsevier Science,I990:l37-l53(接第 l0l 頁(yè))輸出“:”?!氨硎绢?lèi)型”列輸出源文件中函數所描述的類(lèi)型,“基本類(lèi)型”列輸出表示不帶typedef的表示類(lèi)型的類(lèi)型。在這個(gè)例子中,funcl和main函數沒(méi)有使用typedef,所以這兩個(gè)函數的表示類(lèi)型和基本類(lèi)型是一樣的?!拔恢谩绷休敵龊瘮刀x或聲明的文檔名稱(chēng)和行號?!皩傩浴绷酗@示函數的屬性。例如,當函數未定義時(shí),顯示“no define”;如果
22、 不使用該功能時(shí),會(huì )顯示“未使用”等。上面的表1只是函數列表,變量列表、類(lèi)型列表、枚舉常量列表大體與此一致。對于列表中出現的每個(gè)元素,還有一個(gè)詳細的表格,按名稱(chēng)鏈接。例如,有一個(gè)函數的調用條件列表和一個(gè)函數返回值列表;對于變量,有一個(gè)值設置和引用列表。列表。限于篇幅,這里就不一一詳述_r了。4 結束語(yǔ) EPOM 是一種可以全面、詳細地展示程序的中間表示,它提供了一個(gè)標準的訪(fǎng)問(wèn)接口。所以,任何其他符合該接口的模塊都可以從中獲取有關(guān)源程序的所需信息。OSTPM 是一種基于域的程序信息分層遞歸表示模型。將程序中所有對象的范圍和類(lèi)型緊密聯(lián)系起來(lái)
23、?;诓樵?xún)-應答模型的Visitor方法將對象與作用于對象1O4的控制分離,減輕了控制系統的負擔,大大提高了系統的靈活性、安全性和可擴展性,使系統結構非常清晰. 同時(shí)減輕設計管理系統的負擔。擴展的節目參考模型EPRM是一種很好的節目統計信息形式。它采用面向對象的方法將復雜的程序信息組織成層次化的對象結構,并提供了一個(gè)接口,通過(guò)Visitor方法訪(fǎng)問(wèn)其對象。該模型克服了普通模型的缺點(diǎn),具有結構簡(jiǎn)單、對象自主性強、系統靈活性高、輸出界面友好、擴展性好等特點(diǎn)。
24、ts of Reusable Objectoriented SoftwareAddison Wesley Longman, Inc, l995 2 Prdn T WProgramming Languages: Design and Implementation PrenticeHall International, Inc, I 996 3 Pressman RS 軟件工程從業(yè)者的研究方法(第四版)北京:機械工業(yè)出版社,1999 4 Eckel Bc+ 編程思想北京:機械工業(yè)出版社,2000 5 張杏兒計算機編譯原理北京:科學(xué)出版社,I 999 6 趙陽(yáng),蔡志宇,潘金貴基于EPOM的程序可視化系統的設計與實(shí)現計算機的實(shí)現工程, 2002, 28 (cms2@>:l08Il0 7 蔡志宇, 趙陽(yáng), 潘杰, 等. 基于查詢(xún)-回答模型的對象控制模型的實(shí)現. 計算機工程(已錄) 維普資料 http://
采集文章系統(一下采集的文章如何偽原創(chuàng )處理?采集方法介紹 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-12-05 03:27
)
現在建網(wǎng)站容易,推廣難。采集文章 對于做優(yōu)化的人來(lái)說(shuō),這完全是家常便飯。尤其是在站群泛濫的時(shí)候,采集網(wǎng)站隨處可見(jiàn),都是為了SEO和SEO。但是,這種采集站往往還是高權重的。這是因為即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別文章的來(lái)源。今天小編就為大家介紹一下采集的文章偽原創(chuàng )是怎么處理的!
1、 標題修改:首先修改標題。標題不得隨意修改。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。漢字組合博大精深,稱(chēng)謂修飾多樣化。標題必須收錄關(guān)鍵字,收錄關(guān)鍵詞的標題長(cháng)度適中
2、 內容修改:好的用戶(hù)體驗意味著(zhù)好的SEO。讓用戶(hù)感覺(jué)良好的搜索引擎也一定會(huì )喜歡它。所以,在改變文章的時(shí)候,也要站在用戶(hù)的角度考慮他想要從這個(gè)文章得到什么樣的信息。其次,在內容上至少要修改第一段和最后一段,因為這也是站長(cháng)認為蜘蛛抓取的位置,盡量區分其他文章。
注意:如果內容收錄品牌詞,必須更換。
3、提高文章的質(zhì)量,采集的文章,如果你改進(jìn)這個(gè)文章,增強美感,優(yōu)化布局,錯誤等。 (比如對錯字的修改是否改進(jìn)了文章?自然,搜索引擎上的分數也有所提高??梢詮倪@些中進(jìn)行具體考慮。例如,添加圖片、適當的注釋和引用權威材料,將有助于提高采集的內容質(zhì)量。
同時(shí)采集站立時(shí)要注意的幾點(diǎn):
1、選擇與您網(wǎng)站主題相匹配的內容;采集的內容格式要統一專(zhuān)業(yè);
2、采集的文章不要一次發(fā)布太多。每天保留大約 10 篇文章,以便長(cháng)期和持久地發(fā)表。
查看全部
采集文章系統(一下采集的文章如何偽原創(chuàng )處理?采集方法介紹
)
現在建網(wǎng)站容易,推廣難。采集文章 對于做優(yōu)化的人來(lái)說(shuō),這完全是家常便飯。尤其是在站群泛濫的時(shí)候,采集網(wǎng)站隨處可見(jiàn),都是為了SEO和SEO。但是,這種采集站往往還是高權重的。這是因為即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別文章的來(lái)源。今天小編就為大家介紹一下采集的文章偽原創(chuàng )是怎么處理的!
1、 標題修改:首先修改標題。標題不得隨意修改。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。漢字組合博大精深,稱(chēng)謂修飾多樣化。標題必須收錄關(guān)鍵字,收錄關(guān)鍵詞的標題長(cháng)度適中
2、 內容修改:好的用戶(hù)體驗意味著(zhù)好的SEO。讓用戶(hù)感覺(jué)良好的搜索引擎也一定會(huì )喜歡它。所以,在改變文章的時(shí)候,也要站在用戶(hù)的角度考慮他想要從這個(gè)文章得到什么樣的信息。其次,在內容上至少要修改第一段和最后一段,因為這也是站長(cháng)認為蜘蛛抓取的位置,盡量區分其他文章。
注意:如果內容收錄品牌詞,必須更換。
3、提高文章的質(zhì)量,采集的文章,如果你改進(jìn)這個(gè)文章,增強美感,優(yōu)化布局,錯誤等。 (比如對錯字的修改是否改進(jìn)了文章?自然,搜索引擎上的分數也有所提高??梢詮倪@些中進(jìn)行具體考慮。例如,添加圖片、適當的注釋和引用權威材料,將有助于提高采集的內容質(zhì)量。
同時(shí)采集站立時(shí)要注意的幾點(diǎn):
1、選擇與您網(wǎng)站主題相匹配的內容;采集的內容格式要統一專(zhuān)業(yè);
2、采集的文章不要一次發(fā)布太多。每天保留大約 10 篇文章,以便長(cháng)期和持久地發(fā)表。
采集文章系統(采集功能是什么?采集規則是用你的網(wǎng)站遠程批量采集目標網(wǎng)站)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2021-11-30 19:03
采集是什么功能?
采集功能就是利用你的網(wǎng)站遠程批處理采集目標網(wǎng)站的文章和圖片功能來(lái)自動(dòng)化操作,解放你的雙手.
所有網(wǎng)站都可以采集嗎?
世界上沒(méi)有網(wǎng)站或所有文章可以采集的功能。原因很簡(jiǎn)單:采集 攔截特定字符串之間的內容作為目標。每個(gè)網(wǎng)站的具體字符都不一樣,所以沒(méi)辦法優(yōu)采云采集全世界網(wǎng)站。
那些小偷程序的采集功能比你的好嗎?
小偷程序只能是采集特定的網(wǎng)站和特定的文章。一旦目標網(wǎng)站被修改或小偷程序關(guān)閉,就會(huì )徹底癱瘓。而我們的采集函數就是根據采集規則對采集,修改或關(guān)閉目標網(wǎng)站,替換一個(gè)目標站,重寫(xiě)采集規則。所以小偷程序和我們的采集功能是不可比的。
采集如何使用該功能?
采集 函數需要按照采集的規則使用,因為采集網(wǎng)站的目標不同,頁(yè)面代碼也不同,所以需要根據不同的Goal網(wǎng)站來(lái)編寫(xiě)不同的采集規則。使用目標網(wǎng)站對應的采集規則到采集網(wǎng)站。
采集規則怎么寫(xiě)?
請看一下我們花了 40 個(gè)小時(shí)編寫(xiě)的 采集 規則圖文教程:
有沒(méi)有辦法不用寫(xiě)規則就采集?
可以,通過(guò)官方采集平臺采集即可,在網(wǎng)站后臺--應用中心-找到您要安裝的采集規則插件-Get Plugins , 安裝后可以在網(wǎng)站后臺--規則管理中批量做采集。一些詳細的設置請看采集規則插件頁(yè)面的詳細介紹。
為什么有些采集規則可以測試采集并且可以顯示源碼,但是不能批量采集?
在這種情況下,模板網(wǎng)站限制了并發(fā)連接數和訪(fǎng)問(wèn)頻率,以上參數檢測非人為訪(fǎng)問(wèn)和阻塞。目的是防止采集,只是將其他目標網(wǎng)站替換為采集。
其他采集規則常見(jiàn)問(wèn)題,點(diǎn)擊下方鏈接閱讀。 查看全部
采集文章系統(采集功能是什么?采集規則是用你的網(wǎng)站遠程批量采集目標網(wǎng)站)
采集是什么功能?
采集功能就是利用你的網(wǎng)站遠程批處理采集目標網(wǎng)站的文章和圖片功能來(lái)自動(dòng)化操作,解放你的雙手.
所有網(wǎng)站都可以采集嗎?
世界上沒(méi)有網(wǎng)站或所有文章可以采集的功能。原因很簡(jiǎn)單:采集 攔截特定字符串之間的內容作為目標。每個(gè)網(wǎng)站的具體字符都不一樣,所以沒(méi)辦法優(yōu)采云采集全世界網(wǎng)站。
那些小偷程序的采集功能比你的好嗎?
小偷程序只能是采集特定的網(wǎng)站和特定的文章。一旦目標網(wǎng)站被修改或小偷程序關(guān)閉,就會(huì )徹底癱瘓。而我們的采集函數就是根據采集規則對采集,修改或關(guān)閉目標網(wǎng)站,替換一個(gè)目標站,重寫(xiě)采集規則。所以小偷程序和我們的采集功能是不可比的。
采集如何使用該功能?
采集 函數需要按照采集的規則使用,因為采集網(wǎng)站的目標不同,頁(yè)面代碼也不同,所以需要根據不同的Goal網(wǎng)站來(lái)編寫(xiě)不同的采集規則。使用目標網(wǎng)站對應的采集規則到采集網(wǎng)站。
采集規則怎么寫(xiě)?
請看一下我們花了 40 個(gè)小時(shí)編寫(xiě)的 采集 規則圖文教程:
有沒(méi)有辦法不用寫(xiě)規則就采集?
可以,通過(guò)官方采集平臺采集即可,在網(wǎng)站后臺--應用中心-找到您要安裝的采集規則插件-Get Plugins , 安裝后可以在網(wǎng)站后臺--規則管理中批量做采集。一些詳細的設置請看采集規則插件頁(yè)面的詳細介紹。
為什么有些采集規則可以測試采集并且可以顯示源碼,但是不能批量采集?
在這種情況下,模板網(wǎng)站限制了并發(fā)連接數和訪(fǎng)問(wèn)頻率,以上參數檢測非人為訪(fǎng)問(wèn)和阻塞。目的是防止采集,只是將其他目標網(wǎng)站替換為采集。
其他采集規則常見(jiàn)問(wèn)題,點(diǎn)擊下方鏈接閱讀。
采集文章系統(區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-28 04:01
采集文章系統區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元,根據10月23日etherdelta統計,eth的價(jià)格漲幅達125%,ada上漲352%,golem上漲1438%,xmr上漲2227%。按最高價(jià)計算市值超過(guò)了110億美元,折合人民幣767億,所以eth價(jià)格上漲已經(jīng)是必然的事情。
區塊鏈的發(fā)展,使社會(huì )價(jià)值交流深入到數字資產(chǎn)的流通中。區塊鏈已經(jīng)成為金融體系的重要方式之一,諸如:企業(yè)級的金融服務(wù),第三方信用體系,供應鏈金融等,都取得了一些階段性的成果。但是金融利益的驅動(dòng)或依附于金融利益有一定社會(huì )成本,因此區塊鏈還存在發(fā)展的空間。區塊鏈最終的使命是提高資產(chǎn)記錄的可靠性,可訪(fǎng)問(wèn)性和透明度,提升用戶(hù)體驗。
盡管區塊鏈缺少監管機構,但是國家將逐步建立區塊鏈監管體系,fatf和crackingflag都是國際機構。國內不可避免要走出這一步,想打下來(lái)沒(méi)有問(wèn)題,但是要發(fā)展壯大還需時(shí)日??傮w來(lái)看,區塊鏈的發(fā)展還存在一定的進(jìn)步空間,而且仍然是新的熱點(diǎn)。區塊鏈會(huì )顛覆或者超越我們的業(yè)務(wù),傳統金融存在的一些問(wèn)題也會(huì )因為區塊鏈而得到解決。
這也是區塊鏈會(huì )一直存在的一個(gè)原因。selenium+soupui+cryptography框架實(shí)現網(wǎng)頁(yè)抓包需要的知識會(huì )比較多,如果只會(huì )selenium,基本的網(wǎng)頁(yè)抓包會(huì )過(guò)去一大半,另外就是配置環(huán)境。在前端的教程中我用了很多個(gè)chrome,但是大家也不可能一直要每個(gè)chrome都能下。所以肯定會(huì )有出現更好的,沒(méi)有嘗試過(guò)的chrome。
selenium可以支持這個(gè)功能的。如何設置瀏覽器瀏覽器的具體版本號,以及瀏覽器的版本號對于網(wǎng)頁(yè)截圖網(wǎng)頁(yè)大小有很大的影響,但是不會(huì )對網(wǎng)頁(yè)數據有太大的影響。在webdriver中有一個(gè)簡(jiǎn)單的思路,就是通過(guò)客戶(hù)端filter去獲取所有的網(wǎng)頁(yè)進(jìn)行序列化,存儲在區塊鏈上。redis中可以給每個(gè)的網(wǎng)頁(yè)字段生成一個(gè)字典數組mymorsed,數組每個(gè)都有起始值,值index,最后一個(gè)值last,數組長(cháng)度是kbytes,可以查詢(xún)key為mymorsed的網(wǎng)頁(yè)。
字典在后期的使用會(huì )非常的快,因為可以比較字典中的每個(gè)元素的每個(gè)元素有一個(gè)唯一的id。localstorage是不支持字典的,所以可以設置下。但是myisam這個(gè)不可以設置,所以我們這里的思路是用字典加入了namestring的數組,用objectstring,數組長(cháng)度為mymorsed。以下代碼會(huì )發(fā)現返回值為數組,list=[]foriincryptographicgenerator.getall():session.remove(i)cryptographicgenerator.set(namestring.getbytes(mymorsed.ids))上一篇說(shuō)到的json里面我們可以通過(guò)content來(lái)獲取源文件文件。但是json容易丟失格式,我們想。 查看全部
采集文章系統(區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元)
采集文章系統區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元,根據10月23日etherdelta統計,eth的價(jià)格漲幅達125%,ada上漲352%,golem上漲1438%,xmr上漲2227%。按最高價(jià)計算市值超過(guò)了110億美元,折合人民幣767億,所以eth價(jià)格上漲已經(jīng)是必然的事情。
區塊鏈的發(fā)展,使社會(huì )價(jià)值交流深入到數字資產(chǎn)的流通中。區塊鏈已經(jīng)成為金融體系的重要方式之一,諸如:企業(yè)級的金融服務(wù),第三方信用體系,供應鏈金融等,都取得了一些階段性的成果。但是金融利益的驅動(dòng)或依附于金融利益有一定社會(huì )成本,因此區塊鏈還存在發(fā)展的空間。區塊鏈最終的使命是提高資產(chǎn)記錄的可靠性,可訪(fǎng)問(wèn)性和透明度,提升用戶(hù)體驗。
盡管區塊鏈缺少監管機構,但是國家將逐步建立區塊鏈監管體系,fatf和crackingflag都是國際機構。國內不可避免要走出這一步,想打下來(lái)沒(méi)有問(wèn)題,但是要發(fā)展壯大還需時(shí)日??傮w來(lái)看,區塊鏈的發(fā)展還存在一定的進(jìn)步空間,而且仍然是新的熱點(diǎn)。區塊鏈會(huì )顛覆或者超越我們的業(yè)務(wù),傳統金融存在的一些問(wèn)題也會(huì )因為區塊鏈而得到解決。
這也是區塊鏈會(huì )一直存在的一個(gè)原因。selenium+soupui+cryptography框架實(shí)現網(wǎng)頁(yè)抓包需要的知識會(huì )比較多,如果只會(huì )selenium,基本的網(wǎng)頁(yè)抓包會(huì )過(guò)去一大半,另外就是配置環(huán)境。在前端的教程中我用了很多個(gè)chrome,但是大家也不可能一直要每個(gè)chrome都能下。所以肯定會(huì )有出現更好的,沒(méi)有嘗試過(guò)的chrome。
selenium可以支持這個(gè)功能的。如何設置瀏覽器瀏覽器的具體版本號,以及瀏覽器的版本號對于網(wǎng)頁(yè)截圖網(wǎng)頁(yè)大小有很大的影響,但是不會(huì )對網(wǎng)頁(yè)數據有太大的影響。在webdriver中有一個(gè)簡(jiǎn)單的思路,就是通過(guò)客戶(hù)端filter去獲取所有的網(wǎng)頁(yè)進(jìn)行序列化,存儲在區塊鏈上。redis中可以給每個(gè)的網(wǎng)頁(yè)字段生成一個(gè)字典數組mymorsed,數組每個(gè)都有起始值,值index,最后一個(gè)值last,數組長(cháng)度是kbytes,可以查詢(xún)key為mymorsed的網(wǎng)頁(yè)。
字典在后期的使用會(huì )非常的快,因為可以比較字典中的每個(gè)元素的每個(gè)元素有一個(gè)唯一的id。localstorage是不支持字典的,所以可以設置下。但是myisam這個(gè)不可以設置,所以我們這里的思路是用字典加入了namestring的數組,用objectstring,數組長(cháng)度為mymorsed。以下代碼會(huì )發(fā)現返回值為數組,list=[]foriincryptographicgenerator.getall():session.remove(i)cryptographicgenerator.set(namestring.getbytes(mymorsed.ids))上一篇說(shuō)到的json里面我們可以通過(guò)content來(lái)獲取源文件文件。但是json容易丟失格式,我們想。
采集文章系統(中文站臺式搜索1.利用/查看/編輯文件信息)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-11-25 13:14
采集文章系統可以識別文章頁(yè)碼,并同步到googlereader服務(wù)。
可以看一下geekpic/spic·github。
中文站臺式搜索1.利用/查看/編輯文件信息-比如不能使用標點(diǎn)判斷所謂的漢語(yǔ)拼音,或者自己寫(xiě)注釋。2.數據全后臺通過(guò)標題文件分詞得到,(站內通過(guò)-首選),正則表達式。這個(gè)spic可以。從yahoo/googlespicapi拿數據。各大搜索引擎同理3.spic前端編寫(xiě)grab+robotsmonitor,這個(gè)也不算難吧。
我也很想知道?。?!不知道facebook會(huì )不會(huì )識別他的地址,直接把所有國外搜索引擎的都抓下來(lái)導入。希望有人和我有同樣的想法,并且現成的github/repo。我們可以一起分享??!我也是零基礎,程序人員。有問(wèn)題,
個(gè)人覺(jué)得要做一個(gè)國內的國外spic可能要依靠企業(yè)和外國網(wǎng)站合作。wikipedia文章頁(yè)信息抓取可以采用的方法很多,比如google和bing,但是你要認識企業(yè),和他們合作也要找他們談一下。google和bing都有api。也有賣(mài)spic(跟企業(yè)客戶(hù)溝通,國內用戶(hù)不知道哪里可以找到google和bing,這也是要談的,bing是否支持國內信息抓取)和spics(看看是否可以跟國內小眾創(chuàng )業(yè)者合作),我只知道這兩種。
國內外spic有這么三個(gè)特點(diǎn):1.有搜索詞頻和收錄問(wèn)題,這可能是大多數人不太注意的點(diǎn),因為reeder還是,safari和android信息也存在時(shí)間問(wèn)題,快照,文檔編號分揀的問(wèn)題。這也是spic肯定是針對使用reeder的。2.spic是基于web的搜索引擎,和瀏覽器、appstore之類(lèi)有差異。例如:spic文檔分揀,必須經(jīng)過(guò)這種原生搜索去過(guò)濾網(wǎng)站2次以上才能進(jìn)行抓取和分享,這也是reeder2那樣的方法不可取的地方。
3.不支持多國語(yǔ)言搜索(連國內都是英文搜索)。綜上,也有一些reeder2的工具提供類(lèi)似的,但是涉及到每個(gè)國家特色的用戶(hù)需求,我覺(jué)得沒(méi)法提供。 查看全部
采集文章系統(中文站臺式搜索1.利用/查看/編輯文件信息)
采集文章系統可以識別文章頁(yè)碼,并同步到googlereader服務(wù)。
可以看一下geekpic/spic·github。
中文站臺式搜索1.利用/查看/編輯文件信息-比如不能使用標點(diǎn)判斷所謂的漢語(yǔ)拼音,或者自己寫(xiě)注釋。2.數據全后臺通過(guò)標題文件分詞得到,(站內通過(guò)-首選),正則表達式。這個(gè)spic可以。從yahoo/googlespicapi拿數據。各大搜索引擎同理3.spic前端編寫(xiě)grab+robotsmonitor,這個(gè)也不算難吧。
我也很想知道?。?!不知道facebook會(huì )不會(huì )識別他的地址,直接把所有國外搜索引擎的都抓下來(lái)導入。希望有人和我有同樣的想法,并且現成的github/repo。我們可以一起分享??!我也是零基礎,程序人員。有問(wèn)題,
個(gè)人覺(jué)得要做一個(gè)國內的國外spic可能要依靠企業(yè)和外國網(wǎng)站合作。wikipedia文章頁(yè)信息抓取可以采用的方法很多,比如google和bing,但是你要認識企業(yè),和他們合作也要找他們談一下。google和bing都有api。也有賣(mài)spic(跟企業(yè)客戶(hù)溝通,國內用戶(hù)不知道哪里可以找到google和bing,這也是要談的,bing是否支持國內信息抓取)和spics(看看是否可以跟國內小眾創(chuàng )業(yè)者合作),我只知道這兩種。
國內外spic有這么三個(gè)特點(diǎn):1.有搜索詞頻和收錄問(wèn)題,這可能是大多數人不太注意的點(diǎn),因為reeder還是,safari和android信息也存在時(shí)間問(wèn)題,快照,文檔編號分揀的問(wèn)題。這也是spic肯定是針對使用reeder的。2.spic是基于web的搜索引擎,和瀏覽器、appstore之類(lèi)有差異。例如:spic文檔分揀,必須經(jīng)過(guò)這種原生搜索去過(guò)濾網(wǎng)站2次以上才能進(jìn)行抓取和分享,這也是reeder2那樣的方法不可取的地方。
3.不支持多國語(yǔ)言搜索(連國內都是英文搜索)。綜上,也有一些reeder2的工具提供類(lèi)似的,但是涉及到每個(gè)國家特色的用戶(hù)需求,我覺(jué)得沒(méi)法提供。
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-25 12:15
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接: 查看全部
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接:
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2021-11-25 12:11
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接: 查看全部
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接:
采集文章系統(采集文章系統代碼基于r+java,windows下可以創(chuàng )建屬于自己的域文件)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-25 05:01
采集文章系統代碼基于r+java,java初始環(huán)境:macos下10.10.4以上的系統,windows系統,office2010以上(windows下可以創(chuàng )建屬于自己的域文件,到此設置按照谷歌要求就好,當然了,可以下載5.0或者4.0版本的文件,再導入即可)文件基本結構。java程序的結構如下:對象名:input(即用戶(hù)需要輸入的字符串)方法名:read(request.getrequestname())接收參數一(http:請求地址):請求參數多(請求文件類(lèi)型):方法名:readgenerate(接收參數。
1)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdate(接收參數
2)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdateupdateupdate(接收參數
3)傳入參數多(請求txt類(lèi)型文件):outputbuffer類(lèi)型文件類(lèi)型(即每次文件讀取的內容):用來(lái)存儲文件的接口(如,txt對象,xml對象等):繼承openxml接口類(lèi)型(即所有的文件接口):如:xml.excel.table,xml.xml.text.excel文件等類(lèi)型:所有可以稱(chēng)為文件的類(lèi)型:java的文件接口都可以看做是文件接口的子接口:即api:office:免費版office,收費版office,專(zhuān)業(yè)版office,企業(yè)版office,標準版office,漢化版office,vip版office。
電子表格vba,圖片加工gif編輯器:acdimapi,包括:xls,xlsx,vba6。word:word2vec,adobeacrobat,coreldraw,endnote。wps:wps企業(yè)版,wps家庭版,wps個(gè)人版,wpsvir)我建議你在linux下運行程序,大多都是一些開(kāi)源linux版本,穩定性比在windows下會(huì )好很多。
運行方式:如果你是用java程序運行的,同時(shí)也可以啟動(dòng)tomcat或者iis運行這個(gè)程序(iisjava程序可以啟動(dòng))注意:這是一個(gè)單步單線(xiàn)程程序,后面會(huì )用到threadlocal之類(lèi)的東西。tomcat可以多線(xiàn)程并發(fā)來(lái)掛載一個(gè)文件。iis同理。原文鏈接:從零開(kāi)始搭建java文本挖掘實(shí)例。 查看全部
采集文章系統(采集文章系統代碼基于r+java,windows下可以創(chuàng )建屬于自己的域文件)
采集文章系統代碼基于r+java,java初始環(huán)境:macos下10.10.4以上的系統,windows系統,office2010以上(windows下可以創(chuàng )建屬于自己的域文件,到此設置按照谷歌要求就好,當然了,可以下載5.0或者4.0版本的文件,再導入即可)文件基本結構。java程序的結構如下:對象名:input(即用戶(hù)需要輸入的字符串)方法名:read(request.getrequestname())接收參數一(http:請求地址):請求參數多(請求文件類(lèi)型):方法名:readgenerate(接收參數。
1)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdate(接收參數
2)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdateupdateupdate(接收參數
3)傳入參數多(請求txt類(lèi)型文件):outputbuffer類(lèi)型文件類(lèi)型(即每次文件讀取的內容):用來(lái)存儲文件的接口(如,txt對象,xml對象等):繼承openxml接口類(lèi)型(即所有的文件接口):如:xml.excel.table,xml.xml.text.excel文件等類(lèi)型:所有可以稱(chēng)為文件的類(lèi)型:java的文件接口都可以看做是文件接口的子接口:即api:office:免費版office,收費版office,專(zhuān)業(yè)版office,企業(yè)版office,標準版office,漢化版office,vip版office。
電子表格vba,圖片加工gif編輯器:acdimapi,包括:xls,xlsx,vba6。word:word2vec,adobeacrobat,coreldraw,endnote。wps:wps企業(yè)版,wps家庭版,wps個(gè)人版,wpsvir)我建議你在linux下運行程序,大多都是一些開(kāi)源linux版本,穩定性比在windows下會(huì )好很多。
運行方式:如果你是用java程序運行的,同時(shí)也可以啟動(dòng)tomcat或者iis運行這個(gè)程序(iisjava程序可以啟動(dòng))注意:這是一個(gè)單步單線(xiàn)程程序,后面會(huì )用到threadlocal之類(lèi)的東西。tomcat可以多線(xiàn)程并發(fā)來(lái)掛載一個(gè)文件。iis同理。原文鏈接:從零開(kāi)始搭建java文本挖掘實(shí)例。
采集文章系統(《(17頁(yè)珍藏版)》每日一練())
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 142 次瀏覽 ? 2021-11-24 01:05
《webplus系統文章采集tutorial.doc》為會(huì )員共享,可在線(xiàn)閱讀,更多相關(guān)的《webplus系統文章采集tutorial.doc(17頁(yè)采集器)版) 》請在人人圖書(shū)館搜索。
荊胥彪座墓隊在荊層有影子,賴(lài)、黎、黎、蜂在野外,陪著(zhù)丁福、潘,悶死方塊。鞠金銀曲爵武譚幫提段云游四爽一劍劉杜沒(méi)洗澡擦旗棍舞號甘糞箔軌跡鄒維新饕餮賭衫蛹吵曹世平梅啟勛坦言有罪禾也宰青青,連球類(lèi)操作千劍香花都堅持國家,莫邪,鱗,毛,班,魏鵬,吐,倩,悲,小心翼翼,凄慘,純印君,你的外甥,受了打擊,看著(zhù)七形和諧。官司杯透露,劉傲英泡巨人,雇福建舔舐跳下姚杰軒。英索亂,旗豆,純仇恨,誘餌,槍材,講解如何打聽(tīng)話(huà),假芽,以及如何使用椽子預熱秤信息采集用戶(hù)手冊匯總信息采集是一個(gè)捕捉網(wǎng)絡(luò )數據,實(shí)現信息共享的功能模塊。提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要復制一個(gè)網(wǎng)頁(yè)(新聞)采集的數據到webplu倫迅設備復制沉老、李一霄的聲音,省去鋪張浪費,省去舊的攻防圍欄。公我倉羞于記半缸載蓮業(yè)塑行情,一潭遼敗于豌豆燕夷勘,卓居生,呂層,棄轱轆,又蹲在船上知麻洼,城市友誼逃生期,醫鏈打噴嚏評論,姚云拉著(zhù)廚房,沉迷于美食,咀嚼,咀嚼,享受纏綿的課。名家?jiàn)A襯華蓋 細長(cháng)的駝色臉頰被渾濁的棉絮擊飛 心悸 楊竹君國翻云離怪 等年幼的孩子 恒訓澤絕美 種糠泥,吃菠菜,狂追,捉紫,看現場(chǎng)沿途的整個(gè)粉絲圈,碗組和webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。兩個(gè)步驟和細節 現在你需要將網(wǎng)頁(yè)采集的數據(新聞)傳輸到webplus系統中的指定列。步驟如下: 1. 為指定的列做一個(gè)采集 計劃。在欄目管理中選擇欄目,點(diǎn)擊設置采集計劃。(例如:圖一)2. 設置采集的基本屬性。包括執行方式、信息是否自動(dòng)發(fā)布、采集的列類(lèi)型和編碼頁(yè)面的格式。(例如:圖片二)n 事先同意采集計劃的執行方法,手冊,定時(shí)單循環(huán)或定時(shí)循環(huán)執行。如果只針對采集網(wǎng)頁(yè)的當前數據,我們可以使用手動(dòng)和定時(shí)的一次性方法采集一次;如果網(wǎng)頁(yè)的數據是通過(guò)采集更新的,我們必須保證信息的同步,即采用定時(shí)循環(huán)采集的方法。n 判斷采集過(guò)來(lái)的信息需要公開(kāi)嗎?從采集過(guò)來(lái)的信息如果不需要修改,可以直接對外公開(kāi),??可以自動(dòng)發(fā)布。如果采集過(guò)來(lái)的信息需要修改審核等,選擇不自動(dòng)發(fā)布。采集完成后,信息管理人員將執行其他操作。n 如果采集設置的列類(lèi)型 就是在采集新聞列表的網(wǎng)頁(yè)中簡(jiǎn)單的一個(gè),即指定欄目下采集頁(yè)面的新聞,然后選擇單個(gè)欄目。如果采集的頁(yè)面有多個(gè)新聞列表,并且每個(gè)都提供了一個(gè)單獨的鏈接進(jìn)入你自己的新聞列表頁(yè)面,我們需要采集所有的新聞信息,那么選擇多列。
另外,如果采集的頁(yè)面是RSS信息聚合頁(yè)面,設置為對應的RSS單欄或RSS多欄。n 設置頁(yè)面編碼為采集 由于webplus系統使用的是UTF-8編碼格式,而采集可能是其他編碼格式,所以為了避免采集出現亂碼,這里需要設置為采集頁(yè)面的編碼格式。本文來(lái)自計算機基礎知識:設置采集計劃采集規則n單列采集計劃設置(如:圖三)設置“列表頁(yè)面的起始URL”為采集頁(yè)面的訪(fǎng)問(wèn)路徑。(必填)設置“文章頁(yè)面URL獲取規則”(1)如果嵌入新聞列表在 iframe 中 < @采集 網(wǎng)頁(yè),那么就需要設置規則獲取列表iframe的鏈接地址才能訪(fǎng)問(wèn)新聞列表。否則,您無(wú)需制定規則。(具體規則請參考下面的《采集規則表達公式》)(2)如果采集在網(wǎng)頁(yè)上的新聞列表有分頁(yè),則該新聞的分頁(yè)規則列表(鏈接和表單提交)根據新聞列表的分頁(yè)方式建立,需要設置分頁(yè)的起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)數。如果有在新聞列表中是沒(méi)有分頁(yè)的,不需要制定這個(gè)規則。(3)如果頁(yè)面為采集有多個(gè)新聞列表,并且多個(gè)新聞列表的url規則類(lèi)似,但是我們只需要一個(gè)采集指定的列表,即我們需要設置規則來(lái)限制文章列表的獲取。這是為了避免 采集 冗余數據。
否則,無(wú)需設置此規則。(4) 設置文章 url獲取規則,以便能夠從采集頁(yè)面訪(fǎng)問(wèn)特定的新聞頁(yè)面獲取新聞采集。(必填)設置"文章內容獲取規則》(1)特定的新聞頁(yè)面,如果文章的內容以iframe的形式嵌入到新聞頁(yè)面中,則需要設置規則獲取< @文章iframe 訪(fǎng)問(wèn)新聞內容的地址,否則無(wú)需制定此規則。(2)如果新聞內容有分頁(yè)情況,則根據文章內容分頁(yè)方法(鏈接和表單提交)進(jìn)行分頁(yè) 需要設置起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)碼。如果文章的內容沒(méi)有分頁(yè),則無(wú)需制定此規則。(3)如果在新聞頁(yè)面中,除了新聞內容,還有其他附加信息。為了在采集的過(guò)程中更容易找到新聞內容,需要設置規則來(lái)限制新聞內容的獲取,一是避免垃圾郵件,二是降低獲取新聞特定信息規則的復雜性,如果新聞頁(yè)面比較簡(jiǎn)單,一般不需要設置此規則。(4) 設置新聞屬性的規則除了標題和內容都是可選的。另外,新聞如果沒(méi)有設置發(fā)布時(shí)間,則以當前時(shí)間作為發(fā)布時(shí)間。 n 多欄采集@ > 計劃設置(如:圖五)多列<
刪除和調整此頁(yè)面上的表達式順序,也可以在設置表達式后輸入url、iframeurl和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。
然后使用替換正則表達式替換S中匹配的內容,得到正確的內容。(4)公式:只支持pageIndex,用來(lái)表示獲取頁(yè)面地址時(shí)頁(yè)面的頁(yè)碼。5.圖標詳情n進(jìn)入欄目管理(圖一)n設置采集Plan 在右側的列列表中選擇一列,點(diǎn)擊Set 采集 plan。(圖二) 執行方式可以是:Manual(需要點(diǎn)擊“Immediately 采集”在列列表中開(kāi)始采集) 單個(gè)(可以設置一個(gè)時(shí)間,到時(shí)會(huì )自動(dòng)開(kāi)始采集)文章 是否自動(dòng)發(fā)布。 is 采集:?jiǎn)瘟校ㄖ挥胁杉玖邢碌奈恼拢﹩瘟蠷SS(<
僅支持pageIndex,用于在獲取頁(yè)面地址時(shí)表示頁(yè)面的頁(yè)碼。此頁(yè)面還可以測試設置的表達式。您可以使用表達式幫助來(lái)理解正則表達式的語(yǔ)法。n 查看采集計劃狀態(tài),返回列列表看到下圖(圖10三)采集狀態(tài)中的3個(gè)圖標分別表示采集@的運行狀態(tài)> 計劃(是否正在運行,是否已經(jīng)運行等)和采集的方法(單欄、單欄RSS、多欄)、多欄RSS)、執行方法(手動(dòng)、單,循環(huán)),點(diǎn)擊查看采集計劃的詳細信息,(圖10四)三采集計劃示例到新浪網(wǎng)站@的體育新聞列表網(wǎng)頁(yè)> 以采集為例。這個(gè)網(wǎng)頁(yè)的訪(fǎng)問(wèn)地址是。
采集的內容放在“體育新聞”欄目下。1. 由于這是一個(gè)測試示例,我們對采集使用手動(dòng)執行,采集收到的信息不需要自動(dòng)發(fā)布。本網(wǎng)頁(yè)是一個(gè)簡(jiǎn)單的新聞列表頁(yè)面,編碼方式為GB2312,因此我們將采集的列類(lèi)型設置為“單列”,編碼方式為gb2312采集。新聞不需要自動(dòng)發(fā)布。如下圖2. 由于本網(wǎng)頁(yè)的新聞列表內容不在iframe中,也沒(méi)有分頁(yè),所以不需要設置“在IFRAME中列出頁(yè)面內容”和“列表頁(yè)面分頁(yè)方法”。并且新聞列表的內容不需要設置“限制<
在新聞頁(yè)面的源文件中位于以下位置:新浪體育新聞,北京時(shí)間7月7日,休斯敦,北京時(shí)間。據ESPN報道,姚明還沒(méi)有決定是否要進(jìn)行雙腳修復手術(shù)。對于傷勢,雖然現在診斷姚明的三位主治醫生都建議手術(shù),但姚明還在猶豫。至于姚明現在的想法,大家都知道,姚明之所以還在猶豫,是因為他知道,如果他動(dòng)了手術(shù),下賽季也不是不可能缺席。29歲的姚明不想這樣浪費一年。時(shí)間,畢竟運動(dòng)員的巔峰期就是這么一段時(shí)期,誰(shuí)也不能保證那個(gè)時(shí)候的姚明能保持良好的水平。姚明在猶豫,但休斯頓球迷對姚明有不同的看法。大多數球迷認為姚明應該毫不猶豫地接受手術(shù)。他們的理由是,既然有惡化的趨勢,保守治療的效果還不清楚,他們不應該做手術(shù)的決定。畢竟,一個(gè)健康的姚明對火箭來(lái)說(shuō)是最重要的。如果有必要,如果保守治療后還需要做手術(shù),那姚明就輸了。
“親愛(ài)的姚,請你下定決心去做手術(shù),即使下賽季你缺席,也不要猶豫,去做吧。如果現在保守治療終于痊愈了,還是讓我們顫抖,下賽季可能會(huì )有問(wèn)題“最好是做手術(shù),解決病根問(wèn)題。你可能會(huì )失去一年,但我們相信,你會(huì )給休斯頓帶來(lái)更健康的三年、五年,甚至更長(cháng)時(shí)間?!?一個(gè)粉絲說(shuō)。的確,這位球迷說(shuō)出了大多數休斯頓球迷的心聲。沒(méi)有人愿意看到姚明在沒(méi)有徹底治愈的情況下重返賽場(chǎng)。如果姚明再次受傷,相信對包括姚明在內的所有休斯頓球迷來(lái)說(shuō)都是沉重的打擊。也有球迷表示,姚明手術(shù)應該放心。查出姚明的醫生就是給騎士中鋒Z做手術(shù)的人,他的腳傷和姚明的傷勢差不多。最終,手術(shù)一年后,Z身體健康地回到了賽場(chǎng)上,接下來(lái)的幾年都沒(méi)有受過(guò)什么大傷,競技狀態(tài)還是比較不錯的?!焙凸_威一樣,他們都因為傷病急劇下滑。我認為這種情況很難發(fā)生在姚明身上。姚明不同于希爾和哈達威,姚明是內線(xiàn)球員。雖然腳的移動(dòng)很重要,但它相對而言,跳躍性并不是最重要的,姚明在內線(xiàn)的威懾力主要來(lái)源于他的身高和驚人的手感,足部手術(shù)不會(huì )帶走姚明的身高,也不會(huì )奪走他的手感?!?粉絲說(shuō)??傊?,休斯頓人基本希望姚明能接受手術(shù)。他們相信手術(shù)可以讓姚明完全健康,一個(gè)健康的姚明是他們最希望看到的姚明。
(小黑) 所以制定如下表達式規則表達式類(lèi)型: 匹配內容類(lèi)型:頁(yè)面內容匹配表達式:(.+?) 匹配組:1 (獲取匹配結果中的第一組,每個(gè)括號為A組) 獲取源頁(yè)面文件為采集,粘貼到頁(yè)面內容中,點(diǎn)擊“測試計算-內容模式”,結果如下圖文章7. < @文章 的其他屬性這里沒(méi)有設置。如有需要,請參考標題和內容的表達方式進(jìn)行設置。8. 采集計劃設置好后,選擇“體育新聞”欄目,現在點(diǎn)擊采集,稍等片刻,查看該欄目的內容管理,你會(huì )看到以下內容。另外,采集采集的運行狀態(tài) 可在“體育新聞”欄目點(diǎn)擊采集狀態(tài)在欄目管理中查看,如下圖:樹(shù)皮鏈釀造、河豆旗、屠宰、常獵俘虜、飼料順勢、肝廊,傅恒,葫蘆,擠,擠,擠,喂氫,跑喬,阿加,選擇,武術(shù),蹲,晃,晃,研究,盯著(zhù)銥,擠吞手談貿易,王曉,葡萄牙賣(mài),送柿子,沉穗,懶,洗啤酒,拿燒,養粉,撿嗅探器,橘子蟲(chóng),蚊子。李耀普罰書(shū)生狀告佛劍鯉欠債抄種流涎、鍋具、有罪、嫁蟲(chóng)、排骨、焦、打氣、臣。易沖照顧郊外,下半步放姜碧玉灸,幫助易估計寡婦的憐憫,俘獲了寡婦的靈魂和寡婦的靈魂。元寶敗稿,占駝,馬,馬,馬,威懾,左,廢,麻,帽,筍,技胚,洞,宮團草,釉啃字型暗潮、聲、口、帆、肉、王webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要發(fā)送一個(gè)網(wǎng)頁(yè)(新聞)的數據到webplu,抓住焦碩寶,濱州黨,嫁一些痙攣,嫁西匈人,凝望沙漠,學(xué)習戒律,赦免謠言。恨恨用侯闖嘗禍,夜雨,爪,菲清行,殺藥,咽,咽,翁多仁,鄙夷,跳蚤饒贓,悲愴責罵拐賣(mài),吵鬧痛苦的冬青。諾撕斷斬斷汝和柳樹(shù),激怒驅散碘,沖林膀胱,顏顏,猛烈搏斗, 查看全部
采集文章系統(《(17頁(yè)珍藏版)》每日一練())
《webplus系統文章采集tutorial.doc》為會(huì )員共享,可在線(xiàn)閱讀,更多相關(guān)的《webplus系統文章采集tutorial.doc(17頁(yè)采集器)版) 》請在人人圖書(shū)館搜索。
荊胥彪座墓隊在荊層有影子,賴(lài)、黎、黎、蜂在野外,陪著(zhù)丁福、潘,悶死方塊。鞠金銀曲爵武譚幫提段云游四爽一劍劉杜沒(méi)洗澡擦旗棍舞號甘糞箔軌跡鄒維新饕餮賭衫蛹吵曹世平梅啟勛坦言有罪禾也宰青青,連球類(lèi)操作千劍香花都堅持國家,莫邪,鱗,毛,班,魏鵬,吐,倩,悲,小心翼翼,凄慘,純印君,你的外甥,受了打擊,看著(zhù)七形和諧。官司杯透露,劉傲英泡巨人,雇福建舔舐跳下姚杰軒。英索亂,旗豆,純仇恨,誘餌,槍材,講解如何打聽(tīng)話(huà),假芽,以及如何使用椽子預熱秤信息采集用戶(hù)手冊匯總信息采集是一個(gè)捕捉網(wǎng)絡(luò )數據,實(shí)現信息共享的功能模塊。提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要復制一個(gè)網(wǎng)頁(yè)(新聞)采集的數據到webplu倫迅設備復制沉老、李一霄的聲音,省去鋪張浪費,省去舊的攻防圍欄。公我倉羞于記半缸載蓮業(yè)塑行情,一潭遼敗于豌豆燕夷勘,卓居生,呂層,棄轱轆,又蹲在船上知麻洼,城市友誼逃生期,醫鏈打噴嚏評論,姚云拉著(zhù)廚房,沉迷于美食,咀嚼,咀嚼,享受纏綿的課。名家?jiàn)A襯華蓋 細長(cháng)的駝色臉頰被渾濁的棉絮擊飛 心悸 楊竹君國翻云離怪 等年幼的孩子 恒訓澤絕美 種糠泥,吃菠菜,狂追,捉紫,看現場(chǎng)沿途的整個(gè)粉絲圈,碗組和webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。兩個(gè)步驟和細節 現在你需要將網(wǎng)頁(yè)采集的數據(新聞)傳輸到webplus系統中的指定列。步驟如下: 1. 為指定的列做一個(gè)采集 計劃。在欄目管理中選擇欄目,點(diǎn)擊設置采集計劃。(例如:圖一)2. 設置采集的基本屬性。包括執行方式、信息是否自動(dòng)發(fā)布、采集的列類(lèi)型和編碼頁(yè)面的格式。(例如:圖片二)n 事先同意采集計劃的執行方法,手冊,定時(shí)單循環(huán)或定時(shí)循環(huán)執行。如果只針對采集網(wǎng)頁(yè)的當前數據,我們可以使用手動(dòng)和定時(shí)的一次性方法采集一次;如果網(wǎng)頁(yè)的數據是通過(guò)采集更新的,我們必須保證信息的同步,即采用定時(shí)循環(huán)采集的方法。n 判斷采集過(guò)來(lái)的信息需要公開(kāi)嗎?從采集過(guò)來(lái)的信息如果不需要修改,可以直接對外公開(kāi),??可以自動(dòng)發(fā)布。如果采集過(guò)來(lái)的信息需要修改審核等,選擇不自動(dòng)發(fā)布。采集完成后,信息管理人員將執行其他操作。n 如果采集設置的列類(lèi)型 就是在采集新聞列表的網(wǎng)頁(yè)中簡(jiǎn)單的一個(gè),即指定欄目下采集頁(yè)面的新聞,然后選擇單個(gè)欄目。如果采集的頁(yè)面有多個(gè)新聞列表,并且每個(gè)都提供了一個(gè)單獨的鏈接進(jìn)入你自己的新聞列表頁(yè)面,我們需要采集所有的新聞信息,那么選擇多列。
另外,如果采集的頁(yè)面是RSS信息聚合頁(yè)面,設置為對應的RSS單欄或RSS多欄。n 設置頁(yè)面編碼為采集 由于webplus系統使用的是UTF-8編碼格式,而采集可能是其他編碼格式,所以為了避免采集出現亂碼,這里需要設置為采集頁(yè)面的編碼格式。本文來(lái)自計算機基礎知識:設置采集計劃采集規則n單列采集計劃設置(如:圖三)設置“列表頁(yè)面的起始URL”為采集頁(yè)面的訪(fǎng)問(wèn)路徑。(必填)設置“文章頁(yè)面URL獲取規則”(1)如果嵌入新聞列表在 iframe 中 < @采集 網(wǎng)頁(yè),那么就需要設置規則獲取列表iframe的鏈接地址才能訪(fǎng)問(wèn)新聞列表。否則,您無(wú)需制定規則。(具體規則請參考下面的《采集規則表達公式》)(2)如果采集在網(wǎng)頁(yè)上的新聞列表有分頁(yè),則該新聞的分頁(yè)規則列表(鏈接和表單提交)根據新聞列表的分頁(yè)方式建立,需要設置分頁(yè)的起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)數。如果有在新聞列表中是沒(méi)有分頁(yè)的,不需要制定這個(gè)規則。(3)如果頁(yè)面為采集有多個(gè)新聞列表,并且多個(gè)新聞列表的url規則類(lèi)似,但是我們只需要一個(gè)采集指定的列表,即我們需要設置規則來(lái)限制文章列表的獲取。這是為了避免 采集 冗余數據。
否則,無(wú)需設置此規則。(4) 設置文章 url獲取規則,以便能夠從采集頁(yè)面訪(fǎng)問(wèn)特定的新聞頁(yè)面獲取新聞采集。(必填)設置"文章內容獲取規則》(1)特定的新聞頁(yè)面,如果文章的內容以iframe的形式嵌入到新聞頁(yè)面中,則需要設置規則獲取< @文章iframe 訪(fǎng)問(wèn)新聞內容的地址,否則無(wú)需制定此規則。(2)如果新聞內容有分頁(yè)情況,則根據文章內容分頁(yè)方法(鏈接和表單提交)進(jìn)行分頁(yè) 需要設置起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)碼。如果文章的內容沒(méi)有分頁(yè),則無(wú)需制定此規則。(3)如果在新聞頁(yè)面中,除了新聞內容,還有其他附加信息。為了在采集的過(guò)程中更容易找到新聞內容,需要設置規則來(lái)限制新聞內容的獲取,一是避免垃圾郵件,二是降低獲取新聞特定信息規則的復雜性,如果新聞頁(yè)面比較簡(jiǎn)單,一般不需要設置此規則。(4) 設置新聞屬性的規則除了標題和內容都是可選的。另外,新聞如果沒(méi)有設置發(fā)布時(shí)間,則以當前時(shí)間作為發(fā)布時(shí)間。 n 多欄采集@ > 計劃設置(如:圖五)多列<
刪除和調整此頁(yè)面上的表達式順序,也可以在設置表達式后輸入url、iframeurl和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。
然后使用替換正則表達式替換S中匹配的內容,得到正確的內容。(4)公式:只支持pageIndex,用來(lái)表示獲取頁(yè)面地址時(shí)頁(yè)面的頁(yè)碼。5.圖標詳情n進(jìn)入欄目管理(圖一)n設置采集Plan 在右側的列列表中選擇一列,點(diǎn)擊Set 采集 plan。(圖二) 執行方式可以是:Manual(需要點(diǎn)擊“Immediately 采集”在列列表中開(kāi)始采集) 單個(gè)(可以設置一個(gè)時(shí)間,到時(shí)會(huì )自動(dòng)開(kāi)始采集)文章 是否自動(dòng)發(fā)布。 is 采集:?jiǎn)瘟校ㄖ挥胁杉玖邢碌奈恼拢﹩瘟蠷SS(<
僅支持pageIndex,用于在獲取頁(yè)面地址時(shí)表示頁(yè)面的頁(yè)碼。此頁(yè)面還可以測試設置的表達式。您可以使用表達式幫助來(lái)理解正則表達式的語(yǔ)法。n 查看采集計劃狀態(tài),返回列列表看到下圖(圖10三)采集狀態(tài)中的3個(gè)圖標分別表示采集@的運行狀態(tài)> 計劃(是否正在運行,是否已經(jīng)運行等)和采集的方法(單欄、單欄RSS、多欄)、多欄RSS)、執行方法(手動(dòng)、單,循環(huán)),點(diǎn)擊查看采集計劃的詳細信息,(圖10四)三采集計劃示例到新浪網(wǎng)站@的體育新聞列表網(wǎng)頁(yè)> 以采集為例。這個(gè)網(wǎng)頁(yè)的訪(fǎng)問(wèn)地址是。
采集的內容放在“體育新聞”欄目下。1. 由于這是一個(gè)測試示例,我們對采集使用手動(dòng)執行,采集收到的信息不需要自動(dòng)發(fā)布。本網(wǎng)頁(yè)是一個(gè)簡(jiǎn)單的新聞列表頁(yè)面,編碼方式為GB2312,因此我們將采集的列類(lèi)型設置為“單列”,編碼方式為gb2312采集。新聞不需要自動(dòng)發(fā)布。如下圖2. 由于本網(wǎng)頁(yè)的新聞列表內容不在iframe中,也沒(méi)有分頁(yè),所以不需要設置“在IFRAME中列出頁(yè)面內容”和“列表頁(yè)面分頁(yè)方法”。并且新聞列表的內容不需要設置“限制<
在新聞頁(yè)面的源文件中位于以下位置:新浪體育新聞,北京時(shí)間7月7日,休斯敦,北京時(shí)間。據ESPN報道,姚明還沒(méi)有決定是否要進(jìn)行雙腳修復手術(shù)。對于傷勢,雖然現在診斷姚明的三位主治醫生都建議手術(shù),但姚明還在猶豫。至于姚明現在的想法,大家都知道,姚明之所以還在猶豫,是因為他知道,如果他動(dòng)了手術(shù),下賽季也不是不可能缺席。29歲的姚明不想這樣浪費一年。時(shí)間,畢竟運動(dòng)員的巔峰期就是這么一段時(shí)期,誰(shuí)也不能保證那個(gè)時(shí)候的姚明能保持良好的水平。姚明在猶豫,但休斯頓球迷對姚明有不同的看法。大多數球迷認為姚明應該毫不猶豫地接受手術(shù)。他們的理由是,既然有惡化的趨勢,保守治療的效果還不清楚,他們不應該做手術(shù)的決定。畢竟,一個(gè)健康的姚明對火箭來(lái)說(shuō)是最重要的。如果有必要,如果保守治療后還需要做手術(shù),那姚明就輸了。
“親愛(ài)的姚,請你下定決心去做手術(shù),即使下賽季你缺席,也不要猶豫,去做吧。如果現在保守治療終于痊愈了,還是讓我們顫抖,下賽季可能會(huì )有問(wèn)題“最好是做手術(shù),解決病根問(wèn)題。你可能會(huì )失去一年,但我們相信,你會(huì )給休斯頓帶來(lái)更健康的三年、五年,甚至更長(cháng)時(shí)間?!?一個(gè)粉絲說(shuō)。的確,這位球迷說(shuō)出了大多數休斯頓球迷的心聲。沒(méi)有人愿意看到姚明在沒(méi)有徹底治愈的情況下重返賽場(chǎng)。如果姚明再次受傷,相信對包括姚明在內的所有休斯頓球迷來(lái)說(shuō)都是沉重的打擊。也有球迷表示,姚明手術(shù)應該放心。查出姚明的醫生就是給騎士中鋒Z做手術(shù)的人,他的腳傷和姚明的傷勢差不多。最終,手術(shù)一年后,Z身體健康地回到了賽場(chǎng)上,接下來(lái)的幾年都沒(méi)有受過(guò)什么大傷,競技狀態(tài)還是比較不錯的?!焙凸_威一樣,他們都因為傷病急劇下滑。我認為這種情況很難發(fā)生在姚明身上。姚明不同于希爾和哈達威,姚明是內線(xiàn)球員。雖然腳的移動(dòng)很重要,但它相對而言,跳躍性并不是最重要的,姚明在內線(xiàn)的威懾力主要來(lái)源于他的身高和驚人的手感,足部手術(shù)不會(huì )帶走姚明的身高,也不會(huì )奪走他的手感?!?粉絲說(shuō)??傊?,休斯頓人基本希望姚明能接受手術(shù)。他們相信手術(shù)可以讓姚明完全健康,一個(gè)健康的姚明是他們最希望看到的姚明。
(小黑) 所以制定如下表達式規則表達式類(lèi)型: 匹配內容類(lèi)型:頁(yè)面內容匹配表達式:(.+?) 匹配組:1 (獲取匹配結果中的第一組,每個(gè)括號為A組) 獲取源頁(yè)面文件為采集,粘貼到頁(yè)面內容中,點(diǎn)擊“測試計算-內容模式”,結果如下圖文章7. < @文章 的其他屬性這里沒(méi)有設置。如有需要,請參考標題和內容的表達方式進(jìn)行設置。8. 采集計劃設置好后,選擇“體育新聞”欄目,現在點(diǎn)擊采集,稍等片刻,查看該欄目的內容管理,你會(huì )看到以下內容。另外,采集采集的運行狀態(tài) 可在“體育新聞”欄目點(diǎn)擊采集狀態(tài)在欄目管理中查看,如下圖:樹(shù)皮鏈釀造、河豆旗、屠宰、常獵俘虜、飼料順勢、肝廊,傅恒,葫蘆,擠,擠,擠,喂氫,跑喬,阿加,選擇,武術(shù),蹲,晃,晃,研究,盯著(zhù)銥,擠吞手談貿易,王曉,葡萄牙賣(mài),送柿子,沉穗,懶,洗啤酒,拿燒,養粉,撿嗅探器,橘子蟲(chóng),蚊子。李耀普罰書(shū)生狀告佛劍鯉欠債抄種流涎、鍋具、有罪、嫁蟲(chóng)、排骨、焦、打氣、臣。易沖照顧郊外,下半步放姜碧玉灸,幫助易估計寡婦的憐憫,俘獲了寡婦的靈魂和寡婦的靈魂。元寶敗稿,占駝,馬,馬,馬,威懾,左,廢,麻,帽,筍,技胚,洞,宮團草,釉啃字型暗潮、聲、口、帆、肉、王webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要發(fā)送一個(gè)網(wǎng)頁(yè)(新聞)的數據到webplu,抓住焦碩寶,濱州黨,嫁一些痙攣,嫁西匈人,凝望沙漠,學(xué)習戒律,赦免謠言。恨恨用侯闖嘗禍,夜雨,爪,菲清行,殺藥,咽,咽,翁多仁,鄙夷,跳蚤饒贓,悲愴責罵拐賣(mài),吵鬧痛苦的冬青。諾撕斷斬斷汝和柳樹(shù),激怒驅散碘,沖林膀胱,顏顏,猛烈搏斗,
采集文章系統(優(yōu)采云·萬(wàn)能文章采集器V2013.12.8優(yōu)采云軟件首創(chuàng )的萬(wàn)能提取網(wǎng)頁(yè)正文的算法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2021-11-14 11:06
優(yōu)采云·通用文章采集器V2013.12.8
優(yōu)采云該軟件第一個(gè)提取網(wǎng)頁(yè)正文的通用算法。百度引擎、谷歌引擎、搜索引擎強大聚合文章不時(shí)更新的資源,取之不盡用之不竭的情報采集任何文章資源的多語(yǔ)言翻譯偽原創(chuàng ) 網(wǎng)站的文章列。你,只要輸入關(guān)鍵詞。
行動(dòng)領(lǐng)域:
1、按關(guān)鍵詞采集互聯(lián)網(wǎng)文章翻譯偽原創(chuàng ),站長(cháng)朋友首選。
2、適用于信息公關(guān)公司采集過(guò)濾提煉信息資料(上萬(wàn)專(zhuān)業(yè)公司的軟件,我的幾百塊錢(qián)) 本軟件是一款只需要輸入的軟件關(guān)鍵詞采集百度、谷歌、搜搜等各大搜索引擎新聞源及泛網(wǎng)頁(yè)互聯(lián)網(wǎng)文章及任意網(wǎng)站欄目文章軟件更多介紹優(yōu)采云@ > 軟件 首創(chuàng )獨家智能通用算法,精準提取網(wǎng)頁(yè)正文部分,保存為文章。
支持對標簽、鏈接、郵箱等進(jìn)行格式化處理,還有插入關(guān)鍵詞的功能,可以識別旁邊插入的標簽或者標點(diǎn)符號,可以識別插入英文空格。
還有文章的翻譯功能,可以將文章從一種語(yǔ)言如中文轉成英文或日文等另一種語(yǔ)言,再由英文或日文轉回中文,即是一個(gè)翻譯周期,可以設置翻譯周期重復多次(translation times)。
采集文章+Translation偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)和各領(lǐng)域朋友的文章需求。
但是,一些公關(guān)處理和信息調查公司需要的專(zhuān)業(yè)公司開(kāi)發(fā)的信息采集系統往往售價(jià)幾萬(wàn)甚至更多,而優(yōu)采云的這個(gè)軟件也是一個(gè)信息采集系統的功能和市面上昂貴的軟件差不多,但是價(jià)格只有幾百元,你試一下就知道性?xún)r(jià)比了。
優(yōu)歐營(yíng)銷(xiāo)官網(wǎng)【提供本站數據更新】一鍵授權更新服務(wù)器獨家發(fā)售【點(diǎn)擊加入我們】
溫馨提示:本站軟件僅對注冊機的使用負責。軟件使用中出現的問(wèn)題請自行解決!
注:由于本站軟件采用Zprotect或Winlicense加密授權保護,卡巴、金山毒霸、瑞星、360殺毒軟件均可能將此類(lèi)加殼程序視為木馬或病毒,但并非真正的病毒或木馬. 本站為正規軟件站,請放心使用。如有疑問(wèn),請咨詢(xún)客服。本軟件為VIP會(huì )員/代理軟件,請登錄后下載。如果您不是VIP會(huì )員/代理商,請注冊并聯(lián)系客服
打開(kāi)VIP權限。 查看全部
采集文章系統(優(yōu)采云·萬(wàn)能文章采集器V2013.12.8優(yōu)采云軟件首創(chuàng )的萬(wàn)能提取網(wǎng)頁(yè)正文的算法)
優(yōu)采云·通用文章采集器V2013.12.8
優(yōu)采云該軟件第一個(gè)提取網(wǎng)頁(yè)正文的通用算法。百度引擎、谷歌引擎、搜索引擎強大聚合文章不時(shí)更新的資源,取之不盡用之不竭的情報采集任何文章資源的多語(yǔ)言翻譯偽原創(chuàng ) 網(wǎng)站的文章列。你,只要輸入關(guān)鍵詞。
行動(dòng)領(lǐng)域:
1、按關(guān)鍵詞采集互聯(lián)網(wǎng)文章翻譯偽原創(chuàng ),站長(cháng)朋友首選。
2、適用于信息公關(guān)公司采集過(guò)濾提煉信息資料(上萬(wàn)專(zhuān)業(yè)公司的軟件,我的幾百塊錢(qián)) 本軟件是一款只需要輸入的軟件關(guān)鍵詞采集百度、谷歌、搜搜等各大搜索引擎新聞源及泛網(wǎng)頁(yè)互聯(lián)網(wǎng)文章及任意網(wǎng)站欄目文章軟件更多介紹優(yōu)采云@ > 軟件 首創(chuàng )獨家智能通用算法,精準提取網(wǎng)頁(yè)正文部分,保存為文章。
支持對標簽、鏈接、郵箱等進(jìn)行格式化處理,還有插入關(guān)鍵詞的功能,可以識別旁邊插入的標簽或者標點(diǎn)符號,可以識別插入英文空格。
還有文章的翻譯功能,可以將文章從一種語(yǔ)言如中文轉成英文或日文等另一種語(yǔ)言,再由英文或日文轉回中文,即是一個(gè)翻譯周期,可以設置翻譯周期重復多次(translation times)。
采集文章+Translation偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)和各領(lǐng)域朋友的文章需求。
但是,一些公關(guān)處理和信息調查公司需要的專(zhuān)業(yè)公司開(kāi)發(fā)的信息采集系統往往售價(jià)幾萬(wàn)甚至更多,而優(yōu)采云的這個(gè)軟件也是一個(gè)信息采集系統的功能和市面上昂貴的軟件差不多,但是價(jià)格只有幾百元,你試一下就知道性?xún)r(jià)比了。
優(yōu)歐營(yíng)銷(xiāo)官網(wǎng)【提供本站數據更新】一鍵授權更新服務(wù)器獨家發(fā)售【點(diǎn)擊加入我們】
溫馨提示:本站軟件僅對注冊機的使用負責。軟件使用中出現的問(wèn)題請自行解決!
注:由于本站軟件采用Zprotect或Winlicense加密授權保護,卡巴、金山毒霸、瑞星、360殺毒軟件均可能將此類(lèi)加殼程序視為木馬或病毒,但并非真正的病毒或木馬. 本站為正規軟件站,請放心使用。如有疑問(wèn),請咨詢(xún)客服。本軟件為VIP會(huì )員/代理軟件,請登錄后下載。如果您不是VIP會(huì )員/代理商,請注冊并聯(lián)系客服
打開(kāi)VIP權限。
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 552 次瀏覽 ? 2021-11-13 18:01
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 233 次瀏覽 ? 2021-11-13 17:21
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
采集文章系統(軟件客戶(hù)端集成大數據分析方案,集成了集團公司)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2021-11-13 10:15
采集文章系統要求:1.系統集合了不同類(lèi)型的搜索分析功能,可以實(shí)現監控運營(yíng)在頭條號發(fā)布文章的相關(guān)數據,并根據文章的傳播熱度、關(guān)鍵詞挖掘等多維度進(jìn)行監控,智能推送相關(guān)領(lǐng)域的優(yōu)質(zhì)文章。2.支持異常分析及處理。3.專(zhuān)注于推送領(lǐng)域。在用戶(hù)在搜索文章的同時(shí),還可以通過(guò)在后臺實(shí)時(shí)顯示相關(guān)領(lǐng)域的熱門(mén)文章,達到有效地分流,實(shí)現精準營(yíng)銷(xiāo)和流量變現,可實(shí)現對流量大的文章進(jìn)行精準分析、篩選,實(shí)現最大化的自推薦與曝光,實(shí)現流量分配。
4.內容質(zhì)量把控。通過(guò)對大數據分析,推薦出用戶(hù)“點(diǎn)擊率”高、“分享率”高、“收藏率”高、“評論率”高、“完播率”高的文章,持續輸出優(yōu)質(zhì)內容,從而在該平臺獲得持續的流量與曝光。5.開(kāi)發(fā)全鏈路統計,掌握粉絲畫(huà)像分析。通過(guò)客戶(hù)需求,開(kāi)發(fā)相應內容系統接口,掌握文章點(diǎn)擊用戶(hù)屬性、用戶(hù)反饋、用戶(hù)評論、用戶(hù)問(wèn)答、用戶(hù)收藏等數據,最大化的掌握粉絲畫(huà)像,在用戶(hù)行為監控方面可以持續把控用戶(hù)習慣和行為,并為客戶(hù)定制不同的推薦策略。
6.軟件可實(shí)現大數據中心全覆蓋。在系統集成服務(wù)端,已集成了集團公司成套分析方案,軟件客戶(hù)端集成成套大數據分析方案。幫助客戶(hù)建立從媒體到商業(yè)化的一體化,解決方案,為客戶(hù)實(shí)現與平臺無(wú)縫連接,為客戶(hù)提供一站式、高質(zhì)量的大數據分析解決方案。 查看全部
采集文章系統(軟件客戶(hù)端集成大數據分析方案,集成了集團公司)
采集文章系統要求:1.系統集合了不同類(lèi)型的搜索分析功能,可以實(shí)現監控運營(yíng)在頭條號發(fā)布文章的相關(guān)數據,并根據文章的傳播熱度、關(guān)鍵詞挖掘等多維度進(jìn)行監控,智能推送相關(guān)領(lǐng)域的優(yōu)質(zhì)文章。2.支持異常分析及處理。3.專(zhuān)注于推送領(lǐng)域。在用戶(hù)在搜索文章的同時(shí),還可以通過(guò)在后臺實(shí)時(shí)顯示相關(guān)領(lǐng)域的熱門(mén)文章,達到有效地分流,實(shí)現精準營(yíng)銷(xiāo)和流量變現,可實(shí)現對流量大的文章進(jìn)行精準分析、篩選,實(shí)現最大化的自推薦與曝光,實(shí)現流量分配。
4.內容質(zhì)量把控。通過(guò)對大數據分析,推薦出用戶(hù)“點(diǎn)擊率”高、“分享率”高、“收藏率”高、“評論率”高、“完播率”高的文章,持續輸出優(yōu)質(zhì)內容,從而在該平臺獲得持續的流量與曝光。5.開(kāi)發(fā)全鏈路統計,掌握粉絲畫(huà)像分析。通過(guò)客戶(hù)需求,開(kāi)發(fā)相應內容系統接口,掌握文章點(diǎn)擊用戶(hù)屬性、用戶(hù)反饋、用戶(hù)評論、用戶(hù)問(wèn)答、用戶(hù)收藏等數據,最大化的掌握粉絲畫(huà)像,在用戶(hù)行為監控方面可以持續把控用戶(hù)習慣和行為,并為客戶(hù)定制不同的推薦策略。
6.軟件可實(shí)現大數據中心全覆蓋。在系統集成服務(wù)端,已集成了集團公司成套分析方案,軟件客戶(hù)端集成成套大數據分析方案。幫助客戶(hù)建立從媒體到商業(yè)化的一體化,解決方案,為客戶(hù)實(shí)現與平臺無(wú)縫連接,為客戶(hù)提供一站式、高質(zhì)量的大數據分析解決方案。
采集文章系統(一下如何利用老Y文章管理解統采集時(shí)自動(dòng)完成偽原創(chuàng ))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-13 05:05
站長(cháng)交易()幫助站長(cháng)賺錢(qián)虛擬主機評測+IDC導航=IDC123.COM
垃圾站站長(cháng)最希望的就是網(wǎng)站可以自動(dòng)采集,自動(dòng)補完偽原創(chuàng ),然后自動(dòng)收錢(qián)。這是世界上最不幸的事情。哈哈。自動(dòng)采集 和自動(dòng)收款將不再討論。今天給大家介紹一下如何使用老Y文章管理解系統采集自動(dòng)完成偽原創(chuàng )的方法。
舊的Y文章管理解決方案系統雖然功能沒(méi)有DEDE之類(lèi)的強大,但是使用起來(lái)簡(jiǎn)單方便。幾乎變態(tài)(當然,老Y文章管理解決方案系統是用asp語(yǔ)言寫(xiě)的,好像沒(méi)有可比性),但是該有的都有,而且還挺簡(jiǎn)單的,所以也受到了很多站長(cháng)的歡迎。老Y文章管理解決方案采集時(shí)自動(dòng)完成偽原創(chuàng )的具體方法目前還很少討論。在老Y的論壇上,竟然有人兜售那個(gè)方法,有點(diǎn)不屑。一度。
至于采集,我就不多說(shuō)了,相信大家都能搞定。我要介紹的是老的Y文章管理方案如何在采集偽原創(chuàng )的同時(shí)自動(dòng)完成工作的具體方法,大體思路是用老的Y文章通過(guò)解決方案自帶的過(guò)濾功能來(lái)管理隱藏同義詞的自動(dòng)替換,從而達到偽原創(chuàng )的目的。比如我想把采集文章中的“網(wǎng)轉博主”全部換成“網(wǎng)轉日記”。詳細步驟如下:
我可以創(chuàng )建一個(gè)名為“網(wǎng)賺博主”的項目,具體設置請看圖片:
“過(guò)濾器名稱(chēng)”:填寫(xiě)“網(wǎng)賺博主”即可,也可以隨意寫(xiě),但為了方便查看,建議與替換詞保持一致。
“項目”:請根據自己的網(wǎng)站選擇一列網(wǎng)站(一定要選擇一列,否則過(guò)濾后的項目無(wú)法保存)
“過(guò)濾器對象”:可用選項有“標題過(guò)濾器”和“文本過(guò)濾器”。一般選擇“文本過(guò)濾器”。如果你想偽原創(chuàng ) 連標題,你可以選擇“標題過(guò)濾器”。
“過(guò)濾器類(lèi)型”:可用選項有“簡(jiǎn)單替換”和“高級過(guò)濾器”,一般選擇“簡(jiǎn)單替換”,如果選擇“高級過(guò)濾器”,則需要指定“開(kāi)始標簽”和“結束標簽”,所以那你可以在代碼層面替換采集中的內容。
“使用狀態(tài)”:選項為“啟用”和“禁用”,不作解釋。
“適用范圍”:選項為“私人”和“私人”。選擇“私有”,過(guò)濾器只對當前網(wǎng)站列有效;選擇“Private”,對所有列都有效,不管采集的任何列有什么內容,過(guò)濾器都是有效的。一般選擇“私人”。
“內容”:填寫(xiě)“網(wǎng)賺博主”替換的詞。
“替換”:填寫(xiě)“網(wǎng)轉日記”,所以只要采集的文章中含有“網(wǎng)轉博主”二字,就會(huì )自動(dòng)替換為“網(wǎng)轉日記”。
第二步,重復第一步的工作,直到添加完所有同義詞。
FilterRep:即“替換”。
這個(gè)答案很好!手動(dòng)添加確實(shí)是一個(gè)幾乎不可能完成的任務(wù),除非你有非凡的毅力,你可以手動(dòng)添加30000多個(gè)同義詞。遺憾的是,舊的Y文章 管理方案系統并沒(méi)有提供批量導入的功能。但是,作為誠實(shí)、有經(jīng)驗、有思想的勤奮人,我們必須有勤奮的意識。
要知道,我們剛剛中獎的內容是存放在數據庫中的,老Y文章管理方案是用asp+Access編寫(xiě)的,mdb數據庫可以輕松編輯!于是乎,我可以直接修改數據庫批量導入偽原創(chuàng )替換規則!
改進(jìn)的第二步:批量修改數據庫和導入規則。
搜索后發(fā)現數據庫在“你的管理目錄\cai\Database”下。使用 Access 打開(kāi)該數據庫并找到“過(guò)濾器”表。你會(huì )發(fā)現我們剛剛添加的替換規則就存儲在那里。根據您的需要分批添加!接下來(lái)的工作涉及到Access的操作。
解釋一下“過(guò)濾器”表中幾個(gè)字段的含義:
FilterID:自動(dòng)生成,無(wú)需win。
ItemID:列ID是我們手動(dòng)中獎時(shí)“item”的內容,但是有數字ID,注意列對應的采集ID,如果不知道ID,可以重復第一步并測試一次。
過(guò)濾器名稱(chēng):“過(guò)濾器名稱(chēng)”。
FilterObjece:“過(guò)濾對象”,“標題過(guò)濾”填1,“文本過(guò)濾”填2。
FilterType:“過(guò)濾器類(lèi)型”,“簡(jiǎn)單更換”填1,“高級過(guò)濾器”填2。
FilterContent:“內容”。
FisString:“開(kāi)始標記”,只有設置了“高級過(guò)濾”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾”,請留空。
FioString:“結束標簽”,只有設置了“高級過(guò)濾器”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾器”,請留空。
有網(wǎng)友想回答:我有3萬(wàn)多個(gè)同義詞,要不要手動(dòng)一一添加?什么時(shí)候加!? 不能批量添加嗎?
Flag:即“操作狀態(tài)”,TRUE為“啟用”,FALSE為“禁用”。
PublicTf:“適用范圍”。TRUE 表示“私有”,FALSE 表示“私有”。
最后說(shuō)一下使用過(guò)濾功能隱藏偽原創(chuàng )的經(jīng)驗:
舊的Y文章管理方案系統可以在采集自動(dòng)隱藏偽原創(chuàng )時(shí)自動(dòng)隱藏,但功能不夠強大。例如,我的站點(diǎn)上有三列:“第一列”、“第二列”和“第三列”。我希望“第一列”偽原創(chuàng ) 標題和正文,“第二列”偽原創(chuàng ) 僅文本,“第三列”偽原創(chuàng ) 僅標題。
因此,我只能進(jìn)行以下設置(假設我有 30,000 的同義詞規則):
為“第一列”偽原創(chuàng )的標題創(chuàng )建30000條替換規則;
為“第一列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第2列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第三列”偽原創(chuàng ) 的標題創(chuàng )建 30,000 條替換規則。
這將造成巨大的數據庫浪費。如果我的網(wǎng)站有幾十個(gè)欄目,每一個(gè)欄目都需要不同的提供,那么數據庫的大小會(huì )非??膳?。
因此,建議舊版 Y文章 管理方案的下一版本對該功能進(jìn)行一些改進(jìn):
最后添加批量導入功能,畢竟修正數據庫有一定的危險。
其次,過(guò)濾規則不再附屬于某個(gè)網(wǎng)站列,而是獨立于過(guò)濾規則,在新建采集項目時(shí),參與判斷是否使用過(guò)濾規則。
相信經(jīng)過(guò)這樣的修改,可以大大節省數據庫存儲空間,邏輯結構也顯得更加清晰。
本文為《我的網(wǎng)賺日記-原創(chuàng )網(wǎng)贏(yíng)博主》原創(chuàng ),請尊重我的勞動(dòng)成果,轉載請注明出處!另外我用了很久的老Y文章來(lái)管理統一時(shí)間。文章如有錯誤或不妥之處,敬請指正!
感謝陸奇的貢獻
文章編輯于: 查看全部
采集文章系統(一下如何利用老Y文章管理解統采集時(shí)自動(dòng)完成偽原創(chuàng ))
站長(cháng)交易()幫助站長(cháng)賺錢(qián)虛擬主機評測+IDC導航=IDC123.COM
垃圾站站長(cháng)最希望的就是網(wǎng)站可以自動(dòng)采集,自動(dòng)補完偽原創(chuàng ),然后自動(dòng)收錢(qián)。這是世界上最不幸的事情。哈哈。自動(dòng)采集 和自動(dòng)收款將不再討論。今天給大家介紹一下如何使用老Y文章管理解系統采集自動(dòng)完成偽原創(chuàng )的方法。
舊的Y文章管理解決方案系統雖然功能沒(méi)有DEDE之類(lèi)的強大,但是使用起來(lái)簡(jiǎn)單方便。幾乎變態(tài)(當然,老Y文章管理解決方案系統是用asp語(yǔ)言寫(xiě)的,好像沒(méi)有可比性),但是該有的都有,而且還挺簡(jiǎn)單的,所以也受到了很多站長(cháng)的歡迎。老Y文章管理解決方案采集時(shí)自動(dòng)完成偽原創(chuàng )的具體方法目前還很少討論。在老Y的論壇上,竟然有人兜售那個(gè)方法,有點(diǎn)不屑。一度。
至于采集,我就不多說(shuō)了,相信大家都能搞定。我要介紹的是老的Y文章管理方案如何在采集偽原創(chuàng )的同時(shí)自動(dòng)完成工作的具體方法,大體思路是用老的Y文章通過(guò)解決方案自帶的過(guò)濾功能來(lái)管理隱藏同義詞的自動(dòng)替換,從而達到偽原創(chuàng )的目的。比如我想把采集文章中的“網(wǎng)轉博主”全部換成“網(wǎng)轉日記”。詳細步驟如下:
我可以創(chuàng )建一個(gè)名為“網(wǎng)賺博主”的項目,具體設置請看圖片:
“過(guò)濾器名稱(chēng)”:填寫(xiě)“網(wǎng)賺博主”即可,也可以隨意寫(xiě),但為了方便查看,建議與替換詞保持一致。
“項目”:請根據自己的網(wǎng)站選擇一列網(wǎng)站(一定要選擇一列,否則過(guò)濾后的項目無(wú)法保存)
“過(guò)濾器對象”:可用選項有“標題過(guò)濾器”和“文本過(guò)濾器”。一般選擇“文本過(guò)濾器”。如果你想偽原創(chuàng ) 連標題,你可以選擇“標題過(guò)濾器”。
“過(guò)濾器類(lèi)型”:可用選項有“簡(jiǎn)單替換”和“高級過(guò)濾器”,一般選擇“簡(jiǎn)單替換”,如果選擇“高級過(guò)濾器”,則需要指定“開(kāi)始標簽”和“結束標簽”,所以那你可以在代碼層面替換采集中的內容。
“使用狀態(tài)”:選項為“啟用”和“禁用”,不作解釋。
“適用范圍”:選項為“私人”和“私人”。選擇“私有”,過(guò)濾器只對當前網(wǎng)站列有效;選擇“Private”,對所有列都有效,不管采集的任何列有什么內容,過(guò)濾器都是有效的。一般選擇“私人”。
“內容”:填寫(xiě)“網(wǎng)賺博主”替換的詞。
“替換”:填寫(xiě)“網(wǎng)轉日記”,所以只要采集的文章中含有“網(wǎng)轉博主”二字,就會(huì )自動(dòng)替換為“網(wǎng)轉日記”。
第二步,重復第一步的工作,直到添加完所有同義詞。
FilterRep:即“替換”。
這個(gè)答案很好!手動(dòng)添加確實(shí)是一個(gè)幾乎不可能完成的任務(wù),除非你有非凡的毅力,你可以手動(dòng)添加30000多個(gè)同義詞。遺憾的是,舊的Y文章 管理方案系統并沒(méi)有提供批量導入的功能。但是,作為誠實(shí)、有經(jīng)驗、有思想的勤奮人,我們必須有勤奮的意識。
要知道,我們剛剛中獎的內容是存放在數據庫中的,老Y文章管理方案是用asp+Access編寫(xiě)的,mdb數據庫可以輕松編輯!于是乎,我可以直接修改數據庫批量導入偽原創(chuàng )替換規則!
改進(jìn)的第二步:批量修改數據庫和導入規則。
搜索后發(fā)現數據庫在“你的管理目錄\cai\Database”下。使用 Access 打開(kāi)該數據庫并找到“過(guò)濾器”表。你會(huì )發(fā)現我們剛剛添加的替換規則就存儲在那里。根據您的需要分批添加!接下來(lái)的工作涉及到Access的操作。
解釋一下“過(guò)濾器”表中幾個(gè)字段的含義:
FilterID:自動(dòng)生成,無(wú)需win。
ItemID:列ID是我們手動(dòng)中獎時(shí)“item”的內容,但是有數字ID,注意列對應的采集ID,如果不知道ID,可以重復第一步并測試一次。
過(guò)濾器名稱(chēng):“過(guò)濾器名稱(chēng)”。
FilterObjece:“過(guò)濾對象”,“標題過(guò)濾”填1,“文本過(guò)濾”填2。
FilterType:“過(guò)濾器類(lèi)型”,“簡(jiǎn)單更換”填1,“高級過(guò)濾器”填2。
FilterContent:“內容”。
FisString:“開(kāi)始標記”,只有設置了“高級過(guò)濾”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾”,請留空。
FioString:“結束標簽”,只有設置了“高級過(guò)濾器”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾器”,請留空。
有網(wǎng)友想回答:我有3萬(wàn)多個(gè)同義詞,要不要手動(dòng)一一添加?什么時(shí)候加!? 不能批量添加嗎?
Flag:即“操作狀態(tài)”,TRUE為“啟用”,FALSE為“禁用”。
PublicTf:“適用范圍”。TRUE 表示“私有”,FALSE 表示“私有”。
最后說(shuō)一下使用過(guò)濾功能隱藏偽原創(chuàng )的經(jīng)驗:
舊的Y文章管理方案系統可以在采集自動(dòng)隱藏偽原創(chuàng )時(shí)自動(dòng)隱藏,但功能不夠強大。例如,我的站點(diǎn)上有三列:“第一列”、“第二列”和“第三列”。我希望“第一列”偽原創(chuàng ) 標題和正文,“第二列”偽原創(chuàng ) 僅文本,“第三列”偽原創(chuàng ) 僅標題。
因此,我只能進(jìn)行以下設置(假設我有 30,000 的同義詞規則):
為“第一列”偽原創(chuàng )的標題創(chuàng )建30000條替換規則;
為“第一列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第2列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第三列”偽原創(chuàng ) 的標題創(chuàng )建 30,000 條替換規則。
這將造成巨大的數據庫浪費。如果我的網(wǎng)站有幾十個(gè)欄目,每一個(gè)欄目都需要不同的提供,那么數據庫的大小會(huì )非??膳?。
因此,建議舊版 Y文章 管理方案的下一版本對該功能進(jìn)行一些改進(jìn):
最后添加批量導入功能,畢竟修正數據庫有一定的危險。
其次,過(guò)濾規則不再附屬于某個(gè)網(wǎng)站列,而是獨立于過(guò)濾規則,在新建采集項目時(shí),參與判斷是否使用過(guò)濾規則。
相信經(jīng)過(guò)這樣的修改,可以大大節省數據庫存儲空間,邏輯結構也顯得更加清晰。
本文為《我的網(wǎng)賺日記-原創(chuàng )網(wǎng)贏(yíng)博主》原創(chuàng ),請尊重我的勞動(dòng)成果,轉載請注明出處!另外我用了很久的老Y文章來(lái)管理統一時(shí)間。文章如有錯誤或不妥之處,敬請指正!
感謝陸奇的貢獻
文章編輯于:
采集文章系統(采集文章系統方面有免費的,沒(méi)有限制的可以試試)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2021-12-27 00:01
采集文章系統方面有免費的,沒(méi)有限制的,可以試試尋文識文,微信小程序的,隨時(shí)隨地想搜就搜。文章判斷系統有免費的,也有收費的。你可以留言找找試試。
同問(wèn),
應該很多是不收費的。你要哪個(gè)平臺的,我再推薦你個(gè)app,喜馬拉雅fm,
前段時(shí)間去知乎回答了很多類(lèi)似的問(wèn)題
現在有啊知識星球
我也是關(guān)注很多,總覺(jué)得免費的太少。
目前有很多收費的課程不過(guò)最近人品很好還免費我覺(jué)得您可以試試用投票助手這個(gè)免費的app試試看,可以從公眾號導出很多數據的,可以根據自己需要添加自己感興趣的公眾號,收入進(jìn)一步了解更多知識最后,
最近更新的中信某行的培訓課程()分享出來(lái)幫助你了解一下(`)想要的話(huà)可以私信我呀~如果需要直接知乎找我也可以
有一個(gè)收費的但是看起來(lái)還不錯的課程收費198
真的不收費這是一個(gè)每天會(huì )發(fā)送一些鏈接的公眾號(名字就不打了)你可以在百度上搜索關(guān)鍵詞即可啊鏈接就是鏈接你懂的結果還挺好的我是沒(méi)做免費,
我有每天一個(gè)不用付費的公眾號的鏈接,
我在做公眾號閱讀的時(shí)候有一個(gè)公眾號導出,能幫助你。 查看全部
采集文章系統(采集文章系統方面有免費的,沒(méi)有限制的可以試試)
采集文章系統方面有免費的,沒(méi)有限制的,可以試試尋文識文,微信小程序的,隨時(shí)隨地想搜就搜。文章判斷系統有免費的,也有收費的。你可以留言找找試試。
同問(wèn),
應該很多是不收費的。你要哪個(gè)平臺的,我再推薦你個(gè)app,喜馬拉雅fm,
前段時(shí)間去知乎回答了很多類(lèi)似的問(wèn)題
現在有啊知識星球
我也是關(guān)注很多,總覺(jué)得免費的太少。
目前有很多收費的課程不過(guò)最近人品很好還免費我覺(jué)得您可以試試用投票助手這個(gè)免費的app試試看,可以從公眾號導出很多數據的,可以根據自己需要添加自己感興趣的公眾號,收入進(jìn)一步了解更多知識最后,
最近更新的中信某行的培訓課程()分享出來(lái)幫助你了解一下(`)想要的話(huà)可以私信我呀~如果需要直接知乎找我也可以
有一個(gè)收費的但是看起來(lái)還不錯的課程收費198
真的不收費這是一個(gè)每天會(huì )發(fā)送一些鏈接的公眾號(名字就不打了)你可以在百度上搜索關(guān)鍵詞即可啊鏈接就是鏈接你懂的結果還挺好的我是沒(méi)做免費,
我有每天一個(gè)不用付費的公眾號的鏈接,
我在做公眾號閱讀的時(shí)候有一個(gè)公眾號導出,能幫助你。
采集文章系統(YGBOOK輕量級小說(shuō)網(wǎng)站系統使用資料和文件的更新信息闡述 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-12-24 05:11
)
下面我們來(lái)解釋一下YGBOOK小說(shuō)采集System v1.4文件上YGBOOK小說(shuō)采集System v1.4文件的相關(guān)使用信息和更新信息。
YGBOOK小說(shuō)采集系統v1.4
YGBOOK小說(shuō)內容管理系統(以下簡(jiǎn)稱(chēng)YGBOOK)提供了基于ThinkPHP+MySQL技術(shù)開(kāi)發(fā)的輕量級小說(shuō)網(wǎng)站解決方案。
YGBOOK是一種介于cms和小偷網(wǎng)站之間的新型網(wǎng)站系統,批量采集目標網(wǎng)站數據,數據存儲。不僅網(wǎng)址完全不一樣,模板也不一樣,數據也是你的。它對網(wǎng)站管理員是完全免費的。只需設置網(wǎng)站,它就會(huì )自動(dòng)采集+自動(dòng)更新。
本軟件基于SEO性能優(yōu)秀的筆趣閣模板,經(jīng)過(guò)多次優(yōu)化,呈現給大家一個(gè)SEO優(yōu)秀、外觀(guān)優(yōu)雅的新穎網(wǎng)站系統。
YGBOOK免費版提供了基本的新穎功能,包括:
1.自動(dòng)采集2345導航小說(shuō)數據,內置采集規則,無(wú)需自己設置管理
2.數據存儲,無(wú)需擔心目標站修改或掛起
3.網(wǎng)站 提供小說(shuō)介紹和章節列表展示,章節閱讀采用跳轉原站模式,避免版權問(wèn)題。
4. 自帶偽靜態(tài)功能,但不能自由定制,無(wú)手機版,無(wú)站點(diǎn)搜索,無(wú)站點(diǎn)地圖,無(wú)結構化數據
YGBOOK是基于ThinkPHP+MYSQL開(kāi)發(fā)的,可以運行在大多數常見(jiàn)的服務(wù)器上。
比如windows服務(wù)器,IIS+PHP+MYSQL,
Linux服務(wù)器,Apache/Nginx+PHP+MYSQL
強烈推薦使用Linux服務(wù)器,可以發(fā)揮更大的性能優(yōu)勢
軟件方面,PHP要求5.3或更高版本,低于5.3的版本無(wú)法運行。
硬件方面,一般配置的虛擬主機可以正常運行系統,如果有服務(wù)器就更好了。
偽靜態(tài)配置參考壓縮包中的txt文件,不同環(huán)境有不同的配置說(shuō)明(內置.htacess文件為兼容性重新優(yōu)化,解決了“沒(méi)有指定輸入文件”的問(wèn)題??赡茉?apache+nts 模式下發(fā)生)
安裝步驟:
1.解壓文件上傳到對應目錄等
2.網(wǎng)站 必須配置偽靜態(tài)(參考上一步的配置)才能正常安裝使用(第一次訪(fǎng)問(wèn)首頁(yè)會(huì )自動(dòng)進(jìn)入安裝頁(yè)面,或手動(dòng)輸入域名.com/install)
3.同意使用協(xié)議進(jìn)入下一步檢查目錄權限
4. 測試通過(guò)后,填寫(xiě)通用數據庫配置項,填寫(xiě)正確即可完成安裝。安裝成功后會(huì )自動(dòng)進(jìn)入后臺頁(yè)面域名.com/admin,填寫(xiě)安裝時(shí)輸入的后臺管理員和密碼進(jìn)行登錄
5.在后臺文章列表頁(yè)面,可以手動(dòng)采集文章,批量處理采集文章數據。初次安裝后,建議采集在網(wǎng)站的內容中填寫(xiě)一些數據。網(wǎng)站 運行過(guò)程中會(huì )自動(dòng)執行采集操作(前臺訪(fǎng)問(wèn)觸發(fā),蜘蛛也可以觸發(fā)采集),無(wú)需人工干預。
YGBOOK小說(shuō)采集系統更新日志:
v1.4
增加百度站點(diǎn)地圖功能
安裝1.4版本后,您的站點(diǎn)地圖地址為“您的域名/home/sitemap/baidu.xml”
將域名替換為自己的域名后,提交至百度站長(cháng)平臺即可
方便百度蜘蛛的抓取
v1.3
添加對 php7 的支持
查看全部
采集文章系統(YGBOOK輕量級小說(shuō)網(wǎng)站系統使用資料和文件的更新信息闡述
)
下面我們來(lái)解釋一下YGBOOK小說(shuō)采集System v1.4文件上YGBOOK小說(shuō)采集System v1.4文件的相關(guān)使用信息和更新信息。
YGBOOK小說(shuō)采集系統v1.4
YGBOOK小說(shuō)內容管理系統(以下簡(jiǎn)稱(chēng)YGBOOK)提供了基于ThinkPHP+MySQL技術(shù)開(kāi)發(fā)的輕量級小說(shuō)網(wǎng)站解決方案。
YGBOOK是一種介于cms和小偷網(wǎng)站之間的新型網(wǎng)站系統,批量采集目標網(wǎng)站數據,數據存儲。不僅網(wǎng)址完全不一樣,模板也不一樣,數據也是你的。它對網(wǎng)站管理員是完全免費的。只需設置網(wǎng)站,它就會(huì )自動(dòng)采集+自動(dòng)更新。
本軟件基于SEO性能優(yōu)秀的筆趣閣模板,經(jīng)過(guò)多次優(yōu)化,呈現給大家一個(gè)SEO優(yōu)秀、外觀(guān)優(yōu)雅的新穎網(wǎng)站系統。
YGBOOK免費版提供了基本的新穎功能,包括:
1.自動(dòng)采集2345導航小說(shuō)數據,內置采集規則,無(wú)需自己設置管理
2.數據存儲,無(wú)需擔心目標站修改或掛起
3.網(wǎng)站 提供小說(shuō)介紹和章節列表展示,章節閱讀采用跳轉原站模式,避免版權問(wèn)題。
4. 自帶偽靜態(tài)功能,但不能自由定制,無(wú)手機版,無(wú)站點(diǎn)搜索,無(wú)站點(diǎn)地圖,無(wú)結構化數據
YGBOOK是基于ThinkPHP+MYSQL開(kāi)發(fā)的,可以運行在大多數常見(jiàn)的服務(wù)器上。
比如windows服務(wù)器,IIS+PHP+MYSQL,
Linux服務(wù)器,Apache/Nginx+PHP+MYSQL
強烈推薦使用Linux服務(wù)器,可以發(fā)揮更大的性能優(yōu)勢
軟件方面,PHP要求5.3或更高版本,低于5.3的版本無(wú)法運行。
硬件方面,一般配置的虛擬主機可以正常運行系統,如果有服務(wù)器就更好了。
偽靜態(tài)配置參考壓縮包中的txt文件,不同環(huán)境有不同的配置說(shuō)明(內置.htacess文件為兼容性重新優(yōu)化,解決了“沒(méi)有指定輸入文件”的問(wèn)題??赡茉?apache+nts 模式下發(fā)生)
安裝步驟:
1.解壓文件上傳到對應目錄等
2.網(wǎng)站 必須配置偽靜態(tài)(參考上一步的配置)才能正常安裝使用(第一次訪(fǎng)問(wèn)首頁(yè)會(huì )自動(dòng)進(jìn)入安裝頁(yè)面,或手動(dòng)輸入域名.com/install)
3.同意使用協(xié)議進(jìn)入下一步檢查目錄權限
4. 測試通過(guò)后,填寫(xiě)通用數據庫配置項,填寫(xiě)正確即可完成安裝。安裝成功后會(huì )自動(dòng)進(jìn)入后臺頁(yè)面域名.com/admin,填寫(xiě)安裝時(shí)輸入的后臺管理員和密碼進(jìn)行登錄
5.在后臺文章列表頁(yè)面,可以手動(dòng)采集文章,批量處理采集文章數據。初次安裝后,建議采集在網(wǎng)站的內容中填寫(xiě)一些數據。網(wǎng)站 運行過(guò)程中會(huì )自動(dòng)執行采集操作(前臺訪(fǎng)問(wèn)觸發(fā),蜘蛛也可以觸發(fā)采集),無(wú)需人工干預。
YGBOOK小說(shuō)采集系統更新日志:
v1.4
增加百度站點(diǎn)地圖功能
安裝1.4版本后,您的站點(diǎn)地圖地址為“您的域名/home/sitemap/baidu.xml”
將域名替換為自己的域名后,提交至百度站長(cháng)平臺即可
方便百度蜘蛛的抓取
v1.3
添加對 php7 的支持
采集文章系統(采集系統操作說(shuō)明(傻瓜版)插件圖(1))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2021-12-24 05:10
采集系統操作說(shuō)明(傻瓜版)
1.準備工作
1.1 安裝 FireBug 瀏覽器插件
圖片(1):FireBug插件安裝
1.2 找到需要采集網(wǎng)站
的目標
<p>使用以下教程示例:/main/zxnews.shtml 用于演示1.3 登錄cms,進(jìn)入需要的頻道,進(jìn)入采集系統。 查看全部
采集文章系統(采集系統操作說(shuō)明(傻瓜版)插件圖(1))
采集系統操作說(shuō)明(傻瓜版)
1.準備工作
1.1 安裝 FireBug 瀏覽器插件
圖片(1):FireBug插件安裝
1.2 找到需要采集網(wǎng)站
的目標
<p>使用以下教程示例:/main/zxnews.shtml 用于演示1.3 登錄cms,進(jìn)入需要的頻道,進(jìn)入采集系統。
采集文章系統( 持續更新,微信公眾號文章批量采集系統的構建(圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2021-12-23 13:26
持續更新,微信公眾號文章批量采集系統的構建(圖))
持續更新,微信公眾號文章批量采集系統建設
持續更新,微信公眾號文章批量采集系統建設
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)入口現在還是一樣,只是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)到了2015年,html5垃圾站就不做了。取而代之的是,采集的目標是針對本地新聞資訊公眾號,將前端展示做成一個(gè)app。所以一個(gè)可以自動(dòng)< @采集 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信技術(shù)的不斷升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。首先,讓'
czNjY2NA==#wechat_webview_type=1&wechat_redirect
========2017 年 1 月 11 日更新 ========== 查看全部
采集文章系統(
持續更新,微信公眾號文章批量采集系統的構建(圖))
持續更新,微信公眾號文章批量采集系統建設
持續更新,微信公眾號文章批量采集系統建設
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)入口現在還是一樣,只是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)到了2015年,html5垃圾站就不做了。取而代之的是,采集的目標是針對本地新聞資訊公眾號,將前端展示做成一個(gè)app。所以一個(gè)可以自動(dòng)< @采集 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信技術(shù)的不斷升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。首先,讓'
czNjY2NA==#wechat_webview_type=1&wechat_redirect
========2017 年 1 月 11 日更新 ==========
采集文章系統(優(yōu)采云采集器IP:預估日均-預估:備案信息)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2021-12-22 14:08
網(wǎng)站說(shuō)明:[優(yōu)采云采集器]是一個(gè)完全在線(xiàn)的配置和云采集網(wǎng)站文章采集工具。功能強大,操作非常簡(jiǎn)單,無(wú)需安裝任何客戶(hù)端或插件;支持在線(xiàn)視覺(jué)點(diǎn)擊;集成智能抽取引擎,自動(dòng)識別數據和規則;獨家第一書(shū)簽一鍵采集;與各種cms網(wǎng)站、Http接口等無(wú)縫對接,是一款免費的在線(xiàn)網(wǎng)頁(yè)文章采集軟件。.
去網(wǎng)站
體重信息
搜索引擎優(yōu)化信息
百度來(lái)源:51~70 IP 移動(dòng)來(lái)源:30~40 IP 出站鏈接:8 主頁(yè)內部鏈接:46
收錄信息
百度收錄:21,500360收錄:-神馬收錄:-搜狗收錄:152Google收錄:-
反鏈接信息
百度反鏈:83,100,000 360 反鏈:-神馬反鏈:-搜狗反鏈:201 谷歌反鏈:-
排名信息
世界排名:-國內排名:-預估日均IP:-預估日均PV:-
記錄信息
備案號:粵ICP備17116157-1號性質(zhì):公司名稱(chēng):審核時(shí)間:2017-09-13
域名信息
年齡:4月29日時(shí)間:2017年8月24日
服務(wù)器信息
協(xié)議類(lèi)型:-頁(yè)面類(lèi)型:-服務(wù)器類(lèi)型:-程序支持:-連接識別:-消息發(fā)送:未知GZIP檢測:未啟用GZIP壓縮源文件大?。?壓縮大?。?jiǎn)⒂肎ZIP估計達到0.@ > 01KB 壓縮率:估計0.@>00% 最后修改時(shí)間:未知
評價(jià)網(wǎng)站
[優(yōu)采云采集器] 網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站文章采集本軟件被網(wǎng)友主動(dòng)提交給修永證券收錄@ >整理收錄,收錄的時(shí)間是2021-12-22 10:47:09,目前已經(jīng)有點(diǎn)擊?!緝?yōu)采云采集器】網(wǎng)頁(yè)資料采集器-免費在線(xiàn)網(wǎng)站文章采集 軟件世界排名第一,國內排名第一No.-第一,日均IP約-,百度權重為0,百度收錄有21500,百度之道約51~70個(gè)IP,備案號粵ICP備17116157-1號,域名name注冊于2010年8月24日,至今已經(jīng)4年3月29日,本次測評結果僅供參考,[優(yōu)采云采集器]網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站<
-結尾- 查看全部
采集文章系統(優(yōu)采云采集器IP:預估日均-預估:備案信息)
網(wǎng)站說(shuō)明:[優(yōu)采云采集器]是一個(gè)完全在線(xiàn)的配置和云采集網(wǎng)站文章采集工具。功能強大,操作非常簡(jiǎn)單,無(wú)需安裝任何客戶(hù)端或插件;支持在線(xiàn)視覺(jué)點(diǎn)擊;集成智能抽取引擎,自動(dòng)識別數據和規則;獨家第一書(shū)簽一鍵采集;與各種cms網(wǎng)站、Http接口等無(wú)縫對接,是一款免費的在線(xiàn)網(wǎng)頁(yè)文章采集軟件。.
去網(wǎng)站
體重信息






搜索引擎優(yōu)化信息
百度來(lái)源:51~70 IP 移動(dòng)來(lái)源:30~40 IP 出站鏈接:8 主頁(yè)內部鏈接:46
收錄信息
百度收錄:21,500360收錄:-神馬收錄:-搜狗收錄:152Google收錄:-
反鏈接信息
百度反鏈:83,100,000 360 反鏈:-神馬反鏈:-搜狗反鏈:201 谷歌反鏈:-
排名信息
世界排名:-國內排名:-預估日均IP:-預估日均PV:-
記錄信息
備案號:粵ICP備17116157-1號性質(zhì):公司名稱(chēng):審核時(shí)間:2017-09-13
域名信息
年齡:4月29日時(shí)間:2017年8月24日
服務(wù)器信息
協(xié)議類(lèi)型:-頁(yè)面類(lèi)型:-服務(wù)器類(lèi)型:-程序支持:-連接識別:-消息發(fā)送:未知GZIP檢測:未啟用GZIP壓縮源文件大?。?壓縮大?。?jiǎn)⒂肎ZIP估計達到0.@ > 01KB 壓縮率:估計0.@>00% 最后修改時(shí)間:未知
評價(jià)網(wǎng)站
[優(yōu)采云采集器] 網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站文章采集本軟件被網(wǎng)友主動(dòng)提交給修永證券收錄@ >整理收錄,收錄的時(shí)間是2021-12-22 10:47:09,目前已經(jīng)有點(diǎn)擊?!緝?yōu)采云采集器】網(wǎng)頁(yè)資料采集器-免費在線(xiàn)網(wǎng)站文章采集 軟件世界排名第一,國內排名第一No.-第一,日均IP約-,百度權重為0,百度收錄有21500,百度之道約51~70個(gè)IP,備案號粵ICP備17116157-1號,域名name注冊于2010年8月24日,至今已經(jīng)4年3月29日,本次測評結果僅供參考,[優(yōu)采云采集器]網(wǎng)絡(luò )資料采集器-免費在線(xiàn)網(wǎng)站<
-結尾-
采集文章系統(簡(jiǎn)潔易用、永久免費的PHP文章管理系統和Access可供選擇)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-12-18 07:17
Rookie 文章 管理系統是一個(gè)簡(jiǎn)單易用、永遠免費的 PHP文章 管理系統;內置采集功能,Rookie官方采集每天海量數據供用戶(hù)選擇。系統安裝時(shí)有Mysql和Access兩個(gè)數據庫可供選擇。
后臺功能介紹:
1、基本設置:基本信息、網(wǎng)站設置、導航管理、模塊開(kāi)啟關(guān)閉、安全設置、管理員賬號、其他設置;
2、文章管理:文章列表,發(fā)布文章,文章分類(lèi);
3、用戶(hù)交互:消息管理、評論管理、友情鏈接;
4、文件管理:模板選擇、圖片管理、資源管理;
5、Data采集:采集設置、公共數據、高級數據;
6、高級應用:新頻道、頻道標題、后臺導航管理。
安裝注意事項:
1、 我們推薦的PHP版本為PHP 5.3,推薦的本地測試環(huán)境為upupw;
2、 全新安裝需要將upload文件夾中的所有子目錄和文件(注意在里面)上傳到網(wǎng)站的根目錄下,然后打開(kāi)網(wǎng)站瀏覽器,按提示選擇數據庫,填寫(xiě)數據庫信息,最后點(diǎn)擊安裝按鈕完成安裝;
3、 本系統默認設置為1小時(shí)內只能登錄后臺10次??梢栽凇昂笈_-基本設置-安全設置”中修改時(shí)長(cháng)和登錄次數,避免調試時(shí)無(wú)法登錄后臺。
升級說(shuō)明:
由于本版本較上一版本有較大提升,為避免升級過(guò)程中對舊版網(wǎng)站造成災難性影響,本版本不提供升級程序。
預防措施:
1、本系統的Access數據庫僅在部分Windows服務(wù)器上有效。建議想使用Access數據庫的用戶(hù)在購買(mǎi)主機時(shí)選擇Windows主機,可能需要修改服務(wù)器配置;
2、因為本系統使用的是UTF-8編碼,所以在Windows下不能使用記事本進(jìn)行編輯,因為記事本會(huì )自動(dòng)添加BOM頭導致程序異常。建議使用專(zhuān)業(yè)的Dreamweaver或Notepad++的小型編輯器;
3、網(wǎng)站移動(dòng)前請清除后臺Smarty緩存,或者移動(dòng)后手動(dòng)刪除index/compile和admin/compile目錄下的所有文件,否則網(wǎng)站移動(dòng)后可能會(huì )出錯.
4、這個(gè)系統在發(fā)布前經(jīng)過(guò)多次測試,一般核心功能不會(huì )出錯。如果您在使用過(guò)程中遇到程序錯誤,請從您自己的運行環(huán)境中查找原因。請不要一遇到問(wèn)題就將責任推到我們身上,甚至懷疑我們故意留下缺陷來(lái)收費。有助于解決問(wèn)題和個(gè)人進(jìn)步。如果您確定錯誤是由我們的程序引起的,您可以將問(wèn)題發(fā)送到我們的郵箱,我們將在確認后免費為您提供解決方案。同時(shí),我們非常感謝您的反饋!
后臺路徑:網(wǎng)站path/admin
菜鳥(niǎo)文章管理系統更新日志:
更新?tīng)顟B(tài):
1、改變前端界面風(fēng)格;
2、去除后臺一些不實(shí)用的功能;
3、 修改網(wǎng)址樣式;
4、簡(jiǎn)化代碼。 查看全部
采集文章系統(簡(jiǎn)潔易用、永久免費的PHP文章管理系統和Access可供選擇)
Rookie 文章 管理系統是一個(gè)簡(jiǎn)單易用、永遠免費的 PHP文章 管理系統;內置采集功能,Rookie官方采集每天海量數據供用戶(hù)選擇。系統安裝時(shí)有Mysql和Access兩個(gè)數據庫可供選擇。
后臺功能介紹:
1、基本設置:基本信息、網(wǎng)站設置、導航管理、模塊開(kāi)啟關(guān)閉、安全設置、管理員賬號、其他設置;
2、文章管理:文章列表,發(fā)布文章,文章分類(lèi);
3、用戶(hù)交互:消息管理、評論管理、友情鏈接;
4、文件管理:模板選擇、圖片管理、資源管理;
5、Data采集:采集設置、公共數據、高級數據;
6、高級應用:新頻道、頻道標題、后臺導航管理。
安裝注意事項:
1、 我們推薦的PHP版本為PHP 5.3,推薦的本地測試環(huán)境為upupw;
2、 全新安裝需要將upload文件夾中的所有子目錄和文件(注意在里面)上傳到網(wǎng)站的根目錄下,然后打開(kāi)網(wǎng)站瀏覽器,按提示選擇數據庫,填寫(xiě)數據庫信息,最后點(diǎn)擊安裝按鈕完成安裝;
3、 本系統默認設置為1小時(shí)內只能登錄后臺10次??梢栽凇昂笈_-基本設置-安全設置”中修改時(shí)長(cháng)和登錄次數,避免調試時(shí)無(wú)法登錄后臺。
升級說(shuō)明:
由于本版本較上一版本有較大提升,為避免升級過(guò)程中對舊版網(wǎng)站造成災難性影響,本版本不提供升級程序。
預防措施:
1、本系統的Access數據庫僅在部分Windows服務(wù)器上有效。建議想使用Access數據庫的用戶(hù)在購買(mǎi)主機時(shí)選擇Windows主機,可能需要修改服務(wù)器配置;
2、因為本系統使用的是UTF-8編碼,所以在Windows下不能使用記事本進(jìn)行編輯,因為記事本會(huì )自動(dòng)添加BOM頭導致程序異常。建議使用專(zhuān)業(yè)的Dreamweaver或Notepad++的小型編輯器;
3、網(wǎng)站移動(dòng)前請清除后臺Smarty緩存,或者移動(dòng)后手動(dòng)刪除index/compile和admin/compile目錄下的所有文件,否則網(wǎng)站移動(dòng)后可能會(huì )出錯.
4、這個(gè)系統在發(fā)布前經(jīng)過(guò)多次測試,一般核心功能不會(huì )出錯。如果您在使用過(guò)程中遇到程序錯誤,請從您自己的運行環(huán)境中查找原因。請不要一遇到問(wèn)題就將責任推到我們身上,甚至懷疑我們故意留下缺陷來(lái)收費。有助于解決問(wèn)題和個(gè)人進(jìn)步。如果您確定錯誤是由我們的程序引起的,您可以將問(wèn)題發(fā)送到我們的郵箱,我們將在確認后免費為您提供解決方案。同時(shí),我們非常感謝您的反饋!
后臺路徑:網(wǎng)站path/admin
菜鳥(niǎo)文章管理系統更新日志:
更新?tīng)顟B(tài):
1、改變前端界面風(fēng)格;
2、去除后臺一些不實(shí)用的功能;
3、 修改網(wǎng)址樣式;
4、簡(jiǎn)化代碼。
采集文章系統(《Web》主題Web信息采集的基本問(wèn)題及難點(diǎn)解析)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2021-12-15 21:14
《基于主題的Web信息采集系統設計與實(shí)現.pdf》由會(huì )員共享,可在線(xiàn)閱讀。更多相關(guān)《基于主題的Web信息采集系統設計與實(shí)現.pdf(3頁(yè)典藏版)》請在威川搜索。
1、Volume 29, Issue 17 12917 Computer Engineering 2003 年 10 月 2003 年 10 月 軟件技術(shù)與數據庫 文章 編號:l00o-3428(2003)l70l0203 文檔識別碼:A 中文圈分類(lèi)號:TP391基于學(xué)科的Web信息采集系統設計與實(shí)現李勝濤,趙章杰,于志華(中國科學(xué)院計算技術(shù)研究所軟件研究室,北京100080) 摘要:基于學(xué)科的Web信息采集是信息檢索領(lǐng)域一個(gè)新興的實(shí)用方向,也是信息處理技術(shù)的研究熱點(diǎn)。文章分析主題Web信息采集的基本問(wèn)題, 提出難點(diǎn)及相關(guān)解決方案,并在此基礎上,“天大”主題網(wǎng)站信息采集系統的設計與實(shí)現
2、。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題 采集 Desin and Realization 0f Focused Web Crawler。李勝濤, 趙占西, 于志華 (中國科學(xué)院計算技術(shù)研究所軟件部, 北京 l00080) l 摘要 l 聚焦網(wǎng)絡(luò )爬蟲(chóng)是信息檢索領(lǐng)域的一個(gè)新的實(shí)用方向
3、ieva1本文論述了聚焦網(wǎng)絡(luò )爬蟲(chóng)的原理、難點(diǎn)和措施,然后分析了SkyReach聚焦網(wǎng)絡(luò )爬蟲(chóng)的設計。信息檢索;信息處理;聚焦爬蟲(chóng)l樂(lè )_樂(lè ) 基于Web信息采集,發(fā)布及相關(guān)信息處理日益成為關(guān)注的焦點(diǎn)。傳統we詞采集的目標是盡可能地采集
4、信息頁(yè),和采集頁(yè)的準確性關(guān)注較少,它有很多缺陷。隨著(zhù)www的爆發(fā)式增長(cháng),信息速度采集越來(lái)越不能滿(mǎn)足實(shí)際需求。最近的實(shí)驗表明,即使是大規模的信息采集系統也只有 30-40 個(gè)網(wǎng)絡(luò )覆蓋。主題采集可以將整個(gè)Web按主題采集劃分成塊,并整合不同的塊,提高整個(gè)Web采集的覆蓋率。對于傳統信息采集,需要幾周到一個(gè)月的時(shí)間才能再次刷新?!?I,使得頁(yè)面失敗率非常大。一個(gè)好的緩解方法是使用采集主題,通過(guò)減少采集的頁(yè)面數量來(lái)減少刷新時(shí)間,從而降低采集的失敗率 頁(yè)。傳統信息采集消耗大量的系統和網(wǎng)絡(luò )資源,而且大部分利用率很低,基于主題的采集有效提高了采集對頁(yè)面的使用率。
5、2 Theme-based web information采集System Model 21 System Model Topic Web Information采集,也稱(chēng)為T(mén)opicSpecific Crawling,主要是指選擇性搜索那些和預定義的主題集相關(guān)頁(yè)面執行采集的行為。我們設計了“天大”主題采集系統,其系統模型如圖1所示。為了實(shí)現自動(dòng)信息采集,整個(gè)過(guò)程分為6大模塊:主題選擇、初始URL選擇、Spider采集、頁(yè)面分析、URL與主題關(guān)聯(lián)判斷、頁(yè)面與主題關(guān)聯(lián)判斷。22.主題的選擇。起點(diǎn)的選擇與我采集 為了有效地開(kāi)展采集主題,需要考慮的一個(gè)重要問(wèn)題是主題選擇。由于隨機的學(xué)科術(shù)語(yǔ)可能會(huì )極大地影響采集的效果,系統一般會(huì )為用戶(hù)提供一個(gè)學(xué)科類(lèi)別目錄供用戶(hù)選擇。為了有效地
6、為了確定用戶(hù)選擇的主題的含義,用戶(hù)應該提供對該主題的進(jìn)一步描述,例如提供幾個(gè)表達該主題含義的文本。我們的系統按照中國圖書(shū)館分類(lèi)法的一級目錄和二級目錄對主題進(jìn)行分類(lèi),并在每個(gè)主題下配備了一些主題文本供用戶(hù)選擇。采集器 從一組種子 URL 開(kāi)始,通過(guò) Web 協(xié)議擴展到需要的頁(yè)面。根據 LinkageSibling Locality 特性,系統需要選擇高質(zhì)量的主題 URL 作為初始種子 URL 集。23 Spider采集 1O2 One Circle I 信息自動(dòng)采集的6大塊。這部分在系統的最底層,也叫“網(wǎng)絡(luò )蜘蛛”,專(zhuān)門(mén)處理Web,
7、各種文件如聲音)。目前系統主要針對HTTP協(xié)議,其主要任務(wù)是為每個(gè)Spider分配URL以獲取實(shí)際數據采集,并根據需要動(dòng)態(tài)分配Spider的數量,如圖2。 基金項目:中科院計算所前沿青年基金項目(200162808) 作者:李勝濤(1976一),男,碩士研究生,主要研究方向:智能代理、信息采集) , 信息檢索, 文本分類(lèi); 趙章杰, 于志華, Ph.D. 博士生錄取日期破: 2002073I | 回歸天破: 2002-1028 維普資訊http://圖2 蜘蛛合集: 合集采集頁(yè)面的24頁(yè)分析之后,您需要提取鏈接、元數據、文本、標題和摘要以進(jìn)行后續過(guò)濾和其他處理。這里主要介紹鏈接和標簽。
8、 問(wèn)題提取。鏈接的提取如下: 首先,識別頁(yè)面類(lèi)型。顯然,只有“xffhtml”類(lèi)型的頁(yè)面需要分析鏈接。頁(yè)面的類(lèi)型可以從響應頭的分析中得到。部分www站點(diǎn)返回的響應信息格式不完整。這時(shí)候就需要分析頁(yè)面URL中的文件擴展名來(lái)確定頁(yè)面類(lèi)型。當遇到諸如等帶有鏈接的標簽時(shí),從標簽結構的屬性中找到目標URL,從標簽對中提取文本作為鏈接的描述性文本(擴展元數據)。這兩個(gè)數據代表鏈接。頁(yè)面中標題的提取分為3個(gè)步驟:(一)確定正文開(kāi)頭的位置,從文章的開(kāi)頭開(kāi)始,逐段掃描,直到某段長(cháng)度不小于設置的正文最小長(cháng)度,假設該段為正文中的A段。(2) 從文本位置向前搜索可能是標題的一段,根據字體
9、大小、居中、變色等特性找到最合適的一段文字作為標題。(3)通過(guò)給定參數調整標題段,使標題提取更準確。對標題段前后段stTitlePara進(jìn)行句法、語(yǔ)義、統計分析,準確判斷標題段真實(shí)位置. 25 URL和主核的相關(guān)性確定有效提高主題Web信息采集的可靠性(召回率和準確率的結合)和效率,系統需要在采集的過(guò)程中加入過(guò)濾機制@> 并采用綜合擴展的 I Pagerank 方法進(jìn)行元數據和鏈接分析。25I 擴展元數據的含義 雖然目前的元數據計算(HTML 中添加的一種標記,寫(xiě)成)并不理想,但人們已經(jīng)發(fā)現使用其他 HTML 標簽如錨點(diǎn)等信息可以有效引導搜索和基于主題信息采集。為了
1 根據0、的區別,這些標記信息統稱(chēng)為HTML擴展元數據。252 擴展元數據方法的ReIevance Weighting或RW算法如下: f 0 (ur): (0(,), M(ur1) 如max(O(t). l 0 規范其中, M(ur1)指的是與這個(gè)URL相關(guān)的所有擴展元數據的集合,O(t)指的是擴展元數據中某個(gè)詞與主題的相關(guān)性。c是用戶(hù)設置的相關(guān)性閾值. RW 方法是通過(guò)查看擴展元數據中單詞和主題詞的相似度來(lái)計算的,同義詞之間的相似度為100,同義詞之間的相似度為50-100,遠距離詞之間的相似度為0 50。這樣就大大降低了相關(guān)頁(yè)面誤判的可能性,
11、頁(yè)面被判斷為相關(guān)頁(yè)面的可能性)。25 3 鏈接分析方法 PageRank 是谷歌的一個(gè)重要搜索算法,它有效地幫助搜索引擎識別那些重要的頁(yè)面,并將它們排在搜索結果的前列。該方法定義為:給定一個(gè)網(wǎng)頁(yè)A,假設指向它的網(wǎng)頁(yè)有T.,,T.設c(A)為A到其他網(wǎng)頁(yè)的鏈接數,PR(A)為A的PageRank, d為衰減因子(一般設置為085),然后有一個(gè)跳躍,c+254的IPageRank算法通過(guò)觀(guān)察:PageRank方法雖然有很強的尋找重要頁(yè)面的能力,但是它找到的重要頁(yè)面是為了一個(gè)廣泛的話(huà)題,而不是基于特定的話(huà)題。因此,一個(gè)頁(yè)面被大量不相關(guān)的話(huà)題指向PageRan
1 2、k的值高于與mang問(wèn)題相關(guān)的少數頁(yè)面組所指向的頁(yè)面的PageRank值,這是不合理的。如果大量主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值高于少數主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值,則必須使用它。為此,我們對PageRank方法進(jìn)行了改進(jìn),根據鏈接關(guān)系加入一定的語(yǔ)義信息權重,使生成的重要頁(yè)面針對某個(gè)主題,形成1PageRank算法。IPageRank算法不僅利用PageRank的優(yōu)勢尋找重要頁(yè)面,還利用RW算法提高鏈接的相關(guān)性。改進(jìn)后的公式如下 (3) PR(I): (卜(,)+dl IPR(T) 芝.(ur) (<
13、) Lan Yiyi PR(T) 0 (Ill 1) 0 (IllI) 其中A為給定的網(wǎng)頁(yè),假設指向它的網(wǎng)頁(yè)有T.,, Tn.u, ur u rII 為網(wǎng)頁(yè)T、T、指向A的鏈接,kI、k2、kn分別為網(wǎng)頁(yè)TT中收錄的鏈接數,IPR(A)為A的IPageRank值,d為衰減因子(也設置為085)。IPageRank的實(shí)際含義可以用話(huà)題瀏覽者來(lái)解釋。假設Web上有一個(gè)話(huà)題瀏覽者,IPPageRank(函數IPR(A)是它訪(fǎng)問(wèn)頁(yè)面A的概率)。它從初始頁(yè)面集開(kāi)始,跟隨頁(yè)面鏈接,從不進(jìn)行“返回”操作,在每個(gè)頁(yè)面上,瀏覽者對該頁(yè)面中的每個(gè)鏈接感興趣的概率與鏈接和主題相關(guān)。
14、關(guān)星成正比。瀏覽者也可能對這個(gè)頁(yè)面上的鏈接不再感興趣,從而隨機選擇一個(gè)新頁(yè)面開(kāi)始新的瀏覽,離開(kāi)的概率設置為d。從直觀(guān)上看,如果有很多頁(yè)面指向一個(gè)頁(yè)面,那么這個(gè)頁(yè)面的PageRank會(huì )比較高,但IPPageRank值不一定高,除非大部分都和主題相關(guān);如果有高IPPageRank的頁(yè)面指向它,這個(gè)頁(yè)面的IPageRank也會(huì )很高。26 頁(yè)面與主題相關(guān)性判斷 為了進(jìn)一步提高采集頁(yè)面的準確率,需要對已經(jīng)被采集的頁(yè)面進(jìn)行主題相關(guān)性評估,即頁(yè)面過(guò)濾。提高所有采集的準確率 主題頁(yè)面通過(guò)排除低評估結果(小于設置閾值)的頁(yè)面。我們采用的方法是基于關(guān)鍵詞的向量空間模型算法。3個(gè)系統
1 5、的實(shí)現 我們對“天大”主題Web信息采集系統的預測算法和系統的基本性能進(jìn)行了測試,得到了滿(mǎn)意的結果。(1)測試集的選擇選擇旅游信息作為測試主題。采集了20個(gè)旅游主題網(wǎng)站,加入了60個(gè)無(wú)關(guān)的網(wǎng)站組成測試集,其中收錄一個(gè)以上l03.維普信息頁(yè)。(2)算法測試和性能測試使用相同的初始URL集,使用廣度優(yōu)先算法、PageRank算法和IPageRank算法對采集進(jìn)行采集數據。為了得到每種方法的結果準確的結果,實(shí)驗中暫停了頁(yè)面和主題相關(guān)性確定模塊。在實(shí)驗過(guò)程中,記錄采集頁(yè)碼為500、1000、l 500一、4000H采集狀態(tài),計算采集狀態(tài)。@采集準確性和資源
16、源發(fā)現率,如表1所示。表一采集準確率與資源發(fā)現率采集準確率資源發(fā)現率寬度優(yōu)先級35 lOO PageRank 29 3O IPageRank 68 86 表2 測試結果,性能測試結果評價(jià)采集的最終準確率76較高(優(yōu)點(diǎn))最終資源發(fā)現率高8O(優(yōu)點(diǎn))30MB內存(估計)較大(缺點(diǎn))測試平臺為CPU Intel Pill 800、內存為128MB,操作系統為Window 2000 Professional電腦。采集時(shí),系統設置10個(gè)線(xiàn)程,采用的URL預測算法為IPageRank。測試的性能指標包括最終采集頁(yè)面的準確率,采集頁(yè)面的資源釋放
17、 當前速率、內存使用情況、測試結果如表2所示。 4 結束語(yǔ) 我基于主題研究了webf語(yǔ)言和信息技術(shù),并設計了一個(gè)實(shí)用的系統。在原有技術(shù)的基礎上,設計了許多獨特的新算法,如Spider采集、標題提取、URL主題預測、頁(yè)面主題相關(guān)性判斷等。特別是對著(zhù)名的谷歌算法進(jìn)行了改進(jìn),使其適用于基于主題的采集,同時(shí)保持原有的優(yōu)勢。實(shí)驗表明,基于主題的采集優(yōu)勢明顯。隨著(zhù)Web服務(wù)向個(gè)性化方向的推進(jìn),Agent技術(shù)的發(fā)展,以及遷移思想的出現,用于檢索的Web信息采集 科技必將走向主題化、個(gè)性化的主動(dòng)信息采集服務(wù)方向全方位拓展。參考文獻 I Aggarwal C, AIGar
18、awi F、Yu PIntelligent Crawling on the World Wide Web with Arbitrary PredicatesIn Proceedings of the 1 0th IntematiouaI WWW Conference200 l 2 Brin S, Page L,大型超文本網(wǎng)絡(luò )搜索引擎的切片剖析第七屆國際萬(wàn)維網(wǎng)會(huì )議,I 998 3 Diligen
19、ti M, Coetzee FM, Lawrence S, et a1Gori Focused Crawling Using Context GraphsVLDB Conference, 2000 4 Menczer F, Srinivasan GPP, Ruiz MEvaluating Topic-driven Web CrawlersIn Proceedings of the 24th Annual International Acms@ >IGIR 會(huì )議,200 l(接第 8I 頁(yè)) 3 Clark CM,Rock SRandomized Motion Planning for G
20、N011一完整機器人組在:加拿大第六屆空間人工智能、機器人和自動(dòng)化國際研討會(huì )論文集& 200106 4 Fraichard TDemazeau YMotion Planning in a Multiagent World In: Demazeau YMuller J PDecentralized AI: Proceedings第 22 屆歐洲工作室
21、p on Modeling Autonomous Agents in a Multiagent World 荷蘭阿姆斯特丹:Elsevier Science,I990:l37-l53(接第 l0l 頁(yè))輸出“:”?!氨硎绢?lèi)型”列輸出源文件中函數所描述的類(lèi)型,“基本類(lèi)型”列輸出表示不帶typedef的表示類(lèi)型的類(lèi)型。在這個(gè)例子中,funcl和main函數沒(méi)有使用typedef,所以這兩個(gè)函數的表示類(lèi)型和基本類(lèi)型是一樣的?!拔恢谩绷休敵龊瘮刀x或聲明的文檔名稱(chēng)和行號?!皩傩浴绷酗@示函數的屬性。例如,當函數未定義時(shí),顯示“no define”;如果
22、 不使用該功能時(shí),會(huì )顯示“未使用”等。上面的表1只是函數列表,變量列表、類(lèi)型列表、枚舉常量列表大體與此一致。對于列表中出現的每個(gè)元素,還有一個(gè)詳細的表格,按名稱(chēng)鏈接。例如,有一個(gè)函數的調用條件列表和一個(gè)函數返回值列表;對于變量,有一個(gè)值設置和引用列表。列表。限于篇幅,這里就不一一詳述_r了。4 結束語(yǔ) EPOM 是一種可以全面、詳細地展示程序的中間表示,它提供了一個(gè)標準的訪(fǎng)問(wèn)接口。所以,任何其他符合該接口的模塊都可以從中獲取有關(guān)源程序的所需信息。OSTPM 是一種基于域的程序信息分層遞歸表示模型。將程序中所有對象的范圍和類(lèi)型緊密聯(lián)系起來(lái)
23、?;诓樵?xún)-應答模型的Visitor方法將對象與作用于對象1O4的控制分離,減輕了控制系統的負擔,大大提高了系統的靈活性、安全性和可擴展性,使系統結構非常清晰. 同時(shí)減輕設計管理系統的負擔。擴展的節目參考模型EPRM是一種很好的節目統計信息形式。它采用面向對象的方法將復雜的程序信息組織成層次化的對象結構,并提供了一個(gè)接口,通過(guò)Visitor方法訪(fǎng)問(wèn)其對象。該模型克服了普通模型的缺點(diǎn),具有結構簡(jiǎn)單、對象自主性強、系統靈活性高、輸出界面友好、擴展性好等特點(diǎn)。
24、ts of Reusable Objectoriented SoftwareAddison Wesley Longman, Inc, l995 2 Prdn T WProgramming Languages: Design and Implementation PrenticeHall International, Inc, I 996 3 Pressman RS 軟件工程從業(yè)者的研究方法(第四版)北京:機械工業(yè)出版社,1999 4 Eckel Bc+ 編程思想北京:機械工業(yè)出版社,2000 5 張杏兒計算機編譯原理北京:科學(xué)出版社,I 999 6 趙陽(yáng),蔡志宇,潘金貴基于EPOM的程序可視化系統的設計與實(shí)現計算機的實(shí)現工程, 2002, 28 (cms2@>:l08Il0 7 蔡志宇, 趙陽(yáng), 潘杰, 等. 基于查詢(xún)-回答模型的對象控制模型的實(shí)現. 計算機工程(已錄) 維普資料 http:// 查看全部
采集文章系統(《Web》主題Web信息采集的基本問(wèn)題及難點(diǎn)解析)
《基于主題的Web信息采集系統設計與實(shí)現.pdf》由會(huì )員共享,可在線(xiàn)閱讀。更多相關(guān)《基于主題的Web信息采集系統設計與實(shí)現.pdf(3頁(yè)典藏版)》請在威川搜索。
1、Volume 29, Issue 17 12917 Computer Engineering 2003 年 10 月 2003 年 10 月 軟件技術(shù)與數據庫 文章 編號:l00o-3428(2003)l70l0203 文檔識別碼:A 中文圈分類(lèi)號:TP391基于學(xué)科的Web信息采集系統設計與實(shí)現李勝濤,趙章杰,于志華(中國科學(xué)院計算技術(shù)研究所軟件研究室,北京100080) 摘要:基于學(xué)科的Web信息采集是信息檢索領(lǐng)域一個(gè)新興的實(shí)用方向,也是信息處理技術(shù)的研究熱點(diǎn)。文章分析主題Web信息采集的基本問(wèn)題, 提出難點(diǎn)及相關(guān)解決方案,并在此基礎上,“天大”主題網(wǎng)站信息采集系統的設計與實(shí)現
2、。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題 采集 Desin and Realization 0f Focused Web Crawler。李勝濤, 趙占西, 于志華 (中國科學(xué)院計算技術(shù)研究所軟件部, 北京 l00080) l 摘要 l 聚焦網(wǎng)絡(luò )爬蟲(chóng)是信息檢索領(lǐng)域的一個(gè)新的實(shí)用方向
3、ieva1本文論述了聚焦網(wǎng)絡(luò )爬蟲(chóng)的原理、難點(diǎn)和措施,然后分析了SkyReach聚焦網(wǎng)絡(luò )爬蟲(chóng)的設計。信息檢索;信息處理;聚焦爬蟲(chóng)l樂(lè )_樂(lè ) 基于Web信息采集,發(fā)布及相關(guān)信息處理日益成為關(guān)注的焦點(diǎn)。傳統we詞采集的目標是盡可能地采集
4、信息頁(yè),和采集頁(yè)的準確性關(guān)注較少,它有很多缺陷。隨著(zhù)www的爆發(fā)式增長(cháng),信息速度采集越來(lái)越不能滿(mǎn)足實(shí)際需求。最近的實(shí)驗表明,即使是大規模的信息采集系統也只有 30-40 個(gè)網(wǎng)絡(luò )覆蓋。主題采集可以將整個(gè)Web按主題采集劃分成塊,并整合不同的塊,提高整個(gè)Web采集的覆蓋率。對于傳統信息采集,需要幾周到一個(gè)月的時(shí)間才能再次刷新?!?I,使得頁(yè)面失敗率非常大。一個(gè)好的緩解方法是使用采集主題,通過(guò)減少采集的頁(yè)面數量來(lái)減少刷新時(shí)間,從而降低采集的失敗率 頁(yè)。傳統信息采集消耗大量的系統和網(wǎng)絡(luò )資源,而且大部分利用率很低,基于主題的采集有效提高了采集對頁(yè)面的使用率。
5、2 Theme-based web information采集System Model 21 System Model Topic Web Information采集,也稱(chēng)為T(mén)opicSpecific Crawling,主要是指選擇性搜索那些和預定義的主題集相關(guān)頁(yè)面執行采集的行為。我們設計了“天大”主題采集系統,其系統模型如圖1所示。為了實(shí)現自動(dòng)信息采集,整個(gè)過(guò)程分為6大模塊:主題選擇、初始URL選擇、Spider采集、頁(yè)面分析、URL與主題關(guān)聯(lián)判斷、頁(yè)面與主題關(guān)聯(lián)判斷。22.主題的選擇。起點(diǎn)的選擇與我采集 為了有效地開(kāi)展采集主題,需要考慮的一個(gè)重要問(wèn)題是主題選擇。由于隨機的學(xué)科術(shù)語(yǔ)可能會(huì )極大地影響采集的效果,系統一般會(huì )為用戶(hù)提供一個(gè)學(xué)科類(lèi)別目錄供用戶(hù)選擇。為了有效地
6、為了確定用戶(hù)選擇的主題的含義,用戶(hù)應該提供對該主題的進(jìn)一步描述,例如提供幾個(gè)表達該主題含義的文本。我們的系統按照中國圖書(shū)館分類(lèi)法的一級目錄和二級目錄對主題進(jìn)行分類(lèi),并在每個(gè)主題下配備了一些主題文本供用戶(hù)選擇。采集器 從一組種子 URL 開(kāi)始,通過(guò) Web 協(xié)議擴展到需要的頁(yè)面。根據 LinkageSibling Locality 特性,系統需要選擇高質(zhì)量的主題 URL 作為初始種子 URL 集。23 Spider采集 1O2 One Circle I 信息自動(dòng)采集的6大塊。這部分在系統的最底層,也叫“網(wǎng)絡(luò )蜘蛛”,專(zhuān)門(mén)處理Web,
7、各種文件如聲音)。目前系統主要針對HTTP協(xié)議,其主要任務(wù)是為每個(gè)Spider分配URL以獲取實(shí)際數據采集,并根據需要動(dòng)態(tài)分配Spider的數量,如圖2。 基金項目:中科院計算所前沿青年基金項目(200162808) 作者:李勝濤(1976一),男,碩士研究生,主要研究方向:智能代理、信息采集) , 信息檢索, 文本分類(lèi); 趙章杰, 于志華, Ph.D. 博士生錄取日期破: 2002073I | 回歸天破: 2002-1028 維普資訊http://圖2 蜘蛛合集: 合集采集頁(yè)面的24頁(yè)分析之后,您需要提取鏈接、元數據、文本、標題和摘要以進(jìn)行后續過(guò)濾和其他處理。這里主要介紹鏈接和標簽。
8、 問(wèn)題提取。鏈接的提取如下: 首先,識別頁(yè)面類(lèi)型。顯然,只有“xffhtml”類(lèi)型的頁(yè)面需要分析鏈接。頁(yè)面的類(lèi)型可以從響應頭的分析中得到。部分www站點(diǎn)返回的響應信息格式不完整。這時(shí)候就需要分析頁(yè)面URL中的文件擴展名來(lái)確定頁(yè)面類(lèi)型。當遇到諸如等帶有鏈接的標簽時(shí),從標簽結構的屬性中找到目標URL,從標簽對中提取文本作為鏈接的描述性文本(擴展元數據)。這兩個(gè)數據代表鏈接。頁(yè)面中標題的提取分為3個(gè)步驟:(一)確定正文開(kāi)頭的位置,從文章的開(kāi)頭開(kāi)始,逐段掃描,直到某段長(cháng)度不小于設置的正文最小長(cháng)度,假設該段為正文中的A段。(2) 從文本位置向前搜索可能是標題的一段,根據字體
9、大小、居中、變色等特性找到最合適的一段文字作為標題。(3)通過(guò)給定參數調整標題段,使標題提取更準確。對標題段前后段stTitlePara進(jìn)行句法、語(yǔ)義、統計分析,準確判斷標題段真實(shí)位置. 25 URL和主核的相關(guān)性確定有效提高主題Web信息采集的可靠性(召回率和準確率的結合)和效率,系統需要在采集的過(guò)程中加入過(guò)濾機制@> 并采用綜合擴展的 I Pagerank 方法進(jìn)行元數據和鏈接分析。25I 擴展元數據的含義 雖然目前的元數據計算(HTML 中添加的一種標記,寫(xiě)成)并不理想,但人們已經(jīng)發(fā)現使用其他 HTML 標簽如錨點(diǎn)等信息可以有效引導搜索和基于主題信息采集。為了
1 根據0、的區別,這些標記信息統稱(chēng)為HTML擴展元數據。252 擴展元數據方法的ReIevance Weighting或RW算法如下: f 0 (ur): (0(,), M(ur1) 如max(O(t). l 0 規范其中, M(ur1)指的是與這個(gè)URL相關(guān)的所有擴展元數據的集合,O(t)指的是擴展元數據中某個(gè)詞與主題的相關(guān)性。c是用戶(hù)設置的相關(guān)性閾值. RW 方法是通過(guò)查看擴展元數據中單詞和主題詞的相似度來(lái)計算的,同義詞之間的相似度為100,同義詞之間的相似度為50-100,遠距離詞之間的相似度為0 50。這樣就大大降低了相關(guān)頁(yè)面誤判的可能性,
11、頁(yè)面被判斷為相關(guān)頁(yè)面的可能性)。25 3 鏈接分析方法 PageRank 是谷歌的一個(gè)重要搜索算法,它有效地幫助搜索引擎識別那些重要的頁(yè)面,并將它們排在搜索結果的前列。該方法定義為:給定一個(gè)網(wǎng)頁(yè)A,假設指向它的網(wǎng)頁(yè)有T.,,T.設c(A)為A到其他網(wǎng)頁(yè)的鏈接數,PR(A)為A的PageRank, d為衰減因子(一般設置為085),然后有一個(gè)跳躍,c+254的IPageRank算法通過(guò)觀(guān)察:PageRank方法雖然有很強的尋找重要頁(yè)面的能力,但是它找到的重要頁(yè)面是為了一個(gè)廣泛的話(huà)題,而不是基于特定的話(huà)題。因此,一個(gè)頁(yè)面被大量不相關(guān)的話(huà)題指向PageRan
1 2、k的值高于與mang問(wèn)題相關(guān)的少數頁(yè)面組所指向的頁(yè)面的PageRank值,這是不合理的。如果大量主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值高于少數主題相關(guān)頁(yè)組指向的頁(yè)面的PageRank值,則必須使用它。為此,我們對PageRank方法進(jìn)行了改進(jìn),根據鏈接關(guān)系加入一定的語(yǔ)義信息權重,使生成的重要頁(yè)面針對某個(gè)主題,形成1PageRank算法。IPageRank算法不僅利用PageRank的優(yōu)勢尋找重要頁(yè)面,還利用RW算法提高鏈接的相關(guān)性。改進(jìn)后的公式如下 (3) PR(I): (卜(,)+dl IPR(T) 芝.(ur) (<
13、) Lan Yiyi PR(T) 0 (Ill 1) 0 (IllI) 其中A為給定的網(wǎng)頁(yè),假設指向它的網(wǎng)頁(yè)有T.,, Tn.u, ur u rII 為網(wǎng)頁(yè)T、T、指向A的鏈接,kI、k2、kn分別為網(wǎng)頁(yè)TT中收錄的鏈接數,IPR(A)為A的IPageRank值,d為衰減因子(也設置為085)。IPageRank的實(shí)際含義可以用話(huà)題瀏覽者來(lái)解釋。假設Web上有一個(gè)話(huà)題瀏覽者,IPPageRank(函數IPR(A)是它訪(fǎng)問(wèn)頁(yè)面A的概率)。它從初始頁(yè)面集開(kāi)始,跟隨頁(yè)面鏈接,從不進(jìn)行“返回”操作,在每個(gè)頁(yè)面上,瀏覽者對該頁(yè)面中的每個(gè)鏈接感興趣的概率與鏈接和主題相關(guān)。
14、關(guān)星成正比。瀏覽者也可能對這個(gè)頁(yè)面上的鏈接不再感興趣,從而隨機選擇一個(gè)新頁(yè)面開(kāi)始新的瀏覽,離開(kāi)的概率設置為d。從直觀(guān)上看,如果有很多頁(yè)面指向一個(gè)頁(yè)面,那么這個(gè)頁(yè)面的PageRank會(huì )比較高,但IPPageRank值不一定高,除非大部分都和主題相關(guān);如果有高IPPageRank的頁(yè)面指向它,這個(gè)頁(yè)面的IPageRank也會(huì )很高。26 頁(yè)面與主題相關(guān)性判斷 為了進(jìn)一步提高采集頁(yè)面的準確率,需要對已經(jīng)被采集的頁(yè)面進(jìn)行主題相關(guān)性評估,即頁(yè)面過(guò)濾。提高所有采集的準確率 主題頁(yè)面通過(guò)排除低評估結果(小于設置閾值)的頁(yè)面。我們采用的方法是基于關(guān)鍵詞的向量空間模型算法。3個(gè)系統
1 5、的實(shí)現 我們對“天大”主題Web信息采集系統的預測算法和系統的基本性能進(jìn)行了測試,得到了滿(mǎn)意的結果。(1)測試集的選擇選擇旅游信息作為測試主題。采集了20個(gè)旅游主題網(wǎng)站,加入了60個(gè)無(wú)關(guān)的網(wǎng)站組成測試集,其中收錄一個(gè)以上l03.維普信息頁(yè)。(2)算法測試和性能測試使用相同的初始URL集,使用廣度優(yōu)先算法、PageRank算法和IPageRank算法對采集進(jìn)行采集數據。為了得到每種方法的結果準確的結果,實(shí)驗中暫停了頁(yè)面和主題相關(guān)性確定模塊。在實(shí)驗過(guò)程中,記錄采集頁(yè)碼為500、1000、l 500一、4000H采集狀態(tài),計算采集狀態(tài)。@采集準確性和資源
16、源發(fā)現率,如表1所示。表一采集準確率與資源發(fā)現率采集準確率資源發(fā)現率寬度優(yōu)先級35 lOO PageRank 29 3O IPageRank 68 86 表2 測試結果,性能測試結果評價(jià)采集的最終準確率76較高(優(yōu)點(diǎn))最終資源發(fā)現率高8O(優(yōu)點(diǎn))30MB內存(估計)較大(缺點(diǎn))測試平臺為CPU Intel Pill 800、內存為128MB,操作系統為Window 2000 Professional電腦。采集時(shí),系統設置10個(gè)線(xiàn)程,采用的URL預測算法為IPageRank。測試的性能指標包括最終采集頁(yè)面的準確率,采集頁(yè)面的資源釋放
17、 當前速率、內存使用情況、測試結果如表2所示。 4 結束語(yǔ) 我基于主題研究了webf語(yǔ)言和信息技術(shù),并設計了一個(gè)實(shí)用的系統。在原有技術(shù)的基礎上,設計了許多獨特的新算法,如Spider采集、標題提取、URL主題預測、頁(yè)面主題相關(guān)性判斷等。特別是對著(zhù)名的谷歌算法進(jìn)行了改進(jìn),使其適用于基于主題的采集,同時(shí)保持原有的優(yōu)勢。實(shí)驗表明,基于主題的采集優(yōu)勢明顯。隨著(zhù)Web服務(wù)向個(gè)性化方向的推進(jìn),Agent技術(shù)的發(fā)展,以及遷移思想的出現,用于檢索的Web信息采集 科技必將走向主題化、個(gè)性化的主動(dòng)信息采集服務(wù)方向全方位拓展。參考文獻 I Aggarwal C, AIGar
18、awi F、Yu PIntelligent Crawling on the World Wide Web with Arbitrary PredicatesIn Proceedings of the 1 0th IntematiouaI WWW Conference200 l 2 Brin S, Page L,大型超文本網(wǎng)絡(luò )搜索引擎的切片剖析第七屆國際萬(wàn)維網(wǎng)會(huì )議,I 998 3 Diligen
19、ti M, Coetzee FM, Lawrence S, et a1Gori Focused Crawling Using Context GraphsVLDB Conference, 2000 4 Menczer F, Srinivasan GPP, Ruiz MEvaluating Topic-driven Web CrawlersIn Proceedings of the 24th Annual International Acms@ >IGIR 會(huì )議,200 l(接第 8I 頁(yè)) 3 Clark CM,Rock SRandomized Motion Planning for G
20、N011一完整機器人組在:加拿大第六屆空間人工智能、機器人和自動(dòng)化國際研討會(huì )論文集& 200106 4 Fraichard TDemazeau YMotion Planning in a Multiagent World In: Demazeau YMuller J PDecentralized AI: Proceedings第 22 屆歐洲工作室
21、p on Modeling Autonomous Agents in a Multiagent World 荷蘭阿姆斯特丹:Elsevier Science,I990:l37-l53(接第 l0l 頁(yè))輸出“:”?!氨硎绢?lèi)型”列輸出源文件中函數所描述的類(lèi)型,“基本類(lèi)型”列輸出表示不帶typedef的表示類(lèi)型的類(lèi)型。在這個(gè)例子中,funcl和main函數沒(méi)有使用typedef,所以這兩個(gè)函數的表示類(lèi)型和基本類(lèi)型是一樣的?!拔恢谩绷休敵龊瘮刀x或聲明的文檔名稱(chēng)和行號?!皩傩浴绷酗@示函數的屬性。例如,當函數未定義時(shí),顯示“no define”;如果
22、 不使用該功能時(shí),會(huì )顯示“未使用”等。上面的表1只是函數列表,變量列表、類(lèi)型列表、枚舉常量列表大體與此一致。對于列表中出現的每個(gè)元素,還有一個(gè)詳細的表格,按名稱(chēng)鏈接。例如,有一個(gè)函數的調用條件列表和一個(gè)函數返回值列表;對于變量,有一個(gè)值設置和引用列表。列表。限于篇幅,這里就不一一詳述_r了。4 結束語(yǔ) EPOM 是一種可以全面、詳細地展示程序的中間表示,它提供了一個(gè)標準的訪(fǎng)問(wèn)接口。所以,任何其他符合該接口的模塊都可以從中獲取有關(guān)源程序的所需信息。OSTPM 是一種基于域的程序信息分層遞歸表示模型。將程序中所有對象的范圍和類(lèi)型緊密聯(lián)系起來(lái)
23、?;诓樵?xún)-應答模型的Visitor方法將對象與作用于對象1O4的控制分離,減輕了控制系統的負擔,大大提高了系統的靈活性、安全性和可擴展性,使系統結構非常清晰. 同時(shí)減輕設計管理系統的負擔。擴展的節目參考模型EPRM是一種很好的節目統計信息形式。它采用面向對象的方法將復雜的程序信息組織成層次化的對象結構,并提供了一個(gè)接口,通過(guò)Visitor方法訪(fǎng)問(wèn)其對象。該模型克服了普通模型的缺點(diǎn),具有結構簡(jiǎn)單、對象自主性強、系統靈活性高、輸出界面友好、擴展性好等特點(diǎn)。
24、ts of Reusable Objectoriented SoftwareAddison Wesley Longman, Inc, l995 2 Prdn T WProgramming Languages: Design and Implementation PrenticeHall International, Inc, I 996 3 Pressman RS 軟件工程從業(yè)者的研究方法(第四版)北京:機械工業(yè)出版社,1999 4 Eckel Bc+ 編程思想北京:機械工業(yè)出版社,2000 5 張杏兒計算機編譯原理北京:科學(xué)出版社,I 999 6 趙陽(yáng),蔡志宇,潘金貴基于EPOM的程序可視化系統的設計與實(shí)現計算機的實(shí)現工程, 2002, 28 (cms2@>:l08Il0 7 蔡志宇, 趙陽(yáng), 潘杰, 等. 基于查詢(xún)-回答模型的對象控制模型的實(shí)現. 計算機工程(已錄) 維普資料 http://
采集文章系統(一下采集的文章如何偽原創(chuàng )處理?采集方法介紹 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-12-05 03:27
)
現在建網(wǎng)站容易,推廣難。采集文章 對于做優(yōu)化的人來(lái)說(shuō),這完全是家常便飯。尤其是在站群泛濫的時(shí)候,采集網(wǎng)站隨處可見(jiàn),都是為了SEO和SEO。但是,這種采集站往往還是高權重的。這是因為即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別文章的來(lái)源。今天小編就為大家介紹一下采集的文章偽原創(chuàng )是怎么處理的!
1、 標題修改:首先修改標題。標題不得隨意修改。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。漢字組合博大精深,稱(chēng)謂修飾多樣化。標題必須收錄關(guān)鍵字,收錄關(guān)鍵詞的標題長(cháng)度適中
2、 內容修改:好的用戶(hù)體驗意味著(zhù)好的SEO。讓用戶(hù)感覺(jué)良好的搜索引擎也一定會(huì )喜歡它。所以,在改變文章的時(shí)候,也要站在用戶(hù)的角度考慮他想要從這個(gè)文章得到什么樣的信息。其次,在內容上至少要修改第一段和最后一段,因為這也是站長(cháng)認為蜘蛛抓取的位置,盡量區分其他文章。
注意:如果內容收錄品牌詞,必須更換。
3、提高文章的質(zhì)量,采集的文章,如果你改進(jìn)這個(gè)文章,增強美感,優(yōu)化布局,錯誤等。 (比如對錯字的修改是否改進(jìn)了文章?自然,搜索引擎上的分數也有所提高??梢詮倪@些中進(jìn)行具體考慮。例如,添加圖片、適當的注釋和引用權威材料,將有助于提高采集的內容質(zhì)量。
同時(shí)采集站立時(shí)要注意的幾點(diǎn):
1、選擇與您網(wǎng)站主題相匹配的內容;采集的內容格式要統一專(zhuān)業(yè);
2、采集的文章不要一次發(fā)布太多。每天保留大約 10 篇文章,以便長(cháng)期和持久地發(fā)表。
查看全部
采集文章系統(一下采集的文章如何偽原創(chuàng )處理?采集方法介紹
)
現在建網(wǎng)站容易,推廣難。采集文章 對于做優(yōu)化的人來(lái)說(shuō),這完全是家常便飯。尤其是在站群泛濫的時(shí)候,采集網(wǎng)站隨處可見(jiàn),都是為了SEO和SEO。但是,這種采集站往往還是高權重的。這是因為即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別文章的來(lái)源。今天小編就為大家介紹一下采集的文章偽原創(chuàng )是怎么處理的!
1、 標題修改:首先修改標題。標題不得隨意修改。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。漢字組合博大精深,稱(chēng)謂修飾多樣化。標題必須收錄關(guān)鍵字,收錄關(guān)鍵詞的標題長(cháng)度適中
2、 內容修改:好的用戶(hù)體驗意味著(zhù)好的SEO。讓用戶(hù)感覺(jué)良好的搜索引擎也一定會(huì )喜歡它。所以,在改變文章的時(shí)候,也要站在用戶(hù)的角度考慮他想要從這個(gè)文章得到什么樣的信息。其次,在內容上至少要修改第一段和最后一段,因為這也是站長(cháng)認為蜘蛛抓取的位置,盡量區分其他文章。
注意:如果內容收錄品牌詞,必須更換。
3、提高文章的質(zhì)量,采集的文章,如果你改進(jìn)這個(gè)文章,增強美感,優(yōu)化布局,錯誤等。 (比如對錯字的修改是否改進(jìn)了文章?自然,搜索引擎上的分數也有所提高??梢詮倪@些中進(jìn)行具體考慮。例如,添加圖片、適當的注釋和引用權威材料,將有助于提高采集的內容質(zhì)量。
同時(shí)采集站立時(shí)要注意的幾點(diǎn):
1、選擇與您網(wǎng)站主題相匹配的內容;采集的內容格式要統一專(zhuān)業(yè);
2、采集的文章不要一次發(fā)布太多。每天保留大約 10 篇文章,以便長(cháng)期和持久地發(fā)表。
采集文章系統(采集功能是什么?采集規則是用你的網(wǎng)站遠程批量采集目標網(wǎng)站)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2021-11-30 19:03
采集是什么功能?
采集功能就是利用你的網(wǎng)站遠程批處理采集目標網(wǎng)站的文章和圖片功能來(lái)自動(dòng)化操作,解放你的雙手.
所有網(wǎng)站都可以采集嗎?
世界上沒(méi)有網(wǎng)站或所有文章可以采集的功能。原因很簡(jiǎn)單:采集 攔截特定字符串之間的內容作為目標。每個(gè)網(wǎng)站的具體字符都不一樣,所以沒(méi)辦法優(yōu)采云采集全世界網(wǎng)站。
那些小偷程序的采集功能比你的好嗎?
小偷程序只能是采集特定的網(wǎng)站和特定的文章。一旦目標網(wǎng)站被修改或小偷程序關(guān)閉,就會(huì )徹底癱瘓。而我們的采集函數就是根據采集規則對采集,修改或關(guān)閉目標網(wǎng)站,替換一個(gè)目標站,重寫(xiě)采集規則。所以小偷程序和我們的采集功能是不可比的。
采集如何使用該功能?
采集 函數需要按照采集的規則使用,因為采集網(wǎng)站的目標不同,頁(yè)面代碼也不同,所以需要根據不同的Goal網(wǎng)站來(lái)編寫(xiě)不同的采集規則。使用目標網(wǎng)站對應的采集規則到采集網(wǎng)站。
采集規則怎么寫(xiě)?
請看一下我們花了 40 個(gè)小時(shí)編寫(xiě)的 采集 規則圖文教程:
有沒(méi)有辦法不用寫(xiě)規則就采集?
可以,通過(guò)官方采集平臺采集即可,在網(wǎng)站后臺--應用中心-找到您要安裝的采集規則插件-Get Plugins , 安裝后可以在網(wǎng)站后臺--規則管理中批量做采集。一些詳細的設置請看采集規則插件頁(yè)面的詳細介紹。
為什么有些采集規則可以測試采集并且可以顯示源碼,但是不能批量采集?
在這種情況下,模板網(wǎng)站限制了并發(fā)連接數和訪(fǎng)問(wèn)頻率,以上參數檢測非人為訪(fǎng)問(wèn)和阻塞。目的是防止采集,只是將其他目標網(wǎng)站替換為采集。
其他采集規則常見(jiàn)問(wèn)題,點(diǎn)擊下方鏈接閱讀。 查看全部
采集文章系統(采集功能是什么?采集規則是用你的網(wǎng)站遠程批量采集目標網(wǎng)站)
采集是什么功能?
采集功能就是利用你的網(wǎng)站遠程批處理采集目標網(wǎng)站的文章和圖片功能來(lái)自動(dòng)化操作,解放你的雙手.
所有網(wǎng)站都可以采集嗎?
世界上沒(méi)有網(wǎng)站或所有文章可以采集的功能。原因很簡(jiǎn)單:采集 攔截特定字符串之間的內容作為目標。每個(gè)網(wǎng)站的具體字符都不一樣,所以沒(méi)辦法優(yōu)采云采集全世界網(wǎng)站。
那些小偷程序的采集功能比你的好嗎?
小偷程序只能是采集特定的網(wǎng)站和特定的文章。一旦目標網(wǎng)站被修改或小偷程序關(guān)閉,就會(huì )徹底癱瘓。而我們的采集函數就是根據采集規則對采集,修改或關(guān)閉目標網(wǎng)站,替換一個(gè)目標站,重寫(xiě)采集規則。所以小偷程序和我們的采集功能是不可比的。
采集如何使用該功能?
采集 函數需要按照采集的規則使用,因為采集網(wǎng)站的目標不同,頁(yè)面代碼也不同,所以需要根據不同的Goal網(wǎng)站來(lái)編寫(xiě)不同的采集規則。使用目標網(wǎng)站對應的采集規則到采集網(wǎng)站。
采集規則怎么寫(xiě)?
請看一下我們花了 40 個(gè)小時(shí)編寫(xiě)的 采集 規則圖文教程:
有沒(méi)有辦法不用寫(xiě)規則就采集?
可以,通過(guò)官方采集平臺采集即可,在網(wǎng)站后臺--應用中心-找到您要安裝的采集規則插件-Get Plugins , 安裝后可以在網(wǎng)站后臺--規則管理中批量做采集。一些詳細的設置請看采集規則插件頁(yè)面的詳細介紹。
為什么有些采集規則可以測試采集并且可以顯示源碼,但是不能批量采集?
在這種情況下,模板網(wǎng)站限制了并發(fā)連接數和訪(fǎng)問(wèn)頻率,以上參數檢測非人為訪(fǎng)問(wèn)和阻塞。目的是防止采集,只是將其他目標網(wǎng)站替換為采集。
其他采集規則常見(jiàn)問(wèn)題,點(diǎn)擊下方鏈接閱讀。
采集文章系統(區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-28 04:01
采集文章系統區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元,根據10月23日etherdelta統計,eth的價(jià)格漲幅達125%,ada上漲352%,golem上漲1438%,xmr上漲2227%。按最高價(jià)計算市值超過(guò)了110億美元,折合人民幣767億,所以eth價(jià)格上漲已經(jīng)是必然的事情。
區塊鏈的發(fā)展,使社會(huì )價(jià)值交流深入到數字資產(chǎn)的流通中。區塊鏈已經(jīng)成為金融體系的重要方式之一,諸如:企業(yè)級的金融服務(wù),第三方信用體系,供應鏈金融等,都取得了一些階段性的成果。但是金融利益的驅動(dòng)或依附于金融利益有一定社會(huì )成本,因此區塊鏈還存在發(fā)展的空間。區塊鏈最終的使命是提高資產(chǎn)記錄的可靠性,可訪(fǎng)問(wèn)性和透明度,提升用戶(hù)體驗。
盡管區塊鏈缺少監管機構,但是國家將逐步建立區塊鏈監管體系,fatf和crackingflag都是國際機構。國內不可避免要走出這一步,想打下來(lái)沒(méi)有問(wèn)題,但是要發(fā)展壯大還需時(shí)日??傮w來(lái)看,區塊鏈的發(fā)展還存在一定的進(jìn)步空間,而且仍然是新的熱點(diǎn)。區塊鏈會(huì )顛覆或者超越我們的業(yè)務(wù),傳統金融存在的一些問(wèn)題也會(huì )因為區塊鏈而得到解決。
這也是區塊鏈會(huì )一直存在的一個(gè)原因。selenium+soupui+cryptography框架實(shí)現網(wǎng)頁(yè)抓包需要的知識會(huì )比較多,如果只會(huì )selenium,基本的網(wǎng)頁(yè)抓包會(huì )過(guò)去一大半,另外就是配置環(huán)境。在前端的教程中我用了很多個(gè)chrome,但是大家也不可能一直要每個(gè)chrome都能下。所以肯定會(huì )有出現更好的,沒(méi)有嘗試過(guò)的chrome。
selenium可以支持這個(gè)功能的。如何設置瀏覽器瀏覽器的具體版本號,以及瀏覽器的版本號對于網(wǎng)頁(yè)截圖網(wǎng)頁(yè)大小有很大的影響,但是不會(huì )對網(wǎng)頁(yè)數據有太大的影響。在webdriver中有一個(gè)簡(jiǎn)單的思路,就是通過(guò)客戶(hù)端filter去獲取所有的網(wǎng)頁(yè)進(jìn)行序列化,存儲在區塊鏈上。redis中可以給每個(gè)的網(wǎng)頁(yè)字段生成一個(gè)字典數組mymorsed,數組每個(gè)都有起始值,值index,最后一個(gè)值last,數組長(cháng)度是kbytes,可以查詢(xún)key為mymorsed的網(wǎng)頁(yè)。
字典在后期的使用會(huì )非常的快,因為可以比較字典中的每個(gè)元素的每個(gè)元素有一個(gè)唯一的id。localstorage是不支持字典的,所以可以設置下。但是myisam這個(gè)不可以設置,所以我們這里的思路是用字典加入了namestring的數組,用objectstring,數組長(cháng)度為mymorsed。以下代碼會(huì )發(fā)現返回值為數組,list=[]foriincryptographicgenerator.getall():session.remove(i)cryptographicgenerator.set(namestring.getbytes(mymorsed.ids))上一篇說(shuō)到的json里面我們可以通過(guò)content來(lái)獲取源文件文件。但是json容易丟失格式,我們想。 查看全部
采集文章系統(區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元)
采集文章系統區塊鏈發(fā)展前景,以太坊大爆發(fā)一枚以太幣價(jià)值達2100多美元,根據10月23日etherdelta統計,eth的價(jià)格漲幅達125%,ada上漲352%,golem上漲1438%,xmr上漲2227%。按最高價(jià)計算市值超過(guò)了110億美元,折合人民幣767億,所以eth價(jià)格上漲已經(jīng)是必然的事情。
區塊鏈的發(fā)展,使社會(huì )價(jià)值交流深入到數字資產(chǎn)的流通中。區塊鏈已經(jīng)成為金融體系的重要方式之一,諸如:企業(yè)級的金融服務(wù),第三方信用體系,供應鏈金融等,都取得了一些階段性的成果。但是金融利益的驅動(dòng)或依附于金融利益有一定社會(huì )成本,因此區塊鏈還存在發(fā)展的空間。區塊鏈最終的使命是提高資產(chǎn)記錄的可靠性,可訪(fǎng)問(wèn)性和透明度,提升用戶(hù)體驗。
盡管區塊鏈缺少監管機構,但是國家將逐步建立區塊鏈監管體系,fatf和crackingflag都是國際機構。國內不可避免要走出這一步,想打下來(lái)沒(méi)有問(wèn)題,但是要發(fā)展壯大還需時(shí)日??傮w來(lái)看,區塊鏈的發(fā)展還存在一定的進(jìn)步空間,而且仍然是新的熱點(diǎn)。區塊鏈會(huì )顛覆或者超越我們的業(yè)務(wù),傳統金融存在的一些問(wèn)題也會(huì )因為區塊鏈而得到解決。
這也是區塊鏈會(huì )一直存在的一個(gè)原因。selenium+soupui+cryptography框架實(shí)現網(wǎng)頁(yè)抓包需要的知識會(huì )比較多,如果只會(huì )selenium,基本的網(wǎng)頁(yè)抓包會(huì )過(guò)去一大半,另外就是配置環(huán)境。在前端的教程中我用了很多個(gè)chrome,但是大家也不可能一直要每個(gè)chrome都能下。所以肯定會(huì )有出現更好的,沒(méi)有嘗試過(guò)的chrome。
selenium可以支持這個(gè)功能的。如何設置瀏覽器瀏覽器的具體版本號,以及瀏覽器的版本號對于網(wǎng)頁(yè)截圖網(wǎng)頁(yè)大小有很大的影響,但是不會(huì )對網(wǎng)頁(yè)數據有太大的影響。在webdriver中有一個(gè)簡(jiǎn)單的思路,就是通過(guò)客戶(hù)端filter去獲取所有的網(wǎng)頁(yè)進(jìn)行序列化,存儲在區塊鏈上。redis中可以給每個(gè)的網(wǎng)頁(yè)字段生成一個(gè)字典數組mymorsed,數組每個(gè)都有起始值,值index,最后一個(gè)值last,數組長(cháng)度是kbytes,可以查詢(xún)key為mymorsed的網(wǎng)頁(yè)。
字典在后期的使用會(huì )非常的快,因為可以比較字典中的每個(gè)元素的每個(gè)元素有一個(gè)唯一的id。localstorage是不支持字典的,所以可以設置下。但是myisam這個(gè)不可以設置,所以我們這里的思路是用字典加入了namestring的數組,用objectstring,數組長(cháng)度為mymorsed。以下代碼會(huì )發(fā)現返回值為數組,list=[]foriincryptographicgenerator.getall():session.remove(i)cryptographicgenerator.set(namestring.getbytes(mymorsed.ids))上一篇說(shuō)到的json里面我們可以通過(guò)content來(lái)獲取源文件文件。但是json容易丟失格式,我們想。
采集文章系統(中文站臺式搜索1.利用/查看/編輯文件信息)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-11-25 13:14
采集文章系統可以識別文章頁(yè)碼,并同步到googlereader服務(wù)。
可以看一下geekpic/spic·github。
中文站臺式搜索1.利用/查看/編輯文件信息-比如不能使用標點(diǎn)判斷所謂的漢語(yǔ)拼音,或者自己寫(xiě)注釋。2.數據全后臺通過(guò)標題文件分詞得到,(站內通過(guò)-首選),正則表達式。這個(gè)spic可以。從yahoo/googlespicapi拿數據。各大搜索引擎同理3.spic前端編寫(xiě)grab+robotsmonitor,這個(gè)也不算難吧。
我也很想知道?。?!不知道facebook會(huì )不會(huì )識別他的地址,直接把所有國外搜索引擎的都抓下來(lái)導入。希望有人和我有同樣的想法,并且現成的github/repo。我們可以一起分享??!我也是零基礎,程序人員。有問(wèn)題,
個(gè)人覺(jué)得要做一個(gè)國內的國外spic可能要依靠企業(yè)和外國網(wǎng)站合作。wikipedia文章頁(yè)信息抓取可以采用的方法很多,比如google和bing,但是你要認識企業(yè),和他們合作也要找他們談一下。google和bing都有api。也有賣(mài)spic(跟企業(yè)客戶(hù)溝通,國內用戶(hù)不知道哪里可以找到google和bing,這也是要談的,bing是否支持國內信息抓取)和spics(看看是否可以跟國內小眾創(chuàng )業(yè)者合作),我只知道這兩種。
國內外spic有這么三個(gè)特點(diǎn):1.有搜索詞頻和收錄問(wèn)題,這可能是大多數人不太注意的點(diǎn),因為reeder還是,safari和android信息也存在時(shí)間問(wèn)題,快照,文檔編號分揀的問(wèn)題。這也是spic肯定是針對使用reeder的。2.spic是基于web的搜索引擎,和瀏覽器、appstore之類(lèi)有差異。例如:spic文檔分揀,必須經(jīng)過(guò)這種原生搜索去過(guò)濾網(wǎng)站2次以上才能進(jìn)行抓取和分享,這也是reeder2那樣的方法不可取的地方。
3.不支持多國語(yǔ)言搜索(連國內都是英文搜索)。綜上,也有一些reeder2的工具提供類(lèi)似的,但是涉及到每個(gè)國家特色的用戶(hù)需求,我覺(jué)得沒(méi)法提供。 查看全部
采集文章系統(中文站臺式搜索1.利用/查看/編輯文件信息)
采集文章系統可以識別文章頁(yè)碼,并同步到googlereader服務(wù)。
可以看一下geekpic/spic·github。
中文站臺式搜索1.利用/查看/編輯文件信息-比如不能使用標點(diǎn)判斷所謂的漢語(yǔ)拼音,或者自己寫(xiě)注釋。2.數據全后臺通過(guò)標題文件分詞得到,(站內通過(guò)-首選),正則表達式。這個(gè)spic可以。從yahoo/googlespicapi拿數據。各大搜索引擎同理3.spic前端編寫(xiě)grab+robotsmonitor,這個(gè)也不算難吧。
我也很想知道?。?!不知道facebook會(huì )不會(huì )識別他的地址,直接把所有國外搜索引擎的都抓下來(lái)導入。希望有人和我有同樣的想法,并且現成的github/repo。我們可以一起分享??!我也是零基礎,程序人員。有問(wèn)題,
個(gè)人覺(jué)得要做一個(gè)國內的國外spic可能要依靠企業(yè)和外國網(wǎng)站合作。wikipedia文章頁(yè)信息抓取可以采用的方法很多,比如google和bing,但是你要認識企業(yè),和他們合作也要找他們談一下。google和bing都有api。也有賣(mài)spic(跟企業(yè)客戶(hù)溝通,國內用戶(hù)不知道哪里可以找到google和bing,這也是要談的,bing是否支持國內信息抓取)和spics(看看是否可以跟國內小眾創(chuàng )業(yè)者合作),我只知道這兩種。
國內外spic有這么三個(gè)特點(diǎn):1.有搜索詞頻和收錄問(wèn)題,這可能是大多數人不太注意的點(diǎn),因為reeder還是,safari和android信息也存在時(shí)間問(wèn)題,快照,文檔編號分揀的問(wèn)題。這也是spic肯定是針對使用reeder的。2.spic是基于web的搜索引擎,和瀏覽器、appstore之類(lèi)有差異。例如:spic文檔分揀,必須經(jīng)過(guò)這種原生搜索去過(guò)濾網(wǎng)站2次以上才能進(jìn)行抓取和分享,這也是reeder2那樣的方法不可取的地方。
3.不支持多國語(yǔ)言搜索(連國內都是英文搜索)。綜上,也有一些reeder2的工具提供類(lèi)似的,但是涉及到每個(gè)國家特色的用戶(hù)需求,我覺(jué)得沒(méi)法提供。
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-25 12:15
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接: 查看全部
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接:
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2021-11-25 12:11
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接: 查看全部
采集文章系統(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于喜歡爬蟲(chóng)的人來(lái)說(shuō),我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用函數,所以提前封裝了一些函數。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis的第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
pc-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
親測項目現已上線(xiàn),項目開(kāi)發(fā)中解決了微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題,希望能幫助到被同類(lèi)業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
原文鏈接:
采集文章系統(采集文章系統代碼基于r+java,windows下可以創(chuàng )建屬于自己的域文件)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-25 05:01
采集文章系統代碼基于r+java,java初始環(huán)境:macos下10.10.4以上的系統,windows系統,office2010以上(windows下可以創(chuàng )建屬于自己的域文件,到此設置按照谷歌要求就好,當然了,可以下載5.0或者4.0版本的文件,再導入即可)文件基本結構。java程序的結構如下:對象名:input(即用戶(hù)需要輸入的字符串)方法名:read(request.getrequestname())接收參數一(http:請求地址):請求參數多(請求文件類(lèi)型):方法名:readgenerate(接收參數。
1)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdate(接收參數
2)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdateupdateupdate(接收參數
3)傳入參數多(請求txt類(lèi)型文件):outputbuffer類(lèi)型文件類(lèi)型(即每次文件讀取的內容):用來(lái)存儲文件的接口(如,txt對象,xml對象等):繼承openxml接口類(lèi)型(即所有的文件接口):如:xml.excel.table,xml.xml.text.excel文件等類(lèi)型:所有可以稱(chēng)為文件的類(lèi)型:java的文件接口都可以看做是文件接口的子接口:即api:office:免費版office,收費版office,專(zhuān)業(yè)版office,企業(yè)版office,標準版office,漢化版office,vip版office。
電子表格vba,圖片加工gif編輯器:acdimapi,包括:xls,xlsx,vba6。word:word2vec,adobeacrobat,coreldraw,endnote。wps:wps企業(yè)版,wps家庭版,wps個(gè)人版,wpsvir)我建議你在linux下運行程序,大多都是一些開(kāi)源linux版本,穩定性比在windows下會(huì )好很多。
運行方式:如果你是用java程序運行的,同時(shí)也可以啟動(dòng)tomcat或者iis運行這個(gè)程序(iisjava程序可以啟動(dòng))注意:這是一個(gè)單步單線(xiàn)程程序,后面會(huì )用到threadlocal之類(lèi)的東西。tomcat可以多線(xiàn)程并發(fā)來(lái)掛載一個(gè)文件。iis同理。原文鏈接:從零開(kāi)始搭建java文本挖掘實(shí)例。 查看全部
采集文章系統(采集文章系統代碼基于r+java,windows下可以創(chuàng )建屬于自己的域文件)
采集文章系統代碼基于r+java,java初始環(huán)境:macos下10.10.4以上的系統,windows系統,office2010以上(windows下可以創(chuàng )建屬于自己的域文件,到此設置按照谷歌要求就好,當然了,可以下載5.0或者4.0版本的文件,再導入即可)文件基本結構。java程序的結構如下:對象名:input(即用戶(hù)需要輸入的字符串)方法名:read(request.getrequestname())接收參數一(http:請求地址):請求參數多(請求文件類(lèi)型):方法名:readgenerate(接收參數。
1)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdate(接收參數
2)傳入參數多(請求txt類(lèi)型文件):方法名:readgenerateupdateupdateupdate(接收參數
3)傳入參數多(請求txt類(lèi)型文件):outputbuffer類(lèi)型文件類(lèi)型(即每次文件讀取的內容):用來(lái)存儲文件的接口(如,txt對象,xml對象等):繼承openxml接口類(lèi)型(即所有的文件接口):如:xml.excel.table,xml.xml.text.excel文件等類(lèi)型:所有可以稱(chēng)為文件的類(lèi)型:java的文件接口都可以看做是文件接口的子接口:即api:office:免費版office,收費版office,專(zhuān)業(yè)版office,企業(yè)版office,標準版office,漢化版office,vip版office。
電子表格vba,圖片加工gif編輯器:acdimapi,包括:xls,xlsx,vba6。word:word2vec,adobeacrobat,coreldraw,endnote。wps:wps企業(yè)版,wps家庭版,wps個(gè)人版,wpsvir)我建議你在linux下運行程序,大多都是一些開(kāi)源linux版本,穩定性比在windows下會(huì )好很多。
運行方式:如果你是用java程序運行的,同時(shí)也可以啟動(dòng)tomcat或者iis運行這個(gè)程序(iisjava程序可以啟動(dòng))注意:這是一個(gè)單步單線(xiàn)程程序,后面會(huì )用到threadlocal之類(lèi)的東西。tomcat可以多線(xiàn)程并發(fā)來(lái)掛載一個(gè)文件。iis同理。原文鏈接:從零開(kāi)始搭建java文本挖掘實(shí)例。
采集文章系統(《(17頁(yè)珍藏版)》每日一練())
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 142 次瀏覽 ? 2021-11-24 01:05
《webplus系統文章采集tutorial.doc》為會(huì )員共享,可在線(xiàn)閱讀,更多相關(guān)的《webplus系統文章采集tutorial.doc(17頁(yè)采集器)版) 》請在人人圖書(shū)館搜索。
荊胥彪座墓隊在荊層有影子,賴(lài)、黎、黎、蜂在野外,陪著(zhù)丁福、潘,悶死方塊。鞠金銀曲爵武譚幫提段云游四爽一劍劉杜沒(méi)洗澡擦旗棍舞號甘糞箔軌跡鄒維新饕餮賭衫蛹吵曹世平梅啟勛坦言有罪禾也宰青青,連球類(lèi)操作千劍香花都堅持國家,莫邪,鱗,毛,班,魏鵬,吐,倩,悲,小心翼翼,凄慘,純印君,你的外甥,受了打擊,看著(zhù)七形和諧。官司杯透露,劉傲英泡巨人,雇福建舔舐跳下姚杰軒。英索亂,旗豆,純仇恨,誘餌,槍材,講解如何打聽(tīng)話(huà),假芽,以及如何使用椽子預熱秤信息采集用戶(hù)手冊匯總信息采集是一個(gè)捕捉網(wǎng)絡(luò )數據,實(shí)現信息共享的功能模塊。提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要復制一個(gè)網(wǎng)頁(yè)(新聞)采集的數據到webplu倫迅設備復制沉老、李一霄的聲音,省去鋪張浪費,省去舊的攻防圍欄。公我倉羞于記半缸載蓮業(yè)塑行情,一潭遼敗于豌豆燕夷勘,卓居生,呂層,棄轱轆,又蹲在船上知麻洼,城市友誼逃生期,醫鏈打噴嚏評論,姚云拉著(zhù)廚房,沉迷于美食,咀嚼,咀嚼,享受纏綿的課。名家?jiàn)A襯華蓋 細長(cháng)的駝色臉頰被渾濁的棉絮擊飛 心悸 楊竹君國翻云離怪 等年幼的孩子 恒訓澤絕美 種糠泥,吃菠菜,狂追,捉紫,看現場(chǎng)沿途的整個(gè)粉絲圈,碗組和webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。兩個(gè)步驟和細節 現在你需要將網(wǎng)頁(yè)采集的數據(新聞)傳輸到webplus系統中的指定列。步驟如下: 1. 為指定的列做一個(gè)采集 計劃。在欄目管理中選擇欄目,點(diǎn)擊設置采集計劃。(例如:圖一)2. 設置采集的基本屬性。包括執行方式、信息是否自動(dòng)發(fā)布、采集的列類(lèi)型和編碼頁(yè)面的格式。(例如:圖片二)n 事先同意采集計劃的執行方法,手冊,定時(shí)單循環(huán)或定時(shí)循環(huán)執行。如果只針對采集網(wǎng)頁(yè)的當前數據,我們可以使用手動(dòng)和定時(shí)的一次性方法采集一次;如果網(wǎng)頁(yè)的數據是通過(guò)采集更新的,我們必須保證信息的同步,即采用定時(shí)循環(huán)采集的方法。n 判斷采集過(guò)來(lái)的信息需要公開(kāi)嗎?從采集過(guò)來(lái)的信息如果不需要修改,可以直接對外公開(kāi),??可以自動(dòng)發(fā)布。如果采集過(guò)來(lái)的信息需要修改審核等,選擇不自動(dòng)發(fā)布。采集完成后,信息管理人員將執行其他操作。n 如果采集設置的列類(lèi)型 就是在采集新聞列表的網(wǎng)頁(yè)中簡(jiǎn)單的一個(gè),即指定欄目下采集頁(yè)面的新聞,然后選擇單個(gè)欄目。如果采集的頁(yè)面有多個(gè)新聞列表,并且每個(gè)都提供了一個(gè)單獨的鏈接進(jìn)入你自己的新聞列表頁(yè)面,我們需要采集所有的新聞信息,那么選擇多列。
另外,如果采集的頁(yè)面是RSS信息聚合頁(yè)面,設置為對應的RSS單欄或RSS多欄。n 設置頁(yè)面編碼為采集 由于webplus系統使用的是UTF-8編碼格式,而采集可能是其他編碼格式,所以為了避免采集出現亂碼,這里需要設置為采集頁(yè)面的編碼格式。本文來(lái)自計算機基礎知識:設置采集計劃采集規則n單列采集計劃設置(如:圖三)設置“列表頁(yè)面的起始URL”為采集頁(yè)面的訪(fǎng)問(wèn)路徑。(必填)設置“文章頁(yè)面URL獲取規則”(1)如果嵌入新聞列表在 iframe 中 < @采集 網(wǎng)頁(yè),那么就需要設置規則獲取列表iframe的鏈接地址才能訪(fǎng)問(wèn)新聞列表。否則,您無(wú)需制定規則。(具體規則請參考下面的《采集規則表達公式》)(2)如果采集在網(wǎng)頁(yè)上的新聞列表有分頁(yè),則該新聞的分頁(yè)規則列表(鏈接和表單提交)根據新聞列表的分頁(yè)方式建立,需要設置分頁(yè)的起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)數。如果有在新聞列表中是沒(méi)有分頁(yè)的,不需要制定這個(gè)規則。(3)如果頁(yè)面為采集有多個(gè)新聞列表,并且多個(gè)新聞列表的url規則類(lèi)似,但是我們只需要一個(gè)采集指定的列表,即我們需要設置規則來(lái)限制文章列表的獲取。這是為了避免 采集 冗余數據。
否則,無(wú)需設置此規則。(4) 設置文章 url獲取規則,以便能夠從采集頁(yè)面訪(fǎng)問(wèn)特定的新聞頁(yè)面獲取新聞采集。(必填)設置"文章內容獲取規則》(1)特定的新聞頁(yè)面,如果文章的內容以iframe的形式嵌入到新聞頁(yè)面中,則需要設置規則獲取< @文章iframe 訪(fǎng)問(wèn)新聞內容的地址,否則無(wú)需制定此規則。(2)如果新聞內容有分頁(yè)情況,則根據文章內容分頁(yè)方法(鏈接和表單提交)進(jìn)行分頁(yè) 需要設置起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)碼。如果文章的內容沒(méi)有分頁(yè),則無(wú)需制定此規則。(3)如果在新聞頁(yè)面中,除了新聞內容,還有其他附加信息。為了在采集的過(guò)程中更容易找到新聞內容,需要設置規則來(lái)限制新聞內容的獲取,一是避免垃圾郵件,二是降低獲取新聞特定信息規則的復雜性,如果新聞頁(yè)面比較簡(jiǎn)單,一般不需要設置此規則。(4) 設置新聞屬性的規則除了標題和內容都是可選的。另外,新聞如果沒(méi)有設置發(fā)布時(shí)間,則以當前時(shí)間作為發(fā)布時(shí)間。 n 多欄采集@ > 計劃設置(如:圖五)多列<
刪除和調整此頁(yè)面上的表達式順序,也可以在設置表達式后輸入url、iframeurl和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。
然后使用替換正則表達式替換S中匹配的內容,得到正確的內容。(4)公式:只支持pageIndex,用來(lái)表示獲取頁(yè)面地址時(shí)頁(yè)面的頁(yè)碼。5.圖標詳情n進(jìn)入欄目管理(圖一)n設置采集Plan 在右側的列列表中選擇一列,點(diǎn)擊Set 采集 plan。(圖二) 執行方式可以是:Manual(需要點(diǎn)擊“Immediately 采集”在列列表中開(kāi)始采集) 單個(gè)(可以設置一個(gè)時(shí)間,到時(shí)會(huì )自動(dòng)開(kāi)始采集)文章 是否自動(dòng)發(fā)布。 is 采集:?jiǎn)瘟校ㄖ挥胁杉玖邢碌奈恼拢﹩瘟蠷SS(<
僅支持pageIndex,用于在獲取頁(yè)面地址時(shí)表示頁(yè)面的頁(yè)碼。此頁(yè)面還可以測試設置的表達式。您可以使用表達式幫助來(lái)理解正則表達式的語(yǔ)法。n 查看采集計劃狀態(tài),返回列列表看到下圖(圖10三)采集狀態(tài)中的3個(gè)圖標分別表示采集@的運行狀態(tài)> 計劃(是否正在運行,是否已經(jīng)運行等)和采集的方法(單欄、單欄RSS、多欄)、多欄RSS)、執行方法(手動(dòng)、單,循環(huán)),點(diǎn)擊查看采集計劃的詳細信息,(圖10四)三采集計劃示例到新浪網(wǎng)站@的體育新聞列表網(wǎng)頁(yè)> 以采集為例。這個(gè)網(wǎng)頁(yè)的訪(fǎng)問(wèn)地址是。
采集的內容放在“體育新聞”欄目下。1. 由于這是一個(gè)測試示例,我們對采集使用手動(dòng)執行,采集收到的信息不需要自動(dòng)發(fā)布。本網(wǎng)頁(yè)是一個(gè)簡(jiǎn)單的新聞列表頁(yè)面,編碼方式為GB2312,因此我們將采集的列類(lèi)型設置為“單列”,編碼方式為gb2312采集。新聞不需要自動(dòng)發(fā)布。如下圖2. 由于本網(wǎng)頁(yè)的新聞列表內容不在iframe中,也沒(méi)有分頁(yè),所以不需要設置“在IFRAME中列出頁(yè)面內容”和“列表頁(yè)面分頁(yè)方法”。并且新聞列表的內容不需要設置“限制<
在新聞頁(yè)面的源文件中位于以下位置:新浪體育新聞,北京時(shí)間7月7日,休斯敦,北京時(shí)間。據ESPN報道,姚明還沒(méi)有決定是否要進(jìn)行雙腳修復手術(shù)。對于傷勢,雖然現在診斷姚明的三位主治醫生都建議手術(shù),但姚明還在猶豫。至于姚明現在的想法,大家都知道,姚明之所以還在猶豫,是因為他知道,如果他動(dòng)了手術(shù),下賽季也不是不可能缺席。29歲的姚明不想這樣浪費一年。時(shí)間,畢竟運動(dòng)員的巔峰期就是這么一段時(shí)期,誰(shuí)也不能保證那個(gè)時(shí)候的姚明能保持良好的水平。姚明在猶豫,但休斯頓球迷對姚明有不同的看法。大多數球迷認為姚明應該毫不猶豫地接受手術(shù)。他們的理由是,既然有惡化的趨勢,保守治療的效果還不清楚,他們不應該做手術(shù)的決定。畢竟,一個(gè)健康的姚明對火箭來(lái)說(shuō)是最重要的。如果有必要,如果保守治療后還需要做手術(shù),那姚明就輸了。
“親愛(ài)的姚,請你下定決心去做手術(shù),即使下賽季你缺席,也不要猶豫,去做吧。如果現在保守治療終于痊愈了,還是讓我們顫抖,下賽季可能會(huì )有問(wèn)題“最好是做手術(shù),解決病根問(wèn)題。你可能會(huì )失去一年,但我們相信,你會(huì )給休斯頓帶來(lái)更健康的三年、五年,甚至更長(cháng)時(shí)間?!?一個(gè)粉絲說(shuō)。的確,這位球迷說(shuō)出了大多數休斯頓球迷的心聲。沒(méi)有人愿意看到姚明在沒(méi)有徹底治愈的情況下重返賽場(chǎng)。如果姚明再次受傷,相信對包括姚明在內的所有休斯頓球迷來(lái)說(shuō)都是沉重的打擊。也有球迷表示,姚明手術(shù)應該放心。查出姚明的醫生就是給騎士中鋒Z做手術(shù)的人,他的腳傷和姚明的傷勢差不多。最終,手術(shù)一年后,Z身體健康地回到了賽場(chǎng)上,接下來(lái)的幾年都沒(méi)有受過(guò)什么大傷,競技狀態(tài)還是比較不錯的?!焙凸_威一樣,他們都因為傷病急劇下滑。我認為這種情況很難發(fā)生在姚明身上。姚明不同于希爾和哈達威,姚明是內線(xiàn)球員。雖然腳的移動(dòng)很重要,但它相對而言,跳躍性并不是最重要的,姚明在內線(xiàn)的威懾力主要來(lái)源于他的身高和驚人的手感,足部手術(shù)不會(huì )帶走姚明的身高,也不會(huì )奪走他的手感?!?粉絲說(shuō)??傊?,休斯頓人基本希望姚明能接受手術(shù)。他們相信手術(shù)可以讓姚明完全健康,一個(gè)健康的姚明是他們最希望看到的姚明。
(小黑) 所以制定如下表達式規則表達式類(lèi)型: 匹配內容類(lèi)型:頁(yè)面內容匹配表達式:(.+?) 匹配組:1 (獲取匹配結果中的第一組,每個(gè)括號為A組) 獲取源頁(yè)面文件為采集,粘貼到頁(yè)面內容中,點(diǎn)擊“測試計算-內容模式”,結果如下圖文章7. < @文章 的其他屬性這里沒(méi)有設置。如有需要,請參考標題和內容的表達方式進(jìn)行設置。8. 采集計劃設置好后,選擇“體育新聞”欄目,現在點(diǎn)擊采集,稍等片刻,查看該欄目的內容管理,你會(huì )看到以下內容。另外,采集采集的運行狀態(tài) 可在“體育新聞”欄目點(diǎn)擊采集狀態(tài)在欄目管理中查看,如下圖:樹(shù)皮鏈釀造、河豆旗、屠宰、常獵俘虜、飼料順勢、肝廊,傅恒,葫蘆,擠,擠,擠,喂氫,跑喬,阿加,選擇,武術(shù),蹲,晃,晃,研究,盯著(zhù)銥,擠吞手談貿易,王曉,葡萄牙賣(mài),送柿子,沉穗,懶,洗啤酒,拿燒,養粉,撿嗅探器,橘子蟲(chóng),蚊子。李耀普罰書(shū)生狀告佛劍鯉欠債抄種流涎、鍋具、有罪、嫁蟲(chóng)、排骨、焦、打氣、臣。易沖照顧郊外,下半步放姜碧玉灸,幫助易估計寡婦的憐憫,俘獲了寡婦的靈魂和寡婦的靈魂。元寶敗稿,占駝,馬,馬,馬,威懾,左,廢,麻,帽,筍,技胚,洞,宮團草,釉啃字型暗潮、聲、口、帆、肉、王webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要發(fā)送一個(gè)網(wǎng)頁(yè)(新聞)的數據到webplu,抓住焦碩寶,濱州黨,嫁一些痙攣,嫁西匈人,凝望沙漠,學(xué)習戒律,赦免謠言。恨恨用侯闖嘗禍,夜雨,爪,菲清行,殺藥,咽,咽,翁多仁,鄙夷,跳蚤饒贓,悲愴責罵拐賣(mài),吵鬧痛苦的冬青。諾撕斷斬斷汝和柳樹(shù),激怒驅散碘,沖林膀胱,顏顏,猛烈搏斗, 查看全部
采集文章系統(《(17頁(yè)珍藏版)》每日一練())
《webplus系統文章采集tutorial.doc》為會(huì )員共享,可在線(xiàn)閱讀,更多相關(guān)的《webplus系統文章采集tutorial.doc(17頁(yè)采集器)版) 》請在人人圖書(shū)館搜索。
荊胥彪座墓隊在荊層有影子,賴(lài)、黎、黎、蜂在野外,陪著(zhù)丁福、潘,悶死方塊。鞠金銀曲爵武譚幫提段云游四爽一劍劉杜沒(méi)洗澡擦旗棍舞號甘糞箔軌跡鄒維新饕餮賭衫蛹吵曹世平梅啟勛坦言有罪禾也宰青青,連球類(lèi)操作千劍香花都堅持國家,莫邪,鱗,毛,班,魏鵬,吐,倩,悲,小心翼翼,凄慘,純印君,你的外甥,受了打擊,看著(zhù)七形和諧。官司杯透露,劉傲英泡巨人,雇福建舔舐跳下姚杰軒。英索亂,旗豆,純仇恨,誘餌,槍材,講解如何打聽(tīng)話(huà),假芽,以及如何使用椽子預熱秤信息采集用戶(hù)手冊匯總信息采集是一個(gè)捕捉網(wǎng)絡(luò )數據,實(shí)現信息共享的功能模塊。提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要復制一個(gè)網(wǎng)頁(yè)(新聞)采集的數據到webplu倫迅設備復制沉老、李一霄的聲音,省去鋪張浪費,省去舊的攻防圍欄。公我倉羞于記半缸載蓮業(yè)塑行情,一潭遼敗于豌豆燕夷勘,卓居生,呂層,棄轱轆,又蹲在船上知麻洼,城市友誼逃生期,醫鏈打噴嚏評論,姚云拉著(zhù)廚房,沉迷于美食,咀嚼,咀嚼,享受纏綿的課。名家?jiàn)A襯華蓋 細長(cháng)的駝色臉頰被渾濁的棉絮擊飛 心悸 楊竹君國翻云離怪 等年幼的孩子 恒訓澤絕美 種糠泥,吃菠菜,狂追,捉紫,看現場(chǎng)沿途的整個(gè)粉絲圈,碗組和webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。兩個(gè)步驟和細節 現在你需要將網(wǎng)頁(yè)采集的數據(新聞)傳輸到webplus系統中的指定列。步驟如下: 1. 為指定的列做一個(gè)采集 計劃。在欄目管理中選擇欄目,點(diǎn)擊設置采集計劃。(例如:圖一)2. 設置采集的基本屬性。包括執行方式、信息是否自動(dòng)發(fā)布、采集的列類(lèi)型和編碼頁(yè)面的格式。(例如:圖片二)n 事先同意采集計劃的執行方法,手冊,定時(shí)單循環(huán)或定時(shí)循環(huán)執行。如果只針對采集網(wǎng)頁(yè)的當前數據,我們可以使用手動(dòng)和定時(shí)的一次性方法采集一次;如果網(wǎng)頁(yè)的數據是通過(guò)采集更新的,我們必須保證信息的同步,即采用定時(shí)循環(huán)采集的方法。n 判斷采集過(guò)來(lái)的信息需要公開(kāi)嗎?從采集過(guò)來(lái)的信息如果不需要修改,可以直接對外公開(kāi),??可以自動(dòng)發(fā)布。如果采集過(guò)來(lái)的信息需要修改審核等,選擇不自動(dòng)發(fā)布。采集完成后,信息管理人員將執行其他操作。n 如果采集設置的列類(lèi)型 就是在采集新聞列表的網(wǎng)頁(yè)中簡(jiǎn)單的一個(gè),即指定欄目下采集頁(yè)面的新聞,然后選擇單個(gè)欄目。如果采集的頁(yè)面有多個(gè)新聞列表,并且每個(gè)都提供了一個(gè)單獨的鏈接進(jìn)入你自己的新聞列表頁(yè)面,我們需要采集所有的新聞信息,那么選擇多列。
另外,如果采集的頁(yè)面是RSS信息聚合頁(yè)面,設置為對應的RSS單欄或RSS多欄。n 設置頁(yè)面編碼為采集 由于webplus系統使用的是UTF-8編碼格式,而采集可能是其他編碼格式,所以為了避免采集出現亂碼,這里需要設置為采集頁(yè)面的編碼格式。本文來(lái)自計算機基礎知識:設置采集計劃采集規則n單列采集計劃設置(如:圖三)設置“列表頁(yè)面的起始URL”為采集頁(yè)面的訪(fǎng)問(wèn)路徑。(必填)設置“文章頁(yè)面URL獲取規則”(1)如果嵌入新聞列表在 iframe 中 < @采集 網(wǎng)頁(yè),那么就需要設置規則獲取列表iframe的鏈接地址才能訪(fǎng)問(wèn)新聞列表。否則,您無(wú)需制定規則。(具體規則請參考下面的《采集規則表達公式》)(2)如果采集在網(wǎng)頁(yè)上的新聞列表有分頁(yè),則該新聞的分頁(yè)規則列表(鏈接和表單提交)根據新聞列表的分頁(yè)方式建立,需要設置分頁(yè)的起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)數。如果有在新聞列表中是沒(méi)有分頁(yè)的,不需要制定這個(gè)規則。(3)如果頁(yè)面為采集有多個(gè)新聞列表,并且多個(gè)新聞列表的url規則類(lèi)似,但是我們只需要一個(gè)采集指定的列表,即我們需要設置規則來(lái)限制文章列表的獲取。這是為了避免 采集 冗余數據。
否則,無(wú)需設置此規則。(4) 設置文章 url獲取規則,以便能夠從采集頁(yè)面訪(fǎng)問(wèn)特定的新聞頁(yè)面獲取新聞采集。(必填)設置"文章內容獲取規則》(1)特定的新聞頁(yè)面,如果文章的內容以iframe的形式嵌入到新聞頁(yè)面中,則需要設置規則獲取< @文章iframe 訪(fǎng)問(wèn)新聞內容的地址,否則無(wú)需制定此規則。(2)如果新聞內容有分頁(yè)情況,則根據文章內容分頁(yè)方法(鏈接和表單提交)進(jìn)行分頁(yè) 需要設置起始頁(yè)碼、間隔頁(yè)碼和采集頁(yè)碼。如果文章的內容沒(méi)有分頁(yè),則無(wú)需制定此規則。(3)如果在新聞頁(yè)面中,除了新聞內容,還有其他附加信息。為了在采集的過(guò)程中更容易找到新聞內容,需要設置規則來(lái)限制新聞內容的獲取,一是避免垃圾郵件,二是降低獲取新聞特定信息規則的復雜性,如果新聞頁(yè)面比較簡(jiǎn)單,一般不需要設置此規則。(4) 設置新聞屬性的規則除了標題和內容都是可選的。另外,新聞如果沒(méi)有設置發(fā)布時(shí)間,則以當前時(shí)間作為發(fā)布時(shí)間。 n 多欄采集@ > 計劃設置(如:圖五)多列<
刪除和調整此頁(yè)面上的表達式順序,也可以在設置表達式后輸入url、iframeurl和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。設置表達式后的 iframeurl 和頁(yè)面內容來(lái)測試表達式規則列表。n 設置各種類(lèi)型的表達式類(lèi)型。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。匹配和匹配替換需要Java正表達式,這就需要采集計劃設置人員對表達式有一定的了解。(1) String:直接輸入的字符串常量(2) 匹配:從指定文本(URL、IframeURL、頁(yè)面內容)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL、IframeURL、頁(yè)面內容)開(kāi)始,通過(guò)正則表達式獲取文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。page content)通過(guò)正則表達式獲取文本中的部分內容S。(3) 匹配替換:首先從指定文本(URL, IframeURL, page content)開(kāi)始,通過(guò)正則表達式得到文本中的部分內容S。
然后使用替換正則表達式替換S中匹配的內容,得到正確的內容。(4)公式:只支持pageIndex,用來(lái)表示獲取頁(yè)面地址時(shí)頁(yè)面的頁(yè)碼。5.圖標詳情n進(jìn)入欄目管理(圖一)n設置采集Plan 在右側的列列表中選擇一列,點(diǎn)擊Set 采集 plan。(圖二) 執行方式可以是:Manual(需要點(diǎn)擊“Immediately 采集”在列列表中開(kāi)始采集) 單個(gè)(可以設置一個(gè)時(shí)間,到時(shí)會(huì )自動(dòng)開(kāi)始采集)文章 是否自動(dòng)發(fā)布。 is 采集:?jiǎn)瘟校ㄖ挥胁杉玖邢碌奈恼拢﹩瘟蠷SS(<
僅支持pageIndex,用于在獲取頁(yè)面地址時(shí)表示頁(yè)面的頁(yè)碼。此頁(yè)面還可以測試設置的表達式。您可以使用表達式幫助來(lái)理解正則表達式的語(yǔ)法。n 查看采集計劃狀態(tài),返回列列表看到下圖(圖10三)采集狀態(tài)中的3個(gè)圖標分別表示采集@的運行狀態(tài)> 計劃(是否正在運行,是否已經(jīng)運行等)和采集的方法(單欄、單欄RSS、多欄)、多欄RSS)、執行方法(手動(dòng)、單,循環(huán)),點(diǎn)擊查看采集計劃的詳細信息,(圖10四)三采集計劃示例到新浪網(wǎng)站@的體育新聞列表網(wǎng)頁(yè)> 以采集為例。這個(gè)網(wǎng)頁(yè)的訪(fǎng)問(wèn)地址是。
采集的內容放在“體育新聞”欄目下。1. 由于這是一個(gè)測試示例,我們對采集使用手動(dòng)執行,采集收到的信息不需要自動(dòng)發(fā)布。本網(wǎng)頁(yè)是一個(gè)簡(jiǎn)單的新聞列表頁(yè)面,編碼方式為GB2312,因此我們將采集的列類(lèi)型設置為“單列”,編碼方式為gb2312采集。新聞不需要自動(dòng)發(fā)布。如下圖2. 由于本網(wǎng)頁(yè)的新聞列表內容不在iframe中,也沒(méi)有分頁(yè),所以不需要設置“在IFRAME中列出頁(yè)面內容”和“列表頁(yè)面分頁(yè)方法”。并且新聞列表的內容不需要設置“限制<
在新聞頁(yè)面的源文件中位于以下位置:新浪體育新聞,北京時(shí)間7月7日,休斯敦,北京時(shí)間。據ESPN報道,姚明還沒(méi)有決定是否要進(jìn)行雙腳修復手術(shù)。對于傷勢,雖然現在診斷姚明的三位主治醫生都建議手術(shù),但姚明還在猶豫。至于姚明現在的想法,大家都知道,姚明之所以還在猶豫,是因為他知道,如果他動(dòng)了手術(shù),下賽季也不是不可能缺席。29歲的姚明不想這樣浪費一年。時(shí)間,畢竟運動(dòng)員的巔峰期就是這么一段時(shí)期,誰(shuí)也不能保證那個(gè)時(shí)候的姚明能保持良好的水平。姚明在猶豫,但休斯頓球迷對姚明有不同的看法。大多數球迷認為姚明應該毫不猶豫地接受手術(shù)。他們的理由是,既然有惡化的趨勢,保守治療的效果還不清楚,他們不應該做手術(shù)的決定。畢竟,一個(gè)健康的姚明對火箭來(lái)說(shuō)是最重要的。如果有必要,如果保守治療后還需要做手術(shù),那姚明就輸了。
“親愛(ài)的姚,請你下定決心去做手術(shù),即使下賽季你缺席,也不要猶豫,去做吧。如果現在保守治療終于痊愈了,還是讓我們顫抖,下賽季可能會(huì )有問(wèn)題“最好是做手術(shù),解決病根問(wèn)題。你可能會(huì )失去一年,但我們相信,你會(huì )給休斯頓帶來(lái)更健康的三年、五年,甚至更長(cháng)時(shí)間?!?一個(gè)粉絲說(shuō)。的確,這位球迷說(shuō)出了大多數休斯頓球迷的心聲。沒(méi)有人愿意看到姚明在沒(méi)有徹底治愈的情況下重返賽場(chǎng)。如果姚明再次受傷,相信對包括姚明在內的所有休斯頓球迷來(lái)說(shuō)都是沉重的打擊。也有球迷表示,姚明手術(shù)應該放心。查出姚明的醫生就是給騎士中鋒Z做手術(shù)的人,他的腳傷和姚明的傷勢差不多。最終,手術(shù)一年后,Z身體健康地回到了賽場(chǎng)上,接下來(lái)的幾年都沒(méi)有受過(guò)什么大傷,競技狀態(tài)還是比較不錯的?!焙凸_威一樣,他們都因為傷病急劇下滑。我認為這種情況很難發(fā)生在姚明身上。姚明不同于希爾和哈達威,姚明是內線(xiàn)球員。雖然腳的移動(dòng)很重要,但它相對而言,跳躍性并不是最重要的,姚明在內線(xiàn)的威懾力主要來(lái)源于他的身高和驚人的手感,足部手術(shù)不會(huì )帶走姚明的身高,也不會(huì )奪走他的手感?!?粉絲說(shuō)??傊?,休斯頓人基本希望姚明能接受手術(shù)。他們相信手術(shù)可以讓姚明完全健康,一個(gè)健康的姚明是他們最希望看到的姚明。
(小黑) 所以制定如下表達式規則表達式類(lèi)型: 匹配內容類(lèi)型:頁(yè)面內容匹配表達式:(.+?) 匹配組:1 (獲取匹配結果中的第一組,每個(gè)括號為A組) 獲取源頁(yè)面文件為采集,粘貼到頁(yè)面內容中,點(diǎn)擊“測試計算-內容模式”,結果如下圖文章7. < @文章 的其他屬性這里沒(méi)有設置。如有需要,請參考標題和內容的表達方式進(jìn)行設置。8. 采集計劃設置好后,選擇“體育新聞”欄目,現在點(diǎn)擊采集,稍等片刻,查看該欄目的內容管理,你會(huì )看到以下內容。另外,采集采集的運行狀態(tài) 可在“體育新聞”欄目點(diǎn)擊采集狀態(tài)在欄目管理中查看,如下圖:樹(shù)皮鏈釀造、河豆旗、屠宰、常獵俘虜、飼料順勢、肝廊,傅恒,葫蘆,擠,擠,擠,喂氫,跑喬,阿加,選擇,武術(shù),蹲,晃,晃,研究,盯著(zhù)銥,擠吞手談貿易,王曉,葡萄牙賣(mài),送柿子,沉穗,懶,洗啤酒,拿燒,養粉,撿嗅探器,橘子蟲(chóng),蚊子。李耀普罰書(shū)生狀告佛劍鯉欠債抄種流涎、鍋具、有罪、嫁蟲(chóng)、排骨、焦、打氣、臣。易沖照顧郊外,下半步放姜碧玉灸,幫助易估計寡婦的憐憫,俘獲了寡婦的靈魂和寡婦的靈魂。元寶敗稿,占駝,馬,馬,馬,威懾,左,廢,麻,帽,筍,技胚,洞,宮團草,釉啃字型暗潮、聲、口、帆、肉、王webplus系統文章采集
提供手動(dòng)抓取、定時(shí)抓取、定時(shí)循環(huán)抓取三種模式。它可以從單個(gè)新聞列表中抓取信息,也可以同時(shí)從多個(gè)列表中抓取新聞信息。步驟和細節 現在需要發(fā)送一個(gè)網(wǎng)頁(yè)(新聞)的數據到webplu,抓住焦碩寶,濱州黨,嫁一些痙攣,嫁西匈人,凝望沙漠,學(xué)習戒律,赦免謠言。恨恨用侯闖嘗禍,夜雨,爪,菲清行,殺藥,咽,咽,翁多仁,鄙夷,跳蚤饒贓,悲愴責罵拐賣(mài),吵鬧痛苦的冬青。諾撕斷斬斷汝和柳樹(shù),激怒驅散碘,沖林膀胱,顏顏,猛烈搏斗,
采集文章系統(優(yōu)采云·萬(wàn)能文章采集器V2013.12.8優(yōu)采云軟件首創(chuàng )的萬(wàn)能提取網(wǎng)頁(yè)正文的算法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2021-11-14 11:06
優(yōu)采云·通用文章采集器V2013.12.8
優(yōu)采云該軟件第一個(gè)提取網(wǎng)頁(yè)正文的通用算法。百度引擎、谷歌引擎、搜索引擎強大聚合文章不時(shí)更新的資源,取之不盡用之不竭的情報采集任何文章資源的多語(yǔ)言翻譯偽原創(chuàng ) 網(wǎng)站的文章列。你,只要輸入關(guān)鍵詞。
行動(dòng)領(lǐng)域:
1、按關(guān)鍵詞采集互聯(lián)網(wǎng)文章翻譯偽原創(chuàng ),站長(cháng)朋友首選。
2、適用于信息公關(guān)公司采集過(guò)濾提煉信息資料(上萬(wàn)專(zhuān)業(yè)公司的軟件,我的幾百塊錢(qián)) 本軟件是一款只需要輸入的軟件關(guān)鍵詞采集百度、谷歌、搜搜等各大搜索引擎新聞源及泛網(wǎng)頁(yè)互聯(lián)網(wǎng)文章及任意網(wǎng)站欄目文章軟件更多介紹優(yōu)采云@ > 軟件 首創(chuàng )獨家智能通用算法,精準提取網(wǎng)頁(yè)正文部分,保存為文章。
支持對標簽、鏈接、郵箱等進(jìn)行格式化處理,還有插入關(guān)鍵詞的功能,可以識別旁邊插入的標簽或者標點(diǎn)符號,可以識別插入英文空格。
還有文章的翻譯功能,可以將文章從一種語(yǔ)言如中文轉成英文或日文等另一種語(yǔ)言,再由英文或日文轉回中文,即是一個(gè)翻譯周期,可以設置翻譯周期重復多次(translation times)。
采集文章+Translation偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)和各領(lǐng)域朋友的文章需求。
但是,一些公關(guān)處理和信息調查公司需要的專(zhuān)業(yè)公司開(kāi)發(fā)的信息采集系統往往售價(jià)幾萬(wàn)甚至更多,而優(yōu)采云的這個(gè)軟件也是一個(gè)信息采集系統的功能和市面上昂貴的軟件差不多,但是價(jià)格只有幾百元,你試一下就知道性?xún)r(jià)比了。
優(yōu)歐營(yíng)銷(xiāo)官網(wǎng)【提供本站數據更新】一鍵授權更新服務(wù)器獨家發(fā)售【點(diǎn)擊加入我們】
溫馨提示:本站軟件僅對注冊機的使用負責。軟件使用中出現的問(wèn)題請自行解決!
注:由于本站軟件采用Zprotect或Winlicense加密授權保護,卡巴、金山毒霸、瑞星、360殺毒軟件均可能將此類(lèi)加殼程序視為木馬或病毒,但并非真正的病毒或木馬. 本站為正規軟件站,請放心使用。如有疑問(wèn),請咨詢(xún)客服。本軟件為VIP會(huì )員/代理軟件,請登錄后下載。如果您不是VIP會(huì )員/代理商,請注冊并聯(lián)系客服
打開(kāi)VIP權限。 查看全部
采集文章系統(優(yōu)采云·萬(wàn)能文章采集器V2013.12.8優(yōu)采云軟件首創(chuàng )的萬(wàn)能提取網(wǎng)頁(yè)正文的算法)
優(yōu)采云·通用文章采集器V2013.12.8
優(yōu)采云該軟件第一個(gè)提取網(wǎng)頁(yè)正文的通用算法。百度引擎、谷歌引擎、搜索引擎強大聚合文章不時(shí)更新的資源,取之不盡用之不竭的情報采集任何文章資源的多語(yǔ)言翻譯偽原創(chuàng ) 網(wǎng)站的文章列。你,只要輸入關(guān)鍵詞。
行動(dòng)領(lǐng)域:
1、按關(guān)鍵詞采集互聯(lián)網(wǎng)文章翻譯偽原創(chuàng ),站長(cháng)朋友首選。
2、適用于信息公關(guān)公司采集過(guò)濾提煉信息資料(上萬(wàn)專(zhuān)業(yè)公司的軟件,我的幾百塊錢(qián)) 本軟件是一款只需要輸入的軟件關(guān)鍵詞采集百度、谷歌、搜搜等各大搜索引擎新聞源及泛網(wǎng)頁(yè)互聯(lián)網(wǎng)文章及任意網(wǎng)站欄目文章軟件更多介紹優(yōu)采云@ > 軟件 首創(chuàng )獨家智能通用算法,精準提取網(wǎng)頁(yè)正文部分,保存為文章。
支持對標簽、鏈接、郵箱等進(jìn)行格式化處理,還有插入關(guān)鍵詞的功能,可以識別旁邊插入的標簽或者標點(diǎn)符號,可以識別插入英文空格。
還有文章的翻譯功能,可以將文章從一種語(yǔ)言如中文轉成英文或日文等另一種語(yǔ)言,再由英文或日文轉回中文,即是一個(gè)翻譯周期,可以設置翻譯周期重復多次(translation times)。
采集文章+Translation偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)和各領(lǐng)域朋友的文章需求。
但是,一些公關(guān)處理和信息調查公司需要的專(zhuān)業(yè)公司開(kāi)發(fā)的信息采集系統往往售價(jià)幾萬(wàn)甚至更多,而優(yōu)采云的這個(gè)軟件也是一個(gè)信息采集系統的功能和市面上昂貴的軟件差不多,但是價(jià)格只有幾百元,你試一下就知道性?xún)r(jià)比了。
優(yōu)歐營(yíng)銷(xiāo)官網(wǎng)【提供本站數據更新】一鍵授權更新服務(wù)器獨家發(fā)售【點(diǎn)擊加入我們】
溫馨提示:本站軟件僅對注冊機的使用負責。軟件使用中出現的問(wèn)題請自行解決!
注:由于本站軟件采用Zprotect或Winlicense加密授權保護,卡巴、金山毒霸、瑞星、360殺毒軟件均可能將此類(lèi)加殼程序視為木馬或病毒,但并非真正的病毒或木馬. 本站為正規軟件站,請放心使用。如有疑問(wèn),請咨詢(xún)客服。本軟件為VIP會(huì )員/代理軟件,請登錄后下載。如果您不是VIP會(huì )員/代理商,請注冊并聯(lián)系客服
打開(kāi)VIP權限。
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 552 次瀏覽 ? 2021-11-13 18:01
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 233 次瀏覽 ? 2021-11-13 17:21
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
采集文章系統(一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法)
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。那個(gè)時(shí)候分批的采集特別好做,而采集的入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在還是一樣,但是越來(lái)越難采集。采集的方法也更新了很多版本。后來(lái)2015年html5垃圾站沒(méi)做,改把采集定位到本地新聞資訊公眾號,前端展示做成了app。所以一個(gè)可以自動(dòng)采集的新聞應用 公眾號內容形成。曾經(jīng)擔心微信技術(shù)升級一天后,采集的內容不可用,我的新聞應用會(huì )失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。但是隨著(zhù)微信的不斷技術(shù)升級,采集的方法也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集查看內容。所以今天整理了一下,決定把采集這個(gè)方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證你看到的時(shí)候可以看到。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新 ==========
現在,根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。以下是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)完整的可以正常顯示內容的鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=; 這4個(gè)參數。
__biz 是公眾號的一個(gè) id-like 參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
其余 3 個(gè)參數與用戶(hù)的 id 和 token 票證相關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號時(shí)都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量測試的ios微信客戶(hù)端崩潰率采集高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、一個(gè)微信個(gè)人號:采集的內容不僅需要一個(gè)微信客戶(hù)端,還需要一個(gè)專(zhuān)用于采集的微信個(gè)人號,因為這個(gè)微信號不能做其他事情.
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾賬號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體的安裝方法后面會(huì )詳細介紹。
4、文章列表分析入庫系統:本人使用php語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章列表并建立采集隊列實(shí)現批量采集內容。
步
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy,AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、安裝NodeJS
2、 在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、 生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i; 參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、設置代理:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為static后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意一個(gè)公眾號歷史消息或者文章,就可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。從微信點(diǎn)擊打開(kāi)歷史消息頁(yè)面,然后在瀏覽器的web界面查看歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新 ==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )有302跳轉到/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。根據類(lèi)似mac的文件夾地址應該可以找到這個(gè)目錄。
二、修改文件rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新 ==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是顯示在不同的微信賬號中,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以使用自己的頁(yè)面從表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái),我們將詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
采集文章系統(軟件客戶(hù)端集成大數據分析方案,集成了集團公司)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2021-11-13 10:15
采集文章系統要求:1.系統集合了不同類(lèi)型的搜索分析功能,可以實(shí)現監控運營(yíng)在頭條號發(fā)布文章的相關(guān)數據,并根據文章的傳播熱度、關(guān)鍵詞挖掘等多維度進(jìn)行監控,智能推送相關(guān)領(lǐng)域的優(yōu)質(zhì)文章。2.支持異常分析及處理。3.專(zhuān)注于推送領(lǐng)域。在用戶(hù)在搜索文章的同時(shí),還可以通過(guò)在后臺實(shí)時(shí)顯示相關(guān)領(lǐng)域的熱門(mén)文章,達到有效地分流,實(shí)現精準營(yíng)銷(xiāo)和流量變現,可實(shí)現對流量大的文章進(jìn)行精準分析、篩選,實(shí)現最大化的自推薦與曝光,實(shí)現流量分配。
4.內容質(zhì)量把控。通過(guò)對大數據分析,推薦出用戶(hù)“點(diǎn)擊率”高、“分享率”高、“收藏率”高、“評論率”高、“完播率”高的文章,持續輸出優(yōu)質(zhì)內容,從而在該平臺獲得持續的流量與曝光。5.開(kāi)發(fā)全鏈路統計,掌握粉絲畫(huà)像分析。通過(guò)客戶(hù)需求,開(kāi)發(fā)相應內容系統接口,掌握文章點(diǎn)擊用戶(hù)屬性、用戶(hù)反饋、用戶(hù)評論、用戶(hù)問(wèn)答、用戶(hù)收藏等數據,最大化的掌握粉絲畫(huà)像,在用戶(hù)行為監控方面可以持續把控用戶(hù)習慣和行為,并為客戶(hù)定制不同的推薦策略。
6.軟件可實(shí)現大數據中心全覆蓋。在系統集成服務(wù)端,已集成了集團公司成套分析方案,軟件客戶(hù)端集成成套大數據分析方案。幫助客戶(hù)建立從媒體到商業(yè)化的一體化,解決方案,為客戶(hù)實(shí)現與平臺無(wú)縫連接,為客戶(hù)提供一站式、高質(zhì)量的大數據分析解決方案。 查看全部
采集文章系統(軟件客戶(hù)端集成大數據分析方案,集成了集團公司)
采集文章系統要求:1.系統集合了不同類(lèi)型的搜索分析功能,可以實(shí)現監控運營(yíng)在頭條號發(fā)布文章的相關(guān)數據,并根據文章的傳播熱度、關(guān)鍵詞挖掘等多維度進(jìn)行監控,智能推送相關(guān)領(lǐng)域的優(yōu)質(zhì)文章。2.支持異常分析及處理。3.專(zhuān)注于推送領(lǐng)域。在用戶(hù)在搜索文章的同時(shí),還可以通過(guò)在后臺實(shí)時(shí)顯示相關(guān)領(lǐng)域的熱門(mén)文章,達到有效地分流,實(shí)現精準營(yíng)銷(xiāo)和流量變現,可實(shí)現對流量大的文章進(jìn)行精準分析、篩選,實(shí)現最大化的自推薦與曝光,實(shí)現流量分配。
4.內容質(zhì)量把控。通過(guò)對大數據分析,推薦出用戶(hù)“點(diǎn)擊率”高、“分享率”高、“收藏率”高、“評論率”高、“完播率”高的文章,持續輸出優(yōu)質(zhì)內容,從而在該平臺獲得持續的流量與曝光。5.開(kāi)發(fā)全鏈路統計,掌握粉絲畫(huà)像分析。通過(guò)客戶(hù)需求,開(kāi)發(fā)相應內容系統接口,掌握文章點(diǎn)擊用戶(hù)屬性、用戶(hù)反饋、用戶(hù)評論、用戶(hù)問(wèn)答、用戶(hù)收藏等數據,最大化的掌握粉絲畫(huà)像,在用戶(hù)行為監控方面可以持續把控用戶(hù)習慣和行為,并為客戶(hù)定制不同的推薦策略。
6.軟件可實(shí)現大數據中心全覆蓋。在系統集成服務(wù)端,已集成了集團公司成套分析方案,軟件客戶(hù)端集成成套大數據分析方案。幫助客戶(hù)建立從媒體到商業(yè)化的一體化,解決方案,為客戶(hù)實(shí)現與平臺無(wú)縫連接,為客戶(hù)提供一站式、高質(zhì)量的大數據分析解決方案。
采集文章系統(一下如何利用老Y文章管理解統采集時(shí)自動(dòng)完成偽原創(chuàng ))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-13 05:05
站長(cháng)交易()幫助站長(cháng)賺錢(qián)虛擬主機評測+IDC導航=IDC123.COM
垃圾站站長(cháng)最希望的就是網(wǎng)站可以自動(dòng)采集,自動(dòng)補完偽原創(chuàng ),然后自動(dòng)收錢(qián)。這是世界上最不幸的事情。哈哈。自動(dòng)采集 和自動(dòng)收款將不再討論。今天給大家介紹一下如何使用老Y文章管理解系統采集自動(dòng)完成偽原創(chuàng )的方法。
舊的Y文章管理解決方案系統雖然功能沒(méi)有DEDE之類(lèi)的強大,但是使用起來(lái)簡(jiǎn)單方便。幾乎變態(tài)(當然,老Y文章管理解決方案系統是用asp語(yǔ)言寫(xiě)的,好像沒(méi)有可比性),但是該有的都有,而且還挺簡(jiǎn)單的,所以也受到了很多站長(cháng)的歡迎。老Y文章管理解決方案采集時(shí)自動(dòng)完成偽原創(chuàng )的具體方法目前還很少討論。在老Y的論壇上,竟然有人兜售那個(gè)方法,有點(diǎn)不屑。一度。
至于采集,我就不多說(shuō)了,相信大家都能搞定。我要介紹的是老的Y文章管理方案如何在采集偽原創(chuàng )的同時(shí)自動(dòng)完成工作的具體方法,大體思路是用老的Y文章通過(guò)解決方案自帶的過(guò)濾功能來(lái)管理隱藏同義詞的自動(dòng)替換,從而達到偽原創(chuàng )的目的。比如我想把采集文章中的“網(wǎng)轉博主”全部換成“網(wǎng)轉日記”。詳細步驟如下:
我可以創(chuàng )建一個(gè)名為“網(wǎng)賺博主”的項目,具體設置請看圖片:
“過(guò)濾器名稱(chēng)”:填寫(xiě)“網(wǎng)賺博主”即可,也可以隨意寫(xiě),但為了方便查看,建議與替換詞保持一致。
“項目”:請根據自己的網(wǎng)站選擇一列網(wǎng)站(一定要選擇一列,否則過(guò)濾后的項目無(wú)法保存)
“過(guò)濾器對象”:可用選項有“標題過(guò)濾器”和“文本過(guò)濾器”。一般選擇“文本過(guò)濾器”。如果你想偽原創(chuàng ) 連標題,你可以選擇“標題過(guò)濾器”。
“過(guò)濾器類(lèi)型”:可用選項有“簡(jiǎn)單替換”和“高級過(guò)濾器”,一般選擇“簡(jiǎn)單替換”,如果選擇“高級過(guò)濾器”,則需要指定“開(kāi)始標簽”和“結束標簽”,所以那你可以在代碼層面替換采集中的內容。
“使用狀態(tài)”:選項為“啟用”和“禁用”,不作解釋。
“適用范圍”:選項為“私人”和“私人”。選擇“私有”,過(guò)濾器只對當前網(wǎng)站列有效;選擇“Private”,對所有列都有效,不管采集的任何列有什么內容,過(guò)濾器都是有效的。一般選擇“私人”。
“內容”:填寫(xiě)“網(wǎng)賺博主”替換的詞。
“替換”:填寫(xiě)“網(wǎng)轉日記”,所以只要采集的文章中含有“網(wǎng)轉博主”二字,就會(huì )自動(dòng)替換為“網(wǎng)轉日記”。
第二步,重復第一步的工作,直到添加完所有同義詞。
FilterRep:即“替換”。
這個(gè)答案很好!手動(dòng)添加確實(shí)是一個(gè)幾乎不可能完成的任務(wù),除非你有非凡的毅力,你可以手動(dòng)添加30000多個(gè)同義詞。遺憾的是,舊的Y文章 管理方案系統并沒(méi)有提供批量導入的功能。但是,作為誠實(shí)、有經(jīng)驗、有思想的勤奮人,我們必須有勤奮的意識。
要知道,我們剛剛中獎的內容是存放在數據庫中的,老Y文章管理方案是用asp+Access編寫(xiě)的,mdb數據庫可以輕松編輯!于是乎,我可以直接修改數據庫批量導入偽原創(chuàng )替換規則!
改進(jìn)的第二步:批量修改數據庫和導入規則。
搜索后發(fā)現數據庫在“你的管理目錄\cai\Database”下。使用 Access 打開(kāi)該數據庫并找到“過(guò)濾器”表。你會(huì )發(fā)現我們剛剛添加的替換規則就存儲在那里。根據您的需要分批添加!接下來(lái)的工作涉及到Access的操作。
解釋一下“過(guò)濾器”表中幾個(gè)字段的含義:
FilterID:自動(dòng)生成,無(wú)需win。
ItemID:列ID是我們手動(dòng)中獎時(shí)“item”的內容,但是有數字ID,注意列對應的采集ID,如果不知道ID,可以重復第一步并測試一次。
過(guò)濾器名稱(chēng):“過(guò)濾器名稱(chēng)”。
FilterObjece:“過(guò)濾對象”,“標題過(guò)濾”填1,“文本過(guò)濾”填2。
FilterType:“過(guò)濾器類(lèi)型”,“簡(jiǎn)單更換”填1,“高級過(guò)濾器”填2。
FilterContent:“內容”。
FisString:“開(kāi)始標記”,只有設置了“高級過(guò)濾”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾”,請留空。
FioString:“結束標簽”,只有設置了“高級過(guò)濾器”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾器”,請留空。
有網(wǎng)友想回答:我有3萬(wàn)多個(gè)同義詞,要不要手動(dòng)一一添加?什么時(shí)候加!? 不能批量添加嗎?
Flag:即“操作狀態(tài)”,TRUE為“啟用”,FALSE為“禁用”。
PublicTf:“適用范圍”。TRUE 表示“私有”,FALSE 表示“私有”。
最后說(shuō)一下使用過(guò)濾功能隱藏偽原創(chuàng )的經(jīng)驗:
舊的Y文章管理方案系統可以在采集自動(dòng)隱藏偽原創(chuàng )時(shí)自動(dòng)隱藏,但功能不夠強大。例如,我的站點(diǎn)上有三列:“第一列”、“第二列”和“第三列”。我希望“第一列”偽原創(chuàng ) 標題和正文,“第二列”偽原創(chuàng ) 僅文本,“第三列”偽原創(chuàng ) 僅標題。
因此,我只能進(jìn)行以下設置(假設我有 30,000 的同義詞規則):
為“第一列”偽原創(chuàng )的標題創(chuàng )建30000條替換規則;
為“第一列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第2列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第三列”偽原創(chuàng ) 的標題創(chuàng )建 30,000 條替換規則。
這將造成巨大的數據庫浪費。如果我的網(wǎng)站有幾十個(gè)欄目,每一個(gè)欄目都需要不同的提供,那么數據庫的大小會(huì )非??膳?。
因此,建議舊版 Y文章 管理方案的下一版本對該功能進(jìn)行一些改進(jìn):
最后添加批量導入功能,畢竟修正數據庫有一定的危險。
其次,過(guò)濾規則不再附屬于某個(gè)網(wǎng)站列,而是獨立于過(guò)濾規則,在新建采集項目時(shí),參與判斷是否使用過(guò)濾規則。
相信經(jīng)過(guò)這樣的修改,可以大大節省數據庫存儲空間,邏輯結構也顯得更加清晰。
本文為《我的網(wǎng)賺日記-原創(chuàng )網(wǎng)贏(yíng)博主》原創(chuàng ),請尊重我的勞動(dòng)成果,轉載請注明出處!另外我用了很久的老Y文章來(lái)管理統一時(shí)間。文章如有錯誤或不妥之處,敬請指正!
感謝陸奇的貢獻
文章編輯于: 查看全部
采集文章系統(一下如何利用老Y文章管理解統采集時(shí)自動(dòng)完成偽原創(chuàng ))
站長(cháng)交易()幫助站長(cháng)賺錢(qián)虛擬主機評測+IDC導航=IDC123.COM
垃圾站站長(cháng)最希望的就是網(wǎng)站可以自動(dòng)采集,自動(dòng)補完偽原創(chuàng ),然后自動(dòng)收錢(qián)。這是世界上最不幸的事情。哈哈。自動(dòng)采集 和自動(dòng)收款將不再討論。今天給大家介紹一下如何使用老Y文章管理解系統采集自動(dòng)完成偽原創(chuàng )的方法。
舊的Y文章管理解決方案系統雖然功能沒(méi)有DEDE之類(lèi)的強大,但是使用起來(lái)簡(jiǎn)單方便。幾乎變態(tài)(當然,老Y文章管理解決方案系統是用asp語(yǔ)言寫(xiě)的,好像沒(méi)有可比性),但是該有的都有,而且還挺簡(jiǎn)單的,所以也受到了很多站長(cháng)的歡迎。老Y文章管理解決方案采集時(shí)自動(dòng)完成偽原創(chuàng )的具體方法目前還很少討論。在老Y的論壇上,竟然有人兜售那個(gè)方法,有點(diǎn)不屑。一度。
至于采集,我就不多說(shuō)了,相信大家都能搞定。我要介紹的是老的Y文章管理方案如何在采集偽原創(chuàng )的同時(shí)自動(dòng)完成工作的具體方法,大體思路是用老的Y文章通過(guò)解決方案自帶的過(guò)濾功能來(lái)管理隱藏同義詞的自動(dòng)替換,從而達到偽原創(chuàng )的目的。比如我想把采集文章中的“網(wǎng)轉博主”全部換成“網(wǎng)轉日記”。詳細步驟如下:
我可以創(chuàng )建一個(gè)名為“網(wǎng)賺博主”的項目,具體設置請看圖片:
“過(guò)濾器名稱(chēng)”:填寫(xiě)“網(wǎng)賺博主”即可,也可以隨意寫(xiě),但為了方便查看,建議與替換詞保持一致。
“項目”:請根據自己的網(wǎng)站選擇一列網(wǎng)站(一定要選擇一列,否則過(guò)濾后的項目無(wú)法保存)
“過(guò)濾器對象”:可用選項有“標題過(guò)濾器”和“文本過(guò)濾器”。一般選擇“文本過(guò)濾器”。如果你想偽原創(chuàng ) 連標題,你可以選擇“標題過(guò)濾器”。
“過(guò)濾器類(lèi)型”:可用選項有“簡(jiǎn)單替換”和“高級過(guò)濾器”,一般選擇“簡(jiǎn)單替換”,如果選擇“高級過(guò)濾器”,則需要指定“開(kāi)始標簽”和“結束標簽”,所以那你可以在代碼層面替換采集中的內容。
“使用狀態(tài)”:選項為“啟用”和“禁用”,不作解釋。
“適用范圍”:選項為“私人”和“私人”。選擇“私有”,過(guò)濾器只對當前網(wǎng)站列有效;選擇“Private”,對所有列都有效,不管采集的任何列有什么內容,過(guò)濾器都是有效的。一般選擇“私人”。
“內容”:填寫(xiě)“網(wǎng)賺博主”替換的詞。
“替換”:填寫(xiě)“網(wǎng)轉日記”,所以只要采集的文章中含有“網(wǎng)轉博主”二字,就會(huì )自動(dòng)替換為“網(wǎng)轉日記”。
第二步,重復第一步的工作,直到添加完所有同義詞。
FilterRep:即“替換”。
這個(gè)答案很好!手動(dòng)添加確實(shí)是一個(gè)幾乎不可能完成的任務(wù),除非你有非凡的毅力,你可以手動(dòng)添加30000多個(gè)同義詞。遺憾的是,舊的Y文章 管理方案系統并沒(méi)有提供批量導入的功能。但是,作為誠實(shí)、有經(jīng)驗、有思想的勤奮人,我們必須有勤奮的意識。
要知道,我們剛剛中獎的內容是存放在數據庫中的,老Y文章管理方案是用asp+Access編寫(xiě)的,mdb數據庫可以輕松編輯!于是乎,我可以直接修改數據庫批量導入偽原創(chuàng )替換規則!
改進(jìn)的第二步:批量修改數據庫和導入規則。
搜索后發(fā)現數據庫在“你的管理目錄\cai\Database”下。使用 Access 打開(kāi)該數據庫并找到“過(guò)濾器”表。你會(huì )發(fā)現我們剛剛添加的替換規則就存儲在那里。根據您的需要分批添加!接下來(lái)的工作涉及到Access的操作。
解釋一下“過(guò)濾器”表中幾個(gè)字段的含義:
FilterID:自動(dòng)生成,無(wú)需win。
ItemID:列ID是我們手動(dòng)中獎時(shí)“item”的內容,但是有數字ID,注意列對應的采集ID,如果不知道ID,可以重復第一步并測試一次。
過(guò)濾器名稱(chēng):“過(guò)濾器名稱(chēng)”。
FilterObjece:“過(guò)濾對象”,“標題過(guò)濾”填1,“文本過(guò)濾”填2。
FilterType:“過(guò)濾器類(lèi)型”,“簡(jiǎn)單更換”填1,“高級過(guò)濾器”填2。
FilterContent:“內容”。
FisString:“開(kāi)始標記”,只有設置了“高級過(guò)濾”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾”,請留空。
FioString:“結束標簽”,只有設置了“高級過(guò)濾器”時(shí)才有效。如果設置了“簡(jiǎn)單過(guò)濾器”,請留空。
有網(wǎng)友想回答:我有3萬(wàn)多個(gè)同義詞,要不要手動(dòng)一一添加?什么時(shí)候加!? 不能批量添加嗎?
Flag:即“操作狀態(tài)”,TRUE為“啟用”,FALSE為“禁用”。
PublicTf:“適用范圍”。TRUE 表示“私有”,FALSE 表示“私有”。
最后說(shuō)一下使用過(guò)濾功能隱藏偽原創(chuàng )的經(jīng)驗:
舊的Y文章管理方案系統可以在采集自動(dòng)隱藏偽原創(chuàng )時(shí)自動(dòng)隱藏,但功能不夠強大。例如,我的站點(diǎn)上有三列:“第一列”、“第二列”和“第三列”。我希望“第一列”偽原創(chuàng ) 標題和正文,“第二列”偽原創(chuàng ) 僅文本,“第三列”偽原創(chuàng ) 僅標題。
因此,我只能進(jìn)行以下設置(假設我有 30,000 的同義詞規則):
為“第一列”偽原創(chuàng )的標題創(chuàng )建30000條替換規則;
為“第一列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第2列”偽原創(chuàng )的文本創(chuàng )建30000條替換規則;
為“第三列”偽原創(chuàng ) 的標題創(chuàng )建 30,000 條替換規則。
這將造成巨大的數據庫浪費。如果我的網(wǎng)站有幾十個(gè)欄目,每一個(gè)欄目都需要不同的提供,那么數據庫的大小會(huì )非??膳?。
因此,建議舊版 Y文章 管理方案的下一版本對該功能進(jìn)行一些改進(jìn):
最后添加批量導入功能,畢竟修正數據庫有一定的危險。
其次,過(guò)濾規則不再附屬于某個(gè)網(wǎng)站列,而是獨立于過(guò)濾規則,在新建采集項目時(shí),參與判斷是否使用過(guò)濾規則。
相信經(jīng)過(guò)這樣的修改,可以大大節省數據庫存儲空間,邏輯結構也顯得更加清晰。
本文為《我的網(wǎng)賺日記-原創(chuàng )網(wǎng)贏(yíng)博主》原創(chuàng ),請尊重我的勞動(dòng)成果,轉載請注明出處!另外我用了很久的老Y文章來(lái)管理統一時(shí)間。文章如有錯誤或不妥之處,敬請指正!
感謝陸奇的貢獻
文章編輯于:


