中年阿姨魅力风韵自拍_話(huà)題：文章采集系統 - 自動(dòng)文章采集器-優(yōu)采云官網(wǎng)

9.Spark小型電商項目-離線(xiàn)日志采集流程介紹

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 366 次瀏覽 ? 2020-08-09 11:20 ? 來(lái)自相關(guān)話(huà)題

　　項目一Spark離線(xiàn)處理本項目來(lái)源于企業(yè)級電商網(wǎng)站的大數據統計剖析平臺，該平臺以Spark 框架為核心，對電商網(wǎng)站的日志進(jìn)行離線(xiàn)和實(shí)時(shí)剖析。該大數據剖析平臺對電商網(wǎng)站的各類(lèi)用戶(hù)行為（訪(fǎng)問(wèn)行為、購物行為、廣告點(diǎn)擊行為等）進(jìn)行剖析，根據平臺統計下來(lái)的數據，輔助公司中的PM（產(chǎn)品總監）、數據分析師以及管理人員剖析現有產(chǎn)品的情況，并按照用戶(hù)行為剖析結果持續改進(jìn)產(chǎn)品的設計，以及調整公司的戰略和業(yè)務(wù)。最終達到用大數據技術(shù)來(lái)幫助提高公司的業(yè)績(jì)、營(yíng)業(yè)額以及市場(chǎng)占有率的目標。本項目使用了Spark 技術(shù)生態(tài)棧中最常用的三個(gè)技術(shù)框架，Spark Core、Spark SQL 和Spark Streaming，進(jìn)行離線(xiàn)估算和實(shí)時(shí)估算業(yè)務(wù)模塊的開(kāi)發(fā)。實(shí)現了包括用戶(hù)訪(fǎng)問(wèn)session 分析、頁(yè)面單跳轉化率統計、熱門(mén)商品離線(xiàn)統計、廣告流量實(shí)時(shí)統計4 個(gè)業(yè)務(wù)模塊。通過(guò)合理的將實(shí)際業(yè)務(wù)模塊進(jìn)行技術(shù)整合與改建，該項目幾乎完全囊括了Spark Core、Spark SQL 和Spark Streaming 這三個(gè)技術(shù)框架中大部份的功能點(diǎn)、知識點(diǎn)，學(xué)員對于Spark 技術(shù)框架的理解將會(huì )在本項目中得到很大的提升。項目二Spark實(shí)時(shí)處理項目簡(jiǎn)介對于實(shí)時(shí)性要求高的應用，如用戶(hù)即時(shí)詳單查詢(xún)，業(yè)務(wù)量監控等，需要應用實(shí)時(shí)處理構架項目場(chǎng)景對于實(shí)時(shí)要求高的應用、有對數據進(jìn)行實(shí)時(shí)展示和查詢(xún)需求時(shí)項目技術(shù)分別使用canal和kafka搭建各自針對業(yè)務(wù)數據庫和用戶(hù)行為數據的實(shí)時(shí)數據采集系統，使用SparkStreaming搭建高吞吐的數據實(shí)時(shí)處理模塊，選用ES作為最終的實(shí)時(shí)數據處理結果的儲存位置，并從中獲取數據進(jìn)行展示，進(jìn)一步增加響應時(shí)間。查看全部

　　項目一Spark離線(xiàn)處理本項目來(lái)源于企業(yè)級電商網(wǎng)站的大數據統計剖析平臺，該平臺以Spark 框架為核心，對電商網(wǎng)站的日志進(jìn)行離線(xiàn)和實(shí)時(shí)剖析。該大數據剖析平臺對電商網(wǎng)站的各類(lèi)用戶(hù)行為（訪(fǎng)問(wèn)行為、購物行為、廣告點(diǎn)擊行為等）進(jìn)行剖析，根據平臺統計下來(lái)的數據，輔助公司中的PM（產(chǎn)品總監）、數據分析師以及管理人員剖析現有產(chǎn)品的情況，并按照用戶(hù)行為剖析結果持續改進(jìn)產(chǎn)品的設計，以及調整公司的戰略和業(yè)務(wù)。最終達到用大數據技術(shù)來(lái)幫助提高公司的業(yè)績(jì)、營(yíng)業(yè)額以及市場(chǎng)占有率的目標。本項目使用了Spark 技術(shù)生態(tài)棧中最常用的三個(gè)技術(shù)框架，Spark Core、Spark SQL 和Spark Streaming，進(jìn)行離線(xiàn)估算和實(shí)時(shí)估算業(yè)務(wù)模塊的開(kāi)發(fā)。實(shí)現了包括用戶(hù)訪(fǎng)問(wèn)session 分析、頁(yè)面單跳轉化率統計、熱門(mén)商品離線(xiàn)統計、廣告流量實(shí)時(shí)統計4 個(gè)業(yè)務(wù)模塊。通過(guò)合理的將實(shí)際業(yè)務(wù)模塊進(jìn)行技術(shù)整合與改建，該項目幾乎完全囊括了Spark Core、Spark SQL 和Spark Streaming 這三個(gè)技術(shù)框架中大部份的功能點(diǎn)、知識點(diǎn)，學(xué)員對于Spark 技術(shù)框架的理解將會(huì )在本項目中得到很大的提升。項目二Spark實(shí)時(shí)處理項目簡(jiǎn)介對于實(shí)時(shí)性要求高的應用，如用戶(hù)即時(shí)詳單查詢(xún)，業(yè)務(wù)量監控等，需要應用實(shí)時(shí)處理構架項目場(chǎng)景對于實(shí)時(shí)要求高的應用、有對數據進(jìn)行實(shí)時(shí)展示和查詢(xún)需求時(shí)項目技術(shù)分別使用canal和kafka搭建各自針對業(yè)務(wù)數據庫和用戶(hù)行為數據的實(shí)時(shí)數據采集系統，使用SparkStreaming搭建高吞吐的數據實(shí)時(shí)處理模塊，選用ES作為最終的實(shí)時(shí)數據處理結果的儲存位置，并從中獲取數據進(jìn)行展示，進(jìn)一步增加響應時(shí)間。

航測數據采集系統的設計與實(shí)現

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 331 次瀏覽 ? 2020-08-09 06:26 ? 來(lái)自相關(guān)話(huà)題

　　文檔簡(jiǎn)介:
　　萬(wàn)方數據
　　航空測繪數據采集系統的設計與實(shí)現引言2系統的功能設計] 20078_2l王海英，“航空測繪數據的采集與編輯過(guò)程中，存在很多人工操作和很大的自由度. 數據輸入操作不夠嚴格. 因此，出現了以下問(wèn)題: （1）非常熟悉線(xiàn)型庫，并且必須記住每個(gè)元素的對應層，顏色和其他值. 在采集過(guò)程中，需要手動(dòng)輸入相關(guān)參數值并切換相關(guān)工具欄. 地球會(huì )降低數據生產(chǎn)的效率，并且不能保證數據質(zhì)量. （2）采集量很大，采集器需要頻繁輸入標高值，必然導致標高與實(shí)際情況不一致，導致標高與標高不一致的邏輯錯誤. 輪廓. 因此，傳統的航測數據采集操作方式不利于后期的GIS數據，已成為航測數據生成的關(guān)鍵. 為了解決這些問(wèn)題而開(kāi)發(fā)了航空測量數據采集系統. （2）（3）（4）（5）設計數據采集標準是與多比例尺地形圖的符號，線(xiàn)，文本和表面相對應的圖層，顏色，線(xiàn)型，線(xiàn). 寬度，比率，角度，字符高度，字符寬度，字體和其他屬性值是空間數據數據庫構建的數據標準，也是管理內部和外部行業(yè)集成元素的基礎. 不難看出，數據采集標準不僅為系統服務(wù)，而且是通用標準，它將從現場(chǎng)數據到內部編輯再到數據存儲的一系列工作流程鏈接在一起. 由于涉及的工作范圍廣，影響大，因此數據采集標準的設計必須嚴格，精心設計，并應滿(mǎn)足以下條件: （1）（2）（3）根據上述條件，需要進(jìn)行編碼管理每個(gè)元素，并根據“，000”對各種地理元素進(jìn)行分類(lèi)和編碼，并且應該能夠根據需要擴展每種地理要素類(lèi)型，以滿(mǎn)足將來(lái)對新元素的需求. 可以找到元素，因此可以區分不同類(lèi)型的元素.
　　根據此設計思想，系統選擇使用數據庫來(lái)管理數據采集標準. 1考慮到將來(lái)可能會(huì )根據實(shí)際需要擴展和更改數據采集標準，因此數據庫的相關(guān)變量（例如數據源名稱(chēng)，表名稱(chēng)和各個(gè)字段）都應隨系統的變化而變化，因此該系統已建立環(huán)境變量. 程序在運行時(shí)首先訪(fǎng)問(wèn)環(huán)境變量，然后根據環(huán)境變量的值定義數據源名稱(chēng)（DSN）（表名）（字段）數據庫. 互動(dòng)關(guān)系. 當數據庫更改時(shí)，只需要更新相應的環(huán)境變量值即可完成整個(gè)數據庫和采集系統的配置. 系統與數據庫的交互2Edit2，王海英. 航測數據采集系統的設計與實(shí)現文章編號: -中國圖書(shū)館分類(lèi)編號: B. 甘肅省蘭州測繪研究院賈林ie，嚴攀⒅星模賈世華摘要: 在航測數據采集中介紹，利用7⒂，“動(dòng)態(tài)鏈接庫”技術(shù)開(kāi)發(fā)航測數據采集系統，該系統主要用于控制數據采集的標準化，提高生產(chǎn)效率和數據質(zhì)量MicroStationMDL00012王海英，女，助理工程師，主要從事地理信息軟件的開(kāi)發(fā)和地理信息數據的生產(chǎn).
　　萬(wàn)方數據查看全部

　　文檔簡(jiǎn)介:
　　萬(wàn)方數據
　　航空測繪數據采集系統的設計與實(shí)現引言2系統的功能設計] 20078_2l王海英，“航空測繪數據的采集與編輯過(guò)程中，存在很多人工操作和很大的自由度. 數據輸入操作不夠嚴格. 因此，出現了以下問(wèn)題: （1）非常熟悉線(xiàn)型庫，并且必須記住每個(gè)元素的對應層，顏色和其他值. 在采集過(guò)程中，需要手動(dòng)輸入相關(guān)參數值并切換相關(guān)工具欄. 地球會(huì )降低數據生產(chǎn)的效率，并且不能保證數據質(zhì)量. （2）采集量很大，采集器需要頻繁輸入標高值，必然導致標高與實(shí)際情況不一致，導致標高與標高不一致的邏輯錯誤. 輪廓. 因此，傳統的航測數據采集操作方式不利于后期的GIS數據，已成為航測數據生成的關(guān)鍵. 為了解決這些問(wèn)題而開(kāi)發(fā)了航空測量數據采集系統. （2）（3）（4）（5）設計數據采集標準是與多比例尺地形圖的符號，線(xiàn)，文本和表面相對應的圖層，顏色，線(xiàn)型，線(xiàn). 寬度，比率，角度，字符高度，字符寬度，字體和其他屬性值是空間數據數據庫構建的數據標準，也是管理內部和外部行業(yè)集成元素的基礎. 不難看出，數據采集標準不僅為系統服務(wù)，而且是通用標準，它將從現場(chǎng)數據到內部編輯再到數據存儲的一系列工作流程鏈接在一起. 由于涉及的工作范圍廣，影響大，因此數據采集標準的設計必須嚴格，精心設計，并應滿(mǎn)足以下條件: （1）（2）（3）根據上述條件，需要進(jìn)行編碼管理每個(gè)元素，并根據“，000”對各種地理元素進(jìn)行分類(lèi)和編碼，并且應該能夠根據需要擴展每種地理要素類(lèi)型，以滿(mǎn)足將來(lái)對新元素的需求. 可以找到元素，因此可以區分不同類(lèi)型的元素.
　　根據此設計思想，系統選擇使用數據庫來(lái)管理數據采集標準. 1考慮到將來(lái)可能會(huì )根據實(shí)際需要擴展和更改數據采集標準，因此數據庫的相關(guān)變量（例如數據源名稱(chēng)，表名稱(chēng)和各個(gè)字段）都應隨系統的變化而變化，因此該系統已建立環(huán)境變量. 程序在運行時(shí)首先訪(fǎng)問(wèn)環(huán)境變量，然后根據環(huán)境變量的值定義數據源名稱(chēng)（DSN）（表名）（字段）數據庫. 互動(dòng)關(guān)系. 當數據庫更改時(shí)，只需要更新相應的環(huán)境變量值即可完成整個(gè)數據庫和采集系統的配置. 系統與數據庫的交互2Edit2，王海英. 航測數據采集系統的設計與實(shí)現文章編號: -中國圖書(shū)館分類(lèi)編號: B. 甘肅省蘭州測繪研究院賈林ie，嚴攀⒅星模賈世華摘要: 在航測數據采集中介紹，利用7⒂，“動(dòng)態(tài)鏈接庫”技術(shù)開(kāi)發(fā)航測數據采集系統，該系統主要用于控制數據采集的標準化，提高生產(chǎn)效率和數據質(zhì)量MicroStationMDL00012王海英，女，助理工程師，主要從事地理信息軟件的開(kāi)發(fā)和地理信息數據的生產(chǎn).
　　萬(wàn)方數據

08CMS v3.4版本采集系統使用教程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 523 次瀏覽 ? 2020-08-09 06:25 ? 來(lái)自相關(guān)話(huà)題

　　
　　第三步，編輯采集模型
　　請參見(jiàn)插圖:
　　圖1.編輯模型
　　
　　圖二，
　　模型編輯界面
　　
　　在這里，采集模型的添加完成
　　開(kāi)始在下面添加采集任務(wù)
　　第四步，添加采集任務(wù)
　　
　　以下是采集任務(wù)界面的示意圖，請仔細閱讀圖中的注釋
　　第六步，突出顯示，設置采集規則
　　首先，分析目標頁(yè)面的代碼結構. 以IE為例.
　　查看采集目標頁(yè)面，單擊IE
　　頁(yè)面----查看源文件
　　很容易看到目標頁(yè)面的代碼結構
　　采集頁(yè)面的代碼分析主要是查找采集目標的特征
　　該頁(yè)面太大，因此在此處很難解析. 上圖說(shuō)明了URL采集界面的相關(guān)規則的設置
　　
　　點(diǎn)擊提交將設置保存在此處
　　我想知道為什么我不直接跳到下一個(gè)內容集，而是在提交后返回此頁(yè)面
　　此屏幕截圖頁(yè)面下方還有另一部分，稱(chēng)為追溯URL規則
　　這不是可選項目，通常不是必需的
　　此外，這只能獲取一個(gè)URL，而不是URL列表. 我個(gè)人感覺(jué)有點(diǎn)雞肋，并附上官方解釋.
　　復古URL: 內容URL的擴展名. 對于某些采集的文檔，各個(gè)字段的內容不在主要內容頁(yè)面上，而是在附加頁(yè)面上，尤其是附件的內容. 可追溯性URL用于采集附加頁(yè)面的URL. 每個(gè)內容URL都可以追溯到另外兩個(gè)頁(yè)面，網(wǎng)站2是基于追溯網(wǎng)站1采集的.
　　回顧性概念的一個(gè)例子: 當我們進(jìn)入下載站點(diǎn)時(shí)，我們點(diǎn)擊進(jìn)入的頁(yè)面通常只是軟件信息描述和一個(gè)或多個(gè)指向下載頁(yè)面的鏈接
　　注意: 這是下載頁(yè)面的鏈接，而不是下載地址. 要下載軟件時(shí)，必須首先打開(kāi)此下載頁(yè)面以查看下載地址
　　這是可追溯性的第一級，因為我們必須再次單擊才能進(jìn)入下載頁(yè)面. 目前，我們的1級可追溯地址是進(jìn)入下載頁(yè)面的鏈接
　　接下來(lái)是內容頁(yè)面的規則
　　使用同一圖形進(jìn)行分析，這里僅以一個(gè)字段規則設置為例，其他字段基本相似.
　　
　　傳入參數設置
　　
　　如果是非編譯（即單個(gè)文檔集合），則規則設置在此處
　　經(jīng)過(guò)測試，可以毫無(wú)問(wèn)題地將其采集
　　如果您有足夠的信心，則可以不經(jīng)測試直接采集.
　　如果它是諸如小說(shuō)之類(lèi)的合集的集合，則該集合的設置僅是中途.
　　編譯的集合還需要設置子任務(wù)的規則
　　如圖所示:
　　
　　子任務(wù)位于父任務(wù)下方，并且任務(wù)名稱(chēng)縮進(jìn)
　　子任務(wù)的規則設置與父任務(wù)的規則設置基本相同，因此我不再贅述.
　　理論上，集合在這里. 讓我們開(kāi)始愉快的采集之旅. 就個(gè)人而言，我仍然感到很高興.
　　
　　獲取，您可以逐步了解URL，內容和存儲.
　　直接一鍵式采集更加輕松
　　但這是一個(gè)使人嘔血的問(wèn)題
　　集合任務(wù)，除非它是集合集合中的父任務(wù)和子任務(wù)
　　否則，您將必須一個(gè)接一個(gè)地完成任務(wù)，而不要排隊. . .
　　盡管有很多缺點(diǎn)，但采集經(jīng)驗一般都很好
　　到此結束. 如果您不了解，可以將其發(fā)布. 查看全部

　　第三步，編輯采集模型
　　請參見(jiàn)插圖:
　　圖1.編輯模型
　　

　　圖二，
　　模型編輯界面
　　

　　在這里，采集模型的添加完成
　　開(kāi)始在下面添加采集任務(wù)
　　第四步，添加采集任務(wù)
　　

　　以下是采集任務(wù)界面的示意圖，請仔細閱讀圖中的注釋
　　第六步，突出顯示，設置采集規則
　　首先，分析目標頁(yè)面的代碼結構. 以IE為例.
　　查看采集目標頁(yè)面，單擊IE
　　頁(yè)面----查看源文件
　　很容易看到目標頁(yè)面的代碼結構
　　采集頁(yè)面的代碼分析主要是查找采集目標的特征
　　該頁(yè)面太大，因此在此處很難解析. 上圖說(shuō)明了URL采集界面的相關(guān)規則的設置
　　

　　點(diǎn)擊提交將設置保存在此處
　　我想知道為什么我不直接跳到下一個(gè)內容集，而是在提交后返回此頁(yè)面
　　此屏幕截圖頁(yè)面下方還有另一部分，稱(chēng)為追溯URL規則
　　這不是可選項目，通常不是必需的
　　此外，這只能獲取一個(gè)URL，而不是URL列表. 我個(gè)人感覺(jué)有點(diǎn)雞肋，并附上官方解釋.
　　復古URL: 內容URL的擴展名. 對于某些采集的文檔，各個(gè)字段的內容不在主要內容頁(yè)面上，而是在附加頁(yè)面上，尤其是附件的內容. 可追溯性URL用于采集附加頁(yè)面的URL. 每個(gè)內容URL都可以追溯到另外兩個(gè)頁(yè)面，網(wǎng)站2是基于追溯網(wǎng)站1采集的.
　　回顧性概念的一個(gè)例子: 當我們進(jìn)入下載站點(diǎn)時(shí)，我們點(diǎn)擊進(jìn)入的頁(yè)面通常只是軟件信息描述和一個(gè)或多個(gè)指向下載頁(yè)面的鏈接
　　注意: 這是下載頁(yè)面的鏈接，而不是下載地址. 要下載軟件時(shí)，必須首先打開(kāi)此下載頁(yè)面以查看下載地址
　　這是可追溯性的第一級，因為我們必須再次單擊才能進(jìn)入下載頁(yè)面. 目前，我們的1級可追溯地址是進(jìn)入下載頁(yè)面的鏈接
　　接下來(lái)是內容頁(yè)面的規則
　　使用同一圖形進(jìn)行分析，這里僅以一個(gè)字段規則設置為例，其他字段基本相似.
　　

　　傳入參數設置
　　

　　如果是非編譯（即單個(gè)文檔集合），則規則設置在此處
　　經(jīng)過(guò)測試，可以毫無(wú)問(wèn)題地將其采集
　　如果您有足夠的信心，則可以不經(jīng)測試直接采集.
　　如果它是諸如小說(shuō)之類(lèi)的合集的集合，則該集合的設置僅是中途.
　　編譯的集合還需要設置子任務(wù)的規則
　　如圖所示:
　　

　　子任務(wù)位于父任務(wù)下方，并且任務(wù)名稱(chēng)縮進(jìn)
　　子任務(wù)的規則設置與父任務(wù)的規則設置基本相同，因此我不再贅述.
　　理論上，集合在這里. 讓我們開(kāi)始愉快的采集之旅. 就個(gè)人而言，我仍然感到很高興.
　　

　　獲取，您可以逐步了解URL，內容和存儲.
　　直接一鍵式采集更加輕松
　　但這是一個(gè)使人嘔血的問(wèn)題
　　集合任務(wù)，除非它是集合集合中的父任務(wù)和子任務(wù)
　　否則，您將必須一個(gè)接一個(gè)地完成任務(wù)，而不要排隊. . .
　　盡管有很多缺點(diǎn)，但采集經(jīng)驗一般都很好
　　到此結束. 如果您不了解，可以將其發(fā)布.

網(wǎng)絡(luò )信息采集系統的需求分析

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 298 次瀏覽 ? 2020-08-08 03:58 ? 來(lái)自相關(guān)話(huà)題

　　物聯(lián)網(wǎng)信息采集系統需求分析楊藝職業(yè)技術(shù)學(xué)院的杜素芳說(shuō): “小米使用瀏覽器手動(dòng)復制粘貼來(lái)實(shí)現信息采集，效率低下，錯誤率高. 率. 如果采集的信息量很大，則根本無(wú)法完成手動(dòng)方法. 利用信息采集系統來(lái)實(shí)現信息的采集和處理是解決問(wèn)題的較好方法. 要求概述開(kāi)發(fā)信息采集系統的目的是使用戶(hù)能夠自動(dòng)并定期從多個(gè)指定的網(wǎng)站采集文章信息，包括文章標題，正文，作者，時(shí)間，來(lái)源等，并按類(lèi)別存儲信息以滿(mǎn)足信息重用的目標. 信息采集程序無(wú)法預測和獲取用戶(hù)的準確需求，因此系統應為用戶(hù)提供一個(gè)提交需求的平臺，通過(guò)該平臺用戶(hù)可以及時(shí)提交采集任務(wù)，并告知采集系統要采集哪些數據. 信息采集系統分為采集配置和采集兩個(gè)子系統. 生成. 定制的去噪和重復數據刪除規則. 從網(wǎng)頁(yè)獲得的大量信息中，可能有用戶(hù)不需要的信息，也可能有重復的內容. 這些信息和內容將干擾提取內容的排版和使用，并且需要對此類(lèi)信息進(jìn)行去噪處理. 重復處理. 啟動(dòng)和停止采集任務(wù). 采集任務(wù)可以及時(shí)啟動(dòng)和停止. 配置采集任務(wù)后，可以將其添加到采集子系統中，以便及時(shí)采集信息.
　　如圖所示，信息采集系統采集配置子系統采集子系統采用自定的采掘，運動(dòng)系統，集中式運行，并作為噪聲的集中控制系統. 然后只有地圖信息采集系統組成采集配置子系統才能滿(mǎn)足普通用戶(hù)提交的采集要求. 用戶(hù)通過(guò)子系統配置目標信息采集任務(wù)，包括文章的發(fā)布狀態(tài)，站點(diǎn)名稱(chēng)和地址，其所屬的列，采集時(shí)間和采集規則. 采集配置子系統還可以及時(shí)啟動(dòng)和停止采集任務(wù)的執行. 采集子系統完成特定的信息采集工作. 它根據采集配置子系統的采集任務(wù)設置自動(dòng)采集，提取和重復數據刪除網(wǎng)站信息，從網(wǎng)頁(yè)中提取大量非結構化信息并將其保存到結構化數據庫中. 功能要求圖中顯示了信息采集系統的功能. 采集配置子系統主要完成以下功能. 采集任務(wù)管理實(shí)現用戶(hù)對采集任務(wù)的添加，刪除，修改和檢查. 每個(gè)采集任務(wù)對應于一個(gè)現有列，以實(shí)現采集內容的分類(lèi)，處理和存儲. 自動(dòng)生成提取規則. 當用戶(hù)選擇數據采集項時(shí)，系統可以自動(dòng)，智能地生成相應的數據提取規則. 當配置頁(yè)面改變時(shí)，需要在中文圖書(shū)館分類(lèi)編號地圖信息采集系統功能結構圖采集子系統中更新提取規則，主要完成以下功能來(lái)動(dòng)態(tài)采集信息. 用戶(hù)對新聞信息等Web信息的及時(shí)性要求很高. 如果不能及時(shí)將數據反饋給用戶(hù)，那么即使是高價(jià)值的信息也會(huì )失去其意義和價(jià)值.
　　因此，動(dòng)態(tài)采集信息非常重要. 該系統應具有動(dòng)態(tài)采集機制，以定期自動(dòng)檢測網(wǎng)站內容并及時(shí)獲取網(wǎng)站上的最新信息. 操作監視由于信息采集過(guò)程是動(dòng)態(tài)運行的，因此系統應及時(shí)監視采集任務(wù)的操作. 如果信息采集存在問(wèn)題，系統應及時(shí)發(fā)現并反饋給用戶(hù)，用戶(hù)將根據問(wèn)題的類(lèi)別進(jìn)行處理. 非功能性要求除了滿(mǎn)足信息采集的功能性要求外，系統還應滿(mǎn)足用戶(hù)的以下非功能性要求. 準確性如何從浩瀚的復雜信息中準確獲取用戶(hù)所需的信息是系統設計中的關(guān)鍵考慮因素. 用戶(hù)只有通過(guò)準確獲取信息，才能重新使用有效信息. 下一頁(yè)》》》》》》》物聯(lián)網(wǎng)日常應用系統平臺數據接口子系統該子系統是處理物聯(lián)網(wǎng)應用平臺和網(wǎng)關(guān)的接口，可以發(fā)送和接收各種傳感器數據，并可以接受查看全部

　　物聯(lián)網(wǎng)信息采集系統需求分析楊藝職業(yè)技術(shù)學(xué)院的杜素芳說(shuō): “小米使用瀏覽器手動(dòng)復制粘貼來(lái)實(shí)現信息采集，效率低下，錯誤率高. 率. 如果采集的信息量很大，則根本無(wú)法完成手動(dòng)方法. 利用信息采集系統來(lái)實(shí)現信息的采集和處理是解決問(wèn)題的較好方法. 要求概述開(kāi)發(fā)信息采集系統的目的是使用戶(hù)能夠自動(dòng)并定期從多個(gè)指定的網(wǎng)站采集文章信息，包括文章標題，正文，作者，時(shí)間，來(lái)源等，并按類(lèi)別存儲信息以滿(mǎn)足信息重用的目標. 信息采集程序無(wú)法預測和獲取用戶(hù)的準確需求，因此系統應為用戶(hù)提供一個(gè)提交需求的平臺，通過(guò)該平臺用戶(hù)可以及時(shí)提交采集任務(wù)，并告知采集系統要采集哪些數據. 信息采集系統分為采集配置和采集兩個(gè)子系統. 生成. 定制的去噪和重復數據刪除規則. 從網(wǎng)頁(yè)獲得的大量信息中，可能有用戶(hù)不需要的信息，也可能有重復的內容. 這些信息和內容將干擾提取內容的排版和使用，并且需要對此類(lèi)信息進(jìn)行去噪處理. 重復處理. 啟動(dòng)和停止采集任務(wù). 采集任務(wù)可以及時(shí)啟動(dòng)和停止. 配置采集任務(wù)后，可以將其添加到采集子系統中，以便及時(shí)采集信息.
　　如圖所示，信息采集系統采集配置子系統采集子系統采用自定的采掘，運動(dòng)系統，集中式運行，并作為噪聲的集中控制系統. 然后只有地圖信息采集系統組成采集配置子系統才能滿(mǎn)足普通用戶(hù)提交的采集要求. 用戶(hù)通過(guò)子系統配置目標信息采集任務(wù)，包括文章的發(fā)布狀態(tài)，站點(diǎn)名稱(chēng)和地址，其所屬的列，采集時(shí)間和采集規則. 采集配置子系統還可以及時(shí)啟動(dòng)和停止采集任務(wù)的執行. 采集子系統完成特定的信息采集工作. 它根據采集配置子系統的采集任務(wù)設置自動(dòng)采集，提取和重復數據刪除網(wǎng)站信息，從網(wǎng)頁(yè)中提取大量非結構化信息并將其保存到結構化數據庫中. 功能要求圖中顯示了信息采集系統的功能. 采集配置子系統主要完成以下功能. 采集任務(wù)管理實(shí)現用戶(hù)對采集任務(wù)的添加，刪除，修改和檢查. 每個(gè)采集任務(wù)對應于一個(gè)現有列，以實(shí)現采集內容的分類(lèi)，處理和存儲. 自動(dòng)生成提取規則. 當用戶(hù)選擇數據采集項時(shí)，系統可以自動(dòng)，智能地生成相應的數據提取規則. 當配置頁(yè)面改變時(shí)，需要在中文圖書(shū)館分類(lèi)編號地圖信息采集系統功能結構圖采集子系統中更新提取規則，主要完成以下功能來(lái)動(dòng)態(tài)采集信息. 用戶(hù)對新聞信息等Web信息的及時(shí)性要求很高. 如果不能及時(shí)將數據反饋給用戶(hù)，那么即使是高價(jià)值的信息也會(huì )失去其意義和價(jià)值.
　　因此，動(dòng)態(tài)采集信息非常重要. 該系統應具有動(dòng)態(tài)采集機制，以定期自動(dòng)檢測網(wǎng)站內容并及時(shí)獲取網(wǎng)站上的最新信息. 操作監視由于信息采集過(guò)程是動(dòng)態(tài)運行的，因此系統應及時(shí)監視采集任務(wù)的操作. 如果信息采集存在問(wèn)題，系統應及時(shí)發(fā)現并反饋給用戶(hù)，用戶(hù)將根據問(wèn)題的類(lèi)別進(jìn)行處理. 非功能性要求除了滿(mǎn)足信息采集的功能性要求外，系統還應滿(mǎn)足用戶(hù)的以下非功能性要求. 準確性如何從浩瀚的復雜信息中準確獲取用戶(hù)所需的信息是系統設計中的關(guān)鍵考慮因素. 用戶(hù)只有通過(guò)準確獲取信息，才能重新使用有效信息. 下一頁(yè)》》》》》》》物聯(lián)網(wǎng)日常應用系統平臺數據接口子系統該子系統是處理物聯(lián)網(wǎng)應用平臺和網(wǎng)關(guān)的接口，可以發(fā)送和接收各種傳感器數據，并可以接受

讓您了解zabbix集成了ELK來(lái)采集系統異常日志以觸發(fā)警報?

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 500 次瀏覽 ? 2020-08-08 02:57 ? 來(lái)自相關(guān)話(huà)題

　　讓我們今天了解ELK的“ L” -Logstash. 是的，這就是神奇的小組成部分. 眾所周知，它是ELK不可或缺的組成部分. 它完成輸入，過(guò)濾和輸出. （輸出）工作量也是我們作為運維人員需要掌握的困難. 說(shuō)到這一點(diǎn)，我們充滿(mǎn)愛(ài)與恨. “愛(ài)是美好，仇恨是困難的”；這個(gè)Logstash具有強大的插件功能，除了對我們進(jìn)行過(guò)濾外，高效的日志輸出還可以幫助我們與Zabbix監視集成嗎？
　　由于我們的Logstash支持多種輸出類(lèi)型，因此它可以采集Web服務(wù)日志，系統日志和內核日志；但是，有日志輸出，這肯定無(wú)法避免錯誤日志的出現；當出現錯誤日志時(shí)盡管可以通過(guò)ELK找到它，但ELK無(wú)法提供實(shí)時(shí)警報，這有點(diǎn)尷尬. 我們要做的是既要像zabbix和nagios一樣進(jìn)行監控，也要發(fā)出警報. ELK僅對此進(jìn)行監視，但不對其發(fā)出警報；但是沒(méi)關(guān)系，我們的Logstash插件可以與zabbix結合使用，以采集需要警報的日志（例如，帶有錯誤標識的日志）以完成日志監視并觸發(fā)警報?
　　Logstash支持多種輸出介質(zhì)，例如syslog，http，tcp，elasticsearch，kafka等. 如果我們將logstash采集的日志輸出到zabbix警報，則必須使用logstash-output-zabbix插件，并通過(guò)此插件集成使用zabbix的logstash，過(guò)濾logstash采集的數據，將錯誤信息的日志輸出到zabbix，最后通過(guò)zabbix告警機制觸發(fā)；
　　[root@localhost ~]# /usr/local/logstash/bin/logstash-plugin install logstash-output-zabbix #安裝logstash-output-zabbix插件
Validating logstash-output-zabbix
Installing logstash-output-zabbix
Installation successful
　　環(huán)境案例要求:
　　通過(guò)讀取系統日志文件監控信息，過(guò)濾掉日志信息中的錯誤關(guān)鍵字，如ERR，錯誤，失敗，警告等信息，用異常關(guān)鍵字過(guò)濾掉這些異常日志信息，然后輸出到zabbix，通過(guò)zabbix警報機制觸發(fā)警報；以下環(huán)境為filebeat作為采集終端；輸出到kafaka消息隊列，最后將日志由logsatsh提取和過(guò)濾，并輸出到zabbix
　　[filebeat]日志采集終端
　　filebeat.inputs:
- type: log
enabled: true
paths:
- /var/log/secure
- /var/log/messages
- /var/log/cron
fields:
log_topic: system_log
processors:
- drop_fields:
fields: ["beat", "input", "source", "offset", "prospector"] #這里在filebeat中直接去掉不需要的字段。
filebeat.config.modules:
path: ${path.config}/modules.d/*.yml
reload.enabled: false
name: 192.168.37.147 #這是日志輸出標識，表明日志來(lái)自哪個(gè)主機，后面再logstash會(huì )用到。
output.kafka:
enabled: true
hosts: ["192.168.37.147:9092", "192.168.37.148:9092", "192.168.37.149:9092"] #日志輸出到kafka集群
version: "0.10"
topic: '%{[fields.log_topic]}'
partition.round_robin:
reachable_only: true
worker: 2
required_acks: 1
compression: gzip
max_message_bytes: 10000000
logging.level: debug
　　[Logstash端]
　　
　　[root @ localhost?]#vim /usr/local/logstash/config/etc/system_log.conf
　　input {
kafka {
bootstrap_servers => "192.168.37.147:9092,192.168.37.148:9092,192.168.37.149:9092"
topics => ["system_log"]
codec => "json"
}
}
filter {
if [fields][log_topic] == "system_log" { #指定filebeat產(chǎn)生的日志主題
mutate {
add_field => [ "[zabbix_key]", "oslogs" ] #新增的字段，字段名是zabbix_key，值為oslogs。
add_field => [ "[zabbix_host]", "%{[host][name]}" ] #新增的字段，字段名是zabbix_host，值可以在這里直接定義，也可以引用字段變量來(lái)獲取。這里的%{[host][name]獲取的就是日志數據的來(lái)源IP，這個(gè)來(lái)源IP在filebeat配置中的name選項進(jìn)行定義。
}
}
grok {
match => { "message" => "%{SYSLOGTIMESTAMP:message_timestamp} %{SYSLOGHOST:hostname} %{DATA:message_program}(?:\[%{POSINT:message_pid}\])?: %{GREEDYDATA:message_content}" } #這里通過(guò)grok對message字段的數據進(jìn)行字段劃分，這里將message字段劃分了5個(gè)子字段。其中，message_content字段會(huì )在output中用到。
}
mutate { #這里是刪除不需要的字段
remove_field => "@version"
remove_field => "message"
}
date { #這里是對日志輸出中的日期字段進(jìn)行轉換，其中message_timestamp字段是默認輸出的時(shí)間日期字段，將這個(gè)字段的值傳給 @timestamp字段。
match => [ "message_timestamp","MMM d HH:mm:ss", "MMM dd HH:mm:ss", "ISO8601"]
}
}
output {
if [message_content] =~ /(ERR|error|ERROR|Failed)/ { #定義在message_content字段中，需要過(guò)濾的關(guān)鍵字信息，也就是在message_content字段中出現給出的這些關(guān)鍵字，那么就將這些信息發(fā)送給zabbix。
zabbix {
zabbix_host => "[zabbix_host]" #這個(gè)zabbix_host將獲取上面filter部分定義的字段變量%{[host][name]的值
zabbix_key => "[zabbix_key]" #這個(gè)zabbix_key將獲取上面filter部分中給出的值
zabbix_server_host => "192.168.37.149" #這是指定zabbix server的IP地址
zabbix_server_port => "10051" #這是指定zabbix server的監聽(tīng)端口
zabbix_value => "message_content" #定要傳給zabbix監控項item（oslogs）的值， zabbix_value默認的值是"message"字段，因為上面我們已經(jīng)刪除了"message"字段，因此，這里需要重新指定，根據上面filter部分對"message"字段的內容劃分，這里指定為"message_content"字段，其實(shí)，"message_content"字段輸出的就是服務(wù)器上具體的日志內容。
}
}
}
　　[root @ localhost logstash]#nohup / usr / local / logstash / bin / logstash -f config / etc / system_log.conf --path.data = / tmp /#在此，--path.data指定單詞logstash進(jìn)程的數據存儲目錄，用于在服務(wù)器上啟動(dòng)多個(gè)logstash進(jìn)程環(huán)境
　　
　　[測試]不確定事件配置文件是否正確，我們可以在前臺運行并輸出標準輸出；驗證是否成功過(guò)濾了文件拍采集的日志?
　　stdout {codec => ruby??debug}#我們將這條指令添加到輸出終端，在前臺運行測試，看它是否可以過(guò)濾出錯誤日志輸出. 效果如下?（記得在ok run后注釋掉該指令并在后臺運行）
　　#/ usr / local / logstash / bin / logstash -f config / etc / system_log.conf --path.data = / tmp /
　　
　　[創(chuàng )建了zabbix監視模板以立即發(fā)出警報]
　　1. 創(chuàng )建模板
　　將單詞模板鏈接到192.168.37.147，創(chuàng )建的模板上的監視項將自動(dòng)在192.168.37.147上生效，
　　
　　2. 創(chuàng )建一個(gè)應用程序集，單擊“應用程序集”-“創(chuàng )建應用程序集”
　　
　　3. 創(chuàng )建監控項，單擊監控項，創(chuàng )建監控項
　　
　　4. 警報觸發(fā)器，創(chuàng )建觸發(fā)器
　　
　　
　　將我們創(chuàng )建的日志采集模板連接到需要采集日志以驗證警報觸發(fā)效果的主機
　　
　　[模擬警報]
　　ssh連接到192.168.37.147日志采集主機，故意輸入錯誤的密碼以使系統生成錯誤日志，驗證是否足以發(fā)送到zabbix端，以下是我們過(guò)濾后的錯誤日志信息，例如諸如“錯誤”，“失敗”等. ?到目前為止，錯誤日志輸出已成功采集?
　　
　　
　　[摘要]
　　首先，讓我們嘗試一下想法:
　　我們的架構基本上沒(méi)有變化. 仍然是filebat采集日志并將其推送到kibana消息隊列，然后Logstash去提取日志數據，并在處理后最終將其傳輸出去；它只是轉移到zabbix的輸出；這可以實(shí)現功能，核心英雄是Logsatsh插件（logstash-output-zabbix）;
　　這里需要注意的是: filebeat采集終端的IP必須與zabbix監控主機的IP對應，否則日志將不通過(guò)?
　　分享一些技巧: 通過(guò)此命令，您可以測試zabbix上定義的鍵值；以下輸出變?yōu)檎?，如果失敗為非零，則表示失敗
　　[root @ localhost zabbix_sender]#/ usr / local / zabbix / bin / zabbix_sender -s 192.168.37.147 -z 192.168.37.149 -k“ oslogs” -o 1
　　來(lái)自服務(wù)器的信息: “已處理: 1；失敗: 0；總計: 1；花費的時(shí)間: 0.000081”
　　已發(fā)送: 1；跳過(guò): 0總計: 1
　　詳細說(shuō)明: -s: 指定本地代理方
　　-z: 指定zabbix服務(wù)器
　　-k: 指定鍵值查看全部

　　讓我們今天了解ELK的“ L” -Logstash. 是的，這就是神奇的小組成部分. 眾所周知，它是ELK不可或缺的組成部分. 它完成輸入，過(guò)濾和輸出. （輸出）工作量也是我們作為運維人員需要掌握的困難. 說(shuō)到這一點(diǎn)，我們充滿(mǎn)愛(ài)與恨. “愛(ài)是美好，仇恨是困難的”；這個(gè)Logstash具有強大的插件功能，除了對我們進(jìn)行過(guò)濾外，高效的日志輸出還可以幫助我們與Zabbix監視集成嗎？
　　由于我們的Logstash支持多種輸出類(lèi)型，因此它可以采集Web服務(wù)日志，系統日志和內核日志；但是，有日志輸出，這肯定無(wú)法避免錯誤日志的出現；當出現錯誤日志時(shí)盡管可以通過(guò)ELK找到它，但ELK無(wú)法提供實(shí)時(shí)警報，這有點(diǎn)尷尬. 我們要做的是既要像zabbix和nagios一樣進(jìn)行監控，也要發(fā)出警報. ELK僅對此進(jìn)行監視，但不對其發(fā)出警報；但是沒(méi)關(guān)系，我們的Logstash插件可以與zabbix結合使用，以采集需要警報的日志（例如，帶有錯誤標識的日志）以完成日志監視并觸發(fā)警報?
　　Logstash支持多種輸出介質(zhì)，例如syslog，http，tcp，elasticsearch，kafka等. 如果我們將logstash采集的日志輸出到zabbix警報，則必須使用logstash-output-zabbix插件，并通過(guò)此插件集成使用zabbix的logstash，過(guò)濾logstash采集的數據，將錯誤信息的日志輸出到zabbix，最后通過(guò)zabbix告警機制觸發(fā)；
　　[root@localhost ~]# /usr/local/logstash/bin/logstash-plugin install logstash-output-zabbix #安裝logstash-output-zabbix插件
Validating logstash-output-zabbix
Installing logstash-output-zabbix
Installation successful
　　環(huán)境案例要求:
　　通過(guò)讀取系統日志文件監控信息，過(guò)濾掉日志信息中的錯誤關(guān)鍵字，如ERR，錯誤，失敗，警告等信息，用異常關(guān)鍵字過(guò)濾掉這些異常日志信息，然后輸出到zabbix，通過(guò)zabbix警報機制觸發(fā)警報；以下環(huán)境為filebeat作為采集終端；輸出到kafaka消息隊列，最后將日志由logsatsh提取和過(guò)濾，并輸出到zabbix
　　[filebeat]日志采集終端
　　filebeat.inputs:
- type: log
enabled: true
paths:
- /var/log/secure
- /var/log/messages
- /var/log/cron
fields:
log_topic: system_log
processors:
- drop_fields:
fields: ["beat", "input", "source", "offset", "prospector"] #這里在filebeat中直接去掉不需要的字段。
filebeat.config.modules:
path: ${path.config}/modules.d/*.yml
reload.enabled: false
name: 192.168.37.147 #這是日志輸出標識，表明日志來(lái)自哪個(gè)主機，后面再logstash會(huì )用到。
output.kafka:
enabled: true
hosts: ["192.168.37.147:9092", "192.168.37.148:9092", "192.168.37.149:9092"] #日志輸出到kafka集群
version: "0.10"
topic: '%{[fields.log_topic]}'
partition.round_robin:
reachable_only: true
worker: 2
required_acks: 1
compression: gzip
max_message_bytes: 10000000
logging.level: debug
　　[Logstash端]
　　

　　[root @ localhost?]#vim /usr/local/logstash/config/etc/system_log.conf
　　input {
kafka {
bootstrap_servers => "192.168.37.147:9092,192.168.37.148:9092,192.168.37.149:9092"
topics => ["system_log"]
codec => "json"
}
}
filter {
if [fields][log_topic] == "system_log" { #指定filebeat產(chǎn)生的日志主題
mutate {
add_field => [ "[zabbix_key]", "oslogs" ] #新增的字段，字段名是zabbix_key，值為oslogs。
add_field => [ "[zabbix_host]", "%{[host][name]}" ] #新增的字段，字段名是zabbix_host，值可以在這里直接定義，也可以引用字段變量來(lái)獲取。這里的%{[host][name]獲取的就是日志數據的來(lái)源IP，這個(gè)來(lái)源IP在filebeat配置中的name選項進(jìn)行定義。
}
}
grok {
match => { "message" => "%{SYSLOGTIMESTAMP:message_timestamp} %{SYSLOGHOST:hostname} %{DATA:message_program}(?:\[%{POSINT:message_pid}\])?: %{GREEDYDATA:message_content}" } #這里通過(guò)grok對message字段的數據進(jìn)行字段劃分，這里將message字段劃分了5個(gè)子字段。其中，message_content字段會(huì )在output中用到。
}
mutate { #這里是刪除不需要的字段
remove_field => "@version"
remove_field => "message"
}
date { #這里是對日志輸出中的日期字段進(jìn)行轉換，其中message_timestamp字段是默認輸出的時(shí)間日期字段，將這個(gè)字段的值傳給 @timestamp字段。
match => [ "message_timestamp","MMM d HH:mm:ss", "MMM dd HH:mm:ss", "ISO8601"]
}
}
output {
if [message_content] =~ /(ERR|error|ERROR|Failed)/ { #定義在message_content字段中，需要過(guò)濾的關(guān)鍵字信息，也就是在message_content字段中出現給出的這些關(guān)鍵字，那么就將這些信息發(fā)送給zabbix。
zabbix {
zabbix_host => "[zabbix_host]" #這個(gè)zabbix_host將獲取上面filter部分定義的字段變量%{[host][name]的值
zabbix_key => "[zabbix_key]" #這個(gè)zabbix_key將獲取上面filter部分中給出的值
zabbix_server_host => "192.168.37.149" #這是指定zabbix server的IP地址
zabbix_server_port => "10051" #這是指定zabbix server的監聽(tīng)端口
zabbix_value => "message_content" #定要傳給zabbix監控項item（oslogs）的值， zabbix_value默認的值是"message"字段，因為上面我們已經(jīng)刪除了"message"字段，因此，這里需要重新指定，根據上面filter部分對"message"字段的內容劃分，這里指定為"message_content"字段，其實(shí)，"message_content"字段輸出的就是服務(wù)器上具體的日志內容。
}
}
}
　　[root @ localhost logstash]#nohup / usr / local / logstash / bin / logstash -f config / etc / system_log.conf --path.data = / tmp /#在此，--path.data指定單詞logstash進(jìn)程的數據存儲目錄，用于在服務(wù)器上啟動(dòng)多個(gè)logstash進(jìn)程環(huán)境
　　

　　[測試]不確定事件配置文件是否正確，我們可以在前臺運行并輸出標準輸出；驗證是否成功過(guò)濾了文件拍采集的日志?
　　stdout {codec => ruby??debug}#我們將這條指令添加到輸出終端，在前臺運行測試，看它是否可以過(guò)濾出錯誤日志輸出. 效果如下?（記得在ok run后注釋掉該指令并在后臺運行）
　　#/ usr / local / logstash / bin / logstash -f config / etc / system_log.conf --path.data = / tmp /
　　

　　[創(chuàng )建了zabbix監視模板以立即發(fā)出警報]
　　1. 創(chuàng )建模板
　　將單詞模板鏈接到192.168.37.147，創(chuàng )建的模板上的監視項將自動(dòng)在192.168.37.147上生效，
　　

　　2. 創(chuàng )建一個(gè)應用程序集，單擊“應用程序集”-“創(chuàng )建應用程序集”
　　

　　3. 創(chuàng )建監控項，單擊監控項，創(chuàng )建監控項
　　

　　4. 警報觸發(fā)器，創(chuàng )建觸發(fā)器
　　

　　將我們創(chuàng )建的日志采集模板連接到需要采集日志以驗證警報觸發(fā)效果的主機
　　

　　[模擬警報]
　　ssh連接到192.168.37.147日志采集主機，故意輸入錯誤的密碼以使系統生成錯誤日志，驗證是否足以發(fā)送到zabbix端，以下是我們過(guò)濾后的錯誤日志信息，例如諸如“錯誤”，“失敗”等. ?到目前為止，錯誤日志輸出已成功采集?
　　

　　[摘要]
　　首先，讓我們嘗試一下想法:
　　我們的架構基本上沒(méi)有變化. 仍然是filebat采集日志并將其推送到kibana消息隊列，然后Logstash去提取日志數據，并在處理后最終將其傳輸出去；它只是轉移到zabbix的輸出；這可以實(shí)現功能，核心英雄是Logsatsh插件（logstash-output-zabbix）;
　　這里需要注意的是: filebeat采集終端的IP必須與zabbix監控主機的IP對應，否則日志將不通過(guò)?
　　分享一些技巧: 通過(guò)此命令，您可以測試zabbix上定義的鍵值；以下輸出變?yōu)檎?，如果失敗為非零，則表示失敗
　　[root @ localhost zabbix_sender]#/ usr / local / zabbix / bin / zabbix_sender -s 192.168.37.147 -z 192.168.37.149 -k“ oslogs” -o 1
　　來(lái)自服務(wù)器的信息: “已處理: 1；失敗: 0；總計: 1；花費的時(shí)間: 0.000081”
　　已發(fā)送: 1；跳過(guò): 0總計: 1
　　詳細說(shuō)明: -s: 指定本地代理方
　　-z: 指定zabbix服務(wù)器
　　-k: 指定鍵值

持續更新，構建微信公眾號批量收款系統

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 228 次瀏覽 ? 2020-08-07 06:20 ? 來(lái)自相關(guān)話(huà)題

　　自2014年以來(lái)，我一直在批量采集微信官方帳戶(hù)的內容. 最初的目的是建立一個(gè)html5垃圾郵件網(wǎng)站. 當時(shí)，垃圾站采集到的微信公眾號的內容很容易在該公眾號中傳播. 當時(shí)，批量采集特別容易進(jìn)行，并且采集條目是官方帳戶(hù)的歷史新聞頁(yè)面. 現在這個(gè)入口是一樣的，但是采集起來(lái)越來(lái)越難了. 采集方法也已在許多版本中更新. 后來(lái)，在2015年，html5垃圾站沒(méi)有這樣做. 取而代之的是將采集目標定位在本地新聞信息公共帳戶(hù)上，并將前端顯示制作成應用程序. 這樣就形成了一個(gè)新聞應用程序，它可以自動(dòng)采集官方帳戶(hù)的內容. 我曾經(jīng)擔心微信技術(shù)升級后的一天，我將無(wú)法采集內容，而我的新聞應用程序也會(huì )失敗. 但是隨著(zhù)微信技術(shù)的不斷升級，收款方式也有了升級，這使我越來(lái)越有信心. 只要存在官方帳戶(hù)歷史記錄頁(yè)面，就可以分批采集內容. 因此，今天我決定整理采集方法并寫(xiě)下來(lái). 我的方法來(lái)自許多同事的共享精神，因此我將繼續這種精神并分享我的結果.
　　本文將繼續更新，并且您所看到的將保證在您看到時(shí)可用.
　　首先，讓我們看一下微信官方帳戶(hù)歷史記錄消息頁(yè)面的鏈接地址:
　　http://mp.weixin.qq.com/mp/get ... irect
　　==========更新于2017年1月11日=========
　　現在，根據不同的微信個(gè)人帳戶(hù)，將有兩個(gè)不同的歷史消息頁(yè)面地址. 以下是另一個(gè)歷史消息頁(yè)面的地址. 第一種地址類(lèi)型的鏈接將顯示302在anyproxy中的跳轉:
　　https://mp.weixin.qq.com/mp/pr ... irect
　　第一個(gè)鏈接地址的頁(yè)面樣式:
　　
　　第二個(gè)鏈接地址的頁(yè)面樣式:
　　
　　根據當前信息，兩種頁(yè)面格式在不同的微信賬戶(hù)中不規則地出現. 一些WeChat帳戶(hù)始終是第一頁(yè)格式，而某些始終是第二頁(yè)格式.
　　以上鏈接是指向微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接，但是當我們在瀏覽器中輸入此鏈接時(shí)，它將顯示: 請從微信客戶(hù)端訪(fǎng)問(wèn). 這是因為實(shí)際上此鏈接地址需要幾個(gè)參數才能正常顯示內容. 讓我們看一下可以正常顯示內容的完整鏈接:
　　//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
　　在通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后，使用稍后描述的代理服務(wù)器軟件獲得此地址. 有幾個(gè)參數:
　　action =; __ biz =; uin =; key =; devicetype =; version =; lang =; nettype =; scene =; pass_ticket =; wx_header =;
　　重要參數是: __biz; uin =; key =; pass_ticket =;這四個(gè)參數.
　　__ biz是官方帳戶(hù)的類(lèi)似id的參數. 每個(gè)官方帳戶(hù)都有一個(gè)微信業(yè)務(wù). 目前，官方帳戶(hù)的業(yè)務(wù)更改的可能性很??；
　　其余3個(gè)參數與用戶(hù)的ID和令牌票證有關(guān). 這3個(gè)參數的值由微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄中. 因此，我們必須使用微信客戶(hù)端應用程序來(lái)采集官方帳戶(hù). 在以前的微信中，這三個(gè)參數也可以一次獲取，然后在有效期內可以使用多個(gè)官方賬號. 每次訪(fǎng)問(wèn)正式帳戶(hù)時(shí)，當前版本已經(jīng)更改了參數值.
　　我現在使用的方法只需要注意__biz參數.
　　我的采集系統由以下部分組成:
　　1. 微信客戶(hù)端: 可以是安裝了微信應用程序的手機，也可以是計算機中的Android模擬器. 經(jīng)過(guò)批處理測試的ios微信客戶(hù)端的崩潰率高于A(yíng)ndroid系統. 為了降低成本，我使用了Android模擬器.
　　
　　2. WeChat個(gè)人帳戶(hù): 為了采集內容，不僅需要WeChat客戶(hù)，還需要專(zhuān)用于采集的WeChat個(gè)人帳戶(hù)，因為該WeChat帳戶(hù)不能做其他事情.
　　3. 本地代理服務(wù)器系統: 當前使用的方法是通過(guò)Anyproxy代理服務(wù)器將官方帳戶(hù)歷史記錄消息頁(yè)面中的文章列表發(fā)送到其自己的服務(wù)器. 具體安裝方法將在后面詳細說(shuō)明.
　　4. 文章列表分析和存儲系統: 我使用php語(yǔ)言編寫(xiě)它. 下一篇文章將詳細介紹如何分析文章列表并建立采集隊列以實(shí)現內容的批量采集.
　　步驟
　　1. 安裝模擬器或使用手機安裝微信客戶(hù)端應用程序，申請微信個(gè)人帳號并登錄. 我不會(huì )介紹太多，每個(gè)人都會(huì ).
　　二，代理服務(wù)器系統的安裝
　　當前，我使用Anyproxy，AnyProxy. 該軟件的功能是您可以獲取https鏈接的內容. 2016年初，微信公眾號和微信文章開(kāi)始使用https鏈接. 而且Anyproxy可以通過(guò)修改規則配置將腳本代碼插入官方帳戶(hù)頁(yè)面. 安裝和配置過(guò)程將在下面介紹.
　　1. 安裝NodeJS
　　2. 在命令行或終端上運行npm install -g anyproxy，并且需要將sudo添加到mac系統；
　　3. 生成RootCA，https需要此證書(shū): 運行命令sudo anyproxy --root（Windows可能不需要sudo）；
　　4. 啟動(dòng)anyproxy以運行命令: sudo anyproxy -i;參數-i表示解析HTTPS；
　　5. 安裝證書(shū)，在手機或Android模擬器中安裝證書(shū):
　　6. 設置代理: Android仿真器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān). 通過(guò)dhcp將其設置為靜態(tài)后，您可以看到網(wǎng)關(guān)地址. 閱讀后不要忘記將其設置為自動(dòng). 電話(huà)中的代理服務(wù)器地址是運行anyproxy的計算機的ip地址. 代理服務(wù)器的默認端口為8001；
　　
　　現在打開(kāi)微信，單擊任何官方帳戶(hù)歷史記錄消息或文章，您可以在終端中看到響應代碼滾動(dòng). 如果沒(méi)有出現，請檢查手機的代理設置是否正確.
　　
　　現在打開(kāi)瀏覽器地址localhost: 8002以查看anyproxy的Web界面. 單擊以從微信打開(kāi)歷史消息頁(yè)面，然后查看瀏覽器的Web界面，將滾動(dòng)歷史消息頁(yè)面的地址.
　　
　　以/ mp / getmasssendmsg開(kāi)頭的URL是微信歷史消息頁(yè)面. 左側的小鎖表示此頁(yè)面已通過(guò)https加密. 現在我們單擊此行；
　　==========更新于2017年1月11日=========
　　一些以/ mp / getmasssendmsg開(kāi)頭的微信URL會(huì )將302跳轉到以/ mp / profile_ext？action = home開(kāi)頭的地址. 因此，請點(diǎn)擊此地址以查看內容.
　　
　　如果html文件內容顯示在右側，則表示解密成功. 如果沒(méi)有任何內容，請檢查anyproxy操作模式是否具有參數i，是否生成了ca證書(shū)以及手機上是否正確安裝了該證書(shū).
　　現在，我們手機中的所有內容都可以以明文形式通過(guò)代理服務(wù)器. 接下來(lái)，我們需要修改代理服務(wù)器的配置，以便可以獲得官方帳戶(hù)的內容.
　　一個(gè). 查找配置文件:
　　在Mac系統中配置文件的位置是/ usr / local / lib / node_modules / anyproxy / lib /;對于Windows系統，請原諒我不知道. 應該可以根據類(lèi)似于mac的文件夾的地址找到此目錄.
　　二，修改文件rule_default.js
　　找到replaceServerResDataAsync: 函數（req，res，serverResData，回調）函數
　　修改函數的內容（請仔細閱讀注釋?zhuān)@里只是為了介紹原理，理解后根據自己的條件修改內容）
　　==========更新于2017年1月11日=========
　　由于存在兩種頁(yè)面格式，并且同一頁(yè)面格式始終顯示在不同的微信帳戶(hù)中，但是為了與這兩種頁(yè)面格式兼容，以下代碼將保留對這兩種頁(yè)面格式的判斷. 您也可以在自己的頁(yè)面表單中關(guān)注“刪除li”
　　replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的，將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中，并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到，那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè)，因為歷史消息第一頁(yè)是html格式的，第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的，將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則（和第一種頁(yè)面形式的正則不同）
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的，將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中，并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的，將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的，功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)（rumor這個(gè)地址是公眾號文章被辟謠了）
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
　　上面的代碼是使用anyproxy修改返回頁(yè)面內容的功能，將腳本注入頁(yè)面，然后將頁(yè)面內容發(fā)送到服務(wù)器. 使用此原理可以分批采集官方帳戶(hù)的內容和讀取量. 此腳本中自定義了功能，下面將對其進(jìn)行詳細描述:
　　在rule_default.js文件的末尾添加以下代碼: 查看全部

　　自2014年以來(lái)，我一直在批量采集微信官方帳戶(hù)的內容. 最初的目的是建立一個(gè)html5垃圾郵件網(wǎng)站. 當時(shí)，垃圾站采集到的微信公眾號的內容很容易在該公眾號中傳播. 當時(shí)，批量采集特別容易進(jìn)行，并且采集條目是官方帳戶(hù)的歷史新聞頁(yè)面. 現在這個(gè)入口是一樣的，但是采集起來(lái)越來(lái)越難了. 采集方法也已在許多版本中更新. 后來(lái)，在2015年，html5垃圾站沒(méi)有這樣做. 取而代之的是將采集目標定位在本地新聞信息公共帳戶(hù)上，并將前端顯示制作成應用程序. 這樣就形成了一個(gè)新聞應用程序，它可以自動(dòng)采集官方帳戶(hù)的內容. 我曾經(jīng)擔心微信技術(shù)升級后的一天，我將無(wú)法采集內容，而我的新聞應用程序也會(huì )失敗. 但是隨著(zhù)微信技術(shù)的不斷升級，收款方式也有了升級，這使我越來(lái)越有信心. 只要存在官方帳戶(hù)歷史記錄頁(yè)面，就可以分批采集內容. 因此，今天我決定整理采集方法并寫(xiě)下來(lái). 我的方法來(lái)自許多同事的共享精神，因此我將繼續這種精神并分享我的結果.
　　本文將繼續更新，并且您所看到的將保證在您看到時(shí)可用.
　　首先，讓我們看一下微信官方帳戶(hù)歷史記錄消息頁(yè)面的鏈接地址:
　　http://mp.weixin.qq.com/mp/get ... irect
　　==========更新于2017年1月11日=========
　　現在，根據不同的微信個(gè)人帳戶(hù)，將有兩個(gè)不同的歷史消息頁(yè)面地址. 以下是另一個(gè)歷史消息頁(yè)面的地址. 第一種地址類(lèi)型的鏈接將顯示302在anyproxy中的跳轉:
　　https://mp.weixin.qq.com/mp/pr ... irect
　　第一個(gè)鏈接地址的頁(yè)面樣式:
　　

　　第二個(gè)鏈接地址的頁(yè)面樣式:
　　

　　根據當前信息，兩種頁(yè)面格式在不同的微信賬戶(hù)中不規則地出現. 一些WeChat帳戶(hù)始終是第一頁(yè)格式，而某些始終是第二頁(yè)格式.
　　以上鏈接是指向微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接，但是當我們在瀏覽器中輸入此鏈接時(shí)，它將顯示: 請從微信客戶(hù)端訪(fǎng)問(wèn). 這是因為實(shí)際上此鏈接地址需要幾個(gè)參數才能正常顯示內容. 讓我們看一下可以正常顯示內容的完整鏈接:
　　//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
　　在通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后，使用稍后描述的代理服務(wù)器軟件獲得此地址. 有幾個(gè)參數:
　　action =; __ biz =; uin =; key =; devicetype =; version =; lang =; nettype =; scene =; pass_ticket =; wx_header =;
　　重要參數是: __biz; uin =; key =; pass_ticket =;這四個(gè)參數.
　　__ biz是官方帳戶(hù)的類(lèi)似id的參數. 每個(gè)官方帳戶(hù)都有一個(gè)微信業(yè)務(wù). 目前，官方帳戶(hù)的業(yè)務(wù)更改的可能性很??；
　　其余3個(gè)參數與用戶(hù)的ID和令牌票證有關(guān). 這3個(gè)參數的值由微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄中. 因此，我們必須使用微信客戶(hù)端應用程序來(lái)采集官方帳戶(hù). 在以前的微信中，這三個(gè)參數也可以一次獲取，然后在有效期內可以使用多個(gè)官方賬號. 每次訪(fǎng)問(wèn)正式帳戶(hù)時(shí)，當前版本已經(jīng)更改了參數值.
　　我現在使用的方法只需要注意__biz參數.
　　我的采集系統由以下部分組成:
　　1. 微信客戶(hù)端: 可以是安裝了微信應用程序的手機，也可以是計算機中的Android模擬器. 經(jīng)過(guò)批處理測試的ios微信客戶(hù)端的崩潰率高于A(yíng)ndroid系統. 為了降低成本，我使用了Android模擬器.
　　

　　2. WeChat個(gè)人帳戶(hù): 為了采集內容，不僅需要WeChat客戶(hù)，還需要專(zhuān)用于采集的WeChat個(gè)人帳戶(hù)，因為該WeChat帳戶(hù)不能做其他事情.
　　3. 本地代理服務(wù)器系統: 當前使用的方法是通過(guò)Anyproxy代理服務(wù)器將官方帳戶(hù)歷史記錄消息頁(yè)面中的文章列表發(fā)送到其自己的服務(wù)器. 具體安裝方法將在后面詳細說(shuō)明.
　　4. 文章列表分析和存儲系統: 我使用php語(yǔ)言編寫(xiě)它. 下一篇文章將詳細介紹如何分析文章列表并建立采集隊列以實(shí)現內容的批量采集.
　　步驟
　　1. 安裝模擬器或使用手機安裝微信客戶(hù)端應用程序，申請微信個(gè)人帳號并登錄. 我不會(huì )介紹太多，每個(gè)人都會(huì ).
　　二，代理服務(wù)器系統的安裝
　　當前，我使用Anyproxy，AnyProxy. 該軟件的功能是您可以獲取https鏈接的內容. 2016年初，微信公眾號和微信文章開(kāi)始使用https鏈接. 而且Anyproxy可以通過(guò)修改規則配置將腳本代碼插入官方帳戶(hù)頁(yè)面. 安裝和配置過(guò)程將在下面介紹.
　　1. 安裝NodeJS
　　2. 在命令行或終端上運行npm install -g anyproxy，并且需要將sudo添加到mac系統；
　　3. 生成RootCA，https需要此證書(shū): 運行命令sudo anyproxy --root（Windows可能不需要sudo）；
　　4. 啟動(dòng)anyproxy以運行命令: sudo anyproxy -i;參數-i表示解析HTTPS；
　　5. 安裝證書(shū)，在手機或Android模擬器中安裝證書(shū):
　　6. 設置代理: Android仿真器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān). 通過(guò)dhcp將其設置為靜態(tài)后，您可以看到網(wǎng)關(guān)地址. 閱讀后不要忘記將其設置為自動(dòng). 電話(huà)中的代理服務(wù)器地址是運行anyproxy的計算機的ip地址. 代理服務(wù)器的默認端口為8001；
　　

　　現在打開(kāi)微信，單擊任何官方帳戶(hù)歷史記錄消息或文章，您可以在終端中看到響應代碼滾動(dòng). 如果沒(méi)有出現，請檢查手機的代理設置是否正確.
　　

　　現在打開(kāi)瀏覽器地址localhost: 8002以查看anyproxy的Web界面. 單擊以從微信打開(kāi)歷史消息頁(yè)面，然后查看瀏覽器的Web界面，將滾動(dòng)歷史消息頁(yè)面的地址.
　　

　　以/ mp / getmasssendmsg開(kāi)頭的URL是微信歷史消息頁(yè)面. 左側的小鎖表示此頁(yè)面已通過(guò)https加密. 現在我們單擊此行；
　　==========更新于2017年1月11日=========
　　一些以/ mp / getmasssendmsg開(kāi)頭的微信URL會(huì )將302跳轉到以/ mp / profile_ext？action = home開(kāi)頭的地址. 因此，請點(diǎn)擊此地址以查看內容.
　　

　　如果html文件內容顯示在右側，則表示解密成功. 如果沒(méi)有任何內容，請檢查anyproxy操作模式是否具有參數i，是否生成了ca證書(shū)以及手機上是否正確安裝了該證書(shū).
　　現在，我們手機中的所有內容都可以以明文形式通過(guò)代理服務(wù)器. 接下來(lái)，我們需要修改代理服務(wù)器的配置，以便可以獲得官方帳戶(hù)的內容.
　　一個(gè). 查找配置文件:
　　在Mac系統中配置文件的位置是/ usr / local / lib / node_modules / anyproxy / lib /;對于Windows系統，請原諒我不知道. 應該可以根據類(lèi)似于mac的文件夾的地址找到此目錄.
　　二，修改文件rule_default.js
　　找到replaceServerResDataAsync: 函數（req，res，serverResData，回調）函數
　　修改函數的內容（請仔細閱讀注釋?zhuān)@里只是為了介紹原理，理解后根據自己的條件修改內容）
　　==========更新于2017年1月11日=========
　　由于存在兩種頁(yè)面格式，并且同一頁(yè)面格式始終顯示在不同的微信帳戶(hù)中，但是為了與這兩種頁(yè)面格式兼容，以下代碼將保留對這兩種頁(yè)面格式的判斷. 您也可以在自己的頁(yè)面表單中關(guān)注“刪除li”
　　replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);\r\n/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的，將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中，并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到，那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè)，因為歷史消息第一頁(yè)是html格式的，第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的，將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';\r\n/;//定義歷史消息正則匹配規則（和第一種頁(yè)面形式的正則不同）
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的，將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中，并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的，將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的，功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)（rumor這個(gè)地址是公眾號文章被辟謠了）
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序，目的是為了獲取到下一個(gè)鏈接地址，將地址放在一個(gè)js腳本中，將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
　　上面的代碼是使用anyproxy修改返回頁(yè)面內容的功能，將腳本注入頁(yè)面，然后將頁(yè)面內容發(fā)送到服務(wù)器. 使用此原理可以分批采集官方帳戶(hù)的內容和讀取量. 此腳本中自定義了功能，下面將對其進(jìn)行詳細描述:
　　在rule_default.js文件的末尾添加以下代碼:

用于信息資源集成和Web數據捕獲，網(wǎng)站捕獲，信息采集技術(shù)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 707 次瀏覽 ? 2020-08-06 16:15 ? 來(lái)自相關(guān)話(huà)題

　　Lesi文本采集系統
　　I. 主要功能
　　Lesi文本采集系統的主要功能是: 根據用戶(hù)定義的任務(wù)配置，分批準確地提取目標文本文件中的內容，將其轉換為結構化記錄，然后保存在本地數據庫中. 特別適用于網(wǎng)絡(luò )博客/博客文章采集，RSS / ATOM XML內容采集，Text / CSV內容采集，任意格式的XML采集，自定義結構文本內容采集等. 功能圖如下:
　　
　　二，系統特點(diǎn)
　　
　　支持在遠程HTTP或FTP服務(wù)器上提取文本文件內容
　　
　　支持本地文本文件內容提取
　　
　　支持常見(jiàn)的文件格式: *. TXT，*. CSV，*. XML，*. HTM
　　
　　支持帶后綴的文本文件
　　
　　內置六種記錄塊分割方法，幾乎??可以支持任何格式的數據提取
　　
　　支持命令行格式，可以與Windows任務(wù)計劃程序配合定期提取目標數據
　　
　　支持記錄唯一索引，以避免重復存儲相同信息
　　
　　支持完全自定義數據庫表結構
　　
　　保證信息的完整性和準確性
　　
　　支持各種主流數據庫，例如MSSQL，Access，MySQL，Oracle，DB2，Sybase等.
　　三，操作環(huán)境
　　操作系統: Windows XP / NT / 2000/2003
　　內存: 建議至少32M內存，建議128M或以上
　　硬盤(pán): 至少20M可用硬盤(pán)空間
　　四個(gè). 行業(yè)應用
　　Web Text Miner主要用于: 提取實(shí)時(shí)網(wǎng)絡(luò )數據和提取本地特殊格式數據.
　　
　　門(mén)戶(hù)網(wǎng)站
　　可以做到:
　　
　　每天從目標網(wǎng)站的新聞RSS聚合或Blog聚合中提取信息（標題，作者，內容等）到數據庫
　　好處:
　　
　　輕松集成來(lái)自不同來(lái)源的在線(xiàn)新聞和Web日志
　　
　　股票和證券業(yè)
　　可以做到:
　　
　　每天將指定的遠程文本文件或網(wǎng)頁(yè)中的市場(chǎng)數據自動(dòng)采集到數據庫中.
　　好處:
　　
　　輕松獲取市場(chǎng)數據數據庫
　　
　　實(shí)時(shí)市場(chǎng)分析
　　
　　金融業(yè)
　　可以做到:
　　
　　每天自動(dòng)將指定的遠程文本文件或網(wǎng)頁(yè)中的財務(wù)信息采集到數據庫中
　　好處:
　　
　　輕松獲取市場(chǎng)數據數據庫
　　
　　實(shí)時(shí)市場(chǎng)分析
　　
　　科研機構
　　可以做到:
　　
　　某些科學(xué)研究應用程序的輸出只能是文本文件，可以使用此軟件將其轉換為數據庫
　　好處:
　　
　　無(wú)需程序員的幫助即可輕松轉換數據，并且每分鐘可以處理數十個(gè)M數據查看全部

　　Lesi文本采集系統
　　I. 主要功能
　　Lesi文本采集系統的主要功能是: 根據用戶(hù)定義的任務(wù)配置，分批準確地提取目標文本文件中的內容，將其轉換為結構化記錄，然后保存在本地數據庫中. 特別適用于網(wǎng)絡(luò )博客/博客文章采集，RSS / ATOM XML內容采集，Text / CSV內容采集，任意格式的XML采集，自定義結構文本內容采集等. 功能圖如下:
　　

　　二，系統特點(diǎn)
　　

　　支持在遠程HTTP或FTP服務(wù)器上提取文本文件內容
　　

　　支持本地文本文件內容提取
　　

　　支持常見(jiàn)的文件格式: *. TXT，*. CSV，*. XML，*. HTM
　　

　　支持帶后綴的文本文件
　　

　　內置六種記錄塊分割方法，幾乎??可以支持任何格式的數據提取
　　

　　支持命令行格式，可以與Windows任務(wù)計劃程序配合定期提取目標數據
　　

　　支持記錄唯一索引，以避免重復存儲相同信息
　　

　　支持完全自定義數據庫表結構
　　

　　保證信息的完整性和準確性
　　

　　支持各種主流數據庫，例如MSSQL，Access，MySQL，Oracle，DB2，Sybase等.
　　三，操作環(huán)境
　　操作系統: Windows XP / NT / 2000/2003
　　內存: 建議至少32M內存，建議128M或以上
　　硬盤(pán): 至少20M可用硬盤(pán)空間
　　四個(gè). 行業(yè)應用
　　Web Text Miner主要用于: 提取實(shí)時(shí)網(wǎng)絡(luò )數據和提取本地特殊格式數據.
　　

　　門(mén)戶(hù)網(wǎng)站
　　可以做到:
　　

　　每天從目標網(wǎng)站的新聞RSS聚合或Blog聚合中提取信息（標題，作者，內容等）到數據庫
　　好處:
　　

　　輕松集成來(lái)自不同來(lái)源的在線(xiàn)新聞和Web日志
　　

　　股票和證券業(yè)
　　可以做到:
　　

　　每天將指定的遠程文本文件或網(wǎng)頁(yè)中的市場(chǎng)數據自動(dòng)采集到數據庫中.
　　好處:
　　

　　輕松獲取市場(chǎng)數據數據庫
　　

　　實(shí)時(shí)市場(chǎng)分析
　　

　　金融業(yè)
　　可以做到:
　　

　　每天自動(dòng)將指定的遠程文本文件或網(wǎng)頁(yè)中的財務(wù)信息采集到數據庫中
　　好處:
　　

　　輕松獲取市場(chǎng)數據數據庫
　　

　　實(shí)時(shí)市場(chǎng)分析
　　

　　科研機構
　　可以做到:
　　

　　某些科學(xué)研究應用程序的輸出只能是文本文件，可以使用此軟件將其轉換為數據庫
　　好處:
　　

　　無(wú)需程序員的幫助即可輕松轉換數據，并且每分鐘可以處理數十個(gè)M數據

充分利用易于編寫(xiě)的熱門(mén)文章采集工具，新手可以快速制作熱門(mén)文章！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 342 次瀏覽 ? 2020-08-06 14:02 ? 來(lái)自相關(guān)話(huà)題

　　來(lái)自媒體的朋友知道，如果您希望每天都有高收入，數據可以決定一切. 即使原創(chuàng )獨家帳戶(hù)是由媒體開(kāi)設的，如果您不能發(fā)布熱門(mén)帖子，那么從該帳戶(hù)獲得的收入也很可惜. 當然，如果要發(fā)布熱門(mén)帖子，則需要使用一些熱門(mén)帖子采集工具. 在這里，Fengzi推薦一篇容易爆炸的文章. 文本采集工具，非常易于使用. 我相信許多媒體人士都對糟糕的數據感到擔憂(yōu)，但找不到合適的資料. 實(shí)際上，在易于編寫(xiě)的爆炸性物品采集工具中，您可以分析很多同行發(fā)布的爆炸性物品，包括在企鵝后臺發(fā)布的熱門(mén)文章. 這樣可以有效地分析同行發(fā)送的材料. 當然，最重要的是測試. 這是哪種帳戶(hù)適合發(fā)送的關(guān)鍵.
　　易于編寫(xiě)易爆物品采集工具:
　　易于編寫(xiě)的爆文品系統可以被視為功能相對強大的自媒體工作資料庫. 它可以分析在不同時(shí)間段，不同領(lǐng)域和不同平臺發(fā)布的爆文. 我們可以從Yizhan.com的軟件中查詢(xún)最新的熱門(mén)話(huà)題和最受歡迎的資料，這些資料可以用作我們輸入文章的主題選擇. 我們可以從同齡人那里學(xué)習很多高質(zhì)量的內容，以擴大我們的知識儲備.
　　
　　正確的操作步驟:
　　第一步: 根據操作領(lǐng)域，選擇100篇讀數超過(guò)100,000的文章. 100,000條基本上可以算作熱門(mén)文章. 找到它后，使用Excel標題計算標題，地址，清楚標記.
　　第2步: 分步分析以提取這100篇爆炸性文章的主題.
　　第3步: 總結類(lèi)似的主題，找出這些爆炸性文章標題中更常用的關(guān)鍵字和常用短語(yǔ).
　　最后，根據概括的主題和標題，模仿，您可以開(kāi)始創(chuàng )建自己的文章內容. 按照這種方法，從未接觸過(guò)的新手小白也可以迅速撰寫(xiě)熱門(mén)文章. 查看全部

　　來(lái)自媒體的朋友知道，如果您希望每天都有高收入，數據可以決定一切. 即使原創(chuàng )獨家帳戶(hù)是由媒體開(kāi)設的，如果您不能發(fā)布熱門(mén)帖子，那么從該帳戶(hù)獲得的收入也很可惜. 當然，如果要發(fā)布熱門(mén)帖子，則需要使用一些熱門(mén)帖子采集工具. 在這里，Fengzi推薦一篇容易爆炸的文章. 文本采集工具，非常易于使用. 我相信許多媒體人士都對糟糕的數據感到擔憂(yōu)，但找不到合適的資料. 實(shí)際上，在易于編寫(xiě)的爆炸性物品采集工具中，您可以分析很多同行發(fā)布的爆炸性物品，包括在企鵝后臺發(fā)布的熱門(mén)文章. 這樣可以有效地分析同行發(fā)送的材料. 當然，最重要的是測試. 這是哪種帳戶(hù)適合發(fā)送的關(guān)鍵.
　　易于編寫(xiě)易爆物品采集工具:
　　易于編寫(xiě)的爆文品系統可以被視為功能相對強大的自媒體工作資料庫. 它可以分析在不同時(shí)間段，不同領(lǐng)域和不同平臺發(fā)布的爆文. 我們可以從Yizhan.com的軟件中查詢(xún)最新的熱門(mén)話(huà)題和最受歡迎的資料，這些資料可以用作我們輸入文章的主題選擇. 我們可以從同齡人那里學(xué)習很多高質(zhì)量的內容，以擴大我們的知識儲備.
　　

　　正確的操作步驟:
　　第一步: 根據操作領(lǐng)域，選擇100篇讀數超過(guò)100,000的文章. 100,000條基本上可以算作熱門(mén)文章. 找到它后，使用Excel標題計算標題，地址，清楚標記.
　　第2步: 分步分析以提取這100篇爆炸性文章的主題.
　　第3步: 總結類(lèi)似的主題，找出這些爆炸性文章標題中更常用的關(guān)鍵字和常用短語(yǔ).
　　最后，根據概括的主題和標題，模仿，您可以開(kāi)始創(chuàng )建自己的文章內容. 按照這種方法，從未接觸過(guò)的新手小白也可以迅速撰寫(xiě)熱門(mén)文章.

我想購買(mǎi)帶有偽原創(chuàng )詞庫的凈商品采集管理系統V3.0

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 343 次瀏覽 ? 2020-08-06 05:08 ? 來(lái)自相關(guān)話(huà)題

　　現在該程序是完全開(kāi)源的，這使得淘寶每月數萬(wàn)的收入不再是夢(mèng)想
　　如果將其放置在根目錄中，則無(wú)需修改即可運行
　　將其放在根目錄中，無(wú)需任何修改即可正常運行；如果放置在虛擬目錄中，請打開(kāi)inc / config.asp并修改SitePath =“ / directory name /”
　　請確保您的空間支持FSO和AspJpeg組件，否則某些功能可能不可用
　　默認后臺管理路徑admin / admin_login.asp，用戶(hù)名和密碼均為admin
　　安全設置[重要]:
　　在inc / config.asp中修改數據庫名稱(chēng)和后臺目錄，并在Data目錄下重命名數據庫和Admin目錄
　　登錄到后臺后，請立即修改管理員用戶(hù)名和密碼
　　如果有任何疑問(wèn)，請轉到官方討論區: 在留言板上留言.
　　v3.0sp1版本更新和修訂:
　　1. 替換了html編輯器，它可以在360，firefox和Chrome中正常顯示
　　2. 取消了上傳以生成縮略圖（發(fā)現不是很有用），取消了按年和月上傳圖片以生成文件夾的操作
　　3，幻燈片可以鏈接到圖片
　　4. 修改了后臺更改管理員密碼后有時(shí)無(wú)法登錄的問(wèn)題
　　5. 在網(wǎng)站配置中添加了上載徽標的功能（太多人詢(xún)問(wèn)如何更改網(wǎng)站徽標）
　　6. 添加了上傳背景附件的功能（可以同時(shí)進(jìn)行多次上傳）
　　7. 修復成員反復刪除導致負面觀(guān)點(diǎn)的文章的錯誤
　　8. 增加在采集過(guò)程中以幻燈片形式自動(dòng)提取文章中的第一張圖片
　　9. 添加清除無(wú)用的上傳文件的功能查看全部

　　現在該程序是完全開(kāi)源的，這使得淘寶每月數萬(wàn)的收入不再是夢(mèng)想
　　如果將其放置在根目錄中，則無(wú)需修改即可運行
　　將其放在根目錄中，無(wú)需任何修改即可正常運行；如果放置在虛擬目錄中，請打開(kāi)inc / config.asp并修改SitePath =“ / directory name /”
　　請確保您的空間支持FSO和AspJpeg組件，否則某些功能可能不可用
　　默認后臺管理路徑admin / admin_login.asp，用戶(hù)名和密碼均為admin
　　安全設置[重要]:
　　在inc / config.asp中修改數據庫名稱(chēng)和后臺目錄，并在Data目錄下重命名數據庫和Admin目錄
　　登錄到后臺后，請立即修改管理員用戶(hù)名和密碼
　　如果有任何疑問(wèn)，請轉到官方討論區: 在留言板上留言.
　　v3.0sp1版本更新和修訂:
　　1. 替換了html編輯器，它可以在360，firefox和Chrome中正常顯示
　　2. 取消了上傳以生成縮略圖（發(fā)現不是很有用），取消了按年和月上傳圖片以生成文件夾的操作
　　3，幻燈片可以鏈接到圖片
　　4. 修改了后臺更改管理員密碼后有時(shí)無(wú)法登錄的問(wèn)題
　　5. 在網(wǎng)站配置中添加了上載徽標的功能（太多人詢(xún)問(wèn)如何更改網(wǎng)站徽標）
　　6. 添加了上傳背景附件的功能（可以同時(shí)進(jìn)行多次上傳）
　　7. 修復成員反復刪除導致負面觀(guān)點(diǎn)的文章的錯誤
　　8. 增加在采集過(guò)程中以幻燈片形式自動(dòng)提取文章中的第一張圖片
　　9. 添加清除無(wú)用的上傳文件的功能

凈鈦物品管理系統（OTCMS）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2020-08-06 03:09 ? 來(lái)自相關(guān)話(huà)題

　　Net Titanium物品管理系統（OTCMS）以其簡(jiǎn)單，實(shí)用和傻瓜式操作而聞名. 它是中國最受歡迎的ASP開(kāi)源網(wǎng)站管理系統之一，也是用戶(hù)增長(cháng)最快的ASP. 一種類(lèi)似CMS的系統. 當前版本在功能，人性化和易用性方面取得了長(cháng)足的進(jìn)步. OTCMS的主要目標用戶(hù)是草根的中小型個(gè)人網(wǎng)站管理員，這樣，那些對Internet不太熟悉的人，那些對網(wǎng)站建設了解不多但想要建立網(wǎng)站的人就可以快速建立功能，功能強大，用戶(hù)友好且易于使用. OTCMS更加側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設. 當然，也有使用此系統的企業(yè)用戶(hù). 使用OTCMS的用戶(hù)將不斷贊美它.
　　Net Titanium物品管理系統（OTCMS）基于A(yíng)SP + Access / Mssql的技術(shù)體系結構. 它不僅可以應用于各種新聞發(fā)布網(wǎng)站，還可以應用于信息門(mén)戶(hù)網(wǎng)站. 這些功能僅是通用的，并且易于操作. 發(fā)展方向，使那些不懂代碼但想建立自己的網(wǎng)站的朋友，使用Net Titanium文章管理系統，通過(guò)簡(jiǎn)單的后臺配置，就可以擁有一個(gè)個(gè)性化的自己的網(wǎng)站.
　　Net Titanium物品管理系統（OTCMS）更新日志:
　　2020年6月22日V2.93更新包
　　1. [完成]在主背景界面的右上角和右下角添加箭頭圖標，以重新調整內容框的高度
　　2. [修復]后臺的某些官方網(wǎng)站鏈接無(wú)效且已修復. 查看全部

　　Net Titanium物品管理系統（OTCMS）以其簡(jiǎn)單，實(shí)用和傻瓜式操作而聞名. 它是中國最受歡迎的ASP開(kāi)源網(wǎng)站管理系統之一，也是用戶(hù)增長(cháng)最快的ASP. 一種類(lèi)似CMS的系統. 當前版本在功能，人性化和易用性方面取得了長(cháng)足的進(jìn)步. OTCMS的主要目標用戶(hù)是草根的中小型個(gè)人網(wǎng)站管理員，這樣，那些對Internet不太熟悉的人，那些對網(wǎng)站建設了解不多但想要建立網(wǎng)站的人就可以快速建立功能，功能強大，用戶(hù)友好且易于使用. OTCMS更加側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設. 當然，也有使用此系統的企業(yè)用戶(hù). 使用OTCMS的用戶(hù)將不斷贊美它.
　　Net Titanium物品管理系統（OTCMS）基于A(yíng)SP + Access / Mssql的技術(shù)體系結構. 它不僅可以應用于各種新聞發(fā)布網(wǎng)站，還可以應用于信息門(mén)戶(hù)網(wǎng)站. 這些功能僅是通用的，并且易于操作. 發(fā)展方向，使那些不懂代碼但想建立自己的網(wǎng)站的朋友，使用Net Titanium文章管理系統，通過(guò)簡(jiǎn)單的后臺配置，就可以擁有一個(gè)個(gè)性化的自己的網(wǎng)站.
　　Net Titanium物品管理系統（OTCMS）更新日志:
　　2020年6月22日V2.93更新包
　　1. [完成]在主背景界面的右上角和右下角添加箭頭圖標，以重新調整內容框的高度
　　2. [修復]后臺的某些官方網(wǎng)站鏈接無(wú)效且已修復.

最詳細的優(yōu)采云數據采集系統DedeCMS發(fā)布了文章指南

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 304 次瀏覽 ? 2020-08-05 17:00 ? 來(lái)自相關(guān)話(huà)題

　　搜索引擎不喜歡復制內容，也不喜歡數據采集，但有時(shí)會(huì )遇到某些情況，例如網(wǎng)站修訂，數據庫更改，管理程序等，這些情況需要網(wǎng)絡(luò )數據采集或網(wǎng)站備份. 提醒大家:
　?、僭谶M(jìn)行任何操作之前，必須備份數據庫并打包原創(chuàng )站點(diǎn)；
　?、趯τ谂琶^高的網(wǎng)站，不建議對網(wǎng)站管理系統進(jìn)行重大更改；
　?、鄄唤ㄗh從其他網(wǎng)站采集有關(guān)新臺站的信息，這樣可以減少新臺站的特殊重量.
　　前一段時(shí)間，我制定了一個(gè)計劃，以改造舊網(wǎng)站. 隨著(zhù)管理系統和數據庫的替換，我決定采用一種解決方案來(lái)在原創(chuàng )網(wǎng)站上采集數據. 新手需要掌握很多網(wǎng)站建設知識和SEO知識才能進(jìn)行網(wǎng)站修訂. 這些經(jīng)驗可用來(lái)與您分享.
　　
　　網(wǎng)站的基本信息
　　該網(wǎng)站最初具有排名，相對較大的集合和更好的優(yōu)化. 制作風(fēng)格與Acridine非常相似，代碼簡(jiǎn)單，前端大氣，可以使用標簽，但網(wǎng)站優(yōu)化方法卻是一頭黑帽子. 使用asp程序后端，數據庫是access，要替換為php，數據庫是mysql.
　　用于網(wǎng)站修訂的軟件工具
　　
-EditPlus或DreamWear（代碼編輯器）；
-APMServ（本地ASP、PHP環(huán)境）；
-Fiddler Web漢化版（web數據抓包）；
-火車(chē)頭（LocoySpider）采集7.6（破解穩定版、數據采集）；
-DedeCMS V5.7（后臺內容管理程序）；
-其他輔助工具。
　　在Youcai Cloud Collection的幫助下進(jìn)行網(wǎng)站修訂和修訂的詳細步驟1.構建本地環(huán)境，安裝DedeCMS，安裝Fiddler Web捕獲工具，安裝Youcai Cloud Collection 7.6和其他軟件
　　安裝方法非常簡(jiǎn)單，相關(guān)文章“在64位win8win10系統中啟動(dòng)APMServ安裝失敗的解決方案”，“如何安裝dedecms的詳細說(shuō)明”.
　　提供一些軟件下載鏈接: 密碼??: 3n7e
　　2. 優(yōu)采云設置（關(guān)鍵內容）
　　官方說(shuō)明相對簡(jiǎn)單. 新手在采集網(wǎng)站數據時(shí)必須閱讀和練習更多. 打開(kāi)優(yōu)采云采集工具，然后創(chuàng )建一個(gè)新任務(wù)和組.
　　
　　第1步: 采集URL規則
　?、倨鹗嫉刂? 也就是說(shuō)，按照下圖的順序提取分頁(yè)規則: 單擊添加-單擊批處理/多頁(yè)輸入地址格式，例如我要采集的地址列表，即:
　　
http://www.123.com/case.asp%3F ... s%3D1
http://www.123.com/case.asp%3F ... s%3D1
http://www.123.com/case.asp%3F ... s%3D1
　　可以看到變量是1、2、3 ...，并使用了通配符.
　　
http://www.123.com/case.asp?page=(*)&SmallClass=1
　　選擇算術(shù)序列中的項目數作為要采集的列表數，并根據實(shí)際情況進(jìn)行寫(xiě)入. 點(diǎn)擊依次添加
　　
　　然后單擊添加-完成-關(guān)閉.
　?、诙嗉塙RL獲取. 獲取特定頁(yè)面的URL地址列表. 在任何目標列表中，單擊鼠標右鍵以查看源代碼. 一般而言，具有基礎知識的學(xué)生無(wú)需多說(shuō)，還有許多他們不理解的在線(xiàn)資源. 找到特征代碼片段，如下所示編寫(xiě)并保存.
　　
　　單擊測試URL采集以確保列表采集規則正確，然后繼續執行第二步. 查看全部

　　搜索引擎不喜歡復制內容，也不喜歡數據采集，但有時(shí)會(huì )遇到某些情況，例如網(wǎng)站修訂，數據庫更改，管理程序等，這些情況需要網(wǎng)絡(luò )數據采集或網(wǎng)站備份. 提醒大家:
　?、僭谶M(jìn)行任何操作之前，必須備份數據庫并打包原創(chuàng )站點(diǎn)；
　?、趯τ谂琶^高的網(wǎng)站，不建議對網(wǎng)站管理系統進(jìn)行重大更改；
　?、鄄唤ㄗh從其他網(wǎng)站采集有關(guān)新臺站的信息，這樣可以減少新臺站的特殊重量.
　　前一段時(shí)間，我制定了一個(gè)計劃，以改造舊網(wǎng)站. 隨著(zhù)管理系統和數據庫的替換，我決定采用一種解決方案來(lái)在原創(chuàng )網(wǎng)站上采集數據. 新手需要掌握很多網(wǎng)站建設知識和SEO知識才能進(jìn)行網(wǎng)站修訂. 這些經(jīng)驗可用來(lái)與您分享.
　　

　　網(wǎng)站的基本信息
　　該網(wǎng)站最初具有排名，相對較大的集合和更好的優(yōu)化. 制作風(fēng)格與Acridine非常相似，代碼簡(jiǎn)單，前端大氣，可以使用標簽，但網(wǎng)站優(yōu)化方法卻是一頭黑帽子. 使用asp程序后端，數據庫是access，要替換為php，數據庫是mysql.
　　用于網(wǎng)站修訂的軟件工具
　　
-EditPlus或DreamWear（代碼編輯器）；
-APMServ（本地ASP、PHP環(huán)境）；
-Fiddler Web漢化版（web數據抓包）；
-火車(chē)頭（LocoySpider）采集7.6（破解穩定版、數據采集）；
-DedeCMS V5.7（后臺內容管理程序）；
-其他輔助工具。
　　在Youcai Cloud Collection的幫助下進(jìn)行網(wǎng)站修訂和修訂的詳細步驟1.構建本地環(huán)境，安裝DedeCMS，安裝Fiddler Web捕獲工具，安裝Youcai Cloud Collection 7.6和其他軟件
　　安裝方法非常簡(jiǎn)單，相關(guān)文章“在64位win8win10系統中啟動(dòng)APMServ安裝失敗的解決方案”，“如何安裝dedecms的詳細說(shuō)明”.
　　提供一些軟件下載鏈接: 密碼??: 3n7e
　　2. 優(yōu)采云設置（關(guān)鍵內容）
　　官方說(shuō)明相對簡(jiǎn)單. 新手在采集網(wǎng)站數據時(shí)必須閱讀和練習更多. 打開(kāi)優(yōu)采云采集工具，然后創(chuàng )建一個(gè)新任務(wù)和組.
　　

　　第1步: 采集URL規則
　?、倨鹗嫉刂? 也就是說(shuō)，按照下圖的順序提取分頁(yè)規則: 單擊添加-單擊批處理/多頁(yè)輸入地址格式，例如我要采集的地址列表，即:
　　
http://www.123.com/case.asp%3F ... s%3D1
http://www.123.com/case.asp%3F ... s%3D1
http://www.123.com/case.asp%3F ... s%3D1
　　可以看到變量是1、2、3 ...，并使用了通配符.
　　
http://www.123.com/case.asp?page=(*)&SmallClass=1
　　選擇算術(shù)序列中的項目數作為要采集的列表數，并根據實(shí)際情況進(jìn)行寫(xiě)入. 點(diǎn)擊依次添加
　　

　　然后單擊添加-完成-關(guān)閉.
　?、诙嗉塙RL獲取. 獲取特定頁(yè)面的URL地址列表. 在任何目標列表中，單擊鼠標右鍵以查看源代碼. 一般而言，具有基礎知識的學(xué)生無(wú)需多說(shuō)，還有許多他們不理解的在線(xiàn)資源. 找到特征代碼片段，如下所示編寫(xiě)并保存.
　　

　　單擊測試URL采集以確保列表采集規則正確，然后繼續執行第二步.

優(yōu)采云萬(wàn)能文章采集器 V2.17.1.1 綠色版

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 321 次瀏覽 ? 2020-08-04 18:03 ? 來(lái)自相關(guān)話(huà)題

　　優(yōu)采云萬(wàn)能文章采集器，優(yōu)采云軟件出品的一款基于高精度正文識別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集百度等搜索引擎的新聞源和泛網(wǎng)頁(yè)，支持采集指定網(wǎng)站欄目下的全部文章。
　　
　　優(yōu)采云軟件出品的一款基于高精度正文識別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集各大搜索引擎的新聞和網(wǎng)頁(yè)，還支持采集指定網(wǎng)站欄目下的全部文章?；趦?yōu)采云自主開(kāi)發(fā)的正文識別智能算法，能在互聯(lián)網(wǎng)紛繁復雜的網(wǎng)頁(yè)中盡可能準確地提取出正文內容。
　　正文識別有 3 種算法，“標準”、“嚴格”和“精確標簽”。其中“標準”和“嚴格”是自動(dòng)方式，能適應絕大多數網(wǎng)頁(yè)的正文提取，而“精確標簽”只需指定正文標簽頭，如“《div class=“text”》”，就能通吃所有網(wǎng)頁(yè)的正文提取。
　　關(guān)鍵詞采集目前支持的搜索引擎有：百度、搜狗、360、谷歌、必應、雅虎
　　采集指定網(wǎng)站文章的功能也十分簡(jiǎn)單，只必須稍微設置（不需要復雜的規則），就能批量采集目標網(wǎng)站的文章了。
　　因為墻的問(wèn)題，要使用谷歌搜索跟谷歌轉譯文章的功能，需要使用VPN換國外IP。
　　內置文章轉譯功能，也就是可以將文章從一種語(yǔ)言如中文轉到另一種語(yǔ)言如英語(yǔ)，再從英文轉回中文。
　　采集文章+翻譯偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)朋友們在各領(lǐng)域主題的文章需求。
　　而一些公關(guān)處理、信息調查公司所需的由專(zhuān)業(yè)公司研發(fā)的信息采集系統，售價(jià)通常達到上萬(wàn)甚至更多，而優(yōu)采云的這款軟件只是一款信息采集系統，功能和市面上昂貴價(jià)格的硬件有相通之處，但價(jià)錢(qián)只有區區幾百元，性?xún)r(jià)比如何試試就知。
　　更新日志
　　URL采集文章面板的準確標簽新增模糊匹配功能；新增計劃任務(wù)功能，可以設定多個(gè)時(shí)間點(diǎn)，到點(diǎn)自動(dòng)開(kāi)始采集（當前被顯示面板的開(kāi)始采集）。查看全部

　　優(yōu)采云萬(wàn)能文章采集器，優(yōu)采云軟件出品的一款基于高精度正文識別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集百度等搜索引擎的新聞源和泛網(wǎng)頁(yè)，支持采集指定網(wǎng)站欄目下的全部文章。
　　

　　優(yōu)采云軟件出品的一款基于高精度正文識別算法的互聯(lián)網(wǎng)文章采集器。支持按關(guān)鍵詞采集各大搜索引擎的新聞和網(wǎng)頁(yè)，還支持采集指定網(wǎng)站欄目下的全部文章?；趦?yōu)采云自主開(kāi)發(fā)的正文識別智能算法，能在互聯(lián)網(wǎng)紛繁復雜的網(wǎng)頁(yè)中盡可能準確地提取出正文內容。
　　正文識別有 3 種算法，“標準”、“嚴格”和“精確標簽”。其中“標準”和“嚴格”是自動(dòng)方式，能適應絕大多數網(wǎng)頁(yè)的正文提取，而“精確標簽”只需指定正文標簽頭，如“《div class=“text”》”，就能通吃所有網(wǎng)頁(yè)的正文提取。
　　關(guān)鍵詞采集目前支持的搜索引擎有：百度、搜狗、360、谷歌、必應、雅虎
　　采集指定網(wǎng)站文章的功能也十分簡(jiǎn)單，只必須稍微設置（不需要復雜的規則），就能批量采集目標網(wǎng)站的文章了。
　　因為墻的問(wèn)題，要使用谷歌搜索跟谷歌轉譯文章的功能，需要使用VPN換國外IP。
　　內置文章轉譯功能，也就是可以將文章從一種語(yǔ)言如中文轉到另一種語(yǔ)言如英語(yǔ)，再從英文轉回中文。
　　采集文章+翻譯偽原創(chuàng )可以滿(mǎn)足廣大站長(cháng)朋友們在各領(lǐng)域主題的文章需求。
　　而一些公關(guān)處理、信息調查公司所需的由專(zhuān)業(yè)公司研發(fā)的信息采集系統，售價(jià)通常達到上萬(wàn)甚至更多，而優(yōu)采云的這款軟件只是一款信息采集系統，功能和市面上昂貴價(jià)格的硬件有相通之處，但價(jià)錢(qián)只有區區幾百元，性?xún)r(jià)比如何試試就知。
　　更新日志
　　URL采集文章面板的準確標簽新增模糊匹配功能；新增計劃任務(wù)功能，可以設定多個(gè)時(shí)間點(diǎn)，到點(diǎn)自動(dòng)開(kāi)始采集（當前被顯示面板的開(kāi)始采集）。

微信公眾號文章采集系統---開(kāi)箱即用

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 357 次瀏覽 ? 2020-08-04 18:00 ? 來(lái)自相關(guān)話(huà)題

　　本著(zhù)開(kāi)源精神和便于用戶(hù)，現已將"微信公眾號文章采集系統"打包成虛擬機，你只需下載安裝虛擬機鏡像，即可使用。
　　系統鏡像有6個(gè)G,只能通過(guò)種子的方式下載了，鏡像種子下載地址
　　鏈接: 密碼: 7r4d
　　首先要感謝飯口組組長(cháng) 把他的采集方案開(kāi)源出來(lái) 。
　　這里從而稱(chēng)之為系統是因為涉及至的技術(shù)很多，這里一一列舉：
　　1、anyproxy 阿里巴巴開(kāi)源的代理攔截器，使用的是4.0的版本，可以很方便的更改 response 信息。anyproxy 我在系統中早已安裝好了，安裝也很簡(jiǎn)單，先安裝nodejs環(huán)境，然后用npm安裝anyproxy.
　　anyproxy 4.0開(kāi)始規則可以成為模塊來(lái)開(kāi)發(fā)，寫(xiě)好了規則代碼然后，不用動(dòng)其實(shí)的代碼，只必須在anproxy的參數帶上規則文件。這里用到的命令 anproxy --rule weixin.js。關(guān)于anproxy如何設置https 證書(shū)問(wèn)題，可以參考官網(wǎng)。我在虛擬機中設置了全局的代理，所以必須 anyproxy 打開(kāi)后就能，8001端口可以訪(fǎng)問(wèn)請求能否成功。
　　規則代碼主要的邏輯是針對微信公眾號的請求進(jìn)行攔截，把數據轉發(fā)到 php。
　　2、apache+php+mysql 這里主要是作為web服務(wù)器來(lái)處理anyproxy 攔截的請求，處理微信文章數據和點(diǎn)贊數、閱讀數。
　　攔截過(guò)來(lái)的數據的處理可以看詳細的php代碼，邏輯不算很復雜。這里為了便于使用的是phpstudy的集成開(kāi)發(fā)環(huán)境。
　　3、按鍵精靈，按鍵精靈是國產(chǎn)的一種類(lèi)似vb語(yǔ)法的模擬鍵盤(pán)鼠標的工具。這里用到按鍵精靈來(lái)模擬點(diǎn)擊windows下的微信客戶(hù)端。
　　在處理多個(gè)微信公眾號的之后，需要客戶(hù)端來(lái)點(diǎn)擊，把所有的自動(dòng)操作通過(guò)按鍵精靈來(lái)模擬出來(lái)。去查看具體的代碼的之后，我在處理點(diǎn)擊歷史消息使用了一個(gè)小技巧，事實(shí)是開(kāi)始想通過(guò)直接通過(guò)識別照片的方法來(lái)找到 “歷史消息” 按鈕的位置，但是發(fā)覺(jué)如何也找不到，然后只能循環(huán)向下移動(dòng)鼠標，直到區域內找到特定的顏色，就是“歷史消息”按鈕。
　　在一條思路行不通的之后，就要嘗試其他思路。整個(gè)系統就是做出來(lái)，就是要處理這些看似行得通，實(shí)際不通，然后再去嘗試，如此反復。
　　4、windows 微信客戶(hù)端，其實(shí)我嘗試過(guò)用安卓模擬器，因為我的目標是開(kāi)箱即用，所以必須把所有的程序都無(wú)法裝到一起，但是在虛擬機中是無(wú)法安裝安卓模擬器，也就是說(shuō)虛擬機中是無(wú)法做二次虛擬的。這個(gè)坑我終于踩過(guò)了，大家就不用踩了，記得之前有人問(wèn)過(guò)，阿里云windows服務(wù)器能不能裝安卓模擬器，我想答案是一樣的，虛擬機不能做二次虛擬化，阿里云windows服務(wù)器不能裝安卓模擬器。
　　所以，當我嘗試安卓模擬器后，發(fā)現其實(shí)微信pc客戶(hù)端(包括mac)的功能早已做的太完善了，然后就去嘗試windows客戶(hù)端。
　　5、virtualbox 虛擬機，這個(gè)是甲骨文公司出的虛擬機。會(huì )涉及到一些網(wǎng)絡(luò )的配置，比如設置為NAT模式。
　　現在把虛擬機鏡像開(kāi)源出來(lái)，里面所有的代碼都在虛擬機中，大家可以隨便修改。
　　從更開(kāi)始了解公眾號文章采集到了解實(shí)現原理，再到最后做出鏡像，中間經(jīng)歷過(guò)諸多困難，耗時(shí)耗力，請教各種人，甚至喝水吃飯都在想某個(gè)細節的解決方案，有解決問(wèn)題的快樂(lè )，有被問(wèn)題纏繞時(shí)的困惑，感謝這個(gè)過(guò)程中予以過(guò)幫助人。
　　在安裝使用過(guò)程中碰到什么問(wèn)題可以加我微信 ( liuhan199012 )
　　文章來(lái)源：segmentfault，作者：程序員Hani。如果您發(fā)現本社區中有涉嫌抄襲的內容，歡迎發(fā)送郵件至：william.shi#ucloud.cn（郵箱中#請改為@）進(jìn)行舉報，并提供相關(guān)證據，一經(jīng)查實(shí)，本社區將立刻刪除涉嫌侵權內容。
　　
　　后臺-系統設置-擴展變量-手機廣告位-內容正文底部查看全部

　　本著(zhù)開(kāi)源精神和便于用戶(hù)，現已將"微信公眾號文章采集系統"打包成虛擬機，你只需下載安裝虛擬機鏡像，即可使用。
　　系統鏡像有6個(gè)G,只能通過(guò)種子的方式下載了，鏡像種子下載地址
　　鏈接: 密碼: 7r4d
　　首先要感謝飯口組組長(cháng) 把他的采集方案開(kāi)源出來(lái) 。
　　這里從而稱(chēng)之為系統是因為涉及至的技術(shù)很多，這里一一列舉：
　　1、anyproxy 阿里巴巴開(kāi)源的代理攔截器，使用的是4.0的版本，可以很方便的更改 response 信息。anyproxy 我在系統中早已安裝好了，安裝也很簡(jiǎn)單，先安裝nodejs環(huán)境，然后用npm安裝anyproxy.
　　anyproxy 4.0開(kāi)始規則可以成為模塊來(lái)開(kāi)發(fā)，寫(xiě)好了規則代碼然后，不用動(dòng)其實(shí)的代碼，只必須在anproxy的參數帶上規則文件。這里用到的命令 anproxy --rule weixin.js。關(guān)于anproxy如何設置https 證書(shū)問(wèn)題，可以參考官網(wǎng)。我在虛擬機中設置了全局的代理，所以必須 anyproxy 打開(kāi)后就能，8001端口可以訪(fǎng)問(wèn)請求能否成功。
　　規則代碼主要的邏輯是針對微信公眾號的請求進(jìn)行攔截，把數據轉發(fā)到 php。
　　2、apache+php+mysql 這里主要是作為web服務(wù)器來(lái)處理anyproxy 攔截的請求，處理微信文章數據和點(diǎn)贊數、閱讀數。
　　攔截過(guò)來(lái)的數據的處理可以看詳細的php代碼，邏輯不算很復雜。這里為了便于使用的是phpstudy的集成開(kāi)發(fā)環(huán)境。
　　3、按鍵精靈，按鍵精靈是國產(chǎn)的一種類(lèi)似vb語(yǔ)法的模擬鍵盤(pán)鼠標的工具。這里用到按鍵精靈來(lái)模擬點(diǎn)擊windows下的微信客戶(hù)端。
　　在處理多個(gè)微信公眾號的之后，需要客戶(hù)端來(lái)點(diǎn)擊，把所有的自動(dòng)操作通過(guò)按鍵精靈來(lái)模擬出來(lái)。去查看具體的代碼的之后，我在處理點(diǎn)擊歷史消息使用了一個(gè)小技巧，事實(shí)是開(kāi)始想通過(guò)直接通過(guò)識別照片的方法來(lái)找到 “歷史消息” 按鈕的位置，但是發(fā)覺(jué)如何也找不到，然后只能循環(huán)向下移動(dòng)鼠標，直到區域內找到特定的顏色，就是“歷史消息”按鈕。
　　在一條思路行不通的之后，就要嘗試其他思路。整個(gè)系統就是做出來(lái)，就是要處理這些看似行得通，實(shí)際不通，然后再去嘗試，如此反復。
　　4、windows 微信客戶(hù)端，其實(shí)我嘗試過(guò)用安卓模擬器，因為我的目標是開(kāi)箱即用，所以必須把所有的程序都無(wú)法裝到一起，但是在虛擬機中是無(wú)法安裝安卓模擬器，也就是說(shuō)虛擬機中是無(wú)法做二次虛擬的。這個(gè)坑我終于踩過(guò)了，大家就不用踩了，記得之前有人問(wèn)過(guò)，阿里云windows服務(wù)器能不能裝安卓模擬器，我想答案是一樣的，虛擬機不能做二次虛擬化，阿里云windows服務(wù)器不能裝安卓模擬器。
　　所以，當我嘗試安卓模擬器后，發(fā)現其實(shí)微信pc客戶(hù)端(包括mac)的功能早已做的太完善了，然后就去嘗試windows客戶(hù)端。
　　5、virtualbox 虛擬機，這個(gè)是甲骨文公司出的虛擬機。會(huì )涉及到一些網(wǎng)絡(luò )的配置，比如設置為NAT模式。
　　現在把虛擬機鏡像開(kāi)源出來(lái)，里面所有的代碼都在虛擬機中，大家可以隨便修改。
　　從更開(kāi)始了解公眾號文章采集到了解實(shí)現原理，再到最后做出鏡像，中間經(jīng)歷過(guò)諸多困難，耗時(shí)耗力，請教各種人，甚至喝水吃飯都在想某個(gè)細節的解決方案，有解決問(wèn)題的快樂(lè )，有被問(wèn)題纏繞時(shí)的困惑，感謝這個(gè)過(guò)程中予以過(guò)幫助人。
　　在安裝使用過(guò)程中碰到什么問(wèn)題可以加我微信 ( liuhan199012 )
　　文章來(lái)源：segmentfault，作者：程序員Hani。如果您發(fā)現本社區中有涉嫌抄襲的內容，歡迎發(fā)送郵件至：william.shi#ucloud.cn（郵箱中#請改為@）進(jìn)行舉報，并提供相關(guān)證據，一經(jīng)查實(shí)，本社區將立刻刪除涉嫌侵權內容。
　　

　　后臺-系統設置-擴展變量-手機廣告位-內容正文底部

Yimi智能文章收集系統的正式版本

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 203 次瀏覽 ? 2020-08-04 17:04 ? 來(lái)自相關(guān)話(huà)題

　　該站點(diǎn)提供了Yimi智能文章收集系統的正式版，營(yíng)銷(xiāo)軟件/ seo軟件/促銷(xiāo)軟件免費下載.
　　[軟件屏幕截圖]
　　
　　[基本介紹]
　　偽原創(chuàng )必不可少的工具，最好的微信，論壇，博客，seo文章批量自動(dòng)收集原始工具，網(wǎng)站文章偽原創(chuàng )軟件，益密智能文章收集系統系統是專(zhuān)業(yè)的網(wǎng)站，論壇，博客，批處理內容集合可以同時(shí)用作偽原創(chuàng )工具，使用時(shí)無(wú)需編寫(xiě)規則就不復雜，這是數百萬(wàn)基層網(wǎng)站管理員的強烈建議！
　　可以說(shuō)是簡(jiǎn)介:
　　不需要任何源代碼即可直接收集文章站點(diǎn)中的所有文本信息，可以收集指定的站點(diǎn)，只要它是文章站點(diǎn)，就可以被收集，并且它支持偽原始和全球主流博客和文章批量發(fā)布的cms系統.
　　軟件功能:
　　可以在不了解源代碼規則的情況下進(jìn)行收集，只要它是文章內容網(wǎng)站，就可以快速收集
　　中英文自動(dòng)偽原創(chuàng )，原創(chuàng )率80％以上
　　自動(dòng)消噪，去除亂碼并判斷文章的長(cháng)度，使文章內容整潔
　　全球次要語(yǔ)言支持，指定的網(wǎng)站集，非文章來(lái)源
　　多線(xiàn)程和多任務(wù)（多站點(diǎn)）同步收集，在一分鐘內收集1000多個(gè)文章
　　批量發(fā)布到常見(jiàn)博客/網(wǎng)站內容CMS
　　更新日志:
　　2015-11-16智能文章收集系統正式發(fā)布并在線(xiàn)●智能文章收集系統正式發(fā)布并在線(xiàn)
　　2015-12-10添加了英語(yǔ)TBS詞庫●添加了英語(yǔ)TBS詞庫的原始處理
　　2015-12-27改進(jìn)了塊算法，提取更加準確●改進(jìn)了內容塊算法，進(jìn)一步去噪使提取的內容更加準確
　　2016-01-11添加了joomla博客發(fā)布界面●添加了joomla博客發(fā)布界面，支持加密接口發(fā)布
　　2016-04-08新的代理收集功能●添加了使用代理收集的功能，該功能可以收集某些防火墻（防火墻），以防止大量站點(diǎn)被爬蟲(chóng)爬行查看全部

　　該站點(diǎn)提供了Yimi智能文章收集系統的正式版，營(yíng)銷(xiāo)軟件/ seo軟件/促銷(xiāo)軟件免費下載.
　　[軟件屏幕截圖]
　　

　　[基本介紹]
　　偽原創(chuàng )必不可少的工具，最好的微信，論壇，博客，seo文章批量自動(dòng)收集原始工具，網(wǎng)站文章偽原創(chuàng )軟件，益密智能文章收集系統系統是專(zhuān)業(yè)的網(wǎng)站，論壇，博客，批處理內容集合可以同時(shí)用作偽原創(chuàng )工具，使用時(shí)無(wú)需編寫(xiě)規則就不復雜，這是數百萬(wàn)基層網(wǎng)站管理員的強烈建議！
　　可以說(shuō)是簡(jiǎn)介:
　　不需要任何源代碼即可直接收集文章站點(diǎn)中的所有文本信息，可以收集指定的站點(diǎn)，只要它是文章站點(diǎn)，就可以被收集，并且它支持偽原始和全球主流博客和文章批量發(fā)布的cms系統.
　　軟件功能:
　　可以在不了解源代碼規則的情況下進(jìn)行收集，只要它是文章內容網(wǎng)站，就可以快速收集
　　中英文自動(dòng)偽原創(chuàng )，原創(chuàng )率80％以上
　　自動(dòng)消噪，去除亂碼并判斷文章的長(cháng)度，使文章內容整潔
　　全球次要語(yǔ)言支持，指定的網(wǎng)站集，非文章來(lái)源
　　多線(xiàn)程和多任務(wù)（多站點(diǎn)）同步收集，在一分鐘內收集1000多個(gè)文章
　　批量發(fā)布到常見(jiàn)博客/網(wǎng)站內容CMS
　　更新日志:
　　2015-11-16智能文章收集系統正式發(fā)布并在線(xiàn)●智能文章收集系統正式發(fā)布并在線(xiàn)
　　2015-12-10添加了英語(yǔ)TBS詞庫●添加了英語(yǔ)TBS詞庫的原始處理
　　2015-12-27改進(jìn)了塊算法，提取更加準確●改進(jìn)了內容塊算法，進(jìn)一步去噪使提取的內容更加準確
　　2016-01-11添加了joomla博客發(fā)布界面●添加了joomla博客發(fā)布界面，支持加密接口發(fā)布
　　2016-04-08新的代理收集功能●添加了使用代理收集的功能，該功能可以收集某些防火墻（防火墻），以防止大量站點(diǎn)被爬蟲(chóng)爬行

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

AI時(shí)代內容工廠(chǎng)

文章采集系統

9.Spark小型電商項目-離線(xiàn)日志采集流程介紹

航測數據采集系統的設計與實(shí)現

08CMS v3.4版本采集系統使用教程

網(wǎng)絡(luò )信息采集系統的需求分析

讓您了解zabbix集成了ELK來(lái)采集系統異常日志以觸發(fā)警報?

持續更新，構建微信公眾號批量收款系統

用于信息資源集成和Web數據捕獲，網(wǎng)站捕獲，信息采集技術(shù)

充分利用易于編寫(xiě)的熱門(mén)文章采集工具，新手可以快速制作熱門(mén)文章！

我想購買(mǎi)帶有偽原創(chuàng )詞庫的凈商品采集管理系統V3.0

凈鈦物品管理系統（OTCMS）

最詳細的優(yōu)采云數據采集系統DedeCMS發(fā)布了文章指南

優(yōu)采云萬(wàn)能文章采集器 V2.17.1.1 綠色版

微信公眾號文章采集系統---開(kāi)箱即用

Yimi智能文章收集系統的正式版本

9.Spark小型電商項目-離線(xiàn)日志采集流程介紹

航測數據采集系統的設計與實(shí)現

08CMS v3.4版本采集系統使用教程

網(wǎng)絡(luò )信息采集系統的需求分析

讓您了解zabbix集成了ELK來(lái)采集系統異常日志以觸發(fā)警報?

持續更新，構建微信公眾號批量收款系統

用于信息資源集成和Web數據捕獲，網(wǎng)站捕獲，信息采集技術(shù)

充分利用易于編寫(xiě)的熱門(mén)文章采集工具，新手可以快速制作熱門(mén)文章！

我想購買(mǎi)帶有偽原創(chuàng )詞庫的凈商品采集管理系統V3.0

凈鈦物品管理系統（OTCMS）

最詳細的優(yōu)采云數據采集系統DedeCMS發(fā)布了文章指南

優(yōu)采云萬(wàn)能文章采集器 V2.17.1.1 綠色版

微信公眾號文章采集系統---開(kāi)箱即用

Yimi智能文章收集系統的正式版本

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

1 人關(guān)注該話(huà)題