亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<ul id="gkwam"></ul>

<ul id="gkwam"></ul>

<kbd id="gkwam"></kbd>

<tr id="gkwam"><td id="gkwam"></td></tr>

<ul id="gkwam"></ul>

<ul id="gkwam"></ul><kbd id="gkwam"></kbd>

<kbd id="gkwam"></kbd>

云端內容采集

云端內容采集

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 192 次瀏覽 ? 2021-03-20 22:06 ? 來(lái)自相關(guān)話(huà)題

　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)
　　云端內容采集比拼直播報名同步在線(xiàn)觀(guān)看
　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)，而相關(guān)業(yè)務(wù)也在發(fā)展過(guò)程中。目前來(lái)看，互聯(lián)網(wǎng)行業(yè)的內容采集是電商電視網(wǎng)站作為第一手來(lái)源，然后衍生出一個(gè)內容分發(fā)的平臺，內容分發(fā)平臺可通過(guò)形成流量效應獲得投資。內容的分發(fā)，特別是新媒體內容平臺內容分發(fā)，決定了分發(fā)是否符合用戶(hù)喜好，采集是否和用戶(hù)體驗完美相關(guān)，在這方面有了更多可能性。
　　至于直播，垂直平臺、社區、社群、游戲、音樂(lè )、體育等等，內容形式、內容分發(fā)是一個(gè)趨勢，但受政策、相關(guān)費用、版權等等的影響，很難在內容分發(fā)領(lǐng)域提供顛覆性創(chuàng )新。相關(guān)資料你也可以看看這個(gè)：將網(wǎng)站、動(dòng)漫、視頻平臺內容共享，讓用戶(hù)成為內容的采集者和生產(chǎn)者，中國內容社區網(wǎng)站形成。
　　我一直就在想，這些獲取平臺流量的大平臺所接觸的數據都是誰(shuí)提供的，如果作為平臺方?jīng)]有對數據提供商嚴格的把控，就說(shuō)明平臺接觸的數據不準，對于分發(fā)數據的偏差將會(huì )產(chǎn)生巨大的影響。只不過(guò)目前我國社會(huì )由于絕大多數人都沒(méi)有什么開(kāi)放的社會(huì )觀(guān)念，依然處于原始社會(huì )，面對內容和數據巨大分發(fā)的壓力，要么分發(fā)數據不準，要么采集數據不準。否則，就會(huì )完全淪為中小平臺的數據搬運工。
　　問(wèn)題涉及內容獲取和分發(fā)。樓上有幾位大v已經(jīng)答了。這里簡(jiǎn)單補充幾句。內容，即信息和知識。平臺上采集的數據一定只有其中的核心內容，作為平臺方和采集方的角色本身不是一個(gè)純粹的數據使用者，而是一個(gè)社會(huì )效應的生產(chǎn)者和傳播者。既然內容在平臺上，采集方和社會(huì )效應生產(chǎn)者之間還存在競爭，又怎么可能建立起一個(gè)分發(fā)統一的互聯(lián)網(wǎng)社會(huì )數據傳播規則，大家都去賣(mài)內容。
　　可以簡(jiǎn)單的想象，如果平臺的內容只是平臺上的產(chǎn)品，那么需要內容的用戶(hù)是無(wú)差別的，沒(méi)有什么能夠改變只有“內容獲取”和“內容分發(fā)”兩個(gè)主要功能。那么，如果，內容獲取實(shí)現了分發(fā)，就必然要分發(fā)給更多的用戶(hù)，那么這個(gè)產(chǎn)品的主要“產(chǎn)品”“核心功能”是什么？。查看全部

　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)
　　云端內容采集比拼直播報名同步在線(xiàn)觀(guān)看
　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)，而相關(guān)業(yè)務(wù)也在發(fā)展過(guò)程中。目前來(lái)看，互聯(lián)網(wǎng)行業(yè)的內容采集是電商電視網(wǎng)站作為第一手來(lái)源，然后衍生出一個(gè)內容分發(fā)的平臺，內容分發(fā)平臺可通過(guò)形成流量效應獲得投資。內容的分發(fā)，特別是新媒體內容平臺內容分發(fā)，決定了分發(fā)是否符合用戶(hù)喜好，采集是否和用戶(hù)體驗完美相關(guān)，在這方面有了更多可能性。
　　至于直播，垂直平臺、社區、社群、游戲、音樂(lè )、體育等等，內容形式、內容分發(fā)是一個(gè)趨勢，但受政策、相關(guān)費用、版權等等的影響，很難在內容分發(fā)領(lǐng)域提供顛覆性創(chuàng )新。相關(guān)資料你也可以看看這個(gè)：將網(wǎng)站、動(dòng)漫、視頻平臺內容共享，讓用戶(hù)成為內容的采集者和生產(chǎn)者，中國內容社區網(wǎng)站形成。
　　我一直就在想，這些獲取平臺流量的大平臺所接觸的數據都是誰(shuí)提供的，如果作為平臺方?jīng)]有對數據提供商嚴格的把控，就說(shuō)明平臺接觸的數據不準，對于分發(fā)數據的偏差將會(huì )產(chǎn)生巨大的影響。只不過(guò)目前我國社會(huì )由于絕大多數人都沒(méi)有什么開(kāi)放的社會(huì )觀(guān)念，依然處于原始社會(huì )，面對內容和數據巨大分發(fā)的壓力，要么分發(fā)數據不準，要么采集數據不準。否則，就會(huì )完全淪為中小平臺的數據搬運工。
　　問(wèn)題涉及內容獲取和分發(fā)。樓上有幾位大v已經(jīng)答了。這里簡(jiǎn)單補充幾句。內容，即信息和知識。平臺上采集的數據一定只有其中的核心內容，作為平臺方和采集方的角色本身不是一個(gè)純粹的數據使用者，而是一個(gè)社會(huì )效應的生產(chǎn)者和傳播者。既然內容在平臺上，采集方和社會(huì )效應生產(chǎn)者之間還存在競爭，又怎么可能建立起一個(gè)分發(fā)統一的互聯(lián)網(wǎng)社會(huì )數據傳播規則，大家都去賣(mài)內容。
　　可以簡(jiǎn)單的想象，如果平臺的內容只是平臺上的產(chǎn)品，那么需要內容的用戶(hù)是無(wú)差別的，沒(méi)有什么能夠改變只有“內容獲取”和“內容分發(fā)”兩個(gè)主要功能。那么，如果，內容獲取實(shí)現了分發(fā)，就必然要分發(fā)給更多的用戶(hù)，那么這個(gè)產(chǎn)品的主要“產(chǎn)品”“核心功能”是什么？。

云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2021-02-07 09:01 ? 來(lái)自相關(guān)話(huà)題

　　云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）
　　云端內容采集開(kāi)始，中間的環(huán)節是（點(diǎn)播云端直播點(diǎn)播商城安卓云端）結束可以是（回放預覽網(wǎng)絡(luò )數據存儲）當然了是分批（第一個(gè)回放最重要，然后下一個(gè)回放然后反饋在最上層在市場(chǎng)最終宣傳）第一批完了呢后面的云端點(diǎn)播商城云端云臺直播錄制和回放直播回放都是后端來(lái)判斷的，可以調出來(lái)直接讀取點(diǎn)播數據存儲回放數據云臺，直播預覽。
　　推送的數據庫是硬盤(pán)，這個(gè)和excel的區別是數據表現形式不同。數據采集是云臺電路板子里的，做到云臺里，用帶云臺的，根據距離采集原始數據，分析出速度。和硬盤(pán)的差別是，云臺更靈活，而且沒(méi)有體積和重量上的限制。普通硬盤(pán)可能卡，云臺就可以點(diǎn)鼠標控制。excel上的數據標記，可以點(diǎn)鼠標，云臺也可以點(diǎn)。
　　云臺那塊數據讀取傳輸到網(wǎng)絡(luò )內核里，再通過(guò)網(wǎng)絡(luò )反饋一個(gè)數據到服務(wù)器上。服務(wù)器上有統一的接口讀取數據，返回數據到硬盤(pán)。所以可以在云端任意加任意時(shí)間線(xiàn)的數據。
　　云端內容在主機開(kāi)始播放，云端內容在推流平臺播放，推流平臺在播放平臺播放時(shí)，需要計算調度播放平臺下的播放位置，然后返回給播放平臺，播放平臺需要根據視頻位置去做推送。以上是基本的流程。其實(shí)類(lèi)似于網(wǎng)頁(yè)里抓包，只不過(guò)本質(zhì)上是發(fā)送請求，而不是翻頁(yè)。也是需要調度、重定向、網(wǎng)絡(luò )傳輸等等。不過(guò)用戶(hù)這樣的需求是相當明顯的，如果能滿(mǎn)足的話(huà)，基本上能做的很好。查看全部

　　云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）
　　云端內容采集開(kāi)始，中間的環(huán)節是（點(diǎn)播云端直播點(diǎn)播商城安卓云端）結束可以是（回放預覽網(wǎng)絡(luò )數據存儲）當然了是分批（第一個(gè)回放最重要，然后下一個(gè)回放然后反饋在最上層在市場(chǎng)最終宣傳）第一批完了呢后面的云端點(diǎn)播商城云端云臺直播錄制和回放直播回放都是后端來(lái)判斷的，可以調出來(lái)直接讀取點(diǎn)播數據存儲回放數據云臺，直播預覽。
　　推送的數據庫是硬盤(pán)，這個(gè)和excel的區別是數據表現形式不同。數據采集是云臺電路板子里的，做到云臺里，用帶云臺的，根據距離采集原始數據，分析出速度。和硬盤(pán)的差別是，云臺更靈活，而且沒(méi)有體積和重量上的限制。普通硬盤(pán)可能卡，云臺就可以點(diǎn)鼠標控制。excel上的數據標記，可以點(diǎn)鼠標，云臺也可以點(diǎn)。
　　云臺那塊數據讀取傳輸到網(wǎng)絡(luò )內核里，再通過(guò)網(wǎng)絡(luò )反饋一個(gè)數據到服務(wù)器上。服務(wù)器上有統一的接口讀取數據，返回數據到硬盤(pán)。所以可以在云端任意加任意時(shí)間線(xiàn)的數據。
　　云端內容在主機開(kāi)始播放，云端內容在推流平臺播放，推流平臺在播放平臺播放時(shí)，需要計算調度播放平臺下的播放位置，然后返回給播放平臺，播放平臺需要根據視頻位置去做推送。以上是基本的流程。其實(shí)類(lèi)似于網(wǎng)頁(yè)里抓包，只不過(guò)本質(zhì)上是發(fā)送請求，而不是翻頁(yè)。也是需要調度、重定向、網(wǎng)絡(luò )傳輸等等。不過(guò)用戶(hù)這樣的需求是相當明顯的，如果能滿(mǎn)足的話(huà)，基本上能做的很好。

解決方案：大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 304 次瀏覽 ? 2020-10-20 11:01 ? 來(lái)自相關(guān)話(huà)題

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人沒(méi)有挖掘數據的能力，只能使用第三方采集器軟件來(lái)獲取數據采集，傳統的采集軟件主要取決于Windows系統，但是現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows軟件已無(wú)法滿(mǎn)足網(wǎng)站的多方面需求，并且成本昂貴且云同步能力很差，因此金錢(qián)成本網(wǎng)站幾乎沒(méi)有效果。具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)自己的網(wǎng)站采集程序，該程序涉及人員，周期和成本方面的大量投資，并且該程序的可伸縮性和多功能性在以后的維護中顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到認識到采集的云化，市場(chǎng)上的采集云僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，優(yōu)采云采集器是真正的云數據采集發(fā)布系統。它使用類(lèi)似于cms的系統來(lái)構建網(wǎng)站，該網(wǎng)站可以安裝在客戶(hù)自己的服務(wù)器中?？梢酝ㄟ^(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip來(lái)進(jìn)行操作。采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是可以在服務(wù)器的任何子目錄中建立的輔助網(wǎng)站采集系統，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，致力于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站構建程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！操作界面具有完全相同的功能，非常適合計算機終端和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！查看全部

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人沒(méi)有挖掘數據的能力，只能使用第三方采集器軟件來(lái)獲取數據采集，傳統的采集軟件主要取決于Windows系統，但是現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows軟件已無(wú)法滿(mǎn)足網(wǎng)站的多方面需求，并且成本昂貴且云同步能力很差，因此金錢(qián)成本網(wǎng)站幾乎沒(méi)有效果。具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)自己的網(wǎng)站采集程序，該程序涉及人員，周期和成本方面的大量投資，并且該程序的可伸縮性和多功能性在以后的維護中顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到認識到采集的云化，市場(chǎng)上的采集云僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，優(yōu)采云采集器是真正的云數據采集發(fā)布系統。它使用類(lèi)似于cms的系統來(lái)構建網(wǎng)站，該網(wǎng)站可以安裝在客戶(hù)自己的服務(wù)器中?？梢酝ㄟ^(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip來(lái)進(jìn)行操作。采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是可以在服務(wù)器的任何子目錄中建立的輔助網(wǎng)站采集系統，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，致力于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站構建程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！操作界面具有完全相同的功能，非常適合計算機終端和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！

解讀：保護原創(chuàng )內容、控制采集！360搜索上線(xiàn)“優(yōu)采云算法”

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 325 次瀏覽 ? 2020-10-09 13:03 ? 來(lái)自相關(guān)話(huà)題

　　保護原創(chuàng )內容，控制采集！ 360搜索在線(xiàn)“優(yōu)采云算法”
　　在“五公算法”之后，360 Search推出了“優(yōu)采云算法”。優(yōu)采云算法主要通過(guò)使用苛刻的采集方法，通過(guò)內容拼接，秘密更改標題和其他方法在短時(shí)間內“創(chuàng )建”大量垃圾郵件頁(yè)面，針對某些質(zhì)量較低的網(wǎng)站。根據官方聲明，優(yōu)采云算法啟動(dòng)后，高質(zhì)量的內容頁(yè)面將得到保護和提升，而采集劣等網(wǎng)站將大大減少其在搜索引擎結果頁(yè)面上顯示的機會(huì )。
　　什么是可憐的采集網(wǎng)站？
　　所謂的劣等網(wǎng)站采集主要是通過(guò)隱瞞或篡改文章的來(lái)源來(lái)“竊取”他人原創(chuàng )的內容，并在不考慮順序的情況下盲目地爬網(wǎng)Internet信息，同時(shí)，為了方便訪(fǎng)問(wèn)，在采集頁(yè)面中混合了許多混合的廣告和彈出信息。
　　優(yōu)采云算法有什么影響？
　　根據官方聲明，“優(yōu)采云算法”上線(xiàn)后，內容豐富的高質(zhì)量網(wǎng)頁(yè)（例如原創(chuàng )，稀缺資源，經(jīng)過(guò)精心編輯的內容頁(yè)面等）將增加他們的機會(huì )顯示在用戶(hù)面前；濫用采集方法（例如整個(gè)網(wǎng)站的大規模采集，頁(yè)面內容拼湊而成，干擾用戶(hù)閱讀的大量廣告，錯誤的彈出式跳轉，大量不相關(guān)的熱詞，網(wǎng)站搜索結果頁(yè)等）將大大減少其展示機會(huì )和網(wǎng)頁(yè)收錄的數量。
　　網(wǎng)站管理員應該做什么？
　　網(wǎng)站管理員應考慮長(cháng)期發(fā)展，積極改善網(wǎng)站的結構，并提供更省時(shí)，更豐富的內容原創(chuàng )。網(wǎng)站內容質(zhì)量得到改善，受益于“優(yōu)采云算法”的更新：網(wǎng)站得到改善，站點(diǎn)上收錄的數量將繼續增加。
　　此外，網(wǎng)站站長(cháng)不應為短期“良好排名”進(jìn)行“故意的鏈接交換和鏈接交易”。僅依靠鏈接來(lái)獲得PageRank不再有效，即使優(yōu)化不當也可能帶來(lái)“反彈”的風(fēng)險。我衷心希望網(wǎng)站站長(cháng)和網(wǎng)站站群機構能夠將他們的注意力和資源集中在原創(chuàng )和高質(zhì)量?jì)热莸臉嫿ㄉ稀?br /> 　　如果對網(wǎng)站采集的判斷結果和收錄的狀態(tài)有異議，網(wǎng)站管理員可以通過(guò)網(wǎng)站管理員平臺的反饋中心和360搜索論壇的主持人提供反饋：
　　
　　網(wǎng)站站長(cháng)平臺反饋中心：
　　
　　360搜索論壇：查看全部

　　保護原創(chuàng )內容，控制采集！ 360搜索在線(xiàn)“優(yōu)采云算法”
　　在“五公算法”之后，360 Search推出了“優(yōu)采云算法”。優(yōu)采云算法主要通過(guò)使用苛刻的采集方法，通過(guò)內容拼接，秘密更改標題和其他方法在短時(shí)間內“創(chuàng )建”大量垃圾郵件頁(yè)面，針對某些質(zhì)量較低的網(wǎng)站。根據官方聲明，優(yōu)采云算法啟動(dòng)后，高質(zhì)量的內容頁(yè)面將得到保護和提升，而采集劣等網(wǎng)站將大大減少其在搜索引擎結果頁(yè)面上顯示的機會(huì )。
　　什么是可憐的采集網(wǎng)站？
　　所謂的劣等網(wǎng)站采集主要是通過(guò)隱瞞或篡改文章的來(lái)源來(lái)“竊取”他人原創(chuàng )的內容，并在不考慮順序的情況下盲目地爬網(wǎng)Internet信息，同時(shí)，為了方便訪(fǎng)問(wèn)，在采集頁(yè)面中混合了許多混合的廣告和彈出信息。
　　優(yōu)采云算法有什么影響？
　　根據官方聲明，“優(yōu)采云算法”上線(xiàn)后，內容豐富的高質(zhì)量網(wǎng)頁(yè)（例如原創(chuàng )，稀缺資源，經(jīng)過(guò)精心編輯的內容頁(yè)面等）將增加他們的機會(huì )顯示在用戶(hù)面前；濫用采集方法（例如整個(gè)網(wǎng)站的大規模采集，頁(yè)面內容拼湊而成，干擾用戶(hù)閱讀的大量廣告，錯誤的彈出式跳轉，大量不相關(guān)的熱詞，網(wǎng)站搜索結果頁(yè)等）將大大減少其展示機會(huì )和網(wǎng)頁(yè)收錄的數量。
　　網(wǎng)站管理員應該做什么？
　　網(wǎng)站管理員應考慮長(cháng)期發(fā)展，積極改善網(wǎng)站的結構，并提供更省時(shí)，更豐富的內容原創(chuàng )。網(wǎng)站內容質(zhì)量得到改善，受益于“優(yōu)采云算法”的更新：網(wǎng)站得到改善，站點(diǎn)上收錄的數量將繼續增加。
　　此外，網(wǎng)站站長(cháng)不應為短期“良好排名”進(jìn)行“故意的鏈接交換和鏈接交易”。僅依靠鏈接來(lái)獲得PageRank不再有效，即使優(yōu)化不當也可能帶來(lái)“反彈”的風(fēng)險。我衷心希望網(wǎng)站站長(cháng)和網(wǎng)站站群機構能夠將他們的注意力和資源集中在原創(chuàng )和高質(zhì)量?jì)热莸臉嫿ㄉ稀?br /> 　　如果對網(wǎng)站采集的判斷結果和收錄的狀態(tài)有異議，網(wǎng)站管理員可以通過(guò)網(wǎng)站管理員平臺的反饋中心和360搜索論壇的主持人提供反饋：
　　

　　網(wǎng)站站長(cháng)平臺反饋中心：
　　

　　360搜索論壇：

行業(yè)解決方案：優(yōu)采云云端采集器-支持智能操作-云端采集-導入數據庫

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 299 次瀏覽 ? 2020-10-03 12:01 ? 來(lái)自相關(guān)話(huà)題

　　優(yōu)采云Cloud采集器-支持智能操作-Cloud采集-導入數據庫
　　松開(kāi)眼睛，戴上耳機，聽(tīng)一聽(tīng)??！
　　Data采集方便，智能且基于云，可讓您隨時(shí)隨地移動(dòng)辦公室
　　[title]軟件簡(jiǎn)介[/ title]
　　優(yōu)采云采集器（SkyCaiji），專(zhuān)用于網(wǎng)站數據自動(dòng)化采集版本，該系統采用PHP + Mysql開(kāi)發(fā)，可以部署在云服務(wù)器上，使數據采集方便，智能，云使您可以隨時(shí)隨地轉移辦公室
　　[title]軟件功能[/ title]
　　支持多級，多頁(yè)，分頁(yè)采集，自定義采集規則（支持常規，XPATH，JSON等），以準確匹配幾乎所有采集種類(lèi)型的網(wǎng)頁(yè)中的任何信息流，大多數采集 k13]類(lèi)型頁(yè)面內容都可以實(shí)現智能識別
　　[title]適用方案[/ title]
　　無(wú)縫耦合各種cms網(wǎng)站構建程序，實(shí)現免登錄導入數據，支持自定義數據發(fā)布插件，或直接導入數據庫，存儲為Excel文件，生成API接口等。
　　[title]軟件功能[/ title]
　　該軟件無(wú)需手動(dòng)干預即可實(shí)現定時(shí)和定量自動(dòng)采集釋放！借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布供需信息以及社區以尋求幫助和溝通。
　　[title]安裝環(huán)境[/ title]
　　操作系統：Linux / Unix / Windows
　　軟件環(huán)境：IIS / Apache / Nginx + MySQL5.0及更高版本
　　[title]官方用戶(hù)手冊[/ title]
　　[title]下載URL [/ title]
　　[下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] #down [/下載] 查看全部

　　優(yōu)采云Cloud采集器-支持智能操作-Cloud采集-導入數據庫
　　松開(kāi)眼睛，戴上耳機，聽(tīng)一聽(tīng)??！
　　Data采集方便，智能且基于云，可讓您隨時(shí)隨地移動(dòng)辦公室
　　[title]軟件簡(jiǎn)介[/ title]
　　優(yōu)采云采集器（SkyCaiji），專(zhuān)用于網(wǎng)站數據自動(dòng)化采集版本，該系統采用PHP + Mysql開(kāi)發(fā)，可以部署在云服務(wù)器上，使數據采集方便，智能，云使您可以隨時(shí)隨地轉移辦公室
　　[title]軟件功能[/ title]
　　支持多級，多頁(yè)，分頁(yè)采集，自定義采集規則（支持常規，XPATH，JSON等），以準確匹配幾乎所有采集種類(lèi)型的網(wǎng)頁(yè)中的任何信息流，大多數采集 k13]類(lèi)型頁(yè)面內容都可以實(shí)現智能識別
　　[title]適用方案[/ title]
　　無(wú)縫耦合各種cms網(wǎng)站構建程序，實(shí)現免登錄導入數據，支持自定義數據發(fā)布插件，或直接導入數據庫，存儲為Excel文件，生成API接口等。
　　[title]軟件功能[/ title]
　　該軟件無(wú)需手動(dòng)干預即可實(shí)現定時(shí)和定量自動(dòng)采集釋放！借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布供需信息以及社區以尋求幫助和溝通。
　　[title]安裝環(huán)境[/ title]
　　操作系統：Linux / Unix / Windows
　　軟件環(huán)境：IIS / Apache / Nginx + MySQL5.0及更高版本
　　[title]官方用戶(hù)手冊[/ title]
　　[title]下載URL [/ title]
　　[下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] #down [/下載]

整套解決方案：大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 296 次瀏覽 ? 2020-09-04 23:23 ? 來(lái)自相關(guān)話(huà)題

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站。最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序。這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是使用類(lèi)似cms網(wǎng)站構建系統的真實(shí)云數據采集發(fā)布系統，可以將其安裝在客戶(hù)自己的服務(wù)器中，并且可以通過(guò)訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作瀏覽器采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！查看全部

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站。最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序。這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是使用類(lèi)似cms網(wǎng)站構建系統的真實(shí)云數據采集發(fā)布系統，可以將其安裝在客戶(hù)自己的服務(wù)器中，并且可以通過(guò)訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作瀏覽器采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！

優(yōu)化的解決方案：[代碼交流] 大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 292 次瀏覽 ? 2020-09-02 05:18 ? 來(lái)自相關(guān)話(huà)題

　　[代碼交換]
在大數據時(shí)代，云爬蟲(chóng)采集系統輔助網(wǎng)站自動(dòng)化內容！
　　
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù). 面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站. 最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序. 這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn). 缺點(diǎn)是消耗人力，物力和財力.
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是真實(shí)的云數據采集發(fā)布系統. 它使用類(lèi)似于cms的網(wǎng)站構建系統. 它可以安裝在客戶(hù)自己的服務(wù)器上，也可以通過(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作. 采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突. 它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄.
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云. 該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容. 該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等. 該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作. 借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流. 它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件. 查看全部

　　[代碼交換]
在大數據時(shí)代，云爬蟲(chóng)采集系統輔助網(wǎng)站自動(dòng)化內容！
　　

　　大數據和云計算是當今Internet上使用最廣泛的技術(shù). 面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站. 最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序. 這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn). 缺點(diǎn)是消耗人力，物力和財力.
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是真實(shí)的云數據采集發(fā)布系統. 它使用類(lèi)似于cms的網(wǎng)站構建系統. 它可以安裝在客戶(hù)自己的服務(wù)器上，也可以通過(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作. 采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突. 它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄.
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云. 該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容. 該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等. 該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作. 借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流. 它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件.

解決方案：航天知識服務(wù)平臺

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 190 次瀏覽 ? 2020-09-01 18:01 ? 來(lái)自相關(guān)話(huà)題

　　航空知識服務(wù)平臺
　　平臺介紹
　　KSpider網(wǎng)絡(luò )信息資源采集系統是一個(gè)網(wǎng)絡(luò )信息資源集成系統，它集成了網(wǎng)絡(luò )數據采集，分析，存儲，管理和檢索. 能夠根據用戶(hù)設置的站點(diǎn)定向采集數據，在網(wǎng)絡(luò )上采集各種形式的文檔，例如圖片，word文檔，ppt，pdf等，并根據采集返回信息用戶(hù)設置的分類(lèi)規則進(jìn)行一定的智能分類(lèi)處理，可以根據關(guān)鍵字規則進(jìn)行分類(lèi)，也可以基于樣本模型進(jìn)行智能分類(lèi)，也可以根據采集源站點(diǎn)或頻道目錄進(jìn)行分類(lèi)（即根據（針對網(wǎng)站的URL特征）分類(lèi)），用戶(hù)可以通過(guò)分類(lèi)導航進(jìn)行搜索，系統采用門(mén)戶(hù)，數據庫，搜索引擎等發(fā)布形式，可以更有效地挖掘出用戶(hù)所需的信息.
　　產(chǎn)品功能
　　高級智能代理: 集成了多種智能信息處理算法，并且可以基于高級語(yǔ)義規則技術(shù)執行淺層語(yǔ)義分析
　　強大的信息采集能力: 高效的信息采集技術(shù)完成了網(wǎng)絡(luò )數據獲取，可以快速，全面而準確地從Internet獲取數據
　　靈活的體系結構: 采集蜘蛛集群，智能代理集群，應用服務(wù)器智能調度，每個(gè)子系統可以隨時(shí)斷開(kāi)并連接到系統，而不會(huì )影響整個(gè)系統的運行
　　基于KBase的海量數據存儲和全文檢索: 支持海量非結構化數據的存儲管理，具有成熟的全文檢索技術(shù)，檢索速度達到500G / S，處于行業(yè)領(lǐng)先地位查看全部

　　航空知識服務(wù)平臺
　　平臺介紹
　　KSpider網(wǎng)絡(luò )信息資源采集系統是一個(gè)網(wǎng)絡(luò )信息資源集成系統，它集成了網(wǎng)絡(luò )數據采集，分析，存儲，管理和檢索. 能夠根據用戶(hù)設置的站點(diǎn)定向采集數據，在網(wǎng)絡(luò )上采集各種形式的文檔，例如圖片，word文檔，ppt，pdf等，并根據采集返回信息用戶(hù)設置的分類(lèi)規則進(jìn)行一定的智能分類(lèi)處理，可以根據關(guān)鍵字規則進(jìn)行分類(lèi)，也可以基于樣本模型進(jìn)行智能分類(lèi)，也可以根據采集源站點(diǎn)或頻道目錄進(jìn)行分類(lèi)（即根據（針對網(wǎng)站的URL特征）分類(lèi)），用戶(hù)可以通過(guò)分類(lèi)導航進(jìn)行搜索，系統采用門(mén)戶(hù)，數據庫，搜索引擎等發(fā)布形式，可以更有效地挖掘出用戶(hù)所需的信息.
　　產(chǎn)品功能
　　高級智能代理: 集成了多種智能信息處理算法，并且可以基于高級語(yǔ)義規則技術(shù)執行淺層語(yǔ)義分析
　　強大的信息采集能力: 高效的信息采集技術(shù)完成了網(wǎng)絡(luò )數據獲取，可以快速，全面而準確地從Internet獲取數據
　　靈活的體系結構: 采集蜘蛛集群，智能代理集群，應用服務(wù)器智能調度，每個(gè)子系統可以隨時(shí)斷開(kāi)并連接到系統，而不會(huì )影響整個(gè)系統的運行
　　基于KBase的海量數據存儲和全文檢索: 支持海量非結構化數據的存儲管理，具有成熟的全文檢索技術(shù)，檢索速度達到500G / S，處于行業(yè)領(lǐng)先地位

干貨內容：新浪微博內容數據采集爬蟲(chóng)怎么寫(xiě)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 333 次瀏覽 ? 2020-09-01 16:57 ? 來(lái)自相關(guān)話(huà)題

　　新浪微博內容數據采集如何編寫(xiě)抓取工具
　　在不同的論壇和問(wèn)答中，我經(jīng)常遇到來(lái)自新浪微博的數據采集如何編寫(xiě)爬蟲(chóng)程序，或者在完成特定部分后如何做，以及在完成特定部分后如何做部分. 幾個(gè)微博爬蟲(chóng)開(kāi)源項目.
　　SinaSpider-基于scrapy和redis的分布式微博爬蟲(chóng). SinaSpider主要抓取新浪微博的個(gè)人信息，微博數據，關(guān)注者和粉絲. 該數據庫設置了四個(gè)表: “信息”，“推文”，“關(guān)注”和“粉絲”. 采集器框架使用Scrapy，并使用scrapy_redis和Redis實(shí)現分布式. 該項目實(shí)現了將獨立的新浪微博爬蟲(chóng)重構為分布式爬蟲(chóng).
　　sina_reptile-這是有關(guān)新浪微博的爬蟲(chóng). 它是使用python開(kāi)發(fā)的，其SDK中的錯誤已被修改. 它使用mongodb來(lái)存儲并實(shí)現多進(jìn)程爬網(wǎng)任務(wù). 獲取新浪微博的1000w用戶(hù)的基本信息以及每個(gè)爬行用戶(hù)最近發(fā)布的50個(gè)微博客，這些博客使用python編寫(xiě)，可在多個(gè)進(jìn)程中進(jìn)行爬行，并將數據存儲在mongodb中
　　sina_weibo_crawler-一個(gè)基于urlib2和beautifulSoup的微博爬蟲(chóng)系統. 使用urllib2和beautifulsoup爬網(wǎng)新浪微博，數據庫使用mongodb，原創(chuàng )關(guān)系存儲在txt文件中，原創(chuàng )內容以csv格式存儲，以后直接插入到mongodb數據庫中
　　sina-weibo-crawler-Sina微博爬蟲(chóng)，易于擴展. WCrawler.crawl（）函數只需要一個(gè)url參數，并且返回的用戶(hù)的粉絲和關(guān)注者中都有url，可以擴展以進(jìn)行爬網(wǎng)，還可以自定義一些過(guò)濾規則.
　　weibo_crawler-基于Python，BeautifulSoup，mysql的微博搜索結果爬網(wǎng)工具. 該工具使用模擬登錄來(lái)抓取微博搜索結果.
　　SinaMicroblog_Creeper-Spider_VerificationCode-Sina微博爬蟲(chóng)，獲取每個(gè)用戶(hù)并關(guān)注，風(fēng)扇的用戶(hù)ID存儲在xml文件BFS中，可以模擬登錄，模擬登錄中的驗證碼將被捕獲，以供用戶(hù)輸入.
　　但是在此之前，人們已經(jīng)了解了一些功能和語(yǔ)法醫學(xué)，例如列表，字典，切片，條件判斷，文件讀寫(xiě)操作等；
　　網(wǎng)頁(yè)基本知識，分析語(yǔ)言能力；開(kāi)發(fā)人員工具可以熟練使用；查看全部

　　新浪微博內容數據采集如何編寫(xiě)抓取工具
　　在不同的論壇和問(wèn)答中，我經(jīng)常遇到來(lái)自新浪微博的數據采集如何編寫(xiě)爬蟲(chóng)程序，或者在完成特定部分后如何做，以及在完成特定部分后如何做部分. 幾個(gè)微博爬蟲(chóng)開(kāi)源項目.
　　SinaSpider-基于scrapy和redis的分布式微博爬蟲(chóng). SinaSpider主要抓取新浪微博的個(gè)人信息，微博數據，關(guān)注者和粉絲. 該數據庫設置了四個(gè)表: “信息”，“推文”，“關(guān)注”和“粉絲”. 采集器框架使用Scrapy，并使用scrapy_redis和Redis實(shí)現分布式. 該項目實(shí)現了將獨立的新浪微博爬蟲(chóng)重構為分布式爬蟲(chóng).
　　sina_reptile-這是有關(guān)新浪微博的爬蟲(chóng). 它是使用python開(kāi)發(fā)的，其SDK中的錯誤已被修改. 它使用mongodb來(lái)存儲并實(shí)現多進(jìn)程爬網(wǎng)任務(wù). 獲取新浪微博的1000w用戶(hù)的基本信息以及每個(gè)爬行用戶(hù)最近發(fā)布的50個(gè)微博客，這些博客使用python編寫(xiě)，可在多個(gè)進(jìn)程中進(jìn)行爬行，并將數據存儲在mongodb中
　　sina_weibo_crawler-一個(gè)基于urlib2和beautifulSoup的微博爬蟲(chóng)系統. 使用urllib2和beautifulsoup爬網(wǎng)新浪微博，數據庫使用mongodb，原創(chuàng )關(guān)系存儲在txt文件中，原創(chuàng )內容以csv格式存儲，以后直接插入到mongodb數據庫中
　　sina-weibo-crawler-Sina微博爬蟲(chóng)，易于擴展. WCrawler.crawl（）函數只需要一個(gè)url參數，并且返回的用戶(hù)的粉絲和關(guān)注者中都有url，可以擴展以進(jìn)行爬網(wǎng)，還可以自定義一些過(guò)濾規則.
　　weibo_crawler-基于Python，BeautifulSoup，mysql的微博搜索結果爬網(wǎng)工具. 該工具使用模擬登錄來(lái)抓取微博搜索結果.
　　SinaMicroblog_Creeper-Spider_VerificationCode-Sina微博爬蟲(chóng)，獲取每個(gè)用戶(hù)并關(guān)注，風(fēng)扇的用戶(hù)ID存儲在xml文件BFS中，可以模擬登錄，模擬登錄中的驗證碼將被捕獲，以供用戶(hù)輸入.
　　但是在此之前，人們已經(jīng)了解了一些功能和語(yǔ)法醫學(xué)，例如列表，字典，切片，條件判斷，文件讀寫(xiě)操作等；
　　網(wǎng)頁(yè)基本知識，分析語(yǔ)言能力；開(kāi)發(fā)人員工具可以熟練使用；

一種推拉結合的分布式云端并發(fā)采集方法與流程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 328 次瀏覽 ? 2020-08-28 12:21 ? 來(lái)自相關(guān)話(huà)題

　　一種推拉結合的分布式云端并發(fā)采集方法與流程
　　
　　本發(fā)明涉及大數據分布式采集技術(shù)領(lǐng)域，具體提供一種推拉結合的分布式云端并發(fā)采集方法。
　　背景技術(shù)：
　　計算機具有儲存信息量大，使用者獲取信息便捷快捷等優(yōu)點(diǎn)，受到廣泛的應用。在實(shí)際應用時(shí)，計算機每時(shí)每刻都形成大量的數據，有些須要剖析，有些須要儲存，所有的這種須要處理的數據數目是龐大、并具有相似性的，所以須要對這種形成的大數據進(jìn)行剖析處理，采集需要的數據。但是，在現有的大數據分布式采集過(guò)程中，尤其涉及在分布式云端并發(fā)采集情況下，現有云端服務(wù)器采集大數據效率不高，服務(wù)器的并發(fā)采集數通常，采集的數據傳輸效率通常，影響服務(wù)器的數據采集效率。
　　專(zhuān)利號為CN 106502802 A的專(zhuān)利文獻中，公開(kāi)了一種基于A(yíng)vro RPC傳輸的分布式云端并發(fā)采集方法。該發(fā)明所述的分布式云端并發(fā)采集方法，包括客戶(hù)端和服務(wù)端兩個(gè)模塊，其中：在服務(wù)端設置有URL儲存容器、規則配置容器、計數容器，規則配置容器儲存客戶(hù)端發(fā)送的采集規則，規定不同網(wǎng)站的采集策略；計數容器則依照采集策略，按照計數遞減的形式推送采集網(wǎng)頁(yè)實(shí)現并發(fā)采集功能；最后由URL儲存容器儲存客戶(hù)端發(fā)送的URL并根據域名進(jìn)行分組儲存；客戶(hù)端定期檢驗服務(wù)端狀態(tài)，查看URL儲存容器剩余容量，批量發(fā)送待采集網(wǎng)頁(yè)，批量回收已采集網(wǎng)頁(yè)，批量發(fā)送網(wǎng)頁(yè)采集規則。該分布式云端并發(fā)采集方法提高了傳輸效率，并提高了采集的并發(fā)效率。但是，該分布式云端并發(fā)采集方法在云端網(wǎng)路不穩定的情況下，服務(wù)端沒(méi)有感知到并繼續推送待下載URL時(shí)，會(huì )導致待下載URL堆積。其次，存在現有規則配置不能及時(shí)清除問(wèn)題。再次，在任務(wù)主動(dòng)停止時(shí)，待下載URL一直下載。最后，在任務(wù)懇求超時(shí)時(shí)，不能主動(dòng)關(guān)掉聯(lián)接，具有一定的局限性。
　　技術(shù)實(shí)現要素：
　　本發(fā)明的技術(shù)任務(wù)是針對上述存在的問(wèn)題，提供一種云端按照自己的運行情況去懇求待下載URL，從而有效的防止待下載URL堆積的推拉結合的分布式云端并發(fā)采集方法。
　　為實(shí)現上述目的，本發(fā)明提供了如下技術(shù)方案：
　　一種推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊，其中
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能；采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能；采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新；
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法，所述推模式是采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收，所述拉模式是采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)；
　　所述方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　所述推模式為采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將采集云端狀態(tài)作為響應；拉模式為采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端發(fā)起懇求。
　　作為優(yōu)選，所述待下載URL估算與懇求功能為采集云端估算各個(gè)任務(wù)懇求數目，攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL。
　　作為優(yōu)選，采集云端估算各個(gè)任務(wù)懇求數目時(shí)，即推模式具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　作為優(yōu)選，所述拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　作為優(yōu)選，所述配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。
　　作為優(yōu)選，采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。
　　作為優(yōu)選，所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　作為優(yōu)選，所述任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。
　　在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　作為優(yōu)選，所述懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數，在懇求線(xiàn)程長(cháng)時(shí)間無(wú)反彈時(shí)，主動(dòng)關(guān)掉懇求線(xiàn)程，并設定懇求失敗，重新發(fā)起懇求。
　　與現有技術(shù)相比，本發(fā)明的推拉結合的分布式云端并發(fā)采集方法具有以下突出的有益療效：
　?。ㄒ唬┰诓杉贫藸顟B(tài)不穩定的情況下，向采集云端推送待下載URL，需要及時(shí)確切的感知采集云端狀態(tài)，若采集云端狀態(tài)為不良，而采集服務(wù)端沒(méi)有感知到并繼續推送待下載URL，不僅會(huì )導致待下載URL浪費，同時(shí)導致采集云端待下載URL堆積，本發(fā)明的方式將推模式與拉模式相結合，采集云端按照自己運行情況向采集服務(wù)端懇求待下載URL，能夠有效的降低待下載URL浪費，避免采集云端待下載URL堆積；
　?。ǘ┰摪l(fā)明中，所述配置緩存才能解決規則配置不能及時(shí)清除的問(wèn)題，實(shí)現配置高效使用及清除，提高采集穩定性及采集并發(fā)效率，具有良好的推廣應用價(jià)值。
　　附圖說(shuō)明
　　圖1是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的拉模式流程圖；
　　圖2是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的推模式流程圖。
　　具體施行方法
　　下面將結合附圖和施行例，對本發(fā)明的推拉結合的分布式云端并發(fā)采集方法作進(jìn)一步詳盡說(shuō)明。
　　實(shí)施例
　　本發(fā)明的推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊。
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能。采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能。采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新。
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法。推模式是采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將云端狀態(tài)作為響應，具體為采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收。拉模式是采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端懇求要下載的URL，具體為采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)，可以避免云端待下載URL堆積，又能提升采集穩定性及采集并發(fā)率。
　　該方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　待下載URL估算與懇求功能為估算各個(gè)任務(wù)懇求數目，采集云端攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL，即為本發(fā)明中的推模式，如圖1所示。具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　如圖2所示，本發(fā)明中的拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　請求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數。增設懇求超時(shí)線(xiàn)程池，將懇求作為線(xiàn)程池的任務(wù)進(jìn)行遞交，通過(guò)線(xiàn)程池的執行返回值獲取任務(wù)的執行狀態(tài)，如果任務(wù)超過(guò)設定的超時(shí)時(shí)間一直沒(méi)有響應則主動(dòng)關(guān)掉其任務(wù)線(xiàn)程，結束任務(wù)，并設定本次懇求失敗，重新發(fā)起懇求。
　　以上所述的施行例，只是本發(fā)明較優(yōu)選的具體施行方法，本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內進(jìn)行的一般變化和替換都應收錄在本發(fā)明的保護范圍內。查看全部

　　一種推拉結合的分布式云端并發(fā)采集方法與流程
　　

　　本發(fā)明涉及大數據分布式采集技術(shù)領(lǐng)域，具體提供一種推拉結合的分布式云端并發(fā)采集方法。
　　背景技術(shù)：
　　計算機具有儲存信息量大，使用者獲取信息便捷快捷等優(yōu)點(diǎn)，受到廣泛的應用。在實(shí)際應用時(shí)，計算機每時(shí)每刻都形成大量的數據，有些須要剖析，有些須要儲存，所有的這種須要處理的數據數目是龐大、并具有相似性的，所以須要對這種形成的大數據進(jìn)行剖析處理，采集需要的數據。但是，在現有的大數據分布式采集過(guò)程中，尤其涉及在分布式云端并發(fā)采集情況下，現有云端服務(wù)器采集大數據效率不高，服務(wù)器的并發(fā)采集數通常，采集的數據傳輸效率通常，影響服務(wù)器的數據采集效率。
　　專(zhuān)利號為CN 106502802 A的專(zhuān)利文獻中，公開(kāi)了一種基于A(yíng)vro RPC傳輸的分布式云端并發(fā)采集方法。該發(fā)明所述的分布式云端并發(fā)采集方法，包括客戶(hù)端和服務(wù)端兩個(gè)模塊，其中：在服務(wù)端設置有URL儲存容器、規則配置容器、計數容器，規則配置容器儲存客戶(hù)端發(fā)送的采集規則，規定不同網(wǎng)站的采集策略；計數容器則依照采集策略，按照計數遞減的形式推送采集網(wǎng)頁(yè)實(shí)現并發(fā)采集功能；最后由URL儲存容器儲存客戶(hù)端發(fā)送的URL并根據域名進(jìn)行分組儲存；客戶(hù)端定期檢驗服務(wù)端狀態(tài)，查看URL儲存容器剩余容量，批量發(fā)送待采集網(wǎng)頁(yè)，批量回收已采集網(wǎng)頁(yè)，批量發(fā)送網(wǎng)頁(yè)采集規則。該分布式云端并發(fā)采集方法提高了傳輸效率，并提高了采集的并發(fā)效率。但是，該分布式云端并發(fā)采集方法在云端網(wǎng)路不穩定的情況下，服務(wù)端沒(méi)有感知到并繼續推送待下載URL時(shí)，會(huì )導致待下載URL堆積。其次，存在現有規則配置不能及時(shí)清除問(wèn)題。再次，在任務(wù)主動(dòng)停止時(shí)，待下載URL一直下載。最后，在任務(wù)懇求超時(shí)時(shí)，不能主動(dòng)關(guān)掉聯(lián)接，具有一定的局限性。
　　技術(shù)實(shí)現要素：
　　本發(fā)明的技術(shù)任務(wù)是針對上述存在的問(wèn)題，提供一種云端按照自己的運行情況去懇求待下載URL，從而有效的防止待下載URL堆積的推拉結合的分布式云端并發(fā)采集方法。
　　為實(shí)現上述目的，本發(fā)明提供了如下技術(shù)方案：
　　一種推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊，其中
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能；采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能；采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新；
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法，所述推模式是采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收，所述拉模式是采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)；
　　所述方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　所述推模式為采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將采集云端狀態(tài)作為響應；拉模式為采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端發(fā)起懇求。
　　作為優(yōu)選，所述待下載URL估算與懇求功能為采集云端估算各個(gè)任務(wù)懇求數目，攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL。
　　作為優(yōu)選，采集云端估算各個(gè)任務(wù)懇求數目時(shí)，即推模式具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　作為優(yōu)選，所述拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　作為優(yōu)選，所述配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。
　　作為優(yōu)選，采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。
　　作為優(yōu)選，所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　作為優(yōu)選，所述任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。
　　在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　作為優(yōu)選，所述懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數，在懇求線(xiàn)程長(cháng)時(shí)間無(wú)反彈時(shí)，主動(dòng)關(guān)掉懇求線(xiàn)程，并設定懇求失敗，重新發(fā)起懇求。
　　與現有技術(shù)相比，本發(fā)明的推拉結合的分布式云端并發(fā)采集方法具有以下突出的有益療效：
　?。ㄒ唬┰诓杉贫藸顟B(tài)不穩定的情況下，向采集云端推送待下載URL，需要及時(shí)確切的感知采集云端狀態(tài)，若采集云端狀態(tài)為不良，而采集服務(wù)端沒(méi)有感知到并繼續推送待下載URL，不僅會(huì )導致待下載URL浪費，同時(shí)導致采集云端待下載URL堆積，本發(fā)明的方式將推模式與拉模式相結合，采集云端按照自己運行情況向采集服務(wù)端懇求待下載URL，能夠有效的降低待下載URL浪費，避免采集云端待下載URL堆積；
　?。ǘ┰摪l(fā)明中，所述配置緩存才能解決規則配置不能及時(shí)清除的問(wèn)題，實(shí)現配置高效使用及清除，提高采集穩定性及采集并發(fā)效率，具有良好的推廣應用價(jià)值。
　　附圖說(shuō)明
　　圖1是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的拉模式流程圖；
　　圖2是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的推模式流程圖。
　　具體施行方法
　　下面將結合附圖和施行例，對本發(fā)明的推拉結合的分布式云端并發(fā)采集方法作進(jìn)一步詳盡說(shuō)明。
　　實(shí)施例
　　本發(fā)明的推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊。
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能。采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能。采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新。
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法。推模式是采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將云端狀態(tài)作為響應，具體為采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收。拉模式是采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端懇求要下載的URL，具體為采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)，可以避免云端待下載URL堆積，又能提升采集穩定性及采集并發(fā)率。
　　該方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　待下載URL估算與懇求功能為估算各個(gè)任務(wù)懇求數目，采集云端攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL，即為本發(fā)明中的推模式，如圖1所示。具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　如圖2所示，本發(fā)明中的拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　請求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數。增設懇求超時(shí)線(xiàn)程池，將懇求作為線(xiàn)程池的任務(wù)進(jìn)行遞交，通過(guò)線(xiàn)程池的執行返回值獲取任務(wù)的執行狀態(tài)，如果任務(wù)超過(guò)設定的超時(shí)時(shí)間一直沒(méi)有響應則主動(dòng)關(guān)掉其任務(wù)線(xiàn)程，結束任務(wù)，并設定本次懇求失敗，重新發(fā)起懇求。
　　以上所述的施行例，只是本發(fā)明較優(yōu)選的具體施行方法，本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內進(jìn)行的一般變化和替換都應收錄在本發(fā)明的保護范圍內。

云端內容采集站長(cháng)必備的十大利器

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 492 次瀏覽 ? 2020-08-27 08:54 ? 來(lái)自相關(guān)話(huà)題

　　云端內容采集站長(cháng)必備的十大利器
　　站長(cháng)朋友們都曉得，身為一站之長(cháng)，身上挑的擔子是不輕的，為做好本職工作，需不斷的學(xué)習，深造進(jìn)取，然而做好一名站長(cháng)，身上必備利器，今天我們就跟你們說(shuō)說(shuō)站長(cháng)必備的十大利器都有什么？
　　一、PageRank剖析插件
　　PageRank剖析插件的功能十分強悍，能分享百度收錄,百度近日收錄,Google收錄,pr查詢(xún),百度權重,百度流量查詢(xún),soso收錄,搜狗收錄,sr查詢(xún),域名年紀,備案狀態(tài)等等整個(gè)網(wǎng)站的基本情況。我在優(yōu)化優(yōu)采云網(wǎng)站經(jīng)過(guò)會(huì )用它進(jìn)行剖析，數據十分確切，對于做百度seo挺有幫助
　　
　　二、文本編輯軟件
　　文本編輯軟件對于站長(cháng)而言是十分重要的一款軟件，尤其是有一些規模的型網(wǎng)站，每天更新的文章上百甚至上千篇。像越誠網(wǎng)路官網(wǎng)，主要會(huì )用Notepad和flashfxp兩種，其中 Notepad是一款免費開(kāi)源的文本編輯器，相對來(lái)說(shuō)功能比f(wàn)lashfxp少，容易操作;flashfxp是功能強悍的FXP/FTP軟件，融合了一些其他優(yōu)秀FTP軟件的優(yōu)點(diǎn)，如象CuteFTP一樣可以比較文件夾，支持彩色文字顯示。
　　
　　三、優(yōu)采云采集器
　　優(yōu)采云采集功能十分強悍，集成云端采集、交易及api輸出，內容采集準確，包括數組維度信息，可用性太強。無(wú)論是新網(wǎng)站做啟動(dòng)數據還是老網(wǎng)站做內容更新，都須要采集內容，用于資料儲備等?，F在漸漸發(fā)展成了集數據采集、數據交易市場(chǎng)的平臺。
　　四、光年日志分析器
　　網(wǎng)站日志剖析是站長(cháng)常常要做的事，網(wǎng)站日志剖析工具能快速剖析站點(diǎn)的日志文件，讓您對百度、Google等蜘蛛的爬行記錄一目了然。剛開(kāi)始找尋日志分析器找了很久，也用過(guò)許多其他的日志剖析軟件，但是在剖析體彩軟件源碼站點(diǎn)的網(wǎng)站日志中，發(fā)現光年日志分析器是一款實(shí)用、簡(jiǎn)單、數據準確性特別高的軟件。
　　
　　五、網(wǎng)站安全檢查
　　1、百度安全檢查：這個(gè)是你們一定要熟悉的安全檢查平臺。已經(jīng)引用騰訊、小紅傘、金山、知道創(chuàng )宇的數據庫
　　2、360安全檢測：相對來(lái)說(shuō)，360安全檢測是各大安全檢查平臺當中的最全面的一個(gè)了，不僅僅提供免費的網(wǎng)頁(yè)提權、網(wǎng)頁(yè)篡改還提供免費的網(wǎng)站漏洞檢查。
　　3、安全寶：功能比較齊全，提供免費的mini，可視化網(wǎng)站報告，CDN網(wǎng)站加速，是創(chuàng )新工場(chǎng)旗下的一個(gè)公司。
　　4、騰訊電腦管家安全檢查：我們平常在QQ聊天窗口中發(fā)出的網(wǎng)址，就會(huì )調用此數據庫，對我們的網(wǎng)站安全作用比較大。
　　六、網(wǎng)站統計工具
　　1、百度統計：百度統計工具是完全免費的，對網(wǎng)站的市場(chǎng)營(yíng)銷(xiāo)以及SEO優(yōu)化提供詳盡的建議與參考數據
　　2、CNZZ：目前來(lái)說(shuō)國外草根站長(cháng)用的最多的一款免費統計工具，功能簡(jiǎn)單易用，非常適宜一些草根站長(cháng)使用。
　　3、騰訊剖析：騰訊剖析工具也是一款比較實(shí)用的剖析統計工具，功能類(lèi)似于百度統計。
　　七、廣告聯(lián)盟
　　1、百度聯(lián)盟：我們國外站長(cháng)使用較多的平臺，百度聯(lián)盟通常初審比較嚴格，加入百度聯(lián)盟須要進(jìn)行網(wǎng)站備案，每月的25號到30號之間結算傭金，結算方法是人民幣，付款便捷，但是須要交納個(gè)人所得稅。
　　2、谷歌聯(lián)盟：谷歌聯(lián)盟也是比較不錯的聯(lián)盟，谷歌聯(lián)盟的廣告總價(jià)比較高，結算方法是盧布結算。但是收款的時(shí)侯有些繁雜，管理也是十分嚴格，一旦發(fā)覺(jué)作弊行為，會(huì )永久進(jìn)行封號。
　　八、Xenu工具
　　此用品十分時(shí)用，它可以整站檢索出超級鏈接，并檢出超鏈的狀態(tài)，比如200代碼、404代碼，是一款比非捧的查找死鏈的利器；另外它還可以制做出站點(diǎn)地圖，可以生成地圖以XML格式或html格式的頁(yè)面，鄙人是特別喜歡站長(cháng)必備的十大利器之一Xenu工具。
　　
　　九：SEO綜合查詢(xún)工具
　　1、愛(ài)站：SEO優(yōu)化綜合查詢(xún)工具，可以借助查詢(xún)百度權重、有情鏈接、百度索引量、備案信息、關(guān)鍵詞挖掘等信息。
　　2、站長(cháng)工具：站長(cháng)工具的功能幾乎和愛(ài)站的功能一樣，利用站長(cháng)工具與愛(ài)站工具查詢(xún)的數據結果有些差別，這是因為這兩款工具數據估算不同造成的，屬于正?，F象?？山Y合使用
　　十：關(guān)鍵詞挖掘工具
　　1、金花關(guān)鍵詞工具：此款工具功能十分強悍，這里我們提供給你們一款破解版本的，利用此工具可以一次性挖掘5000個(gè)長(cháng)尾關(guān)鍵詞，是站長(cháng)常用的SEO輔助工具之一。
　　2、飛魯達關(guān)鍵詞挖掘工具：此款工具的功能類(lèi)似于以上提供的金花關(guān)鍵詞工具，下載以后兩款工具可以配合使用，效果更佳。
　　3、百度指數：百度指數是基于百度搜索引擎綜合數據搜索結果的一項工具。這項工具是是拿來(lái)剖析在逾段時(shí)間用戶(hù)對個(gè)別關(guān)鍵詞的搜索索引量。這個(gè)工具對我們SEO優(yōu)化有著(zhù)特別大的價(jià)值。
　　4、Google AdWords關(guān)鍵字工具：此款工具可以幫助我們有效的剖析用戶(hù)關(guān)注的個(gè)別特定關(guān)鍵詞，還可以剖析出我們指定的個(gè)別關(guān)鍵詞在全球的搜索量，和在個(gè)別地方的搜索量。是一些小型門(mén)戶(hù)網(wǎng)站擴展長(cháng)尾關(guān)鍵詞的最佳工具。
　　以上是給你們介紹的站長(cháng)必備的十大利器，后面都會(huì )介紹關(guān)于網(wǎng)站優(yōu)化的文章《》，希望對您有所幫助! 查看全部

　　云端內容采集 站長(cháng)必備的十大利器
　　站長(cháng)朋友們都曉得，身為一站之長(cháng)，身上挑的擔子是不輕的，為做好本職工作，需不斷的學(xué)習，深造進(jìn)取，然而做好一名站長(cháng)，身上必備利器，今天我們就跟你們說(shuō)說(shuō)站長(cháng)必備的十大利器都有什么？
　　一、PageRank剖析插件
　　PageRank剖析插件的功能十分強悍，能分享百度收錄,百度近日收錄,Google收錄,pr查詢(xún),百度權重,百度流量查詢(xún),soso收錄,搜狗收錄,sr查詢(xún),域名年紀,備案狀態(tài)等等整個(gè)網(wǎng)站的基本情況。我在優(yōu)化優(yōu)采云網(wǎng)站經(jīng)過(guò)會(huì )用它進(jìn)行剖析，數據十分確切，對于做百度seo挺有幫助
　　

　　二、文本編輯軟件
　　文本編輯軟件對于站長(cháng)而言是十分重要的一款軟件，尤其是有一些規模的型網(wǎng)站，每天更新的文章上百甚至上千篇。像越誠網(wǎng)路官網(wǎng)，主要會(huì )用Notepad和flashfxp兩種，其中 Notepad是一款免費開(kāi)源的文本編輯器，相對來(lái)說(shuō)功能比f(wàn)lashfxp少，容易操作;flashfxp是功能強悍的FXP/FTP軟件，融合了一些其他優(yōu)秀FTP軟件的優(yōu)點(diǎn)，如象CuteFTP一樣可以比較文件夾，支持彩色文字顯示。
　　

　　三、優(yōu)采云采集器
　　優(yōu)采云采集功能十分強悍，集成云端采集、交易及api輸出，內容采集準確，包括數組維度信息，可用性太強。無(wú)論是新網(wǎng)站做啟動(dòng)數據還是老網(wǎng)站做內容更新，都須要采集內容，用于資料儲備等?，F在漸漸發(fā)展成了集數據采集、數據交易市場(chǎng)的平臺。
　　四、光年日志分析器
　　網(wǎng)站日志剖析是站長(cháng)常常要做的事，網(wǎng)站日志剖析工具能快速剖析站點(diǎn)的日志文件，讓您對百度、Google等蜘蛛的爬行記錄一目了然。剛開(kāi)始找尋日志分析器找了很久，也用過(guò)許多其他的日志剖析軟件，但是在剖析體彩軟件源碼站點(diǎn)的網(wǎng)站日志中，發(fā)現光年日志分析器是一款實(shí)用、簡(jiǎn)單、數據準確性特別高的軟件。
　　

　　五、網(wǎng)站安全檢查
　　1、百度安全檢查：這個(gè)是你們一定要熟悉的安全檢查平臺。已經(jīng)引用騰訊、小紅傘、金山、知道創(chuàng )宇的數據庫
　　2、360安全檢測：相對來(lái)說(shuō)，360安全檢測是各大安全檢查平臺當中的最全面的一個(gè)了，不僅僅提供免費的網(wǎng)頁(yè)提權、網(wǎng)頁(yè)篡改還提供免費的網(wǎng)站漏洞檢查。
　　3、安全寶：功能比較齊全，提供免費的mini，可視化網(wǎng)站報告，CDN網(wǎng)站加速，是創(chuàng )新工場(chǎng)旗下的一個(gè)公司。
　　4、騰訊電腦管家安全檢查：我們平常在QQ聊天窗口中發(fā)出的網(wǎng)址，就會(huì )調用此數據庫，對我們的網(wǎng)站安全作用比較大。
　　六、網(wǎng)站統計工具
　　1、百度統計：百度統計工具是完全免費的，對網(wǎng)站的市場(chǎng)營(yíng)銷(xiāo)以及SEO優(yōu)化提供詳盡的建議與參考數據
　　2、CNZZ：目前來(lái)說(shuō)國外草根站長(cháng)用的最多的一款免費統計工具，功能簡(jiǎn)單易用，非常適宜一些草根站長(cháng)使用。
　　3、騰訊剖析：騰訊剖析工具也是一款比較實(shí)用的剖析統計工具，功能類(lèi)似于百度統計。
　　七、廣告聯(lián)盟
　　1、百度聯(lián)盟：我們國外站長(cháng)使用較多的平臺，百度聯(lián)盟通常初審比較嚴格，加入百度聯(lián)盟須要進(jìn)行網(wǎng)站備案，每月的25號到30號之間結算傭金，結算方法是人民幣，付款便捷，但是須要交納個(gè)人所得稅。
　　2、谷歌聯(lián)盟：谷歌聯(lián)盟也是比較不錯的聯(lián)盟，谷歌聯(lián)盟的廣告總價(jià)比較高，結算方法是盧布結算。但是收款的時(shí)侯有些繁雜，管理也是十分嚴格，一旦發(fā)覺(jué)作弊行為，會(huì )永久進(jìn)行封號。
　　八、Xenu工具
　　此用品十分時(shí)用，它可以整站檢索出超級鏈接，并檢出超鏈的狀態(tài)，比如200代碼、404代碼，是一款比非捧的查找死鏈的利器；另外它還可以制做出站點(diǎn)地圖，可以生成地圖以XML格式或html格式的頁(yè)面，鄙人是特別喜歡站長(cháng)必備的十大利器之一Xenu工具。
　　

　　九：SEO綜合查詢(xún)工具
　　1、愛(ài)站：SEO優(yōu)化綜合查詢(xún)工具，可以借助查詢(xún)百度權重、有情鏈接、百度索引量、備案信息、關(guān)鍵詞挖掘等信息。
　　2、站長(cháng)工具：站長(cháng)工具的功能幾乎和愛(ài)站的功能一樣，利用站長(cháng)工具與愛(ài)站工具查詢(xún)的數據結果有些差別，這是因為這兩款工具數據估算不同造成的，屬于正?，F象?？山Y合使用
　　十：關(guān)鍵詞挖掘工具
　　1、金花關(guān)鍵詞工具：此款工具功能十分強悍，這里我們提供給你們一款破解版本的，利用此工具可以一次性挖掘5000個(gè)長(cháng)尾關(guān)鍵詞，是站長(cháng)常用的SEO輔助工具之一。
　　2、飛魯達關(guān)鍵詞挖掘工具：此款工具的功能類(lèi)似于以上提供的金花關(guān)鍵詞工具，下載以后兩款工具可以配合使用，效果更佳。
　　3、百度指數：百度指數是基于百度搜索引擎綜合數據搜索結果的一項工具。這項工具是是拿來(lái)剖析在逾段時(shí)間用戶(hù)對個(gè)別關(guān)鍵詞的搜索索引量。這個(gè)工具對我們SEO優(yōu)化有著(zhù)特別大的價(jià)值。
　　4、Google AdWords關(guān)鍵字工具：此款工具可以幫助我們有效的剖析用戶(hù)關(guān)注的個(gè)別特定關(guān)鍵詞，還可以剖析出我們指定的個(gè)別關(guān)鍵詞在全球的搜索量，和在個(gè)別地方的搜索量。是一些小型門(mén)戶(hù)網(wǎng)站擴展長(cháng)尾關(guān)鍵詞的最佳工具。
　　以上是給你們介紹的站長(cháng)必備的十大利器，后面都會(huì )介紹關(guān)于網(wǎng)站優(yōu)化的文章《》，希望對您有所幫助!

微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 381 次瀏覽 ? 2020-08-26 12:53 ? 來(lái)自相關(guān)話(huà)題

　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?
　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?微信爬蟲(chóng)采集可以采集公眾號數據，以下是小編對陌陌爬蟲(chóng)采集的特色的介紹，大家請往下看哦。
　　爬蟲(chóng)：使用任何技術(shù)手段，批量獲取網(wǎng)站信息的一種形式。
　　微信爬蟲(chóng)采集有哪些特色?
　　1、無(wú)需安裝，云端24小時(shí)采集
　　優(yōu)采云獨創(chuàng )的云端采集技術(shù)，云端控制，24小時(shí)采集。無(wú)論在那里，打開(kāi)筆記本就可以操作查看。
　　2、專(zhuān)業(yè)的應對反爬的私密代理IP手動(dòng)切換，不用擔憂(yōu)反爬
　　該爬蟲(chóng)手動(dòng)接入企業(yè)私密代理IP，不用害怕防屏蔽策略!
　　3、標準低格數據手動(dòng)發(fā)布和導入，無(wú)縫對接您的現有系統
　　可手動(dòng)發(fā)布和導入數據到您的數據庫或網(wǎng)站，同時(shí)還支持webhooks，restful插口，無(wú)縫快速集成到您的現有系統
　　4、官方維護，持續更新
　　搜狗陌陌忽然改版，無(wú)法爬取數據?不用害怕，優(yōu)采云工程師會(huì )用最快的速率跟進(jìn)并修補，優(yōu)采云官方出品，品質(zhì)保證!
　　如何破解反爬蟲(chóng)機制?
　　策略1：設置下載延后，比如數字設置為5秒，越大越安全
　　策略2：禁止Cookie，某些網(wǎng)站會(huì )通過(guò)Cookie辨識陌陌用戶(hù)身分，禁用后促使公眾號服務(wù)器難以辨識爬蟲(chóng)軌跡
　　策略3：使用user agent池。也就是每次發(fā)送的時(shí)侯隨機從池中選擇不一樣的瀏覽器頭信息，防止曝露爬蟲(chóng)身分
　　策略4：使用IP池，這個(gè)須要大量的IP資源，可以通過(guò)抓取網(wǎng)上免費公開(kāi)的IP建成自有的IP代理池。查看全部

　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?
　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?微信爬蟲(chóng)采集可以采集公眾號數據，以下是小編對陌陌爬蟲(chóng)采集的特色的介紹，大家請往下看哦。
　　爬蟲(chóng)：使用任何技術(shù)手段，批量獲取網(wǎng)站信息的一種形式。
　　微信爬蟲(chóng)采集有哪些特色?
　　1、無(wú)需安裝，云端24小時(shí)采集
　　優(yōu)采云獨創(chuàng )的云端采集技術(shù)，云端控制，24小時(shí)采集。無(wú)論在那里，打開(kāi)筆記本就可以操作查看。
　　2、專(zhuān)業(yè)的應對反爬的私密代理IP手動(dòng)切換，不用擔憂(yōu)反爬
　　該爬蟲(chóng)手動(dòng)接入企業(yè)私密代理IP，不用害怕防屏蔽策略!
　　3、標準低格數據手動(dòng)發(fā)布和導入，無(wú)縫對接您的現有系統
　　可手動(dòng)發(fā)布和導入數據到您的數據庫或網(wǎng)站，同時(shí)還支持webhooks，restful插口，無(wú)縫快速集成到您的現有系統
　　4、官方維護，持續更新
　　搜狗陌陌忽然改版，無(wú)法爬取數據?不用害怕，優(yōu)采云工程師會(huì )用最快的速率跟進(jìn)并修補，優(yōu)采云官方出品，品質(zhì)保證!
　　如何破解反爬蟲(chóng)機制?
　　策略1：設置下載延后，比如數字設置為5秒，越大越安全
　　策略2：禁止Cookie，某些網(wǎng)站會(huì )通過(guò)Cookie辨識陌陌用戶(hù)身分，禁用后促使公眾號服務(wù)器難以辨識爬蟲(chóng)軌跡
　　策略3：使用user agent池。也就是每次發(fā)送的時(shí)侯隨機從池中選擇不一樣的瀏覽器頭信息，防止曝露爬蟲(chóng)身分
　　策略4：使用IP池，這個(gè)須要大量的IP資源，可以通過(guò)抓取網(wǎng)上免費公開(kāi)的IP建成自有的IP代理池。

前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 310 次瀏覽 ? 2020-08-25 20:23 ? 來(lái)自相關(guān)話(huà)題

　　前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率
　　000
　　
　　優(yōu)采云
　　我接到一個(gè)顧客需求是這樣的，要采集通過(guò) “城市營(yíng)運” 這個(gè)keyword搜索到的百度網(wǎng)頁(yè)的關(guān)鍵信息，title標題，新聞簡(jiǎn)介，網(wǎng)頁(yè)a標簽鏈接地址。正好我剛接觸了一個(gè)叫 “優(yōu)采云" 的云采集平臺，體驗了一次覺(jué)得不錯，拿來(lái)用用看效率怎樣！
　　大家可以看里面那種圖，這個(gè)平臺一個(gè)很好玩的東西就是這個(gè)webide，你可以直接在這寫(xiě)代碼，直接測試，看日志，直接運行，導出結果。
　　這些操作都可以在一個(gè)界面完成，編程人員只須要關(guān)心最核心的采集邏輯就可以了。
　　001
　　講講 “優(yōu)采云" 核心采集邏輯，首選注意這個(gè)引擎的開(kāi)發(fā)語(yǔ)言是js，你須要具備一點(diǎn)js基礎，最先看下邊兩句：
　　
　　EBA61292-58EF-402A-8AF4-22F92AC8656A.png
　　每個(gè)采集爬蟲(chóng)就會(huì )用這兩句啟動(dòng)，所以你的核心工作是編撰 configs這個(gè)變量，下面看這個(gè)變量結構：
　　
　　051763D4-9E87-4255-AAED-8D47D4E0B1AB.png
　　我們只須要改4個(gè)地方，1個(gè)是入口url，1個(gè)是采集的數組及其xpath，1個(gè)是下一頁(yè)的規則，1個(gè)是對數組內容做必須的處理，這四個(gè)問(wèn)題都通過(guò)config變量惟一規定了函數或變量名子，這4個(gè)問(wèn)題也是采集程序最核心要解決的事。
　　002
　　那么具體到我顧客的這個(gè)采集任務(wù)，我是怎樣填寫(xiě)這種變量的呢
　　注意 addUrl 這一句，寫(xiě)上這一句平臺都會(huì )繼續采集 nextUrl，不寫(xiě)的話(huà)就停止在當前采集頁(yè)上，其實(shí)平臺可以循環(huán)不停的抓取下一頁(yè)，關(guān)鍵就靠這個(gè) addUrl
　　注意 fieldName == 'items.title‘，因為這個(gè) afterExtractField 函數是每位item就會(huì )反彈，所以要用fieldName來(lái)分辨下，這里我們做了啥過(guò)濾，就是簡(jiǎn)單的把這兩個(gè)標簽除去了。
　　003
　　從編撰 -> 測試 -> 運行 - 出數據，不到1小時(shí)，這效率，挺神的！
　　需要源碼的，想學(xué)習的，正在自學(xué)大數據的，想交流，求人帶的都注意??！可以聯(lián)系我，留言私信也可以的！API1024記住我的暗號哦~ 查看全部

　　前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率
　　000
　　

　　優(yōu)采云
　　我接到一個(gè)顧客需求是這樣的，要采集通過(guò) “城市營(yíng)運” 這個(gè)keyword搜索到的百度網(wǎng)頁(yè)的關(guān)鍵信息，title標題，新聞簡(jiǎn)介，網(wǎng)頁(yè)a標簽鏈接地址。正好我剛接觸了一個(gè)叫 “優(yōu)采云" 的云采集平臺，體驗了一次覺(jué)得不錯，拿來(lái)用用看效率怎樣！
　　大家可以看里面那種圖，這個(gè)平臺一個(gè)很好玩的東西就是這個(gè)webide，你可以直接在這寫(xiě)代碼，直接測試，看日志，直接運行，導出結果。
　　這些操作都可以在一個(gè)界面完成，編程人員只須要關(guān)心最核心的采集邏輯就可以了。
　　001
　　講講 “優(yōu)采云" 核心采集邏輯，首選注意這個(gè)引擎的開(kāi)發(fā)語(yǔ)言是js，你須要具備一點(diǎn)js基礎，最先看下邊兩句：
　　

　　EBA61292-58EF-402A-8AF4-22F92AC8656A.png
　　每個(gè)采集爬蟲(chóng)就會(huì )用這兩句啟動(dòng)，所以你的核心工作是編撰 configs這個(gè)變量，下面看這個(gè)變量結構：
　　

　　051763D4-9E87-4255-AAED-8D47D4E0B1AB.png
　　我們只須要改4個(gè)地方，1個(gè)是入口url，1個(gè)是采集的數組及其xpath，1個(gè)是下一頁(yè)的規則，1個(gè)是對數組內容做必須的處理，這四個(gè)問(wèn)題都通過(guò)config變量惟一規定了函數或變量名子，這4個(gè)問(wèn)題也是采集程序最核心要解決的事。
　　002
　　那么具體到我顧客的這個(gè)采集任務(wù)，我是怎樣填寫(xiě)這種變量的呢
　　注意 addUrl 這一句，寫(xiě)上這一句平臺都會(huì )繼續采集 nextUrl，不寫(xiě)的話(huà)就停止在當前采集頁(yè)上，其實(shí)平臺可以循環(huán)不停的抓取下一頁(yè)，關(guān)鍵就靠這個(gè) addUrl
　　注意 fieldName == 'items.title‘，因為這個(gè) afterExtractField 函數是每位item就會(huì )反彈，所以要用fieldName來(lái)分辨下，這里我們做了啥過(guò)濾，就是簡(jiǎn)單的把這兩個(gè)標簽除去了。
　　003
　　從編撰 -> 測試 -> 運行 - 出數據，不到1小時(shí)，這效率，挺神的！
　　需要源碼的，想學(xué)習的，正在自學(xué)大數據的，想交流，求人帶的都注意??！可以聯(lián)系我，留言私信也可以的！API1024記住我的暗號哦~

云端代碼的實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 213 次瀏覽 ? 2020-08-20 02:40 ? 來(lái)自相關(guān)話(huà)題

　　云端代碼的實(shí)踐
　　Bmob的云端代碼可以由手機發(fā)起懇求調用在云端你寫(xiě)好的方式(需要js來(lái)寫(xiě))，比如可以在手機端用戶(hù)注冊成功的時(shí)侯，調用云端代碼，把帳號密碼作為參數調用，云端代碼中可以得到參數，做希望做的操作，再把結果返回。
　　官方的簡(jiǎn)單事例如下
　　先看云端代碼在事例中云端領(lǐng)到手機端傳入的參數然后按照參數返回結果很簡(jiǎn)單
　　1 function onRequest(request, response, modules) {
2 //獲取SDK客戶(hù)端上傳的name參數
3 var name = request.body.name;
4 if(name == 'bmob')
5 response.end('歡迎使用Bmob');
6 else
7 response.end('輸入錯誤，請重新輸入');
8 }
　　再瞧瞧android是如何調用的要注意的是邏輯名和傳入的參數回調和bmob數據服務(wù)一樣，都很簡(jiǎn)單
　　//test對應你剛剛創(chuàng )建的云端邏輯名稱(chēng)
String cloudCodeName = "test";
JSONObject params = new JSONObject();
//name是上傳到云端的參數名稱(chēng)，值是bmob，云端邏輯可以通過(guò)調用request.body.name獲取這個(gè)值
params.put("name", "bmob");
//創(chuàng )建云端邏輯對象
AsyncCustomEndpoints cloudCode = new AsyncCustomEndpoints();
//異步調用云端邏輯
cloudCode.callEndpoint(MainActivity.this, cloudCodeName, params, new CloudCodeListener() {
//執行成功時(shí)調用，返回result對象
@Override
public void onSuccess(Object result) {
Log.i("bmob", "result = "+result.toString());
}
//執行失敗時(shí)調用
@Override
public void onFailure(String err) {
Log.i("bmob", "BmobException = "+err);
}
});
　　當然事例上面的這些功能可以說(shuō)沒(méi)有任何作用
　　這里我剛好遇見(jiàn)一個(gè)不錯的實(shí)踐案例
　　環(huán)信IM sdk 用戶(hù)體系集成，這塊須要用到RESTAPI，我的思路是在手機端注冊帳號成功的同時(shí)，我發(fā)起云端代碼懇求，讓云端通過(guò)REST API去注冊環(huán)信IM的帳號
　　這里要講一下環(huán)信帳號體系：它的用戶(hù)名能是我的用戶(hù)表中primarykey 密碼可以是一樣的密碼，當然可以做一下hash加密
　　bmob用戶(hù)注冊成功時(shí)能得到用戶(hù)對象，在成功的時(shí)侯把需要的參數帶進(jìn) 云端方式，如用戶(hù)名和密碼，或者primarykey 和密碼
　　android端代碼就不寫(xiě)了
　　通過(guò)環(huán)信的，了解到即使開(kāi)發(fā)注冊可以不需要token，但是更新用戶(hù)信息還是要token
　　所以我就先用云端方式懇求token 方式名就叫 getToken
　　 1 function onRequest(request, response, modules) {
2
3 var options = {
4 url:"https://a1.easemob.com/xxxxx/yyyyy/token",
5 headers:{
6 'Content-Type':'application/json'
7 },
8
9 body:JSON.stringify({"grant_type":"client_credentials","client_id":"YXA6GxnwsG5REeaEG_efUTmSlQ","client_secret":"YXA62p6WEWM8TRbmLQkCMxuzmQrLj3A"})
10 };
11
12 modules.oHttp.post(options,function(err,resp,body){
13 response.end(body);
14 });
15
16 }
　　首先第4行 url的格式其中的xxxxx 和yyyyy 在控制臺的應用標示(AppKey) 里面能看到 AppKey的格式是xxxxx#yyyyy
　　第5行的Request Headers 就一個(gè) 沒(méi)啥好說(shuō)的
　　第9行的 Request Body 一共3個(gè)網(wǎng)路懇求參數第一個(gè)grant_type :client_credentials 應該是固定的，后面的client_id，client_secret同樣可以在控制臺找到
　　第12行就是發(fā)送post懇求了最后response.end 返回結果有效期近60天
　　 Response Body
{
"code": 200,
"msg":
{"access_token":"YWMtIwcQoHgfEeaBFQdWz-nlJwAAAVhOT3hk1ujuKlQwidZ7zUbRcMwrDSXdYK0","expires_in":5183999,"application":"1b19f0b0-6e51-11e6-841b-f79f51399295"}
}
　　這些參數都是我在云端寫(xiě)死了，當然可以用android端通過(guò)JSONObject帶過(guò)來(lái) 云端再從request上面獲取參數
　　不過(guò)相比android端更改參數太麻煩（要重新打包安裝），而云端代碼直接編輯完才能生效，所以我認為沒(méi)有特殊要求，在后臺寫(xiě)死反倒好些
　　拿到token以后，再來(lái)瞧瞧注冊，分開(kāi)放注冊和授權注冊，前者不需要token，后者須要
　　這里演示授權注冊
　　 1 function onRequest(request, response, modules) {
2
3 var username = request.body.username;
4 var password = request.body.password;
5 var token=request.body.token;
6
7 var options = {
8 url:"https://a1.easemob.com/xxxx/yyy/user",
9 headers:{
10 'Content-Type':'application/json',
11 'Authorization':'Bearer '+token
12 },
13
14 body:JSON.stringify({"username":username,"password":password})
15 };
16
17 modules.oHttp.post(options,function(err,resp,body){
18 response.end(body);
19 });
20
21 }
　　3 4 5行都是帶入的參數，用戶(hù)名密碼還有token這種東西不可能寫(xiě)死
　　第8行 url 后綴弄成了user
　　第11行由于是授權注冊要傳入token，所以Request Headers多了一個(gè) ，bearer其實(shí)是指 token類(lèi)型
　　第14行注冊必備， 17 18返回結果
　　貼個(gè)注冊成功的返回
　　 Response Body
{
"code": 200,
"msg":
{
"action" : "post",
"application" : "1b19f0b0-6e51-11e6-841b-f79f51399295",
"path" : "/users",
"uri" : "https://a1.easemob.com/feizaoj ... ot%3B,
"entities" : [ {
"uuid" : "2cdf2680-781f-11e6-88b9-3576146210eb",
"type" : "user",
"created" : 1473598597352,
"modified" : 1473598597352,
"username" : "22222w22222232",
"activated" : true
} ],
"timestamp" : 1473598597360,
"duration" : 0,
"organization" : "xxxx",
"applicationName" : "yyyy"
}
}
　　已經(jīng)被注冊過(guò)了的返回
　　 Response Body
{
"code": 200,
"msg":
{"error":"duplicate_unique_property_exists","timestamp":1473599067876,"duration":0,"exception":"org.apache.usergrid.persistence.exceptions.DuplicateUniquePropertyExistsException","error_description":"Application null Entity user requires that property named username be unique, value of 22222w22222232 exists"}
}
　　我覺(jué)得這個(gè)云端代碼十分強悍，手機端只要上傳參數，讓云端來(lái)操作，就能得到結果，極大的減少了手機的任務(wù)
　　目前也沒(méi)更多的場(chǎng)景能使用，以后遇到了，會(huì )更新查看全部

　　云端代碼的實(shí)踐
　　Bmob的云端代碼可以由手機發(fā)起懇求調用在云端你寫(xiě)好的方式(需要js來(lái)寫(xiě))，比如可以在手機端用戶(hù)注冊成功的時(shí)侯，調用云端代碼，把帳號密碼作為參數調用，云端代碼中可以得到參數，做希望做的操作，再把結果返回。
　　官方的簡(jiǎn)單事例如下
　　先看云端代碼在事例中云端領(lǐng)到手機端傳入的參數然后按照參數返回結果很簡(jiǎn)單
　　1 function onRequest(request, response, modules) {
2 //獲取SDK客戶(hù)端上傳的name參數
3 var name = request.body.name;
4 if(name == 'bmob')
5 response.end('歡迎使用Bmob');
6 else
7 response.end('輸入錯誤，請重新輸入');
8 }
　　再瞧瞧android是如何調用的要注意的是邏輯名和傳入的參數回調和bmob數據服務(wù)一樣，都很簡(jiǎn)單
　　//test對應你剛剛創(chuàng )建的云端邏輯名稱(chēng)
String cloudCodeName = "test";
JSONObject params = new JSONObject();
//name是上傳到云端的參數名稱(chēng)，值是bmob，云端邏輯可以通過(guò)調用request.body.name獲取這個(gè)值
params.put("name", "bmob");
//創(chuàng )建云端邏輯對象
AsyncCustomEndpoints cloudCode = new AsyncCustomEndpoints();
//異步調用云端邏輯
cloudCode.callEndpoint(MainActivity.this, cloudCodeName, params, new CloudCodeListener() {
//執行成功時(shí)調用，返回result對象
@Override
public void onSuccess(Object result) {
Log.i("bmob", "result = "+result.toString());
}
//執行失敗時(shí)調用
@Override
public void onFailure(String err) {
Log.i("bmob", "BmobException = "+err);
}
});
　　當然事例上面的這些功能可以說(shuō)沒(méi)有任何作用
　　這里我剛好遇見(jiàn)一個(gè)不錯的實(shí)踐案例
　　環(huán)信IM sdk 用戶(hù)體系集成，這塊須要用到RESTAPI，我的思路是在手機端注冊帳號成功的同時(shí)，我發(fā)起云端代碼懇求，讓云端通過(guò)REST API去注冊環(huán)信IM的帳號
　　這里要講一下環(huán)信帳號體系：它的用戶(hù)名能是我的用戶(hù)表中primarykey 密碼可以是一樣的密碼，當然可以做一下hash加密
　　bmob用戶(hù)注冊成功時(shí)能得到用戶(hù)對象，在成功的時(shí)侯把需要的參數帶進(jìn) 云端方式，如用戶(hù)名和密碼，或者primarykey 和密碼
　　android端代碼就不寫(xiě)了
　　通過(guò)環(huán)信的，了解到即使開(kāi)發(fā)注冊可以不需要token，但是更新用戶(hù)信息還是要token
　　所以我就先用云端方式懇求token 方式名就叫 getToken
　　 1 function onRequest(request, response, modules) {
2
3 var options = {
4 url:"https://a1.easemob.com/xxxxx/yyyyy/token",
5 headers:{
6 'Content-Type':'application/json'
7 },
8
9 body:JSON.stringify({"grant_type":"client_credentials","client_id":"YXA6GxnwsG5REeaEG_efUTmSlQ","client_secret":"YXA62p6WEWM8TRbmLQkCMxuzmQrLj3A"})
10 };
11
12 modules.oHttp.post(options,function(err,resp,body){
13 response.end(body);
14 });
15
16 }
　　首先第4行 url的格式其中的xxxxx 和yyyyy 在控制臺的應用標示(AppKey) 里面能看到 AppKey的格式是xxxxx#yyyyy
　　第5行的Request Headers 就一個(gè) 沒(méi)啥好說(shuō)的
　　第9行的 Request Body 一共3個(gè)網(wǎng)路懇求參數第一個(gè)grant_type :client_credentials 應該是固定的，后面的client_id，client_secret同樣可以在控制臺找到
　　第12行就是發(fā)送post懇求了最后response.end 返回結果有效期近60天
　　 Response Body
{
"code": 200,
"msg":
{"access_token":"YWMtIwcQoHgfEeaBFQdWz-nlJwAAAVhOT3hk1ujuKlQwidZ7zUbRcMwrDSXdYK0","expires_in":5183999,"application":"1b19f0b0-6e51-11e6-841b-f79f51399295"}
}
　　這些參數都是我在云端寫(xiě)死了，當然可以用android端通過(guò)JSONObject帶過(guò)來(lái) 云端再從request上面獲取參數
　　不過(guò)相比android端更改參數太麻煩（要重新打包安裝），而云端代碼直接編輯完才能生效，所以我認為沒(méi)有特殊要求，在后臺寫(xiě)死反倒好些
　　拿到token以后，再來(lái)瞧瞧注冊，分開(kāi)放注冊和授權注冊，前者不需要token，后者須要
　　這里演示授權注冊
　　 1 function onRequest(request, response, modules) {
2
3 var username = request.body.username;
4 var password = request.body.password;
5 var token=request.body.token;
6
7 var options = {
8 url:"https://a1.easemob.com/xxxx/yyy/user",
9 headers:{
10 'Content-Type':'application/json',
11 'Authorization':'Bearer '+token
12 },
13
14 body:JSON.stringify({"username":username,"password":password})
15 };
16
17 modules.oHttp.post(options,function(err,resp,body){
18 response.end(body);
19 });
20
21 }
　　3 4 5行都是帶入的參數，用戶(hù)名密碼還有token這種東西不可能寫(xiě)死
　　第8行 url 后綴弄成了user
　　第11行由于是授權注冊要傳入token，所以Request Headers多了一個(gè) ，bearer其實(shí)是指 token類(lèi)型
　　第14行注冊必備， 17 18返回結果
　　貼個(gè)注冊成功的返回
　　 Response Body
{
"code": 200,
"msg":
{
"action" : "post",
"application" : "1b19f0b0-6e51-11e6-841b-f79f51399295",
"path" : "/users",
"uri" : "https://a1.easemob.com/feizaoj ... ot%3B,
"entities" : [ {
"uuid" : "2cdf2680-781f-11e6-88b9-3576146210eb",
"type" : "user",
"created" : 1473598597352,
"modified" : 1473598597352,
"username" : "22222w22222232",
"activated" : true
} ],
"timestamp" : 1473598597360,
"duration" : 0,
"organization" : "xxxx",
"applicationName" : "yyyy"
}
}
　　已經(jīng)被注冊過(guò)了的返回
　　 Response Body
{
"code": 200,
"msg":
{"error":"duplicate_unique_property_exists","timestamp":1473599067876,"duration":0,"exception":"org.apache.usergrid.persistence.exceptions.DuplicateUniquePropertyExistsException","error_description":"Application null Entity user requires that property named username be unique, value of 22222w22222232 exists"}
}
　　我覺(jué)得這個(gè)云端代碼十分強悍，手機端只要上傳參數，讓云端來(lái)操作，就能得到結果，極大的減少了手機的任務(wù)
　　目前也沒(méi)更多的場(chǎng)景能使用，以后遇到了，會(huì )更新

六大網(wǎng)頁(yè)數據采集器特色對比

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 377 次瀏覽 ? 2020-08-18 20:01 ? 來(lái)自相關(guān)話(huà)題

　　六大網(wǎng)頁(yè)數據采集器特色對比
　　特點(diǎn)：直接接入代理IP。無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入和驗證碼識別。網(wǎng)站自動(dòng)完成登陸和驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖表。采集結果以豐富圖表化方式詮釋?zhuān)⒅С忠绘I手動(dòng)發(fā)布和導入；
　　本地化隱私保護。完全云端采集，可隱藏用戶(hù)IP。
　　優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：以采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。
　　六大網(wǎng)頁(yè)數據采集器特色對比查看全部

　　六大網(wǎng)頁(yè)數據采集器特色對比
　　特點(diǎn)：直接接入代理IP。無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入和驗證碼識別。網(wǎng)站自動(dòng)完成登陸和驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖表。采集結果以豐富圖表化方式詮釋?zhuān)⒅С忠绘I手動(dòng)發(fā)布和導入；
　　本地化隱私保護。完全云端采集，可隱藏用戶(hù)IP。
　　優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：以采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。
　　六大網(wǎng)頁(yè)數據采集器特色對比

最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 415 次瀏覽 ? 2020-08-16 19:25 ? 來(lái)自相關(guān)話(huà)題

　　最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑
　　目前已完成70%，等到下邊幾個(gè)問(wèn)題解決后將開(kāi)源。目前存在的幾個(gè)主要問(wèn)題是：1、云端執行的代理IP問(wèn)題：（自己爬過(guò)濾or其它工具或apiorasdl，哪個(gè)好？）2、大量數據excel/csv導入問(wèn)題：（如果一次性從mysql類(lèi)型數據庫導入100w+數據，怎么解決？?jì)却嫣幚?，直接dump下來(lái)通常都卡死）3、自定義腳本沙盒如何處理？（單獨的一個(gè)html處理容器，讓用戶(hù)自己寫(xiě)腳本處理。目前用的python，服務(wù)器用php實(shí)現。有沒(méi)有開(kāi)源方案開(kāi)源參考？主要是安全問(wèn)題）
　　參考產(chǎn)品：優(yōu)采云采集器、優(yōu)采云采集引擎、import.io?；A功能主要參考優(yōu)采云，功能不錯太全，但是單機的，，。import.io是美國的產(chǎn)品，自動(dòng)化形式采集web，網(wǎng)站經(jīng)常墻，找靈感的。優(yōu)采云是前面說(shuō)是國外首款云采集工具，用了兩周很不錯。確實(shí)是我想要學(xué)習的。。做了個(gè)采集V2EX郵箱的示例：各位有好的云采集的產(chǎn)品希望分享，一起研究。
　　功能基本以?xún)?yōu)采云為主即可。云菜雞以?xún)?yōu)采云的為主，特別是想做個(gè)規則市場(chǎng)，類(lèi)似優(yōu)采云那個(gè)。要是能否實(shí)現不寫(xiě)規則自動(dòng)化智能辨識采集最好。這是未來(lái)的方向?？偨Y出來(lái)就是：優(yōu)采云+優(yōu)采云的模式。
　　求牛逼解決方案，優(yōu)先開(kāi)放github地址。查看全部

　　最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑
　　目前已完成70%，等到下邊幾個(gè)問(wèn)題解決后將開(kāi)源。目前存在的幾個(gè)主要問(wèn)題是：1、云端執行的代理IP問(wèn)題：（自己爬過(guò)濾or其它工具或apiorasdl，哪個(gè)好？）2、大量數據excel/csv導入問(wèn)題：（如果一次性從mysql類(lèi)型數據庫導入100w+數據，怎么解決？?jì)却嫣幚?，直接dump下來(lái)通常都卡死）3、自定義腳本沙盒如何處理？（單獨的一個(gè)html處理容器，讓用戶(hù)自己寫(xiě)腳本處理。目前用的python，服務(wù)器用php實(shí)現。有沒(méi)有開(kāi)源方案開(kāi)源參考？主要是安全問(wèn)題）
　　參考產(chǎn)品：優(yōu)采云采集器、優(yōu)采云采集引擎、import.io?；A功能主要參考優(yōu)采云，功能不錯太全，但是單機的，，。import.io是美國的產(chǎn)品，自動(dòng)化形式采集web，網(wǎng)站經(jīng)常墻，找靈感的。優(yōu)采云是前面說(shuō)是國外首款云采集工具，用了兩周很不錯。確實(shí)是我想要學(xué)習的。。做了個(gè)采集V2EX郵箱的示例：各位有好的云采集的產(chǎn)品希望分享，一起研究。
　　功能基本以?xún)?yōu)采云為主即可。云菜雞以?xún)?yōu)采云的為主，特別是想做個(gè)規則市場(chǎng)，類(lèi)似優(yōu)采云那個(gè)。要是能否實(shí)現不寫(xiě)規則自動(dòng)化智能辨識采集最好。這是未來(lái)的方向?？偨Y出來(lái)就是：優(yōu)采云+優(yōu)采云的模式。
　　求牛逼解決方案，優(yōu)先開(kāi)放github地址。

數據剖析采集器：優(yōu)采云

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 311 次瀏覽 ? 2020-08-11 06:50 ? 來(lái)自相關(guān)話(huà)題

　　以前，我仍然用python來(lái)爬去固定網(wǎng)站的信息，不管是靜態(tài)還是動(dòng)態(tài)，編碼才能實(shí)現好多東西，包括框架的使用更能彰顯python的便捷，but，在實(shí)際工作中，你看見(jiàn)的是哪些？數據剖析有時(shí)候并不需要計算機功力，不會(huì )有那個(gè)畫(huà)了好多時(shí)間做一件事情的打算。人們仍然在探求，這些基礎的東西反復出來(lái)，肯定有被人用煩過(guò)，從而為了一勞永逸，去做了一些工具。今天就來(lái)談?wù)勥@些采集器吧。
　　官網(wǎng)：
　　作為同時(shí)使用優(yōu)采云采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己尋思技術(shù)的互聯(lián)網(wǎng)營(yíng)運喵。。。我來(lái)聊聊心得看法。
　　優(yōu)采云有一些優(yōu)勢，比如學(xué)習成本低，可視化流程，快速搭建采集系統。能直接導入excel文件和導入到數據庫中。降低采集成本，云采集提供10個(gè)節點(diǎn)，也能省事不少。
　　不好的地方就是，即使看似很簡(jiǎn)單了，而且還有更傻瓜化的smart模式，但是上面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě)，不過(guò)說(shuō)實(shí)話(huà)心得太多，還沒(méi)仔細整理。
　　首先上面的循環(huán)都是xpath元素定位，如果用單純的傻瓜化點(diǎn)擊定位的話(huà)，很生硬，大批量采集頁(yè)面的時(shí)侯很容易出錯。另外用這個(gè)工具的，因為便捷，小白太多，成天有人問(wèn)普通問(wèn)題，他們都不會(huì )看頁(yè)面結構，也不懂xpath，很容易出現采集不全，無(wú)限翻頁(yè)等問(wèn)題。
　　但是優(yōu)采云采集器的ajax加載，模擬手機頁(yè)面，過(guò)濾廣告，滾動(dòng)至頁(yè)面底端等功能堪比利器，一個(gè)勾選才能搞定。寫(xiě)代碼很麻煩的，實(shí)現這種功能費力。
　　優(yōu)采云畢竟只是工具，自由度肯定完敗編程。勝在便捷，快速，低成本。
　　優(yōu)采云判斷語(yǔ)錄較弱，無(wú)法進(jìn)行復雜判定，也未能執行復雜邏輯。還有就是優(yōu)采云只有企業(yè)版能夠解決驗證碼問(wèn)題，一般版本未能接入打碼平臺。
　　還有一點(diǎn)就是沒(méi)有ocr功能，58同城和趕集網(wǎng)采集的電話(huà)號碼都是圖片格式，python可以用開(kāi)源圖象辨識庫解決，對接進(jìn)去辨識便可。
　　除非對技術(shù)有很高要求，否則我認為優(yōu)采云采集器挺好用，比優(yōu)采云采集器好用，雖然效率沒(méi)這么高，但是比起費力學(xué)習和研究數據包，還是用這個(gè)省事。我沒(méi)事也會(huì )在優(yōu)采云群里解答一些規則編制的問(wèn)題。
　　優(yōu)采云采集器解析json數據必須中級版本，真煩，優(yōu)采云效率低一些并且可采集范圍廣。但是優(yōu)采云采集器有58同城插件。。。
　　如果你是小白，很想市事情。我來(lái)給你瞧瞧好玩的東西。
　　
　　除了以上100多個(gè)網(wǎng)站的218個(gè)模板外，我們后續就會(huì )再制做上百個(gè)網(wǎng)站數百個(gè)模板，讓用戶(hù)自此采集更多網(wǎng)站無(wú)需配置采集規則。
　　這些模板對應的網(wǎng)站，都是用戶(hù)大多數想要采集的網(wǎng)站，以大眾點(diǎn)評為例，大多數都在采集商家列表，商家詳情，團購詳情等等，優(yōu)采云先幫你們把這種采集規則配置好，大家只須要填入一些參數（如城市入口地址，翻多少頁(yè)等等）即可進(jìn)行采集，頁(yè)面上所有數組幾乎就會(huì )收錄，如遇見(jiàn)不需要的刪掉即可。
　　并且有些模板還幫用戶(hù)做了特殊處理，進(jìn)行了云優(yōu)化與云突破，可以在云端無(wú)限采集，無(wú)需害怕封IP等防采集策略。
　　簡(jiǎn)易采集界面也對采集字段，參數配置，樣例數據做了詳盡的說(shuō)明，保證每位點(diǎn)都說(shuō)到位，并且營(yíng)運朋友都會(huì )對規則做定期的維護與更新，最后達到一個(gè)療效，你只需點(diǎn)擊一個(gè)“立即使用”，即可獲取數據。
　　重點(diǎn)呀，某人說(shuō)數據采集器用了好多，并推薦使用優(yōu)采云，給出了各個(gè)熱門(mén)搜集器的優(yōu)缺點(diǎn)：
　　1.優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　2.優(yōu)采云云采集：
　　一款新穎的云端在線(xiàn)智能爬蟲(chóng)/采集器，基于優(yōu)采云分布式云爬蟲(chóng)框架，幫助用戶(hù)快速獲取大量規范化的網(wǎng)頁(yè)數據，幫助顧客快速輕松地獲取大量規范化數據。
　　特點(diǎn)：直接接入代理IP，無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入驗證碼識別，網(wǎng)站自動(dòng)完成驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖標，采集結果以豐富表格化方式詮釋?zhuān)?br /> 　　本地化隱私保護，云端采集，可隱藏用戶(hù)IP。
　　3.優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　4.三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　5.集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　6.優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。查看全部

　　以前，我仍然用python來(lái)爬去固定網(wǎng)站的信息，不管是靜態(tài)還是動(dòng)態(tài)，編碼才能實(shí)現好多東西，包括框架的使用更能彰顯python的便捷，but，在實(shí)際工作中，你看見(jiàn)的是哪些？數據剖析有時(shí)候并不需要計算機功力，不會(huì )有那個(gè)畫(huà)了好多時(shí)間做一件事情的打算。人們仍然在探求，這些基礎的東西反復出來(lái)，肯定有被人用煩過(guò)，從而為了一勞永逸，去做了一些工具。今天就來(lái)談?wù)勥@些采集器吧。
　　官網(wǎng)：
　　作為同時(shí)使用優(yōu)采云采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己尋思技術(shù)的互聯(lián)網(wǎng)營(yíng)運喵。。。我來(lái)聊聊心得看法。
　　優(yōu)采云有一些優(yōu)勢，比如學(xué)習成本低，可視化流程，快速搭建采集系統。能直接導入excel文件和導入到數據庫中。降低采集成本，云采集提供10個(gè)節點(diǎn)，也能省事不少。
　　不好的地方就是，即使看似很簡(jiǎn)單了，而且還有更傻瓜化的smart模式，但是上面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě)，不過(guò)說(shuō)實(shí)話(huà)心得太多，還沒(méi)仔細整理。
　　首先上面的循環(huán)都是xpath元素定位，如果用單純的傻瓜化點(diǎn)擊定位的話(huà)，很生硬，大批量采集頁(yè)面的時(shí)侯很容易出錯。另外用這個(gè)工具的，因為便捷，小白太多，成天有人問(wèn)普通問(wèn)題，他們都不會(huì )看頁(yè)面結構，也不懂xpath，很容易出現采集不全，無(wú)限翻頁(yè)等問(wèn)題。
　　但是優(yōu)采云采集器的ajax加載，模擬手機頁(yè)面，過(guò)濾廣告，滾動(dòng)至頁(yè)面底端等功能堪比利器，一個(gè)勾選才能搞定。寫(xiě)代碼很麻煩的，實(shí)現這種功能費力。
　　優(yōu)采云畢竟只是工具，自由度肯定完敗編程。勝在便捷，快速，低成本。
　　優(yōu)采云判斷語(yǔ)錄較弱，無(wú)法進(jìn)行復雜判定，也未能執行復雜邏輯。還有就是優(yōu)采云只有企業(yè)版能夠解決驗證碼問(wèn)題，一般版本未能接入打碼平臺。
　　還有一點(diǎn)就是沒(méi)有ocr功能，58同城和趕集網(wǎng)采集的電話(huà)號碼都是圖片格式，python可以用開(kāi)源圖象辨識庫解決，對接進(jìn)去辨識便可。
　　除非對技術(shù)有很高要求，否則我認為優(yōu)采云采集器挺好用，比優(yōu)采云采集器好用，雖然效率沒(méi)這么高，但是比起費力學(xué)習和研究數據包，還是用這個(gè)省事。我沒(méi)事也會(huì )在優(yōu)采云群里解答一些規則編制的問(wèn)題。
　　優(yōu)采云采集器解析json數據必須中級版本，真煩，優(yōu)采云效率低一些并且可采集范圍廣。但是優(yōu)采云采集器有58同城插件。。。
　　如果你是小白，很想市事情。我來(lái)給你瞧瞧好玩的東西。
　　

　　除了以上100多個(gè)網(wǎng)站的218個(gè)模板外，我們后續就會(huì )再制做上百個(gè)網(wǎng)站數百個(gè)模板，讓用戶(hù)自此采集更多網(wǎng)站無(wú)需配置采集規則。
　　這些模板對應的網(wǎng)站，都是用戶(hù)大多數想要采集的網(wǎng)站，以大眾點(diǎn)評為例，大多數都在采集商家列表，商家詳情，團購詳情等等，優(yōu)采云先幫你們把這種采集規則配置好，大家只須要填入一些參數（如城市入口地址，翻多少頁(yè)等等）即可進(jìn)行采集，頁(yè)面上所有數組幾乎就會(huì )收錄，如遇見(jiàn)不需要的刪掉即可。
　　并且有些模板還幫用戶(hù)做了特殊處理，進(jìn)行了云優(yōu)化與云突破，可以在云端無(wú)限采集，無(wú)需害怕封IP等防采集策略。
　　簡(jiǎn)易采集界面也對采集字段，參數配置，樣例數據做了詳盡的說(shuō)明，保證每位點(diǎn)都說(shuō)到位，并且營(yíng)運朋友都會(huì )對規則做定期的維護與更新，最后達到一個(gè)療效，你只需點(diǎn)擊一個(gè)“立即使用”，即可獲取數據。
　　重點(diǎn)呀，某人說(shuō)數據采集器用了好多，并推薦使用優(yōu)采云，給出了各個(gè)熱門(mén)搜集器的優(yōu)缺點(diǎn)：
　　1.優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　2.優(yōu)采云云采集：
　　一款新穎的云端在線(xiàn)智能爬蟲(chóng)/采集器，基于優(yōu)采云分布式云爬蟲(chóng)框架，幫助用戶(hù)快速獲取大量規范化的網(wǎng)頁(yè)數據，幫助顧客快速輕松地獲取大量規范化數據。
　　特點(diǎn)：直接接入代理IP，無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入驗證碼識別，網(wǎng)站自動(dòng)完成驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖標，采集結果以豐富表格化方式詮釋?zhuān)?br /> 　　本地化隱私保護，云端采集，可隱藏用戶(hù)IP。
　　3.優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　4.三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　5.集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　6.優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。

云端大數據剖析關(guān)鍵要素有什么

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2020-08-10 02:47 ? 來(lái)自相關(guān)話(huà)題

　　云端大數據剖析關(guān)鍵要素有什么
　　大數據時(shí)代的出現，未來(lái)30年將對計劃經(jīng)濟和市場(chǎng)經(jīng)濟進(jìn)行重新定義。在大數據時(shí)代，人類(lèi)獲得數據能力遠遠超過(guò)你們想像，我們對世界的認識要提高到新的高度。
　　目前，創(chuàng )新型企業(yè)正在研究她們的數據管理策略，以確定在什么環(huán)境下以及如何發(fā)揮云計算解決方案的作用。依托廣泛的云計算產(chǎn)品、服務(wù)及技術(shù)，企業(yè)將還能通過(guò)新的數據管理模式，打破傳統數據管理模式的桎梏，創(chuàng )造新的價(jià)值。
　　
　　基于云的剖析就是一個(gè)典型的事例。企業(yè)管理協(xié)會(huì )（EMA）研究顯示，越來(lái)越多的企業(yè)采用混和數據管理模式，利用專(zhuān)用平臺管理并調整數據、應用程序及工作負載，以提高數據管理性能，并縮減成本。EMA近日問(wèn)卷調查報告稱(chēng)，60%的受訪(fǎng)企業(yè)正在使用2-3種平臺運行復雜工作負載。在這些混和管理模式下，云端環(huán)境一般發(fā)揮著(zhù)至關(guān)重要的作用。
　　凱德云M-Files數據剖析及報表模塊，使您可以輕松查看凱德云M-Files文檔和相關(guān)工作流程的數據，統計剖析，以及指標——分析商務(wù)流程和支持管理決策的重要的工具。
　　衡量成功的準則
　　不同廠(chǎng)商針對各類(lèi)不同行業(yè)提供卓越的剖析方案，要調查它們的數據剖析能力，需要從以下五大要素入手：
　　1. 分析性能
　　首先，為剖析用例提供支持需確定信息是否能輕松、快速地從源系統遷移至云端環(huán)境。緩慢、復雜的數據采集過(guò)程將影響決策速率，而費時(shí)吃力的數據打算及障礙重重的多級數據載入過(guò)程將造成數據管理效率低下，日常營(yíng)運成本降低。企業(yè)還應注重信息儲存容量，因為它直接決定業(yè)務(wù)問(wèn)題記錄的數目。
　　云端平臺不但需實(shí)現單用戶(hù)業(yè)務(wù)咨詢(xún)，還需支持多用戶(hù)進(jìn)行系統并時(shí)查詢(xún)。無(wú)論有多少用戶(hù)查詢(xún)系統，云端平臺都必須處理信息，并將結果及時(shí)返回。等待處理的時(shí)間過(guò)長(cháng)造成未能及時(shí)獲得洞察力，將使查詢(xún)結果采納率遭到限制，降低投資回報率，甚至難以收到回報。
　　凱德云M-Files數據剖析及報表模塊可以提供銷(xiāo)售流程、已完成和進(jìn)行中的項目、方案的規模和狀態(tài)、訂單列表、員工培訓及認證等等的商務(wù)情報，以提升您的管理決策。
　　凱德云M-Files數據剖析和報表模塊采用流行且強悍的Microsoft SQLServer Reporting Services報表生成系統，提供才能支持各種各樣的報告和商業(yè)需求的豐富一流的前端。
　　2. 工作負載的靈活性
　　與報告編制、重復聯(lián)機分析處理、特定剖析和數據挖掘或中級剖析等常見(jiàn)功能相比，支持多個(gè)工作負載才是平臺靈活性和敏捷性的彰顯。
　　平臺面向數據庫開(kāi)發(fā)，將才能提高其性能和靈活性，以不同的形式支持工作負載。實(shí)施基于行的傳統策略，能夠向記錄輕松添加插入及更新內容，但查詢(xún)須要掃描整個(gè)表格時(shí)，不利于處理列式布局的表格。部分平臺同時(shí)搭載基于行和列的技術(shù)，可滿(mǎn)足剖析工作負載的需求。
　　通過(guò)布署ApacheHadoop基礎設施及探求剖析功能，開(kāi)發(fā)更深層次數據探求能力的大數據戰略對計劃通過(guò)云計算服務(wù)優(yōu)化現有平臺功能的企業(yè)而言十分重要。
　　3. 先進(jìn)的技術(shù)
　　分析項目一般會(huì )超出其最初設定的范圍。隨著(zhù)更多用戶(hù)開(kāi)始使用平臺，系統須要滿(mǎn)足更多需求，大多數平臺容納的數據量在項目啟動(dòng)一段時(shí)間后都超過(guò)最初設定的范圍。因此，項目早期似乎不急于制訂常年計劃并提出項目需求，但這種規劃和要求卻十分重要。
　　隨著(zhù)數據驅動(dòng)型項目不斷成熟，就須要更多中級功能和特點(diǎn)。而傳統系統功能難以滿(mǎn)足用戶(hù)對洞察力的要求時(shí)，這種須要尤為顯著(zhù)。擴展云端環(huán)境，并加入探求剖析等新功能的能力迫切需要具有相應能力的平臺。例如，為數據庫房布署Hadoop解決方案將有機會(huì )獲取中級洞察，而選擇使用新功能，將確保項目順利進(jìn)展，并創(chuàng )造出意想不到的價(jià)值。
　　凱德云M-Files從數據中獲取洞察力主要彰顯在兩方面：一是凱德云M-Files的元數據可以導入到報告工具，來(lái)確定從文檔庫遺失的文件以及評判流程效率如文件審批頻次。二是凱德云M-Files 能充分利用文檔庫和外部商務(wù)系統的數據。從而您可以曉得公司利潤和解決顧客投訴頻次之間的關(guān)聯(lián)；或者使用資產(chǎn)管理工具了解保養防治任務(wù)是怎樣影響機器正常運轉的等等。
　　4. 專(zhuān)業(yè)支持
　　數據庫基礎設施開(kāi)通服務(wù)是施行剖析解決方案的重要環(huán)節，但卻不是惟一的環(huán)節。為支持業(yè)務(wù)咨詢(xún)服務(wù)，數據必須使用適當的格式。這將有助于平臺為用戶(hù)高效提供確切的相關(guān)信息。
　　設計并搭建數據庫構架可能須要數據建模、數據整合及安全性等方面的中級數據庫綜合管理技能與經(jīng)驗。部署云端環(huán)境的企業(yè)時(shí)常遇見(jiàn)IT技術(shù)困局，新項目舉辦時(shí)仍然未能獲得相應支持，影響項目施行進(jìn)度。因此，企業(yè)應與解決方案提供商舉辦合作，通過(guò)她們的專(zhuān)業(yè)咨詢(xún)、培訓和施行服務(wù)，確保項目順利舉辦。
　　5. 企業(yè)生態(tài)系統
　　如果企業(yè)僅使用一套解決方案，通過(guò)它獲得的業(yè)務(wù)洞察只能創(chuàng )造有限的價(jià)值。而在更廣泛的生態(tài)系統中使用剖析平臺，將才能提高云端平臺的效率。
　　企業(yè)充分利用中級剖析或探求平臺功能，將才能運行中級工作負載，并管理更復雜的項目。大多數解決方案提供商提供合作伙伴網(wǎng)路服務(wù)，以擴充平臺的能力和功能，為項目創(chuàng )造更多價(jià)值。
　　挑選符合要求的平臺
　　隨著(zhù)工作負載及中級應用程序的不斷出現，在選擇平臺時(shí)就應愈發(fā)注重實(shí)際使用情況。各行業(yè)致力于推進(jìn)技術(shù)創(chuàng )新的企業(yè)都在考察云端剖析功能?？紤]到廠(chǎng)商提供技術(shù)的多樣性，選擇解決方案時(shí)，必須仔細研究評估所有相關(guān)標準，確保解決方案能充分發(fā)揮性能并帶來(lái)預期的價(jià)值。凱德云M-Files將所有企業(yè)內容（包括文檔、報表、賬單、網(wǎng)頁(yè)、圖片、傳真，甚至多媒體音頻、視頻、等等各信息載體和模式）集中進(jìn)行管理和控制，結合其強悍的元數據搜索引擎，為各企業(yè)提供商務(wù)智能和大數據剖析。查看全部

　　云端大數據剖析關(guān)鍵要素有什么
　　大數據時(shí)代的出現，未來(lái)30年將對計劃經(jīng)濟和市場(chǎng)經(jīng)濟進(jìn)行重新定義。在大數據時(shí)代，人類(lèi)獲得數據能力遠遠超過(guò)你們想像，我們對世界的認識要提高到新的高度。
　　目前，創(chuàng )新型企業(yè)正在研究她們的數據管理策略，以確定在什么環(huán)境下以及如何發(fā)揮云計算解決方案的作用。依托廣泛的云計算產(chǎn)品、服務(wù)及技術(shù)，企業(yè)將還能通過(guò)新的數據管理模式，打破傳統數據管理模式的桎梏，創(chuàng )造新的價(jià)值。
　　

　　基于云的剖析就是一個(gè)典型的事例。企業(yè)管理協(xié)會(huì )（EMA）研究顯示，越來(lái)越多的企業(yè)采用混和數據管理模式，利用專(zhuān)用平臺管理并調整數據、應用程序及工作負載，以提高數據管理性能，并縮減成本。EMA近日問(wèn)卷調查報告稱(chēng)，60%的受訪(fǎng)企業(yè)正在使用2-3種平臺運行復雜工作負載。在這些混和管理模式下，云端環(huán)境一般發(fā)揮著(zhù)至關(guān)重要的作用。
　　凱德云M-Files數據剖析及報表模塊，使您可以輕松查看凱德云M-Files文檔和相關(guān)工作流程的數據，統計剖析，以及指標——分析商務(wù)流程和支持管理決策的重要的工具。
　　衡量成功的準則
　　不同廠(chǎng)商針對各類(lèi)不同行業(yè)提供卓越的剖析方案，要調查它們的數據剖析能力，需要從以下五大要素入手：
　　1. 分析性能
　　首先，為剖析用例提供支持需確定信息是否能輕松、快速地從源系統遷移至云端環(huán)境。緩慢、復雜的數據采集過(guò)程將影響決策速率，而費時(shí)吃力的數據打算及障礙重重的多級數據載入過(guò)程將造成數據管理效率低下，日常營(yíng)運成本降低。企業(yè)還應注重信息儲存容量，因為它直接決定業(yè)務(wù)問(wèn)題記錄的數目。
　　云端平臺不但需實(shí)現單用戶(hù)業(yè)務(wù)咨詢(xún)，還需支持多用戶(hù)進(jìn)行系統并時(shí)查詢(xún)。無(wú)論有多少用戶(hù)查詢(xún)系統，云端平臺都必須處理信息，并將結果及時(shí)返回。等待處理的時(shí)間過(guò)長(cháng)造成未能及時(shí)獲得洞察力，將使查詢(xún)結果采納率遭到限制，降低投資回報率，甚至難以收到回報。
　　凱德云M-Files數據剖析及報表模塊可以提供銷(xiāo)售流程、已完成和進(jìn)行中的項目、方案的規模和狀態(tài)、訂單列表、員工培訓及認證等等的商務(wù)情報，以提升您的管理決策。
　　凱德云M-Files數據剖析和報表模塊采用流行且強悍的Microsoft SQLServer Reporting Services報表生成系統，提供才能支持各種各樣的報告和商業(yè)需求的豐富一流的前端。
　　2. 工作負載的靈活性
　　與報告編制、重復聯(lián)機分析處理、特定剖析和數據挖掘或中級剖析等常見(jiàn)功能相比，支持多個(gè)工作負載才是平臺靈活性和敏捷性的彰顯。
　　平臺面向數據庫開(kāi)發(fā)，將才能提高其性能和靈活性，以不同的形式支持工作負載。實(shí)施基于行的傳統策略，能夠向記錄輕松添加插入及更新內容，但查詢(xún)須要掃描整個(gè)表格時(shí)，不利于處理列式布局的表格。部分平臺同時(shí)搭載基于行和列的技術(shù)，可滿(mǎn)足剖析工作負載的需求。
　　通過(guò)布署ApacheHadoop基礎設施及探求剖析功能，開(kāi)發(fā)更深層次數據探求能力的大數據戰略對計劃通過(guò)云計算服務(wù)優(yōu)化現有平臺功能的企業(yè)而言十分重要。
　　3. 先進(jìn)的技術(shù)
　　分析項目一般會(huì )超出其最初設定的范圍。隨著(zhù)更多用戶(hù)開(kāi)始使用平臺，系統須要滿(mǎn)足更多需求，大多數平臺容納的數據量在項目啟動(dòng)一段時(shí)間后都超過(guò)最初設定的范圍。因此，項目早期似乎不急于制訂常年計劃并提出項目需求，但這種規劃和要求卻十分重要。
　　隨著(zhù)數據驅動(dòng)型項目不斷成熟，就須要更多中級功能和特點(diǎn)。而傳統系統功能難以滿(mǎn)足用戶(hù)對洞察力的要求時(shí)，這種須要尤為顯著(zhù)。擴展云端環(huán)境，并加入探求剖析等新功能的能力迫切需要具有相應能力的平臺。例如，為數據庫房布署Hadoop解決方案將有機會(huì )獲取中級洞察，而選擇使用新功能，將確保項目順利進(jìn)展，并創(chuàng )造出意想不到的價(jià)值。
　　凱德云M-Files從數據中獲取洞察力主要彰顯在兩方面：一是凱德云M-Files的元數據可以導入到報告工具，來(lái)確定從文檔庫遺失的文件以及評判流程效率如文件審批頻次。二是凱德云M-Files 能充分利用文檔庫和外部商務(wù)系統的數據。從而您可以曉得公司利潤和解決顧客投訴頻次之間的關(guān)聯(lián)；或者使用資產(chǎn)管理工具了解保養防治任務(wù)是怎樣影響機器正常運轉的等等。
　　4. 專(zhuān)業(yè)支持
　　數據庫基礎設施開(kāi)通服務(wù)是施行剖析解決方案的重要環(huán)節，但卻不是惟一的環(huán)節。為支持業(yè)務(wù)咨詢(xún)服務(wù)，數據必須使用適當的格式。這將有助于平臺為用戶(hù)高效提供確切的相關(guān)信息。
　　設計并搭建數據庫構架可能須要數據建模、數據整合及安全性等方面的中級數據庫綜合管理技能與經(jīng)驗。部署云端環(huán)境的企業(yè)時(shí)常遇見(jiàn)IT技術(shù)困局，新項目舉辦時(shí)仍然未能獲得相應支持，影響項目施行進(jìn)度。因此，企業(yè)應與解決方案提供商舉辦合作，通過(guò)她們的專(zhuān)業(yè)咨詢(xún)、培訓和施行服務(wù)，確保項目順利舉辦。
　　5. 企業(yè)生態(tài)系統
　　如果企業(yè)僅使用一套解決方案，通過(guò)它獲得的業(yè)務(wù)洞察只能創(chuàng )造有限的價(jià)值。而在更廣泛的生態(tài)系統中使用剖析平臺，將才能提高云端平臺的效率。
　　企業(yè)充分利用中級剖析或探求平臺功能，將才能運行中級工作負載，并管理更復雜的項目。大多數解決方案提供商提供合作伙伴網(wǎng)路服務(wù)，以擴充平臺的能力和功能，為項目創(chuàng )造更多價(jià)值。
　　挑選符合要求的平臺
　　隨著(zhù)工作負載及中級應用程序的不斷出現，在選擇平臺時(shí)就應愈發(fā)注重實(shí)際使用情況。各行業(yè)致力于推進(jìn)技術(shù)創(chuàng )新的企業(yè)都在考察云端剖析功能?？紤]到廠(chǎng)商提供技術(shù)的多樣性，選擇解決方案時(shí)，必須仔細研究評估所有相關(guān)標準，確保解決方案能充分發(fā)揮性能并帶來(lái)預期的價(jià)值。凱德云M-Files將所有企業(yè)內容（包括文檔、報表、賬單、網(wǎng)頁(yè)、圖片、傳真，甚至多媒體音頻、視頻、等等各信息載體和模式）集中進(jìn)行管理和控制，結合其強悍的元數據搜索引擎，為各企業(yè)提供商務(wù)智能和大數據剖析。

使用 Airtable 建立自己的數據搜集模式

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 408 次瀏覽 ? 2020-08-09 16:28 ? 來(lái)自相關(guān)話(huà)題

　　如今，數據早已被稱(chēng)之為信息時(shí)代的「黃金」，個(gè)人可以通過(guò)數據來(lái)量化自我，公司可以使用數據來(lái)幫助決策?；ヂ?lián)網(wǎng)服務(wù)商可以通過(guò)搜集用戶(hù)數據提供愈發(fā)個(gè)性化的服務(wù)，我們也可以搜集自己的數據來(lái)優(yōu)化自己的生活方式。
　　近一年來(lái)，我開(kāi)始意識到自己作為數據發(fā)生器的重要性，于是就開(kāi)始下意識地集中搜集自己形成的各種數據，建立自己的數據搜集模式。而提到為何要集中搜集個(gè)人數據，主要緣由應當有兩點(diǎn)：
　　目前使用了 Moves，RescueTime，Toggl 等各種應用來(lái)搜集自己的地理位置、時(shí)間消耗等數據。但是這種數據都存放于單獨的應用之上，過(guò)于分散。自己看得見(jiàn)，摸得著(zhù)的數據，比置于他人的服務(wù)器上更放心，也更容易集中加以借助。
　　集中搜集數據，意味著(zhù) Moves，RescueTime 等應用弄成了純粹的搜集工具，而數據會(huì )匯總到自己手中。不同類(lèi)型的數據一旦匯集到一起，不僅可以針對單一類(lèi)別數據進(jìn)行可視化展示，還能剖析出數據直接的關(guān)聯(lián)性，對自己的行為更具有指導意義。
　　選擇一款云端表格工具
　　數據搜集的末端，對應著(zhù)用于儲存數據的數據庫。當然，對于個(gè)人數據搜集而言，我們常說(shuō)的電子表格也許就足夠了。最使大眾熟知的電子表格工具一定是 Microsoft Excel 。但是，作為一款桌面軟件，Excel 往往并不適用于現代的數據搜集流程。例如，你想將你的微博存檔保留，難道是通過(guò)自動(dòng)復制粘貼到 Excel 文檔中嗎？顯然不太實(shí)際。
　　所以，如果我們有一個(gè)置于云端的電子表格，可想像的空間就大好多了。說(shuō)到云端電子表格，不得不再度提及 Excel，只不過(guò)此次是它的孿生兄弟 Excel Online，作為 Office 365 的套件之一，Excel Online 除了未能處理宏命令，其他方面幾乎就是桌面版 Excel 的完美克隆。
　　相比之下，本文的主角 Airtable 的名氣就遠不及 Excel 了。但是，作為一個(gè)典型的硅谷公司產(chǎn)品，Airtable 也擁有不錯的口碑。此外，Google Sheets 也是優(yōu)秀的云端表格工具，只是這朵云距我們稍為遠了一些。
　　那么，對于這三款相對優(yōu)秀的云端電子表格，到底哪一款愈發(fā)適宜用于個(gè)人數據搜集整理呢？我做了一個(gè)對比。
　　
　　Airtable，Excel Online 以及 Google Sheets 對比
　　當我選擇的時(shí)侯，最看重的功能雖然是 API 支持。只有具備了 API 接口，才能使數據搜集流程可以實(shí)現自動(dòng)化，也才是名副其實(shí)的「云端表格」。而使我最終選擇 Airtable 的緣由，應該有如下幾點(diǎn)：
　　基礎功能同另外的兩個(gè)產(chǎn)品相比沒(méi)有顯著(zhù)的缺位，甚至擁有象條形碼輸入、iframe 嵌入等更多差異化功能。Airtable 同時(shí)支持 IFTTT 和 Zapier 云端自動(dòng)化工具，且 API 使用上去更簡(jiǎn)單便捷。很多時(shí)侯，就算使用現有工具難以滿(mǎn)足需求，也可以按照開(kāi)發(fā)者文檔自行編撰代碼實(shí)現數據讀取和寫(xiě)入。Airtable 外觀(guān)設計愈發(fā)漂亮，這一點(diǎn)在長(cháng)時(shí)間的使用過(guò)程中特別重要。Airtable 使用簡(jiǎn)介
　　在即將介紹我是怎樣使用 Airitable 集中整理數據之前，我想先對 Airtable 做一個(gè)簡(jiǎn)單介紹。
　　如下圖所示，Airtable 主要收錄有 6 個(gè)基本組件，分別是：
　　
　　Airtable 收錄的 6 個(gè)基本組件
　　可以看出，Airtable 從誕生之初就具備了關(guān)系型數據庫的樣子，已經(jīng)滿(mǎn)足了對數據存儲的日常需求。從功能上，除了 Excel Online，基本上沒(méi)有競品。
　　要想對個(gè)人數據進(jìn)行集中搜集整理，首先須要在 Airtable 創(chuàng )建不同的數據庫。建立數據庫是個(gè)人數據搜集工程中的第一步，所以并不是隨便亂建的。其中，我們須要先想一想搜集數據的大類(lèi)，然后在細分大類(lèi)中的小類(lèi)，并對應到數據表中。我的數據庫主要有下邊 3 個(gè)，樹(shù)形結構如圖所示。
　　
　　我的個(gè)人數據搜集樹(shù)狀結構圖工作學(xué)習數據庫
　　工作學(xué)習數據庫會(huì )搜集平時(shí)我在工作或則學(xué)習中形成的相關(guān)數據。根據我的使用習慣，數據庫收錄了 4 張數據表，分別是：Calendar、Todoist、Trello 以及 Issues（同步 Github）?？吹矫討斁秃苋菀酌靼走@ 4 張表的意思了。
　　對于這四類(lèi)服務(wù)的數據，我均是采用 IFTTT 或者 Zapier 將其同步到 Airtable 中。這里補充介紹一下 IFTTT 和 Zapier 的區別與聯(lián)系。首先，二者都是整合不同應用提供的開(kāi)發(fā)者 API 實(shí)現自動(dòng)化流程的云端服務(wù)，這是她們的相同之處。但是，Zapier 相對于 IFTTT 會(huì )更強悍一些，它通常情況下會(huì )支持原服務(wù)更全面的 API 接口，且支持多個(gè)服務(wù)聯(lián)動(dòng)。相比之下，IFTTT 很多時(shí)侯只提供主要的插口，且只支持兩個(gè)服務(wù)之間的數據傳遞。
　　
　　Zapier 支持多個(gè)服務(wù)同時(shí)聯(lián)動(dòng)（右圖）
　　舉個(gè)反例，當我在使用 Zapier 實(shí)現 Google Calendar → Airtable 的過(guò)程中，Zapier 支持讀取 Google Calendar 中的 43 項數據（雖然有一些不實(shí)用），但 IFTTT 只支持 8 個(gè)。當然，IFTTT 也有比 Zapier 好用的時(shí)侯。比如將 Todoist 完成任務(wù)同步到 Airtable 時(shí)，Zapier 不支持檢測任意 Project 下完成的任務(wù)，需針對每位 Project 設置單獨的流程。
　　
　　Todoist → Airtable 時(shí)，IFTTT 更占優(yōu)勢（左圖）
　　四個(gè)服務(wù)同步到 Airtable 的設置都大同小異，這里我只拿 Todoist → Airtable 詳細說(shuō)明。當我選擇 IFTTT 作為 Todoist → Airtable 的同步工具時(shí)，首先須要到 IFTTT 上看一看其支持讀取 Todoist 的什么數據，你可以通過(guò)創(chuàng )建動(dòng)作時(shí)查看。
　　
　　創(chuàng )建 Todoist → Airtable 動(dòng)作時(shí)，IFTTT 支持讀取的數據項目
　　我們可以看見(jiàn)從 Todoist → Airtable 一共支持 7 個(gè)類(lèi)別的數據。那么，現在可以先新建這個(gè)動(dòng)作。注意，你須要遵循 IFTTT 制定的句型格式，才能正確地將數據寫(xiě)入到 Airtable 中。
　　也就是說(shuō)，如果要將這 7 類(lèi)數據全部同步到 Airtable，你須要在 IFTTT 動(dòng)作的最后輸入如下所示的內容。我習慣之間使用 IFTTT 的 ingredient 名稱(chēng)作為 Airtable 中的列名稱(chēng)。
　　格式：::airtable::Airtable 中的列名::{{IFTTT 中的 ingredient}}
　　示例內容：
　　::airtable::TaskContent::{{TaskContent}}
::airtable::LinkToTask::{{LinkToTask}}
::airtable::Project::{{Project}}
::airtable::Labels::{{Labels}}
::airtable::Priority:: {{Priority}}
::airtable::CompletedAt::{{CompletedAt}}
::airtable::DueDate::{{DueDate}}
　　接下來(lái)，就可以到 Airtable 中設置相應的列名稱(chēng)了。在設置對應的列屬性（文本、數字、圖片等）時(shí)，我建議一開(kāi)始統一設置為「Single line text」，也就是單行文本格式，以避免導出數據出錯。
　　
　　統一設置表格列屬性為文本格式
　　當測試導出成功以后，就可以調整列屬性。例如這兒，Project 的數目是有限的，且每位任務(wù)只對應一個(gè) Project。就可以將其列屬性設定為 Single select（單選），這樣也便捷日后對任務(wù)進(jìn)行篩選。同樣，日期可以使用 Date 屬性，鏈接使用 URL 等。
　　
　　調整最合適的列屬性
　　如果調整列屬性以后，表格顯示為空白或報錯，那就意味著(zhù)通過(guò) IFTTT 傳過(guò)來(lái)的數據格式并不能挺好地被 Airtable 支持。比如這兒的 CompletedAt，也就是項目的完成日期 + 時(shí)間。IFTTT 輸出的數據格式是象這樣的 January 20, 2018 at 10:18AM，Airtable 無(wú)法之間將其轉換為對應的「日期+時(shí)間」的格式。
　　為了便捷以后的數據剖析，我們當然更偏向于將其處理成時(shí)間序列，也就是按 Airtable 中的「日期+時(shí)間」格式保存。此時(shí)，我們可以通過(guò)新建中間列作為過(guò)渡，然后借助 Airtable 的 Formula 公式將原文本列轉換為可辨識的「日期+時(shí)間」列。具體步驟如下：
　　明確區別：原文本列格式為January 20, 2018 at 10:18AM，Airtable 可辨識的格式為January 20, 2018 10:18 AM。注意觀(guān)察兩者之間的區別，文本格式多了 at + 一個(gè)空格字符，同時(shí) AM 字符前缺乏一個(gè)空格。格式轉換：明白區別以后就可以開(kāi)始使用 Airtable 提供的 Formula 公式轉換格式。首先是去除 at 字符，然后在結尾的 AM 或者 PM 前面降低空格。
　　
　　使用 Formula 公式轉換數據格式
　　這里使用了 SEARCH() 函數去定位要更改的位置，然后使用 REPLACE() 函數更改字符。最后再使用 DATATIME_FOMRMAT() 函數低格字符串為我們想要的「日期-時(shí)間」樣式。一個(gè)小的方法是，如果你嫌降低的中間列較多，那么可以使用 Airtable 頂部菜單的 Hide fields 選項隱去不必要的列，只呈現我們須要的數據即可。
　　量化自我數據庫
　　我的第二個(gè)主要數據庫為量化自我數據庫，它是由：Moves、Location、Apple Health、RescueTime 以及 Commute 等 5 個(gè)數據表組成。這 5 個(gè)數據表分別對應著(zhù) Moves 記錄的地理位置數據、手動(dòng)簽到數據、Apple Health 記錄的運動(dòng)健康數據、RescueTime 記錄的工作效率數據以及通勤時(shí)間統計數據。
　　Moves 數據
　　Moves 是我仍然在使用的地理位置追蹤應用，它的運動(dòng)狀態(tài)辨識和地點(diǎn)辨識做的非常好，以至于如今都沒(méi)有找到可取代的應用。Moves 其實(shí)擁有健全的 API，但因為其認證方法的特殊性，IFTTT 和 Zapier 都仍未支持與 Moves 連接。于是，我只能自己編撰一個(gè) Moves → Airtable 的腳本，然后布署在云服務(wù)器上，每天手動(dòng)將今天形成的數據同步的 Airtable 中去。
　　
　　同步 Moves 數據到 Airtable
　　實(shí)現的過(guò)程比較麻煩，都能湊夠一篇文章了，另找時(shí)間再細說(shuō)。這里，Moves 的數據收錄有經(jīng)緯度信息，你可以直接使用 Airtable 提供的 Map Block 模塊對地理位置可視化。
　　
　　因涉及個(gè)人隱私，此處使用官方示意圖
　　關(guān)于 Airtable Blocks 的更多介紹，可以閱讀官方的文章《Getting started with Airtable blocks》
　　Location 數據
　　除了使用 Moves 自動(dòng)記錄地理位置信息，我還自己制做了一個(gè)輔助簽到的 Workflow 用來(lái)標記我覺(jué)得重要的地點(diǎn)，并把地理位置數據實(shí)時(shí)上傳到 Airtable 中的 Location 數據表中。
　　
　　使用 Workflow 上傳地理位置
　　Workflow 非常簡(jiǎn)單，流程如下：定位 → 解析數據 [街道 - 城市 - 地區 - 國家] → 解析數據 [經(jīng)度 - 緯度 - 高度] → 結合當前時(shí)間一并上傳到 Airtable 中。
　　
　　Airtable 記錄的地理位置數據Apple Health 數據
　　目前，追蹤健康信息主要是使用 Apple Watch 和 iPhone，通過(guò)本身的健康應用以及配合 Moves，Autosleep 等第三方應用完成。Apple Health 無(wú)法實(shí)現 iCloud 同步，更沒(méi)有 API 支持，所以只能半自動(dòng)同步到 Airtable。我采用的方式是定期從 Apple Health 中導入數據文件到 Dropbox 中，Dropbox 的數據壓縮包會(huì )手動(dòng)同步到云服務(wù)器中，再由云服務(wù)器中布署的 Python 腳本手動(dòng)完成數據解析，并通過(guò) API 同步到 Airtable 的表格中去。
　　RescueTime 數據
　　工作效率記錄我會(huì )使用到 RescueTime 應用，RescueTime 會(huì )手動(dòng)記錄各種程序的前臺運行時(shí)間，再和數據庫進(jìn)行比對得到相應應用屬于效率應用還是非效率應用，從而手動(dòng)統計每晚的工作效率。
　　RescueTime 的數據同步到 Airtable 就比較便捷了，可以使用 IFTTT，Zapier 或者開(kāi)發(fā)者插口同步。我選擇的是 Zapier，因為它可以同步多達 59 項數據信息。觸發(fā)的動(dòng)作選擇「當每日數據匯總后」，然后再將對應的數據更新到對應的列即可。過(guò)程十分簡(jiǎn)單，就不再贅言了。
　　
　　使用 Zapier 同步 RescueTime 數據到 Airtable
　　這里介紹一個(gè)使用 RescueTime 的一個(gè)小技巧，那就是最好定期去自動(dòng)標記相應應用的效率屬性。首先，我們每晚瀏覽的大多數網(wǎng)頁(yè)或則使用的應用都是比較固定的，手動(dòng)標記耗費的時(shí)間不多。其次，有一些應用對每個(gè)人的效率屬性不一致。比如，我早已好多年沒(méi)用 QQ 作為和他人的聊天工具了，所以但凡當使用 QQ 時(shí)，基本上都屬于處理工作里面的事情，它對于我而言就是效率狀態(tài)，而不是閑暇狀態(tài)。
　　通勤時(shí)間數據
　　Commute 表拿來(lái)統計我的通勤時(shí)間。每天，我就會(huì )選擇輕軌作為下班通勤的主要交通工具，雖然輕軌在站與站之間的運行時(shí)間比較確定，但因為存在換乘，所以每晚的通勤時(shí)間的變化就比較大了。打個(gè)比方，有時(shí)候晚上只晚出發(fā) 5 分鐘，如果剛好趕上一波高峰，實(shí)際抵達公司的時(shí)間常常會(huì )晚 20 分鐘。所以，我從年初就開(kāi)始每晚記錄自己的通勤時(shí)間，打算等到數據累計到一定量以后，通過(guò)數據剖析得到自己每晚的合理出發(fā)時(shí)間。
　　在記錄通勤時(shí)間的時(shí)侯，由于打算將數據保存到 Airtable，所以一開(kāi)始就直接就排除了現有的計時(shí)器或則第三方 App，然后把目標集中到 Workflow。但是，很快我就發(fā)覺(jué) Workflow 的現有動(dòng)作中，并沒(méi)有支持在后臺完成計時(shí)的動(dòng)作。后來(lái)，我就想到了直接利用 Airtable 來(lái)完成這個(gè)功能，這個(gè)功能的邏輯十分簡(jiǎn)單。流程如下：
　　
　　Workflow + Airtable 統計通勤時(shí)間每晚從屋內出發(fā)的時(shí)侯，點(diǎn)擊 workflow 將此刻的時(shí)間上傳到 Airtable，并記為出發(fā)時(shí)間。當抵達公司時(shí)，再次點(diǎn)擊 Workflow 將時(shí)間上傳到 Airtable 。由于 Airtable 本身可以使用數據函數，就能估算出兩個(gè)時(shí)間差，并直接在我第二次點(diǎn)擊 Workflow 上傳時(shí)間后，將估算好的通勤時(shí)間推送到手機上。這樣，既可以實(shí)時(shí)見(jiàn)到記錄出來(lái)的通勤時(shí)間，也不再須要二次過(guò)程將數據上傳到 Airtable 中。
　　
　　Airtable 記錄的通勤時(shí)間信息存檔數據庫
　　信息存檔數據庫是拿來(lái)保存我覺(jué)得有必要存檔的互聯(lián)網(wǎng)數據。其中，主要有三個(gè) Tables，分別是：微博、博客以及稍后讀。
　　我喜歡定期清空自己的微博，防止在互聯(lián)網(wǎng)上留下過(guò)多的「歷史」。但又不想扔掉自己轉發(fā)過(guò)的微博，于是就有了這個(gè)微博存檔表。存檔微博的方式十分簡(jiǎn)單，使用 IFTTT 新建一個(gè)動(dòng)作，實(shí)時(shí)將微博記錄到 Airtable 中保存。
　　
　　微博存檔
　　同樣，我使用 Pocket 作為稍后閱讀工具，也就通過(guò)創(chuàng )建 IFTTT 動(dòng)作，將保存在 Pocket 中的文章同步存檔到 Airtable 中。
　　除此之外，博客存檔表拿來(lái)備份自己在互聯(lián)網(wǎng)上創(chuàng )作的內容。比如在少數派寫(xiě)的文章以及自己的博客文章。該表單使用了自己編撰的 Python 腳本，定期將我的博客文章以及在少數派發(fā)表的文章同步保存到 Airtable 中。
　　其他數據庫
　　除了前面提及的這三個(gè)主要的數據庫，我還有幾個(gè)自己比較喜歡的數據庫，也分享一下。
　　票據存檔數據庫
　　票據存檔的數據庫主要是記錄平時(shí)我覺(jué)得比較重要的支票、發(fā)票、合同文件等。當然，超市購物小票這類(lèi)不太重要的票據也就沒(méi)必要存檔了。
　　
　　收據存檔教育讓利統計數據庫
　　幾個(gè)月前，我在少數派寫(xiě)過(guò)一篇《在校師生福利：Apple、微軟、Adobe 等產(chǎn)品怎樣通過(guò)教育讓利訂購》，這篇文章中介紹一些院校中學(xué)生可以享受的教育讓利項目。不久前，我通過(guò) Airtable 整理了一份愈發(fā)詳盡的教育讓利表單，希望更多的中學(xué)生能享受到優(yōu)價(jià)有品質(zhì)的服務(wù)。
　　
　　教育讓利統計
　　你可以通過(guò)檢索的形式來(lái)獲取自己感興趣的教育讓利項目。當然，我也號召你們來(lái)一起建立這個(gè)表單。如果有一些教育讓利項目非常好，但表單中未涉及到，歡迎直接通過(guò)下邊的鏈接補充遞交到表單中去。
　　菜品、餐館統計數據庫
　　最近，我正在建立的一個(gè)數據庫來(lái)源于我生活中的一個(gè)疼點(diǎn)，那就是常常不知道喝哪些。這個(gè)數據庫中會(huì )記錄下一些餐廳和食材。我會(huì )將平時(shí)喝過(guò)覺(jué)得不錯的，或者想吃的餐廳信息添加到餐廳數據表中，同時(shí)會(huì )記錄一些做過(guò)或則想做的菜肴。
　　當我自己想做飯喝的時(shí)侯，我都會(huì )通過(guò) Workflow 隨機返回食材作為靈感，而想出去喝的時(shí)侯，也可以隨機返回餐廳信息。目前，這個(gè)數據庫和 Workflow 還沒(méi)有完全做好，等建立以后，會(huì )同你們一起分享。
　　另外，文中提及的一些自動(dòng)化數據獲取的 Python 腳本，我也會(huì )整理后擇時(shí)與少數派讀者分享。
　　結語(yǔ)
　　我雖然很早就曉得 Airtable 了，但真正有效地借助上去也是近一年才開(kāi)始的。目前，雖然 Airtable 已經(jīng)幫我存出來(lái)不少的數據，但是我對它的借助程度還并不滿(mǎn)意，今年我會(huì )繼續開(kāi)掘 Airtable 的「正確使用方法」。
　　如今，我們都曉得經(jīng)常須要備份自己的相片、手機、電腦，防止資料遺失。除此之外，我們同樣應當注重起自己每晚形成的其他數據。目前初步構建上去的數據集中搜集模式只是開(kāi)始。等待數據積累到一定量時(shí)，就須要著(zhù)手「數據集中剖析」，使其真正地能幫助自己發(fā)覺(jué)某個(gè)壞習慣，提升一些效率，改變一些東西。
　　( 本文「參與年度征文活動(dòng)」)
　　在今年的年度盤(pán)點(diǎn)活動(dòng) 中，我們再度舉行了年度征文活動(dòng)，以「我是少數派，這是我的 2017」為題，回顧一下你在 2017 年的變化，將這種變化帶來(lái)的思索分享給你們。查看全部

　　如今，數據早已被稱(chēng)之為信息時(shí)代的「黃金」，個(gè)人可以通過(guò)數據來(lái)量化自我，公司可以使用數據來(lái)幫助決策?；ヂ?lián)網(wǎng)服務(wù)商可以通過(guò)搜集用戶(hù)數據提供愈發(fā)個(gè)性化的服務(wù)，我們也可以搜集自己的數據來(lái)優(yōu)化自己的生活方式。
　　近一年來(lái)，我開(kāi)始意識到自己作為數據發(fā)生器的重要性，于是就開(kāi)始下意識地集中搜集自己形成的各種數據，建立自己的數據搜集模式。而提到為何要集中搜集個(gè)人數據，主要緣由應當有兩點(diǎn)：
　　目前使用了 Moves，RescueTime，Toggl 等各種應用來(lái)搜集自己的地理位置、時(shí)間消耗等數據。但是這種數據都存放于單獨的應用之上，過(guò)于分散。自己看得見(jiàn)，摸得著(zhù)的數據，比置于他人的服務(wù)器上更放心，也更容易集中加以借助。
　　集中搜集數據，意味著(zhù) Moves，RescueTime 等應用弄成了純粹的搜集工具，而數據會(huì )匯總到自己手中。不同類(lèi)型的數據一旦匯集到一起，不僅可以針對單一類(lèi)別數據進(jìn)行可視化展示，還能剖析出數據直接的關(guān)聯(lián)性，對自己的行為更具有指導意義。
　　選擇一款云端表格工具
　　數據搜集的末端，對應著(zhù)用于儲存數據的數據庫。當然，對于個(gè)人數據搜集而言，我們常說(shuō)的電子表格也許就足夠了。最使大眾熟知的電子表格工具一定是 Microsoft Excel 。但是，作為一款桌面軟件，Excel 往往并不適用于現代的數據搜集流程。例如，你想將你的微博存檔保留，難道是通過(guò)自動(dòng)復制粘貼到 Excel 文檔中嗎？顯然不太實(shí)際。
　　所以，如果我們有一個(gè)置于云端的電子表格，可想像的空間就大好多了。說(shuō)到云端電子表格，不得不再度提及 Excel，只不過(guò)此次是它的孿生兄弟 Excel Online，作為 Office 365 的套件之一，Excel Online 除了未能處理宏命令，其他方面幾乎就是桌面版 Excel 的完美克隆。
　　相比之下，本文的主角 Airtable 的名氣就遠不及 Excel 了。但是，作為一個(gè)典型的硅谷公司產(chǎn)品，Airtable 也擁有不錯的口碑。此外，Google Sheets 也是優(yōu)秀的云端表格工具，只是這朵云距我們稍為遠了一些。
　　那么，對于這三款相對優(yōu)秀的云端電子表格，到底哪一款愈發(fā)適宜用于個(gè)人數據搜集整理呢？我做了一個(gè)對比。
　　

　　Airtable，Excel Online 以及 Google Sheets 對比
　　當我選擇的時(shí)侯，最看重的功能雖然是 API 支持。只有具備了 API 接口，才能使數據搜集流程可以實(shí)現自動(dòng)化，也才是名副其實(shí)的「云端表格」。而使我最終選擇 Airtable 的緣由，應該有如下幾點(diǎn)：
　　基礎功能同另外的兩個(gè)產(chǎn)品相比沒(méi)有顯著(zhù)的缺位，甚至擁有象條形碼輸入、iframe 嵌入等更多差異化功能。Airtable 同時(shí)支持 IFTTT 和 Zapier 云端自動(dòng)化工具，且 API 使用上去更簡(jiǎn)單便捷。很多時(shí)侯，就算使用現有工具難以滿(mǎn)足需求，也可以按照開(kāi)發(fā)者文檔自行編撰代碼實(shí)現數據讀取和寫(xiě)入。Airtable 外觀(guān)設計愈發(fā)漂亮，這一點(diǎn)在長(cháng)時(shí)間的使用過(guò)程中特別重要。Airtable 使用簡(jiǎn)介
　　在即將介紹我是怎樣使用 Airitable 集中整理數據之前，我想先對 Airtable 做一個(gè)簡(jiǎn)單介紹。
　　如下圖所示，Airtable 主要收錄有 6 個(gè)基本組件，分別是：
　　

　　Airtable 收錄的 6 個(gè)基本組件
　　可以看出，Airtable 從誕生之初就具備了關(guān)系型數據庫的樣子，已經(jīng)滿(mǎn)足了對數據存儲的日常需求。從功能上，除了 Excel Online，基本上沒(méi)有競品。
　　要想對個(gè)人數據進(jìn)行集中搜集整理，首先須要在 Airtable 創(chuàng )建不同的數據庫。建立數據庫是個(gè)人數據搜集工程中的第一步，所以并不是隨便亂建的。其中，我們須要先想一想搜集數據的大類(lèi)，然后在細分大類(lèi)中的小類(lèi)，并對應到數據表中。我的數據庫主要有下邊 3 個(gè)，樹(shù)形結構如圖所示。
　　

　　我的個(gè)人數據搜集樹(shù)狀結構圖工作學(xué)習數據庫
　　工作學(xué)習數據庫會(huì )搜集平時(shí)我在工作或則學(xué)習中形成的相關(guān)數據。根據我的使用習慣，數據庫收錄了 4 張數據表，分別是：Calendar、Todoist、Trello 以及 Issues（同步 Github）?？吹矫討斁秃苋菀酌靼走@ 4 張表的意思了。
　　對于這四類(lèi)服務(wù)的數據，我均是采用 IFTTT 或者 Zapier 將其同步到 Airtable 中。這里補充介紹一下 IFTTT 和 Zapier 的區別與聯(lián)系。首先，二者都是整合不同應用提供的開(kāi)發(fā)者 API 實(shí)現自動(dòng)化流程的云端服務(wù)，這是她們的相同之處。但是，Zapier 相對于 IFTTT 會(huì )更強悍一些，它通常情況下會(huì )支持原服務(wù)更全面的 API 接口，且支持多個(gè)服務(wù)聯(lián)動(dòng)。相比之下，IFTTT 很多時(shí)侯只提供主要的插口，且只支持兩個(gè)服務(wù)之間的數據傳遞。
　　

　　Zapier 支持多個(gè)服務(wù)同時(shí)聯(lián)動(dòng)（右圖）
　　舉個(gè)反例，當我在使用 Zapier 實(shí)現 Google Calendar → Airtable 的過(guò)程中，Zapier 支持讀取 Google Calendar 中的 43 項數據（雖然有一些不實(shí)用），但 IFTTT 只支持 8 個(gè)。當然，IFTTT 也有比 Zapier 好用的時(shí)侯。比如將 Todoist 完成任務(wù)同步到 Airtable 時(shí)，Zapier 不支持檢測任意 Project 下完成的任務(wù)，需針對每位 Project 設置單獨的流程。
　　

　　Todoist → Airtable 時(shí)，IFTTT 更占優(yōu)勢（左圖）
　　四個(gè)服務(wù)同步到 Airtable 的設置都大同小異，這里我只拿 Todoist → Airtable 詳細說(shuō)明。當我選擇 IFTTT 作為 Todoist → Airtable 的同步工具時(shí)，首先須要到 IFTTT 上看一看其支持讀取 Todoist 的什么數據，你可以通過(guò)創(chuàng )建動(dòng)作時(shí)查看。
　　

　　創(chuàng )建 Todoist → Airtable 動(dòng)作時(shí)，IFTTT 支持讀取的數據項目
　　我們可以看見(jiàn)從 Todoist → Airtable 一共支持 7 個(gè)類(lèi)別的數據。那么，現在可以先新建這個(gè)動(dòng)作。注意，你須要遵循 IFTTT 制定的句型格式，才能正確地將數據寫(xiě)入到 Airtable 中。
　　也就是說(shuō)，如果要將這 7 類(lèi)數據全部同步到 Airtable，你須要在 IFTTT 動(dòng)作的最后輸入如下所示的內容。我習慣之間使用 IFTTT 的 ingredient 名稱(chēng)作為 Airtable 中的列名稱(chēng)。
　　格式：::airtable::Airtable 中的列名::{{IFTTT 中的 ingredient}}
　　示例內容：
　　::airtable::TaskContent::{{TaskContent}}
::airtable::LinkToTask::{{LinkToTask}}
::airtable::Project::{{Project}}
::airtable::Labels::{{Labels}}
::airtable::Priority:: {{Priority}}
::airtable::CompletedAt::{{CompletedAt}}
::airtable::DueDate::{{DueDate}}
　　接下來(lái)，就可以到 Airtable 中設置相應的列名稱(chēng)了。在設置對應的列屬性（文本、數字、圖片等）時(shí)，我建議一開(kāi)始統一設置為「Single line text」，也就是單行文本格式，以避免導出數據出錯。
　　

　　統一設置表格列屬性為文本格式
　　當測試導出成功以后，就可以調整列屬性。例如這兒，Project 的數目是有限的，且每位任務(wù)只對應一個(gè) Project。就可以將其列屬性設定為 Single select（單選），這樣也便捷日后對任務(wù)進(jìn)行篩選。同樣，日期可以使用 Date 屬性，鏈接使用 URL 等。
　　

　　調整最合適的列屬性
　　如果調整列屬性以后，表格顯示為空白或報錯，那就意味著(zhù)通過(guò) IFTTT 傳過(guò)來(lái)的數據格式并不能挺好地被 Airtable 支持。比如這兒的 CompletedAt，也就是項目的完成日期 + 時(shí)間。IFTTT 輸出的數據格式是象這樣的 January 20, 2018 at 10:18AM，Airtable 無(wú)法之間將其轉換為對應的「日期+時(shí)間」的格式。
　　為了便捷以后的數據剖析，我們當然更偏向于將其處理成時(shí)間序列，也就是按 Airtable 中的「日期+時(shí)間」格式保存。此時(shí)，我們可以通過(guò)新建中間列作為過(guò)渡，然后借助 Airtable 的 Formula 公式將原文本列轉換為可辨識的「日期+時(shí)間」列。具體步驟如下：
　　明確區別：原文本列格式為January 20, 2018 at 10:18AM，Airtable 可辨識的格式為January 20, 2018 10:18 AM。注意觀(guān)察兩者之間的區別，文本格式多了 at + 一個(gè)空格字符，同時(shí) AM 字符前缺乏一個(gè)空格。格式轉換：明白區別以后就可以開(kāi)始使用 Airtable 提供的 Formula 公式轉換格式。首先是去除 at 字符，然后在結尾的 AM 或者 PM 前面降低空格。
　　

　　使用 Formula 公式轉換數據格式
　　這里使用了 SEARCH() 函數去定位要更改的位置，然后使用 REPLACE() 函數更改字符。最后再使用 DATATIME_FOMRMAT() 函數低格字符串為我們想要的「日期-時(shí)間」樣式。一個(gè)小的方法是，如果你嫌降低的中間列較多，那么可以使用 Airtable 頂部菜單的 Hide fields 選項隱去不必要的列，只呈現我們須要的數據即可。
　　量化自我數據庫
　　我的第二個(gè)主要數據庫為量化自我數據庫，它是由：Moves、Location、Apple Health、RescueTime 以及 Commute 等 5 個(gè)數據表組成。這 5 個(gè)數據表分別對應著(zhù) Moves 記錄的地理位置數據、手動(dòng)簽到數據、Apple Health 記錄的運動(dòng)健康數據、RescueTime 記錄的工作效率數據以及通勤時(shí)間統計數據。
　　Moves 數據
　　Moves 是我仍然在使用的地理位置追蹤應用，它的運動(dòng)狀態(tài)辨識和地點(diǎn)辨識做的非常好，以至于如今都沒(méi)有找到可取代的應用。Moves 其實(shí)擁有健全的 API，但因為其認證方法的特殊性，IFTTT 和 Zapier 都仍未支持與 Moves 連接。于是，我只能自己編撰一個(gè) Moves → Airtable 的腳本，然后布署在云服務(wù)器上，每天手動(dòng)將今天形成的數據同步的 Airtable 中去。
　　

　　同步 Moves 數據到 Airtable
　　實(shí)現的過(guò)程比較麻煩，都能湊夠一篇文章了，另找時(shí)間再細說(shuō)。這里，Moves 的數據收錄有經(jīng)緯度信息，你可以直接使用 Airtable 提供的 Map Block 模塊對地理位置可視化。
　　

　　因涉及個(gè)人隱私，此處使用官方示意圖
　　關(guān)于 Airtable Blocks 的更多介紹，可以閱讀官方的文章《Getting started with Airtable blocks》
　　Location 數據
　　除了使用 Moves 自動(dòng)記錄地理位置信息，我還自己制做了一個(gè)輔助簽到的 Workflow 用來(lái)標記我覺(jué)得重要的地點(diǎn)，并把地理位置數據實(shí)時(shí)上傳到 Airtable 中的 Location 數據表中。
　　

　　使用 Workflow 上傳地理位置
　　Workflow 非常簡(jiǎn)單，流程如下：定位 → 解析數據 [街道 - 城市 - 地區 - 國家] → 解析數據 [經(jīng)度 - 緯度 - 高度] → 結合當前時(shí)間一并上傳到 Airtable 中。
　　

　　Airtable 記錄的地理位置數據Apple Health 數據
　　目前，追蹤健康信息主要是使用 Apple Watch 和 iPhone，通過(guò)本身的健康應用以及配合 Moves，Autosleep 等第三方應用完成。Apple Health 無(wú)法實(shí)現 iCloud 同步，更沒(méi)有 API 支持，所以只能半自動(dòng)同步到 Airtable。我采用的方式是定期從 Apple Health 中導入數據文件到 Dropbox 中，Dropbox 的數據壓縮包會(huì )手動(dòng)同步到云服務(wù)器中，再由云服務(wù)器中布署的 Python 腳本手動(dòng)完成數據解析，并通過(guò) API 同步到 Airtable 的表格中去。
　　RescueTime 數據
　　工作效率記錄我會(huì )使用到 RescueTime 應用，RescueTime 會(huì )手動(dòng)記錄各種程序的前臺運行時(shí)間，再和數據庫進(jìn)行比對得到相應應用屬于效率應用還是非效率應用，從而手動(dòng)統計每晚的工作效率。
　　RescueTime 的數據同步到 Airtable 就比較便捷了，可以使用 IFTTT，Zapier 或者開(kāi)發(fā)者插口同步。我選擇的是 Zapier，因為它可以同步多達 59 項數據信息。觸發(fā)的動(dòng)作選擇「當每日數據匯總后」，然后再將對應的數據更新到對應的列即可。過(guò)程十分簡(jiǎn)單，就不再贅言了。
　　

　　使用 Zapier 同步 RescueTime 數據到 Airtable
　　這里介紹一個(gè)使用 RescueTime 的一個(gè)小技巧，那就是最好定期去自動(dòng)標記相應應用的效率屬性。首先，我們每晚瀏覽的大多數網(wǎng)頁(yè)或則使用的應用都是比較固定的，手動(dòng)標記耗費的時(shí)間不多。其次，有一些應用對每個(gè)人的效率屬性不一致。比如，我早已好多年沒(méi)用 QQ 作為和他人的聊天工具了，所以但凡當使用 QQ 時(shí)，基本上都屬于處理工作里面的事情，它對于我而言就是效率狀態(tài)，而不是閑暇狀態(tài)。
　　通勤時(shí)間數據
　　Commute 表拿來(lái)統計我的通勤時(shí)間。每天，我就會(huì )選擇輕軌作為下班通勤的主要交通工具，雖然輕軌在站與站之間的運行時(shí)間比較確定，但因為存在換乘，所以每晚的通勤時(shí)間的變化就比較大了。打個(gè)比方，有時(shí)候晚上只晚出發(fā) 5 分鐘，如果剛好趕上一波高峰，實(shí)際抵達公司的時(shí)間常常會(huì )晚 20 分鐘。所以，我從年初就開(kāi)始每晚記錄自己的通勤時(shí)間，打算等到數據累計到一定量以后，通過(guò)數據剖析得到自己每晚的合理出發(fā)時(shí)間。
　　在記錄通勤時(shí)間的時(shí)侯，由于打算將數據保存到 Airtable，所以一開(kāi)始就直接就排除了現有的計時(shí)器或則第三方 App，然后把目標集中到 Workflow。但是，很快我就發(fā)覺(jué) Workflow 的現有動(dòng)作中，并沒(méi)有支持在后臺完成計時(shí)的動(dòng)作。后來(lái)，我就想到了直接利用 Airtable 來(lái)完成這個(gè)功能，這個(gè)功能的邏輯十分簡(jiǎn)單。流程如下：
　　

　　Workflow + Airtable 統計通勤時(shí)間每晚從屋內出發(fā)的時(shí)侯，點(diǎn)擊 workflow 將此刻的時(shí)間上傳到 Airtable，并記為出發(fā)時(shí)間。當抵達公司時(shí)，再次點(diǎn)擊 Workflow 將時(shí)間上傳到 Airtable 。由于 Airtable 本身可以使用數據函數，就能估算出兩個(gè)時(shí)間差，并直接在我第二次點(diǎn)擊 Workflow 上傳時(shí)間后，將估算好的通勤時(shí)間推送到手機上。這樣，既可以實(shí)時(shí)見(jiàn)到記錄出來(lái)的通勤時(shí)間，也不再須要二次過(guò)程將數據上傳到 Airtable 中。
　　

　　Airtable 記錄的通勤時(shí)間信息存檔數據庫
　　信息存檔數據庫是拿來(lái)保存我覺(jué)得有必要存檔的互聯(lián)網(wǎng)數據。其中，主要有三個(gè) Tables，分別是：微博、博客以及稍后讀。
　　我喜歡定期清空自己的微博，防止在互聯(lián)網(wǎng)上留下過(guò)多的「歷史」。但又不想扔掉自己轉發(fā)過(guò)的微博，于是就有了這個(gè)微博存檔表。存檔微博的方式十分簡(jiǎn)單，使用 IFTTT 新建一個(gè)動(dòng)作，實(shí)時(shí)將微博記錄到 Airtable 中保存。
　　

　　微博存檔
　　同樣，我使用 Pocket 作為稍后閱讀工具，也就通過(guò)創(chuàng )建 IFTTT 動(dòng)作，將保存在 Pocket 中的文章同步存檔到 Airtable 中。
　　除此之外，博客存檔表拿來(lái)備份自己在互聯(lián)網(wǎng)上創(chuàng )作的內容。比如在少數派寫(xiě)的文章以及自己的博客文章。該表單使用了自己編撰的 Python 腳本，定期將我的博客文章以及在少數派發(fā)表的文章同步保存到 Airtable 中。
　　其他數據庫
　　除了前面提及的這三個(gè)主要的數據庫，我還有幾個(gè)自己比較喜歡的數據庫，也分享一下。
　　票據存檔數據庫
　　票據存檔的數據庫主要是記錄平時(shí)我覺(jué)得比較重要的支票、發(fā)票、合同文件等。當然，超市購物小票這類(lèi)不太重要的票據也就沒(méi)必要存檔了。
　　

　　收據存檔教育讓利統計數據庫
　　幾個(gè)月前，我在少數派寫(xiě)過(guò)一篇《在校師生福利：Apple、微軟、Adobe 等產(chǎn)品怎樣通過(guò)教育讓利訂購》，這篇文章中介紹一些院校中學(xué)生可以享受的教育讓利項目。不久前，我通過(guò) Airtable 整理了一份愈發(fā)詳盡的教育讓利表單，希望更多的中學(xué)生能享受到優(yōu)價(jià)有品質(zhì)的服務(wù)。
　　

　　教育讓利統計
　　你可以通過(guò)檢索的形式來(lái)獲取自己感興趣的教育讓利項目。當然，我也號召你們來(lái)一起建立這個(gè)表單。如果有一些教育讓利項目非常好，但表單中未涉及到，歡迎直接通過(guò)下邊的鏈接補充遞交到表單中去。
　　菜品、餐館統計數據庫
　　最近，我正在建立的一個(gè)數據庫來(lái)源于我生活中的一個(gè)疼點(diǎn)，那就是常常不知道喝哪些。這個(gè)數據庫中會(huì )記錄下一些餐廳和食材。我會(huì )將平時(shí)喝過(guò)覺(jué)得不錯的，或者想吃的餐廳信息添加到餐廳數據表中，同時(shí)會(huì )記錄一些做過(guò)或則想做的菜肴。
　　當我自己想做飯喝的時(shí)侯，我都會(huì )通過(guò) Workflow 隨機返回食材作為靈感，而想出去喝的時(shí)侯，也可以隨機返回餐廳信息。目前，這個(gè)數據庫和 Workflow 還沒(méi)有完全做好，等建立以后，會(huì )同你們一起分享。
　　另外，文中提及的一些自動(dòng)化數據獲取的 Python 腳本，我也會(huì )整理后擇時(shí)與少數派讀者分享。
　　結語(yǔ)
　　我雖然很早就曉得 Airtable 了，但真正有效地借助上去也是近一年才開(kāi)始的。目前，雖然 Airtable 已經(jīng)幫我存出來(lái)不少的數據，但是我對它的借助程度還并不滿(mǎn)意，今年我會(huì )繼續開(kāi)掘 Airtable 的「正確使用方法」。
　　如今，我們都曉得經(jīng)常須要備份自己的相片、手機、電腦，防止資料遺失。除此之外，我們同樣應當注重起自己每晚形成的其他數據。目前初步構建上去的數據集中搜集模式只是開(kāi)始。等待數據積累到一定量時(shí)，就須要著(zhù)手「數據集中剖析」，使其真正地能幫助自己發(fā)覺(jué)某個(gè)壞習慣，提升一些效率，改變一些東西。
　　( 本文「參與年度征文活動(dòng)」)
　　在今年的年度盤(pán)點(diǎn)活動(dòng) 中，我們再度舉行了年度征文活動(dòng)，以「我是少數派，這是我的 2017」為題，回顧一下你在 2017 年的變化，將這種變化帶來(lái)的思索分享給你們。

您的每次點(diǎn)擊如何成為數據？談?wù)劵ヂ?lián)網(wǎng)公司的內部數據采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 301 次瀏覽 ? 2020-08-07 19:18 ? 來(lái)自相關(guān)話(huà)題

　　數據是怎么來(lái)的？
　　在許多行業(yè)中，數據是手動(dòng)采集的，例如醫學(xué)疾病數據，環(huán)境數據和經(jīng)濟數據. 數據更新周期也相對較長(cháng)，例如每年和每月.
　　但是互聯(lián)網(wǎng)行業(yè)是不同的. 在這個(gè)自然交通行業(yè)中，數據量巨大，并且每天的更新周期甚至很長(cháng). 通常有小時(shí)，分鐘和實(shí)時(shí)秒. 現在落入表中并直接流式傳輸數據已為時(shí)已晚.
　　最后介紹了“流計算”: 數據流的實(shí)時(shí)計算不需要存儲在表中，主要是為了滿(mǎn)足一些實(shí)時(shí)需求，例如實(shí)時(shí)監控，實(shí)時(shí)個(gè)性化推薦等待.
　　無(wú)論是“流計算”還是將其存儲在表中進(jìn)行計算，總是會(huì )采集數據源，那么數據源在哪里？我們每天如何打開(kāi)APP，瀏覽網(wǎng)頁(yè)，單擊，下訂單，付款等，它們如何落入表格并成為數據？
　　所有這些都來(lái)自稱(chēng)為“日志”的東西，該日志記錄了發(fā)生的時(shí)間和發(fā)生的事件，即最原創(chuàng )的事件. 這些日志信息是數據源. 互聯(lián)網(wǎng)公司建立了一個(gè)采集框架，可將日志轉換為數據并將其存儲在表中，或轉換為數據流以進(jìn)行流計算.
　　日志的采集非常重要. 只有采集了數據，公司才能將精力投入到業(yè)務(wù)價(jià)值的挖掘中. （當然，我所談?wù)摰氖莾炔繑祿杉?，外部數據爬網(wǎng)和購買(mǎi)的第三方數據，這不在本文討論范圍之內）.
　　所有主要的互聯(lián)網(wǎng)巨頭都開(kāi)發(fā)了自己的日志采集系統，例如Apache的chukwa，Facebook的Scribe，Cloudera的水槽和Linkedin的Kafka. 這些是當前由國內公司使用的更流行的開(kāi)源日志采集框架. 360這是一個(gè)基于Scribe的日志采集系統，而Ali使用了自己的TT（TimeTunel）.
　　這里主要是介紹chukwa和Scribe，嘗試使用簡(jiǎn)單的語(yǔ)言讓每個(gè)人都了解他們的架構思想:
　　1，楚科（Chukwa）
　　chukwa是Apache的開(kāi)源項目. 作為Hadoop產(chǎn)品之一，它使用了許多Hadoop組件（通過(guò)HDFS存儲和使用MapReducec進(jìn)行數據處理），從而完全繼承了Hadoop的可伸縮性和穩定性.
　　chukwa包括用于監視數據，分析數據和數據可視化的一系列組件. 結構圖如下:
　?。▓D片來(lái)自）
　?。?）HDFS
　　問(wèn)題在于日志記錄系統的情況恰好相反，需要高并發(fā)性和低速度才能寫(xiě)入大量小文件. 系統中的Agent和Collector也要滿(mǎn)足這種支持.
　?。?）什么是代理商
　?。?）什么是采集器
　　實(shí)際上，chukwa并不是很有效，因為它不是一個(gè)純粹的日志采集工具，而是一個(gè)完整的數據框架，其中包括諸如數據分析，處理和可視化之類(lèi)的功能. 但是，就優(yōu)化目標而言，數據采集和數據分析的兩個(gè)主要任務(wù)并不相同甚至矛盾. 這將影響數據采集的效率.
　　許多人認為最好只采集數據并將數據分析轉移到其他成熟的框架. 因此，楚科娃尚未得到廣泛應用.
　　2，抄寫(xiě)員
　　Scribe是Facebook的開(kāi)源日志采集系統. 其主要思想是“分布式采集，統一處理”，從各種日志源采集數據并將其存儲在中央存儲系統中. 框架如下:
　?。⊿cribe體系結構，圖1源自）
　?。ǔ瓕?xiě)員架構圖2來(lái)自網(wǎng)絡(luò )，已被入侵并刪除）
　　具體來(lái)說(shuō)，在分布式系統中，每個(gè)節點(diǎn)都將部署劃線(xiàn)服務(wù)（本地劃線(xiàn)服務(wù)器），采集該節點(diǎn)的日志信息，并將其發(fā)送到劃線(xiàn)中央服務(wù)（中央劃線(xiàn)服務(wù)器）.
　　抄寫(xiě)員的一個(gè)重要優(yōu)點(diǎn)是容錯能力. 將節點(diǎn)信息發(fā)送到劃線(xiàn)中央服務(wù)后，中央服務(wù)系統是否掛起！向上！（崩潰），我該怎么辦？
　　這時(shí)，本地劃線(xiàn)器服務(wù)會(huì )將信息寫(xiě)入本地磁盤(pán)，并在中央服務(wù)可用時(shí)重新發(fā)送. 劃線(xiàn)員中央服務(wù)將數據寫(xiě)入最終目的地. 這不是機智嗎？當然，在某些特殊情況下，抄寫(xiě)員也會(huì )丟失數據，例如: 查看全部

　　數據是怎么來(lái)的？
　　在許多行業(yè)中，數據是手動(dòng)采集的，例如醫學(xué)疾病數據，環(huán)境數據和經(jīng)濟數據. 數據更新周期也相對較長(cháng)，例如每年和每月.
　　但是互聯(lián)網(wǎng)行業(yè)是不同的. 在這個(gè)自然交通行業(yè)中，數據量巨大，并且每天的更新周期甚至很長(cháng). 通常有小時(shí)，分鐘和實(shí)時(shí)秒. 現在落入表中并直接流式傳輸數據已為時(shí)已晚.
　　最后介紹了“流計算”: 數據流的實(shí)時(shí)計算不需要存儲在表中，主要是為了滿(mǎn)足一些實(shí)時(shí)需求，例如實(shí)時(shí)監控，實(shí)時(shí)個(gè)性化推薦等待.
　　無(wú)論是“流計算”還是將其存儲在表中進(jìn)行計算，總是會(huì )采集數據源，那么數據源在哪里？我們每天如何打開(kāi)APP，瀏覽網(wǎng)頁(yè)，單擊，下訂單，付款等，它們如何落入表格并成為數據？
　　所有這些都來(lái)自稱(chēng)為“日志”的東西，該日志記錄了發(fā)生的時(shí)間和發(fā)生的事件，即最原創(chuàng )的事件. 這些日志信息是數據源. 互聯(lián)網(wǎng)公司建立了一個(gè)采集框架，可將日志轉換為數據并將其存儲在表中，或轉換為數據流以進(jìn)行流計算.
　　日志的采集非常重要. 只有采集了數據，公司才能將精力投入到業(yè)務(wù)價(jià)值的挖掘中. （當然，我所談?wù)摰氖莾炔繑祿杉?，外部數據爬網(wǎng)和購買(mǎi)的第三方數據，這不在本文討論范圍之內）.
　　所有主要的互聯(lián)網(wǎng)巨頭都開(kāi)發(fā)了自己的日志采集系統，例如Apache的chukwa，Facebook的Scribe，Cloudera的水槽和Linkedin的Kafka. 這些是當前由國內公司使用的更流行的開(kāi)源日志采集框架. 360這是一個(gè)基于Scribe的日志采集系統，而Ali使用了自己的TT（TimeTunel）.
　　這里主要是介紹chukwa和Scribe，嘗試使用簡(jiǎn)單的語(yǔ)言讓每個(gè)人都了解他們的架構思想:
　　1，楚科（Chukwa）
　　chukwa是Apache的開(kāi)源項目. 作為Hadoop產(chǎn)品之一，它使用了許多Hadoop組件（通過(guò)HDFS存儲和使用MapReducec進(jìn)行數據處理），從而完全繼承了Hadoop的可伸縮性和穩定性.
　　chukwa包括用于監視數據，分析數據和數據可視化的一系列組件. 結構圖如下:
　?。▓D片來(lái)自）
　?。?）HDFS
　　問(wèn)題在于日志記錄系統的情況恰好相反，需要高并發(fā)性和低速度才能寫(xiě)入大量小文件. 系統中的Agent和Collector也要滿(mǎn)足這種支持.
　?。?）什么是代理商
　?。?）什么是采集器
　　實(shí)際上，chukwa并不是很有效，因為它不是一個(gè)純粹的日志采集工具，而是一個(gè)完整的數據框架，其中包括諸如數據分析，處理和可視化之類(lèi)的功能. 但是，就優(yōu)化目標而言，數據采集和數據分析的兩個(gè)主要任務(wù)并不相同甚至矛盾. 這將影響數據采集的效率.
　　許多人認為最好只采集數據并將數據分析轉移到其他成熟的框架. 因此，楚科娃尚未得到廣泛應用.
　　2，抄寫(xiě)員
　　Scribe是Facebook的開(kāi)源日志采集系統. 其主要思想是“分布式采集，統一處理”，從各種日志源采集數據并將其存儲在中央存儲系統中. 框架如下:
　?。⊿cribe體系結構，圖1源自）
　?。ǔ瓕?xiě)員架構圖2來(lái)自網(wǎng)絡(luò )，已被入侵并刪除）
　　具體來(lái)說(shuō)，在分布式系統中，每個(gè)節點(diǎn)都將部署劃線(xiàn)服務(wù)（本地劃線(xiàn)服務(wù)器），采集該節點(diǎn)的日志信息，并將其發(fā)送到劃線(xiàn)中央服務(wù)（中央劃線(xiàn)服務(wù)器）.
　　抄寫(xiě)員的一個(gè)重要優(yōu)點(diǎn)是容錯能力. 將節點(diǎn)信息發(fā)送到劃線(xiàn)中央服務(wù)后，中央服務(wù)系統是否掛起！向上！（崩潰），我該怎么辦？
　　這時(shí)，本地劃線(xiàn)器服務(wù)會(huì )將信息寫(xiě)入本地磁盤(pán)，并在中央服務(wù)可用時(shí)重新發(fā)送. 劃線(xiàn)員中央服務(wù)將數據寫(xiě)入最終目的地. 這不是機智嗎？當然，在某些特殊情況下，抄寫(xiě)員也會(huì )丟失數據，例如:

盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 192 次瀏覽 ? 2021-03-20 22:06 ? 來(lái)自相關(guān)話(huà)題

　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)
　　云端內容采集比拼直播報名同步在線(xiàn)觀(guān)看
　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)，而相關(guān)業(yè)務(wù)也在發(fā)展過(guò)程中。目前來(lái)看，互聯(lián)網(wǎng)行業(yè)的內容采集是電商電視網(wǎng)站作為第一手來(lái)源，然后衍生出一個(gè)內容分發(fā)的平臺，內容分發(fā)平臺可通過(guò)形成流量效應獲得投資。內容的分發(fā)，特別是新媒體內容平臺內容分發(fā)，決定了分發(fā)是否符合用戶(hù)喜好，采集是否和用戶(hù)體驗完美相關(guān)，在這方面有了更多可能性。
　　至于直播，垂直平臺、社區、社群、游戲、音樂(lè )、體育等等，內容形式、內容分發(fā)是一個(gè)趨勢，但受政策、相關(guān)費用、版權等等的影響，很難在內容分發(fā)領(lǐng)域提供顛覆性創(chuàng )新。相關(guān)資料你也可以看看這個(gè)：將網(wǎng)站、動(dòng)漫、視頻平臺內容共享，讓用戶(hù)成為內容的采集者和生產(chǎn)者，中國內容社區網(wǎng)站形成。
　　我一直就在想，這些獲取平臺流量的大平臺所接觸的數據都是誰(shuí)提供的，如果作為平臺方?jīng)]有對數據提供商嚴格的把控，就說(shuō)明平臺接觸的數據不準，對于分發(fā)數據的偏差將會(huì )產(chǎn)生巨大的影響。只不過(guò)目前我國社會(huì )由于絕大多數人都沒(méi)有什么開(kāi)放的社會(huì )觀(guān)念，依然處于原始社會(huì )，面對內容和數據巨大分發(fā)的壓力，要么分發(fā)數據不準，要么采集數據不準。否則，就會(huì )完全淪為中小平臺的數據搬運工。
　　問(wèn)題涉及內容獲取和分發(fā)。樓上有幾位大v已經(jīng)答了。這里簡(jiǎn)單補充幾句。內容，即信息和知識。平臺上采集的數據一定只有其中的核心內容，作為平臺方和采集方的角色本身不是一個(gè)純粹的數據使用者，而是一個(gè)社會(huì )效應的生產(chǎn)者和傳播者。既然內容在平臺上，采集方和社會(huì )效應生產(chǎn)者之間還存在競爭，又怎么可能建立起一個(gè)分發(fā)統一的互聯(lián)網(wǎng)社會(huì )數據傳播規則，大家都去賣(mài)內容。
　　可以簡(jiǎn)單的想象，如果平臺的內容只是平臺上的產(chǎn)品，那么需要內容的用戶(hù)是無(wú)差別的，沒(méi)有什么能夠改變只有“內容獲取”和“內容分發(fā)”兩個(gè)主要功能。那么，如果，內容獲取實(shí)現了分發(fā)，就必然要分發(fā)給更多的用戶(hù)，那么這個(gè)產(chǎn)品的主要“產(chǎn)品”“核心功能”是什么？。查看全部

　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)
　　云端內容采集比拼直播報名同步在線(xiàn)觀(guān)看
　　盛大正在運營(yíng)的“輕資產(chǎn)運營(yíng)”發(fā)展模式一定會(huì )重構新媒體產(chǎn)業(yè)，而相關(guān)業(yè)務(wù)也在發(fā)展過(guò)程中。目前來(lái)看，互聯(lián)網(wǎng)行業(yè)的內容采集是電商電視網(wǎng)站作為第一手來(lái)源，然后衍生出一個(gè)內容分發(fā)的平臺，內容分發(fā)平臺可通過(guò)形成流量效應獲得投資。內容的分發(fā)，特別是新媒體內容平臺內容分發(fā)，決定了分發(fā)是否符合用戶(hù)喜好，采集是否和用戶(hù)體驗完美相關(guān)，在這方面有了更多可能性。
　　至于直播，垂直平臺、社區、社群、游戲、音樂(lè )、體育等等，內容形式、內容分發(fā)是一個(gè)趨勢，但受政策、相關(guān)費用、版權等等的影響，很難在內容分發(fā)領(lǐng)域提供顛覆性創(chuàng )新。相關(guān)資料你也可以看看這個(gè)：將網(wǎng)站、動(dòng)漫、視頻平臺內容共享，讓用戶(hù)成為內容的采集者和生產(chǎn)者，中國內容社區網(wǎng)站形成。
　　我一直就在想，這些獲取平臺流量的大平臺所接觸的數據都是誰(shuí)提供的，如果作為平臺方?jīng)]有對數據提供商嚴格的把控，就說(shuō)明平臺接觸的數據不準，對于分發(fā)數據的偏差將會(huì )產(chǎn)生巨大的影響。只不過(guò)目前我國社會(huì )由于絕大多數人都沒(méi)有什么開(kāi)放的社會(huì )觀(guān)念，依然處于原始社會(huì )，面對內容和數據巨大分發(fā)的壓力，要么分發(fā)數據不準，要么采集數據不準。否則，就會(huì )完全淪為中小平臺的數據搬運工。
　　問(wèn)題涉及內容獲取和分發(fā)。樓上有幾位大v已經(jīng)答了。這里簡(jiǎn)單補充幾句。內容，即信息和知識。平臺上采集的數據一定只有其中的核心內容，作為平臺方和采集方的角色本身不是一個(gè)純粹的數據使用者，而是一個(gè)社會(huì )效應的生產(chǎn)者和傳播者。既然內容在平臺上，采集方和社會(huì )效應生產(chǎn)者之間還存在競爭，又怎么可能建立起一個(gè)分發(fā)統一的互聯(lián)網(wǎng)社會(huì )數據傳播規則，大家都去賣(mài)內容。
　　可以簡(jiǎn)單的想象，如果平臺的內容只是平臺上的產(chǎn)品，那么需要內容的用戶(hù)是無(wú)差別的，沒(méi)有什么能夠改變只有“內容獲取”和“內容分發(fā)”兩個(gè)主要功能。那么，如果，內容獲取實(shí)現了分發(fā)，就必然要分發(fā)給更多的用戶(hù)，那么這個(gè)產(chǎn)品的主要“產(chǎn)品”“核心功能”是什么？。

云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2021-02-07 09:01 ? 來(lái)自相關(guān)話(huà)題

　　云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）
　　云端內容采集開(kāi)始，中間的環(huán)節是（點(diǎn)播云端直播點(diǎn)播商城安卓云端）結束可以是（回放預覽網(wǎng)絡(luò )數據存儲）當然了是分批（第一個(gè)回放最重要，然后下一個(gè)回放然后反饋在最上層在市場(chǎng)最終宣傳）第一批完了呢后面的云端點(diǎn)播商城云端云臺直播錄制和回放直播回放都是后端來(lái)判斷的，可以調出來(lái)直接讀取點(diǎn)播數據存儲回放數據云臺，直播預覽。
　　推送的數據庫是硬盤(pán)，這個(gè)和excel的區別是數據表現形式不同。數據采集是云臺電路板子里的，做到云臺里，用帶云臺的，根據距離采集原始數據，分析出速度。和硬盤(pán)的差別是，云臺更靈活，而且沒(méi)有體積和重量上的限制。普通硬盤(pán)可能卡，云臺就可以點(diǎn)鼠標控制。excel上的數據標記，可以點(diǎn)鼠標，云臺也可以點(diǎn)。
　　云臺那塊數據讀取傳輸到網(wǎng)絡(luò )內核里，再通過(guò)網(wǎng)絡(luò )反饋一個(gè)數據到服務(wù)器上。服務(wù)器上有統一的接口讀取數據，返回數據到硬盤(pán)。所以可以在云端任意加任意時(shí)間線(xiàn)的數據。
　　云端內容在主機開(kāi)始播放，云端內容在推流平臺播放，推流平臺在播放平臺播放時(shí)，需要計算調度播放平臺下的播放位置，然后返回給播放平臺，播放平臺需要根據視頻位置去做推送。以上是基本的流程。其實(shí)類(lèi)似于網(wǎng)頁(yè)里抓包，只不過(guò)本質(zhì)上是發(fā)送請求，而不是翻頁(yè)。也是需要調度、重定向、網(wǎng)絡(luò )傳輸等等。不過(guò)用戶(hù)這樣的需求是相當明顯的，如果能滿(mǎn)足的話(huà)，基本上能做的很好。查看全部

　　云端內容采集開(kāi)始，中間的環(huán)節是（回放預覽）
　　云端內容采集開(kāi)始，中間的環(huán)節是（點(diǎn)播云端直播點(diǎn)播商城安卓云端）結束可以是（回放預覽網(wǎng)絡(luò )數據存儲）當然了是分批（第一個(gè)回放最重要，然后下一個(gè)回放然后反饋在最上層在市場(chǎng)最終宣傳）第一批完了呢后面的云端點(diǎn)播商城云端云臺直播錄制和回放直播回放都是后端來(lái)判斷的，可以調出來(lái)直接讀取點(diǎn)播數據存儲回放數據云臺，直播預覽。
　　推送的數據庫是硬盤(pán)，這個(gè)和excel的區別是數據表現形式不同。數據采集是云臺電路板子里的，做到云臺里，用帶云臺的，根據距離采集原始數據，分析出速度。和硬盤(pán)的差別是，云臺更靈活，而且沒(méi)有體積和重量上的限制。普通硬盤(pán)可能卡，云臺就可以點(diǎn)鼠標控制。excel上的數據標記，可以點(diǎn)鼠標，云臺也可以點(diǎn)。
　　云臺那塊數據讀取傳輸到網(wǎng)絡(luò )內核里，再通過(guò)網(wǎng)絡(luò )反饋一個(gè)數據到服務(wù)器上。服務(wù)器上有統一的接口讀取數據，返回數據到硬盤(pán)。所以可以在云端任意加任意時(shí)間線(xiàn)的數據。
　　云端內容在主機開(kāi)始播放，云端內容在推流平臺播放，推流平臺在播放平臺播放時(shí)，需要計算調度播放平臺下的播放位置，然后返回給播放平臺，播放平臺需要根據視頻位置去做推送。以上是基本的流程。其實(shí)類(lèi)似于網(wǎng)頁(yè)里抓包，只不過(guò)本質(zhì)上是發(fā)送請求，而不是翻頁(yè)。也是需要調度、重定向、網(wǎng)絡(luò )傳輸等等。不過(guò)用戶(hù)這樣的需求是相當明顯的，如果能滿(mǎn)足的話(huà)，基本上能做的很好。

解決方案：大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 304 次瀏覽 ? 2020-10-20 11:01 ? 來(lái)自相關(guān)話(huà)題

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人沒(méi)有挖掘數據的能力，只能使用第三方采集器軟件來(lái)獲取數據采集，傳統的采集軟件主要取決于Windows系統，但是現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows軟件已無(wú)法滿(mǎn)足網(wǎng)站的多方面需求，并且成本昂貴且云同步能力很差，因此金錢(qián)成本網(wǎng)站幾乎沒(méi)有效果。具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)自己的網(wǎng)站采集程序，該程序涉及人員，周期和成本方面的大量投資，并且該程序的可伸縮性和多功能性在以后的維護中顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到認識到采集的云化，市場(chǎng)上的采集云僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，優(yōu)采云采集器是真正的云數據采集發(fā)布系統。它使用類(lèi)似于cms的系統來(lái)構建網(wǎng)站，該網(wǎng)站可以安裝在客戶(hù)自己的服務(wù)器中?？梢酝ㄟ^(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip來(lái)進(jìn)行操作。采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是可以在服務(wù)器的任何子目錄中建立的輔助網(wǎng)站采集系統，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，致力于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站構建程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！操作界面具有完全相同的功能，非常適合計算機終端和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！查看全部

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人沒(méi)有挖掘數據的能力，只能使用第三方采集器軟件來(lái)獲取數據采集，傳統的采集軟件主要取決于Windows系統，但是現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows軟件已無(wú)法滿(mǎn)足網(wǎng)站的多方面需求，并且成本昂貴且云同步能力很差，因此金錢(qián)成本網(wǎng)站幾乎沒(méi)有效果。具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)自己的網(wǎng)站采集程序，該程序涉及人員，周期和成本方面的大量投資，并且該程序的可伸縮性和多功能性在以后的維護中顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到認識到采集的云化，市場(chǎng)上的采集云僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，優(yōu)采云采集器是真正的云數據采集發(fā)布系統。它使用類(lèi)似于cms的系統來(lái)構建網(wǎng)站，該網(wǎng)站可以安裝在客戶(hù)自己的服務(wù)器中?？梢酝ㄟ^(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip來(lái)進(jìn)行操作。采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是可以在服務(wù)器的任何子目錄中建立的輔助網(wǎng)站采集系統，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，致力于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站構建程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！操作界面具有完全相同的功能，非常適合計算機終端和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！

解讀：保護原創(chuàng )內容、控制采集！360搜索上線(xiàn)“優(yōu)采云算法”

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 325 次瀏覽 ? 2020-10-09 13:03 ? 來(lái)自相關(guān)話(huà)題

　　保護原創(chuàng )內容，控制采集！ 360搜索在線(xiàn)“優(yōu)采云算法”
　　在“五公算法”之后，360 Search推出了“優(yōu)采云算法”。優(yōu)采云算法主要通過(guò)使用苛刻的采集方法，通過(guò)內容拼接，秘密更改標題和其他方法在短時(shí)間內“創(chuàng )建”大量垃圾郵件頁(yè)面，針對某些質(zhì)量較低的網(wǎng)站。根據官方聲明，優(yōu)采云算法啟動(dòng)后，高質(zhì)量的內容頁(yè)面將得到保護和提升，而采集劣等網(wǎng)站將大大減少其在搜索引擎結果頁(yè)面上顯示的機會(huì )。
　　什么是可憐的采集網(wǎng)站？
　　所謂的劣等網(wǎng)站采集主要是通過(guò)隱瞞或篡改文章的來(lái)源來(lái)“竊取”他人原創(chuàng )的內容，并在不考慮順序的情況下盲目地爬網(wǎng)Internet信息，同時(shí)，為了方便訪(fǎng)問(wèn)，在采集頁(yè)面中混合了許多混合的廣告和彈出信息。
　　優(yōu)采云算法有什么影響？
　　根據官方聲明，“優(yōu)采云算法”上線(xiàn)后，內容豐富的高質(zhì)量網(wǎng)頁(yè)（例如原創(chuàng )，稀缺資源，經(jīng)過(guò)精心編輯的內容頁(yè)面等）將增加他們的機會(huì )顯示在用戶(hù)面前；濫用采集方法（例如整個(gè)網(wǎng)站的大規模采集，頁(yè)面內容拼湊而成，干擾用戶(hù)閱讀的大量廣告，錯誤的彈出式跳轉，大量不相關(guān)的熱詞，網(wǎng)站搜索結果頁(yè)等）將大大減少其展示機會(huì )和網(wǎng)頁(yè)收錄的數量。
　　網(wǎng)站管理員應該做什么？
　　網(wǎng)站管理員應考慮長(cháng)期發(fā)展，積極改善網(wǎng)站的結構，并提供更省時(shí)，更豐富的內容原創(chuàng )。網(wǎng)站內容質(zhì)量得到改善，受益于“優(yōu)采云算法”的更新：網(wǎng)站得到改善，站點(diǎn)上收錄的數量將繼續增加。
　　此外，網(wǎng)站站長(cháng)不應為短期“良好排名”進(jìn)行“故意的鏈接交換和鏈接交易”。僅依靠鏈接來(lái)獲得PageRank不再有效，即使優(yōu)化不當也可能帶來(lái)“反彈”的風(fēng)險。我衷心希望網(wǎng)站站長(cháng)和網(wǎng)站站群機構能夠將他們的注意力和資源集中在原創(chuàng )和高質(zhì)量?jì)热莸臉嫿ㄉ稀?br /> 　　如果對網(wǎng)站采集的判斷結果和收錄的狀態(tài)有異議，網(wǎng)站管理員可以通過(guò)網(wǎng)站管理員平臺的反饋中心和360搜索論壇的主持人提供反饋：
　　
　　網(wǎng)站站長(cháng)平臺反饋中心：
　　
　　360搜索論壇：查看全部

　　保護原創(chuàng )內容，控制采集！ 360搜索在線(xiàn)“優(yōu)采云算法”
　　在“五公算法”之后，360 Search推出了“優(yōu)采云算法”。優(yōu)采云算法主要通過(guò)使用苛刻的采集方法，通過(guò)內容拼接，秘密更改標題和其他方法在短時(shí)間內“創(chuàng )建”大量垃圾郵件頁(yè)面，針對某些質(zhì)量較低的網(wǎng)站。根據官方聲明，優(yōu)采云算法啟動(dòng)后，高質(zhì)量的內容頁(yè)面將得到保護和提升，而采集劣等網(wǎng)站將大大減少其在搜索引擎結果頁(yè)面上顯示的機會(huì )。
　　什么是可憐的采集網(wǎng)站？
　　所謂的劣等網(wǎng)站采集主要是通過(guò)隱瞞或篡改文章的來(lái)源來(lái)“竊取”他人原創(chuàng )的內容，并在不考慮順序的情況下盲目地爬網(wǎng)Internet信息，同時(shí)，為了方便訪(fǎng)問(wèn)，在采集頁(yè)面中混合了許多混合的廣告和彈出信息。
　　優(yōu)采云算法有什么影響？
　　根據官方聲明，“優(yōu)采云算法”上線(xiàn)后，內容豐富的高質(zhì)量網(wǎng)頁(yè)（例如原創(chuàng )，稀缺資源，經(jīng)過(guò)精心編輯的內容頁(yè)面等）將增加他們的機會(huì )顯示在用戶(hù)面前；濫用采集方法（例如整個(gè)網(wǎng)站的大規模采集，頁(yè)面內容拼湊而成，干擾用戶(hù)閱讀的大量廣告，錯誤的彈出式跳轉，大量不相關(guān)的熱詞，網(wǎng)站搜索結果頁(yè)等）將大大減少其展示機會(huì )和網(wǎng)頁(yè)收錄的數量。
　　網(wǎng)站管理員應該做什么？
　　網(wǎng)站管理員應考慮長(cháng)期發(fā)展，積極改善網(wǎng)站的結構，并提供更省時(shí)，更豐富的內容原創(chuàng )。網(wǎng)站內容質(zhì)量得到改善，受益于“優(yōu)采云算法”的更新：網(wǎng)站得到改善，站點(diǎn)上收錄的數量將繼續增加。
　　此外，網(wǎng)站站長(cháng)不應為短期“良好排名”進(jìn)行“故意的鏈接交換和鏈接交易”。僅依靠鏈接來(lái)獲得PageRank不再有效，即使優(yōu)化不當也可能帶來(lái)“反彈”的風(fēng)險。我衷心希望網(wǎng)站站長(cháng)和網(wǎng)站站群機構能夠將他們的注意力和資源集中在原創(chuàng )和高質(zhì)量?jì)热莸臉嫿ㄉ稀?br /> 　　如果對網(wǎng)站采集的判斷結果和收錄的狀態(tài)有異議，網(wǎng)站管理員可以通過(guò)網(wǎng)站管理員平臺的反饋中心和360搜索論壇的主持人提供反饋：
　　

　　網(wǎng)站站長(cháng)平臺反饋中心：
　　

　　360搜索論壇：

行業(yè)解決方案：優(yōu)采云云端采集器-支持智能操作-云端采集-導入數據庫

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 299 次瀏覽 ? 2020-10-03 12:01 ? 來(lái)自相關(guān)話(huà)題

　　優(yōu)采云Cloud采集器-支持智能操作-Cloud采集-導入數據庫
　　松開(kāi)眼睛，戴上耳機，聽(tīng)一聽(tīng)??！
　　Data采集方便，智能且基于云，可讓您隨時(shí)隨地移動(dòng)辦公室
　　[title]軟件簡(jiǎn)介[/ title]
　　優(yōu)采云采集器（SkyCaiji），專(zhuān)用于網(wǎng)站數據自動(dòng)化采集版本，該系統采用PHP + Mysql開(kāi)發(fā)，可以部署在云服務(wù)器上，使數據采集方便，智能，云使您可以隨時(shí)隨地轉移辦公室
　　[title]軟件功能[/ title]
　　支持多級，多頁(yè)，分頁(yè)采集，自定義采集規則（支持常規，XPATH，JSON等），以準確匹配幾乎所有采集種類(lèi)型的網(wǎng)頁(yè)中的任何信息流，大多數采集 k13]類(lèi)型頁(yè)面內容都可以實(shí)現智能識別
　　[title]適用方案[/ title]
　　無(wú)縫耦合各種cms網(wǎng)站構建程序，實(shí)現免登錄導入數據，支持自定義數據發(fā)布插件，或直接導入數據庫，存儲為Excel文件，生成API接口等。
　　[title]軟件功能[/ title]
　　該軟件無(wú)需手動(dòng)干預即可實(shí)現定時(shí)和定量自動(dòng)采集釋放！借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布供需信息以及社區以尋求幫助和溝通。
　　[title]安裝環(huán)境[/ title]
　　操作系統：Linux / Unix / Windows
　　軟件環(huán)境：IIS / Apache / Nginx + MySQL5.0及更高版本
　　[title]官方用戶(hù)手冊[/ title]
　　[title]下載URL [/ title]
　　[下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] #down [/下載] 查看全部

　　優(yōu)采云Cloud采集器-支持智能操作-Cloud采集-導入數據庫
　　松開(kāi)眼睛，戴上耳機，聽(tīng)一聽(tīng)??！
　　Data采集方便，智能且基于云，可讓您隨時(shí)隨地移動(dòng)辦公室
　　[title]軟件簡(jiǎn)介[/ title]
　　優(yōu)采云采集器（SkyCaiji），專(zhuān)用于網(wǎng)站數據自動(dòng)化采集版本，該系統采用PHP + Mysql開(kāi)發(fā)，可以部署在云服務(wù)器上，使數據采集方便，智能，云使您可以隨時(shí)隨地轉移辦公室
　　[title]軟件功能[/ title]
　　支持多級，多頁(yè)，分頁(yè)采集，自定義采集規則（支持常規，XPATH，JSON等），以準確匹配幾乎所有采集種類(lèi)型的網(wǎng)頁(yè)中的任何信息流，大多數采集 k13]類(lèi)型頁(yè)面內容都可以實(shí)現智能識別
　　[title]適用方案[/ title]
　　無(wú)縫耦合各種cms網(wǎng)站構建程序，實(shí)現免登錄導入數據，支持自定義數據發(fā)布插件，或直接導入數據庫，存儲為Excel文件，生成API接口等。
　　[title]軟件功能[/ title]
　　該軟件無(wú)需手動(dòng)干預即可實(shí)現定時(shí)和定量自動(dòng)采集釋放！借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布供需信息以及社區以尋求幫助和溝通。
　　[title]安裝環(huán)境[/ title]
　　操作系統：Linux / Unix / Windows
　　軟件環(huán)境：IIS / Apache / Nginx + MySQL5.0及更高版本
　　[title]官方用戶(hù)手冊[/ title]
　　[title]下載URL [/ title]
　　[下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] [/下載] [下載標題=“本地下載”] #down [/下載]

整套解決方案：大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 296 次瀏覽 ? 2020-09-04 23:23 ? 來(lái)自相關(guān)話(huà)題

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站。最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序。這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是使用類(lèi)似cms網(wǎng)站構建系統的真實(shí)云數據采集發(fā)布系統，可以將其安裝在客戶(hù)自己的服務(wù)器中，并且可以通過(guò)訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作瀏覽器采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！查看全部

　　在大數據時(shí)代，云爬蟲(chóng)采集系統協(xié)助網(wǎng)站自動(dòng)化內容！
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù)。面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站。最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序。這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn)。缺點(diǎn)是消耗人力，物力和財力。
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是使用類(lèi)似cms網(wǎng)站構建系統的真實(shí)云數據采集發(fā)布系統，可以將其安裝在客戶(hù)自己的服務(wù)器中，并且可以通過(guò)訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作瀏覽器采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突。它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄。
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云。該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容。該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等。該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作。借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流。它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件。
　　專(zhuān)業(yè)工作留給別人做，優(yōu)采云采集（）將為您提供一組數據采集發(fā)布解決方案！

優(yōu)化的解決方案：[代碼交流] 大數據時(shí)代，云端爬蟲(chóng)采集系統輔助網(wǎng)站實(shí)現內容自動(dòng)化！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 292 次瀏覽 ? 2020-09-02 05:18 ? 來(lái)自相關(guān)話(huà)題

　　[代碼交換]
在大數據時(shí)代，云爬蟲(chóng)采集系統輔助網(wǎng)站自動(dòng)化內容！
　　
　　大數據和云計算是當今Internet上使用最廣泛的技術(shù). 面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站. 最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序. 這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn). 缺點(diǎn)是消耗人力，物力和財力.
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是真實(shí)的云數據采集發(fā)布系統. 它使用類(lèi)似于cms的網(wǎng)站構建系統. 它可以安裝在客戶(hù)自己的服務(wù)器上，也可以通過(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作. 采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突. 它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄.
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云. 該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容. 該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等. 該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作. 借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流. 它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件. 查看全部

　　[代碼交換]
在大數據時(shí)代，云爬蟲(chóng)采集系統輔助網(wǎng)站自動(dòng)化內容！
　　

　　大數據和云計算是當今Internet上使用最廣泛的技術(shù). 面對數據的藍色海洋，許多公司和個(gè)人并不完全具備數據挖掘的功能，只能使用第三方采集器軟件來(lái)實(shí)現數據采集，而傳統的采集軟件大多附屬于Windows系統，現在是移動(dòng)多平臺時(shí)代，單個(gè)Windows 采集軟件無(wú)法滿(mǎn)足網(wǎng)站多種需求，并且成本昂貴，并且云同步能力很差，因而花費了金錢(qián)網(wǎng)站. 最小具有技術(shù)能力的公司或個(gè)人將開(kāi)發(fā)符合其網(wǎng)站的自己的采集程序. 這涉及人員，周期和成本方面的大量投資，并且程序的可伸縮性和多功能性在以后的維護中將顯而易見(jiàn). 缺點(diǎn)是消耗人力，物力和財力.
　　因此，什么樣的采集軟件對網(wǎng)站真正有價(jià)值，作者認為，既需要像傳統采集軟件一樣具有數據挖掘能力，又要與時(shí)俱進(jìn)，真正做到實(shí)現采集的云化，市場(chǎng)上的云采集僅在供應商的服務(wù)器采集中執行，客戶(hù)沒(méi)有完全的自治權，采集的效率受到供應商服務(wù)器的處理能力的限制，[ k3] 采集器是真實(shí)的云數據采集發(fā)布系統. 它使用類(lèi)似于cms的網(wǎng)站構建系統. 它可以安裝在客戶(hù)自己的服務(wù)器上，也可以通過(guò)瀏覽器訪(fǎng)問(wèn)服務(wù)器域名或ip進(jìn)行操作. 采集，優(yōu)采云采集器與客戶(hù)自己的網(wǎng)站沒(méi)有沖突. 它是輔助的網(wǎng)站采集系統，可以在服務(wù)器的任何子目錄中建立，并且在不使用該軟件時(shí)可以刪除該軟件所在的目錄.
　　優(yōu)采云采集器全名優(yōu)采云數據采集發(fā)布系統，軟件英文名稱(chēng)SkyCaiji，專(zhuān)用于網(wǎng)站數據自動(dòng)化采集發(fā)布，使數據采集方便，智能且基于云. 該軟件是由php + mysql開(kāi)發(fā)的可視化網(wǎng)站系統，開(kāi)源并且免費使用，幾乎可以采集所有類(lèi)型的網(wǎng)頁(yè)，可以自定義采集規則，支持正則表達式，XPATH，JSON和其他語(yǔ)法，準確匹配任何信息流，可以智能識別大多數文章類(lèi)型頁(yè)面的正文內容. 該軟件可以與各種cms網(wǎng)站建設程序結合使用，以實(shí)現無(wú)需登錄即可進(jìn)行實(shí)時(shí)數據發(fā)布，支持自定義數據發(fā)布插件或直接導入數據庫，存儲為Excel文件，生成API接口等. 該軟件可以定期自動(dòng)定量發(fā)布采集，無(wú)需人工干預，節省了人力和物力！該操作界面具有完全相同的功能，非常適合計算機和移動(dòng)終端，使您可以隨時(shí)隨地工作. 借助內置的云平臺，用戶(hù)可以共享和下載采集規則，發(fā)布采集供求信息，以及社區幫助和交流. 它是大數據和云時(shí)代網(wǎng)站數據自動(dòng)化采集發(fā)布的最好的云采集器軟件.

解決方案：航天知識服務(wù)平臺

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 190 次瀏覽 ? 2020-09-01 18:01 ? 來(lái)自相關(guān)話(huà)題

　　航空知識服務(wù)平臺
　　平臺介紹
　　KSpider網(wǎng)絡(luò )信息資源采集系統是一個(gè)網(wǎng)絡(luò )信息資源集成系統，它集成了網(wǎng)絡(luò )數據采集，分析，存儲，管理和檢索. 能夠根據用戶(hù)設置的站點(diǎn)定向采集數據，在網(wǎng)絡(luò )上采集各種形式的文檔，例如圖片，word文檔，ppt，pdf等，并根據采集返回信息用戶(hù)設置的分類(lèi)規則進(jìn)行一定的智能分類(lèi)處理，可以根據關(guān)鍵字規則進(jìn)行分類(lèi)，也可以基于樣本模型進(jìn)行智能分類(lèi)，也可以根據采集源站點(diǎn)或頻道目錄進(jìn)行分類(lèi)（即根據（針對網(wǎng)站的URL特征）分類(lèi)），用戶(hù)可以通過(guò)分類(lèi)導航進(jìn)行搜索，系統采用門(mén)戶(hù)，數據庫，搜索引擎等發(fā)布形式，可以更有效地挖掘出用戶(hù)所需的信息.
　　產(chǎn)品功能
　　高級智能代理: 集成了多種智能信息處理算法，并且可以基于高級語(yǔ)義規則技術(shù)執行淺層語(yǔ)義分析
　　強大的信息采集能力: 高效的信息采集技術(shù)完成了網(wǎng)絡(luò )數據獲取，可以快速，全面而準確地從Internet獲取數據
　　靈活的體系結構: 采集蜘蛛集群，智能代理集群，應用服務(wù)器智能調度，每個(gè)子系統可以隨時(shí)斷開(kāi)并連接到系統，而不會(huì )影響整個(gè)系統的運行
　　基于KBase的海量數據存儲和全文檢索: 支持海量非結構化數據的存儲管理，具有成熟的全文檢索技術(shù)，檢索速度達到500G / S，處于行業(yè)領(lǐng)先地位查看全部

　　航空知識服務(wù)平臺
　　平臺介紹
　　KSpider網(wǎng)絡(luò )信息資源采集系統是一個(gè)網(wǎng)絡(luò )信息資源集成系統，它集成了網(wǎng)絡(luò )數據采集，分析，存儲，管理和檢索. 能夠根據用戶(hù)設置的站點(diǎn)定向采集數據，在網(wǎng)絡(luò )上采集各種形式的文檔，例如圖片，word文檔，ppt，pdf等，并根據采集返回信息用戶(hù)設置的分類(lèi)規則進(jìn)行一定的智能分類(lèi)處理，可以根據關(guān)鍵字規則進(jìn)行分類(lèi)，也可以基于樣本模型進(jìn)行智能分類(lèi)，也可以根據采集源站點(diǎn)或頻道目錄進(jìn)行分類(lèi)（即根據（針對網(wǎng)站的URL特征）分類(lèi)），用戶(hù)可以通過(guò)分類(lèi)導航進(jìn)行搜索，系統采用門(mén)戶(hù)，數據庫，搜索引擎等發(fā)布形式，可以更有效地挖掘出用戶(hù)所需的信息.
　　產(chǎn)品功能
　　高級智能代理: 集成了多種智能信息處理算法，并且可以基于高級語(yǔ)義規則技術(shù)執行淺層語(yǔ)義分析
　　強大的信息采集能力: 高效的信息采集技術(shù)完成了網(wǎng)絡(luò )數據獲取，可以快速，全面而準確地從Internet獲取數據
　　靈活的體系結構: 采集蜘蛛集群，智能代理集群，應用服務(wù)器智能調度，每個(gè)子系統可以隨時(shí)斷開(kāi)并連接到系統，而不會(huì )影響整個(gè)系統的運行
　　基于KBase的海量數據存儲和全文檢索: 支持海量非結構化數據的存儲管理，具有成熟的全文檢索技術(shù)，檢索速度達到500G / S，處于行業(yè)領(lǐng)先地位

干貨內容：新浪微博內容數據采集爬蟲(chóng)怎么寫(xiě)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 333 次瀏覽 ? 2020-09-01 16:57 ? 來(lái)自相關(guān)話(huà)題

　　新浪微博內容數據采集如何編寫(xiě)抓取工具
　　在不同的論壇和問(wèn)答中，我經(jīng)常遇到來(lái)自新浪微博的數據采集如何編寫(xiě)爬蟲(chóng)程序，或者在完成特定部分后如何做，以及在完成特定部分后如何做部分. 幾個(gè)微博爬蟲(chóng)開(kāi)源項目.
　　SinaSpider-基于scrapy和redis的分布式微博爬蟲(chóng). SinaSpider主要抓取新浪微博的個(gè)人信息，微博數據，關(guān)注者和粉絲. 該數據庫設置了四個(gè)表: “信息”，“推文”，“關(guān)注”和“粉絲”. 采集器框架使用Scrapy，并使用scrapy_redis和Redis實(shí)現分布式. 該項目實(shí)現了將獨立的新浪微博爬蟲(chóng)重構為分布式爬蟲(chóng).
　　sina_reptile-這是有關(guān)新浪微博的爬蟲(chóng). 它是使用python開(kāi)發(fā)的，其SDK中的錯誤已被修改. 它使用mongodb來(lái)存儲并實(shí)現多進(jìn)程爬網(wǎng)任務(wù). 獲取新浪微博的1000w用戶(hù)的基本信息以及每個(gè)爬行用戶(hù)最近發(fā)布的50個(gè)微博客，這些博客使用python編寫(xiě)，可在多個(gè)進(jìn)程中進(jìn)行爬行，并將數據存儲在mongodb中
　　sina_weibo_crawler-一個(gè)基于urlib2和beautifulSoup的微博爬蟲(chóng)系統. 使用urllib2和beautifulsoup爬網(wǎng)新浪微博，數據庫使用mongodb，原創(chuàng )關(guān)系存儲在txt文件中，原創(chuàng )內容以csv格式存儲，以后直接插入到mongodb數據庫中
　　sina-weibo-crawler-Sina微博爬蟲(chóng)，易于擴展. WCrawler.crawl（）函數只需要一個(gè)url參數，并且返回的用戶(hù)的粉絲和關(guān)注者中都有url，可以擴展以進(jìn)行爬網(wǎng)，還可以自定義一些過(guò)濾規則.
　　weibo_crawler-基于Python，BeautifulSoup，mysql的微博搜索結果爬網(wǎng)工具. 該工具使用模擬登錄來(lái)抓取微博搜索結果.
　　SinaMicroblog_Creeper-Spider_VerificationCode-Sina微博爬蟲(chóng)，獲取每個(gè)用戶(hù)并關(guān)注，風(fēng)扇的用戶(hù)ID存儲在xml文件BFS中，可以模擬登錄，模擬登錄中的驗證碼將被捕獲，以供用戶(hù)輸入.
　　但是在此之前，人們已經(jīng)了解了一些功能和語(yǔ)法醫學(xué)，例如列表，字典，切片，條件判斷，文件讀寫(xiě)操作等；
　　網(wǎng)頁(yè)基本知識，分析語(yǔ)言能力；開(kāi)發(fā)人員工具可以熟練使用；查看全部

　　新浪微博內容數據采集如何編寫(xiě)抓取工具
　　在不同的論壇和問(wèn)答中，我經(jīng)常遇到來(lái)自新浪微博的數據采集如何編寫(xiě)爬蟲(chóng)程序，或者在完成特定部分后如何做，以及在完成特定部分后如何做部分. 幾個(gè)微博爬蟲(chóng)開(kāi)源項目.
　　SinaSpider-基于scrapy和redis的分布式微博爬蟲(chóng). SinaSpider主要抓取新浪微博的個(gè)人信息，微博數據，關(guān)注者和粉絲. 該數據庫設置了四個(gè)表: “信息”，“推文”，“關(guān)注”和“粉絲”. 采集器框架使用Scrapy，并使用scrapy_redis和Redis實(shí)現分布式. 該項目實(shí)現了將獨立的新浪微博爬蟲(chóng)重構為分布式爬蟲(chóng).
　　sina_reptile-這是有關(guān)新浪微博的爬蟲(chóng). 它是使用python開(kāi)發(fā)的，其SDK中的錯誤已被修改. 它使用mongodb來(lái)存儲并實(shí)現多進(jìn)程爬網(wǎng)任務(wù). 獲取新浪微博的1000w用戶(hù)的基本信息以及每個(gè)爬行用戶(hù)最近發(fā)布的50個(gè)微博客，這些博客使用python編寫(xiě)，可在多個(gè)進(jìn)程中進(jìn)行爬行，并將數據存儲在mongodb中
　　sina_weibo_crawler-一個(gè)基于urlib2和beautifulSoup的微博爬蟲(chóng)系統. 使用urllib2和beautifulsoup爬網(wǎng)新浪微博，數據庫使用mongodb，原創(chuàng )關(guān)系存儲在txt文件中，原創(chuàng )內容以csv格式存儲，以后直接插入到mongodb數據庫中
　　sina-weibo-crawler-Sina微博爬蟲(chóng)，易于擴展. WCrawler.crawl（）函數只需要一個(gè)url參數，并且返回的用戶(hù)的粉絲和關(guān)注者中都有url，可以擴展以進(jìn)行爬網(wǎng)，還可以自定義一些過(guò)濾規則.
　　weibo_crawler-基于Python，BeautifulSoup，mysql的微博搜索結果爬網(wǎng)工具. 該工具使用模擬登錄來(lái)抓取微博搜索結果.
　　SinaMicroblog_Creeper-Spider_VerificationCode-Sina微博爬蟲(chóng)，獲取每個(gè)用戶(hù)并關(guān)注，風(fēng)扇的用戶(hù)ID存儲在xml文件BFS中，可以模擬登錄，模擬登錄中的驗證碼將被捕獲，以供用戶(hù)輸入.
　　但是在此之前，人們已經(jīng)了解了一些功能和語(yǔ)法醫學(xué)，例如列表，字典，切片，條件判斷，文件讀寫(xiě)操作等；
　　網(wǎng)頁(yè)基本知識，分析語(yǔ)言能力；開(kāi)發(fā)人員工具可以熟練使用；

一種推拉結合的分布式云端并發(fā)采集方法與流程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 328 次瀏覽 ? 2020-08-28 12:21 ? 來(lái)自相關(guān)話(huà)題

　　一種推拉結合的分布式云端并發(fā)采集方法與流程
　　
　　本發(fā)明涉及大數據分布式采集技術(shù)領(lǐng)域，具體提供一種推拉結合的分布式云端并發(fā)采集方法。
　　背景技術(shù)：
　　計算機具有儲存信息量大，使用者獲取信息便捷快捷等優(yōu)點(diǎn)，受到廣泛的應用。在實(shí)際應用時(shí)，計算機每時(shí)每刻都形成大量的數據，有些須要剖析，有些須要儲存，所有的這種須要處理的數據數目是龐大、并具有相似性的，所以須要對這種形成的大數據進(jìn)行剖析處理，采集需要的數據。但是，在現有的大數據分布式采集過(guò)程中，尤其涉及在分布式云端并發(fā)采集情況下，現有云端服務(wù)器采集大數據效率不高，服務(wù)器的并發(fā)采集數通常，采集的數據傳輸效率通常，影響服務(wù)器的數據采集效率。
　　專(zhuān)利號為CN 106502802 A的專(zhuān)利文獻中，公開(kāi)了一種基于A(yíng)vro RPC傳輸的分布式云端并發(fā)采集方法。該發(fā)明所述的分布式云端并發(fā)采集方法，包括客戶(hù)端和服務(wù)端兩個(gè)模塊，其中：在服務(wù)端設置有URL儲存容器、規則配置容器、計數容器，規則配置容器儲存客戶(hù)端發(fā)送的采集規則，規定不同網(wǎng)站的采集策略；計數容器則依照采集策略，按照計數遞減的形式推送采集網(wǎng)頁(yè)實(shí)現并發(fā)采集功能；最后由URL儲存容器儲存客戶(hù)端發(fā)送的URL并根據域名進(jìn)行分組儲存；客戶(hù)端定期檢驗服務(wù)端狀態(tài)，查看URL儲存容器剩余容量，批量發(fā)送待采集網(wǎng)頁(yè)，批量回收已采集網(wǎng)頁(yè)，批量發(fā)送網(wǎng)頁(yè)采集規則。該分布式云端并發(fā)采集方法提高了傳輸效率，并提高了采集的并發(fā)效率。但是，該分布式云端并發(fā)采集方法在云端網(wǎng)路不穩定的情況下，服務(wù)端沒(méi)有感知到并繼續推送待下載URL時(shí)，會(huì )導致待下載URL堆積。其次，存在現有規則配置不能及時(shí)清除問(wèn)題。再次，在任務(wù)主動(dòng)停止時(shí)，待下載URL一直下載。最后，在任務(wù)懇求超時(shí)時(shí)，不能主動(dòng)關(guān)掉聯(lián)接，具有一定的局限性。
　　技術(shù)實(shí)現要素：
　　本發(fā)明的技術(shù)任務(wù)是針對上述存在的問(wèn)題，提供一種云端按照自己的運行情況去懇求待下載URL，從而有效的防止待下載URL堆積的推拉結合的分布式云端并發(fā)采集方法。
　　為實(shí)現上述目的，本發(fā)明提供了如下技術(shù)方案：
　　一種推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊，其中
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能；采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能；采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新；
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法，所述推模式是采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收，所述拉模式是采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)；
　　所述方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　所述推模式為采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將采集云端狀態(tài)作為響應；拉模式為采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端發(fā)起懇求。
　　作為優(yōu)選，所述待下載URL估算與懇求功能為采集云端估算各個(gè)任務(wù)懇求數目，攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL。
　　作為優(yōu)選，采集云端估算各個(gè)任務(wù)懇求數目時(shí)，即推模式具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　作為優(yōu)選，所述拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　作為優(yōu)選，所述配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。
　　作為優(yōu)選，采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。
　　作為優(yōu)選，所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　作為優(yōu)選，所述任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。
　　在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　作為優(yōu)選，所述懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數，在懇求線(xiàn)程長(cháng)時(shí)間無(wú)反彈時(shí)，主動(dòng)關(guān)掉懇求線(xiàn)程，并設定懇求失敗，重新發(fā)起懇求。
　　與現有技術(shù)相比，本發(fā)明的推拉結合的分布式云端并發(fā)采集方法具有以下突出的有益療效：
　?。ㄒ唬┰诓杉贫藸顟B(tài)不穩定的情況下，向采集云端推送待下載URL，需要及時(shí)確切的感知采集云端狀態(tài)，若采集云端狀態(tài)為不良，而采集服務(wù)端沒(méi)有感知到并繼續推送待下載URL，不僅會(huì )導致待下載URL浪費，同時(shí)導致采集云端待下載URL堆積，本發(fā)明的方式將推模式與拉模式相結合，采集云端按照自己運行情況向采集服務(wù)端懇求待下載URL，能夠有效的降低待下載URL浪費，避免采集云端待下載URL堆積；
　?。ǘ┰摪l(fā)明中，所述配置緩存才能解決規則配置不能及時(shí)清除的問(wèn)題，實(shí)現配置高效使用及清除，提高采集穩定性及采集并發(fā)效率，具有良好的推廣應用價(jià)值。
　　附圖說(shuō)明
　　圖1是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的拉模式流程圖；
　　圖2是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的推模式流程圖。
　　具體施行方法
　　下面將結合附圖和施行例，對本發(fā)明的推拉結合的分布式云端并發(fā)采集方法作進(jìn)一步詳盡說(shuō)明。
　　實(shí)施例
　　本發(fā)明的推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊。
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能。采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能。采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新。
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法。推模式是采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將云端狀態(tài)作為響應，具體為采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收。拉模式是采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端懇求要下載的URL，具體為采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)，可以避免云端待下載URL堆積，又能提升采集穩定性及采集并發(fā)率。
　　該方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　待下載URL估算與懇求功能為估算各個(gè)任務(wù)懇求數目，采集云端攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL，即為本發(fā)明中的推模式，如圖1所示。具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　如圖2所示，本發(fā)明中的拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　請求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數。增設懇求超時(shí)線(xiàn)程池，將懇求作為線(xiàn)程池的任務(wù)進(jìn)行遞交，通過(guò)線(xiàn)程池的執行返回值獲取任務(wù)的執行狀態(tài)，如果任務(wù)超過(guò)設定的超時(shí)時(shí)間一直沒(méi)有響應則主動(dòng)關(guān)掉其任務(wù)線(xiàn)程，結束任務(wù)，并設定本次懇求失敗，重新發(fā)起懇求。
　　以上所述的施行例，只是本發(fā)明較優(yōu)選的具體施行方法，本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內進(jìn)行的一般變化和替換都應收錄在本發(fā)明的保護范圍內。查看全部

　　一種推拉結合的分布式云端并發(fā)采集方法與流程
　　

　　本發(fā)明涉及大數據分布式采集技術(shù)領(lǐng)域，具體提供一種推拉結合的分布式云端并發(fā)采集方法。
　　背景技術(shù)：
　　計算機具有儲存信息量大，使用者獲取信息便捷快捷等優(yōu)點(diǎn)，受到廣泛的應用。在實(shí)際應用時(shí)，計算機每時(shí)每刻都形成大量的數據，有些須要剖析，有些須要儲存，所有的這種須要處理的數據數目是龐大、并具有相似性的，所以須要對這種形成的大數據進(jìn)行剖析處理，采集需要的數據。但是，在現有的大數據分布式采集過(guò)程中，尤其涉及在分布式云端并發(fā)采集情況下，現有云端服務(wù)器采集大數據效率不高，服務(wù)器的并發(fā)采集數通常，采集的數據傳輸效率通常，影響服務(wù)器的數據采集效率。
　　專(zhuān)利號為CN 106502802 A的專(zhuān)利文獻中，公開(kāi)了一種基于A(yíng)vro RPC傳輸的分布式云端并發(fā)采集方法。該發(fā)明所述的分布式云端并發(fā)采集方法，包括客戶(hù)端和服務(wù)端兩個(gè)模塊，其中：在服務(wù)端設置有URL儲存容器、規則配置容器、計數容器，規則配置容器儲存客戶(hù)端發(fā)送的采集規則，規定不同網(wǎng)站的采集策略；計數容器則依照采集策略，按照計數遞減的形式推送采集網(wǎng)頁(yè)實(shí)現并發(fā)采集功能；最后由URL儲存容器儲存客戶(hù)端發(fā)送的URL并根據域名進(jìn)行分組儲存；客戶(hù)端定期檢驗服務(wù)端狀態(tài)，查看URL儲存容器剩余容量，批量發(fā)送待采集網(wǎng)頁(yè)，批量回收已采集網(wǎng)頁(yè)，批量發(fā)送網(wǎng)頁(yè)采集規則。該分布式云端并發(fā)采集方法提高了傳輸效率，并提高了采集的并發(fā)效率。但是，該分布式云端并發(fā)采集方法在云端網(wǎng)路不穩定的情況下，服務(wù)端沒(méi)有感知到并繼續推送待下載URL時(shí)，會(huì )導致待下載URL堆積。其次，存在現有規則配置不能及時(shí)清除問(wèn)題。再次，在任務(wù)主動(dòng)停止時(shí)，待下載URL一直下載。最后，在任務(wù)懇求超時(shí)時(shí)，不能主動(dòng)關(guān)掉聯(lián)接，具有一定的局限性。
　　技術(shù)實(shí)現要素：
　　本發(fā)明的技術(shù)任務(wù)是針對上述存在的問(wèn)題，提供一種云端按照自己的運行情況去懇求待下載URL，從而有效的防止待下載URL堆積的推拉結合的分布式云端并發(fā)采集方法。
　　為實(shí)現上述目的，本發(fā)明提供了如下技術(shù)方案：
　　一種推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊，其中
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能；采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能；采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新；
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法，所述推模式是采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收，所述拉模式是采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)；
　　所述方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　所述推模式為采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將采集云端狀態(tài)作為響應；拉模式為采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端發(fā)起懇求。
　　作為優(yōu)選，所述待下載URL估算與懇求功能為采集云端估算各個(gè)任務(wù)懇求數目，攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL。
　　作為優(yōu)選，采集云端估算各個(gè)任務(wù)懇求數目時(shí)，即推模式具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　作為優(yōu)選，所述拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　作為優(yōu)選，所述配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。
　　作為優(yōu)選，采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。
　　作為優(yōu)選，所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　作為優(yōu)選，所述任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。
　　在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　作為優(yōu)選，所述懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數，在懇求線(xiàn)程長(cháng)時(shí)間無(wú)反彈時(shí)，主動(dòng)關(guān)掉懇求線(xiàn)程，并設定懇求失敗，重新發(fā)起懇求。
　　與現有技術(shù)相比，本發(fā)明的推拉結合的分布式云端并發(fā)采集方法具有以下突出的有益療效：
　?。ㄒ唬┰诓杉贫藸顟B(tài)不穩定的情況下，向采集云端推送待下載URL，需要及時(shí)確切的感知采集云端狀態(tài)，若采集云端狀態(tài)為不良，而采集服務(wù)端沒(méi)有感知到并繼續推送待下載URL，不僅會(huì )導致待下載URL浪費，同時(shí)導致采集云端待下載URL堆積，本發(fā)明的方式將推模式與拉模式相結合，采集云端按照自己運行情況向采集服務(wù)端懇求待下載URL，能夠有效的降低待下載URL浪費，避免采集云端待下載URL堆積；
　?。ǘ┰摪l(fā)明中，所述配置緩存才能解決規則配置不能及時(shí)清除的問(wèn)題，實(shí)現配置高效使用及清除，提高采集穩定性及采集并發(fā)效率，具有良好的推廣應用價(jià)值。
　　附圖說(shuō)明
　　圖1是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的拉模式流程圖；
　　圖2是本發(fā)明所述推拉結合的分布式云端并發(fā)采集方法的推模式流程圖。
　　具體施行方法
　　下面將結合附圖和施行例，對本發(fā)明的推拉結合的分布式云端并發(fā)采集方法作進(jìn)一步詳盡說(shuō)明。
　　實(shí)施例
　　本發(fā)明的推拉結合的分布式云端并發(fā)采集方法，包括采集調度、采集服務(wù)端和采集云端三個(gè)模塊。
　　采集調度模塊包括提供拉取網(wǎng)頁(yè)API接口、維護采集服務(wù)端和采集云端對應功能。采集服務(wù)端模塊包括定時(shí)回收網(wǎng)頁(yè)模塊及定時(shí)發(fā)送配置及命令模塊，提供定時(shí)回收網(wǎng)頁(yè)、配置發(fā)送及獲取云端狀態(tài)功能。采集云端模塊包括URL儲存容器、配置緩存和計數容器，配置緩存基于緩存機制，進(jìn)行配置的獲取、存放和更新。
　　該分布式云端并發(fā)采集方法通過(guò)RPC實(shí)現推模式和拉模式兩種遠程調用方法。推模式是采集服務(wù)端向采集云端推送任務(wù)配置相關(guān)信息，將云端狀態(tài)作為響應，具體為采集云端接收采集服務(wù)端定時(shí)通過(guò)RPC推送的信息，完成配置發(fā)送以及已下載網(wǎng)頁(yè)回收。拉模式是采集云端依據任務(wù)配置信息，主動(dòng)向采集服務(wù)端懇求要下載的URL，具體為采集云端定時(shí)向采集調度模塊發(fā)起懇求，計算所需的網(wǎng)頁(yè)數目并從采集調度模塊提供的API接口拉取采集所需的網(wǎng)頁(yè)，可以避免云端待下載URL堆積，又能提升采集穩定性及采集并發(fā)率。
　　該方式能實(shí)現待下載URL估算與懇求功能、配置緩存功能、任務(wù)云端主動(dòng)停止功能和懇求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能。
　　待下載URL估算與懇求功能為估算各個(gè)任務(wù)懇求數目，采集云端攜帶任務(wù)懇求數目向采集服務(wù)端發(fā)起懇求，采集服務(wù)端根據任務(wù)懇求數目返回URL，即為本發(fā)明中的推模式，如圖1所示。具體包括以下步驟：
　　A）從配置緩存中獲取全部正在運行任務(wù)；
　　B）遍歷所有正在運行任務(wù)并判定運行任務(wù)在URL儲存容器中是否存在，若存在執行步驟C），否則執行步驟D）；
　　C）獲取URL儲存容器中相應任務(wù)的存量，與設定的該任務(wù)上限閾值差值即為待獲取的該任務(wù)的URL數目；
　　D）設定的任務(wù)上限閾值即為待獲取任務(wù)的URL數目；
　　E）將各個(gè)任務(wù)的數目裝入懇求中到采集服務(wù)端，等待采集服務(wù)端響應，響應即為符合要求的待下載URL。
　　如圖2所示，本發(fā)明中的拉模式具體包括以下步驟：
　　1）采集服務(wù)端定時(shí)啟動(dòng)；
　　2）遍歷采集服務(wù)端關(guān)聯(lián)節點(diǎn)，發(fā)起RPC懇求；
　　3）采集云端接收采集服務(wù)端推送的懇求，判斷懇求類(lèi)型是否是配置，若是，執行步驟4），否則執行步驟5）；
　　4）采集云端儲存配置；
　　5）判斷懇求類(lèi)型是否是命令，若是，執行步驟6），否則執行步驟7）；
　　6）采集云端執行相應命令；
　　7）判斷懇求類(lèi)型是否是回收網(wǎng)頁(yè)，若是，執行步驟8），否則執行步驟9）；
　　8）采集云端返回已下載網(wǎng)頁(yè)；
　　9）結束。
　　配置緩存功能針對規則配置不能及時(shí)清除問(wèn)題，設定合理的過(guò)期時(shí)間，配置緩存項在給定時(shí)間內沒(méi)有被讀/寫(xiě)訪(fǎng)問(wèn)，則過(guò)期回收。采集服務(wù)端的脈搏將最新的運行中任務(wù)情況發(fā)送至采集云端，采集云端按照接收到的任務(wù)信息對配置緩存進(jìn)行儲存或更新。所述配置獲取為從配置中獲取數據，若配置緩存中存在該配置項則換回配置的相關(guān)信息，若不存在則根據默認生成儲存相應的配置并返回。
　　任務(wù)云端主動(dòng)停止功能針對任務(wù)主動(dòng)停止，采集云端待下載URL一直下載，創(chuàng )建基于時(shí)間回收的任務(wù)停止緩存。在收到任務(wù)停止命令時(shí)向緩存中插入該任務(wù)，在待下載URL下載前判斷任務(wù)是否停止，任務(wù)若停止則不進(jìn)行下載。
　　請求超時(shí)主動(dòng)關(guān)掉聯(lián)接功能針對聯(lián)接懇求阻塞，在聯(lián)接超時(shí)參數基礎上增設懇求超時(shí)參數。增設懇求超時(shí)線(xiàn)程池，將懇求作為線(xiàn)程池的任務(wù)進(jìn)行遞交，通過(guò)線(xiàn)程池的執行返回值獲取任務(wù)的執行狀態(tài)，如果任務(wù)超過(guò)設定的超時(shí)時(shí)間一直沒(méi)有響應則主動(dòng)關(guān)掉其任務(wù)線(xiàn)程，結束任務(wù)，并設定本次懇求失敗，重新發(fā)起懇求。
　　以上所述的施行例，只是本發(fā)明較優(yōu)選的具體施行方法，本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內進(jìn)行的一般變化和替換都應收錄在本發(fā)明的保護范圍內。

云端內容采集站長(cháng)必備的十大利器

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 492 次瀏覽 ? 2020-08-27 08:54 ? 來(lái)自相關(guān)話(huà)題

　　云端內容采集站長(cháng)必備的十大利器
　　站長(cháng)朋友們都曉得，身為一站之長(cháng)，身上挑的擔子是不輕的，為做好本職工作，需不斷的學(xué)習，深造進(jìn)取，然而做好一名站長(cháng)，身上必備利器，今天我們就跟你們說(shuō)說(shuō)站長(cháng)必備的十大利器都有什么？
　　一、PageRank剖析插件
　　PageRank剖析插件的功能十分強悍，能分享百度收錄,百度近日收錄,Google收錄,pr查詢(xún),百度權重,百度流量查詢(xún),soso收錄,搜狗收錄,sr查詢(xún),域名年紀,備案狀態(tài)等等整個(gè)網(wǎng)站的基本情況。我在優(yōu)化優(yōu)采云網(wǎng)站經(jīng)過(guò)會(huì )用它進(jìn)行剖析，數據十分確切，對于做百度seo挺有幫助
　　
　　二、文本編輯軟件
　　文本編輯軟件對于站長(cháng)而言是十分重要的一款軟件，尤其是有一些規模的型網(wǎng)站，每天更新的文章上百甚至上千篇。像越誠網(wǎng)路官網(wǎng)，主要會(huì )用Notepad和flashfxp兩種，其中 Notepad是一款免費開(kāi)源的文本編輯器，相對來(lái)說(shuō)功能比f(wàn)lashfxp少，容易操作;flashfxp是功能強悍的FXP/FTP軟件，融合了一些其他優(yōu)秀FTP軟件的優(yōu)點(diǎn)，如象CuteFTP一樣可以比較文件夾，支持彩色文字顯示。
　　
　　三、優(yōu)采云采集器
　　優(yōu)采云采集功能十分強悍，集成云端采集、交易及api輸出，內容采集準確，包括數組維度信息，可用性太強。無(wú)論是新網(wǎng)站做啟動(dòng)數據還是老網(wǎng)站做內容更新，都須要采集內容，用于資料儲備等?，F在漸漸發(fā)展成了集數據采集、數據交易市場(chǎng)的平臺。
　　四、光年日志分析器
　　網(wǎng)站日志剖析是站長(cháng)常常要做的事，網(wǎng)站日志剖析工具能快速剖析站點(diǎn)的日志文件，讓您對百度、Google等蜘蛛的爬行記錄一目了然。剛開(kāi)始找尋日志分析器找了很久，也用過(guò)許多其他的日志剖析軟件，但是在剖析體彩軟件源碼站點(diǎn)的網(wǎng)站日志中，發(fā)現光年日志分析器是一款實(shí)用、簡(jiǎn)單、數據準確性特別高的軟件。
　　
　　五、網(wǎng)站安全檢查
　　1、百度安全檢查：這個(gè)是你們一定要熟悉的安全檢查平臺。已經(jīng)引用騰訊、小紅傘、金山、知道創(chuàng )宇的數據庫
　　2、360安全檢測：相對來(lái)說(shuō)，360安全檢測是各大安全檢查平臺當中的最全面的一個(gè)了，不僅僅提供免費的網(wǎng)頁(yè)提權、網(wǎng)頁(yè)篡改還提供免費的網(wǎng)站漏洞檢查。
　　3、安全寶：功能比較齊全，提供免費的mini，可視化網(wǎng)站報告，CDN網(wǎng)站加速，是創(chuàng )新工場(chǎng)旗下的一個(gè)公司。
　　4、騰訊電腦管家安全檢查：我們平常在QQ聊天窗口中發(fā)出的網(wǎng)址，就會(huì )調用此數據庫，對我們的網(wǎng)站安全作用比較大。
　　六、網(wǎng)站統計工具
　　1、百度統計：百度統計工具是完全免費的，對網(wǎng)站的市場(chǎng)營(yíng)銷(xiāo)以及SEO優(yōu)化提供詳盡的建議與參考數據
　　2、CNZZ：目前來(lái)說(shuō)國外草根站長(cháng)用的最多的一款免費統計工具，功能簡(jiǎn)單易用，非常適宜一些草根站長(cháng)使用。
　　3、騰訊剖析：騰訊剖析工具也是一款比較實(shí)用的剖析統計工具，功能類(lèi)似于百度統計。
　　七、廣告聯(lián)盟
　　1、百度聯(lián)盟：我們國外站長(cháng)使用較多的平臺，百度聯(lián)盟通常初審比較嚴格，加入百度聯(lián)盟須要進(jìn)行網(wǎng)站備案，每月的25號到30號之間結算傭金，結算方法是人民幣，付款便捷，但是須要交納個(gè)人所得稅。
　　2、谷歌聯(lián)盟：谷歌聯(lián)盟也是比較不錯的聯(lián)盟，谷歌聯(lián)盟的廣告總價(jià)比較高，結算方法是盧布結算。但是收款的時(shí)侯有些繁雜，管理也是十分嚴格，一旦發(fā)覺(jué)作弊行為，會(huì )永久進(jìn)行封號。
　　八、Xenu工具
　　此用品十分時(shí)用，它可以整站檢索出超級鏈接，并檢出超鏈的狀態(tài)，比如200代碼、404代碼，是一款比非捧的查找死鏈的利器；另外它還可以制做出站點(diǎn)地圖，可以生成地圖以XML格式或html格式的頁(yè)面，鄙人是特別喜歡站長(cháng)必備的十大利器之一Xenu工具。
　　
　　九：SEO綜合查詢(xún)工具
　　1、愛(ài)站：SEO優(yōu)化綜合查詢(xún)工具，可以借助查詢(xún)百度權重、有情鏈接、百度索引量、備案信息、關(guān)鍵詞挖掘等信息。
　　2、站長(cháng)工具：站長(cháng)工具的功能幾乎和愛(ài)站的功能一樣，利用站長(cháng)工具與愛(ài)站工具查詢(xún)的數據結果有些差別，這是因為這兩款工具數據估算不同造成的，屬于正?，F象?？山Y合使用
　　十：關(guān)鍵詞挖掘工具
　　1、金花關(guān)鍵詞工具：此款工具功能十分強悍，這里我們提供給你們一款破解版本的，利用此工具可以一次性挖掘5000個(gè)長(cháng)尾關(guān)鍵詞，是站長(cháng)常用的SEO輔助工具之一。
　　2、飛魯達關(guān)鍵詞挖掘工具：此款工具的功能類(lèi)似于以上提供的金花關(guān)鍵詞工具，下載以后兩款工具可以配合使用，效果更佳。
　　3、百度指數：百度指數是基于百度搜索引擎綜合數據搜索結果的一項工具。這項工具是是拿來(lái)剖析在逾段時(shí)間用戶(hù)對個(gè)別關(guān)鍵詞的搜索索引量。這個(gè)工具對我們SEO優(yōu)化有著(zhù)特別大的價(jià)值。
　　4、Google AdWords關(guān)鍵字工具：此款工具可以幫助我們有效的剖析用戶(hù)關(guān)注的個(gè)別特定關(guān)鍵詞，還可以剖析出我們指定的個(gè)別關(guān)鍵詞在全球的搜索量，和在個(gè)別地方的搜索量。是一些小型門(mén)戶(hù)網(wǎng)站擴展長(cháng)尾關(guān)鍵詞的最佳工具。
　　以上是給你們介紹的站長(cháng)必備的十大利器，后面都會(huì )介紹關(guān)于網(wǎng)站優(yōu)化的文章《》，希望對您有所幫助! 查看全部

　　云端內容采集 站長(cháng)必備的十大利器
　　站長(cháng)朋友們都曉得，身為一站之長(cháng)，身上挑的擔子是不輕的，為做好本職工作，需不斷的學(xué)習，深造進(jìn)取，然而做好一名站長(cháng)，身上必備利器，今天我們就跟你們說(shuō)說(shuō)站長(cháng)必備的十大利器都有什么？
　　一、PageRank剖析插件
　　PageRank剖析插件的功能十分強悍，能分享百度收錄,百度近日收錄,Google收錄,pr查詢(xún),百度權重,百度流量查詢(xún),soso收錄,搜狗收錄,sr查詢(xún),域名年紀,備案狀態(tài)等等整個(gè)網(wǎng)站的基本情況。我在優(yōu)化優(yōu)采云網(wǎng)站經(jīng)過(guò)會(huì )用它進(jìn)行剖析，數據十分確切，對于做百度seo挺有幫助
　　

　　二、文本編輯軟件
　　文本編輯軟件對于站長(cháng)而言是十分重要的一款軟件，尤其是有一些規模的型網(wǎng)站，每天更新的文章上百甚至上千篇。像越誠網(wǎng)路官網(wǎng)，主要會(huì )用Notepad和flashfxp兩種，其中 Notepad是一款免費開(kāi)源的文本編輯器，相對來(lái)說(shuō)功能比f(wàn)lashfxp少，容易操作;flashfxp是功能強悍的FXP/FTP軟件，融合了一些其他優(yōu)秀FTP軟件的優(yōu)點(diǎn)，如象CuteFTP一樣可以比較文件夾，支持彩色文字顯示。
　　

　　三、優(yōu)采云采集器
　　優(yōu)采云采集功能十分強悍，集成云端采集、交易及api輸出，內容采集準確，包括數組維度信息，可用性太強。無(wú)論是新網(wǎng)站做啟動(dòng)數據還是老網(wǎng)站做內容更新，都須要采集內容，用于資料儲備等?，F在漸漸發(fā)展成了集數據采集、數據交易市場(chǎng)的平臺。
　　四、光年日志分析器
　　網(wǎng)站日志剖析是站長(cháng)常常要做的事，網(wǎng)站日志剖析工具能快速剖析站點(diǎn)的日志文件，讓您對百度、Google等蜘蛛的爬行記錄一目了然。剛開(kāi)始找尋日志分析器找了很久，也用過(guò)許多其他的日志剖析軟件，但是在剖析體彩軟件源碼站點(diǎn)的網(wǎng)站日志中，發(fā)現光年日志分析器是一款實(shí)用、簡(jiǎn)單、數據準確性特別高的軟件。
　　

　　五、網(wǎng)站安全檢查
　　1、百度安全檢查：這個(gè)是你們一定要熟悉的安全檢查平臺。已經(jīng)引用騰訊、小紅傘、金山、知道創(chuàng )宇的數據庫
　　2、360安全檢測：相對來(lái)說(shuō)，360安全檢測是各大安全檢查平臺當中的最全面的一個(gè)了，不僅僅提供免費的網(wǎng)頁(yè)提權、網(wǎng)頁(yè)篡改還提供免費的網(wǎng)站漏洞檢查。
　　3、安全寶：功能比較齊全，提供免費的mini，可視化網(wǎng)站報告，CDN網(wǎng)站加速，是創(chuàng )新工場(chǎng)旗下的一個(gè)公司。
　　4、騰訊電腦管家安全檢查：我們平常在QQ聊天窗口中發(fā)出的網(wǎng)址，就會(huì )調用此數據庫，對我們的網(wǎng)站安全作用比較大。
　　六、網(wǎng)站統計工具
　　1、百度統計：百度統計工具是完全免費的，對網(wǎng)站的市場(chǎng)營(yíng)銷(xiāo)以及SEO優(yōu)化提供詳盡的建議與參考數據
　　2、CNZZ：目前來(lái)說(shuō)國外草根站長(cháng)用的最多的一款免費統計工具，功能簡(jiǎn)單易用，非常適宜一些草根站長(cháng)使用。
　　3、騰訊剖析：騰訊剖析工具也是一款比較實(shí)用的剖析統計工具，功能類(lèi)似于百度統計。
　　七、廣告聯(lián)盟
　　1、百度聯(lián)盟：我們國外站長(cháng)使用較多的平臺，百度聯(lián)盟通常初審比較嚴格，加入百度聯(lián)盟須要進(jìn)行網(wǎng)站備案，每月的25號到30號之間結算傭金，結算方法是人民幣，付款便捷，但是須要交納個(gè)人所得稅。
　　2、谷歌聯(lián)盟：谷歌聯(lián)盟也是比較不錯的聯(lián)盟，谷歌聯(lián)盟的廣告總價(jià)比較高，結算方法是盧布結算。但是收款的時(shí)侯有些繁雜，管理也是十分嚴格，一旦發(fā)覺(jué)作弊行為，會(huì )永久進(jìn)行封號。
　　八、Xenu工具
　　此用品十分時(shí)用，它可以整站檢索出超級鏈接，并檢出超鏈的狀態(tài)，比如200代碼、404代碼，是一款比非捧的查找死鏈的利器；另外它還可以制做出站點(diǎn)地圖，可以生成地圖以XML格式或html格式的頁(yè)面，鄙人是特別喜歡站長(cháng)必備的十大利器之一Xenu工具。
　　

　　九：SEO綜合查詢(xún)工具
　　1、愛(ài)站：SEO優(yōu)化綜合查詢(xún)工具，可以借助查詢(xún)百度權重、有情鏈接、百度索引量、備案信息、關(guān)鍵詞挖掘等信息。
　　2、站長(cháng)工具：站長(cháng)工具的功能幾乎和愛(ài)站的功能一樣，利用站長(cháng)工具與愛(ài)站工具查詢(xún)的數據結果有些差別，這是因為這兩款工具數據估算不同造成的，屬于正?，F象?？山Y合使用
　　十：關(guān)鍵詞挖掘工具
　　1、金花關(guān)鍵詞工具：此款工具功能十分強悍，這里我們提供給你們一款破解版本的，利用此工具可以一次性挖掘5000個(gè)長(cháng)尾關(guān)鍵詞，是站長(cháng)常用的SEO輔助工具之一。
　　2、飛魯達關(guān)鍵詞挖掘工具：此款工具的功能類(lèi)似于以上提供的金花關(guān)鍵詞工具，下載以后兩款工具可以配合使用，效果更佳。
　　3、百度指數：百度指數是基于百度搜索引擎綜合數據搜索結果的一項工具。這項工具是是拿來(lái)剖析在逾段時(shí)間用戶(hù)對個(gè)別關(guān)鍵詞的搜索索引量。這個(gè)工具對我們SEO優(yōu)化有著(zhù)特別大的價(jià)值。
　　4、Google AdWords關(guān)鍵字工具：此款工具可以幫助我們有效的剖析用戶(hù)關(guān)注的個(gè)別特定關(guān)鍵詞，還可以剖析出我們指定的個(gè)別關(guān)鍵詞在全球的搜索量，和在個(gè)別地方的搜索量。是一些小型門(mén)戶(hù)網(wǎng)站擴展長(cháng)尾關(guān)鍵詞的最佳工具。
　　以上是給你們介紹的站長(cháng)必備的十大利器，后面都會(huì )介紹關(guān)于網(wǎng)站優(yōu)化的文章《》，希望對您有所幫助!

微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 381 次瀏覽 ? 2020-08-26 12:53 ? 來(lái)自相關(guān)話(huà)題

　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?
　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?微信爬蟲(chóng)采集可以采集公眾號數據，以下是小編對陌陌爬蟲(chóng)采集的特色的介紹，大家請往下看哦。
　　爬蟲(chóng)：使用任何技術(shù)手段，批量獲取網(wǎng)站信息的一種形式。
　　微信爬蟲(chóng)采集有哪些特色?
　　1、無(wú)需安裝，云端24小時(shí)采集
　　優(yōu)采云獨創(chuàng )的云端采集技術(shù)，云端控制，24小時(shí)采集。無(wú)論在那里，打開(kāi)筆記本就可以操作查看。
　　2、專(zhuān)業(yè)的應對反爬的私密代理IP手動(dòng)切換，不用擔憂(yōu)反爬
　　該爬蟲(chóng)手動(dòng)接入企業(yè)私密代理IP，不用害怕防屏蔽策略!
　　3、標準低格數據手動(dòng)發(fā)布和導入，無(wú)縫對接您的現有系統
　　可手動(dòng)發(fā)布和導入數據到您的數據庫或網(wǎng)站，同時(shí)還支持webhooks，restful插口，無(wú)縫快速集成到您的現有系統
　　4、官方維護，持續更新
　　搜狗陌陌忽然改版，無(wú)法爬取數據?不用害怕，優(yōu)采云工程師會(huì )用最快的速率跟進(jìn)并修補，優(yōu)采云官方出品，品質(zhì)保證!
　　如何破解反爬蟲(chóng)機制?
　　策略1：設置下載延后，比如數字設置為5秒，越大越安全
　　策略2：禁止Cookie，某些網(wǎng)站會(huì )通過(guò)Cookie辨識陌陌用戶(hù)身分，禁用后促使公眾號服務(wù)器難以辨識爬蟲(chóng)軌跡
　　策略3：使用user agent池。也就是每次發(fā)送的時(shí)侯隨機從池中選擇不一樣的瀏覽器頭信息，防止曝露爬蟲(chóng)身分
　　策略4：使用IP池，這個(gè)須要大量的IP資源，可以通過(guò)抓取網(wǎng)上免費公開(kāi)的IP建成自有的IP代理池。查看全部

　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?
　　微信爬蟲(chóng)采集有哪些特色?如何破解反爬蟲(chóng)機制?微信爬蟲(chóng)采集可以采集公眾號數據，以下是小編對陌陌爬蟲(chóng)采集的特色的介紹，大家請往下看哦。
　　爬蟲(chóng)：使用任何技術(shù)手段，批量獲取網(wǎng)站信息的一種形式。
　　微信爬蟲(chóng)采集有哪些特色?
　　1、無(wú)需安裝，云端24小時(shí)采集
　　優(yōu)采云獨創(chuàng )的云端采集技術(shù)，云端控制，24小時(shí)采集。無(wú)論在那里，打開(kāi)筆記本就可以操作查看。
　　2、專(zhuān)業(yè)的應對反爬的私密代理IP手動(dòng)切換，不用擔憂(yōu)反爬
　　該爬蟲(chóng)手動(dòng)接入企業(yè)私密代理IP，不用害怕防屏蔽策略!
　　3、標準低格數據手動(dòng)發(fā)布和導入，無(wú)縫對接您的現有系統
　　可手動(dòng)發(fā)布和導入數據到您的數據庫或網(wǎng)站，同時(shí)還支持webhooks，restful插口，無(wú)縫快速集成到您的現有系統
　　4、官方維護，持續更新
　　搜狗陌陌忽然改版，無(wú)法爬取數據?不用害怕，優(yōu)采云工程師會(huì )用最快的速率跟進(jìn)并修補，優(yōu)采云官方出品，品質(zhì)保證!
　　如何破解反爬蟲(chóng)機制?
　　策略1：設置下載延后，比如數字設置為5秒，越大越安全
　　策略2：禁止Cookie，某些網(wǎng)站會(huì )通過(guò)Cookie辨識陌陌用戶(hù)身分，禁用后促使公眾號服務(wù)器難以辨識爬蟲(chóng)軌跡
　　策略3：使用user agent池。也就是每次發(fā)送的時(shí)侯隨機從池中選擇不一樣的瀏覽器頭信息，防止曝露爬蟲(chóng)身分
　　策略4：使用IP池，這個(gè)須要大量的IP資源，可以通過(guò)抓取網(wǎng)上免費公開(kāi)的IP建成自有的IP代理池。

前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 310 次瀏覽 ? 2020-08-25 20:23 ? 來(lái)自相關(guān)話(huà)題

　　前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率
　　000
　　
　　優(yōu)采云
　　我接到一個(gè)顧客需求是這樣的，要采集通過(guò) “城市營(yíng)運” 這個(gè)keyword搜索到的百度網(wǎng)頁(yè)的關(guān)鍵信息，title標題，新聞簡(jiǎn)介，網(wǎng)頁(yè)a標簽鏈接地址。正好我剛接觸了一個(gè)叫 “優(yōu)采云" 的云采集平臺，體驗了一次覺(jué)得不錯，拿來(lái)用用看效率怎樣！
　　大家可以看里面那種圖，這個(gè)平臺一個(gè)很好玩的東西就是這個(gè)webide，你可以直接在這寫(xiě)代碼，直接測試，看日志，直接運行，導出結果。
　　這些操作都可以在一個(gè)界面完成，編程人員只須要關(guān)心最核心的采集邏輯就可以了。
　　001
　　講講 “優(yōu)采云" 核心采集邏輯，首選注意這個(gè)引擎的開(kāi)發(fā)語(yǔ)言是js，你須要具備一點(diǎn)js基礎，最先看下邊兩句：
　　
　　EBA61292-58EF-402A-8AF4-22F92AC8656A.png
　　每個(gè)采集爬蟲(chóng)就會(huì )用這兩句啟動(dòng)，所以你的核心工作是編撰 configs這個(gè)變量，下面看這個(gè)變量結構：
　　
　　051763D4-9E87-4255-AAED-8D47D4E0B1AB.png
　　我們只須要改4個(gè)地方，1個(gè)是入口url，1個(gè)是采集的數組及其xpath，1個(gè)是下一頁(yè)的規則，1個(gè)是對數組內容做必須的處理，這四個(gè)問(wèn)題都通過(guò)config變量惟一規定了函數或變量名子，這4個(gè)問(wèn)題也是采集程序最核心要解決的事。
　　002
　　那么具體到我顧客的這個(gè)采集任務(wù)，我是怎樣填寫(xiě)這種變量的呢
　　注意 addUrl 這一句，寫(xiě)上這一句平臺都會(huì )繼續采集 nextUrl，不寫(xiě)的話(huà)就停止在當前采集頁(yè)上，其實(shí)平臺可以循環(huán)不停的抓取下一頁(yè)，關(guān)鍵就靠這個(gè) addUrl
　　注意 fieldName == 'items.title‘，因為這個(gè) afterExtractField 函數是每位item就會(huì )反彈，所以要用fieldName來(lái)分辨下，這里我們做了啥過(guò)濾，就是簡(jiǎn)單的把這兩個(gè)標簽除去了。
　　003
　　從編撰 -> 測試 -> 運行 - 出數據，不到1小時(shí)，這效率，挺神的！
　　需要源碼的，想學(xué)習的，正在自學(xué)大數據的，想交流，求人帶的都注意??！可以聯(lián)系我，留言私信也可以的！API1024記住我的暗號哦~ 查看全部

　　前沿！一個(gè)太神的云采集平臺“優(yōu)采云”可以幫你提升開(kāi)發(fā)效率
　　000
　　

　　優(yōu)采云
　　我接到一個(gè)顧客需求是這樣的，要采集通過(guò) “城市營(yíng)運” 這個(gè)keyword搜索到的百度網(wǎng)頁(yè)的關(guān)鍵信息，title標題，新聞簡(jiǎn)介，網(wǎng)頁(yè)a標簽鏈接地址。正好我剛接觸了一個(gè)叫 “優(yōu)采云" 的云采集平臺，體驗了一次覺(jué)得不錯，拿來(lái)用用看效率怎樣！
　　大家可以看里面那種圖，這個(gè)平臺一個(gè)很好玩的東西就是這個(gè)webide，你可以直接在這寫(xiě)代碼，直接測試，看日志，直接運行，導出結果。
　　這些操作都可以在一個(gè)界面完成，編程人員只須要關(guān)心最核心的采集邏輯就可以了。
　　001
　　講講 “優(yōu)采云" 核心采集邏輯，首選注意這個(gè)引擎的開(kāi)發(fā)語(yǔ)言是js，你須要具備一點(diǎn)js基礎，最先看下邊兩句：
　　

　　EBA61292-58EF-402A-8AF4-22F92AC8656A.png
　　每個(gè)采集爬蟲(chóng)就會(huì )用這兩句啟動(dòng)，所以你的核心工作是編撰 configs這個(gè)變量，下面看這個(gè)變量結構：
　　

　　051763D4-9E87-4255-AAED-8D47D4E0B1AB.png
　　我們只須要改4個(gè)地方，1個(gè)是入口url，1個(gè)是采集的數組及其xpath，1個(gè)是下一頁(yè)的規則，1個(gè)是對數組內容做必須的處理，這四個(gè)問(wèn)題都通過(guò)config變量惟一規定了函數或變量名子，這4個(gè)問(wèn)題也是采集程序最核心要解決的事。
　　002
　　那么具體到我顧客的這個(gè)采集任務(wù)，我是怎樣填寫(xiě)這種變量的呢
　　注意 addUrl 這一句，寫(xiě)上這一句平臺都會(huì )繼續采集 nextUrl，不寫(xiě)的話(huà)就停止在當前采集頁(yè)上，其實(shí)平臺可以循環(huán)不停的抓取下一頁(yè)，關(guān)鍵就靠這個(gè) addUrl
　　注意 fieldName == 'items.title‘，因為這個(gè) afterExtractField 函數是每位item就會(huì )反彈，所以要用fieldName來(lái)分辨下，這里我們做了啥過(guò)濾，就是簡(jiǎn)單的把這兩個(gè)標簽除去了。
　　003
　　從編撰 -> 測試 -> 運行 - 出數據，不到1小時(shí)，這效率，挺神的！
　　需要源碼的，想學(xué)習的，正在自學(xué)大數據的，想交流，求人帶的都注意??！可以聯(lián)系我，留言私信也可以的！API1024記住我的暗號哦~

云端代碼的實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 213 次瀏覽 ? 2020-08-20 02:40 ? 來(lái)自相關(guān)話(huà)題

　　云端代碼的實(shí)踐
　　Bmob的云端代碼可以由手機發(fā)起懇求調用在云端你寫(xiě)好的方式(需要js來(lái)寫(xiě))，比如可以在手機端用戶(hù)注冊成功的時(shí)侯，調用云端代碼，把帳號密碼作為參數調用，云端代碼中可以得到參數，做希望做的操作，再把結果返回。
　　官方的簡(jiǎn)單事例如下
　　先看云端代碼在事例中云端領(lǐng)到手機端傳入的參數然后按照參數返回結果很簡(jiǎn)單
　　1 function onRequest(request, response, modules) {
2 //獲取SDK客戶(hù)端上傳的name參數
3 var name = request.body.name;
4 if(name == 'bmob')
5 response.end('歡迎使用Bmob');
6 else
7 response.end('輸入錯誤，請重新輸入');
8 }
　　再瞧瞧android是如何調用的要注意的是邏輯名和傳入的參數回調和bmob數據服務(wù)一樣，都很簡(jiǎn)單
　　//test對應你剛剛創(chuàng )建的云端邏輯名稱(chēng)
String cloudCodeName = "test";
JSONObject params = new JSONObject();
//name是上傳到云端的參數名稱(chēng)，值是bmob，云端邏輯可以通過(guò)調用request.body.name獲取這個(gè)值
params.put("name", "bmob");
//創(chuàng )建云端邏輯對象
AsyncCustomEndpoints cloudCode = new AsyncCustomEndpoints();
//異步調用云端邏輯
cloudCode.callEndpoint(MainActivity.this, cloudCodeName, params, new CloudCodeListener() {
//執行成功時(shí)調用，返回result對象
@Override
public void onSuccess(Object result) {
Log.i("bmob", "result = "+result.toString());
}
//執行失敗時(shí)調用
@Override
public void onFailure(String err) {
Log.i("bmob", "BmobException = "+err);
}
});
　　當然事例上面的這些功能可以說(shuō)沒(méi)有任何作用
　　這里我剛好遇見(jiàn)一個(gè)不錯的實(shí)踐案例
　　環(huán)信IM sdk 用戶(hù)體系集成，這塊須要用到RESTAPI，我的思路是在手機端注冊帳號成功的同時(shí)，我發(fā)起云端代碼懇求，讓云端通過(guò)REST API去注冊環(huán)信IM的帳號
　　這里要講一下環(huán)信帳號體系：它的用戶(hù)名能是我的用戶(hù)表中primarykey 密碼可以是一樣的密碼，當然可以做一下hash加密
　　bmob用戶(hù)注冊成功時(shí)能得到用戶(hù)對象，在成功的時(shí)侯把需要的參數帶進(jìn) 云端方式，如用戶(hù)名和密碼，或者primarykey 和密碼
　　android端代碼就不寫(xiě)了
　　通過(guò)環(huán)信的，了解到即使開(kāi)發(fā)注冊可以不需要token，但是更新用戶(hù)信息還是要token
　　所以我就先用云端方式懇求token 方式名就叫 getToken
　　 1 function onRequest(request, response, modules) {
2
3 var options = {
4 url:"https://a1.easemob.com/xxxxx/yyyyy/token",
5 headers:{
6 'Content-Type':'application/json'
7 },
8
9 body:JSON.stringify({"grant_type":"client_credentials","client_id":"YXA6GxnwsG5REeaEG_efUTmSlQ","client_secret":"YXA62p6WEWM8TRbmLQkCMxuzmQrLj3A"})
10 };
11
12 modules.oHttp.post(options,function(err,resp,body){
13 response.end(body);
14 });
15
16 }
　　首先第4行 url的格式其中的xxxxx 和yyyyy 在控制臺的應用標示(AppKey) 里面能看到 AppKey的格式是xxxxx#yyyyy
　　第5行的Request Headers 就一個(gè) 沒(méi)啥好說(shuō)的
　　第9行的 Request Body 一共3個(gè)網(wǎng)路懇求參數第一個(gè)grant_type :client_credentials 應該是固定的，后面的client_id，client_secret同樣可以在控制臺找到
　　第12行就是發(fā)送post懇求了最后response.end 返回結果有效期近60天
　　 Response Body
{
"code": 200,
"msg":
{"access_token":"YWMtIwcQoHgfEeaBFQdWz-nlJwAAAVhOT3hk1ujuKlQwidZ7zUbRcMwrDSXdYK0","expires_in":5183999,"application":"1b19f0b0-6e51-11e6-841b-f79f51399295"}
}
　　這些參數都是我在云端寫(xiě)死了，當然可以用android端通過(guò)JSONObject帶過(guò)來(lái) 云端再從request上面獲取參數
　　不過(guò)相比android端更改參數太麻煩（要重新打包安裝），而云端代碼直接編輯完才能生效，所以我認為沒(méi)有特殊要求，在后臺寫(xiě)死反倒好些
　　拿到token以后，再來(lái)瞧瞧注冊，分開(kāi)放注冊和授權注冊，前者不需要token，后者須要
　　這里演示授權注冊
　　 1 function onRequest(request, response, modules) {
2
3 var username = request.body.username;
4 var password = request.body.password;
5 var token=request.body.token;
6
7 var options = {
8 url:"https://a1.easemob.com/xxxx/yyy/user",
9 headers:{
10 'Content-Type':'application/json',
11 'Authorization':'Bearer '+token
12 },
13
14 body:JSON.stringify({"username":username,"password":password})
15 };
16
17 modules.oHttp.post(options,function(err,resp,body){
18 response.end(body);
19 });
20
21 }
　　3 4 5行都是帶入的參數，用戶(hù)名密碼還有token這種東西不可能寫(xiě)死
　　第8行 url 后綴弄成了user
　　第11行由于是授權注冊要傳入token，所以Request Headers多了一個(gè) ，bearer其實(shí)是指 token類(lèi)型
　　第14行注冊必備， 17 18返回結果
　　貼個(gè)注冊成功的返回
　　 Response Body
{
"code": 200,
"msg":
{
"action" : "post",
"application" : "1b19f0b0-6e51-11e6-841b-f79f51399295",
"path" : "/users",
"uri" : "https://a1.easemob.com/feizaoj ... ot%3B,
"entities" : [ {
"uuid" : "2cdf2680-781f-11e6-88b9-3576146210eb",
"type" : "user",
"created" : 1473598597352,
"modified" : 1473598597352,
"username" : "22222w22222232",
"activated" : true
} ],
"timestamp" : 1473598597360,
"duration" : 0,
"organization" : "xxxx",
"applicationName" : "yyyy"
}
}
　　已經(jīng)被注冊過(guò)了的返回
　　 Response Body
{
"code": 200,
"msg":
{"error":"duplicate_unique_property_exists","timestamp":1473599067876,"duration":0,"exception":"org.apache.usergrid.persistence.exceptions.DuplicateUniquePropertyExistsException","error_description":"Application null Entity user requires that property named username be unique, value of 22222w22222232 exists"}
}
　　我覺(jué)得這個(gè)云端代碼十分強悍，手機端只要上傳參數，讓云端來(lái)操作，就能得到結果，極大的減少了手機的任務(wù)
　　目前也沒(méi)更多的場(chǎng)景能使用，以后遇到了，會(huì )更新查看全部

　　云端代碼的實(shí)踐
　　Bmob的云端代碼可以由手機發(fā)起懇求調用在云端你寫(xiě)好的方式(需要js來(lái)寫(xiě))，比如可以在手機端用戶(hù)注冊成功的時(shí)侯，調用云端代碼，把帳號密碼作為參數調用，云端代碼中可以得到參數，做希望做的操作，再把結果返回。
　　官方的簡(jiǎn)單事例如下
　　先看云端代碼在事例中云端領(lǐng)到手機端傳入的參數然后按照參數返回結果很簡(jiǎn)單
　　1 function onRequest(request, response, modules) {
2 //獲取SDK客戶(hù)端上傳的name參數
3 var name = request.body.name;
4 if(name == 'bmob')
5 response.end('歡迎使用Bmob');
6 else
7 response.end('輸入錯誤，請重新輸入');
8 }
　　再瞧瞧android是如何調用的要注意的是邏輯名和傳入的參數回調和bmob數據服務(wù)一樣，都很簡(jiǎn)單
　　//test對應你剛剛創(chuàng )建的云端邏輯名稱(chēng)
String cloudCodeName = "test";
JSONObject params = new JSONObject();
//name是上傳到云端的參數名稱(chēng)，值是bmob，云端邏輯可以通過(guò)調用request.body.name獲取這個(gè)值
params.put("name", "bmob");
//創(chuàng )建云端邏輯對象
AsyncCustomEndpoints cloudCode = new AsyncCustomEndpoints();
//異步調用云端邏輯
cloudCode.callEndpoint(MainActivity.this, cloudCodeName, params, new CloudCodeListener() {
//執行成功時(shí)調用，返回result對象
@Override
public void onSuccess(Object result) {
Log.i("bmob", "result = "+result.toString());
}
//執行失敗時(shí)調用
@Override
public void onFailure(String err) {
Log.i("bmob", "BmobException = "+err);
}
});
　　當然事例上面的這些功能可以說(shuō)沒(méi)有任何作用
　　這里我剛好遇見(jiàn)一個(gè)不錯的實(shí)踐案例
　　環(huán)信IM sdk 用戶(hù)體系集成，這塊須要用到RESTAPI，我的思路是在手機端注冊帳號成功的同時(shí)，我發(fā)起云端代碼懇求，讓云端通過(guò)REST API去注冊環(huán)信IM的帳號
　　這里要講一下環(huán)信帳號體系：它的用戶(hù)名能是我的用戶(hù)表中primarykey 密碼可以是一樣的密碼，當然可以做一下hash加密
　　bmob用戶(hù)注冊成功時(shí)能得到用戶(hù)對象，在成功的時(shí)侯把需要的參數帶進(jìn) 云端方式，如用戶(hù)名和密碼，或者primarykey 和密碼
　　android端代碼就不寫(xiě)了
　　通過(guò)環(huán)信的，了解到即使開(kāi)發(fā)注冊可以不需要token，但是更新用戶(hù)信息還是要token
　　所以我就先用云端方式懇求token 方式名就叫 getToken
　　 1 function onRequest(request, response, modules) {
2
3 var options = {
4 url:"https://a1.easemob.com/xxxxx/yyyyy/token",
5 headers:{
6 'Content-Type':'application/json'
7 },
8
9 body:JSON.stringify({"grant_type":"client_credentials","client_id":"YXA6GxnwsG5REeaEG_efUTmSlQ","client_secret":"YXA62p6WEWM8TRbmLQkCMxuzmQrLj3A"})
10 };
11
12 modules.oHttp.post(options,function(err,resp,body){
13 response.end(body);
14 });
15
16 }
　　首先第4行 url的格式其中的xxxxx 和yyyyy 在控制臺的應用標示(AppKey) 里面能看到 AppKey的格式是xxxxx#yyyyy
　　第5行的Request Headers 就一個(gè) 沒(méi)啥好說(shuō)的
　　第9行的 Request Body 一共3個(gè)網(wǎng)路懇求參數第一個(gè)grant_type :client_credentials 應該是固定的，后面的client_id，client_secret同樣可以在控制臺找到
　　第12行就是發(fā)送post懇求了最后response.end 返回結果有效期近60天
　　 Response Body
{
"code": 200,
"msg":
{"access_token":"YWMtIwcQoHgfEeaBFQdWz-nlJwAAAVhOT3hk1ujuKlQwidZ7zUbRcMwrDSXdYK0","expires_in":5183999,"application":"1b19f0b0-6e51-11e6-841b-f79f51399295"}
}
　　這些參數都是我在云端寫(xiě)死了，當然可以用android端通過(guò)JSONObject帶過(guò)來(lái) 云端再從request上面獲取參數
　　不過(guò)相比android端更改參數太麻煩（要重新打包安裝），而云端代碼直接編輯完才能生效，所以我認為沒(méi)有特殊要求，在后臺寫(xiě)死反倒好些
　　拿到token以后，再來(lái)瞧瞧注冊，分開(kāi)放注冊和授權注冊，前者不需要token，后者須要
　　這里演示授權注冊
　　 1 function onRequest(request, response, modules) {
2
3 var username = request.body.username;
4 var password = request.body.password;
5 var token=request.body.token;
6
7 var options = {
8 url:"https://a1.easemob.com/xxxx/yyy/user",
9 headers:{
10 'Content-Type':'application/json',
11 'Authorization':'Bearer '+token
12 },
13
14 body:JSON.stringify({"username":username,"password":password})
15 };
16
17 modules.oHttp.post(options,function(err,resp,body){
18 response.end(body);
19 });
20
21 }
　　3 4 5行都是帶入的參數，用戶(hù)名密碼還有token這種東西不可能寫(xiě)死
　　第8行 url 后綴弄成了user
　　第11行由于是授權注冊要傳入token，所以Request Headers多了一個(gè) ，bearer其實(shí)是指 token類(lèi)型
　　第14行注冊必備， 17 18返回結果
　　貼個(gè)注冊成功的返回
　　 Response Body
{
"code": 200,
"msg":
{
"action" : "post",
"application" : "1b19f0b0-6e51-11e6-841b-f79f51399295",
"path" : "/users",
"uri" : "https://a1.easemob.com/feizaoj ... ot%3B,
"entities" : [ {
"uuid" : "2cdf2680-781f-11e6-88b9-3576146210eb",
"type" : "user",
"created" : 1473598597352,
"modified" : 1473598597352,
"username" : "22222w22222232",
"activated" : true
} ],
"timestamp" : 1473598597360,
"duration" : 0,
"organization" : "xxxx",
"applicationName" : "yyyy"
}
}
　　已經(jīng)被注冊過(guò)了的返回
　　 Response Body
{
"code": 200,
"msg":
{"error":"duplicate_unique_property_exists","timestamp":1473599067876,"duration":0,"exception":"org.apache.usergrid.persistence.exceptions.DuplicateUniquePropertyExistsException","error_description":"Application null Entity user requires that property named username be unique, value of 22222w22222232 exists"}
}
　　我覺(jué)得這個(gè)云端代碼十分強悍，手機端只要上傳參數，讓云端來(lái)操作，就能得到結果，極大的減少了手機的任務(wù)
　　目前也沒(méi)更多的場(chǎng)景能使用，以后遇到了，會(huì )更新

六大網(wǎng)頁(yè)數據采集器特色對比

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 377 次瀏覽 ? 2020-08-18 20:01 ? 來(lái)自相關(guān)話(huà)題

　　六大網(wǎng)頁(yè)數據采集器特色對比
　　特點(diǎn)：直接接入代理IP。無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入和驗證碼識別。網(wǎng)站自動(dòng)完成登陸和驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖表。采集結果以豐富圖表化方式詮釋?zhuān)⒅С忠绘I手動(dòng)發(fā)布和導入；
　　本地化隱私保護。完全云端采集，可隱藏用戶(hù)IP。
　　優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：以采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。
　　六大網(wǎng)頁(yè)數據采集器特色對比查看全部

　　六大網(wǎng)頁(yè)數據采集器特色對比
　　特點(diǎn)：直接接入代理IP。無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入和驗證碼識別。網(wǎng)站自動(dòng)完成登陸和驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖表。采集結果以豐富圖表化方式詮釋?zhuān)⒅С忠绘I手動(dòng)發(fā)布和導入；
　　本地化隱私保護。完全云端采集，可隱藏用戶(hù)IP。
　　優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：以采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。
　　六大網(wǎng)頁(yè)數據采集器特色對比

最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 415 次瀏覽 ? 2020-08-16 19:25 ? 來(lái)自相關(guān)話(huà)題

　　最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑
　　目前已完成70%，等到下邊幾個(gè)問(wèn)題解決后將開(kāi)源。目前存在的幾個(gè)主要問(wèn)題是：1、云端執行的代理IP問(wèn)題：（自己爬過(guò)濾or其它工具或apiorasdl，哪個(gè)好？）2、大量數據excel/csv導入問(wèn)題：（如果一次性從mysql類(lèi)型數據庫導入100w+數據，怎么解決？?jì)却嫣幚?，直接dump下來(lái)通常都卡死）3、自定義腳本沙盒如何處理？（單獨的一個(gè)html處理容器，讓用戶(hù)自己寫(xiě)腳本處理。目前用的python，服務(wù)器用php實(shí)現。有沒(méi)有開(kāi)源方案開(kāi)源參考？主要是安全問(wèn)題）
　　參考產(chǎn)品：優(yōu)采云采集器、優(yōu)采云采集引擎、import.io?；A功能主要參考優(yōu)采云，功能不錯太全，但是單機的，，。import.io是美國的產(chǎn)品，自動(dòng)化形式采集web，網(wǎng)站經(jīng)常墻，找靈感的。優(yōu)采云是前面說(shuō)是國外首款云采集工具，用了兩周很不錯。確實(shí)是我想要學(xué)習的。。做了個(gè)采集V2EX郵箱的示例：各位有好的云采集的產(chǎn)品希望分享，一起研究。
　　功能基本以?xún)?yōu)采云為主即可。云菜雞以?xún)?yōu)采云的為主，特別是想做個(gè)規則市場(chǎng)，類(lèi)似優(yōu)采云那個(gè)。要是能否實(shí)現不寫(xiě)規則自動(dòng)化智能辨識采集最好。這是未來(lái)的方向?？偨Y出來(lái)就是：優(yōu)采云+優(yōu)采云的模式。
　　求牛逼解決方案，優(yōu)先開(kāi)放github地址。查看全部

　　最近在開(kāi)發(fā)一款開(kāi)源云端爬蟲(chóng)采集框架工具（基于 C+PHP 實(shí)現）遇到的難坑
　　目前已完成70%，等到下邊幾個(gè)問(wèn)題解決后將開(kāi)源。目前存在的幾個(gè)主要問(wèn)題是：1、云端執行的代理IP問(wèn)題：（自己爬過(guò)濾or其它工具或apiorasdl，哪個(gè)好？）2、大量數據excel/csv導入問(wèn)題：（如果一次性從mysql類(lèi)型數據庫導入100w+數據，怎么解決？?jì)却嫣幚?，直接dump下來(lái)通常都卡死）3、自定義腳本沙盒如何處理？（單獨的一個(gè)html處理容器，讓用戶(hù)自己寫(xiě)腳本處理。目前用的python，服務(wù)器用php實(shí)現。有沒(méi)有開(kāi)源方案開(kāi)源參考？主要是安全問(wèn)題）
　　參考產(chǎn)品：優(yōu)采云采集器、優(yōu)采云采集引擎、import.io?；A功能主要參考優(yōu)采云，功能不錯太全，但是單機的，，。import.io是美國的產(chǎn)品，自動(dòng)化形式采集web，網(wǎng)站經(jīng)常墻，找靈感的。優(yōu)采云是前面說(shuō)是國外首款云采集工具，用了兩周很不錯。確實(shí)是我想要學(xué)習的。。做了個(gè)采集V2EX郵箱的示例：各位有好的云采集的產(chǎn)品希望分享，一起研究。
　　功能基本以?xún)?yōu)采云為主即可。云菜雞以?xún)?yōu)采云的為主，特別是想做個(gè)規則市場(chǎng)，類(lèi)似優(yōu)采云那個(gè)。要是能否實(shí)現不寫(xiě)規則自動(dòng)化智能辨識采集最好。這是未來(lái)的方向?？偨Y出來(lái)就是：優(yōu)采云+優(yōu)采云的模式。
　　求牛逼解決方案，優(yōu)先開(kāi)放github地址。

數據剖析采集器：優(yōu)采云

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 311 次瀏覽 ? 2020-08-11 06:50 ? 來(lái)自相關(guān)話(huà)題

　　以前，我仍然用python來(lái)爬去固定網(wǎng)站的信息，不管是靜態(tài)還是動(dòng)態(tài)，編碼才能實(shí)現好多東西，包括框架的使用更能彰顯python的便捷，but，在實(shí)際工作中，你看見(jiàn)的是哪些？數據剖析有時(shí)候并不需要計算機功力，不會(huì )有那個(gè)畫(huà)了好多時(shí)間做一件事情的打算。人們仍然在探求，這些基礎的東西反復出來(lái)，肯定有被人用煩過(guò)，從而為了一勞永逸，去做了一些工具。今天就來(lái)談?wù)勥@些采集器吧。
　　官網(wǎng)：
　　作為同時(shí)使用優(yōu)采云采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己尋思技術(shù)的互聯(lián)網(wǎng)營(yíng)運喵。。。我來(lái)聊聊心得看法。
　　優(yōu)采云有一些優(yōu)勢，比如學(xué)習成本低，可視化流程，快速搭建采集系統。能直接導入excel文件和導入到數據庫中。降低采集成本，云采集提供10個(gè)節點(diǎn)，也能省事不少。
　　不好的地方就是，即使看似很簡(jiǎn)單了，而且還有更傻瓜化的smart模式，但是上面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě)，不過(guò)說(shuō)實(shí)話(huà)心得太多，還沒(méi)仔細整理。
　　首先上面的循環(huán)都是xpath元素定位，如果用單純的傻瓜化點(diǎn)擊定位的話(huà)，很生硬，大批量采集頁(yè)面的時(shí)侯很容易出錯。另外用這個(gè)工具的，因為便捷，小白太多，成天有人問(wèn)普通問(wèn)題，他們都不會(huì )看頁(yè)面結構，也不懂xpath，很容易出現采集不全，無(wú)限翻頁(yè)等問(wèn)題。
　　但是優(yōu)采云采集器的ajax加載，模擬手機頁(yè)面，過(guò)濾廣告，滾動(dòng)至頁(yè)面底端等功能堪比利器，一個(gè)勾選才能搞定。寫(xiě)代碼很麻煩的，實(shí)現這種功能費力。
　　優(yōu)采云畢竟只是工具，自由度肯定完敗編程。勝在便捷，快速，低成本。
　　優(yōu)采云判斷語(yǔ)錄較弱，無(wú)法進(jìn)行復雜判定，也未能執行復雜邏輯。還有就是優(yōu)采云只有企業(yè)版能夠解決驗證碼問(wèn)題，一般版本未能接入打碼平臺。
　　還有一點(diǎn)就是沒(méi)有ocr功能，58同城和趕集網(wǎng)采集的電話(huà)號碼都是圖片格式，python可以用開(kāi)源圖象辨識庫解決，對接進(jìn)去辨識便可。
　　除非對技術(shù)有很高要求，否則我認為優(yōu)采云采集器挺好用，比優(yōu)采云采集器好用，雖然效率沒(méi)這么高，但是比起費力學(xué)習和研究數據包，還是用這個(gè)省事。我沒(méi)事也會(huì )在優(yōu)采云群里解答一些規則編制的問(wèn)題。
　　優(yōu)采云采集器解析json數據必須中級版本，真煩，優(yōu)采云效率低一些并且可采集范圍廣。但是優(yōu)采云采集器有58同城插件。。。
　　如果你是小白，很想市事情。我來(lái)給你瞧瞧好玩的東西。
　　
　　除了以上100多個(gè)網(wǎng)站的218個(gè)模板外，我們后續就會(huì )再制做上百個(gè)網(wǎng)站數百個(gè)模板，讓用戶(hù)自此采集更多網(wǎng)站無(wú)需配置采集規則。
　　這些模板對應的網(wǎng)站，都是用戶(hù)大多數想要采集的網(wǎng)站，以大眾點(diǎn)評為例，大多數都在采集商家列表，商家詳情，團購詳情等等，優(yōu)采云先幫你們把這種采集規則配置好，大家只須要填入一些參數（如城市入口地址，翻多少頁(yè)等等）即可進(jìn)行采集，頁(yè)面上所有數組幾乎就會(huì )收錄，如遇見(jiàn)不需要的刪掉即可。
　　并且有些模板還幫用戶(hù)做了特殊處理，進(jìn)行了云優(yōu)化與云突破，可以在云端無(wú)限采集，無(wú)需害怕封IP等防采集策略。
　　簡(jiǎn)易采集界面也對采集字段，參數配置，樣例數據做了詳盡的說(shuō)明，保證每位點(diǎn)都說(shuō)到位，并且營(yíng)運朋友都會(huì )對規則做定期的維護與更新，最后達到一個(gè)療效，你只需點(diǎn)擊一個(gè)“立即使用”，即可獲取數據。
　　重點(diǎn)呀，某人說(shuō)數據采集器用了好多，并推薦使用優(yōu)采云，給出了各個(gè)熱門(mén)搜集器的優(yōu)缺點(diǎn)：
　　1.優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　2.優(yōu)采云云采集：
　　一款新穎的云端在線(xiàn)智能爬蟲(chóng)/采集器，基于優(yōu)采云分布式云爬蟲(chóng)框架，幫助用戶(hù)快速獲取大量規范化的網(wǎng)頁(yè)數據，幫助顧客快速輕松地獲取大量規范化數據。
　　特點(diǎn)：直接接入代理IP，無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入驗證碼識別，網(wǎng)站自動(dòng)完成驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖標，采集結果以豐富表格化方式詮釋?zhuān)?br /> 　　本地化隱私保護，云端采集，可隱藏用戶(hù)IP。
　　3.優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　4.三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　5.集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　6.優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。查看全部

　　以前，我仍然用python來(lái)爬去固定網(wǎng)站的信息，不管是靜態(tài)還是動(dòng)態(tài)，編碼才能實(shí)現好多東西，包括框架的使用更能彰顯python的便捷，but，在實(shí)際工作中，你看見(jiàn)的是哪些？數據剖析有時(shí)候并不需要計算機功力，不會(huì )有那個(gè)畫(huà)了好多時(shí)間做一件事情的打算。人們仍然在探求，這些基礎的東西反復出來(lái)，肯定有被人用煩過(guò)，從而為了一勞永逸，去做了一些工具。今天就來(lái)談?wù)勥@些采集器吧。
　　官網(wǎng)：
　　作為同時(shí)使用優(yōu)采云采集器和寫(xiě)爬蟲(chóng)的非技術(shù)的莫名其妙喜歡自己尋思技術(shù)的互聯(lián)網(wǎng)營(yíng)運喵。。。我來(lái)聊聊心得看法。
　　優(yōu)采云有一些優(yōu)勢，比如學(xué)習成本低，可視化流程，快速搭建采集系統。能直接導入excel文件和導入到數據庫中。降低采集成本，云采集提供10個(gè)節點(diǎn)，也能省事不少。
　　不好的地方就是，即使看似很簡(jiǎn)單了，而且還有更傻瓜化的smart模式，但是上面的坑只有用的多的人才清楚。關(guān)于這個(gè)我在我的博客里簡(jiǎn)單寫(xiě)了寫(xiě)，不過(guò)說(shuō)實(shí)話(huà)心得太多，還沒(méi)仔細整理。
　　首先上面的循環(huán)都是xpath元素定位，如果用單純的傻瓜化點(diǎn)擊定位的話(huà)，很生硬，大批量采集頁(yè)面的時(shí)侯很容易出錯。另外用這個(gè)工具的，因為便捷，小白太多，成天有人問(wèn)普通問(wèn)題，他們都不會(huì )看頁(yè)面結構，也不懂xpath，很容易出現采集不全，無(wú)限翻頁(yè)等問(wèn)題。
　　但是優(yōu)采云采集器的ajax加載，模擬手機頁(yè)面，過(guò)濾廣告，滾動(dòng)至頁(yè)面底端等功能堪比利器，一個(gè)勾選才能搞定。寫(xiě)代碼很麻煩的，實(shí)現這種功能費力。
　　優(yōu)采云畢竟只是工具，自由度肯定完敗編程。勝在便捷，快速，低成本。
　　優(yōu)采云判斷語(yǔ)錄較弱，無(wú)法進(jìn)行復雜判定，也未能執行復雜邏輯。還有就是優(yōu)采云只有企業(yè)版能夠解決驗證碼問(wèn)題，一般版本未能接入打碼平臺。
　　還有一點(diǎn)就是沒(méi)有ocr功能，58同城和趕集網(wǎng)采集的電話(huà)號碼都是圖片格式，python可以用開(kāi)源圖象辨識庫解決，對接進(jìn)去辨識便可。
　　除非對技術(shù)有很高要求，否則我認為優(yōu)采云采集器挺好用，比優(yōu)采云采集器好用，雖然效率沒(méi)這么高，但是比起費力學(xué)習和研究數據包，還是用這個(gè)省事。我沒(méi)事也會(huì )在優(yōu)采云群里解答一些規則編制的問(wèn)題。
　　優(yōu)采云采集器解析json數據必須中級版本，真煩，優(yōu)采云效率低一些并且可采集范圍廣。但是優(yōu)采云采集器有58同城插件。。。
　　如果你是小白，很想市事情。我來(lái)給你瞧瞧好玩的東西。
　　

　　除了以上100多個(gè)網(wǎng)站的218個(gè)模板外，我們后續就會(huì )再制做上百個(gè)網(wǎng)站數百個(gè)模板，讓用戶(hù)自此采集更多網(wǎng)站無(wú)需配置采集規則。
　　這些模板對應的網(wǎng)站，都是用戶(hù)大多數想要采集的網(wǎng)站，以大眾點(diǎn)評為例，大多數都在采集商家列表，商家詳情，團購詳情等等，優(yōu)采云先幫你們把這種采集規則配置好，大家只須要填入一些參數（如城市入口地址，翻多少頁(yè)等等）即可進(jìn)行采集，頁(yè)面上所有數組幾乎就會(huì )收錄，如遇見(jiàn)不需要的刪掉即可。
　　并且有些模板還幫用戶(hù)做了特殊處理，進(jìn)行了云優(yōu)化與云突破，可以在云端無(wú)限采集，無(wú)需害怕封IP等防采集策略。
　　簡(jiǎn)易采集界面也對采集字段，參數配置，樣例數據做了詳盡的說(shuō)明，保證每位點(diǎn)都說(shuō)到位，并且營(yíng)運朋友都會(huì )對規則做定期的維護與更新，最后達到一個(gè)療效，你只需點(diǎn)擊一個(gè)“立即使用”，即可獲取數據。
　　重點(diǎn)呀，某人說(shuō)數據采集器用了好多，并推薦使用優(yōu)采云，給出了各個(gè)熱門(mén)搜集器的優(yōu)缺點(diǎn)：
　　1.優(yōu)采云采集器：
　　一款互聯(lián)網(wǎng)數據抓取、處理、分析，挖掘軟件，可以抓取網(wǎng)頁(yè)上散亂分布的數據信息，并通過(guò)一系列的剖析處理，準確挖掘出所需數據。
　　特點(diǎn)：采集不限網(wǎng)頁(yè)，不限內容；
　　分布式采集系統，提高效率；
　　支持PHP和C#插件擴充，方便更改處理數據。
　　2.優(yōu)采云云采集：
　　一款新穎的云端在線(xiàn)智能爬蟲(chóng)/采集器，基于優(yōu)采云分布式云爬蟲(chóng)框架，幫助用戶(hù)快速獲取大量規范化的網(wǎng)頁(yè)數據，幫助顧客快速輕松地獲取大量規范化數據。
　　特點(diǎn)：直接接入代理IP，無(wú)需設置便可防止因IP被限制訪(fǎng)問(wèn)引起的難以采集的問(wèn)題；
　　自動(dòng)登入驗證碼識別，網(wǎng)站自動(dòng)完成驗證碼輸入，無(wú)需人工看管；
　　可在線(xiàn)生成圖標，采集結果以豐富表格化方式詮釋?zhuān)?br /> 　　本地化隱私保護，云端采集，可隱藏用戶(hù)IP。
　　3.優(yōu)采云采集器：
　　一套專(zhuān)業(yè)的網(wǎng)站內容采集軟件，支持各種峰會(huì )的貼子和回復采集，網(wǎng)站和博客文章內容抓取，分峰會(huì )采集器、CMS采集器和博客采集器三類(lèi)。
　　特點(diǎn)：支持對文章內容中的文字、鏈接批量替換和過(guò)濾；
　　可以同時(shí)向網(wǎng)站或峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　具備采集或發(fā)貼任務(wù)完成后自動(dòng)關(guān)機功能；
　　4.三人行采集器：
　　一套可以把他人網(wǎng)站、論壇、博客的圖文內容輕松采集到自己的網(wǎng)站、論壇和博客的站長(cháng)工具，包括峰會(huì )注冊王、采集發(fā)帖王和采集搬家王三類(lèi)軟件。
　　特點(diǎn)：采集需要注冊登錄后才會(huì )查看的峰會(huì )貼子；
　　可以同時(shí)向峰會(huì )的多個(gè)版塊一起批量發(fā)帖；
　　支持對文章內容中的文字、鏈接批量替換和過(guò)濾。
　　5.集搜客：
　　一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素，提供好用的網(wǎng)頁(yè)抓取軟件、數據挖掘功略、行業(yè)資訊和前沿科技等。
　　特點(diǎn)：可以抓取手機網(wǎng)站上的數據；
　　支持抓取在指數圖表上漂浮顯示的數據；
　　會(huì )員互助抓取，提升采集效率。
　　6.優(yōu)采云采集器：
　　一款網(wǎng)頁(yè)采集軟件，可以從不同的網(wǎng)站獲取規范化數據，幫助顧客實(shí)現數據自動(dòng)化采集，編輯，規范化，從而減少成本，提高效率。
　　特點(diǎn)：容易上手，完全可視化圖形操作；
　　內置可擴充的OCR插口，支持解析圖片中的文字；
　　采集任務(wù)手動(dòng)運行，可以根據指定的周期手動(dòng)采集。

云端大數據剖析關(guān)鍵要素有什么

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2020-08-10 02:47 ? 來(lái)自相關(guān)話(huà)題

　　云端大數據剖析關(guān)鍵要素有什么
　　大數據時(shí)代的出現，未來(lái)30年將對計劃經(jīng)濟和市場(chǎng)經(jīng)濟進(jìn)行重新定義。在大數據時(shí)代，人類(lèi)獲得數據能力遠遠超過(guò)你們想像，我們對世界的認識要提高到新的高度。
　　目前，創(chuàng )新型企業(yè)正在研究她們的數據管理策略，以確定在什么環(huán)境下以及如何發(fā)揮云計算解決方案的作用。依托廣泛的云計算產(chǎn)品、服務(wù)及技術(shù)，企業(yè)將還能通過(guò)新的數據管理模式，打破傳統數據管理模式的桎梏，創(chuàng )造新的價(jià)值。
　　
　　基于云的剖析就是一個(gè)典型的事例。企業(yè)管理協(xié)會(huì )（EMA）研究顯示，越來(lái)越多的企業(yè)采用混和數據管理模式，利用專(zhuān)用平臺管理并調整數據、應用程序及工作負載，以提高數據管理性能，并縮減成本。EMA近日問(wèn)卷調查報告稱(chēng)，60%的受訪(fǎng)企業(yè)正在使用2-3種平臺運行復雜工作負載。在這些混和管理模式下，云端環(huán)境一般發(fā)揮著(zhù)至關(guān)重要的作用。
　　凱德云M-Files數據剖析及報表模塊，使您可以輕松查看凱德云M-Files文檔和相關(guān)工作流程的數據，統計剖析，以及指標——分析商務(wù)流程和支持管理決策的重要的工具。
　　衡量成功的準則
　　不同廠(chǎng)商針對各類(lèi)不同行業(yè)提供卓越的剖析方案，要調查它們的數據剖析能力，需要從以下五大要素入手：
　　1. 分析性能
　　首先，為剖析用例提供支持需確定信息是否能輕松、快速地從源系統遷移至云端環(huán)境。緩慢、復雜的數據采集過(guò)程將影響決策速率，而費時(shí)吃力的數據打算及障礙重重的多級數據載入過(guò)程將造成數據管理效率低下，日常營(yíng)運成本降低。企業(yè)還應注重信息儲存容量，因為它直接決定業(yè)務(wù)問(wèn)題記錄的數目。
　　云端平臺不但需實(shí)現單用戶(hù)業(yè)務(wù)咨詢(xún)，還需支持多用戶(hù)進(jìn)行系統并時(shí)查詢(xún)。無(wú)論有多少用戶(hù)查詢(xún)系統，云端平臺都必須處理信息，并將結果及時(shí)返回。等待處理的時(shí)間過(guò)長(cháng)造成未能及時(shí)獲得洞察力，將使查詢(xún)結果采納率遭到限制，降低投資回報率，甚至難以收到回報。
　　凱德云M-Files數據剖析及報表模塊可以提供銷(xiāo)售流程、已完成和進(jìn)行中的項目、方案的規模和狀態(tài)、訂單列表、員工培訓及認證等等的商務(wù)情報，以提升您的管理決策。
　　凱德云M-Files數據剖析和報表模塊采用流行且強悍的Microsoft SQLServer Reporting Services報表生成系統，提供才能支持各種各樣的報告和商業(yè)需求的豐富一流的前端。
　　2. 工作負載的靈活性
　　與報告編制、重復聯(lián)機分析處理、特定剖析和數據挖掘或中級剖析等常見(jiàn)功能相比，支持多個(gè)工作負載才是平臺靈活性和敏捷性的彰顯。
　　平臺面向數據庫開(kāi)發(fā)，將才能提高其性能和靈活性，以不同的形式支持工作負載。實(shí)施基于行的傳統策略，能夠向記錄輕松添加插入及更新內容，但查詢(xún)須要掃描整個(gè)表格時(shí)，不利于處理列式布局的表格。部分平臺同時(shí)搭載基于行和列的技術(shù)，可滿(mǎn)足剖析工作負載的需求。
　　通過(guò)布署ApacheHadoop基礎設施及探求剖析功能，開(kāi)發(fā)更深層次數據探求能力的大數據戰略對計劃通過(guò)云計算服務(wù)優(yōu)化現有平臺功能的企業(yè)而言十分重要。
　　3. 先進(jìn)的技術(shù)
　　分析項目一般會(huì )超出其最初設定的范圍。隨著(zhù)更多用戶(hù)開(kāi)始使用平臺，系統須要滿(mǎn)足更多需求，大多數平臺容納的數據量在項目啟動(dòng)一段時(shí)間后都超過(guò)最初設定的范圍。因此，項目早期似乎不急于制訂常年計劃并提出項目需求，但這種規劃和要求卻十分重要。
　　隨著(zhù)數據驅動(dòng)型項目不斷成熟，就須要更多中級功能和特點(diǎn)。而傳統系統功能難以滿(mǎn)足用戶(hù)對洞察力的要求時(shí)，這種須要尤為顯著(zhù)。擴展云端環(huán)境，并加入探求剖析等新功能的能力迫切需要具有相應能力的平臺。例如，為數據庫房布署Hadoop解決方案將有機會(huì )獲取中級洞察，而選擇使用新功能，將確保項目順利進(jìn)展，并創(chuàng )造出意想不到的價(jià)值。
　　凱德云M-Files從數據中獲取洞察力主要彰顯在兩方面：一是凱德云M-Files的元數據可以導入到報告工具，來(lái)確定從文檔庫遺失的文件以及評判流程效率如文件審批頻次。二是凱德云M-Files 能充分利用文檔庫和外部商務(wù)系統的數據。從而您可以曉得公司利潤和解決顧客投訴頻次之間的關(guān)聯(lián)；或者使用資產(chǎn)管理工具了解保養防治任務(wù)是怎樣影響機器正常運轉的等等。
　　4. 專(zhuān)業(yè)支持
　　數據庫基礎設施開(kāi)通服務(wù)是施行剖析解決方案的重要環(huán)節，但卻不是惟一的環(huán)節。為支持業(yè)務(wù)咨詢(xún)服務(wù)，數據必須使用適當的格式。這將有助于平臺為用戶(hù)高效提供確切的相關(guān)信息。
　　設計并搭建數據庫構架可能須要數據建模、數據整合及安全性等方面的中級數據庫綜合管理技能與經(jīng)驗。部署云端環(huán)境的企業(yè)時(shí)常遇見(jiàn)IT技術(shù)困局，新項目舉辦時(shí)仍然未能獲得相應支持，影響項目施行進(jìn)度。因此，企業(yè)應與解決方案提供商舉辦合作，通過(guò)她們的專(zhuān)業(yè)咨詢(xún)、培訓和施行服務(wù)，確保項目順利舉辦。
　　5. 企業(yè)生態(tài)系統
　　如果企業(yè)僅使用一套解決方案，通過(guò)它獲得的業(yè)務(wù)洞察只能創(chuàng )造有限的價(jià)值。而在更廣泛的生態(tài)系統中使用剖析平臺，將才能提高云端平臺的效率。
　　企業(yè)充分利用中級剖析或探求平臺功能，將才能運行中級工作負載，并管理更復雜的項目。大多數解決方案提供商提供合作伙伴網(wǎng)路服務(wù)，以擴充平臺的能力和功能，為項目創(chuàng )造更多價(jià)值。
　　挑選符合要求的平臺
　　隨著(zhù)工作負載及中級應用程序的不斷出現，在選擇平臺時(shí)就應愈發(fā)注重實(shí)際使用情況。各行業(yè)致力于推進(jìn)技術(shù)創(chuàng )新的企業(yè)都在考察云端剖析功能?？紤]到廠(chǎng)商提供技術(shù)的多樣性，選擇解決方案時(shí)，必須仔細研究評估所有相關(guān)標準，確保解決方案能充分發(fā)揮性能并帶來(lái)預期的價(jià)值。凱德云M-Files將所有企業(yè)內容（包括文檔、報表、賬單、網(wǎng)頁(yè)、圖片、傳真，甚至多媒體音頻、視頻、等等各信息載體和模式）集中進(jìn)行管理和控制，結合其強悍的元數據搜索引擎，為各企業(yè)提供商務(wù)智能和大數據剖析。查看全部

　　云端大數據剖析關(guān)鍵要素有什么
　　大數據時(shí)代的出現，未來(lái)30年將對計劃經(jīng)濟和市場(chǎng)經(jīng)濟進(jìn)行重新定義。在大數據時(shí)代，人類(lèi)獲得數據能力遠遠超過(guò)你們想像，我們對世界的認識要提高到新的高度。
　　目前，創(chuàng )新型企業(yè)正在研究她們的數據管理策略，以確定在什么環(huán)境下以及如何發(fā)揮云計算解決方案的作用。依托廣泛的云計算產(chǎn)品、服務(wù)及技術(shù)，企業(yè)將還能通過(guò)新的數據管理模式，打破傳統數據管理模式的桎梏，創(chuàng )造新的價(jià)值。
　　

　　基于云的剖析就是一個(gè)典型的事例。企業(yè)管理協(xié)會(huì )（EMA）研究顯示，越來(lái)越多的企業(yè)采用混和數據管理模式，利用專(zhuān)用平臺管理并調整數據、應用程序及工作負載，以提高數據管理性能，并縮減成本。EMA近日問(wèn)卷調查報告稱(chēng)，60%的受訪(fǎng)企業(yè)正在使用2-3種平臺運行復雜工作負載。在這些混和管理模式下，云端環(huán)境一般發(fā)揮著(zhù)至關(guān)重要的作用。
　　凱德云M-Files數據剖析及報表模塊，使您可以輕松查看凱德云M-Files文檔和相關(guān)工作流程的數據，統計剖析，以及指標——分析商務(wù)流程和支持管理決策的重要的工具。
　　衡量成功的準則
　　不同廠(chǎng)商針對各類(lèi)不同行業(yè)提供卓越的剖析方案，要調查它們的數據剖析能力，需要從以下五大要素入手：
　　1. 分析性能
　　首先，為剖析用例提供支持需確定信息是否能輕松、快速地從源系統遷移至云端環(huán)境。緩慢、復雜的數據采集過(guò)程將影響決策速率，而費時(shí)吃力的數據打算及障礙重重的多級數據載入過(guò)程將造成數據管理效率低下，日常營(yíng)運成本降低。企業(yè)還應注重信息儲存容量，因為它直接決定業(yè)務(wù)問(wèn)題記錄的數目。
　　云端平臺不但需實(shí)現單用戶(hù)業(yè)務(wù)咨詢(xún)，還需支持多用戶(hù)進(jìn)行系統并時(shí)查詢(xún)。無(wú)論有多少用戶(hù)查詢(xún)系統，云端平臺都必須處理信息，并將結果及時(shí)返回。等待處理的時(shí)間過(guò)長(cháng)造成未能及時(shí)獲得洞察力，將使查詢(xún)結果采納率遭到限制，降低投資回報率，甚至難以收到回報。
　　凱德云M-Files數據剖析及報表模塊可以提供銷(xiāo)售流程、已完成和進(jìn)行中的項目、方案的規模和狀態(tài)、訂單列表、員工培訓及認證等等的商務(wù)情報，以提升您的管理決策。
　　凱德云M-Files數據剖析和報表模塊采用流行且強悍的Microsoft SQLServer Reporting Services報表生成系統，提供才能支持各種各樣的報告和商業(yè)需求的豐富一流的前端。
　　2. 工作負載的靈活性
　　與報告編制、重復聯(lián)機分析處理、特定剖析和數據挖掘或中級剖析等常見(jiàn)功能相比，支持多個(gè)工作負載才是平臺靈活性和敏捷性的彰顯。
　　平臺面向數據庫開(kāi)發(fā)，將才能提高其性能和靈活性，以不同的形式支持工作負載。實(shí)施基于行的傳統策略，能夠向記錄輕松添加插入及更新內容，但查詢(xún)須要掃描整個(gè)表格時(shí)，不利于處理列式布局的表格。部分平臺同時(shí)搭載基于行和列的技術(shù)，可滿(mǎn)足剖析工作負載的需求。
　　通過(guò)布署ApacheHadoop基礎設施及探求剖析功能，開(kāi)發(fā)更深層次數據探求能力的大數據戰略對計劃通過(guò)云計算服務(wù)優(yōu)化現有平臺功能的企業(yè)而言十分重要。
　　3. 先進(jìn)的技術(shù)
　　分析項目一般會(huì )超出其最初設定的范圍。隨著(zhù)更多用戶(hù)開(kāi)始使用平臺，系統須要滿(mǎn)足更多需求，大多數平臺容納的數據量在項目啟動(dòng)一段時(shí)間后都超過(guò)最初設定的范圍。因此，項目早期似乎不急于制訂常年計劃并提出項目需求，但這種規劃和要求卻十分重要。
　　隨著(zhù)數據驅動(dòng)型項目不斷成熟，就須要更多中級功能和特點(diǎn)。而傳統系統功能難以滿(mǎn)足用戶(hù)對洞察力的要求時(shí)，這種須要尤為顯著(zhù)。擴展云端環(huán)境，并加入探求剖析等新功能的能力迫切需要具有相應能力的平臺。例如，為數據庫房布署Hadoop解決方案將有機會(huì )獲取中級洞察，而選擇使用新功能，將確保項目順利進(jìn)展，并創(chuàng )造出意想不到的價(jià)值。
　　凱德云M-Files從數據中獲取洞察力主要彰顯在兩方面：一是凱德云M-Files的元數據可以導入到報告工具，來(lái)確定從文檔庫遺失的文件以及評判流程效率如文件審批頻次。二是凱德云M-Files 能充分利用文檔庫和外部商務(wù)系統的數據。從而您可以曉得公司利潤和解決顧客投訴頻次之間的關(guān)聯(lián)；或者使用資產(chǎn)管理工具了解保養防治任務(wù)是怎樣影響機器正常運轉的等等。
　　4. 專(zhuān)業(yè)支持
　　數據庫基礎設施開(kāi)通服務(wù)是施行剖析解決方案的重要環(huán)節，但卻不是惟一的環(huán)節。為支持業(yè)務(wù)咨詢(xún)服務(wù)，數據必須使用適當的格式。這將有助于平臺為用戶(hù)高效提供確切的相關(guān)信息。
　　設計并搭建數據庫構架可能須要數據建模、數據整合及安全性等方面的中級數據庫綜合管理技能與經(jīng)驗。部署云端環(huán)境的企業(yè)時(shí)常遇見(jiàn)IT技術(shù)困局，新項目舉辦時(shí)仍然未能獲得相應支持，影響項目施行進(jìn)度。因此，企業(yè)應與解決方案提供商舉辦合作，通過(guò)她們的專(zhuān)業(yè)咨詢(xún)、培訓和施行服務(wù)，確保項目順利舉辦。
　　5. 企業(yè)生態(tài)系統
　　如果企業(yè)僅使用一套解決方案，通過(guò)它獲得的業(yè)務(wù)洞察只能創(chuàng )造有限的價(jià)值。而在更廣泛的生態(tài)系統中使用剖析平臺，將才能提高云端平臺的效率。
　　企業(yè)充分利用中級剖析或探求平臺功能，將才能運行中級工作負載，并管理更復雜的項目。大多數解決方案提供商提供合作伙伴網(wǎng)路服務(wù)，以擴充平臺的能力和功能，為項目創(chuàng )造更多價(jià)值。
　　挑選符合要求的平臺
　　隨著(zhù)工作負載及中級應用程序的不斷出現，在選擇平臺時(shí)就應愈發(fā)注重實(shí)際使用情況。各行業(yè)致力于推進(jìn)技術(shù)創(chuàng )新的企業(yè)都在考察云端剖析功能?？紤]到廠(chǎng)商提供技術(shù)的多樣性，選擇解決方案時(shí)，必須仔細研究評估所有相關(guān)標準，確保解決方案能充分發(fā)揮性能并帶來(lái)預期的價(jià)值。凱德云M-Files將所有企業(yè)內容（包括文檔、報表、賬單、網(wǎng)頁(yè)、圖片、傳真，甚至多媒體音頻、視頻、等等各信息載體和模式）集中進(jìn)行管理和控制，結合其強悍的元數據搜索引擎，為各企業(yè)提供商務(wù)智能和大數據剖析。

使用 Airtable 建立自己的數據搜集模式

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 408 次瀏覽 ? 2020-08-09 16:28 ? 來(lái)自相關(guān)話(huà)題

　　如今，數據早已被稱(chēng)之為信息時(shí)代的「黃金」，個(gè)人可以通過(guò)數據來(lái)量化自我，公司可以使用數據來(lái)幫助決策?；ヂ?lián)網(wǎng)服務(wù)商可以通過(guò)搜集用戶(hù)數據提供愈發(fā)個(gè)性化的服務(wù)，我們也可以搜集自己的數據來(lái)優(yōu)化自己的生活方式。
　　近一年來(lái)，我開(kāi)始意識到自己作為數據發(fā)生器的重要性，于是就開(kāi)始下意識地集中搜集自己形成的各種數據，建立自己的數據搜集模式。而提到為何要集中搜集個(gè)人數據，主要緣由應當有兩點(diǎn)：
　　目前使用了 Moves，RescueTime，Toggl 等各種應用來(lái)搜集自己的地理位置、時(shí)間消耗等數據。但是這種數據都存放于單獨的應用之上，過(guò)于分散。自己看得見(jiàn)，摸得著(zhù)的數據，比置于他人的服務(wù)器上更放心，也更容易集中加以借助。
　　集中搜集數據，意味著(zhù) Moves，RescueTime 等應用弄成了純粹的搜集工具，而數據會(huì )匯總到自己手中。不同類(lèi)型的數據一旦匯集到一起，不僅可以針對單一類(lèi)別數據進(jìn)行可視化展示，還能剖析出數據直接的關(guān)聯(lián)性，對自己的行為更具有指導意義。
　　選擇一款云端表格工具
　　數據搜集的末端，對應著(zhù)用于儲存數據的數據庫。當然，對于個(gè)人數據搜集而言，我們常說(shuō)的電子表格也許就足夠了。最使大眾熟知的電子表格工具一定是 Microsoft Excel 。但是，作為一款桌面軟件，Excel 往往并不適用于現代的數據搜集流程。例如，你想將你的微博存檔保留，難道是通過(guò)自動(dòng)復制粘貼到 Excel 文檔中嗎？顯然不太實(shí)際。
　　所以，如果我們有一個(gè)置于云端的電子表格，可想像的空間就大好多了。說(shuō)到云端電子表格，不得不再度提及 Excel，只不過(guò)此次是它的孿生兄弟 Excel Online，作為 Office 365 的套件之一，Excel Online 除了未能處理宏命令，其他方面幾乎就是桌面版 Excel 的完美克隆。
　　相比之下，本文的主角 Airtable 的名氣就遠不及 Excel 了。但是，作為一個(gè)典型的硅谷公司產(chǎn)品，Airtable 也擁有不錯的口碑。此外，Google Sheets 也是優(yōu)秀的云端表格工具，只是這朵云距我們稍為遠了一些。
　　那么，對于這三款相對優(yōu)秀的云端電子表格，到底哪一款愈發(fā)適宜用于個(gè)人數據搜集整理呢？我做了一個(gè)對比。
　　
　　Airtable，Excel Online 以及 Google Sheets 對比
　　當我選擇的時(shí)侯，最看重的功能雖然是 API 支持。只有具備了 API 接口，才能使數據搜集流程可以實(shí)現自動(dòng)化，也才是名副其實(shí)的「云端表格」。而使我最終選擇 Airtable 的緣由，應該有如下幾點(diǎn)：
　　基礎功能同另外的兩個(gè)產(chǎn)品相比沒(méi)有顯著(zhù)的缺位，甚至擁有象條形碼輸入、iframe 嵌入等更多差異化功能。Airtable 同時(shí)支持 IFTTT 和 Zapier 云端自動(dòng)化工具，且 API 使用上去更簡(jiǎn)單便捷。很多時(shí)侯，就算使用現有工具難以滿(mǎn)足需求，也可以按照開(kāi)發(fā)者文檔自行編撰代碼實(shí)現數據讀取和寫(xiě)入。Airtable 外觀(guān)設計愈發(fā)漂亮，這一點(diǎn)在長(cháng)時(shí)間的使用過(guò)程中特別重要。Airtable 使用簡(jiǎn)介
　　在即將介紹我是怎樣使用 Airitable 集中整理數據之前，我想先對 Airtable 做一個(gè)簡(jiǎn)單介紹。
　　如下圖所示，Airtable 主要收錄有 6 個(gè)基本組件，分別是：
　　
　　Airtable 收錄的 6 個(gè)基本組件
　　可以看出，Airtable 從誕生之初就具備了關(guān)系型數據庫的樣子，已經(jīng)滿(mǎn)足了對數據存儲的日常需求。從功能上，除了 Excel Online，基本上沒(méi)有競品。
　　要想對個(gè)人數據進(jìn)行集中搜集整理，首先須要在 Airtable 創(chuàng )建不同的數據庫。建立數據庫是個(gè)人數據搜集工程中的第一步，所以并不是隨便亂建的。其中，我們須要先想一想搜集數據的大類(lèi)，然后在細分大類(lèi)中的小類(lèi)，并對應到數據表中。我的數據庫主要有下邊 3 個(gè)，樹(shù)形結構如圖所示。
　　
　　我的個(gè)人數據搜集樹(shù)狀結構圖工作學(xué)習數據庫
　　工作學(xué)習數據庫會(huì )搜集平時(shí)我在工作或則學(xué)習中形成的相關(guān)數據。根據我的使用習慣，數據庫收錄了 4 張數據表，分別是：Calendar、Todoist、Trello 以及 Issues（同步 Github）?？吹矫討斁秃苋菀酌靼走@ 4 張表的意思了。
　　對于這四類(lèi)服務(wù)的數據，我均是采用 IFTTT 或者 Zapier 將其同步到 Airtable 中。這里補充介紹一下 IFTTT 和 Zapier 的區別與聯(lián)系。首先，二者都是整合不同應用提供的開(kāi)發(fā)者 API 實(shí)現自動(dòng)化流程的云端服務(wù)，這是她們的相同之處。但是，Zapier 相對于 IFTTT 會(huì )更強悍一些，它通常情況下會(huì )支持原服務(wù)更全面的 API 接口，且支持多個(gè)服務(wù)聯(lián)動(dòng)。相比之下，IFTTT 很多時(shí)侯只提供主要的插口，且只支持兩個(gè)服務(wù)之間的數據傳遞。
　　
　　Zapier 支持多個(gè)服務(wù)同時(shí)聯(lián)動(dòng)（右圖）
　　舉個(gè)反例，當我在使用 Zapier 實(shí)現 Google Calendar → Airtable 的過(guò)程中，Zapier 支持讀取 Google Calendar 中的 43 項數據（雖然有一些不實(shí)用），但 IFTTT 只支持 8 個(gè)。當然，IFTTT 也有比 Zapier 好用的時(shí)侯。比如將 Todoist 完成任務(wù)同步到 Airtable 時(shí)，Zapier 不支持檢測任意 Project 下完成的任務(wù)，需針對每位 Project 設置單獨的流程。
　　
　　Todoist → Airtable 時(shí)，IFTTT 更占優(yōu)勢（左圖）
　　四個(gè)服務(wù)同步到 Airtable 的設置都大同小異，這里我只拿 Todoist → Airtable 詳細說(shuō)明。當我選擇 IFTTT 作為 Todoist → Airtable 的同步工具時(shí)，首先須要到 IFTTT 上看一看其支持讀取 Todoist 的什么數據，你可以通過(guò)創(chuàng )建動(dòng)作時(shí)查看。
　　
　　創(chuàng )建 Todoist → Airtable 動(dòng)作時(shí)，IFTTT 支持讀取的數據項目
　　我們可以看見(jiàn)從 Todoist → Airtable 一共支持 7 個(gè)類(lèi)別的數據。那么，現在可以先新建這個(gè)動(dòng)作。注意，你須要遵循 IFTTT 制定的句型格式，才能正確地將數據寫(xiě)入到 Airtable 中。
　　也就是說(shuō)，如果要將這 7 類(lèi)數據全部同步到 Airtable，你須要在 IFTTT 動(dòng)作的最后輸入如下所示的內容。我習慣之間使用 IFTTT 的 ingredient 名稱(chēng)作為 Airtable 中的列名稱(chēng)。
　　格式：::airtable::Airtable 中的列名::{{IFTTT 中的 ingredient}}
　　示例內容：
　　::airtable::TaskContent::{{TaskContent}}
::airtable::LinkToTask::{{LinkToTask}}
::airtable::Project::{{Project}}
::airtable::Labels::{{Labels}}
::airtable::Priority:: {{Priority}}
::airtable::CompletedAt::{{CompletedAt}}
::airtable::DueDate::{{DueDate}}
　　接下來(lái)，就可以到 Airtable 中設置相應的列名稱(chēng)了。在設置對應的列屬性（文本、數字、圖片等）時(shí)，我建議一開(kāi)始統一設置為「Single line text」，也就是單行文本格式，以避免導出數據出錯。
　　
　　統一設置表格列屬性為文本格式
　　當測試導出成功以后，就可以調整列屬性。例如這兒，Project 的數目是有限的，且每位任務(wù)只對應一個(gè) Project。就可以將其列屬性設定為 Single select（單選），這樣也便捷日后對任務(wù)進(jìn)行篩選。同樣，日期可以使用 Date 屬性，鏈接使用 URL 等。
　　
　　調整最合適的列屬性
　　如果調整列屬性以后，表格顯示為空白或報錯，那就意味著(zhù)通過(guò) IFTTT 傳過(guò)來(lái)的數據格式并不能挺好地被 Airtable 支持。比如這兒的 CompletedAt，也就是項目的完成日期 + 時(shí)間。IFTTT 輸出的數據格式是象這樣的 January 20, 2018 at 10:18AM，Airtable 無(wú)法之間將其轉換為對應的「日期+時(shí)間」的格式。
　　為了便捷以后的數據剖析，我們當然更偏向于將其處理成時(shí)間序列，也就是按 Airtable 中的「日期+時(shí)間」格式保存。此時(shí)，我們可以通過(guò)新建中間列作為過(guò)渡，然后借助 Airtable 的 Formula 公式將原文本列轉換為可辨識的「日期+時(shí)間」列。具體步驟如下：
　　明確區別：原文本列格式為January 20, 2018 at 10:18AM，Airtable 可辨識的格式為January 20, 2018 10:18 AM。注意觀(guān)察兩者之間的區別，文本格式多了 at + 一個(gè)空格字符，同時(shí) AM 字符前缺乏一個(gè)空格。格式轉換：明白區別以后就可以開(kāi)始使用 Airtable 提供的 Formula 公式轉換格式。首先是去除 at 字符，然后在結尾的 AM 或者 PM 前面降低空格。
　　
　　使用 Formula 公式轉換數據格式
　　這里使用了 SEARCH() 函數去定位要更改的位置，然后使用 REPLACE() 函數更改字符。最后再使用 DATATIME_FOMRMAT() 函數低格字符串為我們想要的「日期-時(shí)間」樣式。一個(gè)小的方法是，如果你嫌降低的中間列較多，那么可以使用 Airtable 頂部菜單的 Hide fields 選項隱去不必要的列，只呈現我們須要的數據即可。
　　量化自我數據庫
　　我的第二個(gè)主要數據庫為量化自我數據庫，它是由：Moves、Location、Apple Health、RescueTime 以及 Commute 等 5 個(gè)數據表組成。這 5 個(gè)數據表分別對應著(zhù) Moves 記錄的地理位置數據、手動(dòng)簽到數據、Apple Health 記錄的運動(dòng)健康數據、RescueTime 記錄的工作效率數據以及通勤時(shí)間統計數據。
　　Moves 數據
　　Moves 是我仍然在使用的地理位置追蹤應用，它的運動(dòng)狀態(tài)辨識和地點(diǎn)辨識做的非常好，以至于如今都沒(méi)有找到可取代的應用。Moves 其實(shí)擁有健全的 API，但因為其認證方法的特殊性，IFTTT 和 Zapier 都仍未支持與 Moves 連接。于是，我只能自己編撰一個(gè) Moves → Airtable 的腳本，然后布署在云服務(wù)器上，每天手動(dòng)將今天形成的數據同步的 Airtable 中去。
　　
　　同步 Moves 數據到 Airtable
　　實(shí)現的過(guò)程比較麻煩，都能湊夠一篇文章了，另找時(shí)間再細說(shuō)。這里，Moves 的數據收錄有經(jīng)緯度信息，你可以直接使用 Airtable 提供的 Map Block 模塊對地理位置可視化。
　　
　　因涉及個(gè)人隱私，此處使用官方示意圖
　　關(guān)于 Airtable Blocks 的更多介紹，可以閱讀官方的文章《Getting started with Airtable blocks》
　　Location 數據
　　除了使用 Moves 自動(dòng)記錄地理位置信息，我還自己制做了一個(gè)輔助簽到的 Workflow 用來(lái)標記我覺(jué)得重要的地點(diǎn)，并把地理位置數據實(shí)時(shí)上傳到 Airtable 中的 Location 數據表中。
　　
　　使用 Workflow 上傳地理位置
　　Workflow 非常簡(jiǎn)單，流程如下：定位 → 解析數據 [街道 - 城市 - 地區 - 國家] → 解析數據 [經(jīng)度 - 緯度 - 高度] → 結合當前時(shí)間一并上傳到 Airtable 中。
　　
　　Airtable 記錄的地理位置數據Apple Health 數據
　　目前，追蹤健康信息主要是使用 Apple Watch 和 iPhone，通過(guò)本身的健康應用以及配合 Moves，Autosleep 等第三方應用完成。Apple Health 無(wú)法實(shí)現 iCloud 同步，更沒(méi)有 API 支持，所以只能半自動(dòng)同步到 Airtable。我采用的方式是定期從 Apple Health 中導入數據文件到 Dropbox 中，Dropbox 的數據壓縮包會(huì )手動(dòng)同步到云服務(wù)器中，再由云服務(wù)器中布署的 Python 腳本手動(dòng)完成數據解析，并通過(guò) API 同步到 Airtable 的表格中去。
　　RescueTime 數據
　　工作效率記錄我會(huì )使用到 RescueTime 應用，RescueTime 會(huì )手動(dòng)記錄各種程序的前臺運行時(shí)間，再和數據庫進(jìn)行比對得到相應應用屬于效率應用還是非效率應用，從而手動(dòng)統計每晚的工作效率。
　　RescueTime 的數據同步到 Airtable 就比較便捷了，可以使用 IFTTT，Zapier 或者開(kāi)發(fā)者插口同步。我選擇的是 Zapier，因為它可以同步多達 59 項數據信息。觸發(fā)的動(dòng)作選擇「當每日數據匯總后」，然后再將對應的數據更新到對應的列即可。過(guò)程十分簡(jiǎn)單，就不再贅言了。
　　
　　使用 Zapier 同步 RescueTime 數據到 Airtable
　　這里介紹一個(gè)使用 RescueTime 的一個(gè)小技巧，那就是最好定期去自動(dòng)標記相應應用的效率屬性。首先，我們每晚瀏覽的大多數網(wǎng)頁(yè)或則使用的應用都是比較固定的，手動(dòng)標記耗費的時(shí)間不多。其次，有一些應用對每個(gè)人的效率屬性不一致。比如，我早已好多年沒(méi)用 QQ 作為和他人的聊天工具了，所以但凡當使用 QQ 時(shí)，基本上都屬于處理工作里面的事情，它對于我而言就是效率狀態(tài)，而不是閑暇狀態(tài)。
　　通勤時(shí)間數據
　　Commute 表拿來(lái)統計我的通勤時(shí)間。每天，我就會(huì )選擇輕軌作為下班通勤的主要交通工具，雖然輕軌在站與站之間的運行時(shí)間比較確定，但因為存在換乘，所以每晚的通勤時(shí)間的變化就比較大了。打個(gè)比方，有時(shí)候晚上只晚出發(fā) 5 分鐘，如果剛好趕上一波高峰，實(shí)際抵達公司的時(shí)間常常會(huì )晚 20 分鐘。所以，我從年初就開(kāi)始每晚記錄自己的通勤時(shí)間，打算等到數據累計到一定量以后，通過(guò)數據剖析得到自己每晚的合理出發(fā)時(shí)間。
　　在記錄通勤時(shí)間的時(shí)侯，由于打算將數據保存到 Airtable，所以一開(kāi)始就直接就排除了現有的計時(shí)器或則第三方 App，然后把目標集中到 Workflow。但是，很快我就發(fā)覺(jué) Workflow 的現有動(dòng)作中，并沒(méi)有支持在后臺完成計時(shí)的動(dòng)作。后來(lái)，我就想到了直接利用 Airtable 來(lái)完成這個(gè)功能，這個(gè)功能的邏輯十分簡(jiǎn)單。流程如下：
　　
　　Workflow + Airtable 統計通勤時(shí)間每晚從屋內出發(fā)的時(shí)侯，點(diǎn)擊 workflow 將此刻的時(shí)間上傳到 Airtable，并記為出發(fā)時(shí)間。當抵達公司時(shí)，再次點(diǎn)擊 Workflow 將時(shí)間上傳到 Airtable 。由于 Airtable 本身可以使用數據函數，就能估算出兩個(gè)時(shí)間差，并直接在我第二次點(diǎn)擊 Workflow 上傳時(shí)間后，將估算好的通勤時(shí)間推送到手機上。這樣，既可以實(shí)時(shí)見(jiàn)到記錄出來(lái)的通勤時(shí)間，也不再須要二次過(guò)程將數據上傳到 Airtable 中。
　　
　　Airtable 記錄的通勤時(shí)間信息存檔數據庫
　　信息存檔數據庫是拿來(lái)保存我覺(jué)得有必要存檔的互聯(lián)網(wǎng)數據。其中，主要有三個(gè) Tables，分別是：微博、博客以及稍后讀。
　　我喜歡定期清空自己的微博，防止在互聯(lián)網(wǎng)上留下過(guò)多的「歷史」。但又不想扔掉自己轉發(fā)過(guò)的微博，于是就有了這個(gè)微博存檔表。存檔微博的方式十分簡(jiǎn)單，使用 IFTTT 新建一個(gè)動(dòng)作，實(shí)時(shí)將微博記錄到 Airtable 中保存。
　　
　　微博存檔
　　同樣，我使用 Pocket 作為稍后閱讀工具，也就通過(guò)創(chuàng )建 IFTTT 動(dòng)作，將保存在 Pocket 中的文章同步存檔到 Airtable 中。
　　除此之外，博客存檔表拿來(lái)備份自己在互聯(lián)網(wǎng)上創(chuàng )作的內容。比如在少數派寫(xiě)的文章以及自己的博客文章。該表單使用了自己編撰的 Python 腳本，定期將我的博客文章以及在少數派發(fā)表的文章同步保存到 Airtable 中。
　　其他數據庫
　　除了前面提及的這三個(gè)主要的數據庫，我還有幾個(gè)自己比較喜歡的數據庫，也分享一下。
　　票據存檔數據庫
　　票據存檔的數據庫主要是記錄平時(shí)我覺(jué)得比較重要的支票、發(fā)票、合同文件等。當然，超市購物小票這類(lèi)不太重要的票據也就沒(méi)必要存檔了。
　　
　　收據存檔教育讓利統計數據庫
　　幾個(gè)月前，我在少數派寫(xiě)過(guò)一篇《在校師生福利：Apple、微軟、Adobe 等產(chǎn)品怎樣通過(guò)教育讓利訂購》，這篇文章中介紹一些院校中學(xué)生可以享受的教育讓利項目。不久前，我通過(guò) Airtable 整理了一份愈發(fā)詳盡的教育讓利表單，希望更多的中學(xué)生能享受到優(yōu)價(jià)有品質(zhì)的服務(wù)。
　　
　　教育讓利統計
　　你可以通過(guò)檢索的形式來(lái)獲取自己感興趣的教育讓利項目。當然，我也號召你們來(lái)一起建立這個(gè)表單。如果有一些教育讓利項目非常好，但表單中未涉及到，歡迎直接通過(guò)下邊的鏈接補充遞交到表單中去。
　　菜品、餐館統計數據庫
　　最近，我正在建立的一個(gè)數據庫來(lái)源于我生活中的一個(gè)疼點(diǎn)，那就是常常不知道喝哪些。這個(gè)數據庫中會(huì )記錄下一些餐廳和食材。我會(huì )將平時(shí)喝過(guò)覺(jué)得不錯的，或者想吃的餐廳信息添加到餐廳數據表中，同時(shí)會(huì )記錄一些做過(guò)或則想做的菜肴。
　　當我自己想做飯喝的時(shí)侯，我都會(huì )通過(guò) Workflow 隨機返回食材作為靈感，而想出去喝的時(shí)侯，也可以隨機返回餐廳信息。目前，這個(gè)數據庫和 Workflow 還沒(méi)有完全做好，等建立以后，會(huì )同你們一起分享。
　　另外，文中提及的一些自動(dòng)化數據獲取的 Python 腳本，我也會(huì )整理后擇時(shí)與少數派讀者分享。
　　結語(yǔ)
　　我雖然很早就曉得 Airtable 了，但真正有效地借助上去也是近一年才開(kāi)始的。目前，雖然 Airtable 已經(jīng)幫我存出來(lái)不少的數據，但是我對它的借助程度還并不滿(mǎn)意，今年我會(huì )繼續開(kāi)掘 Airtable 的「正確使用方法」。
　　如今，我們都曉得經(jīng)常須要備份自己的相片、手機、電腦，防止資料遺失。除此之外，我們同樣應當注重起自己每晚形成的其他數據。目前初步構建上去的數據集中搜集模式只是開(kāi)始。等待數據積累到一定量時(shí)，就須要著(zhù)手「數據集中剖析」，使其真正地能幫助自己發(fā)覺(jué)某個(gè)壞習慣，提升一些效率，改變一些東西。
　　( 本文「參與年度征文活動(dòng)」)
　　在今年的年度盤(pán)點(diǎn)活動(dòng) 中，我們再度舉行了年度征文活動(dòng)，以「我是少數派，這是我的 2017」為題，回顧一下你在 2017 年的變化，將這種變化帶來(lái)的思索分享給你們。查看全部

　　如今，數據早已被稱(chēng)之為信息時(shí)代的「黃金」，個(gè)人可以通過(guò)數據來(lái)量化自我，公司可以使用數據來(lái)幫助決策?；ヂ?lián)網(wǎng)服務(wù)商可以通過(guò)搜集用戶(hù)數據提供愈發(fā)個(gè)性化的服務(wù)，我們也可以搜集自己的數據來(lái)優(yōu)化自己的生活方式。
　　近一年來(lái)，我開(kāi)始意識到自己作為數據發(fā)生器的重要性，于是就開(kāi)始下意識地集中搜集自己形成的各種數據，建立自己的數據搜集模式。而提到為何要集中搜集個(gè)人數據，主要緣由應當有兩點(diǎn)：
　　目前使用了 Moves，RescueTime，Toggl 等各種應用來(lái)搜集自己的地理位置、時(shí)間消耗等數據。但是這種數據都存放于單獨的應用之上，過(guò)于分散。自己看得見(jiàn)，摸得著(zhù)的數據，比置于他人的服務(wù)器上更放心，也更容易集中加以借助。
　　集中搜集數據，意味著(zhù) Moves，RescueTime 等應用弄成了純粹的搜集工具，而數據會(huì )匯總到自己手中。不同類(lèi)型的數據一旦匯集到一起，不僅可以針對單一類(lèi)別數據進(jìn)行可視化展示，還能剖析出數據直接的關(guān)聯(lián)性，對自己的行為更具有指導意義。
　　選擇一款云端表格工具
　　數據搜集的末端，對應著(zhù)用于儲存數據的數據庫。當然，對于個(gè)人數據搜集而言，我們常說(shuō)的電子表格也許就足夠了。最使大眾熟知的電子表格工具一定是 Microsoft Excel 。但是，作為一款桌面軟件，Excel 往往并不適用于現代的數據搜集流程。例如，你想將你的微博存檔保留，難道是通過(guò)自動(dòng)復制粘貼到 Excel 文檔中嗎？顯然不太實(shí)際。
　　所以，如果我們有一個(gè)置于云端的電子表格，可想像的空間就大好多了。說(shuō)到云端電子表格，不得不再度提及 Excel，只不過(guò)此次是它的孿生兄弟 Excel Online，作為 Office 365 的套件之一，Excel Online 除了未能處理宏命令，其他方面幾乎就是桌面版 Excel 的完美克隆。
　　相比之下，本文的主角 Airtable 的名氣就遠不及 Excel 了。但是，作為一個(gè)典型的硅谷公司產(chǎn)品，Airtable 也擁有不錯的口碑。此外，Google Sheets 也是優(yōu)秀的云端表格工具，只是這朵云距我們稍為遠了一些。
　　那么，對于這三款相對優(yōu)秀的云端電子表格，到底哪一款愈發(fā)適宜用于個(gè)人數據搜集整理呢？我做了一個(gè)對比。
　　

　　Airtable，Excel Online 以及 Google Sheets 對比
　　當我選擇的時(shí)侯，最看重的功能雖然是 API 支持。只有具備了 API 接口，才能使數據搜集流程可以實(shí)現自動(dòng)化，也才是名副其實(shí)的「云端表格」。而使我最終選擇 Airtable 的緣由，應該有如下幾點(diǎn)：
　　基礎功能同另外的兩個(gè)產(chǎn)品相比沒(méi)有顯著(zhù)的缺位，甚至擁有象條形碼輸入、iframe 嵌入等更多差異化功能。Airtable 同時(shí)支持 IFTTT 和 Zapier 云端自動(dòng)化工具，且 API 使用上去更簡(jiǎn)單便捷。很多時(shí)侯，就算使用現有工具難以滿(mǎn)足需求，也可以按照開(kāi)發(fā)者文檔自行編撰代碼實(shí)現數據讀取和寫(xiě)入。Airtable 外觀(guān)設計愈發(fā)漂亮，這一點(diǎn)在長(cháng)時(shí)間的使用過(guò)程中特別重要。Airtable 使用簡(jiǎn)介
　　在即將介紹我是怎樣使用 Airitable 集中整理數據之前，我想先對 Airtable 做一個(gè)簡(jiǎn)單介紹。
　　如下圖所示，Airtable 主要收錄有 6 個(gè)基本組件，分別是：
　　

　　Airtable 收錄的 6 個(gè)基本組件
　　可以看出，Airtable 從誕生之初就具備了關(guān)系型數據庫的樣子，已經(jīng)滿(mǎn)足了對數據存儲的日常需求。從功能上，除了 Excel Online，基本上沒(méi)有競品。
　　要想對個(gè)人數據進(jìn)行集中搜集整理，首先須要在 Airtable 創(chuàng )建不同的數據庫。建立數據庫是個(gè)人數據搜集工程中的第一步，所以并不是隨便亂建的。其中，我們須要先想一想搜集數據的大類(lèi)，然后在細分大類(lèi)中的小類(lèi)，并對應到數據表中。我的數據庫主要有下邊 3 個(gè)，樹(shù)形結構如圖所示。
　　

　　我的個(gè)人數據搜集樹(shù)狀結構圖工作學(xué)習數據庫
　　工作學(xué)習數據庫會(huì )搜集平時(shí)我在工作或則學(xué)習中形成的相關(guān)數據。根據我的使用習慣，數據庫收錄了 4 張數據表，分別是：Calendar、Todoist、Trello 以及 Issues（同步 Github）?？吹矫討斁秃苋菀酌靼走@ 4 張表的意思了。
　　對于這四類(lèi)服務(wù)的數據，我均是采用 IFTTT 或者 Zapier 將其同步到 Airtable 中。這里補充介紹一下 IFTTT 和 Zapier 的區別與聯(lián)系。首先，二者都是整合不同應用提供的開(kāi)發(fā)者 API 實(shí)現自動(dòng)化流程的云端服務(wù)，這是她們的相同之處。但是，Zapier 相對于 IFTTT 會(huì )更強悍一些，它通常情況下會(huì )支持原服務(wù)更全面的 API 接口，且支持多個(gè)服務(wù)聯(lián)動(dòng)。相比之下，IFTTT 很多時(shí)侯只提供主要的插口，且只支持兩個(gè)服務(wù)之間的數據傳遞。
　　

　　Zapier 支持多個(gè)服務(wù)同時(shí)聯(lián)動(dòng)（右圖）
　　舉個(gè)反例，當我在使用 Zapier 實(shí)現 Google Calendar → Airtable 的過(guò)程中，Zapier 支持讀取 Google Calendar 中的 43 項數據（雖然有一些不實(shí)用），但 IFTTT 只支持 8 個(gè)。當然，IFTTT 也有比 Zapier 好用的時(shí)侯。比如將 Todoist 完成任務(wù)同步到 Airtable 時(shí)，Zapier 不支持檢測任意 Project 下完成的任務(wù)，需針對每位 Project 設置單獨的流程。
　　

　　Todoist → Airtable 時(shí)，IFTTT 更占優(yōu)勢（左圖）
　　四個(gè)服務(wù)同步到 Airtable 的設置都大同小異，這里我只拿 Todoist → Airtable 詳細說(shuō)明。當我選擇 IFTTT 作為 Todoist → Airtable 的同步工具時(shí)，首先須要到 IFTTT 上看一看其支持讀取 Todoist 的什么數據，你可以通過(guò)創(chuàng )建動(dòng)作時(shí)查看。
　　

　　創(chuàng )建 Todoist → Airtable 動(dòng)作時(shí)，IFTTT 支持讀取的數據項目
　　我們可以看見(jiàn)從 Todoist → Airtable 一共支持 7 個(gè)類(lèi)別的數據。那么，現在可以先新建這個(gè)動(dòng)作。注意，你須要遵循 IFTTT 制定的句型格式，才能正確地將數據寫(xiě)入到 Airtable 中。
　　也就是說(shuō)，如果要將這 7 類(lèi)數據全部同步到 Airtable，你須要在 IFTTT 動(dòng)作的最后輸入如下所示的內容。我習慣之間使用 IFTTT 的 ingredient 名稱(chēng)作為 Airtable 中的列名稱(chēng)。
　　格式：::airtable::Airtable 中的列名::{{IFTTT 中的 ingredient}}
　　示例內容：
　　::airtable::TaskContent::{{TaskContent}}
::airtable::LinkToTask::{{LinkToTask}}
::airtable::Project::{{Project}}
::airtable::Labels::{{Labels}}
::airtable::Priority:: {{Priority}}
::airtable::CompletedAt::{{CompletedAt}}
::airtable::DueDate::{{DueDate}}
　　接下來(lái)，就可以到 Airtable 中設置相應的列名稱(chēng)了。在設置對應的列屬性（文本、數字、圖片等）時(shí)，我建議一開(kāi)始統一設置為「Single line text」，也就是單行文本格式，以避免導出數據出錯。
　　

　　統一設置表格列屬性為文本格式
　　當測試導出成功以后，就可以調整列屬性。例如這兒，Project 的數目是有限的，且每位任務(wù)只對應一個(gè) Project。就可以將其列屬性設定為 Single select（單選），這樣也便捷日后對任務(wù)進(jìn)行篩選。同樣，日期可以使用 Date 屬性，鏈接使用 URL 等。
　　

　　調整最合適的列屬性
　　如果調整列屬性以后，表格顯示為空白或報錯，那就意味著(zhù)通過(guò) IFTTT 傳過(guò)來(lái)的數據格式并不能挺好地被 Airtable 支持。比如這兒的 CompletedAt，也就是項目的完成日期 + 時(shí)間。IFTTT 輸出的數據格式是象這樣的 January 20, 2018 at 10:18AM，Airtable 無(wú)法之間將其轉換為對應的「日期+時(shí)間」的格式。
　　為了便捷以后的數據剖析，我們當然更偏向于將其處理成時(shí)間序列，也就是按 Airtable 中的「日期+時(shí)間」格式保存。此時(shí)，我們可以通過(guò)新建中間列作為過(guò)渡，然后借助 Airtable 的 Formula 公式將原文本列轉換為可辨識的「日期+時(shí)間」列。具體步驟如下：
　　明確區別：原文本列格式為January 20, 2018 at 10:18AM，Airtable 可辨識的格式為January 20, 2018 10:18 AM。注意觀(guān)察兩者之間的區別，文本格式多了 at + 一個(gè)空格字符，同時(shí) AM 字符前缺乏一個(gè)空格。格式轉換：明白區別以后就可以開(kāi)始使用 Airtable 提供的 Formula 公式轉換格式。首先是去除 at 字符，然后在結尾的 AM 或者 PM 前面降低空格。
　　

　　使用 Formula 公式轉換數據格式
　　這里使用了 SEARCH() 函數去定位要更改的位置，然后使用 REPLACE() 函數更改字符。最后再使用 DATATIME_FOMRMAT() 函數低格字符串為我們想要的「日期-時(shí)間」樣式。一個(gè)小的方法是，如果你嫌降低的中間列較多，那么可以使用 Airtable 頂部菜單的 Hide fields 選項隱去不必要的列，只呈現我們須要的數據即可。
　　量化自我數據庫
　　我的第二個(gè)主要數據庫為量化自我數據庫，它是由：Moves、Location、Apple Health、RescueTime 以及 Commute 等 5 個(gè)數據表組成。這 5 個(gè)數據表分別對應著(zhù) Moves 記錄的地理位置數據、手動(dòng)簽到數據、Apple Health 記錄的運動(dòng)健康數據、RescueTime 記錄的工作效率數據以及通勤時(shí)間統計數據。
　　Moves 數據
　　Moves 是我仍然在使用的地理位置追蹤應用，它的運動(dòng)狀態(tài)辨識和地點(diǎn)辨識做的非常好，以至于如今都沒(méi)有找到可取代的應用。Moves 其實(shí)擁有健全的 API，但因為其認證方法的特殊性，IFTTT 和 Zapier 都仍未支持與 Moves 連接。于是，我只能自己編撰一個(gè) Moves → Airtable 的腳本，然后布署在云服務(wù)器上，每天手動(dòng)將今天形成的數據同步的 Airtable 中去。
　　

　　同步 Moves 數據到 Airtable
　　實(shí)現的過(guò)程比較麻煩，都能湊夠一篇文章了，另找時(shí)間再細說(shuō)。這里，Moves 的數據收錄有經(jīng)緯度信息，你可以直接使用 Airtable 提供的 Map Block 模塊對地理位置可視化。
　　

　　因涉及個(gè)人隱私，此處使用官方示意圖
　　關(guān)于 Airtable Blocks 的更多介紹，可以閱讀官方的文章《Getting started with Airtable blocks》
　　Location 數據
　　除了使用 Moves 自動(dòng)記錄地理位置信息，我還自己制做了一個(gè)輔助簽到的 Workflow 用來(lái)標記我覺(jué)得重要的地點(diǎn)，并把地理位置數據實(shí)時(shí)上傳到 Airtable 中的 Location 數據表中。
　　

　　使用 Workflow 上傳地理位置
　　Workflow 非常簡(jiǎn)單，流程如下：定位 → 解析數據 [街道 - 城市 - 地區 - 國家] → 解析數據 [經(jīng)度 - 緯度 - 高度] → 結合當前時(shí)間一并上傳到 Airtable 中。
　　

　　Airtable 記錄的地理位置數據Apple Health 數據
　　目前，追蹤健康信息主要是使用 Apple Watch 和 iPhone，通過(guò)本身的健康應用以及配合 Moves，Autosleep 等第三方應用完成。Apple Health 無(wú)法實(shí)現 iCloud 同步，更沒(méi)有 API 支持，所以只能半自動(dòng)同步到 Airtable。我采用的方式是定期從 Apple Health 中導入數據文件到 Dropbox 中，Dropbox 的數據壓縮包會(huì )手動(dòng)同步到云服務(wù)器中，再由云服務(wù)器中布署的 Python 腳本手動(dòng)完成數據解析，并通過(guò) API 同步到 Airtable 的表格中去。
　　RescueTime 數據
　　工作效率記錄我會(huì )使用到 RescueTime 應用，RescueTime 會(huì )手動(dòng)記錄各種程序的前臺運行時(shí)間，再和數據庫進(jìn)行比對得到相應應用屬于效率應用還是非效率應用，從而手動(dòng)統計每晚的工作效率。
　　RescueTime 的數據同步到 Airtable 就比較便捷了，可以使用 IFTTT，Zapier 或者開(kāi)發(fā)者插口同步。我選擇的是 Zapier，因為它可以同步多達 59 項數據信息。觸發(fā)的動(dòng)作選擇「當每日數據匯總后」，然后再將對應的數據更新到對應的列即可。過(guò)程十分簡(jiǎn)單，就不再贅言了。
　　

　　使用 Zapier 同步 RescueTime 數據到 Airtable
　　這里介紹一個(gè)使用 RescueTime 的一個(gè)小技巧，那就是最好定期去自動(dòng)標記相應應用的效率屬性。首先，我們每晚瀏覽的大多數網(wǎng)頁(yè)或則使用的應用都是比較固定的，手動(dòng)標記耗費的時(shí)間不多。其次，有一些應用對每個(gè)人的效率屬性不一致。比如，我早已好多年沒(méi)用 QQ 作為和他人的聊天工具了，所以但凡當使用 QQ 時(shí)，基本上都屬于處理工作里面的事情，它對于我而言就是效率狀態(tài)，而不是閑暇狀態(tài)。
　　通勤時(shí)間數據
　　Commute 表拿來(lái)統計我的通勤時(shí)間。每天，我就會(huì )選擇輕軌作為下班通勤的主要交通工具，雖然輕軌在站與站之間的運行時(shí)間比較確定，但因為存在換乘，所以每晚的通勤時(shí)間的變化就比較大了。打個(gè)比方，有時(shí)候晚上只晚出發(fā) 5 分鐘，如果剛好趕上一波高峰，實(shí)際抵達公司的時(shí)間常常會(huì )晚 20 分鐘。所以，我從年初就開(kāi)始每晚記錄自己的通勤時(shí)間，打算等到數據累計到一定量以后，通過(guò)數據剖析得到自己每晚的合理出發(fā)時(shí)間。
　　在記錄通勤時(shí)間的時(shí)侯，由于打算將數據保存到 Airtable，所以一開(kāi)始就直接就排除了現有的計時(shí)器或則第三方 App，然后把目標集中到 Workflow。但是，很快我就發(fā)覺(jué) Workflow 的現有動(dòng)作中，并沒(méi)有支持在后臺完成計時(shí)的動(dòng)作。后來(lái)，我就想到了直接利用 Airtable 來(lái)完成這個(gè)功能，這個(gè)功能的邏輯十分簡(jiǎn)單。流程如下：
　　

　　Workflow + Airtable 統計通勤時(shí)間每晚從屋內出發(fā)的時(shí)侯，點(diǎn)擊 workflow 將此刻的時(shí)間上傳到 Airtable，并記為出發(fā)時(shí)間。當抵達公司時(shí)，再次點(diǎn)擊 Workflow 將時(shí)間上傳到 Airtable 。由于 Airtable 本身可以使用數據函數，就能估算出兩個(gè)時(shí)間差，并直接在我第二次點(diǎn)擊 Workflow 上傳時(shí)間后，將估算好的通勤時(shí)間推送到手機上。這樣，既可以實(shí)時(shí)見(jiàn)到記錄出來(lái)的通勤時(shí)間，也不再須要二次過(guò)程將數據上傳到 Airtable 中。
　　

　　Airtable 記錄的通勤時(shí)間信息存檔數據庫
　　信息存檔數據庫是拿來(lái)保存我覺(jué)得有必要存檔的互聯(lián)網(wǎng)數據。其中，主要有三個(gè) Tables，分別是：微博、博客以及稍后讀。
　　我喜歡定期清空自己的微博，防止在互聯(lián)網(wǎng)上留下過(guò)多的「歷史」。但又不想扔掉自己轉發(fā)過(guò)的微博，于是就有了這個(gè)微博存檔表。存檔微博的方式十分簡(jiǎn)單，使用 IFTTT 新建一個(gè)動(dòng)作，實(shí)時(shí)將微博記錄到 Airtable 中保存。
　　

　　微博存檔
　　同樣，我使用 Pocket 作為稍后閱讀工具，也就通過(guò)創(chuàng )建 IFTTT 動(dòng)作，將保存在 Pocket 中的文章同步存檔到 Airtable 中。
　　除此之外，博客存檔表拿來(lái)備份自己在互聯(lián)網(wǎng)上創(chuàng )作的內容。比如在少數派寫(xiě)的文章以及自己的博客文章。該表單使用了自己編撰的 Python 腳本，定期將我的博客文章以及在少數派發(fā)表的文章同步保存到 Airtable 中。
　　其他數據庫
　　除了前面提及的這三個(gè)主要的數據庫，我還有幾個(gè)自己比較喜歡的數據庫，也分享一下。
　　票據存檔數據庫
　　票據存檔的數據庫主要是記錄平時(shí)我覺(jué)得比較重要的支票、發(fā)票、合同文件等。當然，超市購物小票這類(lèi)不太重要的票據也就沒(méi)必要存檔了。
　　

　　收據存檔教育讓利統計數據庫
　　幾個(gè)月前，我在少數派寫(xiě)過(guò)一篇《在校師生福利：Apple、微軟、Adobe 等產(chǎn)品怎樣通過(guò)教育讓利訂購》，這篇文章中介紹一些院校中學(xué)生可以享受的教育讓利項目。不久前，我通過(guò) Airtable 整理了一份愈發(fā)詳盡的教育讓利表單，希望更多的中學(xué)生能享受到優(yōu)價(jià)有品質(zhì)的服務(wù)。
　　

　　教育讓利統計
　　你可以通過(guò)檢索的形式來(lái)獲取自己感興趣的教育讓利項目。當然，我也號召你們來(lái)一起建立這個(gè)表單。如果有一些教育讓利項目非常好，但表單中未涉及到，歡迎直接通過(guò)下邊的鏈接補充遞交到表單中去。
　　菜品、餐館統計數據庫
　　最近，我正在建立的一個(gè)數據庫來(lái)源于我生活中的一個(gè)疼點(diǎn)，那就是常常不知道喝哪些。這個(gè)數據庫中會(huì )記錄下一些餐廳和食材。我會(huì )將平時(shí)喝過(guò)覺(jué)得不錯的，或者想吃的餐廳信息添加到餐廳數據表中，同時(shí)會(huì )記錄一些做過(guò)或則想做的菜肴。
　　當我自己想做飯喝的時(shí)侯，我都會(huì )通過(guò) Workflow 隨機返回食材作為靈感，而想出去喝的時(shí)侯，也可以隨機返回餐廳信息。目前，這個(gè)數據庫和 Workflow 還沒(méi)有完全做好，等建立以后，會(huì )同你們一起分享。
　　另外，文中提及的一些自動(dòng)化數據獲取的 Python 腳本，我也會(huì )整理后擇時(shí)與少數派讀者分享。
　　結語(yǔ)
　　我雖然很早就曉得 Airtable 了，但真正有效地借助上去也是近一年才開(kāi)始的。目前，雖然 Airtable 已經(jīng)幫我存出來(lái)不少的數據，但是我對它的借助程度還并不滿(mǎn)意，今年我會(huì )繼續開(kāi)掘 Airtable 的「正確使用方法」。
　　如今，我們都曉得經(jīng)常須要備份自己的相片、手機、電腦，防止資料遺失。除此之外，我們同樣應當注重起自己每晚形成的其他數據。目前初步構建上去的數據集中搜集模式只是開(kāi)始。等待數據積累到一定量時(shí)，就須要著(zhù)手「數據集中剖析」，使其真正地能幫助自己發(fā)覺(jué)某個(gè)壞習慣，提升一些效率，改變一些東西。
　　( 本文「參與年度征文活動(dòng)」)
　　在今年的年度盤(pán)點(diǎn)活動(dòng) 中，我們再度舉行了年度征文活動(dòng)，以「我是少數派，這是我的 2017」為題，回顧一下你在 2017 年的變化，將這種變化帶來(lái)的思索分享給你們。

您的每次點(diǎn)擊如何成為數據？談?wù)劵ヂ?lián)網(wǎng)公司的內部數據采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 301 次瀏覽 ? 2020-08-07 19:18 ? 來(lái)自相關(guān)話(huà)題

　　數據是怎么來(lái)的？
　　在許多行業(yè)中，數據是手動(dòng)采集的，例如醫學(xué)疾病數據，環(huán)境數據和經(jīng)濟數據. 數據更新周期也相對較長(cháng)，例如每年和每月.
　　但是互聯(lián)網(wǎng)行業(yè)是不同的. 在這個(gè)自然交通行業(yè)中，數據量巨大，并且每天的更新周期甚至很長(cháng). 通常有小時(shí)，分鐘和實(shí)時(shí)秒. 現在落入表中并直接流式傳輸數據已為時(shí)已晚.
　　最后介紹了“流計算”: 數據流的實(shí)時(shí)計算不需要存儲在表中，主要是為了滿(mǎn)足一些實(shí)時(shí)需求，例如實(shí)時(shí)監控，實(shí)時(shí)個(gè)性化推薦等待.
　　無(wú)論是“流計算”還是將其存儲在表中進(jìn)行計算，總是會(huì )采集數據源，那么數據源在哪里？我們每天如何打開(kāi)APP，瀏覽網(wǎng)頁(yè)，單擊，下訂單，付款等，它們如何落入表格并成為數據？
　　所有這些都來(lái)自稱(chēng)為“日志”的東西，該日志記錄了發(fā)生的時(shí)間和發(fā)生的事件，即最原創(chuàng )的事件. 這些日志信息是數據源. 互聯(lián)網(wǎng)公司建立了一個(gè)采集框架，可將日志轉換為數據并將其存儲在表中，或轉換為數據流以進(jìn)行流計算.
　　日志的采集非常重要. 只有采集了數據，公司才能將精力投入到業(yè)務(wù)價(jià)值的挖掘中. （當然，我所談?wù)摰氖莾炔繑祿杉?，外部數據爬網(wǎng)和購買(mǎi)的第三方數據，這不在本文討論范圍之內）.
　　所有主要的互聯(lián)網(wǎng)巨頭都開(kāi)發(fā)了自己的日志采集系統，例如Apache的chukwa，Facebook的Scribe，Cloudera的水槽和Linkedin的Kafka. 這些是當前由國內公司使用的更流行的開(kāi)源日志采集框架. 360這是一個(gè)基于Scribe的日志采集系統，而Ali使用了自己的TT（TimeTunel）.
　　這里主要是介紹chukwa和Scribe，嘗試使用簡(jiǎn)單的語(yǔ)言讓每個(gè)人都了解他們的架構思想:
　　1，楚科（Chukwa）
　　chukwa是Apache的開(kāi)源項目. 作為Hadoop產(chǎn)品之一，它使用了許多Hadoop組件（通過(guò)HDFS存儲和使用MapReducec進(jìn)行數據處理），從而完全繼承了Hadoop的可伸縮性和穩定性.
　　chukwa包括用于監視數據，分析數據和數據可視化的一系列組件. 結構圖如下:
　?。▓D片來(lái)自）
　?。?）HDFS
　　問(wèn)題在于日志記錄系統的情況恰好相反，需要高并發(fā)性和低速度才能寫(xiě)入大量小文件. 系統中的Agent和Collector也要滿(mǎn)足這種支持.
　?。?）什么是代理商
　?。?）什么是采集器
　　實(shí)際上，chukwa并不是很有效，因為它不是一個(gè)純粹的日志采集工具，而是一個(gè)完整的數據框架，其中包括諸如數據分析，處理和可視化之類(lèi)的功能. 但是，就優(yōu)化目標而言，數據采集和數據分析的兩個(gè)主要任務(wù)并不相同甚至矛盾. 這將影響數據采集的效率.
　　許多人認為最好只采集數據并將數據分析轉移到其他成熟的框架. 因此，楚科娃尚未得到廣泛應用.
　　2，抄寫(xiě)員
　　Scribe是Facebook的開(kāi)源日志采集系統. 其主要思想是“分布式采集，統一處理”，從各種日志源采集數據并將其存儲在中央存儲系統中. 框架如下:
　?。⊿cribe體系結構，圖1源自）
　?。ǔ瓕?xiě)員架構圖2來(lái)自網(wǎng)絡(luò )，已被入侵并刪除）
　　具體來(lái)說(shuō)，在分布式系統中，每個(gè)節點(diǎn)都將部署劃線(xiàn)服務(wù)（本地劃線(xiàn)服務(wù)器），采集該節點(diǎn)的日志信息，并將其發(fā)送到劃線(xiàn)中央服務(wù)（中央劃線(xiàn)服務(wù)器）.
　　抄寫(xiě)員的一個(gè)重要優(yōu)點(diǎn)是容錯能力. 將節點(diǎn)信息發(fā)送到劃線(xiàn)中央服務(wù)后，中央服務(wù)系統是否掛起！向上！（崩潰），我該怎么辦？
　　這時(shí)，本地劃線(xiàn)器服務(wù)會(huì )將信息寫(xiě)入本地磁盤(pán)，并在中央服務(wù)可用時(shí)重新發(fā)送. 劃線(xiàn)員中央服務(wù)將數據寫(xiě)入最終目的地. 這不是機智嗎？當然，在某些特殊情況下，抄寫(xiě)員也會(huì )丟失數據，例如: 查看全部

　　數據是怎么來(lái)的？
　　在許多行業(yè)中，數據是手動(dòng)采集的，例如醫學(xué)疾病數據，環(huán)境數據和經(jīng)濟數據. 數據更新周期也相對較長(cháng)，例如每年和每月.
　　但是互聯(lián)網(wǎng)行業(yè)是不同的. 在這個(gè)自然交通行業(yè)中，數據量巨大，并且每天的更新周期甚至很長(cháng). 通常有小時(shí)，分鐘和實(shí)時(shí)秒. 現在落入表中并直接流式傳輸數據已為時(shí)已晚.
　　最后介紹了“流計算”: 數據流的實(shí)時(shí)計算不需要存儲在表中，主要是為了滿(mǎn)足一些實(shí)時(shí)需求，例如實(shí)時(shí)監控，實(shí)時(shí)個(gè)性化推薦等待.
　　無(wú)論是“流計算”還是將其存儲在表中進(jìn)行計算，總是會(huì )采集數據源，那么數據源在哪里？我們每天如何打開(kāi)APP，瀏覽網(wǎng)頁(yè)，單擊，下訂單，付款等，它們如何落入表格并成為數據？
　　所有這些都來(lái)自稱(chēng)為“日志”的東西，該日志記錄了發(fā)生的時(shí)間和發(fā)生的事件，即最原創(chuàng )的事件. 這些日志信息是數據源. 互聯(lián)網(wǎng)公司建立了一個(gè)采集框架，可將日志轉換為數據并將其存儲在表中，或轉換為數據流以進(jìn)行流計算.
　　日志的采集非常重要. 只有采集了數據，公司才能將精力投入到業(yè)務(wù)價(jià)值的挖掘中. （當然，我所談?wù)摰氖莾炔繑祿杉?，外部數據爬網(wǎng)和購買(mǎi)的第三方數據，這不在本文討論范圍之內）.
　　所有主要的互聯(lián)網(wǎng)巨頭都開(kāi)發(fā)了自己的日志采集系統，例如Apache的chukwa，Facebook的Scribe，Cloudera的水槽和Linkedin的Kafka. 這些是當前由國內公司使用的更流行的開(kāi)源日志采集框架. 360這是一個(gè)基于Scribe的日志采集系統，而Ali使用了自己的TT（TimeTunel）.
　　這里主要是介紹chukwa和Scribe，嘗試使用簡(jiǎn)單的語(yǔ)言讓每個(gè)人都了解他們的架構思想:
　　1，楚科（Chukwa）
　　chukwa是Apache的開(kāi)源項目. 作為Hadoop產(chǎn)品之一，它使用了許多Hadoop組件（通過(guò)HDFS存儲和使用MapReducec進(jìn)行數據處理），從而完全繼承了Hadoop的可伸縮性和穩定性.
　　chukwa包括用于監視數據，分析數據和數據可視化的一系列組件. 結構圖如下:
　?。▓D片來(lái)自）
　?。?）HDFS
　　問(wèn)題在于日志記錄系統的情況恰好相反，需要高并發(fā)性和低速度才能寫(xiě)入大量小文件. 系統中的Agent和Collector也要滿(mǎn)足這種支持.
　?。?）什么是代理商
　?。?）什么是采集器
　　實(shí)際上，chukwa并不是很有效，因為它不是一個(gè)純粹的日志采集工具，而是一個(gè)完整的數據框架，其中包括諸如數據分析，處理和可視化之類(lèi)的功能. 但是，就優(yōu)化目標而言，數據采集和數據分析的兩個(gè)主要任務(wù)并不相同甚至矛盾. 這將影響數據采集的效率.
　　許多人認為最好只采集數據并將數據分析轉移到其他成熟的框架. 因此，楚科娃尚未得到廣泛應用.
　　2，抄寫(xiě)員
　　Scribe是Facebook的開(kāi)源日志采集系統. 其主要思想是“分布式采集，統一處理”，從各種日志源采集數據并將其存儲在中央存儲系統中. 框架如下:
　?。⊿cribe體系結構，圖1源自）
　?。ǔ瓕?xiě)員架構圖2來(lái)自網(wǎng)絡(luò )，已被入侵并刪除）
　　具體來(lái)說(shuō)，在分布式系統中，每個(gè)節點(diǎn)都將部署劃線(xiàn)服務(wù)（本地劃線(xiàn)服務(wù)器），采集該節點(diǎn)的日志信息，并將其發(fā)送到劃線(xiàn)中央服務(wù)（中央劃線(xiàn)服務(wù)器）.
　　抄寫(xiě)員的一個(gè)重要優(yōu)點(diǎn)是容錯能力. 將節點(diǎn)信息發(fā)送到劃線(xiàn)中央服務(wù)后，中央服務(wù)系統是否掛起！向上！（崩潰），我該怎么辦？
　　這時(shí)，本地劃線(xiàn)器服務(wù)會(huì )將信息寫(xiě)入本地磁盤(pán)，并在中央服務(wù)可用時(shí)重新發(fā)送. 劃線(xiàn)員中央服務(wù)將數據寫(xiě)入最終目的地. 這不是機智嗎？當然，在某些特殊情況下，抄寫(xiě)員也會(huì )丟失數據，例如:

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<samp id="4wike"></samp>

<strike id="4wike"><menu id="4wike"></menu></strike>

<ul id="4wike"></ul>