亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

通過(guò)關(guān)鍵詞采集文章采集api

通過(guò)關(guān)鍵詞采集文章采集api

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-07-23 07:01 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！
　　通過(guò)關(guān)鍵詞采集文章采集api，然后按照第一步來(lái)。文章每篇5k，保存為word文件。然后可以根據不同的關(guān)鍵詞匹配不同的頁(yè)面標題。按照權重分類(lèi)，正常情況下，系統會(huì )根據先后面的標題來(lái)進(jìn)行過(guò)濾，留下權重最高的排列在前面。后面的文章重新排列在后面。一般傳統站點(diǎn)適用。
　　a/所有內容、網(wǎng)站其他文章爬取，可通過(guò)爬蟲(chóng)應用工具api+爬蟲(chóng)工具網(wǎng)站文章或b/少量?jì)热輌oogle搜索相關(guān)內容，比如這篇文章google搜索:apple-iphoneandroidpadiphoneandroidpadhowtoprepareanddesignappswithgoogleplayongoogleapps，可得到對應的頁(yè)面，直接進(jìn)行爬取，
　　也可以用爬蟲(chóng)google搜索adwords關(guān)鍵詞，基本能找到大部分。
　　
　　最好采集整個(gè)博客列表，然后定向搜索，方法有兩種：1.手動(dòng)一個(gè)一個(gè)抓，最難，最累，最煩，不值得。2.用深度學(xué)習+機器學(xué)習，后面是對每個(gè)用戶(hù)（可以基于reddit等網(wǎng)站）爬取數據，
　　我來(lái)回答一下，我正在使用谷歌的adwords采集頁(yè)面，一共有adstroy、adslfit、adsshare、adstockpage4個(gè)采集頁(yè)面。
　　1、在googleadsense登錄頁(yè)面，用爬蟲(chóng)直接采集，采集結果會(huì )顯示在dashboard。
　　2、在googlesearch工具條的instaduck圖標點(diǎn)擊，之后選擇“requestads”，注意我選擇的不是adstroy，而是“adslumen”，反之亦然。
　　
　　3、選擇完畢后，我們就會(huì )找到需要的網(wǎng)站列表，然后將鏈接粘貼過(guò)去，可以看到網(wǎng)站列表已經(jīng)變成adstroy列表。
　　4、現在，我們來(lái)爬，爬取之后，我們會(huì )看到googleadsense列表部分網(wǎng)站列表已經(jīng)被爬取，一點(diǎn)點(diǎn)選擇adstroy網(wǎng)站。
　　5、找到想要的網(wǎng)站的特定關(guān)鍵詞，注意，關(guān)鍵詞可能很長(cháng)，不知道怎么寫(xiě)的話(huà)，將網(wǎng)站右側inverted的網(wǎng)址輸入，回車(chē)即可。
　　6、點(diǎn)擊bookmark就能將網(wǎng)站內容爬取并顯示在dashboard上。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！
　　通過(guò)關(guān)鍵詞采集文章采集api，然后按照第一步來(lái)。文章每篇5k，保存為word文件。然后可以根據不同的關(guān)鍵詞匹配不同的頁(yè)面標題。按照權重分類(lèi)，正常情況下，系統會(huì )根據先后面的標題來(lái)進(jìn)行過(guò)濾，留下權重最高的排列在前面。后面的文章重新排列在后面。一般傳統站點(diǎn)適用。
　　a/所有內容、網(wǎng)站其他文章爬取，可通過(guò)爬蟲(chóng)應用工具api+爬蟲(chóng)工具網(wǎng)站文章或b/少量?jì)热輌oogle搜索相關(guān)內容，比如這篇文章google搜索:apple-iphoneandroidpadiphoneandroidpadhowtoprepareanddesignappswithgoogleplayongoogleapps，可得到對應的頁(yè)面，直接進(jìn)行爬取，
　　也可以用爬蟲(chóng)google搜索adwords關(guān)鍵詞，基本能找到大部分。
　　

　　最好采集整個(gè)博客列表，然后定向搜索，方法有兩種：1.手動(dòng)一個(gè)一個(gè)抓，最難，最累，最煩，不值得。2.用深度學(xué)習+機器學(xué)習，后面是對每個(gè)用戶(hù)（可以基于reddit等網(wǎng)站）爬取數據，
　　我來(lái)回答一下，我正在使用谷歌的adwords采集頁(yè)面，一共有adstroy、adslfit、adsshare、adstockpage4個(gè)采集頁(yè)面。
　　1、在googleadsense登錄頁(yè)面，用爬蟲(chóng)直接采集，采集結果會(huì )顯示在dashboard。
　　2、在googlesearch工具條的instaduck圖標點(diǎn)擊，之后選擇“requestads”，注意我選擇的不是adstroy，而是“adslumen”，反之亦然。
　　

　　3、選擇完畢后，我們就會(huì )找到需要的網(wǎng)站列表，然后將鏈接粘貼過(guò)去，可以看到網(wǎng)站列表已經(jīng)變成adstroy列表。
　　4、現在，我們來(lái)爬，爬取之后，我們會(huì )看到googleadsense列表部分網(wǎng)站列表已經(jīng)被爬取，一點(diǎn)點(diǎn)選擇adstroy網(wǎng)站。
　　5、找到想要的網(wǎng)站的特定關(guān)鍵詞，注意，關(guān)鍵詞可能很長(cháng)，不知道怎么寫(xiě)的話(huà)，將網(wǎng)站右側inverted的網(wǎng)址輸入，回車(chē)即可。
　　6、點(diǎn)擊bookmark就能將網(wǎng)站內容爬取并顯示在dashboard上。

杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-07-19 02:01 ? 來(lái)自相關(guān)話(huà)題

　　杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)
　　通過(guò)關(guān)鍵詞采集文章采集api，然后再通過(guò)api采集網(wǎng)頁(yè)。github在這里，要是想免費，自己寫(xiě)爬蟲(chóng)，
　　excel
　　編寫(xiě)爬蟲(chóng)
　　javascript
　　
　　采集網(wǎng)頁(yè)+node.js+瀏覽器內核
　　原理大概就是先采集某些平臺的url，再去這些平臺的開(kāi)放平臺抓取新的url，有些平臺可能會(huì )查重，有些平臺可能會(huì )封ip，所以需要根據自己的需求來(lái)定。
　　得看看在哪個(gè)方向去采，采集算法是不是剛需，比如前段紅包、秒殺、好友活動(dòng)，比如后端平臺怎么采，數據量有多大，各大平臺流量瓶頸在哪里等。
　　根據現有網(wǎng)站特征，結合你的自身資源，做出一份價(jià)值文章，甚至直接一稿多投。
　　互聯(lián)網(wǎng)采集，你得看你具體什么需求吧。
　　
　　我也想知道，我正在做一個(gè)采集個(gè)人博客內容的網(wǎng)站，
　　講講在的經(jīng)驗，學(xué)校從事的工作，為企業(yè)提供爬蟲(chóng)抓取服務(wù)，后端的，一套定制程序，從各種渠道抓取網(wǎng)站內容，然后又統一加工到一個(gè)文件里。然后又從部門(mén)抓取，再統一放到自己的需要抓取的網(wǎng)站上去。寫(xiě)出來(lái)一個(gè)爬蟲(chóng)不難，難的是做好服務(wù)。
　　我來(lái)講講爬蟲(chóng)技術(shù)采集的技術(shù)應用。本人目前負責杭州校園招聘招聘網(wǎng)站的爬蟲(chóng)，大概是8年開(kāi)始做到現在。從blog抓取，發(fā)展到企業(yè)招聘管理系統，你會(huì )發(fā)現這就是一種很廣泛的技術(shù)可能性。
　　1、如果你只是新手對目標網(wǎng)站不知道如何才能抓取，那你從內部查看看網(wǎng)站架構，研究表單頁(yè)面設計，網(wǎng)站埋點(diǎn)的效果，然后用爬蟲(chóng)抓取，至少你可以知道會(huì )爬到多少。
　　2、如果你已經(jīng)可以知道什么是抓取，那你可以搜索我發(fā)現各種各樣的方法了，然后你會(huì )發(fā)現你不知道如何才能把他采集下來(lái)。
　　3、我比較推薦的一種是你能了解一下互聯(lián)網(wǎng)營(yíng)銷(xiāo)或者小型的小網(wǎng)站的推廣是怎么回事，這樣你就可以寫(xiě)相應的抓取程序，理清楚為什么有很多人愿意去推廣一個(gè)網(wǎng)站并且采集，只要你的方法準確合理。暫時(shí)想到這么多，以后再補充。查看全部

　　杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)
　　通過(guò)關(guān)鍵詞采集文章采集api，然后再通過(guò)api采集網(wǎng)頁(yè)。github在這里，要是想免費，自己寫(xiě)爬蟲(chóng)，
　　excel
　　編寫(xiě)爬蟲(chóng)
　　javascript
　　

　　采集網(wǎng)頁(yè)+node.js+瀏覽器內核
　　原理大概就是先采集某些平臺的url，再去這些平臺的開(kāi)放平臺抓取新的url，有些平臺可能會(huì )查重，有些平臺可能會(huì )封ip，所以需要根據自己的需求來(lái)定。
　　得看看在哪個(gè)方向去采，采集算法是不是剛需，比如前段紅包、秒殺、好友活動(dòng)，比如后端平臺怎么采，數據量有多大，各大平臺流量瓶頸在哪里等。
　　根據現有網(wǎng)站特征，結合你的自身資源，做出一份價(jià)值文章，甚至直接一稿多投。
　　互聯(lián)網(wǎng)采集，你得看你具體什么需求吧。
　　

　　我也想知道，我正在做一個(gè)采集個(gè)人博客內容的網(wǎng)站，
　　講講在的經(jīng)驗，學(xué)校從事的工作，為企業(yè)提供爬蟲(chóng)抓取服務(wù)，后端的，一套定制程序，從各種渠道抓取網(wǎng)站內容，然后又統一加工到一個(gè)文件里。然后又從部門(mén)抓取，再統一放到自己的需要抓取的網(wǎng)站上去。寫(xiě)出來(lái)一個(gè)爬蟲(chóng)不難，難的是做好服務(wù)。
　　我來(lái)講講爬蟲(chóng)技術(shù)采集的技術(shù)應用。本人目前負責杭州校園招聘招聘網(wǎng)站的爬蟲(chóng)，大概是8年開(kāi)始做到現在。從blog抓取，發(fā)展到企業(yè)招聘管理系統，你會(huì )發(fā)現這就是一種很廣泛的技術(shù)可能性。
　　1、如果你只是新手對目標網(wǎng)站不知道如何才能抓取，那你從內部查看看網(wǎng)站架構，研究表單頁(yè)面設計，網(wǎng)站埋點(diǎn)的效果，然后用爬蟲(chóng)抓取，至少你可以知道會(huì )爬到多少。
　　2、如果你已經(jīng)可以知道什么是抓取，那你可以搜索我發(fā)現各種各樣的方法了，然后你會(huì )發(fā)現你不知道如何才能把他采集下來(lái)。
　　3、我比較推薦的一種是你能了解一下互聯(lián)網(wǎng)營(yíng)銷(xiāo)或者小型的小網(wǎng)站的推廣是怎么回事，這樣你就可以寫(xiě)相應的抓取程序，理清楚為什么有很多人愿意去推廣一個(gè)網(wǎng)站并且采集，只要你的方法準確合理。暫時(shí)想到這么多，以后再補充。

通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2022-07-12 12:01 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據
　　通過(guò)關(guān)鍵詞采集文章采集api接口pc端和手機端的數據，獲取數據后可以再數據后面自定義標題的tag，發(fā)文章的時(shí)候把標題寫(xiě)在后面就好了。
　　1.有自動(dòng)采集工具2.用單純的爬蟲(chóng)不行，每次登錄都要爬，一直保持在登錄狀態(tài)，
　　
　　一般只能采集/發(fā)布文章，但是大型網(wǎng)站，比如：百度，騰訊，淘寶上面都是有api接口可以直接接入的，
　　已經(jīng)發(fā)布
　　有。先用抓包的軟件抓到網(wǎng)站信息，再根據相應的代碼寫(xiě)相應的文章。但是爬蟲(chóng)能爬的太局限，而且效率比較低。個(gè)人認為很多事情用簡(jiǎn)單的工具就能搞定，為什么非要寫(xiě)個(gè)爬蟲(chóng)。
　　
　　因為個(gè)人的規模太小，小到無(wú)法判斷哪些東西是合法或者違法的，
　　目前常見(jiàn)的有tomcat等ide。但這種方式最大的弊端就是有業(yè)務(wù)，爬蟲(chóng)就有可能被人分析。比如我做b2c，基于商品名去爬，看有沒(méi)有它的客戶(hù)，通過(guò)同類(lèi)商品看這個(gè)東西賣(mài)得如何，進(jìn)而判斷。有什么優(yōu)點(diǎn)和缺點(diǎn)。自己寫(xiě)怕出問(wèn)題。
　　首先這個(gè)問(wèn)題我不明白什么意思。如果是指爬蟲(chóng)這種爬取商品的工具。所謂“海綿式”爬取就是爬蟲(chóng)一直向下爬。但事實(shí)上這種思路是針對數據量特別小，且本身產(chǎn)品的屬性較為單一的產(chǎn)品來(lái)說(shuō)。但是對于人來(lái)說(shuō)，例如知乎，它的本身并沒(méi)有什么屬性屬性就是某些話(huà)題屬性。說(shuō)實(shí)話(huà)，抓下抓下也不會(huì )太耗時(shí)間，適合自己當成抓取工具去使用就好。其實(shí)tomcat爬比這個(gè)更有效。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據
　　通過(guò)關(guān)鍵詞采集文章采集api接口pc端和手機端的數據，獲取數據后可以再數據后面自定義標題的tag，發(fā)文章的時(shí)候把標題寫(xiě)在后面就好了。
　　1.有自動(dòng)采集工具2.用單純的爬蟲(chóng)不行，每次登錄都要爬，一直保持在登錄狀態(tài)，
　　

　　一般只能采集/發(fā)布文章，但是大型網(wǎng)站，比如：百度，騰訊，淘寶上面都是有api接口可以直接接入的，
　　已經(jīng)發(fā)布
　　有。先用抓包的軟件抓到網(wǎng)站信息，再根據相應的代碼寫(xiě)相應的文章。但是爬蟲(chóng)能爬的太局限，而且效率比較低。個(gè)人認為很多事情用簡(jiǎn)單的工具就能搞定，為什么非要寫(xiě)個(gè)爬蟲(chóng)。
　　

　　因為個(gè)人的規模太小，小到無(wú)法判斷哪些東西是合法或者違法的，
　　目前常見(jiàn)的有tomcat等ide。但這種方式最大的弊端就是有業(yè)務(wù)，爬蟲(chóng)就有可能被人分析。比如我做b2c，基于商品名去爬，看有沒(méi)有它的客戶(hù)，通過(guò)同類(lèi)商品看這個(gè)東西賣(mài)得如何，進(jìn)而判斷。有什么優(yōu)點(diǎn)和缺點(diǎn)。自己寫(xiě)怕出問(wèn)題。
　　首先這個(gè)問(wèn)題我不明白什么意思。如果是指爬蟲(chóng)這種爬取商品的工具。所謂“海綿式”爬取就是爬蟲(chóng)一直向下爬。但事實(shí)上這種思路是針對數據量特別小，且本身產(chǎn)品的屬性較為單一的產(chǎn)品來(lái)說(shuō)。但是對于人來(lái)說(shuō)，例如知乎，它的本身并沒(méi)有什么屬性屬性就是某些話(huà)題屬性。說(shuō)實(shí)話(huà)，抓下抓下也不會(huì )太耗時(shí)間，適合自己當成抓取工具去使用就好。其實(shí)tomcat爬比這個(gè)更有效。

通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-07-03 14:02 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法
　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法：淘寶萬(wàn)千合伙人淘寶萬(wàn)千合伙人這個(gè)app是通過(guò)關(guān)鍵詞采集淘寶、天貓各種商品的信息，而且是免費的，最關(guān)鍵的是不需要電腦，完全免費，希望對你有幫助。
　　去找站長(cháng)的ncq提取網(wǎng)頁(yè)，都是免費的，但是在一些特殊的網(wǎng)站上是要收費的。
　　前段時(shí)間我寫(xiě)了篇這個(gè)的文章：，希望對你有幫助，
　　/
　　
　　為什么邀請我回答這個(gè)問(wèn)題？
　　因為現在網(wǎng)上信息都是通過(guò)加工的啊不同產(chǎn)品的做法不一樣比如我用馬甲抓取速賣(mài)通的商品信息就要200一天然后就自己去外部轉讓了
　　招招唄，
　　加工同樣的工序，
　　上淘寶買(mǎi)，免費的，用淘寶接口直接在后臺抓取，
　　
　　想做就做。抓取很簡(jiǎn)單，寫(xiě)爬蟲(chóng)就可以了，
　　因為現在的信息都是通過(guò)加工而成的。
　　這個(gè)我很有興趣，
　　留下郵箱。我給你發(fā)廣告，
　　這樣的例子很多呀。只要你愿意，很多文章都能免費拿到。我知道不少研究博物館展品的。就是買(mǎi)api來(lái)抓的，連每一幀動(dòng)畫(huà)都可以抓。還有個(gè)群就是一個(gè)拍賣(mài)群，里面拍賣(mài)各種文物。
　　大家可以來(lái)一起賺錢(qián)交流，軟件安卓多，價(jià)格合理，想賺一筆的話(huà)，很不錯。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法
　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法：淘寶萬(wàn)千合伙人淘寶萬(wàn)千合伙人這個(gè)app是通過(guò)關(guān)鍵詞采集淘寶、天貓各種商品的信息，而且是免費的，最關(guān)鍵的是不需要電腦，完全免費，希望對你有幫助。
　　去找站長(cháng)的ncq提取網(wǎng)頁(yè)，都是免費的，但是在一些特殊的網(wǎng)站上是要收費的。
　　前段時(shí)間我寫(xiě)了篇這個(gè)的文章：，希望對你有幫助，
　　/
　　

　　為什么邀請我回答這個(gè)問(wèn)題？
　　因為現在網(wǎng)上信息都是通過(guò)加工的啊不同產(chǎn)品的做法不一樣比如我用馬甲抓取速賣(mài)通的商品信息就要200一天然后就自己去外部轉讓了
　　招招唄，
　　加工同樣的工序，
　　上淘寶買(mǎi)，免費的，用淘寶接口直接在后臺抓取，
　　

　　想做就做。抓取很簡(jiǎn)單，寫(xiě)爬蟲(chóng)就可以了，
　　因為現在的信息都是通過(guò)加工而成的。
　　這個(gè)我很有興趣，
　　留下郵箱。我給你發(fā)廣告，
　　這樣的例子很多呀。只要你愿意，很多文章都能免費拿到。我知道不少研究博物館展品的。就是買(mǎi)api來(lái)抓的，連每一幀動(dòng)畫(huà)都可以抓。還有個(gè)群就是一個(gè)拍賣(mài)群，里面拍賣(mài)各種文物。
　　大家可以來(lái)一起賺錢(qián)交流，軟件安卓多，價(jià)格合理，想賺一筆的話(huà)，很不錯。

如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-06-18 05:41 ? 來(lái)自相關(guān)話(huà)題

　　如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星
　　
　　這是熊貓未來(lái)星的第60篇文章
　　文末掃碼即可免費獲得
　　優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！
　　對于律師來(lái)說(shuō)，高強度的任務(wù)量往往讓我們面對盡職調查等工作黯然神傷。其實(shí)不是你的效率低，而是你少了一款手速快的飛起的工具，相信學(xué)會(huì )運用它們會(huì )讓你的工作成果更驚艷、更高效！
　　今天月半推薦給大家一款神器：優(yōu)采云。它能在很短的時(shí)間內，輕松從各種不同的網(wǎng)站或網(wǎng)頁(yè)獲取大量規范化數據，幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集，編輯，規范化，擺脫對人工搜索及手機數據的依賴(lài)，從而降低獲取信息的成本，提高效率。
　　一、產(chǎn)品介紹
　　
　　優(yōu)采云是國內領(lǐng)先的互聯(lián)網(wǎng)數據收集平臺，可以將網(wǎng)頁(yè)非結構化數據轉換成結構化數據，以數據庫或EXCEL等多種形式進(jìn)行存儲。通過(guò)云采集實(shí)現精準，高效，大規模的數據采集，降低獲取信息的成本，提高效率，協(xié)助用戶(hù)進(jìn)行電商價(jià)格監控，輿情分析，市場(chǎng)分析、風(fēng)險監測、品牌檢測等。
　　目前優(yōu)采云采集平臺擁有100萬(wàn)以上企業(yè)和個(gè)人用戶(hù)。
　　二、主要功能
　　
　　優(yōu)采云可以通過(guò)簡(jiǎn)單配置規則精準地從任何網(wǎng)頁(yè)抓取數據，生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容：
　　1. 金融數據，如季報，年報，財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
　　2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控，自動(dòng)更新及上傳最新發(fā)布的新聞;
　　3. 監控競爭對手最新信息，包括商品價(jià)格及庫存;
　　4. 監控各大社交網(wǎng)站，博客，自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
　　5. 收集最新最全的職場(chǎng)招聘信息;
　　6. 監控各大地產(chǎn)相關(guān)網(wǎng)站，采集新房二手房最新行情;
　　7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
　　8. 發(fā)現和收集潛在客戶(hù)信息;
　　9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
　　10.實(shí)時(shí)采集互聯(lián)網(wǎng)公開(kāi)輿情，幫助政府部門(mén)建立輿情分析系統。
　　簡(jiǎn)單來(lái)說(shuō)，優(yōu)采云將為你創(chuàng )建一個(gè)快速穩定的數據獲取平臺，幫助你從各類(lèi)繁雜無(wú)序的網(wǎng)頁(yè)數據中輕而易舉地獲取你需要的信息。
　　三、企業(yè)基本信息采集——企業(yè)盡調
　　1、登錄客戶(hù)端后選擇簡(jiǎn)易采集，在模板組內搜索下“天眼查”，當然也可以用其他企業(yè)信息平臺的哦！
　　2、點(diǎn)擊進(jìn)行使用
　　
　　3、進(jìn)入模版后可以看到模板采集的字段來(lái)自頁(yè)面何處。
　　4、使用這個(gè)模板需要設置的參數。由于現在天眼查查看數據要登錄了，故需輸入賬號和密碼進(jìn)行登錄。
　　
　　5、數據示例中有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　6、按要求填寫(xiě)好參數后，啟動(dòng)采集，先本地遛一遛。
　　7、看優(yōu)采云自動(dòng)采集著(zhù)，數據一條一條的冒出。
　　8、采好后導出成Excel文件，再此先舉個(gè)栗子！
　　四、無(wú)訟公報案例采集
　　1、點(diǎn)擊左上角+，選擇“自定義采集”，生成新建任務(wù)后輸入網(wǎng)址，點(diǎn)擊保存網(wǎng)址后就會(huì )進(jìn)行頁(yè)面打開(kāi)。
　　2、軟件內置的瀏覽器將直接展現平時(shí)在瀏覽器中打開(kāi)一模一樣的內容。然后按我們平時(shí)在瀏覽器中瀏覽數據的思維步驟進(jìn)行頁(yè)面操作就好。例如這里要輸入關(guān)鍵詞進(jìn)行搜索，那就先點(diǎn)擊輸入框后做【輸入文字】
　　
　　3、文字輸完后，就應該點(diǎn)擊搜索了，那就點(diǎn)頁(yè)面的【開(kāi)始檢索】，然后在操作提示里選“點(diǎn)擊元素”，頁(yè)面就會(huì )開(kāi)始搜索了。
　　
　　4、得到搜索結果后要點(diǎn)擊進(jìn)入每一條的詳細頁(yè)面，看具體的案件信息并獲取案件內容。我們按著(zhù)這樣操作思路來(lái)就行了！這里就不一一截圖了，直接秀我的操作結果！
　　
　　5、啟動(dòng)采集試試看
　　
　　6、幾分鐘就將70個(gè)公報案例采集完了，這效率不怕太高！
　　
　　7、導出成Excel保存下~
　　五、新聞資料收集
　　1、在登錄后選擇簡(jiǎn)易采集。進(jìn)入后選擇【媒體閱讀】，然后找到所需的網(wǎng)站【人民網(wǎng)】
　　2、點(diǎn)擊進(jìn)入后，選擇該模板進(jìn)行使用。
　　
　　3、字段預覽中可看到該模板將采集頁(yè)面上的哪些信息。
　　4、數據示例中也有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　5、然后填寫(xiě)相應參數，欄目指選擇人民網(wǎng)下的具體某個(gè)欄目版本，也可專(zhuān)門(mén)選擇法治板塊，此處姑且全選吧！搜索關(guān)鍵詞，暫且用下“貪污受賄”“電信詐騙”等法律相關(guān)內容；據說(shuō)最多可以同時(shí)輸入1萬(wàn)個(gè)關(guān)鍵詞！也是666！最后頁(yè)數不要多，就前100頁(yè)的吧！參數都設置好后保存并啟動(dòng)。
　　
　　6、然后進(jìn)靜靜的等待數據，讓優(yōu)采云孜孜不倦的工作吧！咱喝茶去~
　　
　　7、云采集效果更佳，截圖為證！
　　8、數據都都導出看看，多種格式，姑且最常用的Excel瞄瞄。
　　9、這么多！這么全！滿(mǎn)滿(mǎn)的幸福感與滿(mǎn)足感！再也不用當心缺材料了~
　　六、產(chǎn)品優(yōu)勢
　　1、免費使用
　　優(yōu)采云是一款免費的網(wǎng)頁(yè)數據采集工具，能夠實(shí)現全網(wǎng)98%以上的數據采集，并且免費版本沒(méi)有任何功能限制，任何人都可以在官網(wǎng)下載安裝使用。
　　2、簡(jiǎn)單易用
　　無(wú)需再學(xué)爬蟲(chóng)編程技術(shù)，簡(jiǎn)單三步就可以輕松抓取網(wǎng)頁(yè)數據，支持多種格式一鍵導出，快速導入數據庫
　　3、高效采集
　　優(yōu)采云模擬人的操作思維模式，配置規則簡(jiǎn)單。同時(shí)采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行，提高采集效率，可以很短的時(shí)間內獲取成千上萬(wàn)條信息。
　　4、技術(shù)服務(wù)
　　優(yōu)采云官網(wǎng)內置從入門(mén)到精通所需要的文檔和視頻教程，同時(shí)還有專(zhuān)業(yè)客服人員在微信、qq、論壇等平臺提供技術(shù)指導及服務(wù)。
　　七、技術(shù)優(yōu)勢
　　1、全網(wǎng)適用
　　眼見(jiàn)即可采，不管是電商、媒體，還是貼吧論壇，支持所有業(yè)務(wù)渠道的爬蟲(chóng)，滿(mǎn)足各種采集需求。
　　2、可視化流程操作
　　優(yōu)采云采集器用戶(hù)無(wú)需編寫(xiě)代碼，只需依照可視化的流程，通過(guò)簡(jiǎn)單的規則制作實(shí)現全網(wǎng)數據提取。
　　3、海量模板
　　內置數百個(gè)網(wǎng)站數據源，全面覆蓋多個(gè)行業(yè)，如京東、天貓、大眾點(diǎn)評等熱門(mén)采集網(wǎng)站，只需參照模板簡(jiǎn)單設置參數，就可以快速獲取網(wǎng)站公開(kāi)數據。
　　4、云采集
　　由5000多臺云服務(wù)器支撐的云采集，7*24小時(shí)不間斷運行，可實(shí)現定時(shí)采集，無(wú)需人員值守，靈活契合業(yè)務(wù)場(chǎng)景，幫你提升采集效率，保障數據時(shí)效性。
　　5、智能防封
　　優(yōu)采云采集可根據不同網(wǎng)站，自定義配置組合瀏覽器標識(UA)，全自動(dòng)代理IP，瀏覽器Cookie,驗證碼破解等功能，實(shí)現突破絕大多數網(wǎng)站的防采集策略。
　　6、API接口
　　通過(guò)優(yōu)采云API，可以輕松獲取優(yōu)采云任務(wù)信息和采集到的數據，靈活調度任務(wù)，比如遠程控制任務(wù)啟動(dòng)與停止，高效實(shí)現數據采集與歸檔?；趶姶蟮腁PI體系，還可以無(wú)縫對接公司內部各類(lèi)管理平臺，實(shí)現各類(lèi)業(yè)務(wù)自動(dòng)化。
　　7、穩定高效
　　分布式云集群服務(wù)器和多用戶(hù)協(xié)作管理平臺的支撐，可靈活調度任務(wù)，順利爬取海量數據。
　　快來(lái)領(lǐng)取優(yōu)采云采集器特別福利！
　　熊貓君為各位小伙伴爭取了福利！掃碼即可免費獲得優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！數量有限，先到先得～小伙伴們快來(lái)領(lǐng)取吧！
　　領(lǐng)取指南
　　1、點(diǎn)擊快速注冊，注冊?xún)?yōu)采云賬號。
　　
　　2、掃碼登記信息，提交問(wèn)卷等待優(yōu)采云后臺審核，預計7個(gè)工作日內，即可領(lǐng)取優(yōu)采云專(zhuān)業(yè)版賬號。
　　另外！恰逢優(yōu)采云六周年活動(dòng)，各個(gè)付費版本全年最低價(jià)，部分版本還可買(mǎi)一送一！
　　活動(dòng)時(shí)間：12.20-12.26
　　活動(dòng)鏈接：長(cháng)按下方二維碼即可參與
　　為了讓更多的律界朋友可以系統掌握這方面的實(shí)務(wù)技能，我們耗費了大量精力，錄制了可視化、系統化的《電子證據與互聯(lián)網(wǎng)法院實(shí)務(wù)指南》系列課程視頻，相信可以幫助你游刃有余地掌握電子證據實(shí)務(wù)技能。
　　往期
　　好文查看全部

　　如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星
　　

　　這是熊貓未來(lái)星的第60篇文章
　　文末掃碼即可免費獲得
　　優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！
　　對于律師來(lái)說(shuō)，高強度的任務(wù)量往往讓我們面對盡職調查等工作黯然神傷。其實(shí)不是你的效率低，而是你少了一款手速快的飛起的工具，相信學(xué)會(huì )運用它們會(huì )讓你的工作成果更驚艷、更高效！
　　今天月半推薦給大家一款神器：優(yōu)采云。它能在很短的時(shí)間內，輕松從各種不同的網(wǎng)站或網(wǎng)頁(yè)獲取大量規范化數據，幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集，編輯，規范化，擺脫對人工搜索及手機數據的依賴(lài)，從而降低獲取信息的成本，提高效率。
　　一、產(chǎn)品介紹
　　

　　優(yōu)采云是國內領(lǐng)先的互聯(lián)網(wǎng)數據收集平臺，可以將網(wǎng)頁(yè)非結構化數據轉換成結構化數據，以數據庫或EXCEL等多種形式進(jìn)行存儲。通過(guò)云采集實(shí)現精準，高效，大規模的數據采集，降低獲取信息的成本，提高效率，協(xié)助用戶(hù)進(jìn)行電商價(jià)格監控，輿情分析，市場(chǎng)分析、風(fēng)險監測、品牌檢測等。
　　目前優(yōu)采云采集平臺擁有100萬(wàn)以上企業(yè)和個(gè)人用戶(hù)。
　　二、主要功能
　　

　　優(yōu)采云可以通過(guò)簡(jiǎn)單配置規則精準地從任何網(wǎng)頁(yè)抓取數據，生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容：
　　1. 金融數據，如季報，年報，財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
　　2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控，自動(dòng)更新及上傳最新發(fā)布的新聞;
　　3. 監控競爭對手最新信息，包括商品價(jià)格及庫存;
　　4. 監控各大社交網(wǎng)站，博客，自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
　　5. 收集最新最全的職場(chǎng)招聘信息;
　　6. 監控各大地產(chǎn)相關(guān)網(wǎng)站，采集新房二手房最新行情;
　　7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
　　8. 發(fā)現和收集潛在客戶(hù)信息;
　　9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
　　10.實(shí)時(shí)采集互聯(lián)網(wǎng)公開(kāi)輿情，幫助政府部門(mén)建立輿情分析系統。
　　簡(jiǎn)單來(lái)說(shuō)，優(yōu)采云將為你創(chuàng )建一個(gè)快速穩定的數據獲取平臺，幫助你從各類(lèi)繁雜無(wú)序的網(wǎng)頁(yè)數據中輕而易舉地獲取你需要的信息。
　　三、企業(yè)基本信息采集——企業(yè)盡調
　　1、登錄客戶(hù)端后選擇簡(jiǎn)易采集，在模板組內搜索下“天眼查”，當然也可以用其他企業(yè)信息平臺的哦！
　　2、點(diǎn)擊進(jìn)行使用
　　

　　3、進(jìn)入模版后可以看到模板采集的字段來(lái)自頁(yè)面何處。
　　4、使用這個(gè)模板需要設置的參數。由于現在天眼查查看數據要登錄了，故需輸入賬號和密碼進(jìn)行登錄。
　　

　　5、數據示例中有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　6、按要求填寫(xiě)好參數后，啟動(dòng)采集，先本地遛一遛。
　　7、看優(yōu)采云自動(dòng)采集著(zhù)，數據一條一條的冒出。
　　8、采好后導出成Excel文件，再此先舉個(gè)栗子！
　　四、無(wú)訟公報案例采集
　　1、點(diǎn)擊左上角+，選擇“自定義采集”，生成新建任務(wù)后輸入網(wǎng)址，點(diǎn)擊保存網(wǎng)址后就會(huì )進(jìn)行頁(yè)面打開(kāi)。
　　2、軟件內置的瀏覽器將直接展現平時(shí)在瀏覽器中打開(kāi)一模一樣的內容。然后按我們平時(shí)在瀏覽器中瀏覽數據的思維步驟進(jìn)行頁(yè)面操作就好。例如這里要輸入關(guān)鍵詞進(jìn)行搜索，那就先點(diǎn)擊輸入框后做【輸入文字】
　　

　　3、文字輸完后，就應該點(diǎn)擊搜索了，那就點(diǎn)頁(yè)面的【開(kāi)始檢索】，然后在操作提示里選“點(diǎn)擊元素”，頁(yè)面就會(huì )開(kāi)始搜索了。
　　

　　4、得到搜索結果后要點(diǎn)擊進(jìn)入每一條的詳細頁(yè)面，看具體的案件信息并獲取案件內容。我們按著(zhù)這樣操作思路來(lái)就行了！這里就不一一截圖了，直接秀我的操作結果！
　　

　　5、啟動(dòng)采集試試看
　　

　　6、幾分鐘就將70個(gè)公報案例采集完了，這效率不怕太高！
　　

　　7、導出成Excel保存下~
　　五、新聞資料收集
　　1、在登錄后選擇簡(jiǎn)易采集。進(jìn)入后選擇【媒體閱讀】，然后找到所需的網(wǎng)站【人民網(wǎng)】
　　2、點(diǎn)擊進(jìn)入后，選擇該模板進(jìn)行使用。
　　

　　3、字段預覽中可看到該模板將采集頁(yè)面上的哪些信息。
　　4、數據示例中也有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　5、然后填寫(xiě)相應參數，欄目指選擇人民網(wǎng)下的具體某個(gè)欄目版本，也可專(zhuān)門(mén)選擇法治板塊，此處姑且全選吧！搜索關(guān)鍵詞，暫且用下“貪污受賄”“電信詐騙”等法律相關(guān)內容；據說(shuō)最多可以同時(shí)輸入1萬(wàn)個(gè)關(guān)鍵詞！也是666！最后頁(yè)數不要多，就前100頁(yè)的吧！參數都設置好后保存并啟動(dòng)。
　　

　　6、然后進(jìn)靜靜的等待數據，讓優(yōu)采云孜孜不倦的工作吧！咱喝茶去~
　　

　　7、云采集效果更佳，截圖為證！
　　8、數據都都導出看看，多種格式，姑且最常用的Excel瞄瞄。
　　9、這么多！這么全！滿(mǎn)滿(mǎn)的幸福感與滿(mǎn)足感！再也不用當心缺材料了~
　　六、產(chǎn)品優(yōu)勢
　　1、免費使用
　　優(yōu)采云是一款免費的網(wǎng)頁(yè)數據采集工具，能夠實(shí)現全網(wǎng)98%以上的數據采集，并且免費版本沒(méi)有任何功能限制，任何人都可以在官網(wǎng)下載安裝使用。
　　2、簡(jiǎn)單易用
　　無(wú)需再學(xué)爬蟲(chóng)編程技術(shù)，簡(jiǎn)單三步就可以輕松抓取網(wǎng)頁(yè)數據，支持多種格式一鍵導出，快速導入數據庫
　　3、高效采集
　　優(yōu)采云模擬人的操作思維模式，配置規則簡(jiǎn)單。同時(shí)采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行，提高采集效率，可以很短的時(shí)間內獲取成千上萬(wàn)條信息。
　　4、技術(shù)服務(wù)
　　優(yōu)采云官網(wǎng)內置從入門(mén)到精通所需要的文檔和視頻教程，同時(shí)還有專(zhuān)業(yè)客服人員在微信、qq、論壇等平臺提供技術(shù)指導及服務(wù)。
　　七、技術(shù)優(yōu)勢
　　1、全網(wǎng)適用
　　眼見(jiàn)即可采，不管是電商、媒體，還是貼吧論壇，支持所有業(yè)務(wù)渠道的爬蟲(chóng)，滿(mǎn)足各種采集需求。
　　2、可視化流程操作
　　優(yōu)采云采集器用戶(hù)無(wú)需編寫(xiě)代碼，只需依照可視化的流程，通過(guò)簡(jiǎn)單的規則制作實(shí)現全網(wǎng)數據提取。
　　3、海量模板
　　內置數百個(gè)網(wǎng)站數據源，全面覆蓋多個(gè)行業(yè)，如京東、天貓、大眾點(diǎn)評等熱門(mén)采集網(wǎng)站，只需參照模板簡(jiǎn)單設置參數，就可以快速獲取網(wǎng)站公開(kāi)數據。
　　4、云采集
　　由5000多臺云服務(wù)器支撐的云采集，7*24小時(shí)不間斷運行，可實(shí)現定時(shí)采集，無(wú)需人員值守，靈活契合業(yè)務(wù)場(chǎng)景，幫你提升采集效率，保障數據時(shí)效性。
　　5、智能防封
　　優(yōu)采云采集可根據不同網(wǎng)站，自定義配置組合瀏覽器標識(UA)，全自動(dòng)代理IP，瀏覽器Cookie,驗證碼破解等功能，實(shí)現突破絕大多數網(wǎng)站的防采集策略。
　　6、API接口
　　通過(guò)優(yōu)采云API，可以輕松獲取優(yōu)采云任務(wù)信息和采集到的數據，靈活調度任務(wù)，比如遠程控制任務(wù)啟動(dòng)與停止，高效實(shí)現數據采集與歸檔?；趶姶蟮腁PI體系，還可以無(wú)縫對接公司內部各類(lèi)管理平臺，實(shí)現各類(lèi)業(yè)務(wù)自動(dòng)化。
　　7、穩定高效
　　分布式云集群服務(wù)器和多用戶(hù)協(xié)作管理平臺的支撐，可靈活調度任務(wù)，順利爬取海量數據。
　　快來(lái)領(lǐng)取優(yōu)采云采集器特別福利！
　　熊貓君為各位小伙伴爭取了福利！掃碼即可免費獲得優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！數量有限，先到先得～小伙伴們快來(lái)領(lǐng)取吧！
　　領(lǐng)取指南
　　1、點(diǎn)擊快速注冊，注冊?xún)?yōu)采云賬號。
　　

　　2、掃碼登記信息，提交問(wèn)卷等待優(yōu)采云后臺審核，預計7個(gè)工作日內，即可領(lǐng)取優(yōu)采云專(zhuān)業(yè)版賬號。
　　另外！恰逢優(yōu)采云六周年活動(dòng)，各個(gè)付費版本全年最低價(jià)，部分版本還可買(mǎi)一送一！
　　活動(dòng)時(shí)間：12.20-12.26
　　活動(dòng)鏈接：長(cháng)按下方二維碼即可參與
　　為了讓更多的律界朋友可以系統掌握這方面的實(shí)務(wù)技能，我們耗費了大量精力，錄制了可視化、系統化的《電子證據與互聯(lián)網(wǎng)法院實(shí)務(wù)指南》系列課程視頻，相信可以幫助你游刃有余地掌握電子證據實(shí)務(wù)技能。
　　往期
　　好文

容器日志管理的最佳實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2022-06-17 20:48 ? 來(lái)自相關(guān)話(huà)題

　　容器日志管理的最佳實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　
　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　
　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　
　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　
　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　
　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　
　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　
　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　
　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　
　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　
　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　
　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　
　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　
　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　
　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　
　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　「視頻」在公眾號中回復 “阿里云日志” 即可獲取。
　　查看全部

　　容器日志管理的最佳實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　

　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　

　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　

　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　

　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　

　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　

　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　

　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　

　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　

　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　

　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　

　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　

　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　

　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　

　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　

　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　「視頻」在公眾號中回復 “阿里云日志” 即可獲取。
　　

面向容器日志的技術(shù)實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-06-17 20:48 ? 來(lái)自相關(guān)話(huà)題

　　面向容器日志的技術(shù)實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　
　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　
　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　
　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　
　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　
　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　
　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　
　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　
　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　
　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　
　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　
　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　
　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　
　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　
　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　
　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　視頻樣例
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　參考資料
　　end
　　更多精彩查看全部

　　面向容器日志的技術(shù)實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　

　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　

　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　

　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　

　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　

　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　

　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　

　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　

　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　

　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　

　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　

　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　

　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　

　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　

　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　

　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　視頻樣例
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　參考資料
　　end
　　更多精彩

采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 202 次瀏覽 ? 2022-06-17 17:10 ? 來(lái)自相關(guān)話(huà)題

　　采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！
　　在我們日常使用搜索引擎的時(shí)候，大多數搜索引擎都會(huì )為了讓用戶(hù)更快速的輸入自己想要的相關(guān)問(wèn)題，而基于已輸入的字符智能匹配出許多相關(guān)的關(guān)鍵字推薦給用戶(hù)。
　　當用戶(hù)輸入一個(gè)字符，碰到提示的候選詞很多的時(shí)候，如何取舍，哪些展示在前面，哪些展示在后面？
　　這就是一個(gè)搜索熱度的問(wèn)題。
　　用戶(hù)在使搜索框搜索相關(guān)問(wèn)題時(shí)，會(huì )輸入大量的關(guān)鍵字，每一次輸入就是對關(guān)鍵字的一次投票。那么關(guān)鍵字被輸入的次數越多，它對應的查詢(xún)就比較熱門(mén)，所以需要把查詢(xún)的關(guān)鍵字記錄下來(lái)，并且統計出每個(gè)關(guān)鍵字的頻率，方便提示結果按照頻率排序。
　　而在亞馬遜中的搜索也是如此。如下圖，在輸入一個(gè)”A”后會(huì )自動(dòng)聯(lián)想出“amazon gift cards”、“airpods”、“aa batteries”等詞。
　　
　　那么如何批量的根據自己設置的關(guān)鍵詞去采集亞馬遜推薦的熱搜詞呢？
　　So Easy!
　　用Python只需4步即可實(shí)現！
　　1、打開(kāi)瀏覽器訪(fǎng)問(wèn)亞馬遜，在亞馬遜主頁(yè)按下“F12”，并切換到“Network”。
　　
　　2、在搜索框中輸入任意字符，并抓包分析數據。
　　這時(shí)候我們會(huì )看到控制臺中出現了“suggestions?.....”的請求。點(diǎn)擊并切換到Response選項卡中，可以清楚的看到亞馬遜返回的數據。我們將數據拷貝（Ctrl+A在Ctrl+C）出來(lái)，美化一下仔細看看到底返回了些什么。訪(fǎng)問(wèn)：將數據拷貝進(jìn)去，一探究竟。
　　
　　在返回的數據是一個(gè)標準的json數據，在數據中”Value”這個(gè)鍵下對應的值就是亞馬遜的熱搜關(guān)鍵字！
　　如此一來(lái)我們只需要帶上關(guān)鍵字模擬請求這個(gè)接口，即可拿到亞馬遜返回的熱搜關(guān)鍵字。是不是So Easy?!
　　3、復制Curl,生成代碼。
　　還是用優(yōu)采云方法給大家演示，首先在“suggestions?.....”的請求上鼠標右鍵選擇Copy→Copy as cURL。
　　
　　然后訪(fǎng)問(wèn)，將復制的cURL填進(jìn)去即可自動(dòng)生成Python代碼。再將生成的代碼復制出來(lái)，在PyCharm中復制進(jìn)去。
　　4、修改代碼，實(shí)現復用。
　　在測試當中，我將一些不必要的參數刪除最終只需三個(gè)參數、幾行代碼即可實(shí)現。
　　import requests
　　keyword = str(input('請輸入關(guān)鍵字：'))
　　headers = {
　　'Accept': 'application/json, text/javascript, */*; q=0.01',
　　'Referer': '',
　　'Origin': '',
　　'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',}
　　params = (
　　('mid', 'ATVPDKIKX0DER'),
　　('alias', 'aps'),
　　('prefix',keyword),)
　　response = requests.get('', headers=headers, params=params)
　　suggestions = response.json()['suggestions']
　　for i in suggestions:
　　value = i['value']
　　print(value)
　　當然這幾行代碼只能實(shí)現單個(gè)關(guān)鍵詞熱搜詞的采集，我們可以將關(guān)鍵字批量的寫(xiě)入然后挨個(gè)的請求即可實(shí)現批量采集的目的。
　　在這里技術(shù)小哥哥已經(jīng)將這個(gè)功能封裝為一個(gè)小工具，只需將關(guān)鍵字寫(xiě)入到表格當中即可批量采集！
　　
　　文末大福利
　　大家只需轉發(fā)此篇文章到自己的朋友圈后，添加下方小哥哥微信，截圖給到他就可以給到大家免費使用！
　　
　　更有Reviews采集、QA采集、僵尸采集、跟賣(mài)提醒等工具,歡迎隨時(shí)開(kāi)撩獲得更多工具！
　　
　　▼往期精彩文章▼
　　在看點(diǎn)這里
　　查看全部

　　采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！
　　在我們日常使用搜索引擎的時(shí)候，大多數搜索引擎都會(huì )為了讓用戶(hù)更快速的輸入自己想要的相關(guān)問(wèn)題，而基于已輸入的字符智能匹配出許多相關(guān)的關(guān)鍵字推薦給用戶(hù)。
　　當用戶(hù)輸入一個(gè)字符，碰到提示的候選詞很多的時(shí)候，如何取舍，哪些展示在前面，哪些展示在后面？
　　這就是一個(gè)搜索熱度的問(wèn)題。
　　用戶(hù)在使搜索框搜索相關(guān)問(wèn)題時(shí)，會(huì )輸入大量的關(guān)鍵字，每一次輸入就是對關(guān)鍵字的一次投票。那么關(guān)鍵字被輸入的次數越多，它對應的查詢(xún)就比較熱門(mén)，所以需要把查詢(xún)的關(guān)鍵字記錄下來(lái)，并且統計出每個(gè)關(guān)鍵字的頻率，方便提示結果按照頻率排序。
　　而在亞馬遜中的搜索也是如此。如下圖，在輸入一個(gè)”A”后會(huì )自動(dòng)聯(lián)想出“amazon gift cards”、“airpods”、“aa batteries”等詞。
　　

　　那么如何批量的根據自己設置的關(guān)鍵詞去采集亞馬遜推薦的熱搜詞呢？
　　So Easy!
　　用Python只需4步即可實(shí)現！
　　1、打開(kāi)瀏覽器訪(fǎng)問(wèn)亞馬遜，在亞馬遜主頁(yè)按下“F12”，并切換到“Network”。
　　

　　2、在搜索框中輸入任意字符，并抓包分析數據。
　　這時(shí)候我們會(huì )看到控制臺中出現了“suggestions?.....”的請求。點(diǎn)擊并切換到Response選項卡中，可以清楚的看到亞馬遜返回的數據。我們將數據拷貝（Ctrl+A在Ctrl+C）出來(lái)，美化一下仔細看看到底返回了些什么。訪(fǎng)問(wèn)：將數據拷貝進(jìn)去，一探究竟。
　　

　　在返回的數據是一個(gè)標準的json數據，在數據中”Value”這個(gè)鍵下對應的值就是亞馬遜的熱搜關(guān)鍵字！
　　如此一來(lái)我們只需要帶上關(guān)鍵字模擬請求這個(gè)接口，即可拿到亞馬遜返回的熱搜關(guān)鍵字。是不是So Easy?!
　　3、復制Curl,生成代碼。
　　還是用優(yōu)采云方法給大家演示，首先在“suggestions?.....”的請求上鼠標右鍵選擇Copy→Copy as cURL。
　　

　　然后訪(fǎng)問(wèn)，將復制的cURL填進(jìn)去即可自動(dòng)生成Python代碼。再將生成的代碼復制出來(lái)，在PyCharm中復制進(jìn)去。
　　4、修改代碼，實(shí)現復用。
　　在測試當中，我將一些不必要的參數刪除最終只需三個(gè)參數、幾行代碼即可實(shí)現。
　　import requests
　　keyword = str(input('請輸入關(guān)鍵字：'))
　　headers = {
　　'Accept': 'application/json, text/javascript, */*; q=0.01',
　　'Referer': '',
　　'Origin': '',
　　'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',}
　　params = (
　　('mid', 'ATVPDKIKX0DER'),
　　('alias', 'aps'),
　　('prefix',keyword),)
　　response = requests.get('', headers=headers, params=params)
　　suggestions = response.json()['suggestions']
　　for i in suggestions:
　　value = i['value']
　　print(value)
　　當然這幾行代碼只能實(shí)現單個(gè)關(guān)鍵詞熱搜詞的采集，我們可以將關(guān)鍵字批量的寫(xiě)入然后挨個(gè)的請求即可實(shí)現批量采集的目的。
　　在這里技術(shù)小哥哥已經(jīng)將這個(gè)功能封裝為一個(gè)小工具，只需將關(guān)鍵字寫(xiě)入到表格當中即可批量采集！
　　

　　文末大福利
　　大家只需轉發(fā)此篇文章到自己的朋友圈后，添加下方小哥哥微信，截圖給到他就可以給到大家免費使用！
　　

　　更有Reviews采集、QA采集、僵尸采集、跟賣(mài)提醒等工具,歡迎隨時(shí)開(kāi)撩獲得更多工具！
　　

　　▼往期精彩文章▼
　　在看點(diǎn)這里
　　

批量采集百度新聞源比較好的方法是怎樣的？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 481 次瀏覽 ? 2022-06-15 15:00 ? 來(lái)自相關(guān)話(huà)題

　　批量采集百度新聞源比較好的方法是怎樣的？
　　通過(guò)關(guān)鍵詞采集文章采集api接口，可以一鍵下載所有網(wǎng)站的歷史采集文章。點(diǎn)我的，在文章詳情頁(yè)開(kāi)放下載。
　　批量采集百度新聞源比較好的方法是利用python的爬蟲(chóng)框架beautifulsoup。專(zhuān)業(yè)的爬蟲(chóng)框架性能很強，可以持續處理大量新聞文章，可以用python中的requests庫很方便地進(jìn)行抓取。分析格式并提取重點(diǎn)內容，這樣可以提高工作效率。
　　網(wǎng)站基本上都是依賴(lài)于一個(gè)網(wǎng)站公共分發(fā)機制，國內一般是搜索引擎，谷歌或者百度，國外的yahoo,google,還有就是分發(fā)機制定義比較松的bbs，qq群等等。這些機制都可以實(shí)現很好的數據采集。如果想更高效，可以試試下面的方法。1.采用量化研究工具（量化平臺）進(jìn)行手動(dòng)分析研究。例如hitsurf,ctat等等。
　　采用tushare庫。（tushare，起源于阿里的數據服務(wù)商，我個(gè)人建議數據服務(wù)商，不是數據個(gè)人。數據個(gè)人最好不要去搞數據交易）需要下載穩定性不高，找其他機構代理會(huì )快些。2.利用分布式爬蟲(chóng)工具，（我目前用的是baeka)來(lái)采集快速生成excel數據集，很方便解決采集的依賴(lài)問(wèn)題。3.其他，主要是如果你的網(wǎng)站或者公司內部自己有流量進(jìn)行傳播（自己配個(gè)小型機或者大型機，找一個(gè)收費成熟的交易軟件，采個(gè)程序化交易，就搞定了），可以試試進(jìn)行私募類(lèi)的數據挖掘，他們一般都會(huì )自己找大數據產(chǎn)品進(jìn)行分析，私募數據庫什么的，都可以進(jìn)行數據挖掘，另外其他的大數據服務(wù)商也可以進(jìn)行分析。查看全部

　　批量采集百度新聞源比較好的方法是怎樣的？
　　通過(guò)關(guān)鍵詞采集文章采集api接口，可以一鍵下載所有網(wǎng)站的歷史采集文章。點(diǎn)我的，在文章詳情頁(yè)開(kāi)放下載。
　　批量采集百度新聞源比較好的方法是利用python的爬蟲(chóng)框架beautifulsoup。專(zhuān)業(yè)的爬蟲(chóng)框架性能很強，可以持續處理大量新聞文章，可以用python中的requests庫很方便地進(jìn)行抓取。分析格式并提取重點(diǎn)內容，這樣可以提高工作效率。
　　網(wǎng)站基本上都是依賴(lài)于一個(gè)網(wǎng)站公共分發(fā)機制，國內一般是搜索引擎，谷歌或者百度，國外的yahoo,google,還有就是分發(fā)機制定義比較松的bbs，qq群等等。這些機制都可以實(shí)現很好的數據采集。如果想更高效，可以試試下面的方法。1.采用量化研究工具（量化平臺）進(jìn)行手動(dòng)分析研究。例如hitsurf,ctat等等。
　　采用tushare庫。（tushare，起源于阿里的數據服務(wù)商，我個(gè)人建議數據服務(wù)商，不是數據個(gè)人。數據個(gè)人最好不要去搞數據交易）需要下載穩定性不高，找其他機構代理會(huì )快些。2.利用分布式爬蟲(chóng)工具，（我目前用的是baeka)來(lái)采集快速生成excel數據集，很方便解決采集的依賴(lài)問(wèn)題。3.其他，主要是如果你的網(wǎng)站或者公司內部自己有流量進(jìn)行傳播（自己配個(gè)小型機或者大型機，找一個(gè)收費成熟的交易軟件，采個(gè)程序化交易，就搞定了），可以試試進(jìn)行私募類(lèi)的數據挖掘，他們一般都會(huì )自己找大數據產(chǎn)品進(jìn)行分析，私募數據庫什么的，都可以進(jìn)行數據挖掘，另外其他的大數據服務(wù)商也可以進(jìn)行分析。

如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-06-07 09:01 ? 來(lái)自相關(guān)話(huà)題

　　如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？
　　通過(guò)關(guān)鍵詞采集文章采集api接口獲取互聯(lián)網(wǎng)上當前最熱門(mén)和有用的項目相關(guān)的api接口如果你了解抓取api，并能很容易構建一個(gè)爬蟲(chóng)，那么你可以理解執行python代碼。在這篇文章中，我們將討論如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具。你可以使用python創(chuàng )建主題，郵件爬蟲(chóng)，課程，醫療記錄等任何任務(wù)的api請求。
　　1.采集郵件如果你正在給客戶(hù)發(fā)送信息，現在可以在大多數商業(yè)網(wǎng)站上看到的郵件中執行基本的多線(xiàn)程測試(圖1)。如果正好在發(fā)送電子郵件時(shí)正好被信息的一方占用，那么你就不會(huì )再抓取。根據郵件方的要求，定義合適的斷點(diǎn)續傳支持。如果在多線(xiàn)程測試之間有連接，那么你應該為每個(gè)返回分配權重值。有關(guān)設置這些權重值的信息在代碼中總是可以獲取。
　　這不僅使你可以構建一個(gè)純python的庫，還使你能夠減少對調用web接口的應用程序的一些限制。即使在gpu上執行這些，單純的字符串也可以執行超過(guò)14k的數據檢索，也可以防止電子郵件數據丟失或數據過(guò)載。2.抓取郵件api接口抓取api數據是所有數據爬蟲(chóng)任務(wù)的起點(diǎn)，大多數數據爬蟲(chóng)項目都是從搜索引擎或爬蟲(chóng)中執行的。
　　python提供了爬蟲(chóng)解決方案，但你不需要改變。你可以創(chuàng )建高效的python函數，根據要求抓取數據?？偨Y了對不同公司發(fā)送的“聚合數據”api的抓取工作，并詳細列出了各個(gè)公司內部api列表。請注意，用來(lái)抓取這些結果的代碼是不需要加鎖的，并且執行率較高。請注意，缺乏requests請求的一個(gè)自然原因是使用pythonpandas庫。
　　更好的是，有javascript代碼來(lái)完成抓取工作，但僅限于javascript，也就是動(dòng)態(tài)資源。3.抓取郵件api接口這可能是你最期待的日常任務(wù)之一。除了查看信息之外，你將收到一個(gè)簡(jiǎn)短的回復（僅要求轉發(fā)）。這項任務(wù)很有可能是最重要的，你的公司需要將最重要的信息推送給大眾媒體。我們總是能知道數以百萬(wàn)計的人都被他們的客戶(hù)或潛在客戶(hù)的郵件騷擾過(guò)。
　　然而，向所有普通人發(fā)送他們所需的郵件并不容易。因此，允許爬蟲(chóng)成為最簡(jiǎn)單的抓取策略，無(wú)需特定的機器學(xué)習推薦工具或應用程序。在本文中，我們將解釋如何抓取自動(dòng)定義的或經(jīng)過(guò)修改的接口。4.抓取醫療記錄將醫療記錄（人工處理的，如hcg）發(fā)送給用戶(hù)，用戶(hù)可以在自己的醫療記錄庫中查看所有對應的醫生或其他醫院記錄。這是一個(gè)非常有趣的任務(wù)，所以創(chuàng )建一個(gè)api或請求(requests或twitter）對很重要。
　　如果hcg數據被刪除或存儲在不合適的服務(wù)器上，就會(huì )失敗。5.抓取api接口將python爬蟲(chóng)程序構建到excel中總是令人驚訝的。它們在任何地方。查看全部

　　如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？
　　通過(guò)關(guān)鍵詞采集文章采集api接口獲取互聯(lián)網(wǎng)上當前最熱門(mén)和有用的項目相關(guān)的api接口如果你了解抓取api，并能很容易構建一個(gè)爬蟲(chóng)，那么你可以理解執行python代碼。在這篇文章中，我們將討論如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具。你可以使用python創(chuàng )建主題，郵件爬蟲(chóng)，課程，醫療記錄等任何任務(wù)的api請求。
　　1.采集郵件如果你正在給客戶(hù)發(fā)送信息，現在可以在大多數商業(yè)網(wǎng)站上看到的郵件中執行基本的多線(xiàn)程測試(圖1)。如果正好在發(fā)送電子郵件時(shí)正好被信息的一方占用，那么你就不會(huì )再抓取。根據郵件方的要求，定義合適的斷點(diǎn)續傳支持。如果在多線(xiàn)程測試之間有連接，那么你應該為每個(gè)返回分配權重值。有關(guān)設置這些權重值的信息在代碼中總是可以獲取。
　　這不僅使你可以構建一個(gè)純python的庫，還使你能夠減少對調用web接口的應用程序的一些限制。即使在gpu上執行這些，單純的字符串也可以執行超過(guò)14k的數據檢索，也可以防止電子郵件數據丟失或數據過(guò)載。2.抓取郵件api接口抓取api數據是所有數據爬蟲(chóng)任務(wù)的起點(diǎn)，大多數數據爬蟲(chóng)項目都是從搜索引擎或爬蟲(chóng)中執行的。
　　python提供了爬蟲(chóng)解決方案，但你不需要改變。你可以創(chuàng )建高效的python函數，根據要求抓取數據?？偨Y了對不同公司發(fā)送的“聚合數據”api的抓取工作，并詳細列出了各個(gè)公司內部api列表。請注意，用來(lái)抓取這些結果的代碼是不需要加鎖的，并且執行率較高。請注意，缺乏requests請求的一個(gè)自然原因是使用pythonpandas庫。
　　更好的是，有javascript代碼來(lái)完成抓取工作，但僅限于javascript，也就是動(dòng)態(tài)資源。3.抓取郵件api接口這可能是你最期待的日常任務(wù)之一。除了查看信息之外，你將收到一個(gè)簡(jiǎn)短的回復（僅要求轉發(fā)）。這項任務(wù)很有可能是最重要的，你的公司需要將最重要的信息推送給大眾媒體。我們總是能知道數以百萬(wàn)計的人都被他們的客戶(hù)或潛在客戶(hù)的郵件騷擾過(guò)。
　　然而，向所有普通人發(fā)送他們所需的郵件并不容易。因此，允許爬蟲(chóng)成為最簡(jiǎn)單的抓取策略，無(wú)需特定的機器學(xué)習推薦工具或應用程序。在本文中，我們將解釋如何抓取自動(dòng)定義的或經(jīng)過(guò)修改的接口。4.抓取醫療記錄將醫療記錄（人工處理的，如hcg）發(fā)送給用戶(hù)，用戶(hù)可以在自己的醫療記錄庫中查看所有對應的醫生或其他醫院記錄。這是一個(gè)非常有趣的任務(wù)，所以創(chuàng )建一個(gè)api或請求(requests或twitter）對很重要。
　　如果hcg數據被刪除或存儲在不合適的服務(wù)器上，就會(huì )失敗。5.抓取api接口將python爬蟲(chóng)程序構建到excel中總是令人驚訝的。它們在任何地方。

Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 376 次瀏覽 ? 2022-06-05 13:10 ? 來(lái)自相關(guān)話(huà)題

　　Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）
　　
　　本書(shū)實(shí)踐性強、有豐富的案例、干貨多，學(xué)生喜歡。PPT、代碼和視頻配套教學(xué)和學(xué)習資料的獲取方法如下：
　　1、教學(xué)用的PPT
　　下載鏈接（網(wǎng)盤(pán)）: 提取碼: 5c4y （如果鏈接失效，請轉至留言處獲得最新下載方法）
　　分別對應于書(shū)的章節，共有12個(gè)PPT。
　　PPT1：大數據采集的重要性、技術(shù)體系、爬蟲(chóng)合規性、應用現狀以及技術(shù)發(fā)展趨勢等。
　　PPT2：相關(guān)基礎技術(shù)和方法，包括HTML語(yǔ)言規范、頁(yè)面編碼體系與規范、以及廣泛用于Web頁(yè)面簡(jiǎn)單信息提取的正則表達式。
　　PPT3: Web應用架構技術(shù)，包括Web服務(wù)器應用架構、HTTP協(xié)議、狀態(tài)保持技術(shù)、Robots協(xié)議等與爬蟲(chóng)密切相關(guān)的技術(shù)。
　　PPT4: 普通爬蟲(chóng)頁(yè)面采集技術(shù)，包括Web服務(wù)器連接、爬蟲(chóng)策略、超鏈接處理及Python的實(shí)現。
　　PPT5: 動(dòng)態(tài)爬蟲(chóng)的相關(guān)技術(shù)，包括動(dòng)態(tài)頁(yè)面內容生成、交互、動(dòng)態(tài)頁(yè)面采集的若干種典型方法和Python實(shí)現技術(shù)。
　　PPT6: 從Web頁(yè)面提取信息所需要的技術(shù)，介紹了技術(shù)原理和典型的開(kāi)源技術(shù)。
　　PPT7: 主題爬蟲(chóng)技術(shù)及實(shí)現方法，涉及主題爬蟲(chóng)的技術(shù)體系、主題表示和建模、主題相似度計算等。
　　PPT8: 關(guān)于DeepWeb的數據采集技術(shù)及實(shí)現。
　　PPT9: 微博信息采集方法及實(shí)現，包括通過(guò)API獲取微博信息和通過(guò)爬蟲(chóng)技術(shù)獲取微博信息兩種方法。
　　PPT10: 反爬蟲(chóng)的常用技術(shù)，同時(shí)也介紹了針對這些反爬蟲(chóng)技術(shù)的一些主要應對措施。
　　PPT11: 大數據采集應用對非結構化文本的處理技術(shù)，包括文本的預處理、文本分類(lèi)、主題建模、大數據可視化技術(shù)以及一些開(kāi)源工具等。
　　PPT12: 兩個(gè)案例（新聞閱讀器、SQL注入的爬蟲(chóng)監測）
　　2、相關(guān)Python代碼
　　具體下載地址見(jiàn)書(shū)本的附錄A，包含了以下例子。
　　Prog-1-error-handle.py 爬蟲(chóng)的錯誤處理方法
　　Prog-2-hyper-link-extraction.py 超鏈接提取方法
　　prog-3-robotparser-demo.py Robots協(xié)議文件解析
　　Prog-4-cookie-demo.py 在爬蟲(chóng)中使用Cookie
　　Prog-5-HTMLParser-test.py 使用HTMLParser進(jìn)行頁(yè)面解析
　　Prog-6-lxml-test.py 使用lxml進(jìn)行頁(yè)面解析
　　Prog-7-bs-sinanews.py 使用BeautifulSoup進(jìn)行新聞頁(yè)面解析
　　Prog-8-html5lib-test.py 使用html5lib進(jìn)行頁(yè)面解析
　　Prog-9-pyquery-sinanews.py 使用Pyquery進(jìn)行新聞頁(yè)面解析
　　Prog-10-topic-pages.py 主題爬蟲(chóng)
　　Prog-11-book-info.py 圖書(shū)DeepWeb爬蟲(chóng)
　　Prog-12-weiboUserInfo.py 微博用戶(hù)信息采集
　　Prog-13-weiboMsgInfo.py 微博博文信息采集
　　Prog-14-doc-vectors.py 文檔向量空間模型構建
　　Prog-15-train-classifier.py 訓練分類(lèi)器
　　Prog-16-classify.py 使用SVM進(jìn)行分類(lèi)
　　Prog-17-LDA-sklearn.py LDA模型的Python實(shí)現
　　Prog-18-LDA-gensim.py LDA模型的Python實(shí)現
　　Prog-19-matplotlib-examples.py matplotlib的使用
　　Prog-20-wordcloud-example.py wordcloud的使用
　　Prog-21-sinaNewsSpider.py 新浪新聞采集與提取
　　Prog-22-KeywordCloud.py 新聞閱讀器的關(guān)鍵詞輸出
　　Prog-23-LDAnewsTopic.py 新聞主題發(fā)現
　　Prog-24-check.py 使用爬蟲(chóng)進(jìn)行SQL注入安全監測
　　crawler-strategy 4.4.2的完整程序，爬蟲(chóng)策略
　　classify 11.3的例子，包含訓練數據、測試數據
　　app-1 12.2的樣例
　　LDA 11.4的例子
　　sqlijnect 12.3的例子
　　3、視頻
　　300分鐘的講課視頻，可以直接手機掃書(shū)中的二維碼，即可觀(guān)看。
　　4、相關(guān)拓展閱讀
　　本公眾號不定期推送與《Python爬蟲(chóng)大數據采集與挖掘》、《互聯(lián)網(wǎng)大數據處理技術(shù)與應用》相關(guān)的文章，是作者在相關(guān)領(lǐng)域教學(xué)科研中的一些資料，可以加深對書(shū)中一些問(wèn)題的理解。部分推送的文章有：
　　爬蟲(chóng)應用案例
　　爬蟲(chóng)技術(shù)
　　大數據技術(shù)
　　模型與算法
　　更多文章可進(jìn)入本公眾號歷史消息閱讀。
　　查看全部

　　Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）
　　

　　本書(shū)實(shí)踐性強、有豐富的案例、干貨多，學(xué)生喜歡。PPT、代碼和視頻配套教學(xué)和學(xué)習資料的獲取方法如下：
　　1、教學(xué)用的PPT
　　下載鏈接（網(wǎng)盤(pán)）: 提取碼: 5c4y （如果鏈接失效，請轉至留言處獲得最新下載方法）
　　分別對應于書(shū)的章節，共有12個(gè)PPT。
　　PPT1：大數據采集的重要性、技術(shù)體系、爬蟲(chóng)合規性、應用現狀以及技術(shù)發(fā)展趨勢等。
　　PPT2：相關(guān)基礎技術(shù)和方法，包括HTML語(yǔ)言規范、頁(yè)面編碼體系與規范、以及廣泛用于Web頁(yè)面簡(jiǎn)單信息提取的正則表達式。
　　PPT3: Web應用架構技術(shù)，包括Web服務(wù)器應用架構、HTTP協(xié)議、狀態(tài)保持技術(shù)、Robots協(xié)議等與爬蟲(chóng)密切相關(guān)的技術(shù)。
　　PPT4: 普通爬蟲(chóng)頁(yè)面采集技術(shù)，包括Web服務(wù)器連接、爬蟲(chóng)策略、超鏈接處理及Python的實(shí)現。
　　PPT5: 動(dòng)態(tài)爬蟲(chóng)的相關(guān)技術(shù)，包括動(dòng)態(tài)頁(yè)面內容生成、交互、動(dòng)態(tài)頁(yè)面采集的若干種典型方法和Python實(shí)現技術(shù)。
　　PPT6: 從Web頁(yè)面提取信息所需要的技術(shù)，介紹了技術(shù)原理和典型的開(kāi)源技術(shù)。
　　PPT7: 主題爬蟲(chóng)技術(shù)及實(shí)現方法，涉及主題爬蟲(chóng)的技術(shù)體系、主題表示和建模、主題相似度計算等。
　　PPT8: 關(guān)于DeepWeb的數據采集技術(shù)及實(shí)現。
　　PPT9: 微博信息采集方法及實(shí)現，包括通過(guò)API獲取微博信息和通過(guò)爬蟲(chóng)技術(shù)獲取微博信息兩種方法。
　　PPT10: 反爬蟲(chóng)的常用技術(shù)，同時(shí)也介紹了針對這些反爬蟲(chóng)技術(shù)的一些主要應對措施。
　　PPT11: 大數據采集應用對非結構化文本的處理技術(shù)，包括文本的預處理、文本分類(lèi)、主題建模、大數據可視化技術(shù)以及一些開(kāi)源工具等。
　　PPT12: 兩個(gè)案例（新聞閱讀器、SQL注入的爬蟲(chóng)監測）
　　2、相關(guān)Python代碼
　　具體下載地址見(jiàn)書(shū)本的附錄A，包含了以下例子。
　　Prog-1-error-handle.py 爬蟲(chóng)的錯誤處理方法
　　Prog-2-hyper-link-extraction.py 超鏈接提取方法
　　prog-3-robotparser-demo.py Robots協(xié)議文件解析
　　Prog-4-cookie-demo.py 在爬蟲(chóng)中使用Cookie
　　Prog-5-HTMLParser-test.py 使用HTMLParser進(jìn)行頁(yè)面解析
　　Prog-6-lxml-test.py 使用lxml進(jìn)行頁(yè)面解析
　　Prog-7-bs-sinanews.py 使用BeautifulSoup進(jìn)行新聞頁(yè)面解析
　　Prog-8-html5lib-test.py 使用html5lib進(jìn)行頁(yè)面解析
　　Prog-9-pyquery-sinanews.py 使用Pyquery進(jìn)行新聞頁(yè)面解析
　　Prog-10-topic-pages.py 主題爬蟲(chóng)
　　Prog-11-book-info.py 圖書(shū)DeepWeb爬蟲(chóng)
　　Prog-12-weiboUserInfo.py 微博用戶(hù)信息采集
　　Prog-13-weiboMsgInfo.py 微博博文信息采集
　　Prog-14-doc-vectors.py 文檔向量空間模型構建
　　Prog-15-train-classifier.py 訓練分類(lèi)器
　　Prog-16-classify.py 使用SVM進(jìn)行分類(lèi)
　　Prog-17-LDA-sklearn.py LDA模型的Python實(shí)現
　　Prog-18-LDA-gensim.py LDA模型的Python實(shí)現
　　Prog-19-matplotlib-examples.py matplotlib的使用
　　Prog-20-wordcloud-example.py wordcloud的使用
　　Prog-21-sinaNewsSpider.py 新浪新聞采集與提取
　　Prog-22-KeywordCloud.py 新聞閱讀器的關(guān)鍵詞輸出
　　Prog-23-LDAnewsTopic.py 新聞主題發(fā)現
　　Prog-24-check.py 使用爬蟲(chóng)進(jìn)行SQL注入安全監測
　　crawler-strategy 4.4.2的完整程序，爬蟲(chóng)策略
　　classify 11.3的例子，包含訓練數據、測試數據
　　app-1 12.2的樣例
　　LDA 11.4的例子
　　sqlijnect 12.3的例子
　　3、視頻
　　300分鐘的講課視頻，可以直接手機掃書(shū)中的二維碼，即可觀(guān)看。
　　4、相關(guān)拓展閱讀
　　本公眾號不定期推送與《Python爬蟲(chóng)大數據采集與挖掘》、《互聯(lián)網(wǎng)大數據處理技術(shù)與應用》相關(guān)的文章，是作者在相關(guān)領(lǐng)域教學(xué)科研中的一些資料，可以加深對書(shū)中一些問(wèn)題的理解。部分推送的文章有：
　　爬蟲(chóng)應用案例
　　爬蟲(chóng)技術(shù)
　　大數據技術(shù)
　　模型與算法
　　更多文章可進(jìn)入本公眾號歷史消息閱讀。
　　

通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-06-03 20:04 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章
　　通過(guò)關(guān)鍵詞采集文章采集apis，實(shí)現定時(shí)自動(dòng)抓取以前的博客文章。抓取網(wǎng)站一般是搜狐，知乎，豆瓣等已經(jīng)被關(guān)閉，但是依然有部分站點(diǎn)可以正常抓取該站點(diǎn)文章，可以根據頁(yè)面定期采集，定時(shí)刪除。自動(dòng)排版預覽通過(guò)開(kāi)源模塊simpui，實(shí)現自動(dòng)排版預覽?？梢愿鶕枰远x自動(dòng)排版效果。
　　uc采集，我用的volley。
　　如果你不愿意花錢(qián)買(mǎi)采集器的話(huà)，還是先通過(guò)博客大巴之類(lèi)的網(wǎng)站檢索到該博客所有者，建議寫(xiě)代碼定時(shí)爬取，再統一壓縮下，然后再采集就好了。我就是這么做的。
　　寫(xiě)爬蟲(chóng)，然后定時(shí)檢查爬取效果，
　　最簡(jiǎn)單的：定期檢查網(wǎng)站的中英文文章是否同步更新
　　需要用到的socketclient，每天自動(dòng)爬出本小時(shí)新文章。
　　寫(xiě)一個(gè)爬蟲(chóng)程序，每小時(shí)爬出來(lái)最新的，1000篇以?xún)鹊?，然后選出400篇。
　　翻墻，然后被墻，
　　你太高估自己，
　　給你自己，自己去慢慢找。
　　使用谷歌的proxy翻墻接口，打開(kāi)翻墻接口后，可以直接抓取站點(diǎn)頁(yè)面，然后使用postman或fiddler等抓包工具，可以獲取http協(xié)議本地代碼，然后解析抓取到的http代碼解析相應的html代碼，
　　可以使用國內的知乎網(wǎng) 查看全部

　　通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章
　　通過(guò)關(guān)鍵詞采集文章采集apis，實(shí)現定時(shí)自動(dòng)抓取以前的博客文章。抓取網(wǎng)站一般是搜狐，知乎，豆瓣等已經(jīng)被關(guān)閉，但是依然有部分站點(diǎn)可以正常抓取該站點(diǎn)文章，可以根據頁(yè)面定期采集，定時(shí)刪除。自動(dòng)排版預覽通過(guò)開(kāi)源模塊simpui，實(shí)現自動(dòng)排版預覽?？梢愿鶕枰远x自動(dòng)排版效果。
　　uc采集，我用的volley。
　　如果你不愿意花錢(qián)買(mǎi)采集器的話(huà)，還是先通過(guò)博客大巴之類(lèi)的網(wǎng)站檢索到該博客所有者，建議寫(xiě)代碼定時(shí)爬取，再統一壓縮下，然后再采集就好了。我就是這么做的。
　　寫(xiě)爬蟲(chóng)，然后定時(shí)檢查爬取效果，
　　最簡(jiǎn)單的：定期檢查網(wǎng)站的中英文文章是否同步更新
　　需要用到的socketclient，每天自動(dòng)爬出本小時(shí)新文章。
　　寫(xiě)一個(gè)爬蟲(chóng)程序，每小時(shí)爬出來(lái)最新的，1000篇以?xún)鹊?，然后選出400篇。
　　翻墻，然后被墻，
　　你太高估自己，
　　給你自己，自己去慢慢找。
　　使用谷歌的proxy翻墻接口，打開(kāi)翻墻接口后，可以直接抓取站點(diǎn)頁(yè)面，然后使用postman或fiddler等抓包工具，可以獲取http協(xié)議本地代碼，然后解析抓取到的http代碼解析相應的html代碼，
　　可以使用國內的知乎網(wǎng)

如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2022-05-27 21:01 ? 來(lái)自相關(guān)話(huà)題

　　如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？
　　通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送，
　　我也想知道這個(gè)
　　微信公眾號公開(kāi)課應該是可以獲取到api的，
　　我記得以前看到過(guò)一個(gè)像辦法，然后寫(xiě)了個(gè)輪子：利用python爬取某公眾號文章。
　　既然最近有興趣，那就說(shuō)一點(diǎn)，能把一篇大學(xué)生講座做成文章，難道不應該找到利益相關(guān)的人發(fā)布么，比如大學(xué)生賽事、論壇、組織，
　　聽(tīng)大學(xué)生講座也分不同類(lèi)型和主題的，可以分別采集到，有的自動(dòng)推送，有的需要你手動(dòng)推送，然后去賺作者辛苦的稿費吧，三百五百千字成本不高的，只要符合要求會(huì )推送就行，如果做到了，或許可以幫助作者排版，編輯更好地發(fā)出來(lái)，這樣也是可以的，和上面所說(shuō)的做輪子一樣。只是做一個(gè)可以推送的api，通過(guò)分析每篇文章的數據，然后進(jìn)行篩選、提取，進(jìn)而合并同類(lèi)文章的一個(gè)api。
　　可以嘗試api服務(wù)，比如一些校園app都有的對外提供微信服務(wù)號的api，登錄和關(guān)注等操作，前提是你要有一些帳號。
　　還是你一個(gè)人想想吧，
　　現在通過(guò)廣播軟件+關(guān)鍵詞+微信公眾號文章抓取，還可以搞量化和基金管理都可以。
　　現在市面上很多家都在做這個(gè)服務(wù)，需要注意的是，國內這方面產(chǎn)品分的比較明確，商業(yè)目的性強的會(huì )在這方面設置一些約束條件，比如不讓發(fā)電腦版公眾號，就是怕你玩文章了，一般都是小公司還在做這個(gè)。商業(yè)目的性弱的，會(huì )比較隨意，看看別人介紹什么的，你可以先大概了解一下別人的文章介紹啊。還有就是千萬(wàn)別信那些直接幫你抓取公眾號文章的，沒(méi)有一定用戶(hù)量的公眾號是不會(huì )輕易讓你抓的，比如你掃碼發(fā)送一個(gè)鏈接都算抓的，有人用微信抓了第一篇公眾號文章就不給你推送了。查看全部

　　如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？
　　通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送，
　　我也想知道這個(gè)
　　微信公眾號公開(kāi)課應該是可以獲取到api的，
　　我記得以前看到過(guò)一個(gè)像辦法，然后寫(xiě)了個(gè)輪子：利用python爬取某公眾號文章。
　　既然最近有興趣，那就說(shuō)一點(diǎn)，能把一篇大學(xué)生講座做成文章，難道不應該找到利益相關(guān)的人發(fā)布么，比如大學(xué)生賽事、論壇、組織，
　　聽(tīng)大學(xué)生講座也分不同類(lèi)型和主題的，可以分別采集到，有的自動(dòng)推送，有的需要你手動(dòng)推送，然后去賺作者辛苦的稿費吧，三百五百千字成本不高的，只要符合要求會(huì )推送就行，如果做到了，或許可以幫助作者排版，編輯更好地發(fā)出來(lái)，這樣也是可以的，和上面所說(shuō)的做輪子一樣。只是做一個(gè)可以推送的api，通過(guò)分析每篇文章的數據，然后進(jìn)行篩選、提取，進(jìn)而合并同類(lèi)文章的一個(gè)api。
　　可以嘗試api服務(wù)，比如一些校園app都有的對外提供微信服務(wù)號的api，登錄和關(guān)注等操作，前提是你要有一些帳號。
　　還是你一個(gè)人想想吧，
　　現在通過(guò)廣播軟件+關(guān)鍵詞+微信公眾號文章抓取，還可以搞量化和基金管理都可以。
　　現在市面上很多家都在做這個(gè)服務(wù)，需要注意的是，國內這方面產(chǎn)品分的比較明確，商業(yè)目的性強的會(huì )在這方面設置一些約束條件，比如不讓發(fā)電腦版公眾號，就是怕你玩文章了，一般都是小公司還在做這個(gè)。商業(yè)目的性弱的，會(huì )比較隨意，看看別人介紹什么的，你可以先大概了解一下別人的文章介紹啊。還有就是千萬(wàn)別信那些直接幫你抓取公眾號文章的，沒(méi)有一定用戶(hù)量的公眾號是不會(huì )輕易讓你抓的，比如你掃碼發(fā)送一個(gè)鏈接都算抓的，有人用微信抓了第一篇公眾號文章就不給你推送了。

通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-05-27 02:00 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷
　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集字段對標題，作者，頁(yè)碼進(jìn)行判斷，選擇相關(guān)的文章標題，
　　這個(gè)我有朋友幫我搞定過(guò)，他是用爬蟲(chóng)抓取某網(wǎng)站的數據，然后導入到googlecache，當爬取到數據后傳到他們自己的服務(wù)器。
　　我也想知道，感覺(jué)我們做的不是一種東西，
　　看這個(gè)就知道了，
　　難道沒(méi)人用123hosting這個(gè)數據采集工具嗎？我相信應該有人會(huì )用他。
　　googleseo?
　　如果你說(shuō)的是googleseo優(yōu)化工具的話(huà)，
　　googleseo。比如百度蜘蛛挖掘網(wǎng)站內容。百度seoengine收錄網(wǎng)站內容。
　　我不是來(lái)推銷(xiāo)工具的==。用不同工具最大區別就是代碼管理。如果你真的想做好seo我建議從第三方代碼集中心下個(gè)采集器開(kāi)始入門(mén)。
　　就看能否做到各方面統一吧，否則肯定只是局部做好，平衡點(diǎn)就比較難。比如說(shuō)給你個(gè)圖你只能關(guān)注最頂端的20個(gè)字，給你個(gè)二維碼只能看到最后二維碼的部分，你肯定做不到全部統一。所以的話(huà)最好統一一下，多用一些編輯器，建站工具，自動(dòng)化工具（畢竟是輔助的）如果嫌麻煩的話(huà)，用ext文件過(guò)濾工具，把那些不需要的字段去掉，可以采用js來(lái)做頁(yè)面也可以用markdown來(lái)寫(xiě)頁(yè)面（沒(méi)有ext那么高級）~看你更看重哪些了。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷
　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集字段對標題，作者，頁(yè)碼進(jìn)行判斷，選擇相關(guān)的文章標題，
　　這個(gè)我有朋友幫我搞定過(guò)，他是用爬蟲(chóng)抓取某網(wǎng)站的數據，然后導入到googlecache，當爬取到數據后傳到他們自己的服務(wù)器。
　　我也想知道，感覺(jué)我們做的不是一種東西，
　　看這個(gè)就知道了，
　　難道沒(méi)人用123hosting這個(gè)數據采集工具嗎？我相信應該有人會(huì )用他。
　　googleseo?
　　如果你說(shuō)的是googleseo優(yōu)化工具的話(huà)，
　　googleseo。比如百度蜘蛛挖掘網(wǎng)站內容。百度seoengine收錄網(wǎng)站內容。
　　我不是來(lái)推銷(xiāo)工具的==。用不同工具最大區別就是代碼管理。如果你真的想做好seo我建議從第三方代碼集中心下個(gè)采集器開(kāi)始入門(mén)。
　　就看能否做到各方面統一吧，否則肯定只是局部做好，平衡點(diǎn)就比較難。比如說(shuō)給你個(gè)圖你只能關(guān)注最頂端的20個(gè)字，給你個(gè)二維碼只能看到最后二維碼的部分，你肯定做不到全部統一。所以的話(huà)最好統一一下，多用一些編輯器，建站工具，自動(dòng)化工具（畢竟是輔助的）如果嫌麻煩的話(huà)，用ext文件過(guò)濾工具，把那些不需要的字段去掉，可以采用js來(lái)做頁(yè)面也可以用markdown來(lái)寫(xiě)頁(yè)面（沒(méi)有ext那么高級）~看你更看重哪些了。

移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 70 次瀏覽 ? 2022-05-24 18:00 ? 來(lái)自相關(guān)話(huà)題

　　移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html
　　通過(guò)關(guān)鍵詞采集文章采集api，
　　(#′)凸，目前瀏覽器沒(méi)有js可以直接從不靠任何api獲取文本的哦。網(wǎng)站也不可能不靠api獲取網(wǎng)頁(yè)內容的哦。就是要獲取網(wǎng)頁(yè)內容的話(huà)，不可能不用js的哦。比如你的問(wèn)題里面的這篇文章，就是用瀏覽器自帶的網(wǎng)頁(yè)抓取api抓下來(lái)的。
　　第一種你要是網(wǎng)頁(yè)開(kāi)發(fā)人員，第二種你懂開(kāi)發(fā)api，
　　ajax技術(shù)啊。不懂js在這兒瞎推薦。
　　自己不是每天要讀文章嗎？看看我的知乎專(zhuān)欄，每天讀點(diǎn)新知識吧。每天知乎送文章到你的手機中，
　　用第三方api就是兩種方式:1，自己寫(xiě)代碼。2，通過(guò)瀏覽器js。自己寫(xiě)代碼的話(huà)，基本上大部分api是沒(méi)什么問(wèn)題的，搞點(diǎn)原始字符串，一個(gè)http請求，基本可以實(shí)現普通文本到j(luò )son數據的轉換，獲取原始字符串。第二種方式的話(huà)，每天讀點(diǎn)新知識-精選最受歡迎的app、新聞、圖片及網(wǎng)站推薦，提供各種精彩文章分享。
　　websocket
　　國內你要找到支持js的
　　懂點(diǎn)js，jquery等。
　　移動(dòng)互聯(lián)網(wǎng)不用擔心？js你懂嗎？而且網(wǎng)站還是要生成html才能爬
　　基本上就是最開(kāi)始大家推薦的那些了，對于移動(dòng)互聯(lián)網(wǎng)，就算支持js的，如果不會(huì )寫(xiě)js，就是一頭霧水，查看全部

　　移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html
　　通過(guò)關(guān)鍵詞采集文章采集api，
　　(#′)凸，目前瀏覽器沒(méi)有js可以直接從不靠任何api獲取文本的哦。網(wǎng)站也不可能不靠api獲取網(wǎng)頁(yè)內容的哦。就是要獲取網(wǎng)頁(yè)內容的話(huà)，不可能不用js的哦。比如你的問(wèn)題里面的這篇文章，就是用瀏覽器自帶的網(wǎng)頁(yè)抓取api抓下來(lái)的。
　　第一種你要是網(wǎng)頁(yè)開(kāi)發(fā)人員，第二種你懂開(kāi)發(fā)api，
　　ajax技術(shù)啊。不懂js在這兒瞎推薦。
　　自己不是每天要讀文章嗎？看看我的知乎專(zhuān)欄，每天讀點(diǎn)新知識吧。每天知乎送文章到你的手機中，
　　用第三方api就是兩種方式:1，自己寫(xiě)代碼。2，通過(guò)瀏覽器js。自己寫(xiě)代碼的話(huà)，基本上大部分api是沒(méi)什么問(wèn)題的，搞點(diǎn)原始字符串，一個(gè)http請求，基本可以實(shí)現普通文本到j(luò )son數據的轉換，獲取原始字符串。第二種方式的話(huà)，每天讀點(diǎn)新知識-精選最受歡迎的app、新聞、圖片及網(wǎng)站推薦，提供各種精彩文章分享。
　　websocket
　　國內你要找到支持js的
　　懂點(diǎn)js，jquery等。
　　移動(dòng)互聯(lián)網(wǎng)不用擔心？js你懂嗎？而且網(wǎng)站還是要生成html才能爬
　　基本上就是最開(kāi)始大家推薦的那些了，對于移動(dòng)互聯(lián)網(wǎng)，就算支持js的，如果不會(huì )寫(xiě)js，就是一頭霧水，

神策數據盛永根：微信生態(tài)——全數據采集和打通

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2022-05-11 04:18 ? 來(lái)自相關(guān)話(huà)題

　　神策數據盛永根：微信生態(tài)——全數據采集和打通
　　
　　
　　
　　本文根據神策數據盛永根《微信生態(tài)數字化運營(yíng)跨端數據采集方案》直播整理而得，本文的主要內容如下：
　　一、微信生態(tài)介紹
　　1. 微信公眾平臺
　　公眾平臺主要包含小程序、服務(wù)號、訂閱號和微信網(wǎng)頁(yè)。日常運營(yíng)都是在公眾平臺進(jìn)行，比如修改公眾號文章，上傳小程序等。
　　2. 微信開(kāi)放平臺
　　開(kāi)放平臺通常包含四個(gè)方面：
　　3. 微信
　　微信群聊、微信朋友圈、微信視頻號、微信收藏等，這些是微信本身自帶的功能。
　　4. 微信生態(tài)用戶(hù)信息
　　微信生態(tài)的數據打通，關(guān)鍵在用戶(hù)的 ID 是否打通。下面我們分析下微信生態(tài)用戶(hù)標識中常見(jiàn)的幾個(gè) ID 的概念：
　　二、微信生態(tài)數據采集
　　常見(jiàn)的微信生態(tài)的數據采集主要包括：公眾號的數據采集、微信內網(wǎng)頁(yè)數據采集、小程序和小游戲數據采集、微信本身的數據采集。
　　1. 公眾號的數據采集
　　公眾號分為服務(wù)號及訂閱號，簡(jiǎn)單列舉幾條不同點(diǎn)：
　　公眾號提供了如下接口：普通消息、事件推送、回復消息、群發(fā)消息、客服消息、模板消息、一次性訂閱消息、其它功能。
　　用戶(hù)在公眾號里輸入一條普通消息后，后端能接收到的文本消息數據如下圖左邊部分：
　　
　　此時(shí)使用神策 Java SDK 發(fā)送文本消息事件，代碼如上圖右半部分。
　　下面具體介紹微信公眾號可以采集的事件：
　　上面介紹了可采集的數據，同時(shí)還有幾個(gè)常用的運營(yíng)功能：
　　總結公眾號的數據采集，簡(jiǎn)單總結下：
　　2. 微信內網(wǎng)頁(yè)數據采集
　　微信網(wǎng)頁(yè)若沒(méi)有在公眾號里配置，就僅是一個(gè)瀏覽器打開(kāi)的傳統網(wǎng)頁(yè)，沒(méi)有微信的一些功能；但如果其在公眾號里進(jìn)行配置，可以實(shí)現兩個(gè)功能：
　　第一，可以使用神策的 Web JS SDK 去采集數據，跟傳統的瀏覽器打開(kāi)的網(wǎng)頁(yè)效果基本一致，但可能存在一些兼容性問(wèn)題。
　　在微信每個(gè)網(wǎng)頁(yè)的代碼中，加入神策的 Web JS SDK，即可采集以下事件，并可以做點(diǎn)擊分析和觸達率分析：
　　
　　第二，通過(guò)微信 JS SDK 增強微信數據采集。原理是，微信在 WebView 中通過(guò)注入 JSBridge 相關(guān)腳本，使得網(wǎng)頁(yè)擁有部分微信 App 的功能（這也就是所謂的 Hybrid 技術(shù)）。
　　只需要在微信各個(gè)網(wǎng)頁(yè)代碼中，加入微信 JS-SDK，就可以使用，但使用時(shí)需要在公眾號后臺中做設置：
　　微信的 JS-SDK 可以采集的事件：
　　常見(jiàn)的是微信的分享的事件，如果用戶(hù)觸發(fā)了分享。我們可以采集分享成功事件，屬性包括：頁(yè)面地址、分享標題、分享描述、分享鏈接、分享圖片。
　　除此之外還有如圖片、錄音、搖一搖、微信掃碼、微信支付等事件。
　　例如，在微信網(wǎng)頁(yè)里用戶(hù)也能夠像在 App 中一樣打開(kāi)圖片，并且進(jìn)行上傳和下載，在網(wǎng)頁(yè)里面還可以去錄音，這些都可以做為事件。
　　其次，微信的 JS-SDK 還可以采集到一些額外的屬性，如網(wǎng)絡(luò )的類(lèi)型（Wifi、3G、4G）、地理位置（經(jīng)度、緯度、地址詳情、縮放比例）、收貨地址（姓名、郵編、詳細地址、電話(huà)）等，這些屬性都是在傳統的網(wǎng)頁(yè)中無(wú)法獲取的。
　　簡(jiǎn)單總結微信網(wǎng)頁(yè)內數據采集：
　　3. 小程序和小游戲數據采集
　　有些人可能認為小游戲也是小程序，其實(shí)是不同的：
　　小程序和小游戲也有共同點(diǎn)：
　　小程序與網(wǎng)頁(yè)都屬于前端事件，一般建議使用 OpenID，但是 OpenID 需要一定開(kāi)發(fā)量，所以默認會(huì )使用 UUID。用戶(hù)登陸之后，同樣建議以一個(gè)真實(shí)的 ID 即 UserID 為準實(shí)現用戶(hù)關(guān)聯(lián)。
　　下面是使用神策微信小程序 SDK 和微信小游戲 SDK 后，共同可采集的預置事件：
　　上述事件不做任何操作都可以采集到的，即只需要使用 SDK 就可以。另外如果獲得用戶(hù)授權后，小程序還可以采集到更多事件屬性。
　　
　　用戶(hù)進(jìn)入小程序后會(huì )彈出一個(gè)授權的模板消息，用戶(hù)點(diǎn)擊允許后，就可以為用戶(hù)推送模板消息，可以跳轉至小程序具體詳情頁(yè)。其中模板消息分為單次與永久，一般情況下它與特定的行業(yè)模板相關(guān)。
　　單次的模板每次都需要用戶(hù)授權。永久的模板，比如小程序鎖車(chē)，這是特定行業(yè)的，沒(méi)有經(jīng)過(guò)授權也可以推送消息。小程序訂閱事件，屬性包含用戶(hù)信息（微信昵稱(chēng)、性別、頭像、城市等）、通訊地址（姓名、手機號、郵編）、發(fā)票、運動(dòng)步數屬性。
　　小程序訂閱消息的位置在微信號的服務(wù)通知里面，訂閱消息可以實(shí)現服務(wù)的閉環(huán)。比如說(shuō)用戶(hù)發(fā)生支付行為后，可以給用戶(hù)推一個(gè)鏈接消息，可以跳回到商場(chǎng)里看自己購買(mǎi)的商品，引導用戶(hù)完成閉環(huán)。
　　除了用戶(hù)打通，其實(shí)還包括渠道打通。小程序渠道，分為渠道場(chǎng)景值和渠道參數。
　　場(chǎng)景值是打開(kāi)小程序時(shí)候，API 能自動(dòng)獲取的，可以看用戶(hù)是從什么渠道跳轉到小程序，比如是掃碼過(guò)來(lái)的，從小程序跳轉過(guò)來(lái)的。
　　場(chǎng)景值只能大概判斷是從哪種方式打開(kāi)的，如果要精確到具體是哪個(gè)人，需要使用渠道參數。包括掃描普通鏈接二維碼、小程序碼、小程序二維碼、微信廣告跳轉、朋友圈和公眾號以及小程序的廣告等，都可以設置一個(gè)帶參數的 Path ，然后就可以解析出具體的參數。
　　總結小程序和小游戲的數據采集：
　　4. 微信數據采集
　　公眾號和小程序都有官方提供的接口去采集，但是微信沒(méi)有提供這樣的官方接口，微信機器人一般是通過(guò)模擬微信網(wǎng)頁(yè)版的接口來(lái)實(shí)現的，所以你也只能取到你在微信中所能看到的：微信號、微信昵稱(chēng)、聊天內容等信息。不過(guò)這里也可以做一些智能化的操作，通過(guò)神策的 ID 關(guān)聯(lián)功能，使得微信號和公眾號中 OpenID 進(jìn)行關(guān)聯(lián)綁定，可以實(shí)現自動(dòng)發(fā)微信消息。
　　三、各應用間的數據打通
　　1. 各應用使用的 ID 整理
　　微信公眾號是后端事件，建議使用 OpenID；微信網(wǎng)頁(yè)建議使用 OpenID，但實(shí)際默認 UUID，所以一般建議客戶(hù)關(guān)聯(lián) UserID；小程序和小游戲與微信網(wǎng)一樣，但是前者還會(huì )有一個(gè)后端事件，這個(gè)時(shí)候默認使用 OpenID。所以此時(shí)就存在多個(gè) ID。
　　而只有 ID 是一致的，才可以把用戶(hù)關(guān)聯(lián)起來(lái)。如果您使用的是神策的用戶(hù)關(guān)聯(lián)進(jìn)行打通，建議使用如下方式：
　　2. 渠道打通
　　3. 渠道間的互相跳轉查看全部

　　神策數據盛永根：微信生態(tài)——全數據采集和打通
　　

　　

　　

　　本文根據神策數據盛永根《微信生態(tài)數字化運營(yíng)跨端數據采集方案》直播整理而得，本文的主要內容如下：
　　一、微信生態(tài)介紹
　　1. 微信公眾平臺
　　公眾平臺主要包含小程序、服務(wù)號、訂閱號和微信網(wǎng)頁(yè)。日常運營(yíng)都是在公眾平臺進(jìn)行，比如修改公眾號文章，上傳小程序等。
　　2. 微信開(kāi)放平臺
　　開(kāi)放平臺通常包含四個(gè)方面：
　　3. 微信
　　微信群聊、微信朋友圈、微信視頻號、微信收藏等，這些是微信本身自帶的功能。
　　4. 微信生態(tài)用戶(hù)信息
　　微信生態(tài)的數據打通，關(guān)鍵在用戶(hù)的 ID 是否打通。下面我們分析下微信生態(tài)用戶(hù)標識中常見(jiàn)的幾個(gè) ID 的概念：
　　二、微信生態(tài)數據采集
　　常見(jiàn)的微信生態(tài)的數據采集主要包括：公眾號的數據采集、微信內網(wǎng)頁(yè)數據采集、小程序和小游戲數據采集、微信本身的數據采集。
　　1. 公眾號的數據采集
　　公眾號分為服務(wù)號及訂閱號，簡(jiǎn)單列舉幾條不同點(diǎn)：
　　公眾號提供了如下接口：普通消息、事件推送、回復消息、群發(fā)消息、客服消息、模板消息、一次性訂閱消息、其它功能。
　　用戶(hù)在公眾號里輸入一條普通消息后，后端能接收到的文本消息數據如下圖左邊部分：
　　

　　此時(shí)使用神策 Java SDK 發(fā)送文本消息事件，代碼如上圖右半部分。
　　下面具體介紹微信公眾號可以采集的事件：
　　上面介紹了可采集的數據，同時(shí)還有幾個(gè)常用的運營(yíng)功能：
　　總結公眾號的數據采集，簡(jiǎn)單總結下：
　　2. 微信內網(wǎng)頁(yè)數據采集
　　微信網(wǎng)頁(yè)若沒(méi)有在公眾號里配置，就僅是一個(gè)瀏覽器打開(kāi)的傳統網(wǎng)頁(yè)，沒(méi)有微信的一些功能；但如果其在公眾號里進(jìn)行配置，可以實(shí)現兩個(gè)功能：
　　第一，可以使用神策的 Web JS SDK 去采集數據，跟傳統的瀏覽器打開(kāi)的網(wǎng)頁(yè)效果基本一致，但可能存在一些兼容性問(wèn)題。
　　在微信每個(gè)網(wǎng)頁(yè)的代碼中，加入神策的 Web JS SDK，即可采集以下事件，并可以做點(diǎn)擊分析和觸達率分析：
　　

　　第二，通過(guò)微信 JS SDK 增強微信數據采集。原理是，微信在 WebView 中通過(guò)注入 JSBridge 相關(guān)腳本，使得網(wǎng)頁(yè)擁有部分微信 App 的功能（這也就是所謂的 Hybrid 技術(shù)）。
　　只需要在微信各個(gè)網(wǎng)頁(yè)代碼中，加入微信 JS-SDK，就可以使用，但使用時(shí)需要在公眾號后臺中做設置：
　　微信的 JS-SDK 可以采集的事件：
　　常見(jiàn)的是微信的分享的事件，如果用戶(hù)觸發(fā)了分享。我們可以采集分享成功事件，屬性包括：頁(yè)面地址、分享標題、分享描述、分享鏈接、分享圖片。
　　除此之外還有如圖片、錄音、搖一搖、微信掃碼、微信支付等事件。
　　例如，在微信網(wǎng)頁(yè)里用戶(hù)也能夠像在 App 中一樣打開(kāi)圖片，并且進(jìn)行上傳和下載，在網(wǎng)頁(yè)里面還可以去錄音，這些都可以做為事件。
　　其次，微信的 JS-SDK 還可以采集到一些額外的屬性，如網(wǎng)絡(luò )的類(lèi)型（Wifi、3G、4G）、地理位置（經(jīng)度、緯度、地址詳情、縮放比例）、收貨地址（姓名、郵編、詳細地址、電話(huà)）等，這些屬性都是在傳統的網(wǎng)頁(yè)中無(wú)法獲取的。
　　簡(jiǎn)單總結微信網(wǎng)頁(yè)內數據采集：
　　3. 小程序和小游戲數據采集
　　有些人可能認為小游戲也是小程序，其實(shí)是不同的：
　　小程序和小游戲也有共同點(diǎn)：
　　小程序與網(wǎng)頁(yè)都屬于前端事件，一般建議使用 OpenID，但是 OpenID 需要一定開(kāi)發(fā)量，所以默認會(huì )使用 UUID。用戶(hù)登陸之后，同樣建議以一個(gè)真實(shí)的 ID 即 UserID 為準實(shí)現用戶(hù)關(guān)聯(lián)。
　　下面是使用神策微信小程序 SDK 和微信小游戲 SDK 后，共同可采集的預置事件：
　　上述事件不做任何操作都可以采集到的，即只需要使用 SDK 就可以。另外如果獲得用戶(hù)授權后，小程序還可以采集到更多事件屬性。
　　

　　用戶(hù)進(jìn)入小程序后會(huì )彈出一個(gè)授權的模板消息，用戶(hù)點(diǎn)擊允許后，就可以為用戶(hù)推送模板消息，可以跳轉至小程序具體詳情頁(yè)。其中模板消息分為單次與永久，一般情況下它與特定的行業(yè)模板相關(guān)。
　　單次的模板每次都需要用戶(hù)授權。永久的模板，比如小程序鎖車(chē)，這是特定行業(yè)的，沒(méi)有經(jīng)過(guò)授權也可以推送消息。小程序訂閱事件，屬性包含用戶(hù)信息（微信昵稱(chēng)、性別、頭像、城市等）、通訊地址（姓名、手機號、郵編）、發(fā)票、運動(dòng)步數屬性。
　　小程序訂閱消息的位置在微信號的服務(wù)通知里面，訂閱消息可以實(shí)現服務(wù)的閉環(huán)。比如說(shuō)用戶(hù)發(fā)生支付行為后，可以給用戶(hù)推一個(gè)鏈接消息，可以跳回到商場(chǎng)里看自己購買(mǎi)的商品，引導用戶(hù)完成閉環(huán)。
　　除了用戶(hù)打通，其實(shí)還包括渠道打通。小程序渠道，分為渠道場(chǎng)景值和渠道參數。
　　場(chǎng)景值是打開(kāi)小程序時(shí)候，API 能自動(dòng)獲取的，可以看用戶(hù)是從什么渠道跳轉到小程序，比如是掃碼過(guò)來(lái)的，從小程序跳轉過(guò)來(lái)的。
　　場(chǎng)景值只能大概判斷是從哪種方式打開(kāi)的，如果要精確到具體是哪個(gè)人，需要使用渠道參數。包括掃描普通鏈接二維碼、小程序碼、小程序二維碼、微信廣告跳轉、朋友圈和公眾號以及小程序的廣告等，都可以設置一個(gè)帶參數的 Path ，然后就可以解析出具體的參數。
　　總結小程序和小游戲的數據采集：
　　4. 微信數據采集
　　公眾號和小程序都有官方提供的接口去采集，但是微信沒(méi)有提供這樣的官方接口，微信機器人一般是通過(guò)模擬微信網(wǎng)頁(yè)版的接口來(lái)實(shí)現的，所以你也只能取到你在微信中所能看到的：微信號、微信昵稱(chēng)、聊天內容等信息。不過(guò)這里也可以做一些智能化的操作，通過(guò)神策的 ID 關(guān)聯(lián)功能，使得微信號和公眾號中 OpenID 進(jìn)行關(guān)聯(lián)綁定，可以實(shí)現自動(dòng)發(fā)微信消息。
　　三、各應用間的數據打通
　　1. 各應用使用的 ID 整理
　　微信公眾號是后端事件，建議使用 OpenID；微信網(wǎng)頁(yè)建議使用 OpenID，但實(shí)際默認 UUID，所以一般建議客戶(hù)關(guān)聯(lián) UserID；小程序和小游戲與微信網(wǎng)一樣，但是前者還會(huì )有一個(gè)后端事件，這個(gè)時(shí)候默認使用 OpenID。所以此時(shí)就存在多個(gè) ID。
　　而只有 ID 是一致的，才可以把用戶(hù)關(guān)聯(lián)起來(lái)。如果您使用的是神策的用戶(hù)關(guān)聯(lián)進(jìn)行打通，建議使用如下方式：
　　2. 渠道打通
　　3. 渠道間的互相跳轉

網(wǎng)絡(luò )數據采集的邊界在哪里？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-05-11 03:56 ? 來(lái)自相關(guān)話(huà)題

　　網(wǎng)絡(luò )數據采集的邊界在哪里？
　　▼更多精彩，請關(guān)注企通查▼
　　在網(wǎng)絡(luò )環(huán)境下，違反隱私信息保護的行為頻發(fā)，由網(wǎng)絡(luò )數據采集而引發(fā)的信息泄露事件頻頻出現在大眾視野。
　　隱私信息的保護涉及采集、使用、披露等多個(gè)環(huán)節，而采集正是個(gè)人信息被濫用的源頭。
　　若想徹底從源頭上解決、控制問(wèn)題，能夠清晰做到劃分合法采集與非法采集的邊界就尤其重要。
　　本文將對網(wǎng)絡(luò )數據采集的概念、方法和如何規避非法采集進(jìn)行簡(jiǎn)單介紹。
　　大數據時(shí)代，幾乎每種網(wǎng)絡(luò )服務(wù)都需要采集用戶(hù)的信息，出于各種原因，這些數據會(huì )被政府部門(mén)、相關(guān)機構、企業(yè)等收集并使用。
　　網(wǎng)絡(luò )數據采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)，通過(guò)網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數據信息，從而實(shí)現有針對性、行業(yè)性、精準性的數據抓取，并按照一定規則和篩選標準進(jìn)行數據歸類(lèi)，并形成數據庫文件的一系列過(guò)程。
　　隨著(zhù)互聯(lián)網(wǎng)技術(shù)的發(fā)展和網(wǎng)絡(luò )海量信息的增長(cháng)，對信息的獲取與分揀成為一種越來(lái)越強烈的需求。
　　網(wǎng)絡(luò )數據采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò )爬蟲(chóng)、分詞系統、任務(wù)與索引系統等技術(shù)進(jìn)行綜合運用而完成，人們一般通過(guò)以上技術(shù)將海量信息和數據采集回后，進(jìn)行分揀和二次加工，實(shí)現網(wǎng)絡(luò )數據價(jià)值與利益更大化、更專(zhuān)業(yè)化的目的。
　　
　　在大數據時(shí)代，網(wǎng)絡(luò )爬蟲(chóng)是在互聯(lián)網(wǎng)上采集數據的主流方法、有利工具，主要是為搜索引擎提供最新最全面的數據。
　　網(wǎng)絡(luò )爬蟲(chóng)是一種按照一定的規則，自動(dòng)地抓取Web信息的程序或者腳本。Web網(wǎng)絡(luò )爬蟲(chóng)可以自動(dòng)采集所有其能夠訪(fǎng)問(wèn)到的頁(yè)面內容，為搜索引擎和大數據分析提供數據來(lái)源。
　　從功能上來(lái)講，爬蟲(chóng)一般有數據采集、處理和存儲3部分功能。
　　通俗地將，爬蟲(chóng)就相當于一個(gè)探測機器，可以理解為你的“分身”，通過(guò)模擬人的行為去瀏覽各個(gè)網(wǎng)站，對網(wǎng)站內容進(jìn)行查看，或者把看到的信息背回來(lái)，像一只蟲(chóng)子一樣在樓里不知疲倦地爬來(lái)爬去。
　　如果把互聯(lián)網(wǎng)比作一張大網(wǎng)，那么爬蟲(chóng)就是這張網(wǎng)上的蜘蛛，如果它遇到了自己的獵物（需要的資源），那么它就會(huì )將其抓取下來(lái)。
　　常用的網(wǎng)絡(luò )采集系統有：
　　分布式網(wǎng)絡(luò )爬蟲(chóng)工具：如Nutch
　　Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Crawler4j、WebMagic、WebCollector
　　非Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Scrapy（基于Python語(yǔ)言開(kāi)發(fā)）
　　關(guān)于爬蟲(chóng)的原理和具體工作流程、爬取策略，將會(huì )在后續的文章中詳細介紹，在此不再贅述。
　　
　　了解了什么是網(wǎng)絡(luò )數據采集和網(wǎng)絡(luò )數據采集的方法，該如何規避非法網(wǎng)絡(luò )數據采集呢？可以著(zhù)重注意以下三方面：
　　01
　　與網(wǎng)絡(luò )數據采集相關(guān)的法律/法規有哪些？
　　網(wǎng)絡(luò )數據采集的法律法規，包括但不限于：
　　02
　　哪些采集行為不合規？
　　在采集過(guò)程中，以下采集行為是不合規的：
　　03
　　應該如何規避非法采集？
　　規避非法采集時(shí)應當注意：
　　企通查-動(dòng)態(tài)大數據資源中心基于互聯(lián)網(wǎng)+大數據+人工智能技術(shù)構建，通過(guò)分布式數據采集集群、數據特征提取、機器學(xué)習和深度學(xué)習算法模型、NLP文本分析等技術(shù)實(shí)現了數據的實(shí)時(shí)更新、高度關(guān)聯(lián)、動(dòng)態(tài)下載、主動(dòng)推送，提供了全面、權威、及時(shí)、準確的數據資源，涵蓋了宏觀(guān)、中觀(guān)、微觀(guān)層面的全維度數據體系。大數據資源中心包含上百個(gè)維度、上千條二級類(lèi)目及上千億數據，數據類(lèi)型包括結構化數據、網(wǎng)頁(yè)數據、文本數據、圖像數據等，數據存儲總量超過(guò)500T，為企業(yè)采購風(fēng)控、銷(xiāo)售客戶(hù)評估、Al精準獲客、精準招商、投融資、高?？蒲袡C構、政府事業(yè)單位提供了全方位的數據支持和數據應用解決方案。
　　如您對我們感興趣，歡迎進(jìn)行咨詢(xún)：
　　聯(lián)系人：趙先生查看全部

　　網(wǎng)絡(luò )數據采集的邊界在哪里？
　　▼更多精彩，請關(guān)注企通查▼
　　在網(wǎng)絡(luò )環(huán)境下，違反隱私信息保護的行為頻發(fā)，由網(wǎng)絡(luò )數據采集而引發(fā)的信息泄露事件頻頻出現在大眾視野。
　　隱私信息的保護涉及采集、使用、披露等多個(gè)環(huán)節，而采集正是個(gè)人信息被濫用的源頭。
　　若想徹底從源頭上解決、控制問(wèn)題，能夠清晰做到劃分合法采集與非法采集的邊界就尤其重要。
　　本文將對網(wǎng)絡(luò )數據采集的概念、方法和如何規避非法采集進(jìn)行簡(jiǎn)單介紹。
　　大數據時(shí)代，幾乎每種網(wǎng)絡(luò )服務(wù)都需要采集用戶(hù)的信息，出于各種原因，這些數據會(huì )被政府部門(mén)、相關(guān)機構、企業(yè)等收集并使用。
　　網(wǎng)絡(luò )數據采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)，通過(guò)網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數據信息，從而實(shí)現有針對性、行業(yè)性、精準性的數據抓取，并按照一定規則和篩選標準進(jìn)行數據歸類(lèi)，并形成數據庫文件的一系列過(guò)程。
　　隨著(zhù)互聯(lián)網(wǎng)技術(shù)的發(fā)展和網(wǎng)絡(luò )海量信息的增長(cháng)，對信息的獲取與分揀成為一種越來(lái)越強烈的需求。
　　網(wǎng)絡(luò )數據采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò )爬蟲(chóng)、分詞系統、任務(wù)與索引系統等技術(shù)進(jìn)行綜合運用而完成，人們一般通過(guò)以上技術(shù)將海量信息和數據采集回后，進(jìn)行分揀和二次加工，實(shí)現網(wǎng)絡(luò )數據價(jià)值與利益更大化、更專(zhuān)業(yè)化的目的。
　　

　　在大數據時(shí)代，網(wǎng)絡(luò )爬蟲(chóng)是在互聯(lián)網(wǎng)上采集數據的主流方法、有利工具，主要是為搜索引擎提供最新最全面的數據。
　　網(wǎng)絡(luò )爬蟲(chóng)是一種按照一定的規則，自動(dòng)地抓取Web信息的程序或者腳本。Web網(wǎng)絡(luò )爬蟲(chóng)可以自動(dòng)采集所有其能夠訪(fǎng)問(wèn)到的頁(yè)面內容，為搜索引擎和大數據分析提供數據來(lái)源。
　　從功能上來(lái)講，爬蟲(chóng)一般有數據采集、處理和存儲3部分功能。
　　通俗地將，爬蟲(chóng)就相當于一個(gè)探測機器，可以理解為你的“分身”，通過(guò)模擬人的行為去瀏覽各個(gè)網(wǎng)站，對網(wǎng)站內容進(jìn)行查看，或者把看到的信息背回來(lái)，像一只蟲(chóng)子一樣在樓里不知疲倦地爬來(lái)爬去。
　　如果把互聯(lián)網(wǎng)比作一張大網(wǎng)，那么爬蟲(chóng)就是這張網(wǎng)上的蜘蛛，如果它遇到了自己的獵物（需要的資源），那么它就會(huì )將其抓取下來(lái)。
　　常用的網(wǎng)絡(luò )采集系統有：
　　分布式網(wǎng)絡(luò )爬蟲(chóng)工具：如Nutch
　　Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Crawler4j、WebMagic、WebCollector
　　非Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Scrapy（基于Python語(yǔ)言開(kāi)發(fā)）
　　關(guān)于爬蟲(chóng)的原理和具體工作流程、爬取策略，將會(huì )在后續的文章中詳細介紹，在此不再贅述。
　　

　　了解了什么是網(wǎng)絡(luò )數據采集和網(wǎng)絡(luò )數據采集的方法，該如何規避非法網(wǎng)絡(luò )數據采集呢？可以著(zhù)重注意以下三方面：
　　01
　　與網(wǎng)絡(luò )數據采集相關(guān)的法律/法規有哪些？
　　網(wǎng)絡(luò )數據采集的法律法規，包括但不限于：
　　02
　　哪些采集行為不合規？
　　在采集過(guò)程中，以下采集行為是不合規的：
　　03
　　應該如何規避非法采集？
　　規避非法采集時(shí)應當注意：
　　企通查-動(dòng)態(tài)大數據資源中心基于互聯(lián)網(wǎng)+大數據+人工智能技術(shù)構建，通過(guò)分布式數據采集集群、數據特征提取、機器學(xué)習和深度學(xué)習算法模型、NLP文本分析等技術(shù)實(shí)現了數據的實(shí)時(shí)更新、高度關(guān)聯(lián)、動(dòng)態(tài)下載、主動(dòng)推送，提供了全面、權威、及時(shí)、準確的數據資源，涵蓋了宏觀(guān)、中觀(guān)、微觀(guān)層面的全維度數據體系。大數據資源中心包含上百個(gè)維度、上千條二級類(lèi)目及上千億數據，數據類(lèi)型包括結構化數據、網(wǎng)頁(yè)數據、文本數據、圖像數據等，數據存儲總量超過(guò)500T，為企業(yè)采購風(fēng)控、銷(xiāo)售客戶(hù)評估、Al精準獲客、精準招商、投融資、高?？蒲袡C構、政府事業(yè)單位提供了全方位的數據支持和數據應用解決方案。
　　如您對我們感興趣，歡迎進(jìn)行咨詢(xún)：
　　聯(lián)系人：趙先生

用 R 收集和映射推特數據的初學(xué)者向導

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2022-05-10 11:02 ? 來(lái)自相關(guān)話(huà)題

　　用 R 收集和映射推特數據的初學(xué)者向導
　　
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。-- Dorris Scott
　　本文導航
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。
　　當我開(kāi)始學(xué)習 R ，我也需要學(xué)習如何出于研究的目的地收集推特數據并對其進(jìn)行映射。盡管網(wǎng)上關(guān)于這個(gè)話(huà)題的信息很多，但我發(fā)覺(jué)難以理解什么與收集并映射推特數據相關(guān)。我不僅是個(gè) R 新手，而且對各種教程中技術(shù)名詞不熟悉。但盡管困難重重，我成功了！在這個(gè)教程里，我將以一種新手程序員都能看懂的方式來(lái)攻略如何收集推特數據并將至展現在地圖中。
　　創(chuàng )建應用程序
　　如果你沒(méi)有推特帳號，首先你需要注冊一個(gè)[1]。然后，到 [2]創(chuàng )建一個(gè)允許你收集推特數據的應用程序。別擔心，創(chuàng )建應用程序極其簡(jiǎn)單。你創(chuàng )建的應用程序會(huì )與推特應用程序接口（API）相連。想象 API 是一個(gè)多功能電子個(gè)人助手。你可以使用 API 讓其它程序幫你做事。這樣一來(lái)，你可以接入推特 API 令其收集數據。只需確保不要請求太多，因為推特數據請求次數是有限制[3]的。
　　收集推文有兩個(gè)可用的 API 。你若想做一次性的推文收集，那么使用REST API. 若是想在特定時(shí)間內持續收集，可以用streaming API。教程中我主要使用 REST API。
　　創(chuàng )建應用程序之后，前往Keys and Access Tokens標簽。你需要 Consumer Key (API key)、 Consumer Secret (API secret)、 Access Token 和 Access Token Secret 才能在 R 中訪(fǎng)問(wèn)你的應用程序。
　　收集推特數據
　　下一步是打開(kāi) R 準備寫(xiě)代碼。對于初學(xué)者，我推薦使用RStudio[4]，這是 R 的集成開(kāi)發(fā)環(huán)境 (IDE) 。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)很實(shí)用。 R 有訪(fǎng)問(wèn)該 REST API 的包叫twitteR[5]。
　　打開(kāi) RStudio 并新建 RScript。做好這些之后，你需要安裝和加載twitteR包:
　　<p>install.packages("twitteR")
　　#安裝 TwitteR
　　library (twitteR)
　　#載入 TwitteR</p>
　　安裝并載入twitteR包之后，你得輸入上文提及的應用程序的 API 信息： <p><p>api_key 查看全部

　　用 R 收集和映射推特數據的初學(xué)者向導
　　

　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。-- Dorris Scott
　　本文導航
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。
　　當我開(kāi)始學(xué)習 R ，我也需要學(xué)習如何出于研究的目的地收集推特數據并對其進(jìn)行映射。盡管網(wǎng)上關(guān)于這個(gè)話(huà)題的信息很多，但我發(fā)覺(jué)難以理解什么與收集并映射推特數據相關(guān)。我不僅是個(gè) R 新手，而且對各種教程中技術(shù)名詞不熟悉。但盡管困難重重，我成功了！在這個(gè)教程里，我將以一種新手程序員都能看懂的方式來(lái)攻略如何收集推特數據并將至展現在地圖中。
　　創(chuàng )建應用程序
　　如果你沒(méi)有推特帳號，首先你需要注冊一個(gè)[1]。然后，到 [2]創(chuàng )建一個(gè)允許你收集推特數據的應用程序。別擔心，創(chuàng )建應用程序極其簡(jiǎn)單。你創(chuàng )建的應用程序會(huì )與推特應用程序接口（API）相連。想象 API 是一個(gè)多功能電子個(gè)人助手。你可以使用 API 讓其它程序幫你做事。這樣一來(lái)，你可以接入推特 API 令其收集數據。只需確保不要請求太多，因為推特數據請求次數是有限制[3]的。
　　收集推文有兩個(gè)可用的 API 。你若想做一次性的推文收集，那么使用REST API. 若是想在特定時(shí)間內持續收集，可以用streaming API。教程中我主要使用 REST API。
　　創(chuàng )建應用程序之后，前往Keys and Access Tokens標簽。你需要 Consumer Key (API key)、 Consumer Secret (API secret)、 Access Token 和 Access Token Secret 才能在 R 中訪(fǎng)問(wèn)你的應用程序。
　　收集推特數據
　　下一步是打開(kāi) R 準備寫(xiě)代碼。對于初學(xué)者，我推薦使用RStudio[4]，這是 R 的集成開(kāi)發(fā)環(huán)境 (IDE) 。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)很實(shí)用。 R 有訪(fǎng)問(wèn)該 REST API 的包叫twitteR[5]。
　　打開(kāi) RStudio 并新建 RScript。做好這些之后，你需要安裝和加載twitteR包:
　　<p>install.packages("twitteR")
　　#安裝 TwitteR
　　library (twitteR)
　　#載入 TwitteR</p>
　　安裝并載入twitteR包之后，你得輸入上文提及的應用程序的 API 信息： <p><p>api_key

數據分析系列篇（8）：數據采集哪家強？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-05-10 10:53 ? 來(lái)自相關(guān)話(huà)題

　　數據分析系列篇（8）：數據采集哪家強？
　　說(shuō)到我們要做數據分析，沒(méi)有米下鍋怎么行？沒(méi)有數據，我們還怎么做數據分析？
　　前幾天有個(gè)哥們在現場(chǎng)就問(wèn)我，說(shuō)我們是一家創(chuàng )業(yè)公司，我們也非常想做數據分析、機器學(xué)習這些，但是我們沒(méi)有數據??！這可怎么辦？我們也不懂這些數據從哪兒來(lái)，更不懂技術(shù)方面的東西，公司也就幾個(gè)人，還都是從傳統公司或者剛畢業(yè)的。
　　當時(shí)我就給他打了個(gè)比喻，這就有點(diǎn)像我們沒(méi)米怎么煮飯一樣。如果真的沒(méi)米了，我們可以自己去種稻，也可以去菜場(chǎng)上買(mǎi)米，也可以拿其他東西和別人家做交換，也可以吃小麥。
　　
　　那同樣，我們沒(méi)數據，那就要想辦法去搜集數據啊。如果你是個(gè)spy man，那肯定也要各種搜集情報。
　　我們常見(jiàn)的數據收集分內部和外部?jì)煞矫妫?
　　1.內部：
　　a）歷史log日志+會(huì )員信息；
　　b）基于基礎標簽特征預測；
　　c）集團各業(yè)務(wù)、子公司數據等。
　　2.外部：
　　a）爬蟲(chóng)采集引擎；
　　b）數據購買(mǎi)；
　　c）合作公司數據交換；
　　d）收購兼并公司；
　　e）營(yíng)銷(xiāo)等手段。
　　
　　針對內部已有數據這些自不必多說(shuō)，誰(shuí)都會(huì )。重點(diǎn)說(shuō)一說(shuō)我們常用的網(wǎng)絡(luò )爬蟲(chóng)方式。
　　在這塊數據采集基于本身需求的規模，如果是大規模的維護系統，可以用專(zhuān)門(mén)的采集引擎,比如基于apache服務(wù)器的nutch。
　　如果以填充網(wǎng)站為目的，覺(jué)得哪個(gè)網(wǎng)站的內容好，想借為已用，這種需求隨機靈活，而對抓取量又不太高的采集，可以采集python的爬蟲(chóng)工具scrapy。
　　當然php也有可以實(shí)現各種網(wǎng)站抓取的方式，但是似乎沒(méi)有成型的框架，因為抓取本質(zhì)是基本網(wǎng)絡(luò )協(xié)議，http什么的，所以你對這些協(xié)議了解的清楚，又懂一些腳本語(yǔ)言，基本都會(huì )畫(huà)出一個(gè)可以實(shí)現你需求的采集的工具。但是效率就千差萬(wàn)別了?？蚣軙?huì )提供你完善采集的多元素補充，你幾乎涉及到采集應該處理的全部問(wèn)題，它都給你提供了對應的方案，你有耐心死扣方案，總能讀懂他傳授你的意思，然后按理為之，就可以不斷把自己的爬蟲(chóng)實(shí)現起來(lái)。但是采集只是數據處理的一個(gè)環(huán)節，采集之后如何對數據提純精煉，基于自己商業(yè)化目的的導向，可能還涉及到知識產(chǎn)權等問(wèn)題，當然這不是技術(shù)采集考慮的層面了。至于數據的分析，當然，我都是用python多一點(diǎn)，python提供了許多內置的math函數處理庫，比如說(shuō)numpy,scipy,matplotlib,這些網(wǎng)上都有對應的使用教程，入庫或把采集到的數據按這些組件可以處理的格式保存，然后把數據導入進(jìn)來(lái)，就這樣折騰折騰。
　　
　　另外對于初級用戶(hù)，介紹下現成的工具：
　　優(yōu)采云
　　優(yōu)采云應該是國內采集軟件最成功的典型之一，使用人數包括收費用戶(hù)數量上應該是最多的
　　優(yōu)點(diǎn)：功能比較齊全，采集速度比較快，主要針對cms,短時(shí)間可以采集很多，過(guò)濾，替換都不錯，比較詳細；
　　技術(shù)：技術(shù)主要是論壇支持，幫助文件多，上手容易。有收費、免費版本
　　缺點(diǎn)：功能復雜，軟件越來(lái)越大，比較占用內存和CPU資源，大批量采集速度不行，資源回收控制得不好，受CS架構限制
　　發(fā)源地
　　可能大部分人還不知道，這是我自主研發(fā)的，以前一直用爬蟲(chóng)寫(xiě)程序，java、python等，后面覺(jué)得很麻煩，就搗鼓著(zhù)要做的簡(jiǎn)單一些，然后就沒(méi)法收手了，最近一直在進(jìn)行產(chǎn)品迭代。
　　優(yōu)點(diǎn)：功能聚合性強、速度快、saas架構、數據可預覽、數據規則市場(chǎng)、api等多種輸出方式、免費
　　缺點(diǎn)：知名度還比較低
　　三人行
　　主要針對論壇的采集，功能比較完善
　　優(yōu)點(diǎn)：還是針對論壇，適合開(kāi)論壇的
　　技術(shù)：收費技術(shù)，免費有廣告
　　缺點(diǎn)：超級復雜，上手難，對cms支持比較差
　　ET工具
　　優(yōu)點(diǎn)：無(wú)人值守，自動(dòng)更新，適合長(cháng)期做站，用戶(hù)群主要集中在長(cháng)期做站潛水站長(cháng)。軟件清晰，必備功能也很齊全，關(guān)鍵是軟件免費，聽(tīng)說(shuō)已經(jīng)增加采集中英文翻譯功能。
　　技術(shù)：論壇支持，軟件本身免費，但是也提供收費服務(wù)。幫助文件較少，上手不容易
　　缺點(diǎn)：對論壇和CMS的支持一般
　　海納
　　優(yōu)點(diǎn)：海量，可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章，似乎適合做網(wǎng)站的專(zhuān)題，特別是文章類(lèi)、博客類(lèi)
　　技術(shù)：無(wú)論壇收費，免費有功能限制
　　缺點(diǎn)：分類(lèi)不方便，也就說(shuō)采集文章歸類(lèi)不方便，要手動(dòng)（自動(dòng)容易混淆），特定接口，采集的內容有限
　　優(yōu)采云
　　優(yōu)點(diǎn)：非常適合采集discuz論壇
　　缺點(diǎn)：過(guò)于專(zhuān)一，兼容性不好。
　　附：
　　如何入門(mén) Python 爬蟲(chóng)？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　Python 爬蟲(chóng)進(jìn)階？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　你是如何開(kāi)始能寫(xiě)python爬蟲(chóng)？ - 調查類(lèi)問(wèn)題
　　祝大家爬得開(kāi)心！
　　
　　加群請備注：“公司+城市+稱(chēng)呼”，有問(wèn)題的加我微信。查看全部

　　數據分析系列篇（8）：數據采集哪家強？
　　說(shuō)到我們要做數據分析，沒(méi)有米下鍋怎么行？沒(méi)有數據，我們還怎么做數據分析？
　　前幾天有個(gè)哥們在現場(chǎng)就問(wèn)我，說(shuō)我們是一家創(chuàng )業(yè)公司，我們也非常想做數據分析、機器學(xué)習這些，但是我們沒(méi)有數據??！這可怎么辦？我們也不懂這些數據從哪兒來(lái)，更不懂技術(shù)方面的東西，公司也就幾個(gè)人，還都是從傳統公司或者剛畢業(yè)的。
　　當時(shí)我就給他打了個(gè)比喻，這就有點(diǎn)像我們沒(méi)米怎么煮飯一樣。如果真的沒(méi)米了，我們可以自己去種稻，也可以去菜場(chǎng)上買(mǎi)米，也可以拿其他東西和別人家做交換，也可以吃小麥。
　　

　　那同樣，我們沒(méi)數據，那就要想辦法去搜集數據啊。如果你是個(gè)spy man，那肯定也要各種搜集情報。
　　我們常見(jiàn)的數據收集分內部和外部?jì)煞矫妫?
　　1.內部：
　　a）歷史log日志+會(huì )員信息；
　　b）基于基礎標簽特征預測；
　　c）集團各業(yè)務(wù)、子公司數據等。
　　2.外部：
　　a）爬蟲(chóng)采集引擎；
　　b）數據購買(mǎi)；
　　c）合作公司數據交換；
　　d）收購兼并公司；
　　e）營(yíng)銷(xiāo)等手段。
　　

　　針對內部已有數據這些自不必多說(shuō)，誰(shuí)都會(huì )。重點(diǎn)說(shuō)一說(shuō)我們常用的網(wǎng)絡(luò )爬蟲(chóng)方式。
　　在這塊數據采集基于本身需求的規模，如果是大規模的維護系統，可以用專(zhuān)門(mén)的采集引擎,比如基于apache服務(wù)器的nutch。
　　如果以填充網(wǎng)站為目的，覺(jué)得哪個(gè)網(wǎng)站的內容好，想借為已用，這種需求隨機靈活，而對抓取量又不太高的采集，可以采集python的爬蟲(chóng)工具scrapy。
　　當然php也有可以實(shí)現各種網(wǎng)站抓取的方式，但是似乎沒(méi)有成型的框架，因為抓取本質(zhì)是基本網(wǎng)絡(luò )協(xié)議，http什么的，所以你對這些協(xié)議了解的清楚，又懂一些腳本語(yǔ)言，基本都會(huì )畫(huà)出一個(gè)可以實(shí)現你需求的采集的工具。但是效率就千差萬(wàn)別了?？蚣軙?huì )提供你完善采集的多元素補充，你幾乎涉及到采集應該處理的全部問(wèn)題，它都給你提供了對應的方案，你有耐心死扣方案，總能讀懂他傳授你的意思，然后按理為之，就可以不斷把自己的爬蟲(chóng)實(shí)現起來(lái)。但是采集只是數據處理的一個(gè)環(huán)節，采集之后如何對數據提純精煉，基于自己商業(yè)化目的的導向，可能還涉及到知識產(chǎn)權等問(wèn)題，當然這不是技術(shù)采集考慮的層面了。至于數據的分析，當然，我都是用python多一點(diǎn)，python提供了許多內置的math函數處理庫，比如說(shuō)numpy,scipy,matplotlib,這些網(wǎng)上都有對應的使用教程，入庫或把采集到的數據按這些組件可以處理的格式保存，然后把數據導入進(jìn)來(lái)，就這樣折騰折騰。
　　

　　另外對于初級用戶(hù)，介紹下現成的工具：
　　優(yōu)采云
　　優(yōu)采云應該是國內采集軟件最成功的典型之一，使用人數包括收費用戶(hù)數量上應該是最多的
　　優(yōu)點(diǎn)：功能比較齊全，采集速度比較快，主要針對cms,短時(shí)間可以采集很多，過(guò)濾，替換都不錯，比較詳細；
　　技術(shù)：技術(shù)主要是論壇支持，幫助文件多，上手容易。有收費、免費版本
　　缺點(diǎn)：功能復雜，軟件越來(lái)越大，比較占用內存和CPU資源，大批量采集速度不行，資源回收控制得不好，受CS架構限制
　　發(fā)源地
　　可能大部分人還不知道，這是我自主研發(fā)的，以前一直用爬蟲(chóng)寫(xiě)程序，java、python等，后面覺(jué)得很麻煩，就搗鼓著(zhù)要做的簡(jiǎn)單一些，然后就沒(méi)法收手了，最近一直在進(jìn)行產(chǎn)品迭代。
　　優(yōu)點(diǎn)：功能聚合性強、速度快、saas架構、數據可預覽、數據規則市場(chǎng)、api等多種輸出方式、免費
　　缺點(diǎn)：知名度還比較低
　　三人行
　　主要針對論壇的采集，功能比較完善
　　優(yōu)點(diǎn)：還是針對論壇，適合開(kāi)論壇的
　　技術(shù)：收費技術(shù)，免費有廣告
　　缺點(diǎn)：超級復雜，上手難，對cms支持比較差
　　ET工具
　　優(yōu)點(diǎn)：無(wú)人值守，自動(dòng)更新，適合長(cháng)期做站，用戶(hù)群主要集中在長(cháng)期做站潛水站長(cháng)。軟件清晰，必備功能也很齊全，關(guān)鍵是軟件免費，聽(tīng)說(shuō)已經(jīng)增加采集中英文翻譯功能。
　　技術(shù)：論壇支持，軟件本身免費，但是也提供收費服務(wù)。幫助文件較少，上手不容易
　　缺點(diǎn)：對論壇和CMS的支持一般
　　海納
　　優(yōu)點(diǎn)：海量，可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章，似乎適合做網(wǎng)站的專(zhuān)題，特別是文章類(lèi)、博客類(lèi)
　　技術(shù)：無(wú)論壇收費，免費有功能限制
　　缺點(diǎn)：分類(lèi)不方便，也就說(shuō)采集文章歸類(lèi)不方便，要手動(dòng)（自動(dòng)容易混淆），特定接口，采集的內容有限
　　優(yōu)采云
　　優(yōu)點(diǎn)：非常適合采集discuz論壇
　　缺點(diǎn)：過(guò)于專(zhuān)一，兼容性不好。
　　附：
　　如何入門(mén) Python 爬蟲(chóng)？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　Python 爬蟲(chóng)進(jìn)階？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　你是如何開(kāi)始能寫(xiě)python爬蟲(chóng)？ - 調查類(lèi)問(wèn)題
　　祝大家爬得開(kāi)心！
　　

　　加群請備注：“公司+城市+稱(chēng)呼”，有問(wèn)題的加我微信。

Python中調用微博API采集數據|附代碼+視頻

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 279 次瀏覽 ? 2022-05-10 06:05 ? 來(lái)自相關(guān)話(huà)題

　　Python中調用微博API采集數據|附代碼+視頻
　　
　　使用微博API進(jìn)行微博信息獲取的基本流程如圖9-4所示。在該流程中，首先通過(guò)申請到的access token，通過(guò)開(kāi)放平臺的認證接口進(jìn)行OAuth認證。認證通過(guò)后，即可通過(guò)微博所提供的接口獲得各種數據，例如用戶(hù)數據、博文、關(guān)注信息等等。
　　在微博OAuth2.0實(shí)現中，授權服務(wù)器在接收到驗證授權請求時(shí)，會(huì )按照OAuth2.0協(xié)議對本請求的請求頭部、請求參數進(jìn)行檢驗，若請求不合法或驗證未通過(guò)，授權服務(wù)器會(huì )返回相應的錯誤信息，包含以下幾個(gè)參數：
　　如果通過(guò)認證，則可以調用各種API。返回的數據按照JSON格式進(jìn)行封裝，最后根據API文檔的說(shuō)明提取所需要的內容。
　　
　　01
　　微博API及使用方法
　　1 微博API介紹
　　微博API是微博官方提供給開(kāi)發(fā)人員的一組函數調用接口，這是一種在線(xiàn)調用方式，不同于普通語(yǔ)言所提供的函數。這些API能夠根據輸入的參數返回相應的數據，其范圍涵蓋用戶(hù)個(gè)人信息、用戶(hù)的粉絲和關(guān)注、用戶(hù)發(fā)布的博文、博文的評論等等。只要攜帶符合要求的參數向接口發(fā)送HTTP請求，接口就會(huì )返回所對應的JSON格式數據。新浪微博提供的API有九大類(lèi)，即：粉絲服務(wù)接口、微博接口、評論接口、用戶(hù)接口、關(guān)系接口、搜索接口、短鏈接口、公共服務(wù)接口和OAuth 2.0授權接口。這些接口的名稱(chēng)及功能如表9-1所示。需要注意的是，新浪微博API會(huì )不斷升級，最新的接口及功能可以到官方網(wǎng)站查閱：%E5%BE%AE%E5%8D%9AAPI。2微博API的使用方法對于每個(gè)API，新浪微博規定了其請求參數、返回字段說(shuō)明、是否需要登錄、HTTP請求方式、訪(fǎng)問(wèn)授權限制（包括訪(fǎng)問(wèn)級別、是否頻次限制）等關(guān)鍵信息。其中，請求參數是API的輸入，而返回字段是API調用的輸出結果，一般是以JSON的形式進(jìn)行封裝。HTTP請求方式支持GET和POST兩種，訪(fǎng)問(wèn)授權限制則規定了客戶(hù)端調用API的一些約束條件。詳細介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　01
　　例1：采集微博用戶(hù)個(gè)人信息
　　微博用戶(hù)的個(gè)人信息包括用戶(hù)昵稱(chēng)、簡(jiǎn)介、粉絲數、關(guān)注數、微博數等，通過(guò)調用微博開(kāi)發(fā)接口A(yíng)PI可以得到這些個(gè)人信息數據。該接口為users/show，請求參數如表9-6所示，其中參數uid與screen_name二者必選其一，且只能選其一個(gè)。
　　
　　該接口返回的信息包含了用戶(hù)的昵稱(chēng)、省份、頭像、粉絲數等等，具體介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　
　　在理解接口定義之后，可以使用Python來(lái)實(shí)現微博個(gè)人信息采集。主要過(guò)程包括按照請求參數構造、發(fā)起請求和結果的提取和轉換。具體的程序代碼和解釋如下。
　　Prog-12-weiboUserInfo.py
　　# -*- coding: utf-8 -*-from urllib import parseimport requestsimport json<br /># 調用users/show 接口def get_pinfo(access_token,uid): # 用戶(hù)個(gè)人信息字典 pinfo_dict = {} url = 'https://api.weibo.com/2/users/show.json' url_dict = {'access_token': access_token, 'uid': uid} url_param = parse.urlencode(url_dict) res=requests.get(url='%s%s%s' % (url, '?', url_param), headers=header_dict)<br /> decode_data = json.loads(res.text) pinfo_dict['昵稱(chēng)'] = decode_data['name'] pinfo_dict['簡(jiǎn)介'] = decode_data['description'] # 性別，轉換一下 if decode_data['gender'] == 'f': pinfo_dict['性別'] = '女' elif decode_data['gender'] == 'm': pinfo_dict['性別'] = '男' else: pinfo_dict['性別'] = '未知' # 注冊時(shí)間 pinfo_dict['注冊時(shí)間'] = decode_data['created_at'] # 粉絲數 pinfo_dict['粉絲數'] = decode_data['followers_count'] # 關(guān)注數 pinfo_dict['關(guān)注數'] = decode_data['friends_count'] # 微博數 pinfo_dict['微博數'] = decode_data['statuses_count'] # 收藏數 pinfo_dict['收藏數'] = decode_data['favourites_count'] return pinfo_dict<br />if __name__ == '__main__': header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'} # 填寫(xiě)access_token參數與 uid access_token = '*****************' #通過(guò)8.2節方法獲得，每個(gè)人不一樣 uid = '7059060320' pinfo = get_pinfo(access_token,uid) for key, value in pinfo.items():???????print('{k}:{v}'.format(k=key,?v=value))
　　在http請求中攜帶access_token和uid參數訪(fǎng)問(wèn)接口，獲得一個(gè)json格式的返回結果，對json進(jìn)行解析即可。運行結果如圖9-5所示。
　　
　　03
　　例2：采集微博博文
　　使用微博API獲取博文主要涉及到兩個(gè)接口，即statuses/user_timeline/ids和statuses/show。前者用于獲取用戶(hù)發(fā)布的微博的ID列表，后者是根據微博ID獲得單條微博信息內容，包括文本內容、圖片以及評論轉發(fā)情況等。以下是這兩個(gè)接口的詳細說(shuō)明。
　　(1)statuses/user_timeline/ids
　　該接口的請求參數包括采用OAuth授權后獲得的access_token，以及所需要檢索的微博用戶(hù)ID，具體定義如表9-8所示，有些參數是可選的，采用默認值。
　　
　　該接口只返回最新的5條數據，即用戶(hù)uid所發(fā)布的微博ID列表。格式如下，statuses中即為記錄列表。
　　{
　　"statuses": [
　　"33829",
　　"33829",
　　"33829",
　　...
　　],
　　"previous_cursor": 0, // 暫未支持
　　"next_cursor": 0, //暫未支持
　　"total_number": 16
　　}
　　(2)statuses/show
　　該接口的請求參數也包括采用OAuth授權后獲得的access_token，另一個(gè)就是微博ID，兩個(gè)參數均為必選，具體說(shuō)明如表9-9所示。
　　
　　該接口返回微博的相關(guān)屬性值，包括微博創(chuàng )建時(shí)間、文本內容等，具體介紹參見(jiàn)《》一書(shū)。
　　
　　下面，以statuses/user_timeline/ids接口為例來(lái)說(shuō)明具體的調用和處理方法。
　?。?）根據接口說(shuō)明構造正確的http請求。
　　閱讀在線(xiàn)接口說(shuō)明可知，該接口需要以Get方式請求，必選參數access_token，返回格式為json。其中必選參數access_token來(lái)源于OAuth授權，具體創(chuàng )建方法見(jiàn)9.2節。查看全部

　　Python中調用微博API采集數據|附代碼+視頻
　　

　　使用微博API進(jìn)行微博信息獲取的基本流程如圖9-4所示。在該流程中，首先通過(guò)申請到的access token，通過(guò)開(kāi)放平臺的認證接口進(jìn)行OAuth認證。認證通過(guò)后，即可通過(guò)微博所提供的接口獲得各種數據，例如用戶(hù)數據、博文、關(guān)注信息等等。
　　在微博OAuth2.0實(shí)現中，授權服務(wù)器在接收到驗證授權請求時(shí)，會(huì )按照OAuth2.0協(xié)議對本請求的請求頭部、請求參數進(jìn)行檢驗，若請求不合法或驗證未通過(guò)，授權服務(wù)器會(huì )返回相應的錯誤信息，包含以下幾個(gè)參數：
　　如果通過(guò)認證，則可以調用各種API。返回的數據按照JSON格式進(jìn)行封裝，最后根據API文檔的說(shuō)明提取所需要的內容。
　　

　　01
　　微博API及使用方法
　　1 微博API介紹
　　微博API是微博官方提供給開(kāi)發(fā)人員的一組函數調用接口，這是一種在線(xiàn)調用方式，不同于普通語(yǔ)言所提供的函數。這些API能夠根據輸入的參數返回相應的數據，其范圍涵蓋用戶(hù)個(gè)人信息、用戶(hù)的粉絲和關(guān)注、用戶(hù)發(fā)布的博文、博文的評論等等。只要攜帶符合要求的參數向接口發(fā)送HTTP請求，接口就會(huì )返回所對應的JSON格式數據。新浪微博提供的API有九大類(lèi)，即：粉絲服務(wù)接口、微博接口、評論接口、用戶(hù)接口、關(guān)系接口、搜索接口、短鏈接口、公共服務(wù)接口和OAuth 2.0授權接口。這些接口的名稱(chēng)及功能如表9-1所示。需要注意的是，新浪微博API會(huì )不斷升級，最新的接口及功能可以到官方網(wǎng)站查閱：%E5%BE%AE%E5%8D%9AAPI。2微博API的使用方法對于每個(gè)API，新浪微博規定了其請求參數、返回字段說(shuō)明、是否需要登錄、HTTP請求方式、訪(fǎng)問(wèn)授權限制（包括訪(fǎng)問(wèn)級別、是否頻次限制）等關(guān)鍵信息。其中，請求參數是API的輸入，而返回字段是API調用的輸出結果，一般是以JSON的形式進(jìn)行封裝。HTTP請求方式支持GET和POST兩種，訪(fǎng)問(wèn)授權限制則規定了客戶(hù)端調用API的一些約束條件。詳細介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　01
　　例1：采集微博用戶(hù)個(gè)人信息
　　微博用戶(hù)的個(gè)人信息包括用戶(hù)昵稱(chēng)、簡(jiǎn)介、粉絲數、關(guān)注數、微博數等，通過(guò)調用微博開(kāi)發(fā)接口A(yíng)PI可以得到這些個(gè)人信息數據。該接口為users/show，請求參數如表9-6所示，其中參數uid與screen_name二者必選其一，且只能選其一個(gè)。
　　

　　該接口返回的信息包含了用戶(hù)的昵稱(chēng)、省份、頭像、粉絲數等等，具體介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　

　　在理解接口定義之后，可以使用Python來(lái)實(shí)現微博個(gè)人信息采集。主要過(guò)程包括按照請求參數構造、發(fā)起請求和結果的提取和轉換。具體的程序代碼和解釋如下。
　　Prog-12-weiboUserInfo.py
　　# -*- coding: utf-8 -*-from urllib import parseimport requestsimport json<br /># 調用users/show 接口def get_pinfo(access_token,uid): # 用戶(hù)個(gè)人信息字典 pinfo_dict = {} url = 'https://api.weibo.com/2/users/show.json' url_dict = {'access_token': access_token, 'uid': uid} url_param = parse.urlencode(url_dict) res=requests.get(url='%s%s%s' % (url, '?', url_param), headers=header_dict)<br /> decode_data = json.loads(res.text) pinfo_dict['昵稱(chēng)'] = decode_data['name'] pinfo_dict['簡(jiǎn)介'] = decode_data['description'] # 性別，轉換一下 if decode_data['gender'] == 'f': pinfo_dict['性別'] = '女' elif decode_data['gender'] == 'm': pinfo_dict['性別'] = '男' else: pinfo_dict['性別'] = '未知' # 注冊時(shí)間 pinfo_dict['注冊時(shí)間'] = decode_data['created_at'] # 粉絲數 pinfo_dict['粉絲數'] = decode_data['followers_count'] # 關(guān)注數 pinfo_dict['關(guān)注數'] = decode_data['friends_count'] # 微博數 pinfo_dict['微博數'] = decode_data['statuses_count'] # 收藏數 pinfo_dict['收藏數'] = decode_data['favourites_count'] return pinfo_dict<br />if __name__ == '__main__': header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'} # 填寫(xiě)access_token參數與 uid access_token = '*****************' #通過(guò)8.2節方法獲得，每個(gè)人不一樣 uid = '7059060320' pinfo = get_pinfo(access_token,uid) for key, value in pinfo.items():???????print('{k}:{v}'.format(k=key,?v=value))
　　在http請求中攜帶access_token和uid參數訪(fǎng)問(wèn)接口，獲得一個(gè)json格式的返回結果，對json進(jìn)行解析即可。運行結果如圖9-5所示。
　　

　　03
　　例2：采集微博博文
　　使用微博API獲取博文主要涉及到兩個(gè)接口，即statuses/user_timeline/ids和statuses/show。前者用于獲取用戶(hù)發(fā)布的微博的ID列表，后者是根據微博ID獲得單條微博信息內容，包括文本內容、圖片以及評論轉發(fā)情況等。以下是這兩個(gè)接口的詳細說(shuō)明。
　　(1)statuses/user_timeline/ids
　　該接口的請求參數包括采用OAuth授權后獲得的access_token，以及所需要檢索的微博用戶(hù)ID，具體定義如表9-8所示，有些參數是可選的，采用默認值。
　　

　　該接口只返回最新的5條數據，即用戶(hù)uid所發(fā)布的微博ID列表。格式如下，statuses中即為記錄列表。
　　{
　　"statuses": [
　　"33829",
　　"33829",
　　"33829",
　　...
　　],
　　"previous_cursor": 0, // 暫未支持
　　"next_cursor": 0, //暫未支持
　　"total_number": 16
　　}
　　(2)statuses/show
　　該接口的請求參數也包括采用OAuth授權后獲得的access_token，另一個(gè)就是微博ID，兩個(gè)參數均為必選，具體說(shuō)明如表9-9所示。
　　

　　該接口返回微博的相關(guān)屬性值，包括微博創(chuàng )建時(shí)間、文本內容等，具體介紹參見(jiàn)《》一書(shū)。
　　

　　下面，以statuses/user_timeline/ids接口為例來(lái)說(shuō)明具體的調用和處理方法。
　?。?）根據接口說(shuō)明構造正確的http請求。
　　閱讀在線(xiàn)接口說(shuō)明可知，該接口需要以Get方式請求，必選參數access_token，返回格式為json。其中必選參數access_token來(lái)源于OAuth授權，具體創(chuàng )建方法見(jiàn)9.2節。

<<
<
4
5
6
7
8
9
10
>
>>

通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-07-23 07:01 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！
　　通過(guò)關(guān)鍵詞采集文章采集api，然后按照第一步來(lái)。文章每篇5k，保存為word文件。然后可以根據不同的關(guān)鍵詞匹配不同的頁(yè)面標題。按照權重分類(lèi)，正常情況下，系統會(huì )根據先后面的標題來(lái)進(jìn)行過(guò)濾，留下權重最高的排列在前面。后面的文章重新排列在后面。一般傳統站點(diǎn)適用。
　　a/所有內容、網(wǎng)站其他文章爬取，可通過(guò)爬蟲(chóng)應用工具api+爬蟲(chóng)工具網(wǎng)站文章或b/少量?jì)热輌oogle搜索相關(guān)內容，比如這篇文章google搜索:apple-iphoneandroidpadiphoneandroidpadhowtoprepareanddesignappswithgoogleplayongoogleapps，可得到對應的頁(yè)面，直接進(jìn)行爬取，
　　也可以用爬蟲(chóng)google搜索adwords關(guān)鍵詞，基本能找到大部分。
　　
　　最好采集整個(gè)博客列表，然后定向搜索，方法有兩種：1.手動(dòng)一個(gè)一個(gè)抓，最難，最累，最煩，不值得。2.用深度學(xué)習+機器學(xué)習，后面是對每個(gè)用戶(hù)（可以基于reddit等網(wǎng)站）爬取數據，
　　我來(lái)回答一下，我正在使用谷歌的adwords采集頁(yè)面，一共有adstroy、adslfit、adsshare、adstockpage4個(gè)采集頁(yè)面。
　　1、在googleadsense登錄頁(yè)面，用爬蟲(chóng)直接采集，采集結果會(huì )顯示在dashboard。
　　2、在googlesearch工具條的instaduck圖標點(diǎn)擊，之后選擇“requestads”，注意我選擇的不是adstroy，而是“adslumen”，反之亦然。
　　
　　3、選擇完畢后，我們就會(huì )找到需要的網(wǎng)站列表，然后將鏈接粘貼過(guò)去，可以看到網(wǎng)站列表已經(jīng)變成adstroy列表。
　　4、現在，我們來(lái)爬，爬取之后，我們會(huì )看到googleadsense列表部分網(wǎng)站列表已經(jīng)被爬取，一點(diǎn)點(diǎn)選擇adstroy網(wǎng)站。
　　5、找到想要的網(wǎng)站的特定關(guān)鍵詞，注意，關(guān)鍵詞可能很長(cháng)，不知道怎么寫(xiě)的話(huà)，將網(wǎng)站右側inverted的網(wǎng)址輸入，回車(chē)即可。
　　6、點(diǎn)擊bookmark就能將網(wǎng)站內容爬取并顯示在dashboard上。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api，保存為word文件！
　　通過(guò)關(guān)鍵詞采集文章采集api，然后按照第一步來(lái)。文章每篇5k，保存為word文件。然后可以根據不同的關(guān)鍵詞匹配不同的頁(yè)面標題。按照權重分類(lèi)，正常情況下，系統會(huì )根據先后面的標題來(lái)進(jìn)行過(guò)濾，留下權重最高的排列在前面。后面的文章重新排列在后面。一般傳統站點(diǎn)適用。
　　a/所有內容、網(wǎng)站其他文章爬取，可通過(guò)爬蟲(chóng)應用工具api+爬蟲(chóng)工具網(wǎng)站文章或b/少量?jì)热輌oogle搜索相關(guān)內容，比如這篇文章google搜索:apple-iphoneandroidpadiphoneandroidpadhowtoprepareanddesignappswithgoogleplayongoogleapps，可得到對應的頁(yè)面，直接進(jìn)行爬取，
　　也可以用爬蟲(chóng)google搜索adwords關(guān)鍵詞，基本能找到大部分。
　　

　　最好采集整個(gè)博客列表，然后定向搜索，方法有兩種：1.手動(dòng)一個(gè)一個(gè)抓，最難，最累，最煩，不值得。2.用深度學(xué)習+機器學(xué)習，后面是對每個(gè)用戶(hù)（可以基于reddit等網(wǎng)站）爬取數據，
　　我來(lái)回答一下，我正在使用谷歌的adwords采集頁(yè)面，一共有adstroy、adslfit、adsshare、adstockpage4個(gè)采集頁(yè)面。
　　1、在googleadsense登錄頁(yè)面，用爬蟲(chóng)直接采集，采集結果會(huì )顯示在dashboard。
　　2、在googlesearch工具條的instaduck圖標點(diǎn)擊，之后選擇“requestads”，注意我選擇的不是adstroy，而是“adslumen”，反之亦然。
　　

　　3、選擇完畢后，我們就會(huì )找到需要的網(wǎng)站列表，然后將鏈接粘貼過(guò)去，可以看到網(wǎng)站列表已經(jīng)變成adstroy列表。
　　4、現在，我們來(lái)爬，爬取之后，我們會(huì )看到googleadsense列表部分網(wǎng)站列表已經(jīng)被爬取，一點(diǎn)點(diǎn)選擇adstroy網(wǎng)站。
　　5、找到想要的網(wǎng)站的特定關(guān)鍵詞，注意，關(guān)鍵詞可能很長(cháng)，不知道怎么寫(xiě)的話(huà)，將網(wǎng)站右側inverted的網(wǎng)址輸入，回車(chē)即可。
　　6、點(diǎn)擊bookmark就能將網(wǎng)站內容爬取并顯示在dashboard上。

杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-07-19 02:01 ? 來(lái)自相關(guān)話(huà)題

　　杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)
　　通過(guò)關(guān)鍵詞采集文章采集api，然后再通過(guò)api采集網(wǎng)頁(yè)。github在這里，要是想免費，自己寫(xiě)爬蟲(chóng)，
　　excel
　　編寫(xiě)爬蟲(chóng)
　　javascript
　　
　　采集網(wǎng)頁(yè)+node.js+瀏覽器內核
　　原理大概就是先采集某些平臺的url，再去這些平臺的開(kāi)放平臺抓取新的url，有些平臺可能會(huì )查重，有些平臺可能會(huì )封ip，所以需要根據自己的需求來(lái)定。
　　得看看在哪個(gè)方向去采，采集算法是不是剛需，比如前段紅包、秒殺、好友活動(dòng)，比如后端平臺怎么采，數據量有多大，各大平臺流量瓶頸在哪里等。
　　根據現有網(wǎng)站特征，結合你的自身資源，做出一份價(jià)值文章，甚至直接一稿多投。
　　互聯(lián)網(wǎng)采集，你得看你具體什么需求吧。
　　
　　我也想知道，我正在做一個(gè)采集個(gè)人博客內容的網(wǎng)站，
　　講講在的經(jīng)驗，學(xué)校從事的工作，為企業(yè)提供爬蟲(chóng)抓取服務(wù)，后端的，一套定制程序，從各種渠道抓取網(wǎng)站內容，然后又統一加工到一個(gè)文件里。然后又從部門(mén)抓取，再統一放到自己的需要抓取的網(wǎng)站上去。寫(xiě)出來(lái)一個(gè)爬蟲(chóng)不難，難的是做好服務(wù)。
　　我來(lái)講講爬蟲(chóng)技術(shù)采集的技術(shù)應用。本人目前負責杭州校園招聘招聘網(wǎng)站的爬蟲(chóng)，大概是8年開(kāi)始做到現在。從blog抓取，發(fā)展到企業(yè)招聘管理系統，你會(huì )發(fā)現這就是一種很廣泛的技術(shù)可能性。
　　1、如果你只是新手對目標網(wǎng)站不知道如何才能抓取，那你從內部查看看網(wǎng)站架構，研究表單頁(yè)面設計，網(wǎng)站埋點(diǎn)的效果，然后用爬蟲(chóng)抓取，至少你可以知道會(huì )爬到多少。
　　2、如果你已經(jīng)可以知道什么是抓取，那你可以搜索我發(fā)現各種各樣的方法了，然后你會(huì )發(fā)現你不知道如何才能把他采集下來(lái)。
　　3、我比較推薦的一種是你能了解一下互聯(lián)網(wǎng)營(yíng)銷(xiāo)或者小型的小網(wǎng)站的推廣是怎么回事，這樣你就可以寫(xiě)相應的抓取程序，理清楚為什么有很多人愿意去推廣一個(gè)網(wǎng)站并且采集，只要你的方法準確合理。暫時(shí)想到這么多，以后再補充。查看全部

　　杭州校園招聘網(wǎng)站爬蟲(chóng)技術(shù)采集的技術(shù)應用--爬蟲(chóng)
　　通過(guò)關(guān)鍵詞采集文章采集api，然后再通過(guò)api采集網(wǎng)頁(yè)。github在這里，要是想免費，自己寫(xiě)爬蟲(chóng)，
　　excel
　　編寫(xiě)爬蟲(chóng)
　　javascript
　　

　　采集網(wǎng)頁(yè)+node.js+瀏覽器內核
　　原理大概就是先采集某些平臺的url，再去這些平臺的開(kāi)放平臺抓取新的url，有些平臺可能會(huì )查重，有些平臺可能會(huì )封ip，所以需要根據自己的需求來(lái)定。
　　得看看在哪個(gè)方向去采，采集算法是不是剛需，比如前段紅包、秒殺、好友活動(dòng)，比如后端平臺怎么采，數據量有多大，各大平臺流量瓶頸在哪里等。
　　根據現有網(wǎng)站特征，結合你的自身資源，做出一份價(jià)值文章，甚至直接一稿多投。
　　互聯(lián)網(wǎng)采集，你得看你具體什么需求吧。
　　

　　我也想知道，我正在做一個(gè)采集個(gè)人博客內容的網(wǎng)站，
　　講講在的經(jīng)驗，學(xué)校從事的工作，為企業(yè)提供爬蟲(chóng)抓取服務(wù)，后端的，一套定制程序，從各種渠道抓取網(wǎng)站內容，然后又統一加工到一個(gè)文件里。然后又從部門(mén)抓取，再統一放到自己的需要抓取的網(wǎng)站上去。寫(xiě)出來(lái)一個(gè)爬蟲(chóng)不難，難的是做好服務(wù)。
　　我來(lái)講講爬蟲(chóng)技術(shù)采集的技術(shù)應用。本人目前負責杭州校園招聘招聘網(wǎng)站的爬蟲(chóng)，大概是8年開(kāi)始做到現在。從blog抓取，發(fā)展到企業(yè)招聘管理系統，你會(huì )發(fā)現這就是一種很廣泛的技術(shù)可能性。
　　1、如果你只是新手對目標網(wǎng)站不知道如何才能抓取，那你從內部查看看網(wǎng)站架構，研究表單頁(yè)面設計，網(wǎng)站埋點(diǎn)的效果，然后用爬蟲(chóng)抓取，至少你可以知道會(huì )爬到多少。
　　2、如果你已經(jīng)可以知道什么是抓取，那你可以搜索我發(fā)現各種各樣的方法了，然后你會(huì )發(fā)現你不知道如何才能把他采集下來(lái)。
　　3、我比較推薦的一種是你能了解一下互聯(lián)網(wǎng)營(yíng)銷(xiāo)或者小型的小網(wǎng)站的推廣是怎么回事，這樣你就可以寫(xiě)相應的抓取程序，理清楚為什么有很多人愿意去推廣一個(gè)網(wǎng)站并且采集，只要你的方法準確合理。暫時(shí)想到這么多，以后再補充。

通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2022-07-12 12:01 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據
　　通過(guò)關(guān)鍵詞采集文章采集api接口pc端和手機端的數據，獲取數據后可以再數據后面自定義標題的tag，發(fā)文章的時(shí)候把標題寫(xiě)在后面就好了。
　　1.有自動(dòng)采集工具2.用單純的爬蟲(chóng)不行，每次登錄都要爬，一直保持在登錄狀態(tài)，
　　
　　一般只能采集/發(fā)布文章，但是大型網(wǎng)站，比如：百度，騰訊，淘寶上面都是有api接口可以直接接入的，
　　已經(jīng)發(fā)布
　　有。先用抓包的軟件抓到網(wǎng)站信息，再根據相應的代碼寫(xiě)相應的文章。但是爬蟲(chóng)能爬的太局限，而且效率比較低。個(gè)人認為很多事情用簡(jiǎn)單的工具就能搞定，為什么非要寫(xiě)個(gè)爬蟲(chóng)。
　　
　　因為個(gè)人的規模太小，小到無(wú)法判斷哪些東西是合法或者違法的，
　　目前常見(jiàn)的有tomcat等ide。但這種方式最大的弊端就是有業(yè)務(wù)，爬蟲(chóng)就有可能被人分析。比如我做b2c，基于商品名去爬，看有沒(méi)有它的客戶(hù)，通過(guò)同類(lèi)商品看這個(gè)東西賣(mài)得如何，進(jìn)而判斷。有什么優(yōu)點(diǎn)和缺點(diǎn)。自己寫(xiě)怕出問(wèn)題。
　　首先這個(gè)問(wèn)題我不明白什么意思。如果是指爬蟲(chóng)這種爬取商品的工具。所謂“海綿式”爬取就是爬蟲(chóng)一直向下爬。但事實(shí)上這種思路是針對數據量特別小，且本身產(chǎn)品的屬性較為單一的產(chǎn)品來(lái)說(shuō)。但是對于人來(lái)說(shuō)，例如知乎，它的本身并沒(méi)有什么屬性屬性就是某些話(huà)題屬性。說(shuō)實(shí)話(huà)，抓下抓下也不會(huì )太耗時(shí)間，適合自己當成抓取工具去使用就好。其實(shí)tomcat爬比這個(gè)更有效。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api接口端和手機端的數據
　　通過(guò)關(guān)鍵詞采集文章采集api接口pc端和手機端的數據，獲取數據后可以再數據后面自定義標題的tag，發(fā)文章的時(shí)候把標題寫(xiě)在后面就好了。
　　1.有自動(dòng)采集工具2.用單純的爬蟲(chóng)不行，每次登錄都要爬，一直保持在登錄狀態(tài)，
　　

　　一般只能采集/發(fā)布文章，但是大型網(wǎng)站，比如：百度，騰訊，淘寶上面都是有api接口可以直接接入的，
　　已經(jīng)發(fā)布
　　有。先用抓包的軟件抓到網(wǎng)站信息，再根據相應的代碼寫(xiě)相應的文章。但是爬蟲(chóng)能爬的太局限，而且效率比較低。個(gè)人認為很多事情用簡(jiǎn)單的工具就能搞定，為什么非要寫(xiě)個(gè)爬蟲(chóng)。
　　

　　因為個(gè)人的規模太小，小到無(wú)法判斷哪些東西是合法或者違法的，
　　目前常見(jiàn)的有tomcat等ide。但這種方式最大的弊端就是有業(yè)務(wù)，爬蟲(chóng)就有可能被人分析。比如我做b2c，基于商品名去爬，看有沒(méi)有它的客戶(hù)，通過(guò)同類(lèi)商品看這個(gè)東西賣(mài)得如何，進(jìn)而判斷。有什么優(yōu)點(diǎn)和缺點(diǎn)。自己寫(xiě)怕出問(wèn)題。
　　首先這個(gè)問(wèn)題我不明白什么意思。如果是指爬蟲(chóng)這種爬取商品的工具。所謂“海綿式”爬取就是爬蟲(chóng)一直向下爬。但事實(shí)上這種思路是針對數據量特別小，且本身產(chǎn)品的屬性較為單一的產(chǎn)品來(lái)說(shuō)。但是對于人來(lái)說(shuō)，例如知乎，它的本身并沒(méi)有什么屬性屬性就是某些話(huà)題屬性。說(shuō)實(shí)話(huà)，抓下抓下也不會(huì )太耗時(shí)間，適合自己當成抓取工具去使用就好。其實(shí)tomcat爬比這個(gè)更有效。

通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-07-03 14:02 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法
　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法：淘寶萬(wàn)千合伙人淘寶萬(wàn)千合伙人這個(gè)app是通過(guò)關(guān)鍵詞采集淘寶、天貓各種商品的信息，而且是免費的，最關(guān)鍵的是不需要電腦，完全免費，希望對你有幫助。
　　去找站長(cháng)的ncq提取網(wǎng)頁(yè)，都是免費的，但是在一些特殊的網(wǎng)站上是要收費的。
　　前段時(shí)間我寫(xiě)了篇這個(gè)的文章：，希望對你有幫助，
　　/
　　
　　為什么邀請我回答這個(gè)問(wèn)題？
　　因為現在網(wǎng)上信息都是通過(guò)加工的啊不同產(chǎn)品的做法不一樣比如我用馬甲抓取速賣(mài)通的商品信息就要200一天然后就自己去外部轉讓了
　　招招唄，
　　加工同樣的工序，
　　上淘寶買(mǎi)，免費的，用淘寶接口直接在后臺抓取，
　　
　　想做就做。抓取很簡(jiǎn)單，寫(xiě)爬蟲(chóng)就可以了，
　　因為現在的信息都是通過(guò)加工而成的。
　　這個(gè)我很有興趣，
　　留下郵箱。我給你發(fā)廣告，
　　這樣的例子很多呀。只要你愿意，很多文章都能免費拿到。我知道不少研究博物館展品的。就是買(mǎi)api來(lái)抓的，連每一幀動(dòng)畫(huà)都可以抓。還有個(gè)群就是一個(gè)拍賣(mài)群，里面拍賣(mài)各種文物。
　　大家可以來(lái)一起賺錢(qián)交流，軟件安卓多，價(jià)格合理，想賺一筆的話(huà)，很不錯。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法
　　通過(guò)關(guān)鍵詞采集文章采集api，推薦你一個(gè)采集淘寶文章的方法：淘寶萬(wàn)千合伙人淘寶萬(wàn)千合伙人這個(gè)app是通過(guò)關(guān)鍵詞采集淘寶、天貓各種商品的信息，而且是免費的，最關(guān)鍵的是不需要電腦，完全免費，希望對你有幫助。
　　去找站長(cháng)的ncq提取網(wǎng)頁(yè)，都是免費的，但是在一些特殊的網(wǎng)站上是要收費的。
　　前段時(shí)間我寫(xiě)了篇這個(gè)的文章：，希望對你有幫助，
　　/
　　

　　為什么邀請我回答這個(gè)問(wèn)題？
　　因為現在網(wǎng)上信息都是通過(guò)加工的啊不同產(chǎn)品的做法不一樣比如我用馬甲抓取速賣(mài)通的商品信息就要200一天然后就自己去外部轉讓了
　　招招唄，
　　加工同樣的工序，
　　上淘寶買(mǎi)，免費的，用淘寶接口直接在后臺抓取，
　　

　　想做就做。抓取很簡(jiǎn)單，寫(xiě)爬蟲(chóng)就可以了，
　　因為現在的信息都是通過(guò)加工而成的。
　　這個(gè)我很有興趣，
　　留下郵箱。我給你發(fā)廣告，
　　這樣的例子很多呀。只要你愿意，很多文章都能免費拿到。我知道不少研究博物館展品的。就是買(mǎi)api來(lái)抓的，連每一幀動(dòng)畫(huà)都可以抓。還有個(gè)群就是一個(gè)拍賣(mài)群，里面拍賣(mài)各種文物。
　　大家可以來(lái)一起賺錢(qián)交流，軟件安卓多，價(jià)格合理，想賺一筆的話(huà)，很不錯。

如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-06-18 05:41 ? 來(lái)自相關(guān)話(huà)題

　　如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星
　　
　　這是熊貓未來(lái)星的第60篇文章
　　文末掃碼即可免費獲得
　　優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！
　　對于律師來(lái)說(shuō)，高強度的任務(wù)量往往讓我們面對盡職調查等工作黯然神傷。其實(shí)不是你的效率低，而是你少了一款手速快的飛起的工具，相信學(xué)會(huì )運用它們會(huì )讓你的工作成果更驚艷、更高效！
　　今天月半推薦給大家一款神器：優(yōu)采云。它能在很短的時(shí)間內，輕松從各種不同的網(wǎng)站或網(wǎng)頁(yè)獲取大量規范化數據，幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集，編輯，規范化，擺脫對人工搜索及手機數據的依賴(lài)，從而降低獲取信息的成本，提高效率。
　　一、產(chǎn)品介紹
　　
　　優(yōu)采云是國內領(lǐng)先的互聯(lián)網(wǎng)數據收集平臺，可以將網(wǎng)頁(yè)非結構化數據轉換成結構化數據，以數據庫或EXCEL等多種形式進(jìn)行存儲。通過(guò)云采集實(shí)現精準，高效，大規模的數據采集，降低獲取信息的成本，提高效率，協(xié)助用戶(hù)進(jìn)行電商價(jià)格監控，輿情分析，市場(chǎng)分析、風(fēng)險監測、品牌檢測等。
　　目前優(yōu)采云采集平臺擁有100萬(wàn)以上企業(yè)和個(gè)人用戶(hù)。
　　二、主要功能
　　
　　優(yōu)采云可以通過(guò)簡(jiǎn)單配置規則精準地從任何網(wǎng)頁(yè)抓取數據，生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容：
　　1. 金融數據，如季報，年報，財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
　　2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控，自動(dòng)更新及上傳最新發(fā)布的新聞;
　　3. 監控競爭對手最新信息，包括商品價(jià)格及庫存;
　　4. 監控各大社交網(wǎng)站，博客，自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
　　5. 收集最新最全的職場(chǎng)招聘信息;
　　6. 監控各大地產(chǎn)相關(guān)網(wǎng)站，采集新房二手房最新行情;
　　7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
　　8. 發(fā)現和收集潛在客戶(hù)信息;
　　9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
　　10.實(shí)時(shí)采集互聯(lián)網(wǎng)公開(kāi)輿情，幫助政府部門(mén)建立輿情分析系統。
　　簡(jiǎn)單來(lái)說(shuō)，優(yōu)采云將為你創(chuàng )建一個(gè)快速穩定的數據獲取平臺，幫助你從各類(lèi)繁雜無(wú)序的網(wǎng)頁(yè)數據中輕而易舉地獲取你需要的信息。
　　三、企業(yè)基本信息采集——企業(yè)盡調
　　1、登錄客戶(hù)端后選擇簡(jiǎn)易采集，在模板組內搜索下“天眼查”，當然也可以用其他企業(yè)信息平臺的哦！
　　2、點(diǎn)擊進(jìn)行使用
　　
　　3、進(jìn)入模版后可以看到模板采集的字段來(lái)自頁(yè)面何處。
　　4、使用這個(gè)模板需要設置的參數。由于現在天眼查查看數據要登錄了，故需輸入賬號和密碼進(jìn)行登錄。
　　
　　5、數據示例中有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　6、按要求填寫(xiě)好參數后，啟動(dòng)采集，先本地遛一遛。
　　7、看優(yōu)采云自動(dòng)采集著(zhù)，數據一條一條的冒出。
　　8、采好后導出成Excel文件，再此先舉個(gè)栗子！
　　四、無(wú)訟公報案例采集
　　1、點(diǎn)擊左上角+，選擇“自定義采集”，生成新建任務(wù)后輸入網(wǎng)址，點(diǎn)擊保存網(wǎng)址后就會(huì )進(jìn)行頁(yè)面打開(kāi)。
　　2、軟件內置的瀏覽器將直接展現平時(shí)在瀏覽器中打開(kāi)一模一樣的內容。然后按我們平時(shí)在瀏覽器中瀏覽數據的思維步驟進(jìn)行頁(yè)面操作就好。例如這里要輸入關(guān)鍵詞進(jìn)行搜索，那就先點(diǎn)擊輸入框后做【輸入文字】
　　
　　3、文字輸完后，就應該點(diǎn)擊搜索了，那就點(diǎn)頁(yè)面的【開(kāi)始檢索】，然后在操作提示里選“點(diǎn)擊元素”，頁(yè)面就會(huì )開(kāi)始搜索了。
　　
　　4、得到搜索結果后要點(diǎn)擊進(jìn)入每一條的詳細頁(yè)面，看具體的案件信息并獲取案件內容。我們按著(zhù)這樣操作思路來(lái)就行了！這里就不一一截圖了，直接秀我的操作結果！
　　
　　5、啟動(dòng)采集試試看
　　
　　6、幾分鐘就將70個(gè)公報案例采集完了，這效率不怕太高！
　　
　　7、導出成Excel保存下~
　　五、新聞資料收集
　　1、在登錄后選擇簡(jiǎn)易采集。進(jìn)入后選擇【媒體閱讀】，然后找到所需的網(wǎng)站【人民網(wǎng)】
　　2、點(diǎn)擊進(jìn)入后，選擇該模板進(jìn)行使用。
　　
　　3、字段預覽中可看到該模板將采集頁(yè)面上的哪些信息。
　　4、數據示例中也有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　5、然后填寫(xiě)相應參數，欄目指選擇人民網(wǎng)下的具體某個(gè)欄目版本，也可專(zhuān)門(mén)選擇法治板塊，此處姑且全選吧！搜索關(guān)鍵詞，暫且用下“貪污受賄”“電信詐騙”等法律相關(guān)內容；據說(shuō)最多可以同時(shí)輸入1萬(wàn)個(gè)關(guān)鍵詞！也是666！最后頁(yè)數不要多，就前100頁(yè)的吧！參數都設置好后保存并啟動(dòng)。
　　
　　6、然后進(jìn)靜靜的等待數據，讓優(yōu)采云孜孜不倦的工作吧！咱喝茶去~
　　
　　7、云采集效果更佳，截圖為證！
　　8、數據都都導出看看，多種格式，姑且最常用的Excel瞄瞄。
　　9、這么多！這么全！滿(mǎn)滿(mǎn)的幸福感與滿(mǎn)足感！再也不用當心缺材料了~
　　六、產(chǎn)品優(yōu)勢
　　1、免費使用
　　優(yōu)采云是一款免費的網(wǎng)頁(yè)數據采集工具，能夠實(shí)現全網(wǎng)98%以上的數據采集，并且免費版本沒(méi)有任何功能限制，任何人都可以在官網(wǎng)下載安裝使用。
　　2、簡(jiǎn)單易用
　　無(wú)需再學(xué)爬蟲(chóng)編程技術(shù)，簡(jiǎn)單三步就可以輕松抓取網(wǎng)頁(yè)數據，支持多種格式一鍵導出，快速導入數據庫
　　3、高效采集
　　優(yōu)采云模擬人的操作思維模式，配置規則簡(jiǎn)單。同時(shí)采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行，提高采集效率，可以很短的時(shí)間內獲取成千上萬(wàn)條信息。
　　4、技術(shù)服務(wù)
　　優(yōu)采云官網(wǎng)內置從入門(mén)到精通所需要的文檔和視頻教程，同時(shí)還有專(zhuān)業(yè)客服人員在微信、qq、論壇等平臺提供技術(shù)指導及服務(wù)。
　　七、技術(shù)優(yōu)勢
　　1、全網(wǎng)適用
　　眼見(jiàn)即可采，不管是電商、媒體，還是貼吧論壇，支持所有業(yè)務(wù)渠道的爬蟲(chóng)，滿(mǎn)足各種采集需求。
　　2、可視化流程操作
　　優(yōu)采云采集器用戶(hù)無(wú)需編寫(xiě)代碼，只需依照可視化的流程，通過(guò)簡(jiǎn)單的規則制作實(shí)現全網(wǎng)數據提取。
　　3、海量模板
　　內置數百個(gè)網(wǎng)站數據源，全面覆蓋多個(gè)行業(yè)，如京東、天貓、大眾點(diǎn)評等熱門(mén)采集網(wǎng)站，只需參照模板簡(jiǎn)單設置參數，就可以快速獲取網(wǎng)站公開(kāi)數據。
　　4、云采集
　　由5000多臺云服務(wù)器支撐的云采集，7*24小時(shí)不間斷運行，可實(shí)現定時(shí)采集，無(wú)需人員值守，靈活契合業(yè)務(wù)場(chǎng)景，幫你提升采集效率，保障數據時(shí)效性。
　　5、智能防封
　　優(yōu)采云采集可根據不同網(wǎng)站，自定義配置組合瀏覽器標識(UA)，全自動(dòng)代理IP，瀏覽器Cookie,驗證碼破解等功能，實(shí)現突破絕大多數網(wǎng)站的防采集策略。
　　6、API接口
　　通過(guò)優(yōu)采云API，可以輕松獲取優(yōu)采云任務(wù)信息和采集到的數據，靈活調度任務(wù)，比如遠程控制任務(wù)啟動(dòng)與停止，高效實(shí)現數據采集與歸檔?；趶姶蟮腁PI體系，還可以無(wú)縫對接公司內部各類(lèi)管理平臺，實(shí)現各類(lèi)業(yè)務(wù)自動(dòng)化。
　　7、穩定高效
　　分布式云集群服務(wù)器和多用戶(hù)協(xié)作管理平臺的支撐，可靈活調度任務(wù)，順利爬取海量數據。
　　快來(lái)領(lǐng)取優(yōu)采云采集器特別福利！
　　熊貓君為各位小伙伴爭取了福利！掃碼即可免費獲得優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！數量有限，先到先得～小伙伴們快來(lái)領(lǐng)取吧！
　　領(lǐng)取指南
　　1、點(diǎn)擊快速注冊，注冊?xún)?yōu)采云賬號。
　　
　　2、掃碼登記信息，提交問(wèn)卷等待優(yōu)采云后臺審核，預計7個(gè)工作日內，即可領(lǐng)取優(yōu)采云專(zhuān)業(yè)版賬號。
　　另外！恰逢優(yōu)采云六周年活動(dòng)，各個(gè)付費版本全年最低價(jià)，部分版本還可買(mǎi)一送一！
　　活動(dòng)時(shí)間：12.20-12.26
　　活動(dòng)鏈接：長(cháng)按下方二維碼即可參與
　　為了讓更多的律界朋友可以系統掌握這方面的實(shí)務(wù)技能，我們耗費了大量精力，錄制了可視化、系統化的《電子證據與互聯(lián)網(wǎng)法院實(shí)務(wù)指南》系列課程視頻，相信可以幫助你游刃有余地掌握電子證據實(shí)務(wù)技能。
　　往期
　　好文查看全部

　　如何輕松采集盡調信息？技術(shù)派律師用這個(gè)神器拯救你！| 未來(lái)星
　　

　　這是熊貓未來(lái)星的第60篇文章
　　文末掃碼即可免費獲得
　　優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！
　　對于律師來(lái)說(shuō)，高強度的任務(wù)量往往讓我們面對盡職調查等工作黯然神傷。其實(shí)不是你的效率低，而是你少了一款手速快的飛起的工具，相信學(xué)會(huì )運用它們會(huì )讓你的工作成果更驚艷、更高效！
　　今天月半推薦給大家一款神器：優(yōu)采云。它能在很短的時(shí)間內，輕松從各種不同的網(wǎng)站或網(wǎng)頁(yè)獲取大量規范化數據，幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集，編輯，規范化，擺脫對人工搜索及手機數據的依賴(lài)，從而降低獲取信息的成本，提高效率。
　　一、產(chǎn)品介紹
　　

　　優(yōu)采云是國內領(lǐng)先的互聯(lián)網(wǎng)數據收集平臺，可以將網(wǎng)頁(yè)非結構化數據轉換成結構化數據，以數據庫或EXCEL等多種形式進(jìn)行存儲。通過(guò)云采集實(shí)現精準，高效，大規模的數據采集，降低獲取信息的成本，提高效率，協(xié)助用戶(hù)進(jìn)行電商價(jià)格監控，輿情分析，市場(chǎng)分析、風(fēng)險監測、品牌檢測等。
　　目前優(yōu)采云采集平臺擁有100萬(wàn)以上企業(yè)和個(gè)人用戶(hù)。
　　二、主要功能
　　

　　優(yōu)采云可以通過(guò)簡(jiǎn)單配置規則精準地從任何網(wǎng)頁(yè)抓取數據，生成自定義的、規整的數據格式。優(yōu)采云數據采集系統能做的包括但并不局限于以下內容：
　　1. 金融數據，如季報，年報，財務(wù)報告, 包括每日最新凈值自動(dòng)采集;
　　2. 各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控，自動(dòng)更新及上傳最新發(fā)布的新聞;
　　3. 監控競爭對手最新信息，包括商品價(jià)格及庫存;
　　4. 監控各大社交網(wǎng)站，博客，自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評論;
　　5. 收集最新最全的職場(chǎng)招聘信息;
　　6. 監控各大地產(chǎn)相關(guān)網(wǎng)站，采集新房二手房最新行情;
　　7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
　　8. 發(fā)現和收集潛在客戶(hù)信息;
　　9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
　　10.實(shí)時(shí)采集互聯(lián)網(wǎng)公開(kāi)輿情，幫助政府部門(mén)建立輿情分析系統。
　　簡(jiǎn)單來(lái)說(shuō)，優(yōu)采云將為你創(chuàng )建一個(gè)快速穩定的數據獲取平臺，幫助你從各類(lèi)繁雜無(wú)序的網(wǎng)頁(yè)數據中輕而易舉地獲取你需要的信息。
　　三、企業(yè)基本信息采集——企業(yè)盡調
　　1、登錄客戶(hù)端后選擇簡(jiǎn)易采集，在模板組內搜索下“天眼查”，當然也可以用其他企業(yè)信息平臺的哦！
　　2、點(diǎn)擊進(jìn)行使用
　　

　　3、進(jìn)入模版后可以看到模板采集的字段來(lái)自頁(yè)面何處。
　　4、使用這個(gè)模板需要設置的參數。由于現在天眼查查看數據要登錄了，故需輸入賬號和密碼進(jìn)行登錄。
　　

　　5、數據示例中有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　6、按要求填寫(xiě)好參數后，啟動(dòng)采集，先本地遛一遛。
　　7、看優(yōu)采云自動(dòng)采集著(zhù)，數據一條一條的冒出。
　　8、采好后導出成Excel文件，再此先舉個(gè)栗子！
　　四、無(wú)訟公報案例采集
　　1、點(diǎn)擊左上角+，選擇“自定義采集”，生成新建任務(wù)后輸入網(wǎng)址，點(diǎn)擊保存網(wǎng)址后就會(huì )進(jìn)行頁(yè)面打開(kāi)。
　　2、軟件內置的瀏覽器將直接展現平時(shí)在瀏覽器中打開(kāi)一模一樣的內容。然后按我們平時(shí)在瀏覽器中瀏覽數據的思維步驟進(jìn)行頁(yè)面操作就好。例如這里要輸入關(guān)鍵詞進(jìn)行搜索，那就先點(diǎn)擊輸入框后做【輸入文字】
　　

　　3、文字輸完后，就應該點(diǎn)擊搜索了，那就點(diǎn)頁(yè)面的【開(kāi)始檢索】，然后在操作提示里選“點(diǎn)擊元素”，頁(yè)面就會(huì )開(kāi)始搜索了。
　　

　　4、得到搜索結果后要點(diǎn)擊進(jìn)入每一條的詳細頁(yè)面，看具體的案件信息并獲取案件內容。我們按著(zhù)這樣操作思路來(lái)就行了！這里就不一一截圖了，直接秀我的操作結果！
　　

　　5、啟動(dòng)采集試試看
　　

　　6、幾分鐘就將70個(gè)公報案例采集完了，這效率不怕太高！
　　

　　7、導出成Excel保存下~
　　五、新聞資料收集
　　1、在登錄后選擇簡(jiǎn)易采集。進(jìn)入后選擇【媒體閱讀】，然后找到所需的網(wǎng)站【人民網(wǎng)】
　　2、點(diǎn)擊進(jìn)入后，選擇該模板進(jìn)行使用。
　　

　　3、字段預覽中可看到該模板將采集頁(yè)面上的哪些信息。
　　4、數據示例中也有最終采集結果的一個(gè)數據展示，點(diǎn)擊右下角的【立即使用】即可進(jìn)入參數設置頁(yè)面。
　　5、然后填寫(xiě)相應參數，欄目指選擇人民網(wǎng)下的具體某個(gè)欄目版本，也可專(zhuān)門(mén)選擇法治板塊，此處姑且全選吧！搜索關(guān)鍵詞，暫且用下“貪污受賄”“電信詐騙”等法律相關(guān)內容；據說(shuō)最多可以同時(shí)輸入1萬(wàn)個(gè)關(guān)鍵詞！也是666！最后頁(yè)數不要多，就前100頁(yè)的吧！參數都設置好后保存并啟動(dòng)。
　　

　　6、然后進(jìn)靜靜的等待數據，讓優(yōu)采云孜孜不倦的工作吧！咱喝茶去~
　　

　　7、云采集效果更佳，截圖為證！
　　8、數據都都導出看看，多種格式，姑且最常用的Excel瞄瞄。
　　9、這么多！這么全！滿(mǎn)滿(mǎn)的幸福感與滿(mǎn)足感！再也不用當心缺材料了~
　　六、產(chǎn)品優(yōu)勢
　　1、免費使用
　　優(yōu)采云是一款免費的網(wǎng)頁(yè)數據采集工具，能夠實(shí)現全網(wǎng)98%以上的數據采集，并且免費版本沒(méi)有任何功能限制，任何人都可以在官網(wǎng)下載安裝使用。
　　2、簡(jiǎn)單易用
　　無(wú)需再學(xué)爬蟲(chóng)編程技術(shù)，簡(jiǎn)單三步就可以輕松抓取網(wǎng)頁(yè)數據，支持多種格式一鍵導出，快速導入數據庫
　　3、高效采集
　　優(yōu)采云模擬人的操作思維模式，配置規則簡(jiǎn)單。同時(shí)采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行，提高采集效率，可以很短的時(shí)間內獲取成千上萬(wàn)條信息。
　　4、技術(shù)服務(wù)
　　優(yōu)采云官網(wǎng)內置從入門(mén)到精通所需要的文檔和視頻教程，同時(shí)還有專(zhuān)業(yè)客服人員在微信、qq、論壇等平臺提供技術(shù)指導及服務(wù)。
　　七、技術(shù)優(yōu)勢
　　1、全網(wǎng)適用
　　眼見(jiàn)即可采，不管是電商、媒體，還是貼吧論壇，支持所有業(yè)務(wù)渠道的爬蟲(chóng)，滿(mǎn)足各種采集需求。
　　2、可視化流程操作
　　優(yōu)采云采集器用戶(hù)無(wú)需編寫(xiě)代碼，只需依照可視化的流程，通過(guò)簡(jiǎn)單的規則制作實(shí)現全網(wǎng)數據提取。
　　3、海量模板
　　內置數百個(gè)網(wǎng)站數據源，全面覆蓋多個(gè)行業(yè)，如京東、天貓、大眾點(diǎn)評等熱門(mén)采集網(wǎng)站，只需參照模板簡(jiǎn)單設置參數，就可以快速獲取網(wǎng)站公開(kāi)數據。
　　4、云采集
　　由5000多臺云服務(wù)器支撐的云采集，7*24小時(shí)不間斷運行，可實(shí)現定時(shí)采集，無(wú)需人員值守，靈活契合業(yè)務(wù)場(chǎng)景，幫你提升采集效率，保障數據時(shí)效性。
　　5、智能防封
　　優(yōu)采云采集可根據不同網(wǎng)站，自定義配置組合瀏覽器標識(UA)，全自動(dòng)代理IP，瀏覽器Cookie,驗證碼破解等功能，實(shí)現突破絕大多數網(wǎng)站的防采集策略。
　　6、API接口
　　通過(guò)優(yōu)采云API，可以輕松獲取優(yōu)采云任務(wù)信息和采集到的數據，靈活調度任務(wù)，比如遠程控制任務(wù)啟動(dòng)與停止，高效實(shí)現數據采集與歸檔?；趶姶蟮腁PI體系，還可以無(wú)縫對接公司內部各類(lèi)管理平臺，實(shí)現各類(lèi)業(yè)務(wù)自動(dòng)化。
　　7、穩定高效
　　分布式云集群服務(wù)器和多用戶(hù)協(xié)作管理平臺的支撐，可靈活調度任務(wù)，順利爬取海量數據。
　　快來(lái)領(lǐng)取優(yōu)采云采集器特別福利！
　　熊貓君為各位小伙伴爭取了福利！掃碼即可免費獲得優(yōu)采云采集器專(zhuān)業(yè)版賬號1個(gè)月使用期福利！數量有限，先到先得～小伙伴們快來(lái)領(lǐng)取吧！
　　領(lǐng)取指南
　　1、點(diǎn)擊快速注冊，注冊?xún)?yōu)采云賬號。
　　

　　2、掃碼登記信息，提交問(wèn)卷等待優(yōu)采云后臺審核，預計7個(gè)工作日內，即可領(lǐng)取優(yōu)采云專(zhuān)業(yè)版賬號。
　　另外！恰逢優(yōu)采云六周年活動(dòng)，各個(gè)付費版本全年最低價(jià)，部分版本還可買(mǎi)一送一！
　　活動(dòng)時(shí)間：12.20-12.26
　　活動(dòng)鏈接：長(cháng)按下方二維碼即可參與
　　為了讓更多的律界朋友可以系統掌握這方面的實(shí)務(wù)技能，我們耗費了大量精力，錄制了可視化、系統化的《電子證據與互聯(lián)網(wǎng)法院實(shí)務(wù)指南》系列課程視頻，相信可以幫助你游刃有余地掌握電子證據實(shí)務(wù)技能。
　　往期
　　好文

容器日志管理的最佳實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2022-06-17 20:48 ? 來(lái)自相關(guān)話(huà)題

　　容器日志管理的最佳實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　
　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　
　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　
　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　
　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　
　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　
　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　
　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　
　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　
　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　
　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　
　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　
　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　
　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　
　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　
　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　「視頻」在公眾號中回復 “阿里云日志” 即可獲取。
　　查看全部

　　容器日志管理的最佳實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　

　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　

　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　

　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　

　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　

　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　

　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　

　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　

　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　

　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　

　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　

　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　

　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　

　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　

　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　

　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　「視頻」在公眾號中回復 “阿里云日志” 即可獲取。
　　

面向容器日志的技術(shù)實(shí)踐

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-06-17 20:48 ? 來(lái)自相關(guān)話(huà)題

　　面向容器日志的技術(shù)實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　
　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　
　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　
　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　
　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　
　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　
　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　
　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　
　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　
　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　
　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　
　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　
　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　
　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　
　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　
　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　視頻樣例
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　參考資料
　　end
　　更多精彩查看全部

　　面向容器日志的技術(shù)實(shí)踐
　　摘要：本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐。
　　背景
　　自 2013 年 dotCloud 公司開(kāi)源 Docker 以來(lái)，以 Docker 為代表的容器產(chǎn)品憑借著(zhù)隔離性好、可移植性高、資源占用少、啟動(dòng)迅速等特性迅速風(fēng)靡世界。下圖展示了 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
　　

　　容器技術(shù)在部署、交付等環(huán)節給人們帶來(lái)了很多便捷，但在日志處理領(lǐng)域卻帶來(lái)了許多新的挑戰，包括：
　　如果把日志保存在容器內部，它會(huì )隨著(zhù)容器的銷(xiāo)毀而被刪除。由于容器的生命周期相對虛擬機大大縮短，創(chuàng )建銷(xiāo)毀屬于常態(tài)，因此需要一種方式持久化的保存日志；
　　進(jìn)入容器時(shí)代后，需要管理的目標對象遠多于虛擬機或物理機，登錄到目標容器排查問(wèn)題會(huì )變得更加復雜且不經(jīng)濟；
　　容器的出現讓微服務(wù)更容易落地，它在給我們的系統帶來(lái)松耦合的同時(shí)引入了更多的組件。因此我們需要一種技術(shù)，它既能幫助我們全局性的了解系統運行情況，又能迅速定位問(wèn)題現場(chǎng)、還原上下文。
　　日志處理流程
　　本文以 Docker 為例，依托阿里云日志服務(wù)團隊在日志領(lǐng)域深耕多年積累下的豐富經(jīng)驗，介紹容器日志處理的一般方法和最佳實(shí)踐，包括：
　　容器日志實(shí)時(shí)采集；
　　查詢(xún)分析和可視化；
　　日志上下文分析；
　　LiveTail - 云上 tail -f。
　　容器日志實(shí)時(shí)采集
　　容器日志分類(lèi)
　　采集日志首先要弄清日志存在的位置，這里以 Nginx、Tomcat 這兩個(gè)常用容器為例進(jìn)行分析。
　　Nginx 產(chǎn)生的日志包括 access.log 和 error.log，根據 nginx Dockerfile 可知 access.log 和 error.log 被分別重定向到了 STDOUT 和 STDERR 上。
　　Tomcat 產(chǎn)生的日志比較多，包括 catalina.log、access.log、manager.log、host-manager.log 等，tomcat Dockerfile 并沒(méi)有將這些日志重定向到標準輸出，它們存在于容器內部。
　　容器產(chǎn)生的日志大部分都可以歸結于上述情形。這里，我們不妨將容器日志分成以下兩類(lèi)。
　　

　　標準輸出
　　使用 logging driver
　　容器的標準輸出會(huì )由 logging driver 統一處理。如下圖所示，不同的 logging driver 會(huì )將標準輸出寫(xiě)往不同的目的地。
　　

　　通過(guò) logging driver 采集容器標準輸出的優(yōu)勢在于使用簡(jiǎn)單，例如：
　　

　　缺點(diǎn)
　　除了 json-file 和 journald，使用其他 logging driver 將使 docker logs API 不可用。例如，當您使用 portainer 管理宿主機上的容器，并且使用了上述兩者之外的 logging driver，您會(huì )發(fā)現無(wú)法通過(guò) UI 界面觀(guān)察到容器的標準輸出。
　　使用 docker logs API
　　對于那些使用默認 logging driver 的容器，我們可以通過(guò)向 docker daemon 發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用此方式采集日志的工具包括 logspout、sematext-agent-docker 等。下列樣例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)最新的5條日志。
　　

　　缺點(diǎn)
　　當日志量較大時(shí)，這種方式會(huì )對 docker daemon 造成較大壓力，導致 docker daemon 無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
　　采集 json-file 文件
　　默認 logging driver 會(huì )將日志以 json 的格式寫(xiě)入宿主機文件里，文件路徑為/var/lib/docker/containers//-json.log。這樣可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
　　該方案較為推薦，因為它既不會(huì )使 docker logs API 變得不可用，又不會(huì )影響 docker daemon，并且現在許多工具原生支持采集宿主機文件，如 filebeat、logtail 等。
　　文本日志
　　掛載宿主機目錄
　　采集容器內文本日志最簡(jiǎn)單的方法是在啟動(dòng)容器時(shí)通過(guò) bind mounts 或 volumes 方式將宿主機目錄掛載到容器日志所在目錄上，如下圖所示。
　　

　　針對 tomcat 容器的 access log，使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat將宿主機目錄/tmp/app/vol1掛載到 access log 在容器中的目錄/usr/local/tomcat/logs上，通過(guò)采集宿主機目錄/tmp/app/vol1下日志達到采集 tomcat access log 的目的。
　　計算容器 rootfs 掛載點(diǎn)
　　使用掛載宿主機目錄的方式采集日志對應用會(huì )有一定的侵入性，因為它要求容器啟動(dòng)的時(shí)候包含掛載命令。如果采集過(guò)程能對用戶(hù)透明那就太棒了。事實(shí)上，可以通過(guò)計算容器 rootfs 掛載點(diǎn)來(lái)達到這種目的。
　　和容器 rootfs 掛載點(diǎn)密不可分的一個(gè)概念是 storage driver。實(shí)際使用過(guò)程中，用戶(hù)往往會(huì )根據 linux 版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的 storage driver。不同 storage driver 下，容器的 rootfs 掛載點(diǎn)遵循一定規律，因此我們可以根據 storage driver 的類(lèi)型推斷出容器的 rootfs 掛載點(diǎn)，進(jìn)而采集容器內部日志。下表展示了部分 storage dirver 的 rootfs 掛載點(diǎn)及其計算方法。
　　

　　Logtail 方案
　　在充分比較了容器日志的各種采集方法，綜合整理了廣大用戶(hù)的反饋與訴求后，日志服務(wù)團隊推出了容器日志一站式解決方案。
　　

　　功能特點(diǎn)
　　logtail 方案包含如下功能：
　　支持采集宿主機文件以及宿主機上容器的日志（包括標準輸出和日志文件）；
　　支持容器自動(dòng)發(fā)現，即當您配置了采集目標后，每當有符合條件的容器被創(chuàng )建時(shí)，該容器上的目標日志將被自動(dòng)采集；
　　支持通過(guò) docker label 以及環(huán)境變量過(guò)濾指定容器，支持白名單、黑名單機制；
　　采集數據自動(dòng)打標，即對收集上來(lái)的日志自動(dòng)加上 container name、container IP、文件路徑等用于標識數據源的信息；
　　支持采集 K8s 容器日志。
　　核心優(yōu)勢
　　通過(guò) checkpoint 機制以及部署額外的監控進(jìn)程保證 at-least-once 語(yǔ)義；
　　歷經(jīng)多次雙十一、雙十二的考驗以及阿里集團內部百萬(wàn)級別的部署規模，穩定和性能方面非常有保障。
　　K8s 容器日志采集
　　和 K8s 生態(tài)深度集成，能非常方便地采集 K8s 容器日志是日志服務(wù) logtail 方案的又一大特色。
　　采集配置管理：
　　支持通過(guò) WEB 控制臺進(jìn)行采集配置管理；
　　支持通過(guò) CRD（CustomResourceDefinition）方式進(jìn)行采集配置管理（該方式更容易與 K8s 的部署、發(fā)布流程進(jìn)行集成）。
　　采集模式：
　　支持通過(guò) DaemonSet 模式采集 K8s 容器日志，即每個(gè)節點(diǎn)上運行一個(gè)采集客戶(hù)端 logtail，適用于功能單一型的集群；
　　支持通過(guò) Sidecar 模式采集 K8s 容器日志，即每個(gè) Pod 里以容器的形式運行一個(gè)采集客戶(hù)端 logtail，適用于大型、混合型、PAAS 型集群。
　　關(guān)于 Logtail 方案的詳細說(shuō)明可參考文章全面提升，阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比。
　　查詢(xún)分析和可視化
　　完成日志采集工作后，下一步需要對這些日志進(jìn)行查詢(xún)分析和可視化。這里以 Tomcat 訪(fǎng)問(wèn)日志為例，介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
　　快速查詢(xún)
　　容器日志被采集時(shí)會(huì )帶上 container name、container IP、目標文件路徑等信息，因此在查詢(xún)的時(shí)候可以通過(guò)這些信息快速定位目標容器和文件。查詢(xún)功能的詳細介紹可參考文檔查詢(xún)語(yǔ)法。
　　實(shí)時(shí)分析
　　日志服務(wù)實(shí)時(shí)分析功能兼容 SQL 語(yǔ)法且提供了 200 多種聚合函數。如果您有使用 SQL 的經(jīng)驗，能夠很容易寫(xiě)出滿(mǎn)足業(yè)務(wù)需求的分析語(yǔ)句。例如：
　　統計訪(fǎng)問(wèn)次數排名前 10 的 uri。
　　

　　統計當前15分鐘的網(wǎng)絡(luò )流量相對于前一個(gè)小時(shí)的變化情況。
　　

　　該語(yǔ)句使用同比環(huán)比函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
　　可視化
　　為了讓數據更加生動(dòng)，您可以使用日志服務(wù)內置的多種圖表對 SQL 計算結果進(jìn)行可視化展示，并將圖表組合成一個(gè)儀表盤(pán)。
　　

　　下圖展示了基于 Tomcat 訪(fǎng)問(wèn)日志的儀表盤(pán)，它展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間的變化趨勢等信息。該儀表盤(pán)展現的是多個(gè) Tomcat 容器數據聚合后的結果，您可以使用儀表盤(pán)過(guò)濾器功能，通過(guò)指定容器名查看單個(gè)容器的數據。
　　日志上下文分析
　　查詢(xún)分析、儀表盤(pán)等功能能幫助我們把握全局信息、了解系統整體運行情況，但定位具體問(wèn)題往往需要上下文信息的幫助。
　　上下文定義
　　上下文指的是圍繞某個(gè)問(wèn)題展開(kāi)的線(xiàn)索，如日志中某個(gè)錯誤的前后信息。上下文包含兩個(gè)要素：
　　下表展示了不同數據源的最小區分粒度。
　　

　　上下文查詢(xún)面臨的挑戰
　　在日志集中式存儲的背景下，采集端和服務(wù)端都很難保證日志原始的順序：
　　在客戶(hù)端層面，一臺宿主機上運行著(zhù)多個(gè)容器，每個(gè)容器會(huì )有多個(gè)目標文件需要采集。日志采集軟件需要利用機器的多個(gè) cpu 核心解析、預處理日志，并通過(guò)多線(xiàn)程并發(fā)或者單線(xiàn)程異步回調的方式處理網(wǎng)絡(luò )發(fā)送的慢 IO 問(wèn)題。這使得日志數據不能按照機器上的事件產(chǎn)生順序依次到達服務(wù)端。
　　在服務(wù)端層面，由于水平擴展的多機負載均衡架構，使得同一客戶(hù)端機器的日志會(huì )分散在多臺存儲節點(diǎn)上。在分散存儲的日志基礎上再恢復最初的順序是困難的。
　　原理
　　日志服務(wù)通過(guò)給每條日志附加一些額外的信息以及服務(wù)端的關(guān)鍵詞查詢(xún)能力巧妙地解決了上述難題。原理如下圖所示。
　　

　　日志被采集時(shí)會(huì )自動(dòng)加入用于標識日志來(lái)源的信息（即上文提到的最小區分粒度）作為 source_id。針對容器場(chǎng)景，這些信息包括容器名、文件路徑等；
　　日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志，若干條日志組成一個(gè)數據包?？蛻?hù)端會(huì )向這些數據包里寫(xiě)入一個(gè)單調遞增的 package_id，并且包內每條日志都擁有包內位移 offset；
　　服務(wù)端會(huì )將 source_id、package_id、offset 組合起來(lái)作為一個(gè)字段并為其建立索引。這樣，即使各種日志在服務(wù)端是混合存儲的狀態(tài)，我們也可以根據 source_id、package_id、offset 精確定位某條日志。
　　想了解更多有關(guān)上下文分析的功能可參考文章上下文查詢(xún)、分布式系統日志上下文查詢(xún)功能。
　　LiveTail - 云上 tail -f
　　除了查看日志的上下文信息，有時(shí)我們也希望能夠持續觀(guān)察容器的輸出。
　　傳統方式
　　下表展示了傳統模式下實(shí)時(shí)監控容器日志的方法。
　　

　　痛點(diǎn)
　　通過(guò)傳統方法監控容器日志存在以下痛點(diǎn)：
　　容器很多時(shí)，定位目標容器耗時(shí)耗力；
　　不同類(lèi)型的容器日志需要使用不同的觀(guān)察方法，增加使用成本；
　　關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)單直觀(guān)。
　　功能和原理
　　針對這些問(wèn)題，日志服務(wù)推出了 LiveTail 功能。相比傳統模式，它有如下優(yōu)點(diǎn)：
　　可以根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器；
　　使用統一的方式觀(guān)察不同類(lèi)型的容器日志，無(wú)需進(jìn)入目標容器；
　　支持通過(guò)關(guān)鍵詞進(jìn)行過(guò)濾；
　　支持設置關(guān)鍵列。
　　

　　在實(shí)現上，LiveTail 主要用到了上一章中提到的上下文查詢(xún)原理快速定位目標容器和目標文件。然后，客戶(hù)端定期向服務(wù)端發(fā)送請求，拉取最新數據。
　　視頻樣例
　　您還可以通過(guò)觀(guān)看視頻，進(jìn)一步理解容器日志的采集、查詢(xún)、分析和可視化等功能。
　　參考資料
　　end
　　更多精彩

采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 202 次瀏覽 ? 2022-06-17 17:10 ? 來(lái)自相關(guān)話(huà)題

　　采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！
　　在我們日常使用搜索引擎的時(shí)候，大多數搜索引擎都會(huì )為了讓用戶(hù)更快速的輸入自己想要的相關(guān)問(wèn)題，而基于已輸入的字符智能匹配出許多相關(guān)的關(guān)鍵字推薦給用戶(hù)。
　　當用戶(hù)輸入一個(gè)字符，碰到提示的候選詞很多的時(shí)候，如何取舍，哪些展示在前面，哪些展示在后面？
　　這就是一個(gè)搜索熱度的問(wèn)題。
　　用戶(hù)在使搜索框搜索相關(guān)問(wèn)題時(shí)，會(huì )輸入大量的關(guān)鍵字，每一次輸入就是對關(guān)鍵字的一次投票。那么關(guān)鍵字被輸入的次數越多，它對應的查詢(xún)就比較熱門(mén)，所以需要把查詢(xún)的關(guān)鍵字記錄下來(lái)，并且統計出每個(gè)關(guān)鍵字的頻率，方便提示結果按照頻率排序。
　　而在亞馬遜中的搜索也是如此。如下圖，在輸入一個(gè)”A”后會(huì )自動(dòng)聯(lián)想出“amazon gift cards”、“airpods”、“aa batteries”等詞。
　　
　　那么如何批量的根據自己設置的關(guān)鍵詞去采集亞馬遜推薦的熱搜詞呢？
　　So Easy!
　　用Python只需4步即可實(shí)現！
　　1、打開(kāi)瀏覽器訪(fǎng)問(wèn)亞馬遜，在亞馬遜主頁(yè)按下“F12”，并切換到“Network”。
　　
　　2、在搜索框中輸入任意字符，并抓包分析數據。
　　這時(shí)候我們會(huì )看到控制臺中出現了“suggestions?.....”的請求。點(diǎn)擊并切換到Response選項卡中，可以清楚的看到亞馬遜返回的數據。我們將數據拷貝（Ctrl+A在Ctrl+C）出來(lái)，美化一下仔細看看到底返回了些什么。訪(fǎng)問(wèn)：將數據拷貝進(jìn)去，一探究竟。
　　
　　在返回的數據是一個(gè)標準的json數據，在數據中”Value”這個(gè)鍵下對應的值就是亞馬遜的熱搜關(guān)鍵字！
　　如此一來(lái)我們只需要帶上關(guān)鍵字模擬請求這個(gè)接口，即可拿到亞馬遜返回的熱搜關(guān)鍵字。是不是So Easy?!
　　3、復制Curl,生成代碼。
　　還是用優(yōu)采云方法給大家演示，首先在“suggestions?.....”的請求上鼠標右鍵選擇Copy→Copy as cURL。
　　
　　然后訪(fǎng)問(wèn)，將復制的cURL填進(jìn)去即可自動(dòng)生成Python代碼。再將生成的代碼復制出來(lái)，在PyCharm中復制進(jìn)去。
　　4、修改代碼，實(shí)現復用。
　　在測試當中，我將一些不必要的參數刪除最終只需三個(gè)參數、幾行代碼即可實(shí)現。
　　import requests
　　keyword = str(input('請輸入關(guān)鍵字：'))
　　headers = {
　　'Accept': 'application/json, text/javascript, */*; q=0.01',
　　'Referer': '',
　　'Origin': '',
　　'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',}
　　params = (
　　('mid', 'ATVPDKIKX0DER'),
　　('alias', 'aps'),
　　('prefix',keyword),)
　　response = requests.get('', headers=headers, params=params)
　　suggestions = response.json()['suggestions']
　　for i in suggestions:
　　value = i['value']
　　print(value)
　　當然這幾行代碼只能實(shí)現單個(gè)關(guān)鍵詞熱搜詞的采集，我們可以將關(guān)鍵字批量的寫(xiě)入然后挨個(gè)的請求即可實(shí)現批量采集的目的。
　　在這里技術(shù)小哥哥已經(jīng)將這個(gè)功能封裝為一個(gè)小工具，只需將關(guān)鍵字寫(xiě)入到表格當中即可批量采集！
　　
　　文末大福利
　　大家只需轉發(fā)此篇文章到自己的朋友圈后，添加下方小哥哥微信，截圖給到他就可以給到大家免費使用！
　　
　　更有Reviews采集、QA采集、僵尸采集、跟賣(mài)提醒等工具,歡迎隨時(shí)開(kāi)撩獲得更多工具！
　　
　　▼往期精彩文章▼
　　在看點(diǎn)這里
　　查看全部

　　采集亞馬遜熱搜關(guān)鍵詞，竟如此簡(jiǎn)單?。?！
　　在我們日常使用搜索引擎的時(shí)候，大多數搜索引擎都會(huì )為了讓用戶(hù)更快速的輸入自己想要的相關(guān)問(wèn)題，而基于已輸入的字符智能匹配出許多相關(guān)的關(guān)鍵字推薦給用戶(hù)。
　　當用戶(hù)輸入一個(gè)字符，碰到提示的候選詞很多的時(shí)候，如何取舍，哪些展示在前面，哪些展示在后面？
　　這就是一個(gè)搜索熱度的問(wèn)題。
　　用戶(hù)在使搜索框搜索相關(guān)問(wèn)題時(shí)，會(huì )輸入大量的關(guān)鍵字，每一次輸入就是對關(guān)鍵字的一次投票。那么關(guān)鍵字被輸入的次數越多，它對應的查詢(xún)就比較熱門(mén)，所以需要把查詢(xún)的關(guān)鍵字記錄下來(lái)，并且統計出每個(gè)關(guān)鍵字的頻率，方便提示結果按照頻率排序。
　　而在亞馬遜中的搜索也是如此。如下圖，在輸入一個(gè)”A”后會(huì )自動(dòng)聯(lián)想出“amazon gift cards”、“airpods”、“aa batteries”等詞。
　　

　　那么如何批量的根據自己設置的關(guān)鍵詞去采集亞馬遜推薦的熱搜詞呢？
　　So Easy!
　　用Python只需4步即可實(shí)現！
　　1、打開(kāi)瀏覽器訪(fǎng)問(wèn)亞馬遜，在亞馬遜主頁(yè)按下“F12”，并切換到“Network”。
　　

　　2、在搜索框中輸入任意字符，并抓包分析數據。
　　這時(shí)候我們會(huì )看到控制臺中出現了“suggestions?.....”的請求。點(diǎn)擊并切換到Response選項卡中，可以清楚的看到亞馬遜返回的數據。我們將數據拷貝（Ctrl+A在Ctrl+C）出來(lái)，美化一下仔細看看到底返回了些什么。訪(fǎng)問(wèn)：將數據拷貝進(jìn)去，一探究竟。
　　

　　在返回的數據是一個(gè)標準的json數據，在數據中”Value”這個(gè)鍵下對應的值就是亞馬遜的熱搜關(guān)鍵字！
　　如此一來(lái)我們只需要帶上關(guān)鍵字模擬請求這個(gè)接口，即可拿到亞馬遜返回的熱搜關(guān)鍵字。是不是So Easy?!
　　3、復制Curl,生成代碼。
　　還是用優(yōu)采云方法給大家演示，首先在“suggestions?.....”的請求上鼠標右鍵選擇Copy→Copy as cURL。
　　

　　然后訪(fǎng)問(wèn)，將復制的cURL填進(jìn)去即可自動(dòng)生成Python代碼。再將生成的代碼復制出來(lái)，在PyCharm中復制進(jìn)去。
　　4、修改代碼，實(shí)現復用。
　　在測試當中，我將一些不必要的參數刪除最終只需三個(gè)參數、幾行代碼即可實(shí)現。
　　import requests
　　keyword = str(input('請輸入關(guān)鍵字：'))
　　headers = {
　　'Accept': 'application/json, text/javascript, */*; q=0.01',
　　'Referer': '',
　　'Origin': '',
　　'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',}
　　params = (
　　('mid', 'ATVPDKIKX0DER'),
　　('alias', 'aps'),
　　('prefix',keyword),)
　　response = requests.get('', headers=headers, params=params)
　　suggestions = response.json()['suggestions']
　　for i in suggestions:
　　value = i['value']
　　print(value)
　　當然這幾行代碼只能實(shí)現單個(gè)關(guān)鍵詞熱搜詞的采集，我們可以將關(guān)鍵字批量的寫(xiě)入然后挨個(gè)的請求即可實(shí)現批量采集的目的。
　　在這里技術(shù)小哥哥已經(jīng)將這個(gè)功能封裝為一個(gè)小工具，只需將關(guān)鍵字寫(xiě)入到表格當中即可批量采集！
　　

　　文末大福利
　　大家只需轉發(fā)此篇文章到自己的朋友圈后，添加下方小哥哥微信，截圖給到他就可以給到大家免費使用！
　　

　　更有Reviews采集、QA采集、僵尸采集、跟賣(mài)提醒等工具,歡迎隨時(shí)開(kāi)撩獲得更多工具！
　　

　　▼往期精彩文章▼
　　在看點(diǎn)這里
　　

批量采集百度新聞源比較好的方法是怎樣的？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 481 次瀏覽 ? 2022-06-15 15:00 ? 來(lái)自相關(guān)話(huà)題

　　批量采集百度新聞源比較好的方法是怎樣的？
　　通過(guò)關(guān)鍵詞采集文章采集api接口，可以一鍵下載所有網(wǎng)站的歷史采集文章。點(diǎn)我的，在文章詳情頁(yè)開(kāi)放下載。
　　批量采集百度新聞源比較好的方法是利用python的爬蟲(chóng)框架beautifulsoup。專(zhuān)業(yè)的爬蟲(chóng)框架性能很強，可以持續處理大量新聞文章，可以用python中的requests庫很方便地進(jìn)行抓取。分析格式并提取重點(diǎn)內容，這樣可以提高工作效率。
　　網(wǎng)站基本上都是依賴(lài)于一個(gè)網(wǎng)站公共分發(fā)機制，國內一般是搜索引擎，谷歌或者百度，國外的yahoo,google,還有就是分發(fā)機制定義比較松的bbs，qq群等等。這些機制都可以實(shí)現很好的數據采集。如果想更高效，可以試試下面的方法。1.采用量化研究工具（量化平臺）進(jìn)行手動(dòng)分析研究。例如hitsurf,ctat等等。
　　采用tushare庫。（tushare，起源于阿里的數據服務(wù)商，我個(gè)人建議數據服務(wù)商，不是數據個(gè)人。數據個(gè)人最好不要去搞數據交易）需要下載穩定性不高，找其他機構代理會(huì )快些。2.利用分布式爬蟲(chóng)工具，（我目前用的是baeka)來(lái)采集快速生成excel數據集，很方便解決采集的依賴(lài)問(wèn)題。3.其他，主要是如果你的網(wǎng)站或者公司內部自己有流量進(jìn)行傳播（自己配個(gè)小型機或者大型機，找一個(gè)收費成熟的交易軟件，采個(gè)程序化交易，就搞定了），可以試試進(jìn)行私募類(lèi)的數據挖掘，他們一般都會(huì )自己找大數據產(chǎn)品進(jìn)行分析，私募數據庫什么的，都可以進(jìn)行數據挖掘，另外其他的大數據服務(wù)商也可以進(jìn)行分析。查看全部

　　批量采集百度新聞源比較好的方法是怎樣的？
　　通過(guò)關(guān)鍵詞采集文章采集api接口，可以一鍵下載所有網(wǎng)站的歷史采集文章。點(diǎn)我的，在文章詳情頁(yè)開(kāi)放下載。
　　批量采集百度新聞源比較好的方法是利用python的爬蟲(chóng)框架beautifulsoup。專(zhuān)業(yè)的爬蟲(chóng)框架性能很強，可以持續處理大量新聞文章，可以用python中的requests庫很方便地進(jìn)行抓取。分析格式并提取重點(diǎn)內容，這樣可以提高工作效率。
　　網(wǎng)站基本上都是依賴(lài)于一個(gè)網(wǎng)站公共分發(fā)機制，國內一般是搜索引擎，谷歌或者百度，國外的yahoo,google,還有就是分發(fā)機制定義比較松的bbs，qq群等等。這些機制都可以實(shí)現很好的數據采集。如果想更高效，可以試試下面的方法。1.采用量化研究工具（量化平臺）進(jìn)行手動(dòng)分析研究。例如hitsurf,ctat等等。
　　采用tushare庫。（tushare，起源于阿里的數據服務(wù)商，我個(gè)人建議數據服務(wù)商，不是數據個(gè)人。數據個(gè)人最好不要去搞數據交易）需要下載穩定性不高，找其他機構代理會(huì )快些。2.利用分布式爬蟲(chóng)工具，（我目前用的是baeka)來(lái)采集快速生成excel數據集，很方便解決采集的依賴(lài)問(wèn)題。3.其他，主要是如果你的網(wǎng)站或者公司內部自己有流量進(jìn)行傳播（自己配個(gè)小型機或者大型機，找一個(gè)收費成熟的交易軟件，采個(gè)程序化交易，就搞定了），可以試試進(jìn)行私募類(lèi)的數據挖掘，他們一般都會(huì )自己找大數據產(chǎn)品進(jìn)行分析，私募數據庫什么的，都可以進(jìn)行數據挖掘，另外其他的大數據服務(wù)商也可以進(jìn)行分析。

如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-06-07 09:01 ? 來(lái)自相關(guān)話(huà)題

　　如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？
　　通過(guò)關(guān)鍵詞采集文章采集api接口獲取互聯(lián)網(wǎng)上當前最熱門(mén)和有用的項目相關(guān)的api接口如果你了解抓取api，并能很容易構建一個(gè)爬蟲(chóng)，那么你可以理解執行python代碼。在這篇文章中，我們將討論如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具。你可以使用python創(chuàng )建主題，郵件爬蟲(chóng)，課程，醫療記錄等任何任務(wù)的api請求。
　　1.采集郵件如果你正在給客戶(hù)發(fā)送信息，現在可以在大多數商業(yè)網(wǎng)站上看到的郵件中執行基本的多線(xiàn)程測試(圖1)。如果正好在發(fā)送電子郵件時(shí)正好被信息的一方占用，那么你就不會(huì )再抓取。根據郵件方的要求，定義合適的斷點(diǎn)續傳支持。如果在多線(xiàn)程測試之間有連接，那么你應該為每個(gè)返回分配權重值。有關(guān)設置這些權重值的信息在代碼中總是可以獲取。
　　這不僅使你可以構建一個(gè)純python的庫，還使你能夠減少對調用web接口的應用程序的一些限制。即使在gpu上執行這些，單純的字符串也可以執行超過(guò)14k的數據檢索，也可以防止電子郵件數據丟失或數據過(guò)載。2.抓取郵件api接口抓取api數據是所有數據爬蟲(chóng)任務(wù)的起點(diǎn)，大多數數據爬蟲(chóng)項目都是從搜索引擎或爬蟲(chóng)中執行的。
　　python提供了爬蟲(chóng)解決方案，但你不需要改變。你可以創(chuàng )建高效的python函數，根據要求抓取數據?？偨Y了對不同公司發(fā)送的“聚合數據”api的抓取工作，并詳細列出了各個(gè)公司內部api列表。請注意，用來(lái)抓取這些結果的代碼是不需要加鎖的，并且執行率較高。請注意，缺乏requests請求的一個(gè)自然原因是使用pythonpandas庫。
　　更好的是，有javascript代碼來(lái)完成抓取工作，但僅限于javascript，也就是動(dòng)態(tài)資源。3.抓取郵件api接口這可能是你最期待的日常任務(wù)之一。除了查看信息之外，你將收到一個(gè)簡(jiǎn)短的回復（僅要求轉發(fā)）。這項任務(wù)很有可能是最重要的，你的公司需要將最重要的信息推送給大眾媒體。我們總是能知道數以百萬(wàn)計的人都被他們的客戶(hù)或潛在客戶(hù)的郵件騷擾過(guò)。
　　然而，向所有普通人發(fā)送他們所需的郵件并不容易。因此，允許爬蟲(chóng)成為最簡(jiǎn)單的抓取策略，無(wú)需特定的機器學(xué)習推薦工具或應用程序。在本文中，我們將解釋如何抓取自動(dòng)定義的或經(jīng)過(guò)修改的接口。4.抓取醫療記錄將醫療記錄（人工處理的，如hcg）發(fā)送給用戶(hù)，用戶(hù)可以在自己的醫療記錄庫中查看所有對應的醫生或其他醫院記錄。這是一個(gè)非常有趣的任務(wù)，所以創(chuàng )建一個(gè)api或請求(requests或twitter）對很重要。
　　如果hcg數據被刪除或存儲在不合適的服務(wù)器上，就會(huì )失敗。5.抓取api接口將python爬蟲(chóng)程序構建到excel中總是令人驚訝的。它們在任何地方。查看全部

　　如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具？
　　通過(guò)關(guān)鍵詞采集文章采集api接口獲取互聯(lián)網(wǎng)上當前最熱門(mén)和有用的項目相關(guān)的api接口如果你了解抓取api，并能很容易構建一個(gè)爬蟲(chóng)，那么你可以理解執行python代碼。在這篇文章中，我們將討論如何在執行python代碼時(shí)創(chuàng )建強大的機器學(xué)習工具。你可以使用python創(chuàng )建主題，郵件爬蟲(chóng)，課程，醫療記錄等任何任務(wù)的api請求。
　　1.采集郵件如果你正在給客戶(hù)發(fā)送信息，現在可以在大多數商業(yè)網(wǎng)站上看到的郵件中執行基本的多線(xiàn)程測試(圖1)。如果正好在發(fā)送電子郵件時(shí)正好被信息的一方占用，那么你就不會(huì )再抓取。根據郵件方的要求，定義合適的斷點(diǎn)續傳支持。如果在多線(xiàn)程測試之間有連接，那么你應該為每個(gè)返回分配權重值。有關(guān)設置這些權重值的信息在代碼中總是可以獲取。
　　這不僅使你可以構建一個(gè)純python的庫，還使你能夠減少對調用web接口的應用程序的一些限制。即使在gpu上執行這些，單純的字符串也可以執行超過(guò)14k的數據檢索，也可以防止電子郵件數據丟失或數據過(guò)載。2.抓取郵件api接口抓取api數據是所有數據爬蟲(chóng)任務(wù)的起點(diǎn)，大多數數據爬蟲(chóng)項目都是從搜索引擎或爬蟲(chóng)中執行的。
　　python提供了爬蟲(chóng)解決方案，但你不需要改變。你可以創(chuàng )建高效的python函數，根據要求抓取數據?？偨Y了對不同公司發(fā)送的“聚合數據”api的抓取工作，并詳細列出了各個(gè)公司內部api列表。請注意，用來(lái)抓取這些結果的代碼是不需要加鎖的，并且執行率較高。請注意，缺乏requests請求的一個(gè)自然原因是使用pythonpandas庫。
　　更好的是，有javascript代碼來(lái)完成抓取工作，但僅限于javascript，也就是動(dòng)態(tài)資源。3.抓取郵件api接口這可能是你最期待的日常任務(wù)之一。除了查看信息之外，你將收到一個(gè)簡(jiǎn)短的回復（僅要求轉發(fā)）。這項任務(wù)很有可能是最重要的，你的公司需要將最重要的信息推送給大眾媒體。我們總是能知道數以百萬(wàn)計的人都被他們的客戶(hù)或潛在客戶(hù)的郵件騷擾過(guò)。
　　然而，向所有普通人發(fā)送他們所需的郵件并不容易。因此，允許爬蟲(chóng)成為最簡(jiǎn)單的抓取策略，無(wú)需特定的機器學(xué)習推薦工具或應用程序。在本文中，我們將解釋如何抓取自動(dòng)定義的或經(jīng)過(guò)修改的接口。4.抓取醫療記錄將醫療記錄（人工處理的，如hcg）發(fā)送給用戶(hù)，用戶(hù)可以在自己的醫療記錄庫中查看所有對應的醫生或其他醫院記錄。這是一個(gè)非常有趣的任務(wù)，所以創(chuàng )建一個(gè)api或請求(requests或twitter）對很重要。
　　如果hcg數據被刪除或存儲在不合適的服務(wù)器上，就會(huì )失敗。5.抓取api接口將python爬蟲(chóng)程序構建到excel中總是令人驚訝的。它們在任何地方。

Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 376 次瀏覽 ? 2022-06-05 13:10 ? 來(lái)自相關(guān)話(huà)題

　　Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）
　　
　　本書(shū)實(shí)踐性強、有豐富的案例、干貨多，學(xué)生喜歡。PPT、代碼和視頻配套教學(xué)和學(xué)習資料的獲取方法如下：
　　1、教學(xué)用的PPT
　　下載鏈接（網(wǎng)盤(pán)）: 提取碼: 5c4y （如果鏈接失效，請轉至留言處獲得最新下載方法）
　　分別對應于書(shū)的章節，共有12個(gè)PPT。
　　PPT1：大數據采集的重要性、技術(shù)體系、爬蟲(chóng)合規性、應用現狀以及技術(shù)發(fā)展趨勢等。
　　PPT2：相關(guān)基礎技術(shù)和方法，包括HTML語(yǔ)言規范、頁(yè)面編碼體系與規范、以及廣泛用于Web頁(yè)面簡(jiǎn)單信息提取的正則表達式。
　　PPT3: Web應用架構技術(shù)，包括Web服務(wù)器應用架構、HTTP協(xié)議、狀態(tài)保持技術(shù)、Robots協(xié)議等與爬蟲(chóng)密切相關(guān)的技術(shù)。
　　PPT4: 普通爬蟲(chóng)頁(yè)面采集技術(shù)，包括Web服務(wù)器連接、爬蟲(chóng)策略、超鏈接處理及Python的實(shí)現。
　　PPT5: 動(dòng)態(tài)爬蟲(chóng)的相關(guān)技術(shù)，包括動(dòng)態(tài)頁(yè)面內容生成、交互、動(dòng)態(tài)頁(yè)面采集的若干種典型方法和Python實(shí)現技術(shù)。
　　PPT6: 從Web頁(yè)面提取信息所需要的技術(shù)，介紹了技術(shù)原理和典型的開(kāi)源技術(shù)。
　　PPT7: 主題爬蟲(chóng)技術(shù)及實(shí)現方法，涉及主題爬蟲(chóng)的技術(shù)體系、主題表示和建模、主題相似度計算等。
　　PPT8: 關(guān)于DeepWeb的數據采集技術(shù)及實(shí)現。
　　PPT9: 微博信息采集方法及實(shí)現，包括通過(guò)API獲取微博信息和通過(guò)爬蟲(chóng)技術(shù)獲取微博信息兩種方法。
　　PPT10: 反爬蟲(chóng)的常用技術(shù)，同時(shí)也介紹了針對這些反爬蟲(chóng)技術(shù)的一些主要應對措施。
　　PPT11: 大數據采集應用對非結構化文本的處理技術(shù)，包括文本的預處理、文本分類(lèi)、主題建模、大數據可視化技術(shù)以及一些開(kāi)源工具等。
　　PPT12: 兩個(gè)案例（新聞閱讀器、SQL注入的爬蟲(chóng)監測）
　　2、相關(guān)Python代碼
　　具體下載地址見(jiàn)書(shū)本的附錄A，包含了以下例子。
　　Prog-1-error-handle.py 爬蟲(chóng)的錯誤處理方法
　　Prog-2-hyper-link-extraction.py 超鏈接提取方法
　　prog-3-robotparser-demo.py Robots協(xié)議文件解析
　　Prog-4-cookie-demo.py 在爬蟲(chóng)中使用Cookie
　　Prog-5-HTMLParser-test.py 使用HTMLParser進(jìn)行頁(yè)面解析
　　Prog-6-lxml-test.py 使用lxml進(jìn)行頁(yè)面解析
　　Prog-7-bs-sinanews.py 使用BeautifulSoup進(jìn)行新聞頁(yè)面解析
　　Prog-8-html5lib-test.py 使用html5lib進(jìn)行頁(yè)面解析
　　Prog-9-pyquery-sinanews.py 使用Pyquery進(jìn)行新聞頁(yè)面解析
　　Prog-10-topic-pages.py 主題爬蟲(chóng)
　　Prog-11-book-info.py 圖書(shū)DeepWeb爬蟲(chóng)
　　Prog-12-weiboUserInfo.py 微博用戶(hù)信息采集
　　Prog-13-weiboMsgInfo.py 微博博文信息采集
　　Prog-14-doc-vectors.py 文檔向量空間模型構建
　　Prog-15-train-classifier.py 訓練分類(lèi)器
　　Prog-16-classify.py 使用SVM進(jìn)行分類(lèi)
　　Prog-17-LDA-sklearn.py LDA模型的Python實(shí)現
　　Prog-18-LDA-gensim.py LDA模型的Python實(shí)現
　　Prog-19-matplotlib-examples.py matplotlib的使用
　　Prog-20-wordcloud-example.py wordcloud的使用
　　Prog-21-sinaNewsSpider.py 新浪新聞采集與提取
　　Prog-22-KeywordCloud.py 新聞閱讀器的關(guān)鍵詞輸出
　　Prog-23-LDAnewsTopic.py 新聞主題發(fā)現
　　Prog-24-check.py 使用爬蟲(chóng)進(jìn)行SQL注入安全監測
　　crawler-strategy 4.4.2的完整程序，爬蟲(chóng)策略
　　classify 11.3的例子，包含訓練數據、測試數據
　　app-1 12.2的樣例
　　LDA 11.4的例子
　　sqlijnect 12.3的例子
　　3、視頻
　　300分鐘的講課視頻，可以直接手機掃書(shū)中的二維碼，即可觀(guān)看。
　　4、相關(guān)拓展閱讀
　　本公眾號不定期推送與《Python爬蟲(chóng)大數據采集與挖掘》、《互聯(lián)網(wǎng)大數據處理技術(shù)與應用》相關(guān)的文章，是作者在相關(guān)領(lǐng)域教學(xué)科研中的一些資料，可以加深對書(shū)中一些問(wèn)題的理解。部分推送的文章有：
　　爬蟲(chóng)應用案例
　　爬蟲(chóng)技術(shù)
　　大數據技術(shù)
　　模型與算法
　　更多文章可進(jìn)入本公眾號歷史消息閱讀。
　　查看全部

　　Python爬蟲(chóng)大數據采集與挖掘（PPT、代碼、視頻）
　　

　　本書(shū)實(shí)踐性強、有豐富的案例、干貨多，學(xué)生喜歡。PPT、代碼和視頻配套教學(xué)和學(xué)習資料的獲取方法如下：
　　1、教學(xué)用的PPT
　　下載鏈接（網(wǎng)盤(pán)）: 提取碼: 5c4y （如果鏈接失效，請轉至留言處獲得最新下載方法）
　　分別對應于書(shū)的章節，共有12個(gè)PPT。
　　PPT1：大數據采集的重要性、技術(shù)體系、爬蟲(chóng)合規性、應用現狀以及技術(shù)發(fā)展趨勢等。
　　PPT2：相關(guān)基礎技術(shù)和方法，包括HTML語(yǔ)言規范、頁(yè)面編碼體系與規范、以及廣泛用于Web頁(yè)面簡(jiǎn)單信息提取的正則表達式。
　　PPT3: Web應用架構技術(shù)，包括Web服務(wù)器應用架構、HTTP協(xié)議、狀態(tài)保持技術(shù)、Robots協(xié)議等與爬蟲(chóng)密切相關(guān)的技術(shù)。
　　PPT4: 普通爬蟲(chóng)頁(yè)面采集技術(shù)，包括Web服務(wù)器連接、爬蟲(chóng)策略、超鏈接處理及Python的實(shí)現。
　　PPT5: 動(dòng)態(tài)爬蟲(chóng)的相關(guān)技術(shù)，包括動(dòng)態(tài)頁(yè)面內容生成、交互、動(dòng)態(tài)頁(yè)面采集的若干種典型方法和Python實(shí)現技術(shù)。
　　PPT6: 從Web頁(yè)面提取信息所需要的技術(shù)，介紹了技術(shù)原理和典型的開(kāi)源技術(shù)。
　　PPT7: 主題爬蟲(chóng)技術(shù)及實(shí)現方法，涉及主題爬蟲(chóng)的技術(shù)體系、主題表示和建模、主題相似度計算等。
　　PPT8: 關(guān)于DeepWeb的數據采集技術(shù)及實(shí)現。
　　PPT9: 微博信息采集方法及實(shí)現，包括通過(guò)API獲取微博信息和通過(guò)爬蟲(chóng)技術(shù)獲取微博信息兩種方法。
　　PPT10: 反爬蟲(chóng)的常用技術(shù)，同時(shí)也介紹了針對這些反爬蟲(chóng)技術(shù)的一些主要應對措施。
　　PPT11: 大數據采集應用對非結構化文本的處理技術(shù)，包括文本的預處理、文本分類(lèi)、主題建模、大數據可視化技術(shù)以及一些開(kāi)源工具等。
　　PPT12: 兩個(gè)案例（新聞閱讀器、SQL注入的爬蟲(chóng)監測）
　　2、相關(guān)Python代碼
　　具體下載地址見(jiàn)書(shū)本的附錄A，包含了以下例子。
　　Prog-1-error-handle.py 爬蟲(chóng)的錯誤處理方法
　　Prog-2-hyper-link-extraction.py 超鏈接提取方法
　　prog-3-robotparser-demo.py Robots協(xié)議文件解析
　　Prog-4-cookie-demo.py 在爬蟲(chóng)中使用Cookie
　　Prog-5-HTMLParser-test.py 使用HTMLParser進(jìn)行頁(yè)面解析
　　Prog-6-lxml-test.py 使用lxml進(jìn)行頁(yè)面解析
　　Prog-7-bs-sinanews.py 使用BeautifulSoup進(jìn)行新聞頁(yè)面解析
　　Prog-8-html5lib-test.py 使用html5lib進(jìn)行頁(yè)面解析
　　Prog-9-pyquery-sinanews.py 使用Pyquery進(jìn)行新聞頁(yè)面解析
　　Prog-10-topic-pages.py 主題爬蟲(chóng)
　　Prog-11-book-info.py 圖書(shū)DeepWeb爬蟲(chóng)
　　Prog-12-weiboUserInfo.py 微博用戶(hù)信息采集
　　Prog-13-weiboMsgInfo.py 微博博文信息采集
　　Prog-14-doc-vectors.py 文檔向量空間模型構建
　　Prog-15-train-classifier.py 訓練分類(lèi)器
　　Prog-16-classify.py 使用SVM進(jìn)行分類(lèi)
　　Prog-17-LDA-sklearn.py LDA模型的Python實(shí)現
　　Prog-18-LDA-gensim.py LDA模型的Python實(shí)現
　　Prog-19-matplotlib-examples.py matplotlib的使用
　　Prog-20-wordcloud-example.py wordcloud的使用
　　Prog-21-sinaNewsSpider.py 新浪新聞采集與提取
　　Prog-22-KeywordCloud.py 新聞閱讀器的關(guān)鍵詞輸出
　　Prog-23-LDAnewsTopic.py 新聞主題發(fā)現
　　Prog-24-check.py 使用爬蟲(chóng)進(jìn)行SQL注入安全監測
　　crawler-strategy 4.4.2的完整程序，爬蟲(chóng)策略
　　classify 11.3的例子，包含訓練數據、測試數據
　　app-1 12.2的樣例
　　LDA 11.4的例子
　　sqlijnect 12.3的例子
　　3、視頻
　　300分鐘的講課視頻，可以直接手機掃書(shū)中的二維碼，即可觀(guān)看。
　　4、相關(guān)拓展閱讀
　　本公眾號不定期推送與《Python爬蟲(chóng)大數據采集與挖掘》、《互聯(lián)網(wǎng)大數據處理技術(shù)與應用》相關(guān)的文章，是作者在相關(guān)領(lǐng)域教學(xué)科研中的一些資料，可以加深對書(shū)中一些問(wèn)題的理解。部分推送的文章有：
　　爬蟲(chóng)應用案例
　　爬蟲(chóng)技術(shù)
　　大數據技術(shù)
　　模型與算法
　　更多文章可進(jìn)入本公眾號歷史消息閱讀。
　　

通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-06-03 20:04 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章
　　通過(guò)關(guān)鍵詞采集文章采集apis，實(shí)現定時(shí)自動(dòng)抓取以前的博客文章。抓取網(wǎng)站一般是搜狐，知乎，豆瓣等已經(jīng)被關(guān)閉，但是依然有部分站點(diǎn)可以正常抓取該站點(diǎn)文章，可以根據頁(yè)面定期采集，定時(shí)刪除。自動(dòng)排版預覽通過(guò)開(kāi)源模塊simpui，實(shí)現自動(dòng)排版預覽?？梢愿鶕枰远x自動(dòng)排版效果。
　　uc采集，我用的volley。
　　如果你不愿意花錢(qián)買(mǎi)采集器的話(huà)，還是先通過(guò)博客大巴之類(lèi)的網(wǎng)站檢索到該博客所有者，建議寫(xiě)代碼定時(shí)爬取，再統一壓縮下，然后再采集就好了。我就是這么做的。
　　寫(xiě)爬蟲(chóng)，然后定時(shí)檢查爬取效果，
　　最簡(jiǎn)單的：定期檢查網(wǎng)站的中英文文章是否同步更新
　　需要用到的socketclient，每天自動(dòng)爬出本小時(shí)新文章。
　　寫(xiě)一個(gè)爬蟲(chóng)程序，每小時(shí)爬出來(lái)最新的，1000篇以?xún)鹊?，然后選出400篇。
　　翻墻，然后被墻，
　　你太高估自己，
　　給你自己，自己去慢慢找。
　　使用谷歌的proxy翻墻接口，打開(kāi)翻墻接口后，可以直接抓取站點(diǎn)頁(yè)面，然后使用postman或fiddler等抓包工具，可以獲取http協(xié)議本地代碼，然后解析抓取到的http代碼解析相應的html代碼，
　　可以使用國內的知乎網(wǎng) 查看全部

　　通過(guò)關(guān)鍵詞采集文章采集apis實(shí)現定時(shí)自動(dòng)抓取以前的博客文章
　　通過(guò)關(guān)鍵詞采集文章采集apis，實(shí)現定時(shí)自動(dòng)抓取以前的博客文章。抓取網(wǎng)站一般是搜狐，知乎，豆瓣等已經(jīng)被關(guān)閉，但是依然有部分站點(diǎn)可以正常抓取該站點(diǎn)文章，可以根據頁(yè)面定期采集，定時(shí)刪除。自動(dòng)排版預覽通過(guò)開(kāi)源模塊simpui，實(shí)現自動(dòng)排版預覽?？梢愿鶕枰远x自動(dòng)排版效果。
　　uc采集，我用的volley。
　　如果你不愿意花錢(qián)買(mǎi)采集器的話(huà)，還是先通過(guò)博客大巴之類(lèi)的網(wǎng)站檢索到該博客所有者，建議寫(xiě)代碼定時(shí)爬取，再統一壓縮下，然后再采集就好了。我就是這么做的。
　　寫(xiě)爬蟲(chóng)，然后定時(shí)檢查爬取效果，
　　最簡(jiǎn)單的：定期檢查網(wǎng)站的中英文文章是否同步更新
　　需要用到的socketclient，每天自動(dòng)爬出本小時(shí)新文章。
　　寫(xiě)一個(gè)爬蟲(chóng)程序，每小時(shí)爬出來(lái)最新的，1000篇以?xún)鹊?，然后選出400篇。
　　翻墻，然后被墻，
　　你太高估自己，
　　給你自己，自己去慢慢找。
　　使用谷歌的proxy翻墻接口，打開(kāi)翻墻接口后，可以直接抓取站點(diǎn)頁(yè)面，然后使用postman或fiddler等抓包工具，可以獲取http協(xié)議本地代碼，然后解析抓取到的http代碼解析相應的html代碼，
　　可以使用國內的知乎網(wǎng)

如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2022-05-27 21:01 ? 來(lái)自相關(guān)話(huà)題

　　如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？
　　通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送，
　　我也想知道這個(gè)
　　微信公眾號公開(kāi)課應該是可以獲取到api的，
　　我記得以前看到過(guò)一個(gè)像辦法，然后寫(xiě)了個(gè)輪子：利用python爬取某公眾號文章。
　　既然最近有興趣，那就說(shuō)一點(diǎn)，能把一篇大學(xué)生講座做成文章，難道不應該找到利益相關(guān)的人發(fā)布么，比如大學(xué)生賽事、論壇、組織，
　　聽(tīng)大學(xué)生講座也分不同類(lèi)型和主題的，可以分別采集到，有的自動(dòng)推送，有的需要你手動(dòng)推送，然后去賺作者辛苦的稿費吧，三百五百千字成本不高的，只要符合要求會(huì )推送就行，如果做到了，或許可以幫助作者排版，編輯更好地發(fā)出來(lái)，這樣也是可以的，和上面所說(shuō)的做輪子一樣。只是做一個(gè)可以推送的api，通過(guò)分析每篇文章的數據，然后進(jìn)行篩選、提取，進(jìn)而合并同類(lèi)文章的一個(gè)api。
　　可以嘗試api服務(wù)，比如一些校園app都有的對外提供微信服務(wù)號的api，登錄和關(guān)注等操作，前提是你要有一些帳號。
　　還是你一個(gè)人想想吧，
　　現在通過(guò)廣播軟件+關(guān)鍵詞+微信公眾號文章抓取，還可以搞量化和基金管理都可以。
　　現在市面上很多家都在做這個(gè)服務(wù)，需要注意的是，國內這方面產(chǎn)品分的比較明確，商業(yè)目的性強的會(huì )在這方面設置一些約束條件，比如不讓發(fā)電腦版公眾號，就是怕你玩文章了，一般都是小公司還在做這個(gè)。商業(yè)目的性弱的，會(huì )比較隨意，看看別人介紹什么的，你可以先大概了解一下別人的文章介紹啊。還有就是千萬(wàn)別信那些直接幫你抓取公眾號文章的，沒(méi)有一定用戶(hù)量的公眾號是不會(huì )輕易讓你抓的，比如你掃碼發(fā)送一個(gè)鏈接都算抓的，有人用微信抓了第一篇公眾號文章就不給你推送了。查看全部

　　如何通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送？
　　通過(guò)關(guān)鍵詞采集文章采集api接口+自動(dòng)推送，
　　我也想知道這個(gè)
　　微信公眾號公開(kāi)課應該是可以獲取到api的，
　　我記得以前看到過(guò)一個(gè)像辦法，然后寫(xiě)了個(gè)輪子：利用python爬取某公眾號文章。
　　既然最近有興趣，那就說(shuō)一點(diǎn)，能把一篇大學(xué)生講座做成文章，難道不應該找到利益相關(guān)的人發(fā)布么，比如大學(xué)生賽事、論壇、組織，
　　聽(tīng)大學(xué)生講座也分不同類(lèi)型和主題的，可以分別采集到，有的自動(dòng)推送，有的需要你手動(dòng)推送，然后去賺作者辛苦的稿費吧，三百五百千字成本不高的，只要符合要求會(huì )推送就行，如果做到了，或許可以幫助作者排版，編輯更好地發(fā)出來(lái)，這樣也是可以的，和上面所說(shuō)的做輪子一樣。只是做一個(gè)可以推送的api，通過(guò)分析每篇文章的數據，然后進(jìn)行篩選、提取，進(jìn)而合并同類(lèi)文章的一個(gè)api。
　　可以嘗試api服務(wù)，比如一些校園app都有的對外提供微信服務(wù)號的api，登錄和關(guān)注等操作，前提是你要有一些帳號。
　　還是你一個(gè)人想想吧，
　　現在通過(guò)廣播軟件+關(guān)鍵詞+微信公眾號文章抓取，還可以搞量化和基金管理都可以。
　　現在市面上很多家都在做這個(gè)服務(wù)，需要注意的是，國內這方面產(chǎn)品分的比較明確，商業(yè)目的性強的會(huì )在這方面設置一些約束條件，比如不讓發(fā)電腦版公眾號，就是怕你玩文章了，一般都是小公司還在做這個(gè)。商業(yè)目的性弱的，會(huì )比較隨意，看看別人介紹什么的，你可以先大概了解一下別人的文章介紹啊。還有就是千萬(wàn)別信那些直接幫你抓取公眾號文章的，沒(méi)有一定用戶(hù)量的公眾號是不會(huì )輕易讓你抓的，比如你掃碼發(fā)送一個(gè)鏈接都算抓的，有人用微信抓了第一篇公眾號文章就不給你推送了。

通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-05-27 02:00 ? 來(lái)自相關(guān)話(huà)題

　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷
　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集字段對標題，作者，頁(yè)碼進(jìn)行判斷，選擇相關(guān)的文章標題，
　　這個(gè)我有朋友幫我搞定過(guò)，他是用爬蟲(chóng)抓取某網(wǎng)站的數據，然后導入到googlecache，當爬取到數據后傳到他們自己的服務(wù)器。
　　我也想知道，感覺(jué)我們做的不是一種東西，
　　看這個(gè)就知道了，
　　難道沒(méi)人用123hosting這個(gè)數據采集工具嗎？我相信應該有人會(huì )用他。
　　googleseo?
　　如果你說(shuō)的是googleseo優(yōu)化工具的話(huà)，
　　googleseo。比如百度蜘蛛挖掘網(wǎng)站內容。百度seoengine收錄網(wǎng)站內容。
　　我不是來(lái)推銷(xiāo)工具的==。用不同工具最大區別就是代碼管理。如果你真的想做好seo我建議從第三方代碼集中心下個(gè)采集器開(kāi)始入門(mén)。
　　就看能否做到各方面統一吧，否則肯定只是局部做好，平衡點(diǎn)就比較難。比如說(shuō)給你個(gè)圖你只能關(guān)注最頂端的20個(gè)字，給你個(gè)二維碼只能看到最后二維碼的部分，你肯定做不到全部統一。所以的話(huà)最好統一一下，多用一些編輯器，建站工具，自動(dòng)化工具（畢竟是輔助的）如果嫌麻煩的話(huà)，用ext文件過(guò)濾工具，把那些不需要的字段去掉，可以采用js來(lái)做頁(yè)面也可以用markdown來(lái)寫(xiě)頁(yè)面（沒(méi)有ext那么高級）~看你更看重哪些了。查看全部

　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集對標題的判斷
　　通過(guò)關(guān)鍵詞采集文章采集api接口阿里巴巴采集字段對標題，作者，頁(yè)碼進(jìn)行判斷，選擇相關(guān)的文章標題，
　　這個(gè)我有朋友幫我搞定過(guò)，他是用爬蟲(chóng)抓取某網(wǎng)站的數據，然后導入到googlecache，當爬取到數據后傳到他們自己的服務(wù)器。
　　我也想知道，感覺(jué)我們做的不是一種東西，
　　看這個(gè)就知道了，
　　難道沒(méi)人用123hosting這個(gè)數據采集工具嗎？我相信應該有人會(huì )用他。
　　googleseo?
　　如果你說(shuō)的是googleseo優(yōu)化工具的話(huà)，
　　googleseo。比如百度蜘蛛挖掘網(wǎng)站內容。百度seoengine收錄網(wǎng)站內容。
　　我不是來(lái)推銷(xiāo)工具的==。用不同工具最大區別就是代碼管理。如果你真的想做好seo我建議從第三方代碼集中心下個(gè)采集器開(kāi)始入門(mén)。
　　就看能否做到各方面統一吧，否則肯定只是局部做好，平衡點(diǎn)就比較難。比如說(shuō)給你個(gè)圖你只能關(guān)注最頂端的20個(gè)字，給你個(gè)二維碼只能看到最后二維碼的部分，你肯定做不到全部統一。所以的話(huà)最好統一一下，多用一些編輯器，建站工具，自動(dòng)化工具（畢竟是輔助的）如果嫌麻煩的話(huà)，用ext文件過(guò)濾工具，把那些不需要的字段去掉，可以采用js來(lái)做頁(yè)面也可以用markdown來(lái)寫(xiě)頁(yè)面（沒(méi)有ext那么高級）~看你更看重哪些了。

移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 70 次瀏覽 ? 2022-05-24 18:00 ? 來(lái)自相關(guān)話(huà)題

　　移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html
　　通過(guò)關(guān)鍵詞采集文章采集api，
　　(#′)凸，目前瀏覽器沒(méi)有js可以直接從不靠任何api獲取文本的哦。網(wǎng)站也不可能不靠api獲取網(wǎng)頁(yè)內容的哦。就是要獲取網(wǎng)頁(yè)內容的話(huà)，不可能不用js的哦。比如你的問(wèn)題里面的這篇文章，就是用瀏覽器自帶的網(wǎng)頁(yè)抓取api抓下來(lái)的。
　　第一種你要是網(wǎng)頁(yè)開(kāi)發(fā)人員，第二種你懂開(kāi)發(fā)api，
　　ajax技術(shù)啊。不懂js在這兒瞎推薦。
　　自己不是每天要讀文章嗎？看看我的知乎專(zhuān)欄，每天讀點(diǎn)新知識吧。每天知乎送文章到你的手機中，
　　用第三方api就是兩種方式:1，自己寫(xiě)代碼。2，通過(guò)瀏覽器js。自己寫(xiě)代碼的話(huà)，基本上大部分api是沒(méi)什么問(wèn)題的，搞點(diǎn)原始字符串，一個(gè)http請求，基本可以實(shí)現普通文本到j(luò )son數據的轉換，獲取原始字符串。第二種方式的話(huà)，每天讀點(diǎn)新知識-精選最受歡迎的app、新聞、圖片及網(wǎng)站推薦，提供各種精彩文章分享。
　　websocket
　　國內你要找到支持js的
　　懂點(diǎn)js，jquery等。
　　移動(dòng)互聯(lián)網(wǎng)不用擔心？js你懂嗎？而且網(wǎng)站還是要生成html才能爬
　　基本上就是最開(kāi)始大家推薦的那些了，對于移動(dòng)互聯(lián)網(wǎng)，就算支持js的，如果不會(huì )寫(xiě)js，就是一頭霧水，查看全部

　　移動(dòng)互聯(lián)網(wǎng)不用擔心？你懂嗎？而且還是要生成html
　　通過(guò)關(guān)鍵詞采集文章采集api，
　　(#′)凸，目前瀏覽器沒(méi)有js可以直接從不靠任何api獲取文本的哦。網(wǎng)站也不可能不靠api獲取網(wǎng)頁(yè)內容的哦。就是要獲取網(wǎng)頁(yè)內容的話(huà)，不可能不用js的哦。比如你的問(wèn)題里面的這篇文章，就是用瀏覽器自帶的網(wǎng)頁(yè)抓取api抓下來(lái)的。
　　第一種你要是網(wǎng)頁(yè)開(kāi)發(fā)人員，第二種你懂開(kāi)發(fā)api，
　　ajax技術(shù)啊。不懂js在這兒瞎推薦。
　　自己不是每天要讀文章嗎？看看我的知乎專(zhuān)欄，每天讀點(diǎn)新知識吧。每天知乎送文章到你的手機中，
　　用第三方api就是兩種方式:1，自己寫(xiě)代碼。2，通過(guò)瀏覽器js。自己寫(xiě)代碼的話(huà)，基本上大部分api是沒(méi)什么問(wèn)題的，搞點(diǎn)原始字符串，一個(gè)http請求，基本可以實(shí)現普通文本到j(luò )son數據的轉換，獲取原始字符串。第二種方式的話(huà)，每天讀點(diǎn)新知識-精選最受歡迎的app、新聞、圖片及網(wǎng)站推薦，提供各種精彩文章分享。
　　websocket
　　國內你要找到支持js的
　　懂點(diǎn)js，jquery等。
　　移動(dòng)互聯(lián)網(wǎng)不用擔心？js你懂嗎？而且網(wǎng)站還是要生成html才能爬
　　基本上就是最開(kāi)始大家推薦的那些了，對于移動(dòng)互聯(lián)網(wǎng)，就算支持js的，如果不會(huì )寫(xiě)js，就是一頭霧水，

神策數據盛永根：微信生態(tài)——全數據采集和打通

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2022-05-11 04:18 ? 來(lái)自相關(guān)話(huà)題

　　神策數據盛永根：微信生態(tài)——全數據采集和打通
　　
　　
　　
　　本文根據神策數據盛永根《微信生態(tài)數字化運營(yíng)跨端數據采集方案》直播整理而得，本文的主要內容如下：
　　一、微信生態(tài)介紹
　　1. 微信公眾平臺
　　公眾平臺主要包含小程序、服務(wù)號、訂閱號和微信網(wǎng)頁(yè)。日常運營(yíng)都是在公眾平臺進(jìn)行，比如修改公眾號文章，上傳小程序等。
　　2. 微信開(kāi)放平臺
　　開(kāi)放平臺通常包含四個(gè)方面：
　　3. 微信
　　微信群聊、微信朋友圈、微信視頻號、微信收藏等，這些是微信本身自帶的功能。
　　4. 微信生態(tài)用戶(hù)信息
　　微信生態(tài)的數據打通，關(guān)鍵在用戶(hù)的 ID 是否打通。下面我們分析下微信生態(tài)用戶(hù)標識中常見(jiàn)的幾個(gè) ID 的概念：
　　二、微信生態(tài)數據采集
　　常見(jiàn)的微信生態(tài)的數據采集主要包括：公眾號的數據采集、微信內網(wǎng)頁(yè)數據采集、小程序和小游戲數據采集、微信本身的數據采集。
　　1. 公眾號的數據采集
　　公眾號分為服務(wù)號及訂閱號，簡(jiǎn)單列舉幾條不同點(diǎn)：
　　公眾號提供了如下接口：普通消息、事件推送、回復消息、群發(fā)消息、客服消息、模板消息、一次性訂閱消息、其它功能。
　　用戶(hù)在公眾號里輸入一條普通消息后，后端能接收到的文本消息數據如下圖左邊部分：
　　
　　此時(shí)使用神策 Java SDK 發(fā)送文本消息事件，代碼如上圖右半部分。
　　下面具體介紹微信公眾號可以采集的事件：
　　上面介紹了可采集的數據，同時(shí)還有幾個(gè)常用的運營(yíng)功能：
　　總結公眾號的數據采集，簡(jiǎn)單總結下：
　　2. 微信內網(wǎng)頁(yè)數據采集
　　微信網(wǎng)頁(yè)若沒(méi)有在公眾號里配置，就僅是一個(gè)瀏覽器打開(kāi)的傳統網(wǎng)頁(yè)，沒(méi)有微信的一些功能；但如果其在公眾號里進(jìn)行配置，可以實(shí)現兩個(gè)功能：
　　第一，可以使用神策的 Web JS SDK 去采集數據，跟傳統的瀏覽器打開(kāi)的網(wǎng)頁(yè)效果基本一致，但可能存在一些兼容性問(wèn)題。
　　在微信每個(gè)網(wǎng)頁(yè)的代碼中，加入神策的 Web JS SDK，即可采集以下事件，并可以做點(diǎn)擊分析和觸達率分析：
　　
　　第二，通過(guò)微信 JS SDK 增強微信數據采集。原理是，微信在 WebView 中通過(guò)注入 JSBridge 相關(guān)腳本，使得網(wǎng)頁(yè)擁有部分微信 App 的功能（這也就是所謂的 Hybrid 技術(shù)）。
　　只需要在微信各個(gè)網(wǎng)頁(yè)代碼中，加入微信 JS-SDK，就可以使用，但使用時(shí)需要在公眾號后臺中做設置：
　　微信的 JS-SDK 可以采集的事件：
　　常見(jiàn)的是微信的分享的事件，如果用戶(hù)觸發(fā)了分享。我們可以采集分享成功事件，屬性包括：頁(yè)面地址、分享標題、分享描述、分享鏈接、分享圖片。
　　除此之外還有如圖片、錄音、搖一搖、微信掃碼、微信支付等事件。
　　例如，在微信網(wǎng)頁(yè)里用戶(hù)也能夠像在 App 中一樣打開(kāi)圖片，并且進(jìn)行上傳和下載，在網(wǎng)頁(yè)里面還可以去錄音，這些都可以做為事件。
　　其次，微信的 JS-SDK 還可以采集到一些額外的屬性，如網(wǎng)絡(luò )的類(lèi)型（Wifi、3G、4G）、地理位置（經(jīng)度、緯度、地址詳情、縮放比例）、收貨地址（姓名、郵編、詳細地址、電話(huà)）等，這些屬性都是在傳統的網(wǎng)頁(yè)中無(wú)法獲取的。
　　簡(jiǎn)單總結微信網(wǎng)頁(yè)內數據采集：
　　3. 小程序和小游戲數據采集
　　有些人可能認為小游戲也是小程序，其實(shí)是不同的：
　　小程序和小游戲也有共同點(diǎn)：
　　小程序與網(wǎng)頁(yè)都屬于前端事件，一般建議使用 OpenID，但是 OpenID 需要一定開(kāi)發(fā)量，所以默認會(huì )使用 UUID。用戶(hù)登陸之后，同樣建議以一個(gè)真實(shí)的 ID 即 UserID 為準實(shí)現用戶(hù)關(guān)聯(lián)。
　　下面是使用神策微信小程序 SDK 和微信小游戲 SDK 后，共同可采集的預置事件：
　　上述事件不做任何操作都可以采集到的，即只需要使用 SDK 就可以。另外如果獲得用戶(hù)授權后，小程序還可以采集到更多事件屬性。
　　
　　用戶(hù)進(jìn)入小程序后會(huì )彈出一個(gè)授權的模板消息，用戶(hù)點(diǎn)擊允許后，就可以為用戶(hù)推送模板消息，可以跳轉至小程序具體詳情頁(yè)。其中模板消息分為單次與永久，一般情況下它與特定的行業(yè)模板相關(guān)。
　　單次的模板每次都需要用戶(hù)授權。永久的模板，比如小程序鎖車(chē)，這是特定行業(yè)的，沒(méi)有經(jīng)過(guò)授權也可以推送消息。小程序訂閱事件，屬性包含用戶(hù)信息（微信昵稱(chēng)、性別、頭像、城市等）、通訊地址（姓名、手機號、郵編）、發(fā)票、運動(dòng)步數屬性。
　　小程序訂閱消息的位置在微信號的服務(wù)通知里面，訂閱消息可以實(shí)現服務(wù)的閉環(huán)。比如說(shuō)用戶(hù)發(fā)生支付行為后，可以給用戶(hù)推一個(gè)鏈接消息，可以跳回到商場(chǎng)里看自己購買(mǎi)的商品，引導用戶(hù)完成閉環(huán)。
　　除了用戶(hù)打通，其實(shí)還包括渠道打通。小程序渠道，分為渠道場(chǎng)景值和渠道參數。
　　場(chǎng)景值是打開(kāi)小程序時(shí)候，API 能自動(dòng)獲取的，可以看用戶(hù)是從什么渠道跳轉到小程序，比如是掃碼過(guò)來(lái)的，從小程序跳轉過(guò)來(lái)的。
　　場(chǎng)景值只能大概判斷是從哪種方式打開(kāi)的，如果要精確到具體是哪個(gè)人，需要使用渠道參數。包括掃描普通鏈接二維碼、小程序碼、小程序二維碼、微信廣告跳轉、朋友圈和公眾號以及小程序的廣告等，都可以設置一個(gè)帶參數的 Path ，然后就可以解析出具體的參數。
　　總結小程序和小游戲的數據采集：
　　4. 微信數據采集
　　公眾號和小程序都有官方提供的接口去采集，但是微信沒(méi)有提供這樣的官方接口，微信機器人一般是通過(guò)模擬微信網(wǎng)頁(yè)版的接口來(lái)實(shí)現的，所以你也只能取到你在微信中所能看到的：微信號、微信昵稱(chēng)、聊天內容等信息。不過(guò)這里也可以做一些智能化的操作，通過(guò)神策的 ID 關(guān)聯(lián)功能，使得微信號和公眾號中 OpenID 進(jìn)行關(guān)聯(lián)綁定，可以實(shí)現自動(dòng)發(fā)微信消息。
　　三、各應用間的數據打通
　　1. 各應用使用的 ID 整理
　　微信公眾號是后端事件，建議使用 OpenID；微信網(wǎng)頁(yè)建議使用 OpenID，但實(shí)際默認 UUID，所以一般建議客戶(hù)關(guān)聯(lián) UserID；小程序和小游戲與微信網(wǎng)一樣，但是前者還會(huì )有一個(gè)后端事件，這個(gè)時(shí)候默認使用 OpenID。所以此時(shí)就存在多個(gè) ID。
　　而只有 ID 是一致的，才可以把用戶(hù)關(guān)聯(lián)起來(lái)。如果您使用的是神策的用戶(hù)關(guān)聯(lián)進(jìn)行打通，建議使用如下方式：
　　2. 渠道打通
　　3. 渠道間的互相跳轉查看全部

　　神策數據盛永根：微信生態(tài)——全數據采集和打通
　　

　　

　　

　　本文根據神策數據盛永根《微信生態(tài)數字化運營(yíng)跨端數據采集方案》直播整理而得，本文的主要內容如下：
　　一、微信生態(tài)介紹
　　1. 微信公眾平臺
　　公眾平臺主要包含小程序、服務(wù)號、訂閱號和微信網(wǎng)頁(yè)。日常運營(yíng)都是在公眾平臺進(jìn)行，比如修改公眾號文章，上傳小程序等。
　　2. 微信開(kāi)放平臺
　　開(kāi)放平臺通常包含四個(gè)方面：
　　3. 微信
　　微信群聊、微信朋友圈、微信視頻號、微信收藏等，這些是微信本身自帶的功能。
　　4. 微信生態(tài)用戶(hù)信息
　　微信生態(tài)的數據打通，關(guān)鍵在用戶(hù)的 ID 是否打通。下面我們分析下微信生態(tài)用戶(hù)標識中常見(jiàn)的幾個(gè) ID 的概念：
　　二、微信生態(tài)數據采集
　　常見(jiàn)的微信生態(tài)的數據采集主要包括：公眾號的數據采集、微信內網(wǎng)頁(yè)數據采集、小程序和小游戲數據采集、微信本身的數據采集。
　　1. 公眾號的數據采集
　　公眾號分為服務(wù)號及訂閱號，簡(jiǎn)單列舉幾條不同點(diǎn)：
　　公眾號提供了如下接口：普通消息、事件推送、回復消息、群發(fā)消息、客服消息、模板消息、一次性訂閱消息、其它功能。
　　用戶(hù)在公眾號里輸入一條普通消息后，后端能接收到的文本消息數據如下圖左邊部分：
　　

　　此時(shí)使用神策 Java SDK 發(fā)送文本消息事件，代碼如上圖右半部分。
　　下面具體介紹微信公眾號可以采集的事件：
　　上面介紹了可采集的數據，同時(shí)還有幾個(gè)常用的運營(yíng)功能：
　　總結公眾號的數據采集，簡(jiǎn)單總結下：
　　2. 微信內網(wǎng)頁(yè)數據采集
　　微信網(wǎng)頁(yè)若沒(méi)有在公眾號里配置，就僅是一個(gè)瀏覽器打開(kāi)的傳統網(wǎng)頁(yè)，沒(méi)有微信的一些功能；但如果其在公眾號里進(jìn)行配置，可以實(shí)現兩個(gè)功能：
　　第一，可以使用神策的 Web JS SDK 去采集數據，跟傳統的瀏覽器打開(kāi)的網(wǎng)頁(yè)效果基本一致，但可能存在一些兼容性問(wèn)題。
　　在微信每個(gè)網(wǎng)頁(yè)的代碼中，加入神策的 Web JS SDK，即可采集以下事件，并可以做點(diǎn)擊分析和觸達率分析：
　　

　　第二，通過(guò)微信 JS SDK 增強微信數據采集。原理是，微信在 WebView 中通過(guò)注入 JSBridge 相關(guān)腳本，使得網(wǎng)頁(yè)擁有部分微信 App 的功能（這也就是所謂的 Hybrid 技術(shù)）。
　　只需要在微信各個(gè)網(wǎng)頁(yè)代碼中，加入微信 JS-SDK，就可以使用，但使用時(shí)需要在公眾號后臺中做設置：
　　微信的 JS-SDK 可以采集的事件：
　　常見(jiàn)的是微信的分享的事件，如果用戶(hù)觸發(fā)了分享。我們可以采集分享成功事件，屬性包括：頁(yè)面地址、分享標題、分享描述、分享鏈接、分享圖片。
　　除此之外還有如圖片、錄音、搖一搖、微信掃碼、微信支付等事件。
　　例如，在微信網(wǎng)頁(yè)里用戶(hù)也能夠像在 App 中一樣打開(kāi)圖片，并且進(jìn)行上傳和下載，在網(wǎng)頁(yè)里面還可以去錄音，這些都可以做為事件。
　　其次，微信的 JS-SDK 還可以采集到一些額外的屬性，如網(wǎng)絡(luò )的類(lèi)型（Wifi、3G、4G）、地理位置（經(jīng)度、緯度、地址詳情、縮放比例）、收貨地址（姓名、郵編、詳細地址、電話(huà)）等，這些屬性都是在傳統的網(wǎng)頁(yè)中無(wú)法獲取的。
　　簡(jiǎn)單總結微信網(wǎng)頁(yè)內數據采集：
　　3. 小程序和小游戲數據采集
　　有些人可能認為小游戲也是小程序，其實(shí)是不同的：
　　小程序和小游戲也有共同點(diǎn)：
　　小程序與網(wǎng)頁(yè)都屬于前端事件，一般建議使用 OpenID，但是 OpenID 需要一定開(kāi)發(fā)量，所以默認會(huì )使用 UUID。用戶(hù)登陸之后，同樣建議以一個(gè)真實(shí)的 ID 即 UserID 為準實(shí)現用戶(hù)關(guān)聯(lián)。
　　下面是使用神策微信小程序 SDK 和微信小游戲 SDK 后，共同可采集的預置事件：
　　上述事件不做任何操作都可以采集到的，即只需要使用 SDK 就可以。另外如果獲得用戶(hù)授權后，小程序還可以采集到更多事件屬性。
　　

　　用戶(hù)進(jìn)入小程序后會(huì )彈出一個(gè)授權的模板消息，用戶(hù)點(diǎn)擊允許后，就可以為用戶(hù)推送模板消息，可以跳轉至小程序具體詳情頁(yè)。其中模板消息分為單次與永久，一般情況下它與特定的行業(yè)模板相關(guān)。
　　單次的模板每次都需要用戶(hù)授權。永久的模板，比如小程序鎖車(chē)，這是特定行業(yè)的，沒(méi)有經(jīng)過(guò)授權也可以推送消息。小程序訂閱事件，屬性包含用戶(hù)信息（微信昵稱(chēng)、性別、頭像、城市等）、通訊地址（姓名、手機號、郵編）、發(fā)票、運動(dòng)步數屬性。
　　小程序訂閱消息的位置在微信號的服務(wù)通知里面，訂閱消息可以實(shí)現服務(wù)的閉環(huán)。比如說(shuō)用戶(hù)發(fā)生支付行為后，可以給用戶(hù)推一個(gè)鏈接消息，可以跳回到商場(chǎng)里看自己購買(mǎi)的商品，引導用戶(hù)完成閉環(huán)。
　　除了用戶(hù)打通，其實(shí)還包括渠道打通。小程序渠道，分為渠道場(chǎng)景值和渠道參數。
　　場(chǎng)景值是打開(kāi)小程序時(shí)候，API 能自動(dòng)獲取的，可以看用戶(hù)是從什么渠道跳轉到小程序，比如是掃碼過(guò)來(lái)的，從小程序跳轉過(guò)來(lái)的。
　　場(chǎng)景值只能大概判斷是從哪種方式打開(kāi)的，如果要精確到具體是哪個(gè)人，需要使用渠道參數。包括掃描普通鏈接二維碼、小程序碼、小程序二維碼、微信廣告跳轉、朋友圈和公眾號以及小程序的廣告等，都可以設置一個(gè)帶參數的 Path ，然后就可以解析出具體的參數。
　　總結小程序和小游戲的數據采集：
　　4. 微信數據采集
　　公眾號和小程序都有官方提供的接口去采集，但是微信沒(méi)有提供這樣的官方接口，微信機器人一般是通過(guò)模擬微信網(wǎng)頁(yè)版的接口來(lái)實(shí)現的，所以你也只能取到你在微信中所能看到的：微信號、微信昵稱(chēng)、聊天內容等信息。不過(guò)這里也可以做一些智能化的操作，通過(guò)神策的 ID 關(guān)聯(lián)功能，使得微信號和公眾號中 OpenID 進(jìn)行關(guān)聯(lián)綁定，可以實(shí)現自動(dòng)發(fā)微信消息。
　　三、各應用間的數據打通
　　1. 各應用使用的 ID 整理
　　微信公眾號是后端事件，建議使用 OpenID；微信網(wǎng)頁(yè)建議使用 OpenID，但實(shí)際默認 UUID，所以一般建議客戶(hù)關(guān)聯(lián) UserID；小程序和小游戲與微信網(wǎng)一樣，但是前者還會(huì )有一個(gè)后端事件，這個(gè)時(shí)候默認使用 OpenID。所以此時(shí)就存在多個(gè) ID。
　　而只有 ID 是一致的，才可以把用戶(hù)關(guān)聯(lián)起來(lái)。如果您使用的是神策的用戶(hù)關(guān)聯(lián)進(jìn)行打通，建議使用如下方式：
　　2. 渠道打通
　　3. 渠道間的互相跳轉

網(wǎng)絡(luò )數據采集的邊界在哪里？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-05-11 03:56 ? 來(lái)自相關(guān)話(huà)題

　　網(wǎng)絡(luò )數據采集的邊界在哪里？
　　▼更多精彩，請關(guān)注企通查▼
　　在網(wǎng)絡(luò )環(huán)境下，違反隱私信息保護的行為頻發(fā)，由網(wǎng)絡(luò )數據采集而引發(fā)的信息泄露事件頻頻出現在大眾視野。
　　隱私信息的保護涉及采集、使用、披露等多個(gè)環(huán)節，而采集正是個(gè)人信息被濫用的源頭。
　　若想徹底從源頭上解決、控制問(wèn)題，能夠清晰做到劃分合法采集與非法采集的邊界就尤其重要。
　　本文將對網(wǎng)絡(luò )數據采集的概念、方法和如何規避非法采集進(jìn)行簡(jiǎn)單介紹。
　　大數據時(shí)代，幾乎每種網(wǎng)絡(luò )服務(wù)都需要采集用戶(hù)的信息，出于各種原因，這些數據會(huì )被政府部門(mén)、相關(guān)機構、企業(yè)等收集并使用。
　　網(wǎng)絡(luò )數據采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)，通過(guò)網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數據信息，從而實(shí)現有針對性、行業(yè)性、精準性的數據抓取，并按照一定規則和篩選標準進(jìn)行數據歸類(lèi)，并形成數據庫文件的一系列過(guò)程。
　　隨著(zhù)互聯(lián)網(wǎng)技術(shù)的發(fā)展和網(wǎng)絡(luò )海量信息的增長(cháng)，對信息的獲取與分揀成為一種越來(lái)越強烈的需求。
　　網(wǎng)絡(luò )數據采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò )爬蟲(chóng)、分詞系統、任務(wù)與索引系統等技術(shù)進(jìn)行綜合運用而完成，人們一般通過(guò)以上技術(shù)將海量信息和數據采集回后，進(jìn)行分揀和二次加工，實(shí)現網(wǎng)絡(luò )數據價(jià)值與利益更大化、更專(zhuān)業(yè)化的目的。
　　
　　在大數據時(shí)代，網(wǎng)絡(luò )爬蟲(chóng)是在互聯(lián)網(wǎng)上采集數據的主流方法、有利工具，主要是為搜索引擎提供最新最全面的數據。
　　網(wǎng)絡(luò )爬蟲(chóng)是一種按照一定的規則，自動(dòng)地抓取Web信息的程序或者腳本。Web網(wǎng)絡(luò )爬蟲(chóng)可以自動(dòng)采集所有其能夠訪(fǎng)問(wèn)到的頁(yè)面內容，為搜索引擎和大數據分析提供數據來(lái)源。
　　從功能上來(lái)講，爬蟲(chóng)一般有數據采集、處理和存儲3部分功能。
　　通俗地將，爬蟲(chóng)就相當于一個(gè)探測機器，可以理解為你的“分身”，通過(guò)模擬人的行為去瀏覽各個(gè)網(wǎng)站，對網(wǎng)站內容進(jìn)行查看，或者把看到的信息背回來(lái)，像一只蟲(chóng)子一樣在樓里不知疲倦地爬來(lái)爬去。
　　如果把互聯(lián)網(wǎng)比作一張大網(wǎng)，那么爬蟲(chóng)就是這張網(wǎng)上的蜘蛛，如果它遇到了自己的獵物（需要的資源），那么它就會(huì )將其抓取下來(lái)。
　　常用的網(wǎng)絡(luò )采集系統有：
　　分布式網(wǎng)絡(luò )爬蟲(chóng)工具：如Nutch
　　Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Crawler4j、WebMagic、WebCollector
　　非Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Scrapy（基于Python語(yǔ)言開(kāi)發(fā)）
　　關(guān)于爬蟲(chóng)的原理和具體工作流程、爬取策略，將會(huì )在后續的文章中詳細介紹，在此不再贅述。
　　
　　了解了什么是網(wǎng)絡(luò )數據采集和網(wǎng)絡(luò )數據采集的方法，該如何規避非法網(wǎng)絡(luò )數據采集呢？可以著(zhù)重注意以下三方面：
　　01
　　與網(wǎng)絡(luò )數據采集相關(guān)的法律/法規有哪些？
　　網(wǎng)絡(luò )數據采集的法律法規，包括但不限于：
　　02
　　哪些采集行為不合規？
　　在采集過(guò)程中，以下采集行為是不合規的：
　　03
　　應該如何規避非法采集？
　　規避非法采集時(shí)應當注意：
　　企通查-動(dòng)態(tài)大數據資源中心基于互聯(lián)網(wǎng)+大數據+人工智能技術(shù)構建，通過(guò)分布式數據采集集群、數據特征提取、機器學(xué)習和深度學(xué)習算法模型、NLP文本分析等技術(shù)實(shí)現了數據的實(shí)時(shí)更新、高度關(guān)聯(lián)、動(dòng)態(tài)下載、主動(dòng)推送，提供了全面、權威、及時(shí)、準確的數據資源，涵蓋了宏觀(guān)、中觀(guān)、微觀(guān)層面的全維度數據體系。大數據資源中心包含上百個(gè)維度、上千條二級類(lèi)目及上千億數據，數據類(lèi)型包括結構化數據、網(wǎng)頁(yè)數據、文本數據、圖像數據等，數據存儲總量超過(guò)500T，為企業(yè)采購風(fēng)控、銷(xiāo)售客戶(hù)評估、Al精準獲客、精準招商、投融資、高?？蒲袡C構、政府事業(yè)單位提供了全方位的數據支持和數據應用解決方案。
　　如您對我們感興趣，歡迎進(jìn)行咨詢(xún)：
　　聯(lián)系人：趙先生查看全部

　　網(wǎng)絡(luò )數據采集的邊界在哪里？
　　▼更多精彩，請關(guān)注企通查▼
　　在網(wǎng)絡(luò )環(huán)境下，違反隱私信息保護的行為頻發(fā)，由網(wǎng)絡(luò )數據采集而引發(fā)的信息泄露事件頻頻出現在大眾視野。
　　隱私信息的保護涉及采集、使用、披露等多個(gè)環(huán)節，而采集正是個(gè)人信息被濫用的源頭。
　　若想徹底從源頭上解決、控制問(wèn)題，能夠清晰做到劃分合法采集與非法采集的邊界就尤其重要。
　　本文將對網(wǎng)絡(luò )數據采集的概念、方法和如何規避非法采集進(jìn)行簡(jiǎn)單介紹。
　　大數據時(shí)代，幾乎每種網(wǎng)絡(luò )服務(wù)都需要采集用戶(hù)的信息，出于各種原因，這些數據會(huì )被政府部門(mén)、相關(guān)機構、企業(yè)等收集并使用。
　　網(wǎng)絡(luò )數據采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)，通過(guò)網(wǎng)絡(luò )爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數據信息，從而實(shí)現有針對性、行業(yè)性、精準性的數據抓取，并按照一定規則和篩選標準進(jìn)行數據歸類(lèi)，并形成數據庫文件的一系列過(guò)程。
　　隨著(zhù)互聯(lián)網(wǎng)技術(shù)的發(fā)展和網(wǎng)絡(luò )海量信息的增長(cháng)，對信息的獲取與分揀成為一種越來(lái)越強烈的需求。
　　網(wǎng)絡(luò )數據采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò )爬蟲(chóng)、分詞系統、任務(wù)與索引系統等技術(shù)進(jìn)行綜合運用而完成，人們一般通過(guò)以上技術(shù)將海量信息和數據采集回后，進(jìn)行分揀和二次加工，實(shí)現網(wǎng)絡(luò )數據價(jià)值與利益更大化、更專(zhuān)業(yè)化的目的。
　　

　　在大數據時(shí)代，網(wǎng)絡(luò )爬蟲(chóng)是在互聯(lián)網(wǎng)上采集數據的主流方法、有利工具，主要是為搜索引擎提供最新最全面的數據。
　　網(wǎng)絡(luò )爬蟲(chóng)是一種按照一定的規則，自動(dòng)地抓取Web信息的程序或者腳本。Web網(wǎng)絡(luò )爬蟲(chóng)可以自動(dòng)采集所有其能夠訪(fǎng)問(wèn)到的頁(yè)面內容，為搜索引擎和大數據分析提供數據來(lái)源。
　　從功能上來(lái)講，爬蟲(chóng)一般有數據采集、處理和存儲3部分功能。
　　通俗地將，爬蟲(chóng)就相當于一個(gè)探測機器，可以理解為你的“分身”，通過(guò)模擬人的行為去瀏覽各個(gè)網(wǎng)站，對網(wǎng)站內容進(jìn)行查看，或者把看到的信息背回來(lái)，像一只蟲(chóng)子一樣在樓里不知疲倦地爬來(lái)爬去。
　　如果把互聯(lián)網(wǎng)比作一張大網(wǎng)，那么爬蟲(chóng)就是這張網(wǎng)上的蜘蛛，如果它遇到了自己的獵物（需要的資源），那么它就會(huì )將其抓取下來(lái)。
　　常用的網(wǎng)絡(luò )采集系統有：
　　分布式網(wǎng)絡(luò )爬蟲(chóng)工具：如Nutch
　　Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Crawler4j、WebMagic、WebCollector
　　非Java網(wǎng)絡(luò )爬蟲(chóng)工具：如Scrapy（基于Python語(yǔ)言開(kāi)發(fā)）
　　關(guān)于爬蟲(chóng)的原理和具體工作流程、爬取策略，將會(huì )在后續的文章中詳細介紹，在此不再贅述。
　　

　　了解了什么是網(wǎng)絡(luò )數據采集和網(wǎng)絡(luò )數據采集的方法，該如何規避非法網(wǎng)絡(luò )數據采集呢？可以著(zhù)重注意以下三方面：
　　01
　　與網(wǎng)絡(luò )數據采集相關(guān)的法律/法規有哪些？
　　網(wǎng)絡(luò )數據采集的法律法規，包括但不限于：
　　02
　　哪些采集行為不合規？
　　在采集過(guò)程中，以下采集行為是不合規的：
　　03
　　應該如何規避非法采集？
　　規避非法采集時(shí)應當注意：
　　企通查-動(dòng)態(tài)大數據資源中心基于互聯(lián)網(wǎng)+大數據+人工智能技術(shù)構建，通過(guò)分布式數據采集集群、數據特征提取、機器學(xué)習和深度學(xué)習算法模型、NLP文本分析等技術(shù)實(shí)現了數據的實(shí)時(shí)更新、高度關(guān)聯(lián)、動(dòng)態(tài)下載、主動(dòng)推送，提供了全面、權威、及時(shí)、準確的數據資源，涵蓋了宏觀(guān)、中觀(guān)、微觀(guān)層面的全維度數據體系。大數據資源中心包含上百個(gè)維度、上千條二級類(lèi)目及上千億數據，數據類(lèi)型包括結構化數據、網(wǎng)頁(yè)數據、文本數據、圖像數據等，數據存儲總量超過(guò)500T，為企業(yè)采購風(fēng)控、銷(xiāo)售客戶(hù)評估、Al精準獲客、精準招商、投融資、高?？蒲袡C構、政府事業(yè)單位提供了全方位的數據支持和數據應用解決方案。
　　如您對我們感興趣，歡迎進(jìn)行咨詢(xún)：
　　聯(lián)系人：趙先生

用 R 收集和映射推特數據的初學(xué)者向導

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2022-05-10 11:02 ? 來(lái)自相關(guān)話(huà)題

　　用 R 收集和映射推特數據的初學(xué)者向導
　　
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。-- Dorris Scott
　　本文導航
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。
　　當我開(kāi)始學(xué)習 R ，我也需要學(xué)習如何出于研究的目的地收集推特數據并對其進(jìn)行映射。盡管網(wǎng)上關(guān)于這個(gè)話(huà)題的信息很多，但我發(fā)覺(jué)難以理解什么與收集并映射推特數據相關(guān)。我不僅是個(gè) R 新手，而且對各種教程中技術(shù)名詞不熟悉。但盡管困難重重，我成功了！在這個(gè)教程里，我將以一種新手程序員都能看懂的方式來(lái)攻略如何收集推特數據并將至展現在地圖中。
　　創(chuàng )建應用程序
　　如果你沒(méi)有推特帳號，首先你需要注冊一個(gè)[1]。然后，到 [2]創(chuàng )建一個(gè)允許你收集推特數據的應用程序。別擔心，創(chuàng )建應用程序極其簡(jiǎn)單。你創(chuàng )建的應用程序會(huì )與推特應用程序接口（API）相連。想象 API 是一個(gè)多功能電子個(gè)人助手。你可以使用 API 讓其它程序幫你做事。這樣一來(lái)，你可以接入推特 API 令其收集數據。只需確保不要請求太多，因為推特數據請求次數是有限制[3]的。
　　收集推文有兩個(gè)可用的 API 。你若想做一次性的推文收集，那么使用REST API. 若是想在特定時(shí)間內持續收集，可以用streaming API。教程中我主要使用 REST API。
　　創(chuàng )建應用程序之后，前往Keys and Access Tokens標簽。你需要 Consumer Key (API key)、 Consumer Secret (API secret)、 Access Token 和 Access Token Secret 才能在 R 中訪(fǎng)問(wèn)你的應用程序。
　　收集推特數據
　　下一步是打開(kāi) R 準備寫(xiě)代碼。對于初學(xué)者，我推薦使用RStudio[4]，這是 R 的集成開(kāi)發(fā)環(huán)境 (IDE) 。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)很實(shí)用。 R 有訪(fǎng)問(wèn)該 REST API 的包叫twitteR[5]。
　　打開(kāi) RStudio 并新建 RScript。做好這些之后，你需要安裝和加載twitteR包:
　　<p>install.packages("twitteR")
　　#安裝 TwitteR
　　library (twitteR)
　　#載入 TwitteR</p>
　　安裝并載入twitteR包之后，你得輸入上文提及的應用程序的 API 信息： <p><p>api_key 查看全部

　　用 R 收集和映射推特數據的初學(xué)者向導
　　

　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。-- Dorris Scott
　　本文導航
　　學(xué)習使用 R 的 twitteR 和 leaflet 包, 你就可以把任何話(huà)題的推文定位畫(huà)在地圖上。
　　當我開(kāi)始學(xué)習 R ，我也需要學(xué)習如何出于研究的目的地收集推特數據并對其進(jìn)行映射。盡管網(wǎng)上關(guān)于這個(gè)話(huà)題的信息很多，但我發(fā)覺(jué)難以理解什么與收集并映射推特數據相關(guān)。我不僅是個(gè) R 新手，而且對各種教程中技術(shù)名詞不熟悉。但盡管困難重重，我成功了！在這個(gè)教程里，我將以一種新手程序員都能看懂的方式來(lái)攻略如何收集推特數據并將至展現在地圖中。
　　創(chuàng )建應用程序
　　如果你沒(méi)有推特帳號，首先你需要注冊一個(gè)[1]。然后，到 [2]創(chuàng )建一個(gè)允許你收集推特數據的應用程序。別擔心，創(chuàng )建應用程序極其簡(jiǎn)單。你創(chuàng )建的應用程序會(huì )與推特應用程序接口（API）相連。想象 API 是一個(gè)多功能電子個(gè)人助手。你可以使用 API 讓其它程序幫你做事。這樣一來(lái)，你可以接入推特 API 令其收集數據。只需確保不要請求太多，因為推特數據請求次數是有限制[3]的。
　　收集推文有兩個(gè)可用的 API 。你若想做一次性的推文收集，那么使用REST API. 若是想在特定時(shí)間內持續收集，可以用streaming API。教程中我主要使用 REST API。
　　創(chuàng )建應用程序之后，前往Keys and Access Tokens標簽。你需要 Consumer Key (API key)、 Consumer Secret (API secret)、 Access Token 和 Access Token Secret 才能在 R 中訪(fǎng)問(wèn)你的應用程序。
　　收集推特數據
　　下一步是打開(kāi) R 準備寫(xiě)代碼。對于初學(xué)者，我推薦使用RStudio[4]，這是 R 的集成開(kāi)發(fā)環(huán)境 (IDE) 。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)很實(shí)用。 R 有訪(fǎng)問(wèn)該 REST API 的包叫twitteR[5]。
　　打開(kāi) RStudio 并新建 RScript。做好這些之后，你需要安裝和加載twitteR包:
　　<p>install.packages("twitteR")
　　#安裝 TwitteR
　　library (twitteR)
　　#載入 TwitteR</p>
　　安裝并載入twitteR包之后，你得輸入上文提及的應用程序的 API 信息： <p><p>api_key

數據分析系列篇（8）：數據采集哪家強？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-05-10 10:53 ? 來(lái)自相關(guān)話(huà)題

　　數據分析系列篇（8）：數據采集哪家強？
　　說(shuō)到我們要做數據分析，沒(méi)有米下鍋怎么行？沒(méi)有數據，我們還怎么做數據分析？
　　前幾天有個(gè)哥們在現場(chǎng)就問(wèn)我，說(shuō)我們是一家創(chuàng )業(yè)公司，我們也非常想做數據分析、機器學(xué)習這些，但是我們沒(méi)有數據??！這可怎么辦？我們也不懂這些數據從哪兒來(lái)，更不懂技術(shù)方面的東西，公司也就幾個(gè)人，還都是從傳統公司或者剛畢業(yè)的。
　　當時(shí)我就給他打了個(gè)比喻，這就有點(diǎn)像我們沒(méi)米怎么煮飯一樣。如果真的沒(méi)米了，我們可以自己去種稻，也可以去菜場(chǎng)上買(mǎi)米，也可以拿其他東西和別人家做交換，也可以吃小麥。
　　
　　那同樣，我們沒(méi)數據，那就要想辦法去搜集數據啊。如果你是個(gè)spy man，那肯定也要各種搜集情報。
　　我們常見(jiàn)的數據收集分內部和外部?jì)煞矫妫?
　　1.內部：
　　a）歷史log日志+會(huì )員信息；
　　b）基于基礎標簽特征預測；
　　c）集團各業(yè)務(wù)、子公司數據等。
　　2.外部：
　　a）爬蟲(chóng)采集引擎；
　　b）數據購買(mǎi)；
　　c）合作公司數據交換；
　　d）收購兼并公司；
　　e）營(yíng)銷(xiāo)等手段。
　　
　　針對內部已有數據這些自不必多說(shuō)，誰(shuí)都會(huì )。重點(diǎn)說(shuō)一說(shuō)我們常用的網(wǎng)絡(luò )爬蟲(chóng)方式。
　　在這塊數據采集基于本身需求的規模，如果是大規模的維護系統，可以用專(zhuān)門(mén)的采集引擎,比如基于apache服務(wù)器的nutch。
　　如果以填充網(wǎng)站為目的，覺(jué)得哪個(gè)網(wǎng)站的內容好，想借為已用，這種需求隨機靈活，而對抓取量又不太高的采集，可以采集python的爬蟲(chóng)工具scrapy。
　　當然php也有可以實(shí)現各種網(wǎng)站抓取的方式，但是似乎沒(méi)有成型的框架，因為抓取本質(zhì)是基本網(wǎng)絡(luò )協(xié)議，http什么的，所以你對這些協(xié)議了解的清楚，又懂一些腳本語(yǔ)言，基本都會(huì )畫(huà)出一個(gè)可以實(shí)現你需求的采集的工具。但是效率就千差萬(wàn)別了?？蚣軙?huì )提供你完善采集的多元素補充，你幾乎涉及到采集應該處理的全部問(wèn)題，它都給你提供了對應的方案，你有耐心死扣方案，總能讀懂他傳授你的意思，然后按理為之，就可以不斷把自己的爬蟲(chóng)實(shí)現起來(lái)。但是采集只是數據處理的一個(gè)環(huán)節，采集之后如何對數據提純精煉，基于自己商業(yè)化目的的導向，可能還涉及到知識產(chǎn)權等問(wèn)題，當然這不是技術(shù)采集考慮的層面了。至于數據的分析，當然，我都是用python多一點(diǎn)，python提供了許多內置的math函數處理庫，比如說(shuō)numpy,scipy,matplotlib,這些網(wǎng)上都有對應的使用教程，入庫或把采集到的數據按這些組件可以處理的格式保存，然后把數據導入進(jìn)來(lái)，就這樣折騰折騰。
　　
　　另外對于初級用戶(hù)，介紹下現成的工具：
　　優(yōu)采云
　　優(yōu)采云應該是國內采集軟件最成功的典型之一，使用人數包括收費用戶(hù)數量上應該是最多的
　　優(yōu)點(diǎn)：功能比較齊全，采集速度比較快，主要針對cms,短時(shí)間可以采集很多，過(guò)濾，替換都不錯，比較詳細；
　　技術(shù)：技術(shù)主要是論壇支持，幫助文件多，上手容易。有收費、免費版本
　　缺點(diǎn)：功能復雜，軟件越來(lái)越大，比較占用內存和CPU資源，大批量采集速度不行，資源回收控制得不好，受CS架構限制
　　發(fā)源地
　　可能大部分人還不知道，這是我自主研發(fā)的，以前一直用爬蟲(chóng)寫(xiě)程序，java、python等，后面覺(jué)得很麻煩，就搗鼓著(zhù)要做的簡(jiǎn)單一些，然后就沒(méi)法收手了，最近一直在進(jìn)行產(chǎn)品迭代。
　　優(yōu)點(diǎn)：功能聚合性強、速度快、saas架構、數據可預覽、數據規則市場(chǎng)、api等多種輸出方式、免費
　　缺點(diǎn)：知名度還比較低
　　三人行
　　主要針對論壇的采集，功能比較完善
　　優(yōu)點(diǎn)：還是針對論壇，適合開(kāi)論壇的
　　技術(shù)：收費技術(shù)，免費有廣告
　　缺點(diǎn)：超級復雜，上手難，對cms支持比較差
　　ET工具
　　優(yōu)點(diǎn)：無(wú)人值守，自動(dòng)更新，適合長(cháng)期做站，用戶(hù)群主要集中在長(cháng)期做站潛水站長(cháng)。軟件清晰，必備功能也很齊全，關(guān)鍵是軟件免費，聽(tīng)說(shuō)已經(jīng)增加采集中英文翻譯功能。
　　技術(shù)：論壇支持，軟件本身免費，但是也提供收費服務(wù)。幫助文件較少，上手不容易
　　缺點(diǎn)：對論壇和CMS的支持一般
　　海納
　　優(yōu)點(diǎn)：海量，可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章，似乎適合做網(wǎng)站的專(zhuān)題，特別是文章類(lèi)、博客類(lèi)
　　技術(shù)：無(wú)論壇收費，免費有功能限制
　　缺點(diǎn)：分類(lèi)不方便，也就說(shuō)采集文章歸類(lèi)不方便，要手動(dòng)（自動(dòng)容易混淆），特定接口，采集的內容有限
　　優(yōu)采云
　　優(yōu)點(diǎn)：非常適合采集discuz論壇
　　缺點(diǎn)：過(guò)于專(zhuān)一，兼容性不好。
　　附：
　　如何入門(mén) Python 爬蟲(chóng)？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　Python 爬蟲(chóng)進(jìn)階？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　你是如何開(kāi)始能寫(xiě)python爬蟲(chóng)？ - 調查類(lèi)問(wèn)題
　　祝大家爬得開(kāi)心！
　　
　　加群請備注：“公司+城市+稱(chēng)呼”，有問(wèn)題的加我微信。查看全部

　　數據分析系列篇（8）：數據采集哪家強？
　　說(shuō)到我們要做數據分析，沒(méi)有米下鍋怎么行？沒(méi)有數據，我們還怎么做數據分析？
　　前幾天有個(gè)哥們在現場(chǎng)就問(wèn)我，說(shuō)我們是一家創(chuàng )業(yè)公司，我們也非常想做數據分析、機器學(xué)習這些，但是我們沒(méi)有數據??！這可怎么辦？我們也不懂這些數據從哪兒來(lái)，更不懂技術(shù)方面的東西，公司也就幾個(gè)人，還都是從傳統公司或者剛畢業(yè)的。
　　當時(shí)我就給他打了個(gè)比喻，這就有點(diǎn)像我們沒(méi)米怎么煮飯一樣。如果真的沒(méi)米了，我們可以自己去種稻，也可以去菜場(chǎng)上買(mǎi)米，也可以拿其他東西和別人家做交換，也可以吃小麥。
　　

　　那同樣，我們沒(méi)數據，那就要想辦法去搜集數據啊。如果你是個(gè)spy man，那肯定也要各種搜集情報。
　　我們常見(jiàn)的數據收集分內部和外部?jì)煞矫妫?
　　1.內部：
　　a）歷史log日志+會(huì )員信息；
　　b）基于基礎標簽特征預測；
　　c）集團各業(yè)務(wù)、子公司數據等。
　　2.外部：
　　a）爬蟲(chóng)采集引擎；
　　b）數據購買(mǎi)；
　　c）合作公司數據交換；
　　d）收購兼并公司；
　　e）營(yíng)銷(xiāo)等手段。
　　

　　針對內部已有數據這些自不必多說(shuō)，誰(shuí)都會(huì )。重點(diǎn)說(shuō)一說(shuō)我們常用的網(wǎng)絡(luò )爬蟲(chóng)方式。
　　在這塊數據采集基于本身需求的規模，如果是大規模的維護系統，可以用專(zhuān)門(mén)的采集引擎,比如基于apache服務(wù)器的nutch。
　　如果以填充網(wǎng)站為目的，覺(jué)得哪個(gè)網(wǎng)站的內容好，想借為已用，這種需求隨機靈活，而對抓取量又不太高的采集，可以采集python的爬蟲(chóng)工具scrapy。
　　當然php也有可以實(shí)現各種網(wǎng)站抓取的方式，但是似乎沒(méi)有成型的框架，因為抓取本質(zhì)是基本網(wǎng)絡(luò )協(xié)議，http什么的，所以你對這些協(xié)議了解的清楚，又懂一些腳本語(yǔ)言，基本都會(huì )畫(huà)出一個(gè)可以實(shí)現你需求的采集的工具。但是效率就千差萬(wàn)別了?？蚣軙?huì )提供你完善采集的多元素補充，你幾乎涉及到采集應該處理的全部問(wèn)題，它都給你提供了對應的方案，你有耐心死扣方案，總能讀懂他傳授你的意思，然后按理為之，就可以不斷把自己的爬蟲(chóng)實(shí)現起來(lái)。但是采集只是數據處理的一個(gè)環(huán)節，采集之后如何對數據提純精煉，基于自己商業(yè)化目的的導向，可能還涉及到知識產(chǎn)權等問(wèn)題，當然這不是技術(shù)采集考慮的層面了。至于數據的分析，當然，我都是用python多一點(diǎn)，python提供了許多內置的math函數處理庫，比如說(shuō)numpy,scipy,matplotlib,這些網(wǎng)上都有對應的使用教程，入庫或把采集到的數據按這些組件可以處理的格式保存，然后把數據導入進(jìn)來(lái)，就這樣折騰折騰。
　　

　　另外對于初級用戶(hù)，介紹下現成的工具：
　　優(yōu)采云
　　優(yōu)采云應該是國內采集軟件最成功的典型之一，使用人數包括收費用戶(hù)數量上應該是最多的
　　優(yōu)點(diǎn)：功能比較齊全，采集速度比較快，主要針對cms,短時(shí)間可以采集很多，過(guò)濾，替換都不錯，比較詳細；
　　技術(shù)：技術(shù)主要是論壇支持，幫助文件多，上手容易。有收費、免費版本
　　缺點(diǎn)：功能復雜，軟件越來(lái)越大，比較占用內存和CPU資源，大批量采集速度不行，資源回收控制得不好，受CS架構限制
　　發(fā)源地
　　可能大部分人還不知道，這是我自主研發(fā)的，以前一直用爬蟲(chóng)寫(xiě)程序，java、python等，后面覺(jué)得很麻煩，就搗鼓著(zhù)要做的簡(jiǎn)單一些，然后就沒(méi)法收手了，最近一直在進(jìn)行產(chǎn)品迭代。
　　優(yōu)點(diǎn)：功能聚合性強、速度快、saas架構、數據可預覽、數據規則市場(chǎng)、api等多種輸出方式、免費
　　缺點(diǎn)：知名度還比較低
　　三人行
　　主要針對論壇的采集，功能比較完善
　　優(yōu)點(diǎn)：還是針對論壇，適合開(kāi)論壇的
　　技術(shù)：收費技術(shù)，免費有廣告
　　缺點(diǎn)：超級復雜，上手難，對cms支持比較差
　　ET工具
　　優(yōu)點(diǎn)：無(wú)人值守，自動(dòng)更新，適合長(cháng)期做站，用戶(hù)群主要集中在長(cháng)期做站潛水站長(cháng)。軟件清晰，必備功能也很齊全，關(guān)鍵是軟件免費，聽(tīng)說(shuō)已經(jīng)增加采集中英文翻譯功能。
　　技術(shù)：論壇支持，軟件本身免費，但是也提供收費服務(wù)。幫助文件較少，上手不容易
　　缺點(diǎn)：對論壇和CMS的支持一般
　　海納
　　優(yōu)點(diǎn)：海量，可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章，似乎適合做網(wǎng)站的專(zhuān)題，特別是文章類(lèi)、博客類(lèi)
　　技術(shù)：無(wú)論壇收費，免費有功能限制
　　缺點(diǎn)：分類(lèi)不方便，也就說(shuō)采集文章歸類(lèi)不方便，要手動(dòng)（自動(dòng)容易混淆），特定接口，采集的內容有限
　　優(yōu)采云
　　優(yōu)點(diǎn)：非常適合采集discuz論壇
　　缺點(diǎn)：過(guò)于專(zhuān)一，兼容性不好。
　　附：
　　如何入門(mén) Python 爬蟲(chóng)？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　Python 爬蟲(chóng)進(jìn)階？ - 爬蟲(chóng)（計算機網(wǎng)絡(luò )）
　　你是如何開(kāi)始能寫(xiě)python爬蟲(chóng)？ - 調查類(lèi)問(wèn)題
　　祝大家爬得開(kāi)心！
　　

　　加群請備注：“公司+城市+稱(chēng)呼”，有問(wèn)題的加我微信。

Python中調用微博API采集數據|附代碼+視頻

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 279 次瀏覽 ? 2022-05-10 06:05 ? 來(lái)自相關(guān)話(huà)題

　　Python中調用微博API采集數據|附代碼+視頻
　　
　　使用微博API進(jìn)行微博信息獲取的基本流程如圖9-4所示。在該流程中，首先通過(guò)申請到的access token，通過(guò)開(kāi)放平臺的認證接口進(jìn)行OAuth認證。認證通過(guò)后，即可通過(guò)微博所提供的接口獲得各種數據，例如用戶(hù)數據、博文、關(guān)注信息等等。
　　在微博OAuth2.0實(shí)現中，授權服務(wù)器在接收到驗證授權請求時(shí)，會(huì )按照OAuth2.0協(xié)議對本請求的請求頭部、請求參數進(jìn)行檢驗，若請求不合法或驗證未通過(guò)，授權服務(wù)器會(huì )返回相應的錯誤信息，包含以下幾個(gè)參數：
　　如果通過(guò)認證，則可以調用各種API。返回的數據按照JSON格式進(jìn)行封裝，最后根據API文檔的說(shuō)明提取所需要的內容。
　　
　　01
　　微博API及使用方法
　　1 微博API介紹
　　微博API是微博官方提供給開(kāi)發(fā)人員的一組函數調用接口，這是一種在線(xiàn)調用方式，不同于普通語(yǔ)言所提供的函數。這些API能夠根據輸入的參數返回相應的數據，其范圍涵蓋用戶(hù)個(gè)人信息、用戶(hù)的粉絲和關(guān)注、用戶(hù)發(fā)布的博文、博文的評論等等。只要攜帶符合要求的參數向接口發(fā)送HTTP請求，接口就會(huì )返回所對應的JSON格式數據。新浪微博提供的API有九大類(lèi)，即：粉絲服務(wù)接口、微博接口、評論接口、用戶(hù)接口、關(guān)系接口、搜索接口、短鏈接口、公共服務(wù)接口和OAuth 2.0授權接口。這些接口的名稱(chēng)及功能如表9-1所示。需要注意的是，新浪微博API會(huì )不斷升級，最新的接口及功能可以到官方網(wǎng)站查閱：%E5%BE%AE%E5%8D%9AAPI。2微博API的使用方法對于每個(gè)API，新浪微博規定了其請求參數、返回字段說(shuō)明、是否需要登錄、HTTP請求方式、訪(fǎng)問(wèn)授權限制（包括訪(fǎng)問(wèn)級別、是否頻次限制）等關(guān)鍵信息。其中，請求參數是API的輸入，而返回字段是API調用的輸出結果，一般是以JSON的形式進(jìn)行封裝。HTTP請求方式支持GET和POST兩種，訪(fǎng)問(wèn)授權限制則規定了客戶(hù)端調用API的一些約束條件。詳細介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　01
　　例1：采集微博用戶(hù)個(gè)人信息
　　微博用戶(hù)的個(gè)人信息包括用戶(hù)昵稱(chēng)、簡(jiǎn)介、粉絲數、關(guān)注數、微博數等，通過(guò)調用微博開(kāi)發(fā)接口A(yíng)PI可以得到這些個(gè)人信息數據。該接口為users/show，請求參數如表9-6所示，其中參數uid與screen_name二者必選其一，且只能選其一個(gè)。
　　
　　該接口返回的信息包含了用戶(hù)的昵稱(chēng)、省份、頭像、粉絲數等等，具體介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　
　　在理解接口定義之后，可以使用Python來(lái)實(shí)現微博個(gè)人信息采集。主要過(guò)程包括按照請求參數構造、發(fā)起請求和結果的提取和轉換。具體的程序代碼和解釋如下。
　　Prog-12-weiboUserInfo.py
　　# -*- coding: utf-8 -*-from urllib import parseimport requestsimport json<br /># 調用users/show 接口def get_pinfo(access_token,uid): # 用戶(hù)個(gè)人信息字典 pinfo_dict = {} url = 'https://api.weibo.com/2/users/show.json' url_dict = {'access_token': access_token, 'uid': uid} url_param = parse.urlencode(url_dict) res=requests.get(url='%s%s%s' % (url, '?', url_param), headers=header_dict)<br /> decode_data = json.loads(res.text) pinfo_dict['昵稱(chēng)'] = decode_data['name'] pinfo_dict['簡(jiǎn)介'] = decode_data['description'] # 性別，轉換一下 if decode_data['gender'] == 'f': pinfo_dict['性別'] = '女' elif decode_data['gender'] == 'm': pinfo_dict['性別'] = '男' else: pinfo_dict['性別'] = '未知' # 注冊時(shí)間 pinfo_dict['注冊時(shí)間'] = decode_data['created_at'] # 粉絲數 pinfo_dict['粉絲數'] = decode_data['followers_count'] # 關(guān)注數 pinfo_dict['關(guān)注數'] = decode_data['friends_count'] # 微博數 pinfo_dict['微博數'] = decode_data['statuses_count'] # 收藏數 pinfo_dict['收藏數'] = decode_data['favourites_count'] return pinfo_dict<br />if __name__ == '__main__': header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'} # 填寫(xiě)access_token參數與 uid access_token = '*****************' #通過(guò)8.2節方法獲得，每個(gè)人不一樣 uid = '7059060320' pinfo = get_pinfo(access_token,uid) for key, value in pinfo.items():???????print('{k}:{v}'.format(k=key,?v=value))
　　在http請求中攜帶access_token和uid參數訪(fǎng)問(wèn)接口，獲得一個(gè)json格式的返回結果，對json進(jìn)行解析即可。運行結果如圖9-5所示。
　　
　　03
　　例2：采集微博博文
　　使用微博API獲取博文主要涉及到兩個(gè)接口，即statuses/user_timeline/ids和statuses/show。前者用于獲取用戶(hù)發(fā)布的微博的ID列表，后者是根據微博ID獲得單條微博信息內容，包括文本內容、圖片以及評論轉發(fā)情況等。以下是這兩個(gè)接口的詳細說(shuō)明。
　　(1)statuses/user_timeline/ids
　　該接口的請求參數包括采用OAuth授權后獲得的access_token，以及所需要檢索的微博用戶(hù)ID，具體定義如表9-8所示，有些參數是可選的，采用默認值。
　　
　　該接口只返回最新的5條數據，即用戶(hù)uid所發(fā)布的微博ID列表。格式如下，statuses中即為記錄列表。
　　{
　　"statuses": [
　　"33829",
　　"33829",
　　"33829",
　　...
　　],
　　"previous_cursor": 0, // 暫未支持
　　"next_cursor": 0, //暫未支持
　　"total_number": 16
　　}
　　(2)statuses/show
　　該接口的請求參數也包括采用OAuth授權后獲得的access_token，另一個(gè)就是微博ID，兩個(gè)參數均為必選，具體說(shuō)明如表9-9所示。
　　
　　該接口返回微博的相關(guān)屬性值，包括微博創(chuàng )建時(shí)間、文本內容等，具體介紹參見(jiàn)《》一書(shū)。
　　
　　下面，以statuses/user_timeline/ids接口為例來(lái)說(shuō)明具體的調用和處理方法。
　?。?）根據接口說(shuō)明構造正確的http請求。
　　閱讀在線(xiàn)接口說(shuō)明可知，該接口需要以Get方式請求，必選參數access_token，返回格式為json。其中必選參數access_token來(lái)源于OAuth授權，具體創(chuàng )建方法見(jiàn)9.2節。查看全部

　　Python中調用微博API采集數據|附代碼+視頻
　　

　　使用微博API進(jìn)行微博信息獲取的基本流程如圖9-4所示。在該流程中，首先通過(guò)申請到的access token，通過(guò)開(kāi)放平臺的認證接口進(jìn)行OAuth認證。認證通過(guò)后，即可通過(guò)微博所提供的接口獲得各種數據，例如用戶(hù)數據、博文、關(guān)注信息等等。
　　在微博OAuth2.0實(shí)現中，授權服務(wù)器在接收到驗證授權請求時(shí)，會(huì )按照OAuth2.0協(xié)議對本請求的請求頭部、請求參數進(jìn)行檢驗，若請求不合法或驗證未通過(guò)，授權服務(wù)器會(huì )返回相應的錯誤信息，包含以下幾個(gè)參數：
　　如果通過(guò)認證，則可以調用各種API。返回的數據按照JSON格式進(jìn)行封裝，最后根據API文檔的說(shuō)明提取所需要的內容。
　　

　　01
　　微博API及使用方法
　　1 微博API介紹
　　微博API是微博官方提供給開(kāi)發(fā)人員的一組函數調用接口，這是一種在線(xiàn)調用方式，不同于普通語(yǔ)言所提供的函數。這些API能夠根據輸入的參數返回相應的數據，其范圍涵蓋用戶(hù)個(gè)人信息、用戶(hù)的粉絲和關(guān)注、用戶(hù)發(fā)布的博文、博文的評論等等。只要攜帶符合要求的參數向接口發(fā)送HTTP請求，接口就會(huì )返回所對應的JSON格式數據。新浪微博提供的API有九大類(lèi)，即：粉絲服務(wù)接口、微博接口、評論接口、用戶(hù)接口、關(guān)系接口、搜索接口、短鏈接口、公共服務(wù)接口和OAuth 2.0授權接口。這些接口的名稱(chēng)及功能如表9-1所示。需要注意的是，新浪微博API會(huì )不斷升級，最新的接口及功能可以到官方網(wǎng)站查閱：%E5%BE%AE%E5%8D%9AAPI。2微博API的使用方法對于每個(gè)API，新浪微博規定了其請求參數、返回字段說(shuō)明、是否需要登錄、HTTP請求方式、訪(fǎng)問(wèn)授權限制（包括訪(fǎng)問(wèn)級別、是否頻次限制）等關(guān)鍵信息。其中，請求參數是API的輸入，而返回字段是API調用的輸出結果，一般是以JSON的形式進(jìn)行封裝。HTTP請求方式支持GET和POST兩種，訪(fǎng)問(wèn)授權限制則規定了客戶(hù)端調用API的一些約束條件。詳細介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　01
　　例1：采集微博用戶(hù)個(gè)人信息
　　微博用戶(hù)的個(gè)人信息包括用戶(hù)昵稱(chēng)、簡(jiǎn)介、粉絲數、關(guān)注數、微博數等，通過(guò)調用微博開(kāi)發(fā)接口A(yíng)PI可以得到這些個(gè)人信息數據。該接口為users/show，請求參數如表9-6所示，其中參數uid與screen_name二者必選其一，且只能選其一個(gè)。
　　

　　該接口返回的信息包含了用戶(hù)的昵稱(chēng)、省份、頭像、粉絲數等等，具體介紹參見(jiàn)《Python爬蟲(chóng)大數據采集與挖掘-微課視頻版》一書(shū)
　　

　　在理解接口定義之后，可以使用Python來(lái)實(shí)現微博個(gè)人信息采集。主要過(guò)程包括按照請求參數構造、發(fā)起請求和結果的提取和轉換。具體的程序代碼和解釋如下。
　　Prog-12-weiboUserInfo.py
　　# -*- coding: utf-8 -*-from urllib import parseimport requestsimport json<br /># 調用users/show 接口def get_pinfo(access_token,uid): # 用戶(hù)個(gè)人信息字典 pinfo_dict = {} url = 'https://api.weibo.com/2/users/show.json' url_dict = {'access_token': access_token, 'uid': uid} url_param = parse.urlencode(url_dict) res=requests.get(url='%s%s%s' % (url, '?', url_param), headers=header_dict)<br /> decode_data = json.loads(res.text) pinfo_dict['昵稱(chēng)'] = decode_data['name'] pinfo_dict['簡(jiǎn)介'] = decode_data['description'] # 性別，轉換一下 if decode_data['gender'] == 'f': pinfo_dict['性別'] = '女' elif decode_data['gender'] == 'm': pinfo_dict['性別'] = '男' else: pinfo_dict['性別'] = '未知' # 注冊時(shí)間 pinfo_dict['注冊時(shí)間'] = decode_data['created_at'] # 粉絲數 pinfo_dict['粉絲數'] = decode_data['followers_count'] # 關(guān)注數 pinfo_dict['關(guān)注數'] = decode_data['friends_count'] # 微博數 pinfo_dict['微博數'] = decode_data['statuses_count'] # 收藏數 pinfo_dict['收藏數'] = decode_data['favourites_count'] return pinfo_dict<br />if __name__ == '__main__': header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'} # 填寫(xiě)access_token參數與 uid access_token = '*****************' #通過(guò)8.2節方法獲得，每個(gè)人不一樣 uid = '7059060320' pinfo = get_pinfo(access_token,uid) for key, value in pinfo.items():???????print('{k}:{v}'.format(k=key,?v=value))
　　在http請求中攜帶access_token和uid參數訪(fǎng)問(wèn)接口，獲得一個(gè)json格式的返回結果，對json進(jìn)行解析即可。運行結果如圖9-5所示。
　　

　　03
　　例2：采集微博博文
　　使用微博API獲取博文主要涉及到兩個(gè)接口，即statuses/user_timeline/ids和statuses/show。前者用于獲取用戶(hù)發(fā)布的微博的ID列表，后者是根據微博ID獲得單條微博信息內容，包括文本內容、圖片以及評論轉發(fā)情況等。以下是這兩個(gè)接口的詳細說(shuō)明。
　　(1)statuses/user_timeline/ids
　　該接口的請求參數包括采用OAuth授權后獲得的access_token，以及所需要檢索的微博用戶(hù)ID，具體定義如表9-8所示，有些參數是可選的，采用默認值。
　　

　　該接口只返回最新的5條數據，即用戶(hù)uid所發(fā)布的微博ID列表。格式如下，statuses中即為記錄列表。
　　{
　　"statuses": [
　　"33829",
　　"33829",
　　"33829",
　　...
　　],
　　"previous_cursor": 0, // 暫未支持
　　"next_cursor": 0, //暫未支持
　　"total_number": 16
　　}
　　(2)statuses/show
　　該接口的請求參數也包括采用OAuth授權后獲得的access_token，另一個(gè)就是微博ID，兩個(gè)參數均為必選，具體說(shuō)明如表9-9所示。
　　

　　該接口返回微博的相關(guān)屬性值，包括微博創(chuàng )建時(shí)間、文本內容等，具體介紹參見(jiàn)《》一書(shū)。
　　

　　下面，以statuses/user_timeline/ids接口為例來(lái)說(shuō)明具體的調用和處理方法。
　?。?）根據接口說(shuō)明構造正確的http請求。
　　閱讀在線(xiàn)接口說(shuō)明可知，該接口需要以Get方式請求，必選參數access_token，返回格式為json。其中必選參數access_token來(lái)源于OAuth授權，具體創(chuàng )建方法見(jiàn)9.2節。

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久