亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

實(shí)時(shí)文章采集

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

chinaz采集實(shí)時(shí)文章采集與一般的文章收集方式更加集中

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2022-09-03 18:01 ? 來(lái)自相關(guān)話(huà)題

　　chinaz采集實(shí)時(shí)文章采集與一般的文章收集方式更加集中
　　實(shí)時(shí)文章采集與一般的文章采集不同，chinaz的實(shí)時(shí)文章采集方式更加集中，只有關(guān)鍵詞才能進(jìn)行收集，而且，文章中的提到的公司，企業(yè)，政府單位等等信息也會(huì )收集進(jìn)行。我曾經(jīng)瀏覽過(guò)chinaz采集實(shí)時(shí)文章提到的企業(yè)，大部分中國企業(yè)都沒(méi)有收錄，有的企業(yè)寫(xiě)了不少文章，但是文章提到的企業(yè)少之又少。采集得到的數據在網(wǎng)頁(yè)底部給出了chinaz所謂的文章提供機構和企業(yè)的列表。
　　
　　在應用層面，可以收集到熱點(diǎn)新聞，數據庫是按照相關(guān)性將熱點(diǎn)新聞分類(lèi)，還可以進(jìn)行正負面評論采集，也就是你從整個(gè)列表中發(fā)現有一篇文章給人感覺(jué)負面評論很多，在今日頭條評論數高，其實(shí)可能是你當天看到的某篇文章就有如此感覺(jué)。同時(shí)，因為本地采集，無(wú)法參與新聞關(guān)鍵詞的采集，因此新聞中會(huì )有一些意外情況。但是問(wèn)題來(lái)了，很多事情不是按照你的意愿發(fā)展的，他根據自己業(yè)務(wù)發(fā)展開(kāi)始有意識的收集此類(lèi)信息，可能是幾個(gè)月的過(guò)程中開(kāi)始采集，而且做到了和百度百科一樣的關(guān)鍵詞上溯，也有一些人找到了其收集的方式方法，一傳十十傳百，最后形成集體作用，從而形成了文章的提及機構和企業(yè)。
　　在實(shí)際應用中，我覺(jué)得好處很多，我在結合目前看到的企業(yè)服務(wù)情況來(lái)分析下：第一點(diǎn)，現在直接采集新聞通過(guò)廣告鏈接的形式進(jìn)行變現的方式有相當一部分網(wǎng)站已經(jīng)有了和百度百科一樣的資料庫和閱讀指南的形式，也就是將新聞以廣告的形式進(jìn)行變現，無(wú)可厚非。因此，通過(guò)上述途徑推廣企業(yè)產(chǎn)品是否靠譜和合適，就看相關(guān)網(wǎng)站的經(jīng)濟情況。
　　
　　不過(guò)我覺(jué)得，如果應用和產(chǎn)品不追求標準化的產(chǎn)品化生產(chǎn)，不要期望上級部門(mén)和分管部門(mén)的支持，那么上級主管部門(mén)對于應用推廣的反應是否能夠滿(mǎn)足大部分經(jīng)濟能力偏弱的員工的要求，就有一定爭議性。第二點(diǎn)，高質(zhì)量?jì)热菔枪就ㄟ^(guò)內容傳播形成品牌信息的根本，目前大量企業(yè)會(huì )通過(guò)百度百科的形式獲取相關(guān)資料，但是，百科除了要追求相關(guān)性以外，還要追求長(cháng)度，我發(fā)現有的企業(yè)的百科詞條通過(guò)百度百科推廣文章，得到點(diǎn)擊率要高很多，有的企業(yè)的百科詞條不僅提及企業(yè)的基本信息，還有公司歷史成就等等，這種形式在百度百科具有明顯的優(yōu)勢，因為企業(yè)可以用不同的提煉形式，對于中小企業(yè)來(lái)說(shuō)，目前是不可能有這么多專(zhuān)業(yè)人員提煉詞條的，通過(guò)推廣文章可以快速的獲取品牌關(guān)鍵詞。
　　因此，大企業(yè)很有可能也會(huì )通過(guò)推廣文章獲取文章的相關(guān)信息，但是所獲取的品牌提煉形式我覺(jué)得一般都是知名企業(yè)的。第三點(diǎn)，另外一個(gè)問(wèn)題是百度百科是完全依靠新聞采集的口口相傳，而且采集的時(shí)間段是人家發(fā)布新聞內容的時(shí)間段，而且很可能在其所在公司或者其官。查看全部

　　chinaz采集實(shí)時(shí)文章采集與一般的文章收集方式更加集中
　　實(shí)時(shí)文章采集與一般的文章采集不同，chinaz的實(shí)時(shí)文章采集方式更加集中，只有關(guān)鍵詞才能進(jìn)行收集，而且，文章中的提到的公司，企業(yè)，政府單位等等信息也會(huì )收集進(jìn)行。我曾經(jīng)瀏覽過(guò)chinaz采集實(shí)時(shí)文章提到的企業(yè)，大部分中國企業(yè)都沒(méi)有收錄，有的企業(yè)寫(xiě)了不少文章，但是文章提到的企業(yè)少之又少。采集得到的數據在網(wǎng)頁(yè)底部給出了chinaz所謂的文章提供機構和企業(yè)的列表。
　　

　　在應用層面，可以收集到熱點(diǎn)新聞，數據庫是按照相關(guān)性將熱點(diǎn)新聞分類(lèi)，還可以進(jìn)行正負面評論采集，也就是你從整個(gè)列表中發(fā)現有一篇文章給人感覺(jué)負面評論很多，在今日頭條評論數高，其實(shí)可能是你當天看到的某篇文章就有如此感覺(jué)。同時(shí)，因為本地采集，無(wú)法參與新聞關(guān)鍵詞的采集，因此新聞中會(huì )有一些意外情況。但是問(wèn)題來(lái)了，很多事情不是按照你的意愿發(fā)展的，他根據自己業(yè)務(wù)發(fā)展開(kāi)始有意識的收集此類(lèi)信息，可能是幾個(gè)月的過(guò)程中開(kāi)始采集，而且做到了和百度百科一樣的關(guān)鍵詞上溯，也有一些人找到了其收集的方式方法，一傳十十傳百，最后形成集體作用，從而形成了文章的提及機構和企業(yè)。
　　在實(shí)際應用中，我覺(jué)得好處很多，我在結合目前看到的企業(yè)服務(wù)情況來(lái)分析下：第一點(diǎn)，現在直接采集新聞通過(guò)廣告鏈接的形式進(jìn)行變現的方式有相當一部分網(wǎng)站已經(jīng)有了和百度百科一樣的資料庫和閱讀指南的形式，也就是將新聞以廣告的形式進(jìn)行變現，無(wú)可厚非。因此，通過(guò)上述途徑推廣企業(yè)產(chǎn)品是否靠譜和合適，就看相關(guān)網(wǎng)站的經(jīng)濟情況。
　　

　　不過(guò)我覺(jué)得，如果應用和產(chǎn)品不追求標準化的產(chǎn)品化生產(chǎn)，不要期望上級部門(mén)和分管部門(mén)的支持，那么上級主管部門(mén)對于應用推廣的反應是否能夠滿(mǎn)足大部分經(jīng)濟能力偏弱的員工的要求，就有一定爭議性。第二點(diǎn)，高質(zhì)量?jì)热菔枪就ㄟ^(guò)內容傳播形成品牌信息的根本，目前大量企業(yè)會(huì )通過(guò)百度百科的形式獲取相關(guān)資料，但是，百科除了要追求相關(guān)性以外，還要追求長(cháng)度，我發(fā)現有的企業(yè)的百科詞條通過(guò)百度百科推廣文章，得到點(diǎn)擊率要高很多，有的企業(yè)的百科詞條不僅提及企業(yè)的基本信息，還有公司歷史成就等等，這種形式在百度百科具有明顯的優(yōu)勢，因為企業(yè)可以用不同的提煉形式，對于中小企業(yè)來(lái)說(shuō)，目前是不可能有這么多專(zhuān)業(yè)人員提煉詞條的，通過(guò)推廣文章可以快速的獲取品牌關(guān)鍵詞。
　　因此，大企業(yè)很有可能也會(huì )通過(guò)推廣文章獲取文章的相關(guān)信息，但是所獲取的品牌提煉形式我覺(jué)得一般都是知名企業(yè)的。第三點(diǎn)，另外一個(gè)問(wèn)題是百度百科是完全依靠新聞采集的口口相傳，而且采集的時(shí)間段是人家發(fā)布新聞內容的時(shí)間段，而且很可能在其所在公司或者其官。

小i機器人知乎站長(cháng)應該是個(gè)站長(cháng)無(wú)價(jià)買(mǎi)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-09-03 00:01 ? 來(lái)自相關(guān)話(huà)題

　　小i機器人知乎站長(cháng)應該是個(gè)站長(cháng)無(wú)價(jià)買(mǎi)
　　實(shí)時(shí)文章采集、公眾號聚合搜索、電商導購、有價(jià)信息聚合、無(wú)價(jià)購買(mǎi)等等領(lǐng)域已經(jīng)有一些很不錯的站點(diǎn)，相信隨著(zhù)cornlinks的支持，小i機器人的規模也會(huì )擴大?？上ornlinks目前的相關(guān)新聞，特別是安全問(wèn)題都很少，小i機器人也自然不敢隨便做這些事情。
　　無(wú)價(jià)信息中有很多好東西，可能大部分還沒(méi)被發(fā)現。
　　
　　基于oauth2.0的無(wú)價(jià)服務(wù)還是比較有創(chuàng )新性的。這個(gè)站點(diǎn)以后就要轉型來(lái)做，并且可能只會(huì )有分享型的無(wú)價(jià)服務(wù)?，F在有監管要求平臺不能收費推廣銷(xiāo)售產(chǎn)品，在分享當中帶有偏重的商業(yè)性，這個(gè)站點(diǎn)提供無(wú)價(jià)購買(mǎi)產(chǎn)品的信息。
　　小i機器人知乎站長(cháng)建站公司小i機器人（深圳）網(wǎng)絡(luò )科技有限公司
　　oauth2.0嘛，都會(huì )有的，尤其是有價(jià)信息（lbs的商家信息，向微信公眾號導流量，淘寶店導流量，
　　
　　查了下小i機器人知乎站長(cháng)應該是個(gè)站長(cháng)
　　無(wú)價(jià)買(mǎi)，
　　我個(gè)人感覺(jué)小i機器人知乎站長(cháng)挺有創(chuàng )新意識的，像小i自媒體剛入駐的時(shí)候創(chuàng )造性的設計一個(gè)粉絲互動(dòng)（在站內進(jìn)行自主推送，粉絲可自行隨時(shí)點(diǎn)擊進(jìn)入，或者關(guān)注自動(dòng)推送），把用戶(hù)粘性粘的很牢固，就和種地一樣，農作物好了，不一定就賣(mài)的好。我覺(jué)得小i機器人知乎站長(cháng)應該算是真正的大智若愚，大道至簡(jiǎn)，值得欽佩。查看全部

　　小i機器人知乎站長(cháng)應該是個(gè)站長(cháng)無(wú)價(jià)買(mǎi)
　　實(shí)時(shí)文章采集、公眾號聚合搜索、電商導購、有價(jià)信息聚合、無(wú)價(jià)購買(mǎi)等等領(lǐng)域已經(jīng)有一些很不錯的站點(diǎn)，相信隨著(zhù)cornlinks的支持，小i機器人的規模也會(huì )擴大?？上ornlinks目前的相關(guān)新聞，特別是安全問(wèn)題都很少，小i機器人也自然不敢隨便做這些事情。
　　無(wú)價(jià)信息中有很多好東西，可能大部分還沒(méi)被發(fā)現。
　　

　　基于oauth2.0的無(wú)價(jià)服務(wù)還是比較有創(chuàng )新性的。這個(gè)站點(diǎn)以后就要轉型來(lái)做，并且可能只會(huì )有分享型的無(wú)價(jià)服務(wù)?，F在有監管要求平臺不能收費推廣銷(xiāo)售產(chǎn)品，在分享當中帶有偏重的商業(yè)性，這個(gè)站點(diǎn)提供無(wú)價(jià)購買(mǎi)產(chǎn)品的信息。
　　小i機器人知乎站長(cháng)建站公司小i機器人（深圳）網(wǎng)絡(luò )科技有限公司
　　oauth2.0嘛，都會(huì )有的，尤其是有價(jià)信息（lbs的商家信息，向微信公眾號導流量，淘寶店導流量，
　　

　　查了下小i機器人知乎站長(cháng)應該是個(gè)站長(cháng)
　　無(wú)價(jià)買(mǎi)，
　　我個(gè)人感覺(jué)小i機器人知乎站長(cháng)挺有創(chuàng )新意識的，像小i自媒體剛入駐的時(shí)候創(chuàng )造性的設計一個(gè)粉絲互動(dòng)（在站內進(jìn)行自主推送，粉絲可自行隨時(shí)點(diǎn)擊進(jìn)入，或者關(guān)注自動(dòng)推送），把用戶(hù)粘性粘的很牢固，就和種地一樣，農作物好了，不一定就賣(mài)的好。我覺(jué)得小i機器人知乎站長(cháng)應該算是真正的大智若愚，大道至簡(jiǎn)，值得欽佩。

實(shí)時(shí)文章采集與發(fā)布?(一):構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論數量

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 409 次瀏覽 ? 2022-08-15 01:01 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集與發(fā)布?(一):構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論數量
　　實(shí)時(shí)文章采集與發(fā)布?特別聲明：本篇文章為原創(chuàng )，轉載時(shí)請務(wù)必注明作者和來(lái)源學(xué)習所有數據分析方法論專(zhuān)欄，如需轉載請聯(lián)系本人，并注明出處。
　　一、通過(guò)python爬取sony旗艦店所有電子產(chǎn)品的數據（不包括體積大于100cm3的生活用品，即裝不下的產(chǎn)品，
　　1、爬取iphone產(chǎn)品
　　2、爬取mac產(chǎn)品
　　3、爬取imac產(chǎn)品
　　4、爬取iphonepro
　　5、爬取imacpro
　　6、爬取macmini
　　二、準備工作
　　1、分析網(wǎng)頁(yè)：數據分析這里為通過(guò)爬蟲(chóng)進(jìn)行，進(jìn)入到此類(lèi)網(wǎng)站首先需要看他們的數據來(lái)源，進(jìn)入到數據來(lái)源頁(yè)可以得到很多的數據抓取。
　　
　　2、安裝相關(guān)爬蟲(chóng)工具：easybcd
　　3、工具準備
　　4、準備工作二
　　5、獲取數據
　　三、構建網(wǎng)絡(luò )網(wǎng)絡(luò )構建
　　四、數據爬取可視化網(wǎng)絡(luò )爬取可視化
　　1、數據采集
　　2、數據可視化
　　七、可視化圖表
　　一、數據采集#1采集數據提取商品id#2構建網(wǎng)絡(luò )爬蟲(chóng)采集時(shí)間，每2s時(shí)采集下一條商品記錄，
　　3、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品名稱(chēng)（數據采集時(shí)需定義網(wǎng)絡(luò )爬蟲(chóng)采集下一條商品記錄的商品名）#3構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論數量商品id
　　
　　4、構建數據采集成功商品
　　二、數據采集
　　1、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品類(lèi)型說(shuō)明
　　2、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論
　　3、爬取商品評論
　　四、構建數據采集樹(shù)
　　1、網(wǎng)絡(luò )爬蟲(chóng)采集商品名稱(chēng)（數據采集時(shí)需定義網(wǎng)絡(luò )爬蟲(chóng)采集下一條商品記錄的商品名）
　　2、商品采集數量構建采集樹(shù)：
　　1、采集商品名稱(chēng)
　　2、采集評論
　　3、采集評論概覽-為爬取圖片提供分析數據查看全部

　　實(shí)時(shí)文章采集與發(fā)布?(一):構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論數量
　　實(shí)時(shí)文章采集與發(fā)布?特別聲明：本篇文章為原創(chuàng )，轉載時(shí)請務(wù)必注明作者和來(lái)源學(xué)習所有數據分析方法論專(zhuān)欄，如需轉載請聯(lián)系本人，并注明出處。
　　一、通過(guò)python爬取sony旗艦店所有電子產(chǎn)品的數據（不包括體積大于100cm3的生活用品，即裝不下的產(chǎn)品，
　　1、爬取iphone產(chǎn)品
　　2、爬取mac產(chǎn)品
　　3、爬取imac產(chǎn)品
　　4、爬取iphonepro
　　5、爬取imacpro
　　6、爬取macmini
　　二、準備工作
　　1、分析網(wǎng)頁(yè)：數據分析這里為通過(guò)爬蟲(chóng)進(jìn)行，進(jìn)入到此類(lèi)網(wǎng)站首先需要看他們的數據來(lái)源，進(jìn)入到數據來(lái)源頁(yè)可以得到很多的數據抓取。
　　

　　2、安裝相關(guān)爬蟲(chóng)工具：easybcd
　　3、工具準備
　　4、準備工作二
　　5、獲取數據
　　三、構建網(wǎng)絡(luò )網(wǎng)絡(luò )構建
　　四、數據爬取可視化網(wǎng)絡(luò )爬取可視化
　　1、數據采集
　　2、數據可視化
　　七、可視化圖表
　　一、數據采集#1采集數據提取商品id#2構建網(wǎng)絡(luò )爬蟲(chóng)采集時(shí)間，每2s時(shí)采集下一條商品記錄，
　　3、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品名稱(chēng)（數據采集時(shí)需定義網(wǎng)絡(luò )爬蟲(chóng)采集下一條商品記錄的商品名）#3構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論數量商品id
　　

　　4、構建數據采集成功商品
　　二、數據采集
　　1、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品類(lèi)型說(shuō)明
　　2、構建網(wǎng)絡(luò )爬蟲(chóng)采集商品評論
　　3、爬取商品評論
　　四、構建數據采集樹(shù)
　　1、網(wǎng)絡(luò )爬蟲(chóng)采集商品名稱(chēng)（數據采集時(shí)需定義網(wǎng)絡(luò )爬蟲(chóng)采集下一條商品記錄的商品名）
　　2、商品采集數量構建采集樹(shù)：
　　1、采集商品名稱(chēng)
　　2、采集評論
　　3、采集評論概覽-為爬取圖片提供分析數據

淘寶實(shí)時(shí)文章采集按正負兩級分類(lèi)是什么？怎么破？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 91 次瀏覽 ? 2022-08-13 12:29 ? 來(lái)自相關(guān)話(huà)題

　　淘寶實(shí)時(shí)文章采集按正負兩級分類(lèi)是什么？怎么破？
　　實(shí)時(shí)文章采集按正負兩級分類(lèi)。比如標題是正值，其他是負值。按照書(shū)名標簽，按書(shū)籍類(lèi)型自動(dòng)添加到采集分類(lèi)列表，按采集書(shū)籍標簽屬性自動(dòng)對采集內容分組等。按“字”對漢字進(jìn)行分組。按照“搜索”按鈕對書(shū)籍進(jìn)行分組搜索。比如搜索“架構與算法”，會(huì )自動(dòng)從書(shū)籍列表中按書(shū)名搜索出書(shū)籍，從內容搜索出“架構與算法”。文章鏈接文章頁(yè)面右側有“只看”按鈕，點(diǎn)擊按鈕可只看標題和作者頁(yè)面。
　　
　　淘寶有個(gè)自動(dòng)刷新的功能，也是類(lèi)似效果。文章框架以采集列表標題或書(shū)名為起點(diǎn)，每頁(yè)采集一級分類(lèi)及子分類(lèi)文章，當采集到多級分類(lèi)及子分類(lèi)文章后，逐級采集。比如對下面采集的標題“架構與算法”第一頁(yè)設置列表是“架構與算法”，下面設置每頁(yè)為1級，然后點(diǎn)擊“只看”按鈕自動(dòng)刷新到下一級標題，下下一級標題采集完成之后再循環(huán)設置自動(dòng)刷新功能。
　　比如對“架構與算法”第一頁(yè)設置列表是“架構與算法”，下面設置每頁(yè)為1級，然后點(diǎn)擊“只看”按鈕可只看第一頁(yè)，第二頁(yè)第三頁(yè)第四頁(yè)不再刷新。只看標題列表頁(yè)面在比如上面設置標題，列表是“架構與算法”，子標題是“風(fēng)險管理與技術(shù)”，下面設置每頁(yè)第一頁(yè)第二頁(yè)第三頁(yè)不再刷新。那么采集完第一頁(yè)列表和子標題后就不用再循環(huán)一次了。
　　
　　刷新標題列表頁(yè)面有個(gè)習慣問(wèn)題，通常你想把一個(gè)多級分類(lèi)的列表切分為幾個(gè)子標題列表，比如一級分類(lèi)是“經(jīng)濟”，有20個(gè)子標題：“架構與算法”、“架構與算法”、“風(fēng)險管理與技術(shù)”，上面的操作需要20頁(yè)，也就是需要40頁(yè)，把列表切分為不到20頁(yè)，就可以省略列表采集了。找到書(shū)簽然后添加上去。書(shū)簽的樣式請參考官方教程《30天采集一本書(shū)》。
　　圖片按書(shū)籍標簽由于每個(gè)文章根據書(shū)籍類(lèi)型不同，有標題清晰不同，有作者不同。比如對《機器學(xué)習》，有作者是李航，有作者是李開(kāi)復，有作者是李書(shū)宏，比如對《數據庫系統入門(mén)》，有作者是施永宏，有作者是施永宏。對于采集第二頁(yè)和第三頁(yè)設置的是標題清晰的，對于采集第四頁(yè)和第五頁(yè)設置的是作者不同的。如果標題里作者不同，可以按照作者順序采集。查看全部

　　淘寶實(shí)時(shí)文章采集按正負兩級分類(lèi)是什么？怎么破？
　　實(shí)時(shí)文章采集按正負兩級分類(lèi)。比如標題是正值，其他是負值。按照書(shū)名標簽，按書(shū)籍類(lèi)型自動(dòng)添加到采集分類(lèi)列表，按采集書(shū)籍標簽屬性自動(dòng)對采集內容分組等。按“字”對漢字進(jìn)行分組。按照“搜索”按鈕對書(shū)籍進(jìn)行分組搜索。比如搜索“架構與算法”，會(huì )自動(dòng)從書(shū)籍列表中按書(shū)名搜索出書(shū)籍，從內容搜索出“架構與算法”。文章鏈接文章頁(yè)面右側有“只看”按鈕，點(diǎn)擊按鈕可只看標題和作者頁(yè)面。
　　

　　淘寶有個(gè)自動(dòng)刷新的功能，也是類(lèi)似效果。文章框架以采集列表標題或書(shū)名為起點(diǎn)，每頁(yè)采集一級分類(lèi)及子分類(lèi)文章，當采集到多級分類(lèi)及子分類(lèi)文章后，逐級采集。比如對下面采集的標題“架構與算法”第一頁(yè)設置列表是“架構與算法”，下面設置每頁(yè)為1級，然后點(diǎn)擊“只看”按鈕自動(dòng)刷新到下一級標題，下下一級標題采集完成之后再循環(huán)設置自動(dòng)刷新功能。
　　比如對“架構與算法”第一頁(yè)設置列表是“架構與算法”，下面設置每頁(yè)為1級，然后點(diǎn)擊“只看”按鈕可只看第一頁(yè)，第二頁(yè)第三頁(yè)第四頁(yè)不再刷新。只看標題列表頁(yè)面在比如上面設置標題，列表是“架構與算法”，子標題是“風(fēng)險管理與技術(shù)”，下面設置每頁(yè)第一頁(yè)第二頁(yè)第三頁(yè)不再刷新。那么采集完第一頁(yè)列表和子標題后就不用再循環(huán)一次了。
　　

　　刷新標題列表頁(yè)面有個(gè)習慣問(wèn)題，通常你想把一個(gè)多級分類(lèi)的列表切分為幾個(gè)子標題列表，比如一級分類(lèi)是“經(jīng)濟”，有20個(gè)子標題：“架構與算法”、“架構與算法”、“風(fēng)險管理與技術(shù)”，上面的操作需要20頁(yè)，也就是需要40頁(yè)，把列表切分為不到20頁(yè)，就可以省略列表采集了。找到書(shū)簽然后添加上去。書(shū)簽的樣式請參考官方教程《30天采集一本書(shū)》。
　　圖片按書(shū)籍標簽由于每個(gè)文章根據書(shū)籍類(lèi)型不同，有標題清晰不同，有作者不同。比如對《機器學(xué)習》，有作者是李航，有作者是李開(kāi)復，有作者是李書(shū)宏，比如對《數據庫系統入門(mén)》，有作者是施永宏，有作者是施永宏。對于采集第二頁(yè)和第三頁(yè)設置的是標題清晰的，對于采集第四頁(yè)和第五頁(yè)設置的是作者不同的。如果標題里作者不同，可以按照作者順序采集。

telegram的用戶(hù)體驗和騰訊相比還是落下一大截？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 75 次瀏覽 ? 2022-08-08 11:03 ? 來(lái)自相關(guān)話(huà)題

　　telegram的用戶(hù)體驗和騰訊相比還是落下一大截？
　　實(shí)時(shí)文章采集。telegram能夠向你推送高清全景照片，用googleshopping（賣(mài)給淘寶買(mǎi)家）或者facebook要廣告(賣(mài)給消費者)都有方法。但是我更想說(shuō)的是，telegram幾乎所有用戶(hù)是小公司，對于中國用戶(hù)沒(méi)有任何價(jià)值。screenshot能夠自動(dòng)保存圖片發(fā)送網(wǎng)站之后的文字圖片，用來(lái)與google競爭是非常具有市場(chǎng)競爭力的。
　　
　　我覺(jué)得screenshot還是算好用，但是一個(gè)被墻的外國服務(wù)，還不能對中國網(wǎng)絡(luò )下手，難度太大。其他的就不說(shuō)了，上面的回答基本都在中國看到過(guò)，只是不見(jiàn)效果而已。
　　微信為什么只能通過(guò)它加whatsapp和facebook好友，而不能通過(guò)朋友圈發(fā)鏈接加人？加個(gè)外國人，比想象中難度還要大，要不是免費，憑什么樂(lè )意給中國人去當試驗品。微信想要上架多語(yǔ)言，語(yǔ)言要搭配才行。
　　
　　微信很努力的在跟telegram學(xué)習。比如拉黑不再是一個(gè)人，telegram可以申請多個(gè)帳號一起拉黑。還有如果遇到設備不支持emac或mac平臺的，微信的app還提供相應的工具來(lái)輔助切換。不過(guò)市場(chǎng)來(lái)說(shuō)，肯定是telegram更大。
　　跟騰訊相比，telegram的市場(chǎng)絕對是被騰訊完爆的，但是telegram的用戶(hù)群體更廣，既然是嘗試那就走點(diǎn)創(chuàng )新。用戶(hù)體驗和騰訊相比還是落下一大截。不過(guò)我感覺(jué)這并不影響微信在移動(dòng)端擁有用戶(hù)群。
　　多文本采集要不是這個(gè)外國產(chǎn)品whatsapp先出現，查看全部

　　telegram的用戶(hù)體驗和騰訊相比還是落下一大截？
　　實(shí)時(shí)文章采集。telegram能夠向你推送高清全景照片，用googleshopping（賣(mài)給淘寶買(mǎi)家）或者facebook要廣告(賣(mài)給消費者)都有方法。但是我更想說(shuō)的是，telegram幾乎所有用戶(hù)是小公司，對于中國用戶(hù)沒(méi)有任何價(jià)值。screenshot能夠自動(dòng)保存圖片發(fā)送網(wǎng)站之后的文字圖片，用來(lái)與google競爭是非常具有市場(chǎng)競爭力的。
　　

　　我覺(jué)得screenshot還是算好用，但是一個(gè)被墻的外國服務(wù)，還不能對中國網(wǎng)絡(luò )下手，難度太大。其他的就不說(shuō)了，上面的回答基本都在中國看到過(guò)，只是不見(jiàn)效果而已。
　　微信為什么只能通過(guò)它加whatsapp和facebook好友，而不能通過(guò)朋友圈發(fā)鏈接加人？加個(gè)外國人，比想象中難度還要大，要不是免費，憑什么樂(lè )意給中國人去當試驗品。微信想要上架多語(yǔ)言，語(yǔ)言要搭配才行。
　　

　　微信很努力的在跟telegram學(xué)習。比如拉黑不再是一個(gè)人，telegram可以申請多個(gè)帳號一起拉黑。還有如果遇到設備不支持emac或mac平臺的，微信的app還提供相應的工具來(lái)輔助切換。不過(guò)市場(chǎng)來(lái)說(shuō)，肯定是telegram更大。
　　跟騰訊相比，telegram的市場(chǎng)絕對是被騰訊完爆的，但是telegram的用戶(hù)群體更廣，既然是嘗試那就走點(diǎn)創(chuàng )新。用戶(hù)體驗和騰訊相比還是落下一大截。不過(guò)我感覺(jué)這并不影響微信在移動(dòng)端擁有用戶(hù)群。
　　多文本采集要不是這個(gè)外國產(chǎn)品whatsapp先出現，

實(shí)時(shí)文章采集途徑有哪些？官方的websearchsystem采集工具

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-07-31 07:02 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集途徑有哪些？官方的websearchsystem采集工具
　　實(shí)時(shí)文章采集途徑有很多：
　　1、productbooter文章采集，網(wǎng)址：）productbooter是免費的wordpress免費文章采集工具。
　　2、seochat（）seochat采集并通過(guò)esp去自動(dòng)化采集各類(lèi)網(wǎng)站。
　　3、fiverr（）fiverr是一個(gè)創(chuàng )造各類(lèi)網(wǎng)絡(luò )小工具的網(wǎng)站，主要銷(xiāo)售的產(chǎn)品：wordpress，github，codeplex等網(wǎng)站的各類(lèi)服務(wù)。
　　
　　4、jswaneditor（）jswaneditor是用來(lái)免費采集網(wǎng)頁(yè)上的js文件，下載地址：）簡(jiǎn)單分享，喜歡的別忘了點(diǎn)個(gè)贊喲。
　　利用googleanalytics在chrome上的js插件。當你瀏覽網(wǎng)頁(yè)時(shí)，他會(huì )分析整個(gè)站點(diǎn)上的所有頁(yè)面，幫你發(fā)現目標頁(yè)面。當然，相應的地址采集插件也是有的。
　　如果你想要更加安全可靠，
　　productbooter可以。這個(gè)采集軟件功能強大到有點(diǎn)“神經(jīng)病”。
　　seochat也可以做，
　　
　　豬八戒
　　推薦個(gè)老外的網(wǎng)站，可以在線(xiàn)采集。
　　wordpress官方的websearchsystem都可以
　　一般來(lái)說(shuō)wordpress的官方的網(wǎng)站是不會(huì )把自己所有的產(chǎn)品放出來(lái)的，
　　sitemax。不過(guò)官網(wǎng)上只有5款插件，我們準備準備（30款！超過(guò)60個(gè)插件?。┰訇懤m上架五十多款插件。查看全部

　　實(shí)時(shí)文章采集途徑有哪些？官方的websearchsystem采集工具
　　實(shí)時(shí)文章采集途徑有很多：
　　1、productbooter文章采集，網(wǎng)址：）productbooter是免費的wordpress免費文章采集工具。
　　2、seochat（）seochat采集并通過(guò)esp去自動(dòng)化采集各類(lèi)網(wǎng)站。
　　3、fiverr（）fiverr是一個(gè)創(chuàng )造各類(lèi)網(wǎng)絡(luò )小工具的網(wǎng)站，主要銷(xiāo)售的產(chǎn)品：wordpress，github，codeplex等網(wǎng)站的各類(lèi)服務(wù)。
　　

　　4、jswaneditor（）jswaneditor是用來(lái)免費采集網(wǎng)頁(yè)上的js文件，下載地址：）簡(jiǎn)單分享，喜歡的別忘了點(diǎn)個(gè)贊喲。
　　利用googleanalytics在chrome上的js插件。當你瀏覽網(wǎng)頁(yè)時(shí)，他會(huì )分析整個(gè)站點(diǎn)上的所有頁(yè)面，幫你發(fā)現目標頁(yè)面。當然，相應的地址采集插件也是有的。
　　如果你想要更加安全可靠，
　　productbooter可以。這個(gè)采集軟件功能強大到有點(diǎn)“神經(jīng)病”。
　　seochat也可以做，
　　

　　豬八戒
　　推薦個(gè)老外的網(wǎng)站，可以在線(xiàn)采集。
　　wordpress官方的websearchsystem都可以
　　一般來(lái)說(shuō)wordpress的官方的網(wǎng)站是不會(huì )把自己所有的產(chǎn)品放出來(lái)的，
　　sitemax。不過(guò)官網(wǎng)上只有5款插件，我們準備準備（30款！超過(guò)60個(gè)插件?。┰訇懤m上架五十多款插件。

興趣文章采集系統、采集插件、ip采集、php抓包

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 108 次瀏覽 ? 2022-07-27 07:01 ? 來(lái)自相關(guān)話(huà)題

　　興趣文章采集系統、采集插件、ip采集、php抓包
　　實(shí)時(shí)文章采集上小編也嘗試了很多，最終還是選用興趣文章采集系統，綜合了興趣文章采集系統、采集插件、cookie采集、ip采集、php抓包、sql抓包和方法。大量文章采集問(wèn)：文章采集方法？當然是采集插件！跟php腳本不同，用興趣文章采集采集插件采集，而興趣文章采集采集插件還帶有多種素材庫，以及多種采集技巧。
　　
　　url選擇：文章標題|圖片|鏈接篇幅限制：超過(guò)50篇，不支持qq群管理管理組織架構：支持ip采集常用采集器：采集之家網(wǎng)站：php抓包|qq群管理_cookie采集。
　　想想要采集什么文章的話(huà)，
　　
　　我們團隊用，他家的采集器很多人都用過(guò)，提供免費版功能也比較齊全，也比較穩定，數據量超大還是可以上傳到ga進(jìn)行分析。目前他家還在在全國開(kāi)發(fā)海量ip，存儲數據，
　　abc采集器網(wǎng)頁(yè)爬蟲(chóng)，我覺(jué)得挺好用的，他們是在采集工具中首先給了每個(gè)文章的采集鏈接地址，爬蟲(chóng)直接去采集，不需要在自己爬。所以速度方面肯定是很快的。你要是需要的話(huà)，可以去他們公眾號，里面有個(gè)多米果園板塊，那里全部都是免費的采集器，你可以看看這個(gè)。
　　我自己用，3.3m大小的采集器，數據源是外文網(wǎng)站，速度也還可以，可以直接上傳至ga進(jìn)行分析分析。同時(shí)也提供多種形式的采集方式，可以上傳網(wǎng)站地址，或者是爬蟲(chóng)地址，來(lái)爬取。查看全部

　　興趣文章采集系統、采集插件、ip采集、php抓包
　　實(shí)時(shí)文章采集上小編也嘗試了很多，最終還是選用興趣文章采集系統，綜合了興趣文章采集系統、采集插件、cookie采集、ip采集、php抓包、sql抓包和方法。大量文章采集問(wèn)：文章采集方法？當然是采集插件！跟php腳本不同，用興趣文章采集采集插件采集，而興趣文章采集采集插件還帶有多種素材庫，以及多種采集技巧。
　　

　　url選擇：文章標題|圖片|鏈接篇幅限制：超過(guò)50篇，不支持qq群管理管理組織架構：支持ip采集常用采集器：采集之家網(wǎng)站：php抓包|qq群管理_cookie采集。
　　想想要采集什么文章的話(huà)，
　　

　　我們團隊用，他家的采集器很多人都用過(guò)，提供免費版功能也比較齊全，也比較穩定，數據量超大還是可以上傳到ga進(jìn)行分析。目前他家還在在全國開(kāi)發(fā)海量ip，存儲數據，
　　abc采集器網(wǎng)頁(yè)爬蟲(chóng)，我覺(jué)得挺好用的，他們是在采集工具中首先給了每個(gè)文章的采集鏈接地址，爬蟲(chóng)直接去采集，不需要在自己爬。所以速度方面肯定是很快的。你要是需要的話(huà)，可以去他們公眾號，里面有個(gè)多米果園板塊，那里全部都是免費的采集器，你可以看看這個(gè)。
　　我自己用，3.3m大小的采集器，數據源是外文網(wǎng)站，速度也還可以，可以直接上傳至ga進(jìn)行分析分析。同時(shí)也提供多種形式的采集方式，可以上傳網(wǎng)站地址，或者是爬蟲(chóng)地址，來(lái)爬取。

實(shí)時(shí)文章采集的兩個(gè)目的。（一）站長(cháng)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2022-07-17 01:00 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集的兩個(gè)目的。（一）站長(cháng)
　　
　　實(shí)時(shí)文章采集。定時(shí)文章采集。兩個(gè)目的。1，將微信公眾號文章推送到自己的訂閱號里，2，把未讀文章在時(shí)間軸上標注。一，文章采集。1，網(wǎng)上百度“文章采集軟件”,會(huì )出現一堆軟件，有博客采集器，圖片采集器，視頻采集器，app推送采集器，還有免費，付費的。多種選擇，選擇最合適自己的！2，把自己需要的圖片，視頻，音頻通過(guò)關(guān)鍵詞搜索進(jìn)入萬(wàn)能的淘寶，搜索框輸入“采集”，等待篩選結果。
　　
　　每天，每隔幾分鐘進(jìn)行對比，不斷清理該軟件。3，找一些免費的在線(xiàn)文章采集工具。如。5118站長(cháng)工具箱，在線(xiàn)的網(wǎng)頁(yè)內容采集工具。如，可以爬取新浪微博，搜狐微博，微信公眾號里的文章。如。草料二，定時(shí)文章采集。1，微信公眾號，小程序不停的發(fā)文章。2，將采集到的文章，復制粘貼到officeword里面進(jìn)行排版。
　　如，officeword3，word里面的內容，也是作為采集的來(lái)源。4，每日文章更新，定時(shí)定時(shí)的看看微信文章有沒(méi)有更新，可以采集。比如，今天晚上6點(diǎn)，再看看有沒(méi)有新的文章內容。以上，我一般采集哪些公眾號的文章，推薦給自己，采集可以爬網(wǎng)站或者是鏈接，數據來(lái)源于網(wǎng)絡(luò )。有可能是廣告，但是我覺(jué)得無(wú)所謂，既然要采集，就必須長(cháng)期采集。對知識會(huì )產(chǎn)生對應的收獲，以上僅供參考。查看全部

　　實(shí)時(shí)文章采集的兩個(gè)目的。（一）站長(cháng)
　　

　　實(shí)時(shí)文章采集。定時(shí)文章采集。兩個(gè)目的。1，將微信公眾號文章推送到自己的訂閱號里，2，把未讀文章在時(shí)間軸上標注。一，文章采集。1，網(wǎng)上百度“文章采集軟件”,會(huì )出現一堆軟件，有博客采集器，圖片采集器，視頻采集器，app推送采集器，還有免費，付費的。多種選擇，選擇最合適自己的！2，把自己需要的圖片，視頻，音頻通過(guò)關(guān)鍵詞搜索進(jìn)入萬(wàn)能的淘寶，搜索框輸入“采集”，等待篩選結果。
　　

　　每天，每隔幾分鐘進(jìn)行對比，不斷清理該軟件。3，找一些免費的在線(xiàn)文章采集工具。如。5118站長(cháng)工具箱，在線(xiàn)的網(wǎng)頁(yè)內容采集工具。如，可以爬取新浪微博，搜狐微博，微信公眾號里的文章。如。草料二，定時(shí)文章采集。1，微信公眾號，小程序不停的發(fā)文章。2，將采集到的文章，復制粘貼到officeword里面進(jìn)行排版。
　　如，officeword3，word里面的內容，也是作為采集的來(lái)源。4，每日文章更新，定時(shí)定時(shí)的看看微信文章有沒(méi)有更新，可以采集。比如，今天晚上6點(diǎn)，再看看有沒(méi)有新的文章內容。以上，我一般采集哪些公眾號的文章，推薦給自己，采集可以爬網(wǎng)站或者是鏈接，數據來(lái)源于網(wǎng)絡(luò )。有可能是廣告，但是我覺(jué)得無(wú)所謂，既然要采集，就必須長(cháng)期采集。對知識會(huì )產(chǎn)生對應的收獲，以上僅供參考。

實(shí)時(shí)文章采集和分析平臺（010）010提供

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 101 次瀏覽 ? 2022-07-16 08:03 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集和分析平臺（010）010提供
　　實(shí)時(shí)文章采集和分析平臺（）qkd010提供實(shí)時(shí)文章采集功能，在申請專(zhuān)欄內有權限的用戶(hù)均可以訪(fǎng)問(wèn)實(shí)時(shí)文章采集平臺，文章全網(wǎng)通用，不分作者id，不限形式，開(kāi)放平臺。實(shí)時(shí)文章采集平臺支持采集所有的文章信息，包括文章標題、作者、鏈接地址等。網(wǎng)站的實(shí)時(shí)文章采集還支持對國內主流網(wǎng)站和國外主流網(wǎng)站進(jìn)行實(shí)時(shí)文章采集，使網(wǎng)站鏈接不再成為文章信息的固定格式。
　　
　　本平臺采集功能和國內主流文章平臺類(lèi)似，無(wú)差異，同樣支持關(guān)鍵詞搜索，可以進(jìn)行高并發(fā)的采集。實(shí)時(shí)文章采集平臺整站將集中有效內容，部署到云端服務(wù)器上，任何計算節點(diǎn)將采集完成后的文章信息存儲于對應的服務(wù)器中，同時(shí)也支持在此之上建立靜態(tài)網(wǎng)站，讓自己的內容可以同步到多臺服務(wù)器進(jìn)行云端存儲?？勺孕邢螺d的同時(shí)保存到本地電腦端，也可以直接通過(guò)騰訊云控制臺在線(xiàn)管理，實(shí)時(shí)文章采集的實(shí)時(shí)可定時(shí)上傳。
　　具體參見(jiàn)下圖：注意：使用此方法申請的專(zhuān)欄只能同步到云服務(wù)器，沒(méi)有專(zhuān)欄申請的用戶(hù)不能申請。同步文章的時(shí)候，需要將本平臺的文章同步到云服務(wù)器上?？砂葱鑼⒈酒脚_和云服務(wù)器上的文章一起上傳，也可以分開(kāi)上傳，這種操作方式要求作者不能同時(shí)運行兩個(gè)平臺，在實(shí)時(shí)文章采集中要選擇獨立單臺服務(wù)器進(jìn)行同步。同步的文章信息將在云服務(wù)器文件中體現，云服務(wù)器文件是單獨保存的。
　　
　　因此用戶(hù)需要將文章信息分類(lèi)保存到不同的文件夾內，待上傳該文件夾內的文章后同步操作完成即可完成。實(shí)時(shí)文章采集平臺支持手機客戶(hù)端和網(wǎng)頁(yè)端下載，手機端的下載比較容易。網(wǎng)頁(yè)端無(wú)法下載，不過(guò)據我所知手機端已經(jīng)開(kāi)發(fā)好了，敬請期待。網(wǎng)頁(yè)端的下載地址：實(shí)時(shí)文章采集功能支持對全網(wǎng)范圍進(jìn)行所有賬號，所有文章和作者名進(jìn)行實(shí)時(shí)采集，也支持申請一個(gè)有資質(zhì)的實(shí)時(shí)文章采集團隊，為用戶(hù)提供更好的采集體驗。
　　網(wǎng)站鏈接更新功能將保持按實(shí)時(shí)文章采集平臺的規則更新，從2016年8月1日開(kāi)始到9月20日，將從文章的左側欄目【原創(chuàng )文章】【最新文章】中獲取新發(fā)布文章作為樣本推送給文章采集后臺。文章的鏈接已在【原創(chuàng )文章】頁(yè)面中可以自定義查看更新時(shí)間。更新后文章全網(wǎng)可見(jiàn)。新增采集文章列表和展示圖功能功能包括采集文章標題，列表和展示圖等，對應的操作步驟見(jiàn)下圖：下載示例下載示例需要準備文章標題和鏈接，復制文章標題至云服務(wù)器文件夾內即可?？梢陨蟼黛o態(tài)頁(yè)面，然后使用seui開(kāi)發(fā)者工具的導入功能生成靜態(tài)頁(yè)面導入即可。查看全部

　　實(shí)時(shí)文章采集和分析平臺（010）010提供
　　實(shí)時(shí)文章采集和分析平臺（）qkd010提供實(shí)時(shí)文章采集功能，在申請專(zhuān)欄內有權限的用戶(hù)均可以訪(fǎng)問(wèn)實(shí)時(shí)文章采集平臺，文章全網(wǎng)通用，不分作者id，不限形式，開(kāi)放平臺。實(shí)時(shí)文章采集平臺支持采集所有的文章信息，包括文章標題、作者、鏈接地址等。網(wǎng)站的實(shí)時(shí)文章采集還支持對國內主流網(wǎng)站和國外主流網(wǎng)站進(jìn)行實(shí)時(shí)文章采集，使網(wǎng)站鏈接不再成為文章信息的固定格式。
　　

　　本平臺采集功能和國內主流文章平臺類(lèi)似，無(wú)差異，同樣支持關(guān)鍵詞搜索，可以進(jìn)行高并發(fā)的采集。實(shí)時(shí)文章采集平臺整站將集中有效內容，部署到云端服務(wù)器上，任何計算節點(diǎn)將采集完成后的文章信息存儲于對應的服務(wù)器中，同時(shí)也支持在此之上建立靜態(tài)網(wǎng)站，讓自己的內容可以同步到多臺服務(wù)器進(jìn)行云端存儲?？勺孕邢螺d的同時(shí)保存到本地電腦端，也可以直接通過(guò)騰訊云控制臺在線(xiàn)管理，實(shí)時(shí)文章采集的實(shí)時(shí)可定時(shí)上傳。
　　具體參見(jiàn)下圖：注意：使用此方法申請的專(zhuān)欄只能同步到云服務(wù)器，沒(méi)有專(zhuān)欄申請的用戶(hù)不能申請。同步文章的時(shí)候，需要將本平臺的文章同步到云服務(wù)器上?？砂葱鑼⒈酒脚_和云服務(wù)器上的文章一起上傳，也可以分開(kāi)上傳，這種操作方式要求作者不能同時(shí)運行兩個(gè)平臺，在實(shí)時(shí)文章采集中要選擇獨立單臺服務(wù)器進(jìn)行同步。同步的文章信息將在云服務(wù)器文件中體現，云服務(wù)器文件是單獨保存的。
　　

　　因此用戶(hù)需要將文章信息分類(lèi)保存到不同的文件夾內，待上傳該文件夾內的文章后同步操作完成即可完成。實(shí)時(shí)文章采集平臺支持手機客戶(hù)端和網(wǎng)頁(yè)端下載，手機端的下載比較容易。網(wǎng)頁(yè)端無(wú)法下載，不過(guò)據我所知手機端已經(jīng)開(kāi)發(fā)好了，敬請期待。網(wǎng)頁(yè)端的下載地址：實(shí)時(shí)文章采集功能支持對全網(wǎng)范圍進(jìn)行所有賬號，所有文章和作者名進(jìn)行實(shí)時(shí)采集，也支持申請一個(gè)有資質(zhì)的實(shí)時(shí)文章采集團隊，為用戶(hù)提供更好的采集體驗。
　　網(wǎng)站鏈接更新功能將保持按實(shí)時(shí)文章采集平臺的規則更新，從2016年8月1日開(kāi)始到9月20日，將從文章的左側欄目【原創(chuàng )文章】【最新文章】中獲取新發(fā)布文章作為樣本推送給文章采集后臺。文章的鏈接已在【原創(chuàng )文章】頁(yè)面中可以自定義查看更新時(shí)間。更新后文章全網(wǎng)可見(jiàn)。新增采集文章列表和展示圖功能功能包括采集文章標題，列表和展示圖等，對應的操作步驟見(jiàn)下圖：下載示例下載示例需要準備文章標題和鏈接，復制文章標題至云服務(wù)器文件夾內即可?？梢陨蟼黛o態(tài)頁(yè)面，然后使用seui開(kāi)發(fā)者工具的導入功能生成靜態(tài)頁(yè)面導入即可。

如何用koa+mvvm語(yǔ)言寫(xiě)起來(lái)復雜的文章？-八維教育

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 49 次瀏覽 ? 2022-07-13 22:01 ? 來(lái)自相關(guān)話(huà)題

　　如何用koa+mvvm語(yǔ)言寫(xiě)起來(lái)復雜的文章？-八維教育
　　實(shí)時(shí)文章采集：flutter+koa+mvvm：文章聚合與更新
　　有文章的時(shí)候一定有用，但是沒(méi)文章的時(shí)候更有用啊。雖然用koa+mvvm比較偏底層，但是針對每個(gè)開(kāi)發(fā)者來(lái)說(shuō)還是有點(diǎn)本事的。
　　
　　如果是公司項目用的多，我認為還是要學(xué)的，如果是個(gè)人學(xué)習或者興趣愛(ài)好，可以不用學(xué)。
　　你要看你們公司是否用了，畢竟mvvm相對來(lái)說(shuō)簡(jiǎn)單，koa要比mvvm語(yǔ)言寫(xiě)起來(lái)復雜，如果你們公司用koa，那當然是用koa重點(diǎn)推薦你看koa（github-mjgt/koa:koa:thenextgenerationframework），已經(jīng)被很多公司用來(lái)做demo。
　　每個(gè)框架都有它自己的用法，可以看看其他大牛是怎么講解的，
　　
　　koa-intro
　　其實(shí)兩個(gè)框架都會(huì )用我認為是非常必要的，最終目的都是為了服務(wù)業(yè)務(wù)。
　　任何框架都有自己的缺點(diǎn)，肯定也有優(yōu)點(diǎn)。如果你看看paper和實(shí)踐結合著(zhù)。想想優(yōu)點(diǎn)是什么，缺點(diǎn)是什么。你就明白大概了。
　　koa帶來(lái)了封裝koa的工具包，讓你更加快速地開(kāi)發(fā)koa，koa可以替代java單一service框架，提高了效率，靈活性比koa差遠了。mvvm可以說(shuō)解決了mvc沒(méi)有痛點(diǎn)的問(wèn)題，為mvc提供了構建框架，解決了實(shí)際項目中mvc的痛點(diǎn)，（比如微服務(wù)），當然解決不了視圖、流量瓶頸以及不同環(huán)境間加載不兼容問(wèn)題。但是作為視圖框架，mvvm依然受益于mvc。查看全部

　　如何用koa+mvvm語(yǔ)言寫(xiě)起來(lái)復雜的文章？-八維教育
　　實(shí)時(shí)文章采集：flutter+koa+mvvm：文章聚合與更新
　　有文章的時(shí)候一定有用，但是沒(méi)文章的時(shí)候更有用啊。雖然用koa+mvvm比較偏底層，但是針對每個(gè)開(kāi)發(fā)者來(lái)說(shuō)還是有點(diǎn)本事的。
　　

　　如果是公司項目用的多，我認為還是要學(xué)的，如果是個(gè)人學(xué)習或者興趣愛(ài)好，可以不用學(xué)。
　　你要看你們公司是否用了，畢竟mvvm相對來(lái)說(shuō)簡(jiǎn)單，koa要比mvvm語(yǔ)言寫(xiě)起來(lái)復雜，如果你們公司用koa，那當然是用koa重點(diǎn)推薦你看koa（github-mjgt/koa:koa:thenextgenerationframework），已經(jīng)被很多公司用來(lái)做demo。
　　每個(gè)框架都有它自己的用法，可以看看其他大牛是怎么講解的，
　　

　　koa-intro
　　其實(shí)兩個(gè)框架都會(huì )用我認為是非常必要的，最終目的都是為了服務(wù)業(yè)務(wù)。
　　任何框架都有自己的缺點(diǎn)，肯定也有優(yōu)點(diǎn)。如果你看看paper和實(shí)踐結合著(zhù)。想想優(yōu)點(diǎn)是什么，缺點(diǎn)是什么。你就明白大概了。
　　koa帶來(lái)了封裝koa的工具包，讓你更加快速地開(kāi)發(fā)koa，koa可以替代java單一service框架，提高了效率，靈活性比koa差遠了。mvvm可以說(shuō)解決了mvc沒(méi)有痛點(diǎn)的問(wèn)題，為mvc提供了構建框架，解決了實(shí)際項目中mvc的痛點(diǎn)，（比如微服務(wù)），當然解決不了視圖、流量瓶頸以及不同環(huán)境間加載不兼容問(wèn)題。但是作為視圖框架，mvvm依然受益于mvc。

一機一卡一云：物聯(lián)網(wǎng)的使用場(chǎng)景是什么？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 74 次瀏覽 ? 2022-07-01 11:04 ? 來(lái)自相關(guān)話(huà)題

　　一機一卡一云：物聯(lián)網(wǎng)的使用場(chǎng)景是什么？
　　實(shí)時(shí)文章采集下載直接搜索公眾號“智能玩咖”每天都有新鮮內容公眾號回復【智能】就可獲取今天的原創(chuàng )干貨文章人工智能和物聯(lián)網(wǎng)應用已經(jīng)成為炙手可熱的一個(gè)熱點(diǎn)，互聯(lián)網(wǎng)正在進(jìn)入下半場(chǎng)，人工智能和物聯(lián)網(wǎng)成為這一輪智能革命發(fā)展的主要驅動(dòng)力。據工信部信息中心的最新數據，從2017年至今，物聯(lián)網(wǎng)的產(chǎn)業(yè)規模保持平穩增長(cháng)的態(tài)勢，預計2020年將達到1750億元。
　　
　　物聯(lián)網(wǎng)正向智能、無(wú)感等方向發(fā)展，其核心在于最終實(shí)現全面互聯(lián)，通過(guò)云平臺實(shí)現即時(shí)的信息交互?；ヂ?lián)網(wǎng)中存在一個(gè)巨大的漏洞，傳統pc里存在大量的信息，有60年的歷史，等待接入互聯(lián)網(wǎng)，但是傳統pc里信息并沒(méi)有互聯(lián)網(wǎng)上那么豐富?，F在隨著(zhù)人工智能的發(fā)展，傳統pc就沒(méi)必要存在了，只需要接入云平臺即可。物聯(lián)網(wǎng)的開(kāi)發(fā)和傳統pc開(kāi)發(fā)完全一樣，人人都可以開(kāi)發(fā)，但是大部分人沒(méi)有真正理解物聯(lián)網(wǎng)的特性和用途，人工智能的設備獲取數據、匹配數據、對接數據、處理數據、報警可視化等功能太強大了，當然這也是一種趨勢，就像互聯(lián)網(wǎng)一樣，以后數據會(huì )越來(lái)越多，以后需要大量iot端的服務(wù)，直接交給物聯(lián)網(wǎng)就可以了。
　　我們不要給物聯(lián)網(wǎng)投入過(guò)多的精力，適當的時(shí)候需要關(guān)注一下“一機一卡一云”的概念。物聯(lián)網(wǎng)開(kāi)發(fā)需要改變原有的開(kāi)發(fā)方式，要去定制化一些的工具，然后由專(zhuān)業(yè)的開(kāi)發(fā)者去做。物聯(lián)網(wǎng)的使用場(chǎng)景是什么呢？對于家庭來(lái)說(shuō)：全屋安裝物聯(lián)網(wǎng)家電，每個(gè)房間都要用上家電聯(lián)網(wǎng)設備，家里的空調，冰箱等全都聯(lián)網(wǎng)，使家里的成員都能通過(guò)智能家居產(chǎn)品聯(lián)網(wǎng)家里是最容易看到房間的，可以通過(guò)家庭可視化設備，將房間的信息和家電在一起，用戶(hù)可以準確的看到家里的情況，比如，現在的客廳、廚房、衛生間等都已經(jīng)聯(lián)網(wǎng)。
　　
　　對于學(xué)校來(lái)說(shuō)：采用智能家居解決方案，加入工作人員，對學(xué)生家長(cháng)打印學(xué)生表單、甚至學(xué)生購物等信息進(jìn)行打印，對接方便快捷。對于工廠(chǎng)來(lái)說(shuō)：使用智能家居解決方案，實(shí)現高效率、無(wú)感交互等功能，減少工廠(chǎng)的建設和管理工作量。對于企業(yè)來(lái)說(shuō)：可以預見(jiàn)未來(lái)所有的中國企業(yè)都會(huì )面臨智能化的浪潮，因為現在所有生產(chǎn)的設備都可以與物聯(lián)網(wǎng)打通，只需要一套家居平臺，一個(gè)實(shí)現家居聯(lián)網(wǎng)的智能終端，智能聯(lián)網(wǎng)將給企業(yè)帶來(lái)巨大的發(fā)展機遇。
　　未來(lái)將進(jìn)入人工智能+物聯(lián)網(wǎng)開(kāi)發(fā)的新時(shí)代。但這不是全部的場(chǎng)景，物聯(lián)網(wǎng)開(kāi)發(fā)還將進(jìn)入一個(gè)深度融合的時(shí)代，從某種程度上可以說(shuō)每一個(gè)中國普通家庭都需要物聯(lián)網(wǎng)相關(guān)的開(kāi)發(fā)，每一個(gè)工廠(chǎng)都需要和物聯(lián)網(wǎng)設備打通。大物聯(lián)網(wǎng)時(shí)代早就到來(lái)，就像計算機網(wǎng)絡(luò )一樣，沒(méi)有什么新鮮的事情，只是要看你如何去做。智能家居的發(fā)展還需要成熟的。查看全部

　　一機一卡一云：物聯(lián)網(wǎng)的使用場(chǎng)景是什么？
　　實(shí)時(shí)文章采集下載直接搜索公眾號“智能玩咖”每天都有新鮮內容公眾號回復【智能】就可獲取今天的原創(chuàng )干貨文章人工智能和物聯(lián)網(wǎng)應用已經(jīng)成為炙手可熱的一個(gè)熱點(diǎn)，互聯(lián)網(wǎng)正在進(jìn)入下半場(chǎng)，人工智能和物聯(lián)網(wǎng)成為這一輪智能革命發(fā)展的主要驅動(dòng)力。據工信部信息中心的最新數據，從2017年至今，物聯(lián)網(wǎng)的產(chǎn)業(yè)規模保持平穩增長(cháng)的態(tài)勢，預計2020年將達到1750億元。
　　

　　物聯(lián)網(wǎng)正向智能、無(wú)感等方向發(fā)展，其核心在于最終實(shí)現全面互聯(lián)，通過(guò)云平臺實(shí)現即時(shí)的信息交互?；ヂ?lián)網(wǎng)中存在一個(gè)巨大的漏洞，傳統pc里存在大量的信息，有60年的歷史，等待接入互聯(lián)網(wǎng)，但是傳統pc里信息并沒(méi)有互聯(lián)網(wǎng)上那么豐富?，F在隨著(zhù)人工智能的發(fā)展，傳統pc就沒(méi)必要存在了，只需要接入云平臺即可。物聯(lián)網(wǎng)的開(kāi)發(fā)和傳統pc開(kāi)發(fā)完全一樣，人人都可以開(kāi)發(fā)，但是大部分人沒(méi)有真正理解物聯(lián)網(wǎng)的特性和用途，人工智能的設備獲取數據、匹配數據、對接數據、處理數據、報警可視化等功能太強大了，當然這也是一種趨勢，就像互聯(lián)網(wǎng)一樣，以后數據會(huì )越來(lái)越多，以后需要大量iot端的服務(wù)，直接交給物聯(lián)網(wǎng)就可以了。
　　我們不要給物聯(lián)網(wǎng)投入過(guò)多的精力，適當的時(shí)候需要關(guān)注一下“一機一卡一云”的概念。物聯(lián)網(wǎng)開(kāi)發(fā)需要改變原有的開(kāi)發(fā)方式，要去定制化一些的工具，然后由專(zhuān)業(yè)的開(kāi)發(fā)者去做。物聯(lián)網(wǎng)的使用場(chǎng)景是什么呢？對于家庭來(lái)說(shuō)：全屋安裝物聯(lián)網(wǎng)家電，每個(gè)房間都要用上家電聯(lián)網(wǎng)設備，家里的空調，冰箱等全都聯(lián)網(wǎng)，使家里的成員都能通過(guò)智能家居產(chǎn)品聯(lián)網(wǎng)家里是最容易看到房間的，可以通過(guò)家庭可視化設備，將房間的信息和家電在一起，用戶(hù)可以準確的看到家里的情況，比如，現在的客廳、廚房、衛生間等都已經(jīng)聯(lián)網(wǎng)。
　　

　　對于學(xué)校來(lái)說(shuō)：采用智能家居解決方案，加入工作人員，對學(xué)生家長(cháng)打印學(xué)生表單、甚至學(xué)生購物等信息進(jìn)行打印，對接方便快捷。對于工廠(chǎng)來(lái)說(shuō)：使用智能家居解決方案，實(shí)現高效率、無(wú)感交互等功能，減少工廠(chǎng)的建設和管理工作量。對于企業(yè)來(lái)說(shuō)：可以預見(jiàn)未來(lái)所有的中國企業(yè)都會(huì )面臨智能化的浪潮，因為現在所有生產(chǎn)的設備都可以與物聯(lián)網(wǎng)打通，只需要一套家居平臺，一個(gè)實(shí)現家居聯(lián)網(wǎng)的智能終端，智能聯(lián)網(wǎng)將給企業(yè)帶來(lái)巨大的發(fā)展機遇。
　　未來(lái)將進(jìn)入人工智能+物聯(lián)網(wǎng)開(kāi)發(fā)的新時(shí)代。但這不是全部的場(chǎng)景，物聯(lián)網(wǎng)開(kāi)發(fā)還將進(jìn)入一個(gè)深度融合的時(shí)代，從某種程度上可以說(shuō)每一個(gè)中國普通家庭都需要物聯(lián)網(wǎng)相關(guān)的開(kāi)發(fā)，每一個(gè)工廠(chǎng)都需要和物聯(lián)網(wǎng)設備打通。大物聯(lián)網(wǎng)時(shí)代早就到來(lái)，就像計算機網(wǎng)絡(luò )一樣，沒(méi)有什么新鮮的事情，只是要看你如何去做。智能家居的發(fā)展還需要成熟的。

知乎專(zhuān)欄實(shí)時(shí)文章采集-wikipedia公元2000年后出現的文章

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-06-12 05:05 ? 來(lái)自相關(guān)話(huà)題

　　知乎專(zhuān)欄實(shí)時(shí)文章采集-wikipedia公元2000年后出現的文章
　　實(shí)時(shí)文章采集-wikipedia公元2000年后出現的文章，屬于大編年史，這一類(lèi)文章用常見(jiàn)的可視化圖形就可以表示。如有興趣，可參考知乎專(zhuān)欄實(shí)時(shí)文章采集系列另外根據生成文章的分類(lèi)列表，應該也可以做到。
　　一個(gè)根據標題類(lèi)型或者tag歸類(lèi)的搜索引擎的第一部分
　　谷歌圖書(shū)。wikipedia。維基百科。
　　1)pubmed，數據量太大，屬于國外的源，
　　2)古籍數據庫，收錄好多個(gè)目錄，是國內源，可用萬(wàn)方，維普，萬(wàn)方，知網(wǎng)，耶魯，
　　3)文獻類(lèi)網(wǎng)站，如愛(ài)學(xué)術(shù)，中國學(xué)術(shù)期刊網(wǎng)，cnki大學(xué)生自助服務(wù)平臺等，在這些網(wǎng)站首頁(yè)可看到，如果對應的期刊已經(jīng)在網(wǎng)站上刊登了的，
　　樓上說(shuō)的差不多了，我再補充一個(gè)，按照專(zhuān)業(yè)分類(lèi)的，比如有的學(xué)校要自己開(kāi)發(fā)個(gè)計算機以及材料方面的領(lǐng)域的，
　　看到知友們都想去除爬蟲(chóng)，
　　1、登錄后，直接輸入具體關(guān)鍵詞就可以看到我們需要的內容了，想看什么類(lèi)型的文章，就直接添加到閱讀列表。
　　2、如果點(diǎn)擊不同的期刊進(jìn)行分析的話(huà)，
　　3、如果想找一些常見(jiàn)的高引用文章，可以在好搜文獻選擇期刊，如“pdsbic”。
　　4、如果點(diǎn)擊期刊的英文名，也可以直接跳轉到相應期刊，也可以按期刊來(lái)劃分查看。
　　5、如果需要長(cháng)文章的話(huà)，還可以按國家名進(jìn)行篩選，另外我們還可以從網(wǎng)站導出中文內容的摘要與參考文獻信息，在上傳到endnote等進(jìn)行進(jìn)一步處理。我們在這里搜羅了一些和數據庫相關(guān)的高引用文章集，包括天文學(xué)、地球物理學(xué)、地質(zhì)學(xué)、材料學(xué)、流體力學(xué)、電子材料、計算機、線(xiàn)性代數等。供大家查閱～**下圖包含了高引用文章的鏈接。查看全部

　　知乎專(zhuān)欄實(shí)時(shí)文章采集-wikipedia公元2000年后出現的文章
　　實(shí)時(shí)文章采集-wikipedia公元2000年后出現的文章，屬于大編年史，這一類(lèi)文章用常見(jiàn)的可視化圖形就可以表示。如有興趣，可參考知乎專(zhuān)欄實(shí)時(shí)文章采集系列另外根據生成文章的分類(lèi)列表，應該也可以做到。
　　一個(gè)根據標題類(lèi)型或者tag歸類(lèi)的搜索引擎的第一部分
　　谷歌圖書(shū)。wikipedia。維基百科。
　　1)pubmed，數據量太大，屬于國外的源，
　　2)古籍數據庫，收錄好多個(gè)目錄，是國內源，可用萬(wàn)方，維普，萬(wàn)方，知網(wǎng)，耶魯，
　　3)文獻類(lèi)網(wǎng)站，如愛(ài)學(xué)術(shù)，中國學(xué)術(shù)期刊網(wǎng)，cnki大學(xué)生自助服務(wù)平臺等，在這些網(wǎng)站首頁(yè)可看到，如果對應的期刊已經(jīng)在網(wǎng)站上刊登了的，
　　樓上說(shuō)的差不多了，我再補充一個(gè)，按照專(zhuān)業(yè)分類(lèi)的，比如有的學(xué)校要自己開(kāi)發(fā)個(gè)計算機以及材料方面的領(lǐng)域的，
　　看到知友們都想去除爬蟲(chóng)，
　　1、登錄后，直接輸入具體關(guān)鍵詞就可以看到我們需要的內容了，想看什么類(lèi)型的文章，就直接添加到閱讀列表。
　　2、如果點(diǎn)擊不同的期刊進(jìn)行分析的話(huà)，
　　3、如果想找一些常見(jiàn)的高引用文章，可以在好搜文獻選擇期刊，如“pdsbic”。
　　4、如果點(diǎn)擊期刊的英文名，也可以直接跳轉到相應期刊，也可以按期刊來(lái)劃分查看。
　　5、如果需要長(cháng)文章的話(huà)，還可以按國家名進(jìn)行篩選，另外我們還可以從網(wǎng)站導出中文內容的摘要與參考文獻信息，在上傳到endnote等進(jìn)行進(jìn)一步處理。我們在這里搜羅了一些和數據庫相關(guān)的高引用文章集，包括天文學(xué)、地球物理學(xué)、地質(zhì)學(xué)、材料學(xué)、流體力學(xué)、電子材料、計算機、線(xiàn)性代數等。供大家查閱～**下圖包含了高引用文章的鏈接。

免費在線(xiàn)實(shí)時(shí)文章采集器的小技巧，你知道嗎？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2022-06-10 15:03 ? 來(lái)自相關(guān)話(huà)題

　　免費在線(xiàn)實(shí)時(shí)文章采集器的小技巧，你知道嗎？
　　實(shí)時(shí)文章采集器
　　一、簡(jiǎn)介實(shí)時(shí)文章采集器能快速的采集互聯(lián)網(wǎng)實(shí)時(shí)動(dòng)態(tài)，就我個(gè)人而言，好用的采集器還不少，但大部分都是要收費的。今天給大家介紹一款免費在線(xiàn)實(shí)時(shí)文章采集器，采集效率超過(guò)任何瀏覽器+簡(jiǎn)單html模式采集器，網(wǎng)頁(yè)效果更佳，跟瀏覽器采集器一樣輕量，無(wú)需配置。android，ios系統均可采集。
　　二、簡(jiǎn)介實(shí)時(shí)文章采集器是由darkholder團隊開(kāi)發(fā)的一款可以進(jìn)行高效采集的同時(shí)，兼顧用戶(hù)體驗的采集器。不少實(shí)時(shí)采集器是從無(wú)到有，全自動(dòng)的從互聯(lián)網(wǎng)爬取數據，而實(shí)時(shí)文章采集器則是先對想要采集的內容內容進(jìn)行判斷，判斷合適后再自動(dòng)定向采集，效率比自動(dòng)采集更高。兼顧網(wǎng)頁(yè)采集和實(shí)時(shí)采集是這款實(shí)時(shí)文章采集器的優(yōu)勢之一。
　　采集速度超過(guò)任何瀏覽器+簡(jiǎn)單html模式采集器，無(wú)需配置無(wú)需配置也不需要任何繁瑣的操作，使用它只需要：點(diǎn)擊右上角采集按鈕，采集提示文案，跳轉到采集框。就能采集網(wǎng)頁(yè)并將爬取結果自動(dòng)保存到文件夾。實(shí)時(shí)文章采集器界面操作小技巧：登錄帳號---查看歷史采集文案通過(guò)googlehosts文件修改hostip，就可以調用加速器上傳文章。
　　保存hostip地址，方便以后查看。避免了被人誤操作采集，遇到誤操作采集不了怎么辦？報復的方法是：對網(wǎng)頁(yè)寫(xiě)文章并設置代理。網(wǎng)頁(yè)采集器傳遞爬取結果到某文件夾后，就會(huì )被發(fā)到對應網(wǎng)頁(yè)代理的url。代理的url格式通常是以url_proxy.xml為結尾的http請求，無(wú)法復制，需要手動(dòng)黏貼代理地址。以http請求地址拼接文件名是多數代理工具做不到的。
　　用https_proxy替代是原因是，替換后，https連接不是“明文”，可以保存并編輯host文件。除了爬取網(wǎng)頁(yè)，還可以抓取新聞信息，社交網(wǎng)絡(luò )。
　　三、下載下載地址：查看全部

　　免費在線(xiàn)實(shí)時(shí)文章采集器的小技巧，你知道嗎？
　　實(shí)時(shí)文章采集器
　　一、簡(jiǎn)介實(shí)時(shí)文章采集器能快速的采集互聯(lián)網(wǎng)實(shí)時(shí)動(dòng)態(tài)，就我個(gè)人而言，好用的采集器還不少，但大部分都是要收費的。今天給大家介紹一款免費在線(xiàn)實(shí)時(shí)文章采集器，采集效率超過(guò)任何瀏覽器+簡(jiǎn)單html模式采集器，網(wǎng)頁(yè)效果更佳，跟瀏覽器采集器一樣輕量，無(wú)需配置。android，ios系統均可采集。
　　二、簡(jiǎn)介實(shí)時(shí)文章采集器是由darkholder團隊開(kāi)發(fā)的一款可以進(jìn)行高效采集的同時(shí)，兼顧用戶(hù)體驗的采集器。不少實(shí)時(shí)采集器是從無(wú)到有，全自動(dòng)的從互聯(lián)網(wǎng)爬取數據，而實(shí)時(shí)文章采集器則是先對想要采集的內容內容進(jìn)行判斷，判斷合適后再自動(dòng)定向采集，效率比自動(dòng)采集更高。兼顧網(wǎng)頁(yè)采集和實(shí)時(shí)采集是這款實(shí)時(shí)文章采集器的優(yōu)勢之一。
　　采集速度超過(guò)任何瀏覽器+簡(jiǎn)單html模式采集器，無(wú)需配置無(wú)需配置也不需要任何繁瑣的操作，使用它只需要：點(diǎn)擊右上角采集按鈕，采集提示文案，跳轉到采集框。就能采集網(wǎng)頁(yè)并將爬取結果自動(dòng)保存到文件夾。實(shí)時(shí)文章采集器界面操作小技巧：登錄帳號---查看歷史采集文案通過(guò)googlehosts文件修改hostip，就可以調用加速器上傳文章。
　　保存hostip地址，方便以后查看。避免了被人誤操作采集，遇到誤操作采集不了怎么辦？報復的方法是：對網(wǎng)頁(yè)寫(xiě)文章并設置代理。網(wǎng)頁(yè)采集器傳遞爬取結果到某文件夾后，就會(huì )被發(fā)到對應網(wǎng)頁(yè)代理的url。代理的url格式通常是以url_proxy.xml為結尾的http請求，無(wú)法復制，需要手動(dòng)黏貼代理地址。以http請求地址拼接文件名是多數代理工具做不到的。
　　用https_proxy替代是原因是，替換后，https連接不是“明文”，可以保存并編輯host文件。除了爬取網(wǎng)頁(yè)，還可以抓取新聞信息，社交網(wǎng)絡(luò )。
　　三、下載下載地址：

美股資料收集(Python)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 61 次瀏覽 ? 2022-06-05 03:39 ? 來(lái)自相關(guān)話(huà)題

美股資料收集(Python)
　　本來(lái)這應該是一篇讀書(shū)筆記，要翻譯整理課程‘Nick McCullum, Algorithmic Trading Using Python, Nick McCullum，, 2021’，但后來(lái)寫(xiě)成了美股數據收集
　　
　　。這篇會(huì )比較適合有編程基礎的讀者，有什么不準確的地方，歡迎路過(guò)的都是大佬的大佬們指正。
　　首先算法交易（Algorithmic Trading）的意思就是用計算機，產(chǎn)生投資決策。
　　來(lái)看幾家精于此道的公司[1]：
　　算法交易的步驟：
　　這篇只涉及數據收集
　　參考[1]課程作者分享了一個(gè)列舉了眾多API的鏈接：
　　https://github.com/public-apis/public-apis
　　我們需要注意的是這個(gè)鏈接里Finance目錄下的IEX Cloud，視頻課程中的實(shí)驗數據是從這個(gè)接口調取的。簡(jiǎn)單說(shuō)一下IEX Cloud這個(gè)工具，首先，它是個(gè)付費工具，個(gè)人級一個(gè)月9刀，描述說(shuō)是各種金融相關(guān)的數據都能從它那兒調取到。另外課程里沒(méi)有用付費通道，用的是測試通道。而這篇譯文里會(huì )從雅虎金融拉取數據，是真實(shí)免費數據。
　　視頻課程[1]完成了三個(gè)項目：
　　三個(gè)項目的代碼鏈接：
　　https://github.com/nickmccullu ... ython
　　這里就不詳細說(shuō)這三個(gè)項目了，視頻是非常適合無(wú)編程基礎的人看的，有編程基礎的直接看github上的代碼就能懂。
　　數據收集
　　首先我們看幾個(gè)抓取股票清單的方式和方法。
　　比如我們要抓取S&P 500的股票清單。
　　測試有效的有以下兩種，第一種[2]：
　　import requestsimport?pandas?as?pdurl = 'https://www.slickcharts.com/sp500'headers?=?{"User-Agent"?:?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/83.0.4103.116?Safari/537.36'}request?=?requests.get(url,?headers?=?headers)data?=?pd.read_html(request.text)[0]stk_list?=?data.Symbolsp500 = set(list(stk_list.values))
　　第二種，維基百科[3]：
　　import osimport bs4 as bsimport pickleimport requestsresp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')soup = bs.BeautifulSoup(resp.text, 'lxml')table = soup.find('table', {'class': 'wikitable sortable'})tickers = []for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text.split("\n")[0]????tickers.append(ticker)?sp500 = set(tickers) 
　　測試了一下，這兩種方式取得的結果是一致的。
　　另外推薦一個(gè)雅虎金融上的screener功能，使用方法可以看[2]，這里貼一段用python抓取近一日交易量最多的100只美股的代碼：
　　import?pandas?as?pdimport requestsurl = 'https://finance.yahoo.com/screener/predefined/most_actives?count=100&offset=0'headers = {"User-Agent" : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}request = requests.get(url, headers = headers)data = pd.read_html(request.text)[0]# 欄位『Symbol』就是股票代碼ma100 = list(data.Symbol.values)
　　接下來(lái)看一下怎么獲取股票最近的交易信息，包括(Date, High, Low, Open, Close, Volume, Adj Close) [3]：
　　import datetime as dtimport pandas_datareader.data as webstart = dt.datetime(2021, 7, 20)end = dt.datetime.now()#?獲得單只股票最近信息填股票代碼就行APPL_df = web.DataReader('AAPL', 'yahoo', start, end)#?想同時(shí)獲取多只股票交易信息可以直接填list#?雅虎金融中股票代號中的'.'用'-'號取代sp500 = { item.replace('.', '-') for item in sp500}sp500_df?=?web.DataReader(list(sp500),?'yahoo',?start,?end)
　　這里另外介紹一些好用的API[2]:
　　從雅虎金融上獲取股票的一些基本資料[2]：
　　import?yfinance?as?yfstock = yf.Ticker('aapl')# 獲取公司資料stock.info# 獲取損益表（測試發(fā)現可以獲取近四年的）stock.financials# 獲取資產(chǎn)負債表stock.balance_sheet# 現金流表stock.cashflow#?取得價(jià)量資料+股利發(fā)放資料+股票分割資料#?測試APPL，最早可以獲取到1980年12月12日的資料stock.history(period = 'max')
　　從FRED (Federal Reserve Economic Data) 取得總體經(jīng)濟狀況的資料[2]：
　　from fredapi import Fredimport requestsimport numpy as npimport?pandas?as?pdimport datetime as dt#?注冊賬號：https://research.stlouisfed.or ... ml%23?然后找到?Request?API?key?獲取API keyapi_key?=?'填入你的API'#?獲得FRED資訊的大分類(lèi)，比如：National Accounts - GDP (Eurostat)r = requests.get('https://api.stlouisfed.org/fred/releases?api_key='+api_key+'&file_type=json', verify = True)full_releases = r.json()['releases']full_releases = pd.DataFrame.from_dict(full_releases)??# 尋找自己感興趣的大分類(lèi)# 比如我們要找的大分類(lèi)是 National Accounts - GDP (Eurostat)#?通過(guò)下面代碼，我們會(huì )知道National Accounts - GDP (Eurostat)的ID是267search_keywords = 'gdp'search_result = full_releases.name[full_releases.name.apply(lambda x: search_keywords in x.lower())]#?接下來(lái)看大分類(lèi)下面有哪些小分類(lèi)#?第一個(gè)參數是大分類(lèi)的ID，limit限制的是小分類(lèi)的數量，排序按popularity，降序排序series_df = fred.search_by_release(267, limit = 10, order_by = 'popularity', sort_order = 'desc')#?假如我們感興趣的是英國國內生產(chǎn)總值:Real?Gross?Domestic?Product?for?United?Kingdom#?對應編號為：'CLVMNACSCAB1GQUK'，確定起止時(shí)間，即可獲得數據。fred.get_series('CLVMNACSCAB1GQUK',?observation_start?=?'2000-01-01',?observation_end?=?dt.datetime.today())
　　從Google Trends獲取關(guān)鍵字搜索量資料：
　　from pytrends.request import TrendReqimport pandas as pdimport numpy as npimport?datetime?as?dt#?首先指定時(shí)區，國內訪(fǎng)問(wèn)需要額，大家懂的#?不用代理 pytrends = TrendReq(hl='en-US', tz=360)#?用代理?(沒(méi)跑通，跑通的大佬教下我)pytrends?=?TrendReq(hl='en-US',?tz=360,?timeout=(10,25),?proxies=['https://34.203.233.13:80',],?retries=100,?backoff_factor=0.1,?requests_args={'verify':False})
　　以上沒(méi)跑通，跑通的大佬教下我
　　
　　。
　　用其他方法調通了一個(gè)，代碼如下，有點(diǎn)粗糙，具體原理和稍微細致一點(diǎn)的代碼及解說(shuō)請參考[4]：
　　#?時(shí)區參數設置，測試了AAPL在en-US,?360和zh-CN,?-480兩種配置下的結果，是一致的hl=?'zh-CN'?#?en-UStz?=?'-480'?#?360#?設置想拉取數據的時(shí)間區間period = '2020-12-31 2021-05-22'#?設置想確定搜索熱度的關(guān)鍵字keyword = "AAPL"headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36', 'x-client-data': 'CIu2yQEIo7bJAQjEtskBCKmdygEIy67KAQjQr8oBCLywygEIl7XKAQjttcoBCI66ygEYx7fKAQ==', 'referer': 'https://trends.google.com/trends/explore?date=today%201-m&q=bitcoin,blockchain,eth', 'cookie': '__utmc=10102256; __utma=10102256.31392724.1583402727.1586332529.1586398363.11; __utmz=10102256.1586398363.11.11.utmcsr=shimo.im|utmccn=(referral)|utmcmd=referral|utmcct=/docs/qxW86VTXr8DK6HJX; __utmt=1; __utmb=10102256.9.9.1586398779015; ANID=AHWqTUlRutPWkqC3UpC_-5XoYk6zqoDW3RQX5ePFhLykky73kQ0BpL32ATvqV3O0; CONSENT=WP.284bc1; NID=202=xLozp9-VAAGa2d3d9-cqyqmRjW9nu1zmK0j50IM4pdzJ6wpWTO_Z49JN8W0s1OJ8bySeirh7pSMew1WdqRF890iJLX4HQwwvVkRZ7zwsBDxzeHIx8MOWf27jF0mVCxktZX6OmMmSA0txa0zyJ_AJ3i9gmtEdLeopK5BO3X0LWRA; 1P_JAR=2020-4-9-2' }#?獲取token的鏈接url1 = 'https://trends.google.com/trends/api/explore?hl={}&tz={}&req={{"comparisonItem":[{{"keyword":"{}","geo":"","time":"{}"}}],"category":0,"property":""}}&tz="{}"'.format(hl,tz,keyword,period,tz)r = requests.get(url1, headers=headers,timeout=15)data = json.loads(r.text[5:])req = data['widgets'][0]['request']token = data['widgets'][0]['token']#?獲取數據的鏈接url2 = 'https://trends.google.com/trends/api/widgetdata/multiline?hl={}&tz={}&req={}&token={}&tz={}'.format(hl, tz, req, token, tz)r = requests.get(url2)#?最后的結果會(huì )以一張表顯示if r.status_code == 200: data = pd.DataFrame.from_dict(json.loads(r.text.encode().decode('unicode_escape')[6:])['default']['timelineData'])
　　覺(jué)得有用就點(diǎn)個(gè)在看哦，點(diǎn)得多的話(huà)同類(lèi)型文章會(huì )接著(zhù)寫(xiě)哦。
　　
　　另，文章中有任何表述不恰當的地方，歡迎指正。
　　參考：
　　[1].Nick McCullum,AlgorithmicTrading UsingPython,Nick McCullum，,2021
　　[2]. AI StockBoy,用 Python 打造自己的股市資料庫 — 美股篇, Medium,2019
　　[3].萬(wàn)能的小草，Python在Finance上的應用6 ：獲取是S&P 500的成分股股票數據，騰訊云，2020
　　[4]. 編程學(xué)習筆記，批量爬取Google Trends的日頻數據，實(shí)現EXCEL實(shí)時(shí)存儲，CSDN，2020 查看全部

　　美股資料收集(Python)
　　本來(lái)這應該是一篇讀書(shū)筆記，要翻譯整理課程‘Nick McCullum, Algorithmic Trading Using Python, Nick McCullum，, 2021’，但后來(lái)寫(xiě)成了美股數據收集
　　

。這篇會(huì )比較適合有編程基礎的讀者，有什么不準確的地方，歡迎路過(guò)的都是大佬的大佬們指正。
　　首先算法交易（Algorithmic Trading）的意思就是用計算機，產(chǎn)生投資決策。
　　來(lái)看幾家精于此道的公司[1]：
　　算法交易的步驟：
　　這篇只涉及數據收集
　　參考[1]課程作者分享了一個(gè)列舉了眾多API的鏈接：
　　https://github.com/public-apis/public-apis
　　我們需要注意的是這個(gè)鏈接里Finance目錄下的IEX Cloud，視頻課程中的實(shí)驗數據是從這個(gè)接口調取的。簡(jiǎn)單說(shuō)一下IEX Cloud這個(gè)工具，首先，它是個(gè)付費工具，個(gè)人級一個(gè)月9刀，描述說(shuō)是各種金融相關(guān)的數據都能從它那兒調取到。另外課程里沒(méi)有用付費通道，用的是測試通道。而這篇譯文里會(huì )從雅虎金融拉取數據，是真實(shí)免費數據。
　　視頻課程[1]完成了三個(gè)項目：
　　三個(gè)項目的代碼鏈接：
　　https://github.com/nickmccullu ... ython
　　這里就不詳細說(shuō)這三個(gè)項目了，視頻是非常適合無(wú)編程基礎的人看的，有編程基礎的直接看github上的代碼就能懂。
　　數據收集
　　首先我們看幾個(gè)抓取股票清單的方式和方法。
　　比如我們要抓取S&P 500的股票清單。
　　測試有效的有以下兩種，第一種[2]：
　　import requestsimport?pandas?as?pdurl = 'https://www.slickcharts.com/sp500'headers?=?{"User-Agent"?:?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/83.0.4103.116?Safari/537.36'}request?=?requests.get(url,?headers?=?headers)data?=?pd.read_html(request.text)[0]stk_list?=?data.Symbolsp500 = set(list(stk_list.values))
　　第二種，維基百科[3]：
　　import osimport bs4 as bsimport pickleimport requestsresp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')soup = bs.BeautifulSoup(resp.text, 'lxml')table = soup.find('table', {'class': 'wikitable sortable'})tickers = []for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text.split("\n")[0]????tickers.append(ticker)?sp500 = set(tickers) 
　　測試了一下，這兩種方式取得的結果是一致的。
　　另外推薦一個(gè)雅虎金融上的screener功能，使用方法可以看[2]，這里貼一段用python抓取近一日交易量最多的100只美股的代碼：
　　import?pandas?as?pdimport requestsurl = 'https://finance.yahoo.com/screener/predefined/most_actives?count=100&offset=0'headers = {"User-Agent" : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}request = requests.get(url, headers = headers)data = pd.read_html(request.text)[0]# 欄位『Symbol』就是股票代碼ma100 = list(data.Symbol.values)
　　接下來(lái)看一下怎么獲取股票最近的交易信息，包括(Date, High, Low, Open, Close, Volume, Adj Close) [3]：
　　import datetime as dtimport pandas_datareader.data as webstart = dt.datetime(2021, 7, 20)end = dt.datetime.now()#?獲得單只股票最近信息填股票代碼就行APPL_df = web.DataReader('AAPL', 'yahoo', start, end)#?想同時(shí)獲取多只股票交易信息可以直接填list#?雅虎金融中股票代號中的'.'用'-'號取代sp500 = { item.replace('.', '-') for item in sp500}sp500_df?=?web.DataReader(list(sp500),?'yahoo',?start,?end)
　　這里另外介紹一些好用的API[2]:
　　從雅虎金融上獲取股票的一些基本資料[2]：
　　import?yfinance?as?yfstock = yf.Ticker('aapl')# 獲取公司資料stock.info# 獲取損益表（測試發(fā)現可以獲取近四年的）stock.financials# 獲取資產(chǎn)負債表stock.balance_sheet# 現金流表stock.cashflow#?取得價(jià)量資料+股利發(fā)放資料+股票分割資料#?測試APPL，最早可以獲取到1980年12月12日的資料stock.history(period = 'max')
　　從FRED (Federal Reserve Economic Data) 取得總體經(jīng)濟狀況的資料[2]：
　　from fredapi import Fredimport requestsimport numpy as npimport?pandas?as?pdimport datetime as dt#?注冊賬號：https://research.stlouisfed.or ... ml%23?然后找到?Request?API?key?獲取API keyapi_key?=?'填入你的API'#?獲得FRED資訊的大分類(lèi)，比如：National Accounts - GDP (Eurostat)r = requests.get('https://api.stlouisfed.org/fred/releases?api_key='+api_key+'&file_type=json', verify = True)full_releases = r.json()['releases']full_releases = pd.DataFrame.from_dict(full_releases)??# 尋找自己感興趣的大分類(lèi)# 比如我們要找的大分類(lèi)是 National Accounts - GDP (Eurostat)#?通過(guò)下面代碼，我們會(huì )知道National Accounts - GDP (Eurostat)的ID是267search_keywords = 'gdp'search_result = full_releases.name[full_releases.name.apply(lambda x: search_keywords in x.lower())]#?接下來(lái)看大分類(lèi)下面有哪些小分類(lèi)#?第一個(gè)參數是大分類(lèi)的ID，limit限制的是小分類(lèi)的數量，排序按popularity，降序排序series_df = fred.search_by_release(267, limit = 10, order_by = 'popularity', sort_order = 'desc')#?假如我們感興趣的是英國國內生產(chǎn)總值:Real?Gross?Domestic?Product?for?United?Kingdom#?對應編號為：'CLVMNACSCAB1GQUK'，確定起止時(shí)間，即可獲得數據。fred.get_series('CLVMNACSCAB1GQUK',?observation_start?=?'2000-01-01',?observation_end?=?dt.datetime.today())
　　從Google Trends獲取關(guān)鍵字搜索量資料：
　　from pytrends.request import TrendReqimport pandas as pdimport numpy as npimport?datetime?as?dt#?首先指定時(shí)區，國內訪(fǎng)問(wèn)需要額，大家懂的#?不用代理 pytrends = TrendReq(hl='en-US', tz=360)#?用代理?(沒(méi)跑通，跑通的大佬教下我)pytrends?=?TrendReq(hl='en-US',?tz=360,?timeout=(10,25),?proxies=['https://34.203.233.13:80',],?retries=100,?backoff_factor=0.1,?requests_args={'verify':False})
　　以上沒(méi)跑通，跑通的大佬教下我

　　。
　　用其他方法調通了一個(gè)，代碼如下，有點(diǎn)粗糙，具體原理和稍微細致一點(diǎn)的代碼及解說(shuō)請參考[4]：
　　#?時(shí)區參數設置，測試了AAPL在en-US,?360和zh-CN,?-480兩種配置下的結果，是一致的hl=?'zh-CN'?#?en-UStz?=?'-480'?#?360#?設置想拉取數據的時(shí)間區間period = '2020-12-31 2021-05-22'#?設置想確定搜索熱度的關(guān)鍵字keyword = "AAPL"headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36', 'x-client-data': 'CIu2yQEIo7bJAQjEtskBCKmdygEIy67KAQjQr8oBCLywygEIl7XKAQjttcoBCI66ygEYx7fKAQ==', 'referer': 'https://trends.google.com/trends/explore?date=today%201-m&q=bitcoin,blockchain,eth', 'cookie': '__utmc=10102256; __utma=10102256.31392724.1583402727.1586332529.1586398363.11; __utmz=10102256.1586398363.11.11.utmcsr=shimo.im|utmccn=(referral)|utmcmd=referral|utmcct=/docs/qxW86VTXr8DK6HJX; __utmt=1; __utmb=10102256.9.9.1586398779015; ANID=AHWqTUlRutPWkqC3UpC_-5XoYk6zqoDW3RQX5ePFhLykky73kQ0BpL32ATvqV3O0; CONSENT=WP.284bc1; NID=202=xLozp9-VAAGa2d3d9-cqyqmRjW9nu1zmK0j50IM4pdzJ6wpWTO_Z49JN8W0s1OJ8bySeirh7pSMew1WdqRF890iJLX4HQwwvVkRZ7zwsBDxzeHIx8MOWf27jF0mVCxktZX6OmMmSA0txa0zyJ_AJ3i9gmtEdLeopK5BO3X0LWRA; 1P_JAR=2020-4-9-2' }#?獲取token的鏈接url1 = 'https://trends.google.com/trends/api/explore?hl={}&tz={}&req={{"comparisonItem":[{{"keyword":"{}","geo":"","time":"{}"}}],"category":0,"property":""}}&tz="{}"'.format(hl,tz,keyword,period,tz)r = requests.get(url1, headers=headers,timeout=15)data = json.loads(r.text[5:])req = data['widgets'][0]['request']token = data['widgets'][0]['token']#?獲取數據的鏈接url2 = 'https://trends.google.com/trends/api/widgetdata/multiline?hl={}&tz={}&req={}&token={}&tz={}'.format(hl, tz, req, token, tz)r = requests.get(url2)#?最后的結果會(huì )以一張表顯示if r.status_code == 200: data = pd.DataFrame.from_dict(json.loads(r.text.encode().decode('unicode_escape')[6:])['default']['timelineData'])
　　覺(jué)得有用就點(diǎn)個(gè)在看哦，點(diǎn)得多的話(huà)同類(lèi)型文章會(huì )接著(zhù)寫(xiě)哦。
　　

　　另，文章中有任何表述不恰當的地方，歡迎指正。
　　參考：
　　[1].Nick McCullum,AlgorithmicTrading UsingPython,Nick McCullum，,2021
　　[2]. AI StockBoy,用 Python 打造自己的股市資料庫 — 美股篇, Medium,2019
　　[3].萬(wàn)能的小草，Python在Finance上的應用6 ：獲取是S&P 500的成分股股票數據，騰訊云，2020
　　[4]. 編程學(xué)習筆記，批量爬取Google Trends的日頻數據，實(shí)現EXCEL實(shí)時(shí)存儲，CSDN，2020

實(shí)時(shí)文章采集框架下，騰訊會(huì )給你站內信

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-05-06 05:00 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集框架下，騰訊會(huì )給你站內信
　　實(shí)時(shí)文章采集框架如下，且不停添加關(guān)鍵詞，將爬取的所有內容全部合并到一起。原文歡迎轉發(fā)到weixin公眾號：程序猿宇宙天空回復【學(xué)習】，免費獲取10g學(xué)習資料，包括計算機導論、java編程語(yǔ)言程序設計、系統架構、linux系統、python3.5、數據結構和算法、軟件工程、設計模式等一線(xiàn)互聯(lián)網(wǎng)工程師專(zhuān)用書(shū)籍。
　　是不是微信公眾號的運營(yíng)推廣，看到你的東西很有價(jià)值，轉發(fā)給他們，然后推薦給其他人，就是推廣，在微信平臺的推廣，好像很平常的行為，但是微信平臺又是一個(gè)封閉的平臺，
　　惡意推廣。
　　肯定不能有推廣，也不能有廣告。騰訊對用戶(hù)信息的保密是嚴密的，對商業(yè)廣告也是有嚴格的管理的。如果你的內容真的對讀者有價(jià)值的話(huà)，就會(huì )給你廣告，前提是要被騰訊檢測到，或者你發(fā)出去的廣告被騰訊發(fā)現，他會(huì )給你站內信。請他們來(lái)檢測、管理你的內容。如果內容沒(méi)價(jià)值，或者沒(méi)人看、不被發(fā)現，沒(méi)人搜廣告，不被騰訊檢測到，騰訊也不會(huì )放你的。
　　只有被檢測到了，才會(huì )對你的平臺有限制，比如發(fā)布時(shí)間，像頭條一樣，只允許你在當天發(fā)布，一旦你無(wú)意間被觸犯這個(gè)規定，就會(huì )有很?chē)乐氐奶幜P。最近騰訊也發(fā)現這些亂七八糟的代理公司太多了，殺雞儆猴，以后肯定要嚴格的管理，所以現在怎么辦??？。查看全部

　　實(shí)時(shí)文章采集框架下，騰訊會(huì )給你站內信
　　實(shí)時(shí)文章采集框架如下，且不停添加關(guān)鍵詞，將爬取的所有內容全部合并到一起。原文歡迎轉發(fā)到weixin公眾號：程序猿宇宙天空回復【學(xué)習】，免費獲取10g學(xué)習資料，包括計算機導論、java編程語(yǔ)言程序設計、系統架構、linux系統、python3.5、數據結構和算法、軟件工程、設計模式等一線(xiàn)互聯(lián)網(wǎng)工程師專(zhuān)用書(shū)籍。
　　是不是微信公眾號的運營(yíng)推廣，看到你的東西很有價(jià)值，轉發(fā)給他們，然后推薦給其他人，就是推廣，在微信平臺的推廣，好像很平常的行為，但是微信平臺又是一個(gè)封閉的平臺，
　　惡意推廣。
　　肯定不能有推廣，也不能有廣告。騰訊對用戶(hù)信息的保密是嚴密的，對商業(yè)廣告也是有嚴格的管理的。如果你的內容真的對讀者有價(jià)值的話(huà)，就會(huì )給你廣告，前提是要被騰訊檢測到，或者你發(fā)出去的廣告被騰訊發(fā)現，他會(huì )給你站內信。請他們來(lái)檢測、管理你的內容。如果內容沒(méi)價(jià)值，或者沒(méi)人看、不被發(fā)現，沒(méi)人搜廣告，不被騰訊檢測到，騰訊也不會(huì )放你的。
　　只有被檢測到了，才會(huì )對你的平臺有限制，比如發(fā)布時(shí)間，像頭條一樣，只允許你在當天發(fā)布，一旦你無(wú)意間被觸犯這個(gè)規定，就會(huì )有很?chē)乐氐奶幜P。最近騰訊也發(fā)現這些亂七八糟的代理公司太多了，殺雞儆猴，以后肯定要嚴格的管理，所以現在怎么辦??？。

實(shí)時(shí)文章采集：我是一枚小小采編輯，分工細致

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-05-06 01:02 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集：我是一枚小小采編輯，分工細致
　　實(shí)時(shí)文章采集：我是一枚小小采編輯，分工細致。以后的每一篇推送，我都會(huì )采集post...采集愛(ài)奇藝。目標網(wǎng)站：網(wǎng)易，騰訊，新浪，搜狐，優(yōu)酷，鳳凰，暴風(fēng)，百度，樂(lè )視，北京現代（好像拼錯了），黃金動(dòng)力...記錄項目全貌，故而更新很快。起因第一次接觸到采編發(fā)布系統，是在我在國際機票業(yè)務(wù)部采編廣告營(yíng)銷(xiāo)相關(guān)的項目，最早使用者是它的運營(yíng)管理部門(mén)的人。
　　主要內容如下：▲...寫(xiě)報道，拍視頻，做主播演示...不同于他們，我們（編輯部）采編發(fā)布的需求是大致可以分為5個(gè)方面：。
　　1、需要有良好的可視化編輯能力，
　　2、根據客戶(hù)給我們要求，按時(shí)將采編發(fā)布給采編人員，然后把消息放置到相應推送渠道（excel文檔，一般要求轉發(fā)至各位sourceagency，然后轉發(fā)給publisher，
　　3、為保證渠道質(zhì)量，
　　4、針對渠道質(zhì)量，
　　5、最重要的是，對客戶(hù)的采編內容，我們有最終審查把關(guān)。
　　這個(gè)非常容易理解，對吧？？因此，可以說(shuō)采編推送系統，
　　1、可視化編輯方法收集來(lái)的文章，當然有直接轉發(fā)的渠道，比如微信公眾號等，也有轉發(fā)至各位sourceagency再轉發(fā)給publisher，或者掛到郵箱，或者掛到ugc。對于轉發(fā)至各位sourceagency的文章，我們需要對其進(jìn)行一個(gè)標識，比如landingpage,image,orderofdelivery,fromvarious...這些操作都是給標識，幫助后續sourceagency理解文章，最終傳遞給消費者。
　　2、消息轉發(fā)方法我們采編人員，一般從直接到轉發(fā)給其他publisher，然后各個(gè)消息渠道發(fā)到各個(gè)sourceagency。當然，在sourceagency看來(lái)，這是個(gè)不合理的操作。我們要做的，不是溝通，而是溝通。問(wèn)問(wèn)他們，想要什么樣的文章？有什么要求？客戶(hù)喜歡什么？怎么告訴他們，總之要言之有物。我們的回答就是：關(guān)于客戶(hù)的需求，我們已經(jīng)有充分的了解，確認下文章的可視化編輯方法，并且非常感謝他們的建議，希望能將文章轉發(fā)至各位sourceagency。
　　今天的知識點(diǎn)知識點(diǎn)：模糊采編發(fā)布是啥？『可視化編輯』和『消息轉發(fā)』算啥？？模糊采編發(fā)布：是指不指定渠道，讓所有渠道參與采編發(fā)布。比如說(shuō)：每家電商的采編內容，我們都給它分好了渠道來(lái)源，讓大家自由互相轉發(fā)。這也就是我們的傳統操作：采編項目實(shí)施時(shí)，讓采編人員自己根據行業(yè)需求，按時(shí)把采編發(fā)布給采編人員，然后直接轉發(fā)給渠道。這樣的好處在于，大家統。查看全部

　　實(shí)時(shí)文章采集：我是一枚小小采編輯，分工細致
　　實(shí)時(shí)文章采集：我是一枚小小采編輯，分工細致。以后的每一篇推送，我都會(huì )采集post...采集愛(ài)奇藝。目標網(wǎng)站：網(wǎng)易，騰訊，新浪，搜狐，優(yōu)酷，鳳凰，暴風(fēng)，百度，樂(lè )視，北京現代（好像拼錯了），黃金動(dòng)力...記錄項目全貌，故而更新很快。起因第一次接觸到采編發(fā)布系統，是在我在國際機票業(yè)務(wù)部采編廣告營(yíng)銷(xiāo)相關(guān)的項目，最早使用者是它的運營(yíng)管理部門(mén)的人。
　　主要內容如下：▲...寫(xiě)報道，拍視頻，做主播演示...不同于他們，我們（編輯部）采編發(fā)布的需求是大致可以分為5個(gè)方面：。
　　1、需要有良好的可視化編輯能力，
　　2、根據客戶(hù)給我們要求，按時(shí)將采編發(fā)布給采編人員，然后把消息放置到相應推送渠道（excel文檔，一般要求轉發(fā)至各位sourceagency，然后轉發(fā)給publisher，
　　3、為保證渠道質(zhì)量，
　　4、針對渠道質(zhì)量，
　　5、最重要的是，對客戶(hù)的采編內容，我們有最終審查把關(guān)。
　　這個(gè)非常容易理解，對吧？？因此，可以說(shuō)采編推送系統，
　　1、可視化編輯方法收集來(lái)的文章，當然有直接轉發(fā)的渠道，比如微信公眾號等，也有轉發(fā)至各位sourceagency再轉發(fā)給publisher，或者掛到郵箱，或者掛到ugc。對于轉發(fā)至各位sourceagency的文章，我們需要對其進(jìn)行一個(gè)標識，比如landingpage,image,orderofdelivery,fromvarious...這些操作都是給標識，幫助后續sourceagency理解文章，最終傳遞給消費者。
　　2、消息轉發(fā)方法我們采編人員，一般從直接到轉發(fā)給其他publisher，然后各個(gè)消息渠道發(fā)到各個(gè)sourceagency。當然，在sourceagency看來(lái)，這是個(gè)不合理的操作。我們要做的，不是溝通，而是溝通。問(wèn)問(wèn)他們，想要什么樣的文章？有什么要求？客戶(hù)喜歡什么？怎么告訴他們，總之要言之有物。我們的回答就是：關(guān)于客戶(hù)的需求，我們已經(jīng)有充分的了解，確認下文章的可視化編輯方法，并且非常感謝他們的建議，希望能將文章轉發(fā)至各位sourceagency。
　　今天的知識點(diǎn)知識點(diǎn)：模糊采編發(fā)布是啥？『可視化編輯』和『消息轉發(fā)』算啥？？模糊采編發(fā)布：是指不指定渠道，讓所有渠道參與采編發(fā)布。比如說(shuō)：每家電商的采編內容，我們都給它分好了渠道來(lái)源，讓大家自由互相轉發(fā)。這也就是我們的傳統操作：采編項目實(shí)施時(shí)，讓采編人員自己根據行業(yè)需求，按時(shí)把采編發(fā)布給采編人員，然后直接轉發(fā)給渠道。這樣的好處在于，大家統。

實(shí)時(shí)文章采集如何實(shí)現公眾號內文章數據的實(shí)時(shí)更新

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 219 次瀏覽 ? 2022-05-05 13:00 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集如何實(shí)現公眾號內文章數據的實(shí)時(shí)更新
　　實(shí)時(shí)文章采集可以做到了把公眾號/博客里的文章采集下來(lái)，以各種格式導出到本地，然后用phpmyadmin這類(lèi)的數據庫軟件做好數據導入到mysql，實(shí)現公眾號內文章數據的實(shí)時(shí)更新，不用再單獨把公眾號里面的文章導入到數據庫，提高了效率，還不用重復導入導出文章。
　　網(wǎng)頁(yè)采集，例如自己寫(xiě)爬蟲(chóng)，把各種網(wǎng)頁(yè)文字翻譯成中文，然后下載下來(lái)，然后合成文章封面，做好分詞標簽，導入微信編輯器（先把上面中文翻譯成英文在保存），然后做出來(lái)能看到對應的文章封面圖，再合成文章內容。再稍微復雜點(diǎn)，用爬蟲(chóng)爬某個(gè)網(wǎng)站的內容，把自己需要的中文翻譯成英文，再用js合成對應文章的內容，再把內容導入到微信編輯器中，或者用相關(guān)工具合成公眾號文章內容。
　　很簡(jiǎn)單了，以前用php寫(xiě)過(guò)爬蟲(chóng)實(shí)現過(guò)留言管理。我自己在工作的時(shí)候主要用word做文字內容爬取，然后發(fā)送到iis或者ftp里面。這樣同事或者客戶(hù)的郵件內容可以實(shí)時(shí)收到，也可以在電腦端看到鏈接，輸入到公眾號后臺很方便。效果也很不錯，關(guān)鍵好在質(zhì)量高，
　　如果你要的是公眾號，提供的是正文文字內容。seo引流的時(shí)候可以用網(wǎng)頁(yè)摘錄工具。
　　樓上已經(jīng)給出正確答案了，我補充一點(diǎn)，采集郵件的時(shí)候，要注意編碼問(wèn)題，可以用word轉成html代碼，然后用lsp瀏覽器去調試。查看全部

　　實(shí)時(shí)文章采集如何實(shí)現公眾號內文章數據的實(shí)時(shí)更新
　　實(shí)時(shí)文章采集可以做到了把公眾號/博客里的文章采集下來(lái)，以各種格式導出到本地，然后用phpmyadmin這類(lèi)的數據庫軟件做好數據導入到mysql，實(shí)現公眾號內文章數據的實(shí)時(shí)更新，不用再單獨把公眾號里面的文章導入到數據庫，提高了效率，還不用重復導入導出文章。
　　網(wǎng)頁(yè)采集，例如自己寫(xiě)爬蟲(chóng)，把各種網(wǎng)頁(yè)文字翻譯成中文，然后下載下來(lái)，然后合成文章封面，做好分詞標簽，導入微信編輯器（先把上面中文翻譯成英文在保存），然后做出來(lái)能看到對應的文章封面圖，再合成文章內容。再稍微復雜點(diǎn)，用爬蟲(chóng)爬某個(gè)網(wǎng)站的內容，把自己需要的中文翻譯成英文，再用js合成對應文章的內容，再把內容導入到微信編輯器中，或者用相關(guān)工具合成公眾號文章內容。
　　很簡(jiǎn)單了，以前用php寫(xiě)過(guò)爬蟲(chóng)實(shí)現過(guò)留言管理。我自己在工作的時(shí)候主要用word做文字內容爬取，然后發(fā)送到iis或者ftp里面。這樣同事或者客戶(hù)的郵件內容可以實(shí)時(shí)收到，也可以在電腦端看到鏈接，輸入到公眾號后臺很方便。效果也很不錯，關(guān)鍵好在質(zhì)量高，
　　如果你要的是公眾號，提供的是正文文字內容。seo引流的時(shí)候可以用網(wǎng)頁(yè)摘錄工具。
　　樓上已經(jīng)給出正確答案了，我補充一點(diǎn)，采集郵件的時(shí)候，要注意編碼問(wèn)題，可以用word轉成html代碼，然后用lsp瀏覽器去調試。

數倉實(shí)戰|一文看懂數據中臺接口數據采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 146 次瀏覽 ? 2022-05-04 04:37 ? 來(lái)自相關(guān)話(huà)題

數倉實(shí)戰|一文看懂數據中臺接口數據采集
　　作者簡(jiǎn)介：王春波，《高效使用Greenplum：入門(mén)、進(jìn)階和數據中臺》作者，“數據中臺研習社”號主，十年數據開(kāi)發(fā)從業(yè)者，資深零售數倉項目實(shí)施專(zhuān)家。
　　以下內容摘自《高效使用Greenplum：入門(mén)、進(jìn)階和數據中臺》第14章。
　　要實(shí)現數據中臺，一個(gè)最基本的要求就是同步交易系統接口數據。實(shí)現接口數據同步的方式主要有3種：全量同步、增量同步、流式數據同步，其中流式數據又分為業(yè)務(wù)流數據和日志流數據。
　　接口數據同步是數據中臺的一項重要工作，是在搭建數據中臺的過(guò)程中需要投入很多精力完成的。雖然單個(gè)表的數據同步任務(wù)難度不大，但是我們需要在數據中臺實(shí)現標準化配置，這樣才可以提高工作效率，為后續的數據中臺運維和持續擴充接口打下良好的基礎。
　　全量接口同步
　　一般而言，全量接口同步是數據中臺必不可少的功能模塊。不管是增量數據同步還是流式數據同步，都是在全量接口同步的基礎上進(jìn)行的。
　　全量接口同步一般針對T+1的業(yè)務(wù)進(jìn)行，選擇晚上業(yè)務(wù)低峰和網(wǎng)絡(luò )空閑時(shí)期，全量抽取交易系統的某些業(yè)務(wù)數據。一般來(lái)說(shuō)，雖然全量接口同步占用時(shí)間長(cháng)，耗費網(wǎng)絡(luò )寬帶高，但是數據抽取過(guò)程簡(jiǎn)單、準確度高，數據可靠性好，因此比較容易進(jìn)行平臺標準化配置。
　　根據目前的開(kāi)源生態(tài)，我們主要推薦了兩種數據同步工具，一個(gè)是Kettle，一個(gè)是DolphinScheduler集成的DataX。
　　1.Kettle
　　對于Kettle，我們一般按照系統+業(yè)務(wù)模塊來(lái)劃分Kettle數據抽取任務(wù)。
　　第一步，把對應數據庫的JDBC驅動(dòng)都加入到data-integration\lib目錄下，然后重新打開(kāi)Spoon.bat。
　　第二步，在新創(chuàng )建的轉換里面創(chuàng )建DB連接。
　　
　　在彈出的頁(yè)面選擇對應的數據庫，填寫(xiě)相關(guān)信息并保存。
　　
　　針對DB連接設置“共享”，可以在多個(gè)Kettle中共享相同的數據庫鏈接信息。
　　第三步，在Kettle開(kāi)發(fā)視圖中拖入一個(gè)表輸入組件和一個(gè)表輸出組件。
　　在表輸入組件和表輸出組件中分別選擇不同的數據庫連接，表輸入支持選擇一張表自動(dòng)生成SQL語(yǔ)句，也支持手寫(xiě)SQL語(yǔ)句。
　　
　　表輸出組件則支持自動(dòng)獲取表結構和自動(dòng)生成目標表。通過(guò)點(diǎn)擊獲取字段，即可直接獲取表輸入查詢(xún)到的字段信息。
　　
　　圖14-4 Kettle表輸出界面
　　點(diǎn)擊SQL，即可在彈出的窗口中看到工具自動(dòng)生產(chǎn)的建表語(yǔ)句，再點(diǎn)擊“執行”，Kettle會(huì )自動(dòng)完成目標表的創(chuàng )建。當然，這個(gè)建表語(yǔ)句是比較粗糙的，我們一般需要按照指定的規范來(lái)手工創(chuàng )建，需要指定分布鍵。
　　
　　第四步，將輸入組件和輸出組件用線(xiàn)連起來(lái)，就組成了一個(gè)數據同步任務(wù)。
　　
　　第五步，將上述組件一起復制多份，修改來(lái)源表、目標表、刷新字段，即可完成大量的數據同步任務(wù)。
　　
　　第六步，直接點(diǎn)“開(kāi)始”圖標運行數據同步任務(wù)或者通過(guò)Kettle的左右來(lái)調度數據同步任務(wù)。
　　2.DataX
　　由于DataX數據同步工具本身是沒(méi)有界面化配置的，因此我們一般會(huì )配套安裝DataX-web或者DolphinScheduler調度工具。DolphinScheduler集成DataX的配置也很簡(jiǎn)單，只需要在DolphinScheduler的配置文件中指定DATAX_HOME即可。
　　
　　在DolphinScheduler后臺配置datax任務(wù)，這里以MySQL數據源為例，數據流配置如下。
　　首先在數據源中心配置MySQL數據源。
　　
　　然后在項目管理里面創(chuàng )建數據流任務(wù)，在畫(huà)布上拉去DataX類(lèi)型配置第一個(gè)任務(wù)，選擇剛才配置的MySQL數據源。
　　
　　保存以后，系統就會(huì )自動(dòng)生成數據同步的工作量，將數據流上線(xiàn)，并配置定時(shí)調度策略，即可完成數據的定時(shí)同步。
　　
　　增量接口同步
　　一般來(lái)說(shuō)，數據倉庫的接口都符合二八規律，即20%的表存儲了80%的數據，因此這20%的表數據抽取特別耗費時(shí)間。此時(shí)，對于批處理來(lái)說(shuō)，最好的方法是，對于80%數據量較小的表，采用流水線(xiàn)作業(yè)的方式，快速生成接口表、接口程序、接口任務(wù)，通過(guò)全量接口快速抽取、先清空后插入目標表；針對20%數據量較大的表，則需要精耕細作，確定一個(gè)具體可行的增量方案。
　　我認為一般滿(mǎn)足以下條件之一就是較大的表：①抽取時(shí)間超過(guò)10分鐘；②單表記錄數超過(guò)或者接近100萬(wàn)；③接口數據超過(guò)1GB。之所以如此定義，是從數據接口的實(shí)際情況出發(fā)。第一，抽取時(shí)間超過(guò)10分鐘，會(huì )影響整體調度任務(wù)的執行時(shí)間；第二，單表記錄數超過(guò)100萬(wàn)，則插入數據占用數據庫大量的資源，會(huì )影響其他任務(wù)的插入，降低系統的并發(fā)能力；第三，數據傳輸超過(guò)1GB，則需要耗費大量的網(wǎng)絡(luò )寬帶，每天重復一次會(huì )增加網(wǎng)絡(luò )負擔。
　　對于需要做增量的接口表，主要推薦以下兩種批處理方案。
　　方案一：根據數據創(chuàng )建或者修改時(shí)間來(lái)實(shí)現增量
　　很多業(yè)務(wù)系統一般都會(huì )在表結構上增加創(chuàng )建和修改時(shí)間字段，并且存在主鍵或者唯一鍵（可以是一個(gè)字段，也可以是多個(gè)字段組合），同時(shí)確保數據不會(huì )被物理刪除，這種表適合方案一。實(shí)際情況是，各大OLTP系統的數據庫都可以滿(mǎn)足記錄創(chuàng )建和修改時(shí)間信息的，因此這種方式應用最廣泛。
　　對于創(chuàng )建或者修改時(shí)間，MySQL數據庫可以在建表時(shí)指定字段默認值的方式來(lái)生成。
　　 `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間', `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時(shí)間'
　　也可以在建表以后通過(guò)增加字段的方式來(lái)補充。
　　-- 修改create_time 設置默認時(shí)間 CURRENT_TIMESTAMP ALTER TABLE `tb_course`MODIFY COLUMN `create_time` datetime NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間' ;-- 添加update_time 設置默認時(shí)間 CURRENT_TIMESTAMP 設置更新時(shí)間為 ON UPDATE CURRENT_TIMESTAMP ALTER TABLE `tb_course`ADD COLUMN `update_time` datetime NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時(shí)間' ;
　　Oracle數據庫默認情況下只能記錄創(chuàng )建時(shí)間，不能記錄修改時(shí)間。
　　--先添加一個(gè)date類(lèi)型的字段alter tabletb_courseaddcreate_timedate; --將該字段默認為系統時(shí)間alter tabletb_coursemodifycreate_timedefault sysdate;
　　如果需要記錄修改時(shí)間，則需要通過(guò)觸發(fā)器或者修改更新語(yǔ)句來(lái)實(shí)現。觸發(fā)器的腳本如下。
　　CREATE OR REPLACE TRIGGERtrig_tb_course afterINSERT OR UPDATE ON tb_course--新增和修改執行后出發(fā)，對象目標：tb_course表，執行后觸發(fā)器對業(yè)務(wù)交易影響比較小FOR EACH ROW --行級觸發(fā)器，每影響一行觸發(fā)一次BEGIN IF INSERTING THEN --插入數據操作 :NEW.createtime := SYSDATE; ELSIF UPDATING then --修改數據操作 :NEW.createtime := SYSDATE; END IF; END;
　　有了創(chuàng )建或者修改時(shí)間以后，每次抽取最近幾天（一般建議3天）的數據，則直接在where條件后面加上下面的過(guò)濾條件。
　　--取最近3天插入或者更新的記錄where create_time >= cast(date_add(CURRENT_DATE,interval -3 day) as datetime)or update_time >= cast(date_add(CURRENT_DATE,interval -3 day) as datetime)
　　DataX或者Kettle在抽取數據時(shí)直接在SQL語(yǔ)句上加上上述條件即可，數據寫(xiě)入臨時(shí)表，筆者一般以_incr作為臨時(shí)表后綴。
　　抽取到變化的數據以后，將前后數據進(jìn)行合并即可完成增量數據更新。一般情況下我們可能會(huì )采用MERGE INTO的方式進(jìn)行數據合并，這里推薦先刪除后插入的方式。首先，MERGE只有少數數據庫支持，雖然Greenplum也支持，但是功能不夠完善，語(yǔ)法比較復雜。其次對于大多數數據庫而言，刪除比更新更快，因此推薦先刪除后插入的方式。如果變化的數據不大，可以直接采用刪除再插入的方式；如果變化的數據太大，刪除的效率太低，則需要借助第三張表來(lái)完成數據的合并。先刪除后插入的語(yǔ)句示例如下，假設DRP系統的item_info表是一張商品主數據，數據量大，但是變化頻率不高，則我們可以通過(guò)下面的語(yǔ)句來(lái)合并增量數據。
　　--先刪除有過(guò)變化的數據delete from ods_drp.ods_drp_item_info twhere exists(select 1 from ods.ods_drp_item_info_incr bwhere t.item_id = b.item_id);--然后插入新抽取過(guò)來(lái)的數據insert into ods_drp.ods_drp_item_infoselect t.*,current_timestamp() insert_timefrom ods_drp.ods_drp_item_info_incr t;
　　方案二：增加觸發(fā)器記錄創(chuàng )建或者修改時(shí)間來(lái)實(shí)現增量
　　對于SAP之類(lèi)的業(yè)務(wù)系統，我們經(jīng)常遇到有些表要么沒(méi)有創(chuàng )建、修改時(shí)間，要么存在記錄物理刪除的情況，因此無(wú)法通過(guò)方案一實(shí)現增量。結合HANA數據庫的特點(diǎn)，我們最后采用了創(chuàng )建觸發(fā)器來(lái)記錄業(yè)務(wù)數據創(chuàng )建、修改時(shí)間的方案。
　　這種方案下，我們需要針對每一張增量接口表，創(chuàng )建一張日志表，包括接口表的主鍵字段、操作標志、操作時(shí)間。每次抽取數據需要用日志表關(guān)聯(lián)業(yè)務(wù)數據，然后抽取一段時(shí)間內新增、修改、刪除的記錄到數據中臺數據庫，最后根據操作標志+操作時(shí)間對目標表數據進(jìn)行更新。
　　本方案雖然看上去對交易系統的侵入性較高，很難被接受，但其實(shí)是一個(gè)非常好用的增量方案，適合任何場(chǎng)景。首先，觸發(fā)器是Oracle、DB2、HANA等數據庫系統標配的功能，在表上增加after觸發(fā)器對業(yè)務(wù)交易影響微乎其微。其次，抽取數據的時(shí)間一般都在業(yè)務(wù)空閑時(shí)間，業(yè)務(wù)表和日志表的關(guān)聯(lián)不會(huì )影響正常交易。第三，本方案可以捕捉數據的物理刪除操作，可以保證數據同步100%的準確性。
　　下面，我們以SAP S/4 HANA的EKPO表為例進(jìn)行方案解析。首先創(chuàng )建EKPO變更日志表。
　　--創(chuàng )建EKPO變更日志表，需要包含主鍵字段和變更標志、變更時(shí)間字段CREATE TABLE HANABI.DI_EKPO_TRIG_LOG ( EBELN CHAR(10) , EBELP CHAR(10), FLAG CHAR(5) , INSERT_TIME SECONDDATE?);
　　然后給EKPO表添加觸發(fā)器。
　　--INSERT觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_I AFTER INSERT ON SAPHANADB.EKPOREFERENCING NEW ROW MYNEWROWFOR EACH ROWBEGININSERT INTO HANABI.DI_EKPO_TRIG_LOG VALUES(:MYNEWROW.EBELN, :MYNEWROW.EBELP , 'I' , CURRENT_TIMESTAMP );END;--UPDATE觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_U AFTER UPDATE ON SAPHANADB.EKPOREFERENCING NEW ROW MYNEWROWFOR EACH ROWBEGININSERT INTOHANABI.DI_EKPO_TRIG_LOG VALUES (:MYNEWROW.EBELN, :MYNEWROW.EBELP , 'U' ,CURRENT_TIMESTAMP ) ;END;--DELETE觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_D AFTER DELETE ON SAPHANADB.EKPOREFERENCING OLD ROW MYOLDROWFOR EACH ROWBEGININSERT INTOHANABI.DI_EKPO_TRIG_LOG VALUES (:MYOLDROW.EBELN, :MYOLDROW.EBELP , 'D' ,CURRENT_TIMESTAMP );END ;
　　有了變更日志表以后，用變更日志表關(guān)聯(lián)源表，就可以得到源表新發(fā)生的所有增、刪、改記錄時(shí)間。
　　#查詢(xún)一段時(shí)間內EKPO表新增、修改、刪除的記錄信息select tr.flag op_flag,tr.insert_time op_time,tb.mandt,tr.ebeln,tr.ebelp,uniqueid,loekz,statu,aedat,matnr,--此處省略其余字段 from HANABI.DI_EKPO_TRIG_LOG tr left join SAPHANADB.ekpo tb on tr.ebeln = tb.ebeln and tr.ebelp = tb.ebelpwhere?tr.insert_time?BETWEEN?to_TIMESTAMP('${start_time}','YYYY-MM-DD-HH24:MI:SS')?AND to_TIMESTAMP('${end_time}','YYYY-MM-DD HH24:MI:SS')
　　記錄上次抽取時(shí)間的方案可以更加靈活地控制抽取數據的區間。為了抽取的數據不會(huì )遺漏，我們一般根據數據量預留10分鐘的重疊區間。
　　首先，我們需要創(chuàng )建增量數據抽取的控制參數表ctl_ods_sync_incr。
　　字段名
　　字段類(lèi)型
　　字段長(cháng)度
　　小數位
　　是否主鍵
　　字段描述
　　schema_name
　　varchar
　　40
　　0
　　否
　　模式名
　　table_name
　　varchar
　　40
　　0
　　是
　　表名
　　last_sysn_time
　　timestamp
　　6
　　0
　　否
　　上次同步時(shí)間
　　然后，我們在抽取腳本中讀取和更新抽取日志表。
#!bin/bash#GP的用戶(hù)名export gpuser="xxxx"#GP的密碼export gppass="xxxx" #目標數據庫模式名export gp_schema="ods_s4"# 目標數據庫表名export gp_table="ods_s4_ekpo_i"# 數據源地址export datasource="s4" #為了避免丟失數據，從上次抽取時(shí)間的十分鐘前開(kāi)始抽取數據result=`psql -h gp-master -p 5432 -U ${gpuser} -d ${gppass} dataxjob.json 查看全部

　　在彈出的頁(yè)面選擇對應的數據庫，填寫(xiě)相關(guān)信息并保存。
　　

　　針對DB連接設置“共享”，可以在多個(gè)Kettle中共享相同的數據庫鏈接信息。
　　第三步，在Kettle開(kāi)發(fā)視圖中拖入一個(gè)表輸入組件和一個(gè)表輸出組件。
　　在表輸入組件和表輸出組件中分別選擇不同的數據庫連接，表輸入支持選擇一張表自動(dòng)生成SQL語(yǔ)句，也支持手寫(xiě)SQL語(yǔ)句。
　　

　　表輸出組件則支持自動(dòng)獲取表結構和自動(dòng)生成目標表。通過(guò)點(diǎn)擊獲取字段，即可直接獲取表輸入查詢(xún)到的字段信息。
　　

　　圖14-4 Kettle表輸出界面
　　點(diǎn)擊SQL，即可在彈出的窗口中看到工具自動(dòng)生產(chǎn)的建表語(yǔ)句，再點(diǎn)擊“執行”，Kettle會(huì )自動(dòng)完成目標表的創(chuàng )建。當然，這個(gè)建表語(yǔ)句是比較粗糙的，我們一般需要按照指定的規范來(lái)手工創(chuàng )建，需要指定分布鍵。
　　

　　第四步，將輸入組件和輸出組件用線(xiàn)連起來(lái)，就組成了一個(gè)數據同步任務(wù)。
　　

　　第五步，將上述組件一起復制多份，修改來(lái)源表、目標表、刷新字段，即可完成大量的數據同步任務(wù)。
　　

　　第六步，直接點(diǎn)“開(kāi)始”圖標運行數據同步任務(wù)或者通過(guò)Kettle的左右來(lái)調度數據同步任務(wù)。
　　2.DataX
　　由于DataX數據同步工具本身是沒(méi)有界面化配置的，因此我們一般會(huì )配套安裝DataX-web或者DolphinScheduler調度工具。DolphinScheduler集成DataX的配置也很簡(jiǎn)單，只需要在DolphinScheduler的配置文件中指定DATAX_HOME即可。
　　

　　在DolphinScheduler后臺配置datax任務(wù)，這里以MySQL數據源為例，數據流配置如下。
　　首先在數據源中心配置MySQL數據源。
　　

　　然后在項目管理里面創(chuàng )建數據流任務(wù)，在畫(huà)布上拉去DataX類(lèi)型配置第一個(gè)任務(wù)，選擇剛才配置的MySQL數據源。
　　

　　保存以后，系統就會(huì )自動(dòng)生成數據同步的工作量，將數據流上線(xiàn)，并配置定時(shí)調度策略，即可完成數據的定時(shí)同步。
　　

增量接口同步
　　一般來(lái)說(shuō)，數據倉庫的接口都符合二八規律，即20%的表存儲了80%的數據，因此這20%的表數據抽取特別耗費時(shí)間。此時(shí)，對于批處理來(lái)說(shuō)，最好的方法是，對于80%數據量較小的表，采用流水線(xiàn)作業(yè)的方式，快速生成接口表、接口程序、接口任務(wù)，通過(guò)全量接口快速抽取、先清空后插入目標表；針對20%數據量較大的表，則需要精耕細作，確定一個(gè)具體可行的增量方案。
　　我認為一般滿(mǎn)足以下條件之一就是較大的表：①抽取時(shí)間超過(guò)10分鐘；②單表記錄數超過(guò)或者接近100萬(wàn)；③接口數據超過(guò)1GB。之所以如此定義，是從數據接口的實(shí)際情況出發(fā)。第一，抽取時(shí)間超過(guò)10分鐘，會(huì )影響整體調度任務(wù)的執行時(shí)間；第二，單表記錄數超過(guò)100萬(wàn)，則插入數據占用數據庫大量的資源，會(huì )影響其他任務(wù)的插入，降低系統的并發(fā)能力；第三，數據傳輸超過(guò)1GB，則需要耗費大量的網(wǎng)絡(luò )寬帶，每天重復一次會(huì )增加網(wǎng)絡(luò )負擔。
　　對于需要做增量的接口表，主要推薦以下兩種批處理方案。
　　方案一：根據數據創(chuàng )建或者修改時(shí)間來(lái)實(shí)現增量
　　很多業(yè)務(wù)系統一般都會(huì )在表結構上增加創(chuàng )建和修改時(shí)間字段，并且存在主鍵或者唯一鍵（可以是一個(gè)字段，也可以是多個(gè)字段組合），同時(shí)確保數據不會(huì )被物理刪除，這種表適合方案一。實(shí)際情況是，各大OLTP系統的數據庫都可以滿(mǎn)足記錄創(chuàng )建和修改時(shí)間信息的，因此這種方式應用最廣泛。
　　對于創(chuàng )建或者修改時(shí)間，MySQL數據庫可以在建表時(shí)指定字段默認值的方式來(lái)生成。
　　 `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間', `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時(shí)間'
　　也可以在建表以后通過(guò)增加字段的方式來(lái)補充。
　　-- 修改create_time 設置默認時(shí)間 CURRENT_TIMESTAMP ALTER TABLE `tb_course`MODIFY COLUMN `create_time` datetime NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間' ;-- 添加update_time 設置默認時(shí)間 CURRENT_TIMESTAMP 設置更新時(shí)間為 ON UPDATE CURRENT_TIMESTAMP ALTER TABLE `tb_course`ADD COLUMN `update_time` datetime NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時(shí)間' ;
　　Oracle數據庫默認情況下只能記錄創(chuàng )建時(shí)間，不能記錄修改時(shí)間。
　　--先添加一個(gè)date類(lèi)型的字段alter tabletb_courseaddcreate_timedate; --將該字段默認為系統時(shí)間alter tabletb_coursemodifycreate_timedefault sysdate;
　　如果需要記錄修改時(shí)間，則需要通過(guò)觸發(fā)器或者修改更新語(yǔ)句來(lái)實(shí)現。觸發(fā)器的腳本如下。
　　CREATE OR REPLACE TRIGGERtrig_tb_course afterINSERT OR UPDATE ON tb_course--新增和修改執行后出發(fā)，對象目標：tb_course表，執行后觸發(fā)器對業(yè)務(wù)交易影響比較小FOR EACH ROW --行級觸發(fā)器，每影響一行觸發(fā)一次BEGIN IF INSERTING THEN --插入數據操作 :NEW.createtime := SYSDATE; ELSIF UPDATING then --修改數據操作 :NEW.createtime := SYSDATE; END IF; END;
　　有了創(chuàng )建或者修改時(shí)間以后，每次抽取最近幾天（一般建議3天）的數據，則直接在where條件后面加上下面的過(guò)濾條件。
　　--取最近3天插入或者更新的記錄where create_time >= cast(date_add(CURRENT_DATE,interval -3 day) as datetime)or update_time >= cast(date_add(CURRENT_DATE,interval -3 day) as datetime)
　　DataX或者Kettle在抽取數據時(shí)直接在SQL語(yǔ)句上加上上述條件即可，數據寫(xiě)入臨時(shí)表，筆者一般以_incr作為臨時(shí)表后綴。
　　抽取到變化的數據以后，將前后數據進(jìn)行合并即可完成增量數據更新。一般情況下我們可能會(huì )采用MERGE INTO的方式進(jìn)行數據合并，這里推薦先刪除后插入的方式。首先，MERGE只有少數數據庫支持，雖然Greenplum也支持，但是功能不夠完善，語(yǔ)法比較復雜。其次對于大多數數據庫而言，刪除比更新更快，因此推薦先刪除后插入的方式。如果變化的數據不大，可以直接采用刪除再插入的方式；如果變化的數據太大，刪除的效率太低，則需要借助第三張表來(lái)完成數據的合并。先刪除后插入的語(yǔ)句示例如下，假設DRP系統的item_info表是一張商品主數據，數據量大，但是變化頻率不高，則我們可以通過(guò)下面的語(yǔ)句來(lái)合并增量數據。
　　--先刪除有過(guò)變化的數據delete from ods_drp.ods_drp_item_info twhere exists(select 1 from ods.ods_drp_item_info_incr bwhere t.item_id = b.item_id);--然后插入新抽取過(guò)來(lái)的數據insert into ods_drp.ods_drp_item_infoselect t.*,current_timestamp() insert_timefrom ods_drp.ods_drp_item_info_incr t;
　　方案二：增加觸發(fā)器記錄創(chuàng )建或者修改時(shí)間來(lái)實(shí)現增量
　　對于SAP之類(lèi)的業(yè)務(wù)系統，我們經(jīng)常遇到有些表要么沒(méi)有創(chuàng )建、修改時(shí)間，要么存在記錄物理刪除的情況，因此無(wú)法通過(guò)方案一實(shí)現增量。結合HANA數據庫的特點(diǎn)，我們最后采用了創(chuàng )建觸發(fā)器來(lái)記錄業(yè)務(wù)數據創(chuàng )建、修改時(shí)間的方案。
　　這種方案下，我們需要針對每一張增量接口表，創(chuàng )建一張日志表，包括接口表的主鍵字段、操作標志、操作時(shí)間。每次抽取數據需要用日志表關(guān)聯(lián)業(yè)務(wù)數據，然后抽取一段時(shí)間內新增、修改、刪除的記錄到數據中臺數據庫，最后根據操作標志+操作時(shí)間對目標表數據進(jìn)行更新。
　　本方案雖然看上去對交易系統的侵入性較高，很難被接受，但其實(shí)是一個(gè)非常好用的增量方案，適合任何場(chǎng)景。首先，觸發(fā)器是Oracle、DB2、HANA等數據庫系統標配的功能，在表上增加after觸發(fā)器對業(yè)務(wù)交易影響微乎其微。其次，抽取數據的時(shí)間一般都在業(yè)務(wù)空閑時(shí)間，業(yè)務(wù)表和日志表的關(guān)聯(lián)不會(huì )影響正常交易。第三，本方案可以捕捉數據的物理刪除操作，可以保證數據同步100%的準確性。
　　下面，我們以SAP S/4 HANA的EKPO表為例進(jìn)行方案解析。首先創(chuàng )建EKPO變更日志表。
　　--創(chuàng )建EKPO變更日志表，需要包含主鍵字段和變更標志、變更時(shí)間字段CREATE TABLE HANABI.DI_EKPO_TRIG_LOG ( EBELN CHAR(10) , EBELP CHAR(10), FLAG CHAR(5) , INSERT_TIME SECONDDATE?);
　　然后給EKPO表添加觸發(fā)器。
　　--INSERT觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_I AFTER INSERT ON SAPHANADB.EKPOREFERENCING NEW ROW MYNEWROWFOR EACH ROWBEGININSERT INTO HANABI.DI_EKPO_TRIG_LOG VALUES(:MYNEWROW.EBELN, :MYNEWROW.EBELP , 'I' , CURRENT_TIMESTAMP );END;--UPDATE觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_U AFTER UPDATE ON SAPHANADB.EKPOREFERENCING NEW ROW MYNEWROWFOR EACH ROWBEGININSERT INTOHANABI.DI_EKPO_TRIG_LOG VALUES (:MYNEWROW.EBELN, :MYNEWROW.EBELP , 'U' ,CURRENT_TIMESTAMP ) ;END;--DELETE觸發(fā)器CREATE TRIGGER DI_TRIGGER_EKPO_D AFTER DELETE ON SAPHANADB.EKPOREFERENCING OLD ROW MYOLDROWFOR EACH ROWBEGININSERT INTOHANABI.DI_EKPO_TRIG_LOG VALUES (:MYOLDROW.EBELN, :MYOLDROW.EBELP , 'D' ,CURRENT_TIMESTAMP );END ;
　　有了變更日志表以后，用變更日志表關(guān)聯(lián)源表，就可以得到源表新發(fā)生的所有增、刪、改記錄時(shí)間。
　　#查詢(xún)一段時(shí)間內EKPO表新增、修改、刪除的記錄信息select tr.flag op_flag,tr.insert_time op_time,tb.mandt,tr.ebeln,tr.ebelp,uniqueid,loekz,statu,aedat,matnr,--此處省略其余字段 from HANABI.DI_EKPO_TRIG_LOG tr left join SAPHANADB.ekpo tb on tr.ebeln = tb.ebeln and tr.ebelp = tb.ebelpwhere?tr.insert_time?BETWEEN?to_TIMESTAMP('${start_time}','YYYY-MM-DD-HH24:MI:SS')?AND to_TIMESTAMP('${end_time}','YYYY-MM-DD HH24:MI:SS')
　　記錄上次抽取時(shí)間的方案可以更加靈活地控制抽取數據的區間。為了抽取的數據不會(huì )遺漏，我們一般根據數據量預留10分鐘的重疊區間。
　　首先，我們需要創(chuàng )建增量數據抽取的控制參數表ctl_ods_sync_incr。
　　字段名
　　字段類(lèi)型
　　字段長(cháng)度
　　小數位
　　是否主鍵
　　字段描述
　　schema_name
　　varchar
　　40
　　0
　　否
　　模式名
　　table_name
　　varchar
　　40
　　0
　　是
　　表名
　　last_sysn_time
　　timestamp
　　6
　　0
　　否
　　上次同步時(shí)間
　　然后，我們在抽取腳本中讀取和更新抽取日志表。
#!bin/bash#GP的用戶(hù)名export gpuser="xxxx"#GP的密碼export gppass="xxxx" #目標數據庫模式名export gp_schema="ods_s4"# 目標數據庫表名export gp_table="ods_s4_ekpo_i"# 數據源地址export datasource="s4" #為了避免丟失數據，從上次抽取時(shí)間的十分鐘前開(kāi)始抽取數據result=`psql -h gp-master -p 5432 -U ${gpuser} -d ${gppass} dataxjob.json

4個(gè)寶藏網(wǎng)站，別再說(shuō)你寫(xiě)不出文案了（可以自動(dòng)生成文案哦）（Day-6）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 295 次瀏覽 ? 2022-04-29 10:05 ? 來(lái)自相關(guān)話(huà)題

　　4個(gè)寶藏網(wǎng)站，別再說(shuō)你寫(xiě)不出文案了（可以自動(dòng)生成文案哦）（Day-6）
　　
　　文案寫(xiě)作，從未想過(guò)，竟然如此簡(jiǎn)單?。?！
　　1??秘塔寫(xiě)作貓（網(wǎng)站）
　　什么是寫(xiě)作貓：寫(xiě)作貓是新一代AI寫(xiě)作伴侶，幫你推敲用法、斟酌文法、改寫(xiě)文風(fēng)，還能實(shí)時(shí)同步翻譯。
　　你只需要把你在網(wǎng)上看到的，寫(xiě)的好的文章/視頻文案導入進(jìn)去，就可以一鍵幫你修改文章，改變文風(fēng)哦！
　　寫(xiě)作從未如此簡(jiǎn)單！
　　
　　2??Get智能寫(xiě)作（網(wǎng)站）
　　這個(gè)網(wǎng)站就是半自動(dòng)化的哦，人機合作，讓你也能在短時(shí)間內提升寫(xiě)作的能力和效率，用最短的時(shí)間來(lái)寫(xiě)出屬于你的爆款文案哦。
　　
　　3??Giiso寫(xiě)作機器人（網(wǎng)站）
　　不會(huì )寫(xiě)文章，會(huì )組織關(guān)鍵字嗎，只要你能列出自己文案中需要的關(guān)鍵字就可以，這個(gè)網(wǎng)站就可以幫你寫(xiě)一篇邏輯通順的文章哦，自己再加以修飾，就完美收文了，還提供熱點(diǎn)寫(xiě)作、稿件改寫(xiě)等功能啦。
　　
　　4??易撰寫(xiě)（網(wǎng)站）
　　這個(gè)網(wǎng)站是以數據為依據的啦，通過(guò)數據挖掘，把各大自媒體平臺的內容進(jìn)行了整合分析，提供了實(shí)時(shí)熱點(diǎn)追蹤、爆款文案視頻批量采集，更有微信文章編輯器排版，標題生成及原創(chuàng )檢測哦，想蹭熱點(diǎn)嗎，這個(gè)網(wǎng)站還可以給自動(dòng)生成熱點(diǎn)文章啦，是不是很方便~
　　
　　往期精彩
　　●
　　●
　　●
　　訂閱#好用的學(xué)習APP話(huà)題，看更多內容。
　　關(guān)注我，每天分享好用的APP和網(wǎng)站。
　　讓優(yōu)秀的你總能快人一步。
　　查看全部

　　4個(gè)寶藏網(wǎng)站，別再說(shuō)你寫(xiě)不出文案了（可以自動(dòng)生成文案哦）（Day-6）
　　

　　文案寫(xiě)作，從未想過(guò)，竟然如此簡(jiǎn)單?。?！
　　1??秘塔寫(xiě)作貓（網(wǎng)站）
　　什么是寫(xiě)作貓：寫(xiě)作貓是新一代AI寫(xiě)作伴侶，幫你推敲用法、斟酌文法、改寫(xiě)文風(fēng)，還能實(shí)時(shí)同步翻譯。
　　你只需要把你在網(wǎng)上看到的，寫(xiě)的好的文章/視頻文案導入進(jìn)去，就可以一鍵幫你修改文章，改變文風(fēng)哦！
　　寫(xiě)作從未如此簡(jiǎn)單！
　　

　　2??Get智能寫(xiě)作（網(wǎng)站）
　　這個(gè)網(wǎng)站就是半自動(dòng)化的哦，人機合作，讓你也能在短時(shí)間內提升寫(xiě)作的能力和效率，用最短的時(shí)間來(lái)寫(xiě)出屬于你的爆款文案哦。
　　

　　3??Giiso寫(xiě)作機器人（網(wǎng)站）
　　不會(huì )寫(xiě)文章，會(huì )組織關(guān)鍵字嗎，只要你能列出自己文案中需要的關(guān)鍵字就可以，這個(gè)網(wǎng)站就可以幫你寫(xiě)一篇邏輯通順的文章哦，自己再加以修飾，就完美收文了，還提供熱點(diǎn)寫(xiě)作、稿件改寫(xiě)等功能啦。
　　

　　4??易撰寫(xiě)（網(wǎng)站）
　　這個(gè)網(wǎng)站是以數據為依據的啦，通過(guò)數據挖掘，把各大自媒體平臺的內容進(jìn)行了整合分析，提供了實(shí)時(shí)熱點(diǎn)追蹤、爆款文案視頻批量采集，更有微信文章編輯器排版，標題生成及原創(chuàng )檢測哦，想蹭熱點(diǎn)嗎，這個(gè)網(wǎng)站還可以給自動(dòng)生成熱點(diǎn)文章啦，是不是很方便~
　　

　　往期精彩
　　●
　　●
　　●
　　訂閱#好用的學(xué)習APP話(huà)題，看更多內容。
　　關(guān)注我，每天分享好用的APP和網(wǎng)站。
　　讓優(yōu)秀的你總能快人一步。
　　

實(shí)時(shí)文章采集(基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)實(shí)時(shí)的采集)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-12 21:00 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)文章采集(基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)實(shí)時(shí)的采集)
　　介紹
　　在很多數據采集場(chǎng)景中，Flume是一個(gè)高性能的采集日志工具，相信大家都知道。很多人想到的Flume組件，大部分人能想到的就是Flume和Kafka的結合，用于日志記錄采集，這種方案有很多優(yōu)點(diǎn)，比如高性能、高吞吐、數據可靠性等。但是如果我們需要實(shí)時(shí)的采集日志，這顯然不是一個(gè)好的解決方案。原因如下：
　　目前，Flume 可以支持對某個(gè)目錄下的數據文件進(jìn)行實(shí)時(shí)監控。一旦一個(gè)目錄的文件采集完成，它就會(huì )被標記為完成。如果數據稍后進(jìn)入這個(gè)文件，Flume 不會(huì )。會(huì )被檢測到。
　　因此，我們更多的使用這個(gè)方案來(lái)計時(shí)采集，只要生成了一個(gè)新的數據目錄，我們就會(huì )采集這個(gè)目錄下的數據文件。
　　那么本文文章將介紹基于Openresty+Lua+Kafka采集的實(shí)時(shí)日志。
　　需要
　　很多時(shí)候，我們需要對用戶(hù)的埋點(diǎn)數據進(jìn)行一次實(shí)時(shí)的采集，然后利用這個(gè)數據對用戶(hù)的行為做一些實(shí)時(shí)的分析。所以，第一步當然是解決如何對數據進(jìn)行實(shí)時(shí)采集。
　　我們這里使用的解決方案是 Openresty+Lua+Kafka。
　　原理介紹
　　那么什么是 Openresty？以下是官方引用：
　　OpenResty 是一個(gè)基于 Nginx 和 Lua 的高性能 Web 平臺，集成了大量復雜的 Lua 庫、第三方模塊和大部分依賴(lài)項。它用于輕松構建能夠處理超高并發(fā)和可擴展性的動(dòng)態(tài) Web 應用程序、Web 服務(wù)和動(dòng)態(tài)網(wǎng)關(guān)。
　　OpenResty 通過(guò)匯集各種精心設計的 Nginx 模塊，有效地將 Nginx 變成了一個(gè)強大的通用 Web 應用平臺。這樣，Web 開(kāi)發(fā)者和系統工程師就可以使用 Lu 腳本語(yǔ)言調動(dòng) Nginx 支持的各種 C 和 Lua 模塊，快速構建出單機并發(fā)連接數達到 10K 甚至超過(guò) 1000 的高性能 Web 應用系統。
　　OpenResty 的目標是讓你的 Web 服務(wù)直接在 Nginx 服務(wù)內部運行，充分利用 Nginx 的非阻塞 I/O 模型，不僅適用于 HTTP 客戶(hù)端請求，還適用于遠程后端，如 MySQL、PostgreSQL、Memcached 和Redis 等都提供一致的高性能響應。
　　簡(jiǎn)單來(lái)說(shuō)就是通過(guò)Nginx傳遞客戶(hù)端的請求（本文指的是用戶(hù)的行為日志），將用戶(hù)的數據傳遞到我們指定的地方（Kafka）。為了實(shí)現這個(gè)需求，我們使用 Lua 腳本，因為 Openresty 封裝了各種 Lua 模塊，其中之一就是對 Kafka 模塊進(jìn)行分包。我們只需要編寫(xiě)一個(gè)簡(jiǎn)單的腳本，通過(guò) Nginx 將用戶(hù)的數據轉發(fā)到 Kafka，供后續的數據消費使用。
　　為了您的方便，這里是一個(gè)架構圖：
　　
　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據，不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同topic。
　　2.用戶(hù)觸發(fā)埋點(diǎn)數據實(shí)時(shí)跟蹤采集
　　3.高可靠集群，由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，與tomcat、apache等web服務(wù)器相比，Nginx的并發(fā)比其他兩個(gè)要高很多。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　那么讓我們開(kāi)始吧。
　　安裝 Openresty
　　本例采用單機部署形式。單機部署成功后，集群搭建與單機相同，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本的時(shí)候需要用到lua模塊中對Kafka的一些依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于kafka大家都比較熟悉，這里就不介紹它的安裝了。
　　Openresty安裝完成后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯 /opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯 /opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯 /opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.啟動(dòng)服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的流程證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求進(jìn)行簡(jiǎn)單測試，看看kafka能否接收數據
　　
　　7.Kafka消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則證明配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log中的相關(guān)錯誤日志進(jìn)行調整。
　　總結
　　使用Openresty+Lua+Kafka，可以將用戶(hù)的埋點(diǎn)數據實(shí)時(shí)發(fā)送到kafka集群，而Openresty是基于Nginx的，Nginx可以處理上萬(wàn)并發(fā)，所以即使用戶(hù)數據很短一段時(shí)間這種架構也可以輕松應對內部浪涌而不會(huì )導致集群崩潰。另一方面，如果數據過(guò)多導致集群過(guò)載，我們可以隨時(shí)添加另一臺機器，非常方便。
　　另一個(gè)小擴展：如果業(yè)務(wù)數據很多，需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，而是可以聯(lián)系后端添加一個(gè)json格式的字段，以及這個(gè)的值字段是主題的值名稱(chēng)。我們只需要編寫(xiě)一個(gè)通用腳本來(lái)解析Json數據并取出主題名稱(chēng)。查看全部

　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據，不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同topic。
　　2.用戶(hù)觸發(fā)埋點(diǎn)數據實(shí)時(shí)跟蹤采集
　　3.高可靠集群，由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，與tomcat、apache等web服務(wù)器相比，Nginx的并發(fā)比其他兩個(gè)要高很多。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　那么讓我們開(kāi)始吧。
　　安裝 Openresty
　　本例采用單機部署形式。單機部署成功后，集群搭建與單機相同，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本的時(shí)候需要用到lua模塊中對Kafka的一些依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于kafka大家都比較熟悉，這里就不介紹它的安裝了。
　　Openresty安裝完成后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯 /opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯 /opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯 /opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.啟動(dòng)服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的流程證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求進(jìn)行簡(jiǎn)單測試，看看kafka能否接收數據
　　

　　7.Kafka消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則證明配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log中的相關(guān)錯誤日志進(jìn)行調整。
　　總結
　　使用Openresty+Lua+Kafka，可以將用戶(hù)的埋點(diǎn)數據實(shí)時(shí)發(fā)送到kafka集群，而Openresty是基于Nginx的，Nginx可以處理上萬(wàn)并發(fā)，所以即使用戶(hù)數據很短一段時(shí)間這種架構也可以輕松應對內部浪涌而不會(huì )導致集群崩潰。另一方面，如果數據過(guò)多導致集群過(guò)載，我們可以隨時(shí)添加另一臺機器，非常方便。
　　另一個(gè)小擴展：如果業(yè)務(wù)數據很多，需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，而是可以聯(lián)系后端添加一個(gè)json格式的字段，以及這個(gè)的值字段是主題的值名稱(chēng)。我們只需要編寫(xiě)一個(gè)通用腳本來(lái)解析Json數據并取出主題名稱(chēng)。

　　表輸出組件則支持自動(dòng)獲取表結構和自動(dòng)生成目標表。通過(guò)點(diǎn)擊獲取字段，即可直接獲取表輸入查詢(xún)到的字段信息。
　　

　　第四步，將輸入組件和輸出組件用線(xiàn)連起來(lái)，就組成了一個(gè)數據同步任務(wù)。
　　

　　第五步，將上述組件一起復制多份，修改來(lái)源表、目標表、刷新字段，即可完成大量的數據同步任務(wù)。
　　

　　在DolphinScheduler后臺配置datax任務(wù)，這里以MySQL數據源為例，數據流配置如下。
　　首先在數據源中心配置MySQL數據源。
　　

　　然后在項目管理里面創(chuàng )建數據流任務(wù)，在畫(huà)布上拉去DataX類(lèi)型配置第一個(gè)任務(wù)，選擇剛才配置的MySQL數據源。
　　

　　保存以后，系統就會(huì )自動(dòng)生成數據同步的工作量，將數據流上線(xiàn)，并配置定時(shí)調度策略，即可完成數據的定時(shí)同步。
　　

4個(gè)寶藏網(wǎng)站，別再說(shuō)你寫(xiě)不出文案了（可以自動(dòng)生成文案哦）（Day-6）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 295 次瀏覽 ? 2022-04-29 10:05 ? 來(lái)自相關(guān)話(huà)題

　　4個(gè)寶藏網(wǎng)站，別再說(shuō)你寫(xiě)不出文案了（可以自動(dòng)生成文案哦）（Day-6）
　　

實(shí)時(shí)文章采集(基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)實(shí)時(shí)的采集)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-12 21:00 ? 來(lái)自相關(guān)話(huà)題

更多...

話(huà)題描述

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久