亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<mark id="vl0m3"><em id="vl0m3"><cite id="vl0m3"></cite></em></mark>

文章實(shí)時(shí)采集

文章實(shí)時(shí)采集

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

2.框架實(shí)時(shí)采集處理方案，Streaming處理

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2021-08-15 21:23 ? 來(lái)自相關(guān)話(huà)題

　　2.框架實(shí)時(shí)采集處理方案，Streaming處理
　　1.Background
　　在實(shí)際生產(chǎn)中，我們經(jīng)常會(huì )遇到像kafka這樣的流式數據，而原創(chuàng )數據并不是我們想要的，需要通過(guò)一定的邏輯處理轉換成我們需要的數據。針對這種需求，本文采用NiFi+Spark Streaming技術(shù)方案設計了一種通用的實(shí)時(shí)采集處理各種外部數據源的方法。
　　2.Framework
　　實(shí)時(shí)采集處理方案由兩部分組成：數據采集和流處理。數據采集來(lái)自NiFi中的任務(wù)流采集外部數據源，數據寫(xiě)入指定端口。在流式處理中，Spark Streaming從NiFi中的指定端口讀取數據，進(jìn)行相關(guān)的數據轉換，然后寫(xiě)入Kafka。整個(gè)流式采集處理框架如下：
　　流媒體框架
　　3.數據采集
　　NiFi 是一個(gè)易于使用、功能強大且可靠的數據提取、數據處理和分發(fā)系統。 NiFi 專(zhuān)為數據流而設計。支持指標圖的高度可配置的數據路由、轉換和系統中介邏輯，支持從多種數據源動(dòng)態(tài)拉取數據。它由 NSA 開(kāi)源，是頂級 Apache 項目之一。詳情請見(jiàn)：。
　　在NiFi中，會(huì )根據不同的數據源創(chuàng )建相應的模板，然后通過(guò)模板部署任務(wù)流。任務(wù)流將采集data 源數據，然后寫(xiě)入指定端口。對于不同的數據源，數據采集的方法是不同的。比如數據庫類(lèi)型的數據源需要對采集使用記錄水位和增量拉取的方法。為了方便后續的數據轉換，這里將數據統一轉換為csv格式。比如mongodb的json數據會(huì )根據字段展開(kāi)到第一層，對象值會(huì )被序列化成字符串。
　　最簡(jiǎn)單的任務(wù)流程如下：
　　任務(wù)流程
　　GetFile本身讀取的文件是帶有標題的csv格式，如下圖：
　　id,name,age
1000,name1,20
1001,name2,21
1002,name3,22
　　UpdateAttribute 將設置目標字段名稱(chēng)、類(lèi)型和轉換規則，如下所示：
　　tid|string|.select(df("*"), df("id").cast("string").as("tid"))
tname|string|.select(df("*"), df("name").cast("string").as("tname"))
tage|string|.select(df("*"), df("age").cast("int").as("tage"))
　　4.流處理
　　Spark Streaming 是一個(gè)基于 Spark 的實(shí)時(shí)計算框架。它是 Spark Core API 的擴展?？蓪?shí)現流式數據的實(shí)時(shí)處理，具有良好的可擴展性、高吞吐量和容錯性。
　　Spark Streaming 連接 NiFi 數據并執行流式處理步驟：
　　1.初始化上下文
　　final SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster(sparkMaster);
JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, new Duration(1000L));
　　2.連接nifi中指定的輸出端口
　　SiteToSiteClientConfig config = new SiteToSiteClient.Builder().url(nifiUrl).portName(nifiPort).buildConfig();
final JavaReceiverInputDStream packetStream = ssc.receiverStream(new NiFiReceiver(config, StorageLevel.MEMORY_AND_DISK()));
　　3.讀取端口上的流數據和屬性
　　JavaDStream ds = packetStream.map(new Function() {
@Override
public NifiFeed call(NiFiDataPacket dataPacket) throws Exception {
return new NifiFeed(new String(dataPacket.getContent()), dataPacket.getAttributes());
}
});
　　NifiFeed 是一種用于存儲數據和屬性的自定義數據結構。
　　4.數據轉換
　　ds.foreachRDD(new VoidFunction() {
@Override
public void call(JavaRDD rdd) throws Exception {
rdd.foreachPartition(new VoidFunction() {
@Override
public void call(Iterator iterator) throws Exception {
try {
while (iterator.hasNext()) {
//TODO:執行數據轉換
}
} catch (Exception e) {
//TODO:異常處理
}
}
});
}
});
　　數據轉換需要動(dòng)態(tài)執行屬性中的代碼。這里使用jexl開(kāi)源庫動(dòng)態(tài)執行java代碼。詳情請見(jiàn)：。
　　5.啟動(dòng)服務(wù)
　　ssc.start();
ssc.awaitTermination();
　　5.Summary
　　本方案使用NiFi處理采集數據，然后通過(guò)Spark Streaming流引擎，將采集數據按照規定進(jìn)行轉換，生成新數據發(fā)送到Kafka系統進(jìn)行后續服務(wù)或處理，如Kylin Streaming模型構建。查看全部

　　2.框架實(shí)時(shí)采集處理方案，Streaming處理
　　1.Background
　　在實(shí)際生產(chǎn)中，我們經(jīng)常會(huì )遇到像kafka這樣的流式數據，而原創(chuàng )數據并不是我們想要的，需要通過(guò)一定的邏輯處理轉換成我們需要的數據。針對這種需求，本文采用NiFi+Spark Streaming技術(shù)方案設計了一種通用的實(shí)時(shí)采集處理各種外部數據源的方法。
　　2.Framework
　　實(shí)時(shí)采集處理方案由兩部分組成：數據采集和流處理。數據采集來(lái)自NiFi中的任務(wù)流采集外部數據源，數據寫(xiě)入指定端口。在流式處理中，Spark Streaming從NiFi中的指定端口讀取數據，進(jìn)行相關(guān)的數據轉換，然后寫(xiě)入Kafka。整個(gè)流式采集處理框架如下：
　　流媒體框架
　　3.數據采集
　　NiFi 是一個(gè)易于使用、功能強大且可靠的數據提取、數據處理和分發(fā)系統。 NiFi 專(zhuān)為數據流而設計。支持指標圖的高度可配置的數據路由、轉換和系統中介邏輯，支持從多種數據源動(dòng)態(tài)拉取數據。它由 NSA 開(kāi)源，是頂級 Apache 項目之一。詳情請見(jiàn)：。
　　在NiFi中，會(huì )根據不同的數據源創(chuàng )建相應的模板，然后通過(guò)模板部署任務(wù)流。任務(wù)流將采集data 源數據，然后寫(xiě)入指定端口。對于不同的數據源，數據采集的方法是不同的。比如數據庫類(lèi)型的數據源需要對采集使用記錄水位和增量拉取的方法。為了方便后續的數據轉換，這里將數據統一轉換為csv格式。比如mongodb的json數據會(huì )根據字段展開(kāi)到第一層，對象值會(huì )被序列化成字符串。
　　最簡(jiǎn)單的任務(wù)流程如下：
　　任務(wù)流程
　　GetFile本身讀取的文件是帶有標題的csv格式，如下圖：
　　id,name,age
1000,name1,20
1001,name2,21
1002,name3,22
　　UpdateAttribute 將設置目標字段名稱(chēng)、類(lèi)型和轉換規則，如下所示：
　　tid|string|.select(df("*"), df("id").cast("string").as("tid"))
tname|string|.select(df("*"), df("name").cast("string").as("tname"))
tage|string|.select(df("*"), df("age").cast("int").as("tage"))
　　4.流處理
　　Spark Streaming 是一個(gè)基于 Spark 的實(shí)時(shí)計算框架。它是 Spark Core API 的擴展?？蓪?shí)現流式數據的實(shí)時(shí)處理，具有良好的可擴展性、高吞吐量和容錯性。
　　Spark Streaming 連接 NiFi 數據并執行流式處理步驟：
　　1.初始化上下文
　　final SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster(sparkMaster);
JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, new Duration(1000L));
　　2.連接nifi中指定的輸出端口
　　SiteToSiteClientConfig config = new SiteToSiteClient.Builder().url(nifiUrl).portName(nifiPort).buildConfig();
final JavaReceiverInputDStream packetStream = ssc.receiverStream(new NiFiReceiver(config, StorageLevel.MEMORY_AND_DISK()));
　　3.讀取端口上的流數據和屬性
　　JavaDStream ds = packetStream.map(new Function() {
@Override
public NifiFeed call(NiFiDataPacket dataPacket) throws Exception {
return new NifiFeed(new String(dataPacket.getContent()), dataPacket.getAttributes());
}
});
　　NifiFeed 是一種用于存儲數據和屬性的自定義數據結構。
　　4.數據轉換
　　ds.foreachRDD(new VoidFunction() {
@Override
public void call(JavaRDD rdd) throws Exception {
rdd.foreachPartition(new VoidFunction() {
@Override
public void call(Iterator iterator) throws Exception {
try {
while (iterator.hasNext()) {
//TODO:執行數據轉換
}
} catch (Exception e) {
//TODO:異常處理
}
}
});
}
});
　　數據轉換需要動(dòng)態(tài)執行屬性中的代碼。這里使用jexl開(kāi)源庫動(dòng)態(tài)執行java代碼。詳情請見(jiàn)：。
　　5.啟動(dòng)服務(wù)
　　ssc.start();
ssc.awaitTermination();
　　5.Summary
　　本方案使用NiFi處理采集數據，然后通過(guò)Spark Streaming流引擎，將采集數據按照規定進(jìn)行轉換，生成新數據發(fā)送到Kafka系統進(jìn)行后續服務(wù)或處理，如Kylin Streaming模型構建。

文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2021-08-13 18:06 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集
　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集，有相關(guān)項目可以私信我。
　　目前主要針對web在做，發(fā)展形勢不錯，市場(chǎng)大，需求多，在做得技術(shù)也很多?；ヂ?lián)網(wǎng)獲取信息首先網(wǎng)上很多信息是空的，需要進(jìn)行發(fā)現，然后推送給用戶(hù)看，需要定向和采集。
　　談一下我個(gè)人了解到的目前主要有：
　　1）javascript
　　2）文本處理基本上你懂點(diǎn)javascript就行，這個(gè)很多需求是給不懂的團隊使用，當然javascript處理網(wǎng)頁(yè)中文本信息還是非常方便，
　　3）圖像處理的很多公司都做出有有像素級別的提取
　　4）定制化這一塊在各個(gè)項目中都可以看到，
　　5）性能這塊內存機制不同速度上會(huì )有相應的影響，
　　6）采集質(zhì)量（bloomfilter-webeventgrabber）大家在使用某app的某個(gè)公眾號后臺很多公眾號做了一些優(yōu)化，
　　作為廣告公司實(shí)習生，
　　1）有朋友分享過(guò)，阿里的猴子采集器采集方法在google上有結果，所以大家可以試試。
　　2）手工分詞，這個(gè)速度明顯慢，還容易出錯。
　　3）由于網(wǎng)頁(yè)不可避免地不具有唯一性，如果爬取某些站點(diǎn)中使用ip訪(fǎng)問(wèn)網(wǎng)頁(yè)的ip不唯一（有的域名是指向多個(gè)網(wǎng)站的），則蜘蛛有可能訪(fǎng)問(wèn)其他網(wǎng)站的ip。
　　4）爬蟲(chóng)時(shí)間不宜過(guò)長(cháng)，防止頻繁發(fā)起網(wǎng)絡(luò )請求，或者重定向，因為爬蟲(chóng)內存過(guò)于飽和。
　　5）爬蟲(chóng)最終會(huì )并發(fā)請求數超過(guò)系統底線(xiàn)，爬蟲(chóng)根本沒(méi)法從目標站點(diǎn)中獲取信息，無(wú)法達到爬取準確率90%的要求。
　　6）除了基本的解析和去重等采集技術(shù)外，大量數據需要進(jìn)行分庫分表，可以采用分段爬蟲(chóng)實(shí)現。
　　7）我了解到的，即使是分庫分表，很多大網(wǎng)站對于重定向比較敏感，往往需要重定向得比較久，如果電腦配置不太高可能會(huì )被卡在某個(gè)頁(yè)面上；比如有個(gè)網(wǎng)站有x十秒，我們爬了半小時(shí)。這個(gè)頁(yè)面即使對于正常用戶(hù)也可能有很多信息沒(méi)有收集到。比如有的網(wǎng)站可能要求只有x個(gè)人能看到。
　　8）瀏覽器上一些系統的ui做的不好。比如頁(yè)面里邊有很多驗證碼，做一些奇怪的驗證碼頁(yè)面上也不容易找到正確的驗證碼。比如老年人看網(wǎng)站，可能會(huì )被彈出的彩蛋嚇到并且怕自己也會(huì )瞎。最后我還是建議各位找師兄師姐買(mǎi)一臺正版web抓包工具，甚至花一兩百做一套好用的定向的工具?；揪涂梢苑治鲎约盒枰裁礃拥木W(wǎng)站，查看全部

　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集
　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集，有相關(guān)項目可以私信我。
　　目前主要針對web在做，發(fā)展形勢不錯，市場(chǎng)大，需求多，在做得技術(shù)也很多?；ヂ?lián)網(wǎng)獲取信息首先網(wǎng)上很多信息是空的，需要進(jìn)行發(fā)現，然后推送給用戶(hù)看，需要定向和采集。
　　談一下我個(gè)人了解到的目前主要有：
　　1）javascript
　　2）文本處理基本上你懂點(diǎn)javascript就行，這個(gè)很多需求是給不懂的團隊使用，當然javascript處理網(wǎng)頁(yè)中文本信息還是非常方便，
　　3）圖像處理的很多公司都做出有有像素級別的提取
　　4）定制化這一塊在各個(gè)項目中都可以看到，
　　5）性能這塊內存機制不同速度上會(huì )有相應的影響，
　　6）采集質(zhì)量（bloomfilter-webeventgrabber）大家在使用某app的某個(gè)公眾號后臺很多公眾號做了一些優(yōu)化，
　　作為廣告公司實(shí)習生，
　　1）有朋友分享過(guò)，阿里的猴子采集器采集方法在google上有結果，所以大家可以試試。
　　2）手工分詞，這個(gè)速度明顯慢，還容易出錯。
　　3）由于網(wǎng)頁(yè)不可避免地不具有唯一性，如果爬取某些站點(diǎn)中使用ip訪(fǎng)問(wèn)網(wǎng)頁(yè)的ip不唯一（有的域名是指向多個(gè)網(wǎng)站的），則蜘蛛有可能訪(fǎng)問(wèn)其他網(wǎng)站的ip。
　　4）爬蟲(chóng)時(shí)間不宜過(guò)長(cháng)，防止頻繁發(fā)起網(wǎng)絡(luò )請求，或者重定向，因為爬蟲(chóng)內存過(guò)于飽和。
　　5）爬蟲(chóng)最終會(huì )并發(fā)請求數超過(guò)系統底線(xiàn)，爬蟲(chóng)根本沒(méi)法從目標站點(diǎn)中獲取信息，無(wú)法達到爬取準確率90%的要求。
　　6）除了基本的解析和去重等采集技術(shù)外，大量數據需要進(jìn)行分庫分表，可以采用分段爬蟲(chóng)實(shí)現。
　　7）我了解到的，即使是分庫分表，很多大網(wǎng)站對于重定向比較敏感，往往需要重定向得比較久，如果電腦配置不太高可能會(huì )被卡在某個(gè)頁(yè)面上；比如有個(gè)網(wǎng)站有x十秒，我們爬了半小時(shí)。這個(gè)頁(yè)面即使對于正常用戶(hù)也可能有很多信息沒(méi)有收集到。比如有的網(wǎng)站可能要求只有x個(gè)人能看到。
　　8）瀏覽器上一些系統的ui做的不好。比如頁(yè)面里邊有很多驗證碼，做一些奇怪的驗證碼頁(yè)面上也不容易找到正確的驗證碼。比如老年人看網(wǎng)站，可能會(huì )被彈出的彩蛋嚇到并且怕自己也會(huì )瞎。最后我還是建議各位找師兄師姐買(mǎi)一臺正版web抓包工具，甚至花一兩百做一套好用的定向的工具?；揪涂梢苑治鲎约盒枰裁礃拥木W(wǎng)站，

實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2021-08-11 02:15 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出
　　01 什么是實(shí)時(shí)數據倉庫
　　首先要明確什么是實(shí)時(shí)數據倉庫。百度百科和維基百科均未給出具體說(shuō)明。什么是實(shí)時(shí)數據倉庫？是否可以通過(guò)實(shí)時(shí)流式獲取實(shí)時(shí)數據，即實(shí)時(shí)數據倉庫？換句話(huà)說(shuō)，流批處理集成是實(shí)時(shí)數據倉庫？還是完全采用實(shí)時(shí)方式，采集和實(shí)時(shí)計算都是實(shí)時(shí)數據倉庫？
　　對于這個(gè)問(wèn)題，不同的公司可能有不同的答案。有些人認為提供實(shí)時(shí)廣告牌或實(shí)時(shí)報告是實(shí)時(shí)數據倉庫；其他人可能認為數據倉庫提供的數據必須是實(shí)時(shí)的才能被認為是實(shí)時(shí)數據倉庫。事實(shí)上，這個(gè)問(wèn)題沒(méi)有標準答案。不同的人、場(chǎng)景和公司對它的理解不同。記得有個(gè)老板講過(guò)管理崗位和技術(shù)崗位的區別，其中之一是：
　　對于一件事或需要，T帖子的答案很明確：要么可以做，要么不能做； M貼的回答看似明確，但其實(shí)有多種解讀。 [這不是老油條嗎，哈哈]
　　所以從不同的角度解讀實(shí)時(shí)數倉，實(shí)時(shí)數倉的定義是不同的；一般有幾種定義：
　　可以看出理解不同，構建實(shí)時(shí)數據倉庫的復雜度也不同。但最終構建什么樣的實(shí)時(shí)數倉還是由業(yè)務(wù)驅動(dòng)，需要綜合考慮輸入輸出。
　　02 實(shí)時(shí)數據倉庫架構設計思路
　　實(shí)時(shí)或離線(xiàn)數據倉庫中的數據流向和處理基本類(lèi)似于下圖，因為分層是一種非常有效的數據管理方式，所以說(shuō)到如何管理實(shí)時(shí)數據倉庫，首先要考慮的是處理邏輯也是分層的。
　　從上圖可以看出，在設計實(shí)時(shí)數據倉庫解決方案時(shí)，需要考慮以下幾點(diǎn)（不是設計最強大的技術(shù)方案，而是設計的方案最適合業(yè)務(wù)場(chǎng)景和資源。；有時(shí)候厲害的技術(shù)方案會(huì )增加技術(shù)復雜度和運維難度，考驗我們的控制能力，所以我們選擇的不是技術(shù)含量最高的方案，而是最適合我們實(shí)際情況的方案):
　　數據集成和存儲層流批量集成主要產(chǎn)生以下問(wèn)題：
　　03 幾種實(shí)時(shí)數據倉庫架構分析
　　根據這些是否集成：“數據是否集成，流和批處理是否集成，存儲層是否與批處理流集成”，“ETL邏輯流是否與批處理集成”，“是否ETL計算引擎與“流批處理”集成，不同流集成。這種組合將設計一個(gè)不同的實(shí)時(shí)數據倉庫架構。比較經(jīng)典的架構有Lambda和Kappa；還有美團實(shí)時(shí)數倉架構（實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎）和阿里的流批集成架構（Lambda+Kappa），以下是對這些實(shí)時(shí)數倉架構的總結。 Lambda 數據倉庫架構
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 有 Batch Layer（批處理）和 Speed Layer（流處理）。然后將批處理和流結果拼接在一起。 Lambda 架構具有數據不變性的特性，可以避免人為引入錯誤問(wèn)題，支持數據重新運行，分離復雜的流處理。但是，Batch Layer 和 Speed Layer 往往選擇不同的組件，因為它們需要滿(mǎn)足不同的場(chǎng)景。
　　而且，寫(xiě)過(guò)Storm的人都知道，Storm的代碼寫(xiě)起來(lái)很痛苦（Trident會(huì )改進(jìn)）。因此，我們需要準備兩套代碼。批處理和流處理必須實(shí)現相同的邏輯兩次。
　　Lambda 架構問(wèn)題：
　　Kappa 架構
　　Kreps 提出了另一個(gè)維度的思考，我們能否改進(jìn)和使用流處理系統來(lái)構建大數據系統？提出以構建流為核心，構建數據系統。并且，通過(guò)重放歷史數據來(lái)實(shí)現數據的重新運行。
　　這種以流處理為核心構建的數據系統，被Kreps稱(chēng)為“Kappa架構”。 Kappa 和 Lambda 都是希臘字母符號。這種架構比 Lambda 架構簡(jiǎn)單得多。就是把原來(lái)的批處理改為流處理。它沒(méi)有Lambda架構中的Batch Layer、Speed Layer和Serve Layer。
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 架構問(wèn)題：
　　實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　上圖是美團實(shí)時(shí)數據倉庫的架構設計。數據從日志采集統一到消息隊列，再到數據流的ETL過(guò)程?；A數據流的構建是統一的。之后，針對日志的實(shí)時(shí)性，實(shí)時(shí)大屏應用采用了實(shí)時(shí)流計算。
　　使用實(shí)時(shí)OLAP批處理進(jìn)行Binlog業(yè)務(wù)分析。美團的實(shí)時(shí)數倉架構主要是為了解決實(shí)時(shí)OLAP在實(shí)時(shí)處理上的一些困難。
　　實(shí)時(shí)處理面臨的幾個(gè)困難：
　　Lambda+Kappa
　　從上圖可以看出，阿里的實(shí)時(shí)數倉架構同時(shí)結合了Lambda和Kappa；數據整合不使用流批整合，分別通過(guò)實(shí)時(shí)采集和數據同步方式采集實(shí)現流和批數據。集成ETL邏輯流批，讓用戶(hù)只寫(xiě)一套代碼，平臺自動(dòng)翻譯成Flink Batch任務(wù)和Flink Stream任務(wù)，同時(shí)寫(xiě)入一個(gè)Holo表，完成對表達的統一計算層。存儲層流和批分開(kāi)存儲，但可以實(shí)現流批存儲的透明性，查詢(xún)邏輯完全一致。
　　04 總結
　　架構設計不是設計最強大的技術(shù)方案，而是設計最適合業(yè)務(wù)場(chǎng)景和資源條件的方案。有時(shí)候很棒的技術(shù)方案會(huì )增加運維的技術(shù)復雜度和難度，需要更高的成本來(lái)控制。因此，我們選擇的并不是技術(shù)最先進(jìn)的方案，而是最適合我們實(shí)際情況的技術(shù)架構。
　　在實(shí)時(shí)數據倉庫架構的設計中，主要考慮“數據集成是否與流和批處理集成，存儲層是否與批處理集成”，“ETL邏輯流是否與批處理集成”，“ ETL計算引擎是否與流批集成”；權衡這些集成帶來(lái)的問(wèn)題，我們設計了適合業(yè)務(wù)場(chǎng)景的實(shí)時(shí)數據倉庫架構。查看全部

　　實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出
　　01 什么是實(shí)時(shí)數據倉庫
　　首先要明確什么是實(shí)時(shí)數據倉庫。百度百科和維基百科均未給出具體說(shuō)明。什么是實(shí)時(shí)數據倉庫？是否可以通過(guò)實(shí)時(shí)流式獲取實(shí)時(shí)數據，即實(shí)時(shí)數據倉庫？換句話(huà)說(shuō)，流批處理集成是實(shí)時(shí)數據倉庫？還是完全采用實(shí)時(shí)方式，采集和實(shí)時(shí)計算都是實(shí)時(shí)數據倉庫？
　　對于這個(gè)問(wèn)題，不同的公司可能有不同的答案。有些人認為提供實(shí)時(shí)廣告牌或實(shí)時(shí)報告是實(shí)時(shí)數據倉庫；其他人可能認為數據倉庫提供的數據必須是實(shí)時(shí)的才能被認為是實(shí)時(shí)數據倉庫。事實(shí)上，這個(gè)問(wèn)題沒(méi)有標準答案。不同的人、場(chǎng)景和公司對它的理解不同。記得有個(gè)老板講過(guò)管理崗位和技術(shù)崗位的區別，其中之一是：
　　對于一件事或需要，T帖子的答案很明確：要么可以做，要么不能做； M貼的回答看似明確，但其實(shí)有多種解讀。 [這不是老油條嗎，哈哈]
　　所以從不同的角度解讀實(shí)時(shí)數倉，實(shí)時(shí)數倉的定義是不同的；一般有幾種定義：
　　可以看出理解不同，構建實(shí)時(shí)數據倉庫的復雜度也不同。但最終構建什么樣的實(shí)時(shí)數倉還是由業(yè)務(wù)驅動(dòng)，需要綜合考慮輸入輸出。
　　02 實(shí)時(shí)數據倉庫架構設計思路
　　實(shí)時(shí)或離線(xiàn)數據倉庫中的數據流向和處理基本類(lèi)似于下圖，因為分層是一種非常有效的數據管理方式，所以說(shuō)到如何管理實(shí)時(shí)數據倉庫，首先要考慮的是處理邏輯也是分層的。
　　從上圖可以看出，在設計實(shí)時(shí)數據倉庫解決方案時(shí)，需要考慮以下幾點(diǎn)（不是設計最強大的技術(shù)方案，而是設計的方案最適合業(yè)務(wù)場(chǎng)景和資源。；有時(shí)候厲害的技術(shù)方案會(huì )增加技術(shù)復雜度和運維難度，考驗我們的控制能力，所以我們選擇的不是技術(shù)含量最高的方案，而是最適合我們實(shí)際情況的方案):
　　數據集成和存儲層流批量集成主要產(chǎn)生以下問(wèn)題：
　　03 幾種實(shí)時(shí)數據倉庫架構分析
　　根據這些是否集成：“數據是否集成，流和批處理是否集成，存儲層是否與批處理流集成”，“ETL邏輯流是否與批處理集成”，“是否ETL計算引擎與“流批處理”集成，不同流集成。這種組合將設計一個(gè)不同的實(shí)時(shí)數據倉庫架構。比較經(jīng)典的架構有Lambda和Kappa；還有美團實(shí)時(shí)數倉架構（實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎）和阿里的流批集成架構（Lambda+Kappa），以下是對這些實(shí)時(shí)數倉架構的總結。 Lambda 數據倉庫架構
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 有 Batch Layer（批處理）和 Speed Layer（流處理）。然后將批處理和流結果拼接在一起。 Lambda 架構具有數據不變性的特性，可以避免人為引入錯誤問(wèn)題，支持數據重新運行，分離復雜的流處理。但是，Batch Layer 和 Speed Layer 往往選擇不同的組件，因為它們需要滿(mǎn)足不同的場(chǎng)景。
　　而且，寫(xiě)過(guò)Storm的人都知道，Storm的代碼寫(xiě)起來(lái)很痛苦（Trident會(huì )改進(jìn)）。因此，我們需要準備兩套代碼。批處理和流處理必須實(shí)現相同的邏輯兩次。
　　Lambda 架構問(wèn)題：
　　Kappa 架構
　　Kreps 提出了另一個(gè)維度的思考，我們能否改進(jìn)和使用流處理系統來(lái)構建大數據系統？提出以構建流為核心，構建數據系統。并且，通過(guò)重放歷史數據來(lái)實(shí)現數據的重新運行。
　　這種以流處理為核心構建的數據系統，被Kreps稱(chēng)為“Kappa架構”。 Kappa 和 Lambda 都是希臘字母符號。這種架構比 Lambda 架構簡(jiǎn)單得多。就是把原來(lái)的批處理改為流處理。它沒(méi)有Lambda架構中的Batch Layer、Speed Layer和Serve Layer。
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 架構問(wèn)題：
　　實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　上圖是美團實(shí)時(shí)數據倉庫的架構設計。數據從日志采集統一到消息隊列，再到數據流的ETL過(guò)程?；A數據流的構建是統一的。之后，針對日志的實(shí)時(shí)性，實(shí)時(shí)大屏應用采用了實(shí)時(shí)流計算。
　　使用實(shí)時(shí)OLAP批處理進(jìn)行Binlog業(yè)務(wù)分析。美團的實(shí)時(shí)數倉架構主要是為了解決實(shí)時(shí)OLAP在實(shí)時(shí)處理上的一些困難。
　　實(shí)時(shí)處理面臨的幾個(gè)困難：
　　Lambda+Kappa
　　從上圖可以看出，阿里的實(shí)時(shí)數倉架構同時(shí)結合了Lambda和Kappa；數據整合不使用流批整合，分別通過(guò)實(shí)時(shí)采集和數據同步方式采集實(shí)現流和批數據。集成ETL邏輯流批，讓用戶(hù)只寫(xiě)一套代碼，平臺自動(dòng)翻譯成Flink Batch任務(wù)和Flink Stream任務(wù)，同時(shí)寫(xiě)入一個(gè)Holo表，完成對表達的統一計算層。存儲層流和批分開(kāi)存儲，但可以實(shí)現流批存儲的透明性，查詢(xún)邏輯完全一致。
　　04 總結
　　架構設計不是設計最強大的技術(shù)方案，而是設計最適合業(yè)務(wù)場(chǎng)景和資源條件的方案。有時(shí)候很棒的技術(shù)方案會(huì )增加運維的技術(shù)復雜度和難度，需要更高的成本來(lái)控制。因此，我們選擇的并不是技術(shù)最先進(jìn)的方案，而是最適合我們實(shí)際情況的技術(shù)架構。
　　在實(shí)時(shí)數據倉庫架構的設計中，主要考慮“數據集成是否與流和批處理集成，存儲層是否與批處理集成”，“ETL邏輯流是否與批處理集成”，“ ETL計算引擎是否與流批集成”；權衡這些集成帶來(lái)的問(wèn)題，我們設計了適合業(yè)務(wù)場(chǎng)景的實(shí)時(shí)數據倉庫架構。

webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2021-08-10 02:03 ? 來(lái)自相關(guān)話(huà)題

　　webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像
　　文章實(shí)時(shí)采集加速自動(dòng)生成圖片功能，轉換為矢量，再保存文件大小和性能提升。輸入圖片是256*256分辨率，則生成的圖片大小可設置為1366*768.并且實(shí)時(shí)生成1366*768,這樣圖片的性能要比如下二維數組生成速度快好多，rpgmaker自帶的那個(gè)渲染器暫時(shí)感覺(jué)不夠快。webgl(webglgraphicslibrary),實(shí)現了將一組基于webgl技術(shù)生成的圖像序列作為瀏覽器的一個(gè)動(dòng)畫(huà)資源進(jìn)行顯示的技術(shù)。
　　移動(dòng)端部分的動(dòng)畫(huà)和游戲引擎都是基于webgl來(lái)生成三維數據的。簡(jiǎn)介實(shí)現原理主要是將圖片序列生成html5的骨骼圖，并且通過(guò)opengl使用視頻指針創(chuàng )建動(dòng)畫(huà)幀。運行環(huán)境qt4qt5.2.3.2qtvideoguic++最新版本qtwebgl用webgl不需要那么多的相機控制參數，所以可以用qt寫(xiě)一個(gè)qwidget來(lái)表示，那么需要一套系統的支持原生標簽。
　　圖片，視頻的處理，預覽都要用到。cocos2d-x出了提供了基于gpu的cocos2d-x的相機控制libdal，只是支持的性能沒(méi)有g(shù)pu的那么好。預覽時(shí)只能以0.001微秒的幀率播放圖片，視頻需要開(kāi)啟緩沖，而cocos2d-x的x.x.x應該不適合作為高品質(zhì)的視頻序列。對比可以看出顯示速度大概是html5動(dòng)畫(huà)3-5倍速的水平。
　　測試資源gbufferevent工具鏈c#版本也不夠熟練，然后就直接導入qwidget作測試吧。testudio是基于todomvc的實(shí)現，然后都是用c++代碼：demo我提供了一個(gè)全部原生qwidget直接調用的例子，參考調用方法也很容易。但是調用方法不是很好，很多參數依然是要自己編寫(xiě)。如果以uiweb為例，首先要編寫(xiě)轉義的函數，因為動(dòng)畫(huà)切換是交錯的。
　　如果是運動(dòng)模型，那么肯定是按照時(shí)間來(lái)切換；如果是粒子，也得從左往右操作。效果截圖：左右相異切換?？葱Ч€是沒(méi)有滿(mǎn)意。所以還是提供另外一個(gè)例子。還是是以qwidget為例：在demo中也有所指定的轉義函數，也就是轉義左右移動(dòng)的方向，然后再轉義左右移動(dòng)的時(shí)間。接下來(lái)最重要的就是建立模型，需要qstring自己生成一個(gè)類(lèi)，使用qstring為腳本對象提供原生標簽，使用opengl來(lái)處理圖片等數據。
　　分析以下這個(gè)json格式文件：uri{"frame":"{}-{}","mainframe":1000,"screentext":"{}-{}","transform":{"leftbottom":[{"top":1,"height":21,"left":[{"top":4,"height":0,"left":[{"top":10,"height":0,"left":[{"top":20,"height":1,"left":[{"top":30,"height。查看全部

　　webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像
　　文章實(shí)時(shí)采集加速自動(dòng)生成圖片功能，轉換為矢量，再保存文件大小和性能提升。輸入圖片是256*256分辨率，則生成的圖片大小可設置為1366*768.并且實(shí)時(shí)生成1366*768,這樣圖片的性能要比如下二維數組生成速度快好多，rpgmaker自帶的那個(gè)渲染器暫時(shí)感覺(jué)不夠快。webgl(webglgraphicslibrary),實(shí)現了將一組基于webgl技術(shù)生成的圖像序列作為瀏覽器的一個(gè)動(dòng)畫(huà)資源進(jìn)行顯示的技術(shù)。
　　移動(dòng)端部分的動(dòng)畫(huà)和游戲引擎都是基于webgl來(lái)生成三維數據的。簡(jiǎn)介實(shí)現原理主要是將圖片序列生成html5的骨骼圖，并且通過(guò)opengl使用視頻指針創(chuàng )建動(dòng)畫(huà)幀。運行環(huán)境qt4qt5.2.3.2qtvideoguic++最新版本qtwebgl用webgl不需要那么多的相機控制參數，所以可以用qt寫(xiě)一個(gè)qwidget來(lái)表示，那么需要一套系統的支持原生標簽。
　　圖片，視頻的處理，預覽都要用到。cocos2d-x出了提供了基于gpu的cocos2d-x的相機控制libdal，只是支持的性能沒(méi)有g(shù)pu的那么好。預覽時(shí)只能以0.001微秒的幀率播放圖片，視頻需要開(kāi)啟緩沖，而cocos2d-x的x.x.x應該不適合作為高品質(zhì)的視頻序列。對比可以看出顯示速度大概是html5動(dòng)畫(huà)3-5倍速的水平。
　　測試資源gbufferevent工具鏈c#版本也不夠熟練，然后就直接導入qwidget作測試吧。testudio是基于todomvc的實(shí)現，然后都是用c++代碼：demo我提供了一個(gè)全部原生qwidget直接調用的例子，參考調用方法也很容易。但是調用方法不是很好，很多參數依然是要自己編寫(xiě)。如果以uiweb為例，首先要編寫(xiě)轉義的函數，因為動(dòng)畫(huà)切換是交錯的。
　　如果是運動(dòng)模型，那么肯定是按照時(shí)間來(lái)切換；如果是粒子，也得從左往右操作。效果截圖：左右相異切換?？葱Ч€是沒(méi)有滿(mǎn)意。所以還是提供另外一個(gè)例子。還是是以qwidget為例：在demo中也有所指定的轉義函數，也就是轉義左右移動(dòng)的方向，然后再轉義左右移動(dòng)的時(shí)間。接下來(lái)最重要的就是建立模型，需要qstring自己生成一個(gè)類(lèi)，使用qstring為腳本對象提供原生標簽，使用opengl來(lái)處理圖片等數據。
　　分析以下這個(gè)json格式文件：uri{"frame":"{}-{}","mainframe":1000,"screentext":"{}-{}","transform":{"leftbottom":[{"top":1,"height":21,"left":[{"top":4,"height":0,"left":[{"top":10,"height":0,"left":[{"top":20,"height":1,"left":[{"top":30,"height。

文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 188 次瀏覽 ? 2021-08-08 18:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集
　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集。一般主流api都可以調用，但是注意需要的權限就可以。不一定需要設置用戶(hù)名和密碼。文章數據是否需要做匯總可以看你自己需求，我個(gè)人不習慣做匯總。因為目前的人工智能比較火爆，小老師們需要的數據實(shí)在是少，所以還是沒(méi)有做匯總，也有可能是我懶。數據比較少的話(huà)，在各個(gè)數據源上抓取是可以的，不一定非要找源頭。
　　現在工業(yè)界做實(shí)時(shí)數據處理，往往是單機處理來(lái)獲取數據，一臺電腦操作一個(gè)數據源，有些時(shí)候是沒(méi)有辦法全局的獲取全量數據的。
　　初步用java先搞了幾個(gè)產(chǎn)品：clickzhihuimage：做ai爬蟲(chóng)。還不錯，每天發(fā)帖較多。首頁(yè)開(kāi)放，一共50k條數據。采樣下載movieout和commentcomment：目前還在沒(méi)日志掃描模塊，
　　感謝邀請。我看好ai大數據。非常鼓勵所有人！開(kāi)源思想！愿意做貢獻。社區，資源，規則，人才。這些都是必要的。只有投入到資本市場(chǎng)。才會(huì )有更多的人受益。
　　有啊，比如etl，語(yǔ)義網(wǎng)之類(lèi)的。
　　各個(gè)大數據公司都有分析產(chǎn)品，你如果精力和學(xué)歷都是碩士以上的話(huà)推薦去哈工大讀個(gè)長(cháng)春理工的大數據專(zhuān)業(yè)碩士。
　　人工智能個(gè)人感覺(jué)還是一個(gè)高高在上的概念，本身并不需要數據，也不需要數據分析，自然也不需要這些人工智能的數據分析工具，倒是本身產(chǎn)生大量數據的互聯(lián)網(wǎng)圈子，要人工智能數據分析工具，去想辦法匹配業(yè)務(wù)分析需求，顯然是不夠高明的?；ヂ?lián)網(wǎng)公司的分析有一個(gè)地方比較需要，就是互聯(lián)網(wǎng)企業(yè)每天面對海量數據，那些數據的數量決定了他的數據分析結果，其次利用好數據，分析出來(lái)的數據就有用，就會(huì )出現價(jià)值。
　　數據量少就是鐵。最后的最后你才能參與到人工智能的實(shí)踐工作中，到時(shí)候，物料多了，時(shí)間少了，你就可以利用數據去發(fā)揮你的想象。最后一句，人工智能的項目還是不錯的。查看全部

　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集
　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集。一般主流api都可以調用，但是注意需要的權限就可以。不一定需要設置用戶(hù)名和密碼。文章數據是否需要做匯總可以看你自己需求，我個(gè)人不習慣做匯總。因為目前的人工智能比較火爆，小老師們需要的數據實(shí)在是少，所以還是沒(méi)有做匯總，也有可能是我懶。數據比較少的話(huà)，在各個(gè)數據源上抓取是可以的，不一定非要找源頭。
　　現在工業(yè)界做實(shí)時(shí)數據處理，往往是單機處理來(lái)獲取數據，一臺電腦操作一個(gè)數據源，有些時(shí)候是沒(méi)有辦法全局的獲取全量數據的。
　　初步用java先搞了幾個(gè)產(chǎn)品：clickzhihuimage：做ai爬蟲(chóng)。還不錯，每天發(fā)帖較多。首頁(yè)開(kāi)放，一共50k條數據。采樣下載movieout和commentcomment：目前還在沒(méi)日志掃描模塊，
　　感謝邀請。我看好ai大數據。非常鼓勵所有人！開(kāi)源思想！愿意做貢獻。社區，資源，規則，人才。這些都是必要的。只有投入到資本市場(chǎng)。才會(huì )有更多的人受益。
　　有啊，比如etl，語(yǔ)義網(wǎng)之類(lèi)的。
　　各個(gè)大數據公司都有分析產(chǎn)品，你如果精力和學(xué)歷都是碩士以上的話(huà)推薦去哈工大讀個(gè)長(cháng)春理工的大數據專(zhuān)業(yè)碩士。
　　人工智能個(gè)人感覺(jué)還是一個(gè)高高在上的概念，本身并不需要數據，也不需要數據分析，自然也不需要這些人工智能的數據分析工具，倒是本身產(chǎn)生大量數據的互聯(lián)網(wǎng)圈子，要人工智能數據分析工具，去想辦法匹配業(yè)務(wù)分析需求，顯然是不夠高明的?；ヂ?lián)網(wǎng)公司的分析有一個(gè)地方比較需要，就是互聯(lián)網(wǎng)企業(yè)每天面對海量數據，那些數據的數量決定了他的數據分析結果，其次利用好數據，分析出來(lái)的數據就有用，就會(huì )出現價(jià)值。
　　數據量少就是鐵。最后的最后你才能參與到人工智能的實(shí)踐工作中，到時(shí)候，物料多了，時(shí)間少了，你就可以利用數據去發(fā)揮你的想象。最后一句，人工智能的項目還是不錯的。

不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2021-07-29 23:37 ? 來(lái)自相關(guān)話(huà)題

　　
不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本
　　分享一個(gè)python實(shí)時(shí)分析日志的小腳本
　　更新時(shí)間：2017-05-07 15:56:56 作者：不認識真人
　　這個(gè)文章主要分享一個(gè)小的python腳本，用于日志的實(shí)時(shí)分析。文章給出了詳細的介紹和示例代碼，供大家參考學(xué)習。對大家學(xué)習或使用python有一定的參考學(xué)習價(jià)值。有需要的朋友，一起來(lái)看看吧。
　　前言
　　大家都知道web運維時(shí)刻關(guān)注相關(guān)域名的實(shí)時(shí)2xx/s、4xx/s、5xx/s、響應時(shí)間、帶寬等指標。上一篇日志分為五分鐘。簡(jiǎn)單地使用awk。好的，現在因為要推送日志到ELK，所以在繼續之前的五分鐘拆分會(huì )有問(wèn)題，所以每天拆分一次。改成一天后，繼續用Shell顯然不合適，所以我用Python寫(xiě)的。
　　方法如下：
　　該腳本主要使用文件的seek和tell函數。原理如下：
　　1.加入crontab，每5分鐘執行一次
　　2.只分析從上次讀取的日志文件的結束位置到本次讀取的文件的結束位置的日志，并輸出結果
　　可以使用zabbix_sender將結果發(fā)送到zabbix server或者直接使用zabbix agent讀取這個(gè)文件并獲取數據，配合zabbix輸出圖片和報警，代碼如下：
　　
#!/usr/bin/env python
#coding: utf-8
from __future__ import division
import os
LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 執行時(shí)間
CRON_TIME = 300
def get_position():
#第一次讀取日志文件，POSITION_FILE為空
if not os.path.exists(POSITION_FILE):
start_position = str(0)
end_position = str(os.path.getsize(LOG_FILE))
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
os._exit(1)
else:
fh = open(POSITION_FILE)
se = fh.readlines()
fh.close()
#其他意外情況導致POSITION_FILE內容不是兩行
if len(se) != 2:
os.remove(POSITION_FILE)
os._exit(1)
last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
start_position = last_end_position
end_position = str(os.path.getsize(LOG_FILE))
#日志輪轉導致start_position > end_position
#print start_position,end_position
if start_position > end_position:
start_position = 0
#日志停止滾動(dòng)時(shí)
elif start_position == end_position:
os._exit(1)
#print start_position,end_position
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
return map(int,[start_position,end_position])
def write_status(content):
fh = open(STATUS_FILE,'w')
fh.write(content)
fh.close()
def handle_log(start_position,end_position):
log = open(LOG_FILE)
log.seek(start_position,0)
status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
while True:
current_position = log.tell()
if current_position >= end_position:
break
line = log.readline()
line = line.split(' ')
host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
#print host,request_time,time_local,status,bytes_sent
status_all += 1
try:
rt += float(request_time.strip('s'))
bandwidth += int(bytes_sent)
except:
pass
if status == '200' or status == '206':
status_2xx += 1
elif status == '403':
status_403 += 1
elif status == '404':
status_404 += 1
elif status == '500':
status_500 += 1
elif status == '502':
status_502 += 1
elif status == '503':
status_503 += 1
elif status == '504':
status_504 += 1
log.close()
#print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)
write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))
if __name__ == '__main__':
start_position,end_position = get_position()
handle_log(start_position,end_position)
　　看分析結果：
　　
cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0
　　后來(lái)發(fā)現了一個(gè)問(wèn)題。 start_position和end_position使用字符串比較有問(wèn)題，如下：
　　
In [5]: '99772400' > '100227572'
Out[5]: True
In [6]: int('99772400') > int('100227572')
Out[6]: False
　　因此，更正的是：
　　
#日志輪轉導致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
start_position = 0
#日志停止滾動(dòng)時(shí)
elif int(start_position) == int(end_position):
os._exit(1)
　　總結
　　以上是本次文章的全部?jì)热?。希望本文的內容對您的學(xué)習或工作有所幫助。有什么問(wèn)題可以留言交流。感謝您對 Scripthome 的支持。查看全部

　　
不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本
　　分享一個(gè)python實(shí)時(shí)分析日志的小腳本
　　更新時(shí)間：2017-05-07 15:56:56 作者：不認識真人
　　這個(gè)文章主要分享一個(gè)小的python腳本，用于日志的實(shí)時(shí)分析。文章給出了詳細的介紹和示例代碼，供大家參考學(xué)習。對大家學(xué)習或使用python有一定的參考學(xué)習價(jià)值。有需要的朋友，一起來(lái)看看吧。
　　前言
　　大家都知道web運維時(shí)刻關(guān)注相關(guān)域名的實(shí)時(shí)2xx/s、4xx/s、5xx/s、響應時(shí)間、帶寬等指標。上一篇日志分為五分鐘。簡(jiǎn)單地使用awk。好的，現在因為要推送日志到ELK，所以在繼續之前的五分鐘拆分會(huì )有問(wèn)題，所以每天拆分一次。改成一天后，繼續用Shell顯然不合適，所以我用Python寫(xiě)的。
　　方法如下：
　　該腳本主要使用文件的seek和tell函數。原理如下：
　　1.加入crontab，每5分鐘執行一次
　　2.只分析從上次讀取的日志文件的結束位置到本次讀取的文件的結束位置的日志，并輸出結果
　　可以使用zabbix_sender將結果發(fā)送到zabbix server或者直接使用zabbix agent讀取這個(gè)文件并獲取數據，配合zabbix輸出圖片和報警，代碼如下：
　　
#!/usr/bin/env python
#coding: utf-8
from __future__ import division
import os
LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 執行時(shí)間
CRON_TIME = 300
def get_position():
#第一次讀取日志文件，POSITION_FILE為空
if not os.path.exists(POSITION_FILE):
start_position = str(0)
end_position = str(os.path.getsize(LOG_FILE))
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
os._exit(1)
else:
fh = open(POSITION_FILE)
se = fh.readlines()
fh.close()
#其他意外情況導致POSITION_FILE內容不是兩行
if len(se) != 2:
os.remove(POSITION_FILE)
os._exit(1)
last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
start_position = last_end_position
end_position = str(os.path.getsize(LOG_FILE))
#日志輪轉導致start_position > end_position
#print start_position,end_position
if start_position > end_position:
start_position = 0
#日志停止滾動(dòng)時(shí)
elif start_position == end_position:
os._exit(1)
#print start_position,end_position
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
return map(int,[start_position,end_position])
def write_status(content):
fh = open(STATUS_FILE,'w')
fh.write(content)
fh.close()
def handle_log(start_position,end_position):
log = open(LOG_FILE)
log.seek(start_position,0)
status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
while True:
current_position = log.tell()
if current_position >= end_position:
break
line = log.readline()
line = line.split(' ')
host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
#print host,request_time,time_local,status,bytes_sent
status_all += 1
try:
rt += float(request_time.strip('s'))
bandwidth += int(bytes_sent)
except:
pass
if status == '200' or status == '206':
status_2xx += 1
elif status == '403':
status_403 += 1
elif status == '404':
status_404 += 1
elif status == '500':
status_500 += 1
elif status == '502':
status_502 += 1
elif status == '503':
status_503 += 1
elif status == '504':
status_504 += 1
log.close()
#print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)
write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))
if __name__ == '__main__':
start_position,end_position = get_position()
handle_log(start_position,end_position)
　　看分析結果：
　　
cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0
　　后來(lái)發(fā)現了一個(gè)問(wèn)題。 start_position和end_position使用字符串比較有問(wèn)題，如下：
　　
In [5]: '99772400' > '100227572'
Out[5]: True
In [6]: int('99772400') > int('100227572')
Out[6]: False
　　因此，更正的是：
　　
#日志輪轉導致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
start_position = 0
#日志停止滾動(dòng)時(shí)
elif int(start_position) == int(end_position):
os._exit(1)
　　總結
　　以上是本次文章的全部?jì)热?。希望本文的內容對您的學(xué)習或工作有所幫助。有什么問(wèn)題可以留言交流。感謝您對 Scripthome 的支持。

文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 245 次瀏覽 ? 2021-07-25 18:00 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題
　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據，這樣可以接入到自己的產(chǎn)品中，并作為一個(gè)前端來(lái)使用，當然一般會(huì )使用接入的sdk來(lái)進(jìn)行數據傳輸，這樣不管是后端還是前端都只需要關(guān)注數據的轉化，數據的傳輸等問(wèn)題。
　　找個(gè)這樣的數據采集開(kāi)發(fā)api，或者你接你需要接入的數據接口。
　　erp，汽車(chē)。理財，金融，物流，保險，電商，小生意，社區，本地不想要了可以賣(mài)掉。很多人的不同行業(yè)復雜度差距非常大，沒(méi)有一個(gè)成熟的東西。
　　我也在做，具體工作可以關(guān)注我們資料庫。
　　我在feedsr上發(fā)現個(gè)網(wǎng)站model:m-bitnessstoreonline
　　其實(shí)一個(gè)數據庫，一個(gè)erp就可以了。本地移動(dòng)端都是通過(guò)erp的接口進(jìn)行收集的。有需要的可以聯(lián)系我。java多jdbc。
　　我這里是云數據庫，這樣解決跨屏數據采集后傳輸的問(wèn)題，提供多平臺的api，
　　我們也是初創(chuàng )，但是我們不需要通過(guò)類(lèi)似于querylove，tensorflow這樣的可以服務(wù)接入量非常大的數據庫的工具，感覺(jué)主要還是需要把數據轉換后再由專(zhuān)門(mén)的人員去處理，
　　所有云上的開(kāi)源api，其實(shí)主要是服務(wù)于erp和mapreduce，如你所知道的：jdbc，jpa?，F在很多paas開(kāi)發(fā)和webapi比較多，對于中小企業(yè)，選擇internetdb，internetads，internetservices(isp),sql-server云存儲，最好是idp，主要面向市場(chǎng)，公有云對接私有云，當然還是跨云。
　　大企業(yè)，有專(zhuān)門(mén)的流統方面的應用和產(chǎn)品，比如chinabond，針對復雜系統，硬件調度，國內有sgs等流量入口供應商提供的lendingclub，針對個(gè)人消費市場(chǎng)，sokoclub比如diamondlink，分布式領(lǐng)域，insuranceos，對應大企業(yè)業(yè)務(wù)和sas在上面開(kāi)發(fā)，完成單機應用的智能化報表設計，每一個(gè)部門(mén)對應不同的erp，協(xié)調時(shí)空變換。查看全部

　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題
　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據，這樣可以接入到自己的產(chǎn)品中，并作為一個(gè)前端來(lái)使用，當然一般會(huì )使用接入的sdk來(lái)進(jìn)行數據傳輸，這樣不管是后端還是前端都只需要關(guān)注數據的轉化，數據的傳輸等問(wèn)題。
　　找個(gè)這樣的數據采集開(kāi)發(fā)api，或者你接你需要接入的數據接口。
　　erp，汽車(chē)。理財，金融，物流，保險，電商，小生意，社區，本地不想要了可以賣(mài)掉。很多人的不同行業(yè)復雜度差距非常大，沒(méi)有一個(gè)成熟的東西。
　　我也在做，具體工作可以關(guān)注我們資料庫。
　　我在feedsr上發(fā)現個(gè)網(wǎng)站model:m-bitnessstoreonline
　　其實(shí)一個(gè)數據庫，一個(gè)erp就可以了。本地移動(dòng)端都是通過(guò)erp的接口進(jìn)行收集的。有需要的可以聯(lián)系我。java多jdbc。
　　我這里是云數據庫，這樣解決跨屏數據采集后傳輸的問(wèn)題，提供多平臺的api，
　　我們也是初創(chuàng )，但是我們不需要通過(guò)類(lèi)似于querylove，tensorflow這樣的可以服務(wù)接入量非常大的數據庫的工具，感覺(jué)主要還是需要把數據轉換后再由專(zhuān)門(mén)的人員去處理，
　　所有云上的開(kāi)源api，其實(shí)主要是服務(wù)于erp和mapreduce，如你所知道的：jdbc，jpa?，F在很多paas開(kāi)發(fā)和webapi比較多，對于中小企業(yè)，選擇internetdb，internetads，internetservices(isp),sql-server云存儲，最好是idp，主要面向市場(chǎng)，公有云對接私有云，當然還是跨云。
　　大企業(yè)，有專(zhuān)門(mén)的流統方面的應用和產(chǎn)品，比如chinabond，針對復雜系統，硬件調度，國內有sgs等流量入口供應商提供的lendingclub，針對個(gè)人消費市場(chǎng)，sokoclub比如diamondlink，分布式領(lǐng)域，insuranceos，對應大企業(yè)業(yè)務(wù)和sas在上面開(kāi)發(fā)，完成單機應用的智能化報表設計，每一個(gè)部門(mén)對應不同的erp，協(xié)調時(shí)空變換。

文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2021-07-11 20:05 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的
　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的，少不了攝影師（現在大多數婚禮攝影團隊都在合肥、鄭州等地）和所在場(chǎng)地組織者、贊助方。視頻采集工作由會(huì )場(chǎng)以及場(chǎng)地方（如果有的話(huà)）完成。
　　婚禮視頻系列：
　　只能說(shuō)，看需求咯，定制化的就靠攝影團隊了，常規拍攝就在會(huì )場(chǎng)以及場(chǎng)地進(jìn)行。
　　看情況！我們辦婚禮就拍婚禮現場(chǎng)各個(gè)物品的實(shí)際狀態(tài)，然后使用app查看情況。
　　能溝通！
　　所有的攝影現場(chǎng)采集，都在某個(gè)分工明確的部門(mén)內進(jìn)行，每個(gè)部門(mén)負責對應分工環(huán)節內的各種場(chǎng)景。每個(gè)部門(mén)的工作量大致是固定的，但由于每個(gè)部門(mén)負責任務(wù)繁重，會(huì )因為某些場(chǎng)景的實(shí)時(shí)進(jìn)展速度受到影響，所以各個(gè)部門(mén)工作時(shí)間不確定。再次，攝影對應的觀(guān)眾位置不會(huì )進(jìn)行整體觀(guān)察，場(chǎng)景進(jìn)展緩慢了，所以會(huì )出現要等待n位觀(guān)眾入場(chǎng)，快了也有可能觀(guān)眾已經(jīng)走了。
　　這點(diǎn)可以通過(guò)合肥的“到時(shí)間了”微信平臺，獲取每個(gè)觀(guān)眾的位置。個(gè)人認為，就目前合肥的婚禮場(chǎng)景狀況來(lái)看，婚禮攝影的前期工作應該被盡可能地壓縮到一個(gè)月的時(shí)間。到時(shí)間了，現場(chǎng)的婚禮情況應該也比較明確了，有時(shí)間再進(jìn)行后期整體的拍攝。
　　婚禮現場(chǎng)的現場(chǎng)，有婚禮視頻，要不要現場(chǎng)采集，看客戶(hù)心情。
　　我們婚禮攝影很少也不想外錄(除非到時(shí)間了，為了確保準確性和可重復播放的清晰度)，因為現場(chǎng)采集，遇到需要現場(chǎng)視頻的情況就等不了了。我們的婚禮就不需要了，畢竟做完自己的事兒，要給看的人看到我們想看的我們珍貴的時(shí)刻，多累啊。前提是去我們拍攝的場(chǎng)景地實(shí)地去探索。1.場(chǎng)景地點(diǎn)是不是提前去拍攝過(guò)？熟悉了嗎？2.攝影師拍攝時(shí)有沒(méi)有和場(chǎng)景主持人配合？鏡頭感好嗎？3.婚禮場(chǎng)景地點(diǎn)大多是偏僻的，不了解不熟悉，會(huì )打亂我們平時(shí)拍攝的節奏。
　　4.提前和婚禮策劃溝通好，讓不讓進(jìn)現場(chǎng)？5.微信公眾號，全國通用，可以查看每個(gè)城市的拍攝的跟拍路線(xiàn)軌跡，到現場(chǎng)時(shí)，也可以拍攝到婚禮過(guò)程中，現場(chǎng)看現場(chǎng)的婚禮視頻。簡(jiǎn)單來(lái)說(shuō)，就是提前拍攝，現場(chǎng)跟拍及后期合成三大部分。查看全部

　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的
　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的，少不了攝影師（現在大多數婚禮攝影團隊都在合肥、鄭州等地）和所在場(chǎng)地組織者、贊助方。視頻采集工作由會(huì )場(chǎng)以及場(chǎng)地方（如果有的話(huà)）完成。
　　婚禮視頻系列：
　　只能說(shuō)，看需求咯，定制化的就靠攝影團隊了，常規拍攝就在會(huì )場(chǎng)以及場(chǎng)地進(jìn)行。
　　看情況！我們辦婚禮就拍婚禮現場(chǎng)各個(gè)物品的實(shí)際狀態(tài)，然后使用app查看情況。
　　能溝通！
　　所有的攝影現場(chǎng)采集，都在某個(gè)分工明確的部門(mén)內進(jìn)行，每個(gè)部門(mén)負責對應分工環(huán)節內的各種場(chǎng)景。每個(gè)部門(mén)的工作量大致是固定的，但由于每個(gè)部門(mén)負責任務(wù)繁重，會(huì )因為某些場(chǎng)景的實(shí)時(shí)進(jìn)展速度受到影響，所以各個(gè)部門(mén)工作時(shí)間不確定。再次，攝影對應的觀(guān)眾位置不會(huì )進(jìn)行整體觀(guān)察，場(chǎng)景進(jìn)展緩慢了，所以會(huì )出現要等待n位觀(guān)眾入場(chǎng)，快了也有可能觀(guān)眾已經(jīng)走了。
　　這點(diǎn)可以通過(guò)合肥的“到時(shí)間了”微信平臺，獲取每個(gè)觀(guān)眾的位置。個(gè)人認為，就目前合肥的婚禮場(chǎng)景狀況來(lái)看，婚禮攝影的前期工作應該被盡可能地壓縮到一個(gè)月的時(shí)間。到時(shí)間了，現場(chǎng)的婚禮情況應該也比較明確了，有時(shí)間再進(jìn)行后期整體的拍攝。
　　婚禮現場(chǎng)的現場(chǎng)，有婚禮視頻，要不要現場(chǎng)采集，看客戶(hù)心情。
　　我們婚禮攝影很少也不想外錄(除非到時(shí)間了，為了確保準確性和可重復播放的清晰度)，因為現場(chǎng)采集，遇到需要現場(chǎng)視頻的情況就等不了了。我們的婚禮就不需要了，畢竟做完自己的事兒，要給看的人看到我們想看的我們珍貴的時(shí)刻，多累啊。前提是去我們拍攝的場(chǎng)景地實(shí)地去探索。1.場(chǎng)景地點(diǎn)是不是提前去拍攝過(guò)？熟悉了嗎？2.攝影師拍攝時(shí)有沒(méi)有和場(chǎng)景主持人配合？鏡頭感好嗎？3.婚禮場(chǎng)景地點(diǎn)大多是偏僻的，不了解不熟悉，會(huì )打亂我們平時(shí)拍攝的節奏。
　　4.提前和婚禮策劃溝通好，讓不讓進(jìn)現場(chǎng)？5.微信公眾號，全國通用，可以查看每個(gè)城市的拍攝的跟拍路線(xiàn)軌跡，到現場(chǎng)時(shí)，也可以拍攝到婚禮過(guò)程中，現場(chǎng)看現場(chǎng)的婚禮視頻。簡(jiǎn)單來(lái)說(shuō)，就是提前拍攝，現場(chǎng)跟拍及后期合成三大部分。

文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 209 次瀏覽 ? 2021-07-11 18:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據
　　文章實(shí)時(shí)采集，今天采用的是爬蟲(chóng)，也可以用excel爬取數據：設置字段：1，店鋪id2，單品id3，
　　要是寫(xiě)爬蟲(chóng)完全沒(méi)問(wèn)題啊，只要有api，我覺(jué)得是絕對可以的，
　　不可以，
　　目前的話(huà)，比較廣泛的有python中listparser來(lái)采集，或者java，用js來(lái)獲取。如果有獨立開(kāi)發(fā)能力，完全可以自己做。目前也有一些非工業(yè)級的api，
　　不可以的，你得有自己的單品庫或者店鋪庫，
　　采集網(wǎng)頁(yè)數據可以用scrapy,可以去看看
　　可以用pandas寫(xiě)爬蟲(chóng)，
　　不可以可以用scrapy抓采集。我目前用scrapy框架發(fā)布個(gè)人訂單，openxlsx生成文件直接導入excel。
　　可以用pythondjango等，比excel好用，
　　可以是可以，但是意義不大，因為如果真的想采集的話(huà)，python已經(jīng)可以搞定了。爬蟲(chóng)本身并不能實(shí)現商品的商品多樣性和優(yōu)化購物體驗，特別是國內的電商?？梢葬槍δ硞€(gè)垂直細分領(lǐng)域的商品或者商品頻道設計爬蟲(chóng)框架，再針對特定的商品采集數據。這樣做的好處是方便快捷，效率高，自己獨立可控。
　　可以，pythonopenxlsx對網(wǎng)頁(yè)進(jìn)行讀取數據就可以對商品進(jìn)行一個(gè)排序，再用openxlsx包中的商品關(guān)鍵字進(jìn)行更新。查看全部

　　文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據
　　文章實(shí)時(shí)采集，今天采用的是爬蟲(chóng)，也可以用excel爬取數據：設置字段：1，店鋪id2，單品id3，
　　要是寫(xiě)爬蟲(chóng)完全沒(méi)問(wèn)題啊，只要有api，我覺(jué)得是絕對可以的，
　　不可以，
　　目前的話(huà)，比較廣泛的有python中listparser來(lái)采集，或者java，用js來(lái)獲取。如果有獨立開(kāi)發(fā)能力，完全可以自己做。目前也有一些非工業(yè)級的api，
　　不可以的，你得有自己的單品庫或者店鋪庫，
　　采集網(wǎng)頁(yè)數據可以用scrapy,可以去看看
　　可以用pandas寫(xiě)爬蟲(chóng)，
　　不可以可以用scrapy抓采集。我目前用scrapy框架發(fā)布個(gè)人訂單，openxlsx生成文件直接導入excel。
　　可以用pythondjango等，比excel好用，
　　可以是可以，但是意義不大，因為如果真的想采集的話(huà)，python已經(jīng)可以搞定了。爬蟲(chóng)本身并不能實(shí)現商品的商品多樣性和優(yōu)化購物體驗，特別是國內的電商?？梢葬槍δ硞€(gè)垂直細分領(lǐng)域的商品或者商品頻道設計爬蟲(chóng)框架，再針對特定的商品采集數據。這樣做的好處是方便快捷，效率高，自己獨立可控。
　　可以，pythonopenxlsx對網(wǎng)頁(yè)進(jìn)行讀取數據就可以對商品進(jìn)行一個(gè)排序，再用openxlsx包中的商品關(guān)鍵字進(jìn)行更新。

文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 197 次瀏覽 ? 2021-07-10 02:02 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？
　　文章實(shí)時(shí)采集標注數據，為了實(shí)現內容推薦，需要按字段規范匹配。如果無(wú)，根據規則重復字段，得到的排序就是亂序的。這樣，文章字段轉換成本就高，增加排序就更難了。所以需要目前標注數據制作成字典，利用treemap格式化展示。
　　讀取數據后，需要將正確的數據寫(xiě)入標注數據的存儲，
　　這種情況利用all-in-one排序就可以了吧
　　可以用正則的方式來(lái)進(jìn)行標注，正則就可以傳入一段句子的完整元素和元音，
　　正則表達式.
　　利用正則匹配，可以看看劉海洋的python機器學(xué)習實(shí)戰，
　　元音和輔音文字是正則表達式匹配不了的，硬要匹配的話(huà)可以通過(guò)字典的方式，按從小到大之間的字符串來(lái)匹配。
　　item[標簽]->[參考文獻]標簽部分是匹配正確的文本文件中的標簽文件中的標簽具體寫(xiě)法如下：#切割需要匹配的元素之間的數據"""單詞"""lst=[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v]name_word=name_list[list(allkeys(lst))]fortaginlst:name_word。append(tag。getkey())。
　　python中利用googleapi來(lái)可視化不可匹配的關(guān)鍵字與關(guān)鍵字之間的關(guān)系，可用bimonline或者其他工具監控email、twitter、facebook、tumblr等等軟件的attop的關(guān)鍵字。tag的關(guān)鍵字應該也能做到。查看全部

　　文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？
　　文章實(shí)時(shí)采集標注數據，為了實(shí)現內容推薦，需要按字段規范匹配。如果無(wú)，根據規則重復字段，得到的排序就是亂序的。這樣，文章字段轉換成本就高，增加排序就更難了。所以需要目前標注數據制作成字典，利用treemap格式化展示。
　　讀取數據后，需要將正確的數據寫(xiě)入標注數據的存儲，
　　這種情況利用all-in-one排序就可以了吧
　　可以用正則的方式來(lái)進(jìn)行標注，正則就可以傳入一段句子的完整元素和元音，
　　正則表達式.
　　利用正則匹配，可以看看劉海洋的python機器學(xué)習實(shí)戰，
　　元音和輔音文字是正則表達式匹配不了的，硬要匹配的話(huà)可以通過(guò)字典的方式，按從小到大之間的字符串來(lái)匹配。
　　item[標簽]->[參考文獻]標簽部分是匹配正確的文本文件中的標簽文件中的標簽具體寫(xiě)法如下：#切割需要匹配的元素之間的數據"""單詞"""lst=[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v]name_word=name_list[list(allkeys(lst))]fortaginlst:name_word。append(tag。getkey())。
　　python中利用googleapi來(lái)可視化不可匹配的關(guān)鍵字與關(guān)鍵字之間的關(guān)系，可用bimonline或者其他工具監控email、twitter、facebook、tumblr等等軟件的attop的關(guān)鍵字。tag的關(guān)鍵字應該也能做到。

Web Audio-Browser 采集microphone 音頻數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2021-07-05 20:19 ? 來(lái)自相關(guān)話(huà)題

　　Web Audio-Browser 采集microphone 音頻數據
　　背景
　　關(guān)于Web Audio，上期小編介紹了如何解析音頻數據和繪制音頻頻譜圖，和大家一起初步了解Web Audio強大的API。在本文中，小編繼續探索Web Audio領(lǐng)域，我將向您介紹采集如何在瀏覽器中執行麥克風(fēng)音頻數據。以及如何在采集過(guò)程中繪制實(shí)時(shí)動(dòng)態(tài)音頻頻譜。
　　實(shí)施思路
　　我們還是先介紹一下整體思路。采集音頻，首先我們通過(guò)navigator.mediaDevices.getUserMedia方法獲取麥克風(fēng)并錄制聲音。（Navigator是瀏覽器的NavigatorID標準接口的實(shí)現，你可以用它來(lái)查詢(xún)當前運行腳本的應用程序的一些相關(guān)信息。這里不討論這個(gè)對象，只介紹如何使用它來(lái)錄制音頻） getUserMedia 可以用于錄制聲音獲取音頻流。然后我們使用 Web Audio 相關(guān)的 API 將音頻流轉換為實(shí)時(shí)音頻數據。最后通過(guò)canvas將實(shí)時(shí)音頻數據繪制成地圖，重復這個(gè)過(guò)程就達到動(dòng)態(tài)繪制實(shí)時(shí)地圖的效果。大體流程如下：
　　
　　獲得麥克風(fēng)權限，錄音
　　瀏覽器的安全策略規定navigator.mediaDevices.getUserMedia方法只能在https協(xié)議或localhost域名下有效。所以這里我們先用node搭建一個(gè)極簡(jiǎn)版的本地web服務(wù)器，然后獲取麥克風(fēng)權限，錄音。
　　// server.js
const http = require('http');
const path = require('path');
const fs = require('fs');
http.createServer((request, response) => {
// 請求體
console.log(new Date(), ':', JSON.stringify(request));
// 需要加載的html文件
const file = path.resolve(__dirname, './demo2.html');
// 判斷文件是否存在
fs.exists(file, exists => {
if(!exists) console.log ('文件不存在，沙雕！');
else {
response.writeHeader(200, { "Content-Type" : "text/html" });
response.end(fs.readFileSync(file, 'utf-8'));
}
});

}).listen(8090); // 監聽(tīng)8090端口
/*
* demo2.html
* 獲取麥克風(fēng)并錄制聲音
*/
let audioCtx = null; // 音頻上下文
let source = null; // 音頻源
let audioStream = null; // 錄音產(chǎn)生的音頻流
let analyserNode = null; // 用于分析音頻實(shí)時(shí)數據的節點(diǎn)
let animationFrame = null; // 定時(shí)器
function recordSound () {
navigator.mediaDevices
.getUserMedia({ 'audio': true })
.then(initAudioData)
.catch(e => {
console.log('出問(wèn)題了，沙雕:', e);
});
}
// 停止錄制
function stopRecord () {
// 關(guān)閉麥克風(fēng)
const tracks = audioStream.getAudioTracks();
for (let i = 0, len = tracks.length; i < len; i++) {
tracks[i].stop();
}
// 斷開(kāi)音頻節點(diǎn)
analyserNode.disconnect();
source.disconnect();
analyserNode = null;
source = null;
// 清除定時(shí)器
clearInterval(animationFrame);
}
// 事件綁定
document.querySelector('#record').onclick = recordSound;
document.querySelector('#stop').onclick = stopRecord;
復制代碼
　　使用 Web Audio Api 處理音頻流數據
　　獲取音頻流后，我們使用音頻上下文AudioContext來(lái)創(chuàng )建音頻源。這里選擇MediaStreamAudioSourceNode，它接收一個(gè)MediaStream對象來(lái)創(chuàng )建一個(gè)音頻源。然后我們在音頻源和目的地之間插入一個(gè)音頻節點(diǎn)來(lái)獲取和處理音頻數據，然后利用這些數據繪制波形圖。此處選擇了 AnalyserNode。當然，像 ScriptProcessorNode 和 AudioWorkletNode 這樣的節點(diǎn)也可以實(shí)現實(shí)時(shí)音頻數據的采集和處理。詳情請參考相關(guān)API。
　　// 音頻數據處理
function initAudioData (stream) {
audioStream = stream;
// 創(chuàng )建音頻上下文
audioCtx = new (window.AudioContext || window.webkitAudioContext)();
// 創(chuàng )建音頻源
source = audioCtx.createMediaStreamSource(audioStream);
// 創(chuàng )建音頻分析節點(diǎn)
analyserNode = audioCtx.createAnalyser();
// fftSize決定了能夠獲取到的音頻數據的數量
analyserNode.fftSize = 4096;
// 音頻源連接至analyserNode
source.connect(analyserNode);
// analyserNode再連接至揚聲器播放
analyserNode.connect(audioCtx.destination);
// 簡(jiǎn)單用定時(shí)器來(lái)繪制波形圖，當然也可以用requestAnimationFrame來(lái)以屏幕刷新的評率來(lái)反復執行繪制函數
animateFrame = setInterval(drawWaver, 60);
}
復制代碼
　　實(shí)時(shí)獲取音頻數據并繪制波形圖
　　AnalyserNode創(chuàng )建后，可以指定長(cháng)度實(shí)時(shí)獲取當前時(shí)間點(diǎn)的音頻時(shí)域數據，然后通過(guò)定時(shí)器或requestAnimationFrame回調重復獲取數據并執行繪制函數來(lái)實(shí)現動(dòng)態(tài)波形圖的效果。繪制方法也是通過(guò)一個(gè)Float32Array數組對象（取值范圍在-1到1之間）接收音頻時(shí)域數據，然后對數據進(jìn)行采樣。這里我們每12條數據取一個(gè)最大值和一個(gè)最小值來(lái)繪制Graphic。
　　// 繪制圖形
function drawWaver () {
const originData = new Float32Array(analyserNode.fftSize);
const positives = [];
const negatives = [];
// 獲取當前的實(shí)時(shí)音頻數據
analyserNode.getFloatTimeDomainData(originData);
// 每12位數據取一個(gè)最大值一個(gè)最小值 4096 / 12 = 341.3333
for (let i = 0; i < 341; i++) {
let temp = originData.slice(i * 12, (i + 1) * 12);
positives.push(Math.max.apply(null, temp));
negatives.push(Math.min.apply(null, temp));
}
// 創(chuàng )建canvas上下文
let canvas = document.querySelector('#canvas');
if (canvas.getContext) {
let ctx = canvas.getContext('2d');
canvas.width = positives.length * 4;
let x = 0;
let y = 100;
ctx.fillStyle = '#fa541c';
// canvas高度200，橫坐標在canvas中點(diǎn)100px的位置，橫坐標上方繪制正數據，下方繪制負數據
for (let k = 0; k < positives.length; k++) {
// 每個(gè)矩形寬3px，間隔1px，圖形總長(cháng)度即為 length * 4
ctx.fillRect(x + 4 * k, y - (100 * positives[k]), 3, 100 * positives[k]);
ctx.fillRect(x + 4 * k, 100, 3, 100 * Math.abs(negatives[k]));
}
}
}
復制代碼
　　這樣，簡(jiǎn)單的音頻采集和實(shí)時(shí)圖形繪制就完成了。最后貼一下效果圖：
　　查看全部

　　Web Audio-Browser 采集microphone 音頻數據
　　背景
　　關(guān)于Web Audio，上期小編介紹了如何解析音頻數據和繪制音頻頻譜圖，和大家一起初步了解Web Audio強大的API。在本文中，小編繼續探索Web Audio領(lǐng)域，我將向您介紹采集如何在瀏覽器中執行麥克風(fēng)音頻數據。以及如何在采集過(guò)程中繪制實(shí)時(shí)動(dòng)態(tài)音頻頻譜。
　　實(shí)施思路
　　我們還是先介紹一下整體思路。采集音頻，首先我們通過(guò)navigator.mediaDevices.getUserMedia方法獲取麥克風(fēng)并錄制聲音。（Navigator是瀏覽器的NavigatorID標準接口的實(shí)現，你可以用它來(lái)查詢(xún)當前運行腳本的應用程序的一些相關(guān)信息。這里不討論這個(gè)對象，只介紹如何使用它來(lái)錄制音頻） getUserMedia 可以用于錄制聲音獲取音頻流。然后我們使用 Web Audio 相關(guān)的 API 將音頻流轉換為實(shí)時(shí)音頻數據。最后通過(guò)canvas將實(shí)時(shí)音頻數據繪制成地圖，重復這個(gè)過(guò)程就達到動(dòng)態(tài)繪制實(shí)時(shí)地圖的效果。大體流程如下：
　　

　　獲得麥克風(fēng)權限，錄音
　　瀏覽器的安全策略規定navigator.mediaDevices.getUserMedia方法只能在https協(xié)議或localhost域名下有效。所以這里我們先用node搭建一個(gè)極簡(jiǎn)版的本地web服務(wù)器，然后獲取麥克風(fēng)權限，錄音。
　　// server.js
const http = require('http');
const path = require('path');
const fs = require('fs');
http.createServer((request, response) => {
// 請求體
console.log(new Date(), ':', JSON.stringify(request));
// 需要加載的html文件
const file = path.resolve(__dirname, './demo2.html');
// 判斷文件是否存在
fs.exists(file, exists => {
if(!exists) console.log ('文件不存在，沙雕！');
else {
response.writeHeader(200, { "Content-Type" : "text/html" });
response.end(fs.readFileSync(file, 'utf-8'));
}
});

}).listen(8090); // 監聽(tīng)8090端口
/*
* demo2.html
* 獲取麥克風(fēng)并錄制聲音
*/
let audioCtx = null; // 音頻上下文
let source = null; // 音頻源
let audioStream = null; // 錄音產(chǎn)生的音頻流
let analyserNode = null; // 用于分析音頻實(shí)時(shí)數據的節點(diǎn)
let animationFrame = null; // 定時(shí)器
function recordSound () {
navigator.mediaDevices
.getUserMedia({ 'audio': true })
.then(initAudioData)
.catch(e => {
console.log('出問(wèn)題了，沙雕:', e);
});
}
// 停止錄制
function stopRecord () {
// 關(guān)閉麥克風(fēng)
const tracks = audioStream.getAudioTracks();
for (let i = 0, len = tracks.length; i < len; i++) {
tracks[i].stop();
}
// 斷開(kāi)音頻節點(diǎn)
analyserNode.disconnect();
source.disconnect();
analyserNode = null;
source = null;
// 清除定時(shí)器
clearInterval(animationFrame);
}
// 事件綁定
document.querySelector('#record').onclick = recordSound;
document.querySelector('#stop').onclick = stopRecord;
復制代碼
　　使用 Web Audio Api 處理音頻流數據
　　獲取音頻流后，我們使用音頻上下文AudioContext來(lái)創(chuàng )建音頻源。這里選擇MediaStreamAudioSourceNode，它接收一個(gè)MediaStream對象來(lái)創(chuàng )建一個(gè)音頻源。然后我們在音頻源和目的地之間插入一個(gè)音頻節點(diǎn)來(lái)獲取和處理音頻數據，然后利用這些數據繪制波形圖。此處選擇了 AnalyserNode。當然，像 ScriptProcessorNode 和 AudioWorkletNode 這樣的節點(diǎn)也可以實(shí)現實(shí)時(shí)音頻數據的采集和處理。詳情請參考相關(guān)API。
　　// 音頻數據處理
function initAudioData (stream) {
audioStream = stream;
// 創(chuàng )建音頻上下文
audioCtx = new (window.AudioContext || window.webkitAudioContext)();
// 創(chuàng )建音頻源
source = audioCtx.createMediaStreamSource(audioStream);
// 創(chuàng )建音頻分析節點(diǎn)
analyserNode = audioCtx.createAnalyser();
// fftSize決定了能夠獲取到的音頻數據的數量
analyserNode.fftSize = 4096;
// 音頻源連接至analyserNode
source.connect(analyserNode);
// analyserNode再連接至揚聲器播放
analyserNode.connect(audioCtx.destination);
// 簡(jiǎn)單用定時(shí)器來(lái)繪制波形圖，當然也可以用requestAnimationFrame來(lái)以屏幕刷新的評率來(lái)反復執行繪制函數
animateFrame = setInterval(drawWaver, 60);
}
復制代碼
　　實(shí)時(shí)獲取音頻數據并繪制波形圖
　　AnalyserNode創(chuàng )建后，可以指定長(cháng)度實(shí)時(shí)獲取當前時(shí)間點(diǎn)的音頻時(shí)域數據，然后通過(guò)定時(shí)器或requestAnimationFrame回調重復獲取數據并執行繪制函數來(lái)實(shí)現動(dòng)態(tài)波形圖的效果。繪制方法也是通過(guò)一個(gè)Float32Array數組對象（取值范圍在-1到1之間）接收音頻時(shí)域數據，然后對數據進(jìn)行采樣。這里我們每12條數據取一個(gè)最大值和一個(gè)最小值來(lái)繪制Graphic。
　　// 繪制圖形
function drawWaver () {
const originData = new Float32Array(analyserNode.fftSize);
const positives = [];
const negatives = [];
// 獲取當前的實(shí)時(shí)音頻數據
analyserNode.getFloatTimeDomainData(originData);
// 每12位數據取一個(gè)最大值一個(gè)最小值 4096 / 12 = 341.3333
for (let i = 0; i < 341; i++) {
let temp = originData.slice(i * 12, (i + 1) * 12);
positives.push(Math.max.apply(null, temp));
negatives.push(Math.min.apply(null, temp));
}
// 創(chuàng )建canvas上下文
let canvas = document.querySelector('#canvas');
if (canvas.getContext) {
let ctx = canvas.getContext('2d');
canvas.width = positives.length * 4;
let x = 0;
let y = 100;
ctx.fillStyle = '#fa541c';
// canvas高度200，橫坐標在canvas中點(diǎn)100px的位置，橫坐標上方繪制正數據，下方繪制負數據
for (let k = 0; k < positives.length; k++) {
// 每個(gè)矩形寬3px，間隔1px，圖形總長(cháng)度即為 length * 4
ctx.fillRect(x + 4 * k, y - (100 * positives[k]), 3, 100 * positives[k]);
ctx.fillRect(x + 4 * k, 100, 3, 100 * Math.abs(negatives[k]));
}
}
}
復制代碼
　　這樣，簡(jiǎn)單的音頻采集和實(shí)時(shí)圖形繪制就完成了。最后貼一下效果圖：
　　

優(yōu)采云智能文章采集系統是什么？功能介紹及介紹

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2021-06-11 06:14 ? 來(lái)自相關(guān)話(huà)題

　　優(yōu)采云智能文章采集系統是什么？功能介紹及介紹
　　優(yōu)采云智能文章采集系統是優(yōu)采云software開(kāi)發(fā)的網(wǎng)站文章采集器系統。軟件內置智能分塊算法，可直接將html代碼和主要內容分開(kāi)，只需要輸入網(wǎng)站網(wǎng)址，軟件即可輕松準確地將采集@k14中的文章全部@。除了采集文章功能，軟件還有強大的原創(chuàng )功能，可以將采集到達的內容處理兩次，直接發(fā)布到你的網(wǎng)站，或者直接導出到txt格式本地化，功能非常強大，適合每一位站長(cháng)下載使用。
　　
　　軟件功能
　　1、智能區塊算法采集任何內容站點(diǎn)，真的傻瓜式采集
　　智能攔截算法自動(dòng)提取網(wǎng)頁(yè)正文內容，無(wú)需配置源碼規則，真的傻瓜式采集；
　　自動(dòng)去噪，可自動(dòng)過(guò)濾標題內容中的圖片\URL\電話(huà)\QQ\email等信息；
　　可以針對全球任何小語(yǔ)種，任意編碼文章采集，無(wú)亂碼；
　　多任務(wù)（多站點(diǎn)/列）多線(xiàn)程同步采集，支持代理采集，快速高效；
　　指定任何文章內容類(lèi)網(wǎng)站采集，而不是文章源
　　
　　2、Powerful 偽原創(chuàng )function
　　內置中文分詞功能，強大的近義詞和同義詞數據庫引擎，替換效率高；
　　自帶英文分詞詞庫和語(yǔ)料庫，支持TBS模式批量原創(chuàng )，保持句子語(yǔ)義流暢；
　　標題和內容可以偽原創(chuàng )單獨處理；
　　
　　3、內置主流cmsrelease接口
　　可直接導出為T(mén)XT文件，可根據標題或序號生成文件名。
　　支持wordpress、zblog、dedecms、phpcms等國內外主流cms自動(dòng)發(fā)布；
　　支持多線(xiàn)程、多任務(wù)同時(shí)發(fā)布；
　　
　　功能介紹
　　1、Content 區塊自動(dòng)識別并自動(dòng)提取任意頁(yè)面內容
　　自動(dòng)識別html代碼并過(guò)濾正文內容，完整率95%以上，只要是基于內容的頁(yè)面，都可以自動(dòng)提取。
　　2、使用代理IP模擬真實(shí)蜘蛛頭采集防止同一IP采集太多限制
　　目前很多大網(wǎng)站對同一個(gè)IP的訪(fǎng)問(wèn)過(guò)于頻繁會(huì )被限制。軟件可以使用采集的代理IP繞過(guò)限制，同時(shí)模擬真實(shí)的蜘蛛爬取采集頁(yè)面，最大程度的限制了一些大的網(wǎng)站采集頻率。
　　3、任何編碼和小語(yǔ)種采集全球小語(yǔ)種采集，無(wú)亂碼
　　一般網(wǎng)頁(yè)采集亂碼都是編碼不正確造成的。該軟件內置了世界上所有的編碼格式?？梢詾椴煌木幋a選擇采集，確保任何語(yǔ)言和任意編碼采集都不會(huì )出現亂碼。
　　4、中英文偽原創(chuàng )處理多種原創(chuàng )模式，有利于搜索引擎收錄
　　中文采用內置同義詞、同義詞數據庫替換模式，英文采用偽原創(chuàng )強大的TBS預測數據庫，保證句前句后句的流暢。同一篇文章文章的內容每次原創(chuàng )之后都會(huì )改變。
　　5、多種導出/發(fā)布模式，靈活的內容導出和發(fā)布
　　可以根據序列號或標題作為文件名直接以TXT格式導出到本地，也可以直接使用內置發(fā)布接口發(fā)布到當前主流的幾個(gè)內容cms程序，目前支持dedecms、wordpress、zblog 等
　　常見(jiàn)問(wèn)題
　　1、是否可以在任何網(wǎng)站上采集？
　　只要是本站的主要內容，如論壇、博客、文章站等都可以采集、優(yōu)采云智能文章采集系統會(huì )自動(dòng)識別正文塊并自動(dòng)提取正文內容。
　　2、采集的文章亂七八糟？
　　優(yōu)采云智能文章采集系統針對指定的網(wǎng)站采集，獲取的文章是原頁(yè)面文章的正文內容，不是源的文本字符網(wǎng)頁(yè)的代碼，但干凈的原創(chuàng )文章Content。查看全部

　　優(yōu)采云智能文章采集系統是什么？功能介紹及介紹
　　優(yōu)采云智能文章采集系統是優(yōu)采云software開(kāi)發(fā)的網(wǎng)站文章采集器系統。軟件內置智能分塊算法，可直接將html代碼和主要內容分開(kāi)，只需要輸入網(wǎng)站網(wǎng)址，軟件即可輕松準確地將采集@k14中的文章全部@。除了采集文章功能，軟件還有強大的原創(chuàng )功能，可以將采集到達的內容處理兩次，直接發(fā)布到你的網(wǎng)站，或者直接導出到txt格式本地化，功能非常強大，適合每一位站長(cháng)下載使用。
　　

　　軟件功能
　　1、智能區塊算法采集任何內容站點(diǎn)，真的傻瓜式采集
　　智能攔截算法自動(dòng)提取網(wǎng)頁(yè)正文內容，無(wú)需配置源碼規則，真的傻瓜式采集；
　　自動(dòng)去噪，可自動(dòng)過(guò)濾標題內容中的圖片\URL\電話(huà)\QQ\email等信息；
　　可以針對全球任何小語(yǔ)種，任意編碼文章采集，無(wú)亂碼；
　　多任務(wù)（多站點(diǎn)/列）多線(xiàn)程同步采集，支持代理采集，快速高效；
　　指定任何文章內容類(lèi)網(wǎng)站采集，而不是文章源
　　

　　2、Powerful 偽原創(chuàng )function
　　內置中文分詞功能，強大的近義詞和同義詞數據庫引擎，替換效率高；
　　自帶英文分詞詞庫和語(yǔ)料庫，支持TBS模式批量原創(chuàng )，保持句子語(yǔ)義流暢；
　　標題和內容可以偽原創(chuàng )單獨處理；
　　

　　3、內置主流cmsrelease接口
　　可直接導出為T(mén)XT文件，可根據標題或序號生成文件名。
　　支持wordpress、zblog、dedecms、phpcms等國內外主流cms自動(dòng)發(fā)布；
　　支持多線(xiàn)程、多任務(wù)同時(shí)發(fā)布；
　　

　　功能介紹
　　1、Content 區塊自動(dòng)識別并自動(dòng)提取任意頁(yè)面內容
　　自動(dòng)識別html代碼并過(guò)濾正文內容，完整率95%以上，只要是基于內容的頁(yè)面，都可以自動(dòng)提取。
　　2、使用代理IP模擬真實(shí)蜘蛛頭采集防止同一IP采集太多限制
　　目前很多大網(wǎng)站對同一個(gè)IP的訪(fǎng)問(wèn)過(guò)于頻繁會(huì )被限制。軟件可以使用采集的代理IP繞過(guò)限制，同時(shí)模擬真實(shí)的蜘蛛爬取采集頁(yè)面，最大程度的限制了一些大的網(wǎng)站采集頻率。
　　3、任何編碼和小語(yǔ)種采集全球小語(yǔ)種采集，無(wú)亂碼
　　一般網(wǎng)頁(yè)采集亂碼都是編碼不正確造成的。該軟件內置了世界上所有的編碼格式?？梢詾椴煌木幋a選擇采集，確保任何語(yǔ)言和任意編碼采集都不會(huì )出現亂碼。
　　4、中英文偽原創(chuàng )處理多種原創(chuàng )模式，有利于搜索引擎收錄
　　中文采用內置同義詞、同義詞數據庫替換模式，英文采用偽原創(chuàng )強大的TBS預測數據庫，保證句前句后句的流暢。同一篇文章文章的內容每次原創(chuàng )之后都會(huì )改變。
　　5、多種導出/發(fā)布模式，靈活的內容導出和發(fā)布
　　可以根據序列號或標題作為文件名直接以TXT格式導出到本地，也可以直接使用內置發(fā)布接口發(fā)布到當前主流的幾個(gè)內容cms程序，目前支持dedecms、wordpress、zblog 等
　　常見(jiàn)問(wèn)題
　　1、是否可以在任何網(wǎng)站上采集？
　　只要是本站的主要內容，如論壇、博客、文章站等都可以采集、優(yōu)采云智能文章采集系統會(huì )自動(dòng)識別正文塊并自動(dòng)提取正文內容。
　　2、采集的文章亂七八糟？
　　優(yōu)采云智能文章采集系統針對指定的網(wǎng)站采集，獲取的文章是原頁(yè)面文章的正文內容，不是源的文本字符網(wǎng)頁(yè)的代碼，但干凈的原創(chuàng )文章Content。

.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2021-06-11 01:03 ? 來(lái)自相關(guān)話(huà)題

　　.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力
　　文章實(shí)時(shí)采集到高品質(zhì)音頻，放到識別模型（musicrecognition）中降噪；文章實(shí)時(shí)采集到低品質(zhì)音頻，放到識別模型（musicrecognition）中增強語(yǔ)言表達能力；在北京郵電大學(xué)，我們先實(shí)現了第一段：rtp項目介紹：rtp是一個(gè)發(fā)布式的識別平臺，使用postscript格式的文本作為輸入。
　　該平臺基于webkit內核，遵循bottleneck（最佳分離問(wèn)題）的算法思想，采用kaldi作為識別引擎?？傮w而言，模型的確很棒，不遜于waves；里面也有wavenet（大小為5m）的訓練代碼：pre-processing：將一條音頻處理成waves格式文本reallifecycle：循環(huán)部署模型webpack：將webpack部署到服務(wù)器music.js中，配置完成，即可上線(xiàn)model/rtp.js：提供接口（從rtp.js引入其他模型）rtcar.js：提供接口（提供音頻編碼器）rtcar-engine.js：提供接口（提供識別相關(guān)的協(xié)議（最常用的tcp），tls等等）model/rtcar.js：提供接口（提供音頻編碼器）為了節省流量，我們也實(shí)現了微信小程序的接入功能：用微信小程序即可訪(fǎng)問(wèn)這個(gè)音頻，wechatweixinisalloveryou！具體看代碼：#thisisourinstancewx:itisagpusteaminthebalancedgoogleaiforrtt,oftennotoveruserspeech#pathnamewarningnothismoduleisusedonanychannelrtp;rtcar:;pathnamemustbeusedinengines#pathname#warningthismoduleisusedinengines-name.wx#instancetop_gidasasummaryofpathname#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines-name.assets.wxthismoduleisusedinengines#pathname#either.wxor.wx#eitheror#or#instancegid#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathnameendifyouarenotgoingtosendartcarasasummaryofsound,youmustreachwhatweget.#endmessage#enddataexport{'rtp':['/rtcar.js'],'rtcar':['/rtcar.wx']}。查看全部

　　.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力
　　文章實(shí)時(shí)采集到高品質(zhì)音頻，放到識別模型（musicrecognition）中降噪；文章實(shí)時(shí)采集到低品質(zhì)音頻，放到識別模型（musicrecognition）中增強語(yǔ)言表達能力；在北京郵電大學(xué)，我們先實(shí)現了第一段：rtp項目介紹：rtp是一個(gè)發(fā)布式的識別平臺，使用postscript格式的文本作為輸入。
　　該平臺基于webkit內核，遵循bottleneck（最佳分離問(wèn)題）的算法思想，采用kaldi作為識別引擎?？傮w而言，模型的確很棒，不遜于waves；里面也有wavenet（大小為5m）的訓練代碼：pre-processing：將一條音頻處理成waves格式文本reallifecycle：循環(huán)部署模型webpack：將webpack部署到服務(wù)器music.js中，配置完成，即可上線(xiàn)model/rtp.js：提供接口（從rtp.js引入其他模型）rtcar.js：提供接口（提供音頻編碼器）rtcar-engine.js：提供接口（提供識別相關(guān)的協(xié)議（最常用的tcp），tls等等）model/rtcar.js：提供接口（提供音頻編碼器）為了節省流量，我們也實(shí)現了微信小程序的接入功能：用微信小程序即可訪(fǎng)問(wèn)這個(gè)音頻，wechatweixinisalloveryou！具體看代碼：#thisisourinstancewx:itisagpusteaminthebalancedgoogleaiforrtt,oftennotoveruserspeech#pathnamewarningnothismoduleisusedonanychannelrtp;rtcar:;pathnamemustbeusedinengines#pathname#warningthismoduleisusedinengines-name.wx#instancetop_gidasasummaryofpathname#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines-name.assets.wxthismoduleisusedinengines#pathname#either.wxor.wx#eitheror#or#instancegid#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathnameendifyouarenotgoingtosendartcarasasummaryofsound,youmustreachwhatweget.#endmessage#enddataexport{'rtp':['/rtcar.js'],'rtcar':['/rtcar.wx']}。

微播易利用大數據幫助廣告主實(shí)現智能化結案報告

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 129 次瀏覽 ? 2021-06-10 23:06 ? 來(lái)自相關(guān)話(huà)題

　　微播易利用大數據幫助廣告主實(shí)現智能化結案報告
　　繼自媒體寫(xiě)真和KOL透視鏡之后，微博易再次推出重磅數據產(chǎn)品——快采集。
　　Quick采集是一款可以實(shí)時(shí)抓取KOL內容并進(jìn)行數據效果的產(chǎn)品。
　　
　　可以幫助廣告主采集到KOL在微信、微博平臺發(fā)布內容，以及閱讀、評論等業(yè)績(jì)數據，并可以快速生成廣告主的報告，促進(jìn)項目的傳播這個(gè)計劃很好理解。這也是微博一利用大數據幫助廣告主實(shí)現智能結案報告的重要舉措。
　　監控交付效果是項目收尾報告的核心內容，也是實(shí)現閉環(huán)營(yíng)銷(xiāo)的“最后一公里”。
　　以往，在總結投放效果數據時(shí)，高管們通常要不斷地核對KOL內容傳播數據，并繪制表格。不僅工作量巨大，而且工作內容機械化、重復、容易出錯。一旦品牌方需要提供不同日期的傳播效果數據，高管就需要返工，重復工作。這大大降低了工作效率。
　　“Quick采集”產(chǎn)品的推出將徹底解決這個(gè)問(wèn)題。只需輸入內容鏈??接，系統即可快速生成結案報告，簡(jiǎn)單、快捷、準確、高效。
　　如何獲取和使用“Quick采集”產(chǎn)品？
　　您需要登錄官方Weiboyi網(wǎng)站，在網(wǎng)站首頁(yè)左上角的數據產(chǎn)品欄中選擇“快采集”。
　　
　　
　　進(jìn)入“Quick采集”查詢(xún)頁(yè)面后，系統會(huì )引導您完成“輸入鏈接-確認鏈接-確認任務(wù)信息-任務(wù)提交完成”四個(gè)查詢(xún)步驟。
　　首先需要輸入微信圖文鏈接或新浪微博博客鏈接，每次最多50條，產(chǎn)品將獨立判斷鏈接的有效性，并對多個(gè)鏈接進(jìn)行序列號識別。
　　目前“Quick采集”暫時(shí)支持微信、微博內容鏈接查詢(xún)，即將上線(xiàn)抓取短視頻內容效果數據。查看全部

　　微播易利用大數據幫助廣告主實(shí)現智能化結案報告
　　繼自媒體寫(xiě)真和KOL透視鏡之后，微博易再次推出重磅數據產(chǎn)品——快采集。
　　Quick采集是一款可以實(shí)時(shí)抓取KOL內容并進(jìn)行數據效果的產(chǎn)品。
　　

　　可以幫助廣告主采集到KOL在微信、微博平臺發(fā)布內容，以及閱讀、評論等業(yè)績(jì)數據，并可以快速生成廣告主的報告，促進(jìn)項目的傳播這個(gè)計劃很好理解。這也是微博一利用大數據幫助廣告主實(shí)現智能結案報告的重要舉措。
　　監控交付效果是項目收尾報告的核心內容，也是實(shí)現閉環(huán)營(yíng)銷(xiāo)的“最后一公里”。
　　以往，在總結投放效果數據時(shí)，高管們通常要不斷地核對KOL內容傳播數據，并繪制表格。不僅工作量巨大，而且工作內容機械化、重復、容易出錯。一旦品牌方需要提供不同日期的傳播效果數據，高管就需要返工，重復工作。這大大降低了工作效率。
　　“Quick采集”產(chǎn)品的推出將徹底解決這個(gè)問(wèn)題。只需輸入內容鏈??接，系統即可快速生成結案報告，簡(jiǎn)單、快捷、準確、高效。
　　如何獲取和使用“Quick采集”產(chǎn)品？
　　您需要登錄官方Weiboyi網(wǎng)站，在網(wǎng)站首頁(yè)左上角的數據產(chǎn)品欄中選擇“快采集”。
　　

　　

　　進(jìn)入“Quick采集”查詢(xún)頁(yè)面后，系統會(huì )引導您完成“輸入鏈接-確認鏈接-確認任務(wù)信息-任務(wù)提交完成”四個(gè)查詢(xún)步驟。
　　首先需要輸入微信圖文鏈接或新浪微博博客鏈接，每次最多50條，產(chǎn)品將獨立判斷鏈接的有效性，并對多個(gè)鏈接進(jìn)行序列號識別。
　　目前“Quick采集”暫時(shí)支持微信、微博內容鏈接查詢(xún)，即將上線(xiàn)抓取短視頻內容效果數據。

基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2021-06-09 23:27 ? 來(lái)自相關(guān)話(huà)題

　　基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集
　　簡(jiǎn)介
　　在大量的數據采集場(chǎng)景中，Flume是一個(gè)高性能的采集日志工具，相信大家都知道。很多人認為Flume是一個(gè)組件，大多數人能想到的就是Flume和Kafka的結合，用于日志采集。該解決方案具有許多優(yōu)點(diǎn)，例如高性能、高吞吐量和數據可靠性。但是如果我們在日志上要求實(shí)時(shí)采集，這顯然不是一個(gè)好的解決方案。原因如下：
　　目前，Flume 可以支持對目錄中的數據文件進(jìn)行實(shí)時(shí)監控。一旦某個(gè)目錄下的文件采集完成，就會(huì )標上完成標記。如果以后有數據進(jìn)入這個(gè)文件，Flume 將不會(huì )被檢測到。
　　所以，我們大多使用這個(gè)方案來(lái)定時(shí)采集，只要生成一個(gè)新的數據目錄，我們就會(huì )采集這個(gè)目錄下的數據文件。
　　那么這篇文章就給大家介紹采集基于Openresty+Lua+Kafka的實(shí)時(shí)日志。
　　要求
　　很多時(shí)候，我們需要對用戶(hù)的埋點(diǎn)數據進(jìn)行實(shí)時(shí)采集，然后利用這些數據對用戶(hù)的行為做一些實(shí)時(shí)分析。所以，第一步當然是解決如何進(jìn)行實(shí)時(shí)數據采集。
　　我們這里使用的方案是Openresty+Lua+Kafka。
　　原理介紹
　　那么什么是 Openresty？這是官方引用：
　　OpenResty 是一個(gè)基于 Nginx 和 Lua 的高性能網(wǎng)絡(luò )平臺。它集成了大量復雜的 Lua 庫、第三方模塊及其大部分依賴(lài)項。用于方便地構建可處理超高并發(fā)和高擴展性的動(dòng)態(tài)Web應用、Web服務(wù)和動(dòng)態(tài)網(wǎng)關(guān)。
　　OpenResty 集成了各種精心設計的 Nginx 模塊，有效地將 Nginx 變成了一個(gè)強大的通用 Web 應用程序平臺。這樣，Web 開(kāi)發(fā)人員和系統工程師可以使用 Lu 腳本語(yǔ)言來(lái)調動(dòng) Nginx 支持的各種 C 和 Lua 模塊，快速構建一個(gè)能夠支持 10K 甚至超過(guò) 1000 個(gè)單機并發(fā)連接的高性能 Web 應用系統。
　　OpenResty 的目標是讓你的 web 服務(wù)直接運行在 Nginx 服務(wù)內部，充分利用 Nginx 的非阻塞 I/O 模型，不僅可以用于 HTTP 客戶(hù)端請求，甚至可以用于 MySQL、PostgreSQL 等遠程后端、Memcached 和 Redis 等具有一致的高性能響應。
　　簡(jiǎn)單的說(shuō)就是通過(guò)客戶(hù)端的請求，通過(guò)Nginx將用戶(hù)的數據傳遞到我們指定的地方（Kafka）（本文指的是用戶(hù)的行為日志），而為了實(shí)現這個(gè)需求，我們使用了一個(gè)Lua腳本，因為Openresty封裝了各種Lua模塊，其中之一就是分裝Kafka模塊，我們只需要寫(xiě)一個(gè)簡(jiǎn)單的腳本就可以通過(guò)Nginx將用戶(hù)的數據轉發(fā)到Kafka，供后續消費數據使用。
　　這里有一個(gè)架構圖供大家理解：
　　
　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據。針對不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同主題。
　　2.實(shí)時(shí)采集用戶(hù)觸發(fā)的埋點(diǎn)數據
　　3.高度可靠的集群。由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，相比tomcat、apache等web服務(wù)器，Nginx的并發(fā)量遠高于其他兩個(gè)。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　接下來(lái)我們來(lái)做一些實(shí)際的練習。
　　安裝 Openresty
　　本示例使用獨立部署形式。單機部署成功后，集群作為單機搭建，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本時(shí)需要用到lua模塊中的一些Kafka依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于大家對Kafka比較熟悉，這里就不介紹它的安裝了。
　　安裝Openresty后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.開(kāi)始服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的過(guò)程，證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求做一個(gè)簡(jiǎn)單的測試看Kafka能否接受數據
　　
　　7.kafka 消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log相關(guān)的錯誤日志進(jìn)行調整
　　總結
　　使用Openresty+Lua+Kafka可以將用戶(hù)的埋點(diǎn)數據采集實(shí)時(shí)傳輸到kafka集群，而且Openresty是基于Nginx的，Nginx可以處理幾萬(wàn)并發(fā)，所以即使用戶(hù)的數據隨著(zhù)時(shí)間的激增，這種架構可以輕松應對，而不會(huì )導致集群崩潰。另一方面，如果數據太多導致集群過(guò)載，我們也可以隨時(shí)多加一臺機器，非常方便。
　　另外一個(gè)小擴展：如果有很多業(yè)務(wù)數據需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，但是可以聯(lián)系后端添加一個(gè)json格式的字段，取值該字段的是主題的名稱(chēng)。我們只需要寫(xiě)一個(gè)通用腳本，解析Json數據，取出主題名即可。
　　
　　關(guān)于尋找教程網(wǎng)絡(luò ) 查看全部

　　基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集
　　簡(jiǎn)介
　　在大量的數據采集場(chǎng)景中，Flume是一個(gè)高性能的采集日志工具，相信大家都知道。很多人認為Flume是一個(gè)組件，大多數人能想到的就是Flume和Kafka的結合，用于日志采集。該解決方案具有許多優(yōu)點(diǎn)，例如高性能、高吞吐量和數據可靠性。但是如果我們在日志上要求實(shí)時(shí)采集，這顯然不是一個(gè)好的解決方案。原因如下：
　　目前，Flume 可以支持對目錄中的數據文件進(jìn)行實(shí)時(shí)監控。一旦某個(gè)目錄下的文件采集完成，就會(huì )標上完成標記。如果以后有數據進(jìn)入這個(gè)文件，Flume 將不會(huì )被檢測到。
　　所以，我們大多使用這個(gè)方案來(lái)定時(shí)采集，只要生成一個(gè)新的數據目錄，我們就會(huì )采集這個(gè)目錄下的數據文件。
　　那么這篇文章就給大家介紹采集基于Openresty+Lua+Kafka的實(shí)時(shí)日志。
　　要求
　　很多時(shí)候，我們需要對用戶(hù)的埋點(diǎn)數據進(jìn)行實(shí)時(shí)采集，然后利用這些數據對用戶(hù)的行為做一些實(shí)時(shí)分析。所以，第一步當然是解決如何進(jìn)行實(shí)時(shí)數據采集。
　　我們這里使用的方案是Openresty+Lua+Kafka。
　　原理介紹
　　那么什么是 Openresty？這是官方引用：
　　OpenResty 是一個(gè)基于 Nginx 和 Lua 的高性能網(wǎng)絡(luò )平臺。它集成了大量復雜的 Lua 庫、第三方模塊及其大部分依賴(lài)項。用于方便地構建可處理超高并發(fā)和高擴展性的動(dòng)態(tài)Web應用、Web服務(wù)和動(dòng)態(tài)網(wǎng)關(guān)。
　　OpenResty 集成了各種精心設計的 Nginx 模塊，有效地將 Nginx 變成了一個(gè)強大的通用 Web 應用程序平臺。這樣，Web 開(kāi)發(fā)人員和系統工程師可以使用 Lu 腳本語(yǔ)言來(lái)調動(dòng) Nginx 支持的各種 C 和 Lua 模塊，快速構建一個(gè)能夠支持 10K 甚至超過(guò) 1000 個(gè)單機并發(fā)連接的高性能 Web 應用系統。
　　OpenResty 的目標是讓你的 web 服務(wù)直接運行在 Nginx 服務(wù)內部，充分利用 Nginx 的非阻塞 I/O 模型，不僅可以用于 HTTP 客戶(hù)端請求，甚至可以用于 MySQL、PostgreSQL 等遠程后端、Memcached 和 Redis 等具有一致的高性能響應。
　　簡(jiǎn)單的說(shuō)就是通過(guò)客戶(hù)端的請求，通過(guò)Nginx將用戶(hù)的數據傳遞到我們指定的地方（Kafka）（本文指的是用戶(hù)的行為日志），而為了實(shí)現這個(gè)需求，我們使用了一個(gè)Lua腳本，因為Openresty封裝了各種Lua模塊，其中之一就是分裝Kafka模塊，我們只需要寫(xiě)一個(gè)簡(jiǎn)單的腳本就可以通過(guò)Nginx將用戶(hù)的數據轉發(fā)到Kafka，供后續消費數據使用。
　　這里有一個(gè)架構圖供大家理解：
　　

　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據。針對不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同主題。
　　2.實(shí)時(shí)采集用戶(hù)觸發(fā)的埋點(diǎn)數據
　　3.高度可靠的集群。由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，相比tomcat、apache等web服務(wù)器，Nginx的并發(fā)量遠高于其他兩個(gè)。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　接下來(lái)我們來(lái)做一些實(shí)際的練習。
　　安裝 Openresty
　　本示例使用獨立部署形式。單機部署成功后，集群作為單機搭建，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本時(shí)需要用到lua模塊中的一些Kafka依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于大家對Kafka比較熟悉，這里就不介紹它的安裝了。
　　安裝Openresty后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.開(kāi)始服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的過(guò)程，證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求做一個(gè)簡(jiǎn)單的測試看Kafka能否接受數據
　　

　　7.kafka 消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log相關(guān)的錯誤日志進(jìn)行調整
　　總結
　　使用Openresty+Lua+Kafka可以將用戶(hù)的埋點(diǎn)數據采集實(shí)時(shí)傳輸到kafka集群，而且Openresty是基于Nginx的，Nginx可以處理幾萬(wàn)并發(fā)，所以即使用戶(hù)的數據隨著(zhù)時(shí)間的激增，這種架構可以輕松應對，而不會(huì )導致集群崩潰。另一方面，如果數據太多導致集群過(guò)載，我們也可以隨時(shí)多加一臺機器，非常方便。
　　另外一個(gè)小擴展：如果有很多業(yè)務(wù)數據需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，但是可以聯(lián)系后端添加一個(gè)json格式的字段，取值該字段的是主題的名稱(chēng)。我們只需要寫(xiě)一個(gè)通用腳本，解析Json數據，取出主題名即可。
　　

　　關(guān)于尋找教程網(wǎng)絡(luò )

mysql+phpsqlite+javawebserver(spring)：建議運行別的框架

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2021-06-06 06:02 ? 來(lái)自相關(guān)話(huà)題

　　mysql+phpsqlite+javawebserver(spring)：建議運行別的框架
　　文章實(shí)時(shí)采集數據清洗數據導入：mysql，oracle要導入mysql可以使用你所使用的etl工具比如spark?？梢詮木W(wǎng)上下載rstudio，導入rstudio，根據需要導入即可。更多精彩，請訪(fǎng)問(wèn)官網(wǎng)。ps:內含大量美圖。
　　mysql+phpsqlite+javawebserver(spring)
　　第一步：tomcat請求第二步：java處理第三步：web服務(wù)器接受請求
　　php跨mysql連接（建議用github開(kāi)源web實(shí)現）oracle服務(wù)器，
　　這邊我比較了一下別人的集中頁(yè)面發(fā)現出現卡頓了。所以我看了一下我的mysql,2.7一切正常，0.05也沒(méi)出現卡頓，但是0.7和0.8不正常，可能是因為某些語(yǔ)句有要優(yōu)化或者其他的，建議等我把問(wèn)題找出來(lái)看看有沒(méi)有解決辦法。
　　1:xmldescription要對應起來(lái)如，“產(chǎn)品首頁(yè)”||“企業(yè)搜索首頁(yè)”&&“tencent旗下網(wǎng)站首頁(yè)”2:&3:web服務(wù)器要正常運行，
　　運行web程序應該不需要java才會(huì )卡。建議運行別的框架，
　　第一個(gè)問(wèn)題很簡(jiǎn)單,樓上沒(méi)有說(shuō)不是tomcat嗎?如果你能拿到現成的tomcat那么用tomcat我覺(jué)得沒(méi)問(wèn)題,一般網(wǎng)站都會(huì )配jdk吧,你這個(gè)是內部比較私密的頁(yè)面也應該不會(huì )用到,那么就可以丟開(kāi)tomcat,直接讓代碼在瀏覽器執行。第二個(gè)問(wèn)題，題主想問(wèn)的其實(shí)不是性能,而是包容性和擴展性。我記得曾經(jīng)有段時(shí)間,說(shuō)可以用restful服務(wù)器來(lái)實(shí)現fullpage窗口的方法,甚至比servlet差遠了。我想說(shuō)的是,如果是orm的話(huà),擴展性的問(wèn)題將會(huì )非常嚴重。建議:。
　　1)先把框架理清楚,不一定非要用apache,可以asyncio+thrift,同時(shí)可以做的事情非常多,比如共享緩存(在網(wǎng)絡(luò )請求到達的時(shí)候進(jìn)行本地緩存)、圖片和視頻處理(服務(wù)器端看到的這個(gè)時(shí)候是這個(gè)地址)、定時(shí)觸發(fā)器(每隔一段時(shí)間執行某個(gè)命令)、數據抽取(存到本地緩存中)、不同用戶(hù)的一些本地鍵對鍵的引用等等。
　　2)好好學(xué)習一下tomcat的基礎知識,上面有一些很基礎的知識,在你公司里經(jīng)常用到的。
　　3)編程語(yǔ)言,盡量避免一些被淘汰的語(yǔ)言,畢竟java是oracle和谷歌的根基,不能出問(wèn)題就賴(lài)到某個(gè)語(yǔ)言身上。我目前發(fā)現一些java很久以前的框架,比如activemq(這兩年變化很大,畢竟新框架都用rmi調用,io也可以解決這個(gè)問(wèn)題),其實(shí)還是挺不錯的,例如:mina(異步分布式緩存系統)、workerman(高性能)、protobuf(數據傳輸算法)等等。也可以考慮用python,加上幾個(gè)不錯的數據庫庫直接跟爬蟲(chóng)聯(lián)動(dòng)。查看全部

　　mysql+phpsqlite+javawebserver(spring)：建議運行別的框架
　　文章實(shí)時(shí)采集數據清洗數據導入：mysql，oracle要導入mysql可以使用你所使用的etl工具比如spark?？梢詮木W(wǎng)上下載rstudio，導入rstudio，根據需要導入即可。更多精彩，請訪(fǎng)問(wèn)官網(wǎng)。ps:內含大量美圖。
　　mysql+phpsqlite+javawebserver(spring)
　　第一步：tomcat請求第二步：java處理第三步：web服務(wù)器接受請求
　　php跨mysql連接（建議用github開(kāi)源web實(shí)現）oracle服務(wù)器，
　　這邊我比較了一下別人的集中頁(yè)面發(fā)現出現卡頓了。所以我看了一下我的mysql,2.7一切正常，0.05也沒(méi)出現卡頓，但是0.7和0.8不正常，可能是因為某些語(yǔ)句有要優(yōu)化或者其他的，建議等我把問(wèn)題找出來(lái)看看有沒(méi)有解決辦法。
　　1:xmldescription要對應起來(lái)如，“產(chǎn)品首頁(yè)”||“企業(yè)搜索首頁(yè)”&&“tencent旗下網(wǎng)站首頁(yè)”2:&3:web服務(wù)器要正常運行，
　　運行web程序應該不需要java才會(huì )卡。建議運行別的框架，
　　第一個(gè)問(wèn)題很簡(jiǎn)單,樓上沒(méi)有說(shuō)不是tomcat嗎?如果你能拿到現成的tomcat那么用tomcat我覺(jué)得沒(méi)問(wèn)題,一般網(wǎng)站都會(huì )配jdk吧,你這個(gè)是內部比較私密的頁(yè)面也應該不會(huì )用到,那么就可以丟開(kāi)tomcat,直接讓代碼在瀏覽器執行。第二個(gè)問(wèn)題，題主想問(wèn)的其實(shí)不是性能,而是包容性和擴展性。我記得曾經(jīng)有段時(shí)間,說(shuō)可以用restful服務(wù)器來(lái)實(shí)現fullpage窗口的方法,甚至比servlet差遠了。我想說(shuō)的是,如果是orm的話(huà),擴展性的問(wèn)題將會(huì )非常嚴重。建議:。
　　1)先把框架理清楚,不一定非要用apache,可以asyncio+thrift,同時(shí)可以做的事情非常多,比如共享緩存(在網(wǎng)絡(luò )請求到達的時(shí)候進(jìn)行本地緩存)、圖片和視頻處理(服務(wù)器端看到的這個(gè)時(shí)候是這個(gè)地址)、定時(shí)觸發(fā)器(每隔一段時(shí)間執行某個(gè)命令)、數據抽取(存到本地緩存中)、不同用戶(hù)的一些本地鍵對鍵的引用等等。
　　2)好好學(xué)習一下tomcat的基礎知識,上面有一些很基礎的知識,在你公司里經(jīng)常用到的。
　　3)編程語(yǔ)言,盡量避免一些被淘汰的語(yǔ)言,畢竟java是oracle和谷歌的根基,不能出問(wèn)題就賴(lài)到某個(gè)語(yǔ)言身上。我目前發(fā)現一些java很久以前的框架,比如activemq(這兩年變化很大,畢竟新框架都用rmi調用,io也可以解決這個(gè)問(wèn)題),其實(shí)還是挺不錯的,例如:mina(異步分布式緩存系統)、workerman(高性能)、protobuf(數據傳輸算法)等等。也可以考慮用python,加上幾個(gè)不錯的數據庫庫直接跟爬蟲(chóng)聯(lián)動(dòng)。

文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 213 次瀏覽 ? 2021-05-24 03:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究
　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究，這有點(diǎn)類(lèi)似于你爬爬下一個(gè)網(wǎng)站的數據，查看最新文件后續在文章進(jìn)行工作一樣，但這是可以向導的方式對數據集進(jìn)行整理管理。也就是說(shuō)數據集其實(shí)已經(jīng)是研究人員擁有的數據集了，具體如何編寫(xiě)代碼進(jìn)行展示，是另一個(gè)實(shí)際工作的事情了。首先爬數據當然選擇爬爬網(wǎng)站或者爬蟲(chóng)，但我們又要實(shí)現什么功能呢？有的人可能會(huì )說(shuō)這個(gè)怎么可能？不就是爬爬就可以了嗎？實(shí)際上這些都是沒(méi)有代碼生成，沒(méi)有代碼生成當然也就沒(méi)有生成數據集。
　　因此我認為這里實(shí)現的功能大致有如下功能：【注冊登錄】實(shí)現一個(gè)注冊登錄的功能；【新媒體矩陣】實(shí)現一個(gè)新媒體矩陣功能；【文章相關(guān)字段判斷】實(shí)現文章中每個(gè)字段與字段的相關(guān)性【后續通過(guò)郵件通知】后續系統與郵件通知文章相關(guān)字段的生成與修改問(wèn)題來(lái)了，這些功能怎么實(shí)現呢？如果使用frozenbird。那么mydata.frozenbird.app必須定義和引入你自己定義的函數，其他的生成、搜索等可以使用到frozenbird中已經(jīng)定義好的函數，然后在服務(wù)器中定義配置來(lái)實(shí)現；如果使用python2的話(huà)，建議你找一個(gè)已經(jīng)定義好的或者你認為開(kāi)發(fā)過(guò)程中需要使用到的command，然后使用pythonapp進(jìn)行調用。
　　如果使用python3的話(huà)，pip3installpandas、pandas_datareader、pandas_tf等，如果你自己開(kāi)發(fā)相關(guān)框架，也可以自己根據需要進(jìn)行定義。查看全部

　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究
　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究，這有點(diǎn)類(lèi)似于你爬爬下一個(gè)網(wǎng)站的數據，查看最新文件后續在文章進(jìn)行工作一樣，但這是可以向導的方式對數據集進(jìn)行整理管理。也就是說(shuō)數據集其實(shí)已經(jīng)是研究人員擁有的數據集了，具體如何編寫(xiě)代碼進(jìn)行展示，是另一個(gè)實(shí)際工作的事情了。首先爬數據當然選擇爬爬網(wǎng)站或者爬蟲(chóng)，但我們又要實(shí)現什么功能呢？有的人可能會(huì )說(shuō)這個(gè)怎么可能？不就是爬爬就可以了嗎？實(shí)際上這些都是沒(méi)有代碼生成，沒(méi)有代碼生成當然也就沒(méi)有生成數據集。
　　因此我認為這里實(shí)現的功能大致有如下功能：【注冊登錄】實(shí)現一個(gè)注冊登錄的功能；【新媒體矩陣】實(shí)現一個(gè)新媒體矩陣功能；【文章相關(guān)字段判斷】實(shí)現文章中每個(gè)字段與字段的相關(guān)性【后續通過(guò)郵件通知】后續系統與郵件通知文章相關(guān)字段的生成與修改問(wèn)題來(lái)了，這些功能怎么實(shí)現呢？如果使用frozenbird。那么mydata.frozenbird.app必須定義和引入你自己定義的函數，其他的生成、搜索等可以使用到frozenbird中已經(jīng)定義好的函數，然后在服務(wù)器中定義配置來(lái)實(shí)現；如果使用python2的話(huà)，建議你找一個(gè)已經(jīng)定義好的或者你認為開(kāi)發(fā)過(guò)程中需要使用到的command，然后使用pythonapp進(jìn)行調用。
　　如果使用python3的話(huà)，pip3installpandas、pandas_datareader、pandas_tf等，如果你自己開(kāi)發(fā)相關(guān)框架，也可以自己根據需要進(jìn)行定義。

【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2021-05-03 20:12 ? 來(lái)自相關(guān)話(huà)題

　　【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明
　　項目說(shuō)明
　　
　　1、當用戶(hù)在瀏覽器中單擊產(chǎn)品以對產(chǎn)品進(jìn)行評分時(shí)，將調用產(chǎn)品服務(wù)的界面。
　　2、評分界面通過(guò)記錄器將用戶(hù)，產(chǎn)品，評分和其他信息輸出到文件中。
　　3、 Flume監視日志文件，并通過(guò)日志主題將日志信息發(fā)送到Kafka。
　　4、清潔服務(wù)接收從日志主題發(fā)送的消息，并通過(guò)關(guān)鍵字過(guò)濾掉有效信息，然后通過(guò)推薦主題將有效信息發(fā)送給Kafka。
　　5、推薦服務(wù)接收推薦者主題的消息，并在一系列處理（例如實(shí)時(shí)算法處理）之后將其推送給用戶(hù)。
　　工具安裝JDK安裝
　　JDK下載鏈接
　　下載jdk-8u281-linux-x6 4. tar.gz壓縮包，并將其解壓縮到hadoop用戶(hù)主目錄的jvm文件夾中
　　cd ~
mkdir jvm
tar -zxf jdk-8u281-linux-x64.tar.gz -C jvm
　　編輯環(huán)境變量：
　　vim ~/.bashrc
　　添加JAVA_HOME：
　　export JAVA_HOME=/home/hadoop/jvm/jdk1.8.0_281
export PATH=$JAVA_HOME/bin
　　使環(huán)境變量生效：
　　source ~/.bashrc
　　檢查Java版本：
　　java -version
　　檢查環(huán)境變量是否正確：
　　# 檢驗變量值
echo $JAVA_HOME
　　java -version
# 與直接執行 java -version 一樣
$JAVA_HOME/bin/java -version
　　Zookeeper安裝
　　Zookeeper下載地址：或。下載apache-zookeeper- 3. 6. 3-bin.tar.gz。
　　解壓縮文件：
　　tar -zxf apache-zookeeper-3.6.3-bin.tar.gz -C ./
　　重命名：
　　mv apache-zookeeper-3.6.3-bin zookeeper
　　輸入zookeeper文件以創(chuàng )建一個(gè)文件夾：
　　cd zookeeper
mkdir tmp
　　復制模板配置文件并修改：
　　cp ./conf/zoo-sample.cfg ./conf/zoo.cfg
vim ./conf/zoo.cfg
　　將dataDir的路徑更改為剛創(chuàng )建的tmp目錄的路徑：
　　
　　啟動(dòng)Zookeeper：
　　./bin/zkServer.sh start
　　
　　正在啟動(dòng)Zookeeper…STARTED，表示啟動(dòng)成功。
　　如果需要停止Zookeeper，可以使用stop命令將其停止：
　　./bin/zkServer.sh stop
　　Flume-ng安裝
　　通過(guò)wget下載水槽安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... ar.gz
　　解壓縮到主目錄：
　　tar -zxf apache-flume-1.9.0-bin.tar.gz -C ~
　　重命名：
　　mv apache-flume-1.9.0-bin flume
　　在水槽的conf目錄中創(chuàng )建log-kafka.properties，內容為：
　　agent.sources = exectail
agent.channels = memoryChannel
agent.sinks = kafkasink
# For each one of the sources, the type is defined
agent.sources.exectail.type = exec
# 下面這個(gè)路徑是需要收集日志的絕對路徑，改為自己的日志目錄
agent.sources.exectail.command = tail -f /home/hadoop/flume/log/agent.log
agent.sources.exectail.interceptors=i1
agent.sources.exectail.interceptors.i1.type=regex_filter
# 定義日志過(guò)濾前綴的正則
agent.sources.exectail.interceptors.i1.regex=.+PRODUCT_RATING_PREFIX.+
# The channel can be defined as follows.
agent.sources.exectail.channels = memoryChannel
# Each sink's type must be defined
agent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkasink.kafka.topic = log
agent.sinks.kafkasink.kafka.bootstrap.servers = localhost:9092
agent.sinks.kafkasink.kafka.producer.acks = 1
agent.sinks.kafkasink.kafka.flumeBatchSize = 20
#Specify the channel the sink should use
agent.sinks.kafkasink.channel = memoryChannel
# Each channel's type is defined.
agent.channels.memoryChannel.type = memory
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
agent.channels.memoryChannel.capacity = 10000
　　以上配置文件功能說(shuō)明：
　　使用tail -f /home/hadoop/flume/log/agent.log命令通過(guò)正則表達式監視文件中更改的內容。 + PRODUCT_RATING_PREFIX。+匹配的內容，并將匹配的結果發(fā)送到Kafka的日志主題中的本地主機：9092。
　　對于上述配置參數，通常需要了解源，通道和接收器。對于這三個(gè)部分之間的關(guān)??系，這位官員給了一張照片：
　　
　　Flume分布式系統中的核心角色是代理，而flume 采集系統是通過(guò)連接每個(gè)代理而形成的。每個(gè)代理都等效于一個(gè)數據傳遞者（封裝為Event對象），其中收錄三個(gè)組件：
　　來(lái)源
　　采集組件用于與數據源交互以獲取數據。
　　水槽
　　接收器組件，用于將數據傳輸到下一級代理或將數據傳輸到最終存儲系統。
　　頻道
　　傳輸通道組件，用于將數據從源傳輸到接收器。
　　進(jìn)入水槽目錄并執行啟動(dòng)命令：
　　cd ~/flume
./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger=INFO,console
　　Kafka安裝
　　通過(guò)wget下載安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... 0.tgz
　　解壓縮到主目錄：
　　tar -zxf kafka_2.12-2.8.0.tgz -C ~
　　重命名：
　　mv kafka_2.12-2.8.0.tgz kafka
　　進(jìn)入kafka目錄：
　　cd kafka
　　修改Kafka配置：
　　vim config/server.properties
　　listeners=PLAINTEXT://:9092
# 192.168.1.43為本機ip
advertised.listeners=PLAINTEXT://192.168.1.43:9092
zookeeper.connect=localhost:2181
　　啟動(dòng)kafka（啟動(dòng)Zookeeper后）：
　　bin/kafka-server-start.sh -daemon ./config/server.properties
　　如果您需要關(guān)閉Kafka，請執行：
　　bin/kafka-server-stop.sh
　　創(chuàng )建主題主題：
　　bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic recommender
　　在控制臺上發(fā)送一條消息：
　　bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender
　　輸入命令后，控制臺將顯示需要輸入的信息，此時(shí)輸入的信息將在按Enter鍵后發(fā)送到kafka。
　　
　　ctrl + c退出。
　　控制臺上的輸出消耗消息：
　　bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic recommender
　　您可以打開(kāi)一個(gè)在兩個(gè)終端中發(fā)送消息，而另一個(gè)在兩個(gè)終端中接收消息。
　　服務(wù)建設
　　Maven項目結構：
　　BigData
├── BusinessServer #商品服務(wù)
├── KafkaStreaming #清洗服務(wù)
└── StreamingRecommender #推薦服務(wù)
　　商品服務(wù)
　　BusinessServer（SpringBoot項目）
　　主要提供一個(gè)寧靜的界面，該界面用于將關(guān)鍵信息打印到控制臺，并將日志輸出配置為在水槽配置中指定的日志文件。
　　評分界面：
　　package cn.javayuli.businessserver.web;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
/**
* 評分controller
*
* @author 韓桂林
*/
@RestController
public class RatingController {
private static final Logger LOGGER = LoggerFactory.getLogger(RatingController.class);
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX";
/**
* 用戶(hù)對商品進(jìn)行評分
*
* @param user 用戶(hù)
* @param product 商品
* @param score 分數
* @return
*/
@GetMapping("/rate")
public String doRate(@RequestParam String user, @RequestParam String product, @RequestParam Double score) {
LOGGER.info(PRODUCT_RATING_PREFIX + ":" + user +"|"+ product +"|"+ score +"|"+ System.currentTimeMillis()/1000);
return "SUCCESS";
}
}
　　在application.properties中配置啟動(dòng)端口和log4j文件輸出路徑：
　　server.port=7001
logging.file.name=/home/hadoop/flume/log/agent.log
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -jar ****。jar運行該項目。
　　清潔服務(wù)
　　KafkaStreaming（非SpringBoot項目）
　　介紹與kafka-streams相關(guān)的軟件包：
　　

org.apache.kafka
kafka-streams
2.8.0

org.apache.kafka
kafka-clients
2.8.0

　　創(chuàng )建處理器：
　　package cn.javayuli.kafkastream.processor;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorContext;
/**
* 日志預處理
*
* @author hanguilin
*/
public class LogProcessor implements Processor {
private ProcessorContext context;
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX:";
@Override
public void init(ProcessorContext context) {
this.context = context;
}
@Override
public void process(byte[] key, byte[] value) {
String input = new String(value);
// 根據前綴過(guò)濾日志信息，提取后面的內容
if(input.contains(PRODUCT_RATING_PREFIX)){
System.out.println("product rating coming!!!!" + input);
input = input.split(PRODUCT_RATING_PREFIX)[1].trim();
context.forward("logProcessor".getBytes(), input.getBytes());
}
}
@Override
public void close() {
}
}
　　創(chuàng )建主要功能：
　　package cn.javayuli.kafkastream;
import cn.javayuli.kafkastream.processor.LogProcessor;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.Topology;
import java.util.Properties;
/**
* @author hanguilin
*/
public class KafkaStreamApp {
public static void main(String[] args) {
// kafka地址
String brokers = "192.168.1.43:9092";
// 定義輸入和輸出的topic
String from = "log";
String to = "recommender";
// 定義kafka streaming的配置
Properties settings = new Properties();
settings.put(StreamsConfig.APPLICATION_ID_CONFIG, "logFilter");
settings.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 拓撲建構器
StreamsBuilder builder = new StreamsBuilder();
Topology build = builder.build();
// 定義流處理的拓撲結構
build.addSource("SOURCE", from)
.addProcessor("PROCESS", () -> new LogProcessor(), "SOURCE")
.addSink("SINK", to, "PROCESS");
KafkaStreams streams = new KafkaStreams(build, settings);
streams.start();
}
}
　　將項目鍵入jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.kafkastream.KafkaStreamApp運行項目。
　　推薦服務(wù)
　　StreamingRecommender（非SpringBoot項目）
　　此處僅使用郵件，不進(jìn)行推薦計算。
　　主要功能：
　　package cn.javayuli.streamrecommender;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;
/**
* @author hanguilin
*/
public class ConsumerApp {
public static void main(String[] args){
Properties properties = new Properties();
properties.put("bootstrap.servers", "192.168.1.43:9092");
properties.put("group.id", "group-1");
properties.put("enable.auto.commit", "true");
properties.put("auto.commit.interval.ms", "1000");
properties.put("auto.offset.reset", "earliest");
properties.put("session.timeout.ms", "30000");
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
kafkaConsumer.subscribe(Arrays.asList("recommender"));
while (true) {
ConsumerRecords records = kafkaConsumer.poll(Duration.ofMillis(100));
for (ConsumerRecord record : records) {
System.out.printf("offset = %d, value = %s", record.offset(), record.value());
System.out.println();
}
}
}
}
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.streamrecommender.ConsumerApp運行該項目。
　　如果需要在非服務(wù)器上遠程測試程序，則需要打開(kāi)服務(wù)器的7001（BusinessServer）和9092（Kafka）端口。有關(guān)端口命令，請參閱文章“ CentOS7端口命令”。
　　數據模擬
　　發(fā)送評分請求：
　　
　　首先，產(chǎn)品服務(wù)將打印出日志：
　　
　　查看/home/hadoop/flume/log/agent.log
　　
　　如您所見(jiàn)，商品服務(wù)將日志附加到/home/hadoop/flume/log/agent.log文件。
　　這時(shí)，Flume檢測到文件內容已更改，并將其他內容發(fā)送到Kafka日志主題。
　　這時(shí)，清潔服務(wù)從日志主題中獲取收錄PRODUCT_RATING_PREFIX的日志信息，并將處理后的信息發(fā)送到推薦主題。
　?。ㄏ聢D顯示從日志中取出的數據，而不是已處理的數據）
　　
　　由于推薦服務(wù)訂閱了推薦者主題，因此使用了該消息。
　　
　　資源地址
　　只有關(guān)鍵代碼發(fā)布在文章中，請檢查git信息庫“推薦”中的所有代碼。查看全部

　　【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明
　　項目說(shuō)明
　　

　　1、當用戶(hù)在瀏覽器中單擊產(chǎn)品以對產(chǎn)品進(jìn)行評分時(shí)，將調用產(chǎn)品服務(wù)的界面。
　　2、評分界面通過(guò)記錄器將用戶(hù)，產(chǎn)品，評分和其他信息輸出到文件中。
　　3、 Flume監視日志文件，并通過(guò)日志主題將日志信息發(fā)送到Kafka。
　　4、清潔服務(wù)接收從日志主題發(fā)送的消息，并通過(guò)關(guān)鍵字過(guò)濾掉有效信息，然后通過(guò)推薦主題將有效信息發(fā)送給Kafka。
　　5、推薦服務(wù)接收推薦者主題的消息，并在一系列處理（例如實(shí)時(shí)算法處理）之后將其推送給用戶(hù)。
　　工具安裝JDK安裝
　　JDK下載鏈接
　　下載jdk-8u281-linux-x6 4. tar.gz壓縮包，并將其解壓縮到hadoop用戶(hù)主目錄的jvm文件夾中
　　cd ~
mkdir jvm
tar -zxf jdk-8u281-linux-x64.tar.gz -C jvm
　　編輯環(huán)境變量：
　　vim ~/.bashrc
　　添加JAVA_HOME：
　　export JAVA_HOME=/home/hadoop/jvm/jdk1.8.0_281
export PATH=$JAVA_HOME/bin
　　使環(huán)境變量生效：
　　source ~/.bashrc
　　檢查Java版本：
　　java -version
　　檢查環(huán)境變量是否正確：
　　# 檢驗變量值
echo $JAVA_HOME
　　java -version
# 與直接執行 java -version 一樣
$JAVA_HOME/bin/java -version
　　Zookeeper安裝
　　Zookeeper下載地址：或。下載apache-zookeeper- 3. 6. 3-bin.tar.gz。
　　解壓縮文件：
　　tar -zxf apache-zookeeper-3.6.3-bin.tar.gz -C ./
　　重命名：
　　mv apache-zookeeper-3.6.3-bin zookeeper
　　輸入zookeeper文件以創(chuàng )建一個(gè)文件夾：
　　cd zookeeper
mkdir tmp
　　復制模板配置文件并修改：
　　cp ./conf/zoo-sample.cfg ./conf/zoo.cfg
vim ./conf/zoo.cfg
　　將dataDir的路徑更改為剛創(chuàng )建的tmp目錄的路徑：
　　

　　啟動(dòng)Zookeeper：
　　./bin/zkServer.sh start
　　

　　正在啟動(dòng)Zookeeper…STARTED，表示啟動(dòng)成功。
　　如果需要停止Zookeeper，可以使用stop命令將其停止：
　　./bin/zkServer.sh stop
　　Flume-ng安裝
　　通過(guò)wget下載水槽安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... ar.gz
　　解壓縮到主目錄：
　　tar -zxf apache-flume-1.9.0-bin.tar.gz -C ~
　　重命名：
　　mv apache-flume-1.9.0-bin flume
　　在水槽的conf目錄中創(chuàng )建log-kafka.properties，內容為：
　　agent.sources = exectail
agent.channels = memoryChannel
agent.sinks = kafkasink
# For each one of the sources, the type is defined
agent.sources.exectail.type = exec
# 下面這個(gè)路徑是需要收集日志的絕對路徑，改為自己的日志目錄
agent.sources.exectail.command = tail -f /home/hadoop/flume/log/agent.log
agent.sources.exectail.interceptors=i1
agent.sources.exectail.interceptors.i1.type=regex_filter
# 定義日志過(guò)濾前綴的正則
agent.sources.exectail.interceptors.i1.regex=.+PRODUCT_RATING_PREFIX.+
# The channel can be defined as follows.
agent.sources.exectail.channels = memoryChannel
# Each sink's type must be defined
agent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkasink.kafka.topic = log
agent.sinks.kafkasink.kafka.bootstrap.servers = localhost:9092
agent.sinks.kafkasink.kafka.producer.acks = 1
agent.sinks.kafkasink.kafka.flumeBatchSize = 20
#Specify the channel the sink should use
agent.sinks.kafkasink.channel = memoryChannel
# Each channel's type is defined.
agent.channels.memoryChannel.type = memory
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
agent.channels.memoryChannel.capacity = 10000
　　以上配置文件功能說(shuō)明：
　　使用tail -f /home/hadoop/flume/log/agent.log命令通過(guò)正則表達式監視文件中更改的內容。 + PRODUCT_RATING_PREFIX。+匹配的內容，并將匹配的結果發(fā)送到Kafka的日志主題中的本地主機：9092。
　　對于上述配置參數，通常需要了解源，通道和接收器。對于這三個(gè)部分之間的關(guān)??系，這位官員給了一張照片：
　　

　　Flume分布式系統中的核心角色是代理，而flume 采集系統是通過(guò)連接每個(gè)代理而形成的。每個(gè)代理都等效于一個(gè)數據傳遞者（封裝為Event對象），其中收錄三個(gè)組件：
　　來(lái)源
　　采集組件用于與數據源交互以獲取數據。
　　水槽
　　接收器組件，用于將數據傳輸到下一級代理或將數據傳輸到最終存儲系統。
　　頻道
　　傳輸通道組件，用于將數據從源傳輸到接收器。
　　進(jìn)入水槽目錄并執行啟動(dòng)命令：
　　cd ~/flume
./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger=INFO,console
　　Kafka安裝
　　通過(guò)wget下載安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... 0.tgz
　　解壓縮到主目錄：
　　tar -zxf kafka_2.12-2.8.0.tgz -C ~
　　重命名：
　　mv kafka_2.12-2.8.0.tgz kafka
　　進(jìn)入kafka目錄：
　　cd kafka
　　修改Kafka配置：
　　vim config/server.properties
　　listeners=PLAINTEXT://:9092
# 192.168.1.43為本機ip
advertised.listeners=PLAINTEXT://192.168.1.43:9092
zookeeper.connect=localhost:2181
　　啟動(dòng)kafka（啟動(dòng)Zookeeper后）：
　　bin/kafka-server-start.sh -daemon ./config/server.properties
　　如果您需要關(guān)閉Kafka，請執行：
　　bin/kafka-server-stop.sh
　　創(chuàng )建主題主題：
　　bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic recommender
　　在控制臺上發(fā)送一條消息：
　　bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender
　　輸入命令后，控制臺將顯示需要輸入的信息，此時(shí)輸入的信息將在按Enter鍵后發(fā)送到kafka。
　　

　　ctrl + c退出。
　　控制臺上的輸出消耗消息：
　　bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic recommender
　　您可以打開(kāi)一個(gè)在兩個(gè)終端中發(fā)送消息，而另一個(gè)在兩個(gè)終端中接收消息。
　　服務(wù)建設
　　Maven項目結構：
　　BigData
├── BusinessServer #商品服務(wù)
├── KafkaStreaming #清洗服務(wù)
└── StreamingRecommender #推薦服務(wù)
　　商品服務(wù)
　　BusinessServer（SpringBoot項目）
　　主要提供一個(gè)寧靜的界面，該界面用于將關(guān)鍵信息打印到控制臺，并將日志輸出配置為在水槽配置中指定的日志文件。
　　評分界面：
　　package cn.javayuli.businessserver.web;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
/**
* 評分controller
*
* @author 韓桂林
*/
@RestController
public class RatingController {
private static final Logger LOGGER = LoggerFactory.getLogger(RatingController.class);
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX";
/**
* 用戶(hù)對商品進(jìn)行評分
*
* @param user 用戶(hù)
* @param product 商品
* @param score 分數
* @return
*/
@GetMapping("/rate")
public String doRate(@RequestParam String user, @RequestParam String product, @RequestParam Double score) {
LOGGER.info(PRODUCT_RATING_PREFIX + ":" + user +"|"+ product +"|"+ score +"|"+ System.currentTimeMillis()/1000);
return "SUCCESS";
}
}
　　在application.properties中配置啟動(dòng)端口和log4j文件輸出路徑：
　　server.port=7001
logging.file.name=/home/hadoop/flume/log/agent.log
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -jar ****。jar運行該項目。
　　清潔服務(wù)
　　KafkaStreaming（非SpringBoot項目）
　　介紹與kafka-streams相關(guān)的軟件包：
　　

org.apache.kafka
kafka-streams
2.8.0

org.apache.kafka
kafka-clients
2.8.0

　　創(chuàng )建處理器：
　　package cn.javayuli.kafkastream.processor;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorContext;
/**
* 日志預處理
*
* @author hanguilin
*/
public class LogProcessor implements Processor {
private ProcessorContext context;
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX:";
@Override
public void init(ProcessorContext context) {
this.context = context;
}
@Override
public void process(byte[] key, byte[] value) {
String input = new String(value);
// 根據前綴過(guò)濾日志信息，提取后面的內容
if(input.contains(PRODUCT_RATING_PREFIX)){
System.out.println("product rating coming!!!!" + input);
input = input.split(PRODUCT_RATING_PREFIX)[1].trim();
context.forward("logProcessor".getBytes(), input.getBytes());
}
}
@Override
public void close() {
}
}
　　創(chuàng )建主要功能：
　　package cn.javayuli.kafkastream;
import cn.javayuli.kafkastream.processor.LogProcessor;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.Topology;
import java.util.Properties;
/**
* @author hanguilin
*/
public class KafkaStreamApp {
public static void main(String[] args) {
// kafka地址
String brokers = "192.168.1.43:9092";
// 定義輸入和輸出的topic
String from = "log";
String to = "recommender";
// 定義kafka streaming的配置
Properties settings = new Properties();
settings.put(StreamsConfig.APPLICATION_ID_CONFIG, "logFilter");
settings.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 拓撲建構器
StreamsBuilder builder = new StreamsBuilder();
Topology build = builder.build();
// 定義流處理的拓撲結構
build.addSource("SOURCE", from)
.addProcessor("PROCESS", () -> new LogProcessor(), "SOURCE")
.addSink("SINK", to, "PROCESS");
KafkaStreams streams = new KafkaStreams(build, settings);
streams.start();
}
}
　　將項目鍵入jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.kafkastream.KafkaStreamApp運行項目。
　　推薦服務(wù)
　　StreamingRecommender（非SpringBoot項目）
　　此處僅使用郵件，不進(jìn)行推薦計算。
　　主要功能：
　　package cn.javayuli.streamrecommender;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;
/**
* @author hanguilin
*/
public class ConsumerApp {
public static void main(String[] args){
Properties properties = new Properties();
properties.put("bootstrap.servers", "192.168.1.43:9092");
properties.put("group.id", "group-1");
properties.put("enable.auto.commit", "true");
properties.put("auto.commit.interval.ms", "1000");
properties.put("auto.offset.reset", "earliest");
properties.put("session.timeout.ms", "30000");
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
kafkaConsumer.subscribe(Arrays.asList("recommender"));
while (true) {
ConsumerRecords records = kafkaConsumer.poll(Duration.ofMillis(100));
for (ConsumerRecord record : records) {
System.out.printf("offset = %d, value = %s", record.offset(), record.value());
System.out.println();
}
}
}
}
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.streamrecommender.ConsumerApp運行該項目。
　　如果需要在非服務(wù)器上遠程測試程序，則需要打開(kāi)服務(wù)器的7001（BusinessServer）和9092（Kafka）端口。有關(guān)端口命令，請參閱文章“ CentOS7端口命令”。
　　數據模擬
　　發(fā)送評分請求：
　　

　　首先，產(chǎn)品服務(wù)將打印出日志：
　　

　　查看/home/hadoop/flume/log/agent.log
　　

　　如您所見(jiàn)，商品服務(wù)將日志附加到/home/hadoop/flume/log/agent.log文件。
　　這時(shí)，Flume檢測到文件內容已更改，并將其他內容發(fā)送到Kafka日志主題。
　　這時(shí)，清潔服務(wù)從日志主題中獲取收錄PRODUCT_RATING_PREFIX的日志信息，并將處理后的信息發(fā)送到推薦主題。
　?。ㄏ聢D顯示從日志中取出的數據，而不是已處理的數據）
　　

　　由于推薦服務(wù)訂閱了推薦者主題，因此使用了該消息。
　　

　　資源地址
　　只有關(guān)鍵代碼發(fā)布在文章中，請檢查git信息庫“推薦”中的所有代碼。

amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2021-05-02 04:08 ? 來(lái)自相關(guān)話(huà)題

　　amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署
　　文章實(shí)時(shí)采集：server是本地已有采集，你不需要外接任何硬件。demo和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署。一臺主機一臺，需要網(wǎng)絡(luò )支持以太網(wǎng)，網(wǎng)線(xiàn)，二根或者三根天線(xiàn)（請考慮并發(fā)情況下線(xiàn)路供給增加的問(wèn)題），實(shí)現單機云服務(wù)器及網(wǎng)絡(luò )無(wú)限流量數據采集。實(shí)時(shí)定制化采集部署：web采集需要python+web框架+模擬器+數據庫查詢(xún)服務(wù)（wordpress，mongodb等常見(jiàn)網(wǎng)站或者php、java后端框架）本地nodejs環(huán)境，實(shí)現終端nodejs應用部署。
　　推薦選擇全雙工模式，即機器采集和服務(wù)器解析同時(shí)進(jìn)行。html解析部署即云端，后續epic、imagej可以隨時(shí)切換input到你需要的解析方式。本地c#、java、php的開(kāi)發(fā)環(huán)境，與epic、imagej等服務(wù)集成。demo：本地開(kāi)發(fā)后，接入epic、imagej等服務(wù)，開(kāi)發(fā)出中文爬蟲(chóng)，實(shí)時(shí)后端都會(huì )自動(dòng)解析我國地圖。
　　本地結合wordpress、mongodb等server，開(kāi)發(fā)爬蟲(chóng)爬取epic、mongodb數據，返回中文頁(yè)面。實(shí)時(shí)中文頁(yè)面?？磾祿?，大數據采集或許更需要用上storm、emr等技術(shù)，采集效率更高，不依賴(lài)本地采集技術(shù)，可解決上述問(wèn)題。實(shí)際代碼部署nodejs服務(wù)端---f12瀏覽器開(kāi)發(fā)者工具，搜索toolscriptcode(dom.script)，進(jìn)入下圖畫(huà)紅線(xiàn)的地方，點(diǎn)擊download下載對應runtime版本(對應到你的nodejs程序本身)的代碼。
　　domapi比pythonpostmessage方便很多，可以百度一下，在筆者服務(wù)器上運行已經(jīng)沒(méi)有問(wèn)題。拿到postmessage后，直接用excel自動(dòng)生成字符串，github代碼在這里。demo中是要先要有下載中間件生成下載鏈接給爬蟲(chóng)-然后，接入storm集群，爬蟲(chóng)自動(dòng)啟動(dòng)，本地能訪(fǎng)問(wèn)到gitlab、server自動(dòng)導入生成好的數據庫查詢(xún)url給爬蟲(chóng)去查詢(xún)數據。--。查看全部

　　amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署
　　文章實(shí)時(shí)采集：server是本地已有采集，你不需要外接任何硬件。demo和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署。一臺主機一臺，需要網(wǎng)絡(luò )支持以太網(wǎng)，網(wǎng)線(xiàn)，二根或者三根天線(xiàn)（請考慮并發(fā)情況下線(xiàn)路供給增加的問(wèn)題），實(shí)現單機云服務(wù)器及網(wǎng)絡(luò )無(wú)限流量數據采集。實(shí)時(shí)定制化采集部署：web采集需要python+web框架+模擬器+數據庫查詢(xún)服務(wù)（wordpress，mongodb等常見(jiàn)網(wǎng)站或者php、java后端框架）本地nodejs環(huán)境，實(shí)現終端nodejs應用部署。
　　推薦選擇全雙工模式，即機器采集和服務(wù)器解析同時(shí)進(jìn)行。html解析部署即云端，后續epic、imagej可以隨時(shí)切換input到你需要的解析方式。本地c#、java、php的開(kāi)發(fā)環(huán)境，與epic、imagej等服務(wù)集成。demo：本地開(kāi)發(fā)后，接入epic、imagej等服務(wù)，開(kāi)發(fā)出中文爬蟲(chóng)，實(shí)時(shí)后端都會(huì )自動(dòng)解析我國地圖。
　　本地結合wordpress、mongodb等server，開(kāi)發(fā)爬蟲(chóng)爬取epic、mongodb數據，返回中文頁(yè)面。實(shí)時(shí)中文頁(yè)面?？磾祿?，大數據采集或許更需要用上storm、emr等技術(shù)，采集效率更高，不依賴(lài)本地采集技術(shù)，可解決上述問(wèn)題。實(shí)際代碼部署nodejs服務(wù)端---f12瀏覽器開(kāi)發(fā)者工具，搜索toolscriptcode(dom.script)，進(jìn)入下圖畫(huà)紅線(xiàn)的地方，點(diǎn)擊download下載對應runtime版本(對應到你的nodejs程序本身)的代碼。
　　domapi比pythonpostmessage方便很多，可以百度一下，在筆者服務(wù)器上運行已經(jīng)沒(méi)有問(wèn)題。拿到postmessage后，直接用excel自動(dòng)生成字符串，github代碼在這里。demo中是要先要有下載中間件生成下載鏈接給爬蟲(chóng)-然后，接入storm集群，爬蟲(chóng)自動(dòng)啟動(dòng)，本地能訪(fǎng)問(wèn)到gitlab、server自動(dòng)導入生成好的數據庫查詢(xún)url給爬蟲(chóng)去查詢(xún)數據。--。

與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2021-04-11 00:03 ? 來(lái)自相關(guān)話(huà)題

　　與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的
　　文章實(shí)時(shí)采集系統，跟第三方大廠(chǎng)商無(wú)異，畢竟他們量大，后臺基本有絕對的優(yōu)勢。畢竟無(wú)論是sdk還是api，大廠(chǎng)服務(wù)商基本做得比較成熟，有那么些清晰的門(mén)道可以一步一步來(lái)。要問(wèn)與dji比誰(shuí)更牛逼，我覺(jué)得dji更加牛逼，畢竟航拍業(yè)內無(wú)人能比，特別是機位寬廣，最牛逼的航拍技術(shù)不是吹的！airquery可以幫你將來(lái)源數據實(shí)時(shí)采集回測交易分析，是航拍類(lèi)依托內外采集數據優(yōu)勢走到今天的競爭者，雙方共同點(diǎn)在于都是行業(yè)領(lǐng)導者。
　　相比airquery，f5一直是低頭一族，高傲的拿著(zhù)中小團隊的訂單，但話(huà)說(shuō)回來(lái)，國內目前還沒(méi)有哪個(gè)公司把量化理念推廣到飛機上，普及量化策略，相信他們是負責任的公司，以后很有希望做的更好。利益相關(guān)：dji某前員工。
　　我本身專(zhuān)注于航拍，所以對這個(gè)不是特別了解，不過(guò)如果你對airquery感興趣，可以看一下airquery的新聞，國外部分都在談這個(gè)，
　　你們看看吧,不感興趣不用看了,dji大而全,走的大而全的路線(xiàn);無(wú)人機數據采集,無(wú)人機發(fā)動(dòng)機,無(wú)人機起落架飛行數據數據采集與打包發(fā)布,無(wú)人機數據輸出,無(wú)人機出口.看上去好看,做的出名,牛逼,dji所向披靡.
　　第一次回答問(wèn)題，答得不好請見(jiàn)諒首先要說(shuō)一下市場(chǎng)，airquery應該比dji大，也比dji那個(gè)藍色款要大。其次就我這種剛畢業(yè)的菜鳥(niǎo)來(lái)說(shuō)，這個(gè)就是個(gè)便宜的紅米數據采集器，基本能滿(mǎn)足我這種輕度用戶(hù)的需求了，當然目前這個(gè)系統已經(jīng)更新迭代了，比如左右發(fā)動(dòng)機圖形識別，現在就很不錯了，能采集單個(gè)機型了。不過(guò)如果說(shuō)理想狀態(tài)下希望能夠高效快速的完成數據采集，我覺(jué)得它還是個(gè)不錯的選擇，但如果像我一樣沒(méi)有采集需求，只是需要便宜采集，還是沒(méi)有必要買(mǎi)這個(gè)的，畢竟是便宜系統，像是高質(zhì)量的航拍工作站，配上航拍數據采集工具箱或者航拍數據傳輸工具箱之類(lèi)的，或者wds啥的。
　　對于像我們這樣有飛行任務(wù)的大拿，這個(gè)就不合適了，我在嘗試用ppkm120來(lái)采集一個(gè)南航的整機,然后南航的運控室想要用它們的航拍數據,需要從境外空域抽取數據，費時(shí)費力費錢(qián),而且飛行很貴，況且就目前的新聞講dji的運控室已經(jīng)研發(fā)成熟了，現在任務(wù)緊急又沒(méi)空搞其他飛機的，還是等國內工程機再說(shuō)，大不了我用臺灣的惠通航空的飛機,成本也不貴。
　　就目前來(lái)說(shuō)，我并不怎么看好airquery的，其實(shí)它的邏輯并不完善，采集過(guò)程沒(méi)有完整的機制，不能加機載，很難產(chǎn)生數據溢出，也不能到云端來(lái)管理數據。數據理想狀態(tài)下來(lái)說(shuō)是可以量化分析的，但這理想狀態(tài)下是不成立的，或者說(shuō)就是扯淡，它從采集到處理采集機制不完善。查看全部

　　與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的
　　文章實(shí)時(shí)采集系統，跟第三方大廠(chǎng)商無(wú)異，畢竟他們量大，后臺基本有絕對的優(yōu)勢。畢竟無(wú)論是sdk還是api，大廠(chǎng)服務(wù)商基本做得比較成熟，有那么些清晰的門(mén)道可以一步一步來(lái)。要問(wèn)與dji比誰(shuí)更牛逼，我覺(jué)得dji更加牛逼，畢竟航拍業(yè)內無(wú)人能比，特別是機位寬廣，最牛逼的航拍技術(shù)不是吹的！airquery可以幫你將來(lái)源數據實(shí)時(shí)采集回測交易分析，是航拍類(lèi)依托內外采集數據優(yōu)勢走到今天的競爭者，雙方共同點(diǎn)在于都是行業(yè)領(lǐng)導者。
　　相比airquery，f5一直是低頭一族，高傲的拿著(zhù)中小團隊的訂單，但話(huà)說(shuō)回來(lái)，國內目前還沒(méi)有哪個(gè)公司把量化理念推廣到飛機上，普及量化策略，相信他們是負責任的公司，以后很有希望做的更好。利益相關(guān)：dji某前員工。
　　我本身專(zhuān)注于航拍，所以對這個(gè)不是特別了解，不過(guò)如果你對airquery感興趣，可以看一下airquery的新聞，國外部分都在談這個(gè)，
　　你們看看吧,不感興趣不用看了,dji大而全,走的大而全的路線(xiàn);無(wú)人機數據采集,無(wú)人機發(fā)動(dòng)機,無(wú)人機起落架飛行數據數據采集與打包發(fā)布,無(wú)人機數據輸出,無(wú)人機出口.看上去好看,做的出名,牛逼,dji所向披靡.
　　第一次回答問(wèn)題，答得不好請見(jiàn)諒首先要說(shuō)一下市場(chǎng)，airquery應該比dji大，也比dji那個(gè)藍色款要大。其次就我這種剛畢業(yè)的菜鳥(niǎo)來(lái)說(shuō)，這個(gè)就是個(gè)便宜的紅米數據采集器，基本能滿(mǎn)足我這種輕度用戶(hù)的需求了，當然目前這個(gè)系統已經(jīng)更新迭代了，比如左右發(fā)動(dòng)機圖形識別，現在就很不錯了，能采集單個(gè)機型了。不過(guò)如果說(shuō)理想狀態(tài)下希望能夠高效快速的完成數據采集，我覺(jué)得它還是個(gè)不錯的選擇，但如果像我一樣沒(méi)有采集需求，只是需要便宜采集，還是沒(méi)有必要買(mǎi)這個(gè)的，畢竟是便宜系統，像是高質(zhì)量的航拍工作站，配上航拍數據采集工具箱或者航拍數據傳輸工具箱之類(lèi)的，或者wds啥的。
　　對于像我們這樣有飛行任務(wù)的大拿，這個(gè)就不合適了，我在嘗試用ppkm120來(lái)采集一個(gè)南航的整機,然后南航的運控室想要用它們的航拍數據,需要從境外空域抽取數據，費時(shí)費力費錢(qián),而且飛行很貴，況且就目前的新聞講dji的運控室已經(jīng)研發(fā)成熟了，現在任務(wù)緊急又沒(méi)空搞其他飛機的，還是等國內工程機再說(shuō)，大不了我用臺灣的惠通航空的飛機,成本也不貴。
　　就目前來(lái)說(shuō)，我并不怎么看好airquery的，其實(shí)它的邏輯并不完善，采集過(guò)程沒(méi)有完整的機制，不能加機載，很難產(chǎn)生數據溢出，也不能到云端來(lái)管理數據。數據理想狀態(tài)下來(lái)說(shuō)是可以量化分析的，但這理想狀態(tài)下是不成立的，或者說(shuō)就是扯淡，它從采集到處理采集機制不完善。

2.框架實(shí)時(shí)采集處理方案，Streaming處理

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2021-08-15 21:23 ? 來(lái)自相關(guān)話(huà)題

　　2.框架實(shí)時(shí)采集處理方案，Streaming處理
　　1.Background
　　在實(shí)際生產(chǎn)中，我們經(jīng)常會(huì )遇到像kafka這樣的流式數據，而原創(chuàng )數據并不是我們想要的，需要通過(guò)一定的邏輯處理轉換成我們需要的數據。針對這種需求，本文采用NiFi+Spark Streaming技術(shù)方案設計了一種通用的實(shí)時(shí)采集處理各種外部數據源的方法。
　　2.Framework
　　實(shí)時(shí)采集處理方案由兩部分組成：數據采集和流處理。數據采集來(lái)自NiFi中的任務(wù)流采集外部數據源，數據寫(xiě)入指定端口。在流式處理中，Spark Streaming從NiFi中的指定端口讀取數據，進(jìn)行相關(guān)的數據轉換，然后寫(xiě)入Kafka。整個(gè)流式采集處理框架如下：
　　流媒體框架
　　3.數據采集
　　NiFi 是一個(gè)易于使用、功能強大且可靠的數據提取、數據處理和分發(fā)系統。 NiFi 專(zhuān)為數據流而設計。支持指標圖的高度可配置的數據路由、轉換和系統中介邏輯，支持從多種數據源動(dòng)態(tài)拉取數據。它由 NSA 開(kāi)源，是頂級 Apache 項目之一。詳情請見(jiàn)：。
　　在NiFi中，會(huì )根據不同的數據源創(chuàng )建相應的模板，然后通過(guò)模板部署任務(wù)流。任務(wù)流將采集data 源數據，然后寫(xiě)入指定端口。對于不同的數據源，數據采集的方法是不同的。比如數據庫類(lèi)型的數據源需要對采集使用記錄水位和增量拉取的方法。為了方便后續的數據轉換，這里將數據統一轉換為csv格式。比如mongodb的json數據會(huì )根據字段展開(kāi)到第一層，對象值會(huì )被序列化成字符串。
　　最簡(jiǎn)單的任務(wù)流程如下：
　　任務(wù)流程
　　GetFile本身讀取的文件是帶有標題的csv格式，如下圖：
　　id,name,age
1000,name1,20
1001,name2,21
1002,name3,22
　　UpdateAttribute 將設置目標字段名稱(chēng)、類(lèi)型和轉換規則，如下所示：
　　tid|string|.select(df("*"), df("id").cast("string").as("tid"))
tname|string|.select(df("*"), df("name").cast("string").as("tname"))
tage|string|.select(df("*"), df("age").cast("int").as("tage"))
　　4.流處理
　　Spark Streaming 是一個(gè)基于 Spark 的實(shí)時(shí)計算框架。它是 Spark Core API 的擴展?？蓪?shí)現流式數據的實(shí)時(shí)處理，具有良好的可擴展性、高吞吐量和容錯性。
　　Spark Streaming 連接 NiFi 數據并執行流式處理步驟：
　　1.初始化上下文
　　final SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster(sparkMaster);
JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, new Duration(1000L));
　　2.連接nifi中指定的輸出端口
　　SiteToSiteClientConfig config = new SiteToSiteClient.Builder().url(nifiUrl).portName(nifiPort).buildConfig();
final JavaReceiverInputDStream packetStream = ssc.receiverStream(new NiFiReceiver(config, StorageLevel.MEMORY_AND_DISK()));
　　3.讀取端口上的流數據和屬性
　　JavaDStream ds = packetStream.map(new Function() {
@Override
public NifiFeed call(NiFiDataPacket dataPacket) throws Exception {
return new NifiFeed(new String(dataPacket.getContent()), dataPacket.getAttributes());
}
});
　　NifiFeed 是一種用于存儲數據和屬性的自定義數據結構。
　　4.數據轉換
　　ds.foreachRDD(new VoidFunction() {
@Override
public void call(JavaRDD rdd) throws Exception {
rdd.foreachPartition(new VoidFunction() {
@Override
public void call(Iterator iterator) throws Exception {
try {
while (iterator.hasNext()) {
//TODO:執行數據轉換
}
} catch (Exception e) {
//TODO:異常處理
}
}
});
}
});
　　數據轉換需要動(dòng)態(tài)執行屬性中的代碼。這里使用jexl開(kāi)源庫動(dòng)態(tài)執行java代碼。詳情請見(jiàn)：。
　　5.啟動(dòng)服務(wù)
　　ssc.start();
ssc.awaitTermination();
　　5.Summary
　　本方案使用NiFi處理采集數據，然后通過(guò)Spark Streaming流引擎，將采集數據按照規定進(jìn)行轉換，生成新數據發(fā)送到Kafka系統進(jìn)行后續服務(wù)或處理，如Kylin Streaming模型構建。查看全部

　　2.框架實(shí)時(shí)采集處理方案，Streaming處理
　　1.Background
　　在實(shí)際生產(chǎn)中，我們經(jīng)常會(huì )遇到像kafka這樣的流式數據，而原創(chuàng )數據并不是我們想要的，需要通過(guò)一定的邏輯處理轉換成我們需要的數據。針對這種需求，本文采用NiFi+Spark Streaming技術(shù)方案設計了一種通用的實(shí)時(shí)采集處理各種外部數據源的方法。
　　2.Framework
　　實(shí)時(shí)采集處理方案由兩部分組成：數據采集和流處理。數據采集來(lái)自NiFi中的任務(wù)流采集外部數據源，數據寫(xiě)入指定端口。在流式處理中，Spark Streaming從NiFi中的指定端口讀取數據，進(jìn)行相關(guān)的數據轉換，然后寫(xiě)入Kafka。整個(gè)流式采集處理框架如下：
　　流媒體框架
　　3.數據采集
　　NiFi 是一個(gè)易于使用、功能強大且可靠的數據提取、數據處理和分發(fā)系統。 NiFi 專(zhuān)為數據流而設計。支持指標圖的高度可配置的數據路由、轉換和系統中介邏輯，支持從多種數據源動(dòng)態(tài)拉取數據。它由 NSA 開(kāi)源，是頂級 Apache 項目之一。詳情請見(jiàn)：。
　　在NiFi中，會(huì )根據不同的數據源創(chuàng )建相應的模板，然后通過(guò)模板部署任務(wù)流。任務(wù)流將采集data 源數據，然后寫(xiě)入指定端口。對于不同的數據源，數據采集的方法是不同的。比如數據庫類(lèi)型的數據源需要對采集使用記錄水位和增量拉取的方法。為了方便后續的數據轉換，這里將數據統一轉換為csv格式。比如mongodb的json數據會(huì )根據字段展開(kāi)到第一層，對象值會(huì )被序列化成字符串。
　　最簡(jiǎn)單的任務(wù)流程如下：
　　任務(wù)流程
　　GetFile本身讀取的文件是帶有標題的csv格式，如下圖：
　　id,name,age
1000,name1,20
1001,name2,21
1002,name3,22
　　UpdateAttribute 將設置目標字段名稱(chēng)、類(lèi)型和轉換規則，如下所示：
　　tid|string|.select(df("*"), df("id").cast("string").as("tid"))
tname|string|.select(df("*"), df("name").cast("string").as("tname"))
tage|string|.select(df("*"), df("age").cast("int").as("tage"))
　　4.流處理
　　Spark Streaming 是一個(gè)基于 Spark 的實(shí)時(shí)計算框架。它是 Spark Core API 的擴展?？蓪?shí)現流式數據的實(shí)時(shí)處理，具有良好的可擴展性、高吞吐量和容錯性。
　　Spark Streaming 連接 NiFi 數據并執行流式處理步驟：
　　1.初始化上下文
　　final SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster(sparkMaster);
JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, new Duration(1000L));
　　2.連接nifi中指定的輸出端口
　　SiteToSiteClientConfig config = new SiteToSiteClient.Builder().url(nifiUrl).portName(nifiPort).buildConfig();
final JavaReceiverInputDStream packetStream = ssc.receiverStream(new NiFiReceiver(config, StorageLevel.MEMORY_AND_DISK()));
　　3.讀取端口上的流數據和屬性
　　JavaDStream ds = packetStream.map(new Function() {
@Override
public NifiFeed call(NiFiDataPacket dataPacket) throws Exception {
return new NifiFeed(new String(dataPacket.getContent()), dataPacket.getAttributes());
}
});
　　NifiFeed 是一種用于存儲數據和屬性的自定義數據結構。
　　4.數據轉換
　　ds.foreachRDD(new VoidFunction() {
@Override
public void call(JavaRDD rdd) throws Exception {
rdd.foreachPartition(new VoidFunction() {
@Override
public void call(Iterator iterator) throws Exception {
try {
while (iterator.hasNext()) {
//TODO:執行數據轉換
}
} catch (Exception e) {
//TODO:異常處理
}
}
});
}
});
　　數據轉換需要動(dòng)態(tài)執行屬性中的代碼。這里使用jexl開(kāi)源庫動(dòng)態(tài)執行java代碼。詳情請見(jiàn)：。
　　5.啟動(dòng)服務(wù)
　　ssc.start();
ssc.awaitTermination();
　　5.Summary
　　本方案使用NiFi處理采集數據，然后通過(guò)Spark Streaming流引擎，將采集數據按照規定進(jìn)行轉換，生成新數據發(fā)送到Kafka系統進(jìn)行后續服務(wù)或處理，如Kylin Streaming模型構建。

文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2021-08-13 18:06 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集
　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集，有相關(guān)項目可以私信我。
　　目前主要針對web在做，發(fā)展形勢不錯，市場(chǎng)大，需求多，在做得技術(shù)也很多?；ヂ?lián)網(wǎng)獲取信息首先網(wǎng)上很多信息是空的，需要進(jìn)行發(fā)現，然后推送給用戶(hù)看，需要定向和采集。
　　談一下我個(gè)人了解到的目前主要有：
　　1）javascript
　　2）文本處理基本上你懂點(diǎn)javascript就行，這個(gè)很多需求是給不懂的團隊使用，當然javascript處理網(wǎng)頁(yè)中文本信息還是非常方便，
　　3）圖像處理的很多公司都做出有有像素級別的提取
　　4）定制化這一塊在各個(gè)項目中都可以看到，
　　5）性能這塊內存機制不同速度上會(huì )有相應的影響，
　　6）采集質(zhì)量（bloomfilter-webeventgrabber）大家在使用某app的某個(gè)公眾號后臺很多公眾號做了一些優(yōu)化，
　　作為廣告公司實(shí)習生，
　　1）有朋友分享過(guò)，阿里的猴子采集器采集方法在google上有結果，所以大家可以試試。
　　2）手工分詞，這個(gè)速度明顯慢，還容易出錯。
　　3）由于網(wǎng)頁(yè)不可避免地不具有唯一性，如果爬取某些站點(diǎn)中使用ip訪(fǎng)問(wèn)網(wǎng)頁(yè)的ip不唯一（有的域名是指向多個(gè)網(wǎng)站的），則蜘蛛有可能訪(fǎng)問(wèn)其他網(wǎng)站的ip。
　　4）爬蟲(chóng)時(shí)間不宜過(guò)長(cháng)，防止頻繁發(fā)起網(wǎng)絡(luò )請求，或者重定向，因為爬蟲(chóng)內存過(guò)于飽和。
　　5）爬蟲(chóng)最終會(huì )并發(fā)請求數超過(guò)系統底線(xiàn)，爬蟲(chóng)根本沒(méi)法從目標站點(diǎn)中獲取信息，無(wú)法達到爬取準確率90%的要求。
　　6）除了基本的解析和去重等采集技術(shù)外，大量數據需要進(jìn)行分庫分表，可以采用分段爬蟲(chóng)實(shí)現。
　　7）我了解到的，即使是分庫分表，很多大網(wǎng)站對于重定向比較敏感，往往需要重定向得比較久，如果電腦配置不太高可能會(huì )被卡在某個(gè)頁(yè)面上；比如有個(gè)網(wǎng)站有x十秒，我們爬了半小時(shí)。這個(gè)頁(yè)面即使對于正常用戶(hù)也可能有很多信息沒(méi)有收集到。比如有的網(wǎng)站可能要求只有x個(gè)人能看到。
　　8）瀏覽器上一些系統的ui做的不好。比如頁(yè)面里邊有很多驗證碼，做一些奇怪的驗證碼頁(yè)面上也不容易找到正確的驗證碼。比如老年人看網(wǎng)站，可能會(huì )被彈出的彩蛋嚇到并且怕自己也會(huì )瞎。最后我還是建議各位找師兄師姐買(mǎi)一臺正版web抓包工具，甚至花一兩百做一套好用的定向的工具?；揪涂梢苑治鲎约盒枰裁礃拥木W(wǎng)站，查看全部

　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集
　　文章實(shí)時(shí)采集之js與css采集，包括可視化采集與資訊爬蟲(chóng)采集，有相關(guān)項目可以私信我。
　　目前主要針對web在做，發(fā)展形勢不錯，市場(chǎng)大，需求多，在做得技術(shù)也很多?；ヂ?lián)網(wǎng)獲取信息首先網(wǎng)上很多信息是空的，需要進(jìn)行發(fā)現，然后推送給用戶(hù)看，需要定向和采集。
　　談一下我個(gè)人了解到的目前主要有：
　　1）javascript
　　2）文本處理基本上你懂點(diǎn)javascript就行，這個(gè)很多需求是給不懂的團隊使用，當然javascript處理網(wǎng)頁(yè)中文本信息還是非常方便，
　　3）圖像處理的很多公司都做出有有像素級別的提取
　　4）定制化這一塊在各個(gè)項目中都可以看到，
　　5）性能這塊內存機制不同速度上會(huì )有相應的影響，
　　6）采集質(zhì)量（bloomfilter-webeventgrabber）大家在使用某app的某個(gè)公眾號后臺很多公眾號做了一些優(yōu)化，
　　作為廣告公司實(shí)習生，
　　1）有朋友分享過(guò)，阿里的猴子采集器采集方法在google上有結果，所以大家可以試試。
　　2）手工分詞，這個(gè)速度明顯慢，還容易出錯。
　　3）由于網(wǎng)頁(yè)不可避免地不具有唯一性，如果爬取某些站點(diǎn)中使用ip訪(fǎng)問(wèn)網(wǎng)頁(yè)的ip不唯一（有的域名是指向多個(gè)網(wǎng)站的），則蜘蛛有可能訪(fǎng)問(wèn)其他網(wǎng)站的ip。
　　4）爬蟲(chóng)時(shí)間不宜過(guò)長(cháng)，防止頻繁發(fā)起網(wǎng)絡(luò )請求，或者重定向，因為爬蟲(chóng)內存過(guò)于飽和。
　　5）爬蟲(chóng)最終會(huì )并發(fā)請求數超過(guò)系統底線(xiàn)，爬蟲(chóng)根本沒(méi)法從目標站點(diǎn)中獲取信息，無(wú)法達到爬取準確率90%的要求。
　　6）除了基本的解析和去重等采集技術(shù)外，大量數據需要進(jìn)行分庫分表，可以采用分段爬蟲(chóng)實(shí)現。
　　7）我了解到的，即使是分庫分表，很多大網(wǎng)站對于重定向比較敏感，往往需要重定向得比較久，如果電腦配置不太高可能會(huì )被卡在某個(gè)頁(yè)面上；比如有個(gè)網(wǎng)站有x十秒，我們爬了半小時(shí)。這個(gè)頁(yè)面即使對于正常用戶(hù)也可能有很多信息沒(méi)有收集到。比如有的網(wǎng)站可能要求只有x個(gè)人能看到。
　　8）瀏覽器上一些系統的ui做的不好。比如頁(yè)面里邊有很多驗證碼，做一些奇怪的驗證碼頁(yè)面上也不容易找到正確的驗證碼。比如老年人看網(wǎng)站，可能會(huì )被彈出的彩蛋嚇到并且怕自己也會(huì )瞎。最后我還是建議各位找師兄師姐買(mǎi)一臺正版web抓包工具，甚至花一兩百做一套好用的定向的工具?；揪涂梢苑治鲎约盒枰裁礃拥木W(wǎng)站，

實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2021-08-11 02:15 ? 來(lái)自相關(guān)話(huà)題

　　實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出
　　01 什么是實(shí)時(shí)數據倉庫
　　首先要明確什么是實(shí)時(shí)數據倉庫。百度百科和維基百科均未給出具體說(shuō)明。什么是實(shí)時(shí)數據倉庫？是否可以通過(guò)實(shí)時(shí)流式獲取實(shí)時(shí)數據，即實(shí)時(shí)數據倉庫？換句話(huà)說(shuō)，流批處理集成是實(shí)時(shí)數據倉庫？還是完全采用實(shí)時(shí)方式，采集和實(shí)時(shí)計算都是實(shí)時(shí)數據倉庫？
　　對于這個(gè)問(wèn)題，不同的公司可能有不同的答案。有些人認為提供實(shí)時(shí)廣告牌或實(shí)時(shí)報告是實(shí)時(shí)數據倉庫；其他人可能認為數據倉庫提供的數據必須是實(shí)時(shí)的才能被認為是實(shí)時(shí)數據倉庫。事實(shí)上，這個(gè)問(wèn)題沒(méi)有標準答案。不同的人、場(chǎng)景和公司對它的理解不同。記得有個(gè)老板講過(guò)管理崗位和技術(shù)崗位的區別，其中之一是：
　　對于一件事或需要，T帖子的答案很明確：要么可以做，要么不能做； M貼的回答看似明確，但其實(shí)有多種解讀。 [這不是老油條嗎，哈哈]
　　所以從不同的角度解讀實(shí)時(shí)數倉，實(shí)時(shí)數倉的定義是不同的；一般有幾種定義：
　　可以看出理解不同，構建實(shí)時(shí)數據倉庫的復雜度也不同。但最終構建什么樣的實(shí)時(shí)數倉還是由業(yè)務(wù)驅動(dòng)，需要綜合考慮輸入輸出。
　　02 實(shí)時(shí)數據倉庫架構設計思路
　　實(shí)時(shí)或離線(xiàn)數據倉庫中的數據流向和處理基本類(lèi)似于下圖，因為分層是一種非常有效的數據管理方式，所以說(shuō)到如何管理實(shí)時(shí)數據倉庫，首先要考慮的是處理邏輯也是分層的。
　　從上圖可以看出，在設計實(shí)時(shí)數據倉庫解決方案時(shí)，需要考慮以下幾點(diǎn)（不是設計最強大的技術(shù)方案，而是設計的方案最適合業(yè)務(wù)場(chǎng)景和資源。；有時(shí)候厲害的技術(shù)方案會(huì )增加技術(shù)復雜度和運維難度，考驗我們的控制能力，所以我們選擇的不是技術(shù)含量最高的方案，而是最適合我們實(shí)際情況的方案):
　　數據集成和存儲層流批量集成主要產(chǎn)生以下問(wèn)題：
　　03 幾種實(shí)時(shí)數據倉庫架構分析
　　根據這些是否集成：“數據是否集成，流和批處理是否集成，存儲層是否與批處理流集成”，“ETL邏輯流是否與批處理集成”，“是否ETL計算引擎與“流批處理”集成，不同流集成。這種組合將設計一個(gè)不同的實(shí)時(shí)數據倉庫架構。比較經(jīng)典的架構有Lambda和Kappa；還有美團實(shí)時(shí)數倉架構（實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎）和阿里的流批集成架構（Lambda+Kappa），以下是對這些實(shí)時(shí)數倉架構的總結。 Lambda 數據倉庫架構
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 有 Batch Layer（批處理）和 Speed Layer（流處理）。然后將批處理和流結果拼接在一起。 Lambda 架構具有數據不變性的特性，可以避免人為引入錯誤問(wèn)題，支持數據重新運行，分離復雜的流處理。但是，Batch Layer 和 Speed Layer 往往選擇不同的組件，因為它們需要滿(mǎn)足不同的場(chǎng)景。
　　而且，寫(xiě)過(guò)Storm的人都知道，Storm的代碼寫(xiě)起來(lái)很痛苦（Trident會(huì )改進(jìn)）。因此，我們需要準備兩套代碼。批處理和流處理必須實(shí)現相同的邏輯兩次。
　　Lambda 架構問(wèn)題：
　　Kappa 架構
　　Kreps 提出了另一個(gè)維度的思考，我們能否改進(jìn)和使用流處理系統來(lái)構建大數據系統？提出以構建流為核心，構建數據系統。并且，通過(guò)重放歷史數據來(lái)實(shí)現數據的重新運行。
　　這種以流處理為核心構建的數據系統，被Kreps稱(chēng)為“Kappa架構”。 Kappa 和 Lambda 都是希臘字母符號。這種架構比 Lambda 架構簡(jiǎn)單得多。就是把原來(lái)的批處理改為流處理。它沒(méi)有Lambda架構中的Batch Layer、Speed Layer和Serve Layer。
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 架構問(wèn)題：
　　實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　上圖是美團實(shí)時(shí)數據倉庫的架構設計。數據從日志采集統一到消息隊列，再到數據流的ETL過(guò)程?；A數據流的構建是統一的。之后，針對日志的實(shí)時(shí)性，實(shí)時(shí)大屏應用采用了實(shí)時(shí)流計算。
　　使用實(shí)時(shí)OLAP批處理進(jìn)行Binlog業(yè)務(wù)分析。美團的實(shí)時(shí)數倉架構主要是為了解決實(shí)時(shí)OLAP在實(shí)時(shí)處理上的一些困難。
　　實(shí)時(shí)處理面臨的幾個(gè)困難：
　　Lambda+Kappa
　　從上圖可以看出，阿里的實(shí)時(shí)數倉架構同時(shí)結合了Lambda和Kappa；數據整合不使用流批整合，分別通過(guò)實(shí)時(shí)采集和數據同步方式采集實(shí)現流和批數據。集成ETL邏輯流批，讓用戶(hù)只寫(xiě)一套代碼，平臺自動(dòng)翻譯成Flink Batch任務(wù)和Flink Stream任務(wù)，同時(shí)寫(xiě)入一個(gè)Holo表，完成對表達的統一計算層。存儲層流和批分開(kāi)存儲，但可以實(shí)現流批存儲的透明性，查詢(xún)邏輯完全一致。
　　04 總結
　　架構設計不是設計最強大的技術(shù)方案，而是設計最適合業(yè)務(wù)場(chǎng)景和資源條件的方案。有時(shí)候很棒的技術(shù)方案會(huì )增加運維的技術(shù)復雜度和難度，需要更高的成本來(lái)控制。因此，我們選擇的并不是技術(shù)最先進(jìn)的方案，而是最適合我們實(shí)際情況的技術(shù)架構。
　　在實(shí)時(shí)數據倉庫架構的設計中，主要考慮“數據集成是否與流和批處理集成，存儲層是否與批處理集成”，“ETL邏輯流是否與批處理集成”，“ ETL計算引擎是否與流批集成”；權衡這些集成帶來(lái)的問(wèn)題，我們設計了適合業(yè)務(wù)場(chǎng)景的實(shí)時(shí)數據倉庫架構。查看全部

　　實(shí)時(shí)數倉架構設計思路數據流轉與處理，需要綜合考慮投入產(chǎn)出
　　01 什么是實(shí)時(shí)數據倉庫
　　首先要明確什么是實(shí)時(shí)數據倉庫。百度百科和維基百科均未給出具體說(shuō)明。什么是實(shí)時(shí)數據倉庫？是否可以通過(guò)實(shí)時(shí)流式獲取實(shí)時(shí)數據，即實(shí)時(shí)數據倉庫？換句話(huà)說(shuō)，流批處理集成是實(shí)時(shí)數據倉庫？還是完全采用實(shí)時(shí)方式，采集和實(shí)時(shí)計算都是實(shí)時(shí)數據倉庫？
　　對于這個(gè)問(wèn)題，不同的公司可能有不同的答案。有些人認為提供實(shí)時(shí)廣告牌或實(shí)時(shí)報告是實(shí)時(shí)數據倉庫；其他人可能認為數據倉庫提供的數據必須是實(shí)時(shí)的才能被認為是實(shí)時(shí)數據倉庫。事實(shí)上，這個(gè)問(wèn)題沒(méi)有標準答案。不同的人、場(chǎng)景和公司對它的理解不同。記得有個(gè)老板講過(guò)管理崗位和技術(shù)崗位的區別，其中之一是：
　　對于一件事或需要，T帖子的答案很明確：要么可以做，要么不能做； M貼的回答看似明確，但其實(shí)有多種解讀。 [這不是老油條嗎，哈哈]
　　所以從不同的角度解讀實(shí)時(shí)數倉，實(shí)時(shí)數倉的定義是不同的；一般有幾種定義：
　　可以看出理解不同，構建實(shí)時(shí)數據倉庫的復雜度也不同。但最終構建什么樣的實(shí)時(shí)數倉還是由業(yè)務(wù)驅動(dòng)，需要綜合考慮輸入輸出。
　　02 實(shí)時(shí)數據倉庫架構設計思路
　　實(shí)時(shí)或離線(xiàn)數據倉庫中的數據流向和處理基本類(lèi)似于下圖，因為分層是一種非常有效的數據管理方式，所以說(shuō)到如何管理實(shí)時(shí)數據倉庫，首先要考慮的是處理邏輯也是分層的。
　　從上圖可以看出，在設計實(shí)時(shí)數據倉庫解決方案時(shí)，需要考慮以下幾點(diǎn)（不是設計最強大的技術(shù)方案，而是設計的方案最適合業(yè)務(wù)場(chǎng)景和資源。；有時(shí)候厲害的技術(shù)方案會(huì )增加技術(shù)復雜度和運維難度，考驗我們的控制能力，所以我們選擇的不是技術(shù)含量最高的方案，而是最適合我們實(shí)際情況的方案):
　　數據集成和存儲層流批量集成主要產(chǎn)生以下問(wèn)題：
　　03 幾種實(shí)時(shí)數據倉庫架構分析
　　根據這些是否集成：“數據是否集成，流和批處理是否集成，存儲層是否與批處理流集成”，“ETL邏輯流是否與批處理集成”，“是否ETL計算引擎與“流批處理”集成，不同流集成。這種組合將設計一個(gè)不同的實(shí)時(shí)數據倉庫架構。比較經(jīng)典的架構有Lambda和Kappa；還有美團實(shí)時(shí)數倉架構（實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎）和阿里的流批集成架構（Lambda+Kappa），以下是對這些實(shí)時(shí)數倉架構的總結。 Lambda 數據倉庫架構
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 有 Batch Layer（批處理）和 Speed Layer（流處理）。然后將批處理和流結果拼接在一起。 Lambda 架構具有數據不變性的特性，可以避免人為引入錯誤問(wèn)題，支持數據重新運行，分離復雜的流處理。但是，Batch Layer 和 Speed Layer 往往選擇不同的組件，因為它們需要滿(mǎn)足不同的場(chǎng)景。
　　而且，寫(xiě)過(guò)Storm的人都知道，Storm的代碼寫(xiě)起來(lái)很痛苦（Trident會(huì )改進(jìn)）。因此，我們需要準備兩套代碼。批處理和流處理必須實(shí)現相同的邏輯兩次。
　　Lambda 架構問(wèn)題：
　　Kappa 架構
　　Kreps 提出了另一個(gè)維度的思考，我們能否改進(jìn)和使用流處理系統來(lái)構建大數據系統？提出以構建流為核心，構建數據系統。并且，通過(guò)重放歷史數據來(lái)實(shí)現數據的重新運行。
　　這種以流處理為核心構建的數據系統，被Kreps稱(chēng)為“Kappa架構”。 Kappa 和 Lambda 都是希臘字母符號。這種架構比 Lambda 架構簡(jiǎn)單得多。就是把原來(lái)的批處理改為流處理。它沒(méi)有Lambda架構中的Batch Layer、Speed Layer和Serve Layer。
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　Lambda 架構問(wèn)題：
　　實(shí)時(shí)數據生產(chǎn)+實(shí)時(shí)分析引擎
　　/img?url=https://mmbiz.qpic.cn/mmbiz_pn ... 3Dpng
　　上圖是美團實(shí)時(shí)數據倉庫的架構設計。數據從日志采集統一到消息隊列，再到數據流的ETL過(guò)程?；A數據流的構建是統一的。之后，針對日志的實(shí)時(shí)性，實(shí)時(shí)大屏應用采用了實(shí)時(shí)流計算。
　　使用實(shí)時(shí)OLAP批處理進(jìn)行Binlog業(yè)務(wù)分析。美團的實(shí)時(shí)數倉架構主要是為了解決實(shí)時(shí)OLAP在實(shí)時(shí)處理上的一些困難。
　　實(shí)時(shí)處理面臨的幾個(gè)困難：
　　Lambda+Kappa
　　從上圖可以看出，阿里的實(shí)時(shí)數倉架構同時(shí)結合了Lambda和Kappa；數據整合不使用流批整合，分別通過(guò)實(shí)時(shí)采集和數據同步方式采集實(shí)現流和批數據。集成ETL邏輯流批，讓用戶(hù)只寫(xiě)一套代碼，平臺自動(dòng)翻譯成Flink Batch任務(wù)和Flink Stream任務(wù)，同時(shí)寫(xiě)入一個(gè)Holo表，完成對表達的統一計算層。存儲層流和批分開(kāi)存儲，但可以實(shí)現流批存儲的透明性，查詢(xún)邏輯完全一致。
　　04 總結
　　架構設計不是設計最強大的技術(shù)方案，而是設計最適合業(yè)務(wù)場(chǎng)景和資源條件的方案。有時(shí)候很棒的技術(shù)方案會(huì )增加運維的技術(shù)復雜度和難度，需要更高的成本來(lái)控制。因此，我們選擇的并不是技術(shù)最先進(jìn)的方案，而是最適合我們實(shí)際情況的技術(shù)架構。
　　在實(shí)時(shí)數據倉庫架構的設計中，主要考慮“數據集成是否與流和批處理集成，存儲層是否與批處理集成”，“ETL邏輯流是否與批處理集成”，“ ETL計算引擎是否與流批集成”；權衡這些集成帶來(lái)的問(wèn)題，我們設計了適合業(yè)務(wù)場(chǎng)景的實(shí)時(shí)數據倉庫架構。

webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2021-08-10 02:03 ? 來(lái)自相關(guān)話(huà)題

　　webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像
　　文章實(shí)時(shí)采集加速自動(dòng)生成圖片功能，轉換為矢量，再保存文件大小和性能提升。輸入圖片是256*256分辨率，則生成的圖片大小可設置為1366*768.并且實(shí)時(shí)生成1366*768,這樣圖片的性能要比如下二維數組生成速度快好多，rpgmaker自帶的那個(gè)渲染器暫時(shí)感覺(jué)不夠快。webgl(webglgraphicslibrary),實(shí)現了將一組基于webgl技術(shù)生成的圖像序列作為瀏覽器的一個(gè)動(dòng)畫(huà)資源進(jìn)行顯示的技術(shù)。
　　移動(dòng)端部分的動(dòng)畫(huà)和游戲引擎都是基于webgl來(lái)生成三維數據的。簡(jiǎn)介實(shí)現原理主要是將圖片序列生成html5的骨骼圖，并且通過(guò)opengl使用視頻指針創(chuàng )建動(dòng)畫(huà)幀。運行環(huán)境qt4qt5.2.3.2qtvideoguic++最新版本qtwebgl用webgl不需要那么多的相機控制參數，所以可以用qt寫(xiě)一個(gè)qwidget來(lái)表示，那么需要一套系統的支持原生標簽。
　　圖片，視頻的處理，預覽都要用到。cocos2d-x出了提供了基于gpu的cocos2d-x的相機控制libdal，只是支持的性能沒(méi)有g(shù)pu的那么好。預覽時(shí)只能以0.001微秒的幀率播放圖片，視頻需要開(kāi)啟緩沖，而cocos2d-x的x.x.x應該不適合作為高品質(zhì)的視頻序列。對比可以看出顯示速度大概是html5動(dòng)畫(huà)3-5倍速的水平。
　　測試資源gbufferevent工具鏈c#版本也不夠熟練，然后就直接導入qwidget作測試吧。testudio是基于todomvc的實(shí)現，然后都是用c++代碼：demo我提供了一個(gè)全部原生qwidget直接調用的例子，參考調用方法也很容易。但是調用方法不是很好，很多參數依然是要自己編寫(xiě)。如果以uiweb為例，首先要編寫(xiě)轉義的函數，因為動(dòng)畫(huà)切換是交錯的。
　　如果是運動(dòng)模型，那么肯定是按照時(shí)間來(lái)切換；如果是粒子，也得從左往右操作。效果截圖：左右相異切換?？葱Ч€是沒(méi)有滿(mǎn)意。所以還是提供另外一個(gè)例子。還是是以qwidget為例：在demo中也有所指定的轉義函數，也就是轉義左右移動(dòng)的方向，然后再轉義左右移動(dòng)的時(shí)間。接下來(lái)最重要的就是建立模型，需要qstring自己生成一個(gè)類(lèi)，使用qstring為腳本對象提供原生標簽，使用opengl來(lái)處理圖片等數據。
　　分析以下這個(gè)json格式文件：uri{"frame":"{}-{}","mainframe":1000,"screentext":"{}-{}","transform":{"leftbottom":[{"top":1,"height":21,"left":[{"top":4,"height":0,"left":[{"top":10,"height":0,"left":[{"top":20,"height":1,"left":[{"top":30,"height。查看全部

　　webgl(webglgraphicslibrary),實(shí)現將一組基于webgl技術(shù)生成的圖像
　　文章實(shí)時(shí)采集加速自動(dòng)生成圖片功能，轉換為矢量，再保存文件大小和性能提升。輸入圖片是256*256分辨率，則生成的圖片大小可設置為1366*768.并且實(shí)時(shí)生成1366*768,這樣圖片的性能要比如下二維數組生成速度快好多，rpgmaker自帶的那個(gè)渲染器暫時(shí)感覺(jué)不夠快。webgl(webglgraphicslibrary),實(shí)現了將一組基于webgl技術(shù)生成的圖像序列作為瀏覽器的一個(gè)動(dòng)畫(huà)資源進(jìn)行顯示的技術(shù)。
　　移動(dòng)端部分的動(dòng)畫(huà)和游戲引擎都是基于webgl來(lái)生成三維數據的。簡(jiǎn)介實(shí)現原理主要是將圖片序列生成html5的骨骼圖，并且通過(guò)opengl使用視頻指針創(chuàng )建動(dòng)畫(huà)幀。運行環(huán)境qt4qt5.2.3.2qtvideoguic++最新版本qtwebgl用webgl不需要那么多的相機控制參數，所以可以用qt寫(xiě)一個(gè)qwidget來(lái)表示，那么需要一套系統的支持原生標簽。
　　圖片，視頻的處理，預覽都要用到。cocos2d-x出了提供了基于gpu的cocos2d-x的相機控制libdal，只是支持的性能沒(méi)有g(shù)pu的那么好。預覽時(shí)只能以0.001微秒的幀率播放圖片，視頻需要開(kāi)啟緩沖，而cocos2d-x的x.x.x應該不適合作為高品質(zhì)的視頻序列。對比可以看出顯示速度大概是html5動(dòng)畫(huà)3-5倍速的水平。
　　測試資源gbufferevent工具鏈c#版本也不夠熟練，然后就直接導入qwidget作測試吧。testudio是基于todomvc的實(shí)現，然后都是用c++代碼：demo我提供了一個(gè)全部原生qwidget直接調用的例子，參考調用方法也很容易。但是調用方法不是很好，很多參數依然是要自己編寫(xiě)。如果以uiweb為例，首先要編寫(xiě)轉義的函數，因為動(dòng)畫(huà)切換是交錯的。
　　如果是運動(dòng)模型，那么肯定是按照時(shí)間來(lái)切換；如果是粒子，也得從左往右操作。效果截圖：左右相異切換?？葱Ч€是沒(méi)有滿(mǎn)意。所以還是提供另外一個(gè)例子。還是是以qwidget為例：在demo中也有所指定的轉義函數，也就是轉義左右移動(dòng)的方向，然后再轉義左右移動(dòng)的時(shí)間。接下來(lái)最重要的就是建立模型，需要qstring自己生成一個(gè)類(lèi)，使用qstring為腳本對象提供原生標簽，使用opengl來(lái)處理圖片等數據。
　　分析以下這個(gè)json格式文件：uri{"frame":"{}-{}","mainframe":1000,"screentext":"{}-{}","transform":{"leftbottom":[{"top":1,"height":21,"left":[{"top":4,"height":0,"left":[{"top":10,"height":0,"left":[{"top":20,"height":1,"left":[{"top":30,"height。

文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 188 次瀏覽 ? 2021-08-08 18:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集
　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集。一般主流api都可以調用，但是注意需要的權限就可以。不一定需要設置用戶(hù)名和密碼。文章數據是否需要做匯總可以看你自己需求，我個(gè)人不習慣做匯總。因為目前的人工智能比較火爆，小老師們需要的數據實(shí)在是少，所以還是沒(méi)有做匯總，也有可能是我懶。數據比較少的話(huà)，在各個(gè)數據源上抓取是可以的，不一定非要找源頭。
　　現在工業(yè)界做實(shí)時(shí)數據處理，往往是單機處理來(lái)獲取數據，一臺電腦操作一個(gè)數據源，有些時(shí)候是沒(méi)有辦法全局的獲取全量數據的。
　　初步用java先搞了幾個(gè)產(chǎn)品：clickzhihuimage：做ai爬蟲(chóng)。還不錯，每天發(fā)帖較多。首頁(yè)開(kāi)放，一共50k條數據。采樣下載movieout和commentcomment：目前還在沒(méi)日志掃描模塊，
　　感謝邀請。我看好ai大數據。非常鼓勵所有人！開(kāi)源思想！愿意做貢獻。社區，資源，規則，人才。這些都是必要的。只有投入到資本市場(chǎng)。才會(huì )有更多的人受益。
　　有啊，比如etl，語(yǔ)義網(wǎng)之類(lèi)的。
　　各個(gè)大數據公司都有分析產(chǎn)品，你如果精力和學(xué)歷都是碩士以上的話(huà)推薦去哈工大讀個(gè)長(cháng)春理工的大數據專(zhuān)業(yè)碩士。
　　人工智能個(gè)人感覺(jué)還是一個(gè)高高在上的概念，本身并不需要數據，也不需要數據分析，自然也不需要這些人工智能的數據分析工具，倒是本身產(chǎn)生大量數據的互聯(lián)網(wǎng)圈子，要人工智能數據分析工具，去想辦法匹配業(yè)務(wù)分析需求，顯然是不夠高明的?；ヂ?lián)網(wǎng)公司的分析有一個(gè)地方比較需要，就是互聯(lián)網(wǎng)企業(yè)每天面對海量數據，那些數據的數量決定了他的數據分析結果，其次利用好數據，分析出來(lái)的數據就有用，就會(huì )出現價(jià)值。
　　數據量少就是鐵。最后的最后你才能參與到人工智能的實(shí)踐工作中，到時(shí)候，物料多了，時(shí)間少了，你就可以利用數據去發(fā)揮你的想象。最后一句，人工智能的項目還是不錯的。查看全部

　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集
　　文章實(shí)時(shí)采集可以借助一些api來(lái)做實(shí)時(shí)數據的采集。一般主流api都可以調用，但是注意需要的權限就可以。不一定需要設置用戶(hù)名和密碼。文章數據是否需要做匯總可以看你自己需求，我個(gè)人不習慣做匯總。因為目前的人工智能比較火爆，小老師們需要的數據實(shí)在是少，所以還是沒(méi)有做匯總，也有可能是我懶。數據比較少的話(huà)，在各個(gè)數據源上抓取是可以的，不一定非要找源頭。
　　現在工業(yè)界做實(shí)時(shí)數據處理，往往是單機處理來(lái)獲取數據，一臺電腦操作一個(gè)數據源，有些時(shí)候是沒(méi)有辦法全局的獲取全量數據的。
　　初步用java先搞了幾個(gè)產(chǎn)品：clickzhihuimage：做ai爬蟲(chóng)。還不錯，每天發(fā)帖較多。首頁(yè)開(kāi)放，一共50k條數據。采樣下載movieout和commentcomment：目前還在沒(méi)日志掃描模塊，
　　感謝邀請。我看好ai大數據。非常鼓勵所有人！開(kāi)源思想！愿意做貢獻。社區，資源，規則，人才。這些都是必要的。只有投入到資本市場(chǎng)。才會(huì )有更多的人受益。
　　有啊，比如etl，語(yǔ)義網(wǎng)之類(lèi)的。
　　各個(gè)大數據公司都有分析產(chǎn)品，你如果精力和學(xué)歷都是碩士以上的話(huà)推薦去哈工大讀個(gè)長(cháng)春理工的大數據專(zhuān)業(yè)碩士。
　　人工智能個(gè)人感覺(jué)還是一個(gè)高高在上的概念，本身并不需要數據，也不需要數據分析，自然也不需要這些人工智能的數據分析工具，倒是本身產(chǎn)生大量數據的互聯(lián)網(wǎng)圈子，要人工智能數據分析工具，去想辦法匹配業(yè)務(wù)分析需求，顯然是不夠高明的?；ヂ?lián)網(wǎng)公司的分析有一個(gè)地方比較需要，就是互聯(lián)網(wǎng)企業(yè)每天面對海量數據，那些數據的數量決定了他的數據分析結果，其次利用好數據，分析出來(lái)的數據就有用，就會(huì )出現價(jià)值。
　　數據量少就是鐵。最后的最后你才能參與到人工智能的實(shí)踐工作中，到時(shí)候，物料多了，時(shí)間少了，你就可以利用數據去發(fā)揮你的想象。最后一句，人工智能的項目還是不錯的。

不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2021-07-29 23:37 ? 來(lái)自相關(guān)話(huà)題

　　
不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本
　　分享一個(gè)python實(shí)時(shí)分析日志的小腳本
　　更新時(shí)間：2017-05-07 15:56:56 作者：不認識真人
　　這個(gè)文章主要分享一個(gè)小的python腳本，用于日志的實(shí)時(shí)分析。文章給出了詳細的介紹和示例代碼，供大家參考學(xué)習。對大家學(xué)習或使用python有一定的參考學(xué)習價(jià)值。有需要的朋友，一起來(lái)看看吧。
　　前言
　　大家都知道web運維時(shí)刻關(guān)注相關(guān)域名的實(shí)時(shí)2xx/s、4xx/s、5xx/s、響應時(shí)間、帶寬等指標。上一篇日志分為五分鐘。簡(jiǎn)單地使用awk。好的，現在因為要推送日志到ELK，所以在繼續之前的五分鐘拆分會(huì )有問(wèn)題，所以每天拆分一次。改成一天后，繼續用Shell顯然不合適，所以我用Python寫(xiě)的。
　　方法如下：
　　該腳本主要使用文件的seek和tell函數。原理如下：
　　1.加入crontab，每5分鐘執行一次
　　2.只分析從上次讀取的日志文件的結束位置到本次讀取的文件的結束位置的日志，并輸出結果
　　可以使用zabbix_sender將結果發(fā)送到zabbix server或者直接使用zabbix agent讀取這個(gè)文件并獲取數據，配合zabbix輸出圖片和報警，代碼如下：
　　
#!/usr/bin/env python
#coding: utf-8
from __future__ import division
import os
LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 執行時(shí)間
CRON_TIME = 300
def get_position():
#第一次讀取日志文件，POSITION_FILE為空
if not os.path.exists(POSITION_FILE):
start_position = str(0)
end_position = str(os.path.getsize(LOG_FILE))
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
os._exit(1)
else:
fh = open(POSITION_FILE)
se = fh.readlines()
fh.close()
#其他意外情況導致POSITION_FILE內容不是兩行
if len(se) != 2:
os.remove(POSITION_FILE)
os._exit(1)
last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
start_position = last_end_position
end_position = str(os.path.getsize(LOG_FILE))
#日志輪轉導致start_position > end_position
#print start_position,end_position
if start_position > end_position:
start_position = 0
#日志停止滾動(dòng)時(shí)
elif start_position == end_position:
os._exit(1)
#print start_position,end_position
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
return map(int,[start_position,end_position])
def write_status(content):
fh = open(STATUS_FILE,'w')
fh.write(content)
fh.close()
def handle_log(start_position,end_position):
log = open(LOG_FILE)
log.seek(start_position,0)
status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
while True:
current_position = log.tell()
if current_position >= end_position:
break
line = log.readline()
line = line.split(' ')
host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
#print host,request_time,time_local,status,bytes_sent
status_all += 1
try:
rt += float(request_time.strip('s'))
bandwidth += int(bytes_sent)
except:
pass
if status == '200' or status == '206':
status_2xx += 1
elif status == '403':
status_403 += 1
elif status == '404':
status_404 += 1
elif status == '500':
status_500 += 1
elif status == '502':
status_502 += 1
elif status == '503':
status_503 += 1
elif status == '504':
status_504 += 1
log.close()
#print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)
write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))
if __name__ == '__main__':
start_position,end_position = get_position()
handle_log(start_position,end_position)
　　看分析結果：
　　
cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0
　　后來(lái)發(fā)現了一個(gè)問(wèn)題。 start_position和end_position使用字符串比較有問(wèn)題，如下：
　　
In [5]: '99772400' > '100227572'
Out[5]: True
In [6]: int('99772400') > int('100227572')
Out[6]: False
　　因此，更正的是：
　　
#日志輪轉導致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
start_position = 0
#日志停止滾動(dòng)時(shí)
elif int(start_position) == int(end_position):
os._exit(1)
　　總結
　　以上是本次文章的全部?jì)热?。希望本文的內容對您的學(xué)習或工作有所幫助。有什么問(wèn)題可以留言交流。感謝您對 Scripthome 的支持。查看全部

　　
不懂真人這篇文章：實(shí)時(shí)分析日志的python小腳本
　　分享一個(gè)python實(shí)時(shí)分析日志的小腳本
　　更新時(shí)間：2017-05-07 15:56:56 作者：不認識真人
　　這個(gè)文章主要分享一個(gè)小的python腳本，用于日志的實(shí)時(shí)分析。文章給出了詳細的介紹和示例代碼，供大家參考學(xué)習。對大家學(xué)習或使用python有一定的參考學(xué)習價(jià)值。有需要的朋友，一起來(lái)看看吧。
　　前言
　　大家都知道web運維時(shí)刻關(guān)注相關(guān)域名的實(shí)時(shí)2xx/s、4xx/s、5xx/s、響應時(shí)間、帶寬等指標。上一篇日志分為五分鐘。簡(jiǎn)單地使用awk。好的，現在因為要推送日志到ELK，所以在繼續之前的五分鐘拆分會(huì )有問(wèn)題，所以每天拆分一次。改成一天后，繼續用Shell顯然不合適，所以我用Python寫(xiě)的。
　　方法如下：
　　該腳本主要使用文件的seek和tell函數。原理如下：
　　1.加入crontab，每5分鐘執行一次
　　2.只分析從上次讀取的日志文件的結束位置到本次讀取的文件的結束位置的日志，并輸出結果
　　可以使用zabbix_sender將結果發(fā)送到zabbix server或者直接使用zabbix agent讀取這個(gè)文件并獲取數據，配合zabbix輸出圖片和報警，代碼如下：
　　
#!/usr/bin/env python
#coding: utf-8
from __future__ import division
import os
LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 執行時(shí)間
CRON_TIME = 300
def get_position():
#第一次讀取日志文件，POSITION_FILE為空
if not os.path.exists(POSITION_FILE):
start_position = str(0)
end_position = str(os.path.getsize(LOG_FILE))
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
os._exit(1)
else:
fh = open(POSITION_FILE)
se = fh.readlines()
fh.close()
#其他意外情況導致POSITION_FILE內容不是兩行
if len(se) != 2:
os.remove(POSITION_FILE)
os._exit(1)
last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
start_position = last_end_position
end_position = str(os.path.getsize(LOG_FILE))
#日志輪轉導致start_position > end_position
#print start_position,end_position
if start_position > end_position:
start_position = 0
#日志停止滾動(dòng)時(shí)
elif start_position == end_position:
os._exit(1)
#print start_position,end_position
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
return map(int,[start_position,end_position])
def write_status(content):
fh = open(STATUS_FILE,'w')
fh.write(content)
fh.close()
def handle_log(start_position,end_position):
log = open(LOG_FILE)
log.seek(start_position,0)
status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
while True:
current_position = log.tell()
if current_position >= end_position:
break
line = log.readline()
line = line.split(' ')
host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
#print host,request_time,time_local,status,bytes_sent
status_all += 1
try:
rt += float(request_time.strip('s'))
bandwidth += int(bytes_sent)
except:
pass
if status == '200' or status == '206':
status_2xx += 1
elif status == '403':
status_403 += 1
elif status == '404':
status_404 += 1
elif status == '500':
status_500 += 1
elif status == '502':
status_502 += 1
elif status == '503':
status_503 += 1
elif status == '504':
status_504 += 1
log.close()
#print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)
write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))
if __name__ == '__main__':
start_position,end_position = get_position()
handle_log(start_position,end_position)
　　看分析結果：
　　
cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0
　　后來(lái)發(fā)現了一個(gè)問(wèn)題。 start_position和end_position使用字符串比較有問(wèn)題，如下：
　　
In [5]: '99772400' > '100227572'
Out[5]: True
In [6]: int('99772400') > int('100227572')
Out[6]: False
　　因此，更正的是：
　　
#日志輪轉導致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
start_position = 0
#日志停止滾動(dòng)時(shí)
elif int(start_position) == int(end_position):
os._exit(1)
　　總結
　　以上是本次文章的全部?jì)热?。希望本文的內容對您的學(xué)習或工作有所幫助。有什么問(wèn)題可以留言交流。感謝您對 Scripthome 的支持。

文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 245 次瀏覽 ? 2021-07-25 18:00 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題
　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據，這樣可以接入到自己的產(chǎn)品中，并作為一個(gè)前端來(lái)使用，當然一般會(huì )使用接入的sdk來(lái)進(jìn)行數據傳輸，這樣不管是后端還是前端都只需要關(guān)注數據的轉化，數據的傳輸等問(wèn)題。
　　找個(gè)這樣的數據采集開(kāi)發(fā)api，或者你接你需要接入的數據接口。
　　erp，汽車(chē)。理財，金融，物流，保險，電商，小生意，社區，本地不想要了可以賣(mài)掉。很多人的不同行業(yè)復雜度差距非常大，沒(méi)有一個(gè)成熟的東西。
　　我也在做，具體工作可以關(guān)注我們資料庫。
　　我在feedsr上發(fā)現個(gè)網(wǎng)站model:m-bitnessstoreonline
　　其實(shí)一個(gè)數據庫，一個(gè)erp就可以了。本地移動(dòng)端都是通過(guò)erp的接口進(jìn)行收集的。有需要的可以聯(lián)系我。java多jdbc。
　　我這里是云數據庫，這樣解決跨屏數據采集后傳輸的問(wèn)題，提供多平臺的api，
　　我們也是初創(chuàng )，但是我們不需要通過(guò)類(lèi)似于querylove，tensorflow這樣的可以服務(wù)接入量非常大的數據庫的工具，感覺(jué)主要還是需要把數據轉換后再由專(zhuān)門(mén)的人員去處理，
　　所有云上的開(kāi)源api，其實(shí)主要是服務(wù)于erp和mapreduce，如你所知道的：jdbc，jpa?，F在很多paas開(kāi)發(fā)和webapi比較多，對于中小企業(yè)，選擇internetdb，internetads，internetservices(isp),sql-server云存儲，最好是idp，主要面向市場(chǎng)，公有云對接私有云，當然還是跨云。
　　大企業(yè)，有專(zhuān)門(mén)的流統方面的應用和產(chǎn)品，比如chinabond，針對復雜系統，硬件調度，國內有sgs等流量入口供應商提供的lendingclub，針對個(gè)人消費市場(chǎng)，sokoclub比如diamondlink，分布式領(lǐng)域，insuranceos，對應大企業(yè)業(yè)務(wù)和sas在上面開(kāi)發(fā)，完成單機應用的智能化報表設計，每一個(gè)部門(mén)對應不同的erp，協(xié)調時(shí)空變換。查看全部

　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據采集后傳輸的問(wèn)題
　　文章實(shí)時(shí)采集多個(gè)跨界行業(yè)的數據，這樣可以接入到自己的產(chǎn)品中，并作為一個(gè)前端來(lái)使用，當然一般會(huì )使用接入的sdk來(lái)進(jìn)行數據傳輸，這樣不管是后端還是前端都只需要關(guān)注數據的轉化，數據的傳輸等問(wèn)題。
　　找個(gè)這樣的數據采集開(kāi)發(fā)api，或者你接你需要接入的數據接口。
　　erp，汽車(chē)。理財，金融，物流，保險，電商，小生意，社區，本地不想要了可以賣(mài)掉。很多人的不同行業(yè)復雜度差距非常大，沒(méi)有一個(gè)成熟的東西。
　　我也在做，具體工作可以關(guān)注我們資料庫。
　　我在feedsr上發(fā)現個(gè)網(wǎng)站model:m-bitnessstoreonline
　　其實(shí)一個(gè)數據庫，一個(gè)erp就可以了。本地移動(dòng)端都是通過(guò)erp的接口進(jìn)行收集的。有需要的可以聯(lián)系我。java多jdbc。
　　我這里是云數據庫，這樣解決跨屏數據采集后傳輸的問(wèn)題，提供多平臺的api，
　　我們也是初創(chuàng )，但是我們不需要通過(guò)類(lèi)似于querylove，tensorflow這樣的可以服務(wù)接入量非常大的數據庫的工具，感覺(jué)主要還是需要把數據轉換后再由專(zhuān)門(mén)的人員去處理，
　　所有云上的開(kāi)源api，其實(shí)主要是服務(wù)于erp和mapreduce，如你所知道的：jdbc，jpa?，F在很多paas開(kāi)發(fā)和webapi比較多，對于中小企業(yè)，選擇internetdb，internetads，internetservices(isp),sql-server云存儲，最好是idp，主要面向市場(chǎng)，公有云對接私有云，當然還是跨云。
　　大企業(yè)，有專(zhuān)門(mén)的流統方面的應用和產(chǎn)品，比如chinabond，針對復雜系統，硬件調度，國內有sgs等流量入口供應商提供的lendingclub，針對個(gè)人消費市場(chǎng)，sokoclub比如diamondlink，分布式領(lǐng)域，insuranceos，對應大企業(yè)業(yè)務(wù)和sas在上面開(kāi)發(fā)，完成單機應用的智能化報表設計，每一個(gè)部門(mén)對應不同的erp，協(xié)調時(shí)空變換。

文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2021-07-11 20:05 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的
　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的，少不了攝影師（現在大多數婚禮攝影團隊都在合肥、鄭州等地）和所在場(chǎng)地組織者、贊助方。視頻采集工作由會(huì )場(chǎng)以及場(chǎng)地方（如果有的話(huà)）完成。
　　婚禮視頻系列：
　　只能說(shuō)，看需求咯，定制化的就靠攝影團隊了，常規拍攝就在會(huì )場(chǎng)以及場(chǎng)地進(jìn)行。
　　看情況！我們辦婚禮就拍婚禮現場(chǎng)各個(gè)物品的實(shí)際狀態(tài)，然后使用app查看情況。
　　能溝通！
　　所有的攝影現場(chǎng)采集，都在某個(gè)分工明確的部門(mén)內進(jìn)行，每個(gè)部門(mén)負責對應分工環(huán)節內的各種場(chǎng)景。每個(gè)部門(mén)的工作量大致是固定的，但由于每個(gè)部門(mén)負責任務(wù)繁重，會(huì )因為某些場(chǎng)景的實(shí)時(shí)進(jìn)展速度受到影響，所以各個(gè)部門(mén)工作時(shí)間不確定。再次，攝影對應的觀(guān)眾位置不會(huì )進(jìn)行整體觀(guān)察，場(chǎng)景進(jìn)展緩慢了，所以會(huì )出現要等待n位觀(guān)眾入場(chǎng)，快了也有可能觀(guān)眾已經(jīng)走了。
　　這點(diǎn)可以通過(guò)合肥的“到時(shí)間了”微信平臺，獲取每個(gè)觀(guān)眾的位置。個(gè)人認為，就目前合肥的婚禮場(chǎng)景狀況來(lái)看，婚禮攝影的前期工作應該被盡可能地壓縮到一個(gè)月的時(shí)間。到時(shí)間了，現場(chǎng)的婚禮情況應該也比較明確了，有時(shí)間再進(jìn)行后期整體的拍攝。
　　婚禮現場(chǎng)的現場(chǎng)，有婚禮視頻，要不要現場(chǎng)采集，看客戶(hù)心情。
　　我們婚禮攝影很少也不想外錄(除非到時(shí)間了，為了確保準確性和可重復播放的清晰度)，因為現場(chǎng)采集，遇到需要現場(chǎng)視頻的情況就等不了了。我們的婚禮就不需要了，畢竟做完自己的事兒，要給看的人看到我們想看的我們珍貴的時(shí)刻，多累啊。前提是去我們拍攝的場(chǎng)景地實(shí)地去探索。1.場(chǎng)景地點(diǎn)是不是提前去拍攝過(guò)？熟悉了嗎？2.攝影師拍攝時(shí)有沒(méi)有和場(chǎng)景主持人配合？鏡頭感好嗎？3.婚禮場(chǎng)景地點(diǎn)大多是偏僻的，不了解不熟悉，會(huì )打亂我們平時(shí)拍攝的節奏。
　　4.提前和婚禮策劃溝通好，讓不讓進(jìn)現場(chǎng)？5.微信公眾號，全國通用，可以查看每個(gè)城市的拍攝的跟拍路線(xiàn)軌跡，到現場(chǎng)時(shí)，也可以拍攝到婚禮過(guò)程中，現場(chǎng)看現場(chǎng)的婚禮視頻。簡(jiǎn)單來(lái)說(shuō)，就是提前拍攝，現場(chǎng)跟拍及后期合成三大部分。查看全部

　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的
　　文章實(shí)時(shí)采集，對于婚禮場(chǎng)景圖片的采集工作是由攝影團隊來(lái)完成的，少不了攝影師（現在大多數婚禮攝影團隊都在合肥、鄭州等地）和所在場(chǎng)地組織者、贊助方。視頻采集工作由會(huì )場(chǎng)以及場(chǎng)地方（如果有的話(huà)）完成。
　　婚禮視頻系列：
　　只能說(shuō)，看需求咯，定制化的就靠攝影團隊了，常規拍攝就在會(huì )場(chǎng)以及場(chǎng)地進(jìn)行。
　　看情況！我們辦婚禮就拍婚禮現場(chǎng)各個(gè)物品的實(shí)際狀態(tài)，然后使用app查看情況。
　　能溝通！
　　所有的攝影現場(chǎng)采集，都在某個(gè)分工明確的部門(mén)內進(jìn)行，每個(gè)部門(mén)負責對應分工環(huán)節內的各種場(chǎng)景。每個(gè)部門(mén)的工作量大致是固定的，但由于每個(gè)部門(mén)負責任務(wù)繁重，會(huì )因為某些場(chǎng)景的實(shí)時(shí)進(jìn)展速度受到影響，所以各個(gè)部門(mén)工作時(shí)間不確定。再次，攝影對應的觀(guān)眾位置不會(huì )進(jìn)行整體觀(guān)察，場(chǎng)景進(jìn)展緩慢了，所以會(huì )出現要等待n位觀(guān)眾入場(chǎng)，快了也有可能觀(guān)眾已經(jīng)走了。
　　這點(diǎn)可以通過(guò)合肥的“到時(shí)間了”微信平臺，獲取每個(gè)觀(guān)眾的位置。個(gè)人認為，就目前合肥的婚禮場(chǎng)景狀況來(lái)看，婚禮攝影的前期工作應該被盡可能地壓縮到一個(gè)月的時(shí)間。到時(shí)間了，現場(chǎng)的婚禮情況應該也比較明確了，有時(shí)間再進(jìn)行后期整體的拍攝。
　　婚禮現場(chǎng)的現場(chǎng)，有婚禮視頻，要不要現場(chǎng)采集，看客戶(hù)心情。
　　我們婚禮攝影很少也不想外錄(除非到時(shí)間了，為了確保準確性和可重復播放的清晰度)，因為現場(chǎng)采集，遇到需要現場(chǎng)視頻的情況就等不了了。我們的婚禮就不需要了，畢竟做完自己的事兒，要給看的人看到我們想看的我們珍貴的時(shí)刻，多累啊。前提是去我們拍攝的場(chǎng)景地實(shí)地去探索。1.場(chǎng)景地點(diǎn)是不是提前去拍攝過(guò)？熟悉了嗎？2.攝影師拍攝時(shí)有沒(méi)有和場(chǎng)景主持人配合？鏡頭感好嗎？3.婚禮場(chǎng)景地點(diǎn)大多是偏僻的，不了解不熟悉，會(huì )打亂我們平時(shí)拍攝的節奏。
　　4.提前和婚禮策劃溝通好，讓不讓進(jìn)現場(chǎng)？5.微信公眾號，全國通用，可以查看每個(gè)城市的拍攝的跟拍路線(xiàn)軌跡，到現場(chǎng)時(shí)，也可以拍攝到婚禮過(guò)程中，現場(chǎng)看現場(chǎng)的婚禮視頻。簡(jiǎn)單來(lái)說(shuō)，就是提前拍攝，現場(chǎng)跟拍及后期合成三大部分。

文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 209 次瀏覽 ? 2021-07-11 18:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據
　　文章實(shí)時(shí)采集，今天采用的是爬蟲(chóng)，也可以用excel爬取數據：設置字段：1，店鋪id2，單品id3，
　　要是寫(xiě)爬蟲(chóng)完全沒(méi)問(wèn)題啊，只要有api，我覺(jué)得是絕對可以的，
　　不可以，
　　目前的話(huà)，比較廣泛的有python中listparser來(lái)采集，或者java，用js來(lái)獲取。如果有獨立開(kāi)發(fā)能力，完全可以自己做。目前也有一些非工業(yè)級的api，
　　不可以的，你得有自己的單品庫或者店鋪庫，
　　采集網(wǎng)頁(yè)數據可以用scrapy,可以去看看
　　可以用pandas寫(xiě)爬蟲(chóng)，
　　不可以可以用scrapy抓采集。我目前用scrapy框架發(fā)布個(gè)人訂單，openxlsx生成文件直接導入excel。
　　可以用pythondjango等，比excel好用，
　　可以是可以，但是意義不大，因為如果真的想采集的話(huà)，python已經(jīng)可以搞定了。爬蟲(chóng)本身并不能實(shí)現商品的商品多樣性和優(yōu)化購物體驗，特別是國內的電商?？梢葬槍δ硞€(gè)垂直細分領(lǐng)域的商品或者商品頻道設計爬蟲(chóng)框架，再針對特定的商品采集數據。這樣做的好處是方便快捷，效率高，自己獨立可控。
　　可以，pythonopenxlsx對網(wǎng)頁(yè)進(jìn)行讀取數據就可以對商品進(jìn)行一個(gè)排序，再用openxlsx包中的商品關(guān)鍵字進(jìn)行更新。查看全部

　　文章實(shí)時(shí)采集采用的是爬蟲(chóng)，也可以用excel爬取數據
　　文章實(shí)時(shí)采集，今天采用的是爬蟲(chóng)，也可以用excel爬取數據：設置字段：1，店鋪id2，單品id3，
　　要是寫(xiě)爬蟲(chóng)完全沒(méi)問(wèn)題啊，只要有api，我覺(jué)得是絕對可以的，
　　不可以，
　　目前的話(huà)，比較廣泛的有python中listparser來(lái)采集，或者java，用js來(lái)獲取。如果有獨立開(kāi)發(fā)能力，完全可以自己做。目前也有一些非工業(yè)級的api，
　　不可以的，你得有自己的單品庫或者店鋪庫，
　　采集網(wǎng)頁(yè)數據可以用scrapy,可以去看看
　　可以用pandas寫(xiě)爬蟲(chóng)，
　　不可以可以用scrapy抓采集。我目前用scrapy框架發(fā)布個(gè)人訂單，openxlsx生成文件直接導入excel。
　　可以用pythondjango等，比excel好用，
　　可以是可以，但是意義不大，因為如果真的想采集的話(huà)，python已經(jīng)可以搞定了。爬蟲(chóng)本身并不能實(shí)現商品的商品多樣性和優(yōu)化購物體驗，特別是國內的電商?？梢葬槍δ硞€(gè)垂直細分領(lǐng)域的商品或者商品頻道設計爬蟲(chóng)框架，再針對特定的商品采集數據。這樣做的好處是方便快捷，效率高，自己獨立可控。
　　可以，pythonopenxlsx對網(wǎng)頁(yè)進(jìn)行讀取數據就可以對商品進(jìn)行一個(gè)排序，再用openxlsx包中的商品關(guān)鍵字進(jìn)行更新。

文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 197 次瀏覽 ? 2021-07-10 02:02 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？
　　文章實(shí)時(shí)采集標注數據，為了實(shí)現內容推薦，需要按字段規范匹配。如果無(wú)，根據規則重復字段，得到的排序就是亂序的。這樣，文章字段轉換成本就高，增加排序就更難了。所以需要目前標注數據制作成字典，利用treemap格式化展示。
　　讀取數據后，需要將正確的數據寫(xiě)入標注數據的存儲，
　　這種情況利用all-in-one排序就可以了吧
　　可以用正則的方式來(lái)進(jìn)行標注，正則就可以傳入一段句子的完整元素和元音，
　　正則表達式.
　　利用正則匹配，可以看看劉海洋的python機器學(xué)習實(shí)戰，
　　元音和輔音文字是正則表達式匹配不了的，硬要匹配的話(huà)可以通過(guò)字典的方式，按從小到大之間的字符串來(lái)匹配。
　　item[標簽]->[參考文獻]標簽部分是匹配正確的文本文件中的標簽文件中的標簽具體寫(xiě)法如下：#切割需要匹配的元素之間的數據"""單詞"""lst=[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v]name_word=name_list[list(allkeys(lst))]fortaginlst:name_word。append(tag。getkey())。
　　python中利用googleapi來(lái)可視化不可匹配的關(guān)鍵字與關(guān)鍵字之間的關(guān)系，可用bimonline或者其他工具監控email、twitter、facebook、tumblr等等軟件的attop的關(guān)鍵字。tag的關(guān)鍵字應該也能做到。查看全部

　　文章實(shí)時(shí)采集標注數據的關(guān)鍵字應該能做到嗎？
　　文章實(shí)時(shí)采集標注數據，為了實(shí)現內容推薦，需要按字段規范匹配。如果無(wú)，根據規則重復字段，得到的排序就是亂序的。這樣，文章字段轉換成本就高，增加排序就更難了。所以需要目前標注數據制作成字典，利用treemap格式化展示。
　　讀取數據后，需要將正確的數據寫(xiě)入標注數據的存儲，
　　這種情況利用all-in-one排序就可以了吧
　　可以用正則的方式來(lái)進(jìn)行標注，正則就可以傳入一段句子的完整元素和元音，
　　正則表達式.
　　利用正則匹配，可以看看劉海洋的python機器學(xué)習實(shí)戰，
　　元音和輔音文字是正則表達式匹配不了的，硬要匹配的話(huà)可以通過(guò)字典的方式，按從小到大之間的字符串來(lái)匹配。
　　item[標簽]->[參考文獻]標簽部分是匹配正確的文本文件中的標簽文件中的標簽具體寫(xiě)法如下：#切割需要匹配的元素之間的數據"""單詞"""lst=[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v]name_word=name_list[list(allkeys(lst))]fortaginlst:name_word。append(tag。getkey())。
　　python中利用googleapi來(lái)可視化不可匹配的關(guān)鍵字與關(guān)鍵字之間的關(guān)系，可用bimonline或者其他工具監控email、twitter、facebook、tumblr等等軟件的attop的關(guān)鍵字。tag的關(guān)鍵字應該也能做到。

Web Audio-Browser 采集microphone 音頻數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2021-07-05 20:19 ? 來(lái)自相關(guān)話(huà)題

　　Web Audio-Browser 采集microphone 音頻數據
　　背景
　　關(guān)于Web Audio，上期小編介紹了如何解析音頻數據和繪制音頻頻譜圖，和大家一起初步了解Web Audio強大的API。在本文中，小編繼續探索Web Audio領(lǐng)域，我將向您介紹采集如何在瀏覽器中執行麥克風(fēng)音頻數據。以及如何在采集過(guò)程中繪制實(shí)時(shí)動(dòng)態(tài)音頻頻譜。
　　實(shí)施思路
　　我們還是先介紹一下整體思路。采集音頻，首先我們通過(guò)navigator.mediaDevices.getUserMedia方法獲取麥克風(fēng)并錄制聲音。（Navigator是瀏覽器的NavigatorID標準接口的實(shí)現，你可以用它來(lái)查詢(xún)當前運行腳本的應用程序的一些相關(guān)信息。這里不討論這個(gè)對象，只介紹如何使用它來(lái)錄制音頻） getUserMedia 可以用于錄制聲音獲取音頻流。然后我們使用 Web Audio 相關(guān)的 API 將音頻流轉換為實(shí)時(shí)音頻數據。最后通過(guò)canvas將實(shí)時(shí)音頻數據繪制成地圖，重復這個(gè)過(guò)程就達到動(dòng)態(tài)繪制實(shí)時(shí)地圖的效果。大體流程如下：
　　
　　獲得麥克風(fēng)權限，錄音
　　瀏覽器的安全策略規定navigator.mediaDevices.getUserMedia方法只能在https協(xié)議或localhost域名下有效。所以這里我們先用node搭建一個(gè)極簡(jiǎn)版的本地web服務(wù)器，然后獲取麥克風(fēng)權限，錄音。
　　// server.js
const http = require('http');
const path = require('path');
const fs = require('fs');
http.createServer((request, response) => {
// 請求體
console.log(new Date(), ':', JSON.stringify(request));
// 需要加載的html文件
const file = path.resolve(__dirname, './demo2.html');
// 判斷文件是否存在
fs.exists(file, exists => {
if(!exists) console.log ('文件不存在，沙雕！');
else {
response.writeHeader(200, { "Content-Type" : "text/html" });
response.end(fs.readFileSync(file, 'utf-8'));
}
});

}).listen(8090); // 監聽(tīng)8090端口
/*
* demo2.html
* 獲取麥克風(fēng)并錄制聲音
*/
let audioCtx = null; // 音頻上下文
let source = null; // 音頻源
let audioStream = null; // 錄音產(chǎn)生的音頻流
let analyserNode = null; // 用于分析音頻實(shí)時(shí)數據的節點(diǎn)
let animationFrame = null; // 定時(shí)器
function recordSound () {
navigator.mediaDevices
.getUserMedia({ 'audio': true })
.then(initAudioData)
.catch(e => {
console.log('出問(wèn)題了，沙雕:', e);
});
}
// 停止錄制
function stopRecord () {
// 關(guān)閉麥克風(fēng)
const tracks = audioStream.getAudioTracks();
for (let i = 0, len = tracks.length; i < len; i++) {
tracks[i].stop();
}
// 斷開(kāi)音頻節點(diǎn)
analyserNode.disconnect();
source.disconnect();
analyserNode = null;
source = null;
// 清除定時(shí)器
clearInterval(animationFrame);
}
// 事件綁定
document.querySelector('#record').onclick = recordSound;
document.querySelector('#stop').onclick = stopRecord;
復制代碼
　　使用 Web Audio Api 處理音頻流數據
　　獲取音頻流后，我們使用音頻上下文AudioContext來(lái)創(chuàng )建音頻源。這里選擇MediaStreamAudioSourceNode，它接收一個(gè)MediaStream對象來(lái)創(chuàng )建一個(gè)音頻源。然后我們在音頻源和目的地之間插入一個(gè)音頻節點(diǎn)來(lái)獲取和處理音頻數據，然后利用這些數據繪制波形圖。此處選擇了 AnalyserNode。當然，像 ScriptProcessorNode 和 AudioWorkletNode 這樣的節點(diǎn)也可以實(shí)現實(shí)時(shí)音頻數據的采集和處理。詳情請參考相關(guān)API。
　　// 音頻數據處理
function initAudioData (stream) {
audioStream = stream;
// 創(chuàng )建音頻上下文
audioCtx = new (window.AudioContext || window.webkitAudioContext)();
// 創(chuàng )建音頻源
source = audioCtx.createMediaStreamSource(audioStream);
// 創(chuàng )建音頻分析節點(diǎn)
analyserNode = audioCtx.createAnalyser();
// fftSize決定了能夠獲取到的音頻數據的數量
analyserNode.fftSize = 4096;
// 音頻源連接至analyserNode
source.connect(analyserNode);
// analyserNode再連接至揚聲器播放
analyserNode.connect(audioCtx.destination);
// 簡(jiǎn)單用定時(shí)器來(lái)繪制波形圖，當然也可以用requestAnimationFrame來(lái)以屏幕刷新的評率來(lái)反復執行繪制函數
animateFrame = setInterval(drawWaver, 60);
}
復制代碼
　　實(shí)時(shí)獲取音頻數據并繪制波形圖
　　AnalyserNode創(chuàng )建后，可以指定長(cháng)度實(shí)時(shí)獲取當前時(shí)間點(diǎn)的音頻時(shí)域數據，然后通過(guò)定時(shí)器或requestAnimationFrame回調重復獲取數據并執行繪制函數來(lái)實(shí)現動(dòng)態(tài)波形圖的效果。繪制方法也是通過(guò)一個(gè)Float32Array數組對象（取值范圍在-1到1之間）接收音頻時(shí)域數據，然后對數據進(jìn)行采樣。這里我們每12條數據取一個(gè)最大值和一個(gè)最小值來(lái)繪制Graphic。
　　// 繪制圖形
function drawWaver () {
const originData = new Float32Array(analyserNode.fftSize);
const positives = [];
const negatives = [];
// 獲取當前的實(shí)時(shí)音頻數據
analyserNode.getFloatTimeDomainData(originData);
// 每12位數據取一個(gè)最大值一個(gè)最小值 4096 / 12 = 341.3333
for (let i = 0; i < 341; i++) {
let temp = originData.slice(i * 12, (i + 1) * 12);
positives.push(Math.max.apply(null, temp));
negatives.push(Math.min.apply(null, temp));
}
// 創(chuàng )建canvas上下文
let canvas = document.querySelector('#canvas');
if (canvas.getContext) {
let ctx = canvas.getContext('2d');
canvas.width = positives.length * 4;
let x = 0;
let y = 100;
ctx.fillStyle = '#fa541c';
// canvas高度200，橫坐標在canvas中點(diǎn)100px的位置，橫坐標上方繪制正數據，下方繪制負數據
for (let k = 0; k < positives.length; k++) {
// 每個(gè)矩形寬3px，間隔1px，圖形總長(cháng)度即為 length * 4
ctx.fillRect(x + 4 * k, y - (100 * positives[k]), 3, 100 * positives[k]);
ctx.fillRect(x + 4 * k, 100, 3, 100 * Math.abs(negatives[k]));
}
}
}
復制代碼
　　這樣，簡(jiǎn)單的音頻采集和實(shí)時(shí)圖形繪制就完成了。最后貼一下效果圖：
　　查看全部

　　Web Audio-Browser 采集microphone 音頻數據
　　背景
　　關(guān)于Web Audio，上期小編介紹了如何解析音頻數據和繪制音頻頻譜圖，和大家一起初步了解Web Audio強大的API。在本文中，小編繼續探索Web Audio領(lǐng)域，我將向您介紹采集如何在瀏覽器中執行麥克風(fēng)音頻數據。以及如何在采集過(guò)程中繪制實(shí)時(shí)動(dòng)態(tài)音頻頻譜。
　　實(shí)施思路
　　我們還是先介紹一下整體思路。采集音頻，首先我們通過(guò)navigator.mediaDevices.getUserMedia方法獲取麥克風(fēng)并錄制聲音。（Navigator是瀏覽器的NavigatorID標準接口的實(shí)現，你可以用它來(lái)查詢(xún)當前運行腳本的應用程序的一些相關(guān)信息。這里不討論這個(gè)對象，只介紹如何使用它來(lái)錄制音頻） getUserMedia 可以用于錄制聲音獲取音頻流。然后我們使用 Web Audio 相關(guān)的 API 將音頻流轉換為實(shí)時(shí)音頻數據。最后通過(guò)canvas將實(shí)時(shí)音頻數據繪制成地圖，重復這個(gè)過(guò)程就達到動(dòng)態(tài)繪制實(shí)時(shí)地圖的效果。大體流程如下：
　　

　　獲得麥克風(fēng)權限，錄音
　　瀏覽器的安全策略規定navigator.mediaDevices.getUserMedia方法只能在https協(xié)議或localhost域名下有效。所以這里我們先用node搭建一個(gè)極簡(jiǎn)版的本地web服務(wù)器，然后獲取麥克風(fēng)權限，錄音。
　　// server.js
const http = require('http');
const path = require('path');
const fs = require('fs');
http.createServer((request, response) => {
// 請求體
console.log(new Date(), ':', JSON.stringify(request));
// 需要加載的html文件
const file = path.resolve(__dirname, './demo2.html');
// 判斷文件是否存在
fs.exists(file, exists => {
if(!exists) console.log ('文件不存在，沙雕！');
else {
response.writeHeader(200, { "Content-Type" : "text/html" });
response.end(fs.readFileSync(file, 'utf-8'));
}
});

}).listen(8090); // 監聽(tīng)8090端口
/*
* demo2.html
* 獲取麥克風(fēng)并錄制聲音
*/
let audioCtx = null; // 音頻上下文
let source = null; // 音頻源
let audioStream = null; // 錄音產(chǎn)生的音頻流
let analyserNode = null; // 用于分析音頻實(shí)時(shí)數據的節點(diǎn)
let animationFrame = null; // 定時(shí)器
function recordSound () {
navigator.mediaDevices
.getUserMedia({ 'audio': true })
.then(initAudioData)
.catch(e => {
console.log('出問(wèn)題了，沙雕:', e);
});
}
// 停止錄制
function stopRecord () {
// 關(guān)閉麥克風(fēng)
const tracks = audioStream.getAudioTracks();
for (let i = 0, len = tracks.length; i < len; i++) {
tracks[i].stop();
}
// 斷開(kāi)音頻節點(diǎn)
analyserNode.disconnect();
source.disconnect();
analyserNode = null;
source = null;
// 清除定時(shí)器
clearInterval(animationFrame);
}
// 事件綁定
document.querySelector('#record').onclick = recordSound;
document.querySelector('#stop').onclick = stopRecord;
復制代碼
　　使用 Web Audio Api 處理音頻流數據
　　獲取音頻流后，我們使用音頻上下文AudioContext來(lái)創(chuàng )建音頻源。這里選擇MediaStreamAudioSourceNode，它接收一個(gè)MediaStream對象來(lái)創(chuàng )建一個(gè)音頻源。然后我們在音頻源和目的地之間插入一個(gè)音頻節點(diǎn)來(lái)獲取和處理音頻數據，然后利用這些數據繪制波形圖。此處選擇了 AnalyserNode。當然，像 ScriptProcessorNode 和 AudioWorkletNode 這樣的節點(diǎn)也可以實(shí)現實(shí)時(shí)音頻數據的采集和處理。詳情請參考相關(guān)API。
　　// 音頻數據處理
function initAudioData (stream) {
audioStream = stream;
// 創(chuàng )建音頻上下文
audioCtx = new (window.AudioContext || window.webkitAudioContext)();
// 創(chuàng )建音頻源
source = audioCtx.createMediaStreamSource(audioStream);
// 創(chuàng )建音頻分析節點(diǎn)
analyserNode = audioCtx.createAnalyser();
// fftSize決定了能夠獲取到的音頻數據的數量
analyserNode.fftSize = 4096;
// 音頻源連接至analyserNode
source.connect(analyserNode);
// analyserNode再連接至揚聲器播放
analyserNode.connect(audioCtx.destination);
// 簡(jiǎn)單用定時(shí)器來(lái)繪制波形圖，當然也可以用requestAnimationFrame來(lái)以屏幕刷新的評率來(lái)反復執行繪制函數
animateFrame = setInterval(drawWaver, 60);
}
復制代碼
　　實(shí)時(shí)獲取音頻數據并繪制波形圖
　　AnalyserNode創(chuàng )建后，可以指定長(cháng)度實(shí)時(shí)獲取當前時(shí)間點(diǎn)的音頻時(shí)域數據，然后通過(guò)定時(shí)器或requestAnimationFrame回調重復獲取數據并執行繪制函數來(lái)實(shí)現動(dòng)態(tài)波形圖的效果。繪制方法也是通過(guò)一個(gè)Float32Array數組對象（取值范圍在-1到1之間）接收音頻時(shí)域數據，然后對數據進(jìn)行采樣。這里我們每12條數據取一個(gè)最大值和一個(gè)最小值來(lái)繪制Graphic。
　　// 繪制圖形
function drawWaver () {
const originData = new Float32Array(analyserNode.fftSize);
const positives = [];
const negatives = [];
// 獲取當前的實(shí)時(shí)音頻數據
analyserNode.getFloatTimeDomainData(originData);
// 每12位數據取一個(gè)最大值一個(gè)最小值 4096 / 12 = 341.3333
for (let i = 0; i < 341; i++) {
let temp = originData.slice(i * 12, (i + 1) * 12);
positives.push(Math.max.apply(null, temp));
negatives.push(Math.min.apply(null, temp));
}
// 創(chuàng )建canvas上下文
let canvas = document.querySelector('#canvas');
if (canvas.getContext) {
let ctx = canvas.getContext('2d');
canvas.width = positives.length * 4;
let x = 0;
let y = 100;
ctx.fillStyle = '#fa541c';
// canvas高度200，橫坐標在canvas中點(diǎn)100px的位置，橫坐標上方繪制正數據，下方繪制負數據
for (let k = 0; k < positives.length; k++) {
// 每個(gè)矩形寬3px，間隔1px，圖形總長(cháng)度即為 length * 4
ctx.fillRect(x + 4 * k, y - (100 * positives[k]), 3, 100 * positives[k]);
ctx.fillRect(x + 4 * k, 100, 3, 100 * Math.abs(negatives[k]));
}
}
}
復制代碼
　　這樣，簡(jiǎn)單的音頻采集和實(shí)時(shí)圖形繪制就完成了。最后貼一下效果圖：
　　

優(yōu)采云智能文章采集系統是什么？功能介紹及介紹

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2021-06-11 06:14 ? 來(lái)自相關(guān)話(huà)題

　　優(yōu)采云智能文章采集系統是什么？功能介紹及介紹
　　優(yōu)采云智能文章采集系統是優(yōu)采云software開(kāi)發(fā)的網(wǎng)站文章采集器系統。軟件內置智能分塊算法，可直接將html代碼和主要內容分開(kāi)，只需要輸入網(wǎng)站網(wǎng)址，軟件即可輕松準確地將采集@k14中的文章全部@。除了采集文章功能，軟件還有強大的原創(chuàng )功能，可以將采集到達的內容處理兩次，直接發(fā)布到你的網(wǎng)站，或者直接導出到txt格式本地化，功能非常強大，適合每一位站長(cháng)下載使用。
　　
　　軟件功能
　　1、智能區塊算法采集任何內容站點(diǎn)，真的傻瓜式采集
　　智能攔截算法自動(dòng)提取網(wǎng)頁(yè)正文內容，無(wú)需配置源碼規則，真的傻瓜式采集；
　　自動(dòng)去噪，可自動(dòng)過(guò)濾標題內容中的圖片\URL\電話(huà)\QQ\email等信息；
　　可以針對全球任何小語(yǔ)種，任意編碼文章采集，無(wú)亂碼；
　　多任務(wù)（多站點(diǎn)/列）多線(xiàn)程同步采集，支持代理采集，快速高效；
　　指定任何文章內容類(lèi)網(wǎng)站采集，而不是文章源
　　
　　2、Powerful 偽原創(chuàng )function
　　內置中文分詞功能，強大的近義詞和同義詞數據庫引擎，替換效率高；
　　自帶英文分詞詞庫和語(yǔ)料庫，支持TBS模式批量原創(chuàng )，保持句子語(yǔ)義流暢；
　　標題和內容可以偽原創(chuàng )單獨處理；
　　
　　3、內置主流cmsrelease接口
　　可直接導出為T(mén)XT文件，可根據標題或序號生成文件名。
　　支持wordpress、zblog、dedecms、phpcms等國內外主流cms自動(dòng)發(fā)布；
　　支持多線(xiàn)程、多任務(wù)同時(shí)發(fā)布；
　　
　　功能介紹
　　1、Content 區塊自動(dòng)識別并自動(dòng)提取任意頁(yè)面內容
　　自動(dòng)識別html代碼并過(guò)濾正文內容，完整率95%以上，只要是基于內容的頁(yè)面，都可以自動(dòng)提取。
　　2、使用代理IP模擬真實(shí)蜘蛛頭采集防止同一IP采集太多限制
　　目前很多大網(wǎng)站對同一個(gè)IP的訪(fǎng)問(wèn)過(guò)于頻繁會(huì )被限制。軟件可以使用采集的代理IP繞過(guò)限制，同時(shí)模擬真實(shí)的蜘蛛爬取采集頁(yè)面，最大程度的限制了一些大的網(wǎng)站采集頻率。
　　3、任何編碼和小語(yǔ)種采集全球小語(yǔ)種采集，無(wú)亂碼
　　一般網(wǎng)頁(yè)采集亂碼都是編碼不正確造成的。該軟件內置了世界上所有的編碼格式?？梢詾椴煌木幋a選擇采集，確保任何語(yǔ)言和任意編碼采集都不會(huì )出現亂碼。
　　4、中英文偽原創(chuàng )處理多種原創(chuàng )模式，有利于搜索引擎收錄
　　中文采用內置同義詞、同義詞數據庫替換模式，英文采用偽原創(chuàng )強大的TBS預測數據庫，保證句前句后句的流暢。同一篇文章文章的內容每次原創(chuàng )之后都會(huì )改變。
　　5、多種導出/發(fā)布模式，靈活的內容導出和發(fā)布
　　可以根據序列號或標題作為文件名直接以TXT格式導出到本地，也可以直接使用內置發(fā)布接口發(fā)布到當前主流的幾個(gè)內容cms程序，目前支持dedecms、wordpress、zblog 等
　　常見(jiàn)問(wèn)題
　　1、是否可以在任何網(wǎng)站上采集？
　　只要是本站的主要內容，如論壇、博客、文章站等都可以采集、優(yōu)采云智能文章采集系統會(huì )自動(dòng)識別正文塊并自動(dòng)提取正文內容。
　　2、采集的文章亂七八糟？
　　優(yōu)采云智能文章采集系統針對指定的網(wǎng)站采集，獲取的文章是原頁(yè)面文章的正文內容，不是源的文本字符網(wǎng)頁(yè)的代碼，但干凈的原創(chuàng )文章Content。查看全部

　　優(yōu)采云智能文章采集系統是什么？功能介紹及介紹
　　優(yōu)采云智能文章采集系統是優(yōu)采云software開(kāi)發(fā)的網(wǎng)站文章采集器系統。軟件內置智能分塊算法，可直接將html代碼和主要內容分開(kāi)，只需要輸入網(wǎng)站網(wǎng)址，軟件即可輕松準確地將采集@k14中的文章全部@。除了采集文章功能，軟件還有強大的原創(chuàng )功能，可以將采集到達的內容處理兩次，直接發(fā)布到你的網(wǎng)站，或者直接導出到txt格式本地化，功能非常強大，適合每一位站長(cháng)下載使用。
　　

　　軟件功能
　　1、智能區塊算法采集任何內容站點(diǎn)，真的傻瓜式采集
　　智能攔截算法自動(dòng)提取網(wǎng)頁(yè)正文內容，無(wú)需配置源碼規則，真的傻瓜式采集；
　　自動(dòng)去噪，可自動(dòng)過(guò)濾標題內容中的圖片\URL\電話(huà)\QQ\email等信息；
　　可以針對全球任何小語(yǔ)種，任意編碼文章采集，無(wú)亂碼；
　　多任務(wù)（多站點(diǎn)/列）多線(xiàn)程同步采集，支持代理采集，快速高效；
　　指定任何文章內容類(lèi)網(wǎng)站采集，而不是文章源
　　

　　2、Powerful 偽原創(chuàng )function
　　內置中文分詞功能，強大的近義詞和同義詞數據庫引擎，替換效率高；
　　自帶英文分詞詞庫和語(yǔ)料庫，支持TBS模式批量原創(chuàng )，保持句子語(yǔ)義流暢；
　　標題和內容可以偽原創(chuàng )單獨處理；
　　

　　3、內置主流cmsrelease接口
　　可直接導出為T(mén)XT文件，可根據標題或序號生成文件名。
　　支持wordpress、zblog、dedecms、phpcms等國內外主流cms自動(dòng)發(fā)布；
　　支持多線(xiàn)程、多任務(wù)同時(shí)發(fā)布；
　　

　　功能介紹
　　1、Content 區塊自動(dòng)識別并自動(dòng)提取任意頁(yè)面內容
　　自動(dòng)識別html代碼并過(guò)濾正文內容，完整率95%以上，只要是基于內容的頁(yè)面，都可以自動(dòng)提取。
　　2、使用代理IP模擬真實(shí)蜘蛛頭采集防止同一IP采集太多限制
　　目前很多大網(wǎng)站對同一個(gè)IP的訪(fǎng)問(wèn)過(guò)于頻繁會(huì )被限制。軟件可以使用采集的代理IP繞過(guò)限制，同時(shí)模擬真實(shí)的蜘蛛爬取采集頁(yè)面，最大程度的限制了一些大的網(wǎng)站采集頻率。
　　3、任何編碼和小語(yǔ)種采集全球小語(yǔ)種采集，無(wú)亂碼
　　一般網(wǎng)頁(yè)采集亂碼都是編碼不正確造成的。該軟件內置了世界上所有的編碼格式?？梢詾椴煌木幋a選擇采集，確保任何語(yǔ)言和任意編碼采集都不會(huì )出現亂碼。
　　4、中英文偽原創(chuàng )處理多種原創(chuàng )模式，有利于搜索引擎收錄
　　中文采用內置同義詞、同義詞數據庫替換模式，英文采用偽原創(chuàng )強大的TBS預測數據庫，保證句前句后句的流暢。同一篇文章文章的內容每次原創(chuàng )之后都會(huì )改變。
　　5、多種導出/發(fā)布模式，靈活的內容導出和發(fā)布
　　可以根據序列號或標題作為文件名直接以TXT格式導出到本地，也可以直接使用內置發(fā)布接口發(fā)布到當前主流的幾個(gè)內容cms程序，目前支持dedecms、wordpress、zblog 等
　　常見(jiàn)問(wèn)題
　　1、是否可以在任何網(wǎng)站上采集？
　　只要是本站的主要內容，如論壇、博客、文章站等都可以采集、優(yōu)采云智能文章采集系統會(huì )自動(dòng)識別正文塊并自動(dòng)提取正文內容。
　　2、采集的文章亂七八糟？
　　優(yōu)采云智能文章采集系統針對指定的網(wǎng)站采集，獲取的文章是原頁(yè)面文章的正文內容，不是源的文本字符網(wǎng)頁(yè)的代碼，但干凈的原創(chuàng )文章Content。

.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2021-06-11 01:03 ? 來(lái)自相關(guān)話(huà)題

　　.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力
　　文章實(shí)時(shí)采集到高品質(zhì)音頻，放到識別模型（musicrecognition）中降噪；文章實(shí)時(shí)采集到低品質(zhì)音頻，放到識別模型（musicrecognition）中增強語(yǔ)言表達能力；在北京郵電大學(xué)，我們先實(shí)現了第一段：rtp項目介紹：rtp是一個(gè)發(fā)布式的識別平臺，使用postscript格式的文本作為輸入。
　　該平臺基于webkit內核，遵循bottleneck（最佳分離問(wèn)題）的算法思想，采用kaldi作為識別引擎?？傮w而言，模型的確很棒，不遜于waves；里面也有wavenet（大小為5m）的訓練代碼：pre-processing：將一條音頻處理成waves格式文本reallifecycle：循環(huán)部署模型webpack：將webpack部署到服務(wù)器music.js中，配置完成，即可上線(xiàn)model/rtp.js：提供接口（從rtp.js引入其他模型）rtcar.js：提供接口（提供音頻編碼器）rtcar-engine.js：提供接口（提供識別相關(guān)的協(xié)議（最常用的tcp），tls等等）model/rtcar.js：提供接口（提供音頻編碼器）為了節省流量，我們也實(shí)現了微信小程序的接入功能：用微信小程序即可訪(fǎng)問(wèn)這個(gè)音頻，wechatweixinisalloveryou！具體看代碼：#thisisourinstancewx:itisagpusteaminthebalancedgoogleaiforrtt,oftennotoveruserspeech#pathnamewarningnothismoduleisusedonanychannelrtp;rtcar:;pathnamemustbeusedinengines#pathname#warningthismoduleisusedinengines-name.wx#instancetop_gidasasummaryofpathname#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines-name.assets.wxthismoduleisusedinengines#pathname#either.wxor.wx#eitheror#or#instancegid#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathnameendifyouarenotgoingtosendartcarasasummaryofsound,youmustreachwhatweget.#endmessage#enddataexport{'rtp':['/rtcar.js'],'rtcar':['/rtcar.wx']}。查看全部

　　.js：基于webkit內核，放到識別模型中增強語(yǔ)言表達能力
　　文章實(shí)時(shí)采集到高品質(zhì)音頻，放到識別模型（musicrecognition）中降噪；文章實(shí)時(shí)采集到低品質(zhì)音頻，放到識別模型（musicrecognition）中增強語(yǔ)言表達能力；在北京郵電大學(xué)，我們先實(shí)現了第一段：rtp項目介紹：rtp是一個(gè)發(fā)布式的識別平臺，使用postscript格式的文本作為輸入。
　　該平臺基于webkit內核，遵循bottleneck（最佳分離問(wèn)題）的算法思想，采用kaldi作為識別引擎?？傮w而言，模型的確很棒，不遜于waves；里面也有wavenet（大小為5m）的訓練代碼：pre-processing：將一條音頻處理成waves格式文本reallifecycle：循環(huán)部署模型webpack：將webpack部署到服務(wù)器music.js中，配置完成，即可上線(xiàn)model/rtp.js：提供接口（從rtp.js引入其他模型）rtcar.js：提供接口（提供音頻編碼器）rtcar-engine.js：提供接口（提供識別相關(guān)的協(xié)議（最常用的tcp），tls等等）model/rtcar.js：提供接口（提供音頻編碼器）為了節省流量，我們也實(shí)現了微信小程序的接入功能：用微信小程序即可訪(fǎng)問(wèn)這個(gè)音頻，wechatweixinisalloveryou！具體看代碼：#thisisourinstancewx:itisagpusteaminthebalancedgoogleaiforrtt,oftennotoveruserspeech#pathnamewarningnothismoduleisusedonanychannelrtp;rtcar:;pathnamemustbeusedinengines#pathname#warningthismoduleisusedinengines-name.wx#instancetop_gidasasummaryofpathname#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines-name.assets.wxthismoduleisusedinengines#pathname#either.wxor.wx#eitheror#or#instancegid#warningthismoduleisusedinengines#pathname#warningthismoduleisusedinengines#pathnameendifyouarenotgoingtosendartcarasasummaryofsound,youmustreachwhatweget.#endmessage#enddataexport{'rtp':['/rtcar.js'],'rtcar':['/rtcar.wx']}。

微播易利用大數據幫助廣告主實(shí)現智能化結案報告

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 129 次瀏覽 ? 2021-06-10 23:06 ? 來(lái)自相關(guān)話(huà)題

　　微播易利用大數據幫助廣告主實(shí)現智能化結案報告
　　繼自媒體寫(xiě)真和KOL透視鏡之后，微博易再次推出重磅數據產(chǎn)品——快采集。
　　Quick采集是一款可以實(shí)時(shí)抓取KOL內容并進(jìn)行數據效果的產(chǎn)品。
　　
　　可以幫助廣告主采集到KOL在微信、微博平臺發(fā)布內容，以及閱讀、評論等業(yè)績(jì)數據，并可以快速生成廣告主的報告，促進(jìn)項目的傳播這個(gè)計劃很好理解。這也是微博一利用大數據幫助廣告主實(shí)現智能結案報告的重要舉措。
　　監控交付效果是項目收尾報告的核心內容，也是實(shí)現閉環(huán)營(yíng)銷(xiāo)的“最后一公里”。
　　以往，在總結投放效果數據時(shí)，高管們通常要不斷地核對KOL內容傳播數據，并繪制表格。不僅工作量巨大，而且工作內容機械化、重復、容易出錯。一旦品牌方需要提供不同日期的傳播效果數據，高管就需要返工，重復工作。這大大降低了工作效率。
　　“Quick采集”產(chǎn)品的推出將徹底解決這個(gè)問(wèn)題。只需輸入內容鏈??接，系統即可快速生成結案報告，簡(jiǎn)單、快捷、準確、高效。
　　如何獲取和使用“Quick采集”產(chǎn)品？
　　您需要登錄官方Weiboyi網(wǎng)站，在網(wǎng)站首頁(yè)左上角的數據產(chǎn)品欄中選擇“快采集”。
　　
　　
　　進(jìn)入“Quick采集”查詢(xún)頁(yè)面后，系統會(huì )引導您完成“輸入鏈接-確認鏈接-確認任務(wù)信息-任務(wù)提交完成”四個(gè)查詢(xún)步驟。
　　首先需要輸入微信圖文鏈接或新浪微博博客鏈接，每次最多50條，產(chǎn)品將獨立判斷鏈接的有效性，并對多個(gè)鏈接進(jìn)行序列號識別。
　　目前“Quick采集”暫時(shí)支持微信、微博內容鏈接查詢(xún)，即將上線(xiàn)抓取短視頻內容效果數據。查看全部

　　微播易利用大數據幫助廣告主實(shí)現智能化結案報告
　　繼自媒體寫(xiě)真和KOL透視鏡之后，微博易再次推出重磅數據產(chǎn)品——快采集。
　　Quick采集是一款可以實(shí)時(shí)抓取KOL內容并進(jìn)行數據效果的產(chǎn)品。
　　

　　可以幫助廣告主采集到KOL在微信、微博平臺發(fā)布內容，以及閱讀、評論等業(yè)績(jì)數據，并可以快速生成廣告主的報告，促進(jìn)項目的傳播這個(gè)計劃很好理解。這也是微博一利用大數據幫助廣告主實(shí)現智能結案報告的重要舉措。
　　監控交付效果是項目收尾報告的核心內容，也是實(shí)現閉環(huán)營(yíng)銷(xiāo)的“最后一公里”。
　　以往，在總結投放效果數據時(shí)，高管們通常要不斷地核對KOL內容傳播數據，并繪制表格。不僅工作量巨大，而且工作內容機械化、重復、容易出錯。一旦品牌方需要提供不同日期的傳播效果數據，高管就需要返工，重復工作。這大大降低了工作效率。
　　“Quick采集”產(chǎn)品的推出將徹底解決這個(gè)問(wèn)題。只需輸入內容鏈??接，系統即可快速生成結案報告，簡(jiǎn)單、快捷、準確、高效。
　　如何獲取和使用“Quick采集”產(chǎn)品？
　　您需要登錄官方Weiboyi網(wǎng)站，在網(wǎng)站首頁(yè)左上角的數據產(chǎn)品欄中選擇“快采集”。
　　

　　

　　進(jìn)入“Quick采集”查詢(xún)頁(yè)面后，系統會(huì )引導您完成“輸入鏈接-確認鏈接-確認任務(wù)信息-任務(wù)提交完成”四個(gè)查詢(xún)步驟。
　　首先需要輸入微信圖文鏈接或新浪微博博客鏈接，每次最多50條，產(chǎn)品將獨立判斷鏈接的有效性，并對多個(gè)鏈接進(jìn)行序列號識別。
　　目前“Quick采集”暫時(shí)支持微信、微博內容鏈接查詢(xún)，即將上線(xiàn)抓取短視頻內容效果數據。

基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2021-06-09 23:27 ? 來(lái)自相關(guān)話(huà)題

　　基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集
　　簡(jiǎn)介
　　在大量的數據采集場(chǎng)景中，Flume是一個(gè)高性能的采集日志工具，相信大家都知道。很多人認為Flume是一個(gè)組件，大多數人能想到的就是Flume和Kafka的結合，用于日志采集。該解決方案具有許多優(yōu)點(diǎn)，例如高性能、高吞吐量和數據可靠性。但是如果我們在日志上要求實(shí)時(shí)采集，這顯然不是一個(gè)好的解決方案。原因如下：
　　目前，Flume 可以支持對目錄中的數據文件進(jìn)行實(shí)時(shí)監控。一旦某個(gè)目錄下的文件采集完成，就會(huì )標上完成標記。如果以后有數據進(jìn)入這個(gè)文件，Flume 將不會(huì )被檢測到。
　　所以，我們大多使用這個(gè)方案來(lái)定時(shí)采集，只要生成一個(gè)新的數據目錄，我們就會(huì )采集這個(gè)目錄下的數據文件。
　　那么這篇文章就給大家介紹采集基于Openresty+Lua+Kafka的實(shí)時(shí)日志。
　　要求
　　很多時(shí)候，我們需要對用戶(hù)的埋點(diǎn)數據進(jìn)行實(shí)時(shí)采集，然后利用這些數據對用戶(hù)的行為做一些實(shí)時(shí)分析。所以，第一步當然是解決如何進(jìn)行實(shí)時(shí)數據采集。
　　我們這里使用的方案是Openresty+Lua+Kafka。
　　原理介紹
　　那么什么是 Openresty？這是官方引用：
　　OpenResty 是一個(gè)基于 Nginx 和 Lua 的高性能網(wǎng)絡(luò )平臺。它集成了大量復雜的 Lua 庫、第三方模塊及其大部分依賴(lài)項。用于方便地構建可處理超高并發(fā)和高擴展性的動(dòng)態(tài)Web應用、Web服務(wù)和動(dòng)態(tài)網(wǎng)關(guān)。
　　OpenResty 集成了各種精心設計的 Nginx 模塊，有效地將 Nginx 變成了一個(gè)強大的通用 Web 應用程序平臺。這樣，Web 開(kāi)發(fā)人員和系統工程師可以使用 Lu 腳本語(yǔ)言來(lái)調動(dòng) Nginx 支持的各種 C 和 Lua 模塊，快速構建一個(gè)能夠支持 10K 甚至超過(guò) 1000 個(gè)單機并發(fā)連接的高性能 Web 應用系統。
　　OpenResty 的目標是讓你的 web 服務(wù)直接運行在 Nginx 服務(wù)內部，充分利用 Nginx 的非阻塞 I/O 模型，不僅可以用于 HTTP 客戶(hù)端請求，甚至可以用于 MySQL、PostgreSQL 等遠程后端、Memcached 和 Redis 等具有一致的高性能響應。
　　簡(jiǎn)單的說(shuō)就是通過(guò)客戶(hù)端的請求，通過(guò)Nginx將用戶(hù)的數據傳遞到我們指定的地方（Kafka）（本文指的是用戶(hù)的行為日志），而為了實(shí)現這個(gè)需求，我們使用了一個(gè)Lua腳本，因為Openresty封裝了各種Lua模塊，其中之一就是分裝Kafka模塊，我們只需要寫(xiě)一個(gè)簡(jiǎn)單的腳本就可以通過(guò)Nginx將用戶(hù)的數據轉發(fā)到Kafka，供后續消費數據使用。
　　這里有一個(gè)架構圖供大家理解：
　　
　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據。針對不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同主題。
　　2.實(shí)時(shí)采集用戶(hù)觸發(fā)的埋點(diǎn)數據
　　3.高度可靠的集群。由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，相比tomcat、apache等web服務(wù)器，Nginx的并發(fā)量遠高于其他兩個(gè)。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　接下來(lái)我們來(lái)做一些實(shí)際的練習。
　　安裝 Openresty
　　本示例使用獨立部署形式。單機部署成功后，集群作為單機搭建，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本時(shí)需要用到lua模塊中的一些Kafka依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于大家對Kafka比較熟悉，這里就不介紹它的安裝了。
　　安裝Openresty后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.開(kāi)始服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的過(guò)程，證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求做一個(gè)簡(jiǎn)單的測試看Kafka能否接受數據
　　
　　7.kafka 消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log相關(guān)的錯誤日志進(jìn)行調整
　　總結
　　使用Openresty+Lua+Kafka可以將用戶(hù)的埋點(diǎn)數據采集實(shí)時(shí)傳輸到kafka集群，而且Openresty是基于Nginx的，Nginx可以處理幾萬(wàn)并發(fā)，所以即使用戶(hù)的數據隨著(zhù)時(shí)間的激增，這種架構可以輕松應對，而不會(huì )導致集群崩潰。另一方面，如果數據太多導致集群過(guò)載，我們也可以隨時(shí)多加一臺機器，非常方便。
　　另外一個(gè)小擴展：如果有很多業(yè)務(wù)數據需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，但是可以聯(lián)系后端添加一個(gè)json格式的字段，取值該字段的是主題的名稱(chēng)。我們只需要寫(xiě)一個(gè)通用腳本，解析Json數據，取出主題名即可。
　　
　　關(guān)于尋找教程網(wǎng)絡(luò ) 查看全部

　　基于Openresty+Lua+Kafka對日志進(jìn)行實(shí)時(shí)的實(shí)時(shí)采集
　　簡(jiǎn)介
　　在大量的數據采集場(chǎng)景中，Flume是一個(gè)高性能的采集日志工具，相信大家都知道。很多人認為Flume是一個(gè)組件，大多數人能想到的就是Flume和Kafka的結合，用于日志采集。該解決方案具有許多優(yōu)點(diǎn)，例如高性能、高吞吐量和數據可靠性。但是如果我們在日志上要求實(shí)時(shí)采集，這顯然不是一個(gè)好的解決方案。原因如下：
　　目前，Flume 可以支持對目錄中的數據文件進(jìn)行實(shí)時(shí)監控。一旦某個(gè)目錄下的文件采集完成，就會(huì )標上完成標記。如果以后有數據進(jìn)入這個(gè)文件，Flume 將不會(huì )被檢測到。
　　所以，我們大多使用這個(gè)方案來(lái)定時(shí)采集，只要生成一個(gè)新的數據目錄，我們就會(huì )采集這個(gè)目錄下的數據文件。
　　那么這篇文章就給大家介紹采集基于Openresty+Lua+Kafka的實(shí)時(shí)日志。
　　要求
　　很多時(shí)候，我們需要對用戶(hù)的埋點(diǎn)數據進(jìn)行實(shí)時(shí)采集，然后利用這些數據對用戶(hù)的行為做一些實(shí)時(shí)分析。所以，第一步當然是解決如何進(jìn)行實(shí)時(shí)數據采集。
　　我們這里使用的方案是Openresty+Lua+Kafka。
　　原理介紹
　　那么什么是 Openresty？這是官方引用：
　　OpenResty 是一個(gè)基于 Nginx 和 Lua 的高性能網(wǎng)絡(luò )平臺。它集成了大量復雜的 Lua 庫、第三方模塊及其大部分依賴(lài)項。用于方便地構建可處理超高并發(fā)和高擴展性的動(dòng)態(tài)Web應用、Web服務(wù)和動(dòng)態(tài)網(wǎng)關(guān)。
　　OpenResty 集成了各種精心設計的 Nginx 模塊，有效地將 Nginx 變成了一個(gè)強大的通用 Web 應用程序平臺。這樣，Web 開(kāi)發(fā)人員和系統工程師可以使用 Lu 腳本語(yǔ)言來(lái)調動(dòng) Nginx 支持的各種 C 和 Lua 模塊，快速構建一個(gè)能夠支持 10K 甚至超過(guò) 1000 個(gè)單機并發(fā)連接的高性能 Web 應用系統。
　　OpenResty 的目標是讓你的 web 服務(wù)直接運行在 Nginx 服務(wù)內部，充分利用 Nginx 的非阻塞 I/O 模型，不僅可以用于 HTTP 客戶(hù)端請求，甚至可以用于 MySQL、PostgreSQL 等遠程后端、Memcached 和 Redis 等具有一致的高性能響應。
　　簡(jiǎn)單的說(shuō)就是通過(guò)客戶(hù)端的請求，通過(guò)Nginx將用戶(hù)的數據傳遞到我們指定的地方（Kafka）（本文指的是用戶(hù)的行為日志），而為了實(shí)現這個(gè)需求，我們使用了一個(gè)Lua腳本，因為Openresty封裝了各種Lua模塊，其中之一就是分裝Kafka模塊，我們只需要寫(xiě)一個(gè)簡(jiǎn)單的腳本就可以通過(guò)Nginx將用戶(hù)的數據轉發(fā)到Kafka，供后續消費數據使用。
　　這里有一個(gè)架構圖供大家理解：
　　

　　這里簡(jiǎn)單總結一下使用Openresty+Lua+Kafka的優(yōu)勢：
　　1.支持多種業(yè)務(wù)數據。針對不同的業(yè)務(wù)數據，只需要配置不同的Lua腳本，就可以將不同的業(yè)務(wù)數據發(fā)送到Kafka中的不同主題。
　　2.實(shí)時(shí)采集用戶(hù)觸發(fā)的埋點(diǎn)數據
　　3.高度可靠的集群。由于Openresty基于Nginx，其集群具有非常高的性能和穩定性。
　　4.高并發(fā)，相比tomcat、apache等web服務(wù)器，Nginx的并發(fā)量遠高于其他兩個(gè)。一般情況下，處理幾萬(wàn)并發(fā)并不難。
　　接下來(lái)我們來(lái)做一些實(shí)際的練習。
　　安裝 Openresty
　　本示例使用獨立部署形式。單機部署成功后，集群作為單機搭建，只是在不同的機器上執行相同的步驟。
　　注：本實(shí)驗基于centos7.0操作系統
　　1.下載 Openresty 依賴(lài)：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.編譯安裝Openresty：
　　#1.安裝openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安裝文件所在目錄
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目錄為/opt/openresty,默認在/usr/local。
./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install
　　3.安裝 lua-resty-kafka
　　因為我們需要通過(guò)nginx+lua腳本將數據轉發(fā)到Kafka，所以在編寫(xiě)lua腳本時(shí)需要用到lua模塊中的一些Kafka依賴(lài)。
　　#下載lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷貝kafka相關(guān)依賴(lài)腳本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注意：由于大家對Kafka比較熟悉，這里就不介紹它的安裝了。
　　安裝Openresty后，目錄結構如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　編輯/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用戶(hù)
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
}
http {
include mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf這個(gè)文件名字可自定義
}
　　編輯/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #監聽(tīng)端口
server_name 192.168.3.215; #埋點(diǎn)日志的ip地址或域名，多個(gè)域名之間用空格分開(kāi)
root html; #root指令用于指定虛擬主機的網(wǎng)頁(yè)根目錄，這個(gè)目錄可以是相對路徑，也可以是絕對路徑。
lua_need_request_body on; #打開(kāi)獲取消息體的開(kāi)關(guān)，以便能獲取到消息體
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua腳本
}
}
　　編輯/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#創(chuàng )建目錄mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#編輯內存如下：
　　-- require需要resty.kafka.producer的lua腳本，沒(méi)有會(huì )報錯
local producer = require("resty.kafka.producer")
-- kafka的集群信息，單機也是可以的
local broker_list = {
{host = "192.168.3.215", port = 9092},
}
-- 定義最終kafka接受到的數據是怎樣的json格式
local log_json = {}
--增加read_body之后即可獲取到消息體，默認情況下可能會(huì )是nil
log_json["body"] = ngx.req.read_body()
log_json["body_data"] = ngx.req.get_body_data()
-- 定義kafka同步生產(chǎn)者，也可設置為異步 async
-- -- 注意?。?！當設置為異步時(shí)，在測試環(huán)境需要修改batch_num,默認是200條，若大不到200條kafka端接受不到消息
-- -- encode()將log_json日志轉換為字符串
-- -- 發(fā)送日志消息,send配套之第一個(gè)參數topic:
-- -- 發(fā)送日志消息,send配套之第二個(gè)參數key,用于kafka路由控制:
-- -- key為nill(空)時(shí)，一段時(shí)間向同一partition寫(xiě)入數據
-- -- 指定key，按照key的hash寫(xiě)入到對應的partition
-- -- batch_num修改為1方便測試
local bp = producer:new(broker_list, { producer_type = "async",batch_num = 1 })
-- local bp = producer:new(broker_list)
local cjson = require("cjson.safe")
local sendMsg = cjson.encode(log_json)
local ok, err = bp:send("testMessage",nil, sendMsg)
if not ok then
ngx.log(ngx.ERR, 'kafka send err:', err)
elseif ok then
ngx.say("the message send successful")
else
ngx.say("未知錯誤")
end
　　5.開(kāi)始服務(wù)運行：
　　useradd nginx #創(chuàng )建用戶(hù)
passwd nginx #設置密碼
#設置openresty的所有者nginx
chown -R nginx:nginx /opt/openresty/
#啟動(dòng)服務(wù)
cd /opt/openresty/nginx/sbin
./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看服務(wù)：
ps -aux | grep nginx
nginx 2351 0.0 0.1 231052 46444 ? S Mar30 0:33 nginx: worker process
nginx 2352 0.0 0.1 233396 48540 ? S Mar30 0:35 nginx: worker process
nginx 2353 0.0 0.1 233396 48536 ? S Mar30 0:33 nginx: worker process
nginx 2354 0.0 0.1 232224 47464 ? S Mar30 0:34 nginx: worker process
nginx 2355 0.0 0.1 231052 46404 ? S Mar30 0:33 nginx: worker process
nginx 2356 0.0 0.1 232224 47460 ? S Mar30 0:34 nginx: worker process
nginx 2357 0.0 0.1 231052 46404 ? S Mar30 0:34 nginx: worker process
nginx 2358 0.0 0.1 232224 47484 ? S Mar30 0:34 nginx: worker process
root 7009 0.0 0.0 185492 2516 ? Ss Mar24 0:00 nginx: master process ./nginx -c /opt/openresty/nginx/conf/nginx.conf
查看端口：
netstat -anput | grep 8887
tcp 0 0 0.0.0.0:8887 0.0.0.0:* LISTEN 2351/nginx: worke
　　看到上面的過(guò)程，證明服務(wù)運行正常
　　6.使用postman發(fā)送post請求做一個(gè)簡(jiǎn)單的測試看Kafka能否接受數據
　　

　　7.kafka 消費數據：
　　kafka-console-consumer --bootstrap-server 192.168.3.215:9092 --topic testMessage --from-beginning
　　如果數據被消費，則配置成功。如果沒(méi)有調整，可以查看/var/log/nginx/message.access.log和/var/log/nginx/message.error.log相關(guān)的錯誤日志進(jìn)行調整
　　總結
　　使用Openresty+Lua+Kafka可以將用戶(hù)的埋點(diǎn)數據采集實(shí)時(shí)傳輸到kafka集群，而且Openresty是基于Nginx的，Nginx可以處理幾萬(wàn)并發(fā)，所以即使用戶(hù)的數據隨著(zhù)時(shí)間的激增，這種架構可以輕松應對，而不會(huì )導致集群崩潰。另一方面，如果數據太多導致集群過(guò)載，我們也可以隨時(shí)多加一臺機器，非常方便。
　　另外一個(gè)小擴展：如果有很多業(yè)務(wù)數據需要發(fā)送到不同的topic，我們不需要寫(xiě)多個(gè)腳本，但是可以聯(lián)系后端添加一個(gè)json格式的字段，取值該字段的是主題的名稱(chēng)。我們只需要寫(xiě)一個(gè)通用腳本，解析Json數據，取出主題名即可。
　　

　　關(guān)于尋找教程網(wǎng)絡(luò )

mysql+phpsqlite+javawebserver(spring)：建議運行別的框架

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2021-06-06 06:02 ? 來(lái)自相關(guān)話(huà)題

　　mysql+phpsqlite+javawebserver(spring)：建議運行別的框架
　　文章實(shí)時(shí)采集數據清洗數據導入：mysql，oracle要導入mysql可以使用你所使用的etl工具比如spark?？梢詮木W(wǎng)上下載rstudio，導入rstudio，根據需要導入即可。更多精彩，請訪(fǎng)問(wèn)官網(wǎng)。ps:內含大量美圖。
　　mysql+phpsqlite+javawebserver(spring)
　　第一步：tomcat請求第二步：java處理第三步：web服務(wù)器接受請求
　　php跨mysql連接（建議用github開(kāi)源web實(shí)現）oracle服務(wù)器，
　　這邊我比較了一下別人的集中頁(yè)面發(fā)現出現卡頓了。所以我看了一下我的mysql,2.7一切正常，0.05也沒(méi)出現卡頓，但是0.7和0.8不正常，可能是因為某些語(yǔ)句有要優(yōu)化或者其他的，建議等我把問(wèn)題找出來(lái)看看有沒(méi)有解決辦法。
　　1:xmldescription要對應起來(lái)如，“產(chǎn)品首頁(yè)”||“企業(yè)搜索首頁(yè)”&&“tencent旗下網(wǎng)站首頁(yè)”2:&3:web服務(wù)器要正常運行，
　　運行web程序應該不需要java才會(huì )卡。建議運行別的框架，
　　第一個(gè)問(wèn)題很簡(jiǎn)單,樓上沒(méi)有說(shuō)不是tomcat嗎?如果你能拿到現成的tomcat那么用tomcat我覺(jué)得沒(méi)問(wèn)題,一般網(wǎng)站都會(huì )配jdk吧,你這個(gè)是內部比較私密的頁(yè)面也應該不會(huì )用到,那么就可以丟開(kāi)tomcat,直接讓代碼在瀏覽器執行。第二個(gè)問(wèn)題，題主想問(wèn)的其實(shí)不是性能,而是包容性和擴展性。我記得曾經(jīng)有段時(shí)間,說(shuō)可以用restful服務(wù)器來(lái)實(shí)現fullpage窗口的方法,甚至比servlet差遠了。我想說(shuō)的是,如果是orm的話(huà),擴展性的問(wèn)題將會(huì )非常嚴重。建議:。
　　1)先把框架理清楚,不一定非要用apache,可以asyncio+thrift,同時(shí)可以做的事情非常多,比如共享緩存(在網(wǎng)絡(luò )請求到達的時(shí)候進(jìn)行本地緩存)、圖片和視頻處理(服務(wù)器端看到的這個(gè)時(shí)候是這個(gè)地址)、定時(shí)觸發(fā)器(每隔一段時(shí)間執行某個(gè)命令)、數據抽取(存到本地緩存中)、不同用戶(hù)的一些本地鍵對鍵的引用等等。
　　2)好好學(xué)習一下tomcat的基礎知識,上面有一些很基礎的知識,在你公司里經(jīng)常用到的。
　　3)編程語(yǔ)言,盡量避免一些被淘汰的語(yǔ)言,畢竟java是oracle和谷歌的根基,不能出問(wèn)題就賴(lài)到某個(gè)語(yǔ)言身上。我目前發(fā)現一些java很久以前的框架,比如activemq(這兩年變化很大,畢竟新框架都用rmi調用,io也可以解決這個(gè)問(wèn)題),其實(shí)還是挺不錯的,例如:mina(異步分布式緩存系統)、workerman(高性能)、protobuf(數據傳輸算法)等等。也可以考慮用python,加上幾個(gè)不錯的數據庫庫直接跟爬蟲(chóng)聯(lián)動(dòng)。查看全部

　　mysql+phpsqlite+javawebserver(spring)：建議運行別的框架
　　文章實(shí)時(shí)采集數據清洗數據導入：mysql，oracle要導入mysql可以使用你所使用的etl工具比如spark?？梢詮木W(wǎng)上下載rstudio，導入rstudio，根據需要導入即可。更多精彩，請訪(fǎng)問(wèn)官網(wǎng)。ps:內含大量美圖。
　　mysql+phpsqlite+javawebserver(spring)
　　第一步：tomcat請求第二步：java處理第三步：web服務(wù)器接受請求
　　php跨mysql連接（建議用github開(kāi)源web實(shí)現）oracle服務(wù)器，
　　這邊我比較了一下別人的集中頁(yè)面發(fā)現出現卡頓了。所以我看了一下我的mysql,2.7一切正常，0.05也沒(méi)出現卡頓，但是0.7和0.8不正常，可能是因為某些語(yǔ)句有要優(yōu)化或者其他的，建議等我把問(wèn)題找出來(lái)看看有沒(méi)有解決辦法。
　　1:xmldescription要對應起來(lái)如，“產(chǎn)品首頁(yè)”||“企業(yè)搜索首頁(yè)”&&“tencent旗下網(wǎng)站首頁(yè)”2:&3:web服務(wù)器要正常運行，
　　運行web程序應該不需要java才會(huì )卡。建議運行別的框架，
　　第一個(gè)問(wèn)題很簡(jiǎn)單,樓上沒(méi)有說(shuō)不是tomcat嗎?如果你能拿到現成的tomcat那么用tomcat我覺(jué)得沒(méi)問(wèn)題,一般網(wǎng)站都會(huì )配jdk吧,你這個(gè)是內部比較私密的頁(yè)面也應該不會(huì )用到,那么就可以丟開(kāi)tomcat,直接讓代碼在瀏覽器執行。第二個(gè)問(wèn)題，題主想問(wèn)的其實(shí)不是性能,而是包容性和擴展性。我記得曾經(jīng)有段時(shí)間,說(shuō)可以用restful服務(wù)器來(lái)實(shí)現fullpage窗口的方法,甚至比servlet差遠了。我想說(shuō)的是,如果是orm的話(huà),擴展性的問(wèn)題將會(huì )非常嚴重。建議:。
　　1)先把框架理清楚,不一定非要用apache,可以asyncio+thrift,同時(shí)可以做的事情非常多,比如共享緩存(在網(wǎng)絡(luò )請求到達的時(shí)候進(jìn)行本地緩存)、圖片和視頻處理(服務(wù)器端看到的這個(gè)時(shí)候是這個(gè)地址)、定時(shí)觸發(fā)器(每隔一段時(shí)間執行某個(gè)命令)、數據抽取(存到本地緩存中)、不同用戶(hù)的一些本地鍵對鍵的引用等等。
　　2)好好學(xué)習一下tomcat的基礎知識,上面有一些很基礎的知識,在你公司里經(jīng)常用到的。
　　3)編程語(yǔ)言,盡量避免一些被淘汰的語(yǔ)言,畢竟java是oracle和谷歌的根基,不能出問(wèn)題就賴(lài)到某個(gè)語(yǔ)言身上。我目前發(fā)現一些java很久以前的框架,比如activemq(這兩年變化很大,畢竟新框架都用rmi調用,io也可以解決這個(gè)問(wèn)題),其實(shí)還是挺不錯的,例如:mina(異步分布式緩存系統)、workerman(高性能)、protobuf(數據傳輸算法)等等。也可以考慮用python,加上幾個(gè)不錯的數據庫庫直接跟爬蟲(chóng)聯(lián)動(dòng)。

文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 213 次瀏覽 ? 2021-05-24 03:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究
　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究，這有點(diǎn)類(lèi)似于你爬爬下一個(gè)網(wǎng)站的數據，查看最新文件后續在文章進(jìn)行工作一樣，但這是可以向導的方式對數據集進(jìn)行整理管理。也就是說(shuō)數據集其實(shí)已經(jīng)是研究人員擁有的數據集了，具體如何編寫(xiě)代碼進(jìn)行展示，是另一個(gè)實(shí)際工作的事情了。首先爬數據當然選擇爬爬網(wǎng)站或者爬蟲(chóng)，但我們又要實(shí)現什么功能呢？有的人可能會(huì )說(shuō)這個(gè)怎么可能？不就是爬爬就可以了嗎？實(shí)際上這些都是沒(méi)有代碼生成，沒(méi)有代碼生成當然也就沒(méi)有生成數據集。
　　因此我認為這里實(shí)現的功能大致有如下功能：【注冊登錄】實(shí)現一個(gè)注冊登錄的功能；【新媒體矩陣】實(shí)現一個(gè)新媒體矩陣功能；【文章相關(guān)字段判斷】實(shí)現文章中每個(gè)字段與字段的相關(guān)性【后續通過(guò)郵件通知】后續系統與郵件通知文章相關(guān)字段的生成與修改問(wèn)題來(lái)了，這些功能怎么實(shí)現呢？如果使用frozenbird。那么mydata.frozenbird.app必須定義和引入你自己定義的函數，其他的生成、搜索等可以使用到frozenbird中已經(jīng)定義好的函數，然后在服務(wù)器中定義配置來(lái)實(shí)現；如果使用python2的話(huà)，建議你找一個(gè)已經(jīng)定義好的或者你認為開(kāi)發(fā)過(guò)程中需要使用到的command，然后使用pythonapp進(jìn)行調用。
　　如果使用python3的話(huà)，pip3installpandas、pandas_datareader、pandas_tf等，如果你自己開(kāi)發(fā)相關(guān)框架，也可以自己根據需要進(jìn)行定義。查看全部

　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究
　　文章實(shí)時(shí)采集到的數據文件作為一個(gè)數據集進(jìn)行研究，這有點(diǎn)類(lèi)似于你爬爬下一個(gè)網(wǎng)站的數據，查看最新文件后續在文章進(jìn)行工作一樣，但這是可以向導的方式對數據集進(jìn)行整理管理。也就是說(shuō)數據集其實(shí)已經(jīng)是研究人員擁有的數據集了，具體如何編寫(xiě)代碼進(jìn)行展示，是另一個(gè)實(shí)際工作的事情了。首先爬數據當然選擇爬爬網(wǎng)站或者爬蟲(chóng)，但我們又要實(shí)現什么功能呢？有的人可能會(huì )說(shuō)這個(gè)怎么可能？不就是爬爬就可以了嗎？實(shí)際上這些都是沒(méi)有代碼生成，沒(méi)有代碼生成當然也就沒(méi)有生成數據集。
　　因此我認為這里實(shí)現的功能大致有如下功能：【注冊登錄】實(shí)現一個(gè)注冊登錄的功能；【新媒體矩陣】實(shí)現一個(gè)新媒體矩陣功能；【文章相關(guān)字段判斷】實(shí)現文章中每個(gè)字段與字段的相關(guān)性【后續通過(guò)郵件通知】后續系統與郵件通知文章相關(guān)字段的生成與修改問(wèn)題來(lái)了，這些功能怎么實(shí)現呢？如果使用frozenbird。那么mydata.frozenbird.app必須定義和引入你自己定義的函數，其他的生成、搜索等可以使用到frozenbird中已經(jīng)定義好的函數，然后在服務(wù)器中定義配置來(lái)實(shí)現；如果使用python2的話(huà)，建議你找一個(gè)已經(jīng)定義好的或者你認為開(kāi)發(fā)過(guò)程中需要使用到的command，然后使用pythonapp進(jìn)行調用。
　　如果使用python3的話(huà)，pip3installpandas、pandas_datareader、pandas_tf等，如果你自己開(kāi)發(fā)相關(guān)框架，也可以自己根據需要進(jìn)行定義。

【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2021-05-03 20:12 ? 來(lái)自相關(guān)話(huà)題

　　【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明
　　項目說(shuō)明
　　
　　1、當用戶(hù)在瀏覽器中單擊產(chǎn)品以對產(chǎn)品進(jìn)行評分時(shí)，將調用產(chǎn)品服務(wù)的界面。
　　2、評分界面通過(guò)記錄器將用戶(hù)，產(chǎn)品，評分和其他信息輸出到文件中。
　　3、 Flume監視日志文件，并通過(guò)日志主題將日志信息發(fā)送到Kafka。
　　4、清潔服務(wù)接收從日志主題發(fā)送的消息，并通過(guò)關(guān)鍵字過(guò)濾掉有效信息，然后通過(guò)推薦主題將有效信息發(fā)送給Kafka。
　　5、推薦服務(wù)接收推薦者主題的消息，并在一系列處理（例如實(shí)時(shí)算法處理）之后將其推送給用戶(hù)。
　　工具安裝JDK安裝
　　JDK下載鏈接
　　下載jdk-8u281-linux-x6 4. tar.gz壓縮包，并將其解壓縮到hadoop用戶(hù)主目錄的jvm文件夾中
　　cd ~
mkdir jvm
tar -zxf jdk-8u281-linux-x64.tar.gz -C jvm
　　編輯環(huán)境變量：
　　vim ~/.bashrc
　　添加JAVA_HOME：
　　export JAVA_HOME=/home/hadoop/jvm/jdk1.8.0_281
export PATH=$JAVA_HOME/bin
　　使環(huán)境變量生效：
　　source ~/.bashrc
　　檢查Java版本：
　　java -version
　　檢查環(huán)境變量是否正確：
　　# 檢驗變量值
echo $JAVA_HOME
　　java -version
# 與直接執行 java -version 一樣
$JAVA_HOME/bin/java -version
　　Zookeeper安裝
　　Zookeeper下載地址：或。下載apache-zookeeper- 3. 6. 3-bin.tar.gz。
　　解壓縮文件：
　　tar -zxf apache-zookeeper-3.6.3-bin.tar.gz -C ./
　　重命名：
　　mv apache-zookeeper-3.6.3-bin zookeeper
　　輸入zookeeper文件以創(chuàng )建一個(gè)文件夾：
　　cd zookeeper
mkdir tmp
　　復制模板配置文件并修改：
　　cp ./conf/zoo-sample.cfg ./conf/zoo.cfg
vim ./conf/zoo.cfg
　　將dataDir的路徑更改為剛創(chuàng )建的tmp目錄的路徑：
　　
　　啟動(dòng)Zookeeper：
　　./bin/zkServer.sh start
　　
　　正在啟動(dòng)Zookeeper…STARTED，表示啟動(dòng)成功。
　　如果需要停止Zookeeper，可以使用stop命令將其停止：
　　./bin/zkServer.sh stop
　　Flume-ng安裝
　　通過(guò)wget下載水槽安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... ar.gz
　　解壓縮到主目錄：
　　tar -zxf apache-flume-1.9.0-bin.tar.gz -C ~
　　重命名：
　　mv apache-flume-1.9.0-bin flume
　　在水槽的conf目錄中創(chuàng )建log-kafka.properties，內容為：
　　agent.sources = exectail
agent.channels = memoryChannel
agent.sinks = kafkasink
# For each one of the sources, the type is defined
agent.sources.exectail.type = exec
# 下面這個(gè)路徑是需要收集日志的絕對路徑，改為自己的日志目錄
agent.sources.exectail.command = tail -f /home/hadoop/flume/log/agent.log
agent.sources.exectail.interceptors=i1
agent.sources.exectail.interceptors.i1.type=regex_filter
# 定義日志過(guò)濾前綴的正則
agent.sources.exectail.interceptors.i1.regex=.+PRODUCT_RATING_PREFIX.+
# The channel can be defined as follows.
agent.sources.exectail.channels = memoryChannel
# Each sink's type must be defined
agent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkasink.kafka.topic = log
agent.sinks.kafkasink.kafka.bootstrap.servers = localhost:9092
agent.sinks.kafkasink.kafka.producer.acks = 1
agent.sinks.kafkasink.kafka.flumeBatchSize = 20
#Specify the channel the sink should use
agent.sinks.kafkasink.channel = memoryChannel
# Each channel's type is defined.
agent.channels.memoryChannel.type = memory
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
agent.channels.memoryChannel.capacity = 10000
　　以上配置文件功能說(shuō)明：
　　使用tail -f /home/hadoop/flume/log/agent.log命令通過(guò)正則表達式監視文件中更改的內容。 + PRODUCT_RATING_PREFIX。+匹配的內容，并將匹配的結果發(fā)送到Kafka的日志主題中的本地主機：9092。
　　對于上述配置參數，通常需要了解源，通道和接收器。對于這三個(gè)部分之間的關(guān)??系，這位官員給了一張照片：
　　
　　Flume分布式系統中的核心角色是代理，而flume 采集系統是通過(guò)連接每個(gè)代理而形成的。每個(gè)代理都等效于一個(gè)數據傳遞者（封裝為Event對象），其中收錄三個(gè)組件：
　　來(lái)源
　　采集組件用于與數據源交互以獲取數據。
　　水槽
　　接收器組件，用于將數據傳輸到下一級代理或將數據傳輸到最終存儲系統。
　　頻道
　　傳輸通道組件，用于將數據從源傳輸到接收器。
　　進(jìn)入水槽目錄并執行啟動(dòng)命令：
　　cd ~/flume
./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger=INFO,console
　　Kafka安裝
　　通過(guò)wget下載安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... 0.tgz
　　解壓縮到主目錄：
　　tar -zxf kafka_2.12-2.8.0.tgz -C ~
　　重命名：
　　mv kafka_2.12-2.8.0.tgz kafka
　　進(jìn)入kafka目錄：
　　cd kafka
　　修改Kafka配置：
　　vim config/server.properties
　　listeners=PLAINTEXT://:9092
# 192.168.1.43為本機ip
advertised.listeners=PLAINTEXT://192.168.1.43:9092
zookeeper.connect=localhost:2181
　　啟動(dòng)kafka（啟動(dòng)Zookeeper后）：
　　bin/kafka-server-start.sh -daemon ./config/server.properties
　　如果您需要關(guān)閉Kafka，請執行：
　　bin/kafka-server-stop.sh
　　創(chuàng )建主題主題：
　　bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic recommender
　　在控制臺上發(fā)送一條消息：
　　bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender
　　輸入命令后，控制臺將顯示需要輸入的信息，此時(shí)輸入的信息將在按Enter鍵后發(fā)送到kafka。
　　
　　ctrl + c退出。
　　控制臺上的輸出消耗消息：
　　bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic recommender
　　您可以打開(kāi)一個(gè)在兩個(gè)終端中發(fā)送消息，而另一個(gè)在兩個(gè)終端中接收消息。
　　服務(wù)建設
　　Maven項目結構：
　　BigData
├── BusinessServer #商品服務(wù)
├── KafkaStreaming #清洗服務(wù)
└── StreamingRecommender #推薦服務(wù)
　　商品服務(wù)
　　BusinessServer（SpringBoot項目）
　　主要提供一個(gè)寧靜的界面，該界面用于將關(guān)鍵信息打印到控制臺，并將日志輸出配置為在水槽配置中指定的日志文件。
　　評分界面：
　　package cn.javayuli.businessserver.web;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
/**
* 評分controller
*
* @author 韓桂林
*/
@RestController
public class RatingController {
private static final Logger LOGGER = LoggerFactory.getLogger(RatingController.class);
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX";
/**
* 用戶(hù)對商品進(jìn)行評分
*
* @param user 用戶(hù)
* @param product 商品
* @param score 分數
* @return
*/
@GetMapping("/rate")
public String doRate(@RequestParam String user, @RequestParam String product, @RequestParam Double score) {
LOGGER.info(PRODUCT_RATING_PREFIX + ":" + user +"|"+ product +"|"+ score +"|"+ System.currentTimeMillis()/1000);
return "SUCCESS";
}
}
　　在application.properties中配置啟動(dòng)端口和log4j文件輸出路徑：
　　server.port=7001
logging.file.name=/home/hadoop/flume/log/agent.log
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -jar ****。jar運行該項目。
　　清潔服務(wù)
　　KafkaStreaming（非SpringBoot項目）
　　介紹與kafka-streams相關(guān)的軟件包：
　　

org.apache.kafka
kafka-streams
2.8.0

org.apache.kafka
kafka-clients
2.8.0

　　創(chuàng )建處理器：
　　package cn.javayuli.kafkastream.processor;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorContext;
/**
* 日志預處理
*
* @author hanguilin
*/
public class LogProcessor implements Processor {
private ProcessorContext context;
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX:";
@Override
public void init(ProcessorContext context) {
this.context = context;
}
@Override
public void process(byte[] key, byte[] value) {
String input = new String(value);
// 根據前綴過(guò)濾日志信息，提取后面的內容
if(input.contains(PRODUCT_RATING_PREFIX)){
System.out.println("product rating coming!!!!" + input);
input = input.split(PRODUCT_RATING_PREFIX)[1].trim();
context.forward("logProcessor".getBytes(), input.getBytes());
}
}
@Override
public void close() {
}
}
　　創(chuàng )建主要功能：
　　package cn.javayuli.kafkastream;
import cn.javayuli.kafkastream.processor.LogProcessor;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.Topology;
import java.util.Properties;
/**
* @author hanguilin
*/
public class KafkaStreamApp {
public static void main(String[] args) {
// kafka地址
String brokers = "192.168.1.43:9092";
// 定義輸入和輸出的topic
String from = "log";
String to = "recommender";
// 定義kafka streaming的配置
Properties settings = new Properties();
settings.put(StreamsConfig.APPLICATION_ID_CONFIG, "logFilter");
settings.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 拓撲建構器
StreamsBuilder builder = new StreamsBuilder();
Topology build = builder.build();
// 定義流處理的拓撲結構
build.addSource("SOURCE", from)
.addProcessor("PROCESS", () -> new LogProcessor(), "SOURCE")
.addSink("SINK", to, "PROCESS");
KafkaStreams streams = new KafkaStreams(build, settings);
streams.start();
}
}
　　將項目鍵入jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.kafkastream.KafkaStreamApp運行項目。
　　推薦服務(wù)
　　StreamingRecommender（非SpringBoot項目）
　　此處僅使用郵件，不進(jìn)行推薦計算。
　　主要功能：
　　package cn.javayuli.streamrecommender;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;
/**
* @author hanguilin
*/
public class ConsumerApp {
public static void main(String[] args){
Properties properties = new Properties();
properties.put("bootstrap.servers", "192.168.1.43:9092");
properties.put("group.id", "group-1");
properties.put("enable.auto.commit", "true");
properties.put("auto.commit.interval.ms", "1000");
properties.put("auto.offset.reset", "earliest");
properties.put("session.timeout.ms", "30000");
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
kafkaConsumer.subscribe(Arrays.asList("recommender"));
while (true) {
ConsumerRecords records = kafkaConsumer.poll(Duration.ofMillis(100));
for (ConsumerRecord record : records) {
System.out.printf("offset = %d, value = %s", record.offset(), record.value());
System.out.println();
}
}
}
}
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.streamrecommender.ConsumerApp運行該項目。
　　如果需要在非服務(wù)器上遠程測試程序，則需要打開(kāi)服務(wù)器的7001（BusinessServer）和9092（Kafka）端口。有關(guān)端口命令，請參閱文章“ CentOS7端口命令”。
　　數據模擬
　　發(fā)送評分請求：
　　
　　首先，產(chǎn)品服務(wù)將打印出日志：
　　
　　查看/home/hadoop/flume/log/agent.log
　　
　　如您所見(jiàn)，商品服務(wù)將日志附加到/home/hadoop/flume/log/agent.log文件。
　　這時(shí)，Flume檢測到文件內容已更改，并將其他內容發(fā)送到Kafka日志主題。
　　這時(shí)，清潔服務(wù)從日志主題中獲取收錄PRODUCT_RATING_PREFIX的日志信息，并將處理后的信息發(fā)送到推薦主題。
　?。ㄏ聢D顯示從日志中取出的數據，而不是已處理的數據）
　　
　　由于推薦服務(wù)訂閱了推薦者主題，因此使用了該消息。
　　
　　資源地址
　　只有關(guān)鍵代碼發(fā)布在文章中，請檢查git信息庫“推薦”中的所有代碼。查看全部

　　【】監聽(tīng)文件中改動(dòng)的內容及項目說(shuō)明
　　項目說(shuō)明
　　

　　1、當用戶(hù)在瀏覽器中單擊產(chǎn)品以對產(chǎn)品進(jìn)行評分時(shí)，將調用產(chǎn)品服務(wù)的界面。
　　2、評分界面通過(guò)記錄器將用戶(hù)，產(chǎn)品，評分和其他信息輸出到文件中。
　　3、 Flume監視日志文件，并通過(guò)日志主題將日志信息發(fā)送到Kafka。
　　4、清潔服務(wù)接收從日志主題發(fā)送的消息，并通過(guò)關(guān)鍵字過(guò)濾掉有效信息，然后通過(guò)推薦主題將有效信息發(fā)送給Kafka。
　　5、推薦服務(wù)接收推薦者主題的消息，并在一系列處理（例如實(shí)時(shí)算法處理）之后將其推送給用戶(hù)。
　　工具安裝JDK安裝
　　JDK下載鏈接
　　下載jdk-8u281-linux-x6 4. tar.gz壓縮包，并將其解壓縮到hadoop用戶(hù)主目錄的jvm文件夾中
　　cd ~
mkdir jvm
tar -zxf jdk-8u281-linux-x64.tar.gz -C jvm
　　編輯環(huán)境變量：
　　vim ~/.bashrc
　　添加JAVA_HOME：
　　export JAVA_HOME=/home/hadoop/jvm/jdk1.8.0_281
export PATH=$JAVA_HOME/bin
　　使環(huán)境變量生效：
　　source ~/.bashrc
　　檢查Java版本：
　　java -version
　　檢查環(huán)境變量是否正確：
　　# 檢驗變量值
echo $JAVA_HOME
　　java -version
# 與直接執行 java -version 一樣
$JAVA_HOME/bin/java -version
　　Zookeeper安裝
　　Zookeeper下載地址：或。下載apache-zookeeper- 3. 6. 3-bin.tar.gz。
　　解壓縮文件：
　　tar -zxf apache-zookeeper-3.6.3-bin.tar.gz -C ./
　　重命名：
　　mv apache-zookeeper-3.6.3-bin zookeeper
　　輸入zookeeper文件以創(chuàng )建一個(gè)文件夾：
　　cd zookeeper
mkdir tmp
　　復制模板配置文件并修改：
　　cp ./conf/zoo-sample.cfg ./conf/zoo.cfg
vim ./conf/zoo.cfg
　　將dataDir的路徑更改為剛創(chuàng )建的tmp目錄的路徑：
　　

　　啟動(dòng)Zookeeper：
　　./bin/zkServer.sh start
　　

　　正在啟動(dòng)Zookeeper…STARTED，表示啟動(dòng)成功。
　　如果需要停止Zookeeper，可以使用stop命令將其停止：
　　./bin/zkServer.sh stop
　　Flume-ng安裝
　　通過(guò)wget下載水槽安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... ar.gz
　　解壓縮到主目錄：
　　tar -zxf apache-flume-1.9.0-bin.tar.gz -C ~
　　重命名：
　　mv apache-flume-1.9.0-bin flume
　　在水槽的conf目錄中創(chuàng )建log-kafka.properties，內容為：
　　agent.sources = exectail
agent.channels = memoryChannel
agent.sinks = kafkasink
# For each one of the sources, the type is defined
agent.sources.exectail.type = exec
# 下面這個(gè)路徑是需要收集日志的絕對路徑，改為自己的日志目錄
agent.sources.exectail.command = tail -f /home/hadoop/flume/log/agent.log
agent.sources.exectail.interceptors=i1
agent.sources.exectail.interceptors.i1.type=regex_filter
# 定義日志過(guò)濾前綴的正則
agent.sources.exectail.interceptors.i1.regex=.+PRODUCT_RATING_PREFIX.+
# The channel can be defined as follows.
agent.sources.exectail.channels = memoryChannel
# Each sink's type must be defined
agent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkasink.kafka.topic = log
agent.sinks.kafkasink.kafka.bootstrap.servers = localhost:9092
agent.sinks.kafkasink.kafka.producer.acks = 1
agent.sinks.kafkasink.kafka.flumeBatchSize = 20
#Specify the channel the sink should use
agent.sinks.kafkasink.channel = memoryChannel
# Each channel's type is defined.
agent.channels.memoryChannel.type = memory
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# In this case, it specifies the capacity of the memory channel
agent.channels.memoryChannel.capacity = 10000
　　以上配置文件功能說(shuō)明：
　　使用tail -f /home/hadoop/flume/log/agent.log命令通過(guò)正則表達式監視文件中更改的內容。 + PRODUCT_RATING_PREFIX。+匹配的內容，并將匹配的結果發(fā)送到Kafka的日志主題中的本地主機：9092。
　　對于上述配置參數，通常需要了解源，通道和接收器。對于這三個(gè)部分之間的關(guān)??系，這位官員給了一張照片：
　　

　　Flume分布式系統中的核心角色是代理，而flume 采集系統是通過(guò)連接每個(gè)代理而形成的。每個(gè)代理都等效于一個(gè)數據傳遞者（封裝為Event對象），其中收錄三個(gè)組件：
　　來(lái)源
　　采集組件用于與數據源交互以獲取數據。
　　水槽
　　接收器組件，用于將數據傳輸到下一級代理或將數據傳輸到最終存儲系統。
　　頻道
　　傳輸通道組件，用于將數據從源傳輸到接收器。
　　進(jìn)入水槽目錄并執行啟動(dòng)命令：
　　cd ~/flume
./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger=INFO,console
　　Kafka安裝
　　通過(guò)wget下載安裝軟件包：
　　wget https://mirrors.tuna.tsinghua. ... 0.tgz
　　解壓縮到主目錄：
　　tar -zxf kafka_2.12-2.8.0.tgz -C ~
　　重命名：
　　mv kafka_2.12-2.8.0.tgz kafka
　　進(jìn)入kafka目錄：
　　cd kafka
　　修改Kafka配置：
　　vim config/server.properties
　　listeners=PLAINTEXT://:9092
# 192.168.1.43為本機ip
advertised.listeners=PLAINTEXT://192.168.1.43:9092
zookeeper.connect=localhost:2181
　　啟動(dòng)kafka（啟動(dòng)Zookeeper后）：
　　bin/kafka-server-start.sh -daemon ./config/server.properties
　　如果您需要關(guān)閉Kafka，請執行：
　　bin/kafka-server-stop.sh
　　創(chuàng )建主題主題：
　　bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic recommender
　　在控制臺上發(fā)送一條消息：
　　bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender
　　輸入命令后，控制臺將顯示需要輸入的信息，此時(shí)輸入的信息將在按Enter鍵后發(fā)送到kafka。
　　

　　ctrl + c退出。
　　控制臺上的輸出消耗消息：
　　bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic recommender
　　您可以打開(kāi)一個(gè)在兩個(gè)終端中發(fā)送消息，而另一個(gè)在兩個(gè)終端中接收消息。
　　服務(wù)建設
　　Maven項目結構：
　　BigData
├── BusinessServer #商品服務(wù)
├── KafkaStreaming #清洗服務(wù)
└── StreamingRecommender #推薦服務(wù)
　　商品服務(wù)
　　BusinessServer（SpringBoot項目）
　　主要提供一個(gè)寧靜的界面，該界面用于將關(guān)鍵信息打印到控制臺，并將日志輸出配置為在水槽配置中指定的日志文件。
　　評分界面：
　　package cn.javayuli.businessserver.web;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
/**
* 評分controller
*
* @author 韓桂林
*/
@RestController
public class RatingController {
private static final Logger LOGGER = LoggerFactory.getLogger(RatingController.class);
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX";
/**
* 用戶(hù)對商品進(jìn)行評分
*
* @param user 用戶(hù)
* @param product 商品
* @param score 分數
* @return
*/
@GetMapping("/rate")
public String doRate(@RequestParam String user, @RequestParam String product, @RequestParam Double score) {
LOGGER.info(PRODUCT_RATING_PREFIX + ":" + user +"|"+ product +"|"+ score +"|"+ System.currentTimeMillis()/1000);
return "SUCCESS";
}
}
　　在application.properties中配置啟動(dòng)端口和log4j文件輸出路徑：
　　server.port=7001
logging.file.name=/home/hadoop/flume/log/agent.log
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -jar ****。jar運行該項目。
　　清潔服務(wù)
　　KafkaStreaming（非SpringBoot項目）
　　介紹與kafka-streams相關(guān)的軟件包：
　　

org.apache.kafka
kafka-streams
2.8.0

org.apache.kafka
kafka-clients
2.8.0

　　創(chuàng )建處理器：
　　package cn.javayuli.kafkastream.processor;
import org.apache.kafka.streams.processor.Processor;
import org.apache.kafka.streams.processor.ProcessorContext;
/**
* 日志預處理
*
* @author hanguilin
*/
public class LogProcessor implements Processor {
private ProcessorContext context;
private static final String PRODUCT_RATING_PREFIX = "PRODUCT_RATING_PREFIX:";
@Override
public void init(ProcessorContext context) {
this.context = context;
}
@Override
public void process(byte[] key, byte[] value) {
String input = new String(value);
// 根據前綴過(guò)濾日志信息，提取后面的內容
if(input.contains(PRODUCT_RATING_PREFIX)){
System.out.println("product rating coming!!!!" + input);
input = input.split(PRODUCT_RATING_PREFIX)[1].trim();
context.forward("logProcessor".getBytes(), input.getBytes());
}
}
@Override
public void close() {
}
}
　　創(chuàng )建主要功能：
　　package cn.javayuli.kafkastream;
import cn.javayuli.kafkastream.processor.LogProcessor;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.Topology;
import java.util.Properties;
/**
* @author hanguilin
*/
public class KafkaStreamApp {
public static void main(String[] args) {
// kafka地址
String brokers = "192.168.1.43:9092";
// 定義輸入和輸出的topic
String from = "log";
String to = "recommender";
// 定義kafka streaming的配置
Properties settings = new Properties();
settings.put(StreamsConfig.APPLICATION_ID_CONFIG, "logFilter");
settings.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 拓撲建構器
StreamsBuilder builder = new StreamsBuilder();
Topology build = builder.build();
// 定義流處理的拓撲結構
build.addSource("SOURCE", from)
.addProcessor("PROCESS", () -> new LogProcessor(), "SOURCE")
.addSink("SINK", to, "PROCESS");
KafkaStreams streams = new KafkaStreams(build, settings);
streams.start();
}
}
　　將項目鍵入jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.kafkastream.KafkaStreamApp運行項目。
　　推薦服務(wù)
　　StreamingRecommender（非SpringBoot項目）
　　此處僅使用郵件，不進(jìn)行推薦計算。
　　主要功能：
　　package cn.javayuli.streamrecommender;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;
/**
* @author hanguilin
*/
public class ConsumerApp {
public static void main(String[] args){
Properties properties = new Properties();
properties.put("bootstrap.servers", "192.168.1.43:9092");
properties.put("group.id", "group-1");
properties.put("enable.auto.commit", "true");
properties.put("auto.commit.interval.ms", "1000");
properties.put("auto.offset.reset", "earliest");
properties.put("session.timeout.ms", "30000");
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
kafkaConsumer.subscribe(Arrays.asList("recommender"));
while (true) {
ConsumerRecords records = kafkaConsumer.poll(Duration.ofMillis(100));
for (ConsumerRecord record : records) {
System.out.printf("offset = %d, value = %s", record.offset(), record.value());
System.out.println();
}
}
}
}
　　將項目鍵入一個(gè)jar包中，將其上傳到服務(wù)器，然后使用java -cp ****。jar cn.javayuli.streamrecommender.ConsumerApp運行該項目。
　　如果需要在非服務(wù)器上遠程測試程序，則需要打開(kāi)服務(wù)器的7001（BusinessServer）和9092（Kafka）端口。有關(guān)端口命令，請參閱文章“ CentOS7端口命令”。
　　數據模擬
　　發(fā)送評分請求：
　　

　　首先，產(chǎn)品服務(wù)將打印出日志：
　　

　　查看/home/hadoop/flume/log/agent.log
　　

　　如您所見(jiàn)，商品服務(wù)將日志附加到/home/hadoop/flume/log/agent.log文件。
　　這時(shí)，Flume檢測到文件內容已更改，并將其他內容發(fā)送到Kafka日志主題。
　　這時(shí)，清潔服務(wù)從日志主題中獲取收錄PRODUCT_RATING_PREFIX的日志信息，并將處理后的信息發(fā)送到推薦主題。
　?。ㄏ聢D顯示從日志中取出的數據，而不是已處理的數據）
　　

　　由于推薦服務(wù)訂閱了推薦者主題，因此使用了該消息。
　　

　　資源地址
　　只有關(guān)鍵代碼發(fā)布在文章中，請檢查git信息庫“推薦”中的所有代碼。

amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2021-05-02 04:08 ? 來(lái)自相關(guān)話(huà)題

　　amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署
　　文章實(shí)時(shí)采集：server是本地已有采集，你不需要外接任何硬件。demo和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署。一臺主機一臺，需要網(wǎng)絡(luò )支持以太網(wǎng)，網(wǎng)線(xiàn)，二根或者三根天線(xiàn)（請考慮并發(fā)情況下線(xiàn)路供給增加的問(wèn)題），實(shí)現單機云服務(wù)器及網(wǎng)絡(luò )無(wú)限流量數據采集。實(shí)時(shí)定制化采集部署：web采集需要python+web框架+模擬器+數據庫查詢(xún)服務(wù)（wordpress，mongodb等常見(jiàn)網(wǎng)站或者php、java后端框架）本地nodejs環(huán)境，實(shí)現終端nodejs應用部署。
　　推薦選擇全雙工模式，即機器采集和服務(wù)器解析同時(shí)進(jìn)行。html解析部署即云端，后續epic、imagej可以隨時(shí)切換input到你需要的解析方式。本地c#、java、php的開(kāi)發(fā)環(huán)境，與epic、imagej等服務(wù)集成。demo：本地開(kāi)發(fā)后，接入epic、imagej等服務(wù)，開(kāi)發(fā)出中文爬蟲(chóng)，實(shí)時(shí)后端都會(huì )自動(dòng)解析我國地圖。
　　本地結合wordpress、mongodb等server，開(kāi)發(fā)爬蟲(chóng)爬取epic、mongodb數據，返回中文頁(yè)面。實(shí)時(shí)中文頁(yè)面?？磾祿?，大數據采集或許更需要用上storm、emr等技術(shù)，采集效率更高，不依賴(lài)本地采集技術(shù)，可解決上述問(wèn)題。實(shí)際代碼部署nodejs服務(wù)端---f12瀏覽器開(kāi)發(fā)者工具，搜索toolscriptcode(dom.script)，進(jìn)入下圖畫(huà)紅線(xiàn)的地方，點(diǎn)擊download下載對應runtime版本(對應到你的nodejs程序本身)的代碼。
　　domapi比pythonpostmessage方便很多，可以百度一下，在筆者服務(wù)器上運行已經(jīng)沒(méi)有問(wèn)題。拿到postmessage后，直接用excel自動(dòng)生成字符串，github代碼在這里。demo中是要先要有下載中間件生成下載鏈接給爬蟲(chóng)-然后，接入storm集群，爬蟲(chóng)自動(dòng)啟動(dòng)，本地能訪(fǎng)問(wèn)到gitlab、server自動(dòng)導入生成好的數據庫查詢(xún)url給爬蟲(chóng)去查詢(xún)數據。--。查看全部

　　amazonec2和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署
　　文章實(shí)時(shí)采集：server是本地已有采集，你不需要外接任何硬件。demo和實(shí)際線(xiàn)路都必須要能支持amazonec2云上集群部署。一臺主機一臺，需要網(wǎng)絡(luò )支持以太網(wǎng)，網(wǎng)線(xiàn)，二根或者三根天線(xiàn)（請考慮并發(fā)情況下線(xiàn)路供給增加的問(wèn)題），實(shí)現單機云服務(wù)器及網(wǎng)絡(luò )無(wú)限流量數據采集。實(shí)時(shí)定制化采集部署：web采集需要python+web框架+模擬器+數據庫查詢(xún)服務(wù)（wordpress，mongodb等常見(jiàn)網(wǎng)站或者php、java后端框架）本地nodejs環(huán)境，實(shí)現終端nodejs應用部署。
　　推薦選擇全雙工模式，即機器采集和服務(wù)器解析同時(shí)進(jìn)行。html解析部署即云端，后續epic、imagej可以隨時(shí)切換input到你需要的解析方式。本地c#、java、php的開(kāi)發(fā)環(huán)境，與epic、imagej等服務(wù)集成。demo：本地開(kāi)發(fā)后，接入epic、imagej等服務(wù)，開(kāi)發(fā)出中文爬蟲(chóng)，實(shí)時(shí)后端都會(huì )自動(dòng)解析我國地圖。
　　本地結合wordpress、mongodb等server，開(kāi)發(fā)爬蟲(chóng)爬取epic、mongodb數據，返回中文頁(yè)面。實(shí)時(shí)中文頁(yè)面?？磾祿?，大數據采集或許更需要用上storm、emr等技術(shù)，采集效率更高，不依賴(lài)本地采集技術(shù)，可解決上述問(wèn)題。實(shí)際代碼部署nodejs服務(wù)端---f12瀏覽器開(kāi)發(fā)者工具，搜索toolscriptcode(dom.script)，進(jìn)入下圖畫(huà)紅線(xiàn)的地方，點(diǎn)擊download下載對應runtime版本(對應到你的nodejs程序本身)的代碼。
　　domapi比pythonpostmessage方便很多，可以百度一下，在筆者服務(wù)器上運行已經(jīng)沒(méi)有問(wèn)題。拿到postmessage后，直接用excel自動(dòng)生成字符串，github代碼在這里。demo中是要先要有下載中間件生成下載鏈接給爬蟲(chóng)-然后，接入storm集群，爬蟲(chóng)自動(dòng)啟動(dòng)，本地能訪(fǎng)問(wèn)到gitlab、server自動(dòng)導入生成好的數據庫查詢(xún)url給爬蟲(chóng)去查詢(xún)數據。--。

與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2021-04-11 00:03 ? 來(lái)自相關(guān)話(huà)題

　　與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的
　　文章實(shí)時(shí)采集系統，跟第三方大廠(chǎng)商無(wú)異，畢竟他們量大，后臺基本有絕對的優(yōu)勢。畢竟無(wú)論是sdk還是api，大廠(chǎng)服務(wù)商基本做得比較成熟，有那么些清晰的門(mén)道可以一步一步來(lái)。要問(wèn)與dji比誰(shuí)更牛逼，我覺(jué)得dji更加牛逼，畢竟航拍業(yè)內無(wú)人能比，特別是機位寬廣，最牛逼的航拍技術(shù)不是吹的！airquery可以幫你將來(lái)源數據實(shí)時(shí)采集回測交易分析，是航拍類(lèi)依托內外采集數據優(yōu)勢走到今天的競爭者，雙方共同點(diǎn)在于都是行業(yè)領(lǐng)導者。
　　相比airquery，f5一直是低頭一族，高傲的拿著(zhù)中小團隊的訂單，但話(huà)說(shuō)回來(lái)，國內目前還沒(méi)有哪個(gè)公司把量化理念推廣到飛機上，普及量化策略，相信他們是負責任的公司，以后很有希望做的更好。利益相關(guān)：dji某前員工。
　　我本身專(zhuān)注于航拍，所以對這個(gè)不是特別了解，不過(guò)如果你對airquery感興趣，可以看一下airquery的新聞，國外部分都在談這個(gè)，
　　你們看看吧,不感興趣不用看了,dji大而全,走的大而全的路線(xiàn);無(wú)人機數據采集,無(wú)人機發(fā)動(dòng)機,無(wú)人機起落架飛行數據數據采集與打包發(fā)布,無(wú)人機數據輸出,無(wú)人機出口.看上去好看,做的出名,牛逼,dji所向披靡.
　　第一次回答問(wèn)題，答得不好請見(jiàn)諒首先要說(shuō)一下市場(chǎng)，airquery應該比dji大，也比dji那個(gè)藍色款要大。其次就我這種剛畢業(yè)的菜鳥(niǎo)來(lái)說(shuō)，這個(gè)就是個(gè)便宜的紅米數據采集器，基本能滿(mǎn)足我這種輕度用戶(hù)的需求了，當然目前這個(gè)系統已經(jīng)更新迭代了，比如左右發(fā)動(dòng)機圖形識別，現在就很不錯了，能采集單個(gè)機型了。不過(guò)如果說(shuō)理想狀態(tài)下希望能夠高效快速的完成數據采集，我覺(jué)得它還是個(gè)不錯的選擇，但如果像我一樣沒(méi)有采集需求，只是需要便宜采集，還是沒(méi)有必要買(mǎi)這個(gè)的，畢竟是便宜系統，像是高質(zhì)量的航拍工作站，配上航拍數據采集工具箱或者航拍數據傳輸工具箱之類(lèi)的，或者wds啥的。
　　對于像我們這樣有飛行任務(wù)的大拿，這個(gè)就不合適了，我在嘗試用ppkm120來(lái)采集一個(gè)南航的整機,然后南航的運控室想要用它們的航拍數據,需要從境外空域抽取數據，費時(shí)費力費錢(qián),而且飛行很貴，況且就目前的新聞講dji的運控室已經(jīng)研發(fā)成熟了，現在任務(wù)緊急又沒(méi)空搞其他飛機的，還是等國內工程機再說(shuō)，大不了我用臺灣的惠通航空的飛機,成本也不貴。
　　就目前來(lái)說(shuō)，我并不怎么看好airquery的，其實(shí)它的邏輯并不完善，采集過(guò)程沒(méi)有完整的機制，不能加機載，很難產(chǎn)生數據溢出，也不能到云端來(lái)管理數據。數據理想狀態(tài)下來(lái)說(shuō)是可以量化分析的，但這理想狀態(tài)下是不成立的，或者說(shuō)就是扯淡，它從采集到處理采集機制不完善。查看全部

　　與dji比誰(shuí)更牛逼的航拍技術(shù)不是吹的
　　文章實(shí)時(shí)采集系統，跟第三方大廠(chǎng)商無(wú)異，畢竟他們量大，后臺基本有絕對的優(yōu)勢。畢竟無(wú)論是sdk還是api，大廠(chǎng)服務(wù)商基本做得比較成熟，有那么些清晰的門(mén)道可以一步一步來(lái)。要問(wèn)與dji比誰(shuí)更牛逼，我覺(jué)得dji更加牛逼，畢竟航拍業(yè)內無(wú)人能比，特別是機位寬廣，最牛逼的航拍技術(shù)不是吹的！airquery可以幫你將來(lái)源數據實(shí)時(shí)采集回測交易分析，是航拍類(lèi)依托內外采集數據優(yōu)勢走到今天的競爭者，雙方共同點(diǎn)在于都是行業(yè)領(lǐng)導者。
　　相比airquery，f5一直是低頭一族，高傲的拿著(zhù)中小團隊的訂單，但話(huà)說(shuō)回來(lái)，國內目前還沒(méi)有哪個(gè)公司把量化理念推廣到飛機上，普及量化策略，相信他們是負責任的公司，以后很有希望做的更好。利益相關(guān)：dji某前員工。
　　我本身專(zhuān)注于航拍，所以對這個(gè)不是特別了解，不過(guò)如果你對airquery感興趣，可以看一下airquery的新聞，國外部分都在談這個(gè)，
　　你們看看吧,不感興趣不用看了,dji大而全,走的大而全的路線(xiàn);無(wú)人機數據采集,無(wú)人機發(fā)動(dòng)機,無(wú)人機起落架飛行數據數據采集與打包發(fā)布,無(wú)人機數據輸出,無(wú)人機出口.看上去好看,做的出名,牛逼,dji所向披靡.
　　第一次回答問(wèn)題，答得不好請見(jiàn)諒首先要說(shuō)一下市場(chǎng)，airquery應該比dji大，也比dji那個(gè)藍色款要大。其次就我這種剛畢業(yè)的菜鳥(niǎo)來(lái)說(shuō)，這個(gè)就是個(gè)便宜的紅米數據采集器，基本能滿(mǎn)足我這種輕度用戶(hù)的需求了，當然目前這個(gè)系統已經(jīng)更新迭代了，比如左右發(fā)動(dòng)機圖形識別，現在就很不錯了，能采集單個(gè)機型了。不過(guò)如果說(shuō)理想狀態(tài)下希望能夠高效快速的完成數據采集，我覺(jué)得它還是個(gè)不錯的選擇，但如果像我一樣沒(méi)有采集需求，只是需要便宜采集，還是沒(méi)有必要買(mǎi)這個(gè)的，畢竟是便宜系統，像是高質(zhì)量的航拍工作站，配上航拍數據采集工具箱或者航拍數據傳輸工具箱之類(lèi)的，或者wds啥的。
　　對于像我們這樣有飛行任務(wù)的大拿，這個(gè)就不合適了，我在嘗試用ppkm120來(lái)采集一個(gè)南航的整機,然后南航的運控室想要用它們的航拍數據,需要從境外空域抽取數據，費時(shí)費力費錢(qián),而且飛行很貴，況且就目前的新聞講dji的運控室已經(jīng)研發(fā)成熟了，現在任務(wù)緊急又沒(méi)空搞其他飛機的，還是等國內工程機再說(shuō)，大不了我用臺灣的惠通航空的飛機,成本也不貴。
　　就目前來(lái)說(shuō)，我并不怎么看好airquery的，其實(shí)它的邏輯并不完善，采集過(guò)程沒(méi)有完整的機制，不能加機載，很難產(chǎn)生數據溢出，也不能到云端來(lái)管理數據。數據理想狀態(tài)下來(lái)說(shuō)是可以量化分析的，但這理想狀態(tài)下是不成立的，或者說(shuō)就是扯淡，它從采集到處理采集機制不完善。

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<style id="omyvw"><dl id="omyvw"></dl></style>

<strong id="omyvw"><dl id="omyvw"></dl></strong>

<blockquote id="omyvw"></blockquote>

<blockquote id="omyvw"><rp id="omyvw"><i id="omyvw"></i></rp></blockquote>