亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<input id="geoa8"><tbody id="geoa8"></tbody></input>

文章實(shí)時(shí)采集

文章實(shí)時(shí)采集

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-06-03 03:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期
　　文章實(shí)時(shí)采集。圖片云端處理后傳到大屏幕上，讓用戶(hù)下滑直接跳轉到相應頁(yè)面，不需要下拉刷新也不需要滑動(dòng)手勢。一鍵收藏、轉發(fā)、分享。同時(shí)適配多終端，不用安裝app就可以收藏文章?；诖髷祿治龅恼居嗛喭扑?，以及異步動(dòng)態(tài)推送。分享給親戚朋友同事等等。多樣性和互動(dòng)性的強大的傳播力。利用微信強大的社交關(guān)系鏈，建立起我是傳播節點(diǎn)的傳播紐帶。
　　參考外媒報道：。上周更新的東西，又重新發(fā)布了?？偨Y：大屏幕是品牌公關(guān)活動(dòng)必備的利器！很多文章在朋友圈讓它成為爆款之后，然后，就沒(méi)有然后了。這里我想再次重申，我一直都認為，這樣的活動(dòng)設計，針對的是某個(gè)特定群體，從而讓公司的知名度進(jìn)一步提升。而并不是為了設計新聞，而設計這種機械活動(dòng)，或者簡(jiǎn)單的方式。我在這里特別提出，把更多的目光放在“活動(dòng)效果”而不是“活動(dòng)實(shí)際”上。
　　第一輪為什么收到6000多條？商品圖形，進(jìn)行軟件或者crm的銷(xiāo)售渠道調查，核算出來(lái)的下單率。依據這個(gè)下單率，來(lái)尋找補充營(yíng)銷(xiāo)渠道。抓住這批群體的特性，舉辦一個(gè)線(xiàn)下地推活動(dòng)，以及媒體曝光，利用其中產(chǎn)生的一些問(wèn)題來(lái)進(jìn)行精準營(yíng)銷(xiāo)。第二輪的反饋，就是第一輪活動(dòng)的反饋，可以利用在線(xiàn)各種進(jìn)行整合分析，這就是我要說(shuō)的，一切的工作目的和轉化手段，都只能?chē)@著(zhù)活動(dòng)的性質(zhì)和目的在進(jìn)行。
　　這次，相關(guān)報道有很多，但是，對于剛剛涉及做活動(dòng)，以及初創(chuàng )小公司來(lái)說(shuō)，還有很多的關(guān)鍵點(diǎn)要去思考。感謝有你，平和一期。--一期評論太多，不想發(fā)，我覺(jué)得是在宣揚中小型企業(yè)的不專(zhuān)業(yè)性，把做活動(dòng)做成了推銷(xiāo)。最終，還要看效果。所以，大家好聚好散，下期請給我發(fā)私信，說(shuō)說(shuō)對這些設計的一些要求和建議。以下是我一貫的觀(guān)點(diǎn)（針對知乎，非廣告）1.軟件成本的大幅度下降，交互和圖形占據大量預算的背后，靠軟件的數量?jì)?yōu)勢，是不夠的，軟。查看全部

　　文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期
　　文章實(shí)時(shí)采集。圖片云端處理后傳到大屏幕上，讓用戶(hù)下滑直接跳轉到相應頁(yè)面，不需要下拉刷新也不需要滑動(dòng)手勢。一鍵收藏、轉發(fā)、分享。同時(shí)適配多終端，不用安裝app就可以收藏文章?；诖髷祿治龅恼居嗛喭扑?，以及異步動(dòng)態(tài)推送。分享給親戚朋友同事等等。多樣性和互動(dòng)性的強大的傳播力。利用微信強大的社交關(guān)系鏈，建立起我是傳播節點(diǎn)的傳播紐帶。
　　參考外媒報道：。上周更新的東西，又重新發(fā)布了?？偨Y：大屏幕是品牌公關(guān)活動(dòng)必備的利器！很多文章在朋友圈讓它成為爆款之后，然后，就沒(méi)有然后了。這里我想再次重申，我一直都認為，這樣的活動(dòng)設計，針對的是某個(gè)特定群體，從而讓公司的知名度進(jìn)一步提升。而并不是為了設計新聞，而設計這種機械活動(dòng)，或者簡(jiǎn)單的方式。我在這里特別提出，把更多的目光放在“活動(dòng)效果”而不是“活動(dòng)實(shí)際”上。
　　第一輪為什么收到6000多條？商品圖形，進(jìn)行軟件或者crm的銷(xiāo)售渠道調查，核算出來(lái)的下單率。依據這個(gè)下單率，來(lái)尋找補充營(yíng)銷(xiāo)渠道。抓住這批群體的特性，舉辦一個(gè)線(xiàn)下地推活動(dòng)，以及媒體曝光，利用其中產(chǎn)生的一些問(wèn)題來(lái)進(jìn)行精準營(yíng)銷(xiāo)。第二輪的反饋，就是第一輪活動(dòng)的反饋，可以利用在線(xiàn)各種進(jìn)行整合分析，這就是我要說(shuō)的，一切的工作目的和轉化手段，都只能?chē)@著(zhù)活動(dòng)的性質(zhì)和目的在進(jìn)行。
　　這次，相關(guān)報道有很多，但是，對于剛剛涉及做活動(dòng)，以及初創(chuàng )小公司來(lái)說(shuō)，還有很多的關(guān)鍵點(diǎn)要去思考。感謝有你，平和一期。--一期評論太多，不想發(fā)，我覺(jué)得是在宣揚中小型企業(yè)的不專(zhuān)業(yè)性，把做活動(dòng)做成了推銷(xiāo)。最終，還要看效果。所以，大家好聚好散，下期請給我發(fā)私信，說(shuō)說(shuō)對這些設計的一些要求和建議。以下是我一貫的觀(guān)點(diǎn)（針對知乎，非廣告）1.軟件成本的大幅度下降，交互和圖形占據大量預算的背后，靠軟件的數量?jì)?yōu)勢，是不夠的，軟。

文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2022-05-11 19:02 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別
　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別的大致的原理，
　　我的看法是，先自己把概念理清楚吧。不然很難讓別人理解你的想法。另外，要看看現在能否做到。我看到的已經(jīng)做出來(lái)的有語(yǔ)音實(shí)時(shí)轉文字，語(yǔ)音識別+人臉識別+文字識別+結構化輸出。
　　說(shuō)白了還是編程基礎要牢固
　　語(yǔ)音識別（比如：nuance公司），對講機（普及版），
　　這個(gè)還是要看需求和實(shí)現方式。語(yǔ)音技術(shù)目前不能成熟應用到生活中，但是特定場(chǎng)景還是可以應用到的。比如來(lái)電時(shí)只需要告訴你對方想接聽(tīng)，那么對方的位置信息就是很好的采集了。目前比較典型的應用，對方想打王者，可以依據在上海打王者電話(huà)是15min，打農藥電話(huà)是20min，打游戲電話(huà)是40min來(lái)判斷?？梢远ㄖ埔粋€(gè)人工智能系統，類(lèi)似于阿爾法狗那樣，一點(diǎn)一點(diǎn)學(xué)習。對方打開(kāi)個(gè)短信，就可以學(xué)習發(fā)送什么信息了。
　　題主想利用語(yǔ)音作為識別碼，進(jìn)行信息錄入嗎？答案是肯定的。你可以用一個(gè)單片機控制一個(gè)nuance開(kāi)發(fā)的avr-cnoise音箱，可以按語(yǔ)音給事先錄入的電話(huà)打電話(huà)。也可以用一個(gè)程序控制兩個(gè)音箱進(jìn)行語(yǔ)音通話(huà)。
　　這個(gè)肯定會(huì )有用啊。目前的語(yǔ)音識別技術(shù)基本都是基于客戶(hù)端系統，不提供服務(wù)器的。不過(guò)手機上能上網(wǎng)，而且會(huì )編程，也可以自己開(kāi)發(fā)一個(gè)對話(huà)系統，把語(yǔ)音控制轉換成文字。查看全部

　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別
　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別的大致的原理，
　　我的看法是，先自己把概念理清楚吧。不然很難讓別人理解你的想法。另外，要看看現在能否做到。我看到的已經(jīng)做出來(lái)的有語(yǔ)音實(shí)時(shí)轉文字，語(yǔ)音識別+人臉識別+文字識別+結構化輸出。
　　說(shuō)白了還是編程基礎要牢固
　　語(yǔ)音識別（比如：nuance公司），對講機（普及版），
　　這個(gè)還是要看需求和實(shí)現方式。語(yǔ)音技術(shù)目前不能成熟應用到生活中，但是特定場(chǎng)景還是可以應用到的。比如來(lái)電時(shí)只需要告訴你對方想接聽(tīng)，那么對方的位置信息就是很好的采集了。目前比較典型的應用，對方想打王者，可以依據在上海打王者電話(huà)是15min，打農藥電話(huà)是20min，打游戲電話(huà)是40min來(lái)判斷?？梢远ㄖ埔粋€(gè)人工智能系統，類(lèi)似于阿爾法狗那樣，一點(diǎn)一點(diǎn)學(xué)習。對方打開(kāi)個(gè)短信，就可以學(xué)習發(fā)送什么信息了。
　　題主想利用語(yǔ)音作為識別碼，進(jìn)行信息錄入嗎？答案是肯定的。你可以用一個(gè)單片機控制一個(gè)nuance開(kāi)發(fā)的avr-cnoise音箱，可以按語(yǔ)音給事先錄入的電話(huà)打電話(huà)。也可以用一個(gè)程序控制兩個(gè)音箱進(jìn)行語(yǔ)音通話(huà)。
　　這個(gè)肯定會(huì )有用啊。目前的語(yǔ)音識別技術(shù)基本都是基于客戶(hù)端系統，不提供服務(wù)器的。不過(guò)手機上能上網(wǎng)，而且會(huì )編程，也可以自己開(kāi)發(fā)一個(gè)對話(huà)系統，把語(yǔ)音控制轉換成文字。

新技術(shù)電子影像監測監控系統——打孔+stl格式

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-05-10 09:01 ? 來(lái)自相關(guān)話(huà)題

　　新技術(shù)電子影像監測監控系統——打孔+stl格式
　　文章實(shí)時(shí)采集技術(shù)包括場(chǎng)景采集、節點(diǎn)采集、點(diǎn)采集、平行采集等。無(wú)論是場(chǎng)景采集還是節點(diǎn)采集，都離不開(kāi)一個(gè)采集設備。這就決定了你能采集到的數據量，越大你獲取數據的速度也越快。我們有三款采集設備。3d掃描儀三維場(chǎng)景的掃描儀一般采用3d掃描儀來(lái)進(jìn)行采集。一款典型的3d掃描儀需要一臺采集采樣機、一臺掃描儀、一臺三維掃描儀、一個(gè)3d三維場(chǎng)景掃描儀、cinema4d軟件、云計算平臺等其他。
　　3d掃描儀整體維護：采集機、三維掃描儀、2d軟件、cinema4d軟件。3d三維場(chǎng)景掃描儀采用采集機構采集場(chǎng)景，進(jìn)行點(diǎn)云測距及識別。3d掃描儀的特點(diǎn)：打孔+stl格式。采集機構：彩色一體化3d掃描儀。掃描機構：標準3d立體掃描儀。云計算平臺：3d掃描儀一般會(huì )與云平臺搭配使用，我們有一款云掃描儀3d云采集儀。
　　可以試試快數快采，你在應用商店里面搜一下，他們的快數快采可以實(shí)現一鍵采集，
　　用筆者所學(xué)的技術(shù)告訴你，可以試試這個(gè)新技術(shù)電子影像監測監控系統，用定位方式采集視頻數據，
　　同求解答！同感！
　　我也在找，
　　xy，現在是按用戶(hù)設備來(lái)劃分，只有攝像頭、光源、傳感器組成的，然后是采集卡、采集儀。查看全部

　　新技術(shù)電子影像監測監控系統——打孔+stl格式
　　文章實(shí)時(shí)采集技術(shù)包括場(chǎng)景采集、節點(diǎn)采集、點(diǎn)采集、平行采集等。無(wú)論是場(chǎng)景采集還是節點(diǎn)采集，都離不開(kāi)一個(gè)采集設備。這就決定了你能采集到的數據量，越大你獲取數據的速度也越快。我們有三款采集設備。3d掃描儀三維場(chǎng)景的掃描儀一般采用3d掃描儀來(lái)進(jìn)行采集。一款典型的3d掃描儀需要一臺采集采樣機、一臺掃描儀、一臺三維掃描儀、一個(gè)3d三維場(chǎng)景掃描儀、cinema4d軟件、云計算平臺等其他。
　　3d掃描儀整體維護：采集機、三維掃描儀、2d軟件、cinema4d軟件。3d三維場(chǎng)景掃描儀采用采集機構采集場(chǎng)景，進(jìn)行點(diǎn)云測距及識別。3d掃描儀的特點(diǎn)：打孔+stl格式。采集機構：彩色一體化3d掃描儀。掃描機構：標準3d立體掃描儀。云計算平臺：3d掃描儀一般會(huì )與云平臺搭配使用，我們有一款云掃描儀3d云采集儀。
　　可以試試快數快采，你在應用商店里面搜一下，他們的快數快采可以實(shí)現一鍵采集，
　　用筆者所學(xué)的技術(shù)告訴你，可以試試這個(gè)新技術(shù)電子影像監測監控系統，用定位方式采集視頻數據，
　　同求解答！同感！
　　我也在找，
　　xy，現在是按用戶(hù)設備來(lái)劃分，只有攝像頭、光源、傳感器組成的，然后是采集卡、采集儀。

干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 206 次瀏覽 ? 2022-05-07 02:12 ? 來(lái)自相關(guān)話(huà)題

　　干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！
　　數倉藍圖：
　　本文目錄：
　　一、數據采集及常見(jiàn)問(wèn)題二、埋點(diǎn)是什么與方式三、埋點(diǎn)的框架與設計四、指標體系與可視化
　　一、數據采集以及常見(jiàn)數據問(wèn)題
　　1.1數據采集
　　數據采集有多種方式，埋點(diǎn)采集是其中非常重要的一部分，不論對c端還是b端產(chǎn)品都是主要的采集方式，數據采集，顧名思義就是采集相應的數據，是整個(gè)數據流的起點(diǎn)，采集的全不全，對不對，直接決定數據的廣度和質(zhì)量，影響后續所有的環(huán)節。在數據采集有效性，完整性不好的公司，經(jīng)常會(huì )有業(yè)務(wù)發(fā)現數據發(fā)生大幅度變化。
　　數據的處理通常由以下5步構成：
　　
　　1.2常見(jiàn)數據問(wèn)題
　　大體知道數據采集及其架構之后，我們看看工作中遇到的問(wèn)題，有多少是跟數據采集環(huán)節有關(guān)的：
　　1、數據和后臺差距很大，數據不準確-統計口徑不一樣、埋點(diǎn)定義不一樣、采集方式帶來(lái)誤差
　　2、想用的時(shí)候，沒(méi)有我想要的數據-沒(méi)有提數據采集需求、埋點(diǎn)不正確不完整
　　3、事件太多，不清楚含義-埋點(diǎn)設計的方式、埋點(diǎn)更新迭代的規則和維護
　　4、分析數據不知道看哪些數據和指標-數據定義不清楚，缺乏分析思路
　　我們需要根源性解決問(wèn)題：把采集當成獨立的研發(fā)業(yè)務(wù)來(lái)對待，而不是產(chǎn)品研發(fā)中的附屬品。
　　二、埋點(diǎn)是什么
　　2.1 埋點(diǎn)是什么
　　所謂埋點(diǎn)，就是數據采集領(lǐng)域的術(shù)語(yǔ)。它的學(xué)名應該叫做事件追蹤，對應的英文是Event Tracking 指的是針對特定用戶(hù)行為或事件進(jìn)行捕獲，處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過(guò)程。數據埋點(diǎn)是數據分析師，數據產(chǎn)品經(jīng)理和數據運營(yíng)，基于業(yè)務(wù)需求或者產(chǎn)品需求對用戶(hù)行為的每一個(gè)事件對應位置進(jìn)行開(kāi)發(fā)埋點(diǎn)，并通過(guò)SDK上報埋點(diǎn)的數據結果，記錄匯總數據后進(jìn)行分析，推動(dòng)產(chǎn)品優(yōu)化和指導運營(yíng)。
　　流程伴隨著(zhù)規范，通過(guò)定義我們看到，特定用戶(hù)行為和事件是我們的采集重點(diǎn)，還需要處理和發(fā)送相關(guān)技術(shù)及實(shí)施過(guò)程;數據埋點(diǎn)是服務(wù)于產(chǎn)品，又來(lái)源于產(chǎn)品中，所以跟產(chǎn)品息息相關(guān)，埋點(diǎn)在于具體的實(shí)戰過(guò)程，跟每個(gè)人對數據底層的理解程度有關(guān)。
　　
　　2.2為什么要做埋點(diǎn)
　　埋點(diǎn)就是為了對產(chǎn)品進(jìn)行全方位的持續追蹤，通過(guò)數據分析不斷指導優(yōu)化產(chǎn)品。數據埋點(diǎn)的質(zhì)量直接影響到數據，產(chǎn)品，運營(yíng)等質(zhì)量。
　　1、數據驅動(dòng)-埋點(diǎn)將分析的深度下鉆到流量分布和流動(dòng)層面，通過(guò)統計分析，對宏觀(guān)指標進(jìn)行深入剖析，發(fā)現指標背后的問(wèn)題，洞察用戶(hù)行為與提升價(jià)值之間的潛在關(guān)聯(lián)
　　2、產(chǎn)品優(yōu)化-對產(chǎn)品來(lái)說(shuō)，用戶(hù)在產(chǎn)品里做了什么，停留多久，有什么異常都需要關(guān)注，這些問(wèn)題都可以通過(guò)埋點(diǎn)的方式實(shí)現
　　3、精細化運營(yíng)-埋點(diǎn)可以貫徹整個(gè)產(chǎn)品的生命周期，流量質(zhì)量和不同來(lái)源的分布，人群的行為特點(diǎn)和關(guān)系，洞察用戶(hù)行為與提升業(yè)務(wù)價(jià)值之間的潛在關(guān)聯(lián)。
　　2.3埋點(diǎn)的方式
　　埋點(diǎn)的方式都有哪些呢，當前大多數公司都是客戶(hù)端，服務(wù)端相結合的方式。
　　
　　準確性：代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)
　　三、埋點(diǎn)的框架和設計
　　3.1埋點(diǎn)采集的頂層設計
　　所謂的頂層設計就是想清楚怎么做埋點(diǎn)，用什么方式，上傳機制是什么，具體怎么定義，具體怎么落地等等;我們遵循唯一性，可擴展性，一致性等的基礎上，我們要設計一些通用字段及生成機制，比如：cid, idfa,idfv等。
　　用戶(hù)識別：用戶(hù)識別機制的混亂會(huì )導致兩個(gè)結果：一是數據不準確，比如UV數據對不上;二是涉及到漏斗分析環(huán)節出現異常。因此應該做到：a.嚴格規范ID的本身識別機制;b.跨平臺用戶(hù)識別
　　同類(lèi)抽象: 同類(lèi)抽象包括事件抽象和屬性抽象。事件抽象即瀏覽事件，點(diǎn)擊事件的聚合;屬性抽象，即多數復用的場(chǎng)景來(lái)進(jìn)行合并,增加來(lái)源區分
　　采集一致：采集一致包括兩點(diǎn)：一是跨平臺頁(yè)面命名一致，二是按鈕命名一致;埋點(diǎn)的制定過(guò)程本身就是規范底層數據的過(guò)程，所以一致性是特別重要，只有這樣才能真正的用起來(lái)
　　渠道配置：渠道主要指的是推廣渠道，落地頁(yè)，網(wǎng)頁(yè)推廣頁(yè)面，APP推廣頁(yè)面等，這個(gè)落地頁(yè)的配置要有統一規范和標準
　　3.2 埋點(diǎn)采集事件及屬性設計
　　在設計屬性和事件的時(shí)候，我們要知道哪些經(jīng)常變，哪些不變，哪些是業(yè)務(wù)行為，哪些是基本屬性?；诨緦傩允录?，我們認為屬性是必須采集項，只是屬性里面的事件屬性根據業(yè)務(wù)不同有所調整而已，因此，我們可以把埋點(diǎn)采集分為協(xié)議層和業(yè)務(wù)層埋點(diǎn)。
　　業(yè)務(wù)分解：梳理確認業(yè)務(wù)流程、操作路徑和不同細分場(chǎng)景、定義用戶(hù)行為路徑
　　分析指標：對特定的事件進(jìn)行定義、核心業(yè)務(wù)指標需要的數據
　　事件設計：APP啟動(dòng)，退出、頁(yè)面瀏覽、事件曝光點(diǎn)擊
　　屬性設計：用戶(hù)屬性、事件屬性、對象屬性、環(huán)境屬性
　　3.3 數據采集事件及屬性設計
　　
　　Ev事件的命名，也遵循一些規則，同一類(lèi)功能在不同頁(yè)面或位置出現時(shí)，按照功能名稱(chēng)命名，頁(yè)面和位置在ev參數中進(jìn)行區分。僅是按鈕點(diǎn)擊時(shí)，按照按鈕名稱(chēng)命名。
　　ev事件格式：ev分為ev標識和ev參數
　　規則：
　　ev標識和ev參數之間用“#”連接(一級連接符)
　　ev參數和ev參數之間用“/”來(lái)連接(二級連接符)
　　ev參數使用key=value的結構，當一個(gè)key對應多個(gè)value值時(shí)，value1與value2之間用“，”連接(三級連接符)
　　當埋點(diǎn)僅有ev標識沒(méi)有ev參數的時(shí)候，不需要帶#
　　備注：
　　ev標識：作為埋點(diǎn)的唯一標識，用來(lái)區分埋點(diǎn)的位置和屬性，不可變，不可修改。
　　ev參數：埋點(diǎn)需要回傳的參數，ev參數順序可變，可修改)
　　app埋點(diǎn)調整的時(shí)，ev標識不變，只修改后面的埋點(diǎn)參數(參數取值變化或者增加參數類(lèi)型)
　　一般埋點(diǎn)文檔中所包含的sheet名稱(chēng)以及作用：
　　A、曝光埋點(diǎn)匯總；
　　B、點(diǎn)擊和瀏覽埋點(diǎn)匯總；
　　C、失效埋點(diǎn)匯總：一般會(huì )記錄埋點(diǎn)失效版本或時(shí)間；
　　D、PC和M端頁(yè)面埋點(diǎn)所對應的pageid；
　　E、各版本上線(xiàn)時(shí)間記錄；
　　埋點(diǎn)文檔中，所有包含的列名及功能：
　　
　　3.4 基于埋點(diǎn)的數據統計
　　用埋點(diǎn)統計數據怎么查找埋點(diǎn)ev事件：
　　1、明確埋點(diǎn)類(lèi)型（點(diǎn)擊/曝光/瀏覽）——篩選type字段
　　2、明確按鈕埋點(diǎn)所屬頁(yè)面（頁(yè)面或功能）——篩選功能模塊字段
　　3、明確埋點(diǎn)事件名稱(chēng)——篩選名稱(chēng)字段
　　4、知道ev標識，可直接用ev來(lái)進(jìn)行篩選
　　根據ev事件怎么進(jìn)行查詢(xún)統計：當查詢(xún)按鈕點(diǎn)擊統計時(shí)，可直接用ev標識進(jìn)行查詢(xún)，當有所區分可限定埋點(diǎn)參數取值。因為ev參數的順序不做要求可變，所以查詢(xún)統計時(shí)，不能按照參數的順序進(jìn)行限定。
　　四、應用-數據流程的基礎
　　
　　4.1指標體系
　　體系化的指標可以綜合不同的指標不同的維度串聯(lián)起來(lái)進(jìn)行全面的分析，會(huì )更快的發(fā)現目前產(chǎn)品和業(yè)務(wù)流程存在的問(wèn)題。
　　
　　4.2可視化
　　人對圖像信息的解釋效率比文字更高，可視化對數據分析極為重要，利用數據可視化可以揭示出數據內在的錯綜復雜的關(guān)系。
　　
　　4.3 埋點(diǎn)元信息api提供
　　數據采集服務(wù)會(huì )對采集到的埋點(diǎn)寫(xiě)入到 Kafka 中，對于各個(gè)業(yè)務(wù)的實(shí)時(shí)數據消費需求，我們?yōu)槊總€(gè)業(yè)務(wù)提供了單獨的 Kafka，流量分發(fā)模塊會(huì )定期讀取埋點(diǎn)管理平臺提供的元信息，將流量實(shí)時(shí)分發(fā)的各業(yè)務(wù) Kafka 中。
　　
　　數據采集猶如設計產(chǎn)品，不能過(guò)度。不僅要留出擴展余地，更要經(jīng)常思考數據有沒(méi)有，全不全，細不細，穩不穩，快不快。查看全部

　　干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！
　　數倉藍圖：
　　本文目錄：
　　一、數據采集及常見(jiàn)問(wèn)題二、埋點(diǎn)是什么與方式三、埋點(diǎn)的框架與設計四、指標體系與可視化
　　一、數據采集以及常見(jiàn)數據問(wèn)題
　　1.1數據采集
　　數據采集有多種方式，埋點(diǎn)采集是其中非常重要的一部分，不論對c端還是b端產(chǎn)品都是主要的采集方式，數據采集，顧名思義就是采集相應的數據，是整個(gè)數據流的起點(diǎn)，采集的全不全，對不對，直接決定數據的廣度和質(zhì)量，影響后續所有的環(huán)節。在數據采集有效性，完整性不好的公司，經(jīng)常會(huì )有業(yè)務(wù)發(fā)現數據發(fā)生大幅度變化。
　　數據的處理通常由以下5步構成：
　　

　　1.2常見(jiàn)數據問(wèn)題
　　大體知道數據采集及其架構之后，我們看看工作中遇到的問(wèn)題，有多少是跟數據采集環(huán)節有關(guān)的：
　　1、數據和后臺差距很大，數據不準確-統計口徑不一樣、埋點(diǎn)定義不一樣、采集方式帶來(lái)誤差
　　2、想用的時(shí)候，沒(méi)有我想要的數據-沒(méi)有提數據采集需求、埋點(diǎn)不正確不完整
　　3、事件太多，不清楚含義-埋點(diǎn)設計的方式、埋點(diǎn)更新迭代的規則和維護
　　4、分析數據不知道看哪些數據和指標-數據定義不清楚，缺乏分析思路
　　我們需要根源性解決問(wèn)題：把采集當成獨立的研發(fā)業(yè)務(wù)來(lái)對待，而不是產(chǎn)品研發(fā)中的附屬品。
　　二、埋點(diǎn)是什么
　　2.1 埋點(diǎn)是什么
　　所謂埋點(diǎn)，就是數據采集領(lǐng)域的術(shù)語(yǔ)。它的學(xué)名應該叫做事件追蹤，對應的英文是Event Tracking 指的是針對特定用戶(hù)行為或事件進(jìn)行捕獲，處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過(guò)程。數據埋點(diǎn)是數據分析師，數據產(chǎn)品經(jīng)理和數據運營(yíng)，基于業(yè)務(wù)需求或者產(chǎn)品需求對用戶(hù)行為的每一個(gè)事件對應位置進(jìn)行開(kāi)發(fā)埋點(diǎn)，并通過(guò)SDK上報埋點(diǎn)的數據結果，記錄匯總數據后進(jìn)行分析，推動(dòng)產(chǎn)品優(yōu)化和指導運營(yíng)。
　　流程伴隨著(zhù)規范，通過(guò)定義我們看到，特定用戶(hù)行為和事件是我們的采集重點(diǎn)，還需要處理和發(fā)送相關(guān)技術(shù)及實(shí)施過(guò)程;數據埋點(diǎn)是服務(wù)于產(chǎn)品，又來(lái)源于產(chǎn)品中，所以跟產(chǎn)品息息相關(guān)，埋點(diǎn)在于具體的實(shí)戰過(guò)程，跟每個(gè)人對數據底層的理解程度有關(guān)。
　　

　　2.2為什么要做埋點(diǎn)
　　埋點(diǎn)就是為了對產(chǎn)品進(jìn)行全方位的持續追蹤，通過(guò)數據分析不斷指導優(yōu)化產(chǎn)品。數據埋點(diǎn)的質(zhì)量直接影響到數據，產(chǎn)品，運營(yíng)等質(zhì)量。
　　1、數據驅動(dòng)-埋點(diǎn)將分析的深度下鉆到流量分布和流動(dòng)層面，通過(guò)統計分析，對宏觀(guān)指標進(jìn)行深入剖析，發(fā)現指標背后的問(wèn)題，洞察用戶(hù)行為與提升價(jià)值之間的潛在關(guān)聯(lián)
　　2、產(chǎn)品優(yōu)化-對產(chǎn)品來(lái)說(shuō)，用戶(hù)在產(chǎn)品里做了什么，停留多久，有什么異常都需要關(guān)注，這些問(wèn)題都可以通過(guò)埋點(diǎn)的方式實(shí)現
　　3、精細化運營(yíng)-埋點(diǎn)可以貫徹整個(gè)產(chǎn)品的生命周期，流量質(zhì)量和不同來(lái)源的分布，人群的行為特點(diǎn)和關(guān)系，洞察用戶(hù)行為與提升業(yè)務(wù)價(jià)值之間的潛在關(guān)聯(lián)。
　　2.3埋點(diǎn)的方式
　　埋點(diǎn)的方式都有哪些呢，當前大多數公司都是客戶(hù)端，服務(wù)端相結合的方式。
　　

　　準確性：代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)
　　三、埋點(diǎn)的框架和設計
　　3.1埋點(diǎn)采集的頂層設計
　　所謂的頂層設計就是想清楚怎么做埋點(diǎn)，用什么方式，上傳機制是什么，具體怎么定義，具體怎么落地等等;我們遵循唯一性，可擴展性，一致性等的基礎上，我們要設計一些通用字段及生成機制，比如：cid, idfa,idfv等。
　　用戶(hù)識別：用戶(hù)識別機制的混亂會(huì )導致兩個(gè)結果：一是數據不準確，比如UV數據對不上;二是涉及到漏斗分析環(huán)節出現異常。因此應該做到：a.嚴格規范ID的本身識別機制;b.跨平臺用戶(hù)識別
　　同類(lèi)抽象: 同類(lèi)抽象包括事件抽象和屬性抽象。事件抽象即瀏覽事件，點(diǎn)擊事件的聚合;屬性抽象，即多數復用的場(chǎng)景來(lái)進(jìn)行合并,增加來(lái)源區分
　　采集一致：采集一致包括兩點(diǎn)：一是跨平臺頁(yè)面命名一致，二是按鈕命名一致;埋點(diǎn)的制定過(guò)程本身就是規范底層數據的過(guò)程，所以一致性是特別重要，只有這樣才能真正的用起來(lái)
　　渠道配置：渠道主要指的是推廣渠道，落地頁(yè)，網(wǎng)頁(yè)推廣頁(yè)面，APP推廣頁(yè)面等，這個(gè)落地頁(yè)的配置要有統一規范和標準
　　3.2 埋點(diǎn)采集事件及屬性設計
　　在設計屬性和事件的時(shí)候，我們要知道哪些經(jīng)常變，哪些不變，哪些是業(yè)務(wù)行為，哪些是基本屬性?；诨緦傩允录?，我們認為屬性是必須采集項，只是屬性里面的事件屬性根據業(yè)務(wù)不同有所調整而已，因此，我們可以把埋點(diǎn)采集分為協(xié)議層和業(yè)務(wù)層埋點(diǎn)。
　　業(yè)務(wù)分解：梳理確認業(yè)務(wù)流程、操作路徑和不同細分場(chǎng)景、定義用戶(hù)行為路徑
　　分析指標：對特定的事件進(jìn)行定義、核心業(yè)務(wù)指標需要的數據
　　事件設計：APP啟動(dòng)，退出、頁(yè)面瀏覽、事件曝光點(diǎn)擊
　　屬性設計：用戶(hù)屬性、事件屬性、對象屬性、環(huán)境屬性
　　3.3 數據采集事件及屬性設計
　　

　　Ev事件的命名，也遵循一些規則，同一類(lèi)功能在不同頁(yè)面或位置出現時(shí)，按照功能名稱(chēng)命名，頁(yè)面和位置在ev參數中進(jìn)行區分。僅是按鈕點(diǎn)擊時(shí)，按照按鈕名稱(chēng)命名。
　　ev事件格式：ev分為ev標識和ev參數
　　規則：
　　ev標識和ev參數之間用“#”連接(一級連接符)
　　ev參數和ev參數之間用“/”來(lái)連接(二級連接符)
　　ev參數使用key=value的結構，當一個(gè)key對應多個(gè)value值時(shí)，value1與value2之間用“，”連接(三級連接符)
　　當埋點(diǎn)僅有ev標識沒(méi)有ev參數的時(shí)候，不需要帶#
　　備注：
　　ev標識：作為埋點(diǎn)的唯一標識，用來(lái)區分埋點(diǎn)的位置和屬性，不可變，不可修改。
　　ev參數：埋點(diǎn)需要回傳的參數，ev參數順序可變，可修改)
　　app埋點(diǎn)調整的時(shí)，ev標識不變，只修改后面的埋點(diǎn)參數(參數取值變化或者增加參數類(lèi)型)
　　一般埋點(diǎn)文檔中所包含的sheet名稱(chēng)以及作用：
　　A、曝光埋點(diǎn)匯總；
　　B、點(diǎn)擊和瀏覽埋點(diǎn)匯總；
　　C、失效埋點(diǎn)匯總：一般會(huì )記錄埋點(diǎn)失效版本或時(shí)間；
　　D、PC和M端頁(yè)面埋點(diǎn)所對應的pageid；
　　E、各版本上線(xiàn)時(shí)間記錄；
　　埋點(diǎn)文檔中，所有包含的列名及功能：
　　

　　3.4 基于埋點(diǎn)的數據統計
　　用埋點(diǎn)統計數據怎么查找埋點(diǎn)ev事件：
　　1、明確埋點(diǎn)類(lèi)型（點(diǎn)擊/曝光/瀏覽）——篩選type字段
　　2、明確按鈕埋點(diǎn)所屬頁(yè)面（頁(yè)面或功能）——篩選功能模塊字段
　　3、明確埋點(diǎn)事件名稱(chēng)——篩選名稱(chēng)字段
　　4、知道ev標識，可直接用ev來(lái)進(jìn)行篩選
　　根據ev事件怎么進(jìn)行查詢(xún)統計：當查詢(xún)按鈕點(diǎn)擊統計時(shí)，可直接用ev標識進(jìn)行查詢(xún)，當有所區分可限定埋點(diǎn)參數取值。因為ev參數的順序不做要求可變，所以查詢(xún)統計時(shí)，不能按照參數的順序進(jìn)行限定。
　　四、應用-數據流程的基礎
　　

　　4.1指標體系
　　體系化的指標可以綜合不同的指標不同的維度串聯(lián)起來(lái)進(jìn)行全面的分析，會(huì )更快的發(fā)現目前產(chǎn)品和業(yè)務(wù)流程存在的問(wèn)題。
　　

　　4.2可視化
　　人對圖像信息的解釋效率比文字更高，可視化對數據分析極為重要，利用數據可視化可以揭示出數據內在的錯綜復雜的關(guān)系。
　　

　　4.3 埋點(diǎn)元信息api提供
　　數據采集服務(wù)會(huì )對采集到的埋點(diǎn)寫(xiě)入到 Kafka 中，對于各個(gè)業(yè)務(wù)的實(shí)時(shí)數據消費需求，我們?yōu)槊總€(gè)業(yè)務(wù)提供了單獨的 Kafka，流量分發(fā)模塊會(huì )定期讀取埋點(diǎn)管理平臺提供的元信息，將流量實(shí)時(shí)分發(fā)的各業(yè)務(wù) Kafka 中。
　　

　　數據采集猶如設計產(chǎn)品，不能過(guò)度。不僅要留出擴展余地，更要經(jīng)常思考數據有沒(méi)有，全不全，細不細，穩不穩，快不快。

文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量 )

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-19 12:04 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量
)
<p>如何讓我們的網(wǎng)站每天自動(dòng)更新，好的網(wǎng)站內容SEO可以保證網(wǎng)站的收錄量和關(guān)鍵詞量在查看全部

　　文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量
)
<p>如何讓我們的網(wǎng)站每天自動(dòng)更新，好的網(wǎng)站內容SEO可以保證網(wǎng)站的收錄量和關(guān)鍵詞量在

文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2022-04-18 10:48 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)
　　各位朋友您好，我最近寫(xiě)了幾篇關(guān)于實(shí)時(shí)數據分析的文章文章，都是基于當時(shí)的問(wèn)題分析。今天打開(kāi)這篇文章文章是因為實(shí)時(shí)分析工具已經(jīng)實(shí)現了從0到1的業(yè)務(wù)數據對接，如果任何工具或功能不能與業(yè)務(wù)融合，那它所做的一切都是無(wú)用的，無(wú)法體現它的價(jià)值。所有的痛點(diǎn)和解決方案也來(lái)自于業(yè)務(wù)的使用。
　　這個(gè)文章我就不講怎么選型號了，因為網(wǎng)上有很多類(lèi)似的文章，只要細心就能找到，但不管是什么型號選擇，重點(diǎn)是“行業(yè)研究”，防止錯誤選擇。我一般會(huì )根據以下三大前提來(lái)選款（以下陳述純屬個(gè)人觀(guān)點(diǎn)，如有不妥請在下方評論）
　　有很多公司在使用它，并且有很好的數據顯示開(kāi)源軟件。關(guān)注社區情況。最近有沒(méi)有繼續迭代，防止自己進(jìn)入深坑？最重要的是有沒(méi)有和你類(lèi)似的場(chǎng)景，你用過(guò)你要使用的工具。方便技術(shù)咨詢(xún)
　　行業(yè)研究，行業(yè)研究，行業(yè)研究重要的事情說(shuō)三遍
　　實(shí)時(shí)數據分析目前主要應用在業(yè)務(wù)場(chǎng)景中（很多公司對實(shí)時(shí)性有很強的需求）
　　1. 實(shí)時(shí)數據訪(fǎng)問(wèn)共6個(gè)數據源
　　2. 由于剛剛訪(fǎng)問(wèn)的日均數據量約為160萬(wàn)，當前攝取的數據量約為400萬(wàn)
　　以往的文章直通車(chē)（鏈接地址這里就不貼了，可以百度搜索）
　　1. 插件編寫(xiě)——Flume海量數據實(shí)時(shí)數據轉換
　　2.回顧-Flume+Kafka實(shí)時(shí)數據采集
　　3.Kafka實(shí)時(shí)流式數據接入-吐血梳理與實(shí)踐-Druid實(shí)時(shí)數據分析
　　4. 實(shí)時(shí)數據分析 Druid - 環(huán)境部署&試用
　　好了，以上就是簡(jiǎn)單的介紹，我們來(lái)說(shuō)說(shuō)今天的話(huà)題。
　　一. 為什么要做實(shí)時(shí)流數據分析？
　　以前不太喜歡碰數據，但總覺(jué)得沒(méi)什么用。只有當我因為工作原因觸及數據的門(mén)檻時(shí)，我才知道數據的重要性。
　　通常我們根據過(guò)去的經(jīng)驗做出決定。俗話(huà)說(shuō)“做這個(gè)應該沒(méi)問(wèn)題”，但沒(méi)有數據支持往往不夠準確，大概率會(huì )出現問(wèn)題，所以我們要從【經(jīng)驗決策】走向【真實(shí)-時(shí)間數據驅動(dòng)的決策]，使所有行動(dòng)都以數據為事實(shí)。
　　
　　二. 整體架構流程及分解
　　首先介紹一下我要解決的需求和痛點(diǎn)：
　　1. 實(shí)時(shí)流式數據攝取、顯示圖表、導出實(shí)時(shí)報告
　　2. 分析以往報告，90% 數據匯總，無(wú)需詳細數據
　　根據上面的分析，選擇了olap，最終選擇了Apache Druid。
　　什么是阿帕奇德魯伊
　　Druid 是一個(gè)分布式數據處理系統，支持實(shí)時(shí)多維 OLAP 分析。它既支持高速實(shí)時(shí)數據攝取處理，又支持實(shí)時(shí)靈活的多維數據分析查詢(xún)。因此，Druid 最常用的場(chǎng)景是大數據背景下靈活快速的多維 OLAP 分析。此外，Druid 有一個(gè)關(guān)鍵特性：支持基于時(shí)間戳的數據預聚合攝取和聚合分析，因此一些用戶(hù)經(jīng)常在有時(shí)序數據處理和分析的場(chǎng)景中使用它。
　　為什么來(lái)自 Druid 的亞秒級響應的交互式查詢(xún)支持更高的并發(fā)性。支持實(shí)時(shí)導入，導入可查詢(xún)，支持高并發(fā)導入。使用分布式無(wú)共享架構，它可以擴展到 PB 級別。支持聚合函數、count 和 sum，以及使用 javascript 實(shí)現自定義 UDF。支持復雜的聚合器，用于近似查詢(xún)的聚合器，例如 HyperLoglog 和 6. 雅虎的開(kāi)源 DataSketches。支持 Groupby、Select、Search 查詢(xún)。不支持大表之間的join，但是它的lookup功能滿(mǎn)足Join with dimension tables。（最新版本0.18已經(jīng)支持Join，具體性能有待測試）架構
　　
　　需求分析和核心引擎選型基本完成。先說(shuō)一下整體架構
　　建筑設計的三個(gè)原則
　　適應原理簡(jiǎn)單原理進(jìn)化原理
　　選擇合適的架構，切記不要過(guò)度設計，過(guò)度設計未必實(shí)用。
　　架構圖
　　
　　結構意圖
　　
　　實(shí)時(shí)計算分析如何形成數據閉環(huán)，以下三點(diǎn)最重要
　　1. 數據清洗改造：需要通過(guò)一定的規則和規范，保證業(yè)務(wù)方傳輸的數據實(shí)時(shí)清洗改造或建模
　　2. 實(shí)時(shí)計算引擎：OLAP在線(xiàn)分析引擎選型
　　3.離線(xiàn)存儲：深度存儲，保證實(shí)時(shí)OLAP性能，也可作為日常數據容災
　　
　　三、踩坑及解決方法
　　由于第一次接觸數據分析相關(guān)的場(chǎng)景，很多工具和知識都是從零開(kāi)始的。我知道我應該盡快補足功課，尤其是實(shí)時(shí)場(chǎng)景應用。
　　由于缺乏知識，在整體架構的構建和開(kāi)發(fā)過(guò)程中存在許多問(wèn)題。讓我用圖形的方式解釋一下，這樣就不會(huì )有學(xué)生對實(shí)時(shí)流數據不熟悉了。
　　數據清洗和轉換
　　訪(fǎng)問(wèn)標準和規范非常重要。由于業(yè)務(wù)方數量眾多，只要有標準的切割方法，每個(gè)業(yè)務(wù)方的日志規格很可能不一致（我們的工具不能要求業(yè)務(wù)方修改大量的日志規格）。
　　在這種情況下，我們可以梳理出兩種業(yè)務(wù)業(yè)態(tài)：
　　1. 文本 -> Json
　　原始日志
2019-02-11 19:03:30.123|INFO|1.0|10.10.10.10|push-service|trace_id:0001|msg:錯誤信息|token:abcd
清洗后
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
　　Json 結構 A -> Json 結構 B
　　原始日志 -> Json結構A
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
清洗、轉換后
{"ts—time":"2020-05-07 16:29:05", "errLevel": "INFO"}
　　最終統一輸出JSON（標準化輸入輸出）
　　流程圖
　　
　　以上是標準的整體流程，為此我開(kāi)發(fā)了兩個(gè)Flume插件
　　1. 文本 -> Json 插件
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=***.flume.textToJson.TextToJsonBuilder
a1.sources.r1.interceptors.i1.textToJson={"times":"#0", "errLevel": "#1", "version":"#2" , "ip":"#3", "service-name":"#4", "trace_id": "#5","msg": "#6"}
a1.sources.r1.interceptors.i1.separator=\\,
　　Json 結構 A -> Json 結構 B
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=flume.***.StringTransJsonBuilder
a1.sources.r1.interceptors.i1.template={"scid":"data.data.data.scid","tpc":"data.data.tpc", "did": "data.data.did"}
a1.sources.r1.interceptors.i1.where={"key1":"value1", "data.key2":"value2"}
a1.sources.r1.interceptors.i1.addheader=comment
　　上述過(guò)程沒(méi)有任何問(wèn)題。. . 但問(wèn)題來(lái)了。
　　由于我們是消費者業(yè)務(wù)端Kafka Topics，所以有這樣一種場(chǎng)景，所有業(yè)務(wù)方都將數據放到一個(gè)大topic中，我們需要對數據進(jìn)行清洗轉換成我們需要的數據源。見(jiàn)下圖：
　　
　　在上圖的攔截器部分，接收到的主題數據必須經(jīng)過(guò)攔截器的清洗和轉換。由于業(yè)務(wù)topic有10個(gè)partition，如果我們啟動(dòng)一個(gè)Flume NG去消費，就會(huì )造成數據的積壓。. .
　　1. 業(yè)務(wù)主題有10個(gè)分區，單個(gè)Flume NG進(jìn)程可以理解為1個(gè)分區。. . 嚴重不足
　　2. 測試結果從業(yè)務(wù)端接收數據7小時(shí)，數據實(shí)際清洗2小時(shí)，數據繼續被擠壓
　　對應解決方案：
　　1. 啟動(dòng) 10 個(gè) Flume 進(jìn)程，相當于 10 個(gè) Topic 分區，但這會(huì )消耗資源。. .
　　2. Python 進(jìn)行數據清理和轉換。
　　Flume NG 在內部為我們做了很多高可用。高可靠性保證，有限的資源只能暫時(shí)放棄這個(gè)計劃。
　　所以選擇了方案2，放棄了高可用和高可靠，但是最終的結果還是很不錯的，用Python的消費速度是10個(gè)Flume NG的兩倍。
　　結論：我們自己處理ETL，短期內是可行的，但長(cháng)期來(lái)看還是要選擇工具來(lái)處理。畢竟已經(jīng)為我們準備了很多保障（要想做好工作，就必須先利好工具）。這句話(huà)不無(wú)道理。
　　目前遇到的最大困難是清洗和轉換。其他的小坑在之前的文章里已經(jīng)寫(xiě)過(guò)了，大家可以搜索一下。
　　阿帕奇德魯伊
　　我使用最新版本的 0.18。該版本官方公告已宣布加入支持，但尚未進(jìn)行測試。
　　該工具已經(jīng)使用了一個(gè)多月，到目前為止它看起來(lái)很完美。
　　待續
　　很高興這個(gè)項目能邁出一小步，我們的架構還要迭代開(kāi)發(fā)，以后會(huì )繼續更新這個(gè)系列文章哈哈
　　特別感謝老板給我機會(huì )開(kāi)發(fā)這個(gè)項目。. . 給我機會(huì )從我的工作中成長(cháng) 查看全部

　　文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)
　　各位朋友您好，我最近寫(xiě)了幾篇關(guān)于實(shí)時(shí)數據分析的文章文章，都是基于當時(shí)的問(wèn)題分析。今天打開(kāi)這篇文章文章是因為實(shí)時(shí)分析工具已經(jīng)實(shí)現了從0到1的業(yè)務(wù)數據對接，如果任何工具或功能不能與業(yè)務(wù)融合，那它所做的一切都是無(wú)用的，無(wú)法體現它的價(jià)值。所有的痛點(diǎn)和解決方案也來(lái)自于業(yè)務(wù)的使用。
　　這個(gè)文章我就不講怎么選型號了，因為網(wǎng)上有很多類(lèi)似的文章，只要細心就能找到，但不管是什么型號選擇，重點(diǎn)是“行業(yè)研究”，防止錯誤選擇。我一般會(huì )根據以下三大前提來(lái)選款（以下陳述純屬個(gè)人觀(guān)點(diǎn)，如有不妥請在下方評論）
　　有很多公司在使用它，并且有很好的數據顯示開(kāi)源軟件。關(guān)注社區情況。最近有沒(méi)有繼續迭代，防止自己進(jìn)入深坑？最重要的是有沒(méi)有和你類(lèi)似的場(chǎng)景，你用過(guò)你要使用的工具。方便技術(shù)咨詢(xún)
　　行業(yè)研究，行業(yè)研究，行業(yè)研究重要的事情說(shuō)三遍
　　實(shí)時(shí)數據分析目前主要應用在業(yè)務(wù)場(chǎng)景中（很多公司對實(shí)時(shí)性有很強的需求）
　　1. 實(shí)時(shí)數據訪(fǎng)問(wèn)共6個(gè)數據源
　　2. 由于剛剛訪(fǎng)問(wèn)的日均數據量約為160萬(wàn)，當前攝取的數據量約為400萬(wàn)
　　以往的文章直通車(chē)（鏈接地址這里就不貼了，可以百度搜索）
　　1. 插件編寫(xiě)——Flume海量數據實(shí)時(shí)數據轉換
　　2.回顧-Flume+Kafka實(shí)時(shí)數據采集
　　3.Kafka實(shí)時(shí)流式數據接入-吐血梳理與實(shí)踐-Druid實(shí)時(shí)數據分析
　　4. 實(shí)時(shí)數據分析 Druid - 環(huán)境部署&試用
　　好了，以上就是簡(jiǎn)單的介紹，我們來(lái)說(shuō)說(shuō)今天的話(huà)題。
　　一. 為什么要做實(shí)時(shí)流數據分析？
　　以前不太喜歡碰數據，但總覺(jué)得沒(méi)什么用。只有當我因為工作原因觸及數據的門(mén)檻時(shí)，我才知道數據的重要性。
　　通常我們根據過(guò)去的經(jīng)驗做出決定。俗話(huà)說(shuō)“做這個(gè)應該沒(méi)問(wèn)題”，但沒(méi)有數據支持往往不夠準確，大概率會(huì )出現問(wèn)題，所以我們要從【經(jīng)驗決策】走向【真實(shí)-時(shí)間數據驅動(dòng)的決策]，使所有行動(dòng)都以數據為事實(shí)。
　　

　　二. 整體架構流程及分解
　　首先介紹一下我要解決的需求和痛點(diǎn)：
　　1. 實(shí)時(shí)流式數據攝取、顯示圖表、導出實(shí)時(shí)報告
　　2. 分析以往報告，90% 數據匯總，無(wú)需詳細數據
　　根據上面的分析，選擇了olap，最終選擇了Apache Druid。
　　什么是阿帕奇德魯伊
　　Druid 是一個(gè)分布式數據處理系統，支持實(shí)時(shí)多維 OLAP 分析。它既支持高速實(shí)時(shí)數據攝取處理，又支持實(shí)時(shí)靈活的多維數據分析查詢(xún)。因此，Druid 最常用的場(chǎng)景是大數據背景下靈活快速的多維 OLAP 分析。此外，Druid 有一個(gè)關(guān)鍵特性：支持基于時(shí)間戳的數據預聚合攝取和聚合分析，因此一些用戶(hù)經(jīng)常在有時(shí)序數據處理和分析的場(chǎng)景中使用它。
　　為什么來(lái)自 Druid 的亞秒級響應的交互式查詢(xún)支持更高的并發(fā)性。支持實(shí)時(shí)導入，導入可查詢(xún)，支持高并發(fā)導入。使用分布式無(wú)共享架構，它可以擴展到 PB 級別。支持聚合函數、count 和 sum，以及使用 javascript 實(shí)現自定義 UDF。支持復雜的聚合器，用于近似查詢(xún)的聚合器，例如 HyperLoglog 和 6. 雅虎的開(kāi)源 DataSketches。支持 Groupby、Select、Search 查詢(xún)。不支持大表之間的join，但是它的lookup功能滿(mǎn)足Join with dimension tables。（最新版本0.18已經(jīng)支持Join，具體性能有待測試）架構
　　

　　需求分析和核心引擎選型基本完成。先說(shuō)一下整體架構
　　建筑設計的三個(gè)原則
　　適應原理簡(jiǎn)單原理進(jìn)化原理
　　選擇合適的架構，切記不要過(guò)度設計，過(guò)度設計未必實(shí)用。
　　架構圖
　　

　　結構意圖
　　

　　實(shí)時(shí)計算分析如何形成數據閉環(huán)，以下三點(diǎn)最重要
　　1. 數據清洗改造：需要通過(guò)一定的規則和規范，保證業(yè)務(wù)方傳輸的數據實(shí)時(shí)清洗改造或建模
　　2. 實(shí)時(shí)計算引擎：OLAP在線(xiàn)分析引擎選型
　　3.離線(xiàn)存儲：深度存儲，保證實(shí)時(shí)OLAP性能，也可作為日常數據容災
　　

　　三、踩坑及解決方法
　　由于第一次接觸數據分析相關(guān)的場(chǎng)景，很多工具和知識都是從零開(kāi)始的。我知道我應該盡快補足功課，尤其是實(shí)時(shí)場(chǎng)景應用。
　　由于缺乏知識，在整體架構的構建和開(kāi)發(fā)過(guò)程中存在許多問(wèn)題。讓我用圖形的方式解釋一下，這樣就不會(huì )有學(xué)生對實(shí)時(shí)流數據不熟悉了。
　　數據清洗和轉換
　　訪(fǎng)問(wèn)標準和規范非常重要。由于業(yè)務(wù)方數量眾多，只要有標準的切割方法，每個(gè)業(yè)務(wù)方的日志規格很可能不一致（我們的工具不能要求業(yè)務(wù)方修改大量的日志規格）。
　　在這種情況下，我們可以梳理出兩種業(yè)務(wù)業(yè)態(tài)：
　　1. 文本 -> Json
　　原始日志
2019-02-11 19:03:30.123|INFO|1.0|10.10.10.10|push-service|trace_id:0001|msg:錯誤信息|token:abcd
清洗后
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
　　Json 結構 A -> Json 結構 B
　　原始日志 -> Json結構A
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
清洗、轉換后
{"ts—time":"2020-05-07 16:29:05", "errLevel": "INFO"}
　　最終統一輸出JSON（標準化輸入輸出）
　　流程圖
　　

　　以上是標準的整體流程，為此我開(kāi)發(fā)了兩個(gè)Flume插件
　　1. 文本 -> Json 插件
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=***.flume.textToJson.TextToJsonBuilder
a1.sources.r1.interceptors.i1.textToJson={"times":"#0", "errLevel": "#1", "version":"#2" , "ip":"#3", "service-name":"#4", "trace_id": "#5","msg": "#6"}
a1.sources.r1.interceptors.i1.separator=\\,
　　Json 結構 A -> Json 結構 B
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=flume.***.StringTransJsonBuilder
a1.sources.r1.interceptors.i1.template={"scid":"data.data.data.scid","tpc":"data.data.tpc", "did": "data.data.did"}
a1.sources.r1.interceptors.i1.where={"key1":"value1", "data.key2":"value2"}
a1.sources.r1.interceptors.i1.addheader=comment
　　上述過(guò)程沒(méi)有任何問(wèn)題。. . 但問(wèn)題來(lái)了。
　　由于我們是消費者業(yè)務(wù)端Kafka Topics，所以有這樣一種場(chǎng)景，所有業(yè)務(wù)方都將數據放到一個(gè)大topic中，我們需要對數據進(jìn)行清洗轉換成我們需要的數據源。見(jiàn)下圖：
　　

　　在上圖的攔截器部分，接收到的主題數據必須經(jīng)過(guò)攔截器的清洗和轉換。由于業(yè)務(wù)topic有10個(gè)partition，如果我們啟動(dòng)一個(gè)Flume NG去消費，就會(huì )造成數據的積壓。. .
　　1. 業(yè)務(wù)主題有10個(gè)分區，單個(gè)Flume NG進(jìn)程可以理解為1個(gè)分區。. . 嚴重不足
　　2. 測試結果從業(yè)務(wù)端接收數據7小時(shí)，數據實(shí)際清洗2小時(shí)，數據繼續被擠壓
　　對應解決方案：
　　1. 啟動(dòng) 10 個(gè) Flume 進(jìn)程，相當于 10 個(gè) Topic 分區，但這會(huì )消耗資源。. .
　　2. Python 進(jìn)行數據清理和轉換。
　　Flume NG 在內部為我們做了很多高可用。高可靠性保證，有限的資源只能暫時(shí)放棄這個(gè)計劃。
　　所以選擇了方案2，放棄了高可用和高可靠，但是最終的結果還是很不錯的，用Python的消費速度是10個(gè)Flume NG的兩倍。
　　結論：我們自己處理ETL，短期內是可行的，但長(cháng)期來(lái)看還是要選擇工具來(lái)處理。畢竟已經(jīng)為我們準備了很多保障（要想做好工作，就必須先利好工具）。這句話(huà)不無(wú)道理。
　　目前遇到的最大困難是清洗和轉換。其他的小坑在之前的文章里已經(jīng)寫(xiě)過(guò)了，大家可以搜索一下。
　　阿帕奇德魯伊
　　我使用最新版本的 0.18。該版本官方公告已宣布加入支持，但尚未進(jìn)行測試。
　　該工具已經(jīng)使用了一個(gè)多月，到目前為止它看起來(lái)很完美。
　　待續
　　很高興這個(gè)項目能邁出一小步，我們的架構還要迭代開(kāi)發(fā)，以后會(huì )繼續更新這個(gè)系列文章哈哈
　　特別感謝老板給我機會(huì )開(kāi)發(fā)這個(gè)項目。. . 給我機會(huì )從我的工作中成長(cháng)

文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2022-04-18 10:46 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　正好這個(gè)時(shí)候在研究Xposed Hook微信，所以打算試試安卓版的微信。需求是什么？也就是微信推送一條公眾號消息，我們接受一條，發(fā)送到對應界面保存，方便后續瀏覽。剛要去做的時(shí)候，覺(jué)得難度不大。直接下去下載微信數據庫里的東西就行了。然而，這太簡(jiǎn)單了，好吧。
　　
　　天真.jpg
　　幼稚的?。?！
　　微信數據表“消息”中導出的數據是一堆亂碼，解析出來(lái)的網(wǎng)址不全。比如五篇文章文章一次推送只能獲取三篇文章的url，這讓人很不舒服。
　　
　　圖像.png
　　但是苦就是苦，問(wèn)題還是要解決的。如何解決？看源代碼！
　　之前我把微信的幾個(gè)dex包的代碼反編譯了放在一個(gè)文件夾里，然后用VSCode打開(kāi)，日常查看。
　　微信反編譯出來(lái)的源碼雖然亂七八糟，但還是能看懂一些代碼。
　　我們看到上面導出的數據有一些亂碼，估計微信實(shí)現了解碼工具。如果能hook這個(gè)解碼工具，解碼后能得到正確的數據嗎？
　　說(shuō)到解碼，根據微信之前的數據傳輸，這些數據很可能是以XML格式傳輸的。由于涉及到 XML，所以它必須是鍵值對的形式。除了我們要去的數據之外，還有一堆看起來(lái)很有用的小方塊和諸如“.msg.appmsg.mmreader.category.item”之類(lèi)的東西。
　　我打開(kāi) vscode 并在全球范圍內搜索“.msg.appmsg.mmreader.category.item”。令人高興的是，結果并不多，這意味著(zhù)這個(gè)值確實(shí)是一個(gè)有意義的值。一一檢查這些源代碼。一個(gè)包是："
　　com.tencent.mm.plugin.biz;”我在一個(gè)名為“a”的類(lèi)中發(fā)現了一些有趣的東西。
　　
　　圖像.png
　　該方法是一個(gè)名為 ws 的方法，它接收一個(gè) String 類(lèi)型的值，并在內部進(jìn)行一些數據獲取工作。
　　這個(gè) str 參數可以是我想要的標準 xml 嗎？
　　經(jīng)過(guò)hook驗證，打印其參數后，發(fā)現不是，參數內容的格式與之前數據庫中的格式一致。
　　
　　圖像.png
　　然后我們將重點(diǎn)放在第一行的地圖上。ay.WA(String str) 方法做解析操作嗎？
　　我在 com.tencent.mm.sdk.platformtools.ay 中鉤住了 WA() 方法來(lái)獲取它的返回值，這是一個(gè) Map 類(lèi)型的數據。打印出它的內容后，我的猜測得到了驗證。
　　WA() 方法將剛才的內容解析成一個(gè)便于我們閱讀的地圖。包括推送收錄的圖文消息數量，以及公眾號的id、名稱(chēng)、對應的文章url、圖片url、文章描述等信息。
　　我終于可以在晚餐時(shí)加雞腿了。啊哈哈哈。
　　此文章僅供研究學(xué)習，請妥善食用，謝謝。
　　粘貼相關(guān)的鉤子代碼
　　
　　圖像.png 查看全部

　　文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　正好這個(gè)時(shí)候在研究Xposed Hook微信，所以打算試試安卓版的微信。需求是什么？也就是微信推送一條公眾號消息，我們接受一條，發(fā)送到對應界面保存，方便后續瀏覽。剛要去做的時(shí)候，覺(jué)得難度不大。直接下去下載微信數據庫里的東西就行了。然而，這太簡(jiǎn)單了，好吧。
　　

　　天真.jpg
　　幼稚的?。?！
　　微信數據表“消息”中導出的數據是一堆亂碼，解析出來(lái)的網(wǎng)址不全。比如五篇文章文章一次推送只能獲取三篇文章的url，這讓人很不舒服。
　　

　　圖像.png
　　但是苦就是苦，問(wèn)題還是要解決的。如何解決？看源代碼！
　　之前我把微信的幾個(gè)dex包的代碼反編譯了放在一個(gè)文件夾里，然后用VSCode打開(kāi)，日常查看。
　　微信反編譯出來(lái)的源碼雖然亂七八糟，但還是能看懂一些代碼。
　　我們看到上面導出的數據有一些亂碼，估計微信實(shí)現了解碼工具。如果能hook這個(gè)解碼工具，解碼后能得到正確的數據嗎？
　　說(shuō)到解碼，根據微信之前的數據傳輸，這些數據很可能是以XML格式傳輸的。由于涉及到 XML，所以它必須是鍵值對的形式。除了我們要去的數據之外，還有一堆看起來(lái)很有用的小方塊和諸如“.msg.appmsg.mmreader.category.item”之類(lèi)的東西。
　　我打開(kāi) vscode 并在全球范圍內搜索“.msg.appmsg.mmreader.category.item”。令人高興的是，結果并不多，這意味著(zhù)這個(gè)值確實(shí)是一個(gè)有意義的值。一一檢查這些源代碼。一個(gè)包是："
　　com.tencent.mm.plugin.biz;”我在一個(gè)名為“a”的類(lèi)中發(fā)現了一些有趣的東西。
　　

　　圖像.png
　　該方法是一個(gè)名為 ws 的方法，它接收一個(gè) String 類(lèi)型的值，并在內部進(jìn)行一些數據獲取工作。
　　這個(gè) str 參數可以是我想要的標準 xml 嗎？
　　經(jīng)過(guò)hook驗證，打印其參數后，發(fā)現不是，參數內容的格式與之前數據庫中的格式一致。
　　

　　圖像.png
　　然后我們將重點(diǎn)放在第一行的地圖上。ay.WA(String str) 方法做解析操作嗎？
　　我在 com.tencent.mm.sdk.platformtools.ay 中鉤住了 WA() 方法來(lái)獲取它的返回值，這是一個(gè) Map 類(lèi)型的數據。打印出它的內容后，我的猜測得到了驗證。
　　WA() 方法將剛才的內容解析成一個(gè)便于我們閱讀的地圖。包括推送收錄的圖文消息數量，以及公眾號的id、名稱(chēng)、對應的文章url、圖片url、文章描述等信息。
　　我終于可以在晚餐時(shí)加雞腿了。啊哈哈哈。
　　此文章僅供研究學(xué)習，請妥善食用，謝謝。
　　粘貼相關(guān)的鉤子代碼
　　

　　圖像.png

文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-04-14 06:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)
　　文章實(shí)時(shí)采集來(lái)源主要有兩個(gè)，一個(gè)是攝像頭采集，另一個(gè)是環(huán)境光采集，前者只需要被采集設備支持，后者則是需要捕捉設備支持。由于攝像頭比較遠且存在額外的攝像頭延遲，因此雖然采集方式非常簡(jiǎn)單，但是其成本并不高。而環(huán)境光則需要攝像頭配合相應的燈光系統才能達到類(lèi)似的效果。不過(guò)后者自然需要采集設備支持skylake，這樣才能獲得完整的snapdragon660環(huán)境光采集能力，否則不管怎么采集實(shí)際效果都還是差不多，畢竟snapdragon670都不支持環(huán)境光采集，采集設備更不用說(shuō)了。
　　三星在這方面做得不錯，smartshader，自己要動(dòng)手。
　　目前能實(shí)現只需要snapdragon660，
　　cannonworksyogaflex的ai芯片。目前應該還不是cpu核，是ppu核。
　　小米的ai管家和物聯(lián)網(wǎng)的iot
　　屏攝，這個(gè)效果確實(shí)不錯。
　　完全不用圖像處理app，
　　要是支持環(huán)境光的話(huà)，把手機屏幕放在側面，角度調到最小，然后拿書(shū)遮擋光線(xiàn)，我還可以看到書(shū)的細節，
　　沒(méi)有的，
　　emmm我們實(shí)驗室有一個(gè)只有一寸屏幕的看片機，
　　說(shuō)的就是華為的ai手機
　　這個(gè)必須得跟頂級的才行，不然只是拿小米的ai做噱頭，畢竟這玩意就是個(gè)噱頭，噱頭之一。另外發(fā)射的激光不是用gps的那個(gè)uwb還是什么我也不知道。查看全部

　　文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)
　　文章實(shí)時(shí)采集來(lái)源主要有兩個(gè)，一個(gè)是攝像頭采集，另一個(gè)是環(huán)境光采集，前者只需要被采集設備支持，后者則是需要捕捉設備支持。由于攝像頭比較遠且存在額外的攝像頭延遲，因此雖然采集方式非常簡(jiǎn)單，但是其成本并不高。而環(huán)境光則需要攝像頭配合相應的燈光系統才能達到類(lèi)似的效果。不過(guò)后者自然需要采集設備支持skylake，這樣才能獲得完整的snapdragon660環(huán)境光采集能力，否則不管怎么采集實(shí)際效果都還是差不多，畢竟snapdragon670都不支持環(huán)境光采集，采集設備更不用說(shuō)了。
　　三星在這方面做得不錯，smartshader，自己要動(dòng)手。
　　目前能實(shí)現只需要snapdragon660，
　　cannonworksyogaflex的ai芯片。目前應該還不是cpu核，是ppu核。
　　小米的ai管家和物聯(lián)網(wǎng)的iot
　　屏攝，這個(gè)效果確實(shí)不錯。
　　完全不用圖像處理app，
　　要是支持環(huán)境光的話(huà)，把手機屏幕放在側面，角度調到最小，然后拿書(shū)遮擋光線(xiàn)，我還可以看到書(shū)的細節，
　　沒(méi)有的，
　　emmm我們實(shí)驗室有一個(gè)只有一寸屏幕的看片機，
　　說(shuō)的就是華為的ai手機
　　這個(gè)必須得跟頂級的才行，不然只是拿小米的ai做噱頭，畢竟這玩意就是個(gè)噱頭，噱頭之一。另外發(fā)射的激光不是用gps的那個(gè)uwb還是什么我也不知道。

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-14 03:04 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)
　　文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化根據算法聚類(lèi)用戶(hù)畫(huà)像，聯(lián)合文章或推薦廣告找到需要觸達的精準人群。
　　沒(méi)有說(shuō)法。直接在聚類(lèi)中得到返回結果。
　　在通過(guò)文章分類(lèi)、物品分類(lèi)聚類(lèi)后做推薦。文章分類(lèi)有建庫、top5聚類(lèi)等，物品分類(lèi)還可以根據某些數據來(lái)聚類(lèi)，比如上下架，時(shí)間，文章數量等。
　　在推薦系統中直接獲取文章/物品信息并進(jìn)行聚類(lèi)聚是文章/物品聚類(lèi)是topic聚類(lèi)直接獲取推薦的結果是在推薦過(guò)程中由應用提供的。
　　聚類(lèi)聚是物品
　　聚類(lèi)算法通?；谖锲返膶傩曰蛘呶锲纷陨淼奶卣?，
　　可以聚類(lèi)，但是歸類(lèi)不一定必要，看你的目的是什么。大類(lèi)聚是離推薦系統更近一點(diǎn)，最終聚不聚得到就看你本身的keyitem了。另外如果聚類(lèi)算法不夠成熟或者數據不好，再優(yōu)質(zhì)的歸類(lèi)成果也很可能在推薦中失效。
　　新品的聚類(lèi)，根據目標用戶(hù)和內容相似度算法聚類(lèi)。
　　聚成什么樣的類(lèi)是個(gè)很重要的指標來(lái)衡量推薦成功與否，常見(jiàn)的有csi，kbs，mls等等，
　　聚類(lèi)這種問(wèn)題，直接從推薦系統得到返回結果就好了，目前的推薦算法里面，同類(lèi)里面會(huì )同一類(lèi)的同質(zhì)化，不同類(lèi)里面，
　　kblinking可以參考一下
　　四級跳也沒(méi)說(shuō)法?？梢圆捎胐eepneuralmodel去聚類(lèi)。更好的聚類(lèi)方法通常有聚類(lèi)相似度、聚類(lèi)特征等不同的方法。聚類(lèi)目標一般是用戶(hù)標簽，也可以用行為標簽，你還可以去看看各種協(xié)同過(guò)濾的方法。謝謝邀請。查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)
　　文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化根據算法聚類(lèi)用戶(hù)畫(huà)像，聯(lián)合文章或推薦廣告找到需要觸達的精準人群。
　　沒(méi)有說(shuō)法。直接在聚類(lèi)中得到返回結果。
　　在通過(guò)文章分類(lèi)、物品分類(lèi)聚類(lèi)后做推薦。文章分類(lèi)有建庫、top5聚類(lèi)等，物品分類(lèi)還可以根據某些數據來(lái)聚類(lèi)，比如上下架，時(shí)間，文章數量等。
　　在推薦系統中直接獲取文章/物品信息并進(jìn)行聚類(lèi)聚是文章/物品聚類(lèi)是topic聚類(lèi)直接獲取推薦的結果是在推薦過(guò)程中由應用提供的。
　　聚類(lèi)聚是物品
　　聚類(lèi)算法通?；谖锲返膶傩曰蛘呶锲纷陨淼奶卣?，
　　可以聚類(lèi)，但是歸類(lèi)不一定必要，看你的目的是什么。大類(lèi)聚是離推薦系統更近一點(diǎn)，最終聚不聚得到就看你本身的keyitem了。另外如果聚類(lèi)算法不夠成熟或者數據不好，再優(yōu)質(zhì)的歸類(lèi)成果也很可能在推薦中失效。
　　新品的聚類(lèi)，根據目標用戶(hù)和內容相似度算法聚類(lèi)。
　　聚成什么樣的類(lèi)是個(gè)很重要的指標來(lái)衡量推薦成功與否，常見(jiàn)的有csi，kbs，mls等等，
　　聚類(lèi)這種問(wèn)題，直接從推薦系統得到返回結果就好了，目前的推薦算法里面，同類(lèi)里面會(huì )同一類(lèi)的同質(zhì)化，不同類(lèi)里面，
　　kblinking可以參考一下
　　四級跳也沒(méi)說(shuō)法?？梢圆捎胐eepneuralmodel去聚類(lèi)。更好的聚類(lèi)方法通常有聚類(lèi)相似度、聚類(lèi)特征等不同的方法。聚類(lèi)目標一般是用戶(hù)標簽，也可以用行為標簽，你還可以去看看各種協(xié)同過(guò)濾的方法。謝謝邀請。

文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-04-11 13:15 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)
　　建站容易，推廣難。采集文章對于做優(yōu)化的人來(lái)說(shuō)，這是家常便飯。尤其是當站群猖獗的時(shí)候，采集網(wǎng)站隨處可見(jiàn)，都是為了SEO和SEO。但是，這類(lèi)采集網(wǎng)站往往權重很高，因為目前即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別出文章的來(lái)源。
　　
　　采集的文章偽原創(chuàng )怎么處理，網(wǎng)上有很多處理方法，不過(guò)還是要分享一下紅塵的資源。
　　1、修改標題：首先修改標題。標題不是隨意修改的。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。中文字的組合博大精深，換題就會(huì )多樣化。標題必須收錄關(guān)鍵字，收錄關(guān)鍵詞的標題長(cháng)度適中
　　2、內容修改：用戶(hù)體驗好，SEO好。對用戶(hù)感覺(jué)良好的搜索引擎當然也喜歡它。所以在改變文章的時(shí)候，也要站在用戶(hù)的角度去想，他想從這個(gè)文章中得到什么樣的信息。其次，至少要在內容中修改第一段和最后一段，因為這也是站長(cháng)認為蜘蛛抓取的位置，盡量區分其他文章。
　　注意：如果內容有品牌字，必須更換。
　　3、從采集改進(jìn)文章、文章的質(zhì)量，如果改進(jìn)這個(gè)文章，增強美感，優(yōu)化布局，出錯等（比如錯字的修改），是不是改善了文章？自然，搜索引擎中的分數也會(huì )提高。具體可以考慮這些。例如，添加圖片、適當的注釋和引用權威來(lái)源都有助于采集內容的質(zhì)量。
　　采集他的立場(chǎng)上的一些筆記
　　1、選擇與您網(wǎng)站主題相匹配的內容；采集內容格式盡量統一，保持專(zhuān)業(yè)；
　　2、采集的文章一次不要發(fā)太多。保持每天10篇左右，長(cháng)期發(fā)表。查看全部

　　文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)
　　建站容易，推廣難。采集文章對于做優(yōu)化的人來(lái)說(shuō)，這是家常便飯。尤其是當站群猖獗的時(shí)候，采集網(wǎng)站隨處可見(jiàn)，都是為了SEO和SEO。但是，這類(lèi)采集網(wǎng)站往往權重很高，因為目前即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別出文章的來(lái)源。
　　

　　采集的文章偽原創(chuàng )怎么處理，網(wǎng)上有很多處理方法，不過(guò)還是要分享一下紅塵的資源。
　　1、修改標題：首先修改標題。標題不是隨意修改的。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。中文字的組合博大精深，換題就會(huì )多樣化。標題必須收錄關(guān)鍵字，收錄關(guān)鍵詞的標題長(cháng)度適中
　　2、內容修改：用戶(hù)體驗好，SEO好。對用戶(hù)感覺(jué)良好的搜索引擎當然也喜歡它。所以在改變文章的時(shí)候，也要站在用戶(hù)的角度去想，他想從這個(gè)文章中得到什么樣的信息。其次，至少要在內容中修改第一段和最后一段，因為這也是站長(cháng)認為蜘蛛抓取的位置，盡量區分其他文章。
　　注意：如果內容有品牌字，必須更換。
　　3、從采集改進(jìn)文章、文章的質(zhì)量，如果改進(jìn)這個(gè)文章，增強美感，優(yōu)化布局，出錯等（比如錯字的修改），是不是改善了文章？自然，搜索引擎中的分數也會(huì )提高。具體可以考慮這些。例如，添加圖片、適當的注釋和引用權威來(lái)源都有助于采集內容的質(zhì)量。
　　采集他的立場(chǎng)上的一些筆記
　　1、選擇與您網(wǎng)站主題相匹配的內容；采集內容格式盡量統一，保持專(zhuān)業(yè)；
　　2、采集的文章一次不要發(fā)太多。保持每天10篇左右，長(cháng)期發(fā)表。

文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 160 次瀏覽 ? 2022-04-10 07:26 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)
　　背景
　　“我要外賣(mài)”是一個(gè)平臺型電商網(wǎng)站，涉及用戶(hù)、餐廳、外賣(mài)員等，用戶(hù)可以在網(wǎng)頁(yè)、APP、微信、支付寶等平臺下單，商家拿到后訂單，它開(kāi)始處理并自動(dòng)通知周?chē)目爝f員?？爝f員將食物交付給用戶(hù)。
　　
　　操作要求
　　在運行過(guò)程中，發(fā)現了以下問(wèn)題：
　　數據采集難點(diǎn)
　　在數據操作過(guò)程中，第一步是如何集中采集分散的日志數據，會(huì )遇到以下挑戰：
　　我們需要采集外部和內部的日志并統一管理。過(guò)去，這塊需要大量的工作和不同種類(lèi)的工作，但現在可以通過(guò) LogHub采集功能完成統一訪(fǎng)問(wèn)。
　　
　　統一的日志管理、配置、創(chuàng )建和管理日志項，如myorder。為不同數據源生成的日志創(chuàng )建日志存儲。例如，如果您需要對原創(chuàng )數據進(jìn)行清理和ETL，您可以創(chuàng )建一些中間結果Logstore。用戶(hù)提升日志采集
　　獲取新用戶(hù)一般有兩種方式：
　　實(shí)施方法
　　定義如下注冊服務(wù)器地址，生成二維碼（宣傳單、網(wǎng)頁(yè)）供用戶(hù)注冊和掃描。當用戶(hù)掃描這個(gè)頁(yè)面進(jìn)行注冊時(shí)，他們可以知道用戶(hù)是通過(guò)特定的來(lái)源進(jìn)入的，并記錄了一個(gè)日志。
　　http://example.com/login?source=10012&ref=kd4b
　　當服務(wù)器接受請求時(shí)，服務(wù)器會(huì )輸出以下日志：
　　2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
　　在：
　　采集方式：
　　服務(wù)器數據采集
　　支付寶和微信公眾號編程是典型的網(wǎng)頁(yè)端模式，日志一般分為三種：
　　實(shí)現方式終端用戶(hù)登錄訪(fǎng)問(wèn)網(wǎng)頁(yè)/手機頁(yè)面的用戶(hù)行為
　　頁(yè)面用戶(hù)行為采集可以分為兩類(lèi)：
　　實(shí)現方法服務(wù)器日志運維
　　例如：
　　實(shí)施方法
　　參考服務(wù)器采集方法。
　　不同網(wǎng)絡(luò )環(huán)境下的數據采集
　　LogHub在每個(gè)Region都提供接入點(diǎn)，每個(gè)Region提供三種接入方式：查看全部

　　文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)
　　背景
　　“我要外賣(mài)”是一個(gè)平臺型電商網(wǎng)站，涉及用戶(hù)、餐廳、外賣(mài)員等，用戶(hù)可以在網(wǎng)頁(yè)、APP、微信、支付寶等平臺下單，商家拿到后訂單，它開(kāi)始處理并自動(dòng)通知周?chē)目爝f員?？爝f員將食物交付給用戶(hù)。
　　

　　操作要求
　　在運行過(guò)程中，發(fā)現了以下問(wèn)題：
　　數據采集難點(diǎn)
　　在數據操作過(guò)程中，第一步是如何集中采集分散的日志數據，會(huì )遇到以下挑戰：
　　我們需要采集外部和內部的日志并統一管理。過(guò)去，這塊需要大量的工作和不同種類(lèi)的工作，但現在可以通過(guò) LogHub采集功能完成統一訪(fǎng)問(wèn)。
　　

　　統一的日志管理、配置、創(chuàng )建和管理日志項，如myorder。為不同數據源生成的日志創(chuàng )建日志存儲。例如，如果您需要對原創(chuàng )數據進(jìn)行清理和ETL，您可以創(chuàng )建一些中間結果Logstore。用戶(hù)提升日志采集
　　獲取新用戶(hù)一般有兩種方式：
　　實(shí)施方法
　　定義如下注冊服務(wù)器地址，生成二維碼（宣傳單、網(wǎng)頁(yè)）供用戶(hù)注冊和掃描。當用戶(hù)掃描這個(gè)頁(yè)面進(jìn)行注冊時(shí)，他們可以知道用戶(hù)是通過(guò)特定的來(lái)源進(jìn)入的，并記錄了一個(gè)日志。
　　http://example.com/login?source=10012&ref=kd4b
　　當服務(wù)器接受請求時(shí)，服務(wù)器會(huì )輸出以下日志：
　　2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
　　在：
　　采集方式：
　　服務(wù)器數據采集
　　支付寶和微信公眾號編程是典型的網(wǎng)頁(yè)端模式，日志一般分為三種：
　　實(shí)現方式終端用戶(hù)登錄訪(fǎng)問(wèn)網(wǎng)頁(yè)/手機頁(yè)面的用戶(hù)行為
　　頁(yè)面用戶(hù)行為采集可以分為兩類(lèi)：
　　實(shí)現方法服務(wù)器日志運維
　　例如：
　　實(shí)施方法
　　參考服務(wù)器采集方法。
　　不同網(wǎng)絡(luò )環(huán)境下的數據采集
　　LogHub在每個(gè)Region都提供接入點(diǎn)，每個(gè)Region提供三種接入方式：

文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-04-08 01:14 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)
　　如何使用文章采集工具對新的網(wǎng)站快速收錄和關(guān)鍵詞進(jìn)行排名。SEO優(yōu)化已經(jīng)是企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的手段之一，但是在企業(yè)SEO優(yōu)化的過(guò)程中，也存在搜索引擎不是收錄的情況。提問(wèn)后總結了幾個(gè)方法和經(jīng)驗，在此分享給各位新手站長(cháng)，讓新上線(xiàn)的網(wǎng)站可以讓搜索引擎收錄在短時(shí)間內獲得不錯的排名盡快。下面就教大家如何在SEO優(yōu)化中快速提升網(wǎng)站收錄。
　　一、網(wǎng)站在SEO優(yōu)化過(guò)程中，在新站上線(xiàn)初期，每天都要定期更新內容。第一次發(fā)射是在評估期間。該評估期為 1 個(gè)月至 3 個(gè)月不等。最快的時(shí)間是半個(gè)月左右才能拿到一個(gè)好的排名。因此，在剛進(jìn)入考核期時(shí)，應加大力度。做好內容的更新，讓搜索引擎在前期對我們的網(wǎng)站有很好的印象，這樣我們以后可以更好的提高網(wǎng)站的權重，打下堅實(shí)的基礎。
　　二、A網(wǎng)站更新頻率越高，搜索引擎蜘蛛來(lái)的頻率越高。因此，我們可以利用文章采集工具實(shí)現采集偽原創(chuàng )自動(dòng)發(fā)布和主動(dòng)推送到搜索引擎，提高搜索引擎的抓取頻率。本文章采集工具操作簡(jiǎn)單，無(wú)需學(xué)習專(zhuān)業(yè)技術(shù)，只需簡(jiǎn)單幾步即可輕松采集內容數據，用戶(hù)只需對< @文章采集tool ，該工具會(huì )根據用戶(hù)設置的關(guān)鍵詞accurate采集文章，保證與行業(yè)一致文章。采集中的采集文章可以選擇將修改后的內容保存到本地，
　　與其他文章采集工具相比，這個(gè)工具使用起來(lái)非常簡(jiǎn)單，只需輸入關(guān)鍵詞即可實(shí)現采集（文章采集工具配備了關(guān)鍵詞采集功能）。只需設置任務(wù)，全程自動(dòng)掛機！
　　不管你有成百上千個(gè)不同的cms網(wǎng)站都可以實(shí)現統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　最重要的是這個(gè)文章采集工具有很多SEO功能，不僅可以提升網(wǎng)站的收錄，還可以增加網(wǎng)站的密度@關(guān)鍵詞提高網(wǎng)站排名。
　　1、網(wǎng)站主動(dòng)推送（讓搜索引擎更快發(fā)現我們的網(wǎng)站）
　　2、自動(dòng)匹配圖片（文章如果內容中沒(méi)有圖片，會(huì )自動(dòng)配置相關(guān)圖片）設置自動(dòng)下載圖片保存在本地或第三方（這樣內容會(huì )不再有對方的外部鏈接）。
　　3、自動(dòng)內部鏈接（讓搜索引擎更深入地抓取您的鏈接）
　　4、在內容或標題前后插入段落或關(guān)鍵詞（可選擇將標題和標題插入同一個(gè)關(guān)鍵詞）
　　5、網(wǎng)站內容插入或隨機作者、隨機閱讀等變成“高度原創(chuàng )”。
<p>6、相關(guān)性?xún)?yōu)化（關(guān)鍵詞出現在正文中，正文第一段自動(dòng)插入到title標題中。當描述相關(guān)性低時(shí)，當前的采集查看全部

　　文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)
　　如何使用文章采集工具對新的網(wǎng)站快速收錄和關(guān)鍵詞進(jìn)行排名。SEO優(yōu)化已經(jīng)是企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的手段之一，但是在企業(yè)SEO優(yōu)化的過(guò)程中，也存在搜索引擎不是收錄的情況。提問(wèn)后總結了幾個(gè)方法和經(jīng)驗，在此分享給各位新手站長(cháng)，讓新上線(xiàn)的網(wǎng)站可以讓搜索引擎收錄在短時(shí)間內獲得不錯的排名盡快。下面就教大家如何在SEO優(yōu)化中快速提升網(wǎng)站收錄。
　　一、網(wǎng)站在SEO優(yōu)化過(guò)程中，在新站上線(xiàn)初期，每天都要定期更新內容。第一次發(fā)射是在評估期間。該評估期為 1 個(gè)月至 3 個(gè)月不等。最快的時(shí)間是半個(gè)月左右才能拿到一個(gè)好的排名。因此，在剛進(jìn)入考核期時(shí)，應加大力度。做好內容的更新，讓搜索引擎在前期對我們的網(wǎng)站有很好的印象，這樣我們以后可以更好的提高網(wǎng)站的權重，打下堅實(shí)的基礎。
　　二、A網(wǎng)站更新頻率越高，搜索引擎蜘蛛來(lái)的頻率越高。因此，我們可以利用文章采集工具實(shí)現采集偽原創(chuàng )自動(dòng)發(fā)布和主動(dòng)推送到搜索引擎，提高搜索引擎的抓取頻率。本文章采集工具操作簡(jiǎn)單，無(wú)需學(xué)習專(zhuān)業(yè)技術(shù)，只需簡(jiǎn)單幾步即可輕松采集內容數據，用戶(hù)只需對< @文章采集tool ，該工具會(huì )根據用戶(hù)設置的關(guān)鍵詞accurate采集文章，保證與行業(yè)一致文章。采集中的采集文章可以選擇將修改后的內容保存到本地，
　　與其他文章采集工具相比，這個(gè)工具使用起來(lái)非常簡(jiǎn)單，只需輸入關(guān)鍵詞即可實(shí)現采集（文章采集工具配備了關(guān)鍵詞采集功能）。只需設置任務(wù)，全程自動(dòng)掛機！
　　不管你有成百上千個(gè)不同的cms網(wǎng)站都可以實(shí)現統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　最重要的是這個(gè)文章采集工具有很多SEO功能，不僅可以提升網(wǎng)站的收錄，還可以增加網(wǎng)站的密度@關(guān)鍵詞提高網(wǎng)站排名。
　　1、網(wǎng)站主動(dòng)推送（讓搜索引擎更快發(fā)現我們的網(wǎng)站）
　　2、自動(dòng)匹配圖片（文章如果內容中沒(méi)有圖片，會(huì )自動(dòng)配置相關(guān)圖片）設置自動(dòng)下載圖片保存在本地或第三方（這樣內容會(huì )不再有對方的外部鏈接）。
　　3、自動(dòng)內部鏈接（讓搜索引擎更深入地抓取您的鏈接）
　　4、在內容或標題前后插入段落或關(guān)鍵詞（可選擇將標題和標題插入同一個(gè)關(guān)鍵詞）
　　5、網(wǎng)站內容插入或隨機作者、隨機閱讀等變成“高度原創(chuàng )”。
<p>6、相關(guān)性?xún)?yōu)化（關(guān)鍵詞出現在正文中，正文第一段自動(dòng)插入到title標題中。當描述相關(guān)性低時(shí)，當前的采集

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 148 次瀏覽 ? 2022-04-08 00:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))
　　文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析文章講述的是如何將采集點(diǎn)設計與實(shí)現的，從采集的輸入、處理等方面來(lái)分析flutterui控件設計與實(shí)現，從而總結出來(lái)不同采集對應的flutterui控件庫，提供給用戶(hù)使用的參考。原文鏈接：實(shí)時(shí)采集flutterui控件設計與實(shí)現分析_flutter設計與實(shí)現_雷鋒網(wǎng)。
　　全面分析flutter控件設計與實(shí)現
　　再整理一下，flutter控件設計入門(mén)與實(shí)現，
　　flutter源碼入門(mén)教程，主要是對現有的一些工具類(lèi)、繪制接口進(jìn)行了整理。
　　gitlab
　　flutter全面分析
　　flutter項目中存在哪些遺留問(wèn)題？
　　全面的flutter
　　daydreamer全面進(jìn)階
　　flutter官方github
　　daydreamer基礎版已經(jīng)出來(lái)了
　　貌似flutterscript3.0已經(jīng)很接近了，版本3.0新增了4個(gè)工具，如：go語(yǔ)言、quantumlifies和fuserace。
　　daydreamer進(jìn)階
　　flutter特性篇
　　flutter源碼分析
　　雷鋒網(wǎng)
　　首發(fā)于雷鋒網(wǎng)_專(zhuān)業(yè)的iot產(chǎn)品與服務(wù)媒體(二維碼自動(dòng)識別)
　　daydreamer
　　全面的flutter設計與實(shí)現！需要的話(huà)可以推薦你下雷鋒網(wǎng)的文章
　　我很喜歡雷鋒網(wǎng)雷鋒網(wǎng)旗下文章。
　　個(gè)人文章，如果侵權請告知。
　　flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道
　　fluttercookbook
　　flutter開(kāi)發(fā)者平臺fluttercookbook 查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))
　　文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析文章講述的是如何將采集點(diǎn)設計與實(shí)現的，從采集的輸入、處理等方面來(lái)分析flutterui控件設計與實(shí)現，從而總結出來(lái)不同采集對應的flutterui控件庫，提供給用戶(hù)使用的參考。原文鏈接：實(shí)時(shí)采集flutterui控件設計與實(shí)現分析_flutter設計與實(shí)現_雷鋒網(wǎng)。
　　全面分析flutter控件設計與實(shí)現
　　再整理一下，flutter控件設計入門(mén)與實(shí)現，
　　flutter源碼入門(mén)教程，主要是對現有的一些工具類(lèi)、繪制接口進(jìn)行了整理。
　　gitlab
　　flutter全面分析
　　flutter項目中存在哪些遺留問(wèn)題？
　　全面的flutter
　　daydreamer全面進(jìn)階
　　flutter官方github
　　daydreamer基礎版已經(jīng)出來(lái)了
　　貌似flutterscript3.0已經(jīng)很接近了，版本3.0新增了4個(gè)工具，如：go語(yǔ)言、quantumlifies和fuserace。
　　daydreamer進(jìn)階
　　flutter特性篇
　　flutter源碼分析
　　雷鋒網(wǎng)
　　首發(fā)于雷鋒網(wǎng)_專(zhuān)業(yè)的iot產(chǎn)品與服務(wù)媒體(二維碼自動(dòng)識別)
　　daydreamer
　　全面的flutter設計與實(shí)現！需要的話(huà)可以推薦你下雷鋒網(wǎng)的文章
　　我很喜歡雷鋒網(wǎng)雷鋒網(wǎng)旗下文章。
　　個(gè)人文章，如果侵權請告知。
　　flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道
　　fluttercookbook
　　flutter開(kāi)發(fā)者平臺fluttercookbook

文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-04-04 18:00 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))
　　1. 早期實(shí)時(shí)計算
　　實(shí)時(shí)計算雖然是近幾年才流行起來(lái)，早期有一些公司有實(shí)時(shí)計算的需求，但是數據量比較小，實(shí)時(shí)無(wú)法形成完整的系統，而且基本上都是發(fā)展是具體問(wèn)題的具體分析。，來(lái)個(gè)要求做一個(gè)，基本不考慮它們之間的關(guān)系，開(kāi)發(fā)形式如下：
　　
　　如上圖所示，拿到數據源后，會(huì )通過(guò)Flink進(jìn)行數據清洗、維度擴展、業(yè)務(wù)邏輯處理，最后直接進(jìn)行業(yè)務(wù)輸出。拆開(kāi)這個(gè)環(huán)節，數據源會(huì )重復引用同一個(gè)數據源，清洗、過(guò)濾、擴維等操作必須重復進(jìn)行。唯一不同的是業(yè)務(wù)的代碼邏輯不同。
　　隨著(zhù)產(chǎn)品和業(yè)務(wù)人員對實(shí)時(shí)數據的需求不斷增加，這種開(kāi)發(fā)模式也出現了越來(lái)越多的問(wèn)題：
　　數據指標越來(lái)越多，“煙囪式”開(kāi)發(fā)導致嚴重的代碼耦合問(wèn)題。
　　需求越來(lái)越多，有的需要詳細的數據，有的需要OLAP分析。單一的開(kāi)發(fā)模式難以應對多種需求。
　　資源必須針對每個(gè)需求進(jìn)行申請，導致資源成本快速膨脹，資源無(wú)法集約有效利用。
　　缺乏復雜的監控系統來(lái)在問(wèn)題影響業(yè)務(wù)之前檢測和修復問(wèn)題。
　　從實(shí)時(shí)數倉的發(fā)展和問(wèn)題來(lái)看，它與離線(xiàn)數倉非常相似。后期數據量大之后，出現了各種問(wèn)題。當時(shí)離線(xiàn)數倉是如何解決的？離線(xiàn)數倉通過(guò)分層架構將數據解耦，多個(gè)業(yè)務(wù)可以共享數據。實(shí)時(shí)數據倉庫也可以使用分層架構嗎？當然可以，但是細節和離線(xiàn)分層還是有一些區別的，后面會(huì )講到。
　　2. 實(shí)時(shí)倉庫搭建
　　在方法論方面，實(shí)時(shí)和離線(xiàn)非常相似。在離線(xiàn)數倉的前期，也詳細分析了具體問(wèn)題。當數據規模增長(cháng)到一定數量時(shí)，將考慮如何管理它。分層是一種非常有效的數據治理方式，所以在談到如何管理實(shí)時(shí)數倉時(shí)，首先要考慮的是分層的處理邏輯。
　　實(shí)時(shí)數據倉庫的架構如下：
　　
　　從上圖中，我們詳細分析每一層的作用：
　　我們可以看到，實(shí)時(shí)數倉和離線(xiàn)數倉的層級非常相似，比如數據源層、明細層、匯總層，甚至應用層，它們的命名模式可能是相同的。但不難發(fā)現，兩者有很多不同之處：
　　3. Lambda架構的實(shí)時(shí)數倉
　　Lambda 和 Kappa 架構的概念在上一篇文章中已經(jīng)解釋過(guò)了。不明白的可以點(diǎn)擊鏈接：一篇了解大數據實(shí)時(shí)計算的文章
　　下圖展示了基于 Flink 和 Kafka 的 Lambda 架構的具體實(shí)踐。上層為實(shí)時(shí)計算，下層為離線(xiàn)計算，橫向以計算引擎劃分，縱向以實(shí)時(shí)數倉劃分：
　　Lambda架構是比較經(jīng)典的架構。過(guò)去實(shí)時(shí)場(chǎng)景不多，主要是線(xiàn)下。加入實(shí)時(shí)場(chǎng)景后，由于離線(xiàn)和實(shí)時(shí)的時(shí)效性不同，技術(shù)生態(tài)也不同。Lambda架構相當于附加了一個(gè)實(shí)時(shí)生產(chǎn)環(huán)節，在應用層面集成，雙向生產(chǎn)，各自獨立。這也是在業(yè)務(wù)應用程序中使用它的一種合乎邏輯的方式。
　　雙通道生產(chǎn)會(huì )出現一些問(wèn)題，比如雙處理邏輯、雙開(kāi)發(fā)和運維，資源也將成為兩個(gè)資源環(huán)節。由于上述問(wèn)題，演變出一種 Kappa 架構。
　　4. Kappa架構的實(shí)時(shí)數倉
　　Kappa架構相當于去掉了離線(xiàn)計算部分的Lambda架構，如下圖所示：
　　
　　Kappa架構在架構設計方面比較簡(jiǎn)單，在生產(chǎn)上是統一的，有一套離線(xiàn)和實(shí)時(shí)生產(chǎn)的邏輯。但是在實(shí)際應用場(chǎng)景中存在比較大的局限性，因為同一張表的實(shí)時(shí)數據會(huì )以不同的方式存儲，導致關(guān)聯(lián)時(shí)需要跨數據源，對數據的操作有很大的局限性，所以它直接在行業(yè)中。用Kappa架構制作和落地的案例很少，場(chǎng)景比較簡(jiǎn)單。
　　關(guān)于Kappa架構，熟悉實(shí)時(shí)數倉制作的同學(xué)可能會(huì )有疑問(wèn)。因為我們經(jīng)常面臨業(yè)務(wù)變化，很多業(yè)務(wù)邏輯需要迭代。如果之前產(chǎn)生的一些數據的口徑發(fā)生了變化，就需要重新計算，甚至歷史數據都會(huì )被改寫(xiě)。對于實(shí)時(shí)數倉，如何解決數據重新計算的問(wèn)題？
　　這部分Kappa架構的思路是：首先準備一個(gè)可以存儲歷史數據的消息隊列，比如Kafka，這個(gè)消息隊列可以支持你從某個(gè)歷史節點(diǎn)重啟消費。那么就需要啟動(dòng)一個(gè)新任務(wù)，從更早的時(shí)間節點(diǎn)消費Kafka上的數據，然后當新任務(wù)的進(jìn)度可以和當前正在運行的任務(wù)相等時(shí)，就可以將任務(wù)的下游切換到新任務(wù)，可以停止舊任務(wù)，也可以刪除原來(lái)的結果表。
　　5. 流批結合的實(shí)時(shí)數倉
　　隨著(zhù)實(shí)時(shí)OLAP技術(shù)的發(fā)展，Doris、Presto等開(kāi)源OLAP引擎的性能和易用性有了很大的提升。再加上數據湖技術(shù)的飛速發(fā)展，流和批的結合變得簡(jiǎn)單。
　　下圖是結合流批的實(shí)時(shí)數倉：
　　
　　數據從日志采集統一到消息隊列，再到實(shí)時(shí)數倉?；A數據流的構建是統一的。之后，對于日志實(shí)時(shí)特性，實(shí)時(shí)大屏應用使用實(shí)時(shí)流計算。實(shí)時(shí)OLAP批處理用于Binlog業(yè)務(wù)分析。
　　我們看到，上述架構的流批組合方式和存儲方式都發(fā)生了變化?？ǚ蚩ū槐饺〈?。Iceberg是上層計算引擎和底層存儲格式之間的中間層。我們可以把它定義成“數據組織格式”，而底層存儲還是HDFS，那為什么還要加一個(gè)中間層，還不如把對流和批處理結合起來(lái)呢？Iceberg 的 ACID 能力可以簡(jiǎn)化整個(gè)流水線(xiàn)的設計，降低整個(gè)流水線(xiàn)的延遲，其修改和刪除能力可以有效降低開(kāi)銷(xiāo)，提高效率。Iceberg可以有效支持批量高吞吐數據掃描和分區粒度的流計算并發(fā)實(shí)時(shí)處理。查看全部

　　文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))
　　1. 早期實(shí)時(shí)計算
　　實(shí)時(shí)計算雖然是近幾年才流行起來(lái)，早期有一些公司有實(shí)時(shí)計算的需求，但是數據量比較小，實(shí)時(shí)無(wú)法形成完整的系統，而且基本上都是發(fā)展是具體問(wèn)題的具體分析。，來(lái)個(gè)要求做一個(gè)，基本不考慮它們之間的關(guān)系，開(kāi)發(fā)形式如下：
　　

　　如上圖所示，拿到數據源后，會(huì )通過(guò)Flink進(jìn)行數據清洗、維度擴展、業(yè)務(wù)邏輯處理，最后直接進(jìn)行業(yè)務(wù)輸出。拆開(kāi)這個(gè)環(huán)節，數據源會(huì )重復引用同一個(gè)數據源，清洗、過(guò)濾、擴維等操作必須重復進(jìn)行。唯一不同的是業(yè)務(wù)的代碼邏輯不同。
　　隨著(zhù)產(chǎn)品和業(yè)務(wù)人員對實(shí)時(shí)數據的需求不斷增加，這種開(kāi)發(fā)模式也出現了越來(lái)越多的問(wèn)題：
　　數據指標越來(lái)越多，“煙囪式”開(kāi)發(fā)導致嚴重的代碼耦合問(wèn)題。
　　需求越來(lái)越多，有的需要詳細的數據，有的需要OLAP分析。單一的開(kāi)發(fā)模式難以應對多種需求。
　　資源必須針對每個(gè)需求進(jìn)行申請，導致資源成本快速膨脹，資源無(wú)法集約有效利用。
　　缺乏復雜的監控系統來(lái)在問(wèn)題影響業(yè)務(wù)之前檢測和修復問(wèn)題。
　　從實(shí)時(shí)數倉的發(fā)展和問(wèn)題來(lái)看，它與離線(xiàn)數倉非常相似。后期數據量大之后，出現了各種問(wèn)題。當時(shí)離線(xiàn)數倉是如何解決的？離線(xiàn)數倉通過(guò)分層架構將數據解耦，多個(gè)業(yè)務(wù)可以共享數據。實(shí)時(shí)數據倉庫也可以使用分層架構嗎？當然可以，但是細節和離線(xiàn)分層還是有一些區別的，后面會(huì )講到。
　　2. 實(shí)時(shí)倉庫搭建
　　在方法論方面，實(shí)時(shí)和離線(xiàn)非常相似。在離線(xiàn)數倉的前期，也詳細分析了具體問(wèn)題。當數據規模增長(cháng)到一定數量時(shí)，將考慮如何管理它。分層是一種非常有效的數據治理方式，所以在談到如何管理實(shí)時(shí)數倉時(shí)，首先要考慮的是分層的處理邏輯。
　　實(shí)時(shí)數據倉庫的架構如下：
　　

　　從上圖中，我們詳細分析每一層的作用：
　　我們可以看到，實(shí)時(shí)數倉和離線(xiàn)數倉的層級非常相似，比如數據源層、明細層、匯總層，甚至應用層，它們的命名模式可能是相同的。但不難發(fā)現，兩者有很多不同之處：
　　3. Lambda架構的實(shí)時(shí)數倉
　　Lambda 和 Kappa 架構的概念在上一篇文章中已經(jīng)解釋過(guò)了。不明白的可以點(diǎn)擊鏈接：一篇了解大數據實(shí)時(shí)計算的文章
　　下圖展示了基于 Flink 和 Kafka 的 Lambda 架構的具體實(shí)踐。上層為實(shí)時(shí)計算，下層為離線(xiàn)計算，橫向以計算引擎劃分，縱向以實(shí)時(shí)數倉劃分：
　　Lambda架構是比較經(jīng)典的架構。過(guò)去實(shí)時(shí)場(chǎng)景不多，主要是線(xiàn)下。加入實(shí)時(shí)場(chǎng)景后，由于離線(xiàn)和實(shí)時(shí)的時(shí)效性不同，技術(shù)生態(tài)也不同。Lambda架構相當于附加了一個(gè)實(shí)時(shí)生產(chǎn)環(huán)節，在應用層面集成，雙向生產(chǎn)，各自獨立。這也是在業(yè)務(wù)應用程序中使用它的一種合乎邏輯的方式。
　　雙通道生產(chǎn)會(huì )出現一些問(wèn)題，比如雙處理邏輯、雙開(kāi)發(fā)和運維，資源也將成為兩個(gè)資源環(huán)節。由于上述問(wèn)題，演變出一種 Kappa 架構。
　　4. Kappa架構的實(shí)時(shí)數倉
　　Kappa架構相當于去掉了離線(xiàn)計算部分的Lambda架構，如下圖所示：
　　

　　Kappa架構在架構設計方面比較簡(jiǎn)單，在生產(chǎn)上是統一的，有一套離線(xiàn)和實(shí)時(shí)生產(chǎn)的邏輯。但是在實(shí)際應用場(chǎng)景中存在比較大的局限性，因為同一張表的實(shí)時(shí)數據會(huì )以不同的方式存儲，導致關(guān)聯(lián)時(shí)需要跨數據源，對數據的操作有很大的局限性，所以它直接在行業(yè)中。用Kappa架構制作和落地的案例很少，場(chǎng)景比較簡(jiǎn)單。
　　關(guān)于Kappa架構，熟悉實(shí)時(shí)數倉制作的同學(xué)可能會(huì )有疑問(wèn)。因為我們經(jīng)常面臨業(yè)務(wù)變化，很多業(yè)務(wù)邏輯需要迭代。如果之前產(chǎn)生的一些數據的口徑發(fā)生了變化，就需要重新計算，甚至歷史數據都會(huì )被改寫(xiě)。對于實(shí)時(shí)數倉，如何解決數據重新計算的問(wèn)題？
　　這部分Kappa架構的思路是：首先準備一個(gè)可以存儲歷史數據的消息隊列，比如Kafka，這個(gè)消息隊列可以支持你從某個(gè)歷史節點(diǎn)重啟消費。那么就需要啟動(dòng)一個(gè)新任務(wù)，從更早的時(shí)間節點(diǎn)消費Kafka上的數據，然后當新任務(wù)的進(jìn)度可以和當前正在運行的任務(wù)相等時(shí)，就可以將任務(wù)的下游切換到新任務(wù)，可以停止舊任務(wù)，也可以刪除原來(lái)的結果表。
　　5. 流批結合的實(shí)時(shí)數倉
　　隨著(zhù)實(shí)時(shí)OLAP技術(shù)的發(fā)展，Doris、Presto等開(kāi)源OLAP引擎的性能和易用性有了很大的提升。再加上數據湖技術(shù)的飛速發(fā)展，流和批的結合變得簡(jiǎn)單。
　　下圖是結合流批的實(shí)時(shí)數倉：
　　

　　數據從日志采集統一到消息隊列，再到實(shí)時(shí)數倉?；A數據流的構建是統一的。之后，對于日志實(shí)時(shí)特性，實(shí)時(shí)大屏應用使用實(shí)時(shí)流計算。實(shí)時(shí)OLAP批處理用于Binlog業(yè)務(wù)分析。
　　我們看到，上述架構的流批組合方式和存儲方式都發(fā)生了變化?？ǚ蚩ū槐饺〈?。Iceberg是上層計算引擎和底層存儲格式之間的中間層。我們可以把它定義成“數據組織格式”，而底層存儲還是HDFS，那為什么還要加一個(gè)中間層，還不如把對流和批處理結合起來(lái)呢？Iceberg 的 ACID 能力可以簡(jiǎn)化整個(gè)流水線(xiàn)的設計，降低整個(gè)流水線(xiàn)的延遲，其修改和刪除能力可以有效降低開(kāi)銷(xiāo)，提高效率。Iceberg可以有效支持批量高吞吐數據掃描和分區粒度的流計算并發(fā)實(shí)時(shí)處理。

文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2022-04-04 10:01 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)
　　文章實(shí)時(shí)采集頭像，微信頭像，視頻頭像，ppt頭像，桌面整體調整（微信發(fā)圖片過(guò)來(lái)后再調整），word，excel制作發(fā)文字，按照首字拼音排序視頻圖片調用的是錄屏的方式實(shí)現的一、發(fā)送文字，實(shí)現一句話(huà)，首字母串出來(lái)二、多圖合并，一次成型，
　　可以用word去合并一張圖，
　　大概有這么幾個(gè)步驟吧,1.手機的傳圖功能中,一鍵傳圖,找到要截取的圖片,就可以了2.根據需要，
　　發(fā)圖片：html+xml+json+svg
　　wind里直接獲取圖片的二維碼，
　　拼圖
　　百度：標注自己想要哪些特征，做成字典。
　　word可以很方便的插入圖片
　　微軟的office可以做圖片水印，最麻煩的是如果要用微軟自己開(kāi)發(fā)的產(chǎn)品，要用專(zhuān)門(mén)的文件軟件。
　　印象筆記可以看見(jiàn)自己所以的筆記。本地可以保存是word的圖片。
　　百度上的圖片轉word就可以了
　　,可以把制作好的圖片轉換成word.
　　有大把，
　　直接貼就可以了，
　　dropbox。微軟office里自帶拼圖功能，內嵌的應該也行。
　　現有的軟件都不行，需要編程實(shí)現。查看全部

　　文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)
　　文章實(shí)時(shí)采集頭像，微信頭像，視頻頭像，ppt頭像，桌面整體調整（微信發(fā)圖片過(guò)來(lái)后再調整），word，excel制作發(fā)文字，按照首字拼音排序視頻圖片調用的是錄屏的方式實(shí)現的一、發(fā)送文字，實(shí)現一句話(huà)，首字母串出來(lái)二、多圖合并，一次成型，
　　可以用word去合并一張圖，
　　大概有這么幾個(gè)步驟吧,1.手機的傳圖功能中,一鍵傳圖,找到要截取的圖片,就可以了2.根據需要，
　　發(fā)圖片：html+xml+json+svg
　　wind里直接獲取圖片的二維碼，
　　拼圖
　　百度：標注自己想要哪些特征，做成字典。
　　word可以很方便的插入圖片
　　微軟的office可以做圖片水印，最麻煩的是如果要用微軟自己開(kāi)發(fā)的產(chǎn)品，要用專(zhuān)門(mén)的文件軟件。
　　印象筆記可以看見(jiàn)自己所以的筆記。本地可以保存是word的圖片。
　　百度上的圖片轉word就可以了
　　,可以把制作好的圖片轉換成word.
　　有大把，
　　直接貼就可以了，
　　dropbox。微軟office里自帶拼圖功能，內嵌的應該也行。
　　現有的軟件都不行，需要編程實(shí)現。

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 139 次瀏覽 ? 2022-04-02 23:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)
　　文章實(shí)時(shí)采集：迅捷科技圖片轉文字：拼圖片，文字也能轉啦，有啥好玩的軟件？今天給大家分享一款easytext插件，可以將現有的文字轉換成圖片的形式，并保存到本地。文字轉換成圖片：acdsee也能夠轉換，但是要手動(dòng)點(diǎn)。
　　renzo好玩不復雜親測有效效果：打字比刷網(wǎng)頁(yè)有效
　　掃描全能王，
　　拼圖工具美圖秀秀
　　拼圖神器|fotopix有上百張圖片可以任意拼接
　　這個(gè)需要的比較多，具體的實(shí)用可以看下面的文章?？炊@篇文章，或許下面要做的事情，你都能夠做出來(lái)！很多人手機拼圖軟件上搜索拼圖，卻又很難找到所需的，
　　熊貓看圖，
　　ocam真的可以試一下
　　pngimg
　　最近發(fā)現一個(gè)強大的搜索引擎：素材id
　　圖蟲(chóng)搜索
　　復制需要的圖片再搜索
　　以上都是百度經(jīng)驗內容，
　　adobeai-search
　　可以試一下chrome自帶的圖床瀏覽器，以圖搜圖，
　　1.圖文搜索——海盜灣[圖片]2.畫(huà)圖搜索——qq、迅雷3.各種翻墻軟件4.自己創(chuàng )建本地文件夾——現在新建文件夾比之前要方便很多
　　搞了點(diǎn)谷歌翻譯和谷歌圖片引擎，
　　1.photoshopcc2017基本上可以滿(mǎn)足，翻譯、批量下載、英文名。（覺(jué)得用的不爽的圖片換成英文名重命名）2.百度識圖還是需要一點(diǎn)點(diǎn)英文基礎，建議多在線(xiàn)瀏覽看一下，還要知道一下作者。具體方法可以百度搜圖導航即可。3.圖騰不錯，最近百度云有補丁更新，但是百度的搜索功能不多。推薦pt站——360百科詞條“圖騰文化”，電腦版用translator。
　　4.愛(ài)圖悅3.x強大，照片自動(dòng)摳圖，把圖拼成文字。windows系統，手機app可以下載。5.114圖片搜索也是不錯的，支持主題搜索，但是速度上比不上圖片搜索。6.搜狗圖片瀏覽器安卓7.x不錯，支持手動(dòng)翻譯。7.uc圖片搜索多數人用圖片搜索，不喜歡搜狗，不敢多做評價(jià)。8.百度美圖13.x帶了好多預覽功能，手機端可以找。9.還有搜索引擎，基本上是收費的，但是也不貴，可以考慮下。10.相冊云盤(pán)試試吧。查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)
　　文章實(shí)時(shí)采集：迅捷科技圖片轉文字：拼圖片，文字也能轉啦，有啥好玩的軟件？今天給大家分享一款easytext插件，可以將現有的文字轉換成圖片的形式，并保存到本地。文字轉換成圖片：acdsee也能夠轉換，但是要手動(dòng)點(diǎn)。
　　renzo好玩不復雜親測有效效果：打字比刷網(wǎng)頁(yè)有效
　　掃描全能王，
　　拼圖工具美圖秀秀
　　拼圖神器|fotopix有上百張圖片可以任意拼接
　　這個(gè)需要的比較多，具體的實(shí)用可以看下面的文章?？炊@篇文章，或許下面要做的事情，你都能夠做出來(lái)！很多人手機拼圖軟件上搜索拼圖，卻又很難找到所需的，
　　熊貓看圖，
　　ocam真的可以試一下
　　pngimg
　　最近發(fā)現一個(gè)強大的搜索引擎：素材id
　　圖蟲(chóng)搜索
　　復制需要的圖片再搜索
　　以上都是百度經(jīng)驗內容，
　　adobeai-search
　　可以試一下chrome自帶的圖床瀏覽器，以圖搜圖，
　　1.圖文搜索——海盜灣[圖片]2.畫(huà)圖搜索——qq、迅雷3.各種翻墻軟件4.自己創(chuàng )建本地文件夾——現在新建文件夾比之前要方便很多
　　搞了點(diǎn)谷歌翻譯和谷歌圖片引擎，
　　1.photoshopcc2017基本上可以滿(mǎn)足，翻譯、批量下載、英文名。（覺(jué)得用的不爽的圖片換成英文名重命名）2.百度識圖還是需要一點(diǎn)點(diǎn)英文基礎，建議多在線(xiàn)瀏覽看一下，還要知道一下作者。具體方法可以百度搜圖導航即可。3.圖騰不錯，最近百度云有補丁更新，但是百度的搜索功能不多。推薦pt站——360百科詞條“圖騰文化”，電腦版用translator。
　　4.愛(ài)圖悅3.x強大，照片自動(dòng)摳圖，把圖拼成文字。windows系統，手機app可以下載。5.114圖片搜索也是不錯的，支持主題搜索，但是速度上比不上圖片搜索。6.搜狗圖片瀏覽器安卓7.x不錯，支持手動(dòng)翻譯。7.uc圖片搜索多數人用圖片搜索，不喜歡搜狗，不敢多做評價(jià)。8.百度美圖13.x帶了好多預覽功能，手機端可以找。9.還有搜索引擎，基本上是收費的，但是也不貴，可以考慮下。10.相冊云盤(pán)試試吧。

文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-04-02 00:06 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)
　　文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。發(fā)表于deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。
　　deepin在本地搭建的voip網(wǎng)絡(luò )框架，主要用到兩個(gè)服務(wù)：java虛擬機中windows32通訊網(wǎng)絡(luò )的nat模塊接受請求消息回到j(luò )ava虛擬機中socket網(wǎng)絡(luò )模塊最終采用soc284dn用戶(hù)協(xié)議實(shí)現同聲傳譯。
　　在deepin下用python運行c++的windowssocket網(wǎng)絡(luò )編程，deepin自帶c++運行庫。
　　目前只聽(tīng)說(shuō)過(guò)deepin用java實(shí)現了im。
　　下個(gè)微軟metero或者黑科技teambition里
　　三年前用java寫(xiě)了一個(gè)本地同聲傳譯voip服務(wù)，我用它實(shí)現了vc6outlook里，edge里，firefox中文支持；2012-2013年用python實(shí)現了一個(gè)本地同聲傳譯vi：，
　　deepin官方j(luò )avaapi里有
　　deepin對nat技術(shù)包和two-stream多媒體技術(shù)封裝了。然后支持任意方言（甚至linux上）。
　　deepin里面有雙邊實(shí)時(shí)互譯，而且我用的就是手機和電腦之間互譯。如果是華中的朋友可以私信我，
　　1.可以找代理；2.deepin有客戶(hù)端和服務(wù)端的接口，可以實(shí)現同傳；3.deepin官方編譯好的electron或者webos可以直接操作linux進(jìn)程。查看全部

　　文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)
　　文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。發(fā)表于deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。
　　deepin在本地搭建的voip網(wǎng)絡(luò )框架，主要用到兩個(gè)服務(wù)：java虛擬機中windows32通訊網(wǎng)絡(luò )的nat模塊接受請求消息回到j(luò )ava虛擬機中socket網(wǎng)絡(luò )模塊最終采用soc284dn用戶(hù)協(xié)議實(shí)現同聲傳譯。
　　在deepin下用python運行c++的windowssocket網(wǎng)絡(luò )編程，deepin自帶c++運行庫。
　　目前只聽(tīng)說(shuō)過(guò)deepin用java實(shí)現了im。
　　下個(gè)微軟metero或者黑科技teambition里
　　三年前用java寫(xiě)了一個(gè)本地同聲傳譯voip服務(wù)，我用它實(shí)現了vc6outlook里，edge里，firefox中文支持；2012-2013年用python實(shí)現了一個(gè)本地同聲傳譯vi：，
　　deepin官方j(luò )avaapi里有
　　deepin對nat技術(shù)包和two-stream多媒體技術(shù)封裝了。然后支持任意方言（甚至linux上）。
　　deepin里面有雙邊實(shí)時(shí)互譯，而且我用的就是手機和電腦之間互譯。如果是華中的朋友可以私信我，
　　1.可以找代理；2.deepin有客戶(hù)端和服務(wù)端的接口，可以實(shí)現同傳；3.deepin官方編譯好的electron或者webos可以直接操作linux進(jìn)程。

文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2022-04-01 17:21 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？
　　首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。
　　1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。
　　2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。
　　二、文章標記作者或版本。
　　有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　第三，為文章添加一些特性。
　　1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。
　　2、在文章中添加您自己的品牌詞匯
　　3、添加一些內部鏈接，因為喜歡復制的人文章平時(shí)比較懶，有的人可以直接復制粘貼。
　　四、過(guò)濾網(wǎng)頁(yè)的主要特點(diǎn)
　　大多數人在使用鼠標右鍵復制文章的時(shí)候，如果技術(shù)不受這個(gè)功能的影響，無(wú)疑會(huì )增加采集的麻煩。
　　五、每晚更新
　　你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。
　　一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。查看全部

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？
　　首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。
　　1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。
　　2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。
　　二、文章標記作者或版本。
　　有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　第三，為文章添加一些特性。
　　1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。
　　2、在文章中添加您自己的品牌詞匯
　　3、添加一些內部鏈接，因為喜歡復制的人文章平時(shí)比較懶，有的人可以直接復制粘貼。
　　四、過(guò)濾網(wǎng)頁(yè)的主要特點(diǎn)
　　大多數人在使用鼠標右鍵復制文章的時(shí)候，如果技術(shù)不受這個(gè)功能的影響，無(wú)疑會(huì )增加采集的麻煩。
　　五、每晚更新
　　你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。
　　一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。

文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-04-01 17:18 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。二、文章標記作者或版本?？棄?mèng)58 認為有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　
　　第三，為文章添加一些特性。1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。2、在文章3、中添加自己的品牌詞匯，添加一些內鏈，因為喜歡復制文章的人通常比較懶惰，有的人可以直接復制粘貼。4、當及時(shí)添加文章文章時(shí)，搜索引擎會(huì )判斷文章的原創(chuàng )性，參考時(shí)間因素。四、過(guò)濾網(wǎng)頁(yè)按鍵功能大部分人使用鼠標右鍵復制時(shí)文章，如果技術(shù)不受此功能影響，無(wú)疑會(huì )增加采集的麻煩。五、夜間更新你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。查看全部

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。二、文章標記作者或版本?？棄?mèng)58 認為有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　

　　第三，為文章添加一些特性。1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。2、在文章3、中添加自己的品牌詞匯，添加一些內鏈，因為喜歡復制文章的人通常比較懶惰，有的人可以直接復制粘貼。4、當及時(shí)添加文章文章時(shí)，搜索引擎會(huì )判斷文章的原創(chuàng )性，參考時(shí)間因素。四、過(guò)濾網(wǎng)頁(yè)按鍵功能大部分人使用鼠標右鍵復制時(shí)文章，如果技術(shù)不受此功能影響，無(wú)疑會(huì )增加采集的麻煩。五、夜間更新你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。

文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據) )

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 216 次瀏覽 ? 2022-04-01 00:27 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據)
)
　　業(yè)務(wù)描述：java
　　最近項目中需要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據（這里的數據已經(jīng)序列化成avro格式數據），這里我們使用Flume+Hdfs做技術(shù)架構。數據庫
　　了解 Flume 的朋友都知道，它的組件分為三個(gè)部分：source、channel、sink。具體原理部分在此不再贅述?？梢圆榭垂倬W(wǎng)或者flume技術(shù)博客。這里就講講實(shí)現過(guò)程和加坑之路。阿帕奇
　　來(lái)自業(yè)務(wù)的數據存儲在kafka中，所以source端使用kafkaSource，即kafkaConsumer，sink使用hdfsSink，channel使用file type。json
　　hdfsSink 編寫(xiě)的文件格式有兩種：文本文件和序列文件。無(wú)論選擇哪種文件格式，登陸hdfs后都不能直接使用。前面說(shuō)過(guò)，業(yè)務(wù)數據已經(jīng)序列化成avro格式，但是要求是hdfs上的數據必須是直接可用的。建筑學(xué)
　　考慮了幾種解決方案：maven
　　1、使用hive建立一個(gè)外部表來(lái)關(guān)聯(lián)hdfs上的數據。這里有一個(gè)問(wèn)題。雖然hive支持讀取seq文件格式，但是seq文件中的數據（hdfsSink使用Sequence File格式存儲）是avro格式的。我嘗試建表查詢(xún)，結果是亂碼，文本文件也是這樣。這個(gè)方法通過(guò)了。其實(shí)hive可以直接讀取avro格式的指定數據的schema，但是。. . 我的文件格式不起作用，它可以通過(guò)實(shí)現接口本身將數據序列化為avro格式。哎呀
　　2.使用API??讀取avro數據。這樣，首先需要使用API??讀取seq文件數據，然后使用avro API進(jìn)行反序列化。根據hadoop指導書(shū)hadoop IO章節中的demo，讀取seq文件。然后我去avro官網(wǎng)的api，發(fā)現官網(wǎng)給出的demo是把數據序列化成avro文件，然后反序列化avro文件，和個(gè)人需求不一樣，emmm。. . 繼續翻API，好像找到了一個(gè)可以使用的類(lèi)，但是最后還是不成功，這個(gè)方法也通過(guò)了。網(wǎng)址
　　3.使用kafkaConsumer自帶的參數反序列化avro。我以這種方式在互聯(lián)網(wǎng)上閱讀了很多博客。千篇一律的文章可能與實(shí)際需求不符。有的博客說(shuō)直接配置這兩個(gè)參數：code
　　“key.deserializer”, "org.apache.kafka.common.serialization.StringDeserializer"
“value.deserializer”, "org.apache.kafka.common.serialization.ByteArrayDeserializer"
　　首先，我不知道如何反序列化這樣的數據，其次，kafkaConsumer的默認參數就是這兩個(gè)。形式
　　以下是正確配置的（在我看來(lái)）：
　　“key.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“value.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“schema.registry.url”, “http://avro-schema.user-defined.com”
　　這里的key的反序列化方式可以根據業(yè)務(wù)給出的格式來(lái)確定。這里的鍵值是 avro 格式。
　　看到這兩個(gè)參數也給了，你可以根據自己的需要添加，我這里沒(méi)用：
　　kafka.consumer.specific.avro.reader = true
useFlumeEventFormat = true
　　本以為這樣可以，但結果往往不如預期，直接報錯：
　　
　　解決了幾個(gè)錯誤后，我終于發(fā)現這個(gè)錯誤是無(wú)法反轉序列的根本問(wèn)題。因此，查看kafkaSource源碼，發(fā)現類(lèi)型轉換有問(wèn)題（只有這一次），即圖中提到的GenericRecord轉換String錯誤。
　　解決方法：撓頭。. .
　　Flume支持自定義源碼，于是趕緊翻到flume書(shū)，按照書(shū)中的demo寫(xiě)了一個(gè)源碼。具體實(shí)現其實(shí)就是這行代碼：
　　ConsumerRecords records = consumer.poll(100)
　　改變消費者返回的記錄類(lèi)型，從而最終實(shí)現avro反序列化數據后的json格式。但這還沒(méi)有結束。雖然實(shí)現了功能，但是自己寫(xiě)的代碼肯定不如源碼質(zhì)量好。都想把源碼的kafkaSource拿出來(lái)改一下看看效果。整個(gè)周期大約花了一周時(shí)間。. . 這不簡(jiǎn)單。以上如有錯誤，請指出并指正，謝謝~~
　　下面是用到的pom文件，注意版本，注意版本，注意版本，重要的說(shuō)三遍。由于版本不對，拿了一個(gè)老版本的源碼，改了半天，各種坑。匯合的來(lái)源必須匹配。沒(méi)有 Maven 存儲庫。Cloudera 取決于我的情況。
　　

org.apache.flume.flume-ng-sources
flume-kafka-source
1.6.0-cdh5.16.2
${scope.version}

org.apache.flume
flume-ng-core
1.6.0-cdh5.16.2
${scope.version}

io.confluent
kafka-avro-serializer
5.2.2
${scope.version}

confluent
Confluent
http://packages.confluent.io/maven/

cloudera
https://repository.cloudera.co ... epos/ 查看全部

　　文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據)
)
　　業(yè)務(wù)描述：java
　　最近項目中需要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據（這里的數據已經(jīng)序列化成avro格式數據），這里我們使用Flume+Hdfs做技術(shù)架構。數據庫
　　了解 Flume 的朋友都知道，它的組件分為三個(gè)部分：source、channel、sink。具體原理部分在此不再贅述?？梢圆榭垂倬W(wǎng)或者flume技術(shù)博客。這里就講講實(shí)現過(guò)程和加坑之路。阿帕奇
　　來(lái)自業(yè)務(wù)的數據存儲在kafka中，所以source端使用kafkaSource，即kafkaConsumer，sink使用hdfsSink，channel使用file type。json
　　hdfsSink 編寫(xiě)的文件格式有兩種：文本文件和序列文件。無(wú)論選擇哪種文件格式，登陸hdfs后都不能直接使用。前面說(shuō)過(guò)，業(yè)務(wù)數據已經(jīng)序列化成avro格式，但是要求是hdfs上的數據必須是直接可用的。建筑學(xué)
　　考慮了幾種解決方案：maven
　　1、使用hive建立一個(gè)外部表來(lái)關(guān)聯(lián)hdfs上的數據。這里有一個(gè)問(wèn)題。雖然hive支持讀取seq文件格式，但是seq文件中的數據（hdfsSink使用Sequence File格式存儲）是avro格式的。我嘗試建表查詢(xún)，結果是亂碼，文本文件也是這樣。這個(gè)方法通過(guò)了。其實(shí)hive可以直接讀取avro格式的指定數據的schema，但是。. . 我的文件格式不起作用，它可以通過(guò)實(shí)現接口本身將數據序列化為avro格式。哎呀
　　2.使用API??讀取avro數據。這樣，首先需要使用API??讀取seq文件數據，然后使用avro API進(jìn)行反序列化。根據hadoop指導書(shū)hadoop IO章節中的demo，讀取seq文件。然后我去avro官網(wǎng)的api，發(fā)現官網(wǎng)給出的demo是把數據序列化成avro文件，然后反序列化avro文件，和個(gè)人需求不一樣，emmm。. . 繼續翻API，好像找到了一個(gè)可以使用的類(lèi)，但是最后還是不成功，這個(gè)方法也通過(guò)了。網(wǎng)址
　　3.使用kafkaConsumer自帶的參數反序列化avro。我以這種方式在互聯(lián)網(wǎng)上閱讀了很多博客。千篇一律的文章可能與實(shí)際需求不符。有的博客說(shuō)直接配置這兩個(gè)參數：code
　　“key.deserializer”, "org.apache.kafka.common.serialization.StringDeserializer"
“value.deserializer”, "org.apache.kafka.common.serialization.ByteArrayDeserializer"
　　首先，我不知道如何反序列化這樣的數據，其次，kafkaConsumer的默認參數就是這兩個(gè)。形式
　　以下是正確配置的（在我看來(lái)）：
　　“key.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“value.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“schema.registry.url”, “http://avro-schema.user-defined.com”
　　這里的key的反序列化方式可以根據業(yè)務(wù)給出的格式來(lái)確定。這里的鍵值是 avro 格式。
　　看到這兩個(gè)參數也給了，你可以根據自己的需要添加，我這里沒(méi)用：
　　kafka.consumer.specific.avro.reader = true
useFlumeEventFormat = true
　　本以為這樣可以，但結果往往不如預期，直接報錯：
　　

　　解決了幾個(gè)錯誤后，我終于發(fā)現這個(gè)錯誤是無(wú)法反轉序列的根本問(wèn)題。因此，查看kafkaSource源碼，發(fā)現類(lèi)型轉換有問(wèn)題（只有這一次），即圖中提到的GenericRecord轉換String錯誤。
　　解決方法：撓頭。. .
　　Flume支持自定義源碼，于是趕緊翻到flume書(shū)，按照書(shū)中的demo寫(xiě)了一個(gè)源碼。具體實(shí)現其實(shí)就是這行代碼：
　　ConsumerRecords records = consumer.poll(100)
　　改變消費者返回的記錄類(lèi)型，從而最終實(shí)現avro反序列化數據后的json格式。但這還沒(méi)有結束。雖然實(shí)現了功能，但是自己寫(xiě)的代碼肯定不如源碼質(zhì)量好。都想把源碼的kafkaSource拿出來(lái)改一下看看效果。整個(gè)周期大約花了一周時(shí)間。. . 這不簡(jiǎn)單。以上如有錯誤，請指出并指正，謝謝~~
　　下面是用到的pom文件，注意版本，注意版本，注意版本，重要的說(shuō)三遍。由于版本不對，拿了一個(gè)老版本的源碼，改了半天，各種坑。匯合的來(lái)源必須匹配。沒(méi)有 Maven 存儲庫。Cloudera 取決于我的情況。
　　

org.apache.flume.flume-ng-sources
flume-kafka-source
1.6.0-cdh5.16.2
${scope.version}

org.apache.flume
flume-ng-core
1.6.0-cdh5.16.2
${scope.version}

io.confluent
kafka-avro-serializer
5.2.2
${scope.version}

confluent
Confluent
http://packages.confluent.io/maven/

cloudera
https://repository.cloudera.co ... epos/

<<
<
4
5
6
7
8
9
10
>
>>

文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-06-03 03:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期
　　文章實(shí)時(shí)采集。圖片云端處理后傳到大屏幕上，讓用戶(hù)下滑直接跳轉到相應頁(yè)面，不需要下拉刷新也不需要滑動(dòng)手勢。一鍵收藏、轉發(fā)、分享。同時(shí)適配多終端，不用安裝app就可以收藏文章?；诖髷祿治龅恼居嗛喭扑?，以及異步動(dòng)態(tài)推送。分享給親戚朋友同事等等。多樣性和互動(dòng)性的強大的傳播力。利用微信強大的社交關(guān)系鏈，建立起我是傳播節點(diǎn)的傳播紐帶。
　　參考外媒報道：。上周更新的東西，又重新發(fā)布了?？偨Y：大屏幕是品牌公關(guān)活動(dòng)必備的利器！很多文章在朋友圈讓它成為爆款之后，然后，就沒(méi)有然后了。這里我想再次重申，我一直都認為，這樣的活動(dòng)設計，針對的是某個(gè)特定群體，從而讓公司的知名度進(jìn)一步提升。而并不是為了設計新聞，而設計這種機械活動(dòng)，或者簡(jiǎn)單的方式。我在這里特別提出，把更多的目光放在“活動(dòng)效果”而不是“活動(dòng)實(shí)際”上。
　　第一輪為什么收到6000多條？商品圖形，進(jìn)行軟件或者crm的銷(xiāo)售渠道調查，核算出來(lái)的下單率。依據這個(gè)下單率，來(lái)尋找補充營(yíng)銷(xiāo)渠道。抓住這批群體的特性，舉辦一個(gè)線(xiàn)下地推活動(dòng)，以及媒體曝光，利用其中產(chǎn)生的一些問(wèn)題來(lái)進(jìn)行精準營(yíng)銷(xiāo)。第二輪的反饋，就是第一輪活動(dòng)的反饋，可以利用在線(xiàn)各種進(jìn)行整合分析，這就是我要說(shuō)的，一切的工作目的和轉化手段，都只能?chē)@著(zhù)活動(dòng)的性質(zhì)和目的在進(jìn)行。
　　這次，相關(guān)報道有很多，但是，對于剛剛涉及做活動(dòng)，以及初創(chuàng )小公司來(lái)說(shuō)，還有很多的關(guān)鍵點(diǎn)要去思考。感謝有你，平和一期。--一期評論太多，不想發(fā)，我覺(jué)得是在宣揚中小型企業(yè)的不專(zhuān)業(yè)性，把做活動(dòng)做成了推銷(xiāo)。最終，還要看效果。所以，大家好聚好散，下期請給我發(fā)私信，說(shuō)說(shuō)對這些設計的一些要求和建議。以下是我一貫的觀(guān)點(diǎn)（針對知乎，非廣告）1.軟件成本的大幅度下降，交互和圖形占據大量預算的背后，靠軟件的數量?jì)?yōu)勢，是不夠的，軟。查看全部

　　文章實(shí)時(shí)采集大屏幕是品牌公關(guān)活動(dòng)必備的利器--平和一期
　　文章實(shí)時(shí)采集。圖片云端處理后傳到大屏幕上，讓用戶(hù)下滑直接跳轉到相應頁(yè)面，不需要下拉刷新也不需要滑動(dòng)手勢。一鍵收藏、轉發(fā)、分享。同時(shí)適配多終端，不用安裝app就可以收藏文章?；诖髷祿治龅恼居嗛喭扑?，以及異步動(dòng)態(tài)推送。分享給親戚朋友同事等等。多樣性和互動(dòng)性的強大的傳播力。利用微信強大的社交關(guān)系鏈，建立起我是傳播節點(diǎn)的傳播紐帶。
　　參考外媒報道：。上周更新的東西，又重新發(fā)布了?？偨Y：大屏幕是品牌公關(guān)活動(dòng)必備的利器！很多文章在朋友圈讓它成為爆款之后，然后，就沒(méi)有然后了。這里我想再次重申，我一直都認為，這樣的活動(dòng)設計，針對的是某個(gè)特定群體，從而讓公司的知名度進(jìn)一步提升。而并不是為了設計新聞，而設計這種機械活動(dòng)，或者簡(jiǎn)單的方式。我在這里特別提出，把更多的目光放在“活動(dòng)效果”而不是“活動(dòng)實(shí)際”上。
　　第一輪為什么收到6000多條？商品圖形，進(jìn)行軟件或者crm的銷(xiāo)售渠道調查，核算出來(lái)的下單率。依據這個(gè)下單率，來(lái)尋找補充營(yíng)銷(xiāo)渠道。抓住這批群體的特性，舉辦一個(gè)線(xiàn)下地推活動(dòng)，以及媒體曝光，利用其中產(chǎn)生的一些問(wèn)題來(lái)進(jìn)行精準營(yíng)銷(xiāo)。第二輪的反饋，就是第一輪活動(dòng)的反饋，可以利用在線(xiàn)各種進(jìn)行整合分析，這就是我要說(shuō)的，一切的工作目的和轉化手段，都只能?chē)@著(zhù)活動(dòng)的性質(zhì)和目的在進(jìn)行。
　　這次，相關(guān)報道有很多，但是，對于剛剛涉及做活動(dòng)，以及初創(chuàng )小公司來(lái)說(shuō)，還有很多的關(guān)鍵點(diǎn)要去思考。感謝有你，平和一期。--一期評論太多，不想發(fā)，我覺(jué)得是在宣揚中小型企業(yè)的不專(zhuān)業(yè)性，把做活動(dòng)做成了推銷(xiāo)。最終，還要看效果。所以，大家好聚好散，下期請給我發(fā)私信，說(shuō)說(shuō)對這些設計的一些要求和建議。以下是我一貫的觀(guān)點(diǎn)（針對知乎，非廣告）1.軟件成本的大幅度下降，交互和圖形占據大量預算的背后，靠軟件的數量?jì)?yōu)勢，是不夠的，軟。

文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2022-05-11 19:02 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別
　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別的大致的原理，
　　我的看法是，先自己把概念理清楚吧。不然很難讓別人理解你的想法。另外，要看看現在能否做到。我看到的已經(jīng)做出來(lái)的有語(yǔ)音實(shí)時(shí)轉文字，語(yǔ)音識別+人臉識別+文字識別+結構化輸出。
　　說(shuō)白了還是編程基礎要牢固
　　語(yǔ)音識別（比如：nuance公司），對講機（普及版），
　　這個(gè)還是要看需求和實(shí)現方式。語(yǔ)音技術(shù)目前不能成熟應用到生活中，但是特定場(chǎng)景還是可以應用到的。比如來(lái)電時(shí)只需要告訴你對方想接聽(tīng)，那么對方的位置信息就是很好的采集了。目前比較典型的應用，對方想打王者，可以依據在上海打王者電話(huà)是15min，打農藥電話(huà)是20min，打游戲電話(huà)是40min來(lái)判斷?？梢远ㄖ埔粋€(gè)人工智能系統，類(lèi)似于阿爾法狗那樣，一點(diǎn)一點(diǎn)學(xué)習。對方打開(kāi)個(gè)短信，就可以學(xué)習發(fā)送什么信息了。
　　題主想利用語(yǔ)音作為識別碼，進(jìn)行信息錄入嗎？答案是肯定的。你可以用一個(gè)單片機控制一個(gè)nuance開(kāi)發(fā)的avr-cnoise音箱，可以按語(yǔ)音給事先錄入的電話(huà)打電話(huà)。也可以用一個(gè)程序控制兩個(gè)音箱進(jìn)行語(yǔ)音通話(huà)。
　　這個(gè)肯定會(huì )有用啊。目前的語(yǔ)音識別技術(shù)基本都是基于客戶(hù)端系統，不提供服務(wù)器的。不過(guò)手機上能上網(wǎng)，而且會(huì )編程，也可以自己開(kāi)發(fā)一個(gè)對話(huà)系統，把語(yǔ)音控制轉換成文字。查看全部

　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別
　　文章實(shí)時(shí)采集，地理位置抓取，三維地圖繪制是語(yǔ)音識別的大致的原理，
　　我的看法是，先自己把概念理清楚吧。不然很難讓別人理解你的想法。另外，要看看現在能否做到。我看到的已經(jīng)做出來(lái)的有語(yǔ)音實(shí)時(shí)轉文字，語(yǔ)音識別+人臉識別+文字識別+結構化輸出。
　　說(shuō)白了還是編程基礎要牢固
　　語(yǔ)音識別（比如：nuance公司），對講機（普及版），
　　這個(gè)還是要看需求和實(shí)現方式。語(yǔ)音技術(shù)目前不能成熟應用到生活中，但是特定場(chǎng)景還是可以應用到的。比如來(lái)電時(shí)只需要告訴你對方想接聽(tīng)，那么對方的位置信息就是很好的采集了。目前比較典型的應用，對方想打王者，可以依據在上海打王者電話(huà)是15min，打農藥電話(huà)是20min，打游戲電話(huà)是40min來(lái)判斷?？梢远ㄖ埔粋€(gè)人工智能系統，類(lèi)似于阿爾法狗那樣，一點(diǎn)一點(diǎn)學(xué)習。對方打開(kāi)個(gè)短信，就可以學(xué)習發(fā)送什么信息了。
　　題主想利用語(yǔ)音作為識別碼，進(jìn)行信息錄入嗎？答案是肯定的。你可以用一個(gè)單片機控制一個(gè)nuance開(kāi)發(fā)的avr-cnoise音箱，可以按語(yǔ)音給事先錄入的電話(huà)打電話(huà)。也可以用一個(gè)程序控制兩個(gè)音箱進(jìn)行語(yǔ)音通話(huà)。
　　這個(gè)肯定會(huì )有用啊。目前的語(yǔ)音識別技術(shù)基本都是基于客戶(hù)端系統，不提供服務(wù)器的。不過(guò)手機上能上網(wǎng)，而且會(huì )編程，也可以自己開(kāi)發(fā)一個(gè)對話(huà)系統，把語(yǔ)音控制轉換成文字。

新技術(shù)電子影像監測監控系統——打孔+stl格式

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-05-10 09:01 ? 來(lái)自相關(guān)話(huà)題

　　新技術(shù)電子影像監測監控系統——打孔+stl格式
　　文章實(shí)時(shí)采集技術(shù)包括場(chǎng)景采集、節點(diǎn)采集、點(diǎn)采集、平行采集等。無(wú)論是場(chǎng)景采集還是節點(diǎn)采集，都離不開(kāi)一個(gè)采集設備。這就決定了你能采集到的數據量，越大你獲取數據的速度也越快。我們有三款采集設備。3d掃描儀三維場(chǎng)景的掃描儀一般采用3d掃描儀來(lái)進(jìn)行采集。一款典型的3d掃描儀需要一臺采集采樣機、一臺掃描儀、一臺三維掃描儀、一個(gè)3d三維場(chǎng)景掃描儀、cinema4d軟件、云計算平臺等其他。
　　3d掃描儀整體維護：采集機、三維掃描儀、2d軟件、cinema4d軟件。3d三維場(chǎng)景掃描儀采用采集機構采集場(chǎng)景，進(jìn)行點(diǎn)云測距及識別。3d掃描儀的特點(diǎn)：打孔+stl格式。采集機構：彩色一體化3d掃描儀。掃描機構：標準3d立體掃描儀。云計算平臺：3d掃描儀一般會(huì )與云平臺搭配使用，我們有一款云掃描儀3d云采集儀。
　　可以試試快數快采，你在應用商店里面搜一下，他們的快數快采可以實(shí)現一鍵采集，
　　用筆者所學(xué)的技術(shù)告訴你，可以試試這個(gè)新技術(shù)電子影像監測監控系統，用定位方式采集視頻數據，
　　同求解答！同感！
　　我也在找，
　　xy，現在是按用戶(hù)設備來(lái)劃分，只有攝像頭、光源、傳感器組成的，然后是采集卡、采集儀。查看全部

　　新技術(shù)電子影像監測監控系統——打孔+stl格式
　　文章實(shí)時(shí)采集技術(shù)包括場(chǎng)景采集、節點(diǎn)采集、點(diǎn)采集、平行采集等。無(wú)論是場(chǎng)景采集還是節點(diǎn)采集，都離不開(kāi)一個(gè)采集設備。這就決定了你能采集到的數據量，越大你獲取數據的速度也越快。我們有三款采集設備。3d掃描儀三維場(chǎng)景的掃描儀一般采用3d掃描儀來(lái)進(jìn)行采集。一款典型的3d掃描儀需要一臺采集采樣機、一臺掃描儀、一臺三維掃描儀、一個(gè)3d三維場(chǎng)景掃描儀、cinema4d軟件、云計算平臺等其他。
　　3d掃描儀整體維護：采集機、三維掃描儀、2d軟件、cinema4d軟件。3d三維場(chǎng)景掃描儀采用采集機構采集場(chǎng)景，進(jìn)行點(diǎn)云測距及識別。3d掃描儀的特點(diǎn)：打孔+stl格式。采集機構：彩色一體化3d掃描儀。掃描機構：標準3d立體掃描儀。云計算平臺：3d掃描儀一般會(huì )與云平臺搭配使用，我們有一款云掃描儀3d云采集儀。
　　可以試試快數快采，你在應用商店里面搜一下，他們的快數快采可以實(shí)現一鍵采集，
　　用筆者所學(xué)的技術(shù)告訴你，可以試試這個(gè)新技術(shù)電子影像監測監控系統，用定位方式采集視頻數據，
　　同求解答！同感！
　　我也在找，
　　xy，現在是按用戶(hù)設備來(lái)劃分，只有攝像頭、光源、傳感器組成的，然后是采集卡、采集儀。

干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 206 次瀏覽 ? 2022-05-07 02:12 ? 來(lái)自相關(guān)話(huà)題

　　干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！
　　數倉藍圖：
　　本文目錄：
　　一、數據采集及常見(jiàn)問(wèn)題二、埋點(diǎn)是什么與方式三、埋點(diǎn)的框架與設計四、指標體系與可視化
　　一、數據采集以及常見(jiàn)數據問(wèn)題
　　1.1數據采集
　　數據采集有多種方式，埋點(diǎn)采集是其中非常重要的一部分，不論對c端還是b端產(chǎn)品都是主要的采集方式，數據采集，顧名思義就是采集相應的數據，是整個(gè)數據流的起點(diǎn)，采集的全不全，對不對，直接決定數據的廣度和質(zhì)量，影響后續所有的環(huán)節。在數據采集有效性，完整性不好的公司，經(jīng)常會(huì )有業(yè)務(wù)發(fā)現數據發(fā)生大幅度變化。
　　數據的處理通常由以下5步構成：
　　
　　1.2常見(jiàn)數據問(wèn)題
　　大體知道數據采集及其架構之后，我們看看工作中遇到的問(wèn)題，有多少是跟數據采集環(huán)節有關(guān)的：
　　1、數據和后臺差距很大，數據不準確-統計口徑不一樣、埋點(diǎn)定義不一樣、采集方式帶來(lái)誤差
　　2、想用的時(shí)候，沒(méi)有我想要的數據-沒(méi)有提數據采集需求、埋點(diǎn)不正確不完整
　　3、事件太多，不清楚含義-埋點(diǎn)設計的方式、埋點(diǎn)更新迭代的規則和維護
　　4、分析數據不知道看哪些數據和指標-數據定義不清楚，缺乏分析思路
　　我們需要根源性解決問(wèn)題：把采集當成獨立的研發(fā)業(yè)務(wù)來(lái)對待，而不是產(chǎn)品研發(fā)中的附屬品。
　　二、埋點(diǎn)是什么
　　2.1 埋點(diǎn)是什么
　　所謂埋點(diǎn)，就是數據采集領(lǐng)域的術(shù)語(yǔ)。它的學(xué)名應該叫做事件追蹤，對應的英文是Event Tracking 指的是針對特定用戶(hù)行為或事件進(jìn)行捕獲，處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過(guò)程。數據埋點(diǎn)是數據分析師，數據產(chǎn)品經(jīng)理和數據運營(yíng)，基于業(yè)務(wù)需求或者產(chǎn)品需求對用戶(hù)行為的每一個(gè)事件對應位置進(jìn)行開(kāi)發(fā)埋點(diǎn)，并通過(guò)SDK上報埋點(diǎn)的數據結果，記錄匯總數據后進(jìn)行分析，推動(dòng)產(chǎn)品優(yōu)化和指導運營(yíng)。
　　流程伴隨著(zhù)規范，通過(guò)定義我們看到，特定用戶(hù)行為和事件是我們的采集重點(diǎn)，還需要處理和發(fā)送相關(guān)技術(shù)及實(shí)施過(guò)程;數據埋點(diǎn)是服務(wù)于產(chǎn)品，又來(lái)源于產(chǎn)品中，所以跟產(chǎn)品息息相關(guān)，埋點(diǎn)在于具體的實(shí)戰過(guò)程，跟每個(gè)人對數據底層的理解程度有關(guān)。
　　
　　2.2為什么要做埋點(diǎn)
　　埋點(diǎn)就是為了對產(chǎn)品進(jìn)行全方位的持續追蹤，通過(guò)數據分析不斷指導優(yōu)化產(chǎn)品。數據埋點(diǎn)的質(zhì)量直接影響到數據，產(chǎn)品，運營(yíng)等質(zhì)量。
　　1、數據驅動(dòng)-埋點(diǎn)將分析的深度下鉆到流量分布和流動(dòng)層面，通過(guò)統計分析，對宏觀(guān)指標進(jìn)行深入剖析，發(fā)現指標背后的問(wèn)題，洞察用戶(hù)行為與提升價(jià)值之間的潛在關(guān)聯(lián)
　　2、產(chǎn)品優(yōu)化-對產(chǎn)品來(lái)說(shuō)，用戶(hù)在產(chǎn)品里做了什么，停留多久，有什么異常都需要關(guān)注，這些問(wèn)題都可以通過(guò)埋點(diǎn)的方式實(shí)現
　　3、精細化運營(yíng)-埋點(diǎn)可以貫徹整個(gè)產(chǎn)品的生命周期，流量質(zhì)量和不同來(lái)源的分布，人群的行為特點(diǎn)和關(guān)系，洞察用戶(hù)行為與提升業(yè)務(wù)價(jià)值之間的潛在關(guān)聯(lián)。
　　2.3埋點(diǎn)的方式
　　埋點(diǎn)的方式都有哪些呢，當前大多數公司都是客戶(hù)端，服務(wù)端相結合的方式。
　　
　　準確性：代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)
　　三、埋點(diǎn)的框架和設計
　　3.1埋點(diǎn)采集的頂層設計
　　所謂的頂層設計就是想清楚怎么做埋點(diǎn)，用什么方式，上傳機制是什么，具體怎么定義，具體怎么落地等等;我們遵循唯一性，可擴展性，一致性等的基礎上，我們要設計一些通用字段及生成機制，比如：cid, idfa,idfv等。
　　用戶(hù)識別：用戶(hù)識別機制的混亂會(huì )導致兩個(gè)結果：一是數據不準確，比如UV數據對不上;二是涉及到漏斗分析環(huán)節出現異常。因此應該做到：a.嚴格規范ID的本身識別機制;b.跨平臺用戶(hù)識別
　　同類(lèi)抽象: 同類(lèi)抽象包括事件抽象和屬性抽象。事件抽象即瀏覽事件，點(diǎn)擊事件的聚合;屬性抽象，即多數復用的場(chǎng)景來(lái)進(jìn)行合并,增加來(lái)源區分
　　采集一致：采集一致包括兩點(diǎn)：一是跨平臺頁(yè)面命名一致，二是按鈕命名一致;埋點(diǎn)的制定過(guò)程本身就是規范底層數據的過(guò)程，所以一致性是特別重要，只有這樣才能真正的用起來(lái)
　　渠道配置：渠道主要指的是推廣渠道，落地頁(yè)，網(wǎng)頁(yè)推廣頁(yè)面，APP推廣頁(yè)面等，這個(gè)落地頁(yè)的配置要有統一規范和標準
　　3.2 埋點(diǎn)采集事件及屬性設計
　　在設計屬性和事件的時(shí)候，我們要知道哪些經(jīng)常變，哪些不變，哪些是業(yè)務(wù)行為，哪些是基本屬性?；诨緦傩允录?，我們認為屬性是必須采集項，只是屬性里面的事件屬性根據業(yè)務(wù)不同有所調整而已，因此，我們可以把埋點(diǎn)采集分為協(xié)議層和業(yè)務(wù)層埋點(diǎn)。
　　業(yè)務(wù)分解：梳理確認業(yè)務(wù)流程、操作路徑和不同細分場(chǎng)景、定義用戶(hù)行為路徑
　　分析指標：對特定的事件進(jìn)行定義、核心業(yè)務(wù)指標需要的數據
　　事件設計：APP啟動(dòng)，退出、頁(yè)面瀏覽、事件曝光點(diǎn)擊
　　屬性設計：用戶(hù)屬性、事件屬性、對象屬性、環(huán)境屬性
　　3.3 數據采集事件及屬性設計
　　
　　Ev事件的命名，也遵循一些規則，同一類(lèi)功能在不同頁(yè)面或位置出現時(shí)，按照功能名稱(chēng)命名，頁(yè)面和位置在ev參數中進(jìn)行區分。僅是按鈕點(diǎn)擊時(shí)，按照按鈕名稱(chēng)命名。
　　ev事件格式：ev分為ev標識和ev參數
　　規則：
　　ev標識和ev參數之間用“#”連接(一級連接符)
　　ev參數和ev參數之間用“/”來(lái)連接(二級連接符)
　　ev參數使用key=value的結構，當一個(gè)key對應多個(gè)value值時(shí)，value1與value2之間用“，”連接(三級連接符)
　　當埋點(diǎn)僅有ev標識沒(méi)有ev參數的時(shí)候，不需要帶#
　　備注：
　　ev標識：作為埋點(diǎn)的唯一標識，用來(lái)區分埋點(diǎn)的位置和屬性，不可變，不可修改。
　　ev參數：埋點(diǎn)需要回傳的參數，ev參數順序可變，可修改)
　　app埋點(diǎn)調整的時(shí)，ev標識不變，只修改后面的埋點(diǎn)參數(參數取值變化或者增加參數類(lèi)型)
　　一般埋點(diǎn)文檔中所包含的sheet名稱(chēng)以及作用：
　　A、曝光埋點(diǎn)匯總；
　　B、點(diǎn)擊和瀏覽埋點(diǎn)匯總；
　　C、失效埋點(diǎn)匯總：一般會(huì )記錄埋點(diǎn)失效版本或時(shí)間；
　　D、PC和M端頁(yè)面埋點(diǎn)所對應的pageid；
　　E、各版本上線(xiàn)時(shí)間記錄；
　　埋點(diǎn)文檔中，所有包含的列名及功能：
　　
　　3.4 基于埋點(diǎn)的數據統計
　　用埋點(diǎn)統計數據怎么查找埋點(diǎn)ev事件：
　　1、明確埋點(diǎn)類(lèi)型（點(diǎn)擊/曝光/瀏覽）——篩選type字段
　　2、明確按鈕埋點(diǎn)所屬頁(yè)面（頁(yè)面或功能）——篩選功能模塊字段
　　3、明確埋點(diǎn)事件名稱(chēng)——篩選名稱(chēng)字段
　　4、知道ev標識，可直接用ev來(lái)進(jìn)行篩選
　　根據ev事件怎么進(jìn)行查詢(xún)統計：當查詢(xún)按鈕點(diǎn)擊統計時(shí)，可直接用ev標識進(jìn)行查詢(xún)，當有所區分可限定埋點(diǎn)參數取值。因為ev參數的順序不做要求可變，所以查詢(xún)統計時(shí)，不能按照參數的順序進(jìn)行限定。
　　四、應用-數據流程的基礎
　　
　　4.1指標體系
　　體系化的指標可以綜合不同的指標不同的維度串聯(lián)起來(lái)進(jìn)行全面的分析，會(huì )更快的發(fā)現目前產(chǎn)品和業(yè)務(wù)流程存在的問(wèn)題。
　　
　　4.2可視化
　　人對圖像信息的解釋效率比文字更高，可視化對數據分析極為重要，利用數據可視化可以揭示出數據內在的錯綜復雜的關(guān)系。
　　
　　4.3 埋點(diǎn)元信息api提供
　　數據采集服務(wù)會(huì )對采集到的埋點(diǎn)寫(xiě)入到 Kafka 中，對于各個(gè)業(yè)務(wù)的實(shí)時(shí)數據消費需求，我們?yōu)槊總€(gè)業(yè)務(wù)提供了單獨的 Kafka，流量分發(fā)模塊會(huì )定期讀取埋點(diǎn)管理平臺提供的元信息，將流量實(shí)時(shí)分發(fā)的各業(yè)務(wù) Kafka 中。
　　
　　數據采集猶如設計產(chǎn)品，不能過(guò)度。不僅要留出擴展余地，更要經(jīng)常思考數據有沒(méi)有，全不全，細不細，穩不穩，快不快。查看全部

　　干貨 | 數據埋點(diǎn)采集，看這一篇文章就夠了！
　　數倉藍圖：
　　本文目錄：
　　一、數據采集及常見(jiàn)問(wèn)題二、埋點(diǎn)是什么與方式三、埋點(diǎn)的框架與設計四、指標體系與可視化
　　一、數據采集以及常見(jiàn)數據問(wèn)題
　　1.1數據采集
　　數據采集有多種方式，埋點(diǎn)采集是其中非常重要的一部分，不論對c端還是b端產(chǎn)品都是主要的采集方式，數據采集，顧名思義就是采集相應的數據，是整個(gè)數據流的起點(diǎn)，采集的全不全，對不對，直接決定數據的廣度和質(zhì)量，影響后續所有的環(huán)節。在數據采集有效性，完整性不好的公司，經(jīng)常會(huì )有業(yè)務(wù)發(fā)現數據發(fā)生大幅度變化。
　　數據的處理通常由以下5步構成：
　　

　　1.2常見(jiàn)數據問(wèn)題
　　大體知道數據采集及其架構之后，我們看看工作中遇到的問(wèn)題，有多少是跟數據采集環(huán)節有關(guān)的：
　　1、數據和后臺差距很大，數據不準確-統計口徑不一樣、埋點(diǎn)定義不一樣、采集方式帶來(lái)誤差
　　2、想用的時(shí)候，沒(méi)有我想要的數據-沒(méi)有提數據采集需求、埋點(diǎn)不正確不完整
　　3、事件太多，不清楚含義-埋點(diǎn)設計的方式、埋點(diǎn)更新迭代的規則和維護
　　4、分析數據不知道看哪些數據和指標-數據定義不清楚，缺乏分析思路
　　我們需要根源性解決問(wèn)題：把采集當成獨立的研發(fā)業(yè)務(wù)來(lái)對待，而不是產(chǎn)品研發(fā)中的附屬品。
　　二、埋點(diǎn)是什么
　　2.1 埋點(diǎn)是什么
　　所謂埋點(diǎn)，就是數據采集領(lǐng)域的術(shù)語(yǔ)。它的學(xué)名應該叫做事件追蹤，對應的英文是Event Tracking 指的是針對特定用戶(hù)行為或事件進(jìn)行捕獲，處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過(guò)程。數據埋點(diǎn)是數據分析師，數據產(chǎn)品經(jīng)理和數據運營(yíng)，基于業(yè)務(wù)需求或者產(chǎn)品需求對用戶(hù)行為的每一個(gè)事件對應位置進(jìn)行開(kāi)發(fā)埋點(diǎn)，并通過(guò)SDK上報埋點(diǎn)的數據結果，記錄匯總數據后進(jìn)行分析，推動(dòng)產(chǎn)品優(yōu)化和指導運營(yíng)。
　　流程伴隨著(zhù)規范，通過(guò)定義我們看到，特定用戶(hù)行為和事件是我們的采集重點(diǎn)，還需要處理和發(fā)送相關(guān)技術(shù)及實(shí)施過(guò)程;數據埋點(diǎn)是服務(wù)于產(chǎn)品，又來(lái)源于產(chǎn)品中，所以跟產(chǎn)品息息相關(guān)，埋點(diǎn)在于具體的實(shí)戰過(guò)程，跟每個(gè)人對數據底層的理解程度有關(guān)。
　　

　　2.2為什么要做埋點(diǎn)
　　埋點(diǎn)就是為了對產(chǎn)品進(jìn)行全方位的持續追蹤，通過(guò)數據分析不斷指導優(yōu)化產(chǎn)品。數據埋點(diǎn)的質(zhì)量直接影響到數據，產(chǎn)品，運營(yíng)等質(zhì)量。
　　1、數據驅動(dòng)-埋點(diǎn)將分析的深度下鉆到流量分布和流動(dòng)層面，通過(guò)統計分析，對宏觀(guān)指標進(jìn)行深入剖析，發(fā)現指標背后的問(wèn)題，洞察用戶(hù)行為與提升價(jià)值之間的潛在關(guān)聯(lián)
　　2、產(chǎn)品優(yōu)化-對產(chǎn)品來(lái)說(shuō)，用戶(hù)在產(chǎn)品里做了什么，停留多久，有什么異常都需要關(guān)注，這些問(wèn)題都可以通過(guò)埋點(diǎn)的方式實(shí)現
　　3、精細化運營(yíng)-埋點(diǎn)可以貫徹整個(gè)產(chǎn)品的生命周期，流量質(zhì)量和不同來(lái)源的分布，人群的行為特點(diǎn)和關(guān)系，洞察用戶(hù)行為與提升業(yè)務(wù)價(jià)值之間的潛在關(guān)聯(lián)。
　　2.3埋點(diǎn)的方式
　　埋點(diǎn)的方式都有哪些呢，當前大多數公司都是客戶(hù)端，服務(wù)端相結合的方式。
　　

　　準確性：代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)
　　三、埋點(diǎn)的框架和設計
　　3.1埋點(diǎn)采集的頂層設計
　　所謂的頂層設計就是想清楚怎么做埋點(diǎn)，用什么方式，上傳機制是什么，具體怎么定義，具體怎么落地等等;我們遵循唯一性，可擴展性，一致性等的基礎上，我們要設計一些通用字段及生成機制，比如：cid, idfa,idfv等。
　　用戶(hù)識別：用戶(hù)識別機制的混亂會(huì )導致兩個(gè)結果：一是數據不準確，比如UV數據對不上;二是涉及到漏斗分析環(huán)節出現異常。因此應該做到：a.嚴格規范ID的本身識別機制;b.跨平臺用戶(hù)識別
　　同類(lèi)抽象: 同類(lèi)抽象包括事件抽象和屬性抽象。事件抽象即瀏覽事件，點(diǎn)擊事件的聚合;屬性抽象，即多數復用的場(chǎng)景來(lái)進(jìn)行合并,增加來(lái)源區分
　　采集一致：采集一致包括兩點(diǎn)：一是跨平臺頁(yè)面命名一致，二是按鈕命名一致;埋點(diǎn)的制定過(guò)程本身就是規范底層數據的過(guò)程，所以一致性是特別重要，只有這樣才能真正的用起來(lái)
　　渠道配置：渠道主要指的是推廣渠道，落地頁(yè)，網(wǎng)頁(yè)推廣頁(yè)面，APP推廣頁(yè)面等，這個(gè)落地頁(yè)的配置要有統一規范和標準
　　3.2 埋點(diǎn)采集事件及屬性設計
　　在設計屬性和事件的時(shí)候，我們要知道哪些經(jīng)常變，哪些不變，哪些是業(yè)務(wù)行為，哪些是基本屬性?；诨緦傩允录?，我們認為屬性是必須采集項，只是屬性里面的事件屬性根據業(yè)務(wù)不同有所調整而已，因此，我們可以把埋點(diǎn)采集分為協(xié)議層和業(yè)務(wù)層埋點(diǎn)。
　　業(yè)務(wù)分解：梳理確認業(yè)務(wù)流程、操作路徑和不同細分場(chǎng)景、定義用戶(hù)行為路徑
　　分析指標：對特定的事件進(jìn)行定義、核心業(yè)務(wù)指標需要的數據
　　事件設計：APP啟動(dòng)，退出、頁(yè)面瀏覽、事件曝光點(diǎn)擊
　　屬性設計：用戶(hù)屬性、事件屬性、對象屬性、環(huán)境屬性
　　3.3 數據采集事件及屬性設計
　　

　　Ev事件的命名，也遵循一些規則，同一類(lèi)功能在不同頁(yè)面或位置出現時(shí)，按照功能名稱(chēng)命名，頁(yè)面和位置在ev參數中進(jìn)行區分。僅是按鈕點(diǎn)擊時(shí)，按照按鈕名稱(chēng)命名。
　　ev事件格式：ev分為ev標識和ev參數
　　規則：
　　ev標識和ev參數之間用“#”連接(一級連接符)
　　ev參數和ev參數之間用“/”來(lái)連接(二級連接符)
　　ev參數使用key=value的結構，當一個(gè)key對應多個(gè)value值時(shí)，value1與value2之間用“，”連接(三級連接符)
　　當埋點(diǎn)僅有ev標識沒(méi)有ev參數的時(shí)候，不需要帶#
　　備注：
　　ev標識：作為埋點(diǎn)的唯一標識，用來(lái)區分埋點(diǎn)的位置和屬性，不可變，不可修改。
　　ev參數：埋點(diǎn)需要回傳的參數，ev參數順序可變，可修改)
　　app埋點(diǎn)調整的時(shí)，ev標識不變，只修改后面的埋點(diǎn)參數(參數取值變化或者增加參數類(lèi)型)
　　一般埋點(diǎn)文檔中所包含的sheet名稱(chēng)以及作用：
　　A、曝光埋點(diǎn)匯總；
　　B、點(diǎn)擊和瀏覽埋點(diǎn)匯總；
　　C、失效埋點(diǎn)匯總：一般會(huì )記錄埋點(diǎn)失效版本或時(shí)間；
　　D、PC和M端頁(yè)面埋點(diǎn)所對應的pageid；
　　E、各版本上線(xiàn)時(shí)間記錄；
　　埋點(diǎn)文檔中，所有包含的列名及功能：
　　

　　3.4 基于埋點(diǎn)的數據統計
　　用埋點(diǎn)統計數據怎么查找埋點(diǎn)ev事件：
　　1、明確埋點(diǎn)類(lèi)型（點(diǎn)擊/曝光/瀏覽）——篩選type字段
　　2、明確按鈕埋點(diǎn)所屬頁(yè)面（頁(yè)面或功能）——篩選功能模塊字段
　　3、明確埋點(diǎn)事件名稱(chēng)——篩選名稱(chēng)字段
　　4、知道ev標識，可直接用ev來(lái)進(jìn)行篩選
　　根據ev事件怎么進(jìn)行查詢(xún)統計：當查詢(xún)按鈕點(diǎn)擊統計時(shí)，可直接用ev標識進(jìn)行查詢(xún)，當有所區分可限定埋點(diǎn)參數取值。因為ev參數的順序不做要求可變，所以查詢(xún)統計時(shí)，不能按照參數的順序進(jìn)行限定。
　　四、應用-數據流程的基礎
　　

　　4.1指標體系
　　體系化的指標可以綜合不同的指標不同的維度串聯(lián)起來(lái)進(jìn)行全面的分析，會(huì )更快的發(fā)現目前產(chǎn)品和業(yè)務(wù)流程存在的問(wèn)題。
　　

　　4.2可視化
　　人對圖像信息的解釋效率比文字更高，可視化對數據分析極為重要，利用數據可視化可以揭示出數據內在的錯綜復雜的關(guān)系。
　　

　　4.3 埋點(diǎn)元信息api提供
　　數據采集服務(wù)會(huì )對采集到的埋點(diǎn)寫(xiě)入到 Kafka 中，對于各個(gè)業(yè)務(wù)的實(shí)時(shí)數據消費需求，我們?yōu)槊總€(gè)業(yè)務(wù)提供了單獨的 Kafka，流量分發(fā)模塊會(huì )定期讀取埋點(diǎn)管理平臺提供的元信息，將流量實(shí)時(shí)分發(fā)的各業(yè)務(wù) Kafka 中。
　　

　　數據采集猶如設計產(chǎn)品，不能過(guò)度。不僅要留出擴展余地，更要經(jīng)常思考數據有沒(méi)有，全不全，細不細，穩不穩，快不快。

文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量 )

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-19 12:04 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量
)
<p>如何讓我們的網(wǎng)站每天自動(dòng)更新，好的網(wǎng)站內容SEO可以保證網(wǎng)站的收錄量和關(guān)鍵詞量在查看全部

　　文章實(shí)時(shí)采集(如何讓我們的網(wǎng)站每天自動(dòng)更新，良好的內容SEO能保證網(wǎng)站的收錄量和關(guān)鍵詞數量
)
<p>如何讓我們的網(wǎng)站每天自動(dòng)更新，好的網(wǎng)站內容SEO可以保證網(wǎng)站的收錄量和關(guān)鍵詞量在

文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2022-04-18 10:48 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)
　　各位朋友您好，我最近寫(xiě)了幾篇關(guān)于實(shí)時(shí)數據分析的文章文章，都是基于當時(shí)的問(wèn)題分析。今天打開(kāi)這篇文章文章是因為實(shí)時(shí)分析工具已經(jīng)實(shí)現了從0到1的業(yè)務(wù)數據對接，如果任何工具或功能不能與業(yè)務(wù)融合，那它所做的一切都是無(wú)用的，無(wú)法體現它的價(jià)值。所有的痛點(diǎn)和解決方案也來(lái)自于業(yè)務(wù)的使用。
　　這個(gè)文章我就不講怎么選型號了，因為網(wǎng)上有很多類(lèi)似的文章，只要細心就能找到，但不管是什么型號選擇，重點(diǎn)是“行業(yè)研究”，防止錯誤選擇。我一般會(huì )根據以下三大前提來(lái)選款（以下陳述純屬個(gè)人觀(guān)點(diǎn)，如有不妥請在下方評論）
　　有很多公司在使用它，并且有很好的數據顯示開(kāi)源軟件。關(guān)注社區情況。最近有沒(méi)有繼續迭代，防止自己進(jìn)入深坑？最重要的是有沒(méi)有和你類(lèi)似的場(chǎng)景，你用過(guò)你要使用的工具。方便技術(shù)咨詢(xún)
　　行業(yè)研究，行業(yè)研究，行業(yè)研究重要的事情說(shuō)三遍
　　實(shí)時(shí)數據分析目前主要應用在業(yè)務(wù)場(chǎng)景中（很多公司對實(shí)時(shí)性有很強的需求）
　　1. 實(shí)時(shí)數據訪(fǎng)問(wèn)共6個(gè)數據源
　　2. 由于剛剛訪(fǎng)問(wèn)的日均數據量約為160萬(wàn)，當前攝取的數據量約為400萬(wàn)
　　以往的文章直通車(chē)（鏈接地址這里就不貼了，可以百度搜索）
　　1. 插件編寫(xiě)——Flume海量數據實(shí)時(shí)數據轉換
　　2.回顧-Flume+Kafka實(shí)時(shí)數據采集
　　3.Kafka實(shí)時(shí)流式數據接入-吐血梳理與實(shí)踐-Druid實(shí)時(shí)數據分析
　　4. 實(shí)時(shí)數據分析 Druid - 環(huán)境部署&試用
　　好了，以上就是簡(jiǎn)單的介紹，我們來(lái)說(shuō)說(shuō)今天的話(huà)題。
　　一. 為什么要做實(shí)時(shí)流數據分析？
　　以前不太喜歡碰數據，但總覺(jué)得沒(méi)什么用。只有當我因為工作原因觸及數據的門(mén)檻時(shí)，我才知道數據的重要性。
　　通常我們根據過(guò)去的經(jīng)驗做出決定。俗話(huà)說(shuō)“做這個(gè)應該沒(méi)問(wèn)題”，但沒(méi)有數據支持往往不夠準確，大概率會(huì )出現問(wèn)題，所以我們要從【經(jīng)驗決策】走向【真實(shí)-時(shí)間數據驅動(dòng)的決策]，使所有行動(dòng)都以數據為事實(shí)。
　　
　　二. 整體架構流程及分解
　　首先介紹一下我要解決的需求和痛點(diǎn)：
　　1. 實(shí)時(shí)流式數據攝取、顯示圖表、導出實(shí)時(shí)報告
　　2. 分析以往報告，90% 數據匯總，無(wú)需詳細數據
　　根據上面的分析，選擇了olap，最終選擇了Apache Druid。
　　什么是阿帕奇德魯伊
　　Druid 是一個(gè)分布式數據處理系統，支持實(shí)時(shí)多維 OLAP 分析。它既支持高速實(shí)時(shí)數據攝取處理，又支持實(shí)時(shí)靈活的多維數據分析查詢(xún)。因此，Druid 最常用的場(chǎng)景是大數據背景下靈活快速的多維 OLAP 分析。此外，Druid 有一個(gè)關(guān)鍵特性：支持基于時(shí)間戳的數據預聚合攝取和聚合分析，因此一些用戶(hù)經(jīng)常在有時(shí)序數據處理和分析的場(chǎng)景中使用它。
　　為什么來(lái)自 Druid 的亞秒級響應的交互式查詢(xún)支持更高的并發(fā)性。支持實(shí)時(shí)導入，導入可查詢(xún)，支持高并發(fā)導入。使用分布式無(wú)共享架構，它可以擴展到 PB 級別。支持聚合函數、count 和 sum，以及使用 javascript 實(shí)現自定義 UDF。支持復雜的聚合器，用于近似查詢(xún)的聚合器，例如 HyperLoglog 和 6. 雅虎的開(kāi)源 DataSketches。支持 Groupby、Select、Search 查詢(xún)。不支持大表之間的join，但是它的lookup功能滿(mǎn)足Join with dimension tables。（最新版本0.18已經(jīng)支持Join，具體性能有待測試）架構
　　
　　需求分析和核心引擎選型基本完成。先說(shuō)一下整體架構
　　建筑設計的三個(gè)原則
　　適應原理簡(jiǎn)單原理進(jìn)化原理
　　選擇合適的架構，切記不要過(guò)度設計，過(guò)度設計未必實(shí)用。
　　架構圖
　　
　　結構意圖
　　
　　實(shí)時(shí)計算分析如何形成數據閉環(huán)，以下三點(diǎn)最重要
　　1. 數據清洗改造：需要通過(guò)一定的規則和規范，保證業(yè)務(wù)方傳輸的數據實(shí)時(shí)清洗改造或建模
　　2. 實(shí)時(shí)計算引擎：OLAP在線(xiàn)分析引擎選型
　　3.離線(xiàn)存儲：深度存儲，保證實(shí)時(shí)OLAP性能，也可作為日常數據容災
　　
　　三、踩坑及解決方法
　　由于第一次接觸數據分析相關(guān)的場(chǎng)景，很多工具和知識都是從零開(kāi)始的。我知道我應該盡快補足功課，尤其是實(shí)時(shí)場(chǎng)景應用。
　　由于缺乏知識，在整體架構的構建和開(kāi)發(fā)過(guò)程中存在許多問(wèn)題。讓我用圖形的方式解釋一下，這樣就不會(huì )有學(xué)生對實(shí)時(shí)流數據不熟悉了。
　　數據清洗和轉換
　　訪(fǎng)問(wèn)標準和規范非常重要。由于業(yè)務(wù)方數量眾多，只要有標準的切割方法，每個(gè)業(yè)務(wù)方的日志規格很可能不一致（我們的工具不能要求業(yè)務(wù)方修改大量的日志規格）。
　　在這種情況下，我們可以梳理出兩種業(yè)務(wù)業(yè)態(tài)：
　　1. 文本 -> Json
　　原始日志
2019-02-11 19:03:30.123|INFO|1.0|10.10.10.10|push-service|trace_id:0001|msg:錯誤信息|token:abcd
清洗后
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
　　Json 結構 A -> Json 結構 B
　　原始日志 -> Json結構A
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
清洗、轉換后
{"ts—time":"2020-05-07 16:29:05", "errLevel": "INFO"}
　　最終統一輸出JSON（標準化輸入輸出）
　　流程圖
　　
　　以上是標準的整體流程，為此我開(kāi)發(fā)了兩個(gè)Flume插件
　　1. 文本 -> Json 插件
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=***.flume.textToJson.TextToJsonBuilder
a1.sources.r1.interceptors.i1.textToJson={"times":"#0", "errLevel": "#1", "version":"#2" , "ip":"#3", "service-name":"#4", "trace_id": "#5","msg": "#6"}
a1.sources.r1.interceptors.i1.separator=\\,
　　Json 結構 A -> Json 結構 B
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=flume.***.StringTransJsonBuilder
a1.sources.r1.interceptors.i1.template={"scid":"data.data.data.scid","tpc":"data.data.tpc", "did": "data.data.did"}
a1.sources.r1.interceptors.i1.where={"key1":"value1", "data.key2":"value2"}
a1.sources.r1.interceptors.i1.addheader=comment
　　上述過(guò)程沒(méi)有任何問(wèn)題。. . 但問(wèn)題來(lái)了。
　　由于我們是消費者業(yè)務(wù)端Kafka Topics，所以有這樣一種場(chǎng)景，所有業(yè)務(wù)方都將數據放到一個(gè)大topic中，我們需要對數據進(jìn)行清洗轉換成我們需要的數據源。見(jiàn)下圖：
　　
　　在上圖的攔截器部分，接收到的主題數據必須經(jīng)過(guò)攔截器的清洗和轉換。由于業(yè)務(wù)topic有10個(gè)partition，如果我們啟動(dòng)一個(gè)Flume NG去消費，就會(huì )造成數據的積壓。. .
　　1. 業(yè)務(wù)主題有10個(gè)分區，單個(gè)Flume NG進(jìn)程可以理解為1個(gè)分區。. . 嚴重不足
　　2. 測試結果從業(yè)務(wù)端接收數據7小時(shí)，數據實(shí)際清洗2小時(shí)，數據繼續被擠壓
　　對應解決方案：
　　1. 啟動(dòng) 10 個(gè) Flume 進(jìn)程，相當于 10 個(gè) Topic 分區，但這會(huì )消耗資源。. .
　　2. Python 進(jìn)行數據清理和轉換。
　　Flume NG 在內部為我們做了很多高可用。高可靠性保證，有限的資源只能暫時(shí)放棄這個(gè)計劃。
　　所以選擇了方案2，放棄了高可用和高可靠，但是最終的結果還是很不錯的，用Python的消費速度是10個(gè)Flume NG的兩倍。
　　結論：我們自己處理ETL，短期內是可行的，但長(cháng)期來(lái)看還是要選擇工具來(lái)處理。畢竟已經(jīng)為我們準備了很多保障（要想做好工作，就必須先利好工具）。這句話(huà)不無(wú)道理。
　　目前遇到的最大困難是清洗和轉換。其他的小坑在之前的文章里已經(jīng)寫(xiě)過(guò)了，大家可以搜索一下。
　　阿帕奇德魯伊
　　我使用最新版本的 0.18。該版本官方公告已宣布加入支持，但尚未進(jìn)行測試。
　　該工具已經(jīng)使用了一個(gè)多月，到目前為止它看起來(lái)很完美。
　　待續
　　很高興這個(gè)項目能邁出一小步，我們的架構還要迭代開(kāi)發(fā)，以后會(huì )繼續更新這個(gè)系列文章哈哈
　　特別感謝老板給我機會(huì )開(kāi)發(fā)這個(gè)項目。. . 給我機會(huì )從我的工作中成長(cháng) 查看全部

　　文章實(shí)時(shí)采集(1.實(shí)時(shí)數據采集3.Kafka實(shí)時(shí)流數據接入-吐血梳理)
　　各位朋友您好，我最近寫(xiě)了幾篇關(guān)于實(shí)時(shí)數據分析的文章文章，都是基于當時(shí)的問(wèn)題分析。今天打開(kāi)這篇文章文章是因為實(shí)時(shí)分析工具已經(jīng)實(shí)現了從0到1的業(yè)務(wù)數據對接，如果任何工具或功能不能與業(yè)務(wù)融合，那它所做的一切都是無(wú)用的，無(wú)法體現它的價(jià)值。所有的痛點(diǎn)和解決方案也來(lái)自于業(yè)務(wù)的使用。
　　這個(gè)文章我就不講怎么選型號了，因為網(wǎng)上有很多類(lèi)似的文章，只要細心就能找到，但不管是什么型號選擇，重點(diǎn)是“行業(yè)研究”，防止錯誤選擇。我一般會(huì )根據以下三大前提來(lái)選款（以下陳述純屬個(gè)人觀(guān)點(diǎn)，如有不妥請在下方評論）
　　有很多公司在使用它，并且有很好的數據顯示開(kāi)源軟件。關(guān)注社區情況。最近有沒(méi)有繼續迭代，防止自己進(jìn)入深坑？最重要的是有沒(méi)有和你類(lèi)似的場(chǎng)景，你用過(guò)你要使用的工具。方便技術(shù)咨詢(xún)
　　行業(yè)研究，行業(yè)研究，行業(yè)研究重要的事情說(shuō)三遍
　　實(shí)時(shí)數據分析目前主要應用在業(yè)務(wù)場(chǎng)景中（很多公司對實(shí)時(shí)性有很強的需求）
　　1. 實(shí)時(shí)數據訪(fǎng)問(wèn)共6個(gè)數據源
　　2. 由于剛剛訪(fǎng)問(wèn)的日均數據量約為160萬(wàn)，當前攝取的數據量約為400萬(wàn)
　　以往的文章直通車(chē)（鏈接地址這里就不貼了，可以百度搜索）
　　1. 插件編寫(xiě)——Flume海量數據實(shí)時(shí)數據轉換
　　2.回顧-Flume+Kafka實(shí)時(shí)數據采集
　　3.Kafka實(shí)時(shí)流式數據接入-吐血梳理與實(shí)踐-Druid實(shí)時(shí)數據分析
　　4. 實(shí)時(shí)數據分析 Druid - 環(huán)境部署&試用
　　好了，以上就是簡(jiǎn)單的介紹，我們來(lái)說(shuō)說(shuō)今天的話(huà)題。
　　一. 為什么要做實(shí)時(shí)流數據分析？
　　以前不太喜歡碰數據，但總覺(jué)得沒(méi)什么用。只有當我因為工作原因觸及數據的門(mén)檻時(shí)，我才知道數據的重要性。
　　通常我們根據過(guò)去的經(jīng)驗做出決定。俗話(huà)說(shuō)“做這個(gè)應該沒(méi)問(wèn)題”，但沒(méi)有數據支持往往不夠準確，大概率會(huì )出現問(wèn)題，所以我們要從【經(jīng)驗決策】走向【真實(shí)-時(shí)間數據驅動(dòng)的決策]，使所有行動(dòng)都以數據為事實(shí)。
　　

　　二. 整體架構流程及分解
　　首先介紹一下我要解決的需求和痛點(diǎn)：
　　1. 實(shí)時(shí)流式數據攝取、顯示圖表、導出實(shí)時(shí)報告
　　2. 分析以往報告，90% 數據匯總，無(wú)需詳細數據
　　根據上面的分析，選擇了olap，最終選擇了Apache Druid。
　　什么是阿帕奇德魯伊
　　Druid 是一個(gè)分布式數據處理系統，支持實(shí)時(shí)多維 OLAP 分析。它既支持高速實(shí)時(shí)數據攝取處理，又支持實(shí)時(shí)靈活的多維數據分析查詢(xún)。因此，Druid 最常用的場(chǎng)景是大數據背景下靈活快速的多維 OLAP 分析。此外，Druid 有一個(gè)關(guān)鍵特性：支持基于時(shí)間戳的數據預聚合攝取和聚合分析，因此一些用戶(hù)經(jīng)常在有時(shí)序數據處理和分析的場(chǎng)景中使用它。
　　為什么來(lái)自 Druid 的亞秒級響應的交互式查詢(xún)支持更高的并發(fā)性。支持實(shí)時(shí)導入，導入可查詢(xún)，支持高并發(fā)導入。使用分布式無(wú)共享架構，它可以擴展到 PB 級別。支持聚合函數、count 和 sum，以及使用 javascript 實(shí)現自定義 UDF。支持復雜的聚合器，用于近似查詢(xún)的聚合器，例如 HyperLoglog 和 6. 雅虎的開(kāi)源 DataSketches。支持 Groupby、Select、Search 查詢(xún)。不支持大表之間的join，但是它的lookup功能滿(mǎn)足Join with dimension tables。（最新版本0.18已經(jīng)支持Join，具體性能有待測試）架構
　　

　　需求分析和核心引擎選型基本完成。先說(shuō)一下整體架構
　　建筑設計的三個(gè)原則
　　適應原理簡(jiǎn)單原理進(jìn)化原理
　　選擇合適的架構，切記不要過(guò)度設計，過(guò)度設計未必實(shí)用。
　　架構圖
　　

　　結構意圖
　　

　　實(shí)時(shí)計算分析如何形成數據閉環(huán)，以下三點(diǎn)最重要
　　1. 數據清洗改造：需要通過(guò)一定的規則和規范，保證業(yè)務(wù)方傳輸的數據實(shí)時(shí)清洗改造或建模
　　2. 實(shí)時(shí)計算引擎：OLAP在線(xiàn)分析引擎選型
　　3.離線(xiàn)存儲：深度存儲，保證實(shí)時(shí)OLAP性能，也可作為日常數據容災
　　

　　三、踩坑及解決方法
　　由于第一次接觸數據分析相關(guān)的場(chǎng)景，很多工具和知識都是從零開(kāi)始的。我知道我應該盡快補足功課，尤其是實(shí)時(shí)場(chǎng)景應用。
　　由于缺乏知識，在整體架構的構建和開(kāi)發(fā)過(guò)程中存在許多問(wèn)題。讓我用圖形的方式解釋一下，這樣就不會(huì )有學(xué)生對實(shí)時(shí)流數據不熟悉了。
　　數據清洗和轉換
　　訪(fǎng)問(wèn)標準和規范非常重要。由于業(yè)務(wù)方數量眾多，只要有標準的切割方法，每個(gè)業(yè)務(wù)方的日志規格很可能不一致（我們的工具不能要求業(yè)務(wù)方修改大量的日志規格）。
　　在這種情況下，我們可以梳理出兩種業(yè)務(wù)業(yè)態(tài)：
　　1. 文本 -> Json
　　原始日志
2019-02-11 19:03:30.123|INFO|1.0|10.10.10.10|push-service|trace_id:0001|msg:錯誤信息|token:abcd
清洗后
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
　　Json 結構 A -> Json 結構 B
　　原始日志 -> Json結構A
{"ts":"2020-05-07 16:29:05","times":"2019-02-11 19:03:30.123", "errLevel": "INFO", "version":"1.0" , "ip":"10.10.10.10", "service-name":"push-service", "trace_id": "trace_id:0001","msg": "msg:錯誤信息"}
清洗、轉換后
{"ts—time":"2020-05-07 16:29:05", "errLevel": "INFO"}
　　最終統一輸出JSON（標準化輸入輸出）
　　流程圖
　　

　　以上是標準的整體流程，為此我開(kāi)發(fā)了兩個(gè)Flume插件
　　1. 文本 -> Json 插件
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=***.flume.textToJson.TextToJsonBuilder
a1.sources.r1.interceptors.i1.textToJson={"times":"#0", "errLevel": "#1", "version":"#2" , "ip":"#3", "service-name":"#4", "trace_id": "#5","msg": "#6"}
a1.sources.r1.interceptors.i1.separator=\\,
　　Json 結構 A -> Json 結構 B
　　a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=flume.***.StringTransJsonBuilder
a1.sources.r1.interceptors.i1.template={"scid":"data.data.data.scid","tpc":"data.data.tpc", "did": "data.data.did"}
a1.sources.r1.interceptors.i1.where={"key1":"value1", "data.key2":"value2"}
a1.sources.r1.interceptors.i1.addheader=comment
　　上述過(guò)程沒(méi)有任何問(wèn)題。. . 但問(wèn)題來(lái)了。
　　由于我們是消費者業(yè)務(wù)端Kafka Topics，所以有這樣一種場(chǎng)景，所有業(yè)務(wù)方都將數據放到一個(gè)大topic中，我們需要對數據進(jìn)行清洗轉換成我們需要的數據源。見(jiàn)下圖：
　　

　　在上圖的攔截器部分，接收到的主題數據必須經(jīng)過(guò)攔截器的清洗和轉換。由于業(yè)務(wù)topic有10個(gè)partition，如果我們啟動(dòng)一個(gè)Flume NG去消費，就會(huì )造成數據的積壓。. .
　　1. 業(yè)務(wù)主題有10個(gè)分區，單個(gè)Flume NG進(jìn)程可以理解為1個(gè)分區。. . 嚴重不足
　　2. 測試結果從業(yè)務(wù)端接收數據7小時(shí)，數據實(shí)際清洗2小時(shí)，數據繼續被擠壓
　　對應解決方案：
　　1. 啟動(dòng) 10 個(gè) Flume 進(jìn)程，相當于 10 個(gè) Topic 分區，但這會(huì )消耗資源。. .
　　2. Python 進(jìn)行數據清理和轉換。
　　Flume NG 在內部為我們做了很多高可用。高可靠性保證，有限的資源只能暫時(shí)放棄這個(gè)計劃。
　　所以選擇了方案2，放棄了高可用和高可靠，但是最終的結果還是很不錯的，用Python的消費速度是10個(gè)Flume NG的兩倍。
　　結論：我們自己處理ETL，短期內是可行的，但長(cháng)期來(lái)看還是要選擇工具來(lái)處理。畢竟已經(jīng)為我們準備了很多保障（要想做好工作，就必須先利好工具）。這句話(huà)不無(wú)道理。
　　目前遇到的最大困難是清洗和轉換。其他的小坑在之前的文章里已經(jīng)寫(xiě)過(guò)了，大家可以搜索一下。
　　阿帕奇德魯伊
　　我使用最新版本的 0.18。該版本官方公告已宣布加入支持，但尚未進(jìn)行測試。
　　該工具已經(jīng)使用了一個(gè)多月，到目前為止它看起來(lái)很完美。
　　待續
　　很高興這個(gè)項目能邁出一小步，我們的架構還要迭代開(kāi)發(fā)，以后會(huì )繼續更新這個(gè)系列文章哈哈
　　特別感謝老板給我機會(huì )開(kāi)發(fā)這個(gè)項目。. . 給我機會(huì )從我的工作中成長(cháng)

文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2022-04-18 10:46 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　正好這個(gè)時(shí)候在研究Xposed Hook微信，所以打算試試安卓版的微信。需求是什么？也就是微信推送一條公眾號消息，我們接受一條，發(fā)送到對應界面保存，方便后續瀏覽。剛要去做的時(shí)候，覺(jué)得難度不大。直接下去下載微信數據庫里的東西就行了。然而，這太簡(jiǎn)單了，好吧。
　　
　　天真.jpg
　　幼稚的?。?！
　　微信數據表“消息”中導出的數據是一堆亂碼，解析出來(lái)的網(wǎng)址不全。比如五篇文章文章一次推送只能獲取三篇文章的url，這讓人很不舒服。
　　
　　圖像.png
　　但是苦就是苦，問(wèn)題還是要解決的。如何解決？看源代碼！
　　之前我把微信的幾個(gè)dex包的代碼反編譯了放在一個(gè)文件夾里，然后用VSCode打開(kāi)，日常查看。
　　微信反編譯出來(lái)的源碼雖然亂七八糟，但還是能看懂一些代碼。
　　我們看到上面導出的數據有一些亂碼，估計微信實(shí)現了解碼工具。如果能hook這個(gè)解碼工具，解碼后能得到正確的數據嗎？
　　說(shuō)到解碼，根據微信之前的數據傳輸，這些數據很可能是以XML格式傳輸的。由于涉及到 XML，所以它必須是鍵值對的形式。除了我們要去的數據之外，還有一堆看起來(lái)很有用的小方塊和諸如“.msg.appmsg.mmreader.category.item”之類(lèi)的東西。
　　我打開(kāi) vscode 并在全球范圍內搜索“.msg.appmsg.mmreader.category.item”。令人高興的是，結果并不多，這意味著(zhù)這個(gè)值確實(shí)是一個(gè)有意義的值。一一檢查這些源代碼。一個(gè)包是："
　　com.tencent.mm.plugin.biz;”我在一個(gè)名為“a”的類(lèi)中發(fā)現了一些有趣的東西。
　　
　　圖像.png
　　該方法是一個(gè)名為 ws 的方法，它接收一個(gè) String 類(lèi)型的值，并在內部進(jìn)行一些數據獲取工作。
　　這個(gè) str 參數可以是我想要的標準 xml 嗎？
　　經(jīng)過(guò)hook驗證，打印其參數后，發(fā)現不是，參數內容的格式與之前數據庫中的格式一致。
　　
　　圖像.png
　　然后我們將重點(diǎn)放在第一行的地圖上。ay.WA(String str) 方法做解析操作嗎？
　　我在 com.tencent.mm.sdk.platformtools.ay 中鉤住了 WA() 方法來(lái)獲取它的返回值，這是一個(gè) Map 類(lèi)型的數據。打印出它的內容后，我的猜測得到了驗證。
　　WA() 方法將剛才的內容解析成一個(gè)便于我們閱讀的地圖。包括推送收錄的圖文消息數量，以及公眾號的id、名稱(chēng)、對應的文章url、圖片url、文章描述等信息。
　　我終于可以在晚餐時(shí)加雞腿了。啊哈哈哈。
　　此文章僅供研究學(xué)習，請妥善食用，謝謝。
　　粘貼相關(guān)的鉤子代碼
　　
　　圖像.png 查看全部

　　文章實(shí)時(shí)采集(微信公眾號采集工具被封號，需求是怎么樣的呢？)
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　由于之前基于itchat開(kāi)發(fā)的微信公眾號采集工具使用的賬號被封禁，非常郁悶。
　　正好這個(gè)時(shí)候在研究Xposed Hook微信，所以打算試試安卓版的微信。需求是什么？也就是微信推送一條公眾號消息，我們接受一條，發(fā)送到對應界面保存，方便后續瀏覽。剛要去做的時(shí)候，覺(jué)得難度不大。直接下去下載微信數據庫里的東西就行了。然而，這太簡(jiǎn)單了，好吧。
　　

　　天真.jpg
　　幼稚的?。?！
　　微信數據表“消息”中導出的數據是一堆亂碼，解析出來(lái)的網(wǎng)址不全。比如五篇文章文章一次推送只能獲取三篇文章的url，這讓人很不舒服。
　　

　　圖像.png
　　但是苦就是苦，問(wèn)題還是要解決的。如何解決？看源代碼！
　　之前我把微信的幾個(gè)dex包的代碼反編譯了放在一個(gè)文件夾里，然后用VSCode打開(kāi)，日常查看。
　　微信反編譯出來(lái)的源碼雖然亂七八糟，但還是能看懂一些代碼。
　　我們看到上面導出的數據有一些亂碼，估計微信實(shí)現了解碼工具。如果能hook這個(gè)解碼工具，解碼后能得到正確的數據嗎？
　　說(shuō)到解碼，根據微信之前的數據傳輸，這些數據很可能是以XML格式傳輸的。由于涉及到 XML，所以它必須是鍵值對的形式。除了我們要去的數據之外，還有一堆看起來(lái)很有用的小方塊和諸如“.msg.appmsg.mmreader.category.item”之類(lèi)的東西。
　　我打開(kāi) vscode 并在全球范圍內搜索“.msg.appmsg.mmreader.category.item”。令人高興的是，結果并不多，這意味著(zhù)這個(gè)值確實(shí)是一個(gè)有意義的值。一一檢查這些源代碼。一個(gè)包是："
　　com.tencent.mm.plugin.biz;”我在一個(gè)名為“a”的類(lèi)中發(fā)現了一些有趣的東西。
　　

　　圖像.png
　　該方法是一個(gè)名為 ws 的方法，它接收一個(gè) String 類(lèi)型的值，并在內部進(jìn)行一些數據獲取工作。
　　這個(gè) str 參數可以是我想要的標準 xml 嗎？
　　經(jīng)過(guò)hook驗證，打印其參數后，發(fā)現不是，參數內容的格式與之前數據庫中的格式一致。
　　

　　圖像.png
　　然后我們將重點(diǎn)放在第一行的地圖上。ay.WA(String str) 方法做解析操作嗎？
　　我在 com.tencent.mm.sdk.platformtools.ay 中鉤住了 WA() 方法來(lái)獲取它的返回值，這是一個(gè) Map 類(lèi)型的數據。打印出它的內容后，我的猜測得到了驗證。
　　WA() 方法將剛才的內容解析成一個(gè)便于我們閱讀的地圖。包括推送收錄的圖文消息數量，以及公眾號的id、名稱(chēng)、對應的文章url、圖片url、文章描述等信息。
　　我終于可以在晚餐時(shí)加雞腿了。啊哈哈哈。
　　此文章僅供研究學(xué)習，請妥善食用，謝謝。
　　粘貼相關(guān)的鉤子代碼
　　

　　圖像.png

文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-04-14 06:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)
　　文章實(shí)時(shí)采集來(lái)源主要有兩個(gè)，一個(gè)是攝像頭采集，另一個(gè)是環(huán)境光采集，前者只需要被采集設備支持，后者則是需要捕捉設備支持。由于攝像頭比較遠且存在額外的攝像頭延遲，因此雖然采集方式非常簡(jiǎn)單，但是其成本并不高。而環(huán)境光則需要攝像頭配合相應的燈光系統才能達到類(lèi)似的效果。不過(guò)后者自然需要采集設備支持skylake，這樣才能獲得完整的snapdragon660環(huán)境光采集能力，否則不管怎么采集實(shí)際效果都還是差不多，畢竟snapdragon670都不支持環(huán)境光采集，采集設備更不用說(shuō)了。
　　三星在這方面做得不錯，smartshader，自己要動(dòng)手。
　　目前能實(shí)現只需要snapdragon660，
　　cannonworksyogaflex的ai芯片。目前應該還不是cpu核，是ppu核。
　　小米的ai管家和物聯(lián)網(wǎng)的iot
　　屏攝，這個(gè)效果確實(shí)不錯。
　　完全不用圖像處理app，
　　要是支持環(huán)境光的話(huà)，把手機屏幕放在側面，角度調到最小，然后拿書(shū)遮擋光線(xiàn)，我還可以看到書(shū)的細節，
　　沒(méi)有的，
　　emmm我們實(shí)驗室有一個(gè)只有一寸屏幕的看片機，
　　說(shuō)的就是華為的ai手機
　　這個(gè)必須得跟頂級的才行，不然只是拿小米的ai做噱頭，畢竟這玩意就是個(gè)噱頭，噱頭之一。另外發(fā)射的激光不是用gps的那個(gè)uwb還是什么我也不知道。查看全部

　　文章實(shí)時(shí)采集(不用圖像處理app，snapdragon670不支持環(huán)境光采集)
　　文章實(shí)時(shí)采集來(lái)源主要有兩個(gè)，一個(gè)是攝像頭采集，另一個(gè)是環(huán)境光采集，前者只需要被采集設備支持，后者則是需要捕捉設備支持。由于攝像頭比較遠且存在額外的攝像頭延遲，因此雖然采集方式非常簡(jiǎn)單，但是其成本并不高。而環(huán)境光則需要攝像頭配合相應的燈光系統才能達到類(lèi)似的效果。不過(guò)后者自然需要采集設備支持skylake，這樣才能獲得完整的snapdragon660環(huán)境光采集能力，否則不管怎么采集實(shí)際效果都還是差不多，畢竟snapdragon670都不支持環(huán)境光采集，采集設備更不用說(shuō)了。
　　三星在這方面做得不錯，smartshader，自己要動(dòng)手。
　　目前能實(shí)現只需要snapdragon660，
　　cannonworksyogaflex的ai芯片。目前應該還不是cpu核，是ppu核。
　　小米的ai管家和物聯(lián)網(wǎng)的iot
　　屏攝，這個(gè)效果確實(shí)不錯。
　　完全不用圖像處理app，
　　要是支持環(huán)境光的話(huà)，把手機屏幕放在側面，角度調到最小，然后拿書(shū)遮擋光線(xiàn)，我還可以看到書(shū)的細節，
　　沒(méi)有的，
　　emmm我們實(shí)驗室有一個(gè)只有一寸屏幕的看片機，
　　說(shuō)的就是華為的ai手機
　　這個(gè)必須得跟頂級的才行，不然只是拿小米的ai做噱頭，畢竟這玩意就是個(gè)噱頭，噱頭之一。另外發(fā)射的激光不是用gps的那個(gè)uwb還是什么我也不知道。

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-04-14 03:04 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)
　　文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化根據算法聚類(lèi)用戶(hù)畫(huà)像，聯(lián)合文章或推薦廣告找到需要觸達的精準人群。
　　沒(méi)有說(shuō)法。直接在聚類(lèi)中得到返回結果。
　　在通過(guò)文章分類(lèi)、物品分類(lèi)聚類(lèi)后做推薦。文章分類(lèi)有建庫、top5聚類(lèi)等，物品分類(lèi)還可以根據某些數據來(lái)聚類(lèi)，比如上下架，時(shí)間，文章數量等。
　　在推薦系統中直接獲取文章/物品信息并進(jìn)行聚類(lèi)聚是文章/物品聚類(lèi)是topic聚類(lèi)直接獲取推薦的結果是在推薦過(guò)程中由應用提供的。
　　聚類(lèi)聚是物品
　　聚類(lèi)算法通?；谖锲返膶傩曰蛘呶锲纷陨淼奶卣?，
　　可以聚類(lèi)，但是歸類(lèi)不一定必要，看你的目的是什么。大類(lèi)聚是離推薦系統更近一點(diǎn)，最終聚不聚得到就看你本身的keyitem了。另外如果聚類(lèi)算法不夠成熟或者數據不好，再優(yōu)質(zhì)的歸類(lèi)成果也很可能在推薦中失效。
　　新品的聚類(lèi)，根據目標用戶(hù)和內容相似度算法聚類(lèi)。
　　聚成什么樣的類(lèi)是個(gè)很重要的指標來(lái)衡量推薦成功與否，常見(jiàn)的有csi，kbs，mls等等，
　　聚類(lèi)這種問(wèn)題，直接從推薦系統得到返回結果就好了，目前的推薦算法里面，同類(lèi)里面會(huì )同一類(lèi)的同質(zhì)化，不同類(lèi)里面，
　　kblinking可以參考一下
　　四級跳也沒(méi)說(shuō)法?？梢圆捎胐eepneuralmodel去聚類(lèi)。更好的聚類(lèi)方法通常有聚類(lèi)相似度、聚類(lèi)特征等不同的方法。聚類(lèi)目標一般是用戶(hù)標簽，也可以用行為標簽，你還可以去看看各種協(xié)同過(guò)濾的方法。謝謝邀請。查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化)
　　文章實(shí)時(shí)采集返回的四級跳。數據與視頻相似度歸一化根據算法聚類(lèi)用戶(hù)畫(huà)像，聯(lián)合文章或推薦廣告找到需要觸達的精準人群。
　　沒(méi)有說(shuō)法。直接在聚類(lèi)中得到返回結果。
　　在通過(guò)文章分類(lèi)、物品分類(lèi)聚類(lèi)后做推薦。文章分類(lèi)有建庫、top5聚類(lèi)等，物品分類(lèi)還可以根據某些數據來(lái)聚類(lèi)，比如上下架，時(shí)間，文章數量等。
　　在推薦系統中直接獲取文章/物品信息并進(jìn)行聚類(lèi)聚是文章/物品聚類(lèi)是topic聚類(lèi)直接獲取推薦的結果是在推薦過(guò)程中由應用提供的。
　　聚類(lèi)聚是物品
　　聚類(lèi)算法通?；谖锲返膶傩曰蛘呶锲纷陨淼奶卣?，
　　可以聚類(lèi)，但是歸類(lèi)不一定必要，看你的目的是什么。大類(lèi)聚是離推薦系統更近一點(diǎn)，最終聚不聚得到就看你本身的keyitem了。另外如果聚類(lèi)算法不夠成熟或者數據不好，再優(yōu)質(zhì)的歸類(lèi)成果也很可能在推薦中失效。
　　新品的聚類(lèi)，根據目標用戶(hù)和內容相似度算法聚類(lèi)。
　　聚成什么樣的類(lèi)是個(gè)很重要的指標來(lái)衡量推薦成功與否，常見(jiàn)的有csi，kbs，mls等等，
　　聚類(lèi)這種問(wèn)題，直接從推薦系統得到返回結果就好了，目前的推薦算法里面，同類(lèi)里面會(huì )同一類(lèi)的同質(zhì)化，不同類(lèi)里面，
　　kblinking可以參考一下
　　四級跳也沒(méi)說(shuō)法?？梢圆捎胐eepneuralmodel去聚類(lèi)。更好的聚類(lèi)方法通常有聚類(lèi)相似度、聚類(lèi)特征等不同的方法。聚類(lèi)目標一般是用戶(hù)標簽，也可以用行為標簽，你還可以去看看各種協(xié)同過(guò)濾的方法。謝謝邀請。

文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-04-11 13:15 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)
　　建站容易，推廣難。采集文章對于做優(yōu)化的人來(lái)說(shuō)，這是家常便飯。尤其是當站群猖獗的時(shí)候，采集網(wǎng)站隨處可見(jiàn)，都是為了SEO和SEO。但是，這類(lèi)采集網(wǎng)站往往權重很高，因為目前即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別出文章的來(lái)源。
　　
　　采集的文章偽原創(chuàng )怎么處理，網(wǎng)上有很多處理方法，不過(guò)還是要分享一下紅塵的資源。
　　1、修改標題：首先修改標題。標題不是隨意修改的。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。中文字的組合博大精深，換題就會(huì )多樣化。標題必須收錄關(guān)鍵字，收錄關(guān)鍵詞的標題長(cháng)度適中
　　2、內容修改：用戶(hù)體驗好，SEO好。對用戶(hù)感覺(jué)良好的搜索引擎當然也喜歡它。所以在改變文章的時(shí)候，也要站在用戶(hù)的角度去想，他想從這個(gè)文章中得到什么樣的信息。其次，至少要在內容中修改第一段和最后一段，因為這也是站長(cháng)認為蜘蛛抓取的位置，盡量區分其他文章。
　　注意：如果內容有品牌字，必須更換。
　　3、從采集改進(jìn)文章、文章的質(zhì)量，如果改進(jìn)這個(gè)文章，增強美感，優(yōu)化布局，出錯等（比如錯字的修改），是不是改善了文章？自然，搜索引擎中的分數也會(huì )提高。具體可以考慮這些。例如，添加圖片、適當的注釋和引用權威來(lái)源都有助于采集內容的質(zhì)量。
　　采集他的立場(chǎng)上的一些筆記
　　1、選擇與您網(wǎng)站主題相匹配的內容；采集內容格式盡量統一，保持專(zhuān)業(yè)；
　　2、采集的文章一次不要發(fā)太多。保持每天10篇左右，長(cháng)期發(fā)表。查看全部

　　文章實(shí)時(shí)采集(在建站容易推廣難，采集文章如何偽原創(chuàng )處理？)
　　建站容易，推廣難。采集文章對于做優(yōu)化的人來(lái)說(shuō)，這是家常便飯。尤其是當站群猖獗的時(shí)候，采集網(wǎng)站隨處可見(jiàn)，都是為了SEO和SEO。但是，這類(lèi)采集網(wǎng)站往往權重很高，因為目前即使是像原創(chuàng )這樣的搜索引擎也無(wú)法完全識別出文章的來(lái)源。
　　

　　采集的文章偽原創(chuàng )怎么處理，網(wǎng)上有很多處理方法，不過(guò)還是要分享一下紅塵的資源。
　　1、修改標題：首先修改標題。標題不是隨意修改的。它必須遵循用戶(hù)的搜索行為并符合全文內容中心。中文字的組合博大精深，換題就會(huì )多樣化。標題必須收錄關(guān)鍵字，收錄關(guān)鍵詞的標題長(cháng)度適中
　　2、內容修改：用戶(hù)體驗好，SEO好。對用戶(hù)感覺(jué)良好的搜索引擎當然也喜歡它。所以在改變文章的時(shí)候，也要站在用戶(hù)的角度去想，他想從這個(gè)文章中得到什么樣的信息。其次，至少要在內容中修改第一段和最后一段，因為這也是站長(cháng)認為蜘蛛抓取的位置，盡量區分其他文章。
　　注意：如果內容有品牌字，必須更換。
　　3、從采集改進(jìn)文章、文章的質(zhì)量，如果改進(jìn)這個(gè)文章，增強美感，優(yōu)化布局，出錯等（比如錯字的修改），是不是改善了文章？自然，搜索引擎中的分數也會(huì )提高。具體可以考慮這些。例如，添加圖片、適當的注釋和引用權威來(lái)源都有助于采集內容的質(zhì)量。
　　采集他的立場(chǎng)上的一些筆記
　　1、選擇與您網(wǎng)站主題相匹配的內容；采集內容格式盡量統一，保持專(zhuān)業(yè)；
　　2、采集的文章一次不要發(fā)太多。保持每天10篇左右，長(cháng)期發(fā)表。

文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 160 次瀏覽 ? 2022-04-10 07:26 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)
　　背景
　　“我要外賣(mài)”是一個(gè)平臺型電商網(wǎng)站，涉及用戶(hù)、餐廳、外賣(mài)員等，用戶(hù)可以在網(wǎng)頁(yè)、APP、微信、支付寶等平臺下單，商家拿到后訂單，它開(kāi)始處理并自動(dòng)通知周?chē)目爝f員?？爝f員將食物交付給用戶(hù)。
　　
　　操作要求
　　在運行過(guò)程中，發(fā)現了以下問(wèn)題：
　　數據采集難點(diǎn)
　　在數據操作過(guò)程中，第一步是如何集中采集分散的日志數據，會(huì )遇到以下挑戰：
　　我們需要采集外部和內部的日志并統一管理。過(guò)去，這塊需要大量的工作和不同種類(lèi)的工作，但現在可以通過(guò) LogHub采集功能完成統一訪(fǎng)問(wèn)。
　　
　　統一的日志管理、配置、創(chuàng )建和管理日志項，如myorder。為不同數據源生成的日志創(chuàng )建日志存儲。例如，如果您需要對原創(chuàng )數據進(jìn)行清理和ETL，您可以創(chuàng )建一些中間結果Logstore。用戶(hù)提升日志采集
　　獲取新用戶(hù)一般有兩種方式：
　　實(shí)施方法
　　定義如下注冊服務(wù)器地址，生成二維碼（宣傳單、網(wǎng)頁(yè)）供用戶(hù)注冊和掃描。當用戶(hù)掃描這個(gè)頁(yè)面進(jìn)行注冊時(shí)，他們可以知道用戶(hù)是通過(guò)特定的來(lái)源進(jìn)入的，并記錄了一個(gè)日志。
　　http://example.com/login?source=10012&ref=kd4b
　　當服務(wù)器接受請求時(shí)，服務(wù)器會(huì )輸出以下日志：
　　2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
　　在：
　　采集方式：
　　服務(wù)器數據采集
　　支付寶和微信公眾號編程是典型的網(wǎng)頁(yè)端模式，日志一般分為三種：
　　實(shí)現方式終端用戶(hù)登錄訪(fǎng)問(wèn)網(wǎng)頁(yè)/手機頁(yè)面的用戶(hù)行為
　　頁(yè)面用戶(hù)行為采集可以分為兩類(lèi)：
　　實(shí)現方法服務(wù)器日志運維
　　例如：
　　實(shí)施方法
　　參考服務(wù)器采集方法。
　　不同網(wǎng)絡(luò )環(huán)境下的數據采集
　　LogHub在每個(gè)Region都提供接入點(diǎn)，每個(gè)Region提供三種接入方式：查看全部

　　文章實(shí)時(shí)采集(我要點(diǎn)外賣(mài)-數據采集難點(diǎn)日志)
　　背景
　　“我要外賣(mài)”是一個(gè)平臺型電商網(wǎng)站，涉及用戶(hù)、餐廳、外賣(mài)員等，用戶(hù)可以在網(wǎng)頁(yè)、APP、微信、支付寶等平臺下單，商家拿到后訂單，它開(kāi)始處理并自動(dòng)通知周?chē)目爝f員?？爝f員將食物交付給用戶(hù)。
　　

　　操作要求
　　在運行過(guò)程中，發(fā)現了以下問(wèn)題：
　　數據采集難點(diǎn)
　　在數據操作過(guò)程中，第一步是如何集中采集分散的日志數據，會(huì )遇到以下挑戰：
　　我們需要采集外部和內部的日志并統一管理。過(guò)去，這塊需要大量的工作和不同種類(lèi)的工作，但現在可以通過(guò) LogHub采集功能完成統一訪(fǎng)問(wèn)。
　　

　　統一的日志管理、配置、創(chuàng )建和管理日志項，如myorder。為不同數據源生成的日志創(chuàng )建日志存儲。例如，如果您需要對原創(chuàng )數據進(jìn)行清理和ETL，您可以創(chuàng )建一些中間結果Logstore。用戶(hù)提升日志采集
　　獲取新用戶(hù)一般有兩種方式：
　　實(shí)施方法
　　定義如下注冊服務(wù)器地址，生成二維碼（宣傳單、網(wǎng)頁(yè)）供用戶(hù)注冊和掃描。當用戶(hù)掃描這個(gè)頁(yè)面進(jìn)行注冊時(shí)，他們可以知道用戶(hù)是通過(guò)特定的來(lái)源進(jìn)入的，并記錄了一個(gè)日志。
　　http://example.com/login?source=10012&ref=kd4b
　　當服務(wù)器接受請求時(shí)，服務(wù)器會(huì )輸出以下日志：
　　2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
　　在：
　　采集方式：
　　服務(wù)器數據采集
　　支付寶和微信公眾號編程是典型的網(wǎng)頁(yè)端模式，日志一般分為三種：
　　實(shí)現方式終端用戶(hù)登錄訪(fǎng)問(wèn)網(wǎng)頁(yè)/手機頁(yè)面的用戶(hù)行為
　　頁(yè)面用戶(hù)行為采集可以分為兩類(lèi)：
　　實(shí)現方法服務(wù)器日志運維
　　例如：
　　實(shí)施方法
　　參考服務(wù)器采集方法。
　　不同網(wǎng)絡(luò )環(huán)境下的數據采集
　　LogHub在每個(gè)Region都提供接入點(diǎn)，每個(gè)Region提供三種接入方式：

文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-04-08 01:14 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)
　　如何使用文章采集工具對新的網(wǎng)站快速收錄和關(guān)鍵詞進(jìn)行排名。SEO優(yōu)化已經(jīng)是企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的手段之一，但是在企業(yè)SEO優(yōu)化的過(guò)程中，也存在搜索引擎不是收錄的情況。提問(wèn)后總結了幾個(gè)方法和經(jīng)驗，在此分享給各位新手站長(cháng)，讓新上線(xiàn)的網(wǎng)站可以讓搜索引擎收錄在短時(shí)間內獲得不錯的排名盡快。下面就教大家如何在SEO優(yōu)化中快速提升網(wǎng)站收錄。
　　一、網(wǎng)站在SEO優(yōu)化過(guò)程中，在新站上線(xiàn)初期，每天都要定期更新內容。第一次發(fā)射是在評估期間。該評估期為 1 個(gè)月至 3 個(gè)月不等。最快的時(shí)間是半個(gè)月左右才能拿到一個(gè)好的排名。因此，在剛進(jìn)入考核期時(shí)，應加大力度。做好內容的更新，讓搜索引擎在前期對我們的網(wǎng)站有很好的印象，這樣我們以后可以更好的提高網(wǎng)站的權重，打下堅實(shí)的基礎。
　　二、A網(wǎng)站更新頻率越高，搜索引擎蜘蛛來(lái)的頻率越高。因此，我們可以利用文章采集工具實(shí)現采集偽原創(chuàng )自動(dòng)發(fā)布和主動(dòng)推送到搜索引擎，提高搜索引擎的抓取頻率。本文章采集工具操作簡(jiǎn)單，無(wú)需學(xué)習專(zhuān)業(yè)技術(shù)，只需簡(jiǎn)單幾步即可輕松采集內容數據，用戶(hù)只需對< @文章采集tool ，該工具會(huì )根據用戶(hù)設置的關(guān)鍵詞accurate采集文章，保證與行業(yè)一致文章。采集中的采集文章可以選擇將修改后的內容保存到本地，
　　與其他文章采集工具相比，這個(gè)工具使用起來(lái)非常簡(jiǎn)單，只需輸入關(guān)鍵詞即可實(shí)現采集（文章采集工具配備了關(guān)鍵詞采集功能）。只需設置任務(wù)，全程自動(dòng)掛機！
　　不管你有成百上千個(gè)不同的cms網(wǎng)站都可以實(shí)現統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　最重要的是這個(gè)文章采集工具有很多SEO功能，不僅可以提升網(wǎng)站的收錄，還可以增加網(wǎng)站的密度@關(guān)鍵詞提高網(wǎng)站排名。
　　1、網(wǎng)站主動(dòng)推送（讓搜索引擎更快發(fā)現我們的網(wǎng)站）
　　2、自動(dòng)匹配圖片（文章如果內容中沒(méi)有圖片，會(huì )自動(dòng)配置相關(guān)圖片）設置自動(dòng)下載圖片保存在本地或第三方（這樣內容會(huì )不再有對方的外部鏈接）。
　　3、自動(dòng)內部鏈接（讓搜索引擎更深入地抓取您的鏈接）
　　4、在內容或標題前后插入段落或關(guān)鍵詞（可選擇將標題和標題插入同一個(gè)關(guān)鍵詞）
　　5、網(wǎng)站內容插入或隨機作者、隨機閱讀等變成“高度原創(chuàng )”。
<p>6、相關(guān)性?xún)?yōu)化（關(guān)鍵詞出現在正文中，正文第一段自動(dòng)插入到title標題中。當描述相關(guān)性低時(shí)，當前的采集查看全部

　　文章實(shí)時(shí)采集(怎么用文章采集工具讓新網(wǎng)站快速收錄以及關(guān)鍵詞排名)
　　如何使用文章采集工具對新的網(wǎng)站快速收錄和關(guān)鍵詞進(jìn)行排名。SEO優(yōu)化已經(jīng)是企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的手段之一，但是在企業(yè)SEO優(yōu)化的過(guò)程中，也存在搜索引擎不是收錄的情況。提問(wèn)后總結了幾個(gè)方法和經(jīng)驗，在此分享給各位新手站長(cháng)，讓新上線(xiàn)的網(wǎng)站可以讓搜索引擎收錄在短時(shí)間內獲得不錯的排名盡快。下面就教大家如何在SEO優(yōu)化中快速提升網(wǎng)站收錄。
　　一、網(wǎng)站在SEO優(yōu)化過(guò)程中，在新站上線(xiàn)初期，每天都要定期更新內容。第一次發(fā)射是在評估期間。該評估期為 1 個(gè)月至 3 個(gè)月不等。最快的時(shí)間是半個(gè)月左右才能拿到一個(gè)好的排名。因此，在剛進(jìn)入考核期時(shí)，應加大力度。做好內容的更新，讓搜索引擎在前期對我們的網(wǎng)站有很好的印象，這樣我們以后可以更好的提高網(wǎng)站的權重，打下堅實(shí)的基礎。
　　二、A網(wǎng)站更新頻率越高，搜索引擎蜘蛛來(lái)的頻率越高。因此，我們可以利用文章采集工具實(shí)現采集偽原創(chuàng )自動(dòng)發(fā)布和主動(dòng)推送到搜索引擎，提高搜索引擎的抓取頻率。本文章采集工具操作簡(jiǎn)單，無(wú)需學(xué)習專(zhuān)業(yè)技術(shù)，只需簡(jiǎn)單幾步即可輕松采集內容數據，用戶(hù)只需對< @文章采集tool ，該工具會(huì )根據用戶(hù)設置的關(guān)鍵詞accurate采集文章，保證與行業(yè)一致文章。采集中的采集文章可以選擇將修改后的內容保存到本地，
　　與其他文章采集工具相比，這個(gè)工具使用起來(lái)非常簡(jiǎn)單，只需輸入關(guān)鍵詞即可實(shí)現采集（文章采集工具配備了關(guān)鍵詞采集功能）。只需設置任務(wù)，全程自動(dòng)掛機！
　　不管你有成百上千個(gè)不同的cms網(wǎng)站都可以實(shí)現統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　最重要的是這個(gè)文章采集工具有很多SEO功能，不僅可以提升網(wǎng)站的收錄，還可以增加網(wǎng)站的密度@關(guān)鍵詞提高網(wǎng)站排名。
　　1、網(wǎng)站主動(dòng)推送（讓搜索引擎更快發(fā)現我們的網(wǎng)站）
　　2、自動(dòng)匹配圖片（文章如果內容中沒(méi)有圖片，會(huì )自動(dòng)配置相關(guān)圖片）設置自動(dòng)下載圖片保存在本地或第三方（這樣內容會(huì )不再有對方的外部鏈接）。
　　3、自動(dòng)內部鏈接（讓搜索引擎更深入地抓取您的鏈接）
　　4、在內容或標題前后插入段落或關(guān)鍵詞（可選擇將標題和標題插入同一個(gè)關(guān)鍵詞）
　　5、網(wǎng)站內容插入或隨機作者、隨機閱讀等變成“高度原創(chuàng )”。
<p>6、相關(guān)性?xún)?yōu)化（關(guān)鍵詞出現在正文中，正文第一段自動(dòng)插入到title標題中。當描述相關(guān)性低時(shí)，當前的采集

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 148 次瀏覽 ? 2022-04-08 00:07 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))
　　文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析文章講述的是如何將采集點(diǎn)設計與實(shí)現的，從采集的輸入、處理等方面來(lái)分析flutterui控件設計與實(shí)現，從而總結出來(lái)不同采集對應的flutterui控件庫，提供給用戶(hù)使用的參考。原文鏈接：實(shí)時(shí)采集flutterui控件設計與實(shí)現分析_flutter設計與實(shí)現_雷鋒網(wǎng)。
　　全面分析flutter控件設計與實(shí)現
　　再整理一下，flutter控件設計入門(mén)與實(shí)現，
　　flutter源碼入門(mén)教程，主要是對現有的一些工具類(lèi)、繪制接口進(jìn)行了整理。
　　gitlab
　　flutter全面分析
　　flutter項目中存在哪些遺留問(wèn)題？
　　全面的flutter
　　daydreamer全面進(jìn)階
　　flutter官方github
　　daydreamer基礎版已經(jīng)出來(lái)了
　　貌似flutterscript3.0已經(jīng)很接近了，版本3.0新增了4個(gè)工具，如：go語(yǔ)言、quantumlifies和fuserace。
　　daydreamer進(jìn)階
　　flutter特性篇
　　flutter源碼分析
　　雷鋒網(wǎng)
　　首發(fā)于雷鋒網(wǎng)_專(zhuān)業(yè)的iot產(chǎn)品與服務(wù)媒體(二維碼自動(dòng)識別)
　　daydreamer
　　全面的flutter設計與實(shí)現！需要的話(huà)可以推薦你下雷鋒網(wǎng)的文章
　　我很喜歡雷鋒網(wǎng)雷鋒網(wǎng)旗下文章。
　　個(gè)人文章，如果侵權請告知。
　　flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道
　　fluttercookbook
　　flutter開(kāi)發(fā)者平臺fluttercookbook 查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析(組圖))
　　文章實(shí)時(shí)采集flutterui控件設計與實(shí)現分析文章講述的是如何將采集點(diǎn)設計與實(shí)現的，從采集的輸入、處理等方面來(lái)分析flutterui控件設計與實(shí)現，從而總結出來(lái)不同采集對應的flutterui控件庫，提供給用戶(hù)使用的參考。原文鏈接：實(shí)時(shí)采集flutterui控件設計與實(shí)現分析_flutter設計與實(shí)現_雷鋒網(wǎng)。
　　全面分析flutter控件設計與實(shí)現
　　再整理一下，flutter控件設計入門(mén)與實(shí)現，
　　flutter源碼入門(mén)教程，主要是對現有的一些工具類(lèi)、繪制接口進(jìn)行了整理。
　　gitlab
　　flutter全面分析
　　flutter項目中存在哪些遺留問(wèn)題？
　　全面的flutter
　　daydreamer全面進(jìn)階
　　flutter官方github
　　daydreamer基礎版已經(jīng)出來(lái)了
　　貌似flutterscript3.0已經(jīng)很接近了，版本3.0新增了4個(gè)工具，如：go語(yǔ)言、quantumlifies和fuserace。
　　daydreamer進(jìn)階
　　flutter特性篇
　　flutter源碼分析
　　雷鋒網(wǎng)
　　首發(fā)于雷鋒網(wǎng)_專(zhuān)業(yè)的iot產(chǎn)品與服務(wù)媒體(二維碼自動(dòng)識別)
　　daydreamer
　　全面的flutter設計與實(shí)現！需要的話(huà)可以推薦你下雷鋒網(wǎng)的文章
　　我很喜歡雷鋒網(wǎng)雷鋒網(wǎng)旗下文章。
　　個(gè)人文章，如果侵權請告知。
　　flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道flutter開(kāi)發(fā)與規范之道
　　fluttercookbook
　　flutter開(kāi)發(fā)者平臺fluttercookbook

文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-04-04 18:00 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))
　　1. 早期實(shí)時(shí)計算
　　實(shí)時(shí)計算雖然是近幾年才流行起來(lái)，早期有一些公司有實(shí)時(shí)計算的需求，但是數據量比較小，實(shí)時(shí)無(wú)法形成完整的系統，而且基本上都是發(fā)展是具體問(wèn)題的具體分析。，來(lái)個(gè)要求做一個(gè)，基本不考慮它們之間的關(guān)系，開(kāi)發(fā)形式如下：
　　
　　如上圖所示，拿到數據源后，會(huì )通過(guò)Flink進(jìn)行數據清洗、維度擴展、業(yè)務(wù)邏輯處理，最后直接進(jìn)行業(yè)務(wù)輸出。拆開(kāi)這個(gè)環(huán)節，數據源會(huì )重復引用同一個(gè)數據源，清洗、過(guò)濾、擴維等操作必須重復進(jìn)行。唯一不同的是業(yè)務(wù)的代碼邏輯不同。
　　隨著(zhù)產(chǎn)品和業(yè)務(wù)人員對實(shí)時(shí)數據的需求不斷增加，這種開(kāi)發(fā)模式也出現了越來(lái)越多的問(wèn)題：
　　數據指標越來(lái)越多，“煙囪式”開(kāi)發(fā)導致嚴重的代碼耦合問(wèn)題。
　　需求越來(lái)越多，有的需要詳細的數據，有的需要OLAP分析。單一的開(kāi)發(fā)模式難以應對多種需求。
　　資源必須針對每個(gè)需求進(jìn)行申請，導致資源成本快速膨脹，資源無(wú)法集約有效利用。
　　缺乏復雜的監控系統來(lái)在問(wèn)題影響業(yè)務(wù)之前檢測和修復問(wèn)題。
　　從實(shí)時(shí)數倉的發(fā)展和問(wèn)題來(lái)看，它與離線(xiàn)數倉非常相似。后期數據量大之后，出現了各種問(wèn)題。當時(shí)離線(xiàn)數倉是如何解決的？離線(xiàn)數倉通過(guò)分層架構將數據解耦，多個(gè)業(yè)務(wù)可以共享數據。實(shí)時(shí)數據倉庫也可以使用分層架構嗎？當然可以，但是細節和離線(xiàn)分層還是有一些區別的，后面會(huì )講到。
　　2. 實(shí)時(shí)倉庫搭建
　　在方法論方面，實(shí)時(shí)和離線(xiàn)非常相似。在離線(xiàn)數倉的前期，也詳細分析了具體問(wèn)題。當數據規模增長(cháng)到一定數量時(shí)，將考慮如何管理它。分層是一種非常有效的數據治理方式，所以在談到如何管理實(shí)時(shí)數倉時(shí)，首先要考慮的是分層的處理邏輯。
　　實(shí)時(shí)數據倉庫的架構如下：
　　
　　從上圖中，我們詳細分析每一層的作用：
　　我們可以看到，實(shí)時(shí)數倉和離線(xiàn)數倉的層級非常相似，比如數據源層、明細層、匯總層，甚至應用層，它們的命名模式可能是相同的。但不難發(fā)現，兩者有很多不同之處：
　　3. Lambda架構的實(shí)時(shí)數倉
　　Lambda 和 Kappa 架構的概念在上一篇文章中已經(jīng)解釋過(guò)了。不明白的可以點(diǎn)擊鏈接：一篇了解大數據實(shí)時(shí)計算的文章
　　下圖展示了基于 Flink 和 Kafka 的 Lambda 架構的具體實(shí)踐。上層為實(shí)時(shí)計算，下層為離線(xiàn)計算，橫向以計算引擎劃分，縱向以實(shí)時(shí)數倉劃分：
　　Lambda架構是比較經(jīng)典的架構。過(guò)去實(shí)時(shí)場(chǎng)景不多，主要是線(xiàn)下。加入實(shí)時(shí)場(chǎng)景后，由于離線(xiàn)和實(shí)時(shí)的時(shí)效性不同，技術(shù)生態(tài)也不同。Lambda架構相當于附加了一個(gè)實(shí)時(shí)生產(chǎn)環(huán)節，在應用層面集成，雙向生產(chǎn)，各自獨立。這也是在業(yè)務(wù)應用程序中使用它的一種合乎邏輯的方式。
　　雙通道生產(chǎn)會(huì )出現一些問(wèn)題，比如雙處理邏輯、雙開(kāi)發(fā)和運維，資源也將成為兩個(gè)資源環(huán)節。由于上述問(wèn)題，演變出一種 Kappa 架構。
　　4. Kappa架構的實(shí)時(shí)數倉
　　Kappa架構相當于去掉了離線(xiàn)計算部分的Lambda架構，如下圖所示：
　　
　　Kappa架構在架構設計方面比較簡(jiǎn)單，在生產(chǎn)上是統一的，有一套離線(xiàn)和實(shí)時(shí)生產(chǎn)的邏輯。但是在實(shí)際應用場(chǎng)景中存在比較大的局限性，因為同一張表的實(shí)時(shí)數據會(huì )以不同的方式存儲，導致關(guān)聯(lián)時(shí)需要跨數據源，對數據的操作有很大的局限性，所以它直接在行業(yè)中。用Kappa架構制作和落地的案例很少，場(chǎng)景比較簡(jiǎn)單。
　　關(guān)于Kappa架構，熟悉實(shí)時(shí)數倉制作的同學(xué)可能會(huì )有疑問(wèn)。因為我們經(jīng)常面臨業(yè)務(wù)變化，很多業(yè)務(wù)邏輯需要迭代。如果之前產(chǎn)生的一些數據的口徑發(fā)生了變化，就需要重新計算，甚至歷史數據都會(huì )被改寫(xiě)。對于實(shí)時(shí)數倉，如何解決數據重新計算的問(wèn)題？
　　這部分Kappa架構的思路是：首先準備一個(gè)可以存儲歷史數據的消息隊列，比如Kafka，這個(gè)消息隊列可以支持你從某個(gè)歷史節點(diǎn)重啟消費。那么就需要啟動(dòng)一個(gè)新任務(wù)，從更早的時(shí)間節點(diǎn)消費Kafka上的數據，然后當新任務(wù)的進(jìn)度可以和當前正在運行的任務(wù)相等時(shí)，就可以將任務(wù)的下游切換到新任務(wù)，可以停止舊任務(wù)，也可以刪除原來(lái)的結果表。
　　5. 流批結合的實(shí)時(shí)數倉
　　隨著(zhù)實(shí)時(shí)OLAP技術(shù)的發(fā)展，Doris、Presto等開(kāi)源OLAP引擎的性能和易用性有了很大的提升。再加上數據湖技術(shù)的飛速發(fā)展，流和批的結合變得簡(jiǎn)單。
　　下圖是結合流批的實(shí)時(shí)數倉：
　　
　　數據從日志采集統一到消息隊列，再到實(shí)時(shí)數倉?；A數據流的構建是統一的。之后，對于日志實(shí)時(shí)特性，實(shí)時(shí)大屏應用使用實(shí)時(shí)流計算。實(shí)時(shí)OLAP批處理用于Binlog業(yè)務(wù)分析。
　　我們看到，上述架構的流批組合方式和存儲方式都發(fā)生了變化?？ǚ蚩ū槐饺〈?。Iceberg是上層計算引擎和底層存儲格式之間的中間層。我們可以把它定義成“數據組織格式”，而底層存儲還是HDFS，那為什么還要加一個(gè)中間層，還不如把對流和批處理結合起來(lái)呢？Iceberg 的 ACID 能力可以簡(jiǎn)化整個(gè)流水線(xiàn)的設計，降低整個(gè)流水線(xiàn)的延遲，其修改和刪除能力可以有效降低開(kāi)銷(xiāo)，提高效率。Iceberg可以有效支持批量高吞吐數據掃描和分區粒度的流計算并發(fā)實(shí)時(shí)處理。查看全部

　　文章實(shí)時(shí)采集(實(shí)時(shí)數倉的開(kāi)發(fā)模式與離線(xiàn)分層的處理邏輯(組圖))
　　1. 早期實(shí)時(shí)計算
　　實(shí)時(shí)計算雖然是近幾年才流行起來(lái)，早期有一些公司有實(shí)時(shí)計算的需求，但是數據量比較小，實(shí)時(shí)無(wú)法形成完整的系統，而且基本上都是發(fā)展是具體問(wèn)題的具體分析。，來(lái)個(gè)要求做一個(gè)，基本不考慮它們之間的關(guān)系，開(kāi)發(fā)形式如下：
　　

　　如上圖所示，拿到數據源后，會(huì )通過(guò)Flink進(jìn)行數據清洗、維度擴展、業(yè)務(wù)邏輯處理，最后直接進(jìn)行業(yè)務(wù)輸出。拆開(kāi)這個(gè)環(huán)節，數據源會(huì )重復引用同一個(gè)數據源，清洗、過(guò)濾、擴維等操作必須重復進(jìn)行。唯一不同的是業(yè)務(wù)的代碼邏輯不同。
　　隨著(zhù)產(chǎn)品和業(yè)務(wù)人員對實(shí)時(shí)數據的需求不斷增加，這種開(kāi)發(fā)模式也出現了越來(lái)越多的問(wèn)題：
　　數據指標越來(lái)越多，“煙囪式”開(kāi)發(fā)導致嚴重的代碼耦合問(wèn)題。
　　需求越來(lái)越多，有的需要詳細的數據，有的需要OLAP分析。單一的開(kāi)發(fā)模式難以應對多種需求。
　　資源必須針對每個(gè)需求進(jìn)行申請，導致資源成本快速膨脹，資源無(wú)法集約有效利用。
　　缺乏復雜的監控系統來(lái)在問(wèn)題影響業(yè)務(wù)之前檢測和修復問(wèn)題。
　　從實(shí)時(shí)數倉的發(fā)展和問(wèn)題來(lái)看，它與離線(xiàn)數倉非常相似。后期數據量大之后，出現了各種問(wèn)題。當時(shí)離線(xiàn)數倉是如何解決的？離線(xiàn)數倉通過(guò)分層架構將數據解耦，多個(gè)業(yè)務(wù)可以共享數據。實(shí)時(shí)數據倉庫也可以使用分層架構嗎？當然可以，但是細節和離線(xiàn)分層還是有一些區別的，后面會(huì )講到。
　　2. 實(shí)時(shí)倉庫搭建
　　在方法論方面，實(shí)時(shí)和離線(xiàn)非常相似。在離線(xiàn)數倉的前期，也詳細分析了具體問(wèn)題。當數據規模增長(cháng)到一定數量時(shí)，將考慮如何管理它。分層是一種非常有效的數據治理方式，所以在談到如何管理實(shí)時(shí)數倉時(shí)，首先要考慮的是分層的處理邏輯。
　　實(shí)時(shí)數據倉庫的架構如下：
　　

　　從上圖中，我們詳細分析每一層的作用：
　　我們可以看到，實(shí)時(shí)數倉和離線(xiàn)數倉的層級非常相似，比如數據源層、明細層、匯總層，甚至應用層，它們的命名模式可能是相同的。但不難發(fā)現，兩者有很多不同之處：
　　3. Lambda架構的實(shí)時(shí)數倉
　　Lambda 和 Kappa 架構的概念在上一篇文章中已經(jīng)解釋過(guò)了。不明白的可以點(diǎn)擊鏈接：一篇了解大數據實(shí)時(shí)計算的文章
　　下圖展示了基于 Flink 和 Kafka 的 Lambda 架構的具體實(shí)踐。上層為實(shí)時(shí)計算，下層為離線(xiàn)計算，橫向以計算引擎劃分，縱向以實(shí)時(shí)數倉劃分：
　　Lambda架構是比較經(jīng)典的架構。過(guò)去實(shí)時(shí)場(chǎng)景不多，主要是線(xiàn)下。加入實(shí)時(shí)場(chǎng)景后，由于離線(xiàn)和實(shí)時(shí)的時(shí)效性不同，技術(shù)生態(tài)也不同。Lambda架構相當于附加了一個(gè)實(shí)時(shí)生產(chǎn)環(huán)節，在應用層面集成，雙向生產(chǎn)，各自獨立。這也是在業(yè)務(wù)應用程序中使用它的一種合乎邏輯的方式。
　　雙通道生產(chǎn)會(huì )出現一些問(wèn)題，比如雙處理邏輯、雙開(kāi)發(fā)和運維，資源也將成為兩個(gè)資源環(huán)節。由于上述問(wèn)題，演變出一種 Kappa 架構。
　　4. Kappa架構的實(shí)時(shí)數倉
　　Kappa架構相當于去掉了離線(xiàn)計算部分的Lambda架構，如下圖所示：
　　

　　Kappa架構在架構設計方面比較簡(jiǎn)單，在生產(chǎn)上是統一的，有一套離線(xiàn)和實(shí)時(shí)生產(chǎn)的邏輯。但是在實(shí)際應用場(chǎng)景中存在比較大的局限性，因為同一張表的實(shí)時(shí)數據會(huì )以不同的方式存儲，導致關(guān)聯(lián)時(shí)需要跨數據源，對數據的操作有很大的局限性，所以它直接在行業(yè)中。用Kappa架構制作和落地的案例很少，場(chǎng)景比較簡(jiǎn)單。
　　關(guān)于Kappa架構，熟悉實(shí)時(shí)數倉制作的同學(xué)可能會(huì )有疑問(wèn)。因為我們經(jīng)常面臨業(yè)務(wù)變化，很多業(yè)務(wù)邏輯需要迭代。如果之前產(chǎn)生的一些數據的口徑發(fā)生了變化，就需要重新計算，甚至歷史數據都會(huì )被改寫(xiě)。對于實(shí)時(shí)數倉，如何解決數據重新計算的問(wèn)題？
　　這部分Kappa架構的思路是：首先準備一個(gè)可以存儲歷史數據的消息隊列，比如Kafka，這個(gè)消息隊列可以支持你從某個(gè)歷史節點(diǎn)重啟消費。那么就需要啟動(dòng)一個(gè)新任務(wù)，從更早的時(shí)間節點(diǎn)消費Kafka上的數據，然后當新任務(wù)的進(jìn)度可以和當前正在運行的任務(wù)相等時(shí)，就可以將任務(wù)的下游切換到新任務(wù)，可以停止舊任務(wù)，也可以刪除原來(lái)的結果表。
　　5. 流批結合的實(shí)時(shí)數倉
　　隨著(zhù)實(shí)時(shí)OLAP技術(shù)的發(fā)展，Doris、Presto等開(kāi)源OLAP引擎的性能和易用性有了很大的提升。再加上數據湖技術(shù)的飛速發(fā)展，流和批的結合變得簡(jiǎn)單。
　　下圖是結合流批的實(shí)時(shí)數倉：
　　

　　數據從日志采集統一到消息隊列，再到實(shí)時(shí)數倉?；A數據流的構建是統一的。之后，對于日志實(shí)時(shí)特性，實(shí)時(shí)大屏應用使用實(shí)時(shí)流計算。實(shí)時(shí)OLAP批處理用于Binlog業(yè)務(wù)分析。
　　我們看到，上述架構的流批組合方式和存儲方式都發(fā)生了變化?？ǚ蚩ū槐饺〈?。Iceberg是上層計算引擎和底層存儲格式之間的中間層。我們可以把它定義成“數據組織格式”，而底層存儲還是HDFS，那為什么還要加一個(gè)中間層，還不如把對流和批處理結合起來(lái)呢？Iceberg 的 ACID 能力可以簡(jiǎn)化整個(gè)流水線(xiàn)的設計，降低整個(gè)流水線(xiàn)的延遲，其修改和刪除能力可以有效降低開(kāi)銷(xiāo)，提高效率。Iceberg可以有效支持批量高吞吐數據掃描和分區粒度的流計算并發(fā)實(shí)時(shí)處理。

文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2022-04-04 10:01 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)
　　文章實(shí)時(shí)采集頭像，微信頭像，視頻頭像，ppt頭像，桌面整體調整（微信發(fā)圖片過(guò)來(lái)后再調整），word，excel制作發(fā)文字，按照首字拼音排序視頻圖片調用的是錄屏的方式實(shí)現的一、發(fā)送文字，實(shí)現一句話(huà)，首字母串出來(lái)二、多圖合并，一次成型，
　　可以用word去合并一張圖，
　　大概有這么幾個(gè)步驟吧,1.手機的傳圖功能中,一鍵傳圖,找到要截取的圖片,就可以了2.根據需要，
　　發(fā)圖片：html+xml+json+svg
　　wind里直接獲取圖片的二維碼，
　　拼圖
　　百度：標注自己想要哪些特征，做成字典。
　　word可以很方便的插入圖片
　　微軟的office可以做圖片水印，最麻煩的是如果要用微軟自己開(kāi)發(fā)的產(chǎn)品，要用專(zhuān)門(mén)的文件軟件。
　　印象筆記可以看見(jiàn)自己所以的筆記。本地可以保存是word的圖片。
　　百度上的圖片轉word就可以了
　　,可以把制作好的圖片轉換成word.
　　有大把，
　　直接貼就可以了，
　　dropbox。微軟office里自帶拼圖功能，內嵌的應該也行。
　　現有的軟件都不行，需要編程實(shí)現。查看全部

　　文章實(shí)時(shí)采集(百度上的圖片轉word，可以用word去合并一張圖)
　　文章實(shí)時(shí)采集頭像，微信頭像，視頻頭像，ppt頭像，桌面整體調整（微信發(fā)圖片過(guò)來(lái)后再調整），word，excel制作發(fā)文字，按照首字拼音排序視頻圖片調用的是錄屏的方式實(shí)現的一、發(fā)送文字，實(shí)現一句話(huà)，首字母串出來(lái)二、多圖合并，一次成型，
　　可以用word去合并一張圖，
　　大概有這么幾個(gè)步驟吧,1.手機的傳圖功能中,一鍵傳圖,找到要截取的圖片,就可以了2.根據需要，
　　發(fā)圖片：html+xml+json+svg
　　wind里直接獲取圖片的二維碼，
　　拼圖
　　百度：標注自己想要哪些特征，做成字典。
　　word可以很方便的插入圖片
　　微軟的office可以做圖片水印，最麻煩的是如果要用微軟自己開(kāi)發(fā)的產(chǎn)品，要用專(zhuān)門(mén)的文件軟件。
　　印象筆記可以看見(jiàn)自己所以的筆記。本地可以保存是word的圖片。
　　百度上的圖片轉word就可以了
　　,可以把制作好的圖片轉換成word.
　　有大把，
　　直接貼就可以了，
　　dropbox。微軟office里自帶拼圖功能，內嵌的應該也行。
　　現有的軟件都不行，需要編程實(shí)現。

文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 139 次瀏覽 ? 2022-04-02 23:03 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)
　　文章實(shí)時(shí)采集：迅捷科技圖片轉文字：拼圖片，文字也能轉啦，有啥好玩的軟件？今天給大家分享一款easytext插件，可以將現有的文字轉換成圖片的形式，并保存到本地。文字轉換成圖片：acdsee也能夠轉換，但是要手動(dòng)點(diǎn)。
　　renzo好玩不復雜親測有效效果：打字比刷網(wǎng)頁(yè)有效
　　掃描全能王，
　　拼圖工具美圖秀秀
　　拼圖神器|fotopix有上百張圖片可以任意拼接
　　這個(gè)需要的比較多，具體的實(shí)用可以看下面的文章?？炊@篇文章，或許下面要做的事情，你都能夠做出來(lái)！很多人手機拼圖軟件上搜索拼圖，卻又很難找到所需的，
　　熊貓看圖，
　　ocam真的可以試一下
　　pngimg
　　最近發(fā)現一個(gè)強大的搜索引擎：素材id
　　圖蟲(chóng)搜索
　　復制需要的圖片再搜索
　　以上都是百度經(jīng)驗內容，
　　adobeai-search
　　可以試一下chrome自帶的圖床瀏覽器，以圖搜圖，
　　1.圖文搜索——海盜灣[圖片]2.畫(huà)圖搜索——qq、迅雷3.各種翻墻軟件4.自己創(chuàng )建本地文件夾——現在新建文件夾比之前要方便很多
　　搞了點(diǎn)谷歌翻譯和谷歌圖片引擎，
　　1.photoshopcc2017基本上可以滿(mǎn)足，翻譯、批量下載、英文名。（覺(jué)得用的不爽的圖片換成英文名重命名）2.百度識圖還是需要一點(diǎn)點(diǎn)英文基礎，建議多在線(xiàn)瀏覽看一下，還要知道一下作者。具體方法可以百度搜圖導航即可。3.圖騰不錯，最近百度云有補丁更新，但是百度的搜索功能不多。推薦pt站——360百科詞條“圖騰文化”，電腦版用translator。
　　4.愛(ài)圖悅3.x強大，照片自動(dòng)摳圖，把圖拼成文字。windows系統，手機app可以下載。5.114圖片搜索也是不錯的，支持主題搜索，但是速度上比不上圖片搜索。6.搜狗圖片瀏覽器安卓7.x不錯，支持手動(dòng)翻譯。7.uc圖片搜索多數人用圖片搜索，不喜歡搜狗，不敢多做評價(jià)。8.百度美圖13.x帶了好多預覽功能，手機端可以找。9.還有搜索引擎，基本上是收費的，但是也不貴，可以考慮下。10.相冊云盤(pán)試試吧。查看全部

　　文章實(shí)時(shí)采集(文章實(shí)時(shí)采集：拼圖片，文字也能轉啦，有啥好玩的軟件？)
　　文章實(shí)時(shí)采集：迅捷科技圖片轉文字：拼圖片，文字也能轉啦，有啥好玩的軟件？今天給大家分享一款easytext插件，可以將現有的文字轉換成圖片的形式，并保存到本地。文字轉換成圖片：acdsee也能夠轉換，但是要手動(dòng)點(diǎn)。
　　renzo好玩不復雜親測有效效果：打字比刷網(wǎng)頁(yè)有效
　　掃描全能王，
　　拼圖工具美圖秀秀
　　拼圖神器|fotopix有上百張圖片可以任意拼接
　　這個(gè)需要的比較多，具體的實(shí)用可以看下面的文章?？炊@篇文章，或許下面要做的事情，你都能夠做出來(lái)！很多人手機拼圖軟件上搜索拼圖，卻又很難找到所需的，
　　熊貓看圖，
　　ocam真的可以試一下
　　pngimg
　　最近發(fā)現一個(gè)強大的搜索引擎：素材id
　　圖蟲(chóng)搜索
　　復制需要的圖片再搜索
　　以上都是百度經(jīng)驗內容，
　　adobeai-search
　　可以試一下chrome自帶的圖床瀏覽器，以圖搜圖，
　　1.圖文搜索——海盜灣[圖片]2.畫(huà)圖搜索——qq、迅雷3.各種翻墻軟件4.自己創(chuàng )建本地文件夾——現在新建文件夾比之前要方便很多
　　搞了點(diǎn)谷歌翻譯和谷歌圖片引擎，
　　1.photoshopcc2017基本上可以滿(mǎn)足，翻譯、批量下載、英文名。（覺(jué)得用的不爽的圖片換成英文名重命名）2.百度識圖還是需要一點(diǎn)點(diǎn)英文基礎，建議多在線(xiàn)瀏覽看一下，還要知道一下作者。具體方法可以百度搜圖導航即可。3.圖騰不錯，最近百度云有補丁更新，但是百度的搜索功能不多。推薦pt站——360百科詞條“圖騰文化”，電腦版用translator。
　　4.愛(ài)圖悅3.x強大，照片自動(dòng)摳圖，把圖拼成文字。windows系統，手機app可以下載。5.114圖片搜索也是不錯的，支持主題搜索，但是速度上比不上圖片搜索。6.搜狗圖片瀏覽器安卓7.x不錯，支持手動(dòng)翻譯。7.uc圖片搜索多數人用圖片搜索，不喜歡搜狗，不敢多做評價(jià)。8.百度美圖13.x帶了好多預覽功能，手機端可以找。9.還有搜索引擎，基本上是收費的，但是也不貴，可以考慮下。10.相冊云盤(pán)試試吧。

文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-04-02 00:06 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)
　　文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。發(fā)表于deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。
　　deepin在本地搭建的voip網(wǎng)絡(luò )框架，主要用到兩個(gè)服務(wù)：java虛擬機中windows32通訊網(wǎng)絡(luò )的nat模塊接受請求消息回到j(luò )ava虛擬機中socket網(wǎng)絡(luò )模塊最終采用soc284dn用戶(hù)協(xié)議實(shí)現同聲傳譯。
　　在deepin下用python運行c++的windowssocket網(wǎng)絡(luò )編程，deepin自帶c++運行庫。
　　目前只聽(tīng)說(shuō)過(guò)deepin用java實(shí)現了im。
　　下個(gè)微軟metero或者黑科技teambition里
　　三年前用java寫(xiě)了一個(gè)本地同聲傳譯voip服務(wù)，我用它實(shí)現了vc6outlook里，edge里，firefox中文支持；2012-2013年用python實(shí)現了一個(gè)本地同聲傳譯vi：，
　　deepin官方j(luò )avaapi里有
　　deepin對nat技術(shù)包和two-stream多媒體技術(shù)封裝了。然后支持任意方言（甚至linux上）。
　　deepin里面有雙邊實(shí)時(shí)互譯，而且我用的就是手機和電腦之間互譯。如果是華中的朋友可以私信我，
　　1.可以找代理；2.deepin有客戶(hù)端和服務(wù)端的接口，可以實(shí)現同傳；3.deepin官方編譯好的electron或者webos可以直接操作linux進(jìn)程。查看全部

　　文章實(shí)時(shí)采集(deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容保存為json格式數據為中文在線(xiàn)翻譯字典)
　　文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。發(fā)表于deepin文章實(shí)時(shí)采集網(wǎng)頁(yè)內容，并保存為json格式數據，其中json格式數據為中文在線(xiàn)翻譯字典。
　　deepin在本地搭建的voip網(wǎng)絡(luò )框架，主要用到兩個(gè)服務(wù)：java虛擬機中windows32通訊網(wǎng)絡(luò )的nat模塊接受請求消息回到j(luò )ava虛擬機中socket網(wǎng)絡(luò )模塊最終采用soc284dn用戶(hù)協(xié)議實(shí)現同聲傳譯。
　　在deepin下用python運行c++的windowssocket網(wǎng)絡(luò )編程，deepin自帶c++運行庫。
　　目前只聽(tīng)說(shuō)過(guò)deepin用java實(shí)現了im。
　　下個(gè)微軟metero或者黑科技teambition里
　　三年前用java寫(xiě)了一個(gè)本地同聲傳譯voip服務(wù)，我用它實(shí)現了vc6outlook里，edge里，firefox中文支持；2012-2013年用python實(shí)現了一個(gè)本地同聲傳譯vi：，
　　deepin官方j(luò )avaapi里有
　　deepin對nat技術(shù)包和two-stream多媒體技術(shù)封裝了。然后支持任意方言（甚至linux上）。
　　deepin里面有雙邊實(shí)時(shí)互譯，而且我用的就是手機和電腦之間互譯。如果是華中的朋友可以私信我，
　　1.可以找代理；2.deepin有客戶(hù)端和服務(wù)端的接口，可以實(shí)現同傳；3.deepin官方編譯好的electron或者webos可以直接操作linux進(jìn)程。

文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2022-04-01 17:21 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？
　　首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。
　　1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。
　　2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。
　　二、文章標記作者或版本。
　　有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　第三，為文章添加一些特性。
　　1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。
　　2、在文章中添加您自己的品牌詞匯
　　3、添加一些內部鏈接，因為喜歡復制的人文章平時(shí)比較懶，有的人可以直接復制粘貼。
　　四、過(guò)濾網(wǎng)頁(yè)的主要特點(diǎn)
　　大多數人在使用鼠標右鍵復制文章的時(shí)候，如果技術(shù)不受這個(gè)功能的影響，無(wú)疑會(huì )增加采集的麻煩。
　　五、每晚更新
　　你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。
　　一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。查看全部

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你的對手知道嗎？)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？
　　首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。
　　1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。
　　2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。
　　二、文章標記作者或版本。
　　有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　第三，為文章添加一些特性。
　　1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。
　　2、在文章中添加您自己的品牌詞匯
　　3、添加一些內部鏈接，因為喜歡復制的人文章平時(shí)比較懶，有的人可以直接復制粘貼。
　　四、過(guò)濾網(wǎng)頁(yè)的主要特點(diǎn)
　　大多數人在使用鼠標右鍵復制文章的時(shí)候，如果技術(shù)不受這個(gè)功能的影響，無(wú)疑會(huì )增加采集的麻煩。
　　五、每晚更新
　　你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。
　　一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。

文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-04-01 17:18 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。二、文章標記作者或版本?？棄?mèng)58 認為有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　
　　第三，為文章添加一些特性。1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。2、在文章3、中添加自己的品牌詞匯，添加一些內鏈，因為喜歡復制文章的人通常比較懶惰，有的人可以直接復制粘貼。4、當及時(shí)添加文章文章時(shí)，搜索引擎會(huì )判斷文章的原創(chuàng )性，參考時(shí)間因素。四、過(guò)濾網(wǎng)頁(yè)按鍵功能大部分人使用鼠標右鍵復制時(shí)文章，如果技術(shù)不受此功能影響，無(wú)疑會(huì )增加采集的麻煩。五、夜間更新你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。查看全部

　　文章實(shí)時(shí)采集(夜間更新你最害怕的是你對手知道你的習慣)
　　許多人討厭他們的原創(chuàng )文章立即被他人復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈。我特別相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力不如采集。我們如何處理這種情況？首先，嘗試在你的競爭對手采集它之前讓搜索引擎收錄這個(gè) 文章。1、及時(shí)抓取文章讓搜索引擎知道這個(gè)文章。2、Ping 百度網(wǎng)站管理員自己的文章鏈接，這也是百度官方告訴我們的方式。二、文章標記作者或版本?？棄?mèng)58 認為有時(shí)無(wú)法阻止某人復制您的文章，但這也是一種書(shū)面交流和提示，總比沒(méi)有好。
　　

　　第三，為文章添加一些特性。1、例如文章中的標簽代碼如n1、n2、color等，搜索引擎會(huì )對這些內容更加敏感，從而加深感知原創(chuàng ) 的判斷。2、在文章3、中添加自己的品牌詞匯，添加一些內鏈，因為喜歡復制文章的人通常比較懶惰，有的人可以直接復制粘貼。4、當及時(shí)添加文章文章時(shí)，搜索引擎會(huì )判斷文章的原創(chuàng )性，參考時(shí)間因素。四、過(guò)濾網(wǎng)頁(yè)按鍵功能大部分人使用鼠標右鍵復制時(shí)文章，如果技術(shù)不受此功能影響，無(wú)疑會(huì )增加采集的麻煩。五、夜間更新你最大的恐懼是你的對手知道你的習慣，尤其是在白天。很多人喜歡在白天更新自己的文章，卻被別人盯著(zhù)看。文章立即被抄襲。一旦可以看到這些方法應用于我們的網(wǎng)站，我相信這可以減少文章集合的數量。

文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據) )

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 216 次瀏覽 ? 2022-04-01 00:27 ? 來(lái)自相關(guān)話(huà)題

　　文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據)
)
　　業(yè)務(wù)描述：java
　　最近項目中需要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據（這里的數據已經(jīng)序列化成avro格式數據），這里我們使用Flume+Hdfs做技術(shù)架構。數據庫
　　了解 Flume 的朋友都知道，它的組件分為三個(gè)部分：source、channel、sink。具體原理部分在此不再贅述?？梢圆榭垂倬W(wǎng)或者flume技術(shù)博客。這里就講講實(shí)現過(guò)程和加坑之路。阿帕奇
　　來(lái)自業(yè)務(wù)的數據存儲在kafka中，所以source端使用kafkaSource，即kafkaConsumer，sink使用hdfsSink，channel使用file type。json
　　hdfsSink 編寫(xiě)的文件格式有兩種：文本文件和序列文件。無(wú)論選擇哪種文件格式，登陸hdfs后都不能直接使用。前面說(shuō)過(guò)，業(yè)務(wù)數據已經(jīng)序列化成avro格式，但是要求是hdfs上的數據必須是直接可用的。建筑學(xué)
　　考慮了幾種解決方案：maven
　　1、使用hive建立一個(gè)外部表來(lái)關(guān)聯(lián)hdfs上的數據。這里有一個(gè)問(wèn)題。雖然hive支持讀取seq文件格式，但是seq文件中的數據（hdfsSink使用Sequence File格式存儲）是avro格式的。我嘗試建表查詢(xún)，結果是亂碼，文本文件也是這樣。這個(gè)方法通過(guò)了。其實(shí)hive可以直接讀取avro格式的指定數據的schema，但是。. . 我的文件格式不起作用，它可以通過(guò)實(shí)現接口本身將數據序列化為avro格式。哎呀
　　2.使用API??讀取avro數據。這樣，首先需要使用API??讀取seq文件數據，然后使用avro API進(jìn)行反序列化。根據hadoop指導書(shū)hadoop IO章節中的demo，讀取seq文件。然后我去avro官網(wǎng)的api，發(fā)現官網(wǎng)給出的demo是把數據序列化成avro文件，然后反序列化avro文件，和個(gè)人需求不一樣，emmm。. . 繼續翻API，好像找到了一個(gè)可以使用的類(lèi)，但是最后還是不成功，這個(gè)方法也通過(guò)了。網(wǎng)址
　　3.使用kafkaConsumer自帶的參數反序列化avro。我以這種方式在互聯(lián)網(wǎng)上閱讀了很多博客。千篇一律的文章可能與實(shí)際需求不符。有的博客說(shuō)直接配置這兩個(gè)參數：code
　　“key.deserializer”, "org.apache.kafka.common.serialization.StringDeserializer"
“value.deserializer”, "org.apache.kafka.common.serialization.ByteArrayDeserializer"
　　首先，我不知道如何反序列化這樣的數據，其次，kafkaConsumer的默認參數就是這兩個(gè)。形式
　　以下是正確配置的（在我看來(lái)）：
　　“key.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“value.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“schema.registry.url”, “http://avro-schema.user-defined.com”
　　這里的key的反序列化方式可以根據業(yè)務(wù)給出的格式來(lái)確定。這里的鍵值是 avro 格式。
　　看到這兩個(gè)參數也給了，你可以根據自己的需要添加，我這里沒(méi)用：
　　kafka.consumer.specific.avro.reader = true
useFlumeEventFormat = true
　　本以為這樣可以，但結果往往不如預期，直接報錯：
　　
　　解決了幾個(gè)錯誤后，我終于發(fā)現這個(gè)錯誤是無(wú)法反轉序列的根本問(wèn)題。因此，查看kafkaSource源碼，發(fā)現類(lèi)型轉換有問(wèn)題（只有這一次），即圖中提到的GenericRecord轉換String錯誤。
　　解決方法：撓頭。. .
　　Flume支持自定義源碼，于是趕緊翻到flume書(shū)，按照書(shū)中的demo寫(xiě)了一個(gè)源碼。具體實(shí)現其實(shí)就是這行代碼：
　　ConsumerRecords records = consumer.poll(100)
　　改變消費者返回的記錄類(lèi)型，從而最終實(shí)現avro反序列化數據后的json格式。但這還沒(méi)有結束。雖然實(shí)現了功能，但是自己寫(xiě)的代碼肯定不如源碼質(zhì)量好。都想把源碼的kafkaSource拿出來(lái)改一下看看效果。整個(gè)周期大約花了一周時(shí)間。. . 這不簡(jiǎn)單。以上如有錯誤，請指出并指正，謝謝~~
　　下面是用到的pom文件，注意版本，注意版本，注意版本，重要的說(shuō)三遍。由于版本不對，拿了一個(gè)老版本的源碼，改了半天，各種坑。匯合的來(lái)源必須匹配。沒(méi)有 Maven 存儲庫。Cloudera 取決于我的情況。
　　

org.apache.flume.flume-ng-sources
flume-kafka-source
1.6.0-cdh5.16.2
${scope.version}

org.apache.flume
flume-ng-core
1.6.0-cdh5.16.2
${scope.version}

io.confluent
kafka-avro-serializer
5.2.2
${scope.version}

confluent
Confluent
http://packages.confluent.io/maven/

cloudera
https://repository.cloudera.co ... epos/ 查看全部

　　文章實(shí)時(shí)采集(java最近項目中須要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據(這里數據)
)
　　業(yè)務(wù)描述：java
　　最近項目中需要實(shí)時(shí)采集業(yè)務(wù)數據庫CDC數據（這里的數據已經(jīng)序列化成avro格式數據），這里我們使用Flume+Hdfs做技術(shù)架構。數據庫
　　了解 Flume 的朋友都知道，它的組件分為三個(gè)部分：source、channel、sink。具體原理部分在此不再贅述?？梢圆榭垂倬W(wǎng)或者flume技術(shù)博客。這里就講講實(shí)現過(guò)程和加坑之路。阿帕奇
　　來(lái)自業(yè)務(wù)的數據存儲在kafka中，所以source端使用kafkaSource，即kafkaConsumer，sink使用hdfsSink，channel使用file type。json
　　hdfsSink 編寫(xiě)的文件格式有兩種：文本文件和序列文件。無(wú)論選擇哪種文件格式，登陸hdfs后都不能直接使用。前面說(shuō)過(guò)，業(yè)務(wù)數據已經(jīng)序列化成avro格式，但是要求是hdfs上的數據必須是直接可用的。建筑學(xué)
　　考慮了幾種解決方案：maven
　　1、使用hive建立一個(gè)外部表來(lái)關(guān)聯(lián)hdfs上的數據。這里有一個(gè)問(wèn)題。雖然hive支持讀取seq文件格式，但是seq文件中的數據（hdfsSink使用Sequence File格式存儲）是avro格式的。我嘗試建表查詢(xún)，結果是亂碼，文本文件也是這樣。這個(gè)方法通過(guò)了。其實(shí)hive可以直接讀取avro格式的指定數據的schema，但是。. . 我的文件格式不起作用，它可以通過(guò)實(shí)現接口本身將數據序列化為avro格式。哎呀
　　2.使用API??讀取avro數據。這樣，首先需要使用API??讀取seq文件數據，然后使用avro API進(jìn)行反序列化。根據hadoop指導書(shū)hadoop IO章節中的demo，讀取seq文件。然后我去avro官網(wǎng)的api，發(fā)現官網(wǎng)給出的demo是把數據序列化成avro文件，然后反序列化avro文件，和個(gè)人需求不一樣，emmm。. . 繼續翻API，好像找到了一個(gè)可以使用的類(lèi)，但是最后還是不成功，這個(gè)方法也通過(guò)了。網(wǎng)址
　　3.使用kafkaConsumer自帶的參數反序列化avro。我以這種方式在互聯(lián)網(wǎng)上閱讀了很多博客。千篇一律的文章可能與實(shí)際需求不符。有的博客說(shuō)直接配置這兩個(gè)參數：code
　　“key.deserializer”, "org.apache.kafka.common.serialization.StringDeserializer"
“value.deserializer”, "org.apache.kafka.common.serialization.ByteArrayDeserializer"
　　首先，我不知道如何反序列化這樣的數據，其次，kafkaConsumer的默認參數就是這兩個(gè)。形式
　　以下是正確配置的（在我看來(lái)）：
　　“key.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“value.deserializer”, "io.confluent.kafka.serializers.KafkaAvroDeserializer"
“schema.registry.url”, “http://avro-schema.user-defined.com”
　　這里的key的反序列化方式可以根據業(yè)務(wù)給出的格式來(lái)確定。這里的鍵值是 avro 格式。
　　看到這兩個(gè)參數也給了，你可以根據自己的需要添加，我這里沒(méi)用：
　　kafka.consumer.specific.avro.reader = true
useFlumeEventFormat = true
　　本以為這樣可以，但結果往往不如預期，直接報錯：
　　

　　解決了幾個(gè)錯誤后，我終于發(fā)現這個(gè)錯誤是無(wú)法反轉序列的根本問(wèn)題。因此，查看kafkaSource源碼，發(fā)現類(lèi)型轉換有問(wèn)題（只有這一次），即圖中提到的GenericRecord轉換String錯誤。
　　解決方法：撓頭。. .
　　Flume支持自定義源碼，于是趕緊翻到flume書(shū)，按照書(shū)中的demo寫(xiě)了一個(gè)源碼。具體實(shí)現其實(shí)就是這行代碼：
　　ConsumerRecords records = consumer.poll(100)
　　改變消費者返回的記錄類(lèi)型，從而最終實(shí)現avro反序列化數據后的json格式。但這還沒(méi)有結束。雖然實(shí)現了功能，但是自己寫(xiě)的代碼肯定不如源碼質(zhì)量好。都想把源碼的kafkaSource拿出來(lái)改一下看看效果。整個(gè)周期大約花了一周時(shí)間。. . 這不簡(jiǎn)單。以上如有錯誤，請指出并指正，謝謝~~
　　下面是用到的pom文件，注意版本，注意版本，注意版本，重要的說(shuō)三遍。由于版本不對，拿了一個(gè)老版本的源碼，改了半天，各種坑。匯合的來(lái)源必須匹配。沒(méi)有 Maven 存儲庫。Cloudera 取決于我的情況。
　　

org.apache.flume.flume-ng-sources
flume-kafka-source
1.6.0-cdh5.16.2
${scope.version}

org.apache.flume
flume-ng-core
1.6.0-cdh5.16.2
${scope.version}

io.confluent
kafka-avro-serializer
5.2.2
${scope.version}

confluent
Confluent
http://packages.confluent.io/maven/

cloudera
https://repository.cloudera.co ... epos/

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<kbd id="c6mye"></kbd>

<kbd id="c6mye"><option id="c6mye"></option></kbd>

<sup id="c6mye"><blockquote id="c6mye"></blockquote></sup>

<sup id="c6mye"><blockquote id="c6mye"></blockquote></sup>

<li id="c6mye"><acronym id="c6mye"></acronym></li><strike id="c6mye"><blockquote id="c6mye"></blockquote></strike>

<pre id="c6mye"></pre>