技術(shù)和經(jīng)驗:大數據技術(shù)棧之-數據采集
優(yōu)采云 發(fā)布時(shí)間: 2022-12-07 05:11技術(shù)和經(jīng)驗:大數據技術(shù)棧之-數據采集
介紹
數據倉庫的基礎是數據。沒(méi)有數據,數據倉庫就是一個(gè)空殼。有許多數據來(lái)源。我們需要按照一個(gè)規則和流程制定一個(gè)采集方案,根據數據的特點(diǎn)和用途選擇合適的方案。采集程序和數據采集一般分為全量和增量,對于一些業(yè)務(wù)場(chǎng)景,需要兩者配合使用。
數據采集完整計劃
全卷是指一次采集所有的數據,比如按照天數/月數。如果數據量很大,可能會(huì )比較耗時(shí),而且會(huì )占用大量的存儲空間。比如我們MySQL里面的數據,每天都需要同步。如果每天都同步,就會(huì )有很多重復數據,因為MySQL每天都在原來(lái)的基礎上添加數據,每天同步一個(gè)完整的副本,所以是冗余的。其余的數據,而且不是實(shí)時(shí)的,需要每天同步一個(gè)時(shí)間點(diǎn)。它的優(yōu)點(diǎn)是數據比較完整,但是會(huì )占用很大的存儲空間。
增加
因為每天全量同步數據,會(huì )占用大量存儲空間,效率不高,所以一般采用增量同步,但是增量是基于全量的,所以全量同步是必需的,后面是增量同步,增量意味著(zhù)數據會(huì )增加或者修改,所以同步起來(lái)會(huì )比較困難。如果不使用工具,需要根據時(shí)間戳進(jìn)行同步,比如增加一個(gè)create_time字段和update_time字段。添加數據時(shí),會(huì )設置當前時(shí)間,修改數據時(shí)更新修改時(shí)間,然后以當天日期為條件獲取符合條件的數據,但有個(gè)問(wèn)題就是數據不是那么真實(shí)——時(shí)間,因為需要主動(dòng)獲取數據,會(huì )因網(wǎng)絡(luò )等原因造成誤差。實(shí)時(shí)的時(shí)候,對數據庫的壓力比較大,所以我們需要另一種方式,那就是CDC。
CDC全稱(chēng)為Change Data Capture,指的是識別并捕獲數據庫中數據的修改、刪除、添加等變化,然后將這些變化以一定的方式記錄下來(lái),通過(guò)一定的機制傳遞給下游的Service,通過(guò)這個(gè)機制,可以減輕數據庫的壓力,數據更實(shí)時(shí)。比如MySQL的binglog機制就是CDC。
數據 采集 工具
數據采集工具分為全量采集和增量采集。
完整的 采集
采集工具有很多,比如Sqoop、kettle、DataX。下面主要說(shuō)一下DataX。DataX可以實(shí)現各種數據之間的轉換。如果DataX自帶的數據源不能滿(mǎn)足我們的需求,也可以自己實(shí)現,DataX由一個(gè)Writer和一個(gè)Reader組成,Reader是數據提供者,Writer是數據需求者,比如mysqlreader,doriswriter,就是將mysql的數據同步到doris。
DataX 只需要簡(jiǎn)單的安裝。安裝后只需要寫(xiě)一個(gè)json轉換文件,然后執行json腳本即可。執行腳本后,數據同步將開(kāi)始。但是,我們的同步任務(wù)可能一天執行一次。如果任務(wù)很多,那么每天執行腳本會(huì )很麻煩,這時(shí)可以使用定時(shí)任務(wù),linux可以使用crond進(jìn)行定時(shí)調度,但是如果使用cronb則無(wú)法監控任務(wù)的成功或失敗,而且不能對任務(wù)進(jìn)行統計,所以我們需要一個(gè)統一的任務(wù)調度平臺,比如Azkaban、DepinSchudeler等,后面會(huì )用到。
增量采集
對于增量同步,我們需要用到CDC工具,比如Flume可以采集日志,canal可以實(shí)時(shí)同步mysql數據到其他中間件,而Maxwell,Debezium,Flink也有一個(gè)組件flink cdc,我們可以根據到業(yè)務(wù)需要選擇,再說(shuō)說(shuō)flink cdc。
在傳統的CDC架構中,我們一般是先通過(guò)CDC工具將數據寫(xiě)入Kafka,然后通過(guò)Flink或者Spark從Kafka中讀取數據進(jìn)行流處理后寫(xiě)入數據倉庫,如下圖。
使用flink cdc后,整個(gè)鏈接會(huì )變得很短,省去了中間的Debezium、kafka和流處理,flink cdc一步到位,flink cdc的底層采集工具也是基于Debezium實(shí)現,如下圖。
Flink cdc 支持多種數據連接器??梢哉f(shuō)我們可能需要寫(xiě)一行代碼。我們只需要寫(xiě)sql,做一些簡(jiǎn)單的配置,就可以實(shí)現數據的增量同步。它的本質(zhì)其實(shí)和flink的source sink一樣,source是數據的來(lái)源,sink同步到對應的目標數據源。如果我們使用flink,我們需要添加一些中間件并編寫(xiě)代碼。使用 flink cdc 就簡(jiǎn)單多了。只需要寫(xiě)sql就可以實(shí)現數據的連接、統計等。
?
今天的分享就到這里了,感謝大家的觀(guān)看,我們下期再見(jiàn),如果本文中有任何描述不正確或不合理的地方,請大家提出寶貴意見(jiàn),讓我們在學(xué)習中共同成長(cháng)進(jìn)步!
解讀:上海借助免費快速提升網(wǎng)站收錄以及關(guān)鍵詞排名的都不清楚
不清楚如何快速提高 網(wǎng)站收錄 和 關(guān)鍵詞 的免費排名
什么是WPcms插件,顧名思義,WPcms插件是搜索引擎優(yōu)化過(guò)程中使用的輔助插件。今天博主就教大家使用免費的WPcms插件,快速提升網(wǎng)站收錄和關(guān)鍵詞的排名。這段時(shí)間很多SEO新手私信我,說(shuō)自己對SEO沒(méi)有完整的了解,不知道網(wǎng)站收錄排名如何。今天博主就和大家聊一聊什么是SEO?搜索引擎優(yōu)化,又稱(chēng)SEO,即是一種分析搜索引擎排名規則的方法,以了解各種搜索引擎如何進(jìn)行搜索,如何抓取互聯(lián)網(wǎng)頁(yè)面,以及如何確定特定關(guān)鍵詞的排名搜索結果。技術(shù)。
網(wǎng)站搜索引擎優(yōu)化的任務(wù)主要是了解其他搜索引擎如何抓取網(wǎng)頁(yè),如何索引,如何確定搜索關(guān)鍵詞等相關(guān)技術(shù),從而優(yōu)化本站內容網(wǎng)頁(yè),確保與用戶(hù)瀏覽習慣一致,在不影響網(wǎng)民體驗的情況下提高搜索引擎排名,從而增加網(wǎng)站訪(fǎng)問(wèn)量,最終提高網(wǎng)站宣傳或銷(xiāo)售能力 現代技術(shù)?;谒阉饕鎯?yōu)化處理,其實(shí)就是讓這個(gè)網(wǎng)站更容易被搜索引擎接受。搜索引擎往往會(huì )比較不同的網(wǎng)站內容,然后使用瀏覽器以最完整、最直接、最快捷的方式上傳內容。
每個(gè)人都想做好seo,但是除了一些做seo多年的seoer對seo有正確的態(tài)度,知道要做好seo需要很多東西外,很多seo新手對seo的認識并不完整,特別是提到我對插件或工具不太了解時(shí)。今天博主就教大家使用免費的WPcms插件,快速提升網(wǎng)站收錄和關(guān)鍵詞的排名。
1.使用免費WPcms采集大量文章內容
1.通過(guò)WPcms生成行業(yè)相關(guān)詞,關(guān)鍵詞來(lái)自下拉詞、相關(guān)搜索詞、長(cháng)尾詞。它可以設置為自動(dòng)刪除不相關(guān)的單詞。通過(guò)WPcms插件實(shí)現自動(dòng)化采集行業(yè)相關(guān)文章,一次可以創(chuàng )建幾十個(gè)或上百個(gè)采集任務(wù),同時(shí)支持多個(gè)域名任務(wù)同時(shí) 采集。
2.自動(dòng)過(guò)濾其他網(wǎng)站促銷(xiāo)信息
3、支持多采集來(lái)源采集(涵蓋全網(wǎng)行業(yè)新聞源,海量?jì)热輲?,采集最新內容?/p>
4.支持圖片本地化或存儲到其他平臺
5.全自動(dòng)批量掛機采集,無(wú)縫對接各大cms發(fā)布商,采集自動(dòng)發(fā)布并推送至搜索引擎
詳細解釋?zhuān)喝绻粋€(gè)網(wǎng)站想要有很多關(guān)鍵詞的排名,它必須有很多的收錄,
要擁有大量 收錄,您必須擁有大量?jì)热?。而這個(gè) 采集 工具就是為了擁有大量的內容!
2.免費WPcms插件-SEO優(yōu)化功能
1.設置標題的前綴和后綴(標題的區分度更好收錄)
2.內容關(guān)鍵詞插入(合理增加關(guān)鍵詞密度)
3.隨機圖片插入(文章沒(méi)有圖片可以隨機插入相關(guān)圖片)
4、搜索引擎推送(文章發(fā)布成功后,主動(dòng)將文章推送給搜索引擎,保證新鏈接能及時(shí)被搜索引擎收錄獲?。?/p>
5.隨機點(diǎn)贊-隨機閱讀-隨機作者(增加頁(yè)面原創(chuàng )度)
6.內容與標題一致(使內容與標題100%相關(guān))
7、自動(dòng)內鏈(在執行發(fā)布任務(wù)時(shí),在文章內容中自動(dòng)生成內鏈,有助于引導頁(yè)面蜘蛛爬行,增加頁(yè)面權重)
8、定時(shí)發(fā)布(定時(shí)發(fā)布網(wǎng)站內容可以讓搜索引擎養成定時(shí)抓取網(wǎng)頁(yè)的習慣,從而提高網(wǎng)站的收錄)
詳細解釋?zhuān)?通過(guò)以上SEO功能,增加網(wǎng)站頁(yè)面的原創(chuàng )度,增加網(wǎng)頁(yè)關(guān)鍵詞的密度,吸引蜘蛛爬取更多頁(yè)面。
3.免費WP cms插件-批量管理網(wǎng)站
1. 批量監控不同的cms網(wǎng)站數據(無(wú)論你的網(wǎng)站是帝國、易游、ZBLOG、織夢(mèng)、WP、小旋風(fēng)、站群、PB、蘋(píng)果、搜外等各大cms,可以同時(shí)管理和批量發(fā)布的工具)
2.設置批量發(fā)布次數(可設置發(fā)布間隔/每天發(fā)布總數)
3.可以設置不同的關(guān)鍵詞文章發(fā)布不同的欄目
4、偽原創(chuàng )保留字(在文章原創(chuàng )中設置核心字不要為偽原創(chuàng ))
5、軟件直接監控已發(fā)布、待發(fā)布、是否偽原創(chuàng )、發(fā)布狀態(tài)、URL、程序、發(fā)布時(shí)間等。
6、通過(guò)軟件可以直接查看蜘蛛、收錄、網(wǎng)站的每日體重!
詳細解釋?zhuān)号抗芾砭W(wǎng)站工具,可以在本地電腦修改,直接批量發(fā)布到站點(diǎn)后臺,可以批量管理網(wǎng)站和查看網(wǎng)站數據,沒(méi)有不再需要頻繁登錄后臺查看。
做網(wǎng)站,既要講究效率,又要講究細節。如果效率提高了,細節做好了,網(wǎng)站的排名流量自然會(huì )增加!看完這篇文章,如果您覺(jué)得還不錯,不妨采集或轉發(fā)給有需要的朋友同事二脈!





