9.Spark小型電商項目-離線(xiàn)日志采集流程介紹
優(yōu)采云 發(fā)布時(shí)間: 2020-08-09 11:20項目一Spark離線(xiàn)處理本項目來(lái)源于企業(yè)級電商網(wǎng)站的大數據統計剖析平臺,該平臺以Spark 框架為核心,對電商網(wǎng)站的日志進(jìn)行離線(xiàn)和實(shí)時(shí)剖析。該大數據剖析平臺對電商網(wǎng)站的各類(lèi)用戶(hù)行為(訪(fǎng)問(wèn)行為、購物行為、廣告點(diǎn)擊行為等)進(jìn)行剖析,根據平臺統計下來(lái)的數據,輔助公司中的PM(產(chǎn)品總監)、數據分析師以及管理人員剖析現有產(chǎn)品的情況,并按照用戶(hù)行為剖析結果持續改進(jìn)產(chǎn)品的設計,以及調整公司的戰略和業(yè)務(wù)。最終達到用大數據技術(shù)來(lái)幫助提高公司的業(yè)績(jì)、營(yíng)業(yè)額以及市場(chǎng)占有率的目標。本項目使用了Spark 技術(shù)生態(tài)棧中最常用的三個(gè)技術(shù)框架,Spark Core、Spark SQL 和Spark Streaming,進(jìn)行離線(xiàn)估算和實(shí)時(shí)估算業(yè)務(wù)模塊的開(kāi)發(fā)。實(shí)現了包括用戶(hù)訪(fǎng)問(wèn)session 分析、頁(yè)面單跳轉化率統計、熱門(mén)商品離線(xiàn)統計、廣告流量實(shí)時(shí)統計4 個(gè)業(yè)務(wù)模塊。通過(guò)合理的將實(shí)際業(yè)務(wù)模塊進(jìn)行技術(shù)整合與改建,該項目幾乎完全囊括了Spark Core、Spark SQL 和Spark Streaming 這三個(gè)技術(shù)框架中大部份的功能點(diǎn)、知識點(diǎn),學(xué)員對于Spark 技術(shù)框架的理解將會(huì )在本項目中得到很大的提升。項目二Spark實(shí)時(shí)處理項目簡(jiǎn)介對于實(shí)時(shí)性要求高的應用,如用戶(hù)即時(shí)詳單查詢(xún),業(yè)務(wù)量監控等,需要應用實(shí)時(shí)處理構架項目場(chǎng)景對于實(shí)時(shí)要求高的應用、有對數據進(jìn)行實(shí)時(shí)展示和查詢(xún)需求時(shí)項目技術(shù)分別使用canal和kafka搭建各自針對業(yè)務(wù)數據庫和用戶(hù)行為數據的實(shí)時(shí)數據采集系統,使用SparkStreaming搭建高吞吐的數據實(shí)時(shí)處理模塊,選用ES作為最終的實(shí)時(shí)數據處理結果的儲存位置,并從中獲取數據進(jìn)行展示,進(jìn)一步增加響應時(shí)間。


