一份給數據分析小白的指南
優(yōu)采云 發(fā)布時(shí)間: 2022-08-19 07:08一份給數據分析小白的指南
轉行數據分析的路上,很多同學(xué)都有這些困擾?!懊鎸ξ寤ò碎T(mén)的學(xué)習資料,不知道從哪兒入手”
“沒(méi)接觸過(guò)數據分析工具,擔心學(xué)習起來(lái)很難”
“沒(méi)有數據分析項目經(jīng)驗,害怕找工作被拒”很多小白在剛接觸數據分析的時(shí)候,缺乏數據思維的支持,做起分析來(lái)感覺(jué)找準方向,很難通過(guò)分析挖掘出數據的價(jià)值。為幫助大家更好的了解數據分析,快速補齊數據分析崗位所需能力,我今天給剛入行的新人們分享一種通用的數據分析思維,“Why-What-How”模型,這個(gè)模型在講解概念和執行上是個(gè)不錯的思維模型,在很多種分析場(chǎng)景都可以借鑒使用。本文將按照這個(gè)模型框架來(lái)拆分數據分析幫助新手小白更好地理解數據分析師這個(gè)崗位。WHY:為什么要做數據分析?數據分析是為了能以量化的方式來(lái)分析業(yè)務(wù)問(wèn)題并得出結論,其中有兩個(gè)重點(diǎn)詞語(yǔ):量化和業(yè)務(wù)。量化是為了統一認知,并且確保路徑可回溯,可復制。除量化之外,另外一個(gè)重點(diǎn)詞語(yǔ)是業(yè)務(wù)。只有解決業(yè)務(wù)問(wèn)題分析才能創(chuàng )造價(jià)值,價(jià)值包括個(gè)人價(jià)值和公司價(jià)值。那么,如何站在業(yè)務(wù)方的角度思考問(wèn)題呢,總結起來(lái)就是八個(gè)字:憂(yōu)其所慮,給其所欲在溝通上,確定業(yè)務(wù)方想要分析什么,提出更合理專(zhuān)業(yè)的衡量和分析方式,同時(shí)做好節點(diǎn)同步,切忌一條路走到黑。舉例來(lái)講,業(yè)務(wù)方說(shuō)要看頁(yè)面停留時(shí)長(cháng),但他實(shí)際想要的,可能是想衡量用戶(hù)質(zhì)量,那么留存率、目標轉化率才是更合適的指標。在闡述分析結果上,要記得結論先行,逐層講解,再提供論據。
因為業(yè)務(wù)方或管理層時(shí)間都是有限的,洋洋灑灑一大篇郵件,未看先暈,誰(shuí)都沒(méi)心思看你到底分析了啥。在提供信息量及可落地建議上,先要明白什么叫信息量:提供了對方不知道的信息。太陽(yáng)明天從東方升起不算信息量,從西方升起才是。WHAT:什么是數據分析?數據分析的本質(zhì)是抓住變與不變?!白儭笔菙祿治龅幕A,如果一個(gè)業(yè)務(wù)每天訂單是 10000 單,或者每天都是以 10% 的速度穩步增長(cháng),那就沒(méi)有分析的必要了。而若想抓住變,得先形成“不變”的意識。因此,我建議新手要形成習慣,每天上班第一時(shí)間查看數據:實(shí)時(shí)&日周月報;記錄關(guān)鍵數據(榜單&報告)。在“不變”的基礎上,便能逐漸培養出指標敏感性,即意識指標偏離的能力。這主要是通過(guò)各種日環(huán)比,周月同比的監控以及日常的好奇心來(lái)保持。HOW:怎么進(jìn)行數據分析?下面我將從數據分析師的類(lèi)別,需要掌握的技能以及工作日常三方面進(jìn)行講解。1、數據分析的類(lèi)別科研數據分析:模型非系統化,純粹學(xué)術(shù),實(shí)際應用很難落地;要求編程能力極強,模型理論能力極強業(yè)務(wù)數據分析:非系統化,純粹業(yè)務(wù),無(wú)需要求編程能力,模型較為簡(jiǎn)單數據挖掘解決方案:系統化,糅合學(xué)術(shù)與業(yè)務(wù),要求編程能力中等,模型理論能力中底下一般來(lái)說(shuō),業(yè)務(wù)數據分析應用場(chǎng)景廣泛,更適合職場(chǎng)人士。
2、數據分析師需要的技能2.1 統計學(xué)與概率論統計概率是數據挖掘理論知識的基礎。在日常的數據分析工作中,常常會(huì )用到統計概率論的知識。統計概率涉及到的條件概率、概率分布,統計檢驗等知識是學(xué)習數據挖掘必備的先驗條件。書(shū)籍推薦:《深入淺出統計學(xué)》《統計學(xué)-從數據到結論》2.2 思維邏輯能力想要從事數據分析一職,最重要的就是要擁有數據分析的思維,很多小伙伴上來(lái)就學(xué)習各種工具和編程語(yǔ)言,但是發(fā)現學(xué)會(huì )了這些編程語(yǔ)言之后依然不會(huì )數據分析。數據分析的思維也不是一蹴而就,需要慢慢積累,多學(xué)一些分析的模型,多看一些數據分析的案例,以下是小編整理了數據分析常用到的模型。
由于不同版本的演繹,造成了分析方法種類(lèi)繁多,令人眼花繚亂,甚至高深莫測。其實(shí)真不用把分析方法看的太高大上了,所有的分析方法總結起來(lái)就兩種:分類(lèi)和對比。2.21 對比分析顧名思義就是將兩個(gè)或兩個(gè)以上的數據進(jìn)行比較,分析它們之間的差異,從而發(fā)現數據的變化情況和規律。對比分析法分為靜態(tài)比較和動(dòng)態(tài)比較兩類(lèi),用來(lái)判斷某個(gè)數據是好還是壞,以及某幾個(gè)數據之間的差異性。一般在數據分析中我們可以從這樣幾個(gè)角度進(jìn)行對比:2.22 分類(lèi)分析分類(lèi)分析就是把分析對象總體中具有不同性質(zhì)的對象區分開(kāi),把性質(zhì)相同的對象合并在一起,保持各組內對象屬性的一致性、組與組之間屬性的差異性,以便進(jìn)一步運用各種數據分析方法來(lái)揭示內在的數量關(guān)系,最終目的是為了方便對比, 所以經(jīng)常和對比分析法一起用 。分類(lèi)分析一般有以下幾種分類(lèi)方法:2.3 業(yè)務(wù)知識數據分析是用來(lái)解決具體行業(yè)問(wèn)題的,需要從業(yè)務(wù)的角度出發(fā)了解各個(gè)指標,以及每個(gè)指標之間的關(guān)系,還需要聯(lián)系業(yè)務(wù)去理解數據。所以,工作中數據分析脫離不了業(yè)務(wù),在分析中要找到導致問(wèn)題發(fā)生的根本原因,而不只是單純的統計數據。業(yè)務(wù)知識包括某個(gè)行業(yè)的常用指標、業(yè)務(wù)流程。需要注意的是,不同行業(yè)的指標、業(yè)務(wù)流程是不一樣的,所以需要學(xué)習的時(shí)候針對你的目標行業(yè)去學(xué)習準備。如果是剛入門(mén),這塊內容做到了解即可,等進(jìn)入工作以后,再慢慢深入業(yè)務(wù),積累業(yè)務(wù)經(jīng)驗。下面列舉了工作中常用到的指標(部分):
2.4 必備工具由于需要處理大量的數據,所以在分析數據時(shí)經(jīng)常使用專(zhuān)門(mén)用于分析的工具。由于在數據分析過(guò)程中進(jìn)行的分析計算非常復雜,因此使用分析工具可以實(shí)現高效計算。每個(gè)公司使用的分析工具各不相同,如果對編程覺(jué)得有困難的小伙伴可以選擇SPSSPRO。SPSSPRO是一款免費的在線(xiàn)數據分析工具,也是一種簡(jiǎn)單易學(xué)的零編程語(yǔ)言。包含所有基礎基本統計分析算法,如描述性統計、相關(guān)、t檢驗、組間差異的非參數檢驗、相關(guān)與回歸、方差分析等。SPSSPRO具有數據處理、數據分析、pro繪圖、notebook編程等多種功能,可以滿(mǎn)足絕大多數數據分析的日常工作需求。
3、工作日常經(jīng)過(guò)前面的分析,我們從整體上知道了數據分析師需要掌握的能力。但并不是說(shuō),這些能力全都掌握了你才能找到一份數據分析師的工作。因為不同的職位的要求不一樣的。下面我們首先看看數據分析的工作內容是什么樣的?針對不同的工作內容,我們來(lái)談需要掌握的技能程度。數據分析師的日常工作內容可以大致分為以下三類(lèi),每個(gè)類(lèi)型給出了相應的場(chǎng)景方便大家理解,通過(guò)這些常見(jiàn)的數據分析場(chǎng)景,你就可以獲得數據分析項目的基本流程。
3.1 日常運營(yíng)——基礎性工作3.11 基本統計指標數據指標是通過(guò)對數據進(jìn)行分析得到的一個(gè)匯總結果,是將業(yè)務(wù)單元精分和量化后得到的度量值,使得業(yè)務(wù)目標可描述、可度量、可拆解。如對一款軟件來(lái)說(shuō),其常見(jiàn)的指標包括:每日活躍用戶(hù)數、新注冊用戶(hù)數、次日留存率、七日留存率等。
數據分析前需要確定使用哪些指標去衡量業(yè)務(wù)成果。例如,針對一個(gè)APP產(chǎn)品來(lái)說(shuō),每當運營(yíng)上新功能或新活動(dòng)時(shí),就需要去確定該用哪些指標去衡量這些功能或活動(dòng)的效果;若后續要做一些深入分析的話(huà),還需要考慮設計一些更深層次的指標。但數據指標體系的搭建并不是單個(gè)部門(mén)能夠完成的,應至少有業(yè)務(wù)團隊(包括市場(chǎng)、運營(yíng)、產(chǎn)品等)、數據團隊以及開(kāi)發(fā)團隊三個(gè)團隊的共同協(xié)作。3.12 報表開(kāi)發(fā)——制作日常日報、月報、周報
圖中展示的是11月TOP10 熱銷(xiāo)產(chǎn)品情況,這是專(zhuān)門(mén)向領(lǐng)導匯報當月工作的內容, 告訴領(lǐng)導業(yè)務(wù)線(xiàn)的發(fā)展情況。如果在公司中只是處理類(lèi)似這樣的需求,數據源多數是在公司某個(gè)系統上進(jìn)行下載成 excel,然后用 excel + PPT 就可以完成。技術(shù)要求:可以使用數據處理、pro繪圖、ppt寫(xiě)分析報告即可業(yè)務(wù)要求:對于新手同學(xué)多做幾個(gè)開(kāi)源的項目,明白常規的分析思路就好3.13 可視化看板代替上述的日報、周報、月報當公司認為數據發(fā)揮的價(jià)值越來(lái)越大,業(yè)務(wù)需求也越來(lái)越多的時(shí)候,會(huì )發(fā)現寫(xiě)日報、周報、月報這樣做需求效率太低了??赡軙?huì )考慮使用 powerbi、tableau 這樣付費的可視化軟件進(jìn)行需求開(kāi)發(fā)。如下圖,制作成這樣的可視化看板,不管是業(yè)務(wù)同學(xué)還是上級領(lǐng)導,都會(huì )很方便的得到各個(gè)維度的數據,還能實(shí)現業(yè)務(wù)同學(xué)的自主分析需求。
看板搭建主要以“簡(jiǎn)單高效”為主要目標,一般來(lái)說(shuō),需要滿(mǎn)足以下幾個(gè)設計要點(diǎn):業(yè)務(wù)要求:能夠掌握當下業(yè)務(wù)的流程、另外公司也會(huì )有相應的產(chǎn)品經(jīng)理會(huì )和你一起定下需要的數據指標,難點(diǎn)在定下的指標要能實(shí)現。3.2 分析建模工作3.21 專(zhuān)題分析根據特定問(wèn)題分析,比如某公司領(lǐng)導提出過(guò)度降價(jià)導致洗發(fā)水 A 的年度利潤下降這樣的一個(gè)需求,然后讓你來(lái)具體分析下。
針對領(lǐng)導提出的需求,開(kāi)始提出上文所示的假設,并作數據處理,看到這里的同學(xué)希望先停留幾分鐘想下,為什領(lǐng)導會(huì )認為是過(guò)度下降導致了利潤下降了呢?難道是領(lǐng)導是看到洗發(fā)水 A 全年利潤下降,并且對當時(shí)降價(jià)運營(yíng)活動(dòng)印象深刻,就是暫時(shí)這樣認為的嗎?其實(shí)經(jīng)驗豐富的數據分析師會(huì )站在和領(lǐng)導一樣的高度上來(lái)考慮問(wèn)題,把問(wèn)題會(huì )進(jìn)行轉變,如下:
其實(shí)領(lǐng)導的問(wèn)題應該是洗發(fā)水 A 的年度利潤未能達到要求,讓數據分析同學(xué)找出原因的。如果從事數據分析一段時(shí)間后,腦子中對于業(yè)績(jì)下滑這樣的專(zhuān)題分析,會(huì )很快的想出4p 營(yíng)銷(xiāo)理論,直接從產(chǎn)品、渠道、促銷(xiāo)、價(jià)格全面的進(jìn)行考慮,不會(huì )有遺漏。所以正確的提出假設應該是這樣的:
那么大家感覺(jué)這塊需要什么技能呢?只能說(shuō)是常年積累的業(yè)務(wù)知識以及分析方法3.22 探索/診斷分析如果某個(gè)指標出現異常要怎么排查:案例:如何分析次日留存率下降的問(wèn)題業(yè)務(wù)問(wèn)題關(guān)鍵是問(wèn)對問(wèn)題,然后才是拆解問(wèn)題去解決。(1)兩層模型:從用戶(hù)畫(huà)像、渠道、產(chǎn)品、行為環(huán)節等角度細分,明確到底是 哪里的次日留存率下降了(2)指標拆解:次日留存率 = Σ 次日留存數 / 今日獲客人數(3)原因分析:1)內部:a. 運營(yíng)活動(dòng) b. 產(chǎn)品變動(dòng) c. 技術(shù)故障 d. 設計漏洞(如產(chǎn)生可以擼羊毛的設計)2)外部:a. 競品 b. 用戶(hù)偏好 c. 節假日 d. 社會(huì )事件(如產(chǎn)生輿論)(4)計算總留存下降量、abcd 四個(gè)渠道下降量,做比例3.23 預測性分析預測分析即根據往期數據進(jìn)行預測,從描述性和診斷性分析中總結數據結果影響因素與發(fā)展態(tài)勢,以了解可能發(fā)生的情況。對于未來(lái)數據的,舉個(gè)例子,比如預測電商網(wǎng)站用戶(hù)的流失分析,并挖掘出影響用戶(hù)流失的關(guān)鍵因素。這塊內容就是要涉及到算法使用了。技術(shù)要求:業(yè)務(wù)要求:能夠明白公司相應業(yè)務(wù)流程即可,一般公司里面會(huì )有一到兩周的熟悉業(yè)務(wù)的時(shí)間。3.3 撰寫(xiě)報告工作撰寫(xiě)數據分析報告可以說(shuō)是數據分析師最核心的工作,是數據分析師核心價(jià)值的體現,常見(jiàn)的報告包括以下3種:總結數據分析的目的是為了更好的支撐業(yè)務(wù)發(fā)展,通過(guò)數據收集(數據埋點(diǎn)等),分析數據之間的關(guān)系(建模、搭建指標體系),反饋到目標業(yè)務(wù)線(xiàn),用于指導業(yè)務(wù)工作。做數據分析首先數據準確性是第一位的,然后就是要站在業(yè)務(wù)方的角度思考問(wèn)題,憂(yōu)其所慮,予其所欲,這樣做出來(lái)的分析更容易產(chǎn)出價(jià)值。




