技術(shù)分享 | 數據分析報告是怎樣“煉成”的(附疫情報告演示案例)
優(yōu)采云 發(fā)布時(shí)間: 2022-05-02 14:15技術(shù)分享 | 數據分析報告是怎樣“煉成”的(附疫情報告演示案例)
前言
當前國內的數字經(jīng)濟正在如火如荼地發(fā)展,數字社會(huì )、數字政府、企業(yè)數字化轉型等等一系列新提法、新技術(shù)在也不斷產(chǎn)生。在這個(gè)過(guò)程中,如何將數據資源的價(jià)值釋放出來(lái)提供生產(chǎn)要素,是數字經(jīng)濟的殺手锏與核心所在,即數據智能。
數據分析(報告)是數據智能的主要手段之一。從當年被人們津津樂(lè )道的沃爾瑪“啤酒+尿布”營(yíng)銷(xiāo)開(kāi)始,人們(尤其是中國人)逐步認識到數據分析的威力和價(jià)值所在。隨著(zhù)數據資源的不斷積累和開(kāi)放,政府機關(guān)、企業(yè)的精細管理、科學(xué)決策需求對數據分析(報告)的廣度、速度、深度不斷提出新的要求。
本文就來(lái)談一談數據分析報告相關(guān)的內容。如果您對數據分析報告是如何撰寫(xiě)的,這當中有哪些實(shí)際痛點(diǎn),以及我們如何用大數據、人工智能技術(shù)提出解決方案解決這些痛點(diǎn),等此類(lèi)話(huà)題感興趣,建議繼續閱讀本文。
文末還附了一個(gè)小Demo,直觀(guān)展示本文技術(shù)成果的同時(shí),也希望能為戰勝新冠疫情盡到我們的一份力。
01數據分析報告的撰寫(xiě)步驟
我們以常見(jiàn)的國家統計局數據報告為例,說(shuō)明數據分析報告的撰寫(xiě)步驟。國家統計局會(huì )定期(每月、每季度、每年)發(fā)布多個(gè)指數的數據報告,每個(gè)周期都需要按以下步驟進(jìn)行數據分析并形成分析報告:
第一步,領(lǐng)域模型的計算。該模型是此項數據分析任務(wù)的核心,例如,和我們生活息息相關(guān)的消費物價(jià)指數(CPI),就是國家統計局月季年各周期關(guān)注的核心模型之一。計算CPI指數時(shí),需要收集指標商品(8大類(lèi)268個(gè)基本分類(lèi)大約700余種)的當期價(jià)格及商品權重,根據CPI的計算公式,計算出當期CPI的值。CPI指數是一個(gè)體系,除了一個(gè)總體值之外,還會(huì )從不同維度進(jìn)行分類(lèi),例如:城市/農村、食品/非食品、消費品/服務(wù)、8大商品類(lèi)別等等。
第二步,進(jìn)行常見(jiàn)指標分析。有了核心指數,就可以利用統計學(xué)的各項常用指標對其進(jìn)行分析。例如,將當期值與往期值放在一起,計算累計值、同比、環(huán)比;將同級的當期值放在一起,計算均值、中位數、占比、貢獻度;等等。
第三步,進(jìn)行復雜序時(shí)分析。因為上述的指數和指標值在時(shí)間維度上形成序列,于是可以圍繞其在時(shí)間上的趨勢給出分析,例如,CPI同比是保持平穩、連續數月增長(cháng)還是轉頭向下,住房?jì)r(jià)格對CPI走低的影響是否越來(lái)越大;等等諸如此類(lèi)。
第四步,分析結果解讀。這一步主要是將數據分析結果以文字的形式表達出來(lái),將有亮點(diǎn)的數據結論單獨重點(diǎn)論述,并試圖給出數據變化可能的原因。這一步通常需要有經(jīng)驗的數據分析師付出大量的人力才能完成。
第五步,將前面所有的分析結果,包括表格、圖表、文字等,進(jìn)行合理、有效地組織和呈現,最終一篇完整的數據分析報告就“煉成”了。
02數據分析報告的痛點(diǎn)
從數據分析報告出爐的過(guò)程來(lái)看,數據分析報告作為政府、企業(yè)數字化轉型中的數據智能輔助決策的重要一環(huán),當前的實(shí)踐中普遍面臨以下痛點(diǎn)問(wèn)題:
?。?) 目前政務(wù)部門(mén)數據統計分析與報告編寫(xiě)大多停留在人工處理階段,數據分析和報告編寫(xiě)工作量大,費時(shí)費力,效率低下,且人工數據統計分析易于出錯,報告質(zhì)量難以得到保證。
?。?) 企業(yè)當前會(huì )使用一些商業(yè)智能(BI)工具進(jìn)行數據分析,但當前BI工具大多難以實(shí)時(shí)處理*敏*感*詞*數據,并且BI工具通常只能以數據表格或報表的形式呈現,無(wú)法自動(dòng)形成結論性的文字,因此撰寫(xiě)報告時(shí)仍有大量的工作要做。
03我們的解決方案
本公司通過(guò)在大數據、人工智能領(lǐng)域多年的技術(shù)積累和行業(yè)經(jīng)驗,運用這些技術(shù)構建了一鍵式自動(dòng)化數據分析報告生成平臺(暫定名)。該平臺能夠快速進(jìn)行數據統計、序時(shí)等分析,生成圖表并自動(dòng)給出文字結論,其中包括數據分析結果的描述,以及數據變化的可能原因,從而解決了前述數據分析報告撰寫(xiě)的痛點(diǎn)。平臺架構如下圖所示:
該平臺的幾個(gè)核心技術(shù)點(diǎn)分別如下:
(1)海量的數據管理
底層基于大數據存儲與計算平臺,支持數據以文件、數據庫等多種形式接入、采集、處理、檢驗、存儲,并支持維護數據的指標目錄樹(shù),為查詢(xún)及組成分析提供支持。
(2)數據分析引擎
平臺設計實(shí)現了靈活的查詢(xún)引擎,支持靈活條件的序時(shí)查詢(xún)、組合查詢(xún),可自由添加行列,設置時(shí)間頻率、數據單位,查詢(xún)起止時(shí)間,查詢(xún)條件等,并基于原始數據內置了同比、環(huán)比的增速、增量等計算指標,便于直接查詢(xún)計算后的數據并展示。若默認計算指標不滿(mǎn)足要求,可自行添加公式,設置自定義計算指標,滿(mǎn)足不同業(yè)務(wù)需求。查詢(xún)結果支持多種可視化圖表展示,并可保存為模板,方便再次使用。查詢(xún)結果也支持通過(guò)趨勢分析、排名分析、組成分析等進(jìn)行多種組成分析并組成本查詢(xún)指標的分析結果供參考。
(3)智能報告引擎
通過(guò)數據分析引擎分析到的結果,如果認為有價(jià)值,可插入報告模板中,并設置語(yǔ)句輸出條件及不同條件下的描述語(yǔ)句,用戶(hù)也可針對該數據通過(guò)歸因分析分析指標內在的關(guān)聯(lián)原因、組成原因等,提供更具深度的分析結果。多條語(yǔ)句按照報告主題組合就形成了一份完整的報告。
修改報告日期、語(yǔ)句規則的公共參數,可一鍵生成不同日期、不同維度的報告,大大提高了報告生成的效率,并積累形成行業(yè)模板,例如宏觀(guān)經(jīng)濟分析報告、產(chǎn)業(yè)/行業(yè)分析等報告。
(4)智能語(yǔ)句庫
平臺還運用自然語(yǔ)言處理、深度學(xué)習、知識圖譜等技術(shù),智能化閱讀各類(lèi)行業(yè)報告或政策文本,實(shí)現 “人工經(jīng)驗+智能化”的原因要素分析提取,形成報告分析行業(yè)原因語(yǔ)句庫,提升歸因分析的全面準確性。
(5)靈活的規則引擎
強大的數據分析引擎和智能報告引擎的一個(gè)基礎是規則引擎,通過(guò)規則原語(yǔ)與統一的接口,屏蔽了需要技術(shù)人員編寫(xiě)的數據查詢(xún)語(yǔ)句及復雜代碼邏輯,通過(guò)簡(jiǎn)單配置即可實(shí)現復雜的業(yè)務(wù)指標計算處理及判斷輸出,若業(yè)務(wù)邏輯過(guò)于復雜,也可通過(guò)低代碼方式進(jìn)行業(yè)務(wù)代碼編寫(xiě),滿(mǎn)足了不同用戶(hù)的需求,大大降低了用戶(hù)的學(xué)習成本,業(yè)務(wù)人員自己即可實(shí)現復雜業(yè)務(wù)編寫(xiě),不需要再尋求開(kāi)發(fā)技術(shù)人員進(jìn)行技術(shù)實(shí)現。
04總結
總的來(lái)講,在政府單位、企業(yè)的數字化轉型過(guò)程中:
我們的一鍵式自動(dòng)化數據分析報告生成平臺仍在積極開(kāi)發(fā)中,未來(lái)會(huì )變得更加強大和智能。與此同時(shí),當前的版本已可初步對外使用,歡迎感興趣的讀者前來(lái)垂詢(xún)和試用。
疫情分析預測與報告生成服務(wù)演示案例
自3月初開(kāi)始的國內本輪疫情形勢嚴峻,為了幫助政府和社會(huì )大眾及時(shí)了解各地疫情發(fā)展態(tài)勢,我們使用該智能化報告生成工具,制作了一個(gè)疫情分析預測查詢(xún)與報告生成服務(wù)網(wǎng)站,通過(guò)采集*敏*感*詞*疫情數據,可以多維度靈活地查詢(xún)各地的疫情態(tài)勢,并自動(dòng)生成*敏*感*詞*任意地區的疫情態(tài)勢日/周/月報,為政府疫情防控決策提供參考依據,為企業(yè)和社會(huì )大眾及時(shí)了解當地疫情態(tài)勢提供便捷手段。
?。c(diǎn)擊“閱讀原文”查看)。目前該疫情分析預測與報告生成服務(wù)平臺是首次開(kāi)發(fā)完成的演示版本,功能還在不斷完善中,請各位讀者試用并提出寶貴意見(jiàn),或者有特別的分析預測服務(wù)需求,也可以聯(lián)系我們。












