數據剖析 | 基于智能標簽,精準管理數據
優(yōu)采云 發(fā)布時(shí)間: 2020-08-03 19:03騰訊:社交廣告,不同用戶(hù)的朋友圈或則其他媒體場(chǎng)景下的廣告信息是不同的,會(huì )基于用戶(hù)特點(diǎn)推薦。
頭條:信息價(jià)值,根據用戶(hù)瀏覽信息,分析用戶(hù)相關(guān)喜好,針對剖析結果推薦相關(guān)的信息流,越關(guān)注某類(lèi)內容,獲取相關(guān)的信息越多。
如上幾種場(chǎng)景的邏輯就是:基于不斷剖析用戶(hù)的行為,生成用戶(hù)的特點(diǎn)畫(huà)像,然后再基于用戶(hù)標簽,定制化的推薦相關(guān)內容。
2、基本概念
通過(guò)前面的場(chǎng)景,衍生下來(lái)兩個(gè)概念:
用戶(hù)畫(huà)像
用戶(hù)畫(huà)像,作為一種描繪目標用戶(hù)、聯(lián)系用戶(hù)訴求與設計方向的有效工具,把該用戶(hù)相關(guān)聯(lián)的數據的可視化的詮釋?zhuān)彤a(chǎn)生了用戶(hù)畫(huà)像。用戶(hù)畫(huà)像在各領(lǐng)域得到了廣泛的應用,最初是在電商領(lǐng)域得到應用的,在大數據時(shí)代背景下,用戶(hù)信息參雜在網(wǎng)路中,將用戶(hù)的每位具體信息具象成標簽,利用這種標簽將用戶(hù)形象具體化,從而為用戶(hù)提供有針對性的服務(wù)。
標簽數據
標簽在生活中十分常見(jiàn),比如商品標簽,個(gè)人標簽,行業(yè)標簽,例如提及996就想到程序員,提到程序員就想到格子衫。
標簽是把分散的多方數據進(jìn)行整合劃入統一的技術(shù)平臺,并對那些數據進(jìn)行標準化和細分,進(jìn)行結構化儲存和更新管理,讓業(yè)務(wù)線(xiàn)可以把這種細分結果推向現有的互動(dòng)營(yíng)銷(xiāo)環(huán)境里的平臺,產(chǎn)生價(jià)值,這些數據稱(chēng)為標簽數據,也就是常說(shuō)的標簽庫。數據標簽的概念也是在近來(lái)幾年大數據的發(fā)展中不斷火爆上去的。
標簽價(jià)值
標簽的核心價(jià)值,或者說(shuō)最常用的場(chǎng)景:實(shí)時(shí)智能推薦,精準化數字營(yíng)銷(xiāo)。
二、數據標簽1、標簽界定
屬性標簽
屬性標簽是變化最小的,例如用戶(hù)實(shí)名認證以后,基于身分信息獲取相關(guān):性別,生日,出生年月,年齡,等相關(guān)標簽。變動(dòng)頻度小,且最具有精準性。
行為標簽
行為標簽就是用戶(hù)通過(guò)在產(chǎn)品上的一系列操作,基于行為日志剖析得出:例如訂購能力、消費愛(ài)好、季節性消費標簽等。在信息流的APP上,通過(guò)相關(guān)瀏覽行為,不斷推薦用戶(hù)感興趣的內容就是基于該邏輯。
規則標簽
根據業(yè)務(wù)場(chǎng)景需求,配置指定規則,基于規則生成剖析結果,例如:
這類(lèi)標簽可以基于動(dòng)態(tài)的規則配置,經(jīng)過(guò)估算和剖析,生成描述結果,也就是規則標簽。
擬合標簽
擬合類(lèi)的標簽最具有復雜性,通過(guò)用戶(hù)上述幾種標簽,智能組合剖析,給的預測值,例如:未婚、瀏覽相關(guān)婚宴內容,通過(guò)剖析預測用戶(hù)即將舉行婚宴,得到一個(gè)擬合結果:預測即將訂婚。這個(gè)預測邏輯也可以反向執行,用戶(hù)訂購小孩用具:預測未婚已育。
這就是數據時(shí)代常說(shuō)的一句話(huà):用戶(hù)在某個(gè)應用上一通操作過(guò)后,算法剖析的結果可能比用戶(hù)對自己的描述還要真實(shí)。
2、標簽加工流程
數據采集
數據采集的渠道相對較多,比如同一APP內的各類(lèi)業(yè)務(wù)線(xiàn):購物、支付、理財、外賣(mài)、信息瀏覽等等。通過(guò)數據通道傳輸到統一的數據聚合平臺。有了這種海量日志數據的支撐,才具有數據剖析的基礎條件。不管是數據智能,深度學(xué)習,算法等都是構建在海量數據的基礎條件上,這樣就能獲取具有價(jià)值的剖析結果。
數據加工
結合如上業(yè)務(wù),通過(guò)對海量數據的加工,分析和提取,獲取相對精準的用戶(hù)標簽,這里還有關(guān)鍵的一步,就是對已有的用戶(hù)標簽進(jìn)行不斷的驗證和修補,尤其是規則類(lèi)和擬合類(lèi)的相關(guān)標簽。
標簽庫
通過(guò)標簽庫,管理復雜的標簽結果,除了復雜的標簽,和基于時(shí)間線(xiàn)的標簽變,標簽數據到這兒,已經(jīng)具有相當大的價(jià)值,可以圍繞標簽庫開(kāi)放一些收費服務(wù),例如常見(jiàn)的,用戶(hù)在某電商APP瀏覽個(gè)別商品,可以在某信息流平臺見(jiàn)到商品推薦。大數據時(shí)代就是如此令人覺(jué)得智能和窒息。
標簽業(yè)務(wù)
數據走了一大圈轉換成標簽,自然還是要回歸到業(yè)務(wù)層面,通過(guò)對標簽數據的用戶(hù)的剖析,可以進(jìn)行精準營(yíng)銷(xiāo),和智能推薦等相關(guān)操作,電商應用中可以提升成交量,信息流中可以更好的吸引用戶(hù)。
應用層
把上述業(yè)務(wù)開(kāi)發(fā)成服務(wù),集成到具有的應用層面,不斷提高應用服務(wù)的質(zhì)量,不斷的吸引用戶(hù),提供服務(wù)。當然用戶(hù)的數據不斷在應用層面形成,在轉入數據采集服務(wù)中,最終產(chǎn)生完整的閉環(huán)流程。
3、應用案例
從流程和業(yè)務(wù)層面描述都是簡(jiǎn)單的,到開(kāi)發(fā)層面就會(huì )顯得復雜和不好處理,這可能就是產(chǎn)品和開(kāi)發(fā)之間的芥蒂。
標簽的數據類(lèi)型
不同標簽的剖析結果須要用不同的數據類(lèi)型描述智能標簽采集器,在標簽體系中,常用描述標簽的數據類(lèi)型如下:枚舉、數值、日期、布爾、文本類(lèi)型。不同的類(lèi)型須要不一樣的剖析流程。
商品和標簽
這里提供一個(gè)基礎案例,用商品的標簽來(lái)剖析商品,例如通過(guò)商品產(chǎn)地,價(jià)格,狀態(tài)等條件,來(lái)查詢(xún)產(chǎn)品庫有多少符合條件的商品。
數據表設計
主要分四張表:標簽分類(lèi)智能標簽采集器,標簽庫,標簽值,標簽數據。
CREATE TABLE `tc_tag_catalog` (
`id` INT (11) NOT NULL AUTO_INCREMENT COMMENT '主鍵ID',
`catalog_name` VARCHAR (50) NOT NULL DEFAULT '' COMMENT '名稱(chēng)',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間',
`update_time` datetime DEFAULT NULL COMMENT '更新時(shí)間',
`state` INT (1) DEFAULT '1' COMMENT '狀態(tài)1啟用,2禁用',
PRIMARY KEY (`id`)
) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT = '標簽層級目錄';
CREATE TABLE `tc_tag_cloud` (
`id` INT (11) NOT NULL AUTO_INCREMENT COMMENT '主鍵ID',
`catalog_id` INT (11) NOT NULL COMMENT '目錄ID',
`tag_name` VARCHAR (100) DEFAULT '' COMMENT '標簽名稱(chēng)',
`tag_code` INT (11) DEFAULT NULL COMMENT '標簽編碼',
`bind_column` VARCHAR (100) DEFAULT '' COMMENT '綁定數據列',
`data_type` INT (2) NOT NULL COMMENT '1枚舉,2數值,3日期,4布爾,5值類(lèi)型',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間',
`update_time` datetime DEFAULT NULL COMMENT '更新時(shí)間',
`remark` VARCHAR (150) DEFAULT NULL COMMENT '備注',
`state` INT (1) DEFAULT '1' COMMENT '狀態(tài)1啟用,2禁用',
PRIMARY KEY (`id`)
) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT = '標簽云';
CREATE TABLE `tc_tag_data_enum` (
`tag_code` INT (11) NOT NULL COMMENT '標簽編碼',
`data_value` VARCHAR (150) NOT NULL COMMENT '枚舉值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間',
KEY `tag_code_index` (`tag_code`) USING BTREE
) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT = '標簽枚舉值';
CREATE TABLE `tc_tag_data_set` (
`id` INT (11) NOT NULL AUTO_INCREMENT COMMENT '主鍵ID',
`product_name` VARCHAR (100) DEFAULT '' COMMENT '商品名稱(chēng)',
`unit_price` DECIMAL (10, 2) DEFAULT '0.00' COMMENT '單價(jià)',
`is_shelves` INT (1) DEFAULT '1' COMMENT '是否上架:1否,2是',
`origin_place` VARCHAR (100) DEFAULT '' COMMENT '產(chǎn)地',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng )建時(shí)間',
PRIMARY KEY (`id`)
) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT = '標簽數據集';
模擬入參插口
這里的參數應當是基于需求,動(dòng)態(tài)選定,進(jìn)行組織到一起:
例如圖片中這兒給定的標簽值列表,稱(chēng)為枚舉值。
@RestController
public class AnalyzeController {
@Resource
private TagDataSetService tagDataSetService ;
@GetMapping("/analyze")
public String analyze (){
List tagParamList = new ArrayList() ;
TagParam tagParam1 = new TagParam(1,"產(chǎn)地","origin_place") ;
List valueList1 = new ArrayList() ;
valueList1.add("深圳");
valueList1.add("廣東");
tagParam1.setValueList(valueList1);
tagParamList.add(tagParam1) ;
TagParam tagParam2 = new TagParam(2,"價(jià)格","unit_price") ;
List valueList2 = new ArrayList() ;
valueList2.add("1999");
tagParam2.setValueList(valueList2);
tagParamList.add(tagParam2) ;
TagParam tagParam3 = new TagParam(3,"生產(chǎn)日期","create_time") ;
List valueList3 = new ArrayList() ;
valueList3.add("2020-05-01 13:43:54");
tagParam3.setValueList(valueList3);
tagParamList.add(tagParam3) ;
TagParam tagParam4 = new TagParam(4,"是否上架","is_shelves") ;
List valueList4 = new ArrayList() ;
valueList4.add("1");
tagParam4.setValueList(valueList4);
tagParamList.add(tagParam4) ;
TagParam tagParam5 = new TagParam(5,"產(chǎn)品名稱(chēng)","product_name") ;
List valueList5 = new ArrayList() ;
valueList5.add("智能");
tagParam5.setValueList(valueList5);
tagParamList.add(tagParam5) ;
Integer count = tagDataSetService.analyze(tagParamList) ;
return "Result:" + count ;
}
}
參數解析查詢(xún)
通過(guò)對參數的解析,最終產(chǎn)生查詢(xún)的SQL句子,獲取精準的結果數據。
@Service
public class TagDataSetServiceImpl extends ServiceImpl implements TagDataSetService {
@Resource
private TagDataSetMapper tagDataSetMapper ;
@Override
public Integer analyze(List tagParamList) {
StringBuffer querySQL = new StringBuffer() ;
for (TagParam tagParam:tagParamList){
querySQL.append(" AND ") ;
querySQL.append(tagParam.getBindColumn()) ;
// 1枚舉,2數值,3日期,4布爾,5值類(lèi)型
List valueList = tagParam.getValueList();
switch (tagParam.getDataType()){
case 1:
querySQL.append(" IN (") ;
for (int i = 0 ; i < valueList.size() ;i++){
if (i != valueList.size()-1){
querySQL.append("'").append(valueList.get(i)).append("',");
} else {
querySQL.append("'").append(valueList.get(i)).append("'");
}
}
querySQL.append(" )") ;
break;
case 2:
querySQL.append("=").append(tagParam.getValueList().get(0)) ;
break;
case 3:
querySQL.append(">='").append(tagParam.getValueList().get(0)).append("'") ;
break;
case 4:
querySQL.append("=").append(tagParam.getValueList().get(0)) ;
break;
case 5:
querySQL.append(" LIKE '%").append(tagParam.getValueList().get(0)).append("%'") ;
break;
default:
break;
}
}
/* 最終執行的 SQL
SELECT COUNT(*) FROM tc_tag_data_set
WHERE 1 = 1
AND origin_place IN ('深圳', '廣東')
AND unit_price = 1999
AND create_time >= '2020-05-01 13:43:54'
AND is_shelves = 1
AND product_name LIKE '%智能%'
*/
String whereCondition = String.valueOf(querySQL);
return tagDataSetMapper.analyze(whereCondition);
}
}
可能有人會(huì )說(shuō)這不就是個(gè)查詢(xún)流程嗎?如果有這樣的疑惑,把上述案例換成用戶(hù)查詢(xún),標簽數據的價(jià)值會(huì )更直觀(guān)。
三、智能畫(huà)像1、基本概念
用戶(hù)畫(huà)像
作為一種繪制目標用戶(hù)、聯(lián)系用戶(hù)訴求與設計方向的有效工具,用戶(hù)畫(huà)像在各領(lǐng)域得到了廣泛的應用。最初是在電商領(lǐng)域得到應用的,在大數據時(shí)代背景下,用戶(hù)信息參雜在網(wǎng)路中,將用戶(hù)的每位具體信息具象成標簽,利用這種標簽將用戶(hù)形象具體化,從而為用戶(hù)提供有針對性的服務(wù)。
行業(yè)畫(huà)像
通過(guò)行業(yè)屬性標簽,行業(yè)下用戶(hù)標簽的綜合剖析,生成行業(yè)剖析報告,提供極有價(jià)值的導向,這是最近兩年非常熱門(mén)的應用。
畫(huà)像補全
通過(guò)不斷剖析用戶(hù)數據,豐富標簽庫,使用戶(hù)的畫(huà)像愈發(fā)豐富立體。
2、畫(huà)像報告
通過(guò)標簽數據的剖析,生成一份剖析報告,報告內容包含豐富的用戶(hù)標簽統計數據。
例如:90后畫(huà)像報告
這個(gè)報告,互聯(lián)網(wǎng)用戶(hù)一定或多或少都聽(tīng)到過(guò)。主要是一些標簽統計,共性標簽展示,或者什么群體對80后三觀(guān)影響最大,收入來(lái)源,*敏*感*詞*等各類(lèi)剖析評析。
四、源代碼地址
GitHub·地址
https://github.com/cicadasmile/data-manage-parent
GitEE·地址
https://gitee.com/cicadasmile/data-manage-parent




