很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢如何成為春羽作者請聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
本人目前在一家在線教育公司擔任大數(shù)據(jù)營銷產(chǎn)品負責人,由于一些機緣巧合,我同時負責了數(shù)據(jù)產(chǎn)品線和營銷CRM產(chǎn)品線,因此給了我更多的機會去思考和實踐如何把數(shù)據(jù)與營銷業(yè)務深入融合,將大數(shù)據(jù)的勢能賦予營銷平臺,從而實現(xiàn)業(yè)務的精細化運營和數(shù)據(jù)驅動。
針對在線教育業(yè)務場景下的大數(shù)據(jù)營銷平臺實戰(zhàn),我會用一個系列的文章進行系統(tǒng)化闡述。文章可能會涉及:大數(shù)據(jù)平臺搭建、用戶畫像服務體系、CRM線索動態(tài)評分模型及分配算法、數(shù)據(jù)產(chǎn)品實施推廣方案、客戶數(shù)據(jù)中臺(CDP)等多個方向。
本篇主要來講解如何從0到1構建在線教育業(yè)務場景下的大數(shù)據(jù)平臺。
產(chǎn)品是為了滿足需求,是否需要構建大數(shù)據(jù)平臺?以及構建什么樣的大數(shù)據(jù)平臺?取決于企業(yè)的數(shù)據(jù)化程度和面臨的數(shù)據(jù)問題。因此在構建大數(shù)據(jù)平臺之前,需要進行充分地調研,找準問題才能對癥下藥。對企業(yè)數(shù)據(jù)化程度的評估方法,可以參考下圖所示的數(shù)據(jù)管理能力成熟度模型(DMM)。
通過前期的調研和分析,我們公司當時處于L2等級,面臨的主要數(shù)據(jù)問題如下:
01、數(shù)據(jù)源分散
不利于多數(shù)據(jù)源之間關聯(lián)分析
不利于數(shù)據(jù)資產(chǎn)價值的進一步挖掘
數(shù)據(jù)孤島嚴重
無統(tǒng)一數(shù)據(jù)平臺、數(shù)據(jù)資源得不到匯總沉淀,數(shù)據(jù)無法高效支撐業(yè)務
02、數(shù)據(jù)指標不統(tǒng)一
不同業(yè)務部門分而治之
準確性、權威性受到質疑
不利于公司各業(yè)務部門KPI考核
指標統(tǒng)計口徑需要標準化
03、數(shù)據(jù)分析效率低
各業(yè)務部門占用部分精力數(shù)據(jù)分析工作
對于數(shù)據(jù)的需求往往需要從原始數(shù)據(jù)開始
對數(shù)據(jù)分析師的支撐不夠
無成型完整的數(shù)據(jù)分析工具
04、數(shù)據(jù)管理問題
無統(tǒng)一數(shù)據(jù)字典
缺少數(shù)據(jù)地圖
無元數(shù)據(jù)管理
上一部分已經(jīng)對企業(yè)內部數(shù)據(jù)問題進行了全面診斷和問題剖析,接下來我們針對這些問題給出解決的架構方案和路線圖。
01、數(shù)據(jù)服務體系藍圖
從業(yè)務視角給出了如下的數(shù)據(jù)服務體系藍圖,數(shù)據(jù)服務體系的規(guī)劃需要滿足三點:數(shù)據(jù)服務體系需要覆蓋完整的公司業(yè)務、貫穿業(yè)務的各個階段、伴隨企業(yè)發(fā)展。
在此數(shù)據(jù)服務體系中,處于核心環(huán)節(jié)的是數(shù)據(jù)整體建模和數(shù)據(jù)資產(chǎn)管理,也就是我們熟悉的統(tǒng)一化數(shù)倉建設。結合在線教育業(yè)務特點,數(shù)倉建設需要滿足三個核心數(shù)據(jù)體系建設:
用戶數(shù)據(jù)體系:用戶分析應用、用戶標簽、用戶行為數(shù)據(jù),用戶基本信息主數(shù)據(jù)等;
營銷數(shù)據(jù)體系:營銷分析應用、營銷分層標簽、渠道特征數(shù)據(jù)、營收轉化相關的主數(shù)據(jù)等;
學習數(shù)據(jù)體系:學習分析應用、學習偏好標簽、學習行為數(shù)據(jù)、學習素材基礎數(shù)據(jù)等。
02、數(shù)據(jù)倉庫架構
數(shù)據(jù)倉庫的層次劃分采用業(yè)界通用的層級劃分方式,包括:ODS、DWD、DWS、ADS層,如下圖所示:
1.ODS層
數(shù)據(jù)同步:結構化數(shù)據(jù)增量或全量同步到數(shù)據(jù)倉庫;
結構化:非結構化(日志)結構化處理并存儲到數(shù)據(jù)倉庫;
累積歷史、清洗:根據(jù)數(shù)據(jù)業(yè)務需求及稽核和審計要求保存歷史數(shù)據(jù)、數(shù)據(jù)清洗;
2.CDM層
組合相關和相似數(shù)據(jù):采用明細寬表,復用關聯(lián)計算,減少數(shù)據(jù)掃描。
公共指標統(tǒng)一加工:基于OneData體系構建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計指標;建立邏輯匯總寬表。
建立一致性維度:建立一致的數(shù)據(jù)分析維表,降低數(shù)據(jù)計算口徑不統(tǒng)一的風險。
3.ADS層
個性化指標加工:不公用性、復雜性(指數(shù)型、比值型、排名型等)
基于應用的數(shù)據(jù)組裝:大寬表集市、橫表轉縱表、趨勢指標串。
03、數(shù)據(jù)處理流程架構
數(shù)據(jù)處理流程主要包括源數(shù)據(jù)同步清洗、數(shù)據(jù)處理加工、模型運算和數(shù)據(jù)應用?;谠诰€在線教育公司的業(yè)務特點,源數(shù)據(jù)主要包括:渠道數(shù)據(jù)、用戶數(shù)據(jù)、交易數(shù)據(jù)、營銷過程數(shù)據(jù)、學習數(shù)據(jù)、外部第三方數(shù)據(jù)等。
模型引擎包括離線計算引擎和實時計算引擎兩類,需要滿足算法(或規(guī)則)部署、模型訓練和上線、以及對其他業(yè)務系統(tǒng)提供接口服務的能力,比如為CRM系統(tǒng)提供多算法的線索實時分配、用戶畫像分層等服務。在數(shù)據(jù)的匯聚、加工生產(chǎn)、應用的全流程中,全生命周期的數(shù)據(jù)治理不能忽視,因為數(shù)據(jù)的準確定、完整性、一致性直接影響業(yè)務對數(shù)據(jù)系統(tǒng)的可信度。
04、從0到1構建大數(shù)據(jù)平臺的Road Map
筆者結合自身在推進大數(shù)據(jù)平臺建設過程中的經(jīng)驗,給出以下路線圖供大家參考。
維度建模常見的模型有星型模型、雪花模型和星座模型三種,數(shù)據(jù)倉庫設計一般采用星型模型。
星型模型是一種多維的數(shù)據(jù)關系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù)。
事實表:表示對分析主題所屬類型的描述。比如“昨天早上張三在環(huán)球網(wǎng)?;ㄙM1000元購買了一個一建零基礎暢學班課程”。那么以購買為主題進行分析,可從這段信息中提取三個維度:時間維度(昨天早上),地點維度(環(huán)球網(wǎng)校), 商品維度(一建零基礎暢學班課程)。通常來說維度表信息比較固定,且數(shù)據(jù)量小。
維度表:表示對分析主題的度量。比如上面那個例子中,1000元就是事實信息。事實表包含了與各維度表相關聯(lián)的外碼,并通過JOIN方式與維度表關聯(lián)。事實表的度量通常是數(shù)值類型,且記會不斷增加,表規(guī)模迅速增長錄數(shù)。
02、數(shù)倉表設計規(guī)范
1.表命名規(guī)范
數(shù)倉各層表命名規(guī)范如下圖所示。
2.字段級規(guī)范
新增指標的命名參考已有字段命名方式,避免出現(xiàn)同一個字段,10個人有10個命名方法。
字段分類包括:明細,維度,指標,時間,代碼,標志位,命名規(guī)范如下:
id結尾表示編號,部分維度編號對應含義需關聯(lián)數(shù)倉相應維度表獲取含義;
name結尾表示名稱,多與id對應,解釋其含義,獨立的以name結尾的字段;
code結尾表示代碼字段,對應含義部分可在文檔直接查看,部分需關聯(lián)數(shù)倉代碼表獲?。?/p>
time結尾表示時間字段,格式為yyyy-mm-dd hh:mi:ss,從源系統(tǒng)獲取,不作處理;
money結尾表示金額,都為系統(tǒng)相應交易金額;
is_開頭表示標志字段,此字段只有0,1,含義:1是,0否;
除以上規(guī)范字段,其他字段根據(jù)中文含義對應生成英文字段,多為一些屬性字段,意義不大。
04、大數(shù)據(jù)平臺技術架構及模塊簡介
在大數(shù)據(jù)平臺的建設過程中,筆者和公司大數(shù)據(jù)架構師共同研究探討后給出的技術架構如下圖所示。
1.安全模塊
作為數(shù)據(jù)平臺來講,保障數(shù)據(jù)安全始終是第一要素。安全體系的建立主要包含以下幾個方面:
(1)數(shù)據(jù)安全規(guī)范、安全等級制定
(2)用戶系統(tǒng)
(3)基礎組件層權限管理
(4)服務層權限管理
(5)用戶認證
(6)秘鑰管理
(7)流程審批
(8)數(shù)據(jù)加密脫敏
(9)審計
2.監(jiān)控模塊
數(shù)據(jù)安全之外,服務的穩(wěn)定性算是平臺的第二級指標。好的監(jiān)控體系可以幫助預測風險定位問題。例如:
(1)提前預判磁盤容量
(2)定位內存、CPU資源問題
(3)發(fā)現(xiàn)異常任務
(4)節(jié)點宕機等問題
(5)查看該各服務負載,評估資源
3.存儲模塊
存儲模塊屬于基礎組件模塊,主要采用hadoop生態(tài)系統(tǒng)的相關組件。面向不同的應用場景選擇一種組件,例如:
hive:離線數(shù)倉
HBase:KV存儲,可用于高度聚合后的固定指標,應對有較高并發(fā)請求的場景
Druid:面向OLAP場景,能夠提供亞秒級、較高請求量且需要鉆取能力的OLAP功能
Impala:在數(shù)倉數(shù)據(jù)基礎上提供更高效的查詢分析能力,適合即席查詢場景,但是并不能處理更高的請求量。
4.計算模塊
Yarn做統(tǒng)一資源管理,Spark或者Flink都可以作為統(tǒng)一流、批處理框架?;蛘唠A段性允許兩者并存。
5.管理模塊
數(shù)據(jù)治理:數(shù)倉管理數(shù)據(jù)的主要平臺,包括:
(1)元數(shù)據(jù)管理
(2)數(shù)據(jù)質量管理
(3)血緣關系管理
(4)數(shù)據(jù)安全、權限管理
(5)任務管理:包含管道任務、SQL任務、Shell任務等形態(tài),數(shù)倉場景中SQL任務占整體任務的絕大多數(shù)。
(6)離線任務管理、調度:需要基于SQL自動生成任務之間的依賴關系,并且按照任務之間的依賴關系和優(yōu)先級調度任務。
(7)流式任務管理:流式任務發(fā)布、監(jiān)控、重啟等操作。
致此,在線教育大數(shù)據(jù)營銷平臺實踐第一篇文章已經(jīng)結束,下篇文章筆者會闡述在大數(shù)據(jù)平臺建設的初期,如何將數(shù)據(jù)倉庫和神策分析系統(tǒng)(sa)相結合來快速滿足運營人員對數(shù)據(jù)分析的需求,開啟數(shù)據(jù)化運營戰(zhàn)略落地的序幕。
?-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網(wǎng)絡信息。
一、根據(jù)《網(wǎng)絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網(wǎng)站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權歸屬本網(wǎng)站所有)