很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
來源|接地氣的陳老師
數(shù)據(jù)分析師該如何與算法工程師合作,是個老大難問題。一方面是業(yè)務(wù)方日益提高的,對模型的幻想。另一方面是大量企業(yè)里存在的數(shù)據(jù)采集差,缺少足夠數(shù)據(jù)人員,工作目標不清晰等等問題。分析與算法到底該如何協(xié)同增效?今天系統(tǒng)分享一下。
狗不理式:有些公司領(lǐng)導喜歡嫌棄自家數(shù)據(jù)分析師沒本事,總認為“上個模型才牛逼”。于是數(shù)據(jù)分析師們皆明哲保身,干脆和所有帶“模型”倆字的工作劃清界限,統(tǒng)統(tǒng)甩給算法工程師。
這么干,當然會坑死算法。
且不說,很多時候領(lǐng)導口中的模型根本就是“SWOT”一類虛無縹緲的東西;
且不說,很多建模目標根本就是:“預(yù)測我做什么能成功”一類不切實際的東西。
就單單基礎(chǔ)特征篩選工作沒人支持一項,就會讓算法工程師累死。項目進度慢,最后還是被嫌棄:“為啥你的模型不能100%精準預(yù)測?。?!”
當然,此類問題常見于傳統(tǒng)企業(yè)。特別是數(shù)字化轉(zhuǎn)型階段,領(lǐng)導們看了很多高大上的ppt,自以為自己很懂的傳統(tǒng)企業(yè)。
當狗用式:一些互聯(lián)網(wǎng)公司對于算法的應(yīng)用有相對清晰的定位,算法小組的地位也較高。于是走向另一極端:把配給算法組的分析師當狗使。做啥你不用管,你按我說的取數(shù)就好了。用無休無止的取數(shù)表淹沒了數(shù)據(jù)分析的工作。
這么干,坑的是所有人。因為連數(shù)據(jù)分析師都不懂算法邏輯,那運營部門更不懂。在茫然無知的情況下,運營部門只能通過簡單的數(shù)據(jù)指標監(jiān)控,來推測算法效果。并且稍有風吹草動,就開始質(zhì)疑:“算法不靈了吧!”,“你們悄悄改了啥!”,“就是你們瞎搞!”這些質(zhì)疑,又會成為部門間甩鍋、扯皮的導火索,引發(fā)無休無止的內(nèi)耗。
從本質(zhì)上看,分析和算法,都是數(shù)據(jù)的應(yīng)用。那么靈魂拷問來了:是不是有了數(shù)據(jù),鈔票就源源不斷從電腦里噴出來了?顯然不是!數(shù)據(jù)本身不能包治百病,想讓數(shù)據(jù)發(fā)揮作用,得緊密結(jié)合業(yè)務(wù)實際,找好數(shù)據(jù)能幫上忙的發(fā)力點才行。
而業(yè)務(wù)的實際情況又很復雜,經(jīng)常是數(shù)據(jù)和業(yè)務(wù)行為交織在一起。
比如:
短視頻DAU下降,是算法推薦不給力,還是創(chuàng)作者本身質(zhì)量太差
交易轉(zhuǎn)化率下降,是商品推薦不給力,還是貨源本身沒有選好
業(yè)績預(yù)測不精準,是預(yù)測模型不給力,還是業(yè)務(wù)自己放水了
這時候,業(yè)務(wù)部門永遠可以甩鍋:“我們的數(shù)據(jù)太無能,我們要是有字節(jié)的算法就牛逼了”。而數(shù)據(jù)這邊,不管是算法還是分析,都是背鍋的。所以最終的破局思路,是數(shù)據(jù)的同學們團結(jié)一致,找好場景,做出成績,減少背鍋,而不是自己人踩自己人。
空口說顯得太空洞,下邊結(jié)合一個具體問題場景看看。
問題場景:某大型制造企業(yè),期望建立“多維度立體式分析模型”,提升招聘效率。問,此時該怎么接需求?
這是個典型的需求不清晰場景。
什么叫:招聘效率?
招聘成本更低?招聘回來以后留存更好?招聘到合適的人?
什么叫合適的人?是否已經(jīng)有清晰定義?
流水線工人、銷售、營銷策劃、管理人員的“合適”定義是否一致?
流水線工人、銷售、營銷策劃、管理人員的招聘問題是否相同?
以上情況統(tǒng)統(tǒng)不清楚。
因此無論是算法/分析,誰接需求,都得先問清上邊的問題。當然,在問題定義都模糊不清的時候,讓數(shù)據(jù)分析師站出來溝通更合適。數(shù)據(jù)分析師和業(yè)務(wù)貼的更近,更容易理解業(yè)務(wù)語言,引導業(yè)務(wù)思路。
業(yè)務(wù)方進一步給出的回答是:
1、要幫助管理崗位招到更合適的人
2、要發(fā)現(xiàn):XX省市的流水線工人更容易招,我們集中招聘
3、要讓整個部門的用人成本,控制在XXX萬元以內(nèi)
那么,是不是可開始建“多維度”“立體式”的模型了呢?
不!遠遠不到!
有三大問題,制約著項目推進:
1、管理崗位的“合適”定義不清晰。管理人員的考核,遠比流水線工人復雜。流水線工人只要考察年齡、身份證、學歷幾個簡單維度即可,考操作技巧也能通過標準化作業(yè)考核。管理人員則復雜的多,還有“領(lǐng)導看他順不順眼”這種高度個性化、無法量化的考核點。因此不能簡單的止步在這里。需要進一步定義。
2、各省市勞動力數(shù)據(jù)缺失。注意:從現(xiàn)在HR收到的簡歷里篩選出合適的,和從茫茫人海里鎖定哪里的勞動力多,完全是兩個問題。因為已經(jīng)收到的可以統(tǒng)計數(shù)據(jù),茫茫人海壓根連數(shù)據(jù)都沒有。如果盲目開工,很有可能引發(fā)誤判。
3、整體部門用人成本與招聘效率,根本就是兩個問題。整個部門用人成本,除了新招聘以外,還有在職工資福利,還有離職人員賠償?shù)鹊?。如果目標是控部門整體成本,那到底哪一塊總量最高,哪一塊占比最大,哪一塊是冗余,哪一塊增長最快,要提前一一分析清楚。再看怎么解決。
此時,可以拆出至少五個任務(wù)。
任務(wù)1:定義管理崗位的“合適”(可能為了定義合適,要單獨建個業(yè)務(wù)模型,比如勝任力模型)。
任務(wù)2:基于過往面試數(shù)據(jù),為管理崗位“合適”做標注,為建模做準備。
任務(wù)3:收集各地區(qū)勞動力市場數(shù)據(jù)(勞動力市場發(fā)布信息、中介提供信息等)。
任務(wù)4:結(jié)合過往招聘活動,驗證分地區(qū)招聘合理性(也有可能求職者雖然是內(nèi)地省份的人,但是找工作還是跑到沿海省份找,分地區(qū)意義沒那么大,這些假設(shè)都待驗證)。
任務(wù)5:分析整體用人成本結(jié)構(gòu)與走勢,找到成本控制關(guān)鍵點。
這五個任務(wù),主要都是數(shù)據(jù)分析的活。數(shù)據(jù)分析理清現(xiàn)狀,采集數(shù)據(jù),后邊算法就能有的放矢。比如:
1、在已有管理崗位“合適/不合適”標注的情況下,結(jié)合簡歷信息、獵頭給到信息、招聘渠道信息,對面試人員建分類預(yù)測的模型(邏輯回歸/決策樹),預(yù)測“合適”概率
2、在已經(jīng)有整體用人成本結(jié)構(gòu)、增長原因、發(fā)展趨勢數(shù)據(jù)情況下,建預(yù)測模型(時間序列/多元回歸)判斷用人成本是否會超出預(yù)期,從而干預(yù)決策(不要因為短期缺人就大量招聘,對比給加班費和增加新人成本差異)。
當然,還有第三個合作點:在工作中遭遇挑戰(zhàn),大家一起應(yīng)對。
面對“模型為什么不準!”終極問題,一定是所有人一起努力。首先要排除的,是外部因素、意外波動、業(yè)務(wù)主動行為的影響。不要是個問題就往模型身上潑臟水。
比如:
突然有高管變動,引發(fā)管理層招聘要求全變
招工來源地發(fā)生疫情,人員出不來
行業(yè)領(lǐng)頭企業(yè)突然提高了薪資,拉高了整個行業(yè)成本
原定的招聘計劃因為各種原因推遲
所有這些因素都會讓原先設(shè)計的模型不成立或者效果下降。應(yīng)對這些變化,數(shù)據(jù)分析要沖在前邊,在日常監(jiān)控數(shù)據(jù)的時候,就及早發(fā)現(xiàn)問題,提示業(yè)務(wù)風險,提醒所有人關(guān)注變化。而不是等著業(yè)務(wù)打上門來再來扯皮。
算法和分析的工作性質(zhì)差異,使得這兩者合作分工的時候,天生側(cè)重點不同。理想的合作方式,就是:分析掃清業(yè)務(wù)障礙,算法集中提升效率。大家一起做出成績。
實際上,如果你工作時間夠久,和業(yè)務(wù)接觸得夠多,就會發(fā)現(xiàn):大部分直接從業(yè)務(wù)口中冒出來的“建模型”需求,都不靠譜,不是數(shù)據(jù)缺失,就是目標不清。別是涉及預(yù)測問題的時候(分類問題相對好一點)。經(jīng)過數(shù)據(jù)分析師轉(zhuǎn)化的需求,反而靠譜很多。
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內(nèi)容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內(nèi)容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)