chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
大數據會說謊:看穿數據的真相
2021-06-04 17:38:31

作者 | 林壯壯

最近接連溫習了幾本數據相關的書,作為數學系畢業(yè)的學生,雖然畢業(yè)多年都無緣從事數據相關的職業(yè),基礎的理論知識也基本化整為零,但我對數據一直都蠻感興趣的,在此也想分享下我的一些看法。


一家公司宣布3003人持有該公司的股份,每人平均持有660股。


乍一看,優(yōu)秀優(yōu)秀。


別急著鼓掌,這個令人驚嘆的數據背后還有另一信息沒有透露:“公司累計200萬股股票,其中三大股東的股份占了3/4,而剩下的3000人總共持有的股份只占1/4“。


同樣的,之前民間盛傳的騰訊人均月薪7.18萬,看起來是否也頗為可疑?

首先,這數據精確得讓人吃驚;其次,未加說明的平均數都是耍流氓;最后,即便你做了大樣本調查,可收入作為敏感信息,免不了參雜虛報和瞞報的情況,可信度也要大打折扣。這種話題作為媒體的噱頭聽聽就好,當真了可是要傷心的。


但事實上,人容易為數據癡迷。


學生的能力不好評估,但考試成績和學位證書可以佐證,于是家長們爭先恐后地幫孩子報了補習班;了解一個陌生人很難,但朋友圈和Facebook提供了一個渠道,于是我們都執(zhí)著于在網上塑造一個理想人設。

看吧,我們一直置身于大數據的熱潮中。


我的大學朋友基本上都在從事大數據計算相關的職業(yè),平常我們閑聊時,或多或少會感嘆大數據給我們帶來的雙刃劍。在充斥數據和算法的年代,究竟是數據為我,還是我為數據?數據是不是就等于我們自己?這個命題太大,我只能隨波逐流。

今天主要是想認真探討下,這么多年來,你我曾經陷入的數據陷阱以及我們能采取的行動。

一、數據會說謊?

大數據是個好工具,尤其到了現在,它早已被放大了光環(huán),給我們帶來了諸多便利。你瀏覽過什么,對什么感興趣,推薦算法總是能精準地匹配你的口味(或者說,大數據定義了你的口味)。


當然,唱衰大數據的人也不少:“數據只是證實了顯而易見的事實?!辈簧偃藢Υ瞬恍家活?。

然而,我最近看到的幾個案例,都不止一次地讓我啼笑皆非:數據一次又一次地證明了很多我們想當然的推測跟真實是不相符的。


你可能會認為,在暴力電影放映后的當天,那些有攻擊性的年輕人會更易怒,犯罪率鐵定會上升。但事實上,有經濟學家通過數據分析,在電影結束后到次日的凌晨,犯罪率持續(xù)在下降。一方面暴力電影讓潛在的暴力人群離開了街頭,另一方面由于影院幾乎不供應酒類飲品,減少了酒精有關的犯罪活動。


大數據為人我們提供了一個新維度的視角,覆蓋面較單一的意會更廣,讓我們對世界的認知也更立體了。

也正是因為如此,我在看一些調研報告的時候發(fā)現,這把雙刃劍的另一面,終于還是現出了他的真面目。

1、相關性而非因果性

大數據顯示,某地某時段起飛了多少只白天鵝,據此推斷天鵝都是白的。


這顯然太扯了,但你敢拍著胸脯保證自己沒掉過這類圈套嗎?


甚至有些時候,如果我們無法證明自己想要證明的東西,下意識地就會展示一些其他東西,并假裝他們是一樣的。畢竟現在統(tǒng)計數據讓人目不暇接,幾乎沒人會察覺到其中的差別,不是嗎?


說到這我也不得不反思,我難道沒有過嗎?掀開這層遮羞布,坦白說,不少情況下當我試圖爭取更多的權益和話語權時,不自覺地也使了這樣的把戲。

運用“看似相關的數據”作為論據,要么是無心之失,要么就是慣用伎倆。


學生時代當我還對數學建模競賽上心時,考題要求預測一個數值變化趨勢,我當時就默默發(fā)現了一個“秘密”,即:給你一組數據,你可以使用任一種范式去找到一個看似好使的指標,但換一組數據,這個指標就失靈了。變量太多,你能試驗的樣本太少,于是你很容易發(fā)現這種假相關性,更別提你想基于這個相關性去推導因果性了。


退一步來說,即便我們通過一個人平常訪問網站的內容,監(jiān)察到他有了犯罪的沖動,那到底是抓他還是不抓他?如果我們不能保證自己是正義的,那么我們也不會在意自己是否邪惡。

有些人很擅長利用現有數據去預估接下來的數據變化,可能是多維度的觀察,也可能是有了足夠的數據樣本。但是,數據會變,我們會變,如果你迷信數據而忽視本質,那么大數據就不能用于預測,只能預測有意會的預測。


重申一遍,大數據只能提供相關性,而非因果性。具有純粹因果關系的事情很少,因為現在事物間的聯(lián)系變得越來越復雜,影響因素有很多。真正的數據是工具,而非結論或原因。

2、數據太“薄”

人們總會錯誤地認為無論樣本數量多么少,都能反映種族的特征。


我在讀達萊爾·哈夫的《統(tǒng)計數據會說謊》時,書中提到一個經典的醫(yī)療實驗:


一個地區(qū)的450名兒童注射了小兒麻痹癥疫苗,另有680名兒童作為對照沒有接受注射。不久之后,該地區(qū)出現了傳染病。注射過疫苗的兒童中沒有一個患上小兒麻痹癥。


看到這,你可能要給出小兒麻痹疫苗的有效性的結論了。


但,這個實驗還有后續(xù)。事實上,對照組中也沒有兒童患?。?/p>


縱觀小兒麻痹癥的發(fā)病率,本來就比較低,這么大規(guī)模的群體中只可能出現兩例患病者。因此,從一開始這個實驗就注定毫無意義。如果想獲得任何有意義的結論,實驗組需要用比這個群體多15~20倍的兒童做樣本。


事實上,我們現在看到的很多市場調研報告,里面不乏通過小樣本去給出均值結論的例子,比如我前兩天看的90后消費人群分析:


“84%的90后有理財習慣“;

“34%的90后已購房“;

“60%以上的90后將消費貸用于基本生活和休閑“……


然后我翻了下數據來源,樣本是5000人,挺多的是不是?而90后據最新數據研究已有3.62億……


只有試驗的樣本數目足夠龐大,平均數定律才是一個有用的描述或猜測。

二、看穿數據的真相

如果說前文展現的是目前普遍存在的數據行騙手段,那么接下來我們一起來試著看下如何去看穿數據的真相,避免被一些似是而非的東西所迷惑。畢竟“騙子”都已經熟練掌握了這些詭計,老實人又怎能不學點防御之術呢?

《統(tǒng)計數據會說謊》里給我提供了一個很好的思路,下次當我們接觸到一些數據時,不妨提出4個問題試試:

1、是誰這么說,他怎么知道?

這個結論怎么來的?找到有意識和無意識的偏差。


比如你在機場分發(fā)消費問卷調查,那你可能就犯了選擇誤差,因為坐飛機的人相對而言比一般人更富裕些,消費水平自然會高一些。


又或者,你發(fā)現某個屋子里人均身高偏高,然后打開門一看,姚明坐那呢。你選擇的樣本里有過高或過低的數據,樣本不平均,就會出現這類錯誤。


當然還有一種可能,你為了使自己拿到有利的結論,選對自己有利的數據,改變衡量的標準,再使用不恰當的測算方式。比如明明是中位數更能說明問題,卻使用了均值來計算,最后再用“平均數”來掩蓋事實真相。

這些你能想到的伎倆,別人當然也能。

2、漏掉了什么?

在我們閱讀分析報告時,大多數情況下我們無法得知樣本中包含了多少案例。能看到的就是一張張繪制完美的圖表,配上鏗鏘有力的結論,看起來多么令人信服。


然而,如果缺乏可信的測算方式,比如概率誤差、標準誤差的檢驗,那么可信度就要大打折扣了。


尤其要留心那些未加說明的平均數,因為無論在什么時候,均值和中位數都有著本質的差別。


一份報告曾指出“過去25年內因癌癥死亡的人數大幅增長”,很嚇人對不對?


但我們都知道,以前那些“原因不明”的病癥現在都被確診為癌癥,這是其一;此外尸體解剖更加頻繁,診斷也就更為確切;現在人均壽命延長,因此更多人會活到容易患癌癥的年齡。最后,報告給出的數據應該是死亡總人數而非死亡率——畢竟現在的人口總數比以前要多。

3、偷換概念了嗎?

搞亂因果關系,拿詞義做文章,都是偷換概念的方式。


早在前幾年,人們普遍認為女博士的婚育年齡普遍較學歷較低的女性會更大,女博士里的剩女比例也更高。后來“剩女”一詞被人詬病后,現在被冠以“單身貴族”的頭銜,聽起來似乎還蠻前衛(wèi)的?


這算是很明顯的偷換概念了,本質上想傳達的觀點并沒有變化。而更多時候,在更為專業(yè)的領域,遇到偷換概念的場合,你我可能并不能一眼識別。

4、這是否合乎情理?

那么,究竟要怎樣做才能不被毫無意義的結論愚弄?你總不能指望每個人都成為統(tǒng)計學家,親自分析數據吧?


反其道而行,你要去捕捉沒有被透露的數據,留心這部分的數據,就能看穿這種別有用心的手段。


此外,截止到目前為止的趨勢或許是事實,但未來的趨勢不過是我們的猜測。你不能拿現有的趨勢直接去臆測未來的趨勢,畢竟所有的事情不會一成不變。


比如說現在有個新聞是這么報道的:在大霧天氣的一周內,某地區(qū)的死亡人數猛增至2800人……


仔細想下,這一周內死亡率比平時高這么多難道不是例外嗎?所有的事情都處在變化之中。往下看,隨后幾周情況如何?死亡率降至平均水平以下,是否意味著大霧中死去的人本來就已不久于人世?


看吧,這個數據的確讓人印象深刻,但由于沒有其他數據可以對比,所以這個數據也變得沒什么意義。

三、數據是把雙刃劍

寫這篇文有點殺敵一萬自損八千的感覺,前文提到的數據陷阱,無論是假相關性、亂因果性,還是拿著薄數據去佐證對自己有利的觀點,這些我曾經陷入的圈套,同樣也在某些時刻成為了我“行騙“的工具。


究竟要怎么去用數據呢?我已許久沒系統(tǒng)性地做過數據挖掘和統(tǒng)計分析,但我相信大數據廣闊的應用前景,也在大數據給出的相關性規(guī)律里獲益匪淺。我也在反思,在數據至上的時代,我是不是過少地發(fā)現它的局限性,過分地依賴它給的結論。


至于那些拿大數據用以評判個人、組織乃至社會,特別是關乎人性抉擇、生殺進退的大事,我們是否又能接受這些冰冷的數據澆滅人情的熱度?


一起拭目以待吧。

-END-

林壯壯
分享到朋友圈
收藏
收藏
評分

綜合評分:

我的評分
Xinstall 15天會員特權
Xinstall是專業(yè)的數據分析服務商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導等,廣泛應用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。
20羽毛
立即兌換
一書一課30天會員體驗卡
領30天VIP會員,110+門職場大課,250+本精讀好書免費學!助你提升職場力!
20羽毛
立即兌換
順豐同城急送全國通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時送全城的即時快送服務,專業(yè)安全,準時送達!
30羽毛
立即兌換
林壯壯
林壯壯
發(fā)表文章30
寫著玩兒。
確認要消耗 0羽毛購買
大數據會說謊:看穿數據的真相嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。


一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現為:
    1)反對憲法所確定的基本原則;
    2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
    4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
    5)煽動民族仇恨、民族歧視,破壞民族團結;
    6)破壞國家宗教政策,宣揚邪教和封建迷信;
    7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
    8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
    10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
    11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內容;


2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現為:
    1)輕蔑:貶低、輕視他人及其勞動成果;
    2)誹謗:捏造、散布虛假事實,損害他人名譽;
    3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
    6)謾罵:以不文明的語言對他人進行負面評價;
    7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現為:
    1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個帳號多次發(fā)布包含垃圾廣告的內容;
    3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
    4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
    5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
    6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
    7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
    8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。


4. 色情低俗信息,主要表現為:
    1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
    4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
    5)展現血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚低俗、庸俗、媚俗內容。


5. 不實信息,主要表現為:
    1)可能存在事實性錯誤或者造謠等內容;
    2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。


6. 傳播封建迷信,主要表現為:
    1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
    2)求推薦算命看相大師;
    3)針對具體風水等問題進行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;


7. 文章標題黨,主要表現為:
    1)以各種夸張、獵奇、不合常理的表現手法等行為來誘導用戶;
    2)內容與標題之間存在嚴重不實或者原意扭曲;
    3)使用夸張標題,內容與標題嚴重不符的。


8.「飯圈」亂象行為,主要表現為:
    1)誘導未成年人應援集資、高額消費、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
    5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內容,主要表現為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
    2)不當評述自然災害、重大事故等災難的;
    3)美化、粉飾侵略戰(zhàn)爭行為的;
    4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。


二、違規(guī)處罰
本網站通過主動發(fā)現和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。


三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復制鏈接