很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
曾記得2010年左右,當(dāng)大數(shù)據(jù)(BigData)的概念橫空出世時,身處傳統(tǒng)市場研究公司的朋友們大都有些惶恐不安:大數(shù)據(jù)時代正撲面而來,做小數(shù)據(jù)研究的是不是要被淘汰了?
時至今日,大數(shù)據(jù)行業(yè)叱咤風(fēng)云已十余載,回頭再看處于“數(shù)據(jù)鄙視鏈”底層的傳統(tǒng)市場研究公司并未完全消亡,新興的大數(shù)據(jù)公司并未能徹底“消滅”傳統(tǒng)的小數(shù)據(jù)公司。
相反的,我們還看到有些傳統(tǒng)的市場研究公司在積極擁抱大數(shù)據(jù)后,搖身一變?yōu)椤皵?shù)據(jù)智能”服務(wù)商,找到了公司業(yè)務(wù)增長的新曲線,業(yè)務(wù)規(guī)模不減反增。人們不禁要問,為什么大數(shù)據(jù)無法徹底取代小數(shù)據(jù)呢?今天就來談一談小數(shù)據(jù)和大數(shù)據(jù)的關(guān)系。
大數(shù)據(jù)的概念向來都是眾說紛紜、莫衷一是,近些年大家都開始比較務(wù)實了,不再糾結(jié)于大數(shù)據(jù)的概念,而是更加注重大數(shù)據(jù)的應(yīng)用場景和價值了。為了行文的需要,在這里還是簡單提一下基本概念。
關(guān)于大數(shù)據(jù)的定義,有兩個相對權(quán)威的說法。其一,麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征;其二,在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中指出,大數(shù)據(jù)是指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。此外,IBM提出的大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),也普遍被業(yè)內(nèi)人士所認(rèn)同。
什么是小數(shù)據(jù)(Small Data)呢?在百度百科上采用的是互聯(lián)網(wǎng)研究員呂蘭濤給出以下定義:“小數(shù)據(jù)”是指需要新的應(yīng)用方式才能體現(xiàn)出具有高價值的個體的、高效率的、個性化的信息資產(chǎn)。比如:通過智能家電、手機(jī)、平板電腦、穿戴式產(chǎn)品等能收集到個人的一舉一動,這些個人的信息資產(chǎn)就是富有個人色彩的小數(shù)據(jù)。
以上關(guān)于大數(shù)據(jù)和小數(shù)據(jù)的定義都有一定的道理。為了方便比較和表述,本人將大數(shù)據(jù)定義為:由結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)組成的數(shù)據(jù)集合體,將小數(shù)據(jù)定義為:面向特定用戶群體的結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)與小數(shù)據(jù)到底有什么樣的差別呢?下面從屬性層面和應(yīng)用層面進(jìn)行比較和辨析。
1、 屬性層面
數(shù)據(jù)獲取方式:大數(shù)據(jù)一般通過爬蟲、埋點、API等方式獲取數(shù)據(jù),數(shù)據(jù)獲取幾乎全部交給機(jī)器來處理,自動化程度較高。小數(shù)據(jù)通常會依賴于人工的方式進(jìn)行數(shù)據(jù)采集,比如:通過問卷調(diào)查、電話調(diào)查、街頭攔截調(diào)查等傳統(tǒng)的實證調(diào)查方式獲取數(shù)據(jù),人工參與度高。
表現(xiàn)形態(tài):大數(shù)據(jù)更多的是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),小數(shù)據(jù)則以結(jié)構(gòu)化數(shù)據(jù)為主;
數(shù)據(jù)量級:大數(shù)據(jù)至少是TB及其以上級別的數(shù)據(jù)量,而小數(shù)據(jù)通常為MB級別的數(shù)據(jù);
實時性:大數(shù)據(jù)中實時性數(shù)據(jù)所占比例較高,而小數(shù)據(jù)一般有一定的滯后性;
數(shù)據(jù)質(zhì)量:大數(shù)據(jù)大多處于雜亂無章的狀態(tài),數(shù)據(jù)缺失、亂碼、異常值等情況比較普遍,而小數(shù)據(jù)一般都經(jīng)過了較嚴(yán)格的標(biāo)準(zhǔn)化和統(tǒng)一化處理,數(shù)據(jù)質(zhì)量相對較高;
數(shù)據(jù)處理技術(shù):大數(shù)據(jù)經(jīng)常會采用較復(fù)雜的數(shù)據(jù)處理技術(shù),比如:爬蟲技術(shù)、埋點技術(shù)、分詞技術(shù)、可視化技術(shù)、機(jī)器學(xué)習(xí)算法等,數(shù)據(jù)處理技術(shù)的難度大、技術(shù)要求高,一般需要搭建大數(shù)據(jù)平臺來進(jìn)行處理。小數(shù)據(jù)因其數(shù)據(jù)處理量較小,以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)處理起來比較簡單,所以用到一些常用的數(shù)據(jù)分析工具就能輕松應(yīng)對。
2、 應(yīng)用層面
范圍與對象:大數(shù)據(jù)注重對全量用戶的分析,分析的內(nèi)容往往側(cè)重于群體性的行為,即“面”上的數(shù)據(jù)分析,比如雙11網(wǎng)絡(luò)購物的大數(shù)據(jù)分析。小數(shù)據(jù)的對象通常為抽樣用戶,往往更加注重對單體用戶的行為分析,即“點”上的數(shù)據(jù)分析,個性化是小數(shù)據(jù)的特色之一;
知識發(fā)現(xiàn)過程:大數(shù)據(jù)重在預(yù)測,小數(shù)據(jù)重在決策。大數(shù)據(jù)的分析方式是自下而上的知識發(fā)現(xiàn)過程,從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,從不確定性中找到確定性。小數(shù)據(jù)的分析通常采用統(tǒng)計學(xué)的方法,先找到特定用戶群的規(guī)律,然后再具體分析單體用戶的情況,分析方式是自上而下的;
數(shù)據(jù)分析深度:大數(shù)據(jù)擅長從整體上進(jìn)行全局性的實時性感知與分析,比如:交通流量監(jiān)測、輿情監(jiān)測等應(yīng)用。小數(shù)據(jù)因?qū)ο筝^明確,分析的更聚焦和有針對性,所以分析的內(nèi)容更深刻、更精準(zhǔn)。
分析導(dǎo)向性:大數(shù)據(jù)注重相關(guān)性分析,關(guān)注結(jié)果是什么而不糾結(jié)于為什么,通過相關(guān)性來給出問題的解決方案,所以,大數(shù)據(jù)分析的結(jié)果往往可解釋性弱。小數(shù)據(jù)通常是結(jié)果導(dǎo)向的,注重因果關(guān)系分析,關(guān)注現(xiàn)象背后的內(nèi)在機(jī)理和業(yè)務(wù)邏輯,因此,小數(shù)據(jù)的分析結(jié)果有較強(qiáng)的可解釋性。
過去的十余年可謂是大數(shù)據(jù)與小數(shù)據(jù)的相愛相殺的一段時期,表面上大數(shù)據(jù)行業(yè)突飛猛進(jìn),小數(shù)據(jù)公司們?nèi)諠u式微,實際上大數(shù)據(jù)行業(yè)的發(fā)展并非一帆風(fēng)順,而小數(shù)據(jù)行業(yè)也從不甘心被淘汰。
大數(shù)據(jù)固然有其優(yōu)勢,小數(shù)據(jù)也有其難以取代的特色。通過多年的實踐我們不難發(fā)現(xiàn):大數(shù)據(jù)并非萬能的,小數(shù)據(jù)仍有其獨特價值,利用數(shù)據(jù)的最佳方式就是“大小通吃,并駕齊驅(qū)”。未來的時代仍將是大數(shù)據(jù)與小數(shù)據(jù)共生共存的全數(shù)據(jù)時代,而能同時駕馭大數(shù)據(jù)和小數(shù)據(jù)的公司則會更有競爭力。如何才能做到同時駕馭大數(shù)據(jù)和小數(shù)據(jù)呢?筆者認(rèn)為,至少有三種路徑:從大變小,從小變大和大小結(jié)合。
1、從大變?。豪么髷?shù)據(jù)維度全、變量多的特點,可以進(jìn)行全量用戶的行為聚類分析,得到一些具有典型特征的用戶分組,針對這些分組用戶可以再采用市場調(diào)研的方法進(jìn)行深入研究和分析,這樣既能從“面”上了解全量用戶的全貌,也能從“線”上洞察分組用戶群的情況,甚至能深入到具體“點”上單體用戶的特征。另外,通過大數(shù)據(jù)對全量用戶進(jìn)行聚類和分組后,還能更有效的指導(dǎo)用戶調(diào)研時的抽樣策略,減少樣本配額的偏差。
從大到小,就是從大數(shù)據(jù)中找到適合小數(shù)據(jù)的場景,用大數(shù)據(jù)的方法幫助小數(shù)據(jù)鎖定要聚焦的用戶,再用小數(shù)據(jù)的研究方法深入探究大數(shù)據(jù)分析結(jié)果出現(xiàn)的原因。
2、從小變大:小數(shù)據(jù)在用戶心理、態(tài)度和情感等方面的深入研究具有獨特的優(yōu)勢,當(dāng)我們針對少數(shù)用戶通過深入訪談、群組座談會等方式進(jìn)行深入分析后,可以得到一些典型用戶群的畫像模型和特征標(biāo)簽。
比如:當(dāng)我們需要面向更多的用戶群進(jìn)行定向廣告投放時,可以將這部分用戶視為種子用戶,并在小數(shù)據(jù)方法所獲得的種子用戶標(biāo)簽的基礎(chǔ)上,做相似人群的規(guī)模放大,從而找到更多的符合要求的用戶群。針對用這種lookalike方法獲得的新用戶群,可進(jìn)一步采取大數(shù)據(jù)的分析方法研究其行為特征、廣告投放后的響應(yīng)等。
從小到大,一方面指的是研究對象從個體或小范圍擴(kuò)大至更廣泛的用戶群,提高產(chǎn)品或營銷的覆蓋面,另一方面還指分析的維度能在小數(shù)據(jù)的基礎(chǔ)上進(jìn)一步擴(kuò)充和豐富。
3、大小結(jié)合:大數(shù)據(jù)和小數(shù)據(jù)各有所長,又各有其短。大數(shù)據(jù)重分析,輕情感;小數(shù)據(jù)重態(tài)度,輕行為。
大數(shù)據(jù)的挖掘靠電腦,小數(shù)據(jù)的挖掘則要靠個人能力。大數(shù)據(jù)彌補(bǔ)小數(shù)據(jù)實時性、維度較單一等方面的不足,而小數(shù)據(jù)不但能夠?qū)Υ髷?shù)據(jù)形成有力的補(bǔ)充,更能夠挖掘用戶行為的深層動機(jī)。大數(shù)據(jù)與小數(shù)據(jù)可以深度融合,相輔相成。針對同類用戶群,大數(shù)據(jù)負(fù)責(zé)行為數(shù)據(jù)的全面分析,小數(shù)據(jù)負(fù)責(zé)心理和態(tài)度等方面的點線式分析,這樣就有利于更全面的進(jìn)行用戶洞察。從大數(shù)據(jù)中得到規(guī)律,再用小數(shù)據(jù)去匹配個人,將會是一種更為有效的數(shù)據(jù)運用方式。
總之,大數(shù)據(jù)時代的到來,并不意味著小數(shù)據(jù)時代的結(jié)束,大數(shù)據(jù)與小數(shù)據(jù)是對立的,但終將也是統(tǒng)一的。大數(shù)據(jù)與小數(shù)據(jù)不是顛覆與被顛覆,替代與被替代的敵對關(guān)系。相信不遠(yuǎn)的將來,大數(shù)據(jù)與小數(shù)據(jù)的邊界終將模糊,大中有小,小中有大,大數(shù)據(jù)與小數(shù)據(jù)將會相逢和共生于全數(shù)據(jù)時代。數(shù)據(jù)也將完成從小數(shù)據(jù)到大數(shù)據(jù),再到全數(shù)據(jù)的進(jìn)化之路,全量用戶、全域數(shù)據(jù)的智能時代終將來臨。
-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開放、真實、專業(yè)的平臺氛圍,我們團(tuán)隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進(jìn)行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護(hù)法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進(jìn)行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進(jìn)行負(fù)面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細(xì)節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進(jìn)行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對帳號進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)