chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領域的“增長黑客”
2017-06-12 17:08:00

1 成為新媒體運營領域的“增長黑客”

1.1 一般意義上的“增長黑客”

“增長黑客(Growth Hacker)”,這個近幾年來風靡中國互聯(lián)網(wǎng)界的新興概念,濫觴于美國硅谷互聯(lián)網(wǎng)創(chuàng)業(yè)圈,國內則是由范冰首先引進,他的著作---《增長黑客:創(chuàng)業(yè)公司的用戶與收入增長秘籍》,使這個概念深入人心。

結合國內外關于“增長黑客”的表述:“增長黑客”是以數(shù)據(jù)驅動營銷、以市場指導產(chǎn)品,通過技術手段貫徹增長目標的一群人。這就需要他們既了解技術,寫得了代碼;又能了解人性,能捕捉用戶的心理感受和真實需求;最重要的是,他們經(jīng)常能突發(fā)奇想,發(fā)揮創(chuàng)意,大開腦洞,以小的投入獲取較多的用戶和收入。

一言以蔽之,“增長黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實現(xiàn)最終的收入增加。

“增長黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創(chuàng)型互聯(lián)網(wǎng)初創(chuàng)團隊看到了“四兩撥千斤”的希望,小投入也能辦大事。

“增長黑客”的一個很好的理念,但它在不同的互聯(lián)網(wǎng)領域有著不同的形態(tài),具體的實現(xiàn)手法也不盡相同,比如在新媒體運營領域。

1.2 新媒體運營領域的“增長黑客”

新媒體是跟隨互聯(lián)網(wǎng)興起的一個新興媒體形態(tài),它已經(jīng)在很大程度上顛覆了以往的紙質刊物、廣播及電視等傳統(tǒng)媒體,重要性不言而喻。關于它的概念和內涵,筆者不想多說,網(wǎng)上有很多的詳細介紹。在這里,筆者認為新媒體最為重要的一個特征是:

人人都可以是信息的生產(chǎn)者,人人也都是信息的傳播者。

這意味著無論是誰,包含企業(yè)、機構還有個人,都有機會成為這個新媒體時代的成功者。咪蒙、一條、十點讀書即是例證。

然而,隨著中國的互聯(lián)網(wǎng)時代進入下半場,新媒體行業(yè)也從野蠻生長的時代進入“弱肉強食”的“叢林時代”,常規(guī)的新媒體運營手段(包括內容、展現(xiàn)形式及推廣方法等)已經(jīng)很難從用戶增長緩慢和收入增長停滯的困境中突圍出來。

這種情況下,廣大新媒體從業(yè)者們急需采用精細運作、量化分析的科學手段去進行新媒體運營,以適應這個足以革新我們思維觀念的“大數(shù)據(jù)時代”,而“增長黑客”正是一劑良方。

從前面對“增長黑客”的介紹中,我們可以發(fā)現(xiàn):

“增長黑客”是一個多面手的角色,需要掌握跨領域的知識,其中最為核心的技能即是懂技術、精通數(shù)據(jù)分析。

然而,技術(碼代碼、編寫程序等)和數(shù)據(jù)分析(數(shù)學知識和BI軟件操作等)對于很多做新媒體運營的小伙伴來說,是十分棘手的兩樣事物:很多從事新媒體運營的小伙伴是正兒八經(jīng)的文科生畢業(yè),文案和排版方面,他們可以說是“長袖善舞”,但技術和數(shù)據(jù)分析卻可能是他們的“夢魘”。。。

鑒于這種情形,筆者提倡“人+數(shù)據(jù)驅動思維+工具”理念---以人為本,從運營者自身的知識結構出發(fā),以數(shù)據(jù)/量化思維作為方法論,用工具輔助運營,從而做到揚長避短,把自己的精力集中在重要的事情上。

筆者在這里特意收羅了10幾款跟數(shù)據(jù)分析有關的工具,以彌補技術小白和數(shù)據(jù)分析小白技能上的匱乏,而且掌握它們不需要很懂技術,連數(shù)據(jù)分析這項技能也能借助它們輕松get。

值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢/預測分析工具,還包括數(shù)據(jù)新聞這種廣義上的“工具”,它們都是為達到、完成或促進新媒體運營效果的一種手段。

如下圖所示,以下是本文的行文結構: 

新媒體運營的“增長黑客”數(shù)據(jù)分析工具箱


2 文本分析工具


文本分析的重要性筆者已經(jīng)在之前的兩篇文章中有過論述,詳見《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠比數(shù)值型分析重要?。ㄉ希贰对谶\營中,為什么文本分析遠比數(shù)值型分析重要?一個實際案例,五點分析(下)》,故本文不做贅述,直奔工具應用的主題。


2.1 NLPIR在線系統(tǒng) (http://ictclas.nlpir.org/nlpir/)


NLPIR,即“自然語言處理與信息檢索共享平臺”的英文縮寫, 打開該網(wǎng)址,即可進入主界面---“語義分析系統(tǒng)”,顧名思義,它是一個在線的中文語義分析工具,因為非商業(yè)化,它對處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過過癮,但要想用于商業(yè)目的,那只能呵呵了。


NLPIR在線系統(tǒng)的首頁


上圖中間部分的11個圓圈即是該系統(tǒng)的所有功能,但其中有幾個只是掛出來,目前還未實現(xiàn),結合新媒體運營工作中的實際需求,筆者只介紹其中幾個比較有實用價值的功能模塊。


以下以《<你的名字。>破5.5億元日媒:和中國聯(lián)手有錢賺》這則新聞作為測試文本,筆者來給大家介紹下這個系統(tǒng)中的實體抽取、詞頻統(tǒng)計、文本分類、情感分析和關鍵詞提取這5個比較有實用價值、且準確度較高的功能模塊。


2.1.1 實體抽取


NLPIR中的“實體抽取”功能模塊可以智能識別出測試文本中出現(xiàn)的人名、地名、機構名、媒體、作者及文章的主題關鍵詞,這是對語言規(guī)律的深入理解和科學預測,它提煉出的詞語不需要在詞典庫中事先存在。


實體抽取的圖表效果支持力導向圖和弦圖這兩種形式,如下圖所示:


測試文本“實體抽取”的2種形式


上圖中,從“文本”這個一級類目中,分別分出了“關鍵詞”、“地名”、“時間”這3個二級類目,由此能大致判斷出測試文本中包含的事件元素,如主題是關于電影的,涉及國家(地區(qū))間的對比,還有縱向時間維度的分析,一些關鍵詞能讓我們把握文章中重要的詞句。


2.1.2 詞頻統(tǒng)計


在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。


在文本分析中,詞頻統(tǒng)計是較為常規(guī)的、同時也是最為重要的一個環(huán)節(jié),它用來評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。


NLPIR只展示了名詞、動詞、形容詞這3種開放詞類,這個3個此類也是一段文本中最為重要的3個部分:


名詞介紹文章中的各個主體,能讓我們知道文本描述的對象是誰;


動詞表征各個主體的動作和行為,能讓我們知道關于主體發(fā)生了什么;


而形容詞則能描述主體及動作/行為的特征,能讓我們知道主體及其行為/動作的性質、 狀態(tài)、特征或屬性。


NLPIR的詞頻統(tǒng)計只展示了上述詞類的Top 10結果,以折線圖和條形圖的形式進行展現(xiàn)??戳讼旅娴脑~頻分類展示,聯(lián)想文章標題,我們很自然的了解到《你的名字?!愤@部電影在市場上獲得了不錯的業(yè)績,引發(fā)中日媒體的廣泛報道和關注…


測試文本的詞頻統(tǒng)計呈現(xiàn)


2.1.3 文本分類


NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經(jīng)濟、軍事、交通等,分類有待擴展和細化。


NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外,它還可以實現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用于品牌報道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領域。


然而,從測試的效果來看,這個功能模塊的分析效果還不甚準確,它沒有“娛樂”這一分類,但起碼也應該劃入“其他”這一類中。。。


測試文本的“文本分類”結果呈現(xiàn)


2.1.4 情感分析


NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。

大類上,“情感分析”部分分為“正(面)”和“負(面)”這兩大類情感,這是內層;在外層,兩個大類又分為“樂”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細分的情感,這也就是大家常說的“七情六欲”中的“七情”。


目前正負面的判斷已經(jīng)較為成熟,但鑒于漢語的博大精深和詞匯語義(用法)的波譎多變(反諷、貶義褒用、語境變化等),細分情緒的判斷準確度還值得觀察。


測試文本的“情感分析”結果呈現(xiàn)



觀察上面測試文本的情感分析效果圖,再比對原始文本,這個判斷大致上是準確的,但負面的部分應該比實際的占比小,尤其是“惡”這個部分---筆者并未發(fā)現(xiàn)有出現(xiàn)厭惡的語句和詞匯。


2.1.5 關鍵詞提取


這里的關鍵詞提取和前面的詞頻統(tǒng)計有一定的聯(lián)系,但二者的算法(實現(xiàn)方法)是不一樣的:


詞頻統(tǒng)計:詞頻統(tǒng)計的是一個詞在文章中出現(xiàn)次數(shù),出現(xiàn)的次數(shù)越多一般越重要;


關鍵詞提?。宏P鍵詞提取則是依據(jù)TF-IDF(term frequency–inverse document frequency,詞頻--反轉文件頻率),用以評估一個詞對于文本內容的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現(xiàn)的頻次很高,但它們的重要性就很弱。


測試文本的關鍵詞分析


從上圖中測試文本的“關鍵詞提取”中可以發(fā)現(xiàn),這部分和“詞頻統(tǒng)計”部分既有重合也有明顯區(qū)分,原因就在于上述的算法不同。


值得注意的是,不論是“詞頻統(tǒng)計”還是“關鍵詞提取”,已經(jīng)設置了“停用詞(stopwords)”,在進行上述分析的時候,自動的將那些無明顯意義的副詞、冠詞、代詞給去掉了。 


2.2 圖悅(http://www.picdata.cn/)


圖悅是一款在線的熱詞分析工具,它可以對于載入文本或指向文本內容的鏈接進行詞頻提取和詞語(重要性)權重分析,并可以導出成excel格式的文件,便于后期分析和處理。


圖悅的主界面


處理熱詞分析,圖悅還可以自定義詞云形狀,不過這里的詞云效果不敢恭維,下面筆者將會介紹一個更優(yōu)秀的詞云制作工具,讓經(jīng)圖悅處理過的詞頻煥發(fā)出個性化的風采。


值得注意的是,圖悅導出的excel文檔有三列---提取出的詞語、詞頻數(shù)、詞匯權重。后兩個指標,筆者已經(jīng)在前面做過論述,不明白的小伙伴可以“倒帶”回去看看。具體的使用方法筆者將在下面的可視化自定義詞云部分詳述。


另外,因為這款詞頻分析工具只能導出150個詞匯,對于處理一些復雜且大量的文本就會捉襟見肘。鑒于此種情況,故筆者編寫了一個能處理大容量TXT文件的exe小程序,供有詞頻分析需求的小伙伴免費使用。


筆者編寫的提取大容量TXT文件的文本關鍵詞分析器


這個小程序是按關鍵詞的重要性程度來提取的,某種意義上講會比詞頻分析提取的關鍵詞更準確一些,權重值介于0~1之間。若要獲得或詞頻一樣的效果,只需將權重值乘以100/1000,然后取整即可,感興趣的小伙伴可以在公眾號的后臺獲取到這個關鍵詞提取利器。


注意:該小程序內含40W以上的中文常用詞匯,但不支持英文文本分析,僅供個人學習使用。


2.3 Tone Analyzer(https://tone-analyzer-demo.mybluemix.net/)


Tone Analyzer是一款由IBM推出的、基于云計算的人工智能文本分析工具,能對電子郵件、博客文章以及手機短信進行感情色彩分析,以確定它的措辭是否如實地表達了你的憤怒、肯定、高興或者悲傷等感情。


ToneAnalyzer的主界面


這一用來幫助評估和改善文字溝通當中的語氣的服務目前尚處實驗模式,如獲成功,或將改變未來商家和營銷人員同消費者、客戶的溝通方式。


更重要的是,它可以應用到新媒體運營者的內容校正中來:


用來查驗文章內容的調性和風格,了解自己的文字給人留下的印象如何,以使公眾號的內容運營不偏離預設的定位。


幫助品牌運營者和內容輸出分析,撰寫何種風格的文案才可以引起受眾的共鳴。


Tone Analyzer的評價系統(tǒng)包含三個維度,各個維度及其簡介如下圖所示:


Tone Analyzer的評價系統(tǒng)的三個維度


以下是Tone Analyzer的使用案例,大家可以從下面的幾個模塊中獲得對文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網(wǎng)查閱文檔。


輸入文本信息和選擇分析類別



文本信息3個維度的分析結果


 文本信息段落的逐行分析(附有標記)


3 熱點捕獲/趨勢預測工具


3.1 搜索指數(shù)型


這里的搜索指數(shù)型趨勢工具指的是,它們的數(shù)據(jù)絕大部分是基于用戶的搜索行為,即用戶搜索關鍵詞而形成的數(shù)據(jù)及其展示,有一定的預測價值,但缺點是并不能發(fā)現(xiàn)搜索行為背后的原因。


3.1.1 百度指數(shù)(http://index.baidu.com/


關于百度指數(shù)的介紹,筆者僅貼出部分官方關于功能的介紹:


百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎的數(shù)據(jù)分享平臺,它能夠告訴用戶:某個關鍵詞在百度的搜索規(guī)模有多大,一段時間內的漲跌態(tài)勢以及相關的新聞輿論變化,關注這些詞的網(wǎng)民是什么樣的,分布在哪里,同時還搜了哪些相關的詞,幫助用戶優(yōu)化數(shù)字營銷活動方案。


關于詳細它的使用方法及一些關鍵原理,筆者在《尋找創(chuàng)業(yè)方向時,如何零成本用大數(shù)據(jù)獲悉市場行情?》有詳述,感興趣的小伙伴可以去看看。


3.1.2 微指數(shù)(http://data.weibo.com/index)


微指數(shù)是新浪微博的數(shù)據(jù)分析工具,基于新浪微博的全量數(shù)據(jù),通過關鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。微指數(shù)分為熱詞趨勢、實時趨勢、(信息分布)地域解讀和(用戶)屬性分析4個板塊。


“熱詞趨勢”部分與百度指數(shù)的趨勢很相像,但它有一個更為有價值的地方---點擊趨勢曲線中的各個節(jié)點,會顯示出關注度排名靠前的3條微博,可以做到“知其然并知其所以然”。


微指數(shù)的熱詞趨勢圖



“實時趨勢”則反映該熱詞近一天的走勢情況?!暗赜蚪庾x”即該熱詞相關微博信息的地域分布情況。


最后一個功能板塊是“屬性分析”,這部分能獲悉關注該熱詞及其相關事件的人群畫像,有性別、年齡、興趣標簽比例和星座標簽比例這4個人群屬性。


微指數(shù)的“(人群)屬性分析”


這部分可以參看筆者之前寫的兩篇文章《當數(shù)據(jù)分析遭遇心理動力學:用戶深層次的情感需求浮出水面》、《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內容初始化?》,不失時機將其運用到實際的運營工作中來,而不是僅僅停留在人群屬性的分析描述層面。


3.2 現(xiàn)網(wǎng)信息型


現(xiàn)網(wǎng)信息型,顧名思義,就是該類工具的主要數(shù)據(jù)來源于現(xiàn)有的網(wǎng)絡信息,而不是基于網(wǎng)民的搜索行為,因而通過它可以找到熱詞或事件關注(量)發(fā)生波動起伏的原因。


一般來說,這類數(shù)據(jù)產(chǎn)品的典型應用領域在輿情領域(包括輿情監(jiān)測、品牌口碑監(jiān)測等),比如新浪微輿情(http://wyq.sina.com)。


新浪微輿情的主頁


以下是新浪微輿情這個大數(shù)據(jù)分析工具的介紹,我們能從中看到現(xiàn)網(wǎng)信息型熱度分析工具的基本原理:


“利用獨有的分布式網(wǎng)絡技術,對互聯(lián)網(wǎng)上輿情相關數(shù)據(jù)源進行完整采集,同時根據(jù)用戶預定的監(jiān)控關鍵詞對全網(wǎng)數(shù)據(jù)進行補充獲取?!靶吕宋⑤浨椤笨梢栽诤芏虝r間內收錄到國內外重要網(wǎng)站、論壇、微博、微信公眾號、貼吧、博客等互聯(lián)網(wǎng)開放平臺的相關信息,通過中文智能分詞、自然語言處理、正負面研判等大數(shù)據(jù)處理技術對收錄到的信息進行處理并分析…


可以看出,現(xiàn)網(wǎng)信息型熱度分析工具的數(shù)據(jù)基于現(xiàn)有的全網(wǎng)信息搜集,并經(jīng)過自然語言處理等技術對文本信息進行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素?!?/font>


下面,筆者來詳述新浪微輿情的幾個很有價值的功能模塊---分別是熱度趨勢分析、信息監(jiān)測、事件分析和微博傳播分析,它們可以很好的運用到新媒體領域,可以在熱點追蹤、內容規(guī)劃、受眾畫像分析和營銷分析方面給予運營者們以有益的指導。


3.2.1 (事件)熱度趨勢分析


在地震救援中,有一個概念叫做“黃金72小時”,它是地質災害發(fā)生后的黃金救援期。因為救援界認為,災難發(fā)生之后存在一個“黃金72小時”,在此時間段內,災民的存活率極高。


同樣,在新媒體內容運營追蹤熱點事件方面,也存在類似的定律,能在最短的時間內,把握觀眾所關注事件的發(fā)展走向和輿論傾向,因勢利導,就能成功的“借勢“。


新浪微輿情的(事件)熱度趨勢分析中有一個能反映事件關注度的一個數(shù)據(jù)指標---熱度指數(shù),它的全稱是“網(wǎng)絡傳播熱度指數(shù)”,是指在從新聞媒體、微博、微信、客戶端、網(wǎng)站、論壇等互聯(lián)網(wǎng)平臺采集海量信息的基礎上,提取與指定事件、人物、品牌、地域等相關的信息,并對所提取的信息進行標準化計算后得出的指數(shù)。


熱度指數(shù)能客觀反映事件、人物、品牌、地域等在互聯(lián)網(wǎng)上的受關注程度。熱度指數(shù)所呈現(xiàn)的數(shù)值為0~100,數(shù)值越大,表明其網(wǎng)絡受關注度越高。


下面舉個栗子,拿前不久廣受關注的“淘寶被列入惡名市場名單”事件作為分析對象,來看看(事件)熱度趨勢分析的各個功能模塊是如何運用到新媒體運營領域的。


    (1)熱度概況和熱度趨勢


從下圖的“指數(shù)概況”部分,我們可以看到,淘寶被列入惡名市場名單”在72小時內(當然也可以選擇24小時這個時間區(qū)間)的熱度同比增長達到62315%,表明互聯(lián)網(wǎng)上關于該事件的媒體報道和公眾評論信息出現(xiàn)驟增的情形,且指數(shù)有將近6%的增幅,幅度不大結合這兩個指標可以看出,在近72小時內該事件很火熱,且熱度呈現(xiàn)穩(wěn)步增長的趨勢。值得注意的是,這里的“同比”和“指數(shù)變化”是針對此次查詢的72小時區(qū)間和上一個72小時區(qū)間的數(shù)值進行對比的。


在“熱度趨勢”部分,由時間軸和熱度指數(shù)軸構成的折線圖反映了近72小時內該事件熱度指數(shù)的變化趨勢,這個折線圖的分析意義重大,能起到預測事件未來熱度走勢的神奇作用。


在分析熱度指數(shù)的折線圖的時候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節(jié)點,特別是峰值節(jié)點,它代表其對應的時間點它的關注度較高,要注意發(fā)現(xiàn)事件爆發(fā)的時間規(guī)律;在宏觀層面上,要看整條折線的整體走向,是整體呈現(xiàn)上升趨勢,還是呈現(xiàn)關注度的下降趨勢,當情況屬于前者時,新媒體運營者們則可以繼續(xù)跟進事件的發(fā)展,接著“借勢”和“跟風”。


熱度概況及熱度趨勢分析


既然知道了事件熱度的峰值節(jié)點出現(xiàn)在哪個時間點,這時我們肯定想了解這些時間區(qū)間內事件關注度驟然上升的原因。還好,緊接著“熱度趨勢”,下方給出了其中最突出的峰值節(jié)點出現(xiàn)的原因,以重點信息聚類的方式呈現(xiàn)。


在下圖中,呈現(xiàn)的是12月23日 08時,達到24的峰值時的重點信息聚類。給出了這些熱門文章的標題和來源站點,點擊標題即可進入相應的網(wǎng)頁,查看源信息。


最突出峰值節(jié)點的信息聚類


這里需要強調的是,對于最突出峰值節(jié)點的重點聚類信息的解讀十分重要,因為這些文章閱讀數(shù)高,抑或是轉發(fā)量高,在某種程度上表明了公眾對于這些信息的認可度高,能代表一定的公眾輿論傾向。作為新媒體內容運營者來說,引導公眾看法難度太大,不是人人都能做成意見領袖的,能因勢利導的輸出順應公眾觀點的文章可能是上策。


    (2)事件熱度信息的關鍵詞詞云


這里的關鍵詞云是由互聯(lián)網(wǎng)上各個渠道的海量信息進行中文智能分詞和自然語言處理所得,濃縮了關于該事件的TOP60關鍵詞,能在一定程度上反映出事件的各個要素。


詞語的大小代表該詞出現(xiàn)次數(shù)的多寡,也表明了該關鍵詞對于事件的重要程度如何。在進行內容組織的時候,可以考慮這些詞頻數(shù)高詞匯所代表的方面,如在“淘寶列入惡名市場名單”這一事件中,除了“惡名市場”、“名單”這些出現(xiàn)在標題之中的關鍵詞外,還有“加大力度”、“納入保護”、“知識產(chǎn)權”等關鍵詞表征的方面作為文章內容的著力方向。


“淘寶列入惡名市場名單”事件的關鍵詞詞云


    (3)事件熱度信息的來源類型


“信息來源”部分中,反映出了事件信息的來源占比情況,比重較大的部分是需要運營者重點關注的渠道。


“淘寶列入惡名市場名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網(wǎng)站”、“新聞”、“客戶端”等,具體的數(shù)據(jù)為:微博(49.32%)、網(wǎng)站(27.73%)和新聞(10.13%)。


“淘寶列入惡名市場名單”事件的信息來源分布


針對微博信息量為何占據(jù)如此大的比重這個問題,筆者找到了今年11月份新浪微博官方的一份關于微博UGC的數(shù)據(jù),頓時了然:


微博2016年PGC、UGC幾項關鍵數(shù)據(jù)


新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數(shù)據(jù),再加上騰訊微博的信息量,因而其他渠道的信息量比例會被微博這一渠道巨大的UGC內容給稀釋掉,形成絕對信息量不小但看起來很少的效果。


    (4)事件熱度信息的地域分布


(事件熱度信息的)地域分布反映的是搜索事件的全網(wǎng)信息量在全國各地的分布情況,這一點與百度指數(shù)的原理一樣。


“淘寶列入惡名市場名單”事件的信息地域分布


從地域分布來看,與“淘寶列入惡名市場名單”相關的信息主要來源北京(3561條)、廣東(1139條)和上海(834條)。


    (5)事件熱度信息的關聯(lián)詞分析


事件熱度信息的關聯(lián)詞分析,它是通過系統(tǒng)自動運算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關于“共現(xiàn)”的原理介紹,請看《如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內容初始化?》的第三部分)。


下圖中的關聯(lián)詞和弦圖和對應關聯(lián)度數(shù)據(jù)表反映了該事件的關聯(lián)詞情況。


“淘寶列入惡名市場名單”的關聯(lián)詞分析


通過對與“淘寶列入惡名市場名單”相關的信息進行分析后可看出,與其核心詞惡名市場關聯(lián)度最高的詞語為淘寶(100.00%)、美國(99.06%)和名單(97.19%)。


3.2.2 信息監(jiān)測


一直以來,(輿情)信息監(jiān)測的主要用戶是政府、大型企業(yè)和專業(yè)新聞媒體,因而對應的主要功能是傾聽民意、監(jiān)測自身(也包含競品)的品牌口碑及動向,以及追蹤熱點事件走向等。此外,它可以通過各種預警設置,對關注事件產(chǎn)生的新信息進行第一時間的提醒,以免運營者遺漏重要信息。


實際上,信息監(jiān)測可以用于新媒體領域,結合上面提及的“事件熱度趨勢分析”板塊,媒體運營者可以有效的追蹤熱點事件的最新進展,做到不遺漏。


關于它的應用場景,筆者目前想到2個:


    (1)文章轉載的全網(wǎng)監(jiān)測


筆者平時會寫一些關于互聯(lián)網(wǎng)數(shù)據(jù)運營的文章,發(fā)布在一些知名的互聯(lián)網(wǎng)平臺上,因此想監(jiān)測一下全網(wǎng)轉載的情況,比如筆者最近的一篇文章---“如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內容初始化?”,在“信息監(jiān)測”的監(jiān)測方案部分設置好關鍵詞后,選好時間區(qū)間,轉載的詳細情況和數(shù)據(jù)統(tǒng)計圖表盡收眼底:


文章轉載的信息列表

筆者文章轉載的各種信息反饋圖表


    (2)關注信息的全網(wǎng)監(jiān)測


運營者可以在監(jiān)測方案中按設置指定的關鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。


以下是筆者在學習數(shù)據(jù)分析時,進行的關鍵詞設置,多個零散詞匯通過邏輯運算符形成了一個監(jiān)測方案,可以無遺漏的監(jiān)測自己關注的信息,同時系統(tǒng)也會過濾掉垃圾信息。


通過各種邏輯運算符設置信息監(jiān)測的關鍵詞

監(jiān)測方案的信息量的走勢圖

監(jiān)測方案的信息量分布情況

監(jiān)測方案信息量的地理分布情況


設置好監(jiān)測方案以后,點擊“圖表分析”,即可看到如下圖所示的各種監(jiān)測方案信息量的可視化分析圖表。


再選擇“信息列表”項,通過時間、地域、渠道等選項的篩選,我們就可以得到自己想要的信息了。此外點擊其中一條信息,即可進入信息詳情頁,如下圖所示:


監(jiān)測方案的信息列表

監(jiān)測信息的詳情頁


另外,這個功能模塊還有幾個功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。


“信息監(jiān)測”板塊的預警通知、監(jiān)測日報和定向監(jiān)測功能


3.2.3 事件分析


事件分析(包括全網(wǎng)事件分析和微博事件分析)指的是,輸入近期事件或話題關鍵詞,系統(tǒng)自動進行深度挖掘和多重分析,記錄事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情傳播路徑、關鍵詞云、發(fā)展態(tài)勢、受眾反饋和網(wǎng)民觀點分析。


關于它的實際使用攻略,筆者之前寫過一篇文章詳細介紹過,請參看《【數(shù)據(jù)運營】傅園慧和她的“洪荒之力”的大數(shù)據(jù)輿情分析》。


3.2.4 微博傳播分析


微博傳播分析通過分析單條轉發(fā)量/評論量大的的微博,從而得到關于該微博的傳播路徑、意見領袖、用戶畫像和微博營銷傳播質量等。


下面貼一張大圖讓大家感受下:


微博傳播分析的部分功能


限于篇幅,這部分筆者就不詳述了,請參看筆者之前的文章---《【數(shù)據(jù)運營】揭開微博轉發(fā)傳播的規(guī)律:以“人民日報”發(fā)布的G20文藝晚會微博為例》。


4 可視化工具


俗話說:“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時尚靚麗的圖會給文章增色不少,會激起讀者的好奇心,不知不覺的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:


人人都是產(chǎn)品經(jīng)理網(wǎng)站“產(chǎn)品經(jīng)理”專欄所有文章標題制成的詞云


怎么樣,想學了吧?


不急,這個其實很簡單,下面我將以實例詳細的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個性化詞云。


4.1 個性化詞云制作


我把個性化詞云的制作分為3個步驟,即抓取數(shù)據(jù)、文本處理和詞云制作,詳見下圖:


個性化詞云制作的步驟


4.1.1 數(shù)據(jù)獲取


從本質上講,詞云是反映某一特定主題的文本數(shù)據(jù)的可視化展示。比如,上面的喬幫主詞云反映的就是“產(chǎn)品經(jīng)理”專欄中較為熱門的關鍵詞/話題。所以,要制作一個“出彩”且有內涵的自定義詞云,文本不能無規(guī)律,需要定向的獲取特定的文本數(shù)據(jù)。


筆者對前不久上映且廣受好評的電影《你的名字》頗感興趣,想分析一下這部電影的市場反響如何,先聊聊這部分數(shù)據(jù)的獲取。


對于影片的分析,首選當然是豆瓣電影,因為它是國內最具有參考價值的影評網(wǎng)站,從文本中能得到很有價值和有意思的信息。但考慮到文本數(shù)據(jù)獲取的難易程度,我先介紹如下3個數(shù)據(jù)獲取的方法。


第一個方法是自己編寫爬蟲,想要什么數(shù)據(jù)就去抓取什么數(shù)據(jù),既經(jīng)濟(用爬蟲工具會花錢),又會增加“自己動手,豐衣足食”的成就感,最重要的是,略施小計就可以躲避豆瓣的封IP機制。


用python編寫爬蟲抓取豆瓣影評數(shù)據(jù)


第二個方法是利用集搜客這樣的爬蟲軟件去抓取數(shù)據(jù),不需要編程技術,且簡單易上手,但是可能會被封IP。。。


第三個方法是采用新浪微輿情這個大數(shù)據(jù)工具,因而不用豆瓣的評論數(shù)據(jù),在互聯(lián)網(wǎng)上進行全網(wǎng)信息搜集,獲取有關該影片的熱門文章標題作為分析的文本數(shù)據(jù),這種方法是三種中最為輕松簡單的,而且獲取的是全網(wǎng)的數(shù)據(jù),大家可以有選擇性的選取自己需要的數(shù)據(jù),操作步驟如下圖所示:


用新浪微輿情獲取文本數(shù)據(jù)


因為最近學了點Python,故筆者選擇了用Python編寫爬蟲來獲取了豆瓣這部分的影評數(shù)據(jù)。


獲取《你的名字》豆瓣電影的影評數(shù)據(jù)



抓取后的數(shù)據(jù)整理成如下表格:


保存到本地的《你的名字》豆瓣影評數(shù)據(jù)


接下來,就是把文本數(shù)據(jù)單獨取下來咯,全選“評論內容”這一列,把這些影評數(shù)據(jù)占到記事本上,作為接下來分析的“原材料”。


4.1.2 文本處理


一般情況下,文本數(shù)據(jù)的處理包含很多方面,如分詞、詞性標注、詞頻統(tǒng)計、文本分類、情感分析、關鍵詞提取、文本摘要提取等。


在這里,制作詞云只需要考慮關鍵詞提取詞頻統(tǒng)計這兩個板塊。


這里使用到的工具是前面提及的熱詞分析工具---圖悅。將《你的名字》豆瓣評論的文本部分粘貼到上圖中左邊的文本框中,再點擊右上方的“分析出圖”,系統(tǒng)顯示完成后,右邊的預設詞云會發(fā)生變化,此時點擊“導出”,即可得到詞頻的csv文件。


經(jīng)圖悅處理得到的詞頻csv文件


4.1.3 詞云制作


處理詞云,筆者用到的工具是Tagul(https://tagul.com/create)。下面是它的的主頁展示:


Tagul主頁


    (1)詞頻載入格式


在頁面左上方的“Words”處,就是加載詞語及詞頻的地方,這里需要注意一下它的載入格式。如下表所示:


Tagul的詞頻載入格式


上表中,前兩列的“Word”和“Weight”就是剛才經(jīng)處理過的詞語和詞頻,Color一欄則是設置該詞語的顏色,這是個性化詞云中很關鍵的一個要素,會直接影響到最終的詞云呈現(xiàn)效果。這里可以不填寫,那么在形成詞云時默認隨機生成顏色。如果要形成定制化的顏色,則需要設置采用16進制的色值,以下是常用的顏色代碼表,即色值表。


常用的16進制色值表


與此類似,字體也可選可不選,需要定制的話,則可進行相應的設置。


“Repeat”這項則表示該詞語是否會重復出現(xiàn),填寫“0”,則表示不重復,填寫“1”,則表示重復。為了保持信息的精準度,減少噪聲,一般選擇填寫“0”。


后面的URL鏈接就忽略了,因為有前面的設置,就不需要進行網(wǎng)頁鏈接。


按照上述操作,出詞語和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項,結果顯示如下。


最終的詞語載入表


    (2)載入中文字體


因為Tagul是老外做的一個在線詞云制作網(wǎng)站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。


載入中文字體


    (3)處理背景圖片


加載了字體,可以說這是個性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。


值得注意的是,在載入圖片之前的圖片選取步驟時,需要選擇背景和主題對比比較明顯的圖片。從接下來的圖片預處理過程中,你會發(fā)現(xiàn)這一點的重要性。


詞云自定義圖片的初始狀態(tài)


筆者選取的是《你的名字》最為標志性的一張海報,看起來很有感覺:既有男女主角的形象,也交代了他們所處的生活環(huán)境,中間則是影片中重要的提條線索---彗星。這張圖初始狀態(tài)看似雜亂,不好處理,但仔細觀察,可以發(fā)現(xiàn)主體(男女主角)和背景(天空、城市和彗星)之間的對比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設置中可以進一步處理背景和主體之間的對比度問題。


在“Shapes”處載入圖片后,點擊上載成功后圖片的右下角“齒輪”,打開圖片預處理。其中,“Threshold”處理景深,可以拉開/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調節(jié)圖片的清晰程度模糊程度。這里的要點是---淡化背景,清晰主體輪廓。


淡化背景,強化主體輪廓


好了,完成上面繁瑣的步驟之后,現(xiàn)在是見證奇跡的時刻了,點擊右上方大大的黑體字“Visualize”,待進度條加載完畢后,即可得到如下的最終效果圖:


最終的詞云效果圖


4.2 網(wǎng)絡可視化利器--- Gephi


Gephi是一款開源免費跨平臺基于JVM的復雜網(wǎng)絡分析軟件, 其主要用于各種網(wǎng)絡和復雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測開源工具,下載地址為https://gephi.org/。網(wǎng)上目前比較權威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個部分仍有饒有興趣的小伙伴可以去學習下。


下面是由Gephi制作的各種網(wǎng)絡圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時還給予我們有意義的信息。


運營那些事兒
分享到朋友圈
收藏
收藏
評分

綜合評分:

我的評分
Xinstall 15天會員特權
Xinstall是專業(yè)的數(shù)據(jù)分析服務商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計、廣告流量指導等,廣泛應用于廣告效果統(tǒng)計、APP地推與CPS/CPA歸屬統(tǒng)計等方面。
20羽毛
立即兌換
一書一課30天會員體驗卡
領30天VIP會員,110+門職場大課,250+本精讀好書免費學!助你提升職場力!
20羽毛
立即兌換
順豐同城急送全國通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時送全城的即時快送服務,專業(yè)安全,準時送達!
30羽毛
立即兌換
運營那些事兒
運營那些事兒
發(fā)表文章43451
確認要消耗 羽毛購買
10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領域的“增長黑客”嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網(wǎng)絡信息。


一、根據(jù)《網(wǎng)絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對憲法所確定的基本原則;
    2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
    4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
    5)煽動民族仇恨、民族歧視,破壞民族團結;
    6)破壞國家宗教政策,宣揚邪教和封建迷信;
    7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
    8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
    10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
    11)通過網(wǎng)絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內容;


2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動成果;
    2)誹謗:捏造、散布虛假事實,損害他人名譽;
    3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
    6)謾罵:以不文明的語言對他人進行負面評價;
    7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內容,或進行相關行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個帳號多次發(fā)布包含垃圾廣告的內容;
    3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
    4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網(wǎng)站等,誘騙用戶點擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內容獲取搜索引擎中的不正當曝光;
    6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內容及相關交易。
    7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
    8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚低俗、庸俗、媚俗內容。


5. 不實信息,主要表現(xiàn)為:
    1)可能存在事實性錯誤或者造謠等內容;
    2)存在事實夸大、偽造虛假經(jīng)歷等誤導他人的內容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
    2)求推薦算命看相大師;
    3)針對具體風水等問題進行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;


7. 文章標題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
    2)內容與標題之間存在嚴重不實或者原意扭曲;
    3)使用夸張標題,內容與標題嚴重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導未成年人應援集資、高額消費、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號召粉絲、雇用網(wǎng)絡水軍、「養(yǎng)號」形式刷量控評等行為
    5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
    2)不當評述自然災害、重大事故等災難的;
    3)美化、粉飾侵略戰(zhàn)爭行為的;
    4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡生態(tài)造成不良影響的其他內容。


二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網(wǎng)站將依據(jù)相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網(wǎng)站將加重處罰。


三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復制鏈接