chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥哥筆記小喬”
爬取了簡(jiǎn)書百萬頁面,發(fā)現(xiàn)簡(jiǎn)書用戶畫像竟然是這樣的
2017-07-28 10:52:00

在本文中我會(huì)嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進(jìn)行用戶數(shù)據(jù)分析、建模,再數(shù)據(jù)信息化、可視化,生成用戶畫像分析用戶特征。

緣起:幾個(gè)月前正式進(jìn)駐簡(jiǎn)書平臺(tái),不由的想了解下在這個(gè)平臺(tái)上聚集的都是些什么人,有哪些人跟我臭味相投品味相似。作為技術(shù)人,首先想到是用一些技術(shù)手段來分析,看到簡(jiǎn)書上有不少爬蟲、數(shù)據(jù)分析技術(shù)文章,不由的技癢,于是便有了自造輪子的想法。


本文會(huì)談及以下內(nèi)容:

數(shù)據(jù)采集
數(shù)據(jù)清洗
數(shù)據(jù)分析
簡(jiǎn)書粉絲排行榜
簡(jiǎn)書用戶常用詞排行榜
簡(jiǎn)書用戶愛好排行榜
簡(jiǎn)書用戶喜愛書籍排行榜
數(shù)據(jù)可視化
用戶關(guān)鍵詞云圖
用戶畫像
機(jī)器學(xué)習(xí)
用戶性別預(yù)測(cè)
用戶愛好分析
用戶推薦


  大 綱 

1、用戶畫像概述(是什么,有什么用,怎么做)

2、獲取抽樣用戶數(shù)據(jù)

需要什么樣的抽樣數(shù)據(jù)

3、獲取用戶發(fā)表內(nèi)容,提取用戶關(guān)鍵詞

難點(diǎn):文章列表獲取;正文提?。惶崛£P(guān)鍵詞

4、性別分析

性別數(shù)據(jù)獲取
難點(diǎn):數(shù)據(jù)樣本少;新浪反爬
機(jī)器學(xué)習(xí)分類

5、愛好分析

愛好和興趣的區(qū)別
構(gòu)建愛好分類

6、關(guān)鍵興趣分析

什么是關(guān)鍵興趣
獲取書籍?dāng)?shù)據(jù)
獲取電影數(shù)據(jù)(未完成)

7、結(jié)果分析

簡(jiǎn)書整體用戶群體畫像
簡(jiǎn)書男性群體用戶畫像
簡(jiǎn)書女性群體用戶畫像
構(gòu)建網(wǎng)站群體用戶畫像
網(wǎng)站個(gè)體用戶畫像
典型男性用戶例子及分析

8、用戶推薦

目的:增加用戶粘性;提高內(nèi)容爆光率;營(yíng)銷活動(dòng)推廣
做法:千人千面的個(gè)性化推薦
使用什么推薦算法:個(gè)性化標(biāo)簽;協(xié)同過濾(UserCF/ItermCF)
例子:典型男性用戶例子及分析相似用戶

9、存在問題

10、涉及工具

用戶畫像概述(是什么,有什么用,怎么做)

用戶畫像是根據(jù)用戶基本屬性、社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息而抽象出的一個(gè)標(biāo)簽化的用戶模型。構(gòu)建用戶畫像的核心工作即是給用戶貼“標(biāo)簽”,而標(biāo)簽是通過對(duì)用戶信息分析而來的高度精煉的特征標(biāo)識(shí)。

用途

用戶畫像的作用

精準(zhǔn)營(yíng)銷,分析產(chǎn)品潛在用戶,針對(duì)特定群體利用短信、郵件等方式進(jìn)行營(yíng)銷;
用戶統(tǒng)計(jì),比如購買某類書籍人數(shù) TOP10;
數(shù)據(jù)挖掘,構(gòu)建智能、個(gè)性化推薦系統(tǒng),利用關(guān)聯(lián)規(guī)則計(jì)算,喜歡讀書的人通常喜歡什么商品品牌,利用聚類算法分析,喜歡讀書的人年齡段分布情況;
進(jìn)行效果評(píng)估,完善產(chǎn)品運(yùn)營(yíng),提升服務(wù)質(zhì)量,其實(shí)這也就相當(dāng)于市場(chǎng)調(diào)研、用戶調(diào)研,迅速下定位服務(wù)群體,提供高水平的服務(wù);
對(duì)服務(wù)或產(chǎn)品進(jìn)行私人定制,精準(zhǔn)到某一類甚至每一位客戶提供個(gè)性化服務(wù);
業(yè)務(wù)經(jīng)營(yíng)分析以及競(jìng)爭(zhēng)分析,影響企業(yè)發(fā)展戰(zhàn)略。

用戶畫像的基本構(gòu)成

構(gòu)建用戶畫像的可以通過四組屬性,它們是:用戶靜態(tài)屬性、用戶動(dòng)態(tài)屬性、用戶消費(fèi)屬性、用戶心理屬性

用戶靜態(tài)屬性

用戶靜態(tài)屬性,是指一些較穩(wěn)定不會(huì)頻繁變化的屬性,靜態(tài)屬性是用戶畫像建立的基礎(chǔ),最基本的用戶信息記錄。如性別、年齡、學(xué)歷、角色、收入、地域、婚姻狀態(tài)等。

用戶動(dòng)態(tài)屬性

用戶動(dòng)態(tài)屬性,動(dòng)態(tài)屬性指具有可變性,如用戶的興趣愛好、在互聯(lián)網(wǎng)上的活動(dòng)行為特征。

用戶心理屬性

用戶心理屬性,心理屬性指用戶在環(huán)境、社會(huì)或者交際、感情過程中的心理反應(yīng),或者心理活動(dòng)

用戶消費(fèi)屬性

消費(fèi)屬性指用戶的消費(fèi)意向、消費(fèi)意識(shí)、消費(fèi)心理、消費(fèi)嗜好等,對(duì)用戶的消費(fèi)有個(gè)全面的數(shù)據(jù)記錄,對(duì)用戶的消費(fèi)能力、消費(fèi)意向、消費(fèi)等級(jí)進(jìn)行很好的管理。

用戶畫像類型

用戶畫像可分為群體用戶畫像和個(gè)體用戶畫像,前者是抽象的族群代表,表示某一類人的特征,用于分析群體特征;后者是具體到某個(gè)個(gè)體用戶上,表示該用戶的特征,用于做個(gè)性化分析。

怎么做

數(shù)據(jù)收集 - 根據(jù)數(shù)據(jù)來源可分為內(nèi)部數(shù)據(jù)庫、ETL、外部網(wǎng)站數(shù)據(jù)采集
數(shù)據(jù)建模 - 根據(jù)所獲取到的數(shù)據(jù)建立模型,注入數(shù)據(jù)調(diào)整模型參數(shù)
數(shù)據(jù)分析及預(yù)測(cè) - 數(shù)據(jù)可視化、輸出報(bào)表、趨勢(shì)預(yù)測(cè)


說到數(shù)據(jù)挖掘,是把散亂數(shù)據(jù)轉(zhuǎn)換成「有價(jià)值」信息的過程,數(shù)據(jù)是可以是數(shù)字或者文本內(nèi)容甚至圖像,而信息是有語義的、人腦可理解的報(bào)告、圖表。

數(shù)據(jù)挖掘的過程是:獲取數(shù)據(jù)(內(nèi)部數(shù)據(jù)庫查詢、外部網(wǎng)站抓取、購買接口)-> 數(shù)據(jù)清洗(數(shù)據(jù)結(jié)構(gòu)化)-> 數(shù)據(jù)分析(建模、應(yīng)用算法公式)-> 數(shù)據(jù)信息化(報(bào)表結(jié)論、數(shù)據(jù)可視化)

更具體怎么做,下面我會(huì)以簡(jiǎn)書的真實(shí)用戶數(shù)據(jù)為例子展示下。

構(gòu)建簡(jiǎn)書用戶畫像

簡(jiǎn)書用戶數(shù)據(jù)收集
獲取抽樣用戶數(shù)據(jù)

作為簡(jiǎn)書的外部普通用戶,也只有通過“數(shù)據(jù)采集”(網(wǎng)頁爬蟲)這個(gè)途徑來獲取數(shù)據(jù),而據(jù)說簡(jiǎn)書用戶上千萬,日活過百萬,顯然全部抓取下來不知何年月,因此進(jìn)行抽樣分析是比較合理的做法。

需要什么樣的抽樣數(shù)據(jù)?

顯然活躍用戶是我們需要的關(guān)注。在簡(jiǎn)書上,活躍用戶有2種,一種是大V(粉絲數(shù)量多),另外一種是發(fā)帖多的,這里我選擇了粉絲數(shù)量多的這類用戶。為什么不選發(fā)帖最多的?一個(gè)網(wǎng)站的人氣一般都是靠大V用戶群帶動(dòng)的,這群人產(chǎn)生的內(nèi)容介于PGC(專業(yè)編輯)和UGC(普通用戶貢獻(xiàn))之間,他們產(chǎn)生的內(nèi)容會(huì)比較有影響力。而發(fā)帖多不代表有影響力,在背后發(fā)帖的說不定還可能是腳本程序。

為了使用方便,我使用Ruby 開發(fā)了自己的爬蟲(簡(jiǎn)書上有很多介紹Scrapy這個(gè)優(yōu)秀的爬蟲框架的使用教程,工具使用自己熟悉的就好),鏈接規(guī)則設(shè)置為允許網(wǎng)站首頁、用戶主頁、文章內(nèi)容頁(為了獲取評(píng)論用戶鏈接)、粉絲列表(followers)、關(guān)注列表(following),如圖↓

爬蟲鏈接規(guī)則設(shè)置.png

爬蟲啟動(dòng)后會(huì)自動(dòng)抓取符合這些規(guī)則的頁面,并自動(dòng)解析頁面內(nèi)鏈接,保存符合配置規(guī)則的鏈接再進(jìn)行抓取。

〖Tips:說易行難,為了提高爬蟲效率一般我們都會(huì)使用多線程,這里面要涉及到并發(fā)編程、master-worker調(diào)度的工作模式,總而言之,寫爬蟲不難,但開發(fā)一個(gè)高效爬蟲框架不輕松,建議初學(xué)者先掌握使用流行工具框架再去造輪〗

最后爬蟲抓取了約31萬個(gè)頁面,其中有11萬個(gè)用戶主頁,感覺也夠用了,如圖

簡(jiǎn)書用戶頁面抓取結(jié)果.png

增加一個(gè)ExtractUserPipeline(Pipeline是我用于在爬蟲框架中處理獲取頁面內(nèi)容的自定義類,可參考Scrapy的Pipeline概念)來解析提取用戶的信息,可使用css selector、正則表達(dá)式處理頁面內(nèi)容,得到一個(gè)包含用戶名稱、性別、粉絲數(shù)、文章數(shù)等基礎(chǔ)用戶信息的json結(jié)構(gòu)的數(shù)據(jù),例如:

用戶提取數(shù)據(jù)example.png

在爬蟲框架上運(yùn)行這個(gè)Pipeline,獲取到11萬份格式好的用戶數(shù)據(jù)樣本,作為抽樣沒有必要使用全部數(shù)據(jù),因此我只選取了排行榜上的前10000個(gè)數(shù)據(jù),按照關(guān)鍵值“followers_count”來排序,最后得到了一份“簡(jiǎn)書Top 10000 粉絲排行榜” ,如圖

簡(jiǎn)書Top 10000 粉絲排行榜.png

〖Tips:一開始我是使用1000條數(shù)據(jù),數(shù)據(jù)量時(shí)少方便調(diào)整模型和算法參數(shù),跑一次最多幾十分鐘,到最后要出結(jié)論報(bào)表時(shí)才使用10000用戶數(shù)據(jù),會(huì)涉及近70萬文章頁面,這時(shí)每跑一次分析運(yùn)算都是按小時(shí)算的了〗

獲取用戶發(fā)表內(nèi)容,提取用戶關(guān)鍵詞

觀其“言行舉止”是了解一個(gè)人的辦法,在簡(jiǎn)書上,用戶“發(fā)聲”的自然就是其發(fā)布的文章,因此需要獲取用戶發(fā)表過的文章內(nèi)容是收集下一個(gè)特征數(shù)據(jù)的基礎(chǔ)。

文章列表

簡(jiǎn)書給出了第一個(gè)“難題”:用戶的文章列表使用AJAX翻頁,普通爬蟲無法直接獲取分頁列表。這種問題一般有兩種解決:一是查看Network請(qǐng)求,通過編程拼接出所請(qǐng)求的url;二是使用headless browser(如 PhantomJS/Selenium/SlimerJS/Chrome headless)。使用headless browser比較通用但運(yùn)行效率低,而簡(jiǎn)書的分頁規(guī)則也只是最簡(jiǎn)的分頁數(shù)+1,所以我的解決辦法是添加一個(gè)Pipeline,在獲取到一個(gè)列表頁時(shí)執(zhí)行分析拼接出下一頁的鏈接加入待抓取頁面列表。

開啟爬蟲服務(wù)對(duì)這1萬個(gè)用戶鏈接進(jìn)行爬取,跑完能得到約60萬個(gè)內(nèi)容頁、7萬個(gè)列表分頁,再加上前面的抓取的31萬,多達(dá)到100萬個(gè)頁面,為家里的網(wǎng)絡(luò)帶寬心疼一下下。

簡(jiǎn)書內(nèi)容頁面抓取結(jié)果-數(shù)量.png

另外,從爬蟲框架對(duì)簡(jiǎn)書的抓取結(jié)果的分析報(bào)告中,發(fā)現(xiàn)簡(jiǎn)書的網(wǎng)頁響應(yīng)都很快,平均每個(gè)頁面300ms,97%的頁面都能秒開,只有15%的頁面打開在300ms以上,而超過3秒以上的幾乎是0%,贊!

簡(jiǎn)書內(nèi)容頁面抓取結(jié)果-分析.png

〖Tips:有少量用戶約50個(gè)在抓取時(shí)返回404,可能被簡(jiǎn)書關(guān)閉了帳號(hào),所以下面出現(xiàn)分析報(bào)表中并不是完整的10000整數(shù)〗

提取正文

一篇內(nèi)容頁中除了正文,還有很多重復(fù)的“裝飾”語,如簡(jiǎn)書每個(gè)內(nèi)容頁面都有“贊賞支持”、“關(guān)注”、“登錄” 等詞,如果都無差別收錄顯然會(huì)是出現(xiàn)最高頻次、卻是對(duì)文章表述毫無意義的詞,因此需要先提取出正文內(nèi)容,再對(duì)正文進(jìn)行分詞才合理。最簡(jiǎn)單的做法是使用正則、css selector提取即可。我使用了密度算法,不需要編寫正則,把密度高部分作為正文對(duì)待,這樣無論是什么類型的內(nèi)容頁、網(wǎng)頁改版頁面結(jié)構(gòu)變更了都能處理了。

提取關(guān)鍵詞

中文NLP(自然語言處理)中第一步就是中文分詞,從最簡(jiǎn)單的機(jī)械分詞(各種MM算法)到復(fù)雜的神經(jīng)網(wǎng)絡(luò)分詞算法,需要處理歧義識(shí)別、新詞發(fā)現(xiàn);另外再好的分詞算法也需要有2份詞典,一個(gè)是專用詞典,一個(gè)是停用詞典。有時(shí)會(huì)感嘆英文國(guó)家的NLP技術(shù)發(fā)展那么快是因?yàn)橛⑽姆衷~門檻低嗎?好在現(xiàn)在開源分詞庫也不少,效果各有特點(diǎn),選則自己熟悉的即可。

從每篇文章提取出20個(gè)詞頻出現(xiàn)最高的詞作為文章關(guān)鍵詞,效果如下圖

內(nèi)容頁分詞.png

在二十幾篇文章中,只有一篇出現(xiàn)了“關(guān)注”這個(gè)詞,說明這個(gè)作者真的有在求關(guān)注。

對(duì)每個(gè)用戶,再合并其所有文章內(nèi)容中的關(guān)鍵詞,并統(tǒng)計(jì)重復(fù)次數(shù)作為詞頻,按詞頻高低取前100個(gè),這份數(shù)據(jù)作為該用戶的“常用詞”。

〖Tips:這是很重要的一份特征數(shù)據(jù),對(duì)后面的用戶性別、興趣愛好分析都要使用到〗

現(xiàn)在我們先看一下 簡(jiǎn)書CEO 簡(jiǎn)叔 的常用詞的詞云 是什么樣:

簡(jiǎn)書CEO 簡(jiǎn)叔 詞云.png

詞云顯示他喜歡聊“秘密”,關(guān)注“簡(jiǎn)書”,“創(chuàng)業(yè)”、“團(tuán)隊(duì)”、“產(chǎn)品”、“寫作”,“平臺(tái)”、“互聯(lián)網(wǎng)”,“作者”。

我會(huì)猜他有很多“想法”,平時(shí)喜歡去“咖啡廳”找“創(chuàng)作”的“靈感”,要在“上海”或“北京“找個(gè)“辦公室”組建一個(gè)“創(chuàng)業(yè)”“團(tuán)隊(duì)”,做一個(gè)基于“互聯(lián)網(wǎng)”的“文章” “寫作” “內(nèi)容” “平臺(tái)”,“產(chǎn)品”叫“簡(jiǎn)書”或“jianshu”,會(huì)招攬很多“作者” 并保護(hù)他們的“著作權(quán)”,提供“手機(jī)”“app”的“下載”,得了“蘋果” 的“優(yōu)秀” “設(shè)計(jì)” “推薦”,求“群友”多“交流”多“關(guān)注”,求“打賞”求“評(píng)論”。

(哈哈 以上完全瞎猜,我對(duì)“簡(jiǎn)叔”的認(rèn)識(shí)只有這2個(gè)字)

最后再統(tǒng)計(jì)下所有用戶的關(guān)鍵詞使用的比率,得到 “簡(jiǎn)書用戶常用詞 Top 100排行榜”

簡(jiǎn)書用戶常用詞 Top 100排行榜.png

現(xiàn)在簡(jiǎn)單分析下前20個(gè)詞,可以發(fā)現(xiàn)簡(jiǎn)書上的用戶每書寫100個(gè)詞時(shí),就有2次提及“作者”、“簡(jiǎn)書”,關(guān)心“著作權(quán)”,表明寫作意愿很強(qiáng)烈,也關(guān)注平臺(tái)自身,符合簡(jiǎn)書打造寫作平臺(tái)本身的定位;常談?wù)摗吧睢?、“工作”,常說“選擇”,很在意“時(shí)間”,說明在職人士應(yīng)該是主要用戶;喜歡談“喜歡”什么、談“感覺”、常會(huì)說“故事”,文藝味很濃;做事講究“方法”,有大堆的“世界”觀、“人生”觀,說明大部分用戶教育程度比較高(大學(xué));有“孩子”、喜歡曬“圖片”的用戶估計(jì)占比也很高,繼而可以推測(cè)主要的用戶年齡段在24-36(23大學(xué)畢業(yè),36以上是中年)之間;喜歡討論“app”,符合移動(dòng)互聯(lián)網(wǎng)的時(shí)代特征;關(guān)注“學(xué)習(xí)”,在這個(gè)社區(qū)推“知識(shí)付費(fèi)”學(xué)習(xí)課程準(zhǔn)是一呼百應(yīng)。

以上純粹直觀印象不算結(jié)論。

另外,為了能搭上這里“文藝”的氛圍,特意獻(xiàn)上一份 “簡(jiǎn)書用戶常用詞 Top 100詞云圖.png”,大家看看 “感覺”是否“喜歡”:

簡(jiǎn)書用戶常用詞 Top 100詞云圖.png

下面再繼續(xù)看看如何獲取其他的用戶屬性特征。

性別分析

性別是用戶最基礎(chǔ)的靜態(tài)屬性之一,作為人類自然體上最大基因差異特征,對(duì)用戶言行舉止、思想決策有莫大的影響,因此性別分析幾乎是所有領(lǐng)域都需要研究分析的。

但簡(jiǎn)書這里留了第二個(gè)“難題”:性別是選填,大部分用戶留空。

看下現(xiàn)在的用戶性別比率統(tǒng)計(jì):

簡(jiǎn)書用戶性別比率-預(yù)測(cè)前.png

在這10000人中,75%是未知的,剩下已知的男女各占一半。感覺玩不下去了 。

幸好現(xiàn)在是機(jī)器學(xué)習(xí)時(shí)代,可以使用機(jī)器學(xué)習(xí),對(duì)用戶的特征行為進(jìn)行學(xué)習(xí),從而對(duì)用戶進(jìn)行性別預(yù)測(cè)。

前面說了人類性別對(duì)其言行有莫大影響,因此我使用“用戶常用詞”作為輸入特征,來預(yù)測(cè)用戶性別。

性別分類是典型的二分類問題,可以使用樸素貝葉斯、決策樹、SVM等有監(jiān)督學(xué)習(xí)的分類算法,我選擇了樸素貝葉斯,NBC模型所需的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,結(jié)果還挺有效。

機(jī)器學(xué)習(xí)過程有4步:1,特征工程;2,訓(xùn)練;3,測(cè)試及評(píng)估;4,預(yù)測(cè);

特征工程

一開始使用1000個(gè)用戶數(shù)量進(jìn)行練習(xí)時(shí),得到的性別數(shù)量很少,不足夠訓(xùn)練出一個(gè)可信任的分類模型。

經(jīng)簡(jiǎn)書上的Python爬蟲大師 @向右奔跑 提醒,簡(jiǎn)書用戶公開信息上會(huì)有新浪微博的鏈接,而新浪微博上有用戶性別信息。

嘗試了一輪,發(fā)現(xiàn)只有部分用戶會(huì)有新浪微博鏈接,而新浪微博卻有個(gè)業(yè)界知名的反爬系統(tǒng),必需降頻率抓取,成效不是很高。最后使用10000個(gè)用戶數(shù)據(jù)時(shí)感覺訓(xùn)練數(shù)據(jù)量已經(jīng)足夠。

訓(xùn)練

訓(xùn)練集準(zhǔn)備好后,就可以構(gòu)建分類器,把已知性別和對(duì)應(yīng)用戶的常用詞,作為標(biāo)簽和特征值,進(jìn)行訓(xùn)練,如圖:

用戶性別預(yù)測(cè)-訓(xùn)練.png

測(cè)試及評(píng)估

分類器訓(xùn)練完后,要對(duì)訓(xùn)練好的模型進(jìn)行準(zhǔn)確率評(píng)估,意思是看看預(yù)測(cè)結(jié)果靠不靠譜。

我在這里使用了“F1 Score”,簡(jiǎn)單科普下:

F1分?jǐn)?shù)(F1 Score),是統(tǒng)計(jì)學(xué)中用來衡量二分類模型精確度的一種指標(biāo)。它同時(shí)兼顧了分類模型的準(zhǔn)確率和召回率。F1分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。

簡(jiǎn)單來說,F(xiàn)1分?jǐn)?shù)是個(gè)加權(quán)平均值,越接近1表示預(yù)測(cè)結(jié)果越準(zhǔn)確。

測(cè)試的結(jié)果如下:

用戶性別預(yù)測(cè)-結(jié)果評(píng)估1.png

分?jǐn)?shù)略低,經(jīng)過一番調(diào)整參數(shù)重新訓(xùn)練后,得到

用戶性別預(yù)測(cè)-結(jié)果評(píng)估2.png

現(xiàn)在的F1 分?jǐn)?shù) 為 “0.864”,實(shí)際測(cè)試有 87.6% 的準(zhǔn)確率,感覺分類模型已經(jīng)可用了。

做下抽樣檢查,看到對(duì)程序員的性別識(shí)別還是比較準(zhǔn)確性

用戶性別預(yù)測(cè)-結(jié)果抽樣.png

預(yù)測(cè)

使用訓(xùn)練好的模型,嘗試對(duì)所有未知用戶性別進(jìn)行預(yù)測(cè):

用戶性別預(yù)測(cè)-預(yù)測(cè)未知性別結(jié)果.png

應(yīng)用預(yù)測(cè)結(jié)果,并查看最終的性別比率圖表:

簡(jiǎn)書用戶性別比率-預(yù)測(cè)后.png

以10000個(gè)簡(jiǎn)書用戶為樣本的抽樣調(diào)查中,女性占58.1% 男性占 41.9%。

原來簡(jiǎn)書女性用戶那么多的嗎,真是萬萬沒想到,第一次來到一個(gè)女性用戶比男性高的社區(qū),有點(diǎn)小緊張,怎么裝做經(jīng)常來的樣子 。

愛好分析

有了一份靜態(tài)屬性的特征數(shù)據(jù),我們繼續(xù)看看動(dòng)態(tài)屬性中的“興趣愛好”要如何提取分析。

愛好和興趣的區(qū)別

在這里我給“愛好”和“興趣”做了細(xì)分定義,愛好跟興趣的區(qū)別:愛好是固定分類,興趣是動(dòng)態(tài)詞條,例如可以是熱門頭條話題;愛好不會(huì)輕易消亡,興趣會(huì)隨時(shí)間降低關(guān)注熱情;愛好是“做什么”、“某一類事物”,例如“讀書”,“文學(xué)”;興趣是“某個(gè)具體事物”,如某本書、某個(gè)明星人物;愛好是頻繁是去做的事情,興趣可能只是一時(shí)的心血來潮偶爾接觸一次。

一個(gè)人如果對(duì)某個(gè)事物喜愛,便會(huì)經(jīng)常提及;如果只是某天一時(shí)感興趣了,可能會(huì)某一篇文章里會(huì)反復(fù)提及此事物,但不會(huì)出現(xiàn)頻繁在其他文章中提及。

基于這個(gè)理論,我們可以把用戶的所有文章的常用詞中出現(xiàn)的一些關(guān)鍵詞定性,例如他的大部分文章出現(xiàn)了“減肥”這個(gè)詞,那么這個(gè)用戶應(yīng)該是很在意“減肥”這個(gè)事;如果他只是在某1、2篇文章里提及“減肥”,這個(gè)詞甚至都有可能不會(huì)出現(xiàn)在他的常用詞榜內(nèi)。

構(gòu)建愛好分類

愛好作為分類信息,需要構(gòu)建一個(gè)愛好詞典,再使用用戶常用詞進(jìn)行匹配,最后給用戶打上所匹配的分類標(biāo)簽。

我整理了一個(gè)600多個(gè)分類的愛好詞典,常見的愛好都應(yīng)該包含了:

愛好詞典-example.png
〖Tips:亮點(diǎn)自找〗

群體用戶愛好分析

對(duì)每個(gè)用戶進(jìn)行愛好分類,可以得到一個(gè)用戶愛好排行榜:

簡(jiǎn)書用戶愛好 Top 100排行榜.png

簡(jiǎn)單分析下:


“學(xué)習(xí)”在所有愛好中有15%,在用戶中占55.6%,也就說簡(jiǎn)書大部分用戶都是愛“學(xué)習(xí)”,學(xué)習(xí)氛圍濃厚,簡(jiǎn)書可以組織一些學(xué)習(xí)為主題的交流活動(dòng),至少一半用戶會(huì)馬上感興趣,至少可優(yōu)先發(fā)郵件通知下;

有27%的用戶愛好“寫作”,符合”二八”定律分布,一個(gè)內(nèi)容平臺(tái)總得有大量讀者型的用戶來圍觀點(diǎn)贊、打賞,寫作型的用戶才有動(dòng)力繼續(xù)寫作;

“閱讀”、“讀書”、“電影”、都占了20%以上,這個(gè)感覺是要跟豆瓣的目標(biāo)用戶重疊的節(jié)奏了,所以要從同樣以讀書、電影(影評(píng))為核心的豆瓣上搶用戶,簡(jiǎn)書運(yùn)營(yíng)者要花不少力氣。

個(gè)體用戶愛好分析

現(xiàn)在可以使用愛好標(biāo)簽來聚合用戶了,比如有什么電影節(jié)活動(dòng)時(shí),可以打了“愛好:電影” 這樣標(biāo)簽的用戶發(fā)個(gè)早鳥票什么的,用戶會(huì)感覺怎么我昨天才看到電影海報(bào)的文章今天就收到預(yù)售票通知,其他用戶還沒有,好智能、好貼心、好嗨森。

但只如果是做為簡(jiǎn)單的分類標(biāo)簽,聚合的粒度會(huì)比較粗糙,比如說有4個(gè)用戶:

“用戶A”喜歡讀書、寫作、作畫,
“用戶B”和“用戶C”也喜歡讀書、寫作,
“用戶D”喜歡讀書、看電影


顯然對(duì)于A,他跟用戶B、C的愛好相似度(有2項(xiàng)目重合)會(huì)大于 用戶D(只有一項(xiàng)重合),但實(shí)際上A、B、C三個(gè)人的對(duì)讀書的喜愛程度是不一樣,那么對(duì)于A,他跟B、C之間,誰的愛好相似會(huì)更接近呢?系統(tǒng)要給A推薦時(shí)B和C時(shí),首先要推薦哪個(gè)?

為了解決這個(gè)問題,我引入一個(gè)“愛好喜好指數(shù)”(Hobbies Favor Index)的概念,可以給用戶的每個(gè)愛好打分,分值范圍是1-10分,10分表示“十分熱愛”,1分表示“一般般”,計(jì)算時(shí)使用用戶常用詞的詞頻作為輸入,跟他所用的其他詞根據(jù)詞頻做排位進(jìn)行比較得到分位值再除以10收斂,得到1到10分,結(jié)果使用雷達(dá)圖表做數(shù)據(jù)呈現(xiàn),得到一個(gè)“用戶愛好雷達(dá)圖”,如圖:

用戶愛好雷達(dá)圖-example.png

通過雷達(dá)圖我們可以很直觀的了解這個(gè)用戶的愛好分布,以及每一項(xiàng)愛好的喜好程度,再與其他用戶做比較也有了基礎(chǔ):重疊面積越多的越表示愛好越相近,被推薦的排名則越靠前,如圖:

用戶愛好相似推薦-example.png

終于可以知道簡(jiǎn)書上誰跟我最臭味相投品味相近了!

至此,我得到了第三份簡(jiǎn)書用戶特征數(shù)據(jù)-愛好分類。

關(guān)鍵興趣分析

什么是關(guān)鍵興趣

用戶興趣會(huì)很廣泛,要分析每一項(xiàng)興趣十分耗時(shí)耗力,特別作為運(yùn)營(yíng)平臺(tái),不大可能也不值得花太多時(shí)間精力分析一些跟平臺(tái)運(yùn)營(yíng)方向無關(guān)的數(shù)據(jù)(所以這就是我們要有針對(duì)性建模的原因),對(duì)于簡(jiǎn)書來說,讀書、寫作顯然是最需要關(guān)注的點(diǎn),因此什么用戶的食物口味、喜歡看什么漫畫類型這些非核心、關(guān)鍵的特征,沒有太多必要去做收集和分析。所以,我們要做的是〖關(guān)鍵〗興趣分析,“簡(jiǎn)書”里也有個(gè)“書”字,我就以“書籍”作為關(guān)鍵興趣,嘗試進(jìn)行分析。

獲取書籍?dāng)?shù)據(jù)

書籍?dāng)?shù)據(jù)收集,最簡(jiǎn)單,但卻不容易。

“簡(jiǎn)單”是說數(shù)據(jù)提取可直接用正則匹配文章正文中用書名號(hào)《》包含的內(nèi)容,但事實(shí)上從最初提取到的數(shù)據(jù)上發(fā)現(xiàn)書名號(hào)內(nèi)的不止是書名,還有電影名、電視節(jié)目、文章標(biāo)題、app名稱等,甚至有人喜歡用《簡(jiǎn)書》這樣來引用簡(jiǎn)書,因此需要進(jìn)行數(shù)據(jù)清洗;有些書名中會(huì)包含問號(hào)?感嘆號(hào)!,寫正則匹配處理也比較麻煩;最保守的做法是使用專用詞典,但詞典的創(chuàng)建和更新也是有些工作量,不夠“智能”。

另外,還有些人喜歡使用“不合法”的標(biāo)點(diǎn)符號(hào)來引用書籍名稱,例如【】、「」、『』、〖〗,我覺得很有必要呼應(yīng)響應(yīng)《標(biāo)點(diǎn)符號(hào)用法 - 中華人民共和國(guó)教育部》這個(gè)規(guī)范:

標(biāo)點(diǎn)符號(hào)用法 - 中華人民共和國(guó)教育部.png

使用雙書名的正確姿勢(shì)應(yīng)該是:

書刊電影名:


已在中國(guó)出版發(fā)行的作品(報(bào)紙、雜志、圖書、名章、電影、電視節(jié)目、電子游戲、歌曲、戲劇等),請(qǐng)務(wù)必核實(shí)官方譯名。上述類型的作品名翻譯為中文時(shí)均使用書名號(hào)《》,使用外文時(shí)斜體、不加書名號(hào),首次在文中出現(xiàn)時(shí),請(qǐng)?jiān)谧g名的后面加括號(hào)注上原文。

例如:電影《黑暗騎士崛起》(The Dark Knight Rises)首映式發(fā)生槍擊案。

為了解決干擾詞問題,我創(chuàng)建了一個(gè)書籍專用停用詞庫,內(nèi)容類似 :

簡(jiǎn)書
百詞斬
扇貝單詞
首頁投稿
首頁熱門
網(wǎng)易云音樂
網(wǎng)易公開課
簡(jiǎn)書連載作品龍虎榜
世界互聯(lián)網(wǎng)大會(huì)|xxxxxx


興趣點(diǎn)數(shù)

生活中每個(gè)人對(duì)某個(gè)事物的喜好程度是不一樣的,為了能做量化和計(jì)算比較,我定義了一個(gè)“興趣點(diǎn)數(shù)”概念,跟之前“愛好喜好指數(shù)”相似,也是1到10分(參考豆瓣的10分制,但10分制有精度問題,在最后的問題章節(jié)里有說明),10分就表示“十分喜愛”,使用書籍名出現(xiàn)的頻率作為輸入值進(jìn)行換算,這樣能得到每個(gè)用戶的“喜愛書籍排行榜”,方便最后做用戶個(gè)性化推薦分析。

簡(jiǎn)書用戶喜愛書籍 Top 100 排行榜

添加一個(gè)Pipeline用于收集用戶文章中出現(xiàn)的書名,運(yùn)行Pipeline后,得到每個(gè)用戶的書籍列表,把興趣點(diǎn)數(shù)用5星條顯示,便可以很直觀的看出用戶對(duì)書籍的喜愛程度,如圖:

興趣點(diǎn)數(shù)-example.png

在數(shù)據(jù)分析框架上能自動(dòng)將所有用戶的書籍匯總統(tǒng)計(jì)比率,便得到了“簡(jiǎn)書用戶喜愛書籍 Top 100 排行榜”:

簡(jiǎn)書用戶喜愛書籍 Top 100 排行榜.png

榜首是《紅樓夢(mèng)》,15%的用戶比率,說明每10個(gè)簡(jiǎn)書用戶里就有1個(gè)人喜歡《紅樓夢(mèng)》,遇到心儀的女性用戶沒有話題時(shí),說些紅學(xué)關(guān)鍵詞說不定就能引起共鳴;

第2位是《西游記》,這個(gè)我相信用戶看的更多是電視劇,國(guó)產(chǎn)少有精品;

第3的《歡樂頌》雖說也有書籍(豆瓣上6.7分),但出現(xiàn)在這個(gè)排名絕對(duì)是因?yàn)樽鳛橥娨晞《挥脩籼峒埃?br>
排名4、5、6的《論語》、《圣經(jīng)》、《詩經(jīng)》,也有10%的用戶比率,讓我不得不確認(rèn)簡(jiǎn)書是文青聚集地,國(guó)學(xué)當(dāng)?shù)溃?br>
四大名著除了《水滸傳》其他三本都進(jìn)了前10;

而我所喜歡的《三體》也進(jìn)入了前20比較欣慰,硬科幻終于火一把了;

結(jié)合用戶性別,還可以到得出2份報(bào)表:

“簡(jiǎn)書男性用戶喜愛書籍 Top 100 排行榜”(在這個(gè)榜里《三體》進(jìn)入了前10?。?br>“簡(jiǎn)書女性用戶喜愛書籍 Top 100 排行榜”
〖Tips:榜單不一一貼出了,但這2份數(shù)據(jù)在后面的構(gòu)建網(wǎng)站群體用戶畫像時(shí)會(huì)用到〗

獲取電影數(shù)據(jù)(未完成)

影評(píng)也是寫作的好素材,也容易產(chǎn)生話題效應(yīng),因此也可以作為簡(jiǎn)書用戶的關(guān)鍵興趣之一,再說我也很喜歡看電影  。

已經(jīng)使用爬蟲抓取到一些流行電影數(shù)據(jù)(如圖),以后再做分析。

電影數(shù)據(jù)-example.png

「重點(diǎn)來了」簡(jiǎn)書用戶數(shù)據(jù)分析及預(yù)測(cè) - 數(shù)據(jù)可視化、輸出報(bào)表、趨勢(shì)預(yù)測(cè)

構(gòu)建網(wǎng)站群體用戶畫像

簡(jiǎn)書整體用戶群體畫像

網(wǎng)站的群體用戶畫像,可以用來表示這個(gè)網(wǎng)站的大部分用戶的共同屬性特征、行為特征,對(duì)于網(wǎng)站運(yùn)營(yíng)者可以直觀的了解自己的用戶群體概括。

使用前面步驟得到的“簡(jiǎn)書用戶常用詞 Top 100排行榜”以及“簡(jiǎn)書用戶喜愛書籍 Top 100 排行榜” 2份數(shù)據(jù),在分析系統(tǒng)里中創(chuàng)建一個(gè)虛擬用戶進(jìn)行分析,下面是見證奇跡的時(shí)刻:

分析簡(jiǎn)書整體用戶群體畫像.gif

得到“簡(jiǎn)書整體用戶群體畫像”:

簡(jiǎn)書整體用戶群體畫像.png

從得到的畫像上看,預(yù)測(cè)的性別是女性,說明用戶中女性占多,這個(gè)跟前面用戶性別比率分析中女性占多這個(gè)結(jié)果是一致的;

大部分人的愛好是:閱讀、電影、讀書、寫作、學(xué)習(xí),因此還可以從這幾個(gè)愛好進(jìn)行更細(xì)致的建模,采集更多的用戶特征數(shù)據(jù);

用戶最喜愛的書籍是:《西游記》、《小王子》、《紅樓夢(mèng)》、《歡樂頌》、《論語》、《平凡的世界》等,可以圍繞些做話題活動(dòng);

下面再根據(jù)性別特征來細(xì)分出2個(gè)用戶群體:男性和女性群體用戶畫像。

簡(jiǎn)書男性群體用戶畫像:使用 “簡(jiǎn)書男性用戶常用詞 Top 100排行榜”,“簡(jiǎn)書男性用戶喜愛書籍 Top 100 排行榜”:

簡(jiǎn)書男性群體用戶畫像.png

簡(jiǎn)書女性群體用戶畫像::使用 “簡(jiǎn)書女性用戶常用詞 Top 100排行榜”,“簡(jiǎn)書女性用戶喜愛書籍 Top 100 排行榜”:

簡(jiǎn)書女性群體用戶畫像.png

當(dāng)然還可以按其他屬性如年齡、某類愛好、區(qū)域等,這些都需要建模并收集獲取到輔助分析的特征數(shù)據(jù)。

〖Tips:分析系統(tǒng)在匯總男、女性用戶的關(guān)鍵詞、書籍?dāng)?shù)據(jù)時(shí),會(huì)自動(dòng)忽略每個(gè)用戶的詞頻數(shù)據(jù),相當(dāng)于一人一票機(jī)制,每個(gè)人都對(duì)關(guān)鍵詞投票,但一個(gè)詞只投一票,這樣得到的詞頻和排名才合理〗

網(wǎng)站個(gè)體用戶畫像

男性用戶例子

對(duì)整體用戶群體有了印象,現(xiàn)在來看看個(gè)體用戶畫像。以簡(jiǎn)書上的男性大V用戶“彭小六” 作為例子,看下他的用戶畫像:

典型男性用戶例子及分析 彭小六.png

他的愛好是:書籍、讀書、寫作、閱讀、學(xué)習(xí);文章提及過500多本書籍,其中比較喜歡的書籍是:《如何閱讀一本書》、《讓未來現(xiàn)在就來》、《影響力》、《這樣讀書就夠了》、《顛覆平庸》

女性用戶例子

再找一個(gè)女性用戶畫像例子,大V女性用戶有一位【簡(jiǎn)黛玉】:

典型女性用戶例子及分析 簡(jiǎn)黛玉.png

看得到她的愛好相當(dāng)廣泛,但實(shí)際上這是個(gè)非自然人帳號(hào),專門收錄一些簡(jiǎn)書不同作者的精彩文章做推薦,所以表現(xiàn)出來的特征會(huì)比較寬泛,這個(gè)正好可以代表簡(jiǎn)書官方PGC(專業(yè)編輯內(nèi)容)的傾向,可以大概看出簡(jiǎn)書官方的內(nèi)容引導(dǎo)傾向是以哪些類型的文章為主。

用戶推薦

為了增加用戶粘性,提高內(nèi)容爆光率,進(jìn)行營(yíng)銷活動(dòng)推廣,網(wǎng)站可以使用一些推薦系統(tǒng),可針對(duì)群組推薦,更好的做法是千人千面的個(gè)性化推薦,細(xì)致到可針對(duì)每一個(gè)用戶的喜好、關(guān)注點(diǎn)進(jìn)行推薦。

推薦系統(tǒng)可以使用一些推薦算法如:個(gè)性化標(biāo)簽;協(xié)同過濾(UserCF/ItermCF)等。這里我簡(jiǎn)單的使用個(gè)性化標(biāo)簽和基于用戶推薦的理念來演示下可以如何做個(gè)性化推薦。

在協(xié)同推薦理論中,要給用戶推薦他感興趣的內(nèi)容,可以從跟他愛好相近的用戶入手。

通過愛好標(biāo)簽的聚合運(yùn)算,跟“彭小六”愛好最相近的用戶有這些,如圖中右側(cè)列表:

典型男性用戶例子及分析-相似用戶列表.png

看下分析系統(tǒng)推薦的第一個(gè)用戶“用時(shí)間釀酒”跟他的愛好會(huì)有多相近:

典型男性用戶例子及分析-相似用戶雷達(dá)圖.png

看得出他們都愛好 書籍、讀書、寫作、閱讀、學(xué)習(xí),而且各項(xiàng)愛好的喜好程度也相近(愛好雷達(dá)圖的重疊面積大)。

再看下這個(gè)被推薦出來的用戶的自身的用戶畫像:

典型男性用戶例子及分析-相似用戶首推.png

可以看到兩個(gè)人的感興趣的書籍也非常接近。

那么推薦系統(tǒng)在做個(gè)性化推薦時(shí),就可以把用戶“用時(shí)間釀酒” 比較喜歡的書籍(例如Top1的《哪有沒時(shí)間這回事》),推薦給用戶“彭小六”?;谕瑯拥脑?,可以把這個(gè)用戶收藏的文章、打賞過的文章,推薦給“彭小六”。

至此,我們從0數(shù)據(jù)開始,通過百萬頁面抓取,到獲取了10000個(gè)抽樣用戶數(shù)據(jù),生成了一些用戶特征屬性,構(gòu)建了群體和個(gè)體的用戶畫像,大概了解到了簡(jiǎn)書整體用戶群體特征,能知道某個(gè)具體用戶的興趣愛好特征,也知道要應(yīng)該如何給用戶推薦個(gè)性化內(nèi)容。

存在問題

在整個(gè)數(shù)據(jù)挖掘過程中,發(fā)現(xiàn)一些問題還有待完善:

性別預(yù)測(cè)中發(fā)現(xiàn),存在非自然人帳號(hào),背后實(shí)際是多個(gè)運(yùn)營(yíng)者在發(fā)布文章,產(chǎn)生的內(nèi)容會(huì)包含兩性特征,使得到數(shù)據(jù)會(huì)影響預(yù)測(cè)準(zhǔn)確性;性別分類器沒有進(jìn)行交叉測(cè)試,測(cè)試評(píng)估有過擬合可能

發(fā)現(xiàn)用戶喜愛書籍的興趣指數(shù)使用10分制度精度不夠,使得原本應(yīng)該排第一位的書籍會(huì)因?yàn)榈诙灰粯拥梅郑上胂蟪?0.9跟10.1的差距),并因此可能因?yàn)橄嗤梅侄S機(jī)變成了第二位;豆瓣的得分分?jǐn)?shù)實(shí)際應(yīng)該算是100分制(只是表現(xiàn)出的結(jié)果是除以10,例如《三體》的得分是8.8,在一百分制里就是88分)

有些用戶沒有顯性的愛好、興趣怎么辦?可使用機(jī)器學(xué)習(xí),對(duì)用戶的興趣愛好進(jìn)行預(yù)測(cè)

如何發(fā)掘用戶隱***好,例如大部分人都喜歡看電影,但不會(huì)特意發(fā)文章說“我是電影愛好者”,一般的行為是會(huì)經(jīng)常性發(fā)表對(duì)某些電影的看法,發(fā)表的內(nèi)容多了,顯然這個(gè)用戶是愛好看電影的,這種可以通過電影詞庫來訓(xùn)練分類器學(xué)習(xí)和預(yù)測(cè)

涉及工具

題圖中用到的詞云圖使用:wordart.com
其他:所有截圖均為我使用 Ruby 語言獨(dú)立開發(fā)的網(wǎng)頁抓取、數(shù)據(jù)分析框架
開發(fā)語言:Ruby(I Love Ruby?。?br>
作者:hirainchen,80后,創(chuàng)業(yè)者,程序員
本文來源于公眾號(hào)中國(guó)統(tǒng)計(jì)網(wǎng),轉(zhuǎn)載請(qǐng)聯(lián)系作者并注明來源。

運(yùn)營(yíng)那些事兒
分享到朋友圈
收藏
收藏
評(píng)分

綜合評(píng)分:

我的評(píng)分
Xinstall 15天會(huì)員特權(quán)
Xinstall是專業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來源、裂變拉新統(tǒng)計(jì)、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計(jì)、APP地推與CPS/CPA歸屬統(tǒng)計(jì)等方面。
20羽毛
立即兌換
一書一課30天會(huì)員體驗(yàn)卡
領(lǐng)30天VIP會(huì)員,110+門職場(chǎng)大課,250+本精讀好書免費(fèi)學(xué)!助你提升職場(chǎng)力!
20羽毛
立即兌換
順豐同城急送全國(guó)通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時(shí)送全城的即時(shí)快送服務(wù),專業(yè)安全,準(zhǔn)時(shí)送達(dá)!
30羽毛
立即兌換
運(yùn)營(yíng)那些事兒
運(yùn)營(yíng)那些事兒
發(fā)表文章43451
確認(rèn)要消耗 羽毛購買
爬取了簡(jiǎn)書百萬頁面,發(fā)現(xiàn)簡(jiǎn)書用戶畫像竟然是這樣的嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶創(chuàng)造的內(nèi)容、維護(hù)開放、真實(shí)、專業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對(duì)憲法所確定的基本原則;
    2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
    4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
    5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
    6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
    7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
    8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
    10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
    11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
    2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
    3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
    6)謾罵:以不文明的語言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
    7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
    8)威脅:許諾以不良的后果來迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點(diǎn)擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購買或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營(yíng)銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷;
    8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。


5. 不實(shí)信息,主要表現(xiàn)為:
    1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
    2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過頭像、用戶名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治病;
    2)求推薦算命看相大師;
    3)針對(duì)具體風(fēng)水等問題進(jìn)行求助或咨詢;
    4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;


7. 文章標(biāo)題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
    2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
    3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂等行為
    4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
    5)通過「蹭熱點(diǎn)」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
    4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過主動(dòng)發(fā)現(xiàn)和接受用戶舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。


三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對(duì)了
+5羽毛
下一次認(rèn)真讀哦
成功推薦給其他人
+ 10羽毛
評(píng)論成功且進(jìn)入審核!審核通過后,您將獲得10羽毛的獎(jiǎng)勵(lì)。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接