很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經(jīng)錄用會有專人和您聯(lián)系
咨詢?nèi)绾纬蔀榇河鹱髡哒埪?lián)系:鳥哥筆記小羽毛(ngbjxym)
你好,我是可樂
2020東京奧運會已經(jīng)結(jié)束了,才想起來寫一篇關(guān)于奧運會的數(shù)據(jù)分析文章,真是前些天都太熱衷于追奧運了。
找了一下,網(wǎng)上果然有從1896第一屆現(xiàn)代奧運會開始至2016年里約奧運會的全部數(shù)據(jù),當(dāng)然如果你感興趣,還可以把2020年的給加上,于是,我們就可以用這些數(shù)據(jù)來重新回顧一下這100多年來的奧運會歷史了,看可以從中得出哪些結(jié)論!
奧運會,全稱:奧林匹克運動會,發(fā)源于2000多年前的古希臘,因舉辦地在奧林匹亞而得名,每4年一屆,是世界上影響力最大的體育盛會。
1896年,停辦了1500年的奧運會終于得以重辦,這也是首屆現(xiàn)代奧運會,如今已舉辦了32界夏季奧運會,23界冬季奧運會。
我們可以帶著以下3個問題來分析這份數(shù)據(jù),了解歷史。
1、地域上,哪些國家/地區(qū)舉辦奧運會次數(shù)最多?參賽的運動員最多?獲獎最多?
2、個人上,歷年來男女參賽的運動員表現(xiàn)如何?
3、項目上,有沒有哪些項目是某些國家/地區(qū)的強項?
數(shù)據(jù)來源:https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154
共兩份數(shù)據(jù),一份athlete_events.csv,包含了參賽運動員基本生物數(shù)據(jù)和獎牌結(jié)果。
一份noc_regions.csv,是國家奧委會3個字母的代碼與對應(yīng)國家信息。
分析工具:Power BI + Excel
運動員數(shù)據(jù)包含了從1896年至2016年,歷屆奧運會每位運動員參賽的數(shù)據(jù),共271116行15個字段,每行對應(yīng)每位運動員參加奧運會項目的信息。
ID:每個運動員的唯一編號,共135571個編號
Name:運動員姓名
Sex:運動員性別,F(xiàn)是女性,M是男性
Age:運動員年齡
Height:運動員身高,單位cm
Weight:運動員體重,單位kg
Team:運動員代表隊,如中國
NOC:國家奧委會三字代碼
Games:運動員參加的哪一屆奧運會
Year:年份
Season:季節(jié)
City:主辦城市,如北京
Sport:運動項目,如籃球
Event:具體項目,如男子籃球
Medal:獎牌,如金牌、銀牌、銅牌或沒有
奧委會數(shù)據(jù):
NOC:國家奧委會3個字母的代碼
Region:國家/地區(qū)
Notes:備注
這里需要理解的是:
ID號比實際數(shù)據(jù)量少是因為會有1個運動員參加幾個項目的情況,一個運動員對應(yīng)一個ID編號,而非一條數(shù)據(jù)對應(yīng)一個ID。
NOC是指國家奧委會三字代碼,比如中國的代碼是CHN
GAMES是用年份+季節(jié)命名的哪一屆奧運會,比如2016 Summer是2016年夏季奧運會。奧運會其實包含夏季奧運會、冬季奧運會、殘奧會等,夏奧會受關(guān)注較多,這份數(shù)據(jù)是包含夏奧會和冬奧會的。
TEAM是該運動員所在的代表隊,也就是運動員所屬的國家/地區(qū)。插播一條冷知識,奧運會是以奧委會為代表團參加的,而不是以國家為代表,所以也一直在強調(diào)“國家或地區(qū)”這個概念,也是為什么臺灣會參與,并且是以中華臺北的名義,因為中華臺北奧委會是國際奧委會的成員,所以它可以參與,歷史上它還以“中華民國”的名義參與,被我們抵制了。
將兩份數(shù)據(jù)以NOC為共同字段進行關(guān)聯(lián),就可以得到每個運動員所屬的國家/地區(qū)了。
將數(shù)據(jù)導(dǎo)入Power BI,它會自動設(shè)置好關(guān)聯(lián)。
這份數(shù)據(jù)在Age、Height、Weight、Medal列存在缺失值:
Medal的缺失值表示該運動員在此項目上沒有拿到獎牌,不用處理
Age列有9474個缺失值,占比3.5%
Height列有60171個缺失值,占比22%
Weight列有62875個缺失值,占比23%
年齡、身高、體重屬于個人信息,本來想做一些填充處理,但發(fā)現(xiàn)很多空值都是某一個國家,一個類別的項目,一大片的缺失,無法根據(jù)已知信息去填充,所以這里就空著吧,保留原始數(shù)據(jù)。
Team里命名是不規(guī)范的,可以看到一個代表隊后面跟了好幾個數(shù)字,但好在這些代表隊的奧委會編碼NOC都是一樣的,因此可以直接根據(jù)NOC去匹配國家/地區(qū),這里就不處理了。其他的數(shù)據(jù)都比較規(guī)范,沒有什么異常值。
介紹字段的時候提到了,一個ID代表一個運動員參加的一個項目,因此ID重復(fù)是正常的,因為一個運動員可能不止參加一項比賽。
夏季奧運會從1896年開始,每4年舉辦一次,這份數(shù)據(jù)是到2016年的,共舉辦了29次,冬季奧運會舉辦了22次。
相信對數(shù)字敏感的你已經(jīng)發(fā)現(xiàn)問題了,文章開頭剛提到2020東京奧運會是第32界奧運會,這里的夏季奧運會怎么才舉辦了29次呢?少了哪3屆沒有舉辦呢?
其實看一下年份就發(fā)現(xiàn)端倪了,兩次世界大戰(zhàn)的緣故,原擬在1916、1940、1944年舉辦的三屆奧運會成了空白。
從1896年第一屆現(xiàn)代奧運會176名運動員12個國家/地區(qū)參賽開始,到2016年倫敦奧運會11179名206個國家/地區(qū),運動員參賽數(shù)量逐漸增加(2020年東京奧運會參賽運動員11669名,204個國家/地區(qū)),下圖是夏季奧運會的運動員參賽數(shù)量和參數(shù)國家/地區(qū)數(shù)的圖。
圖中紅圈圈出來的是3個明顯的低點,非常值得說道:
1932年洛杉磯奧運會,因費用問題,參賽人數(shù)顯著減少,值得一提的是,也是此次奧運會,中國首次派出了代表團,也就是我國奧運第一人劉長春,參與了田徑項目,這也是我們征戰(zhàn)奧運的第一槍。
1956年墨爾本奧運會,是歷史上唯一一次在不同時間、地點舉行的奧運會,且當(dāng)時正值美蘇冷戰(zhàn)的大背景下,多國棄權(quán),人數(shù)少也就可想而知了。并且此次奧運會中國代表團拒絕參賽,原因是國際奧委會一面承認中華人民共和國,一面同意臺灣以“中華民國”名義參加奧運會,為了反對分裂中國的企圖,中國嚴肅地抵制了該屆奧運會。
1980年莫斯科奧運會,當(dāng)時蘇聯(lián)還沒解體,奧運會第一次在社會主義國家舉辦,為了抗議蘇聯(lián)入侵阿富汗,美國等國發(fā)起抵制莫斯科奧運會,使得最終只有80個國家參加,這是自1956年以來最少國家參加的一屆奧運會。
1900年23名女性首次參加了奧運會,占比1.87%,1980年開始女性參賽的數(shù)量大幅增加,到2016年5034名女運動員參賽,占比45%。
歷史上男女運動員比例。
歷屆奧運會比賽項目種類也是逐漸增加,1896年夏奧會上只有9個,到2016年有36個項目。
歷史上參與人數(shù)最多的項目是田徑,其次是游泳、劃船、足球。
男女運動員參與這些項目的人數(shù)比例情況如下圖,在棒球、北歐兩項(冬奧會項目)、拔河、橄欖球、馬球、長曲棍球等13個項目上完全沒有女運動員參與,不過在藝術(shù)體操、花樣游泳、壘球上也都沒有男運動員參加。
歷史上總共有208個國家/地區(qū)參加過奧運會,澳大利亞、法國、希臘、意大利、瑞典參加了全部29次夏季奧運會,中國參加了19次。
可以看到歷史上美國派遣參加奧運會的人數(shù)最多,其次是德國,中國排在第11位,這也和我們前期沒參與有關(guān)。
歷史上共有42個城市舉辦過奧運會,其中雅典和倫敦舉辦過3次,因斯布魯克、普萊西德湖城、洛杉磯、巴黎、圣莫里茲、斯德哥爾摩舉辦了兩次,剩下的城市都只舉辦過1次。
通過繪制數(shù)據(jù)地圖可以看出,歐洲國家不管是在單個城市承辦次數(shù)還是數(shù)量上都有明顯優(yōu)勢,不過北京也馬上要成為舉辦過2次奧運會的城市了(2008年夏季奧運會和即將到來的2022年冬季奧運會)。
歷史上獲得獎牌最多的國家是美國,其次是俄羅斯、德國、英國。在今年的東京奧運會上,我們拿到了38塊金牌,88塊獎牌。
在大項目上,美國的游泳、田徑拿的金牌占了幾乎半壁江山。
從拿獎牌的選手的年齡分布上也可以看出,還是22~23歲的選手獲獎最多。
年齡最小的是10歲的這條數(shù)據(jù),我核實了一下,居然是真的,Dimitrios Loundras這位10歲的小朋友,在1896年雅典奧運會上獲得了體操男子團體銅牌,是奧運史上最年輕的獲獎牌的運動員。
那么97歲的這位運動員,我覺得也不是異常值了,這位John Quincy Adams Ward參加了1928年阿姆斯特丹奧運會,藝術(shù)類的雕塑項目,雖然沒有獲得獎牌,但他以97歲的高齡成為年齡最大的奧運會選手。
這里又有個冷知識了,關(guān)于奧運會藝術(shù)競賽。
1912年到1948年的7屆奧運會中都有美術(shù)類競賽,如建筑、文學(xué)、音樂、繪畫和雕塑,從1952年起,奧運藝術(shù)競賽就被取消了,后來改為奧林匹克藝術(shù)大會。
身高最低的選手有兩位,都是127cm,一男一女。
一位是來自墨西哥的體操女子全能選手Rosario Briones參加了1968年墨西哥奧運會。
另一位是來自馬拉維的男子拳擊運動員Lyton Levison Mphande,參加了1988年漢城奧運會。
身高最高的是我們的姚明,226cm,2000、2004、2008年的奧運會籃球項目都有參與。
體重最輕的選手是這位來自朝鮮的女子體操全能運動員,只有25kg,真·身輕如燕,參加了1980年莫斯科奧運會。
體重最重的選手是這位來自關(guān)島的男子柔道運動員,214kg,參加了2008年、2012年兩屆奧運會。
有位名叫Ian Milar的馬術(shù)運動員參加了10次奧運會,自1972年開始,他代表加拿大征戰(zhàn)奧運,直到2012年,是他參加的第10次夏季奧運會了,并且在2008北京奧運會上他第一次拿到了馬術(shù)項目的團體銀牌,真是一個非常勵志的故事。
史上獲得金牌最多的選手是來自美國的“飛魚””菲爾普斯,以23枚金牌數(shù)遠超第二多的選手13枚。
1932年我國派出第一個奧運代表團參加奧運會,劉長春這個名字被我們深深地記住了。1984年以后我們開始派出大規(guī)模的代表團參賽,2008年北京奧運會,有633名選手參賽,達到了歷史最高水平(2020年東京奧運會中國派出431名運動員)。
中國奧運史上男女運動員參賽比例情況如下圖所示,可以看到比起國際數(shù)據(jù),我們女性選手的地位要高很多了,1994年女運動員占比達到了72%的最高水平。
我國參與人數(shù)最多的項目是田徑,其次是游泳、籃球、射擊、舉重,女運動員參與人數(shù)最多的5項運動是田徑、游泳、舉重、排球、籃球,男性則是田徑、游泳、射擊、籃球、擊劍。
我國拿獎牌最多的比賽項目是體操(60塊獎牌),其次是排球、舉重、游泳、羽毛球、跳水、乒乓球。
拿金牌最多的項目是排球(可能因為排球人數(shù)比較多),單人項目上金牌最多的運動是跳水、舉重。
我國獲金牌最多的選手有3位,都是拿了5塊金牌,他們是跳水運動員陳若琳、跳水的吳敏霞、體操運動員鄒凱。
最后總結(jié)一下:
奧運會參數(shù)運動員人數(shù)從第一屆的176名增加到第32屆的11669名,奧運會不斷覆蓋更多的人數(shù)
女性運動員從最初的不到占比2%到如今的45%,有了很大的突破
比賽項目的種類也從9個增加到如今的36個,種類越來越多
歷史上參賽人數(shù)最多的項目是田徑,其次是游泳、劃船、足球
澳大利亞、法國、希臘、意大利、瑞典參加了全部29次夏季奧運會,中國參加了19次
美國派遣參加奧運會的人數(shù)最多,其次是德國,中國排在第11位
歷史上共有42個城市舉辦過奧運會,其中雅典和倫敦舉辦過3次
獲得獎牌最多的國家是美國,其次是俄羅斯、德國、英國,中國排在第12位
…
寫這篇文章,查了很多奧運知識,自己也學(xué)到了不少的冷知識,百年奧運的數(shù)據(jù)分析到這其實還只是個開始,你有什么想法都可以拿它來練手。
希望奧運會也能永遠保持初心,讓更高更快更強的奧運精神不只是一句口號,我們下一個奧運再見了。
另附數(shù)據(jù)來源,可自行下載:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154
-END-
本文為作者獨立觀點,不代表鳥哥筆記立場,未經(jīng)允許不得轉(zhuǎn)載。
《鳥哥筆記版權(quán)及免責(zé)申明》 如對文章、圖片、字體等版權(quán)有疑問,請點擊 反饋舉報
我們致力于提供一個高質(zhì)量內(nèi)容的交流平臺。為落實國家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內(nèi)容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據(jù)本公約中的條款對注冊用戶和發(fā)布在本平臺的內(nèi)容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。
一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結(jié);
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結(jié)社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權(quán)益;
11)通過網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網(wǎng)絡(luò)欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內(nèi)容;
2. 不友善:不尊重用戶及其所貢獻內(nèi)容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應(yīng),蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網(wǎng)站秩序的內(nèi)容,或進行相關(guān)行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內(nèi)容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
7)發(fā)布包含欺騙性的惡意營銷內(nèi)容,如通過偽造經(jīng)歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經(jīng)驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內(nèi)容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內(nèi)容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內(nèi)容;
2)存在事實夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構(gòu)或個人存在關(guān)聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治病;
2)求推薦算命看相大師;
3)針對具體風(fēng)水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標(biāo)題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導(dǎo)用戶;
2)內(nèi)容與標(biāo)題之間存在嚴重不實或者原意扭曲;
3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導(dǎo)未成年人應(yīng)援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
2)不當(dāng)評述自然災(zāi)害、重大事故等災(zāi)難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。
二、違規(guī)處罰
本網(wǎng)站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個用戶發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將依據(jù)相關(guān)用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內(nèi)容時,本網(wǎng)站將加重處罰。
三、申訴
隨著平臺管理經(jīng)驗的不斷豐富,本網(wǎng)站出于維護本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶對本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網(wǎng)站進行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)