Зимние Олимпийские игры — это крупнейшее международное соревнование по зимним видам спорта, проводимое раз в 4 года. В данном проекте мы анализируем данные обо всех медалистах с первой зимней Олимпиады 1924 года в Шамони до Игр 2014 года в Сочи.
Цель проекта: Выявить ключевые закономерности в распределении медалей: определить страны-лидеры, самых успешных спортсменов, а также проанализировать специализацию стран и взаимодействие атлетов внутри команд.
Источник данных: Файл winter.csv,
содержащий 23916 записей о медалистах по следующим полям: Год, Город,
Вид спорта, Дисциплина, Атлет, Страна, Пол, Событие, Медаль.
В этом разделе мы загружаем необходимые библиотеки, читаем данные и проводим их первичную очистку: проверяем структуру, ищем пропуски, нормализуем текстовые поля.
## Размер данных: 5770 9
## Столбцы: Year City Sport Discipline Athlete Country Gender Event Medal
## Период: 1924 - 2014
Итого: Данные успешно загружены. Мы создали колонку
decade для анализа по десятилетиям и убедились, что
пропусков в данных нет.
В этом разделе мы отвечаем на простые вопросы “кто, где и сколько”. Это база для дальнейших выводов.
Вывод: Безусловными лидерами являются США и Норвегия, что отражает их долгую историю участия и развитую спортивную инфраструктуру. Интересно появление СССР в топе, несмотря на участие всего в 9 зимних Олимпиадах (с 1956 по 1988).
| Athlete | Country | Medals |
|---|---|---|
| Bjoerndalen, Ole Einar | NOR | 13 |
| Daehlie, Björn | NOR | 12 |
| Belmondo, Stefania | ITA | 10 |
| Bjoergen, Marit | NOR | 9 |
| Disl, Uschi | GER | 9 |
| Jernberg, Sixten | SWE | 9 |
| Pechstein, Claudia | GER | 9 |
| Smetanina, Raisa | URS | 9 |
| Aamodt, Kjetil Andre | NOR | 8 |
| Fischer, Sven | GER | 8 |
Вывод: В списке доминируют норвежские лыжники и биатлонисты. Оле-Эйнар Бьёрндален и Бьёрн Дели — легенды, чье превосходство подтверждается цифрами. Медали в лыжных гонках и биатлоне, где разыгрывается много дисциплин на одних Играх, позволяют атлетам набирать большие коллекции наград.
Вывод: Конькобежный спорт и хоккей — лидеры. Это связано с большим количеством дистанций в коньках и большим размером команды в хоккее (каждый игрок получает медаль). Лыжные гонки также в топе из-за разнообразия дисциплин (спринт, разделка, масс-старт, эстафеты).
Простое количество медалей не показывает специализацию. Мы сравним две ведущие страны — Норвегию (NOR) и США (USA) — и посмотрим, в каких видах спорта у них относительное превосходство. Для этого используем Log-ratio.
Формула:
log2( (доля медалей Норвегии в спорте / все медали Норвегии) / (доля медалей США в спорте / все медали США) ).
log2 > 0: у Норвегии медалей в этом виде спорта
непропорционально много по сравнению с США.log2 < 0: у США медалей в этом виде спорта
непропорционально много по сравнению с Норвегией.Интерпретация: Результат крайне нагляден. Норвегия имеет колоссальное относительное преимущество в лыжных видах спорта (лыжные гонки, биатлон, прыжки с трамплина), что является их национальной традицией. США, в свою очередь, доминируют в “технических” видах, требующих дорогой инфраструктуры (санный спорт, бобслей), а также в хоккее и фигурном катании, которые очень популярны в Северной Америке. Этот метод прекрасно выявляет культурные и климатические особенности развития спорта в странах.
Принцип построения: В данном анализе мы применили метод
построения семантической сети для визуализации взаимосвязей между
странами и видами спорта на зимних Олимпийских играх (1924-2014 гг.).
Сеть построена на основе долевого распределения медалей: ребро (связь)
между страной и видом спорта появляется только в том случае, если в этом
виде спорта страна завоевала более 5% от общего количества своих
медалей. Красные узлы — страны-участницы Синие узлы — виды спорта Ребро
— страна имеет значительную долю медалей (>5%) в данном виде спорта
Толщина ребра — величина доли (чем толще, тем больше специализация)
В ходе проекта мы провели многосторонний анализ данных о медалистах зимних Олимпийских игр.