Celem projektu jest eksploracja danych dotyczących zmian w rankingach Elo reprezentacji narodowych w piłce nożnej w latach 1998–2015. Dane zostały opracowane przez FiveThirtyEight i dotyczą okresu prezydentury Seppa Blattera w FIFA. Analiza pozwala zbadać, które reprezentacje poprawiły swoją pozycję w światowym futbolu oraz czy na rozwój piłki nożnej miały wpływ takie czynniki jak PKB czy liczba ludności.
Dane wczytane zostały z biblioteki FiveThirtyEight. Zbiór danych został zmodyfikowany. Rekordy zawierające linki do strony Wikipedia zostały zastąpione przez słowo „Wikipedia”, aby ujednolicić i uprościć dane dotyczące pochodzenia informacji.
W kolumnie dotyczącej źródła danych GDP usunięto szczegółowe informacje, takie jak linki i dodatkowe dopiski, pozostawiając jedynie podstawową nazwę źródła
Dodanie nowych kolumn: - Elo_profit = Zysk punktów elo w latach 98-15
blatter <- elo_blatter
blatter$popu_source <- ifelse(grepl("wikipedia", blatter$popu_source, ignore.case = TRUE),"Wikipedia", blatter$popu_source)
blatter$gdp_source <- sub(", adjusted per http[s]?://\\S+", "", blatter$gdp_source)
#Zmiana części zmiennych na faktory
blatter$confederation <- factor(blatter$confederation)
blatter$gdp_source <- factor(blatter$gdp_source)
blatter$popu_source <- factor(blatter$popu_source)
#Dodanie nowych kolumn
blatter <- blatter %>%
mutate(elo_Profit = elo15 - elo98)
Dane składają się z 209 rekordów i 9 zmiennych. Każdy rekord dotyczy pojedyńczego kraju.
| Zmienna | Opis |
|---|---|
| country | Kraj będący członkiem FIFA |
| elo98 | Ranking Elo drużyny z roku 1998 |
| elo15 | Ranking Elo drużyny z roku 2015 |
| confederation | Konfederacja, do której należy kraj |
| gdp06 | PKB per capita kraju w 2006 roku |
| popu06 | Liczba ludności kraju w 2006 roku) |
| gdp_source | Źródło danych dla gdp06 |
| popu_source | Źródło danych dla popu06 |
| elo_Profit | Zysk punktów elo w latach 98-15 |
Statystyki podsumowujące wybrane zmienne przedstawiają się następująco:
knitr::kable(blatter %>% select(elo98, elo15, confederation, gdp_source, popu_source) %>% summary)
| elo98 | elo15 | confederation | gdp_source | popu_source | |
|---|---|---|---|---|---|
| Min. : 612 | Min. : 534 | AFC :46 | World Bank :181 | CIA (2007): 5 | |
| 1st Qu.:1175 | 1st Qu.:1193 | CAF :54 | CIA (2004) : 6 | IMF : 1 | |
| Median :1394 | Median :1399 | CONCACAF:35 | CIA (2005) : 5 | Wikipedia : 5 | |
| Mean :1375 | Mean :1372 | CONMEBOL:10 | IMF : 5 | World Bank:198 | |
| 3rd Qu.:1623 | 3rd Qu.:1619 | OFC :11 | CIA (2007) : 4 | NA | |
| Max. :2065 | Max. :2104 | UEFA :53 | World Bank’s estimate for UK: 4 | NA | |
| NA’s :4 | NA | NA | (Other) : 4 | NA |
Z powyższej tabeli można odczyta, iż najwięcej krajów należy do konfederacji CAF (Confédération Africaine de Football) a najmniej do OFC (Oceania Football Confederation).
W 1998 roku najwyższy ranking Elo wynosił 2065 punktów. W 2015 roku najwyższy wynik wynosił 2104 punktów.
Głównie informacje o GDP i populacji pochodzą ze źródła World Bank.
blatter %>%
select(country, confederation, elo98, elo15, elo_Profit) %>%
arrange(desc(elo_Profit)) %>%
head(10)
## # A tibble: 10 × 5
## country confederation elo98 elo15 elo_Profit
## <chr> <fct> <int> <int> <int>
## 1 Philippines AFC 751 1230 479
## 2 Panama CONCACAF 1283 1709 426
## 3 Venezuela CONMEBOL 1312 1667 355
## 4 Equatorial Guinea CAF 1097 1393 296
## 5 Cape Verde CAF 1243 1536 293
## 6 Colombia CONMEBOL 1741 2004 263
## 7 Botswana CAF 1027 1286 259
## 8 Estonia UEFA 1200 1434 234
## 9 Costa Rica CONCACAF 1594 1827 233
## 10 Maldives AFC 854 1066 212
Największy wzrost punktów Elo między 1998 a 2015 zanotowały Filipiny, które poprawiły się aż o 479 punktów. W top 10 znajdują się drużyny z różnych konfederacji, jak CONMEBOL, CAF czy CONCACAF. Na liście pojawiają się w większości zespoły tradycyjnie słabsze.
blatter %>%
filter(!is.na(elo_Profit)) %>%
group_by(confederation) %>%
summarise(countries = n(),mean.elo_profit = mean(elo_Profit)) %>%
arrange(desc(mean.elo_profit))
## # A tibble: 6 × 3
## confederation countries mean.elo_profit
## <fct> <int> <dbl>
## 1 CONMEBOL 10 106.
## 2 CAF 53 13.7
## 3 UEFA 52 10.4
## 4 CONCACAF 34 1.85
## 5 AFC 45 -27.7
## 6 OFC 11 -34.1
blatter %>%
filter(!is.na(elo_Profit)) %>%
group_by(confederation) %>%
summarise(mean.elo_profit = mean(elo_Profit)) %>%
arrange(mean.elo_profit) %>%
mutate(
confederation = factor(confederation, levels = confederation),
kolor = ifelse(mean.elo_profit > 0, "darkgreen", "brown2")) %>%
ggplot(aes(x = confederation, y = mean.elo_profit, fill = kolor)) +
geom_col(col = "white") +
geom_text(aes(label = round(mean.elo_profit, 2)), vjust = -0.5) +
ggtitle("Średni zysk punktów Elo w zależności od konfederacji w latach 1998-2015") +
ylab("Średni zysk punktów Elo") +
xlab("Konfederacja") +
scale_fill_identity() +
theme_minimal()
Największy średni zysk punktów Elo w latach 1998-2015 zanotowała konfederacja CONMEBOL (Ameryka Południowa). Największy średni spadek punktów Elo zanotowała konfederacja OFC (Oceania). Jednak liczba krajów w tych dwóch konfederacjach jest znacznie mniejsza niż w innych, co mogło wpłynąć na większą zmienność wyników.
blatter %>%
filter(!is.na(elo_Profit)) %>%
ggplot(aes(x = confederation, y = elo_Profit)) +
geom_boxplot(aes(fill = confederation)) +
ggtitle("Wykres pudełkowy zysku Elo w zależności od Konfederacji") +
theme(legend.position = "none") +
xlab("Konfederacja") +
ylab(" Zysk punktów Elo")
Pomimo ,że kraje konfederacji AFC uzyskały średnio największy spadek punktów. Jeden kraj wyróżnia się największym wzrostem ale też jeden kraj należący do tej konfederacji największym spadkiem. Rozrzut wyników największy jest w konfederacji UEFA oraz CAF co oznacza duże zróżnicowanie sił reprezentacji.
blatter %>%
select(country, elo98, elo15) %>%
arrange(desc(elo98)) %>%
head(10) %>%
pivot_longer(cols = c(elo98, elo15), names_to = "year",values_to = "elo_points") %>%
mutate(year = ifelse(year == "elo98", 1998, 2015)) %>%
ggplot(aes(x = factor(year), y = elo_points, group = country, color = country)) +
geom_line(linewidth = 1) +
geom_point(size = 3) +
labs(title = "Zmiana punktów Elo 10 najlepszych reprezentacji z 1998 do 2015", x = "Rok", y = "Punkty Elo", color = "Kraj") +
theme_minimal()
Największy wzrost punktów Elo z czołowej 10 roku 1998 w porównaniu do 2015 zanotowała Argentyna. Największe spadki zanotowała reprezentacja Serbii oraz Norwegii. Pozostałe reprezentacje utrzymały się na względnie stabilnym poziomie.
world <- map_data("world")
map_data_elo <- world %>%
left_join(blatter, by = c("region" = "country"))
ggplot() +
geom_map(data = map_data_elo, map = world,
aes(map_id = region, fill = elo_Profit),
color = "black") +
expand_limits(x = world$long, y = world$lat) +
scale_fill_steps(low = "red", high = "green", na.value = "grey90", n.breaks = 5) +
theme_minimal() +
labs(fill = "Zysk Elo", title = "Zysk punktów Elo wg kraju (1998-2015)") + xlab("") + ylab("") +
theme(axis.text = element_blank(), legend.position = "bottom")
Mapa pokazuje, jak zmieniły się punkty Elo reprezentacji piłkarskich między 1998 a 2015 rokiem. Kolory na mapie zostały podzielone na cztery segmenty, gdzie każdy segment odpowiada innemu zakresowi wartości zysku punktów Elo. Kraje pokolorowane na zielono osiągnęły największy wzrost, a te pokolorowane na czerwono oznaczają największy spadek punktów. Wzorst punktów Elo zanotowały zachodnie kraje Ameryki Południowej, Europa centralno-Wschodnia oraz cześć Afryki.
ggplot() +
geom_map(data = map_data_elo, map = world,
aes(map_id = region, fill = elo15),
color = "black") +
expand_limits(x = world$long, y = world$lat) +
scale_fill_gradient(low = "white", high = "darkgreen", na.value = "grey") +
theme_minimal() +
theme(
axis.title = element_blank(),
axis.text = element_blank(),
axis.ticks = element_blank()
) +
labs(fill = "Punkty Elo", title = "Punkty Elo Krajów z roku 2015") +
theme(axis.text = element_blank(), legend.position = "bottom")
W rankingu Elo z 2015 roku dominują kraje z Ameryki południowej oraz z Europy Zachodniej. Najsłabiej wypadają kraję Afrykańskie oraz Południowej części Azji.
blatter %>%
ggplot(aes(x=elo15, y = gdp06)) +
geom_point(aes(col = confederation)) +
xlab("Ranking Elo z 2015r") +
ylab("PKB per capita") +
scale_color_discrete(name = "Konfederacja") +
theme_minimal()
Wykres pokazuje nam niewielki wpływ PKB na ranking Elo. Kraje znajdujące się w czołówce rankingu mają przeciętne PKB. Znajdują się także kraje z dużym PKB i słabym wynikiem rankingu Elo.
blatter %>%
ggplot(aes(x = confederation, y = elo15)) +
geom_boxplot(aes(fill = confederation)) +
xlab("Konfederacja") +
ylab("Punkty Elo z 2015r") +
theme(legend.position = "none")
Wykres pudełkowy przedstawia ,że wbrew popularnej opinii kraje Europejskie są stosunkowo słabsze w porównaniu do krajów z Amerki Południowej. Nawet najsłabsza reprezentacja z CONMEBOL osiągnęła wynik zbliżony do mediany drużyn europejskich. Wykres przedstawia dodatkowo dużą rozbieżność w rankingu w Azji oraz w Ameryce Północnej.
blatter %>%
filter(!is.na(elo_Profit)) %>%
ggplot(aes(x = popu06, y = elo98, color = confederation)) +
geom_point(size = 3, alpha = 0.7) +
geom_smooth(method = "lm", se = FALSE, formula = y ~ x, color = "black", linetype = "dashed") +
scale_x_log10(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
xlab("Ludność (2006)") +
ylab("Ranking Elo (1998)") +
ggtitle("Związek między Ludnością a rankingiem Elo (1998)") +
scale_color_discrete(name = "Konfederacja") +
theme_minimal()
blatter %>%
filter(!is.na(elo_Profit)) %>%
ggplot(aes(x = popu06, y = elo15, color = confederation)) +
geom_point(size = 3, alpha = 0.7) +
geom_smooth(method = "lm", se = FALSE, formula = y ~ x, color = "black", linetype = "dashed") +
scale_x_log10(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
xlab("Ludność (2006)") +
ylab("Ranking Elo (2015)") +
ggtitle("Związek między Ludnością a rankingiem Elo (2015)") +
scale_color_discrete(name = "Konfederacja") +
theme_minimal()
Z wykresu wynika, że istnieje dodatnia korelacja między populacją a jakością reprezentacji. Jednak zależność ta nie jest bardzo silna, o czym świadczy znaczne rozproszenie punktów wokół lini trendu.
blatter %>%
filter(!is.na(elo_Profit)) %>%
ggplot(aes(x=elo_Profit)) +
geom_density(fill = "darkblue", alpha = 0.5) +
xlab("Zysk elo") +
ylab("Gęstość") +
ggtitle("Rozkład zysku punktów Elo w latach 1998-2015") +
theme_minimal()
blatter %>%
filter(!is.na(elo_Profit)) %>%
ggplot(aes(x=elo_Profit)) +
geom_density(fill = "darkblue", alpha = 0.5) +
xlab("Zysk elo") +
ylab("Gęstość") +
ggtitle("Rozkład zysku punktów Elo w latach 1998-2015 w podziale na konfederacje") +
facet_wrap(confederation~.) +
theme_minimal()
Na zaprezentowanych wykresach przedstawiono rozkład zysku punktów Elo w latach 1998–2015, zarówno ogólnie dla wszystkich krajów, jak i w podziale na poszczególne konfederacje.
Pierwszy, wykres pokazuje ogólną gęstość rozkładu zysku punktów Elo dla wszystkich reprezentacji narodowych. Największa koncentracja przypada w okolicach zera, co oznacza, że większość reprezentacji narodowych zyskała lub straciła stosunkowo niewiele punktów Elo w badanym okresie.
Drugi, wykres pokazują tą samą gęstośc ale w podziale na konfederacje. OFC oraz AFC nie odnotowały dużych zysków. Kraje z konfederacji CONCACAF mają największy wzrost na skrajnym punkcie rozkładu.
Dalsze analizy mogłyby uwzględnić np.: