Wprowadzenie

Celem projektu jest eksploracja danych dotyczących zmian w rankingach Elo reprezentacji narodowych w piłce nożnej w latach 1998–2015. Dane zostały opracowane przez FiveThirtyEight i dotyczą okresu prezydentury Seppa Blattera w FIFA. Analiza pozwala zbadać, które reprezentacje poprawiły swoją pozycję w światowym futbolu oraz czy na rozwój piłki nożnej miały wpływ takie czynniki jak PKB czy liczba ludności.

Obróbka danych

Dane wczytane zostały z biblioteki FiveThirtyEight. Zbiór danych został zmodyfikowany. Rekordy zawierające linki do strony Wikipedia zostały zastąpione przez słowo „Wikipedia”, aby ujednolicić i uprościć dane dotyczące pochodzenia informacji.

W kolumnie dotyczącej źródła danych GDP usunięto szczegółowe informacje, takie jak linki i dodatkowe dopiski, pozostawiając jedynie podstawową nazwę źródła

Dodanie nowych kolumn: - Elo_profit = Zysk punktów elo w latach 98-15

blatter <- elo_blatter

blatter$popu_source <- ifelse(grepl("wikipedia", blatter$popu_source, ignore.case = TRUE),"Wikipedia", blatter$popu_source)
blatter$gdp_source <- sub(", adjusted per http[s]?://\\S+", "", blatter$gdp_source)

#Zmiana części zmiennych na faktory
blatter$confederation <- factor(blatter$confederation)
blatter$gdp_source <- factor(blatter$gdp_source)
blatter$popu_source <- factor(blatter$popu_source)

#Dodanie nowych kolumn
blatter <-  blatter %>% 
    mutate(elo_Profit = elo15 - elo98)

Dane składają się z 209 rekordów i 9 zmiennych. Każdy rekord dotyczy pojedyńczego kraju.

Opis Zmiennych

Zmienna Opis
country Kraj będący członkiem FIFA
elo98 Ranking Elo drużyny z roku 1998
elo15 Ranking Elo drużyny z roku 2015
confederation Konfederacja, do której należy kraj
gdp06 PKB per capita kraju w 2006 roku
popu06 Liczba ludności kraju w 2006 roku)
gdp_source Źródło danych dla gdp06
popu_source Źródło danych dla popu06
elo_Profit Zysk punktów elo w latach 98-15

Statystyki podsumowujące wybrane zmienne przedstawiają się następująco:

knitr::kable(blatter %>% select(elo98, elo15, confederation, gdp_source, popu_source) %>% summary)
elo98 elo15 confederation gdp_source popu_source
Min. : 612 Min. : 534 AFC :46 World Bank :181 CIA (2007): 5
1st Qu.:1175 1st Qu.:1193 CAF :54 CIA (2004) : 6 IMF : 1
Median :1394 Median :1399 CONCACAF:35 CIA (2005) : 5 Wikipedia : 5
Mean :1375 Mean :1372 CONMEBOL:10 IMF : 5 World Bank:198
3rd Qu.:1623 3rd Qu.:1619 OFC :11 CIA (2007) : 4 NA
Max. :2065 Max. :2104 UEFA :53 World Bank’s estimate for UK: 4 NA
NA’s :4 NA NA (Other) : 4 NA

Z powyższej tabeli można odczyta, iż najwięcej krajów należy do konfederacji CAF (Confédération Africaine de Football) a najmniej do OFC (Oceania Football Confederation).

W 1998 roku najwyższy ranking Elo wynosił 2065 punktów. W 2015 roku najwyższy wynik wynosił 2104 punktów.

Głównie informacje o GDP i populacji pochodzą ze źródła World Bank.

Analiza

Top 10 krajów z największym zyskiem punktów elo między rokiem 1998-2015

blatter %>% 
    select(country, confederation, elo98, elo15, elo_Profit) %>% 
    arrange(desc(elo_Profit)) %>% 
    head(10)
## # A tibble: 10 × 5
##    country           confederation elo98 elo15 elo_Profit
##    <chr>             <fct>         <int> <int>      <int>
##  1 Philippines       AFC             751  1230        479
##  2 Panama            CONCACAF       1283  1709        426
##  3 Venezuela         CONMEBOL       1312  1667        355
##  4 Equatorial Guinea CAF            1097  1393        296
##  5 Cape Verde        CAF            1243  1536        293
##  6 Colombia          CONMEBOL       1741  2004        263
##  7 Botswana          CAF            1027  1286        259
##  8 Estonia           UEFA           1200  1434        234
##  9 Costa Rica        CONCACAF       1594  1827        233
## 10 Maldives          AFC             854  1066        212

Największy wzrost punktów Elo między 1998 a 2015 zanotowały Filipiny, które poprawiły się aż o 479 punktów. W top 10 znajdują się drużyny z różnych konfederacji, jak CONMEBOL, CAF czy CONCACAF. Na liście pojawiają się w większości zespoły tradycyjnie słabsze.

Średni zysk punktów Elo w zależności od konfederacji z uwzględnieniem liczby krajów

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    group_by(confederation) %>% 
    summarise(countries = n(),mean.elo_profit = mean(elo_Profit)) %>% 
    arrange(desc(mean.elo_profit))
## # A tibble: 6 × 3
##   confederation countries mean.elo_profit
##   <fct>             <int>           <dbl>
## 1 CONMEBOL             10          106.  
## 2 CAF                  53           13.7 
## 3 UEFA                 52           10.4 
## 4 CONCACAF             34            1.85
## 5 AFC                  45          -27.7 
## 6 OFC                  11          -34.1
blatter %>% 
  filter(!is.na(elo_Profit)) %>% 
  group_by(confederation) %>% 
  summarise(mean.elo_profit = mean(elo_Profit)) %>% 
  arrange(mean.elo_profit) %>%
  mutate(
    confederation = factor(confederation, levels = confederation),
    kolor = ifelse(mean.elo_profit > 0, "darkgreen", "brown2")) %>% 
  ggplot(aes(x = confederation, y = mean.elo_profit, fill = kolor)) + 
  geom_col(col = "white") +
  geom_text(aes(label = round(mean.elo_profit, 2)), vjust = -0.5) +
  ggtitle("Średni zysk punktów Elo w zależności od konfederacji w latach 1998-2015") +
  ylab("Średni zysk punktów Elo") + 
  xlab("Konfederacja") +
  scale_fill_identity() +
  theme_minimal()

Największy średni zysk punktów Elo w latach 1998-2015 zanotowała konfederacja CONMEBOL (Ameryka Południowa). Największy średni spadek punktów Elo zanotowała konfederacja OFC (Oceania). Jednak liczba krajów w tych dwóch konfederacjach jest znacznie mniejsza niż w innych, co mogło wpłynąć na większą zmienność wyników.

Zysk punktów Elo w zależności od Konfederacji

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    ggplot(aes(x = confederation, y = elo_Profit)) +
    geom_boxplot(aes(fill = confederation)) + 
    ggtitle("Wykres pudełkowy zysku Elo w zależności od Konfederacji") +                   
    theme(legend.position = "none") + 
    xlab("Konfederacja") + 
    ylab(" Zysk punktów Elo")

Pomimo ,że kraje konfederacji AFC uzyskały średnio największy spadek punktów. Jeden kraj wyróżnia się największym wzrostem ale też jeden kraj należący do tej konfederacji największym spadkiem. Rozrzut wyników największy jest w konfederacji UEFA oraz CAF co oznacza duże zróżnicowanie sił reprezentacji.

Zmiana punktów Elo 10 najlepszych reprezentacji z 1998 do 2015

blatter %>% 
  select(country, elo98, elo15) %>% 
  arrange(desc(elo98)) %>% 
  head(10) %>% 
  pivot_longer(cols = c(elo98, elo15), names_to = "year",values_to = "elo_points") %>%
  mutate(year = ifelse(year == "elo98", 1998, 2015)) %>% 
  ggplot(aes(x = factor(year), y = elo_points, group = country, color = country)) +
  geom_line(linewidth = 1) +
  geom_point(size = 3) +
  labs(title = "Zmiana punktów Elo 10 najlepszych reprezentacji z 1998 do 2015", x = "Rok", y = "Punkty Elo", color = "Kraj") +
  theme_minimal()

Największy wzrost punktów Elo z czołowej 10 roku 1998 w porównaniu do 2015 zanotowała Argentyna. Największe spadki zanotowała reprezentacja Serbii oraz Norwegii. Pozostałe reprezentacje utrzymały się na względnie stabilnym poziomie.

Wykresy mapkowe

world <- map_data("world")

map_data_elo <- world %>%
  left_join(blatter, by = c("region" = "country"))


ggplot() +
  geom_map(data = map_data_elo, map = world,
           aes(map_id = region, fill = elo_Profit),
           color = "black") +
  expand_limits(x = world$long, y = world$lat) +
  scale_fill_steps(low = "red", high = "green", na.value = "grey90", n.breaks = 5) +
  theme_minimal() +
  labs(fill = "Zysk Elo", title = "Zysk punktów Elo wg kraju (1998-2015)") + xlab("") + ylab("") +
  theme(axis.text = element_blank(), legend.position = "bottom")

Mapa pokazuje, jak zmieniły się punkty Elo reprezentacji piłkarskich między 1998 a 2015 rokiem. Kolory na mapie zostały podzielone na cztery segmenty, gdzie każdy segment odpowiada innemu zakresowi wartości zysku punktów Elo. Kraje pokolorowane na zielono osiągnęły największy wzrost, a te pokolorowane na czerwono oznaczają największy spadek punktów. Wzorst punktów Elo zanotowały zachodnie kraje Ameryki Południowej, Europa centralno-Wschodnia oraz cześć Afryki.

ggplot() +
  geom_map(data = map_data_elo, map = world,
           aes(map_id = region, fill = elo15),
           color = "black") +
  expand_limits(x = world$long, y = world$lat) +
  scale_fill_gradient(low = "white", high = "darkgreen", na.value = "grey") +
  theme_minimal() +
  theme(
    axis.title = element_blank(),
    axis.text = element_blank(),
    axis.ticks = element_blank()
  ) +
  labs(fill = "Punkty Elo", title = "Punkty Elo Krajów z roku 2015") +
  theme(axis.text = element_blank(), legend.position = "bottom")

W rankingu Elo z 2015 roku dominują kraje z Ameryki południowej oraz z Europy Zachodniej. Najsłabiej wypadają kraję Afrykańskie oraz Południowej części Azji.

Punkty Elo z 2015 w zależności od wielkości PKB

blatter %>% 
    ggplot(aes(x=elo15, y = gdp06)) + 
    geom_point(aes(col = confederation)) +
    xlab("Ranking Elo z 2015r") +
    ylab("PKB per capita") +
    scale_color_discrete(name = "Konfederacja") +
    theme_minimal()

Wykres pokazuje nam niewielki wpływ PKB na ranking Elo. Kraje znajdujące się w czołówce rankingu mają przeciętne PKB. Znajdują się także kraje z dużym PKB i słabym wynikiem rankingu Elo.

Wykres pudełkowy rankingu Elo w zależności od Konfederacji

blatter %>% 
    ggplot(aes(x = confederation, y = elo15)) +
    geom_boxplot(aes(fill = confederation)) +
    xlab("Konfederacja") +
    ylab("Punkty Elo z 2015r") +
    theme(legend.position = "none")

Wykres pudełkowy przedstawia ,że wbrew popularnej opinii kraje Europejskie są stosunkowo słabsze w porównaniu do krajów z Amerki Południowej. Nawet najsłabsza reprezentacja z CONMEBOL osiągnęła wynik zbliżony do mediany drużyn europejskich. Wykres przedstawia dodatkowo dużą rozbieżność w rankingu w Azji oraz w Ameryce Północnej.

Związek między Ludnością a rankingiem Elo w latach 1998 oraz 2015

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    ggplot(aes(x = popu06, y = elo98, color = confederation)) +
    geom_point(size = 3, alpha = 0.7) +
    geom_smooth(method = "lm", se = FALSE, formula = y ~ x, color = "black", linetype = "dashed") +
    scale_x_log10(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
    xlab("Ludność (2006)") +
    ylab("Ranking Elo (1998)") +
    ggtitle("Związek między Ludnością a rankingiem Elo (1998)") +
    scale_color_discrete(name = "Konfederacja") +
    theme_minimal()

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    ggplot(aes(x = popu06, y = elo15, color = confederation)) +
    geom_point(size = 3, alpha = 0.7) +
    geom_smooth(method = "lm", se = FALSE, formula = y ~ x, color = "black", linetype = "dashed") +
    scale_x_log10(labels = function(x) format(x, big.mark = " ", scientific = FALSE)) +
    xlab("Ludność (2006)") +
    ylab("Ranking Elo (2015)") +
    ggtitle("Związek między Ludnością a rankingiem Elo (2015)") +
    scale_color_discrete(name = "Konfederacja") +
    theme_minimal()

Z wykresu wynika, że istnieje dodatnia korelacja między populacją a jakością reprezentacji. Jednak zależność ta nie jest bardzo silna, o czym świadczy znaczne rozproszenie punktów wokół lini trendu.

Gęstość rozkładu zysku Elo w latach 1998-2015

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    ggplot(aes(x=elo_Profit)) +
    geom_density(fill = "darkblue", alpha = 0.5) +
    xlab("Zysk elo") +
    ylab("Gęstość") +
    ggtitle("Rozkład zysku punktów Elo w latach 1998-2015") +
    theme_minimal()

blatter %>% 
    filter(!is.na(elo_Profit)) %>%
    ggplot(aes(x=elo_Profit)) +
    geom_density(fill = "darkblue", alpha = 0.5) +
    xlab("Zysk elo") +
    ylab("Gęstość") +
    ggtitle("Rozkład zysku punktów Elo w latach 1998-2015 w podziale na konfederacje") +
    facet_wrap(confederation~.) +
    theme_minimal()

Na zaprezentowanych wykresach przedstawiono rozkład zysku punktów Elo w latach 1998–2015, zarówno ogólnie dla wszystkich krajów, jak i w podziale na poszczególne konfederacje.

Pierwszy, wykres pokazuje ogólną gęstość rozkładu zysku punktów Elo dla wszystkich reprezentacji narodowych. Największa koncentracja przypada w okolicach zera, co oznacza, że większość reprezentacji narodowych zyskała lub straciła stosunkowo niewiele punktów Elo w badanym okresie.

Drugi, wykres pokazują tą samą gęstośc ale w podziale na konfederacje. OFC oraz AFC nie odnotowały dużych zysków. Kraje z konfederacji CONCACAF mają największy wzrost na skrajnym punkcie rozkładu.

Wnioski

  1. W czasie gdy przewodniczącym FIFA był Joseph Blatter największy średni wzrost punktów Elo uzyskał kraje z Ameryki Południowej.
  2. Z czołowej 10 reprezentacji z roku 1998 duży spadek punktów Elo zaliczyła reprezentacja Serbii oraz Norwegii.
  3. PKB nie ma wpływu na ranking Elo.
  4. Istnieje korelacja między populacją a rankingiem Elo reprezentacji.

Co dalej?

Dalsze analizy mogłyby uwzględnić np.:

  • Analizę reprezentacji z największym spadkiem punktów Elo.
  • Porównanie PKB i ludności krajów z najwyższym rankingiem Elo z 2015.
  • Zrobienie mapki z PKB i ludnością krajów.