Inspirado pela fala do comentarista Ubiratan Leal no podcast futebol no mundo (#54), essa “pequenina” análise , se debruçará sobre os “priminhos”(como disse o nobre comentarista) do City.
o programa consta diponível em: https://open.spotify.com/episode/71oEZ9x1L0U7bwRzSXUWtN
Toda análise foi rodada no software R.
Quais são as variáveis?
glimpse(dados)
## Rows: 33
## Columns: 5
## $ clube <chr> "Troyes", "Lommel", "Mumbay City", "Mumbay City", "Sic~
## $ temporada <chr> "20_21", "20_21", "20_21", "19_20", "2019_", "2020_", ~
## $ posicao <dbl> 21, 20, 1, 5, 42, 45, 10, 18, 25, 25, 17, 14, 17, 4, 7~
## $ continent <chr> "Europa", "Europa", "Outros", "Outros", "Outros", "Out~
## $ dificuldadeLiga <dbl> 661.000, 456.500, 76.125, 76.125, 294.500, 294.500, 95~
1- Clube - trata-se dos clubes (de futebol masculino) que foram “comprados”(ações) pelo grupo city, segundo o wikipedia ( https://en.wikipedia.org/wiki/City_Football_Group#CFG_owned_clubs ) .
2- as temporadas dos clubes desde que foram compradas
3- a posição na liga, caso dispute divisões inferiores será considerado a posição na tábua nacional, exemplo Troyes em 20-21 ficou primeiro da Ligue 2, portanto posição 21 no país.
4- continent - binarizado - sendo ‘europa’ e ‘outros’
5 - a dificuldade da liga foi dada pela pontuação no ranking 2020 do IFHHS ( fonte https://www.iffhs.com/posts/911 ). Como achei somente as top 80, em dois casos (Austrália e Indía) coloquei a média da 80a colocada.
Quais os casos selecionados?
b5 <- dados %>%
dplyr::select(clube, temporada, posicao, continent, dificuldadeLiga) %>%
arrange(clube)
b5 %>%
kbl(caption = "Priminhos do city") %>%
kable_classic(full_width = F, html_font = "Garamond")
| clube | temporada | posicao | continent | dificuldadeLiga |
|---|---|---|---|---|
| Girona | 17_18 | 10 | Europa | 954.000 |
| Girona | 18_19 | 18 | Europa | 954.000 |
| Girona | 19_20 | 25 | Europa | 954.000 |
| Girona | 20_21 | 25 | Europa | 954.000 |
| Lommel | 20_21 | 20 | Europa | 456.500 |
| Melbourne City | 2014_2015 | 5 | Outros | 76.125 |
| Melbourne City | 2015_2016 | 4 | Outros | 76.125 |
| Melbourne City | 2016_2017 | 4 | Outros | 76.125 |
| Melbourne City | 2017_2018 | 3 | Outros | 76.125 |
| Melbourne City | 2018_2019 | 5 | Outros | 76.125 |
| Melbourne City | 2019_2020 | 2 | Outros | 76.125 |
| Melbourne City | 2020_2021 | 1 | Outros | 76.125 |
| Montevideo City | 2017_ | 17 | Outros | 381.000 |
| Montevideo City | 2018_ | 14 | Outros | 381.000 |
| Montevideo City | 2019_ | 17 | Outros | 381.000 |
| Montevideo City | 2020_ | 4 | Outros | 381.000 |
| Mumbay City | 20_21 | 1 | Outros | 76.125 |
| Mumbay City | 19_20 | 5 | Outros | 76.125 |
| New York City | 2016_ | 2 | Outros | 211.500 |
| New York City | 2017_ | 2 | Outros | 211.500 |
| New York City | 2018_ | 3 | Outros | 211.500 |
| New York City | 2019_ | 1 | Outros | 211.500 |
| New York City | 2020_ | 5 | Outros | 211.500 |
| Sichuan Jiuniu | 2019_ | 42 | Outros | 294.500 |
| Sichuan Jiuniu | 2020_ | 45 | Outros | 294.500 |
| Troyes | 20_21 | 21 | Europa | 661.000 |
| Yokohama Marinos | 2014_ | 7 | Outros | 340.500 |
| Yokohama Marinos | 2015_ | 7 | Outros | 340.500 |
| Yokohama Marinos | 2016_ | 10 | Outros | 340.500 |
| Yokohama Marinos | 2017_ | 5 | Outros | 340.500 |
| Yokohama Marinos | 2018_ | 12 | Outros | 340.500 |
| Yokohama Marinos | 2019_ | 1 | Outros | 340.500 |
| Yokohama Marinos | 2020_ | 9 | Outros | 340.500 |
O que pesa mais sobre a posição final do ‘priminho’, o continente ou a dificuldade da liga?
Observação prévia- Fazemos aqui somente um exercício, sabe-se que o objetivo dos priminhos é a descoberta e formação de talentos. É mais uma homenagem estatística de um antigo fã do esporte. Ouvinte do programa desde “imemoriais tempos”.
A técnica adequada é regressão linear (se quiser saber mais sobre procure no google heheheh)
modelo <- lm(posicao ~ continent + dificuldadeLiga, data = dados)
huxreg(modelo, stars = c(`'` = 0.3,`''` = 0.2,`*` = 0.1, `**` = 0.05,
`***` = 0.01), statistics = c("N. obs." = "nobs", "R2" = "r.squared",
"AIC" = "AIC"))
| (1) | |
|---|---|
| (Intercept) | 2.099 |
| (11.225) | |
| continentOutros | 1.547 |
| (8.778) | |
| dificuldadeLiga | 0.022 * |
| (0.013) | |
| N. obs. | 33 |
| R2 | 0.230 |
| AIC | 250.962 |
| *** p < 0.01; ** p < 0.05; * p < 0.1; '' p < 0.2; ' p < 0.3. | |
Comentário:
Perceba que pela estrelinha (90% de confiança) somente dificuldade da Liga é estatisticamente significante, Isso é mais fácil de visualizar com um Plot da regressão:
library(coefplot)
coefplot(modelo, intercept = F)
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
0.022 * 100
## [1] 2.2
os casos de continentetem um intervalo largo e portanto não são estatisticamente significativos, já a dificuldade da liga tem um efeito. Se visualizar o resultado da regressão percebemos que a cada 1 ponto a mais no ranking de ligas, você tem uma elevação de cerca de 0,02 na posição (p > 0.1 ou 90% de confiança) ou seja se a liga for 100 pontos mais díficil, o modelo prevê uma posição 2.2 maior na tabela.
Pronto a homenagem ao programa tá feita, desejo continuado sucesso ao podcast, abraços do fã de esporte
PS: Como to aprendendo a mexer no software R me meti a fazer algumas análises nele - caso se interesse tem mais análises desse tipo, fiz algumas mais elaboradas aqui : https://bit.ly/3ghGuNy