Inspirado pela fala do comentarista Ubiratan Leal no podcast futebol no mundo (#54), essa “pequenina” análise , se debruçará sobre os “priminhos”(como disse o nobre comentarista) do City.

o programa consta diponível em: https://open.spotify.com/episode/71oEZ9x1L0U7bwRzSXUWtN

Toda análise foi rodada no software R.

Quais são as variáveis?

glimpse(dados)
## Rows: 33
## Columns: 5
## $ clube           <chr> "Troyes", "Lommel", "Mumbay City", "Mumbay City", "Sic~
## $ temporada       <chr> "20_21", "20_21", "20_21", "19_20", "2019_", "2020_", ~
## $ posicao         <dbl> 21, 20, 1, 5, 42, 45, 10, 18, 25, 25, 17, 14, 17, 4, 7~
## $ continent       <chr> "Europa", "Europa", "Outros", "Outros", "Outros", "Out~
## $ dificuldadeLiga <dbl> 661.000, 456.500, 76.125, 76.125, 294.500, 294.500, 95~

1- Clube - trata-se dos clubes (de futebol masculino) que foram “comprados”(ações) pelo grupo city, segundo o wikipedia ( https://en.wikipedia.org/wiki/City_Football_Group#CFG_owned_clubs ) .

2- as temporadas dos clubes desde que foram compradas

3- a posição na liga, caso dispute divisões inferiores será considerado a posição na tábua nacional, exemplo Troyes em 20-21 ficou primeiro da Ligue 2, portanto posição 21 no país.

4- continent - binarizado - sendo ‘europa’ e ‘outros’

5 - a dificuldade da liga foi dada pela pontuação no ranking 2020 do IFHHS ( fonte https://www.iffhs.com/posts/911 ). Como achei somente as top 80, em dois casos (Austrália e Indía) coloquei a média da 80a colocada.

Quais os casos selecionados?

b5 <- dados %>% 
  dplyr::select(clube, temporada, posicao, continent, dificuldadeLiga) %>% 
  arrange(clube)
b5 %>%
  kbl(caption = "Priminhos do city") %>%
  kable_classic(full_width = F, html_font = "Garamond")
Priminhos do city
clube temporada posicao continent dificuldadeLiga
Girona 17_18 10 Europa 954.000
Girona 18_19 18 Europa 954.000
Girona 19_20 25 Europa 954.000
Girona 20_21 25 Europa 954.000
Lommel 20_21 20 Europa 456.500
Melbourne City 2014_2015 5 Outros 76.125
Melbourne City 2015_2016 4 Outros 76.125
Melbourne City 2016_2017 4 Outros 76.125
Melbourne City 2017_2018 3 Outros 76.125
Melbourne City 2018_2019 5 Outros 76.125
Melbourne City 2019_2020 2 Outros 76.125
Melbourne City 2020_2021 1 Outros 76.125
Montevideo City 2017_ 17 Outros 381.000
Montevideo City 2018_ 14 Outros 381.000
Montevideo City 2019_ 17 Outros 381.000
Montevideo City 2020_ 4 Outros 381.000
Mumbay City 20_21 1 Outros 76.125
Mumbay City 19_20 5 Outros 76.125
New York City 2016_ 2 Outros 211.500
New York City 2017_ 2 Outros 211.500
New York City 2018_ 3 Outros 211.500
New York City 2019_ 1 Outros 211.500
New York City 2020_ 5 Outros 211.500
Sichuan Jiuniu 2019_ 42 Outros 294.500
Sichuan Jiuniu 2020_ 45 Outros 294.500
Troyes 20_21 21 Europa 661.000
Yokohama Marinos 2014_ 7 Outros 340.500
Yokohama Marinos 2015_ 7 Outros 340.500
Yokohama Marinos 2016_ 10 Outros 340.500
Yokohama Marinos 2017_ 5 Outros 340.500
Yokohama Marinos 2018_ 12 Outros 340.500
Yokohama Marinos 2019_ 1 Outros 340.500
Yokohama Marinos 2020_ 9 Outros 340.500

Análise

O que pesa mais sobre a posição final do ‘priminho’, o continente ou a dificuldade da liga?

Observação prévia- Fazemos aqui somente um exercício, sabe-se que o objetivo dos priminhos é a descoberta e formação de talentos. É mais uma homenagem estatística de um antigo fã do esporte. Ouvinte do programa desde “imemoriais tempos”.

A técnica adequada é regressão linear (se quiser saber mais sobre procure no google heheheh)

modelo <- lm(posicao ~ continent + dificuldadeLiga, data = dados)
huxreg(modelo, stars = c(`'` = 0.3,`''` = 0.2,`*` = 0.1, `**` = 0.05,
                                         `***` = 0.01), statistics = c("N. obs." = "nobs", "R2" = "r.squared",
                                                                       "AIC" = "AIC"))
(1)
(Intercept)2.099  
(11.225) 
continentOutros1.547  
(8.778) 
dificuldadeLiga0.022 *
(0.013) 
N. obs.33      
R20.230  
AIC250.962  
*** p < 0.01; ** p < 0.05; * p < 0.1; '' p < 0.2; ' p < 0.3.

Comentário:

Perceba que pela estrelinha (90% de confiança) somente dificuldade da Liga é estatisticamente significante, Isso é mais fácil de visualizar com um Plot da regressão:

library(coefplot)
coefplot(modelo, intercept = F)
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

0.022 * 100
## [1] 2.2

os casos de continentetem um intervalo largo e portanto não são estatisticamente significativos, já a dificuldade da liga tem um efeito. Se visualizar o resultado da regressão percebemos que a cada 1 ponto a mais no ranking de ligas, você tem uma elevação de cerca de 0,02 na posição (p > 0.1 ou 90% de confiança) ou seja se a liga for 100 pontos mais díficil, o modelo prevê uma posição 2.2 maior na tabela.

Pronto a homenagem ao programa tá feita, desejo continuado sucesso ao podcast, abraços do fã de esporte

PS: Como to aprendendo a mexer no software R me meti a fazer algumas análises nele - caso se interesse tem mais análises desse tipo, fiz algumas mais elaboradas aqui : https://bit.ly/3ghGuNy