INTRODUÇÃO

Nosso objetivo nesse último relatório será por em prática as análises de variáveis a partir dos testes trabalhados em sala de aula. Como tema central de onde também tiraremos nossa base de dados, nosso intuito é estudar a respeito das finalizações numa partida de futebol e tentar entender melhor o impacto variável de acordo com a qualidade de cada jogador no que diz respeito ao seu aproveitamento.

É comum escutarmos na televisão que em partidas difíceis onde há uma dificuldade para se marcar um gol, a indicação de comentaristas pra arriscar chutes de fora da área. Mas será que os dados indicam que chutes de longa distância são uma solução viável ou apenas raridade em um esporte complexo com centenas de ações e movimentos diferentes durante 90 minutos? Será que os jogadores que finalizam com maior frequência são também os mesmos que tem feito mais gols?

Nesse trabalho olharemos se determinadas afirmações possuem embasamento estatístico para serem feitas ou se são apenas senso comum no esporte afim de facilitar narrativas e discursos, entregues ao acaso, sem que haja um detalhamento da riqueza de possibilidades apresentadas numa simples partida, onde quase tudo pode ser medido ou contado.

OBJETIVO

Nosso objetivo com esse trabalho será testar a correlação e distribuição de dados, afim de tentar apontar tendências e verificar hipóteses e se as mesmas se sustentam a partir dos dados que foram coletados pelo grupo. Entender as correlações entre finalizações e gols, probabilidade de gols, entre probabilidade e distância média das finalizações. O que os números mostram sobre todas essas métricas? São perguntas que procuramos responder nessa pequena análise.

Apresentaremos gráficos e cálculos, assim poderemos ilustrar com clareza as conclusões que os números apontarem através de uma linguagem simples e objetiva, uma vez que o esporte em que consiste nosso levantamento de dados nem sempre é tão fácil de compreender a riqueza e complexidade de dados que podem ser obtidos.

METODOLOGIA

Nesse trabalho iremos utilizar uma base de dados que contém informações a respeito das finalizações em partidas da temporada 2022-2023 da Premier League, os dados foram colhidos do site fbref.com no dia 13/1/2023 e numeros que foram registrados posteriores a essa data não serão levados em conta nessa análise.(1)

Essa base então foi exportada do site para o Excel e do Excel importada para o RStudio, onde facilitará nossa exposição por meio de gráficos e tabelas com bibliotecas que serão demonstradas a medida que forem utilizadas no nosso trabalho.

### Carregando base de dados e bibliotecas

library(flextable)
library(dplyr)
library(readxl)
PL_Data <- read_excel("C:/Users/louiz/Downloads/2023-Premier League Data (1).xlsx", 
                      col_types = c("text", "text", "text", 
                                    "text", "numeric", "numeric", 
                                    "numeric", "numeric", "numeric", 
                                    "numeric", "numeric", "numeric", 
                                    "numeric", "numeric", "numeric", "numeric", 
                                    "numeric", "numeric", "numeric", "numeric"))
head(PL_Data) %>% data.frame() %>% flextable() %>% theme_box()

Temos aqui então alguns dos jogadores presente na nossa base de dados.

ESTUDO

Agora começaremos nossas análises de caso.

A primeira coisa que faremos na nossa análise é a filtragem de dados, tentando selecionar as análises que são mais relevantes afim de evitar determinadas anomalias que possam ser causadas por alguns fatores em determinadas métricas, a pequena minutagem de alguns atletas pode calhar em médias exageradas por causa do numero total de finalizações dividido por pouco tempo, desssa forma, a matemática bruta pode gerar algum cálculo cujo numero apareça muito alto, mas que não corresponde necessariamente a melhores ou maiores taxas em nível significante por causa do baixo denominador.

Faremos então essa filtragem, selecionando primeiro o mínimo de minutos em campo por 90 para 8. Então teremos que apenas os jogadores que ficaram tempo o suficiente em campo para contarem o total de no mínimo 8 partidas entrarão em nossa análise. Mais além, filtraremos também todos aqueles que registraram a probabilidade de gols em no mínimo 0.8.

O número 0.8 foi escolhido como mínimo pois o mesmo equivale aproximadamente a expectativa de um gol a partir de um pênalti, cuja expectativa é sempre de 0.84. Como estamos trabalhando com apenas uma casa decimal, arrendodamos para 0.8. Agora então apenas aqueles jogadores cuja probabilidade de ter feito no minimo um gol é o equivalente a como se cada atleta remanescente na filtragem tivesse tido pelo menos uma oportunidade livre e clara de marcar.

### Limpeza de Dados

PL_Gols = PL_Data %>% filter(`Minutos/90`>=8)
PL_Gols2 = PL_Gols %>% filter(npxG>=0.8)

Com a filtragem obtida, vimos que das 386 observações originais na base de dados, o numero caiu para 215 quando filtrado pela minutagem e caiu então para 127 atletas quando a probabilidade minima de gols foi ajustada para 0.8. Dos 386 atletas, apenas 127 farão parte da análise final. Segue então alguns numeros interessantes da base final que usaremos:

summary(PL_Gols2)
##    Jogador            Posicao             Clube             Ano-nasc        
##  Length:127         Length:127         Length:127         Length:127        
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##    Minutos/90         Gols            Chutes      Chutes_ao_alvo  
##  Min.   : 8.10   Min.   : 0.000   Min.   : 5.00   Min.   : 0.000  
##  1st Qu.:11.30   1st Qu.: 1.000   1st Qu.:14.00   1st Qu.: 4.000  
##  Median :13.80   Median : 2.000   Median :20.00   Median : 7.000  
##  Mean   :13.62   Mean   : 2.929   Mean   :23.09   Mean   : 8.244  
##  3rd Qu.:16.00   3rd Qu.: 4.000   3rd Qu.:29.50   3rd Qu.:11.000  
##  Max.   :18.00   Max.   :21.000   Max.   :64.00   Max.   :31.000  
##                                                                   
##  Porcentagem_ao_alvo   Chutes/90        Alvo/90         Gols/Chute    
##  Min.   : 0.00       Min.   :0.300   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:25.65       1st Qu.:1.025   1st Qu.:0.2950   1st Qu.:0.0600  
##  Median :33.30       Median :1.590   Median :0.5200   Median :0.1000  
##  Mean   :34.20       Mean   :1.730   Mean   :0.6194   Mean   :0.1103  
##  3rd Qu.:42.50       3rd Qu.:2.195   3rd Qu.:0.8550   3rd Qu.:0.1650  
##  Max.   :61.50       Max.   :5.680   Max.   :2.2700   Max.   :0.4000  
##                                                                       
##    Gols/Alvo     Distancia_media  Chutes_falta    Penaltis_acertos
##  Min.   :0.000   Min.   : 8.0    Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.170   1st Qu.:13.7    1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :0.320   Median :16.6    Median :0.0000   Median :0.0000  
##  Mean   :0.311   Mean   :16.7    Mean   :0.8583   Mean   :0.2283  
##  3rd Qu.:0.490   3rd Qu.:19.4    3rd Qu.:1.0000   3rd Qu.:0.0000  
##  Max.   :1.000   Max.   :28.8    Max.   :8.0000   Max.   :3.0000  
##  NA's   :1                                                        
##  Penaltis_Total         xG              npxG         npxG/Chutes    
##  Min.   :0.0000   Min.   : 0.800   Min.   : 0.800   Min.   :0.0300  
##  1st Qu.:0.0000   1st Qu.: 1.200   1st Qu.: 1.100   1st Qu.:0.0800  
##  Median :0.0000   Median : 2.200   Median : 1.800   Median :0.1000  
##  Mean   :0.2913   Mean   : 2.729   Mean   : 2.502   Mean   :0.1068  
##  3rd Qu.:0.0000   3rd Qu.: 3.300   3rd Qu.: 3.150   3rd Qu.:0.1300  
##  Max.   :5.0000   Max.   :14.500   Max.   :12.100   Max.   :0.2700  
## 

Testes de correlação entre variáveis quantitativas:

Correlação entre a probabilidade de gols excluindo penaltis x distancia média

Na primeira hipótese a ser trabalhada pelo grupo, buscamos entender a correlação entre a probabilidade de marcar e a distância média de finalizações de cada jogador. Antes faremos o teste de Shapiro-Wilk para entender como estão distribuídos esses dados e se há uma distribuição normal.

options(scipen=999)
shapiro.test(PL_Gols2$npxG)
## 
##  Shapiro-Wilk normality test
## 
## data:  PL_Gols2$npxG
## W = 0.79094, p-value = 0.000000000003615
shapiro.test(PL_Gols2$Distancia_media)
## 
##  Shapiro-Wilk normality test
## 
## data:  PL_Gols2$Distancia_media
## W = 0.98512, p-value = 0.1802

A conclusão aqui é que a partir do teste de normalidade Shapiro-Wilk (1965), npxG (Probabilidade de gols marcados excluindo pênaltis) não segue uma distribuição normal, mas a distância média de cada finalização não segue essa normalidade. Chegamos a essa conclusão ao observar o p-valor de cada variável. Em npxG, temos p-valor muito abaixo de 0.05 e em Distancia_media temos p-valor 0.1802. Rejeitamos então a hipótese de distribuição normal na primeira variável e assumimos a normalidade na segunda.

Tida essa informação, usaremos o método de Spearman para avaliar o tipo de correlação presente entre essas 2 variáveis, as hipóteses a serem trabalhadas são:

H0: Existe uma probabilidade maior de se fazer gols finalizando de menores distâncias

H1: A probabilidade de marcar mais gols não tem relação com a distância média.

cor.test(PL_Gols2$npxG,
         PL_Gols2$Distancia_media,
         method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  PL_Gols2$npxG and PL_Gols2$Distancia_media
## S = 426600, p-value = 0.004647
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.2496482

Vemos aqui que o valor da variável rho é negativo e p-valor é inferior a 0,05. Desta forma assumimos que H0 não tem embasamento suficiente para estabelecer uma correlação entre as 2 variáveis. Há uma leve tendência entre marcar mais gols e finalizar de distâncias menores, ainda que não seja o suficiente para afirmar que essa correlação negativa é forte.

Veremos agora essa distribuição representada em gráfico:

plot(PL_Gols2$npxG,PL_Gols2$Distancia_media,col="#702963",pch=20)
abline(lsfit(PL_Gols2$npxG,PL_Gols2$Distancia_media),col="red")

Correlação entre a probabilidade de gols incluindo penaltis x numero total de chutes

Veremos agora a correlação entre mais 2 variáveis, dessa vez selecionamos xG (Expectativa de Gols) e a quantidade de chutes. Primeiro então repetiremos alguns processos. Primeiro Shapiro-Wilk, depois veremos qual o mais adequado entre Pearson e Spearman para esse teste de correlação, por último, faremos um gráfico.

shapiro.test(PL_Gols2$Chutes)
## 
##  Shapiro-Wilk normality test
## 
## data:  PL_Gols2$Chutes
## W = 0.90084, p-value = 0.0000001128
shapiro.test(PL_Gols2$xG)
## 
##  Shapiro-Wilk normality test
## 
## data:  PL_Gols2$xG
## W = 0.76184, p-value = 0.000000000000447

Com ambas variáveis apresentando p-valor inferior a 0,05, concluímos que as duas apresentam uma distribuição não normal de dados. Novamente usaremos o método Spearman, onde entenderemos qual tipo de correlação existe entre essas variáveis.

cor.test(PL_Gols2$xG,
         PL_Gols2$Chutes,
         method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  PL_Gols2$xG and PL_Gols2$Chutes
## S = 52475, p-value < 0.00000000000000022
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8462827

Novamente temos p-valor inferior a 0,05, concluindo então que a distribuição é não normal. A correlação entre esses dados existe e o numero rho é expressivo. Com um resultado que se aproxima de quase 0,9, temos aqui uma forte correlação linear positiva entre essas variáveis que será apresentada no gráfico a seguir:

plot(PL_Gols2$xG,PL_Gols2$Chutes,col="#702963",pch=20)
abline(lsfit(PL_Gols2$xG,PL_Gols2$Chutes),col="red")

CORRPLOT

Montaremos agora um gráfico mostrando o nível de correlação entre algumas das variáveis em nossa base de dados

library(corrplot)

PL <- cor(PL_Gols2[,c("Gols","Minutos/90","Chutes","Chutes_ao_alvo","xG","Distancia_media","npxG")]) 
corrplot(PL,method="number")

Podemos ver alguns números interessantes no nosso corrplot. A correlação negativa de maior número é a que foi vista por nós em gráfico, entre npxG e a distância. A correlação mais forte é entre npxG e xG, com um número próximo ao máximo, isso explica-se por ambas as métricas serem muito parecidas na sua contabilidade, uma vez que a diferença entre uma e a outra está apenas em finalizações que foram feitas a partir de penalidades máximas.

BOXPLOT

Começaremos agora a análise um pouco mais detalhada de como os gols se dividem na primeira divisão do futebol na Inglaterra, a mais rica e midiática liga nacional da atualidade. Com dezenas de clubes com investimentos milionários brigando por posição rodada após rodada, vemos na Inglaterra muitos fatos diferentes condizentes com ao futebol moderno.

Sabemos que os investimentos internacionais no futebol inglês estabelece um piso competitivo e financeiro muito acima do padrão de outras ligas na Europa. O último estudo levantado pela Deloitte Money League mostrou que dos 30 clubes mais ricos do mundo, 16 estão na Inglaterra. O que isso significa na prática? O custo de manter-se na primeira divisão são consideravelmente maiores para os clubes ingleses do que para outros clubes mesmo na bolha das 5 principais ligas do continente europeu. Porém ter um piso de investimento mais alto não significa automaticamente que todos esses 16 clubes tenham condições semelhantes de disputar entre si. Ainda no mesmo estudo da Deloitte, vemos que a diferença de renda entre os clubes mais ricos é mais próxima entre o bloco de 11 a 30 desses clubes e há um gigantesco salto para os clubes no top 7.

Veremos aqui em imagem desse estudo da Deloitte as diferenças econômicas:

knitr::include_graphics("C:/Users/louiz/Desktop/LUCAS/ldgrqf4w3xca1.png")

Vemos então de forma um pouco mais clara como os clubes da Inglaterra detém um vasto poder econômico preenchendo a maior parte das colocações entre os clubes mais ricos. Vemos aqui como a diferença de poder econômico entre o Everton, clube que atualmente briga para não cair de divisão e o Milan, atual campeão italiano é significativamente menor que a diferença entre o Everton e o seu rival de vizinhança, o Liverpool FC, atual vencedor das 2 copas nacionais na Inglaterra, a FA Cup e a Copa da Liga. A diferença pouco maior que 50 milhoes de euros de renda no último levantamento entre ingleses e italianos é quase 10x menor que a diferença entre os rivais da cidade dos Beatles, que chega a quase 500 milhões de euros. Vemos também como a diferença entre o Everton e a Internazionale e a Juventus, outros 2 clubes da Italia, passando por Atletico de Madrid e Borussia Dortmund, de Espanha e Alemanha, vemos que a diferença total de renda entre esses clubes é menor no total, cerca de 187mi entre Everton e Juventus, do que os quase 238mi que separam Juventus e Barcelona.

Por último faremos uma análise sobre a distribuição da média de gols pelos 20 times da Premier League e da probabilidade de gols e sua distribuição por posições.

Boxplot Gols x Times

Para descobrir o método que vamos usar nessas últimas avaliações, faremos aqui o teste Shapiro-Wilk para ver se a distribuição dos dados seguem normalidade. Temos então:

HO: A distribuição de gols é normal entre os clubes.

H1: A distribuição de gols de gols entre os clubes não segue normalidade.

shapiro.test(PL_Gols2$Gols)
## 
##  Shapiro-Wilk normality test
## 
## data:  PL_Gols2$Gols
## W = 0.76299, p-value = 0.0000000000004837

Obtivemos pelo teste que o p-valor é inferior a 0,05 o que nos leva a concluir então que a distribuição de dados é não normal. A partir daqui usaremos o teste de Kruscal-Wallis, recomendado para testes de hipótese quando existem 3 ou mais variáveis qualitativas uma vez comprovada a não-normalidade na distribuição dos dados. O objetivo aqui é saber se a distribuição ocorre de forma idêntica.

HO: Os clubes tem distribuição idêntica de gols.

H1: A distribuição de gols entre os clubes acontece de maneira diferente.

kruskal.test(PL_Gols2$Gols~PL_Gols2$Clube)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  PL_Gols2$Gols by PL_Gols2$Clube
## Kruskal-Wallis chi-squared = 16.264, df = 19, p-value = 0.6396

Ao observar que obtendo um p-valor superior a 0,05, o que nos leva a não rejeitar a hipótese da distribuição idêntica de gols entre os clubes.

Veremos agora como isso é representado num gráfico boxplot:

library(RColorBrewer)

boxplot(PL_Gols2$Gols~PL_Gols2$Clube,
        col=c("#FF0000","#990000","#660000","#FF0000","#4D4DFF","#00009C","#EAADEA","#3232CD","#CCCCCC","#FFFFCC","#000066",
              "#FF0000","#CCFFFF","#CC0000","#000000","#CC0000","#FF0000","#66FFFF","#990000","#C28B12"))

A conclusão aqui é que há de fato uma distribuição semelhante por equipe. Vemos que o Manchester United possui uma distribuição bem pequena entre os goleadores, com um outlier representando a maior quantidade dos gols marcados sendo ele Marcus Rashford. Isso se explica porque na base de dados original sem os filtros, muitos dos jogadores responsáveis pelos gols marcados no elenco do maior campeão da Premier League tem pouca minutagem, ou seja, há uma rotatividade sendo utilizada pelo treinador Erik Ten Hag que fez com que muitos dos goleadores dessa equipe não aparecessem nessa nossa última análise.

Vemos o líder isolado Arsenal despontar com a 2ª maior mediana de gols marcados entre os jogadores qualificados, atrás apenas do seu grande rival, o Tottenham. Vemos o Aston Villa com um outlier tanto acima da média tanto com um abaixo da média registrada pelo clube. Por último notamos o Manchester City, time do grande artilheiro da competição. Haaland aparece como o único jogador a fazer mais de 20 gols, número que aumenta quase toda semana e que já aumentou desde que os dados foram coletados. Vemos que a mediana dessa equipe encontra-se ligeiramente abaixo de alguns de seus rivais direto como o Arsenal, o Tottenham e o Liverpool. O desempenho individual trazido por Haaland, com números muito acima dos demais observados traz o maior impacto dentre todos os jogadores da primeira divisão.

Boxplot Gols x Posicao

A análise que conclui nosso relatório será então observar como os gols estão distribuídos por posição na nossa base de dados. Para isso repetiremos os métodos da análise anterior. Já vimos anteriormente que o numero de gols possui uma distribuição não normal. Seguiremos então com mais um teste Kruskal-Wallis levantando as seguintes hipóteses:

H0: A distribuição de gols é idêntica entre as diferentes posições

H1: A distribuição de gols por posições acontece de maneira diferente.

kruskal.test(PL_Gols2$Gols~PL_Gols2$Posicao)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  PL_Gols2$Gols by PL_Gols2$Posicao
## Kruskal-Wallis chi-squared = 42.306, df = 8, p-value = 0.000001186

O p-valor obtido é inferior a 0.05, a partir disso a conclusão que podemos chegar é que H0 deve ser rejeitado. Ou seja: existe diferença na distribuição de gols por posição, como veremos no boxplot a seguir:

boxplot(PL_Gols2$Gols~PL_Gols2$Posicao,
        col=c("#FFFFCC","#C21212","#CC66CC","#C28B12","#12C2B9"))

Como era de se imaginar, os atacantes (Representados por FW, abreviação para a palavra Forward em inglês) possuem maiores médias na distribuição de gols em relação as demais posições. Na representação pelo boxplot, vemos que jogadores representados pela sigla FWDF (Atacantes que em algum momento atuaram em alguma posição defensiva na temporada) com uma média maior, mas essa designação só aparece em apenas 2 observações, número baixo comparado a quantidade de atacantes avaliados.

Temos também médias muito semelhantes entre meio campistas, meio campistas que atuam também como defensores e meio campistas que atual também como atacantes. Há um outlier entre eles, representado por outro norueguês, Martin Odegaard, craque do Arsenal e um dos principais jogadores do clube que lidera o campeonato.

Os outros outliers presentes são atacantes. Rodrigo, espanhol do Leeds United, com 10 gols marcados, é o outlier da categoria FWMF, jogadores que alternaram tempo entre atacante e meio campista, muita das vezes sendo puxado para os lados do campo para cumprir outras funções táticas. Erling Haaland novamente se destaca entre todos os observados sendo seguido de mais perto pelo inglês Harry Kane do Tottenham, os 2 atacantes são os principais goleadores do campeonato.

CONSIDERAÇÕES FINAIS

Aqui pudemos desenvolver a coleta de dados, a filtragem desses dados, teste de normalidade, montagem de gráficos e matriz de correlação. Nosso objetivo foi formular hipóteses, ainda que simples e a nível introdutório, para por em prática o conteúdo aprendido desde outubro.

O futebol e muitos outros esportes, dispõe de uma riqueza matemática onde as tantas ações do jogo são mensuráveis e podem ser medidas. Ainda há infelizmente alguma resistência e ignorância sobre os números do jogo e o que eles representam. A aleatoriedade inerente ao jogo e análises baseadas apenas em resultados ou números brutos acabam abrindo precedentes para conclusões que podem divergir de uma tendência que possamos detectar numa análise estatística aprofundada. Não é incomum se ouvir por aí que “números não ganham jogo” ou que “números não significam nada” e de alguma forma essa realidade se aplica. O resultado de um jogo pode ser traiçoeiro quanto aos dados. Quantas vezes não vemos por aí um time que criou mais oportunidades e finalizou mais ser derrotado por uma outra equipe que finalizou apenas uma ou 2 vezes no gol? Essa ótica é usada por conservadores para destilar ignorância, defender estratégias covardes e profanar ignorância. Uma análise que se faça a partir de uma coleta maior de dados mostrará que buscar oportunidades de gols, atacar, fazer marcações adiantadas no campo do adversário, dominar a posse de bola (O que não necessariamente implica em ter 60% de posse em todas as partidas), são características que os dados e levantamentos por profissionais do futebol e matemáticos apontam estando correlacionadas entre as equipes que vencem mais jogos e disputam os principais títulos.

RECOMENDAÇÃO:

O grupo recomenda aproveitar da riqueza e disponibilidade de dados públicos para estimular e facilitar a compreensão matemática e estatística por intermédio do esporte.

REFERÊNCIAS BIBLIOGRÁFICAS