INTRODUÇÃO
Nosso objetivo nesse último relatório será por em prática as
análises de variáveis a partir dos testes trabalhados em sala de aula.
Como tema central de onde também tiraremos nossa base de dados, nosso
intuito é estudar a respeito das finalizações numa partida de futebol e
tentar entender melhor o impacto variável de acordo com a qualidade de
cada jogador no que diz respeito ao seu aproveitamento.
É comum escutarmos na televisão que em partidas difíceis onde há uma
dificuldade para se marcar um gol, a indicação de comentaristas pra
arriscar chutes de fora da área. Mas será que os dados indicam que
chutes de longa distância são uma solução viável ou apenas raridade em
um esporte complexo com centenas de ações e movimentos diferentes
durante 90 minutos? Será que os jogadores que finalizam com maior
frequência são também os mesmos que tem feito mais gols?
Nesse trabalho olharemos se determinadas afirmações possuem
embasamento estatístico para serem feitas ou se são apenas senso comum
no esporte afim de facilitar narrativas e discursos, entregues ao acaso,
sem que haja um detalhamento da riqueza de possibilidades apresentadas
numa simples partida, onde quase tudo pode ser medido ou contado.
OBJETIVO
Nosso objetivo com esse trabalho será testar a correlação e
distribuição de dados, afim de tentar apontar tendências e verificar
hipóteses e se as mesmas se sustentam a partir dos dados que foram
coletados pelo grupo. Entender as correlações entre finalizações e gols,
probabilidade de gols, entre probabilidade e distância média das
finalizações. O que os números mostram sobre todas essas métricas? São
perguntas que procuramos responder nessa pequena análise.
Apresentaremos gráficos e cálculos, assim poderemos ilustrar com
clareza as conclusões que os números apontarem através de uma linguagem
simples e objetiva, uma vez que o esporte em que consiste nosso
levantamento de dados nem sempre é tão fácil de compreender a riqueza e
complexidade de dados que podem ser obtidos.
METODOLOGIA
Nesse trabalho iremos utilizar uma base de dados que contém
informações a respeito das finalizações em partidas da temporada
2022-2023 da Premier League, os dados foram colhidos do site fbref.com
no dia 13/1/2023 e numeros que foram registrados posteriores a essa data
não serão levados em conta nessa análise.(1)
Temos aqui então alguns dos jogadores presente na nossa base de
dados.
ESTUDO
Agora começaremos nossas análises de caso.
A primeira coisa que faremos na nossa análise é a filtragem de
dados, tentando selecionar as análises que são mais relevantes afim de
evitar determinadas anomalias que possam ser causadas por alguns fatores
em determinadas métricas, a pequena minutagem de alguns atletas pode
calhar em médias exageradas por causa do numero total de finalizações
dividido por pouco tempo, desssa forma, a matemática bruta pode gerar
algum cálculo cujo numero apareça muito alto, mas que não corresponde
necessariamente a melhores ou maiores taxas em nível significante por
causa do baixo denominador.
Faremos então essa filtragem, selecionando primeiro o mínimo de
minutos em campo por 90 para 8. Então teremos que apenas os jogadores
que ficaram tempo o suficiente em campo para contarem o total de no
mínimo 8 partidas entrarão em nossa análise. Mais além, filtraremos
também todos aqueles que registraram a probabilidade de gols em no
mínimo 0.8.
Testes de correlação entre variáveis quantitativas:
Correlação entre a probabilidade de gols excluindo penaltis x
distancia média
Na primeira hipótese a ser trabalhada pelo grupo, buscamos entender
a correlação entre a probabilidade de marcar e a distância média de
finalizações de cada jogador. Antes faremos o teste de Shapiro-Wilk para
entender como estão distribuídos esses dados e se há uma distribuição
normal.
options(scipen=999)
shapiro.test(PL_Gols2$npxG)
##
## Shapiro-Wilk normality test
##
## data: PL_Gols2$npxG
## W = 0.79094, p-value = 0.000000000003615
shapiro.test(PL_Gols2$Distancia_media)
##
## Shapiro-Wilk normality test
##
## data: PL_Gols2$Distancia_media
## W = 0.98512, p-value = 0.1802
A conclusão aqui é que a partir do teste de normalidade Shapiro-Wilk
(1965), npxG (Probabilidade de gols marcados excluindo pênaltis) não
segue uma distribuição normal, mas a distância média de cada finalização
não segue essa normalidade. Chegamos a essa conclusão ao observar o
p-valor de cada variável. Em npxG, temos p-valor muito abaixo de 0.05 e
em Distancia_media temos p-valor 0.1802. Rejeitamos então a hipótese de
distribuição normal na primeira variável e assumimos a normalidade na
segunda.
Vemos aqui que o valor da variável rho é negativo e p-valor é
inferior a 0,05. Desta forma assumimos que H0 não tem embasamento
suficiente para estabelecer uma correlação entre as 2 variáveis. Há uma
leve tendência entre marcar mais gols e finalizar de distâncias menores,
ainda que não seja o suficiente para afirmar que essa correlação
negativa é forte.
Veremos agora essa distribuição representada em gráfico:
plot(PL_Gols2$npxG,PL_Gols2$Distancia_media,col="#702963",pch=20)
abline(lsfit(PL_Gols2$npxG,PL_Gols2$Distancia_media),col="red")

Correlação entre a probabilidade de gols incluindo penaltis x numero
total de chutes
Veremos agora a correlação entre mais 2 variáveis, dessa vez
selecionamos xG (Expectativa de Gols) e a quantidade de chutes. Primeiro
então repetiremos alguns processos. Primeiro Shapiro-Wilk, depois
veremos qual o mais adequado entre Pearson e Spearman para esse teste de
correlação, por último, faremos um gráfico.
shapiro.test(PL_Gols2$Chutes)
##
## Shapiro-Wilk normality test
##
## data: PL_Gols2$Chutes
## W = 0.90084, p-value = 0.0000001128
shapiro.test(PL_Gols2$xG)
##
## Shapiro-Wilk normality test
##
## data: PL_Gols2$xG
## W = 0.76184, p-value = 0.000000000000447
CORRPLOT
Montaremos agora um gráfico mostrando o nível de correlação entre
algumas das variáveis em nossa base de dados
library(corrplot)
PL <- cor(PL_Gols2[,c("Gols","Minutos/90","Chutes","Chutes_ao_alvo","xG","Distancia_media","npxG")])
corrplot(PL,method="number")

Podemos ver alguns números interessantes no nosso corrplot. A
correlação negativa de maior número é a que foi vista por nós em
gráfico, entre npxG e a distância. A correlação mais forte é entre npxG
e xG, com um número próximo ao máximo, isso explica-se por ambas as
métricas serem muito parecidas na sua contabilidade, uma vez que a
diferença entre uma e a outra está apenas em finalizações que foram
feitas a partir de penalidades máximas.
BOXPLOT
Começaremos agora a análise um pouco mais detalhada de como os gols
se dividem na primeira divisão do futebol na Inglaterra, a mais rica e
midiática liga nacional da atualidade. Com dezenas de clubes com
investimentos milionários brigando por posição rodada após rodada, vemos
na Inglaterra muitos fatos diferentes condizentes com ao futebol
moderno.
Sabemos que os investimentos internacionais no futebol inglês
estabelece um piso competitivo e financeiro muito acima do padrão de
outras ligas na Europa. O último estudo levantado pela Deloitte Money
League mostrou que dos 30 clubes mais ricos do mundo, 16 estão na
Inglaterra. O que isso significa na prática? O custo de manter-se na
primeira divisão são consideravelmente maiores para os clubes ingleses
do que para outros clubes mesmo na bolha das 5 principais ligas do
continente europeu. Porém ter um piso de investimento mais alto não
significa automaticamente que todos esses 16 clubes tenham condições
semelhantes de disputar entre si. Ainda no mesmo estudo da Deloitte,
vemos que a diferença de renda entre os clubes mais ricos é mais próxima
entre o bloco de 11 a 30 desses clubes e há um gigantesco salto para os
clubes no top 7.
Veremos aqui em imagem desse estudo da Deloitte as diferenças
econômicas:
knitr::include_graphics("C:/Users/louiz/Desktop/LUCAS/ldgrqf4w3xca1.png")

Vemos então de forma um pouco mais clara como os clubes da
Inglaterra detém um vasto poder econômico preenchendo a maior parte das
colocações entre os clubes mais ricos. Vemos aqui como a diferença de
poder econômico entre o Everton, clube que atualmente briga para não
cair de divisão e o Milan, atual campeão italiano é significativamente
menor que a diferença entre o Everton e o seu rival de vizinhança, o
Liverpool FC, atual vencedor das 2 copas nacionais na Inglaterra, a FA
Cup e a Copa da Liga. A diferença pouco maior que 50 milhoes de euros de
renda no último levantamento entre ingleses e italianos é quase 10x
menor que a diferença entre os rivais da cidade dos Beatles, que chega a
quase 500 milhões de euros. Vemos também como a diferença entre o
Everton e a Internazionale e a Juventus, outros 2 clubes da Italia,
passando por Atletico de Madrid e Borussia Dortmund, de Espanha e
Alemanha, vemos que a diferença total de renda entre esses clubes é
menor no total, cerca de 187mi entre Everton e Juventus, do que os quase
238mi que separam Juventus e Barcelona.
Por último faremos uma análise sobre a distribuição da média de gols
pelos 20 times da Premier League e da probabilidade de gols e sua
distribuição por posições.
Boxplot Gols x Times
Para descobrir o método que vamos usar nessas últimas avaliações,
faremos aqui o teste Shapiro-Wilk para ver se a distribuição dos dados
seguem normalidade. Temos então:
HO: A distribuição de gols é normal entre os clubes.
H1: A distribuição de gols de gols entre os clubes não segue
normalidade.
shapiro.test(PL_Gols2$Gols)
##
## Shapiro-Wilk normality test
##
## data: PL_Gols2$Gols
## W = 0.76299, p-value = 0.0000000000004837
Ao observar que obtendo um p-valor superior a 0,05, o que nos leva a
não rejeitar a hipótese da distribuição idêntica de gols entre os
clubes.
Veremos agora como isso é representado num gráfico boxplot:
library(RColorBrewer)
boxplot(PL_Gols2$Gols~PL_Gols2$Clube,
col=c("#FF0000","#990000","#660000","#FF0000","#4D4DFF","#00009C","#EAADEA","#3232CD","#CCCCCC","#FFFFCC","#000066",
"#FF0000","#CCFFFF","#CC0000","#000000","#CC0000","#FF0000","#66FFFF","#990000","#C28B12"))

A conclusão aqui é que há de fato uma distribuição semelhante por
equipe. Vemos que o Manchester United possui uma distribuição bem
pequena entre os goleadores, com um outlier representando a maior
quantidade dos gols marcados sendo ele Marcus Rashford. Isso se explica
porque na base de dados original sem os filtros, muitos dos jogadores
responsáveis pelos gols marcados no elenco do maior campeão da Premier
League tem pouca minutagem, ou seja, há uma rotatividade sendo utilizada
pelo treinador Erik Ten Hag que fez com que muitos dos goleadores dessa
equipe não aparecessem nessa nossa última análise.
Vemos o líder isolado Arsenal despontar com a 2ª maior mediana de
gols marcados entre os jogadores qualificados, atrás apenas do seu
grande rival, o Tottenham. Vemos o Aston Villa com um outlier tanto
acima da média tanto com um abaixo da média registrada pelo clube. Por
último notamos o Manchester City, time do grande artilheiro da
competição. Haaland aparece como o único jogador a fazer mais de 20
gols, número que aumenta quase toda semana e que já aumentou desde que
os dados foram coletados. Vemos que a mediana dessa equipe encontra-se
ligeiramente abaixo de alguns de seus rivais direto como o Arsenal, o
Tottenham e o Liverpool. O desempenho individual trazido por Haaland,
com números muito acima dos demais observados traz o maior impacto
dentre todos os jogadores da primeira divisão.
Boxplot Gols x Posicao
O p-valor obtido é inferior a 0.05, a partir disso a conclusão que
podemos chegar é que H0 deve ser rejeitado. Ou seja: existe diferença na
distribuição de gols por posição, como veremos no boxplot a seguir:
boxplot(PL_Gols2$Gols~PL_Gols2$Posicao,
col=c("#FFFFCC","#C21212","#CC66CC","#C28B12","#12C2B9"))

Como era de se imaginar, os atacantes (Representados por FW,
abreviação para a palavra Forward em inglês) possuem maiores médias na
distribuição de gols em relação as demais posições. Na representação
pelo boxplot, vemos que jogadores representados pela sigla FWDF
(Atacantes que em algum momento atuaram em alguma posição defensiva na
temporada) com uma média maior, mas essa designação só aparece em apenas
2 observações, número baixo comparado a quantidade de atacantes
avaliados.
Temos também médias muito semelhantes entre meio campistas, meio
campistas que atuam também como defensores e meio campistas que atual
também como atacantes. Há um outlier entre eles, representado por outro
norueguês, Martin Odegaard, craque do Arsenal e um dos principais
jogadores do clube que lidera o campeonato.
Os outros outliers presentes são atacantes. Rodrigo, espanhol do
Leeds United, com 10 gols marcados, é o outlier da categoria FWMF,
jogadores que alternaram tempo entre atacante e meio campista, muita das
vezes sendo puxado para os lados do campo para cumprir outras funções
táticas. Erling Haaland novamente se destaca entre todos os observados
sendo seguido de mais perto pelo inglês Harry Kane do Tottenham, os 2
atacantes são os principais goleadores do campeonato.
CONSIDERAÇÕES FINAIS
Concluímos nosso relatório tendo colocado em prática alguns dos
métodos de observação e análise estatística que aprendemos durante o
semestre. Sabemos que nem sempre a compreensão de números e o que eles
representam é muito clara sem que saibamos o significado das métricas e
o que está sendo analisado. Com esse trabalho a ideia foi reunir o
esporte mais popular do planeta junto com o conteúdo aplicado em sala de
aula em bases de dados que foram disponibilizadas pelo professor.
Aqui pudemos desenvolver a coleta de dados, a filtragem desses
dados, teste de normalidade, montagem de gráficos e matriz de
correlação. Nosso objetivo foi formular hipóteses, ainda que simples e a
nível introdutório, para por em prática o conteúdo aprendido desde
outubro.
O futebol e muitos outros esportes, dispõe de uma riqueza matemática
onde as tantas ações do jogo são mensuráveis e podem ser medidas. Ainda
há infelizmente alguma resistência e ignorância sobre os números do jogo
e o que eles representam. A aleatoriedade inerente ao jogo e análises
baseadas apenas em resultados ou números brutos acabam abrindo
precedentes para conclusões que podem divergir de uma tendência que
possamos detectar numa análise estatística aprofundada. Não é incomum se
ouvir por aí que “números não ganham jogo” ou que “números não
significam nada” e de alguma forma essa realidade se aplica. O resultado
de um jogo pode ser traiçoeiro quanto aos dados. Quantas vezes não vemos
por aí um time que criou mais oportunidades e finalizou mais ser
derrotado por uma outra equipe que finalizou apenas uma ou 2 vezes no
gol? Essa ótica é usada por conservadores para destilar ignorância,
defender estratégias covardes e profanar ignorância. Uma análise que se
faça a partir de uma coleta maior de dados mostrará que buscar
oportunidades de gols, atacar, fazer marcações adiantadas no campo do
adversário, dominar a posse de bola (O que não necessariamente implica
em ter 60% de posse em todas as partidas), são características que os
dados e levantamentos por profissionais do futebol e matemáticos apontam
estando correlacionadas entre as equipes que vencem mais jogos e
disputam os principais títulos.