INTRODUÇÃO

Nosso objetivo nesse último relatório será por em prática as análises de variáveis a partir dos testes trabalhados em sala de aula. Como tema central de onde também tiraremos nossa base de dados, nosso intuito é estudar a respeito das finalizações numa partida de futebol e tentar entender melhor o impacto variável de acordo com a qualidade de cada jogador no que diz respeito ao seu aproveitamento.

É comum escutarmos na televisão que em partidas difíceis onde há uma dificuldade para se marcar um gol, a indicação de comentaristas pra arriscar chutes de fora da área. Mas será que os dados indicam que chutes de longa distância são uma solução viável ou apenas raridade em um esporte complexo com centenas de ações e movimentos diferentes durante 90 minutos? Será que os jogadores que finalizam com maior frequência são também os mesmos que tem feito mais gols?

Ainda nessa análise iremos observar a correlação entre Gols Esperados e gols, fator determinante em resultados ao longo das 38 rodadas disputadas e que interfere diretamente na pontuação ao final do campeonato, uma vez que nem sempre finalizações em remates de onde existe uma alta probabilidade de marcar um gol isso acaba acontecendo. A diferença entre o numero de gols feitos e o numero de gols esperados costuma ser determinante no desempenho de uma equipe, uma vez que obter um saldo ou uma diferença entre essas 2 métricas é um indicador se o jogador (ou time) em questão está aproveitando de maneira objetiva as oportunidades de fazer gol que são criadas.

OBJETIVO

Nosso objetivo com esse trabalho será verificar se os jogadores que finalizam mais vezes são os mesmos que lideram a artilharia do campeonato, também será verificado se chutes de uma distância mais curta resultam em mais gols e qual o tipo de correlação entre o ato de finalizar no alvo e a probabilidade de marcar gols.

Para essa análise serão apresentados gráficos e cálculos, afim de que seja posto de maneira clara e objetiva facilitando o entendimento de todos através de uma linguagem simples, uma vez que nem sempre o esporte em que consiste o levantamento de dados é tão fácil de entender determinadas ideias quanto parece.

METODOLOGIA

Nesse trabalho iremos utilizar uma base de dados que contém informações a respeito das finalizações em partidas da temporada 2022-2023 da Premier League, os dados foram colhidos do site fbref.com no dia 13/1/2023 e numeros que foram registrados posteriores a essa data não serão levados em conta nessa análise.(1)

Essa base então foi exportada do site para o Excel e do Excel importada para o RStudio, onde facilitará nossa exposição por meio de gráficos e tabelas com bibliotecas que serão demonstradas a medida que forem utilizadas no nosso trabalho.

Esses são todos os jogadores e dados presentes em nossos registros.

ESTUDO

Agora começaremos nossas análises de caso.

Primeiro olharemos histogramas para observar se os dados tem distribuição normal, para isso também iremos filtrar nossos dados para considerar nas análises que envolvem diretamente marcadores de gols, que apenas aqueles com pelo menos 1 gol marcado na competição sejam avaliados. A ideia com o histograma é tentar visualizar quais colunas vão apresentar uma distribuição que podemos considerar como normal entre as médias e quais dados fugirão desse padrão de análise.

#Limpeza de Dados
library(dplyr)
PL_Gols = PL_Data %>% filter(Gols>=1)
par(mfrow = c (1, 4))
hist(PL_Gols$Distancia_media,
     col = "#353575",
     main = "Jogadores avaliados x distancia media",
     ylim=c(0,100))

hist(PL_Gols$Gols,
     col = "#BF1363",
     main = "Jogadores avaliados x Quantidade de gols",
     ylim=c(0,120),
     xlim=c(0,25))

hist(PL_Gols$Chutes,
     main = "Jogadores avaliados x Chutes",
     col = "#702963",
     ylim=c(0,50),
     xlim=c(0,70))

hist(PL_Gols$xG,
     col = "#8E0E0E",
     main = "Jogadores avaliados x Gols esperados",
     ylim=c(0,130),
     xlim=c(0,18))

Com os histogramas obtidos a conclusão que podemos chegar é que dentro dos gráficos apresentados, 2 deles talvez contenham uma distribuição normal de dados ainda que o “sino”, ou curva de Gauss, esteja distorcida e assimétrica. É o que acontece na relação entre jogadores x distância e jogadores x quantidade total de chutes. Já nos gráficos correspondentes a quantidade total de gols e a de gols esperados, vemos uma distribuição totalmente assimétrica a esquerda, configurando então que a distribuição não segue então o padrão normal.

Teste entre variáveis quantitativas:

Correlação entre o numero de chutes x numero de gols marcados

Na primeira hipótese a ser trabalhada pelo grupo, faremos o seguinte teste para ver como os numeros de nossos dados estão relacionados. Em primeiro lugar, veremos a respeito da linearidade entre a quantidade de chutes de cada jogador e a quantidade de gols marcados.

library(dplyr)
plot(PL_Gols$Gols,PL_Gols$Chutes,col="#043854",pch=20,
     main="Linearidade entre gols marcados e chutes")
abline(lsfit(PL_Gols$Gols,PL_Gols$Chutes),col="red")

Ao observar o gráfico, a primeira conclusão bruta que podemos tirar é que há uma linearidade positiva na relação entre a quantidade de chutes e a quantidade de gols. Erling Haaland, jogador que dá título a nosso estudo, desponta como total ponto fora da curva tendo um desempenho muito acima dos demais.

Notamos também que há uma linearidade forte entre os jogadores que finalizam em menor quantidade, resultando assim de maneira direta em menos gols, porém essa relação positiva se enfraquece a medida que se acumulam finalizações.

Agora então trabalharemos hipótese e testaremos se a mesma é verdadeira ou deve ser rejeitada.

H0: Jogadores que chutam mais vezes são os jogadores que fazem mais gols?

H1: O numero de chutes e o numero de gols não possuem correlação.

Se p-valor for menor ou igual a 0,05, a hipótese será considerada como verdadeira

Se p-valor for superior a 0,05, a hipótese será então descartada

Para testar essa hipótese usaremos então o teste de Pearson, uma vez que já vimos pelo gráfico que há uma relação linear entre nossas 2 variáveis.

cor.test(PL_Gols$Chutes,
         PL_Gols$Gols,
         method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  PL_Gols$Chutes and PL_Gols$Gols
## t = 15.314, df = 176, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6848757 0.8125737
## sample estimates:
##       cor 
## 0.7558228

Vemos então através do método de Pearson, que os cálculos que levam em conta a correlação entre gols e chutes apontam uma correlação linear positiva e forte. Ao perceber o p-valor inferior a 0,05 a hipótese levantada então ganha credibilidade, indicando que sim, jogadores que marcam a maior quantidade de gols são também aqueles que dão o maior numero de chutes. O numero rô dessa correlação foi de aproximadamente 0,75, indicando assim a correlação forte, mas insuficiente para ser considerada como muito forte.

Correlação entre o numero de gols marcados e o numero de gols esperados

H0: Jogadores que chutam mais vezes ao alvo são os jogadores com maior numero de gols esperados

H1: Não existe correlação entre chutar no alvo e gols esperados

Se p-valor for menor ou igual a 0,05, a hipótese será considerada como verdadeira

Se p-valor for superior a 0,05, a hipótese será então descartada

cor.test(PL_Gols$Chutes_ao_alvo,
         PL_Gols$xG,
         method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  PL_Gols$Chutes_ao_alvo and PL_Gols$xG
## t = 25.08, df = 176, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8469913 0.9124103
## sample estimates:
##       cor 
## 0.8839535

Com um valor de correlação que chega a quase 0,9, é perceptível a forte correlação entre gols esperados e gols marcados, como veremos no gráfico a seguir. Novamente usaremos o método Pearson afim de compreender a linearidade presente nessa análise.

plot(PL_Gols$Chutes_ao_alvo,PL_Gols$xG,col="#191923",pch=20,
     main="Linearidade entre chutes ao alvo e gols esperados")
abline(lsfit(PL_Gols$Chutes_ao_alvo,PL_Gols$xG),col="red")

A conclusão obtida é parecida com a que chegamos no primeiro gráfico, a diferença é que agora chegamos a conclusão pelo calculo obtido no método de Spearson que a correlação além de linear e positiva, é também muito forte entre gols esperados e chutes ao alvo. Dessa forma podemos concluir que os chutes na direção interna do retângulo que constitui o gol (finalizações na trave não são consideradas como alvo) possuem uma relação muito forte e direta com a quantidade de gols esperados a partir das finalizações.

Correlação entre o numero de gols esperados e a distância média das finaliações

H0: Jogadores que finalizam em média mais perto do gol tem maiores chances de fazerem gols

H1: Não existe correlação entre finalizar mais próximo ao gol em média e ter mais chances de marcar

Se p-valor for menor ou igual a 0,05, a hipótese será considerada como verdadeira

Se p-valor for superior a 0,05, a hipótese será então descartada

cor.test(PL_Data$xG,PL_Data$Distancia_media,method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  PL_Data$xG and PL_Data$Distancia_media
## t = -1.8301, df = 384, p-value = 0.06802
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.191028124  0.006894838
## sample estimates:
##         cor 
## -0.09298514

Já nessa nova análise, percebemos uma correlação negativa estabelecida entre a distância média dos chutes e a quantidade de gols marcados por cada jogador nessa avaliação.

Porém podemos descartar essa avaliação e possibilidade, uma vez que o p-valor superior a 0,05 nos demonstra que a correlação entre essas variáveis não possui significância estatística.(2)

plot(PL_Gols$xG,PL_Gols$Distancia_media,col="#702963",pch=20)
abline(lsfit(PL_Gols$xG,PL_Gols$Distancia_media),col="red")

Por fim, percebemos através do gráfico uma correlação linear fraca e negativa, o que demonstra justamente uma relação inversa entre as 2 variáveis. Podemos observar a partir dessa correlação que apesar de não ser intensa, há uma leve inclinação a dizer-se que finalizações tidas de distâncias menores estão ligadas a quantidade de gols esperados. Porém esse fato só é mais perceptível quando há um distanciamento do bloco médio de gols esperados, vemos que em média essa correlação é quase imperceptível, conforme observamos pelo gráfico.

Agora será apresentada uma matriz de correlação entre diferentes dados de nossa base, afim de demonstrar um pouco mais da correlação entre variáveis quantitativas dentre as finalizações no campeonato e determinadas variâncias que constituem o ato de finalizar em direção ao gol.

library(corrplot)
## Warning: package 'corrplot' was built under R version 4.2.2
## corrplot 0.92 loaded
PL <- cor(PL_Gols[,c("Gols","Minutos/90","Chutes","Chutes_ao_alvo","xG","Distancia_media")]) 
corrplot(PL,method="number")

Análise Quantitativa x Análise Qualitativa

Nosso intuito é agora observar como se relacionam os dados então a partir de variáveis que sejam além de 2 dados em números, vendo como se separam e se misturam os dados na nossa base a partir de perspectivas relacionadas ao time e a posição de cada jogador.

HO: Jogadores atacantes (Identificados em nossa base de dados com a sigla FW, correspondente ao termo em inglês “Forward”) finalizam mais vezes a gol

H1: Não há diferença entre as finalizações entre atacantes e demais posições

Alpha: 0,05

Se pvalor <= 0.05, rejeitar hipótese

Se pvalor > 0.05, não rejeitar hipótese

teste1 <- chisq.test(PL_Gols$Posicao,PL_Gols$Chutes)
## Warning in chisq.test(PL_Gols$Posicao, PL_Gols$Chutes): Aproximação do qui-
## quadrado pode estar incorreta
teste1$expected
##                PL_Gols$Chutes
## PL_Gols$Posicao           1           2          3          4          5
##            DF   0.162921348 0.162921348 0.97752809 0.65168539 0.48876404
##            DFFW 0.005617978 0.005617978 0.03370787 0.02247191 0.01685393
##            DFMF 0.016853933 0.016853933 0.10112360 0.06741573 0.05056180
##            FW   0.308988764 0.308988764 1.85393258 1.23595506 0.92696629
##            FWDF 0.022471910 0.022471910 0.13483146 0.08988764 0.06741573
##            FWMF 0.117977528 0.117977528 0.70786517 0.47191011 0.35393258
##            MF   0.196629213 0.196629213 1.17977528 0.78651685 0.58988764
##            MFDF 0.016853933 0.016853933 0.10112360 0.06741573 0.05056180
##            MFFW 0.151685393 0.151685393 0.91011236 0.60674157 0.45505618
##                PL_Gols$Chutes
## PL_Gols$Posicao          6          7          8         9         10
##            DF   0.81460674 1.79213483 0.48876404 1.4662921 1.79213483
##            DFFW 0.02808989 0.06179775 0.01685393 0.0505618 0.06179775
##            DFMF 0.08426966 0.18539326 0.05056180 0.1516854 0.18539326
##            FW   1.54494382 3.39887640 0.92696629 2.7808989 3.39887640
##            FWDF 0.11235955 0.24719101 0.06741573 0.2022472 0.24719101
##            FWMF 0.58988764 1.29775281 0.35393258 1.0617978 1.29775281
##            MF   0.98314607 2.16292135 0.58988764 1.7696629 2.16292135
##            MFDF 0.08426966 0.18539326 0.05056180 0.1516854 0.18539326
##            MFFW 0.75842697 1.66853933 0.45505618 1.3651685 1.66853933
##                PL_Gols$Chutes
## PL_Gols$Posicao         11         12         13         14         15
##            DF   0.97752809 1.30337079 1.14044944 0.65168539 1.62921348
##            DFFW 0.03370787 0.04494382 0.03932584 0.02247191 0.05617978
##            DFMF 0.10112360 0.13483146 0.11797753 0.06741573 0.16853933
##            FW   1.85393258 2.47191011 2.16292135 1.23595506 3.08988764
##            FWDF 0.13483146 0.17977528 0.15730337 0.08988764 0.22471910
##            FWMF 0.70786517 0.94382022 0.82584270 0.47191011 1.17977528
##            MF   1.17977528 1.57303371 1.37640449 0.78651685 1.96629213
##            MFDF 0.10112360 0.13483146 0.11797753 0.06741573 0.16853933
##            MFFW 0.91011236 1.21348315 1.06179775 0.60674157 1.51685393
##                PL_Gols$Chutes
## PL_Gols$Posicao        16         17         18         19         20
##            DF   1.4662921 0.81460674 0.32584270 1.62921348 0.81460674
##            DFFW 0.0505618 0.02808989 0.01123596 0.05617978 0.02808989
##            DFMF 0.1516854 0.08426966 0.03370787 0.16853933 0.08426966
##            FW   2.7808989 1.54494382 0.61797753 3.08988764 1.54494382
##            FWDF 0.2022472 0.11235955 0.04494382 0.22471910 0.11235955
##            FWMF 1.0617978 0.58988764 0.23595506 1.17977528 0.58988764
##            MF   1.7696629 0.98314607 0.39325843 1.96629213 0.98314607
##            MFDF 0.1516854 0.08426966 0.03370787 0.16853933 0.08426966
##            MFFW 1.3651685 0.75842697 0.30337079 1.51685393 0.75842697
##                PL_Gols$Chutes
## PL_Gols$Posicao         21         22         23          24         25
##            DF   0.32584270 0.32584270 0.65168539 0.162921348 1.14044944
##            DFFW 0.01123596 0.01123596 0.02247191 0.005617978 0.03932584
##            DFMF 0.03370787 0.03370787 0.06741573 0.016853933 0.11797753
##            FW   0.61797753 0.61797753 1.23595506 0.308988764 2.16292135
##            FWDF 0.04494382 0.04494382 0.08988764 0.022471910 0.15730337
##            FWMF 0.23595506 0.23595506 0.47191011 0.117977528 0.82584270
##            MF   0.39325843 0.39325843 0.78651685 0.196629213 1.37640449
##            MFDF 0.03370787 0.03370787 0.06741573 0.016853933 0.11797753
##            MFFW 0.30337079 0.30337079 0.60674157 0.151685393 1.06179775
##                PL_Gols$Chutes
## PL_Gols$Posicao         26         27         28         29         30
##            DF   0.32584270 0.48876404 0.48876404 0.32584270 0.32584270
##            DFFW 0.01123596 0.01685393 0.01685393 0.01123596 0.01123596
##            DFMF 0.03370787 0.05056180 0.05056180 0.03370787 0.03370787
##            FW   0.61797753 0.92696629 0.92696629 0.61797753 0.61797753
##            FWDF 0.04494382 0.06741573 0.06741573 0.04494382 0.04494382
##            FWMF 0.23595506 0.35393258 0.35393258 0.23595506 0.23595506
##            MF   0.39325843 0.58988764 0.58988764 0.39325843 0.39325843
##            MFDF 0.03370787 0.05056180 0.05056180 0.03370787 0.03370787
##            MFFW 0.30337079 0.45505618 0.45505618 0.30337079 0.30337079
##                PL_Gols$Chutes
## PL_Gols$Posicao         31         32         33         34          35
##            DF   0.32584270 0.32584270 0.65168539 0.32584270 0.162921348
##            DFFW 0.01123596 0.01123596 0.02247191 0.01123596 0.005617978
##            DFMF 0.03370787 0.03370787 0.06741573 0.03370787 0.016853933
##            FW   0.61797753 0.61797753 1.23595506 0.61797753 0.308988764
##            FWDF 0.04494382 0.04494382 0.08988764 0.04494382 0.022471910
##            FWMF 0.23595506 0.23595506 0.47191011 0.23595506 0.117977528
##            MF   0.39325843 0.39325843 0.78651685 0.39325843 0.196629213
##            MFDF 0.03370787 0.03370787 0.06741573 0.03370787 0.016853933
##            MFFW 0.30337079 0.30337079 0.60674157 0.30337079 0.151685393
##                PL_Gols$Chutes
## PL_Gols$Posicao         36          38         39         40         43
##            DF   0.48876404 0.162921348 0.32584270 0.32584270 0.32584270
##            DFFW 0.01685393 0.005617978 0.01123596 0.01123596 0.01123596
##            DFMF 0.05056180 0.016853933 0.03370787 0.03370787 0.03370787
##            FW   0.92696629 0.308988764 0.61797753 0.61797753 0.61797753
##            FWDF 0.06741573 0.022471910 0.04494382 0.04494382 0.04494382
##            FWMF 0.35393258 0.117977528 0.23595506 0.23595506 0.23595506
##            MF   0.58988764 0.196629213 0.39325843 0.39325843 0.39325843
##            MFDF 0.05056180 0.016853933 0.03370787 0.03370787 0.03370787
##            MFFW 0.45505618 0.151685393 0.30337079 0.30337079 0.30337079
##                PL_Gols$Chutes
## PL_Gols$Posicao          44         45          50          55          58
##            DF   0.162921348 0.32584270 0.162921348 0.162921348 0.162921348
##            DFFW 0.005617978 0.01123596 0.005617978 0.005617978 0.005617978
##            DFMF 0.016853933 0.03370787 0.016853933 0.016853933 0.016853933
##            FW   0.308988764 0.61797753 0.308988764 0.308988764 0.308988764
##            FWDF 0.022471910 0.04494382 0.022471910 0.022471910 0.022471910
##            FWMF 0.117977528 0.23595506 0.117977528 0.117977528 0.117977528
##            MF   0.196629213 0.39325843 0.196629213 0.196629213 0.196629213
##            MFDF 0.016853933 0.03370787 0.016853933 0.016853933 0.016853933
##            MFFW 0.151685393 0.30337079 0.151685393 0.151685393 0.151685393
##                PL_Gols$Chutes
## PL_Gols$Posicao         62          64
##            DF   0.32584270 0.162921348
##            DFFW 0.01123596 0.005617978
##            DFMF 0.03370787 0.016853933
##            FW   0.61797753 0.308988764
##            FWDF 0.04494382 0.022471910
##            FWMF 0.23595506 0.117977528
##            MF   0.39325843 0.196629213
##            MFDF 0.03370787 0.016853933
##            MFFW 0.30337079 0.151685393
teste1$p.value
## [1] 0.9437843

Com o p-valor se aproximando de 1 e sendo muito superior a 0,05, percebemos que as variáveis não são independentes. Há então um indicativo que veremos com mais detalhes por meio dos gráficos a respeito de como os dados se distribuem.

boxplot(PL_Gols$Chutes~PL_Gols$Posicao,
        col=c("#75356F","#C21212","#39C212","#C28B12","#12C2B9"))

Com o gráfico boxplot obtido a partir da relação entre chutes/posição do jogador, percebemos que existe de fato uma ocorrência consideravelmente maior de finalizações sendo feitas por atacantes, onde há também a presença de outliers. Contudo não é só entre os atacantes que os outliers estão presentes, há também centrocampistas (MF) e um defensor (DF) que assim podem ser considerados. A mediana de jogadores que atuam tanto no ataque quanto no meio (FW-MF, majoritariamente como atacantes, o inverso caso a ordem das posições apareça ao contrário) é a maior dentre todas. A conclusão então é que jogadores que ocupam as faixas mais avançadas do campo finalizam com maior média. Tal fato é também evidenciado a partir da interpretação condizente com defensores, num geral, representados por DF e alguns também atuando como meio campistas eventualmente a depender da formação utilizada pelo treinador. Esses números aparecem então na categoria DF-MF ou MF-DF, com a lógica seguindo a mesma dos atacantes posteriormente avaliados.

Fica presente na nossa análise ao observar a mediana muito próxima do 3º quartil tanto em DF quanto DF-MF que a assimetria desses conjuntos é de relação negativa, enquanto em FW essa linha da mediana está consideravelmente distante desse 3º quartil e mais ainda do máximo, configurando a relação positiva entre esses dados.

A seguir veremos então como fica a disposição de dados quando diferenciados então a quantidade de gols, gols esperados, chutes e a classificação de acordo com os 20 clubes que disputam a primeira divisão do futebol inglês, a ideia aqui é observar a disparidade e se há uma concentração desses dados em determinados clubes, sobretudo aqueles com maior poder de investimento.