Paula Cazali

En este proyecto se analizará un dataset sobre partidos de futbol, en especifico de la UEFA Champeons League.

Cargando librerias y dataset

library(dplyr)
library(ggplot2)
library(readr)
partidos <- read_csv("spi_matches.csv")

Como todo el dataset es sobre distintos equipos de futbol primero necesitamos obtener solo donde están los partidos de la UEFA Champions League:

uefa <-
partidos %>% 
  filter(league == "UEFA Champions League")

Por lo que el dataset quedaría de la siguiente forma:

head(uefa)

En el datasest hay algunas columnas que no se necesitan para hacer la predicción, por lo que podemos eliminar esas columnas que en este caso serían: la fecha en la cual se realizó el partido, la liga a la que pertenecen, ya que sabemos que todos los partidos son de la UEFA Champeons League, el id de liga, y otras variables que no tienen información relevante en el dataset. También eliminaremos las filas que no tengan dato en alguna de las columnas.

uefa <-
uefa %>% 
  select(-date, -league_id, -league, -importance1, -importance2) %>% 
  filter(xg1 != "NA") %>% 
  filter(xg2 != "NA")

Por lo que el dataset se vería asi:

head(uefa)

Cambiaremos los nombres de las columnas del dataset para poder tener mejor visión de los equipos locales y los visitantes y sus respectivas observaciones.

colnames(uefa) <- c("local", "visit", "spi_local", "spi_visit", "prob_local", "prob_visit", "probtie", "proj_score1", "proj_score2", "score_local", "score_visit", "xg_local", "xg_visit", "nsxg_local", "nsxg_visit", "adj_score1", "adj_score2")
head(uefa)

A continuación se obtendrán los partidos totales definidos a favor de los locales, los definidos a favor de los visitantes y los empates y se graficarán

Total de partidos jugados como locales:

partidos_local <-
uefa %>% 
  mutate(cnt = 1) %>% 
  group_by(local) %>% 
  summarise(partidos_local = sum(cnt))
partidos_local

Total de partidos jugados como visitantes:

partidos_visit <-
uefa %>%
  mutate(cnt = 1) %>% 
  group_by(visit) %>% 
  summarise(partidos_visit = sum(cnt))
partidos_visit

Partidos definidos a favor de los locales, a favor de los visitantes y partidos en empate:

Graficando:

Total_Win %>% 
  ggplot(aes(x=Partidos,y=total_wins))+
  geom_bar(stat = "identity", fill = c("blue", "green", "red")) +
  ggtitle("Partidos definidos como locales, visitantes y empates") + 
  labs(x = "Partidos") + 
  labs(y = "Total")

En esa gráfica se puede apreciar que hay más partidos ganados si se juega de local que si se juega de visitante, para cualquier equipo en la UEFA Champeons League.

Modelo

Se dividirá el dataset en 70% para el modelo de predicción y el 30% para las pruebas del modelo.

uefa.train <- uefa[1:(0.7*(nrow(uefa))), ]
uefa.test <- uefa[(0.7*(nrow(uefa))):nrow(uefa), ]

Introducimos la variable Win1 para los partidos ganados locales y la variable Win2 para los ganados por los visitantes. Un “1” significa que lo ganó y un “0” puede significar que lo perdió o que lo empató.

uefa.train$Win1 <- ifelse((uefa.train$score_local > uefa.train$score_visit), 1, 0)
uefa.train$Win2 <- ifelse((uefa.train$score_visit > uefa.train$score_local), 1, 0)
uefa.test$Win1 <- ifelse((uefa.test$score_local > uefa.test$score_visit), 1, 0)
uefa.test$Win2 <- ifelse((uefa.test$score_visit > uefa.test$score_local), 1, 0)

Para los locales

Regresión binomial tipo logística para predecir la variable Win1 (Si gana o no el partido), en base a los goles esperados de los locales.

logit_reg <- glm(formula = Win1 ~ xg_local, 
                 family = binomial(link = "logit"),
                 data = uefa.train)
summary(logit_reg)

Call:
glm(formula = Win1 ~ xg_local, family = binomial(link = "logit"), 
    data = uefa.train)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3520  -0.8320  -0.5038   0.9089   1.9864  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -2.4363     0.3452  -7.057 1.70e-12 ***
xg_local      1.3627     0.1969   6.921 4.48e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 331.07  on 240  degrees of freedom
Residual deviance: 256.91  on 239  degrees of freedom
AIC: 260.91

Number of Fisher Scoring iterations: 4
exp_goals1 <- seq(min(uefa.train$xg_local), max(uefa.train$xg_local), 0.05)
prediccion <- predict(object = logit_reg, 
                newdata = list(xg_local = exp_goals1),
                type = "response")
graph_predict <- data.frame(exp_goals1, prediccion)
colnames(graph_predict) <- c("Expected_Goals", "Probabilidad")

Gráfica del Modelo para locales

ggplot(data = graph_predict, aes(x = Expected_Goals, y = Probabilidad)) + 
  geom_line(color = "blue", size = 1) + 
  ggtitle("Modelo para Locales - Regresión Logística") +
  labs(x = "Expected Goals") + 
  labs(y = "Probabilidad") +
  theme_minimal()

Modelo con datos del dataset de pruebas

prediccion_test <- predict(object = logit_reg,
                         newdata = uefa.test,
                         type="response")
aux <- data.frame(Win = uefa.test$Win1, Probabilidad = prediccion_test)
uefa.results1 <- data.frame(Local = uefa.test$local, as.data.frame(aux))
  
uefa.results1

Para los visitantes

Regresión binomial tipo logística para predecir la variable Win2 (Si gana o no el partido), en base a los goles esperados de los visitantes.

logit_reg2 <- glm(formula = Win2 ~ xg_visit, 
                 family = binomial(link = "logit"),
                 data = uefa.train)
summary(logit_reg2)

Call:
glm(formula = Win2 ~ xg_visit, family = binomial(link = "logit"), 
    data = uefa.train)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.7648  -0.8087  -0.5242   0.9814   2.0532  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -2.5427     0.3385  -7.512 5.84e-14 ***
xg_visit      1.2543     0.2060   6.090 1.13e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 301.97  on 240  degrees of freedom
Residual deviance: 249.64  on 239  degrees of freedom
AIC: 253.64

Number of Fisher Scoring iterations: 4
exp_goals2 <- seq(min(uefa.train$xg_visit), max(uefa.train$xg_visit), 0.05)
prediccion2 <- predict(object = logit_reg2, 
                newdata = list(xg_visit = exp_goals2),
                type = "response")
graph_predict2 <- data.frame(exp_goals2, prediccion2)
colnames(graph_predict2) <- c("Expected_Goals", "Probabilidad")

Gráfica del Modelo para visitantes

ggplot(data = graph_predict2, aes(x = Expected_Goals, y = Probabilidad)) + 
  geom_line(color = "blue", size = 1) + 
  ggtitle("Modelo para Visitantes - Regresión Logística") +
  labs(x = "Expected Goals") + 
  labs(y = "Probabilidad") +
  theme_minimal()

Modelo con datos del dataset de pruebas

prediccion2_test <- predict(object = logit_reg2,
                         newdata = uefa.test,
                         type="response")
aux2 <- data.frame(Win = uefa.test$Win2, Probabilidad = prediccion2_test)
uefa.results2 <- data.frame(Visitante = uefa.test$visit, as.data.frame(aux2))
  
uefa.results2

Conclusiones

En el análisis de estos datos usando la variable de goles esperados podemos ver que los equipos que juegan de locales tienen más posibilidades de ganar y echar más goles (debido a los goles esperados) que los equipos que juegan de visitantes.

