Paula Cazali

En este proyecto se analizará un dataset sobre partidos de futbol, en especifico de la UEFA Champeons League.
Cargando librerias y dataset
library(dplyr)
library(ggplot2)
library(readr)
partidos <- read_csv("spi_matches.csv")
Como todo el dataset es sobre distintos equipos de futbol primero necesitamos obtener solo donde están los partidos de la UEFA Champions League:
uefa <-
partidos %>%
filter(league == "UEFA Champions League")
Por lo que el dataset quedaría de la siguiente forma:
head(uefa)
En el datasest hay algunas columnas que no se necesitan para hacer la predicción, por lo que podemos eliminar esas columnas que en este caso serían: la fecha en la cual se realizó el partido, la liga a la que pertenecen, ya que sabemos que todos los partidos son de la UEFA Champeons League, el id de liga, y otras variables que no tienen información relevante en el dataset. También eliminaremos las filas que no tengan dato en alguna de las columnas.
uefa <-
uefa %>%
select(-date, -league_id, -league, -importance1, -importance2) %>%
filter(xg1 != "NA") %>%
filter(xg2 != "NA")
Por lo que el dataset se vería asi:
head(uefa)
Cambiaremos los nombres de las columnas del dataset para poder tener mejor visión de los equipos locales y los visitantes y sus respectivas observaciones.
colnames(uefa) <- c("local", "visit", "spi_local", "spi_visit", "prob_local", "prob_visit", "probtie", "proj_score1", "proj_score2", "score_local", "score_visit", "xg_local", "xg_visit", "nsxg_local", "nsxg_visit", "adj_score1", "adj_score2")
head(uefa)
- La variable “spi” significa soccer power index es un ranking mundial de los equipos de futbol.
- La varibale “xg” significa expected goals, son los goles esperados por parte de cada equipo.
- La variable “nsxg” significa non-shot expected goals y son los goles esperados no lanzados.
- Y la variable “score” nos dice el resultado final del partido.
A continuación se obtendrán los partidos totales definidos a favor de los locales, los definidos a favor de los visitantes y los empates y se graficarán
Total de partidos jugados como locales:
partidos_local <-
uefa %>%
mutate(cnt = 1) %>%
group_by(local) %>%
summarise(partidos_local = sum(cnt))
partidos_local
Total de partidos jugados como visitantes:
partidos_visit <-
uefa %>%
mutate(cnt = 1) %>%
group_by(visit) %>%
summarise(partidos_visit = sum(cnt))
partidos_visit
Partidos definidos a favor de los locales, a favor de los visitantes y partidos en empate:
Graficando:
Total_Win %>%
ggplot(aes(x=Partidos,y=total_wins))+
geom_bar(stat = "identity", fill = c("blue", "green", "red")) +
ggtitle("Partidos definidos como locales, visitantes y empates") +
labs(x = "Partidos") +
labs(y = "Total")

En esa gráfica se puede apreciar que hay más partidos ganados si se juega de local que si se juega de visitante, para cualquier equipo en la UEFA Champeons League.
Modelo
Se dividirá el dataset en 70% para el modelo de predicción y el 30% para las pruebas del modelo.
uefa.train <- uefa[1:(0.7*(nrow(uefa))), ]
uefa.test <- uefa[(0.7*(nrow(uefa))):nrow(uefa), ]
Introducimos la variable Win1 para los partidos ganados locales y la variable Win2 para los ganados por los visitantes. Un “1” significa que lo ganó y un “0” puede significar que lo perdió o que lo empató.
uefa.train$Win1 <- ifelse((uefa.train$score_local > uefa.train$score_visit), 1, 0)
uefa.train$Win2 <- ifelse((uefa.train$score_visit > uefa.train$score_local), 1, 0)
uefa.test$Win1 <- ifelse((uefa.test$score_local > uefa.test$score_visit), 1, 0)
uefa.test$Win2 <- ifelse((uefa.test$score_visit > uefa.test$score_local), 1, 0)
Para los locales
Regresión binomial tipo logística para predecir la variable Win1 (Si gana o no el partido), en base a los goles esperados de los locales.
logit_reg <- glm(formula = Win1 ~ xg_local,
family = binomial(link = "logit"),
data = uefa.train)
summary(logit_reg)
Call:
glm(formula = Win1 ~ xg_local, family = binomial(link = "logit"),
data = uefa.train)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3520 -0.8320 -0.5038 0.9089 1.9864
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.4363 0.3452 -7.057 1.70e-12 ***
xg_local 1.3627 0.1969 6.921 4.48e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 331.07 on 240 degrees of freedom
Residual deviance: 256.91 on 239 degrees of freedom
AIC: 260.91
Number of Fisher Scoring iterations: 4
exp_goals1 <- seq(min(uefa.train$xg_local), max(uefa.train$xg_local), 0.05)
prediccion <- predict(object = logit_reg,
newdata = list(xg_local = exp_goals1),
type = "response")
graph_predict <- data.frame(exp_goals1, prediccion)
colnames(graph_predict) <- c("Expected_Goals", "Probabilidad")
Gráfica del Modelo para locales
ggplot(data = graph_predict, aes(x = Expected_Goals, y = Probabilidad)) +
geom_line(color = "blue", size = 1) +
ggtitle("Modelo para Locales - Regresión Logística") +
labs(x = "Expected Goals") +
labs(y = "Probabilidad") +
theme_minimal()

Modelo con datos del dataset de pruebas
prediccion_test <- predict(object = logit_reg,
newdata = uefa.test,
type="response")
aux <- data.frame(Win = uefa.test$Win1, Probabilidad = prediccion_test)
uefa.results1 <- data.frame(Local = uefa.test$local, as.data.frame(aux))
uefa.results1
Para los visitantes
Regresión binomial tipo logística para predecir la variable Win2 (Si gana o no el partido), en base a los goles esperados de los visitantes.
logit_reg2 <- glm(formula = Win2 ~ xg_visit,
family = binomial(link = "logit"),
data = uefa.train)
summary(logit_reg2)
Call:
glm(formula = Win2 ~ xg_visit, family = binomial(link = "logit"),
data = uefa.train)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.7648 -0.8087 -0.5242 0.9814 2.0532
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.5427 0.3385 -7.512 5.84e-14 ***
xg_visit 1.2543 0.2060 6.090 1.13e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 301.97 on 240 degrees of freedom
Residual deviance: 249.64 on 239 degrees of freedom
AIC: 253.64
Number of Fisher Scoring iterations: 4
exp_goals2 <- seq(min(uefa.train$xg_visit), max(uefa.train$xg_visit), 0.05)
prediccion2 <- predict(object = logit_reg2,
newdata = list(xg_visit = exp_goals2),
type = "response")
graph_predict2 <- data.frame(exp_goals2, prediccion2)
colnames(graph_predict2) <- c("Expected_Goals", "Probabilidad")
Gráfica del Modelo para visitantes
ggplot(data = graph_predict2, aes(x = Expected_Goals, y = Probabilidad)) +
geom_line(color = "blue", size = 1) +
ggtitle("Modelo para Visitantes - Regresión Logística") +
labs(x = "Expected Goals") +
labs(y = "Probabilidad") +
theme_minimal()

Modelo con datos del dataset de pruebas
prediccion2_test <- predict(object = logit_reg2,
newdata = uefa.test,
type="response")
aux2 <- data.frame(Win = uefa.test$Win2, Probabilidad = prediccion2_test)
uefa.results2 <- data.frame(Visitante = uefa.test$visit, as.data.frame(aux2))
uefa.results2
Conclusiones
En el análisis de estos datos usando la variable de goles esperados podemos ver que los equipos que juegan de locales tienen más posibilidades de ganar y echar más goles (debido a los goles esperados) que los equipos que juegan de visitantes.
