PUNTO 1

datos <- read_delim("matches_premier_league.csv", 
    delim = ";", escape_double = FALSE, trim_ws = TRUE)

cor(datos$gf,datos$ga)
## [1] -0.1552657
chart.Correlation(datos[,c (5,6)], histogram = F,
                 pch= 19)

Interpretación:

Coeficiente de clasificación (-0.16): Este valor indica la clasificación entre las dos variables: este valor es una compresión negativa débil, lo que significa que, en general, a medida que una variable aumenta (por ejemplo, los goles a favor(gf)), la otra tiende a disminuir ligeramente (goles en contra (ga)), pero no de manera fuerte ni consistente.

PUNTO 2

#Diagrama de cajas

ggplot(datos, aes(x= result, y= gf))+
  geom_boxplot(fill=c("purple", "pink", "orange"))+
  labs(title = "DIAGRAMA DE CAJAS")

Interpretación:

Los equipos fallan más goles en promedio cuando ganan (W), ya que hubo mayor intentos de tiro al arco, pero también tienen la mayor dispersión en cuanto a fallos. En los empates (D), la cantidad de goles fallidos es más moderada, mientras que en las derrotas (L), los goles fallidos son menos frecuentes y concentrados, aunque hay algunos casos con fallos más altos.

Este análisis podría indicar que, a pesar de fallar más goles, los equipos ganan más a menudo, pero con más variabilidad en su desempeño

PUNTO 3

tabla_cruzada =table(datos$day, datos$venue)
tabla_cruzada
##      
##       Away Home
##   Fri   81   78
##   Mon  155  160
##   Sat 1026 1029
##   Sun  681  674
##   Thu   99   99
##   Tue  141  139
##   Wed  211  215

#interpretacion tabla:

Similitud entre valores Away y Home: En la mayoría de los días, los valores de eventos en casa y fuera de casa son muy cercanos, lo que indica una distribución equilibrada.

Sábado y Domingo: Estos días destacan por tener el mayor número de eventos tanto fuera como en casa, siendo el sábado particularmente alto con más de 1000 eventos.

Jueves: Curiosamente, el jueves tiene la misma cantidad de eventos tanto fuera como en casa (99).

Otros días: El resto de los días tienen una cantidad moderada de eventos, con diferencias pequeñas entre “Away” y “Home”.

barplot(tabla_cruzada, col=rainbow(7),xlim=c(0,3),
        ylab="conteo partidos")
legend(2.5,1500, row.names(tabla_cruzada), fill=rainbow(7))

Interpretación diagrama:

El eje vertical (Y) representa el conteo de partidos, con valores que alcanzan un poco más de 2000. Los dos grupos de barras representan partidos jugados Away (a la izquierda) y Home (a la derecha).

Tanto en los partidos jugados fuera de casa (Away) como en casa (Home), se observa una distribución similar en el conteo de partidos a lo largo de los días de la semana.

Sábado (verde) y Domingo (aqua) tienen la mayor proporción de partidos jugados, destacándose claramente sobre los otros días.

Miércoles (magenta) y Martes (azul) tienen una proporción significativa, pero menor en comparación con el fin de semana.

Jueves (cyan), Lunes (amarillo), y Viernes (rojo) tienen la menor cantidad de partidos, ocupando solo una pequeña parte de las barras.

Isabella Gordillo y Wilson Acosta.