Información del conjunto y estadísticas descriptivas

Datos

El conjunto de datos a trabajar corresponde a todos los goles hechos por Cristiano Ronaldo Dos Santos hasta la fecha del dato máximo que corresponde a la temporada de 2022/2023. El tamaño de la muestra es 711 datos que corresponden a cada una de las anotaciones y existen 11 variables en su gran mayoría cualitativas, las cuales describen y brindan información de cada gol, como el asistidor, la forma en que lo hizo, contra quien y cuando.

Variables

  • Season: Variable cualitativa, nominal y está en unidad de texto
  • Competition: Variable cualitativa, nominal y está en unidad de texto
  • Date: Variable cualitativa, nominal y está en unidad de fecha
  • Venue: Variable cualitativa, nominal y está en unidad binomial
  • Club: Variable cualitativa, nominal y está en unidad de texto
  • Opponent: Variable cualitativa, nominal y está en unidad de texto
  • Result: Variable cuantitativa, de razón y está en unidad numérica
  • Minute: Variable cuantitativa, de razón y está en unidad numérica
  • At_score: Variable cuantitativa, de razón y está en unidad numérica
  • Type: Variable cualitativa, nominal y está en unidad de texto
  • Goal_assist: Variable cualitativa, nominal y está en unidad de texto
Limpieza de datos

La base de datos presentaba 13 columnas, de las cuales se seleccionaron 12 de ellas, aquella descartada fue donde mostraba en que jornada metió gol, sin embargo, existían muchas irregularidades entre los datos así que se decidió eliminar y dejar las otras variables que presentaban mayor consistencia. Los datos estaban acumulados en forma de texto en una misma columna y separados por comas, por lo tanto, se organizaron en forma de tabla con encabezados para separar las columnas correspondientes en las variables. La información contenida en las diferentes filas de algunas variables, requerían una reorganización en cuanto al formato, debido a que estos eran heterogéneos entre sí y no permitiría que el lenguaje de programación los detectara y operara. Existían también, varias casillas donde no había datos y en aquellos espacios se añadió un N/A para que, al importarlo en R, no alterara erróneamente los resultados de las mediciones y graficas.

Tabla de indicadores de tendencia central
ITC
ITC

Histogramas y diagramas circulares

Histograma 1

Histograma #1: Principales equipos a los que marco Cristiano Ronaldo, donde se observa que la cifra se eleva a más de los 30 goles con el Sevilla FC

Grafico circular 1

Gráfico circular #1: Exhibe la variable de goles marcados de local o de visitante, la cual tiene una ligera superioridad en la cantidad de goles de local

Histograma 2

Histograma #2: Expone la variedad de formas de anotaciones que ha realizado Cristiano Ronaldo, donde se observa que las mas usuales son goles con su pierna diestra y de penal, con 253 y 132 goles respectivamente.

Histograma 3

Histograma #3: Mirada cuantitativa de los goles marcados en las diferentes competencias donde lidera claramente LaLiga, seguida de la UEFA Champions League, 2 de las competencias mas prestigiosas del futbol europeo.

Histograma 4

Histograma #4: Mirada cuantitativa de las asistnecias dadas por Cristiano Ronaldo a sus diferentes compañeros de futbol, el primero de ellos siendo Karim Benzema con 44 asistencias recibidas.

Grafico circular 2

[1] "LW" NA   "RW" "CF"

Gráfico circular #2: Muestra el porcentaje de goles marcados en cada una de las posiciones que jugó, las cuales solo son 3 y predomina con mas de la mitad aquellas anotaciones realizadas al jugar de extremo izquierdo.

Grafico circular 3

Gráfico circular #3: Ilustra el porcentaje de goles marcados en cada uno de sus equipos con respecto a la totalidad de anotaciones. Se observa una predominancia en el Real Madrid, que corresponde a más del 50%.

Diagramas de cajas

Diagrma de caja 1

Diagrama de caja #1: Representa la distribución de los goles a lo largo de las temporadas, donde se evidencia que desde la temporada 11 hasta la 18, se ubica el 50% de sus goles (Q1 a Q3) y fuera de ese rango, existe mayor distancia entre las anotaciones en el tiempo.

Diagrama de caja 2 y 3

Diagrama de caja #2: Ilustra los goles marcados por el equipo local en aquellos partidos donde hubo anotación del jugador, existen datos atípicos que rondan entre los 8 y 10 goles, pero en su mayoría se encuentran entre 0 y 4.

Diagrama de caja #3: Enseña los goles marcados por el equipo visitante en los partidos donde se marcó, vemos que la mediana da aproximadamente en 2 y existen datos atípicos que ascienden a 8.

Diagramas de dispersión y correlación.

Correlación de Pearson

[1] -0.569816

El resultado del estudio muestra una correlación negativa media, lo cual significa que ambas variables se relacionan inversamente. Puesto en terminos contextuales del objeto de estudio, es coherente que al haber mas goles de visitante hayan menos de local y de igual forma sucede en el caso inverso.

La intercepción entre la recta y el eje Y, deja en evidencia la cantidad de goles de visitante esperados cuando el equipo local anota 0 goles, este indicador se eleva a 2.88, en donde también, se ve la correlación negativa entre estas 2 variables. La pendiente negativa de -0.44, que muestra cuantos goles visitantes se esperan por cada gol de local adicional, en otras palabras, la probabilidad de que el equipo visitante anote un gol, es menor cuando el número de goles locales se eleva.

El diagrama de cajas permite observar en que posición anoto Cristiano Ronaldo, con respecto a la temporada en la que jugo, de esta forma, denotamos la evolución de posiciones durante su carrera y en cuáles se destacó más. Se evidencia sus inicios donde jugo principalmente de extremo derecho, pasando posteriormente a la banda izquierda, donde se desempeñó en enumeradas temporadas y para finalizar, se acentuó durante el mayor tiempo de delantero centro, logrando también el mayor número de anotaciones.

Se separan los datos de goles por mes del año, de esa manera se podrá analizar más fácilmente la tendencia goleadora del Cristiano a lo largo de los años, expresándose así en la tabla una sumatoria de los goles marcados en los distintos partidos jugados en cada mes.

En la tabla superior se muestra la tendencia que sigue Cristiano con el pasar de los meses, con el gráfico es posible evidenciar las tendencias tanto estacionarias como incrementales que Cristiano sufrió a nivel estadístico a lo largo de su carrera. Con el gráfico se puede evidenciar las mejores y peores temporadas de Cristiano a nivel goleador, así como momentos donde estuvo lesionado y sus rachas.

La gráfica de tendencia suavizada, a diferencia de la anterior, permite ver una tendencia más general de la distribución de los goles alrededor de los meses y las temporadas por medio de la línea roja, que representa una tendencia sin tantas fluctuaciones en el tiempo.

Diagramas de barras apiladas

Tabla Cruzada

                   
                    Counter attack goal Deflected shot on goal Direct free kick
  Al-Nassr FC                         1                      0                1
  Juventus FC                         2                      1                1
  Manchester United                   1                      0               15
  Real Madrid                         2                      1               32
  Sporting CP                         0                      0                0
                   
                    Header Left-footed shot Long distance kick Penalty
  Al-Nassr FC            0                2                  0       3
  Juventus FC           18               18                  1      29
  Manchester United     23               17                  1      21
  Real Madrid           70               75                  7      79
  Sporting CP            1                1                  0       0
                   
                    Penalty rebound Right-footed shot Solo run Tap-in
  Al-Nassr FC                     0                 2        0      0
  Juventus FC                     1                24        0      6
  Manchester United               1                48        1      3
  Real Madrid                     1               178        0      5
  Sporting CP                     0                 1        1      0

En la tabla se ilustra la cantidad de goles divididos por el tipo de gol y el club con el que marcó. Se denota una gran diferencia entre los datos de otros clubes y el Real Madrid, club donde estuvo la mayoria de las temporadas y por ende, anoto la mayor cantidad de goles, entre los cuales los tipos que mas se destacan son de cabeza y aquellos realizados con su pie derecho.

Distribución de datos

[1] 26.75882
[1] 50.65493

Row

Interpretación

El histograma del minuto en que se anotan los goles reales muestra que los goles están distribuidos de manera relativamente uniforme a lo largo del partido, con un leve aumento hacia los últimos minutos del tiempo reglamentario (minuto 80-90). Esta tendencia es coherente con lo que se observa frecuentemente en el fútbol real, donde muchos goles se marcan en el tramo final del partido debido al desgaste físico, la presión por empatar o ganar, y los cambios tácticos.

En contraste, el segundo histograma generado a partir de una distribución normal con la misma media y desviación estándar muestra una distribución más simétrica y con forma de campana, centrada en torno al minuto 50, lo que no refleja la dinámica real del juego.

Esta comparación evidencia que los minutos de gol de Cristiano Ronaldo no siguen una distribución normal, ya que en los datos reales hay un sesgo a la derecha (más goles hacia el final del partido), mientras que en la distribución simulada los goles se concentran en la parte media del tiempo de juego.

Por lo tanto, aunque ambos histogramas comparten ciertas características de dispersión, la asimetría y el patrón real del juego hacen que la distribución empírica difiera significativamente de la distribución normal teórica.

Conclusiones

Imagen

CONCLUSIONES

Al haber analizado algunas de las estadisticas más relevantes de la carrera de Cristiano Ronaldo, se concluye que tuvo una trayectoria que quedara para la historia por su inmensa influencia goleadora en cada equipo del cual fue parte.

Se concluye que la etapa de mayor efectividad goleadora en su carrera, fue durante su estancia en el Real Madrid, donde empezó como extremo izquierdo y termino asentuandose de delantero centro.

Se identificó que en los partidos donde Cristiano fue participe, el equipo local tuvo tendencia a marcar mas goles.

Compañeros como Benzema, Gareth Bale y Ozil, fueron unos de los mas influyentes en engrandecer la carrera goleadora de CR7

Pruebas de hipotesis

Prueba de hipotesis de diferencia de medias

El grupo desea evaluar si hay diferencia significativa en el minuto promedio en que Cristiano marca un gol entre el Real Madrid y Manchester United. Planteando así que H0: (media RM)-(media MU)=0 y Ha:(media RM)-(media MU)>0

[1] 50.65493
[1] 26.75882
[1] 50.03333
[1] 50.25517

    Welch Two Sample t-test

data:  Minute by Club
t = 0.086028, df = 246.53, p-value = 0.9315
alternative hypothesis: true difference in means between group Manchester United and group Real Madrid is not equal to 0
95 percent confidence interval:
 -4.857230  5.300908
sample estimates:
mean in group Manchester United       mean in group Real Madrid 
                       50.25517                        50.03333 

Interpretación

Al comparar Real Madrid y Manchester United y observar que el valor P es mucho mayor que 0.05, se concluye que la evidencia estadistica no resalta diferencias significativas en el minuto promedio en el que marca, siendo el minuto promedio para ambos, el minuto 50,6 del partido y teniendo una desviación de 26.8 minutos.

Prueba de hipotesis para la media

Se plantea una prueba de hipótesis, donde se verifique si el promedio de minuto de gol de Cristiano Ronaldo en la Juventus fue mayor al minuto 70. Planteando así que H0: (media J)<=70 y Ha: (media J)>70

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00   37.00   54.00   53.81   70.00   96.00 
[1] 53.81188
[1] 23.87581

    One Sample t-test

data:  juve$Minute
t = -6.814, df = 100, p-value = 1
alternative hypothesis: true mean is greater than 70
95 percent confidence interval:
 49.86761      Inf
sample estimates:
mean of x 
 53.81188 

Interpretación

Con un nivel de significancia del 5%, al no rechazar H0, se puede afirmar que no hay evidencia suficiente para afirmar que Cristiano Ronaldo haya marcado en promedio despues del minuto 70, cuando jugaba para la Juventus. Los datos indican que por lo contrario, sus goles ocurrian tipicamente alrededor del minuto 54.

Prueba de hipotesis proporción

Se plantea una prueba de hipotesis, donde se mide si la proporcion de goles en el Real Madrid en relacion al total de sus goles fue menor a 60%, en este caso de propone que: H0: (P gol RM)>=60 y Ha: (P gol RM)<60
[1] 0.6338028

    1-sample proportions test with continuity correction

data:  goles_madrid out of total_goles, null probability 0.6
X-squared = 3.2409, df = 1, p-value = 0.9641
alternative hypothesis: true p is less than 0.6
95 percent confidence interval:
 0.0000000 0.6636717
sample estimates:
        p 
0.6338028 

Interpretación

Con un nivel de significancia del 5%, se afirma que al no rechazar H0 no hay suficiente evidencia para rechazar Ho, por tanto, no se puede afirmar que la proporción de goles que Cristiano Ronaldo anotó con el Real Madrid sea menor al 60% del total de goles registrados en la base de datos.

Prueba de hipotesis diferencia de proporciones

Se plantea una prueba de hipotesis de una diferencia de proporciones, donde la hipotesis es que cristiano tiene una mayor proporcion de goles en su carrera en el Manchester United que en la Juventus. En este caso de plantea que: H0: (P gol Mu)-(P gol J)<=0 y Ha: (P gol Mu)-(P gol J)>0

    2-sample test for equality of proportions with continuity correction

data:  x out of n
X-squared = 9.0912, df = 1, p-value = 0.001284
alternative hypothesis: greater
95 percent confidence interval:
 0.02763535 1.00000000
sample estimates:
   prop 1    prop 2 
0.2042254 0.1422535 

Interpretación

Con un nivel de significancia del 5% se puede afirmar que eferctivamente la proporcion de goles que ha marcado Cristiano en el United es mayor a la proporcion de goles que marcó en la Juventus, esto se puede deducir debido a que el valor P<= 0.05, rechazando la hipotesis nula y afirmando que la proporcíon de goles en el Manchester United es mayor que la de Juventus.

Regresión lineal

Correlación de Pearson

[1] -0.569816

El resultado del estudio muestra una correlación negativa media, lo cual significa que ambas variables se relacionan inversamente. Puesto en terminos contextuales del objeto de estudio, es coherente que al haber mas goles de visitante hayan menos de local y de igual forma sucede en el caso inverso.

La intercepción entre la recta y el eje Y, deja en evidencia la cantidad de goles de visitante esperados cuando el equipo local anota 0 goles, este indicador se eleva a 2.88, en donde también, se ve la correlación negativa entre estas 2 variables. La pendiente negativa de -0.44, que muestra cuantos goles visitantes se esperan por cada gol de local adicional, en otras palabras, la probabilidad de que el equipo visitante anote un gol, es menor cuando el número de goles locales se eleva.


Call:
lm(formula = `Away Goals` ~ `Home Goals`, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4373 -0.9934 -0.1054  0.8946  5.1187 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.88126    0.07736   37.25   <2e-16 ***
`Home Goals` -0.44395    0.02406  -18.45   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.319 on 708 degrees of freedom
Multiple R-squared:  0.3247,    Adjusted R-squared:  0.3237 
F-statistic: 340.4 on 1 and 708 DF,  p-value: < 2.2e-16
[1] 1.794461e-17

El modelo ajustado es: Away goals=2.881-0.444(Home Goals)

  • El intercepto (2.881) y altamente significativa (p < 2e−16), este indica que cuando un equipo local no anota goles, se espera que el equipo visitante marque en promedio cerca de 2.9 goles.

  • La pendiente (-0.444) es negativa y altamente significativa (p < 2e−16), lo que sugiere que a mayor cantidad de goles del equipo local, menor es el número esperado de goles del visitante.

  • El R² (0.3247) muestra que el 32.5% de la variabilidad en los goles visitantes se explica por los goles locales. Permite identificar que hay otros factores importantes no incluidos en el modelo y la variablidad sin explicar debido al contexto futbolistico.

Normalidad

El grafico muestra que aunque, en la zona central los puntos se alinean relativamente bien con la recta teórica, en las colas se observan desviaciones marcadas con respecto a la recta. Aunque esto no invalida necesariamente el modelo, sí sugiere que algunas inferencias podrían no ser totalmente confiables.

Homoceasticidad


    studentized Breusch-Pagan test

data:  modelo
BP = 47.766, df = 1, p-value = 4.802e-12

A partir del test Breusch–Pagan, se obtuvo un p-value de 4.802e-12, un valor extremadamente pequeño que implica que se rechaza la hipótesis nula de homocedasticidad. Por ende, los residuos no tienen varianza constante y existe no existe homocedasticidad.

Independencia

 lag Autocorrelation D-W Statistic p-value
   1       0.4211506      1.154949       0
 Alternative hypothesis: rho != 0

El estadístico de Durbin–Watson es 1.1549, un valor claramente por debajo de 2 señala una autocorrelación positiva de los residuos, lo cual viola el supuesto de independencia.

Linealidad

La línea verde evidencia una curvatura clara, donde los residuos no se distribuyen alrededor de cero de manera aleatoria, sino que siguen un patron. Esto demuestra que la relación entre los goles de local y los goles de visitante no es completamente lineal, lo que estadisticamente significa que el modelo lineal simple no logra capturar adecuadamente el comportamiento de las variables.