El conjunto de datos a trabajar corresponde a todos los goles hechos por Cristiano Ronaldo Dos Santos hasta la fecha del dato máximo que corresponde a la temporada de 2022/2023. El tamaño de la muestra es 711 datos que corresponden a cada una de las anotaciones y existen 11 variables en su gran mayoría cualitativas, las cuales describen y brindan información de cada gol, como el asistidor, la forma en que lo hizo, contra quien y cuando.
La base de datos presentaba 13 columnas, de las cuales se seleccionaron 12 de ellas, aquella descartada fue donde mostraba en que jornada metió gol, sin embargo, existían muchas irregularidades entre los datos así que se decidió eliminar y dejar las otras variables que presentaban mayor consistencia. Los datos estaban acumulados en forma de texto en una misma columna y separados por comas, por lo tanto, se organizaron en forma de tabla con encabezados para separar las columnas correspondientes en las variables. La información contenida en las diferentes filas de algunas variables, requerían una reorganización en cuanto al formato, debido a que estos eran heterogéneos entre sí y no permitiría que el lenguaje de programación los detectara y operara. Existían también, varias casillas donde no había datos y en aquellos espacios se añadió un N/A para que, al importarlo en R, no alterara erróneamente los resultados de las mediciones y graficas.
Histograma #1: Principales equipos a los que marco Cristiano Ronaldo, donde se observa que la cifra se eleva a más de los 30 goles con el Sevilla FC
Gráfico circular #1: Exhibe la variable de goles marcados de local o de visitante, la cual tiene una ligera superioridad en la cantidad de goles de local
Histograma #2: Expone la variedad de formas de anotaciones que ha realizado Cristiano Ronaldo, donde se observa que las mas usuales son goles con su pierna diestra y de penal, con 253 y 132 goles respectivamente.
Histograma #3: Mirada cuantitativa de los goles marcados en las diferentes competencias donde lidera claramente LaLiga, seguida de la UEFA Champions League, 2 de las competencias mas prestigiosas del futbol europeo.
Histograma #4: Mirada cuantitativa de las asistnecias dadas por Cristiano Ronaldo a sus diferentes compañeros de futbol, el primero de ellos siendo Karim Benzema con 44 asistencias recibidas.
[1] "LW" NA "RW" "CF"
Gráfico circular #2: Muestra el porcentaje de goles marcados en cada una de las posiciones que jugó, las cuales solo son 3 y predomina con mas de la mitad aquellas anotaciones realizadas al jugar de extremo izquierdo.
Gráfico circular #3: Ilustra el porcentaje de goles marcados en cada uno de sus equipos con respecto a la totalidad de anotaciones. Se observa una predominancia en el Real Madrid, que corresponde a más del 50%.
Diagrama de caja #1: Representa la distribución de los goles a lo largo de las temporadas, donde se evidencia que desde la temporada 11 hasta la 18, se ubica el 50% de sus goles (Q1 a Q3) y fuera de ese rango, existe mayor distancia entre las anotaciones en el tiempo.
Diagrama de caja #2: Ilustra los goles marcados por el equipo local en aquellos partidos donde hubo anotación del jugador, existen datos atípicos que rondan entre los 8 y 10 goles, pero en su mayoría se encuentran entre 0 y 4.
Diagrama de caja #3: Enseña los goles marcados por el equipo visitante en los partidos donde se marcó, vemos que la mediana da aproximadamente en 2 y existen datos atípicos que ascienden a 8.
[1] -0.569816
El resultado del estudio muestra una correlación negativa media, lo cual significa que ambas variables se relacionan inversamente. Puesto en terminos contextuales del objeto de estudio, es coherente que al haber mas goles de visitante hayan menos de local y de igual forma sucede en el caso inverso.
La intercepción entre la recta y el eje Y, deja en evidencia la cantidad de goles de visitante esperados cuando el equipo local anota 0 goles, este indicador se eleva a 2.88, en donde también, se ve la correlación negativa entre estas 2 variables. La pendiente negativa de -0.44, que muestra cuantos goles visitantes se esperan por cada gol de local adicional, en otras palabras, la probabilidad de que el equipo visitante anote un gol, es menor cuando el número de goles locales se eleva.
El diagrama de cajas permite observar en que posición anoto Cristiano Ronaldo, con respecto a la temporada en la que jugo, de esta forma, denotamos la evolución de posiciones durante su carrera y en cuáles se destacó más. Se evidencia sus inicios donde jugo principalmente de extremo derecho, pasando posteriormente a la banda izquierda, donde se desempeñó en enumeradas temporadas y para finalizar, se acentuó durante el mayor tiempo de delantero centro, logrando también el mayor número de anotaciones.
Se separan los datos de goles por mes del año, de esa manera se podrá analizar más fácilmente la tendencia goleadora del Cristiano a lo largo de los años, expresándose así en la tabla una sumatoria de los goles marcados en los distintos partidos jugados en cada mes.
En la tabla superior se muestra la tendencia que sigue Cristiano con el pasar de los meses, con el gráfico es posible evidenciar las tendencias tanto estacionarias como incrementales que Cristiano sufrió a nivel estadístico a lo largo de su carrera. Con el gráfico se puede evidenciar las mejores y peores temporadas de Cristiano a nivel goleador, así como momentos donde estuvo lesionado y sus rachas.
La gráfica de tendencia suavizada, a diferencia de la anterior, permite ver una tendencia más general de la distribución de los goles alrededor de los meses y las temporadas por medio de la línea roja, que representa una tendencia sin tantas fluctuaciones en el tiempo.
Counter attack goal Deflected shot on goal Direct free kick
Al-Nassr FC 1 0 1
Juventus FC 2 1 1
Manchester United 1 0 15
Real Madrid 2 1 32
Sporting CP 0 0 0
Header Left-footed shot Long distance kick Penalty
Al-Nassr FC 0 2 0 3
Juventus FC 18 18 1 29
Manchester United 23 17 1 21
Real Madrid 70 75 7 79
Sporting CP 1 1 0 0
Penalty rebound Right-footed shot Solo run Tap-in
Al-Nassr FC 0 2 0 0
Juventus FC 1 24 0 6
Manchester United 1 48 1 3
Real Madrid 1 178 0 5
Sporting CP 0 1 1 0
En la tabla se ilustra la cantidad de goles divididos por el tipo de gol y el club con el que marcó. Se denota una gran diferencia entre los datos de otros clubes y el Real Madrid, club donde estuvo la mayoria de las temporadas y por ende, anoto la mayor cantidad de goles, entre los cuales los tipos que mas se destacan son de cabeza y aquellos realizados con su pie derecho.
[1] 26.75882
[1] 50.65493
El histograma del minuto en que se anotan los goles reales muestra que los goles están distribuidos de manera relativamente uniforme a lo largo del partido, con un leve aumento hacia los últimos minutos del tiempo reglamentario (minuto 80-90). Esta tendencia es coherente con lo que se observa frecuentemente en el fútbol real, donde muchos goles se marcan en el tramo final del partido debido al desgaste físico, la presión por empatar o ganar, y los cambios tácticos.
En contraste, el segundo histograma generado a partir de una distribución normal con la misma media y desviación estándar muestra una distribución más simétrica y con forma de campana, centrada en torno al minuto 50, lo que no refleja la dinámica real del juego.
Esta comparación evidencia que los minutos de gol de Cristiano Ronaldo no siguen una distribución normal, ya que en los datos reales hay un sesgo a la derecha (más goles hacia el final del partido), mientras que en la distribución simulada los goles se concentran en la parte media del tiempo de juego.
Por lo tanto, aunque ambos histogramas comparten ciertas características de dispersión, la asimetría y el patrón real del juego hacen que la distribución empírica difiera significativamente de la distribución normal teórica.
Al haber analizado algunas de las estadisticas más relevantes de la carrera de Cristiano Ronaldo, se concluye que tuvo una trayectoria que quedara para la historia por su inmensa influencia goleadora en cada equipo del cual fue parte.
Se concluye que la etapa de mayor efectividad goleadora en su carrera, fue durante su estancia en el Real Madrid, donde empezó como extremo izquierdo y termino asentuandose de delantero centro.
Se identificó que en los partidos donde Cristiano fue participe, el equipo local tuvo tendencia a marcar mas goles.
Compañeros como Benzema, Gareth Bale y Ozil, fueron unos de los mas influyentes en engrandecer la carrera goleadora de CR7
El grupo desea evaluar si hay diferencia significativa en el minuto promedio en que Cristiano marca un gol entre el Real Madrid y Manchester United. Planteando así que H0: (media RM)-(media MU)=0 y Ha:(media RM)-(media MU)>0
[1] 50.65493
[1] 26.75882
[1] 50.03333
[1] 50.25517
Welch Two Sample t-test
data: Minute by Club
t = 0.086028, df = 246.53, p-value = 0.9315
alternative hypothesis: true difference in means between group Manchester United and group Real Madrid is not equal to 0
95 percent confidence interval:
-4.857230 5.300908
sample estimates:
mean in group Manchester United mean in group Real Madrid
50.25517 50.03333
Al comparar Real Madrid y Manchester United y observar que el valor P es mucho mayor que 0.05, se concluye que la evidencia estadistica no resalta diferencias significativas en el minuto promedio en el que marca, siendo el minuto promedio para ambos, el minuto 50,6 del partido y teniendo una desviación de 26.8 minutos.
Se plantea una prueba de hipótesis, donde se verifique si el promedio de minuto de gol de Cristiano Ronaldo en la Juventus fue mayor al minuto 70. Planteando así que H0: (media J)<=70 y Ha: (media J)>70
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 37.00 54.00 53.81 70.00 96.00
[1] 53.81188
[1] 23.87581
One Sample t-test
data: juve$Minute
t = -6.814, df = 100, p-value = 1
alternative hypothesis: true mean is greater than 70
95 percent confidence interval:
49.86761 Inf
sample estimates:
mean of x
53.81188
Con un nivel de significancia del 5%, al no rechazar H0, se puede afirmar que no hay evidencia suficiente para afirmar que Cristiano Ronaldo haya marcado en promedio despues del minuto 70, cuando jugaba para la Juventus. Los datos indican que por lo contrario, sus goles ocurrian tipicamente alrededor del minuto 54.
[1] 0.6338028
1-sample proportions test with continuity correction
data: goles_madrid out of total_goles, null probability 0.6
X-squared = 3.2409, df = 1, p-value = 0.9641
alternative hypothesis: true p is less than 0.6
95 percent confidence interval:
0.0000000 0.6636717
sample estimates:
p
0.6338028
Con un nivel de significancia del 5%, se afirma que al no rechazar H0 no hay suficiente evidencia para rechazar Ho, por tanto, no se puede afirmar que la proporción de goles que Cristiano Ronaldo anotó con el Real Madrid sea menor al 60% del total de goles registrados en la base de datos.
2-sample test for equality of proportions with continuity correction
data: x out of n
X-squared = 9.0912, df = 1, p-value = 0.001284
alternative hypothesis: greater
95 percent confidence interval:
0.02763535 1.00000000
sample estimates:
prop 1 prop 2
0.2042254 0.1422535
Con un nivel de significancia del 5% se puede afirmar que eferctivamente la proporcion de goles que ha marcado Cristiano en el United es mayor a la proporcion de goles que marcó en la Juventus, esto se puede deducir debido a que el valor P<= 0.05, rechazando la hipotesis nula y afirmando que la proporcíon de goles en el Manchester United es mayor que la de Juventus.
[1] -0.569816
El resultado del estudio muestra una correlación negativa media, lo cual significa que ambas variables se relacionan inversamente. Puesto en terminos contextuales del objeto de estudio, es coherente que al haber mas goles de visitante hayan menos de local y de igual forma sucede en el caso inverso.
La intercepción entre la recta y el eje Y, deja en evidencia la cantidad de goles de visitante esperados cuando el equipo local anota 0 goles, este indicador se eleva a 2.88, en donde también, se ve la correlación negativa entre estas 2 variables. La pendiente negativa de -0.44, que muestra cuantos goles visitantes se esperan por cada gol de local adicional, en otras palabras, la probabilidad de que el equipo visitante anote un gol, es menor cuando el número de goles locales se eleva.
Call:
lm(formula = `Away Goals` ~ `Home Goals`, data = datos)
Residuals:
Min 1Q Median 3Q Max
-2.4373 -0.9934 -0.1054 0.8946 5.1187
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.88126 0.07736 37.25 <2e-16 ***
`Home Goals` -0.44395 0.02406 -18.45 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.319 on 708 degrees of freedom
Multiple R-squared: 0.3247, Adjusted R-squared: 0.3237
F-statistic: 340.4 on 1 and 708 DF, p-value: < 2.2e-16
[1] 1.794461e-17
El modelo ajustado es: Away goals=2.881-0.444(Home Goals)
El intercepto (2.881) y altamente significativa (p < 2e−16), este indica que cuando un equipo local no anota goles, se espera que el equipo visitante marque en promedio cerca de 2.9 goles.
La pendiente (-0.444) es negativa y altamente significativa (p < 2e−16), lo que sugiere que a mayor cantidad de goles del equipo local, menor es el número esperado de goles del visitante.
El R² (0.3247) muestra que el 32.5% de la variabilidad en los goles visitantes se explica por los goles locales. Permite identificar que hay otros factores importantes no incluidos en el modelo y la variablidad sin explicar debido al contexto futbolistico.
El grafico muestra que aunque, en la zona central los puntos se alinean
relativamente bien con la recta teórica, en las colas se observan
desviaciones marcadas con respecto a la recta. Aunque esto no invalida
necesariamente el modelo, sí sugiere que algunas inferencias podrían no
ser totalmente confiables.
studentized Breusch-Pagan test
data: modelo
BP = 47.766, df = 1, p-value = 4.802e-12
A partir del test Breusch–Pagan, se obtuvo un p-value de 4.802e-12, un valor extremadamente pequeño que implica que se rechaza la hipótesis nula de homocedasticidad. Por ende, los residuos no tienen varianza constante y existe no existe homocedasticidad.
lag Autocorrelation D-W Statistic p-value
1 0.4211506 1.154949 0
Alternative hypothesis: rho != 0
El estadístico de Durbin–Watson es 1.1549, un valor claramente por debajo de 2 señala una autocorrelación positiva de los residuos, lo cual viola el supuesto de independencia.
La línea verde evidencia una curvatura clara, donde los residuos no se distribuyen alrededor de cero de manera aleatoria, sino que siguen un patron. Esto demuestra que la relación entre los goles de local y los goles de visitante no es completamente lineal, lo que estadisticamente significa que el modelo lineal simple no logra capturar adecuadamente el comportamiento de las variables.