IMDb (Internet Movie Database) es una base de datos en línea de información sobre películas, series de televisión, videojuegos y otros contenidos de entretenimiento, que incluye detalles sobre el reparto, el equipo de producción, resúmenes de tramas, críticas y puntuaciones. Lanzada en 1990, es ahora propiedad de Amazon y es una de las webs más visitadas del mundo para fans del cine y la televisión.

Basado en una base de datos sobre el top 1000 de películas mejor calificadas en la plataforma, buscaremos predecir que calificación con base a dos hipotesis para las que necesitaremos crear un modelo de regresión lineal.

¿Que es la regresión líneal

La regresión lineal es un método estadístico y matemático que busca modelar la relación entre una variable dependiente (Y) y una o más variables independientes (X) mediante una función lineal, es decir, una ecuación que describe cómo cambia Y cuando cambian las X. Su propósito principal es explicar, predecir y cuantificar la relación entre las variables.

En esencia, la regresión lineal intenta encontrar la mejor recta posible (o hiperplano en dimensiones mayores) que representa la tendencia central de los datos. “Mejor” significa que esa línea minimiza el error entre los valores observados y los

Fundamentación matemática

La regresión lineal parte del supuesto de que la relación entre variables puede aproximarse así: \[y=ax+b\] o en el caso múltiple: \[y=a_1 x_1+a_2 x_2+...+a_k x_k+b\] Donde:
\(b\): Intercepto o término independiente.
\(a_1,a_2,...,a_k\): coeficientes que representan cuánto cambia Y por cada unidad que cambie cada X.
El modelo busca estimar los coeficientes a y b mediante el método de mínimos cuadrados ordinarios (OLS), que minimiza la suma de los errores al cuadrado:
\[min\sum (Y_i - \hat{Y}_i)^2\]

Interpretación conceptual

1. Explica relaciones: Permite entender si la relación entre variables es positiva, negativa, fuerte, débil o inexistente.
2. Cuantifica cambios: Los coeficientes indican cuánto se espera que varíe Y cuando se modifica una variable X, manteniendo las demás constantes (en regresión múltiple).
3. Predice resultados: Una vez estimados los coeficientes, el modelo sirve para predecir Y para nuevos valores de X.
4. Aísla efectos: En la versión múltiple, permite separar la influencia individual de cada variable independiente.

Supuestos Fundamentales

Para que el modelo sea válido y confiable, se hacen varios supuestos:

1. Linealidad: la relación entre variables es aproximadamente lineal.
2. Independencia: las observaciones no están correlacionadas entre sí.
3. Homoscedasticidad: la variabilidad del error es constante.
4. Normalidad del error: los errores se distribuyen aproximadamente de forma normal.
5. No multicolinealidad severa: en regresión múltiple, las X no deben estar excesivamente correlacionadas entre sí.

Cuando estos supuestos se cumplen, los coeficientes son insesgados, eficientes y consistentes.

Pasos

Para realizar un modelo de regresión líneal basado en una base de datos se necesitan seguir unos determinados pasos

Paso 1: Analizar la asociación entre las variables de insumo(diagrama de disperción y correlación bivariada).
Paso 2: ¿Nuestro modelo es válido? (tabla anova).
Paso 3: Que tanto explica mi modelo? (coeficiente de determinación - \(R^2\)).
Paso 4: Cuales son los parámetros? (tabla de coeficientes).
Paso 5: Construir la ecuación y predecir.

Hipótesis 1

El número de votos influye positivamente en la calificación de una película
Para hacer un modelo en el que se demuestre esta hipotesis buscaremos predecir la calificación o rating de una película en base a su número de votos

Diagrama de disperción y correlación bivariada

Un diagrama de dispersión es una representación gráfica que muestra la relación entre dos variables cuantitativas. Cada punto del gráfico representa una observación individual, donde:
-el eje X contiene los valores de una variable.
-el eje Y contiene los valores de la otra variable.

La correlación bivariada es una medida estadística que cuantifica la fuerza y dirección de la relación entre dos variables cuantitativas. El índice más usado es el coeficiente de correlación de Pearson (r), que toma valores entre –1 y +1:
+1: correlación positiva perfecta.
0: no existe correlación lineal.
–1: correlación negativa perfecta.

Necesitamos esto para analizar la asociación entre las variables de insumo

plot(datos$IMDB_Rating~datos$No_of_Votes,
     xlab = "Número de Votos",
     ylab = "Rating IMDb",
     main = "Diagrama de Dispersión: Rating vs Número de Votos",
     col = "darkblue")

cor.test(datos$IMDB_Rating,datos$No_of_Votes)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$IMDB_Rating and datos$No_of_Votes
## t = 17.996, df = 998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4466926 0.5403899
## sample estimates:
##       cor 
## 0.4949788

Se encontró una correlación positiva moderada entre el Rating de IMDb y el Número de Votos (r = 0.49, p < 0.001), lo que indica que películas con más votos tienden a tener calificaciones ligeramente más altas. Esta relación es estadísticamente significativa, con un 95% de confianza de que la verdadera correlación poblacional se encuentra entre 0.45 y 0.54.

Modelo

modelo1 <- lm(datos$IMDB_Rating~datos$No_of_Votes)
summary(modelo1)
## 
## Call:
## lm(formula = datos$IMDB_Rating ~ datos$No_of_Votes)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.54057 -0.17594 -0.03925  0.15422  0.87736 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       7.835e+00  9.874e-03   793.6   <2e-16 ***
## datos$No_of_Votes 4.165e-07  2.315e-08    18.0   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2395 on 998 degrees of freedom
## Multiple R-squared:  0.245,  Adjusted R-squared:  0.2442 
## F-statistic: 323.9 on 1 and 998 DF,  p-value: < 2.2e-16
plot(datos$IMDB_Rating ~ datos$No_of_Votes,
     xlab = "Número de Votos",
     ylab = "Rating IMDb",
     main = "Modelo de Regresión: Rating vs Número de Votos",
     col = "darkblue")
abline(modelo1, col = "red", lwd = 2)
legend("bottomright",
       legend = c("Datos observados", "Línea de regresión"),
       col = c("darkblue","red"),
       pch = c(1, NA),
       lty = c(NA, 1))

Tabla de Anova

La tabla ANOVA (Análisis de Varianza) es una prueba estadística que evalúa si el modelo de regresión es válido, es decir, si la variable independiente (Número de Votos) realmente tiene un efecto significativo sobre la variable dependiente (Rating).

El estadístico F obtenido es 323.9 con un p-value menor a 0.001, lo que indica que el modelo es estadísticamente significativo. Esto significa que el Número de Votos sí es un predictor válido del Rating de IMDb, y la relación encontrada no es producto del azar. Podemos confiar en que existe una relación real entre ambas variables.

Coeficiente \(R^2\)

El coeficiente de determinación (R²) mide la bondad de ajuste del modelo, es decir, qué porcentaje de la variabilidad en los ratings puede ser explicado por el número de votos. Su valor va de 0 a 1, donde valores más altos indican un mejor ajuste.

El R² de 0.245 indica que el 24.5% de la variación en los ratings de IMDb puede explicarse por el número de votos que reciben las películas. Aunque este porcentaje puede parecer moderado, es significativo y demuestra que el número de votos tiene una influencia real en las calificaciones. El 75.5% restante se debe a otros factores no incluidos en el modelo, como la calidad cinematográfica, el género, los actores, el director, entre otros. Este resultado es común en análisis de datos complejos donde múltiples factores influyen en la variable de interés.

Tabla de coeficientes

La tabla de coeficientes presenta los parámetros estimados del modelo de regresión lineal (intercepto y pendiente), junto con sus errores estándar y pruebas de significancia. Estos valores permiten construir la ecuación de la recta de regresión.

Intercepto (a = 7.835): Representa el valor de y (Rating) cuando x (Número de Votos) es igual a cero. En este caso, el rating base sería de 7.835 puntos cuando una película no tiene votos. Este parámetro es altamente significativo (p < 0.001), indicado por los tres asteriscos (***). Pendiente (b = 4.165×10⁻⁷ o 0.0000004165): Indica cuánto cambia y (Rating) por cada unidad adicional de x (Número de Votos). Dado que este valor es muy pequeño, es más útil interpretarlo a mayor escala: por cada millón de votos adicionales, el rating aumenta aproximadamente 0.42 puntos. Este coeficiente también es altamente significativo (p < 0.001), lo que confirma que existe una relación positiva real entre el número de votos y el rating.

Ecuación para predecir

Una vez obtenidos los coeficientes del modelo de regresión lineal, podemos construir la ecuación que nos permite predecir el rating de una película en función de su número de votos.

Con los valores a = 7.835 (intercepto) y b = 0.0000004165 (pendiente), la ecuación de regresión lineal queda de la siguiente forma: \[Rating = 7.835 + 0.0000004165 × NúmerodeVotos\] O expresada en la forma general: \[y = 7.835 + 0.0000004165x\] Donde: - y = Rating predicho
- x = Número de Votos
- a = 7.835 = Intercepto (rating base)
- b = 0.0000004165 = Pendiente (cambio en rating por cada voto)

Esta ecuación nos permite calcular el rating esperado de cualquier película si conocemos su número de votos. Simplemente sustituimos el valor de votos en la ecuación y obtenemos la predicción.

Conclusión

Como podemos observar en los ejemplos anteriores, el modelo predice que películas con mayor número de votos tienden a tener ratings más altos. Esto tiene sentido desde el punto de vista práctico, ya que las películas más populares y mejor valoradas generalmente atraen a más espectadores, quienes a su vez votan en la plataforma IMDB.Todo lo anterior nos permite concluir que nuestra hipótesis es en gran medida verdadera.

Sin embargo, es importante recordar que el modelo solo explica el 24.5% de la variación en los ratings (R² = 0.245), lo que significa que existen otros factores importantes r que también influyen significativamente en la calificación final de una película.

Hipótesis 2

Los ingresos de taquilla influyen positivamente en la calificación de una película

Para hacer un modelo en el que se demuestre esta hipótesis buscaremos predecir la calificación o rating de una película en base a sus ingresos de taquilla (Gross).

Diagrama de dispersión y correlación bivariada

datos$Gross <- as.numeric(gsub(",", "", datos$Gross))/ 1000000
plot(datos$IMDB_Rating~datos$Gross,
     xlab = "Ingresos de Taquilla (millones de USD)",
     ylab = "Rating IMDb",
     main = "Diagrama de Dispersión: Rating vs Ingresos de Taquilla",
     col = "darkblue")

cor.test(datos$IMDB_Rating, datos$Gross,use = "complete.obs")
## 
##  Pearson's product-moment correlation
## 
## data:  datos$IMDB_Rating and datos$Gross
## t = 2.7746, df = 829, p-value = 0.005651
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.02809775 0.16286861
## sample estimates:
##        cor 
## 0.09592277

Se encontró una correlación positiva débil entre el Rating de IMDb y los Ingresos de Taquilla (r = 0.096, p = 0.006), lo que indica que películas con mayores ingresos tienden a tener calificaciones ligeramente más altas, aunque la relación es muy débil. Esta relación es estadísticamente significativa, con un 95% de confianza de que la verdadera correlación poblacional se encuentra entre 0.03 y 0.16.

Modelo

modelo2 <- lm(datos$IMDB_Rating ~ datos$Gross)
summary(modelo2)
## 
## Call:
## lm(formula = datos$IMDB_Rating ~ datos$Gross)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.48073 -0.23239 -0.03257  0.16865  1.36289 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 7.930e+00  1.151e-02 688.715  < 2e-16 ***
## datos$Gross 2.475e-04  8.921e-05   2.775  0.00565 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2821 on 829 degrees of freedom
##   (169 observations deleted due to missingness)
## Multiple R-squared:  0.009201,   Adjusted R-squared:  0.008006 
## F-statistic: 7.699 on 1 and 829 DF,  p-value: 0.005651
plot(datos$IMDB_Rating ~ datos$Gross,
     xlab = "Ingresos de Taquilla (millones de USD)",
     ylab = "Rating IMDb",
     main = "Modelo de Regresión: Taquilla vs Número de Votos",
     col = "darkblue")
abline(modelo2, col = "red", lwd = 2)
legend("bottomright",
       legend = c("Datos observados", "Línea de regresión"),
       col = c("darkblue","red"),
       pch = c(1, NA),
       lty = c(NA, 1))

Tabla de Anova

La tabla ANOVA (Análisis de Varianza) es una prueba estadística que evalúa si el modelo de regresión es válido, es decir, si la variable independiente (Ingresos de Taquilla) realmente tiene un efecto significativo sobre la variable dependiente (Rating).

El estadístico F obtenido es 7.699 con un p-value de 0.006, lo que indica que el modelo es estadísticamente significativo. Esto significa que los Ingresos de Taquilla sí son un predictor válido del Rating de IMDb, aunque la relación es débil. La relación encontrada no es producto del azar.

Coeficiente R²

El coeficiente de determinación (R²) mide la bondad de ajuste del modelo, es decir, qué porcentaje de la variabilidad en los ratings puede ser explicado por los ingresos de taquilla. Su valor va de 0 a 1, donde valores más altos indican un mejor ajuste.

El R² de 0.009 indica que solo el 0.9% de la variación en los ratings de IMDb puede explicarse por los ingresos de taquilla que reciben las películas. Este porcentaje es muy bajo y demuestra que, aunque existe una relación estadísticamente significativa, los ingresos de taquilla tienen una influencia mínima en las calificaciones. El 99.1% restante se debe a otros factores no incluidos en el modelo, como la calidad cinematográfica, el género, los actores, el director, entre otros. Este resultado sugiere que el éxito comercial y la calidad percibida por los usuarios son aspectos relativamente independientes.

Tabla de coeficientes

La tabla de coeficientes presenta los parámetros estimados del modelo de regresión lineal (intercepto y pendiente), junto con sus errores estándar y pruebas de significancia. Estos valores permiten construir la ecuación de la recta de regresión.

Intercepto (a = 7.930): Representa el valor de y (Rating) cuando x (Ingresos de Taquilla) es igual a cero. En este caso, el rating base sería de 7.930 puntos cuando una película no tiene ingresos de taquilla. Este parámetro es altamente significativo (p < 0.001), indicado por los tres asteriscos (***).

Pendiente (b = 2.475×10⁻⁴ o 0.0002475): Indica cuánto cambia y (Rating) por cada unidad adicional de x (Ingresos de Taquilla). Dado que x está en millones de dólares, esto significa que por cada millón de dólares adicionales en taquilla, el rating aumenta aproximadamente 0.00025 puntos. Este coeficiente es estadísticamente significativo (p = 0.006), indicado por dos asteriscos (**), lo que confirma que existe una relación positiva real entre los ingresos de taquilla y el rating, aunque es extremadamente débil.

Ecuación para predecir

Una vez obtenidos los coeficientes del modelo de regresión lineal, podemos construir la ecuación que nos permite predecir el rating de una película en función de sus ingresos de taquilla.

Con los valores a = 7.930 (intercepto) y b = 0.0002475 (pendiente), la ecuación de regresión lineal queda de la siguiente forma:

\[Rating = 7.930 + 0.0002475 × Gross\]

O expresada en la forma general:

\[y = 7.930 + 0.0002475x\]

Donde: - y = Rating predicho - x = Ingresos de Taquilla (millones de USD) - a = 7.930 = Intercepto (rating base) - b = 0.0002475 = Pendiente (cambio en rating por cada millón de USD)

Esta ecuación nos permite calcular el rating esperado de cualquier película si conocemos sus ingresos de taquilla. Simplemente sustituimos el valor de gross en la ecuación y obtenemos la predicción.

Conclusión

El modelo predice que películas con mayores ingresos de taquilla tienden a tener ratings ligeramente más altos, sin embargo, esta relación es extremadamente débil. A diferencia de lo observado en la Hipótesis 1, donde el número de votos explicaba el 24.5% de la variación en ratings, los ingresos de taquilla solo explican el 0.9%.

Es decir, explica el éxito en taquilla y la calidad valorada por los usuarios de manera independiente: una película puede tener un gran éxito comercial y no ser muy bien valorada y viceversa, películas con buenos ratings no necesariamente tienen que tener grandes ingresos en taquilla. Todo lo anterior nos hace concluir que nuestra hipótesis tiene significado estadístico pero es muy limitada en explicación

Como el modelo solo explica el 0.9% de la variación en los ratings (R² = 0.009), significa que existen otros factores mucho más importantes que los ingresos de taquilla para determinar la calificación final de una película.

Bibliografía

FernandoGarciaH24. (2024). Top 1000 IMDB dataset. Kaggle. https://www.kaggle.com/datasets/fernandogarciah24/top-1000-imdb-dataset