La regresión lineal simple es una de las técnicas más fundamentales y ampliamente utilizadas en el análisis de datos y la estadística aplicada. Su capacidad para modelar relaciones entre variables y realizar predicciones basadas en datos observados la convierte en una herramienta esencial en disciplinas tan diversas como la economía, la ingeniería, las ciencias sociales y la investigación de mercados.
En este trabajo se aplican los principios de la regresión lineal simple para analizar dos conjuntos de datos distintos: uno del sector automotriz, que relaciona la potencia del motor con el precio de los vehículos, y otro del mercado de diamantes, que examina la asociación entre la anchura de un diamante y su precio. A través de estos casos, no solo se ilustra la utilidad del método, sino que también se destacan sus supuestos, limitaciones y alcance predictivo.
El trabajo está estructurado en cinco pasos clave para cada hipótesis: análisis visual y correlacional, validez del modelo mediante la prueba F, evaluación de la capacidad explicativa con el R², significancia de la variable predictora mediante la prueba t, y finalmente, la construcción de la ecuación de regresión con ejemplos de predicción.
Con este enfoque, se busca no solo validar o refutar las hipótesis planteadas, sino también ofrecer una comprensión práctica y aplicada de cómo la regresión lineal puede ser empleada para extraer insights valiosos a partir de datos reales.
La regresión lineal simple es un método estadístico que permite estudiar la relación entre dos variables:
El objetivo del modelo es determinar si existe una relación lineal entre ambas variables y, de ser así, estimar dicha relación para realizar predicciones.
La ecuación general del modelo de regresión lineal simple se expresa como:
\[Y = \beta_{0} + \beta_{1} \cdot X\]
Donde:
Y: Variable dependiente o variable
respuesta.
Es el valor que se busca explicar o predecir mediante el
modelo.
X: Variable independiente o variable
predictora.
Es la variable que se utiliza para explicar o predecir los valores de
Y.
En términos simples, es la variable que creemos que influye en
el comportamiento de Y.
β₀: Intercepto.
Representa el valor esperado de Y cuando X = 0.
Es el punto donde la recta toca el eje Y.
β₁: Pendiente.
Indica cuánto cambia Y por cada unidad de aumento en X.
Si β₁ es positivo, la relación es directa; si es negativo, es
inversa.
Para que la regresión lineal funcione correctamente, se deben cumplir lo siguiente:
Con esta base teórica, se presentan las hipótesis planteadas en el trabajo, las cuales permiten aplicar cada uno de estos conceptos y entender de manera práctica cómo funcionan los modelos de regresión lineal simple.
En esta primera parte se utiliza una base de datos proveniente del sector automotriz que contiene información técnica y comercial de diferentes modelos de vehículos. Entre sus variables se incluyen características como la marca, el tipo de motor, cilindrada, estilo de carrocería, consumo de combustible, y el precio de venta.
Para el modelo de regresión lineal simple de esta primera hipótesis se seleccionan dos variables principales:
La primera hipótesis del análisis busca determinar si la
Potencia del Motor (Engine.HP) es un predictor
significativo del Precio del Vehículo (MSRP).
Para ello se desarrolla un modelo de regresión lineal
simple y se interpretan sus resultados mediante cinco pasos
fundamentales.
En este primer paso se analiza si existe una relación lineal entre la Potencia del Motor (Engine.HP) y el Precio del Vehículo (MSRP) mediante un gráfico de dispersión con línea de regresión y la correlación de Pearson.
model1 <- lm(MSRP ~ Engine.HP, data = data)
plot(
data$Engine.HP, data$MSRP,
xlab = "Potencia del Motor (HP)",
ylab = "Precio (MSRP)",
main = "Relación: Potencia vs Precio",
pch = 16,
col = rgb(0.2, 0.4, 0.8, 0.3)
)
abline(model1, col = "red", lwd = 2)
cor.test(data$MSRP, data$Engine.HP)
##
## Pearson's product-moment correlation
##
## data: data$MSRP and data$Engine.HP
## t = 96.122, df = 11843, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6517691 0.6720049
## sample estimates:
## cor
## 0.6620077
Interpretación:
En este paso se evalúa si el modelo de regresión lineal
completo es estadísticamente válido.
La Prueba F analiza si existe relación lineal entre la variable
predictora Engine.HP y la variable dependiente
MSRP.
Un modelo es válido cuando su p-value es menor que el nivel de significancia (α = 0.05), indicando que no se trata de una relación obtenida por azar.
model1 <- lm(MSRP ~ Engine.HP, data = data)
summary(model1)
##
## Call:
## lm(formula = MSRP ~ Engine.HP, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -149413 -17931 -8 13081 1750799
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -50550.6 1034.6 -48.86 <2e-16 ***
## Engine.HP 365.3 3.8 96.12 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45160 on 11843 degrees of freedom
## (69 observations deleted due to missingness)
## Multiple R-squared: 0.4383, Adjusted R-squared: 0.4382
## F-statistic: 9239 on 1 and 11843 DF, p-value: < 2.2e-16
Resultados clave:
Conclusión:
Se rechaza la hipótesis nula y se concluye que sí existe una relación lineal significativa entre la potencia del motor y el precio.
summary(model1)$r.squared
## [1] 0.4382541
El valor del R² Ajustado = 0.4382, lo cual significa que:
En la tabla de coeficientes:
Conclusión: La variable Engine.HP es un predictor significativo del precio.
Coeficientes del modelo:
summary(model1)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -50550.6320 1034.583948 -48.86083 0
## Engine.HP 365.2884 3.800248 96.12225 0
Ecuación de regresión: \[\text{MSRP} = -50550.6 + 365.3 \cdot \text{Engine.HP}\]
Interpretación de los coeficientes:
Predicción para un vehículo de 250 HP.
prediccion <- -50550.6 + 365.3 * 250
prediccion
## [1] 40774.4
Resultado: 40,774.4 Un vehículo con 250 HP tendría un precio predicho de aproximadamente $40,774.4.
El análisis demuestra que:
Por lo tanto, se concluye que la Potencia del Motor (Engine.HP) sí es un predictor significativo del Precio (MSRP).
La base de datos utilizada contiene información detallada de diamantes, incluyendo variables como precio, carat, longitud (x), anchura (y), profundidad (z), además de características de corte, color y claridad.
En esta hipótesis nos enfocaremos en analizar:
La segunda hipótesis del análisis busca determinar si el peso del diamante en quilates (carat) es un predictor significativo del Precio del diamante (price).
Para evaluarlo se desarrolla un modelo de regresión lineal simple, siguiendo los mismos cinco pasos aplicados en la primera hipótesis para interpretar su comportamiento y relevancia estadística.
En este primer paso se analiza si existe una relación lineal entre la anchura del diamante (y) y el precio (price) mediante un gráfico de dispersión con una línea de tendencia y el cálculo de la correlación de Pearson.
Este análisis inicial permite observar si, visualmente y numéricamente, estas dos variables muestran una asociación que justifique ajustar un modelo de regresión lineal simple.
plot(diamonds$y, diamonds$price,
xlab = "Anchura (y)",
ylab = "Precio (USD)",
main = "Relación entre Anchura y Precio")
abline(lm(price ~ y, data = diamonds), col = "red", lwd = 2)
cor(diamonds$y, diamonds$price)
## [1] 0.8654209
Interpretación:
Tras observar el gráfico de dispersión y calcular la correlación de Pearson, se confirma que la anchura del diamante presenta una asociación positiva y significativa con el precio.
Esto indica que, a medida que la anchura aumenta, el precio tiende a incrementarse, lo cual justifica avanzar con el análisis del modelo de regresión lineal para evaluar su validez y capacidad predictiva.
En este paso se evalúa si el modelo de regresión lineal en su conjunto es estadísticamente válido para predecir el Precio (price) a partir de la Anchura del diamante (y).
model2 <- lm(price ~ y, data = diamonds)
summary(model2)
##
## Call:
## lm(formula = price ~ y, data = diamonds)
##
## Residuals:
## Min 1Q Median 3Q Max
## -152436 -1229 -241 838 31436
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -13402.027 44.062 -304.2 <2e-16 ***
## y 3022.887 7.536 401.1 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1999 on 53938 degrees of freedom
## Multiple R-squared: 0.749, Adjusted R-squared: 0.7489
## F-statistic: 1.609e+05 on 1 and 53938 DF, p-value: < 2.2e-16
Resultados: Del modelo de regresión lineal simple que predice el precio a partir de la anchura (y), se obtienen los siguientes valores:
Conclusión: Dado que el valor p de la Prueba F es extremadamente pequeño, se concluye que el modelo de regresión lineal que utiliza la anchura del diamante (y) para predecir el precio es estadísticamente válido.
En este paso se evalúa qué tan bien el modelo de regresión lineal explica la variación del Precio (price) a partir de la Anchura del diamante (y).
Para ello se utiliza el valor de R², que indica el porcentaje de la variabilidad del precio que puede ser explicado por la anchura.
Un R² alto significa que el modelo tiene una buena capacidad predictiva; un valor bajo indica que la variable independiente apenas explica el comportamiento de la dependiente.
summary(model2)$r.squared
## [1] 0.7489533
Interpretación:
El valor obtenido para el R-cuadrado es aproximadamente 0.748, lo cual indica que:
Este porcentaje es considerado alto, especialmente tratándose de datos reales, donde suele existir ruido o variabilidad no explicada por un solo predictor.
Esto significa que la anchura es una característica física que influye fuertemente en el precio del diamante.
En este paso se evalúa si la Anchura del diamante (y) aporta significativamente al modelo de regresión lineal, es decir, si su pendiente es estadísticamente diferente de cero.
La Prueba t analiza si la variable predictora realmente tiene un efecto sobre el Precio (price).
summary(model2)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -13402.027 44.062496 -304.1595 0
## y 3022.887 7.535714 401.1415 0
Interpretación:
El coeficiente de la variable y (anchura) muestra:
Esto significa:
Por lo tanto, se rechaza la hipótesis nula y se concluye que la anchura contribuye significativamente a explicar el precio.
En este último paso se construye la ecuación del modelo de regresresión lineal simple, utilizando los coeficientes obtenidos en el análisis.
La ecuación permite predecir el Precio (price) del diamante a partir de su Anchura (y).
coef(model2)
## (Intercept) y
## -13402.027 3022.887
Los coeficientes estimados del modelo son aproximadamente:
Con estos valores, la ecuación de regresión queda: \[{\text{Precio Estimado}} = -13402.027\;+\;3022,887\;*\;\text{Anchura}\;(y)\]
Esto significa que:
El intercepto (−13,402.027) representa el precio estimado cuando la anchura es cero. Aunque este valor no es físicamente interpretable (pues un diamante no puede tener anchura cero), forma parte necesaria de la ecuación matemática que ajusta la recta de regresión.
La pendiente (3,022.887) indica que por cada 1 mm adicional de anchura, el precio del diamante aumenta en promedio 3,022.887 USD.
Este resultado confirma la existencia de una relación positiva y estadísticamente significativa entre la anchura y el precio
Ejemplo de Predicción
Para verificar el funcionamiento del modelo, se realiza una predicción utilizando un valor específico de anchura (y). Este procedimiento permite evaluar si la ecuación estimada genera valores coherentes con la lógica del fenómeno: a mayor anchura, se espera un precio predicho más alto.
A continuación, se calcula el precio estimado para un diamante con una anchura de 6 mm, que fue el valor utilizado en el ejemplo y que produjo el resultado obtenido en la salida del modelo:
anchura <- data.frame(y = 6)
predict(model2, newdata = anchura)
## 1
## 4735.298
El resultado de la predicción representa el precio estimado que tendría un diamante cuya anchura es de 6 mm, según la ecuación del modelo:
\[{\text{Precio Estimado}} = -13402.027\;+\;3022.887\;*\;6\]
El valor predicho por el modelo para un diamante con una anchura de 6 mm es aproximadamente 4,735.30 USD.
Esto significa que, según la relación estimada por el modelo de regresión lineal, un diamante con esta anchura tendría un precio esperado cercano a dicho valor. El resultado es coherente con la tendencia general del modelo: a medida que la anchura aumenta, el precio predicho también se incrementa.
El análisis demuestra que:
Es importante aclarar que:
En el dataset diamonds, la variable anchura (y) incluye valores muy pequeños, incluso registros iguales a 0 mm, los cuales no son físicamente posibles y se consideran errores de medición. Aunque un diamante real no tendría anchuras tan bajas, estos valores aparecen en el dataset y pueden afectar la calidad del modelo. Por esta razón, las predicciones del modelo solo son realistas dentro de un rango razonable de anchuras (y>4.43 mm para nuestro modelo), evitando valores extremadamente pequeños que no representan diamantes reales y podrían distorsionar los resultados.
A lo largo del trabajo se desarrollaron dos modelos de regresión lineal simple aplicados a escenarios distintos: la relación entre potencia y precio en vehículos, y la relación entre anchura y precio en diamantes. En ambos casos se observó un patrón común: existe una relación positiva en la cual el aumento de la variable explicativa (potencia o anchura) conduce a un incremento en el precio. Este comportamiento se aprecia visualmente en las gráficas de dispersión y se confirma estadísticamente mediante la significancia de los coeficientes y la validez global de cada modelo.
No obstante, se evidenció que estas ecuaciones solo generan predicciones coherentes dentro del rango de valores realmente observados, usar valores demasiado pequeños o fuera del intervalo de los datos puede conducir a estimaciones no plausibles, como precios negativos.
En conjunto, el análisis demuestra que la regresión lineal es una herramienta útil y robusta para describir tendencias y realizar predicciones, siempre que se emplee dentro de límites razonables y consistentes con el comportamiento real de los datos.
Wickham, H. (2023). ggplot2: Elegant Graphics for Data Analysis. Springer. https://ggplot2.tidyverse.org
R Core Team. (2024). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.r-project.org/
Wickham, H., & Seidel, D. (2023). diamonds dataset [Data set]. Tidyverse. https://ggplot2.tidyverse.org/reference/diamonds.html