Introducción

La regresión lineal simple es una de las técnicas más fundamentales y ampliamente utilizadas en el análisis de datos y la estadística aplicada. Su capacidad para modelar relaciones entre variables y realizar predicciones basadas en datos observados la convierte en una herramienta esencial en disciplinas tan diversas como la economía, la ingeniería, las ciencias sociales y la investigación de mercados.

En este trabajo se aplican los principios de la regresión lineal simple para analizar dos conjuntos de datos distintos: uno del sector automotriz, que relaciona la potencia del motor con el precio de los vehículos, y otro del mercado de diamantes, que examina la asociación entre la anchura de un diamante y su precio. A través de estos casos, no solo se ilustra la utilidad del método, sino que también se destacan sus supuestos, limitaciones y alcance predictivo.

El trabajo está estructurado en cinco pasos clave para cada hipótesis: análisis visual y correlacional, validez del modelo mediante la prueba F, evaluación de la capacidad explicativa con el R², significancia de la variable predictora mediante la prueba t, y finalmente, la construcción de la ecuación de regresión con ejemplos de predicción.

Con este enfoque, se busca no solo validar o refutar las hipótesis planteadas, sino también ofrecer una comprensión práctica y aplicada de cómo la regresión lineal puede ser empleada para extraer perspectivas valiosos a partir de datos reales.


Fundamentos de la Regresión Lineal Simple

La regresión lineal simple es un método estadístico que permite estudiar la relación entre dos variables:

El objetivo del modelo es determinar si existe una relación lineal entre ambas variables y, de ser así, estimar dicha relación para realizar predicciones.


Ecuación del Modelo

La ecuación general del modelo de regresión lineal simple se expresa como:

\[Y = \beta_{0} + \beta_{1} \cdot X\]

Donde:

  • Y: Variable dependiente o variable respuesta.
    Es el valor que se busca explicar o predecir mediante el modelo.

  • X: Variable independiente o variable predictora.
    Es la variable que se utiliza para explicar o predecir los valores de Y.
    En términos simples, es la variable que creemos que influye en el comportamiento de Y.

  • β₀: Intercepto.
    Representa el valor esperado de Y cuando X = 0.
    Es el punto donde la recta toca el eje Y.

  • β₁: Pendiente.
    Indica cuánto cambia Y por cada unidad de aumento en X.
    Si β₁ es positivo, la relación es directa; si es negativo, es inversa.


Objetivos de la Regresión Lineal

  • Explicar cómo cambia Y en función de X
  • Verificar si la relación es estadísticamente significativa
  • Evaluar cuánto del comportamiento de Y es explicado por X
  • Predecir valores futuros de Y

Supuestos del Modelo

Para que la regresión lineal funcione correctamente, se deben cumplir lo siguiente:

  1. Linealidad: La relación entre X y Y debe ser recta.
  2. Normalidad de los errores: Los residuos deben seguir una distribución normal.
  3. Homoscedasticidad: Los errores deben tener varianza constante.
  4. Independencia: Los errores deben ser independientes entre sí.
  5. Ausencia de valores atípicos extremos: Que puedan distorsionar la estimación.

Con esta base teórica, se presentan las hipótesis planteadas en el trabajo, las cuales permiten aplicar cada uno de estos conceptos y entender de manera práctica cómo funcionan los modelos de regresión lineal simple.


Hipótesis 1: Análisis de la Relación entre la Potencia del Motor y el Precio del Vehículo

En esta primera parte se utiliza una base de datos proveniente del sector automotriz que contiene información técnica y comercial de diferentes modelos de vehículos. Entre sus variables se incluyen características como la marca, el tipo de motor, cilindrada, estilo de carrocería, consumo de combustible, y el precio de venta.

Para el modelo de regresión lineal simple de esta primera hipótesis se seleccionan dos variables principales:

¿La potencia del motor predice el precio del vehículo?

La primera hipótesis del análisis busca determinar si la Potencia del Motor (Engine.HP) es un predictor significativo del Precio del Vehículo (MSRP).
Para ello se desarrolla un modelo de regresión lineal simple y se interpretan sus resultados mediante cinco pasos fundamentales.

Paso 1: Análisis de Asociación (Visual y Correlación)

En este primer paso se analiza si existe una relación lineal entre la Potencia del Motor (Engine.HP) y el Precio del Vehículo (MSRP) mediante un gráfico de dispersión con línea de regresión y la correlación de Pearson.

Gráfico de dispersión

model1 <- lm(MSRP ~ Engine.HP, data = data)

plot(
  data$Engine.HP, data$MSRP,
  xlab = "Potencia del Motor (HP)",
  ylab = "Precio (MSRP)",
  main = "Relación: Potencia vs Precio",
  pch = 16,
  col = rgb(0.2, 0.4, 0.8, 0.3)
)

abline(model1, col = "red", lwd = 2)

cor.test(data$MSRP, data$Engine.HP)
## 
##  Pearson's product-moment correlation
## 
## data:  data$MSRP and data$Engine.HP
## t = 96.122, df = 11843, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6517691 0.6720049
## sample estimates:
##       cor 
## 0.6620077

Interpretación:

  • El coeficiente de correlación fue r = 0.6620077, lo cual indica una correlación positiva moderada–fuerte.
  • El p-value < 2.2e-16, lo que demuestra que la relación es estadísticamente significativa.
  • El gráfico muestra una tendencia lineal positiva: a mayor potencia del motor, mayor tiende a ser el precio.

Paso 2: Validez General del Modelo (Prueba F)

En este paso se evalúa si el modelo de regresión lineal completo es estadísticamente válido.
La Prueba F analiza si existe relación lineal entre la variable predictora Engine.HP y la variable dependiente MSRP.

Un modelo es válido cuando su p-value es menor que el nivel de significancia (α = 0.05), indicando que no se trata de una relación obtenida por azar.

Ejecución del modelo y prueba F

model1 <- lm(MSRP ~ Engine.HP, data = data)
summary(model1)
## 
## Call:
## lm(formula = MSRP ~ Engine.HP, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -149413  -17931      -8   13081 1750799 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -50550.6     1034.6  -48.86   <2e-16 ***
## Engine.HP      365.3        3.8   96.12   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45160 on 11843 degrees of freedom
##   (69 observations deleted due to missingness)
## Multiple R-squared:  0.4383, Adjusted R-squared:  0.4382 
## F-statistic:  9239 on 1 and 11843 DF,  p-value: < 2.2e-16

Resultados clave:

  • F = 9239, con p-value < 2.2e-16
  • Esto indica que el modelo en su conjunto es estadísticamente válido

Conclusión:

Se rechaza la hipótesis nula y se concluye que sí existe una relación lineal significativa entre la potencia del motor y el precio.

Paso 3: Capacidad Explicativa (R² Ajustado)

summary(model1)$r.squared
## [1] 0.4382541

El valor del R² Ajustado = 0.4382, lo cual significa que:

  • El modelo explica 43.82% de la variabilidad del precio del vehículo.
  • Aunque el modelo es válido, su capacidad predictiva es moderada, lo que indica que hay otros factores importantes que influyen en el precio.

Paso 4: Significancia de la Variable Predictora

En la tabla de coeficientes:

  • El coeficiente para Engine.HP tiene un p-value < 2e-16
  • Esto significa que la potencia del motor sí aporta significativamente al modelo.

Conclusión: La variable Engine.HP es un predictor significativo del precio.

Paso 5: Ecuación del Modelo y Ejemplo de Predicción

Coeficientes del modelo:

summary(model1)$coefficients
##                Estimate  Std. Error   t value Pr(>|t|)
## (Intercept) -50550.6320 1034.583948 -48.86083        0
## Engine.HP      365.2884    3.800248  96.12225        0
  • Intercepto (A) = -50550.6
  • Pendiente (B) = 365.3

Ecuación de regresión: \[\text{MSRP} = -50550.6 + 365.3 \cdot \text{Engine.HP}\]

Interpretación de los coeficientes:

  • La pendiente indica que por cada aumento de 1 HP, el precio aumenta en 365.3 unidades monetarias.
  • El intercepto no es interpretable físicamente (precio cuando HP = 0).

Predicción para un vehículo de 250 HP.

prediccion <- -50550.6 + 365.3 * 250
prediccion
## [1] 40774.4

Resultado: 40,774.4 Un vehículo con 250 HP tendría un precio predicho de aproximadamente $40,774.4.

Análisis General de la Hipótesis 1

El análisis demuestra que:

  • Existe una relación positiva y significativa entre la potencia del motor y el precio del vehículo.
  • El modelo es estadísticamente válido según la prueba F.
  • La variable Engine.HP aporta significativamente al modelo según la prueba t.
  • La ecuación obtenida permite realizar predicciones confiables, aunque la capacidad explicativa es moderada.

Por lo tanto, se concluye que la Potencia del Motor (Engine.HP) sí es un predictor significativo del Precio (MSRP).


Hipótesis 2: Relación entre el precio del diamante y su peso en quilates

La base de datos utilizada contiene información detallada de diamantes, incluyendo variables como precio, carat, longitud (x), anchura (y), profundidad (z), además de características de corte, color y claridad.

En esta hipótesis nos enfocaremos en analizar:

¿El peso en quilates predice el precio del diamante?

La segunda hipótesis del análisis busca determinar si el peso del diamante en quilates (carat) es un predictor significativo del Precio del diamante (price).

Para evaluarlo se desarrolla un modelo de regresión lineal simple, siguiendo los mismos cinco pasos aplicados en la primera hipótesis para interpretar su comportamiento y relevancia estadística.

Paso 1: Análisis de Asociación (Visual y Correlación)

En este primer paso se analiza si existe una relación lineal entre la anchura del diamante (y) y el precio (price) mediante un gráfico de dispersión con una línea de tendencia y el cálculo de la correlación de Pearson.

Este análisis inicial permite observar si, visualmente y numéricamente, estas dos variables muestran una asociación que justifique ajustar un modelo de regresión lineal simple.

plot(diamonds$y, diamonds$price,
     xlab = "Anchura (y)",
     ylab = "Precio (USD)",
     main = "Relación entre Anchura y Precio")

abline(lm(price ~ y, data = diamonds), col = "red", lwd = 2)

cor(diamonds$y, diamonds$price)
## [1] 0.8654209

Interpretación:

Tras observar el gráfico de dispersión y calcular la correlación de Pearson, se confirma que la anchura del diamante presenta una asociación positiva y significativa con el precio.

Esto indica que, a medida que la anchura aumenta, el precio tiende a incrementarse, lo cual justifica avanzar con el análisis del modelo de regresión lineal para evaluar su validez y capacidad predictiva.

Paso 2: Validez General del Modelo (Prueba F)

En este paso se evalúa si el modelo de regresión lineal en su conjunto es estadísticamente válido para predecir el Precio (price) a partir de la Anchura del diamante (y).

Modelo de regresión lineal y prueba F

model2 <- lm(price ~ y, data = diamonds)
summary(model2)
## 
## Call:
## lm(formula = price ~ y, data = diamonds)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -152436   -1229    -241     838   31436 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -13402.027     44.062  -304.2   <2e-16 ***
## y             3022.887      7.536   401.1   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1999 on 53938 degrees of freedom
## Multiple R-squared:  0.749,  Adjusted R-squared:  0.7489 
## F-statistic: 1.609e+05 on 1 and 53938 DF,  p-value: < 2.2e-16

Resultados: Del modelo de regresión lineal simple que predice el precio a partir de la anchura (y), se obtienen los siguientes valores:

  • F: 160,900
  • p-value (Prob > F): < 2.2e-16

Conclusión: Dado que el valor p de la Prueba F es extremadamente pequeño, se concluye que el modelo de regresión lineal que utiliza la anchura del diamante (y) para predecir el precio es estadísticamente válido.

Paso 3: Capacidad Explicativa del Modelo (R²)

En este paso se evalúa qué tan bien el modelo de regresión lineal explica la variación del Precio (price) a partir de la Anchura del diamante (y).

Para ello se utiliza el valor de R², que indica el porcentaje de la variabilidad del precio que puede ser explicado por la anchura.

Un R² alto significa que el modelo tiene una buena capacidad predictiva; un valor bajo indica que la variable independiente apenas explica el comportamiento de la dependiente.

Cálculo del R²

summary(model2)$r.squared
## [1] 0.7489533

Interpretación:

El valor obtenido para el R-cuadrado es aproximadamente 0.748, lo cual indica que:

  • El 74.8% de la variabilidad del precio de los diamantes es explicada por su anchura (y).

Este porcentaje es considerado alto, especialmente tratándose de datos reales, donde suele existir ruido o variabilidad no explicada por un solo predictor.

Esto significa que la anchura es una característica física que influye fuertemente en el precio del diamante.

Paso 4: Contribución de la Variable Predictora (Prueba t)

En este paso se evalúa si la Anchura del diamante (y) aporta significativamente al modelo de regresión lineal, es decir, si su pendiente es estadísticamente diferente de cero.

La Prueba t analiza si la variable predictora realmente tiene un efecto sobre el Precio (price).

Prueba t del coeficiente de la anchura

summary(model2)$coefficients
##               Estimate Std. Error   t value Pr(>|t|)
## (Intercept) -13402.027  44.062496 -304.1595        0
## y             3022.887   7.535714  401.1415        0

Interpretación:

El coeficiente de la variable y (anchura) muestra:

  • Estimación de la pendiente (β1): 3022.887
  • t-value: alrededor de 401
  • p-value: < 2e-16 (extremadamente pequeño)

Esto significa:

  • La pendiente es positiva, por lo que al aumentar la anchura, el precio del diamante tiende a aumentar.
  • El valor t es muy elevado, lo que indica una fuerte evidencia estadística.
  • El p-value es menor que cualquier nivel de significancia (0.05, 0.01, 0.001).

Por lo tanto, se rechaza la hipótesis nula y se concluye que la anchura contribuye significativamente a explicar el precio.

Paso 5: Ecuación del Modelo de Regresión Lineal

En este último paso se construye la ecuación del modelo de regresresión lineal simple, utilizando los coeficientes obtenidos en el análisis.

La ecuación permite predecir el Precio (price) del diamante a partir de su Anchura (y).

coef(model2)
## (Intercept)           y 
##  -13402.027    3022.887

Los coeficientes estimados del modelo son aproximadamente:

  • Intercepto (β₀): −13,402.027
  • Pendiente (β₁): 3,022.887

Con estos valores, la ecuación de regresión queda: \[{\text{Precio Estimado}} = -13402.027\;+\;3022,887\;*\;\text{Anchura}\;(y)\]

Esto significa que:

El intercepto (−13,402.027) representa el precio estimado cuando la anchura es cero. Aunque este valor no es físicamente interpretable (pues un diamante no puede tener anchura cero), forma parte necesaria de la ecuación matemática que ajusta la recta de regresión.

La pendiente (3,022.887) indica que por cada 1 mm adicional de anchura, el precio del diamante aumenta en promedio 3,022.887 USD.

Este resultado confirma la existencia de una relación positiva y estadísticamente significativa entre la anchura y el precio

Ejemplo de Predicción

Para verificar el funcionamiento del modelo, se realiza una predicción utilizando un valor específico de anchura (y). Este procedimiento permite evaluar si la ecuación estimada genera valores coherentes con la lógica del fenómeno: a mayor anchura, se espera un precio predicho más alto.

A continuación, se calcula el precio estimado para un diamante con una anchura de 6 mm, que fue el valor utilizado en el ejemplo y que produjo el resultado obtenido en la salida del modelo:

anchura <- data.frame(y = 6)

predict(model2, newdata = anchura)
##        1 
## 4735.298

El resultado de la predicción representa el precio estimado que tendría un diamante cuya anchura es de 6 mm, según la ecuación del modelo:

\[{\text{Precio Estimado}} = -13402.027\;+\;3022.887\;*\;6\]

El valor predicho por el modelo para un diamante con una anchura de 6 mm es aproximadamente 4,735.30 USD.

Esto significa que, según la relación estimada por el modelo de regresión lineal, un diamante con esta anchura tendría un precio esperado cercano a dicho valor. El resultado es coherente con la tendencia general del modelo: a medida que la anchura aumenta, el precio predicho también se incrementa.

Análisis General de la Hipótesis 2

El análisis demuestra que:

  • Existe una relación positiva y estadísticamente significativa entre la anchura del diamante (y) y su precio.
  • La prueba F confirma que el modelo de regresión es globalmente válido y explica una proporción relevante de la variación en el precio.
  • La variable y contribuye significativamente al modelo según la prueba t, lo que indica que su coeficiente no es igual a cero.
  • La ecuación estimada permite realizar predicciones razonables del precio, siempre que las anchuras utilizadas se encuentren dentro del rango realista observado en los datos.

Es importante aclarar que:

En el dataset diamonds, la variable anchura (y) incluye valores muy pequeños, incluso registros iguales a 0 mm, los cuales no son físicamente posibles y se consideran errores de medición. Aunque un diamante real no tendría anchuras tan bajas, estos valores aparecen en el dataset y pueden afectar la calidad del modelo. Por esta razón, las predicciones del modelo solo son realistas dentro de un rango razonable de anchuras (y>4.43 mm para nuestro modelo), evitando valores extremadamente pequeños que no representan diamantes reales y podrían distorsionar los resultados.


Conclusión:

El análisis de regresión lineal desarrollado demuestra su valor como herramienta estadística para la toma de decisiones en ingeniería industrial. Los hallazgos obtenidos proporcionan fundamentos cuantitativos para optimizar procesos organizacionales:

Aplicaciones en la industria

1. Estrategia de Precios y Costos - Modelo automotriz: MSRP = -50550.6 + 365.3 × Engine.HP - Permite establecer políticas de precios basadas en características técnicas medibles - Facilita el análisis costo-beneficio en decisiones de diseño

2. Control de Calidad y Estándares de Producto - Modelo diamantes: Precio = -13402.027 + 3022.887 × Anchura
- Proporciona criterios objetivos para clasificación y valoración - Establece especificaciones técnicas vinculadas al valor de mercado

La regresión lineal se consolida como herramienta esencial para transformar datos en decisiones estratégicas que impactan la eficiencia operacional y rentabilidad empresarial desde la perspectiva de la ingeniería industrial.

Bibliografía