REGRESIÒN LINEAL

¿Qué es la Regresión Lineal Simple?

La Regresión Lineal Simple es un método estadístico que nos permite modelar la relación entre dos variables cuantitativas:

  1. Variable dependiente (o de respuesta): Es la variable que queremos explicar o predecir. Generalmente se denota como \(Y\).
  2. Variable independiente (o predictora): Es la variable que usamos para explicar los cambios en la variable dependiente. Generalmente se denota como \(X\).

El adjetivo “simple” indica que solo trabajamos con una variable independiente para predecir la variable dependiente. “Lineal” significa que asumimos que la relación entre \(X\) e \(Y\) puede representarse mediante una línea recta.

El objetivo principal es encontrar la línea recta que mejor se ajuste a los datos observados, minimizando la distancia (el error) entre los valores reales de \(Y\) y los valores predichos por la línea. Este método de ajuste se conoce comúnmente como Mínimos Cuadrados Ordinarios (MCO).

Ecuación Matemática en LaTeX

La ecuación que representa el modelo de regresión lineal simple es:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \]

Y la ecuación de la línea de regresión estimada (la que usamos para hacer predicciones) es:

\[ \hat{Y}_i = b_0 + b_1 X_i \]

(o usando la notación con sombrero: \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\))

Interpretación de sus Parámetros

  • \(\beta_0\) (Beta cero) - Intercepto o término constante:
    • Valor real: Es un parámetro poblacional desconocido.
    • Estimador \(b_0\) o \(\hat{\beta}_0\): Es el valor estimado a partir de la muestra.
    • Interpretación: Representa el valor promedio esperado de la variable dependiente \(Y\) cuando la variable independiente \(X\) es igual a cero. En algunos contextos, esta interpretación puede no tener sentido práctico (por ejemplo, si \(X\) es el peso de un animal, no puede ser cero), pero es un punto de anclaje matemático para la línea.
  • \(\beta_1\) (Beta uno) - Pendiente:
    • Valor real: Es un parámetro poblacional desconocido.
    • Estimador \(b_1\) o \(\hat{\beta}_1\): Es el valor estimado a partir de la muestra.
    • Interpretación: Es el parámetro más importante. Indica el cambio promedio esperado en la variable dependiente \(Y\) por cada incremento de una unidad en la variable independiente \(X\).
      • Si \(b_1 > 0\), la relación es directa (aumenta \(X\), aumenta \(Y\)).
      • Si \(b_1 < 0\), la relación es inversa (aumenta \(X\), disminuye \(Y\)).
  • \(\varepsilon_i\) (épsilon i) - Término de error o residuo:
    • Representa la diferencia entre el valor real observado (\(Y_i\)) y el valor predicho por el modelo (\(\hat{Y}_i\)) para la i-ésima observación. Capta la variabilidad en \(Y\) que no puede ser explicada por la relación lineal con \(X\).

Ejemplo Aplicado a Ingeniería Agrícola

Contexto: Un ingeniero agrícola quiere determinar si existe una relación entre la cantidad de fertilizante nitrogenado aplicado (en kg/ha) y el rendimiento de un cultivo de maíz (en ton/ha). Para ello, realiza un experimento en 10 parcelas de prueba, aplicando diferentes dosis de fertilizante y midiendo el rendimiento obtenido.

  • Variable Independiente (X): Dosis de Fertilizante (kg/ha).
  • Variable Dependiente (Y): Rendimiento del Maíz (ton/ha).

Datos Hipotéticos:

Parcela Dosis Fertilizante (X) Rendimiento (Y)
1 50 3.5
2 60 4.0
3 70 5.2
4 80 5.8
5 90 6.7
6 100 7.2
7 110 8.1
8 120 8.5
9 130 9.0
10 140 9.6

Aplicación del modelo:

Al realizar el análisis de regresión lineal simple con estos datos (usando software como R, Python, Excel, etc.), se obtienen los siguientes parámetros estimados:

\[ \hat{Y}_i = 0.5 + 0.07 \cdot X_i \]

Interpretación de los parámetros en este contexto:

  1. Intercepto (\(b_0 = 0.5\)): Según el modelo, si no se aplicara fertilizante (\(X = 0\)), se esperaría un rendimiento promedio de 0.5 toneladas por hectárea. En la práctica, esto podría interpretarse como el rendimiento basal del suelo sin el aporte del fertilizante.
  2. Pendiente (\(b_1 = 0.07\)): Este es el dato clave. Indica que, según el modelo, por cada kilogramo adicional de fertilizante nitrogenado aplicado por hectárea, se espera un incremento promedio en el rendimiento del maíz de 0.07 toneladas por hectárea. En unidades más comunes, serían 70 kg adicionales de maíz por cada kg de fertilizante.

Conclusión para el Ingeniero Agrícola:

El modelo sugiere una relación positiva y lineal fuerte entre la fertilización y el rendimiento. Con esta información, el ingeniero podría: * Predecir el rendimiento para dosis de fertilizante no ensayadas (siempre dentro de un rango razonable). * Iniciar un análisis económico para encontrar la dosis óptima que maximice la ganancia, considerando el costo del fertilizante y el precio de venta del maíz. (Nota: La regresión lineal simple muestra una tendencia, pero en la realidad el rendimiento suele estabilizarse o incluso disminuir con dosis muy altas, algo que un modelo lineal no capturaría).