REGRESION LINEAL

¿Qué es la Regresión Lineal Simple?

La Regresión Lineal Simple es un método estadístico fundamental que se utiliza para modelar la relación entre dos variables cuantitativas. Su objetivo es encontrar la mejor línea recta (una línea de tendencia) que describa cómo una variable, llamada variable dependiente o respuesta (\(Y\)), cambia en función de otra, llamada variable independiente o predictora (\(X\)).

En esencia, lo que hace es responder a la pregunta: “Si conozco el valor de \(X\), ¿cuál es el valor más probable de \(Y\)?”. Para ello, asume que la relación subyacente entre ambas es lineal.

Ecuación Matemática

El modelo matemático que representa esta relación se expresa de la siguiente manera:

\(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\)$

Y la ecuación de la recta que ajustamos a partir de los datos (nuestro modelo estimado) es:

\(\hat{Y}_i = b_0 + b_1 X_i\)$

(o también escrito como \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\))

Interpretación de los Parámetros

Entender qué significa cada componente de la ecuación es crucial para la aplicación práctica:

  • \(Y_i\): Es el valor observado de la variable dependiente para la i-ésima observación.
  • \(\hat{Y}_i\): Es el valor estimado o predicho por el modelo para la i-ésima observación. Es el punto que se sitúa exactamente sobre la línea de regresión.
  • \(X_i\): Es el valor de la variable independiente para la i-ésima observación.
  • \(\beta_0\) (Beta cero) / \(b_0\): Es el intercepto (o constante). Representa el valor esperado de la variable dependiente \(Y\) cuando la variable independiente \(X\) es igual a cero. En la gráfica, es el punto donde la recta cruza el eje vertical (Y). A veces, en contextos agrícolas, que \(X\) sea cero no tiene sentido práctico (ej. dosis de riego = 0), por lo que el intercepto solo sirve como punto de anclaje matemático para la recta.
  • \(\beta_1\) (Beta uno) / \(b_1\): Es la pendiente. Este es el parámetro más importante del modelo. Indica la tasa de cambio media en \(Y\) por cada incremento de una unidad en \(X\). En otras palabras:
    • Si \(b_1 > 0\): La relación es directa (al aumentar \(X\), \(Y\) tiende a aumentar).
    • Si \(b_1 < 0\): La relación es inversa (al aumentar \(X\), \(Y\) tiende a disminuir).
    • La magnitud de \(b_1\) nos dice la fuerza del cambio. Por ejemplo, si \(Y\) es el rendimiento (ton/ha) y \(X\) es la dosis de fertilizante (kg/ha), un \(b_1 = 0.15\) significa que, por cada kg/ha adicional de fertilizante, el rendimiento aumenta en promedio 0.15 ton/ha.
  • \(\varepsilon_i\) (épsilon i): Es el error aleatorio o residuo. Representa la diferencia entre el valor real observado (\(Y_i\)) y el valor predicho por la recta (\(\hat{Y}_i\)): \[\varepsilon_i = Y_i - \hat{Y}_i\] Este término recoge toda la variabilidad en \(Y\) que no puede ser explicada por la relación lineal con \(X\) (debido a errores de medición, otras variables no consideradas, o simplemente variabilidad natural).

Ejemplo Aplicado a Ingeniería Agrícola

Contexto: Un Ingeniero Agrícola está estudiando cómo optimizar el uso de agua en el cultivo de maíz. Sospecha que la cantidad de agua aplicada (riego) influye directamente en el rendimiento del cultivo (toneladas por hectárea). Para probarlo, diseña un experimento en el que establece 10 parcelas experimentales con diferentes dosis de riego (\(X\), en \(m^3/ha\)) y al final de la temporada mide el rendimiento obtenido en cada una (\(Y\), en \(ton/ha\)).

Variables: * \(X\) (Independiente): Dosis de riego (\(m^3/ha\)) * \(Y\) (Dependiente): Rendimiento del maíz (\(ton/ha\))

Objetivo del modelo: Cuantificar la relación y predecir el rendimiento esperado para una dosis de riego específica.

Supongamos que al procesar los datos, el software estadístico arroja la siguiente ecuación de regresión:

\[\hat{Y} = 2.5 + 0.008 \cdot X\]

Interpretación de los resultados:

  1. Intercepto (\(b_0 = 2.5\)): Según el modelo, si no se aplicara riego (\(X = 0\)), se esperaría un rendimiento de 2.5 \(ton/ha\). Esto podría interpretarse como el rendimiento que se obtendría únicamente con el agua de lluvia o la humedad residual del suelo.
  2. Pendiente (\(b_1 = 0.008\)): Este es el dato clave. Indica que por cada \(m^3/ha\) adicional de agua de riego, el rendimiento del maíz aumenta, en promedio, en 0.008 \(ton/ha\). Para que sea más fácil de interpretar, podemos escalarlo:
    • Un aumento de 100 \(m^3/ha\) en el riego incrementaría el rendimiento en \(100 * 0.008 = 0.8\) \(ton/ha\).
    • Un aumento de 250 \(m^3/ha\) (una unidad de riego más común) incrementaría el rendimiento en \(250 * 0.008 = 2.0\) \(ton/ha\).

Aplicación práctica del modelo: El ingeniero ahora puede usar este modelo para la toma de decisiones. Por ejemplo, si quiere estimar cuál sería el rendimiento si aplica una dosis de riego de 600 \(m^3/ha\):

\[\hat{Y} = 2.5 + 0.008 * (600) = 2.5 + 4.8 = 7.3 \text{ ton/ha}\]