REGRESION LINEAL

1.¿Qué es la Regresión Lineal Simple?

La regresión lineal simple es un método estadístico fundamental que se utiliza para modelar la relación entre dos variables continuas: * Variable dependiente (o de respuesta): Es la variable que queremos predecir o explicar. Normalmente se denota como \(Y\). * Variable independiente (o predictora): Es la variable que usamos para hacer la predicción. Normalmente se denota como \(X\).

El objetivo principal es encontrar la mejor línea recta que describa cómo cambia \(Y\) a medida que cambia \(X\). En esencia, buscamos una función lineal que minimice la distancia entre los puntos de datos reales y la línea que proponemos. Esta línea se conoce como la línea de regresión o línea de mejor ajuste.

El supuesto fundamental es que la relación entre \(X\) e \(Y\) es, al menos de forma aproximada, lineal.


2. Ecuación Matemática en Formato LaTeX

La ecuación que representa el modelo de regresión lineal simple es:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \]

Dónde: * \(Y_i\): Es el valor observado de la variable dependiente para la i-ésima observación. * \(X_i\): Es el valor de la variable independiente para la i-ésima observación. * \(\beta_0\): Es el intercepto (o término constante) de la línea. Representa el valor esperado de \(Y\) cuando \(X\) es igual a cero. * \(\beta_1\): Es la pendiente de la línea. Representa el cambio esperado en la variable dependiente \(Y\) por cada incremento de una unidad en la variable independiente \(X\). * \(\varepsilon_i\): Es el término de error (o residuo). Representa la diferencia entre el valor real observado (\(Y_i\)) y el valor que predice el modelo para esa misma observación. Captura toda la variabilidad en \(Y\) que no puede ser explicada por la relación lineal con \(X\).

En la práctica, como no conocemos los valores reales de \(\beta_0\) y \(\beta_1\), los estimamos a partir de los datos de la muestra. Estos estimados se denotan comúnmente como \(b_0\) (o \(\hat{\beta}_0\)) y \(b_1\) (o \(\hat{\beta}_1\)). La ecuación de predicción sería:

\[ \hat{Y}_i = b_0 + b_1 X_i \]

Dónde \(\hat{Y}_i\) es el valor predicho por el modelo para la i-ésima observación.


3. Interpretación de los Parámetros

  • El Intercepto (\(\beta_0\)): Su interpretación puede ser útil o no, dependiendo del contexto. Si el valor \(X=0\) está dentro del rango de los datos observados y tiene sentido físico, entonces \(\beta_0\) es el valor medio de \(Y\) en ese punto. Sin embargo, en muchos casos, \(X=0\) está fuera del rango de los datos (por ejemplo, si \(X\) es la dosis de un fertilizante que nunca es cero), entonces el intercepto solo actúa como un ajuste matemático para que la línea comience en el lugar correcto y no tiene una interpretación práctica directa.

  • La Pendiente (\(\beta_1\)): Este es el parámetro clave. Su interpretación es la siguiente: “Por cada aumento de una unidad en \(X\), se espera que \(Y\) aumente (si \(\beta_1\) es positivo) o disminuya (si \(\beta_1\) es negativo) en \(\beta_1\) unidades, en promedio.” La magnitud de \(\beta_1\) indica la fuerza de la relación: un valor absoluto grande sugiere que \(Y\) responde fuertemente a cambios en \(X\).


4. Ejemplo Aplicado a Ingeniería Agrícola

Contexto: Un ingeniero agrícola quiere estudiar la relación entre la cantidad de un fertilizante nitrogenado aplicado (en kg/ha) y el rendimiento de un cultivo de maíz (en toneladas por hectárea, t/ha).

Variables: * \(X\): Dosis de fertilizante nitrogenado (kg/ha). * \(Y\): Rendimiento del maíz (t/ha).

Procedimiento: El ingeniero diseña un experimento en el que aplica diferentes dosis de fertilizante en parcelas similares y, al final de la cosecha, mide el rendimiento. Con los datos obtenidos, realiza una regresión lineal simple y obtiene la siguiente ecuación de predicción:

\[ \hat{Y}_i = 2.5 + 0.08 X_i \]

Interpretación de los parámetros en este contexto:

  • Intercepto (\(b_0 = 2.5\)): Según el modelo, si no se aplicara fertilizante (\(X=0\)), se esperaría un rendimiento base de 2.5 toneladas por hectárea. Este es el rendimiento que se obtendría gracias a la fertilidad natural del suelo y otras condiciones de cultivo. Tiene sentido práctico en este caso.

  • Pendiente (\(b_1 = 0.08\)): Por cada kilogramo adicional de fertilizante nitrogenado aplicado por hectárea, el rendimiento del maíz aumenta, en promedio, en 0.08 toneladas por hectárea.

Aplicación práctica de la interpretación: Si un agricultor está considerando aumentar la dosis de fertilizante de 100 kg/ha a 150 kg/ha (un aumento de 50 kg/ha), el modelo predice que el rendimiento aumentaría en: \[ 50 \text{ kg/ha} \times 0.08 \frac{\text{t/ha}}{\text{kg/ha}} = 4 \text{ toneladas adicionales por hectárea.} \]

Con esta información, el ingeniero puede asesorar al agricultor sobre la rentabilidad de la inversión en fertilizante, comparando el costo del fertilizante extra con el valor del incremento en la producción.