Regreaion lineal

¿Qué es la Regresión Lineal Simple?

La Regresión Lineal Simple es un método estadístico fundamental que se utiliza para modelar la relación entre dos variables cuantitativas. Su objetivo es encontrar la mejor línea recta (una “línea de tendencia”) que describa cómo una variable, llamada variable dependiente o respuesta (\(Y\)), cambia en función de otra, llamada variable independiente o predictora (\(X\)).

En esencia, buscamos responder preguntas como: - ¿Aumenta el rendimiento de un cultivo (\(Y\)) a medida que aumenta la dosis de fertilizante (\(X\))? - ¿Cómo se relaciona la profundidad del agua en el suelo (\(Y\)) con los días transcurridos desde el último riego (\(X\))?

La palabra “simple” se refiere a que solo utilizamos una variable predictora para explicar el comportamiento de la variable respuesta.


Ecuación Matemática (en formato LaTeX)

El modelo de regresión lineal simple se representa con la siguiente ecuación:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \]

Donde: - \(Y_i\): Es el valor de la variable dependiente para la i-ésima observación. - \(X_i\): Es el valor de la variable independiente para la i-ésima observación. - \(\beta_0\): Es el intercepto o constante. - \(\beta_1\): Es la pendiente o coeficiente de regresión. - \(\varepsilon_i\): Es el término de error o residuo. Representa la diferencia entre el valor real de \(Y_i\) y el valor que predice el modelo para ese punto (\(\beta_0 + \beta_1 X_i\)). Captura la variabilidad que no puede ser explicada por la relación lineal simple con \(X\).

Cuando estimamos esta ecuación a partir de una muestra de datos, obtenemos los estimadores de los parámetros poblacionales (\(\hat{\beta}_0\) y \(\hat{\beta}_1\)). La ecuación de regresión estimada (la que usamos para predecir) es:

\[ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i \]

Aquí, \(\hat{Y}_i\) es el valor predicho por el modelo para la observación i-ésima.


Interpretación de los Parámetros

  • \(\hat{\beta}_0\) (Intercepto): Es el valor esperado de la variable dependiente \(Y\) cuando la variable independiente \(X\) es igual a cero. En términos gráficos, es el punto donde la recta de regresión cruza el eje vertical (eje Y). Es importante notar que esta interpretación solo tiene sentido si \(X=0\) es un valor plausible dentro del contexto del estudio. Por ejemplo, si \(X\) es la dosis de un fertilizante, \(X=0\) tendría sentido (sin fertilizante), pero si \(X\) es la altura de una planta, \(X=0\) no es lógico.

  • \(\hat{\beta}_1\) (Pendiente): Es el parámetro más importante. Representa el cambio medio esperado en la variable dependiente \(Y\) por cada incremento de una unidad en la variable independiente \(X\).

    • Si \(\hat{\beta}_1 > 0\), la relación es directa (al aumentar \(X\), \(Y\) tiende a aumentar).
    • Si \(\hat{\beta}_1 < 0\), la relación es inversa (al aumentar \(X\), \(Y\) tiende a disminuir).
    • Si \(\hat{\beta}_1 \approx 0\), no existe una relación lineal significativa entre las variables.

##**Ejemplo aplicado a Ingeniería Agrícola

Contexto: Un ingeniero agrícola está evaluando la eficiencia de un nuevo fertilizante en el cultivo de maíz. Para ello, diseña un experimento en el que aplica diferentes dosis de nitrógeno (fertilizante) en parcelas de prueba y, al final de la temporada, mide la producción de grano.

  • Variable Independiente (\(X\)): Dosis de fertilizante nitrogenado (en kg/ha).
  • Variable Dependiente (\(Y\)): Rendimiento del cultivo de maíz (en toneladas por hectárea, t/ha).

Después de recolectar los datos de 10 parcelas y realizar el análisis de regresión, el ingeniero obtiene la siguiente ecuación estimada:

\[ \hat{Y} = 2.5 + 0.08 X \]

Interpretación de los resultados:

  • Intercepto (\(\hat{\beta}_0 = 2.5\)): Si no se aplicara fertilizante nitrogenado (\(X = 0\) kg/ha), el modelo predice un rendimiento base de 2.5 toneladas por hectárea. Este sería el rendimiento esperado del maíz utilizando solo la fertilidad natural del suelo.

  • Pendiente (\(\hat{\beta}_1 = 0.08\)): Por cada kilogramo adicional de nitrógeno aplicado por hectárea, se espera un aumento promedio en el rendimiento de 0.08 toneladas por hectárea. Podemos hacerlo más tangible: si se aplican 100 kg/ha adicionales de nitrógeno, el rendimiento aumentaría, en promedio, \(100 \times 0.08 = 8\) toneladas por hectárea.

Aplicación práctica y predicción: El ingeniero puede usar este modelo para la toma de decisiones. Por ejemplo, si está considerando una dosis de 150 kg/ha de nitrógeno, puede predecir el rendimiento esperado:

\[ \hat{Y} = 2.5 + 0.08 \times 150 = 2.5 + 12 = 14.5 \text{ t/ha} \]

Este modelo sencillo le permite estimar el retorno de la inversión en fertilizante y optimizar las dosis para maximizar la producción y la eficiencia económica, siempre teniendo en cuenta que el modelo es una aproximación y que existen otros factores (clima, agua, plagas) que también influyen en el rendimiento final (los cuales estarían contenidos en el término de error \(\varepsilon_i\)).