¿Qué es la Regresión Lineal Simple?

La regresión lineal simple es un modelo estadístico que se utiliza para entender y cuantificar la relación lineal entre dos variables cuantitativas. Su objetivo principal es predecir el valor de una variable (llamada variable dependiente o respuesta) a partir del valor de otra variable (llamada variable independiente, predictora o explicativa).

La idea central es encontrar la línea recta que mejor se ajuste a un conjunto de puntos en un gráfico de dispersión. Esta línea, conocida como línea de regresión, resume la tendencia general de los datos y nos permite hacer predicciones.


Ecuación Matemática y Parámetros

La ecuación de la línea de regresión lineal simple se expresa de la siguiente manera en formato LaTeX:

\(y = \beta_0 + \beta_1 x + \varepsilon\)$

O, cuando hablamos del modelo ajustado (es decir, la línea que hemos calculado a partir de los datos), solemos escribirla como:

\(\hat{y} = b_0 + b_1 x\)

o alternativamente:

\(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\)

Interpretación de los Parámetros

  • \(y\): Es la variable dependiente o respuesta. Es la variable que queremos explicar o predecir.
  • \(x\): Es la variable independiente o predictora. Es la variable que usamos para explicar los cambios en \(y\).
  • \(\beta_0\) (o \(b_0\) / \(\hat{\beta}_0\)): Es el intercepto o término constante. Representa el valor esperado de \(y\) cuando \(x\) es igual a cero. En términos gráficos, es el punto donde la línea de regresión cruza el eje vertical (Y).
  • \(\beta_1\) (o \(b_1\) / \(\hat{\beta}_1\)): Es la pendiente de la recta. Es el parámetro más importante, ya que cuantifica la relación entre las variables. Indica el cambio esperado en la variable dependiente \(y\) por cada incremento de una unidad en la variable independiente \(x\).
    • Si \(\beta_1 > 0\), la relación es positiva (cuando \(x\) aumenta, \(y\) tiende a aumentar).
    • Si \(\beta_1 < 0\), la relación es negativa (cuando \(x\) aumenta, \(y\) tiende a disminuir).
    • Si \(\beta_1 = 0\), no existe una relación lineal entre las variables.
  • \(\varepsilon\): Es el término de error o residual. Representa la diferencia entre el valor real de \(y\) y el valor predicho por la línea de regresión (\(\hat{y}\)). Este término recoge la variabilidad que el modelo no puede explicar, ya sea por la influencia de otras variables no consideradas o por errores de medición.

Ejemplo Aplicado a Ingeniería Agrícola

Contexto: Un ingeniero agrícola quiere estudiar cómo influye la cantidad de agua de riego aplicada en el rendimiento de un cultivo de maíz.

  • Variable independiente (x): Cantidad de agua de riego (en \(m^3/ha\)).
  • Variable dependiente (y): Rendimiento del cultivo (en \(toneladas/ha\)).

El ingeniero realiza un experimento en parcelas de prueba con diferentes cantidades de riego y obtiene los siguientes datos. Al aplicar el método de regresión lineal (por ejemplo, mediante el método de mínimos cuadrados), obtiene la siguiente ecuación ajustada:

\(\hat{y} = 2.5 + 0.015x\)

Interpretación del modelo en el contexto agrícola:

  • Intercepto (\(b_0 = 2.5\)): Según el modelo, si no se aplicara nada de agua de riego (\(x = 0\)), se esperaría un rendimiento base de 2.5 toneladas por hectárea. Esto podría deberse a la humedad natural del suelo o a las precipitaciones, pero hay que tener cuidado al interpretar el intercepto si \(x=0\) no está dentro del rango de los datos observados.

  • Pendiente (\(b_1 = 0.015\)): Este es el dato clave. Indica que por cada \(m^3/ha\) adicional de agua de riego, el rendimiento del cultivo aumenta, en promedio, en 0.015 toneladas por hectárea. Si lo expresamos en kilogramos, sería un aumento de 15 kg/ha por cada \(m^3/ha\) de agua.

Aplicación práctica (Predicción):

El ingeniero quiere predecir el rendimiento esperado si aplica una cantidad de riego de \(300 \, m^3/ha\).

Simplemente sustituye el valor de \(x\) en la ecuación:

\(\hat{y} = 2.5 + 0.015 * 300\) \(\hat{y} = 2.5 + 4.5\) \(\hat{y} = 7.0\)

Por lo tanto, el modelo predice que, para una dosis de riego de \(300 \, m^3/ha\), el rendimiento esperado del cultivo de maíz será de aproximadamente 7.0 toneladas por hectárea.