REGRESION LINEAL
¿Qué es la Regresión Lineal Simple?
La Regresión Lineal Simple es un método estadístico
fundamental que se utiliza para modelar la relación entre dos variables
cuantitativas. Su objetivo es encontrar la mejor línea recta (una línea
de tendencia) que describa cómo una variable, llamada variable
dependiente o respuesta (\(Y\)), cambia en función de otra,
llamada variable independiente o predictora (\(X\)).
En esencia, lo que hace es responder a la pregunta: “Si conozco el
valor de \(X\), ¿cuál es el valor más
probable de \(Y\)?”. Para ello, asume
que la relación subyacente entre ambas es lineal.
Ecuación Matemática
El modelo matemático que representa esta relación se expresa de la
siguiente manera:
\(Y_i = \beta_0 + \beta_1 X_i +
\varepsilon_i\)$
Y la ecuación de la recta que ajustamos a partir de los datos
(nuestro modelo estimado) es:
\(\hat{Y}_i = b_0 + b_1 X_i\)$
(o también escrito como \(\hat{Y}_i =
\hat{\beta}_0 + \hat{\beta}_1 X_i\))
Interpretación de los Parámetros
Entender qué significa cada componente de la ecuación es crucial para
la aplicación práctica:
- \(Y_i\): Es el
valor observado de la variable dependiente para la
i-ésima observación.
- \(\hat{Y}_i\): Es
el valor estimado o predicho por el modelo para la
i-ésima observación. Es el punto que se sitúa exactamente sobre la línea
de regresión.
- \(X_i\): Es el
valor de la variable independiente para la i-ésima
observación.
- \(\beta_0\) (Beta cero) /
\(b_0\): Es el
intercepto (o constante). Representa el valor esperado
de la variable dependiente \(Y\) cuando
la variable independiente \(X\) es
igual a cero. En la gráfica, es el punto donde la recta cruza el eje
vertical (Y). A veces, en contextos agrícolas, que \(X\) sea cero no tiene sentido práctico (ej.
dosis de riego = 0), por lo que el intercepto solo sirve como punto de
anclaje matemático para la recta.
- \(\beta_1\) (Beta uno) /
\(b_1\): Es la
pendiente. Este es el parámetro más importante del
modelo. Indica la tasa de cambio media en \(Y\) por cada incremento de una unidad en
\(X\). En otras palabras:
- Si \(b_1 > 0\): La relación es
directa (al aumentar \(X\), \(Y\) tiende a aumentar).
- Si \(b_1 < 0\): La relación es
inversa (al aumentar \(X\), \(Y\) tiende a disminuir).
- La magnitud de \(b_1\) nos dice la
fuerza del cambio. Por ejemplo, si \(Y\) es el rendimiento (ton/ha) y \(X\) es la dosis de fertilizante (kg/ha), un
\(b_1 = 0.15\) significa que, por cada
kg/ha adicional de fertilizante, el rendimiento aumenta en promedio 0.15
ton/ha.
- \(\varepsilon_i\) (épsilon
i): Es el error aleatorio o
residuo. Representa la diferencia entre el valor real
observado (\(Y_i\)) y el valor predicho
por la recta (\(\hat{Y}_i\)): \[\varepsilon_i = Y_i - \hat{Y}_i\] Este
término recoge toda la variabilidad en \(Y\) que no puede ser explicada por la
relación lineal con \(X\) (debido a
errores de medición, otras variables no consideradas, o simplemente
variabilidad natural).
Ejemplo Aplicado a Ingeniería Agrícola
Contexto: Un Ingeniero Agrícola está estudiando cómo
optimizar el uso de agua en el cultivo de maíz. Sospecha que la cantidad
de agua aplicada (riego) influye directamente en el rendimiento del
cultivo (toneladas por hectárea). Para probarlo, diseña un experimento
en el que establece 10 parcelas experimentales con diferentes dosis de
riego (\(X\), en \(m^3/ha\)) y al final de la temporada mide
el rendimiento obtenido en cada una (\(Y\), en \(ton/ha\)).
Variables: * \(X\) (Independiente): Dosis de
riego (\(m^3/ha\)) * \(Y\) (Dependiente): Rendimiento del
maíz (\(ton/ha\))
Objetivo del modelo: Cuantificar la relación y
predecir el rendimiento esperado para una dosis de riego específica.
Supongamos que al procesar los datos, el software estadístico
arroja la siguiente ecuación de regresión:
\[\hat{Y} = 2.5 + 0.008 \cdot
X\]
Interpretación de los resultados:
- Intercepto (\(b_0 =
2.5\)): Según el modelo, si no se aplicara riego (\(X = 0\)), se esperaría un rendimiento de
2.5 \(ton/ha\). Esto podría
interpretarse como el rendimiento que se obtendría únicamente con el
agua de lluvia o la humedad residual del suelo.
- Pendiente (\(b_1 =
0.008\)): Este es el dato clave. Indica que por
cada \(m^3/ha\) adicional de agua de
riego, el rendimiento del maíz aumenta, en promedio, en 0.008 \(ton/ha\). Para que sea más fácil
de interpretar, podemos escalarlo:
- Un aumento de 100 \(m^3/ha\) en el
riego incrementaría el rendimiento en \(100 *
0.008 = 0.8\) \(ton/ha\).
- Un aumento de 250 \(m^3/ha\) (una
unidad de riego más común) incrementaría el rendimiento en \(250 * 0.008 = 2.0\) \(ton/ha\).
Aplicación práctica del modelo: El ingeniero ahora
puede usar este modelo para la toma de decisiones. Por ejemplo, si
quiere estimar cuál sería el rendimiento si aplica una dosis de riego de
600 \(m^3/ha\):
\[\hat{Y} = 2.5 + 0.008 * (600) = 2.5 +
4.8 = 7.3 \text{ ton/ha}\]