REGRESIÒN LINEAL
¿Qué es la Regresión Lineal Simple?
La Regresión Lineal Simple es un método estadístico
que nos permite modelar la relación entre dos variables
cuantitativas:
- Variable dependiente (o de respuesta): Es la
variable que queremos explicar o predecir. Generalmente se denota como
\(Y\).
- Variable independiente (o predictora): Es la
variable que usamos para explicar los cambios en la variable
dependiente. Generalmente se denota como \(X\).
El adjetivo “simple” indica que solo trabajamos con
una variable independiente para predecir la variable
dependiente. “Lineal” significa que asumimos que la relación entre \(X\) e \(Y\) puede representarse mediante una línea
recta.
El objetivo principal es encontrar la línea recta que mejor se ajuste
a los datos observados, minimizando la distancia (el error) entre los
valores reales de \(Y\) y los valores
predichos por la línea. Este método de ajuste se conoce comúnmente como
Mínimos Cuadrados Ordinarios (MCO).
Ecuación Matemática en LaTeX
La ecuación que representa el modelo de regresión lineal simple
es:
\[ Y_i = \beta_0 + \beta_1 X_i +
\varepsilon_i \]
Y la ecuación de la línea de regresión estimada (la que usamos para
hacer predicciones) es:
\[ \hat{Y}_i = b_0 + b_1 X_i \]
(o usando la notación con sombrero: \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1
X_i\))
Interpretación de sus Parámetros
- \(\beta_0\) (Beta cero) -
Intercepto o término constante:
- Valor real: Es un parámetro poblacional
desconocido.
- Estimador \(b_0\) o \(\hat{\beta}_0\): Es el valor
estimado a partir de la muestra.
- Interpretación: Representa el valor promedio
esperado de la variable dependiente \(Y\) cuando la variable independiente \(X\) es igual a cero. En algunos contextos,
esta interpretación puede no tener sentido práctico (por ejemplo, si
\(X\) es el peso de un animal, no puede
ser cero), pero es un punto de anclaje matemático para la línea.
- \(\beta_1\) (Beta uno) -
Pendiente:
- Valor real: Es un parámetro poblacional
desconocido.
- Estimador \(b_1\) o \(\hat{\beta}_1\): Es el valor
estimado a partir de la muestra.
- Interpretación: Es el parámetro más importante.
Indica el cambio promedio esperado en la variable dependiente \(Y\) por cada incremento de una unidad en la
variable independiente \(X\).
- Si \(b_1 > 0\), la relación es
directa (aumenta \(X\), aumenta \(Y\)).
- Si \(b_1 < 0\), la relación es
inversa (aumenta \(X\), disminuye \(Y\)).
- \(\varepsilon_i\) (épsilon
i) - Término de error o residuo:
- Representa la diferencia entre el valor real observado (\(Y_i\)) y el valor predicho por el modelo
(\(\hat{Y}_i\)) para la i-ésima
observación. Capta la variabilidad en \(Y\) que no puede ser explicada por la
relación lineal con \(X\).
Ejemplo Aplicado a Ingeniería Agrícola
Contexto: Un ingeniero agrícola quiere determinar si
existe una relación entre la cantidad de fertilizante
nitrogenado aplicado (en kg/ha) y el rendimiento de un
cultivo de maíz (en ton/ha). Para ello, realiza un experimento
en 10 parcelas de prueba, aplicando diferentes dosis de fertilizante y
midiendo el rendimiento obtenido.
- Variable Independiente (X): Dosis de Fertilizante
(kg/ha).
- Variable Dependiente (Y): Rendimiento del Maíz
(ton/ha).
Datos Hipotéticos:
| 1 |
50 |
3.5 |
| 2 |
60 |
4.0 |
| 3 |
70 |
5.2 |
| 4 |
80 |
5.8 |
| 5 |
90 |
6.7 |
| 6 |
100 |
7.2 |
| 7 |
110 |
8.1 |
| 8 |
120 |
8.5 |
| 9 |
130 |
9.0 |
| 10 |
140 |
9.6 |
Aplicación del modelo:
Al realizar el análisis de regresión lineal simple con estos datos
(usando software como R, Python, Excel, etc.), se obtienen los
siguientes parámetros estimados:
\[ \hat{Y}_i = 0.5 + 0.07 \cdot X_i
\]
Interpretación de los parámetros en este
contexto:
- Intercepto (\(b_0 =
0.5\)): Según el modelo, si no se aplicara fertilizante
(\(X = 0\)), se esperaría un
rendimiento promedio de 0.5 toneladas por hectárea. En la práctica, esto
podría interpretarse como el rendimiento basal del suelo sin el aporte
del fertilizante.
- Pendiente (\(b_1 =
0.07\)): Este es el dato clave. Indica que, según el
modelo, por cada kilogramo adicional de fertilizante nitrogenado
aplicado por hectárea, se espera un incremento promedio en el
rendimiento del maíz de 0.07 toneladas por hectárea. En
unidades más comunes, serían 70 kg adicionales de maíz por cada kg de
fertilizante.
Conclusión para el Ingeniero Agrícola:
El modelo sugiere una relación positiva y lineal fuerte entre la
fertilización y el rendimiento. Con esta información, el ingeniero
podría: * Predecir el rendimiento para dosis de fertilizante no
ensayadas (siempre dentro de un rango razonable). * Iniciar un análisis
económico para encontrar la dosis óptima que maximice la ganancia,
considerando el costo del fertilizante y el precio de venta del maíz.
(Nota: La regresión lineal simple muestra una tendencia, pero en la
realidad el rendimiento suele estabilizarse o incluso disminuir con
dosis muy altas, algo que un modelo lineal no capturaría).