La regresión lineal simple es un método estadístico que modela la relación entre dos variables cuantitativas:
El objetivo es encontrar la recta que mejor se ajuste a los puntos observados, minimizando la distancia (error) entre los valores reales y los predichos. Esta recta permite: - Entender la relación entre las variables. - Realizar predicciones sobre \(Y\) para nuevos valores de \(X\).
El modelo de regresión lineal simple se expresa matemáticamente como:
Modelo poblacional (teórico): \[ Y = \beta_0 + \beta_1 X + \varepsilon \]
Modelo estimado (con datos muestrales): \[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]
O en su forma más común: \[ \hat{y} = b_0 + b_1 x \]
Donde: - \(\hat{y}\): valor estimado o predicho de la variable dependiente. - \(x\): valor de la variable independiente. - \(b_0\) o \(\hat{\beta}_0\): estimación del intercepto. - \(b_1\) o \(\hat{\beta}_1\): estimación de la pendiente. - \(\varepsilon\): error aleatorio (diferencia entre valor real y estimado).
| Parámetro | Notación | Interpretación |
|---|---|---|
| Intercepto | \(\beta_0\) | Valor esperado de \(Y\) cuando \(X = 0\). En algunos contextos puede no tener sentido práctico, pero es necesario para definir la recta. |
| Pendiente | \(\beta_1\) | Cambio promedio en \(Y\) por cada incremento de una unidad en
\(X\). • Si \(\beta_1 > 0\): relación directa (aumenta \(X\), aumenta \(Y\)). • Si \(\beta_1 < 0\): relación inversa (aumenta \(X\), disminuye \(Y\)). |
| Término de error | \(\varepsilon\) | Representa la variabilidad de \(Y\) que no es explicada por la relación lineal con \(X\). |
Un ingeniero agrícola quiere estudiar la relación entre la cantidad de fertilizante aplicado (\(X\)) y el rendimiento de un cultivo de maíz (\(Y\)), medido en toneladas por hectárea.
Se realizó un experimento con 5 parcelas, obteniendo:
| Parcela | Fertilizante (kg/ha) \(x_i\) | Rendimiento (ton/ha) \(y_i\) |
|---|---|---|
| 1 | 0 | 2.0 |
| 2 | 40 | 3.2 |
| 3 | 80 | 4.5 |
| 4 | 120 | 5.8 |
| 5 | 160 | 7.0 |
Aplicando el método de mínimos cuadrados ordinarios, se obtienen los siguientes estimadores:
Pendiente: \[ b_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \approx 0.03125 \]
Intercepto: \[ b_0 = \bar{y} - b_1\bar{x} \approx 2.0 \]
Por lo tanto, la ecuación de regresión estimada es:
\[ \boxed{\hat{y} = 2.0 + 0.03125x} \]
Pendiente (\(b_1 =
0.03125\)):
Por cada kg adicional de fertilizante por hectárea, se
espera un incremento promedio de 0.03125 toneladas por
hectárea (es decir, 31.25 kg/ha) en el rendimiento del
cultivo.
Intercepto (\(b_0 =
2.0\)):
Sin aplicación de fertilizante (\(x =
0\)), se espera un rendimiento base de 2.0
ton/ha. Esto representa la productividad natural del
suelo.
Predicción:
Si se aplican 100 kg/ha de fertilizante, el rendimiento
estimado sería: \[
\hat{y} = 2.0 + 0.03125 \times 100 = 2.0 + 3.125 = 5.125 \text{ ton/ha}
\]
Este modelo permite: - Cuantificar el impacto del fertilizante en el rendimiento. - Realizar recomendaciones técnicas sobre dosis óptimas. - Apoyar la toma de decisiones económicas comparando el costo del fertilizante con el ingreso adicional por mayor producción.
¿Te gustaría que profundice en algún aspecto en particular? Por ejemplo: - Validación de supuestos del modelo. - Cálculo del coeficiente de determinación \(R^2\). - Implementación en Python o R.