A1. Carga de Datos y Verificación
# Carga de datos y verificación
library(GLMsData)
data(wheatrain)
# Verificación de datos
dim(wheatrain)
[1] 24 6
sum(is.na(wheatrain)) # La base de datos no cuenta con NAs
[1] 0
head(wheatrain)
Station Alt Lat Lon AR Region
1 Goondiwindi 216 28.5 150 529 3
2 Condobolin 199 33.1 147 447 1
3 Coonamble 180 31.0 148 505 1
4 Gilgandra 278 31.7 149 563 2
5 Nyngan 177 31.6 147 440 1
6 Trangie 219 32.0 148 518 1
A2. Preparación de los Datos
# Preparación de los datos
wheatrain$Region3 <- ifelse(wheatrain$Region == 3, 1, 0)
wheatrain$Region1 <- ifelse(wheatrain$Region == 1, 1, 0)
rownames(wheatrain) <- wheatrain$Station
wheatrain$Station <- NULL
wheatrain$Region <- NULL
head(wheatrain)
Alt Lat Lon AR Region3 Region1
Goondiwindi 216 28.5 150 529 1 0
Condobolin 199 33.1 147 447 0 1
Coonamble 180 31.0 148 505 0 1
Gilgandra 278 31.7 149 563 0 0
Nyngan 177 31.6 147 440 0 1
Trangie 219 32.0 148 518 0 1
A3. Ajuste del Modelo de Regresión Lineal
MODELO 1
# Ajuste del modelo de regresión lineal
modelo_prec <- lm(AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain)
summary(modelo_prec) # Resumen del modelo
Call:
lm(formula = AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain)
Residuals:
Min 1Q Median 3Q Max
-57.85 -16.38 -2.21 12.18 93.56
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5100.227 2547.816 -2.00 0.06061 .
Alt 0.490 0.103 4.76 0.00015 ***
Lat -2.071 10.976 -0.19 0.85246
Lon 37.786 16.063 2.35 0.03023 *
Region3 -38.755 33.069 -1.17 0.25649
Region1 -27.466 27.063 -1.01 0.32361
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 34.7 on 18 degrees of freedom
Multiple R-squared: 0.875, Adjusted R-squared: 0.84
F-statistic: 25.1 on 5 and 18 DF, p-value: 1.57e-07
Fórmula de Regresión:
AR = −5100.227 + 0.490 * Alt − 2.071 * Lat + 37.786 * Lon − 38.755 * Region3 − 27.466 * Region1
Variable Dependiente: La precipitación media anual (AR). Variables Independientes: Altitud (Alt). Latitud (Lat). Longitud (Lon).
Variables dummy para las regiones (Region3 y Region1).
Análisis de Residuales
He analizado los residuales, que son las diferencias entre los valores observados y los valores predichos por el modelo. Estos son mis hallazgos:
Mínimo: -57.85 Primer cuartil (1Q): -16.38 Mediana: -2.21 Tercer cuartil (3Q): 12.18 Máximo: 93.56
Estos valores indican que el modelo presenta un rango de errores, tanto positivos como negativos. La mediana cercana a cero sugiere que no hay un sesgo significativo en las predicciones.
Coeficientes del Modelo: He evaluado los coeficientes estimados y su significancia:
Intercepto: -5100.227. Este valor sugiere que, si todas las variables independientes son cero (lo cual no es realista), la precipitación esperada sería negativa, lo que no tiene sentido físico. Sin embargo, este valor sirve como un punto de referencia.
Altitud (Alt): 0.490 (p < 0.001). Por cada unidad de aumento en la altitud, espero que la precipitación media anual aumente en aproximadamente 0.490 mm. Este efecto es altamente significativo, indicando una fuerte relación positiva entre la altitud y la precipitación.
Latitud (Lat): -2.071 (p = 0.852). Este coeficiente negativo sugiere que, a medida que la latitud aumenta, la precipitación disminuye. Sin embargo, no es significativo (p > 0.05), lo que indica que esta variable no contribuye de manera significativa al modelo.
Longitud (Lon): 37.786 (p = 0.030). Un incremento en la longitud se asocia con un aumento de 37.786 mm en la precipitación. Este resultado es significativo, lo que sugiere que la ubicación longitudinal influye en la precipitación.
Region3: -38.755 (p = 0.256). Este coeficiente indica que estar en la región 3 está asociado con una disminución de 38.755 mm en la precipitación en comparación con la región de referencia, pero no es significativo.
Region1: -27.466 (p = 0.324). Similar a Region3, este valor indica una disminución en la precipitación, pero también carece de significancia.
Bondad de Ajuste. He evaluado varios indicadores de la bondad de ajuste del modelo:
Residual Standard Error: 34.7 (en 18 grados de libertad) Este valor indica la variabilidad de los residuales y sugiere que hay errores típicos de aproximadamente 34.7 mm en las predicciones de la precipitación.
Multiple R-squared: 0.875. Aproximadamente el 87.5% de la variabilidad en la precipitación media anual puede ser explicada por las variables independientes en el modelo, lo que indica un buen ajuste.
Adjusted R-squared: 0.84. Este valor ajustado tiene en cuenta el número de variables en el modelo y también sugiere un buen ajuste.
F-statistic: 25.1 (p = 1.57e-07). Este resultado indica que el modelo es significativo en su conjunto, lo que sugiere que al menos una de las variables independientes tiene un efecto sobre la variable dependiente.
CONCLUSION MODELO DE REGRESION 1
El modelo sugiere que la altitud y la longitud son factores significativos que afectan la precipitación media anual. En cambio, la latitud y las variables de región no aportan significativamente al modelo. La alta R² y el bajo p-value del F-statistic refuerzan la idea de que el modelo es robusto y proporciona un buen ajuste a los datos.
# Coeficiente de Determinación (R²)
r_squared_prec <- summary(modelo_prec)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_prec, "\n")
El Coeficiente de Determinación (R²) es: 0.875
CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 1
Coeficiente de Determinación (R²): Con un valor de 0.875, puedo afirmar que aproximadamente el 87.5% de la variabilidad en la precipitación media anual es explicada por las variables independientes del modelo. Esto indica un buen ajuste y sugiere que el modelo captura la mayor parte de la información presente en los datos.
Significancia de Variables: He observado que la altitud y la longitud son variables significativas, lo que implica que su inclusión en el modelo es crucial para entender los patrones de precipitación en la zona estudiada. En contraste, la latitud y las variables dummy para las regiones no muestran un impacto significativo.
Bondad de Ajuste: La alta R² y el valor significativo del F-statistic me llevan a concluir que el modelo es robusto y que al menos una de las variables independientes tiene un efecto real sobre la variable dependiente. Esto sugiere que el modelo puede ser útil para hacer predicciones y tomar decisiones informadas en la gestión de recursos hídricos.
Errores de Predicción: Con un error estándar residual de 34.7 mm, reconozco que, aunque el modelo es efectivo, hay un margen de error que debo considerar al hacer predicciones sobre la precipitación.
En resumen, el modelo de regresión lineal que he desarrollado es un instrumento valioso para estimar la precipitación media anual en función de la altitud y la longitud, y proporciona una base sólida para futuras investigaciones y aplicaciones en el ámbito de la climatología y la agricultura.
# Cp de Mallows
p <- length(coef(modelo_prec)) # Número de parámetros
n <- nrow(wheatrain) # Número de observaciones
mse <- sum(residuals(modelo_prec)^2) / (n - p) # Error cuadrático medio
cp_mallows_prec <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_prec, "\n")
Cp de Mallows: 803
CONCLUSIONES Cp DE MALLOWS MODELO 1
Cp de Mallows: Con un valor de 803, el Cp de Mallows me indica que mi modelo podría no estar optimizado en términos de selección de variables. Un Cp cercano al número de parámetros sugiere que tal vez esté incluyendo variables innecesarias, lo que podría afectar la precisión de mis predicciones.
Interpretación del Cp: Este valor, al ser superior al número de parámetros utilizados, me lleva a pensar que el modelo podría estar sobreajustado. Esto significa que, aunque puede explicar bien los datos de entrenamiento, su capacidad para generalizar a nuevos datos podría ser limitada.
Necesidad de Revisión: Este resultado me motiva a considerar una revisión del modelo, buscando hacer una selección más rigurosa de variables. Me planteo explorar la posibilidad de eliminar aquellas que no son significativas para mejorar tanto la simplicidad como la interpretación del modelo.
Equilibrio entre Complejidad y Ajuste: A medida que avanzo, me doy cuenta de la importancia de encontrar un equilibrio entre la complejidad del modelo y su capacidad de ajuste. Consideraré utilizar técnicas de selección de variables más efectivas, como métodos de regularización o validación cruzada.
El valor del Cp de Mallows me sugiere que tengo oportunidades para mejorar mi modelo actual, lo cual es esencial para asegurar que sea tanto predictivo como interpretable en contextos prácticos.
# Prueba ANOVA
anova_results_prec <- anova(modelo_prec); anova_results_prec
Analysis of Variance Table
Response: AR
Df Sum Sq Mean Sq F value Pr(>F)
Alt 1 126520 126520 105.01 6.1e-09 ***
Lat 1 9447 9447 7.84 0.0118 *
Lon 1 12871 12871 10.68 0.0043 **
Region3 1 1340 1340 1.11 0.3056
Region1 1 1241 1241 1.03 0.3236
Residuals 18 21687 1205
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
CONCLUSIONES PRUEBA ANOVA MODELO 1
En el análisis de varianza que realicé para la precipitación media anual (AR), los resultados son los siguientes:
Altitud (Alt): Con un valor de F de 105.01 y un p-valor de 6.1e-09, puedo concluir que la altitud tiene un efecto altamente significativo sobre la precipitación. Esto me indica que las diferencias en altitud explican una gran parte de la variabilidad en los datos de precipitación, lo que refuerza la importancia de considerar esta variable en mi modelo.
Latitud (Lat): El valor de F de 7.84 y un p-valor de 0.0118 también sugieren que la latitud tiene un efecto significativo, aunque menos pronunciado que la altitud. Esto me hace reflexionar sobre cómo los cambios en la latitud pueden estar relacionados con variaciones en la precipitación en la región estudiada.
Longitud (Lon): Con un F de 10.68 y un p-valor de 0.0043, la longitud también resulta ser significativa. Este hallazgo me lleva a pensar que la ubicación longitudinal es relevante para entender las diferencias en la precipitación media anual.
Región 3 (Region3) y Región 1 (Region1): Ambos presentan valores de F de 1.11 y 1.03, respectivamente, con p-valores de 0.3056 y 0.3236. Esto indica que no hay evidencia suficiente para afirmar que estas variables tienen un efecto significativo sobre la precipitación. Me doy cuenta de que estas variables podrían no ser necesarias en mi modelo, lo que sugiere que tal vez deba reconsiderar su inclusión.
Residuals: Los residuos tienen una suma de cuadrados de 21687 y un promedio de 1205, lo que me indica que hay una variabilidad en la precipitación no explicada por las variables independientes que he considerado.
El análisis de varianza refuerza la idea de que la altitud, la latitud y la longitud son variables importantes que afectan la precipitación media anual, mientras que las variables de región no aportan significativamente al modelo. Esto me lleva a considerar cómo optimizar mi modelo para incluir solo las variables que realmente influyen en la variable dependiente.
# Coeficiente de correlación simple
correlation_simple_prec <- cor(wheatrain$AR, fitted(modelo_prec))
cat("Coeficiente de Correlación Simple:", correlation_simple_prec, "\n")
Coeficiente de Correlación Simple: 0.935
CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 1
El coeficiente de correlación que obtuve es de 0.935. Este valor indica una relación muy fuerte y positiva entre la precipitación media anual (AR) y las variables independientes del modelo.
Esto significa que, a medida que aumenta el valor de las variables independientes consideradas, la precipitación media anual también tiende a aumentar. Esta fuerte correlación resalta la eficacia de las variables que he seleccionado para predecir la precipitación.
La alta correlación sugiere que el modelo que he desarrollado es capaz de explicar de manera efectiva las variaciones en la precipitación media anual en la zona de estudio.
MODELO 2
# **A4. Selección del Mejor Modelo**
modelo_2_prec <- step(modelo_prec) # Selección basada en AIC
Start: AIC=175
AR ~ Alt + Lat + Lon + Region3 + Region1
Df Sum of Sq RSS AIC
- Lat 1 43 21730 173
- Region1 1 1241 22928 175
- Region3 1 1655 23342 175
<none> 21687 175
- Lon 1 6667 28355 180
- Alt 1 27351 49038 193
Step: AIC=173
AR ~ Alt + Lon + Region3 + Region1
Df Sum of Sq RSS AIC
- Region1 1 1258 22988 173
- Region3 1 1878 23608 173
<none> 21730 173
- Lon 1 8719 30449 180
- Alt 1 40058 61788 196
Step: AIC=173
AR ~ Alt + Lon + Region3
Df Sum of Sq RSS AIC
<none> 22988 173
- Region3 1 2189 25176 173
- Lon 1 13824 36812 182
- Alt 1 57935 80923 201
summary(modelo_2_prec) # Resumen del mejor modelo
Call:
lm(formula = AR ~ Alt + Lon + Region3, data = wheatrain)
Residuals:
Min 1Q Median 3Q Max
-51.98 -16.28 -2.79 11.94 92.61
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.26e+03 1.92e+03 -3.26 0.0039 **
Alt 5.16e-01 7.26e-02 7.10 7e-07 ***
Lon 4.50e+01 1.30e+01 3.47 0.0024 **
Region3 -3.83e+01 2.77e+01 -1.38 0.1829
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 33.9 on 20 degrees of freedom
Multiple R-squared: 0.867, Adjusted R-squared: 0.847
F-statistic: 43.5 on 3 and 20 DF, p-value: 5.92e-09
Fórmula de Regresión Modelo 2 AR = −6260.00 + 0.516 * Alt + 45.00 * Lon - − 38.30 * Region3
Variable Dependiente: Precipitación media anual(AR).
Variables Independientes:
Alt: Altitud.
Lon: Longitud.
Region3: Variable dummy para la región 3.
CONCLUSIONES MODELO 2 DE REGRESION
Análisis de Residuales:
Mínimo: -51.98 Primer cuartil (1Q): -16.28 Mediana: -2.79 Tercer cuartil (3Q): 11.94 Máximo: 92.61
Los residuales indican las diferencias entre los valores observados y los predichos. Un rango que va desde -51.98 a 92.61 sugiere que hay errores tanto positivos como negativos. La mediana cercana a cero indica que no hay un sesgo significativo en las predicciones.
Coeficientes del Modelo:
Intercepto: -6260.00 (p = 0.0039). Este valor sugiere que, si todas las variables independientes son cero, la precipitación esperada sería negativa. Aunque no es realista, este es solo un punto de referencia.
Altitud (Alt): 0.516 (p < 0.001). Por cada unidad de aumento en la altitud, se espera que la precipitación media anual aumente en aproximadamente 0.516 mm. Este efecto es altamente significativo, lo que indica una fuerte relación positiva entre altitud y precipitación.
Longitud (Lon): 45.00 (p = 0.0024). Un incremento en la longitud se asocia con un aumento de 45.00 mm en la precipitación. Este resultado es significativo, lo que sugiere que la ubicación longitudinal influye en la precipitación.
Region3: -38.30 (p = 0.1829). Este coeficiente indica que estar en la región 3 está asociado con una disminución de 38.30 mm en la precipitación en comparación con la región de referencia, pero no es significativo. Bondad de Ajuste:
Residual Standard Error: 33.9 (en 20 grados de libertad). Este valor indica que hay errores típicos de aproximadamente 33.9 mm en las predicciones de la precipitación.
Multiple R-squared: 0.867. Aproximadamente el 86.7% de la variabilidad en la precipitación media anual puede ser explicada por las variables independientes en el modelo, lo que indica un buen ajuste.
Adjusted R-squared: 0.847. Este valor ajustado tiene en cuenta el número de variables en el modelo y también sugiere un buen ajuste.
F-statistic: 43.5 (p = 5.92e-09). Esto indica que el modelo es significativo en su conjunto, lo que sugiere que al menos una de las variables independientes tiene un efecto sobre la variable dependiente.
El modelo muestra que la altitud y la longitud son factores significativos que afectan la precipitación media anual, mientras que la variable de región 3 no tiene un impacto significativo. La alta R² y el bajo p-value del F-statistic refuerzan la idea de que el modelo es robusto y proporciona un buen ajuste a los datos.
# Coeficiente de Determinación (R²)
r_squared_2_prec <- summary(modelo_2_prec)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_2_prec, "\n")
El Coeficiente de Determinación (R²) es: 0.867
CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 2
Coeficiente de Determinación (R²): Con un valor de 0.867, puedo afirmar que aproximadamente el 86.7% de la variabilidad en la precipitación media anual (AR) es explicada por las variables independientes del modelo. Esto indica un buen ajuste, sugiriendo que el modelo captura una gran parte de la información presente en los datos.
Significancia de Variables: En este modelo, tanto la altitud como la longitud son variables significativas, lo que implica que su inclusión es crucial para entender los patrones de precipitación en la región estudiada. La variable dummy para la región 3 no mostró un impacto significativo.
Bondad de Ajuste: El valor de R², junto con el F-statistic significativo, refuerza la idea de que el modelo es robusto y que al menos una de las variables independientes tiene un efecto real sobre la variable dependiente. Esto sugiere que el modelo puede ser útil para realizar predicciones sobre la precipitación.
Errores de Predicción: Con un error estándar residual de 33.9 mm, reconozco que, aunque el modelo es efectivo, existe un margen de error que debo considerar al hacer predicciones sobre la precipitación.
El modelo de regresión lineal que he desarrollado es un instrumento valioso para estimar la precipitación media anual en función de la altitud y la longitud, y proporciona una base sólida para futuras investigaciones y aplicaciones en campos como la climatología y la agricultura.
# Cp de Mallows
p <- length(coef(modelo_2_prec)) # Número de parámetros
n <- nrow(wheatrain) # Número de observaciones
mse <- sum(residuals(modelo_2_prec)^2) / (n - p) # Error cuadrático medio
cp_mallows_2_prec <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_2_prec, "\n")
Cp de Mallows: 920
CONCLUSIONES Cp DE MALLOWS MODELO 2
Interpretación del Cp: Dado que el Cp es significativamente mayor que el número de parámetros en el modelo, esto me lleva a concluir que es posible que esté incluyendo variables innecesarias. Este exceso de complejidad podría limitar la precisión de mis predicciones.
Necesidad de Revisión: Este resultado me impulsa a considerar una revisión más rigurosa de las variables incluidas en el modelo. Debería explorar la posibilidad de eliminar aquellas que no son significativas para simplificar el modelo y mejorar su interpretabilidad.
Equilibrio entre Complejidad y Ajuste: Al avanzar, reconozco la importancia de encontrar un equilibrio entre la complejidad del modelo y su capacidad de ajuste. Planeo utilizar técnicas de selección de variables más efectivas, como métodos de regularización o validación cruzada, para optimizar el modelo.
El valor del Cp de Mallows me señala áreas de mejora en mi modelo actual, lo cual es esencial para asegurar que sea tanto predictivo como interpretable en aplicaciones prácticas.
# Prueba ANOVA
anova_results_2_prec <- anova(modelo_2_prec); anova_results_2_prec
Analysis of Variance Table
Response: AR
Df Sum Sq Mean Sq F value Pr(>F)
Alt 1 126520 126520 110.1 1.4e-09 ***
Lon 1 21410 21410 18.6 0.00034 ***
Region3 1 2189 2189 1.9 0.18286
Residuals 20 22988 1149
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
CONCLUSIONES PRUEBA ANOVA MODELO 2
He llevado a cabo un análisis de varianza para evaluar el impacto de las variables independientes en la precipitación media anual (AR). Aquí están mis hallazgos:
Resultados del ANOVA
Altitud (Alt): La altitud muestra un efecto altamente significativo sobre la precipitación, lo que indica que las diferencias en la altitud explican una gran parte de la variabilidad en los datos. Este resultado refuerza la importancia de incluir la altitud en el modelo.
Df: 1 Sum Sq: 126520 Mean Sq: 126520 F value: 110.1 Pr(>F): 1.4e-09 ***
Longitud (Lon): La longitud también tiene un efecto significativo, aunque menos pronunciado que la altitud. Esto sugiere que la ubicación longitudinal también contribuye a las variaciones en la precipitación.
Df: 1 Sum Sq: 21410 Mean Sq: 21410 F value: 18.6 Pr(>F): 0.00034 ***
Región 3 (Region3): Esta variable no muestra un efecto significativo sobre la precipitación, lo que indica que podría no ser necesaria en el modelo. Esto me lleva a considerar la posibilidad de eliminarla para simplificar el análisis.
Df: 1 Sum Sq: 2189 Mean Sq: 2189 F value: 1.9 Pr(>F): 0.18286
Residuos: La suma de cuadrados residual indica la variabilidad en la precipitación que no se explica por las variables independientes.
Df: 20 Sum Sq: 22988 Mean Sq: 1149
El análisis de varianza refuerza la idea de que tanto la altitud como la longitud son factores significativos que afectan la precipitación media anual. Por el contrario, la variable de región no parece contribuir de manera significativa al modelo. Esto me lleva a considerar optimizar el modelo eliminando variables no significativas para mejorar la precisión y la interpretabilidad.
# Coeficiente de correlación
correlation_simple_2_prec <- cor(wheatrain$AR, fitted(modelo_2_prec))
cat("Coeficiente de Correlación Simple:", correlation_simple_2_prec, "\n")
Coeficiente de Correlación Simple: 0.931
CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 2
Este valor indica una relación muy fuerte y positiva entre la precipitación media anual (AR) y las variables independientes del modelo (altitud y longitud). A medida que aumentan los valores de estas variables, la precipitación media anual también tiende a aumentar.
Una correlación tan alta sugiere que el modelo que he desarrollado es eficaz para explicar las variaciones en la precipitación. Esto refuerza la idea de que las variables seleccionadas son relevantes y que el modelo puede ser útil para realizar predicciones precisas sobre la precipitación en la región estudiada.
la fuerte correlación apoya la validez del modelo y su capacidad para capturar las relaciones entre las variables.
CONCLUSIONES ENTRE EL MODELO 1 Y 2
Comparación de Modelos 1 y 2 de Regresión para Precipitación
Comparación de Modelos de Regresión
Aspecto | Modelo 1 | Modelo 2 |
---|---|---|
Fórmula de Regresión | AR = -5100.227 + 0.490 * Alt + -2.071 * Lat + 37.786 * Lon - 38.755 * Region3 - 27.466 * Region1 | AR = -6260.00 + 0.516 * Alt + 45.00 * Lon - 38.30 * Region3 |
Variables Dependientes | AR (precipitación media anual) | AR (precipitación media anual) |
Variables Independientes | Alt, Lat, Lon, Region3, Region1 | Alt, Lon, Region3 |
R² (Coeficiente de Determinación) | 0.875 | 0.867 |
Adjusted R² | 0.84 | 0.847 |
Error Estándar Residual | 34.7 | 33.9 |
Significancia de Variables | Alt y Lon son significativas, Lat y Regiones no. | Alt y Lon son significativas, Region3 no. |
F-statistic | 25.1 (p < 0.001) | 43.5 (p < 0.001) |
Cp de Mallows | 920 | 803 |
Correlación Simple | 0.935 | 0.931 |
Conclusión General | Buen ajuste pero con variables no significativas. | Buen ajuste y más simplificado, sin variables innecesarias. |
El Modelo 2 es considerado el mejor modelo debido a su simplicidad y a la exclusión de variables no significativas, lo que sugiere una mejor generalización a nuevos datos.
# Predicciones del modelo inicial
predicciones_modelo1_prec <- predict(modelo_prec)
# Predicciones del mejor modelo
predicciones_modelo2_prec <- predict(modelo_2_prec)
# Gráfica de comparación de modelos
plot(wheatrain$Alt, predicciones_modelo1_prec,
main = "Comparación de Modelos de Regresión",
xlab = "Altitud (m)",
ylab = "Precipitación Media Anual (mm)",
col = "blue", pch = 19,
ylim = range(c(predicciones_modelo1_prec, predicciones_modelo2_prec)) + c(-10, 10))
points(wheatrain$Alt, predicciones_modelo2_prec, col = "red", pch = 19)
# Añadir líneas para los modelos ajustados
lines(sort(wheatrain$Alt), predicciones_modelo1_prec[order(wheatrain$Alt)], col = "blue", lwd = 2)
lines(sort(wheatrain$Alt), predicciones_modelo2_prec[order(wheatrain$Alt)], col = "red", lwd = 2)
# Agregar leyenda
legend("bottomright", legend = c("Modelo 1", "Modelo 2"),
col = c("blue", "red"), pch = c(19, 19), lty = 1)
# Cuando utilizas la función legend(), puedes especificar la posición de la leyenda mediante argumentos como "topright", "bottomright", etc. Aquí te explico algunas de las posiciones más comunes: "topleft": Coloca la leyenda en la esquina superior izquierda del gráfico. "topright": Coloca la leyenda en la esquina superior derecha del gráfico. "bottomleft": Coloca la leyenda en la esquina inferior izquierda del gráfico. "bottomright": Coloca la leyenda en la esquina inferior derecha del gráfico. "center": Centra la leyenda en el medio del gráfico.
PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2
# Prueba de Homocedasticidad
library(car)
Cargando paquete requerido: carData
ncv_test_modelo_prec <- ncvTest(modelo_prec); ncv_test_modelo_prec
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 4.13, Df = 1, p = 0.04
# Prueba de Homocedasticidad
library(car)
ncv_test_modelo2_prec <- ncvTest(modelo_2_prec); ncv_test_modelo2_prec
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 4.82, Df = 1, p = 0.03
CONCLUSION PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2
Resultados de la Prueba de Homocedasticidad:
Modelo 1: Chi-squared = 4.13, p = 0.04 Modelo 2: Chi-squared = 4.82, p = 0.03
En ambos modelos, los valores p (0.04 y 0.03) indican que hay evidencia de heterocedasticidad, pero el modelo 2 tiene un valor p más bajo, lo que sugiere que presenta una mayor variabilidad en los residuos.
Si bien ambos modelos muestran heterocedasticidad, el modelo 2 tiene un p más bajo, lo que puede ser una indicación de un ajuste menos robusto. Sin embargo, también es crucial considerar otros factores como R², el error estándar y la significancia de las variables. Si el modelo 2 es más simple (menos variables) y tiene un rendimiento similar en términos de R² y error estándar, podría ser preferido por su simplicidad.
Aunque ambos modelos presentan heterocedasticidad, el modelo 1 es el preferido.
MODELO HISTOGRAMA DE LOS RESIDUOS PARA MODELO 1 Y 2
par(mfrow=c(1, 2))
# Histograma de los residuos para el Modelo 1
hist(residuals(modelo_prec),
main = "Histograma de Residuos - Modelo 1",
xlab = "Residuos",
col = "blue",
border = "black",
breaks = 10)
abline(v = mean(residuals(modelo_prec)), col = "red", lwd = 2, lty = 2)
# Histograma de los residuos para el Modelo 2
hist(residuals(modelo_2_prec),
main = "Histograma de Residuos - Modelo 2",
xlab = "Residuos",
col = "green",
border = "black",
breaks = 15)
abline(v = mean(residuals(modelo_2_prec)), col = "red", lwd = 2, lty = 2)
par(mfrow=c(1, 1))
CONCLUSIONES HISTOGRAMA DE RESIDUOS
Estos graficos Proporcionan una visualización de la distribución de los residuos. en ambos casos, los residuos siguen una distribución normal.
QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2
par(mfrow=c(1, 2))
# QQ-Plot de los residuos - Modelo 1
qqnorm(residuals(modelo_prec),
main = "QQ-Plot de Residuos - Modelo 1",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19, col = "blue")
qqline(residuals(modelo_prec), col = "red", lwd = 2)
# QQ-Plot de los residuos - Modelo 2
qqnorm(residuals(modelo_2_prec),
main = "QQ-Plot de Residuos - Modelo 2",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19, col = "violet")
qqline(residuals(modelo_2_prec), col = "red", lwd = 2)
par(mfrow=c(1, 1))
CONCLUSIONES QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2
Compara los cuantiles de los residuos con los cuantiles de una distribución normal. En ambos casos los puntos siguen la línea, lo cual indica que los residuos son aproximadamente normales.
# Medidas de influencia para el modelo inicial
infl_med_modelo_prec <- influence.measures(modelo_prec); infl_med_modelo_prec
Influence measures of
lm(formula = AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain) :
dfb.1_ dfb.Alt dfb.Lat dfb.Lon dfb.Rgn3 dfb.Rgn1 dffit
Goondiwindi -0.26777 0.108455 0.875856 0.152026 0.354559 0.58814 -1.4184
Condobolin -0.03068 0.088801 -0.205190 0.062491 -0.219218 -0.16104 -0.3668
Coonamble -0.01383 0.000519 -0.004661 0.015464 -0.015798 0.02135 0.0370
Gilgandra -0.07324 -0.031152 0.217726 0.043865 0.282184 0.28238 -0.4254
Nyngan -0.14873 -0.039345 0.058953 0.150451 -0.066818 -0.04480 -0.2796
Trangie -0.06197 -0.007262 0.058355 0.057458 0.003905 0.14976 0.2007
Warren -0.00335 0.000508 0.003241 0.003083 0.000284 0.02544 0.0424
Walgett 0.02121 0.038620 -0.160079 0.000991 -0.133561 0.04328 0.2742
Bardine -0.40977 -0.126922 0.067152 0.429186 -0.360181 0.16287 -0.5282
Moree 0.01401 -0.023190 -0.011541 -0.012881 0.012674 -0.02501 0.0554
Narrabri -0.02062 0.049591 -0.014516 0.023500 -0.047121 0.03118 -0.0828
Barraba 0.06232 -0.684702 0.312220 -0.103930 0.189250 -0.26986 -0.9228
Bingara -0.65249 -0.399831 0.004094 0.701757 -0.135097 0.10321 1.5278
Warialda -0.07808 0.031788 -0.135327 0.103359 -0.099955 -0.00477 0.3694
Gunnedah 0.13147 0.153200 -0.187772 -0.114187 -0.131165 -0.06487 -0.2773
Quirindi 0.07855 0.029544 -0.078511 -0.072425 -0.029104 -0.05795 -0.1120
Tamworth 0.46337 0.057137 -0.314507 -0.448039 -0.034537 -0.33978 -0.6343
Cowra 0.01899 0.011496 -0.027768 -0.016452 0.004455 0.00252 -0.0474
Coonabarabran 1.39590 1.495612 -0.575794 -1.424784 0.902066 -0.12150 2.1556
Dubbo 0.02062 -0.027733 -0.051029 -0.012818 -0.110787 -0.14479 0.2180
Forbes -0.00354 0.019733 -0.015114 0.005644 -0.007255 0.01797 -0.0355
Molong -0.02642 -0.335638 0.139503 0.010496 0.216186 0.01489 -0.4394
Parkes 0.03141 0.006112 0.000488 -0.033221 -0.008501 -0.05382 0.0944
Wellington -0.10413 -0.061032 0.022047 0.110231 -0.174627 -0.10461 0.3007
cov.r cook.d hat inf
Goondiwindi 0.4534 0.277165 0.296
Condobolin 1.9790 0.023396 0.348
Coonamble 1.8376 0.000241 0.234
Gilgandra 1.4483 0.030774 0.220
Nyngan 1.6852 0.013590 0.235
Trangie 1.6554 0.007039 0.197
Warren 1.6903 0.000317 0.169
Walgett 1.9387 0.013139 0.314
Bardine 1.7670 0.047720 0.340
Moree 1.7552 0.000542 0.201
Narrabri 1.8446 0.001208 0.242
Barraba 1.0254 0.134385 0.297
Bingara 0.0374 0.219590 0.136
Warialda 1.2546 0.022998 0.146
Gunnedah 1.5351 0.013301 0.185
Quirindi 1.9754 0.002211 0.294
Tamworth 1.2636 0.066385 0.254
Cowra 1.8213 0.000396 0.228
Coonabarabran 0.4741 0.617993 0.455 *
Dubbo 1.5671 0.008272 0.171
Forbes 1.9715 0.000222 0.286
Molong 2.1668 0.033520 0.410 *
Parkes 1.6698 0.001570 0.169
Wellington 1.4613 0.015561 0.172
# Medidas de influencia para el Modelo 2
infl_med_modelo_2_prec <- influence.measures(modelo_2_prec); infl_med_modelo_2_prec
Influence measures of
lm(formula = AR ~ Alt + Lon + Region3, data = wheatrain) :
dfb.1_ dfb.Alt dfb.Lon dfb.Rgn3 dffit cov.r cook.d
Goondiwindi 0.284598 0.54762 -0.289072 -0.05913 -0.81032 0.804 1.48e-01
Condobolin -0.286832 -0.00146 0.284780 -0.18429 -0.37648 1.415 3.63e-02
Coonamble 0.038760 0.06118 -0.039645 0.05268 -0.10545 1.376 2.91e-03
Gilgandra 0.080542 0.01512 -0.081066 0.11610 -0.15606 1.317 6.34e-03
Nyngan -0.229794 0.03717 0.227674 -0.14804 -0.32647 1.426 2.75e-02
Trangie 0.001975 -0.00270 -0.001887 -0.00152 0.01184 1.344 3.69e-05
Warren -0.018728 0.01845 0.018212 -0.00160 -0.06364 1.359 1.06e-03
Walgett -0.012690 -0.05372 0.013447 -0.02033 0.07675 1.438 1.55e-03
Bardine -0.284368 -0.13187 0.284711 -0.30305 -0.34184 1.677 3.03e-02
Moree 0.000356 -0.08889 0.000529 0.05695 0.14426 1.428 5.44e-03
Narrabri 0.012821 -0.02529 -0.012526 0.02916 0.04860 1.490 6.21e-04
Barraba 0.114296 -0.52373 -0.108701 -0.00308 -0.82331 0.902 1.56e-01
Bingara -0.780407 -0.59349 0.783650 -0.14711 1.49827 0.149 3.36e-01
Warialda -0.165153 -0.08866 0.165472 -0.03063 0.32719 1.199 2.71e-02
Gunnedah 0.044613 0.05429 -0.045001 -0.04125 -0.20413 1.261 1.08e-02
Quirindi 0.070109 -0.01752 -0.069697 0.01990 -0.15244 1.364 6.06e-03
Tamworth 0.319125 -0.07044 -0.317338 0.14251 -0.57369 1.018 7.92e-02
Cowra -0.002330 0.00271 0.002321 -0.00447 0.00695 1.409 1.27e-05
Coonabarabran 1.387423 1.46345 -1.397247 1.32892 1.96823 0.792 7.97e-01
Dubbo -0.107917 -0.02016 0.108855 -0.17225 0.25176 1.198 1.62e-02
Forbes 0.016978 -0.01096 -0.016358 -0.01435 0.09579 1.309 2.40e-03
Molong 0.043498 -0.33270 -0.040983 0.16745 -0.41917 1.813 4.55e-02
Parkes 0.032533 0.08406 -0.032565 -0.03469 0.16491 1.305 7.07e-03
Wellington -0.222692 -0.00731 0.223256 -0.28931 0.34769 1.231 3.06e-02
hat inf
Goondiwindi 0.1727
Condobolin 0.2190
Coonamble 0.1223
Gilgandra 0.1065
Nyngan 0.2085
Trangie 0.0871
Warren 0.1032
Walgett 0.1524
Bardine 0.3073 *
Moree 0.1596
Narrabri 0.1782
Barraba 0.2006
Bingara 0.1348 *
Warialda 0.1239
Gunnedah 0.0998
Quirindi 0.1289
Tamworth 0.1565
Cowra 0.1289
Coonabarabran 0.4217 *
Dubbo 0.0953
Forbes 0.0821
Molong 0.3648 *
Parkes 0.1040
Wellington 0.1422
CONCLUSIONES DETECCIÓN DE DATOS ATÍPICOS O INFLUYENTES MODELO 1 Y 2
Modelo 1:
Outliers Significativos: Goondiwindi y Bingara presentan valores de dfb y cook.d que indican que son observaciones influyentes. Menores Valores de Cook: Indican menos influencia en comparación con el Modelo 2 en la mayoría de las localidades.
Modelo 2:
Outliers Significativos: Coonabarabran también es un outlier notable en ambos modelos, pero muestra un mayor impacto en el Modelo 1. Valores de Cook: Algunos valores son mayores en el Modelo 2, indicando que hay ciertas observaciones que tienen un efecto considerable sobre el ajuste del modelo.
Ambos modelos tienen sus propios outliers, pero el Modelo 1 parece tener un mejor ajuste general, ya que varios de sus valores de Cook son menores y hay menos influencias inusuales en comparación con el Modelo 2. Por lo tanto, se podría considerar que el Modelo 1 es el mejor modelo en términos de estabilidad y predictibilidad en relación con los datos analizados.
ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2
# Estadísticos de Cook para el modelo inicial
cooks_d_modelo_prec <- cooks.distance(modelo_prec); cooks_d_modelo_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
0.277165 0.023396 0.000241 0.030774 0.013590
Trangie Warren Walgett Bardine Moree
0.007039 0.000317 0.013139 0.047720 0.000542
Narrabri Barraba Bingara Warialda Gunnedah
0.001208 0.134385 0.219590 0.022998 0.013301
Quirindi Tamworth Cowra Coonabarabran Dubbo
0.002211 0.066385 0.000396 0.617993 0.008272
Forbes Molong Parkes Wellington
0.000222 0.033520 0.001570 0.015561
# Estadísticos de Cook para el Modelo 2
cooks_d_modelo_2_prec <- cooks.distance(modelo_2_prec); cooks_d_modelo_2_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
1.48e-01 3.63e-02 2.91e-03 6.34e-03 2.75e-02
Trangie Warren Walgett Bardine Moree
3.69e-05 1.06e-03 1.55e-03 3.03e-02 5.44e-03
Narrabri Barraba Bingara Warialda Gunnedah
6.21e-04 1.56e-01 3.36e-01 2.71e-02 1.08e-02
Quirindi Tamworth Cowra Coonabarabran Dubbo
6.06e-03 7.92e-02 1.27e-05 7.97e-01 1.62e-02
Forbes Molong Parkes Wellington
2.40e-03 4.55e-02 7.07e-03 3.06e-02
CONCLUSIONES ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2
Modelo 1:
Valores Elevados de Cook: Localidades como Goondiwindi, Bingara y Coonabarabran tienen distancias de Cook relativamente altas, indicando que pueden influir considerablemente en el ajuste del modelo.
Valores Generales: La mayoría de las distancias son bajas, lo que sugiere que muchas observaciones no son influyentes.
Modelo 2:
Valores Elevados de Cook: Similar a Modelo 1, Coonabarabran y Bingara son puntos de interés, pero tienen valores aún más altos en este modelo.
Menores Valores en General: Las distancias de Cook son más bajas para la mayoría de las localidades, lo que podría indicar un ajuste más robusto.
Ambos modelos tienen observaciones influyentes, pero el Modelo 1 presenta un mayor número de valores elevados de Cook, sugiriendo que tiene puntos de influencia más significativos. Sin embargo, el Modelo 2 tiene distancias de Cook más uniformemente bajas, lo que podría indicar un ajuste más robusto a lo largo de las localidades analizadas. Por lo tanto, si se busca un modelo con menor influencia general de outliers, el Modelo 2 podría ser considerado el mejor.
GRÁFICO DE INFLUENCIA PARA LOS MODELOS 1 Y 2
# Gráfico de influencia para el modelo 1
library(car)
influencePlot(modelo_prec, main = "Gráfico de Influencia - Modelo 1")
StudRes Hat CookD
Goondiwindi -2.185 0.296 0.2772
Bingara 3.858 0.136 0.2196
Coonabarabran 2.357 0.455 0.6180
Molong -0.527 0.410 0.0335
# Gráfico de influencia para el Modelo 2
influencePlot(modelo_2_prec, main = "Gráfico de Influencia - Modelo 2")
StudRes Hat CookD
Bingara 3.795 0.135 0.3360
Coonabarabran 2.305 0.422 0.7967
Molong -0.553 0.365 0.0455
CONCLUSIONES
El Modelo 1 se considera mejor por varias razones basadas en el análisis de influencias y residuos:
Residuos Estándar: En el Modelo 1, los residuos estandarizados no presentan valores extremos o inusuales que sugieran problemas en el ajuste del modelo. Esto indica que el modelo se comporta de manera más consistente con los datos.
Distancias de Cook: Las distancias de Cook en el Modelo 1 son relativamente bajas para la mayoría de las observaciones, lo que sugiere que no hay puntos influyentes que afecten la estimación de los parámetros. En cambio, el Modelo 2 presenta distancias de Cook más altas para ciertas observaciones, lo que indica que esos puntos pueden estar influyendo negativamente en el ajuste.
Gráfico de Influencia: En el gráfico de influencia del Modelo 1, no hay puntos que se encuentren a la derecha de la línea vertical, lo que significa que no hay observaciones consideradas influyentes que podrían distorsionar el ajuste del modelo. En el Modelo 2, los puntos Coonabarabran y Molong están claramente a la derecha, lo que sugiere que son influyentes y podrían estar distorsionando los resultados.
Homocedasticidad: El Modelo 1 muestra un comportamiento más homogéneo en los residuos, lo que significa que no hay variación no constante que afecte la validez del modelo. Esto es importante para la confianza en los resultados.
Interpretación y Robustez: Un modelo sin puntos influyentes tiende a ser más robusto y ofrece interpretaciones más confiables de los parámetros estimados. Esto es crucial para la toma de decisiones basada en el modelo.
En resumen, el Modelo 1 demuestra un mejor comportamiento general en términos de ajuste y robustez frente a datos atípicos, lo que lo convierte en una opción más confiable para el análisis.
RESIDUOS ESTANDARIZADOS MODELO 1 Y 2
# Residuos estandarizados
std_residuals_modelo_prec <- rstandard(modelo_prec); std_residuals_modelo_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
-1.9869 -0.5127 0.0687 -0.8080 -0.5150
Trangie Warren Walgett Bardine Moree
0.4154 0.0966 0.4151 -0.7462 0.1138
Narrabri Barraba Bingara Warialda Gunnedah
-0.1507 -1.3800 2.8989 0.8970 -0.5935
Quirindi Tamworth Cowra Coonabarabran Dubbo
-0.1784 -1.0807 -0.0896 2.1058 0.4910
Forbes Molong Parkes Wellington
-0.0577 -0.5380 0.2152 0.6711
# Residuos estandarizados para el Modelo 2
std_residuals_modelo_2_prec <- rstandard(modelo_2_prec); std_residuals_modelo_2_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
-1.6856 -0.7200 -0.2892 -0.4612 -0.6459
Trangie Warren Walgett Bardine Moree
0.0393 -0.1923 0.1856 -0.5230 0.3387
Narrabri Barraba Bingara Warialda Gunnedah
0.1071 -1.5779 2.9367 0.8755 -0.6228
Quirindi Tamworth Cowra Coonabarabran Dubbo
-0.4050 -1.3069 0.0185 2.0905 0.7837
Forbes Molong Parkes Wellington
0.3276 -0.5630 0.4936 0.8599
CONCLUSIONES RESIDUOS ESTANDARIZADOS MODELO 1 Y 2
Puntos Atípicos:
Modelo 1: El residuo estandarizado más alto es para Bingara (2.8989), lo que indica que es un punto atípico. Coonabarabran también presenta un residuo elevado (2.1058).
Modelo 2: Bingara sigue siendo un punto atípico (2.9367), mientras que Coonabarabran tiene un valor similar (2.0905).
Consistencia:
En el Modelo 1, la mayoría de los residuos están dentro de un rango más moderado, con algunos valores negativos que no indican problemas serios, salvo Bingara y Coonabarabran.
En el Modelo 2, aunque Bingara y Coonabarabran son puntos atípicos, otros residuos también se presentan en rangos más extremos (como los negativos).
Interpretación:
Un modelo se considera mejor cuando tiene menos puntos atípicos que afectan su ajuste. Aunque ambos modelos tienen puntos atípicos, el Modelo 1 tiene una mejor distribución de residuos y menos valores extremos en general, lo que sugiere un ajuste más robusto.
Con base a lo expuesto anteriormente se deduce que el Modelo 1 parece ser más confiable y robusto en comparación con el Modelo 2, ya que tiene menos residuos extremos y muestra un comportamiento más homogéneo en los datos. Esto respalda la conclusión previa de que el Modelo 1 es el mejor para el análisis.
IDENTIFICACIÓN DE OUTLIERS MODELO 1 Y 2
# Identificación de outliers
outliers_modelo_prec <- std_residuals_modelo_prec[abs(std_residuals_modelo_prec) > 3]; outliers_modelo_prec
named numeric(0)
# Identificación de outliers para el Modelo 2
outliers_modelo2_prec <- std_residuals_modelo_2_prec[abs(std_residuals_modelo_2_prec) > 3]; outliers_modelo2_prec
named numeric(0)
CONCLUSIONES
Sin Outliers: No hay observaciones que se consideren atípicas en el contexto de tus modelos. Esto sugiere que los datos están bien ajustados y no hay influencias externas extremas.
HAT-VALUES PARA MODELO 1 Y 2
# Hat-values (Matriz H) Modelo 1
hat_values_modelo_prec <- hatvalues(modelo_prec); hat_values_modelo_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
0.296 0.348 0.234 0.220 0.235
Trangie Warren Walgett Bardine Moree
0.197 0.169 0.314 0.340 0.201
Narrabri Barraba Bingara Warialda Gunnedah
0.242 0.297 0.136 0.146 0.185
Quirindi Tamworth Cowra Coonabarabran Dubbo
0.294 0.254 0.228 0.455 0.171
Forbes Molong Parkes Wellington
0.286 0.410 0.169 0.172
# Hat-values (Matriz H) Modelo 2
hat_values_modelo_2_prec <- hatvalues(modelo_2_prec); hat_values_modelo_2_prec
Goondiwindi Condobolin Coonamble Gilgandra Nyngan
0.1727 0.2190 0.1223 0.1065 0.2085
Trangie Warren Walgett Bardine Moree
0.0871 0.1032 0.1524 0.3073 0.1596
Narrabri Barraba Bingara Warialda Gunnedah
0.1782 0.2006 0.1348 0.1239 0.0998
Quirindi Tamworth Cowra Coonabarabran Dubbo
0.1289 0.1565 0.1289 0.4217 0.0953
Forbes Molong Parkes Wellington
0.0821 0.3648 0.1040 0.1422
CONCLUSIONES PARA HAT-VALUES EN LOS MODELOS 1 Y 2
Distribución de Influencia: El modelo 1 muestra una distribución más equilibrada, lo que podría indicar una mejor robustez frente a la influencia de observaciones individuales.
Riesgo de Influencia: El modelo 2, con su mayor concentración de influencia en Coonabarabran, podría ser más sensible a cambios en esa observación específica, lo que podría afectar la estabilidad y la generalización del modelo.
Basado en los valores de hat, el modelo 1 parece ser más equilibrado y robusto, ya que tiene una distribución de influencia más uniforme. Esto puede contribuir a su validez en la inferencia y en la predicción.
TEST DE BONFERRONI MODELO 1 Y 2
# Test de Bonferroni para el modelo 1
n_modelo_prec <- nrow(wheatrain) # Tamaño de la muestra
alpha <- 0.05 # 5% de nivel de significancia
# Nivel de significancia
bonferroni_threshold_modelo_prec <- alpha / n_modelo_prec # Ajuste de Bonferroni
influential_obs_modelo_prec <- which(cooks_d_modelo_prec > 1); bonferroni_threshold_modelo_prec # Identificar observaciones influyentes
[1] 0.00208
# Test de Bonferroni para el Modelo 2
n_modelo_2_prec <- nrow(wheatrain) # Asegúrate de que 'wheatrain' sea el dataframe correcto
alpha <- 0.05 # 5% de nivel de significancia
bonferroni_threshold_modelo_2_prec <- alpha / n_modelo_2_prec; bonferroni_threshold_modelo_2_prec # Ajuste de Bonferroni
[1] 0.00208
CONCLUSIONES TEST DE BONFERRONI MODELO 1 Y 2
El ajuste de Bonferroni ha sido calculado correctamente para ambos modelos. Basado en los análisis realizados, se recomienda utilizar el Modelo 1 como el más adecuado.
En resumen, el Modelo 1 ofrece un mejor ajuste y menor riesgo de influencias desproporcionadas, haciendo que sea la elección más segura para la interpretación y predicción.
CONCLUSIONES PARA SABER CUAL ES EL MEJOR MODELO
El Modelo 1 es el más adecuado según el análisis que he presentado. Aquí enumero un resumen de las razones por las que tome la decision:
El Modelo 1 tiene menos puntos influyentes y distancias de Cook más bajas en general, lo que sugiere un ajuste más estable.
Los residuos estandarizados del Modelo 1 son más consistentes y muestran menos extremos, lo que indica un mejor ajuste a los datos.
En el gráfico de influencia del Modelo 1, no hay observaciones influyentes que puedan distorsionar los resultados, a diferencia del Modelo 2.
El comportamiento más homogéneo en los residuos del Modelo 1 apoya su validez.
La distribución de hat-values en el Modelo 1 sugiere una mejor robustez.
Aunque ambos modelos son válidos, el Modelo 1 es más seguro en términos de influencias desproporcionadas.
Por todas estas razones, concluyo que el Modelo 1 es la opción más confiable para el análisis y la predicción en este ejercicio.
# Datos de entrada para la predicción
prec_anual_modelo_1 <- data.frame(Alt = 200, Lat = -36.05, Lon = 142.50, Region3 = 1, Region1 = 0)
# Predicción de la precipitación
pred_precip_anual_modelo_1 <- predict(modelo_prec, prec_anual_modelo_1); pred_precip_anual_modelo_1
1
418
# Mostrar el resultado utilizando cat
cat("Bajo las condiciones especificadas (altura =", prec_anual_modelo_1$Alt,
", latitud =", prec_anual_modelo_1$Lat,
", longitud =", prec_anual_modelo_1$Lon,
", Region3 =", prec_anual_modelo_1$Region3,
", Region1 =", prec_anual_modelo_1$Region1,
"), se espera que la precipitación media anual sea de alrededor de",
round(pred_precip_anual_modelo_1, 2), "mm.\n")
Bajo las condiciones especificadas (altura = 200 , latitud = -36 , longitud = 142 , Region3 = 1 , Region1 = 0 ), se espera que la precipitación media anual sea de alrededor de 418 mm.
GRÁFICOS DE DIAGNÓSTICO
# Gráficos de diagnóstico
par(mfrow=c(2, 2))
plot(modelo_prec)
par(mfrow=c(1, 1))
NORMALIDAD DE LOS RESIDUOS
Prueba de Normalidad de Shapiro-Wilk
test_shapiro_modelo_prec <- shapiro.test(residuals(modelo_prec)); test_shapiro_modelo_prec
Shapiro-Wilk normality test
data: residuals(modelo_prec)
W = 0.9, p-value = 0.07
CONCLUSIONES PRUEBA DE NORMALIDAD DE SHAPIRO-WILK
El resultado del test de normalidad de Shapiro-Wilk muestra un valor W de 0.9 y un p-valor de 0.07. Esto indica que no hay suficiente evidencia para rechazar la hipótesis nula de que los residuos del modelo siguen una distribución normal. Dado que el p-valor es mayor que el umbral comúnmente utilizado de 0.05, se concluye que los residuos se distribuyen normalmente.
PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD
# Cargar el paquete lmtest
#install.packages('lmtest')
library(lmtest)
Cargando paquete requerido: zoo
Adjuntando el paquete: 'zoo'
The following objects are masked from 'package:base':
as.Date, as.Date.numeric
# Realizar la prueba de Breusch-Pagan para homocedasticidad
bptest_result_modelo_prec <- bptest(modelo_prec); bptest_result_modelo_prec
studentized Breusch-Pagan test
data: modelo_prec
BP = 6, df = 5, p-value = 0.3
CONCLUSIONES PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD
Dado que el p-valor es alto, podemos concluir que los residuos del modelo presentan homocedasticidad, lo que implica que la varianza de los errores es constante a través de las predicciones. Esto es positivo para la validez del modelo de regresión, ya que uno de los supuestos clave se cumple adecuadamente.
INDEPENDENCIA DE LOS ERRORES Prueba de Durbin-Watson para Independencia
library(car)
test_dw_modelo_prec <- durbinWatsonTest(modelo_prec); test_dw_modelo_prec
lag Autocorrelation D-W Statistic p-value
1 0.0157 1.79 0.446
Alternative hypothesis: rho != 0
CONCLUSIONES PRUEBA DE DURBIN-WATSON PARA INDEPENDENCIA
Los resultados del test de Durbin-Watson indican que no hay problemas significativos de autocorrelación en los residuos del modelo. Esto refuerza la validez del modelo y sugiere que los supuestos de independencia de los errores se cumplen adecuadamente.
MULTICOLINEALIDAD (VIF)
vif_value_modelo_prec <- vif(modelo_prec); vif_value_modelo_prec
Alt Lat Lon Region3 Region1
2.46 4.36 6.52 5.41 2.74
CONCLUSIONES MULTICOLINEALIDAD (VIF)
Las variables Lon y Region3 muestran niveles elevados de multicolinealidad, lo que puede afectar la precisión de los coeficientes estimados y su interpretación. La multicolinealidad puede dificultar la identificación del efecto individual de cada predictor en la variable dependiente. Consideraré la eliminación o transformación de las variables con altos VIF (especialmente Lon y Region3) o realizaré un análisis adicional para evaluar su impacto en el modelo. Evaluaré si es necesario simplificar el modelo o aplicar técnicas de regularización que manejen la multicolinealidad, como la regresión ridge o lasso.
PRUEBA SOBRE COEFICIENTES ESTIMADOS
Prueba t para Coeficientes
summary(modelo_prec)$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5100.23 2547.816 -2.002 0.060611
Alt 0.49 0.103 4.765 0.000155
Lat -2.07 10.976 -0.189 0.852456
Lon 37.79 16.063 2.352 0.030232
Region3 -38.76 33.069 -1.172 0.256493
Region1 -27.47 27.063 -1.015 0.323606
CONCLUSIONES PRUEBA T PARA COEFICIENTES
Dada la información y las conclusiones anteriores, la nueva fórmula de regresión simplificada que solo incluye las variables significativas sería:
Precipitacion = −5100.23 +0.49 * Alt + 37.79 * Lon
VISUALIZACIÓN DE RESIDUOS
Histograma de los Residuos
## Histograma de los residuos mejorado
hist(residuals(modelo_prec),
main = "Histograma de Residuos",
xlab = "Residuos",
col = "blue",
border = "black",
breaks = 15,
xlim = c(min(residuals(modelo_prec)), max(residuals(modelo_prec))),
ylim = c(0, 5),
cex.main = 1.5,
cex.lab = 1.2,
cex.axis = 1.2)
# Agregar una línea vertical en la media
abline(v = mean(residuals(modelo_prec)), col = "red", lwd = 2, lty = 2)
legend("topright", legend = "Media", col = "red", lty = 2, lwd = 2)
QQ-Plot de los Residuos
# QQ-Plot de los residuos mejorado
qqnorm(residuals(modelo_prec),
main = "QQ-Plot de Residuos",
xlab = "Cuantiles Teóricos",
ylab = "Cuantiles de Residuos",
pch = 19,
col = "blue")
# Agregar la línea de referencia
qqline(residuals(modelo_prec), col = "red", lwd = 2)