Problema 3.20. Un estudio de precipitación anual llevado a cabo entre 1916 y 1990 en una zona de Australia rica en la producción de trigo se midió la latitud, la longitud, la altura, la precipitación media anual (AR) y la región donde se tomo la observación de la precipitación de las lluvias. Los datos se encuentran en la base de datos wheatrain.

3.20A) Ajuste el “mejor” modelo de regresión lineal para estimar la precipitación media anual en términos de las demás variables predictoras.

A1. Carga de Datos y Verificación

# Carga de datos y verificación
library(GLMsData)
data(wheatrain)

# Verificación de datos
dim(wheatrain)
[1] 24  6
sum(is.na(wheatrain))  # La base de datos no cuenta con NAs
[1] 0
head(wheatrain)
      Station Alt  Lat Lon  AR Region
1 Goondiwindi 216 28.5 150 529      3
2  Condobolin 199 33.1 147 447      1
3   Coonamble 180 31.0 148 505      1
4   Gilgandra 278 31.7 149 563      2
5      Nyngan 177 31.6 147 440      1
6     Trangie 219 32.0 148 518      1

A2. Preparación de los Datos

# Preparación de los datos
wheatrain$Region3 <- ifelse(wheatrain$Region == 3, 1, 0)
wheatrain$Region1 <- ifelse(wheatrain$Region == 1, 1, 0)
rownames(wheatrain) <- wheatrain$Station
wheatrain$Station <- NULL
wheatrain$Region <- NULL
head(wheatrain)
            Alt  Lat Lon  AR Region3 Region1
Goondiwindi 216 28.5 150 529       1       0
Condobolin  199 33.1 147 447       0       1
Coonamble   180 31.0 148 505       0       1
Gilgandra   278 31.7 149 563       0       0
Nyngan      177 31.6 147 440       0       1
Trangie     219 32.0 148 518       0       1

A3. Ajuste del Modelo de Regresión Lineal

MODELO 1

# Ajuste del modelo de regresión lineal
modelo_prec <- lm(AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain)
summary(modelo_prec)  # Resumen del modelo

Call:
lm(formula = AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain)

Residuals:
   Min     1Q Median     3Q    Max 
-57.85 -16.38  -2.21  12.18  93.56 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -5100.227   2547.816   -2.00  0.06061 .  
Alt             0.490      0.103    4.76  0.00015 ***
Lat            -2.071     10.976   -0.19  0.85246    
Lon            37.786     16.063    2.35  0.03023 *  
Region3       -38.755     33.069   -1.17  0.25649    
Region1       -27.466     27.063   -1.01  0.32361    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 34.7 on 18 degrees of freedom
Multiple R-squared:  0.875, Adjusted R-squared:  0.84 
F-statistic: 25.1 on 5 and 18 DF,  p-value: 1.57e-07

Fórmula de Regresión:

AR = −5100.227 + 0.490 * Alt − 2.071 * Lat + 37.786 * Lon − 38.755 * Region3 − 27.466 * Region1

Variable Dependiente: La precipitación media anual (AR). Variables Independientes: Altitud (Alt). Latitud (Lat). Longitud (Lon).

Variables dummy para las regiones (Region3 y Region1).

Análisis de Residuales

He analizado los residuales, que son las diferencias entre los valores observados y los valores predichos por el modelo. Estos son mis hallazgos:

Mínimo: -57.85 Primer cuartil (1Q): -16.38 Mediana: -2.21 Tercer cuartil (3Q): 12.18 Máximo: 93.56

Estos valores indican que el modelo presenta un rango de errores, tanto positivos como negativos. La mediana cercana a cero sugiere que no hay un sesgo significativo en las predicciones.

Coeficientes del Modelo: He evaluado los coeficientes estimados y su significancia:

Intercepto: -5100.227. Este valor sugiere que, si todas las variables independientes son cero (lo cual no es realista), la precipitación esperada sería negativa, lo que no tiene sentido físico. Sin embargo, este valor sirve como un punto de referencia.

Altitud (Alt): 0.490 (p < 0.001). Por cada unidad de aumento en la altitud, espero que la precipitación media anual aumente en aproximadamente 0.490 mm. Este efecto es altamente significativo, indicando una fuerte relación positiva entre la altitud y la precipitación.

Latitud (Lat): -2.071 (p = 0.852). Este coeficiente negativo sugiere que, a medida que la latitud aumenta, la precipitación disminuye. Sin embargo, no es significativo (p > 0.05), lo que indica que esta variable no contribuye de manera significativa al modelo.

Longitud (Lon): 37.786 (p = 0.030). Un incremento en la longitud se asocia con un aumento de 37.786 mm en la precipitación. Este resultado es significativo, lo que sugiere que la ubicación longitudinal influye en la precipitación.

Region3: -38.755 (p = 0.256). Este coeficiente indica que estar en la región 3 está asociado con una disminución de 38.755 mm en la precipitación en comparación con la región de referencia, pero no es significativo.

Region1: -27.466 (p = 0.324). Similar a Region3, este valor indica una disminución en la precipitación, pero también carece de significancia.

Bondad de Ajuste. He evaluado varios indicadores de la bondad de ajuste del modelo:

Residual Standard Error: 34.7 (en 18 grados de libertad) Este valor indica la variabilidad de los residuales y sugiere que hay errores típicos de aproximadamente 34.7 mm en las predicciones de la precipitación.

Multiple R-squared: 0.875. Aproximadamente el 87.5% de la variabilidad en la precipitación media anual puede ser explicada por las variables independientes en el modelo, lo que indica un buen ajuste.

Adjusted R-squared: 0.84. Este valor ajustado tiene en cuenta el número de variables en el modelo y también sugiere un buen ajuste.

F-statistic: 25.1 (p = 1.57e-07). Este resultado indica que el modelo es significativo en su conjunto, lo que sugiere que al menos una de las variables independientes tiene un efecto sobre la variable dependiente.

CONCLUSION MODELO DE REGRESION 1

El modelo sugiere que la altitud y la longitud son factores significativos que afectan la precipitación media anual. En cambio, la latitud y las variables de región no aportan significativamente al modelo. La alta R² y el bajo p-value del F-statistic refuerzan la idea de que el modelo es robusto y proporciona un buen ajuste a los datos.

# Coeficiente de Determinación (R²)
r_squared_prec <- summary(modelo_prec)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_prec, "\n")
El Coeficiente de Determinación (R²) es: 0.875 

CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 1

Coeficiente de Determinación (R²): Con un valor de 0.875, puedo afirmar que aproximadamente el 87.5% de la variabilidad en la precipitación media anual es explicada por las variables independientes del modelo. Esto indica un buen ajuste y sugiere que el modelo captura la mayor parte de la información presente en los datos.

Significancia de Variables: He observado que la altitud y la longitud son variables significativas, lo que implica que su inclusión en el modelo es crucial para entender los patrones de precipitación en la zona estudiada. En contraste, la latitud y las variables dummy para las regiones no muestran un impacto significativo.

Bondad de Ajuste: La alta R² y el valor significativo del F-statistic me llevan a concluir que el modelo es robusto y que al menos una de las variables independientes tiene un efecto real sobre la variable dependiente. Esto sugiere que el modelo puede ser útil para hacer predicciones y tomar decisiones informadas en la gestión de recursos hídricos.

Errores de Predicción: Con un error estándar residual de 34.7 mm, reconozco que, aunque el modelo es efectivo, hay un margen de error que debo considerar al hacer predicciones sobre la precipitación.

En resumen, el modelo de regresión lineal que he desarrollado es un instrumento valioso para estimar la precipitación media anual en función de la altitud y la longitud, y proporciona una base sólida para futuras investigaciones y aplicaciones en el ámbito de la climatología y la agricultura.

# Cp de Mallows
p <- length(coef(modelo_prec))  # Número de parámetros
n <- nrow(wheatrain)  # Número de observaciones
mse <- sum(residuals(modelo_prec)^2) / (n - p)  # Error cuadrático medio
cp_mallows_prec <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_prec, "\n")
Cp de Mallows: 803 

CONCLUSIONES Cp DE MALLOWS MODELO 1

Cp de Mallows: Con un valor de 803, el Cp de Mallows me indica que mi modelo podría no estar optimizado en términos de selección de variables. Un Cp cercano al número de parámetros sugiere que tal vez esté incluyendo variables innecesarias, lo que podría afectar la precisión de mis predicciones.

Interpretación del Cp: Este valor, al ser superior al número de parámetros utilizados, me lleva a pensar que el modelo podría estar sobreajustado. Esto significa que, aunque puede explicar bien los datos de entrenamiento, su capacidad para generalizar a nuevos datos podría ser limitada.

Necesidad de Revisión: Este resultado me motiva a considerar una revisión del modelo, buscando hacer una selección más rigurosa de variables. Me planteo explorar la posibilidad de eliminar aquellas que no son significativas para mejorar tanto la simplicidad como la interpretación del modelo.

Equilibrio entre Complejidad y Ajuste: A medida que avanzo, me doy cuenta de la importancia de encontrar un equilibrio entre la complejidad del modelo y su capacidad de ajuste. Consideraré utilizar técnicas de selección de variables más efectivas, como métodos de regularización o validación cruzada.

El valor del Cp de Mallows me sugiere que tengo oportunidades para mejorar mi modelo actual, lo cual es esencial para asegurar que sea tanto predictivo como interpretable en contextos prácticos.

# Prueba ANOVA
anova_results_prec <- anova(modelo_prec); anova_results_prec
Analysis of Variance Table

Response: AR
          Df Sum Sq Mean Sq F value  Pr(>F)    
Alt        1 126520  126520  105.01 6.1e-09 ***
Lat        1   9447    9447    7.84  0.0118 *  
Lon        1  12871   12871   10.68  0.0043 ** 
Region3    1   1340    1340    1.11  0.3056    
Region1    1   1241    1241    1.03  0.3236    
Residuals 18  21687    1205                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

CONCLUSIONES PRUEBA ANOVA MODELO 1

En el análisis de varianza que realicé para la precipitación media anual (AR), los resultados son los siguientes:

Altitud (Alt): Con un valor de F de 105.01 y un p-valor de 6.1e-09, puedo concluir que la altitud tiene un efecto altamente significativo sobre la precipitación. Esto me indica que las diferencias en altitud explican una gran parte de la variabilidad en los datos de precipitación, lo que refuerza la importancia de considerar esta variable en mi modelo.

Latitud (Lat): El valor de F de 7.84 y un p-valor de 0.0118 también sugieren que la latitud tiene un efecto significativo, aunque menos pronunciado que la altitud. Esto me hace reflexionar sobre cómo los cambios en la latitud pueden estar relacionados con variaciones en la precipitación en la región estudiada.

Longitud (Lon): Con un F de 10.68 y un p-valor de 0.0043, la longitud también resulta ser significativa. Este hallazgo me lleva a pensar que la ubicación longitudinal es relevante para entender las diferencias en la precipitación media anual.

Región 3 (Region3) y Región 1 (Region1): Ambos presentan valores de F de 1.11 y 1.03, respectivamente, con p-valores de 0.3056 y 0.3236. Esto indica que no hay evidencia suficiente para afirmar que estas variables tienen un efecto significativo sobre la precipitación. Me doy cuenta de que estas variables podrían no ser necesarias en mi modelo, lo que sugiere que tal vez deba reconsiderar su inclusión.

Residuals: Los residuos tienen una suma de cuadrados de 21687 y un promedio de 1205, lo que me indica que hay una variabilidad en la precipitación no explicada por las variables independientes que he considerado.

El análisis de varianza refuerza la idea de que la altitud, la latitud y la longitud son variables importantes que afectan la precipitación media anual, mientras que las variables de región no aportan significativamente al modelo. Esto me lleva a considerar cómo optimizar mi modelo para incluir solo las variables que realmente influyen en la variable dependiente.

# Coeficiente de correlación simple
correlation_simple_prec <- cor(wheatrain$AR, fitted(modelo_prec))
cat("Coeficiente de Correlación Simple:", correlation_simple_prec, "\n")
Coeficiente de Correlación Simple: 0.935 

CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 1

El coeficiente de correlación que obtuve es de 0.935. Este valor indica una relación muy fuerte y positiva entre la precipitación media anual (AR) y las variables independientes del modelo.

Esto significa que, a medida que aumenta el valor de las variables independientes consideradas, la precipitación media anual también tiende a aumentar. Esta fuerte correlación resalta la eficacia de las variables que he seleccionado para predecir la precipitación.

La alta correlación sugiere que el modelo que he desarrollado es capaz de explicar de manera efectiva las variaciones en la precipitación media anual en la zona de estudio.

MODELO 2

# **A4. Selección del Mejor Modelo**
modelo_2_prec <- step(modelo_prec)  # Selección basada en AIC
Start:  AIC=175
AR ~ Alt + Lat + Lon + Region3 + Region1

          Df Sum of Sq   RSS AIC
- Lat      1        43 21730 173
- Region1  1      1241 22928 175
- Region3  1      1655 23342 175
<none>                 21687 175
- Lon      1      6667 28355 180
- Alt      1     27351 49038 193

Step:  AIC=173
AR ~ Alt + Lon + Region3 + Region1

          Df Sum of Sq   RSS AIC
- Region1  1      1258 22988 173
- Region3  1      1878 23608 173
<none>                 21730 173
- Lon      1      8719 30449 180
- Alt      1     40058 61788 196

Step:  AIC=173
AR ~ Alt + Lon + Region3

          Df Sum of Sq   RSS AIC
<none>                 22988 173
- Region3  1      2189 25176 173
- Lon      1     13824 36812 182
- Alt      1     57935 80923 201
summary(modelo_2_prec)  # Resumen del mejor modelo

Call:
lm(formula = AR ~ Alt + Lon + Region3, data = wheatrain)

Residuals:
   Min     1Q Median     3Q    Max 
-51.98 -16.28  -2.79  11.94  92.61 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -6.26e+03   1.92e+03   -3.26   0.0039 ** 
Alt          5.16e-01   7.26e-02    7.10    7e-07 ***
Lon          4.50e+01   1.30e+01    3.47   0.0024 ** 
Region3     -3.83e+01   2.77e+01   -1.38   0.1829    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 33.9 on 20 degrees of freedom
Multiple R-squared:  0.867, Adjusted R-squared:  0.847 
F-statistic: 43.5 on 3 and 20 DF,  p-value: 5.92e-09

Fórmula de Regresión Modelo 2 AR = −6260.00 + 0.516 * Alt + 45.00 * Lon - − 38.30 * Region3

Variable Dependiente: Precipitación media anual(AR).

Variables Independientes:

Alt: Altitud.

Lon: Longitud.

Region3: Variable dummy para la región 3.

CONCLUSIONES MODELO 2 DE REGRESION

Análisis de Residuales:

Mínimo: -51.98 Primer cuartil (1Q): -16.28 Mediana: -2.79 Tercer cuartil (3Q): 11.94 Máximo: 92.61

Los residuales indican las diferencias entre los valores observados y los predichos. Un rango que va desde -51.98 a 92.61 sugiere que hay errores tanto positivos como negativos. La mediana cercana a cero indica que no hay un sesgo significativo en las predicciones.

Coeficientes del Modelo:

Intercepto: -6260.00 (p = 0.0039). Este valor sugiere que, si todas las variables independientes son cero, la precipitación esperada sería negativa. Aunque no es realista, este es solo un punto de referencia.

Altitud (Alt): 0.516 (p < 0.001). Por cada unidad de aumento en la altitud, se espera que la precipitación media anual aumente en aproximadamente 0.516 mm. Este efecto es altamente significativo, lo que indica una fuerte relación positiva entre altitud y precipitación.

Longitud (Lon): 45.00 (p = 0.0024). Un incremento en la longitud se asocia con un aumento de 45.00 mm en la precipitación. Este resultado es significativo, lo que sugiere que la ubicación longitudinal influye en la precipitación.

Region3: -38.30 (p = 0.1829). Este coeficiente indica que estar en la región 3 está asociado con una disminución de 38.30 mm en la precipitación en comparación con la región de referencia, pero no es significativo. Bondad de Ajuste:

Residual Standard Error: 33.9 (en 20 grados de libertad). Este valor indica que hay errores típicos de aproximadamente 33.9 mm en las predicciones de la precipitación.

Multiple R-squared: 0.867. Aproximadamente el 86.7% de la variabilidad en la precipitación media anual puede ser explicada por las variables independientes en el modelo, lo que indica un buen ajuste.

Adjusted R-squared: 0.847. Este valor ajustado tiene en cuenta el número de variables en el modelo y también sugiere un buen ajuste.

F-statistic: 43.5 (p = 5.92e-09). Esto indica que el modelo es significativo en su conjunto, lo que sugiere que al menos una de las variables independientes tiene un efecto sobre la variable dependiente.

El modelo muestra que la altitud y la longitud son factores significativos que afectan la precipitación media anual, mientras que la variable de región 3 no tiene un impacto significativo. La alta R² y el bajo p-value del F-statistic refuerzan la idea de que el modelo es robusto y proporciona un buen ajuste a los datos.

# Coeficiente de Determinación (R²)
r_squared_2_prec <- summary(modelo_2_prec)$r.squared
cat("El Coeficiente de Determinación (R²) es:", r_squared_2_prec, "\n")
El Coeficiente de Determinación (R²) es: 0.867 

CONCLUSIONES COEFICIENTE DE DETERMINACION MODELO 2

Coeficiente de Determinación (R²): Con un valor de 0.867, puedo afirmar que aproximadamente el 86.7% de la variabilidad en la precipitación media anual (AR) es explicada por las variables independientes del modelo. Esto indica un buen ajuste, sugiriendo que el modelo captura una gran parte de la información presente en los datos.

Significancia de Variables: En este modelo, tanto la altitud como la longitud son variables significativas, lo que implica que su inclusión es crucial para entender los patrones de precipitación en la región estudiada. La variable dummy para la región 3 no mostró un impacto significativo.

Bondad de Ajuste: El valor de R², junto con el F-statistic significativo, refuerza la idea de que el modelo es robusto y que al menos una de las variables independientes tiene un efecto real sobre la variable dependiente. Esto sugiere que el modelo puede ser útil para realizar predicciones sobre la precipitación.

Errores de Predicción: Con un error estándar residual de 33.9 mm, reconozco que, aunque el modelo es efectivo, existe un margen de error que debo considerar al hacer predicciones sobre la precipitación.

El modelo de regresión lineal que he desarrollado es un instrumento valioso para estimar la precipitación media anual en función de la altitud y la longitud, y proporciona una base sólida para futuras investigaciones y aplicaciones en campos como la climatología y la agricultura.

# Cp de Mallows
p <- length(coef(modelo_2_prec))  # Número de parámetros
n <- nrow(wheatrain)  # Número de observaciones
mse <- sum(residuals(modelo_2_prec)^2) / (n - p)  # Error cuadrático medio
cp_mallows_2_prec <- (mse * (n - 2 * p)) / (n - p)
cat("Cp de Mallows:", cp_mallows_2_prec, "\n")
Cp de Mallows: 920 

CONCLUSIONES Cp DE MALLOWS MODELO 2

Interpretación del Cp: Dado que el Cp es significativamente mayor que el número de parámetros en el modelo, esto me lleva a concluir que es posible que esté incluyendo variables innecesarias. Este exceso de complejidad podría limitar la precisión de mis predicciones.

Necesidad de Revisión: Este resultado me impulsa a considerar una revisión más rigurosa de las variables incluidas en el modelo. Debería explorar la posibilidad de eliminar aquellas que no son significativas para simplificar el modelo y mejorar su interpretabilidad.

Equilibrio entre Complejidad y Ajuste: Al avanzar, reconozco la importancia de encontrar un equilibrio entre la complejidad del modelo y su capacidad de ajuste. Planeo utilizar técnicas de selección de variables más efectivas, como métodos de regularización o validación cruzada, para optimizar el modelo.

El valor del Cp de Mallows me señala áreas de mejora en mi modelo actual, lo cual es esencial para asegurar que sea tanto predictivo como interpretable en aplicaciones prácticas.

# Prueba ANOVA
anova_results_2_prec <- anova(modelo_2_prec); anova_results_2_prec
Analysis of Variance Table

Response: AR
          Df Sum Sq Mean Sq F value  Pr(>F)    
Alt        1 126520  126520   110.1 1.4e-09 ***
Lon        1  21410   21410    18.6 0.00034 ***
Region3    1   2189    2189     1.9 0.18286    
Residuals 20  22988    1149                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

CONCLUSIONES PRUEBA ANOVA MODELO 2

He llevado a cabo un análisis de varianza para evaluar el impacto de las variables independientes en la precipitación media anual (AR). Aquí están mis hallazgos:

Resultados del ANOVA

Altitud (Alt): La altitud muestra un efecto altamente significativo sobre la precipitación, lo que indica que las diferencias en la altitud explican una gran parte de la variabilidad en los datos. Este resultado refuerza la importancia de incluir la altitud en el modelo.

Df: 1 Sum Sq: 126520 Mean Sq: 126520 F value: 110.1 Pr(>F): 1.4e-09 ***

Longitud (Lon): La longitud también tiene un efecto significativo, aunque menos pronunciado que la altitud. Esto sugiere que la ubicación longitudinal también contribuye a las variaciones en la precipitación.

Df: 1 Sum Sq: 21410 Mean Sq: 21410 F value: 18.6 Pr(>F): 0.00034 ***

Región 3 (Region3): Esta variable no muestra un efecto significativo sobre la precipitación, lo que indica que podría no ser necesaria en el modelo. Esto me lleva a considerar la posibilidad de eliminarla para simplificar el análisis.

Df: 1 Sum Sq: 2189 Mean Sq: 2189 F value: 1.9 Pr(>F): 0.18286

Residuos: La suma de cuadrados residual indica la variabilidad en la precipitación que no se explica por las variables independientes.

Df: 20 Sum Sq: 22988 Mean Sq: 1149

El análisis de varianza refuerza la idea de que tanto la altitud como la longitud son factores significativos que afectan la precipitación media anual. Por el contrario, la variable de región no parece contribuir de manera significativa al modelo. Esto me lleva a considerar optimizar el modelo eliminando variables no significativas para mejorar la precisión y la interpretabilidad.

# Coeficiente de correlación
correlation_simple_2_prec <- cor(wheatrain$AR, fitted(modelo_2_prec))
cat("Coeficiente de Correlación Simple:", correlation_simple_2_prec, "\n")
Coeficiente de Correlación Simple: 0.931 

CONCLUSIONES COEFICIENTE DE CORRELACION MODELO 2

Este valor indica una relación muy fuerte y positiva entre la precipitación media anual (AR) y las variables independientes del modelo (altitud y longitud). A medida que aumentan los valores de estas variables, la precipitación media anual también tiende a aumentar.

Una correlación tan alta sugiere que el modelo que he desarrollado es eficaz para explicar las variaciones en la precipitación. Esto refuerza la idea de que las variables seleccionadas son relevantes y que el modelo puede ser útil para realizar predicciones precisas sobre la precipitación en la región estudiada.

la fuerte correlación apoya la validez del modelo y su capacidad para capturar las relaciones entre las variables.

CONCLUSIONES ENTRE EL MODELO 1 Y 2

Comparación de Modelos 1 y 2 de Regresión para Precipitación

Comparación de Modelos de Regresión

Aspecto Modelo 1 Modelo 2
Fórmula de Regresión AR = -5100.227 + 0.490 * Alt + -2.071 * Lat + 37.786 * Lon - 38.755 * Region3 - 27.466 * Region1 AR = -6260.00 + 0.516 * Alt + 45.00 * Lon - 38.30 * Region3
Variables Dependientes AR (precipitación media anual) AR (precipitación media anual)
Variables Independientes Alt, Lat, Lon, Region3, Region1 Alt, Lon, Region3
R² (Coeficiente de Determinación) 0.875 0.867
Adjusted R² 0.84 0.847
Error Estándar Residual 34.7 33.9
Significancia de Variables Alt y Lon son significativas, Lat y Regiones no. Alt y Lon son significativas, Region3 no.
F-statistic 25.1 (p < 0.001) 43.5 (p < 0.001)
Cp de Mallows 920 803
Correlación Simple 0.935 0.931
Conclusión General Buen ajuste pero con variables no significativas. Buen ajuste y más simplificado, sin variables innecesarias.

Decisión sobre el Mejor Modelo

El Modelo 2 es considerado el mejor modelo debido a su simplicidad y a la exclusión de variables no significativas, lo que sugiere una mejor generalización a nuevos datos.

# Predicciones del modelo inicial
predicciones_modelo1_prec <- predict(modelo_prec)

# Predicciones del mejor modelo
predicciones_modelo2_prec <- predict(modelo_2_prec)

# Gráfica de comparación de modelos
plot(wheatrain$Alt, predicciones_modelo1_prec, 
     main = "Comparación de Modelos de Regresión", 
     xlab = "Altitud (m)", 
     ylab = "Precipitación Media Anual (mm)", 
     col = "blue", pch = 19, 
     ylim = range(c(predicciones_modelo1_prec, predicciones_modelo2_prec)) + c(-10, 10))

points(wheatrain$Alt, predicciones_modelo2_prec, col = "red", pch = 19)

# Añadir líneas para los modelos ajustados
lines(sort(wheatrain$Alt), predicciones_modelo1_prec[order(wheatrain$Alt)], col = "blue", lwd = 2)
lines(sort(wheatrain$Alt), predicciones_modelo2_prec[order(wheatrain$Alt)], col = "red", lwd = 2)

# Agregar leyenda
legend("bottomright", legend = c("Modelo 1", "Modelo 2"), 
       col = c("blue", "red"), pch = c(19, 19), lty = 1)

# Cuando utilizas la función legend(), puedes especificar la posición de la leyenda mediante argumentos como "topright", "bottomright", etc. Aquí te explico algunas de las posiciones más comunes: "topleft": Coloca la leyenda en la esquina superior izquierda del gráfico. "topright": Coloca la leyenda en la esquina superior derecha del gráfico. "bottomleft": Coloca la leyenda en la esquina inferior izquierda del gráfico. "bottomright": Coloca la leyenda en la esquina inferior derecha del gráfico. "center": Centra la leyenda en el medio del gráfico.

PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2

# Prueba de Homocedasticidad
library(car)
Cargando paquete requerido: carData
ncv_test_modelo_prec <- ncvTest(modelo_prec); ncv_test_modelo_prec
Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 4.13, Df = 1, p = 0.04
# Prueba de Homocedasticidad
library(car)
ncv_test_modelo2_prec <- ncvTest(modelo_2_prec); ncv_test_modelo2_prec
Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 4.82, Df = 1, p = 0.03

CONCLUSION PRUEBA DE HOMOCEDASTICIDAD MODELO 1 Y 2

Resultados de la Prueba de Homocedasticidad:

Modelo 1: Chi-squared = 4.13, p = 0.04 Modelo 2: Chi-squared = 4.82, p = 0.03

En ambos modelos, los valores p (0.04 y 0.03) indican que hay evidencia de heterocedasticidad, pero el modelo 2 tiene un valor p más bajo, lo que sugiere que presenta una mayor variabilidad en los residuos.

Si bien ambos modelos muestran heterocedasticidad, el modelo 2 tiene un p más bajo, lo que puede ser una indicación de un ajuste menos robusto. Sin embargo, también es crucial considerar otros factores como R², el error estándar y la significancia de las variables. Si el modelo 2 es más simple (menos variables) y tiene un rendimiento similar en términos de R² y error estándar, podría ser preferido por su simplicidad.

Aunque ambos modelos presentan heterocedasticidad, el modelo 1 es el preferido.

MODELO HISTOGRAMA DE LOS RESIDUOS PARA MODELO 1 Y 2

par(mfrow=c(1, 2))
# Histograma de los residuos para el Modelo 1
hist(residuals(modelo_prec), 
     main = "Histograma de Residuos - Modelo 1", 
     xlab = "Residuos", 
     col = "blue", 
     border = "black", 
     breaks = 10)
abline(v = mean(residuals(modelo_prec)), col = "red", lwd = 2, lty = 2)

# Histograma de los residuos para el Modelo 2
hist(residuals(modelo_2_prec), 
     main = "Histograma de Residuos - Modelo 2", 
     xlab = "Residuos", 
     col = "green", 
     border = "black", 
     breaks = 15)
abline(v = mean(residuals(modelo_2_prec)), col = "red", lwd = 2, lty = 2)

par(mfrow=c(1, 1))

CONCLUSIONES HISTOGRAMA DE RESIDUOS

Estos graficos Proporcionan una visualización de la distribución de los residuos. en ambos casos, los residuos siguen una distribución normal.

QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2

par(mfrow=c(1, 2))
# QQ-Plot de los residuos - Modelo 1
qqnorm(residuals(modelo_prec), 
       main = "QQ-Plot de Residuos - Modelo 1", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19, col = "blue")
qqline(residuals(modelo_prec), col = "red", lwd = 2)

# QQ-Plot de los residuos - Modelo 2
qqnorm(residuals(modelo_2_prec), 
       main = "QQ-Plot de Residuos - Modelo 2", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19, col = "violet")
qqline(residuals(modelo_2_prec), col = "red", lwd = 2)

par(mfrow=c(1, 1))

CONCLUSIONES QQ-PLOT DE LOS RESIDUOS MODELO 1 Y 2

Compara los cuantiles de los residuos con los cuantiles de una distribución normal. En ambos casos los puntos siguen la línea, lo cual indica que los residuos son aproximadamente normales.

3.20B. Detección de datos atípicos o influyentes

# Medidas de influencia para el modelo inicial
infl_med_modelo_prec <- influence.measures(modelo_prec); infl_med_modelo_prec
Influence measures of
     lm(formula = AR ~ Alt + Lat + Lon + Region3 + Region1, data = wheatrain) :

                dfb.1_   dfb.Alt   dfb.Lat   dfb.Lon  dfb.Rgn3 dfb.Rgn1   dffit
Goondiwindi   -0.26777  0.108455  0.875856  0.152026  0.354559  0.58814 -1.4184
Condobolin    -0.03068  0.088801 -0.205190  0.062491 -0.219218 -0.16104 -0.3668
Coonamble     -0.01383  0.000519 -0.004661  0.015464 -0.015798  0.02135  0.0370
Gilgandra     -0.07324 -0.031152  0.217726  0.043865  0.282184  0.28238 -0.4254
Nyngan        -0.14873 -0.039345  0.058953  0.150451 -0.066818 -0.04480 -0.2796
Trangie       -0.06197 -0.007262  0.058355  0.057458  0.003905  0.14976  0.2007
Warren        -0.00335  0.000508  0.003241  0.003083  0.000284  0.02544  0.0424
Walgett        0.02121  0.038620 -0.160079  0.000991 -0.133561  0.04328  0.2742
Bardine       -0.40977 -0.126922  0.067152  0.429186 -0.360181  0.16287 -0.5282
Moree          0.01401 -0.023190 -0.011541 -0.012881  0.012674 -0.02501  0.0554
Narrabri      -0.02062  0.049591 -0.014516  0.023500 -0.047121  0.03118 -0.0828
Barraba        0.06232 -0.684702  0.312220 -0.103930  0.189250 -0.26986 -0.9228
Bingara       -0.65249 -0.399831  0.004094  0.701757 -0.135097  0.10321  1.5278
Warialda      -0.07808  0.031788 -0.135327  0.103359 -0.099955 -0.00477  0.3694
Gunnedah       0.13147  0.153200 -0.187772 -0.114187 -0.131165 -0.06487 -0.2773
Quirindi       0.07855  0.029544 -0.078511 -0.072425 -0.029104 -0.05795 -0.1120
Tamworth       0.46337  0.057137 -0.314507 -0.448039 -0.034537 -0.33978 -0.6343
Cowra          0.01899  0.011496 -0.027768 -0.016452  0.004455  0.00252 -0.0474
Coonabarabran  1.39590  1.495612 -0.575794 -1.424784  0.902066 -0.12150  2.1556
Dubbo          0.02062 -0.027733 -0.051029 -0.012818 -0.110787 -0.14479  0.2180
Forbes        -0.00354  0.019733 -0.015114  0.005644 -0.007255  0.01797 -0.0355
Molong        -0.02642 -0.335638  0.139503  0.010496  0.216186  0.01489 -0.4394
Parkes         0.03141  0.006112  0.000488 -0.033221 -0.008501 -0.05382  0.0944
Wellington    -0.10413 -0.061032  0.022047  0.110231 -0.174627 -0.10461  0.3007
               cov.r   cook.d   hat inf
Goondiwindi   0.4534 0.277165 0.296    
Condobolin    1.9790 0.023396 0.348    
Coonamble     1.8376 0.000241 0.234    
Gilgandra     1.4483 0.030774 0.220    
Nyngan        1.6852 0.013590 0.235    
Trangie       1.6554 0.007039 0.197    
Warren        1.6903 0.000317 0.169    
Walgett       1.9387 0.013139 0.314    
Bardine       1.7670 0.047720 0.340    
Moree         1.7552 0.000542 0.201    
Narrabri      1.8446 0.001208 0.242    
Barraba       1.0254 0.134385 0.297    
Bingara       0.0374 0.219590 0.136    
Warialda      1.2546 0.022998 0.146    
Gunnedah      1.5351 0.013301 0.185    
Quirindi      1.9754 0.002211 0.294    
Tamworth      1.2636 0.066385 0.254    
Cowra         1.8213 0.000396 0.228    
Coonabarabran 0.4741 0.617993 0.455   *
Dubbo         1.5671 0.008272 0.171    
Forbes        1.9715 0.000222 0.286    
Molong        2.1668 0.033520 0.410   *
Parkes        1.6698 0.001570 0.169    
Wellington    1.4613 0.015561 0.172    
# Medidas de influencia para el Modelo 2
infl_med_modelo_2_prec <- influence.measures(modelo_2_prec); infl_med_modelo_2_prec
Influence measures of
     lm(formula = AR ~ Alt + Lon + Region3, data = wheatrain) :

                 dfb.1_  dfb.Alt   dfb.Lon dfb.Rgn3    dffit cov.r   cook.d
Goondiwindi    0.284598  0.54762 -0.289072 -0.05913 -0.81032 0.804 1.48e-01
Condobolin    -0.286832 -0.00146  0.284780 -0.18429 -0.37648 1.415 3.63e-02
Coonamble      0.038760  0.06118 -0.039645  0.05268 -0.10545 1.376 2.91e-03
Gilgandra      0.080542  0.01512 -0.081066  0.11610 -0.15606 1.317 6.34e-03
Nyngan        -0.229794  0.03717  0.227674 -0.14804 -0.32647 1.426 2.75e-02
Trangie        0.001975 -0.00270 -0.001887 -0.00152  0.01184 1.344 3.69e-05
Warren        -0.018728  0.01845  0.018212 -0.00160 -0.06364 1.359 1.06e-03
Walgett       -0.012690 -0.05372  0.013447 -0.02033  0.07675 1.438 1.55e-03
Bardine       -0.284368 -0.13187  0.284711 -0.30305 -0.34184 1.677 3.03e-02
Moree          0.000356 -0.08889  0.000529  0.05695  0.14426 1.428 5.44e-03
Narrabri       0.012821 -0.02529 -0.012526  0.02916  0.04860 1.490 6.21e-04
Barraba        0.114296 -0.52373 -0.108701 -0.00308 -0.82331 0.902 1.56e-01
Bingara       -0.780407 -0.59349  0.783650 -0.14711  1.49827 0.149 3.36e-01
Warialda      -0.165153 -0.08866  0.165472 -0.03063  0.32719 1.199 2.71e-02
Gunnedah       0.044613  0.05429 -0.045001 -0.04125 -0.20413 1.261 1.08e-02
Quirindi       0.070109 -0.01752 -0.069697  0.01990 -0.15244 1.364 6.06e-03
Tamworth       0.319125 -0.07044 -0.317338  0.14251 -0.57369 1.018 7.92e-02
Cowra         -0.002330  0.00271  0.002321 -0.00447  0.00695 1.409 1.27e-05
Coonabarabran  1.387423  1.46345 -1.397247  1.32892  1.96823 0.792 7.97e-01
Dubbo         -0.107917 -0.02016  0.108855 -0.17225  0.25176 1.198 1.62e-02
Forbes         0.016978 -0.01096 -0.016358 -0.01435  0.09579 1.309 2.40e-03
Molong         0.043498 -0.33270 -0.040983  0.16745 -0.41917 1.813 4.55e-02
Parkes         0.032533  0.08406 -0.032565 -0.03469  0.16491 1.305 7.07e-03
Wellington    -0.222692 -0.00731  0.223256 -0.28931  0.34769 1.231 3.06e-02
                 hat inf
Goondiwindi   0.1727    
Condobolin    0.2190    
Coonamble     0.1223    
Gilgandra     0.1065    
Nyngan        0.2085    
Trangie       0.0871    
Warren        0.1032    
Walgett       0.1524    
Bardine       0.3073   *
Moree         0.1596    
Narrabri      0.1782    
Barraba       0.2006    
Bingara       0.1348   *
Warialda      0.1239    
Gunnedah      0.0998    
Quirindi      0.1289    
Tamworth      0.1565    
Cowra         0.1289    
Coonabarabran 0.4217   *
Dubbo         0.0953    
Forbes        0.0821    
Molong        0.3648   *
Parkes        0.1040    
Wellington    0.1422    

CONCLUSIONES DETECCIÓN DE DATOS ATÍPICOS O INFLUYENTES MODELO 1 Y 2

Modelo 1:

Outliers Significativos: Goondiwindi y Bingara presentan valores de dfb y cook.d que indican que son observaciones influyentes. Menores Valores de Cook: Indican menos influencia en comparación con el Modelo 2 en la mayoría de las localidades.

Modelo 2:

Outliers Significativos: Coonabarabran también es un outlier notable en ambos modelos, pero muestra un mayor impacto en el Modelo 1. Valores de Cook: Algunos valores son mayores en el Modelo 2, indicando que hay ciertas observaciones que tienen un efecto considerable sobre el ajuste del modelo.

Ambos modelos tienen sus propios outliers, pero el Modelo 1 parece tener un mejor ajuste general, ya que varios de sus valores de Cook son menores y hay menos influencias inusuales en comparación con el Modelo 2. Por lo tanto, se podría considerar que el Modelo 1 es el mejor modelo en términos de estabilidad y predictibilidad en relación con los datos analizados.

ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2

# Estadísticos de Cook para el modelo inicial
cooks_d_modelo_prec <- cooks.distance(modelo_prec); cooks_d_modelo_prec 
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
     0.277165      0.023396      0.000241      0.030774      0.013590 
      Trangie        Warren       Walgett       Bardine         Moree 
     0.007039      0.000317      0.013139      0.047720      0.000542 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
     0.001208      0.134385      0.219590      0.022998      0.013301 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
     0.002211      0.066385      0.000396      0.617993      0.008272 
       Forbes        Molong        Parkes    Wellington 
     0.000222      0.033520      0.001570      0.015561 
# Estadísticos de Cook para el Modelo 2
cooks_d_modelo_2_prec <- cooks.distance(modelo_2_prec); cooks_d_modelo_2_prec
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
     1.48e-01      3.63e-02      2.91e-03      6.34e-03      2.75e-02 
      Trangie        Warren       Walgett       Bardine         Moree 
     3.69e-05      1.06e-03      1.55e-03      3.03e-02      5.44e-03 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
     6.21e-04      1.56e-01      3.36e-01      2.71e-02      1.08e-02 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
     6.06e-03      7.92e-02      1.27e-05      7.97e-01      1.62e-02 
       Forbes        Molong        Parkes    Wellington 
     2.40e-03      4.55e-02      7.07e-03      3.06e-02 

CONCLUSIONES ESTADÍSTICOS DE COOK PARA LOS MODELOS 1 Y 2

Modelo 1:

Valores Elevados de Cook: Localidades como Goondiwindi, Bingara y Coonabarabran tienen distancias de Cook relativamente altas, indicando que pueden influir considerablemente en el ajuste del modelo.

Valores Generales: La mayoría de las distancias son bajas, lo que sugiere que muchas observaciones no son influyentes.

Modelo 2:

Valores Elevados de Cook: Similar a Modelo 1, Coonabarabran y Bingara son puntos de interés, pero tienen valores aún más altos en este modelo.

Menores Valores en General: Las distancias de Cook son más bajas para la mayoría de las localidades, lo que podría indicar un ajuste más robusto.

Ambos modelos tienen observaciones influyentes, pero el Modelo 1 presenta un mayor número de valores elevados de Cook, sugiriendo que tiene puntos de influencia más significativos. Sin embargo, el Modelo 2 tiene distancias de Cook más uniformemente bajas, lo que podría indicar un ajuste más robusto a lo largo de las localidades analizadas. Por lo tanto, si se busca un modelo con menor influencia general de outliers, el Modelo 2 podría ser considerado el mejor.

GRÁFICO DE INFLUENCIA PARA LOS MODELOS 1 Y 2

# Gráfico de influencia para el modelo 1
library(car)
influencePlot(modelo_prec, main = "Gráfico de Influencia - Modelo 1")

              StudRes   Hat  CookD
Goondiwindi    -2.185 0.296 0.2772
Bingara         3.858 0.136 0.2196
Coonabarabran   2.357 0.455 0.6180
Molong         -0.527 0.410 0.0335
# Gráfico de influencia para el Modelo 2
influencePlot(modelo_2_prec, main = "Gráfico de Influencia - Modelo 2")

              StudRes   Hat  CookD
Bingara         3.795 0.135 0.3360
Coonabarabran   2.305 0.422 0.7967
Molong         -0.553 0.365 0.0455

CONCLUSIONES

El Modelo 1 se considera mejor por varias razones basadas en el análisis de influencias y residuos:

Residuos Estándar: En el Modelo 1, los residuos estandarizados no presentan valores extremos o inusuales que sugieran problemas en el ajuste del modelo. Esto indica que el modelo se comporta de manera más consistente con los datos.

Distancias de Cook: Las distancias de Cook en el Modelo 1 son relativamente bajas para la mayoría de las observaciones, lo que sugiere que no hay puntos influyentes que afecten la estimación de los parámetros. En cambio, el Modelo 2 presenta distancias de Cook más altas para ciertas observaciones, lo que indica que esos puntos pueden estar influyendo negativamente en el ajuste.

Gráfico de Influencia: En el gráfico de influencia del Modelo 1, no hay puntos que se encuentren a la derecha de la línea vertical, lo que significa que no hay observaciones consideradas influyentes que podrían distorsionar el ajuste del modelo. En el Modelo 2, los puntos Coonabarabran y Molong están claramente a la derecha, lo que sugiere que son influyentes y podrían estar distorsionando los resultados.

Homocedasticidad: El Modelo 1 muestra un comportamiento más homogéneo en los residuos, lo que significa que no hay variación no constante que afecte la validez del modelo. Esto es importante para la confianza en los resultados.

Interpretación y Robustez: Un modelo sin puntos influyentes tiende a ser más robusto y ofrece interpretaciones más confiables de los parámetros estimados. Esto es crucial para la toma de decisiones basada en el modelo.

En resumen, el Modelo 1 demuestra un mejor comportamiento general en términos de ajuste y robustez frente a datos atípicos, lo que lo convierte en una opción más confiable para el análisis.

RESIDUOS ESTANDARIZADOS MODELO 1 Y 2

# Residuos estandarizados
std_residuals_modelo_prec <- rstandard(modelo_prec); std_residuals_modelo_prec
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
      -1.9869       -0.5127        0.0687       -0.8080       -0.5150 
      Trangie        Warren       Walgett       Bardine         Moree 
       0.4154        0.0966        0.4151       -0.7462        0.1138 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
      -0.1507       -1.3800        2.8989        0.8970       -0.5935 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
      -0.1784       -1.0807       -0.0896        2.1058        0.4910 
       Forbes        Molong        Parkes    Wellington 
      -0.0577       -0.5380        0.2152        0.6711 
# Residuos estandarizados para el Modelo 2
std_residuals_modelo_2_prec <- rstandard(modelo_2_prec); std_residuals_modelo_2_prec
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
      -1.6856       -0.7200       -0.2892       -0.4612       -0.6459 
      Trangie        Warren       Walgett       Bardine         Moree 
       0.0393       -0.1923        0.1856       -0.5230        0.3387 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
       0.1071       -1.5779        2.9367        0.8755       -0.6228 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
      -0.4050       -1.3069        0.0185        2.0905        0.7837 
       Forbes        Molong        Parkes    Wellington 
       0.3276       -0.5630        0.4936        0.8599 

CONCLUSIONES RESIDUOS ESTANDARIZADOS MODELO 1 Y 2

Puntos Atípicos:

Modelo 1: El residuo estandarizado más alto es para Bingara (2.8989), lo que indica que es un punto atípico. Coonabarabran también presenta un residuo elevado (2.1058).

Modelo 2: Bingara sigue siendo un punto atípico (2.9367), mientras que Coonabarabran tiene un valor similar (2.0905).

Consistencia:

En el Modelo 1, la mayoría de los residuos están dentro de un rango más moderado, con algunos valores negativos que no indican problemas serios, salvo Bingara y Coonabarabran.

En el Modelo 2, aunque Bingara y Coonabarabran son puntos atípicos, otros residuos también se presentan en rangos más extremos (como los negativos).

Interpretación:

Un modelo se considera mejor cuando tiene menos puntos atípicos que afectan su ajuste. Aunque ambos modelos tienen puntos atípicos, el Modelo 1 tiene una mejor distribución de residuos y menos valores extremos en general, lo que sugiere un ajuste más robusto.

Con base a lo expuesto anteriormente se deduce que el Modelo 1 parece ser más confiable y robusto en comparación con el Modelo 2, ya que tiene menos residuos extremos y muestra un comportamiento más homogéneo en los datos. Esto respalda la conclusión previa de que el Modelo 1 es el mejor para el análisis.

IDENTIFICACIÓN DE OUTLIERS MODELO 1 Y 2

# Identificación de outliers
outliers_modelo_prec <- std_residuals_modelo_prec[abs(std_residuals_modelo_prec) > 3]; outliers_modelo_prec
named numeric(0)
# Identificación de outliers para el Modelo 2
outliers_modelo2_prec <- std_residuals_modelo_2_prec[abs(std_residuals_modelo_2_prec) > 3]; outliers_modelo2_prec
named numeric(0)

CONCLUSIONES

Sin Outliers: No hay observaciones que se consideren atípicas en el contexto de tus modelos. Esto sugiere que los datos están bien ajustados y no hay influencias externas extremas.

HAT-VALUES PARA MODELO 1 Y 2

# Hat-values (Matriz H) Modelo 1
hat_values_modelo_prec <- hatvalues(modelo_prec); hat_values_modelo_prec
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
        0.296         0.348         0.234         0.220         0.235 
      Trangie        Warren       Walgett       Bardine         Moree 
        0.197         0.169         0.314         0.340         0.201 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
        0.242         0.297         0.136         0.146         0.185 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
        0.294         0.254         0.228         0.455         0.171 
       Forbes        Molong        Parkes    Wellington 
        0.286         0.410         0.169         0.172 
# Hat-values (Matriz H) Modelo 2
hat_values_modelo_2_prec <- hatvalues(modelo_2_prec); hat_values_modelo_2_prec 
  Goondiwindi    Condobolin     Coonamble     Gilgandra        Nyngan 
       0.1727        0.2190        0.1223        0.1065        0.2085 
      Trangie        Warren       Walgett       Bardine         Moree 
       0.0871        0.1032        0.1524        0.3073        0.1596 
     Narrabri       Barraba       Bingara      Warialda      Gunnedah 
       0.1782        0.2006        0.1348        0.1239        0.0998 
     Quirindi      Tamworth         Cowra Coonabarabran         Dubbo 
       0.1289        0.1565        0.1289        0.4217        0.0953 
       Forbes        Molong        Parkes    Wellington 
       0.0821        0.3648        0.1040        0.1422 

CONCLUSIONES PARA HAT-VALUES EN LOS MODELOS 1 Y 2

Distribución de Influencia: El modelo 1 muestra una distribución más equilibrada, lo que podría indicar una mejor robustez frente a la influencia de observaciones individuales.

Riesgo de Influencia: El modelo 2, con su mayor concentración de influencia en Coonabarabran, podría ser más sensible a cambios en esa observación específica, lo que podría afectar la estabilidad y la generalización del modelo.

Basado en los valores de hat, el modelo 1 parece ser más equilibrado y robusto, ya que tiene una distribución de influencia más uniforme. Esto puede contribuir a su validez en la inferencia y en la predicción.

TEST DE BONFERRONI MODELO 1 Y 2

# Test de Bonferroni para el modelo 1
n_modelo_prec <- nrow(wheatrain)  # Tamaño de la muestra
alpha <- 0.05 # 5% de nivel de significancia
# Nivel de significancia
bonferroni_threshold_modelo_prec <- alpha / n_modelo_prec   # Ajuste de Bonferroni
influential_obs_modelo_prec <- which(cooks_d_modelo_prec > 1); bonferroni_threshold_modelo_prec # Identificar observaciones influyentes
[1] 0.00208
# Test de Bonferroni para el Modelo 2
n_modelo_2_prec <- nrow(wheatrain)  # Asegúrate de que 'wheatrain' sea el dataframe correcto
alpha <- 0.05  # 5% de nivel de significancia
bonferroni_threshold_modelo_2_prec <- alpha / n_modelo_2_prec; bonferroni_threshold_modelo_2_prec  # Ajuste de Bonferroni
[1] 0.00208

CONCLUSIONES TEST DE BONFERRONI MODELO 1 Y 2

El ajuste de Bonferroni ha sido calculado correctamente para ambos modelos. Basado en los análisis realizados, se recomienda utilizar el Modelo 1 como el más adecuado.

En resumen, el Modelo 1 ofrece un mejor ajuste y menor riesgo de influencias desproporcionadas, haciendo que sea la elección más segura para la interpretación y predicción.

CONCLUSIONES PARA SABER CUAL ES EL MEJOR MODELO

El Modelo 1 es el más adecuado según el análisis que he presentado. Aquí enumero un resumen de las razones por las que tome la decision:

El Modelo 1 tiene menos puntos influyentes y distancias de Cook más bajas en general, lo que sugiere un ajuste más estable.

Los residuos estandarizados del Modelo 1 son más consistentes y muestran menos extremos, lo que indica un mejor ajuste a los datos.

En el gráfico de influencia del Modelo 1, no hay observaciones influyentes que puedan distorsionar los resultados, a diferencia del Modelo 2.

El comportamiento más homogéneo en los residuos del Modelo 1 apoya su validez.

La distribución de hat-values en el Modelo 1 sugiere una mejor robustez.

Aunque ambos modelos son válidos, el Modelo 1 es más seguro en términos de influencias desproporcionadas.

Por todas estas razones, concluyo que el Modelo 1 es la opción más confiable para el análisis y la predicción en este ejercicio.

3.20C) Estime la precipitación anual de lluvia esperada en una zona 3 de Australia, con una altura de 200 metros sobre el nivel del mar, latitud -36.05 y longitud 142.50.

# Datos de entrada para la predicción
prec_anual_modelo_1 <- data.frame(Alt = 200, Lat = -36.05, Lon = 142.50, Region3 = 1, Region1 = 0)

# Predicción de la precipitación
pred_precip_anual_modelo_1 <- predict(modelo_prec, prec_anual_modelo_1); pred_precip_anual_modelo_1
  1 
418 
# Mostrar el resultado utilizando cat
cat("Bajo las condiciones especificadas (altura =", prec_anual_modelo_1$Alt, 
    ", latitud =", prec_anual_modelo_1$Lat, 
    ", longitud =", prec_anual_modelo_1$Lon, 
    ", Region3 =", prec_anual_modelo_1$Region3, 
    ", Region1 =", prec_anual_modelo_1$Region1, 
    "), se espera que la precipitación media anual sea de alrededor de", 
    round(pred_precip_anual_modelo_1, 2), "mm.\n")
Bajo las condiciones especificadas (altura = 200 , latitud = -36 , longitud = 142 , Region3 = 1 , Region1 = 0 ), se espera que la precipitación media anual sea de alrededor de 418 mm.

3.20D) Compruebe los supuestos del modelo.

GRÁFICOS DE DIAGNÓSTICO

# Gráficos de diagnóstico
par(mfrow=c(2, 2))
plot(modelo_prec)

par(mfrow=c(1, 1))

NORMALIDAD DE LOS RESIDUOS

Prueba de Normalidad de Shapiro-Wilk

test_shapiro_modelo_prec <- shapiro.test(residuals(modelo_prec)); test_shapiro_modelo_prec

    Shapiro-Wilk normality test

data:  residuals(modelo_prec)
W = 0.9, p-value = 0.07

CONCLUSIONES PRUEBA DE NORMALIDAD DE SHAPIRO-WILK

El resultado del test de normalidad de Shapiro-Wilk muestra un valor W de 0.9 y un p-valor de 0.07. Esto indica que no hay suficiente evidencia para rechazar la hipótesis nula de que los residuos del modelo siguen una distribución normal. Dado que el p-valor es mayor que el umbral comúnmente utilizado de 0.05, se concluye que los residuos se distribuyen normalmente.

PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD

# Cargar el paquete lmtest
#install.packages('lmtest')
library(lmtest)
Cargando paquete requerido: zoo

Adjuntando el paquete: 'zoo'
The following objects are masked from 'package:base':

    as.Date, as.Date.numeric
# Realizar la prueba de Breusch-Pagan para homocedasticidad
bptest_result_modelo_prec <- bptest(modelo_prec); bptest_result_modelo_prec

    studentized Breusch-Pagan test

data:  modelo_prec
BP = 6, df = 5, p-value = 0.3

CONCLUSIONES PRUEBA DE BREUSCH-PAGAN PARA HOMOCEDASTICIDAD

Dado que el p-valor es alto, podemos concluir que los residuos del modelo presentan homocedasticidad, lo que implica que la varianza de los errores es constante a través de las predicciones. Esto es positivo para la validez del modelo de regresión, ya que uno de los supuestos clave se cumple adecuadamente.

INDEPENDENCIA DE LOS ERRORES Prueba de Durbin-Watson para Independencia

library(car)
test_dw_modelo_prec <- durbinWatsonTest(modelo_prec); test_dw_modelo_prec
 lag Autocorrelation D-W Statistic p-value
   1          0.0157          1.79   0.446
 Alternative hypothesis: rho != 0

CONCLUSIONES PRUEBA DE DURBIN-WATSON PARA INDEPENDENCIA

Los resultados del test de Durbin-Watson indican que no hay problemas significativos de autocorrelación en los residuos del modelo. Esto refuerza la validez del modelo y sugiere que los supuestos de independencia de los errores se cumplen adecuadamente.

MULTICOLINEALIDAD (VIF)

vif_value_modelo_prec <- vif(modelo_prec); vif_value_modelo_prec
    Alt     Lat     Lon Region3 Region1 
   2.46    4.36    6.52    5.41    2.74 

CONCLUSIONES MULTICOLINEALIDAD (VIF)

Las variables Lon y Region3 muestran niveles elevados de multicolinealidad, lo que puede afectar la precisión de los coeficientes estimados y su interpretación. La multicolinealidad puede dificultar la identificación del efecto individual de cada predictor en la variable dependiente. Consideraré la eliminación o transformación de las variables con altos VIF (especialmente Lon y Region3) o realizaré un análisis adicional para evaluar su impacto en el modelo. Evaluaré si es necesario simplificar el modelo o aplicar técnicas de regularización que manejen la multicolinealidad, como la regresión ridge o lasso.

PRUEBA SOBRE COEFICIENTES ESTIMADOS

Prueba t para Coeficientes

summary(modelo_prec)$coefficients
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -5100.23   2547.816  -2.002 0.060611
Alt             0.49      0.103   4.765 0.000155
Lat            -2.07     10.976  -0.189 0.852456
Lon            37.79     16.063   2.352 0.030232
Region3       -38.76     33.069  -1.172 0.256493
Region1       -27.47     27.063  -1.015 0.323606

CONCLUSIONES PRUEBA T PARA COEFICIENTES

Dada la información y las conclusiones anteriores, la nueva fórmula de regresión simplificada que solo incluye las variables significativas sería:

Precipitacion = −5100.23 +0.49 * Alt + 37.79 * Lon

VISUALIZACIÓN DE RESIDUOS

Histograma de los Residuos

## Histograma de los residuos mejorado
hist(residuals(modelo_prec), 
     main = "Histograma de Residuos", 
     xlab = "Residuos", 
     col = "blue", 
     border = "black", 
     breaks = 15,  
     xlim = c(min(residuals(modelo_prec)), max(residuals(modelo_prec))),  
     ylim = c(0, 5),  
     cex.main = 1.5,  
     cex.lab = 1.2,   
     cex.axis = 1.2)  

# Agregar una línea vertical en la media
abline(v = mean(residuals(modelo_prec)), col = "red", lwd = 2, lty = 2)
legend("topright", legend = "Media", col = "red", lty = 2, lwd = 2)

QQ-Plot de los Residuos

# QQ-Plot de los residuos mejorado
qqnorm(residuals(modelo_prec), 
       main = "QQ-Plot de Residuos", 
       xlab = "Cuantiles Teóricos", 
       ylab = "Cuantiles de Residuos", 
       pch = 19,           
       col = "blue")       

# Agregar la línea de referencia
qqline(residuals(modelo_prec), col = "red", lwd = 2)