1 Introducción

Este análisis busca evaluar la presencia de plagas en cultivos de aguacate en función de factores ambientales como temperatura, humedad y viento. Se ajustará un modelo logístico para determinar qué variables influyen en la presencia de plagas y se evaluará su desempeño predictivo.

2 Construcción de la Base de Datos

3 Ajuste del Modelo Logístico

## 
## Call:
## glm(formula = y ~ temperatura + humedad + viento, family = "binomial", 
##     data = df_frutos)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.104524   1.139505   0.092    0.927    
## temperatura -0.003853   0.034173  -0.113    0.910    
## humedad     -0.037694   0.006314  -5.970 2.37e-09 ***
## viento      -0.148072   0.211548  -0.700    0.484    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1426.7  on 2362  degrees of freedom
## Residual deviance: 1328.9  on 2359  degrees of freedom
## AIC: 1336.9
## 
## Number of Fisher Scoring iterations: 5

Interpretación: Se observa que la humedad es un factor significativo en la presencia de plagas, lo que sugiere que sitios más secos tienen mayor riesgo.

4 Evaluación del Modelo Predictivo

4.1 Histogramas de Probabilidades Predichas

5 Matriz de Confusión y Métricas de Evaluación

Matriz de Confusión
FALSE TRUE
0 1796 355
1 105 107
##   Desempeño Sensibilidad Especificidad Métrica.Ponderada
## 1 0.8053322    0.8349605      0.504717         0.7150032

6 Optimización del Umbral

Se probarán distintos valores de umbral para encontrar el que optimiza el desempeño del modelo.

calc_metricas <- function(umbral) {
  presencia_plaga_modelo <- probas > umbral
  presencia_plaga_real <- df_frutos$y
  tabla <- table(presencia_plaga_real, presencia_plaga_modelo)
  desempenio <- (tabla[1,1] + tabla[2,2]) / sum(tabla)
  sensibilidad <- tabla[1,1] / sum(tabla[1,])
  especificidad <- tabla[2,2] / sum(tabla[2,])
  ponderado <- (desempenio + sensibilidad + especificidad) / 3
  return(c(desempenio, sensibilidad, especificidad, ponderado))
}

umbrales <- seq(0.05, 0.25, 0.005)
metricas <- sapply(umbrales, calc_metricas)

7 Gráfico de Métricas

8 Conclusión

El modelo logístico nos permite predecir la presencia de plagas en función de variables ambientales. Se observó que la humedad es el factor más importante, y optimizando el umbral se puede mejorar la precisión del modelo.