Variables para el analisis

A partir de la base de datos se toman tres factores ambientales: temperatura, humedad y velocidad del viento para determinar si existe una relación entre estas variables y la presencia de plagas (Heilipues y Stenoma) en los frutos de los cultivos de aguacate.

Modelo logístico

El modelo indica que el factor más determinante en la presencia de plagas es la humedad, ya que es la variable con mayor significancia. En cambio, la temperatura y la velocidad del viento tienen un impacto mínimo en la probabilidad de aparición de plagas. Los sitios más secos tienen mayor riesgo de presencia de la plaga.

Resultados del Modelo Logístico
Coeficientes
Significancia
Variable Estimación Error Estándar Valor z Pr(>|z|) Signif.
(Intercept) 0.105 1.140 0.09 0.9269
temperatura -0.004 0.034 -0.11 0.9102
humedad -0.038 0.006 -5.97 0.0000 ***
viento -0.148 0.212 -0.70 0.4840
Nota: Niveles de significancia: ‘’ p < 0.001, ’’ p < 0.01, ’’ p < 0.05, ‘.’ p < 0.1

Desempeño del modelo

Con el modelo se calcula la probabilidad de presencia de plagas para cada caso y se utiliza un umbral de referencia de 0.15. Esto significa que si la probabilidad estimada supera 0.15, el caso se clasifica como presencia de plaga, en el caso contrario, se clasifica como ausencia de plaga.

Con eso se construye la matriz que confusión que permite identificar que tan bien se están clasificando los casos, identificando los falsos positivos y los falsos negativos.

El umbral es un punto de partida para la clasificación, pero más adelante se realizará un ajuste para optimizarlo y mejorar la precisión del modelo.

Matriz de Confusión del Modelo
Predicción del Modelo
Ausente Presente
Observación Real
Ausente 1796 355
Presente 105 107
Nota:
Umbral de clasificación: 0.15

Metricas de desempeño

Se van a utilizar las tres metricas principales para indicar el desempeño del modelo

Desempeño = (VP + VN) / Total: El modelo predice bien el 80% de los casos

0.8053

Sensibilidad = VP / (VP + FN): El modelo predice bien el 50% de los positivos

0.5047

Especificidad = VN / (VN + FP): El modelo predice bien el 83% de los negativos

0.835

Métrica compuesta = (Desempeño + Sensibilidad + Especificidad) / 3

0.7153

Optimizar el umbral del modelo

Los cuatro gráficos muestran cómo cambia la clasificación de los casos según el ajuste del umbral. La gráfica de la métrica compuesta es útil para identificar el umbral óptimo, ya que combina los tres indicadores principales: exactitud, sensibilidad y especificidad. El objetivo es encontrar el punto donde esta gráfica alcanza su valor máximo, logrando un equilibrio entre identificar los casos positivos y minimizar los errores, con el mejor desempeño general.

En este caso, el umbral que mejor ajusta el modelo es 0.14, ya que ofrece un buen balance entre todas las métricas. Sin embargo, en este análisis es más importante la sensibilidad, es decir, identificar correctamente los casos positivos, ya que pasar por alto un caso donde el cultivo está afectado podría ser perjudicial. Por esta razón, en lugar de elegir únicamente el umbral de 0.14, es más conveniente elegir en un rango entre 0.10 y 0.14 que son las áreas sombreadas. En lo personal escogería un umbral de 0.11 priorizando un alto rendimiento en la métrica de sensibilidad sin dejar de lado un rendimiento adecuado en las otras métricas.