datos <- read.csv("/Users/pilarmendez/Downloads/a4_iris_limpia.csv")
# ==========================================================
# MODELO 3: Regresión logística (Versicolor vs Virginica)
# ==========================================================
# Pregunta:
# ¿Pueden las medidas del sépalo y el pétalo predecir si una flor
# es Virginica en comparación con Versicolor?

# Filtramos solo estas dos especies
sub <- datos[datos$Variedad %in% c("Versicolor", "Virginica"), ]

# Variable binaria: 1 = virginica, 0 = versicolor
sub$es_Virginica <- ifelse(sub$Variedad == "Virginica", 1, 0)

# Ajustamos el modelo logístico
modelo_log_vv <- glm(es_Virginica ~ Sepalo_largo + Sepalo_ancho +
                       Petalo_largo + Petalo_ancho,
                     data = sub,
                     family = binomial)

summary(modelo_log_vv)
## 
## Call:
## glm(formula = es_Virginica ~ Sepalo_largo + Sepalo_ancho + Petalo_largo + 
##     Petalo_ancho, family = binomial, data = sub)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   -42.638     25.707  -1.659   0.0972 .
## Sepalo_largo   -2.465      2.394  -1.030   0.3032  
## Sepalo_ancho   -6.681      4.480  -1.491   0.1359  
## Petalo_largo    9.429      4.737   1.991   0.0465 *
## Petalo_ancho   18.286      9.743   1.877   0.0605 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 138.629  on 99  degrees of freedom
## Residual deviance:  11.899  on 95  degrees of freedom
## AIC: 21.899
## 
## Number of Fisher Scoring iterations: 10
# ==========================================================
# Predicciones y matriz de confusión
# ==========================================================

pred_vv <- predict(modelo_log_vv, type = "response")
clase_pred_vv <- ifelse(pred_vv > 0.5, 1, 0)

table(Real = sub$es_Virginica, Predicho = clase_pred_vv)
##     Predicho
## Real  0  1
##    0 49  1
##    1  1 49
# ==========================================================
# Métricas del modelo
# ==========================================================

AIC(modelo_log_vv)
## [1] 21.89855
# ==========================================================
# Conclusiones del modelo logístico (Versicolor vs Virginica)
# ==========================================================

#Este modelo logístico compara únicamente las flores Versicolor y Virginica.
#La variable respuesta (1 = Virginica) se modela usando las medidas morfológicas
#del sépalo y el pétalo.

#Los coeficientes indican cómo cada centímetro de diferencia en las dimensiones
#aumenta o disminuye las probabilidades de que la flor sea Virginica. En general, 
#las variables de pétalo suelen ser las más fuertes discriminantes entre
#Versicolor y Virginica.

#El AIC permite evaluar la eficiencia del modelo, y la matriz de confusión
#indica qué tan bien clasifica el modelo a las flores en una u otra especie.

#En conjunto, el modelo es adecuado para diferenciar entre estas dos especies
#del conjunto de datos, mostrando que las medidas morfométricas son buenas
#predictoras de la clasificación Virginica vs Versicolor.