datos <- read.csv("/Users/pilarmendez/Downloads/a4_iris_limpia.csv")
# ==========================================================
# MODELO 3: Regresión logística (Versicolor vs Virginica)
# ==========================================================
# Pregunta:
# ¿Pueden las medidas del sépalo y el pétalo predecir si una flor
# es Virginica en comparación con Versicolor?
# Filtramos solo estas dos especies
sub <- datos[datos$Variedad %in% c("Versicolor", "Virginica"), ]
# Variable binaria: 1 = virginica, 0 = versicolor
sub$es_Virginica <- ifelse(sub$Variedad == "Virginica", 1, 0)
# Ajustamos el modelo logístico
modelo_log_vv <- glm(es_Virginica ~ Sepalo_largo + Sepalo_ancho +
Petalo_largo + Petalo_ancho,
data = sub,
family = binomial)
summary(modelo_log_vv)
##
## Call:
## glm(formula = es_Virginica ~ Sepalo_largo + Sepalo_ancho + Petalo_largo +
## Petalo_ancho, family = binomial, data = sub)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -42.638 25.707 -1.659 0.0972 .
## Sepalo_largo -2.465 2.394 -1.030 0.3032
## Sepalo_ancho -6.681 4.480 -1.491 0.1359
## Petalo_largo 9.429 4.737 1.991 0.0465 *
## Petalo_ancho 18.286 9.743 1.877 0.0605 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 138.629 on 99 degrees of freedom
## Residual deviance: 11.899 on 95 degrees of freedom
## AIC: 21.899
##
## Number of Fisher Scoring iterations: 10
# ==========================================================
# Predicciones y matriz de confusión
# ==========================================================
pred_vv <- predict(modelo_log_vv, type = "response")
clase_pred_vv <- ifelse(pred_vv > 0.5, 1, 0)
table(Real = sub$es_Virginica, Predicho = clase_pred_vv)
## Predicho
## Real 0 1
## 0 49 1
## 1 1 49
# ==========================================================
# Métricas del modelo
# ==========================================================
AIC(modelo_log_vv)
## [1] 21.89855
# ==========================================================
# Conclusiones del modelo logístico (Versicolor vs Virginica)
# ==========================================================
#Este modelo logístico compara únicamente las flores Versicolor y Virginica.
#La variable respuesta (1 = Virginica) se modela usando las medidas morfológicas
#del sépalo y el pétalo.
#Los coeficientes indican cómo cada centímetro de diferencia en las dimensiones
#aumenta o disminuye las probabilidades de que la flor sea Virginica. En general,
#las variables de pétalo suelen ser las más fuertes discriminantes entre
#Versicolor y Virginica.
#El AIC permite evaluar la eficiencia del modelo, y la matriz de confusión
#indica qué tan bien clasifica el modelo a las flores en una u otra especie.
#En conjunto, el modelo es adecuado para diferenciar entre estas dos especies
#del conjunto de datos, mostrando que las medidas morfométricas son buenas
#predictoras de la clasificación Virginica vs Versicolor.