En la actividad anterior concluimos que la longitud y el ancho de los pétalos de las plantas Iris muestran diferencias estadísticamente significativas. En particular, se estableció que las medias siguen el orden:

\[ \mu_{Setosa}<\mu_{Versicolor}<\mu_{Virginica} \]

Asimismo, verificamos que dichas diferencias no son producto del azar, lo que nos permite suponer que, a partir de estas medidas, es posible clasificar cada planta en función de sus características morfológicas.

Con este propósito, procederemos a realizar una clasificación dicotómica. Es decir, primero distinguiremos entre Setosa y no-Setosa.

Esto se motiva a partir de la grafica que relaciona Longitud y Ancho del petalo podemos proponer dos cosas:

Posiblemente la longitud del pétalo, por sí sola, sea suficiente para lograr una clasificación adecuada. Este aspecto lo exploraremos con mayor detalle.

data <- read.csv("a4_iris.csv")
data <- data %>% mutate(variety = as.factor(variety))
ggplot(data, aes(x = petal.length, y = petal.width, color = variety)) +
  geom_point(alpha = 0.7, size = 3) +
  labs(title = "Relación entre Longitud y Ancho del petalo",
       x = "Longitud",
       y = "Ancho",
       color = "Especie") +
  theme_minimal() +
  theme(plot.title = element_text(face = "bold", hjust = 0.5))

Clasificación

Comensaremos haciendo la clasificación Setosa vs No-Setosa.

Plantearemos el modelo predictivo y después realizaremos la evaluación del mismo

Resumen del modelo logístico Setosa vs No-Setosa
term estimate std.error statistic p.value
(Intercept) 71.379 130225.3 0.001 1
petal.length -22.292 136347.0 0.000 1
petal.width -18.834 332546.6 0.000 1

Los coeficientes presentan errores estándar sumamente grandes y \(p\)-valores iguales a 1. Esto porque las variables de pétalo separan perfectamente a la especie Setosa de las demás. En regresión logística, este fenómeno se conoce como separación perfecta: el algoritmo de máxima verosimilitud no puede estimar parámetros finitos, y los coeficientes tienden al infinito.

En otras palabras, el modelo logra una clasificación perfecta, pero las estimaciones de los coeficientes carecen de estabilidad estadística.

Explararemos las metricas del modelo:

## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## fitting null model for pseudo-r2
Resumen de métricas (promedio por métrica)
Metrica Valor
Accuracy 1.0000
Precision 1.0000
Recall 1.0000
Specificity 1.0000
F1 1.0000
AUC_ROC 1.0000
AUC_PR 1.0000
PseudoR2 8.1565

Las medidas mostradas nos confirmar de manera contundente que el modelo clasifica absolutamente todas las observaciones de prueba de manera correcta. No hay falsos positivos ni falsos negativos. Cabe resaltar que se utilizo validación simple tomando solo el 50% de los datos.

Ahora exploraremos la suposición de que solo la longiud del petalo es suficiente para clasificar la especie de las plantas. Para esto verificaremos el impacto que tiene el ancho del petalo en el modelo.

Comparación de modelos logísticos (Setosa vs No-Setosa)
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
Min. :72.00 Min. :2.540e-09 Min. :1 Min. :0 Min. :1
1st Qu.:72.25 1st Qu.:2.558e-09 1st Qu.:1 1st Qu.:0 1st Qu.:1
Median :72.50 Median :2.576e-09 Median :1 Median :0 Median :1
Mean :72.50 Mean :2.576e-09 Mean :1 Mean :0 Mean :1
3rd Qu.:72.75 3rd Qu.:2.595e-09 3rd Qu.:1 3rd Qu.:0 3rd Qu.:1
Max. :73.00 Max. :2.613e-09 Max. :1 Max. :0 Max. :1
NA NA NA’s :1 NA’s :1 NA’s :1

Lo que observamos es que ambos modelos tienen una devianza residual prácticamente igual a cero la diferencia entre los dos modelos es insignificante y la prueba de razón de verosimilitud indica que añadir el ancho del petalo no mejora significativamente el modelo.

Esto significa que la longitud del petalo por sí sola ya separa perfectamente las clases y al añadir el ancho, el modelo no gana poder explicativo. Por eso el test devuelve un \(p\)-valor = 1: no hay evidencia de que el ancho del petalo aporte información adicional.

Verificaremos si esto es debido a que existe una dependencia lineal entre ambas variables.

Coeficientes del modelo lineal: Petal Width ~ Petal Length
Estimate Std. Error t value Pr(>&#124;t&#124;)
(Intercept) -0.3631 0.0398 -9.1312 0
petal.length 0.4158 0.0096 43.3872 0

Modelo:

Ancho del Petalo = \(\beta_0 + \beta_1*\)Longitud del Petalo

Muestra un intercepto (\(\beta_0\) = -0.363) Cuando la longitud del pétalo es 0, el ancho esperado es -0.363 (no tiene interpretación biológica directa, pero es parte del ajuste).

Pendiente (\(\beta_1\) = 0.416) Por cada unidad que aumenta la longitud del pétalo, el ancho aumenta en promedio 0.416.

Significancia Ambos coeficientes son altamente significativos (p < 2e-16).

Bondad de ajuste

\(R^2\) = 0.927: el 92.7% de la variabilidad en el ancho del pétalo se explica por la longitud.

Estadistico F = 1882: prueba global del modelo, también muy significativa.

Residuales estandarizado = 0.206: indica que los residuos son pequeños en comparación con la escala de la variable.

Conclusiones

\[ \mu_{\text{Setosa}} < \mu_{\text{Versicolor}} < \mu_{\text{Virginica}} \]

Se ha confirmado que la longitud del pétalo es la variable clave para distinguir a la especie Setosa de las demás, y que el ancho del pétalo no aporta información adicional. La clasificación obtenida es perfecta en el conjunto de prueba, lo que convierte este caso en un ejemplo paradigmático de separación perfecta en regresión logística. Este ejercicio muestra cómo combinar análisis descriptivo, pruebas de significancia y modelos predictivos para llegar a conclusiones sólidas, y al mismo tiempo alerta sobre los riesgos de sobreajuste y la necesidad de validación externa.