En la actividad anterior concluimos que la longitud y el ancho de los pétalos de las plantas Iris muestran diferencias estadísticamente significativas. En particular, se estableció que las medias siguen el orden:
\[ \mu_{Setosa}<\mu_{Versicolor}<\mu_{Virginica} \]
Asimismo, verificamos que dichas diferencias no son producto del azar, lo que nos permite suponer que, a partir de estas medidas, es posible clasificar cada planta en función de sus características morfológicas.
Con este propósito, procederemos a realizar una clasificación dicotómica. Es decir, primero distinguiremos entre Setosa y no-Setosa.
Esto se motiva a partir de la grafica que relaciona Longitud y Ancho del petalo podemos proponer dos cosas:
Posiblemente la longitud del pétalo, por sí sola, sea suficiente para lograr una clasificación adecuada. Este aspecto lo exploraremos con mayor detalle.
data <- read.csv("a4_iris.csv")
data <- data %>% mutate(variety = as.factor(variety))
ggplot(data, aes(x = petal.length, y = petal.width, color = variety)) +
geom_point(alpha = 0.7, size = 3) +
labs(title = "Relación entre Longitud y Ancho del petalo",
x = "Longitud",
y = "Ancho",
color = "Especie") +
theme_minimal() +
theme(plot.title = element_text(face = "bold", hjust = 0.5))
Comensaremos haciendo la clasificación Setosa vs No-Setosa.
Plantearemos el modelo predictivo y después realizaremos la evaluación del mismo
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 71.379 | 130225.3 | 0.001 | 1 |
| petal.length | -22.292 | 136347.0 | 0.000 | 1 |
| petal.width | -18.834 | 332546.6 | 0.000 | 1 |
Los coeficientes presentan errores estándar sumamente grandes y \(p\)-valores iguales a 1. Esto porque las variables de pétalo separan perfectamente a la especie Setosa de las demás. En regresión logística, este fenómeno se conoce como separación perfecta: el algoritmo de máxima verosimilitud no puede estimar parámetros finitos, y los coeficientes tienden al infinito.
En otras palabras, el modelo logra una clasificación perfecta, pero las estimaciones de los coeficientes carecen de estabilidad estadística.
Explararemos las metricas del modelo:
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## fitting null model for pseudo-r2
| Metrica | Valor |
|---|---|
| Accuracy | 1.0000 |
| Precision | 1.0000 |
| Recall | 1.0000 |
| Specificity | 1.0000 |
| F1 | 1.0000 |
| AUC_ROC | 1.0000 |
| AUC_PR | 1.0000 |
| PseudoR2 | 8.1565 |
Las medidas mostradas nos confirmar de manera contundente que el modelo clasifica absolutamente todas las observaciones de prueba de manera correcta. No hay falsos positivos ni falsos negativos. Cabe resaltar que se utilizo validación simple tomando solo el 50% de los datos.
Ahora exploraremos la suposición de que solo la longiud del petalo es suficiente para clasificar la especie de las plantas. Para esto verificaremos el impacto que tiene el ancho del petalo en el modelo.
| Resid. Df | Resid. Dev | Df | Deviance | Pr(>Chi) | |
|---|---|---|---|---|---|
| Min. :72.00 | Min. :2.540e-09 | Min. :1 | Min. :0 | Min. :1 | |
| 1st Qu.:72.25 | 1st Qu.:2.558e-09 | 1st Qu.:1 | 1st Qu.:0 | 1st Qu.:1 | |
| Median :72.50 | Median :2.576e-09 | Median :1 | Median :0 | Median :1 | |
| Mean :72.50 | Mean :2.576e-09 | Mean :1 | Mean :0 | Mean :1 | |
| 3rd Qu.:72.75 | 3rd Qu.:2.595e-09 | 3rd Qu.:1 | 3rd Qu.:0 | 3rd Qu.:1 | |
| Max. :73.00 | Max. :2.613e-09 | Max. :1 | Max. :0 | Max. :1 | |
| NA | NA | NA’s :1 | NA’s :1 | NA’s :1 |
Lo que observamos es que ambos modelos tienen una devianza residual prácticamente igual a cero la diferencia entre los dos modelos es insignificante y la prueba de razón de verosimilitud indica que añadir el ancho del petalo no mejora significativamente el modelo.
Esto significa que la longitud del petalo por sí sola ya separa perfectamente las clases y al añadir el ancho, el modelo no gana poder explicativo. Por eso el test devuelve un \(p\)-valor = 1: no hay evidencia de que el ancho del petalo aporte información adicional.
Verificaremos si esto es debido a que existe una dependencia lineal entre ambas variables.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -0.3631 | 0.0398 | -9.1312 | 0 |
| petal.length | 0.4158 | 0.0096 | 43.3872 | 0 |
Modelo:
Ancho del Petalo = \(\beta_0 + \beta_1*\)Longitud del Petalo
Muestra un intercepto (\(\beta_0\) = -0.363) Cuando la longitud del pétalo es 0, el ancho esperado es -0.363 (no tiene interpretación biológica directa, pero es parte del ajuste).
Pendiente (\(\beta_1\) = 0.416) Por cada unidad que aumenta la longitud del pétalo, el ancho aumenta en promedio 0.416.
Significancia Ambos coeficientes son altamente significativos (p < 2e-16).
Bondad de ajuste
\(R^2\) = 0.927: el 92.7% de la variabilidad en el ancho del pétalo se explica por la longitud.
Estadistico F = 1882: prueba global del modelo, también muy significativa.
Residuales estandarizado = 0.206: indica que los residuos son pequeños en comparación con la escala de la variable.
\[ \mu_{\text{Setosa}} < \mu_{\text{Versicolor}} < \mu_{\text{Virginica}} \]
Clasificación perfecta de Setosa
vs. No-Setosa.
El modelo logístico logra una clasificación sin errores (Accuracy,
Precision, Recall, Specificity y F1 = 1). Este resultado refleja el
fenómeno de separación perfecta, donde las variables
explicativas separan completamente las clases. Aunque el desempeño es
impecable, los coeficientes carecen de estabilidad estadística.
Suficiencia de la longitud del pétalo. El análisis comparativo entre el modelo completo (longitud + ancho) y el reducido (solo longitud) muestra que el ancho no aporta información adicional. La longitud del pétalo, por sí sola, es suficiente para separar perfectamente las clases.
Dependencia lineal entre ancho y longitud.
El modelo lineal evidencia una relación muy fuerte entre ambas
variables:
\[ \text{Ancho del pétalo} = \beta_0 + \beta_1 \cdot \text{Longitud del pétalo} \]
con \(\beta_1 = 0.416\) altamente significativo y un coeficiente de determinación \(R^2 = 0.927\). Esto explica por qué el ancho resulta redundante respecto a la longitud.
Se ha confirmado que la longitud del pétalo es la variable clave para distinguir a la especie Setosa de las demás, y que el ancho del pétalo no aporta información adicional. La clasificación obtenida es perfecta en el conjunto de prueba, lo que convierte este caso en un ejemplo paradigmático de separación perfecta en regresión logística. Este ejercicio muestra cómo combinar análisis descriptivo, pruebas de significancia y modelos predictivos para llegar a conclusiones sólidas, y al mismo tiempo alerta sobre los riesgos de sobreajuste y la necesidad de validación externa.