a5_Toribio_Elguera

En la actividad anterior concluimos que la longitud y el ancho de los pétalos de las plantas Iris muestran diferencias estadísticamente significativas. En particular, se estableció que las medias siguen el orden:

\[ \mu_{Setosa}<\mu_{Versicolor}<\mu_{Virginica} \]

Asimismo, verificamos que dichas diferencias no son producto del azar, lo que nos permite suponer que, a partir de estas medidas, es posible clasificar cada planta en función de sus características morfológicas.

Con este propósito, procederemos a realizar una clasificación dicotómica. Es decir, primero distinguiremos entre Setosa y no-Setosa.

Esto se motiva a partir de la grafica que relaciona Longitud y Ancho del petalo podemos proponer dos cosas:

Que el Ancho del petalo se puede explicar en función de la Longitud del petalo
Se pueden utilizar ambos para clasificar la planta en función del ancho y longitud del petalo.

Posiblemente la longitud del pétalo, por sí sola, sea suficiente para lograr una clasificación adecuada. Este aspecto lo exploraremos con mayor detalle.

data <- read.csv("a4_iris.csv")
data <- data %>% mutate(variety = as.factor(variety))
ggplot(data, aes(x = petal.length, y = petal.width, color = variety)) +
  geom_point(alpha = 0.7, size = 3) +
  labs(title = "Relación entre Longitud y Ancho del petalo",
       x = "Longitud",
       y = "Ancho",
       color = "Especie") +
  theme_minimal() +
  theme(plot.title = element_text(face = "bold", hjust = 0.5))

Clasificación

Comensaremos haciendo la clasificación Setosa vs No-Setosa.

Plantearemos el modelo predictivo y después realizaremos la evaluación del mismo

Resumen del modelo logístico Setosa vs No-Setosa
term	estimate	std.error	statistic	p.value
(Intercept)	71.379	130225.3	0.001	1
petal.length	-22.292	136347.0	0.000	1
petal.width	-18.834	332546.6	0.000	1

Los coeficientes presentan errores estándar sumamente grandes y \(p\)-valores iguales a 1. Esto porque las variables de pétalo separan perfectamente a la especie Setosa de las demás. En regresión logística, este fenómeno se conoce como separación perfecta: el algoritmo de máxima verosimilitud no puede estimar parámetros finitos, y los coeficientes tienden al infinito.

En otras palabras, el modelo logra una clasificación perfecta, pero las estimaciones de los coeficientes carecen de estabilidad estadística.

Explararemos las metricas del modelo:

## Setting levels: control = 0, case = 1

## Setting direction: controls < cases

## fitting null model for pseudo-r2

Resumen de métricas (promedio por métrica)
Metrica	Valor
Accuracy	1.0000
Precision	1.0000
Recall	1.0000
Specificity	1.0000
F1	1.0000
AUC_ROC	1.0000
AUC_PR	1.0000
PseudoR2	8.1565

Las medidas mostradas nos confirmar de manera contundente que el modelo clasifica absolutamente todas las observaciones de prueba de manera correcta. No hay falsos positivos ni falsos negativos. Cabe resaltar que se utilizo validación simple tomando solo el 50% de los datos.

Ahora exploraremos la suposición de que solo la longiud del petalo es suficiente para clasificar la especie de las plantas. Para esto verificaremos el impacto que tiene el ancho del petalo en el modelo.

Comparación de modelos logísticos (Setosa vs No-Setosa)
Resid. Df	Resid. Dev	Df	Deviance	Pr(>Chi)
Min. :72.00	Min. :2.540e-09	Min. :1	Min. :0	Min. :1
1st Qu.:72.25	1st Qu.:2.558e-09	1st Qu.:1	1st Qu.:0	1st Qu.:1
Median :72.50	Median :2.576e-09	Median :1	Median :0	Median :1
Mean :72.50	Mean :2.576e-09	Mean :1	Mean :0	Mean :1
3rd Qu.:72.75	3rd Qu.:2.595e-09	3rd Qu.:1	3rd Qu.:0	3rd Qu.:1
Max. :73.00	Max. :2.613e-09	Max. :1	Max. :0	Max. :1
NA	NA	NA’s :1	NA’s :1	NA’s :1

Lo que observamos es que ambos modelos tienen una devianza residual prácticamente igual a cero la diferencia entre los dos modelos es insignificante y la prueba de razón de verosimilitud indica que añadir el ancho del petalo no mejora significativamente el modelo.

Esto significa que la longitud del petalo por sí sola ya separa perfectamente las clases y al añadir el ancho, el modelo no gana poder explicativo. Por eso el test devuelve un \(p\)-valor = 1: no hay evidencia de que el ancho del petalo aporte información adicional.

Verificaremos si esto es debido a que existe una dependencia lineal entre ambas variables.

Coeficientes del modelo lineal: Petal Width ~ Petal Length
	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	-0.3631	0.0398	-9.1312	0
petal.length	0.4158	0.0096	43.3872	0

Modelo:

Ancho del Petalo = \(\beta_0 + \beta_1*\)Longitud del Petalo

Muestra un intercepto (\(\beta_0\) = -0.363) Cuando la longitud del pétalo es 0, el ancho esperado es -0.363 (no tiene interpretación biológica directa, pero es parte del ajuste).

Pendiente (\(\beta_1\) = 0.416) Por cada unidad que aumenta la longitud del pétalo, el ancho aumenta en promedio 0.416.

Significancia Ambos coeficientes son altamente significativos (p < 2e-16).

Bondad de ajuste

\(R^2\) = 0.927: el 92.7% de la variabilidad en el ancho del pétalo se explica por la longitud.

Estadistico F = 1882: prueba global del modelo, también muy significativa.

Residuales estandarizado = 0.206: indica que los residuos son pequeños en comparación con la escala de la variable.

Conclusiones

Separación morfológica clara entre especies. La longitud y el ancho de los pétalos permiten distinguir de manera estadísticamente significativa a las tres especies de Iris. El orden de las medias confirma la progresión morfológica:

\[ \mu_{\text{Setosa}} < \mu_{\text{Versicolor}} < \mu_{\text{Virginica}} \]

Clasificación perfecta de Setosa vs. No-Setosa.
El modelo logístico logra una clasificación sin errores (Accuracy, Precision, Recall, Specificity y F1 = 1). Este resultado refleja el fenómeno de separación perfecta, donde las variables explicativas separan completamente las clases. Aunque el desempeño es impecable, los coeficientes carecen de estabilidad estadística.
Suficiencia de la longitud del pétalo. El análisis comparativo entre el modelo completo (longitud + ancho) y el reducido (solo longitud) muestra que el ancho no aporta información adicional. La longitud del pétalo, por sí sola, es suficiente para separar perfectamente las clases.
Dependencia lineal entre ancho y longitud.
El modelo lineal evidencia una relación muy fuerte entre ambas variables:

\[ \text{Ancho del pétalo} = \beta_0 + \beta_1 \cdot \text{Longitud del pétalo} \]

con \(\beta_1 = 0.416\) altamente significativo y un coeficiente de determinación \(R^2 = 0.927\). Esto explica por qué el ancho resulta redundante respecto a la longitud.

Se ha confirmado que la longitud del pétalo es la variable clave para distinguir a la especie Setosa de las demás, y que el ancho del pétalo no aporta información adicional. La clasificación obtenida es perfecta en el conjunto de prueba, lo que convierte este caso en un ejemplo paradigmático de separación perfecta en regresión logística. Este ejercicio muestra cómo combinar análisis descriptivo, pruebas de significancia y modelos predictivos para llegar a conclusiones sólidas, y al mismo tiempo alerta sobre los riesgos de sobreajuste y la necesidad de validación externa.

a5_Toribio_Elguera

Vicente Heriberto Toribio Elguera

2025-11-30

Clasificación

Conclusiones