El conjunto de datos seleccionado se denomina Mushroom Classification y está disponible en https://www.kaggle.com/datasets/uciml/mushroom-classification. Contiene un total de 8124 registros correspondientes a distintas setas, que especifican, mediante 22 distintas variables cualitativas, las caracteristicas de cada hongo y una columna que indica si es venenoso o comestible.
Para el ACM se seleccionó algunas variables del dataset ya que incluir las 22 generaría demasiadas modalidades, gráficos saturados y ruido en el análisis con resultados difíciles de interpretar. La elección de las variables se hizo analizando cúales realmente diferencian a los hongos, además que tengan un número no muy grande de categorías y que no son redundantes entre sí. Estas permiten captar patrones claros sin distorsionar el análisis. La variable class (comestible/venenoso) se utiliza como suplementaria a fin de permitir interpretar la relación entre las características y la clase sin afectar la estructura del análisis:
##
## =============================
## Variable: gill.color — Demasiadas categorías que indican color
## =============================
##
## b e g h k n o p r u w y
## 1728 96 752 732 408 1048 64 1492 24 492 1202 86
##
## =============================
## Variable: cap.color — Demasiadas categorías que indican color
## =============================
##
## b c e g n p r u w y
## 168 44 1500 1840 2284 144 16 16 1040 1072
##
## =============================
## Variable: veil.type — Una categoría en el 100% de los datos
## =============================
##
## p
## 8124
##
## =============================
## Variable: stalk.root — Valores extraños
## =============================
##
## ? b c e r
## 2480 3776 556 1120 192
Las variables seleccionadas como activas tienen un número manejable de categorías, lo que evita saturar el análisis y permite que cada una aporte información clara sobre diferencias reales entre los hongos. Además, sus frecuencias están bien distribuidas, sin modalidades extremadamente raras o dominantes. Por otro lado, la variable class (comestible/venenoso) se usa como suplementaria porque, aunque está bien balanceada, no debe intervenir en la formación de los ejes.
| Varianza | % Varianza | % Acumulado | |
|---|---|---|---|
| dim 1 | 0.500 | 13.633 | 13.633 |
| dim 2 | 0.348 | 9.495 | 23.127 |
| dim 3 | 0.314 | 8.562 | 31.690 |
| dim 4 | 0.284 | 7.745 | 39.435 |
| dim 5 | 0.269 | 7.326 | 46.760 |
| dim 6 | 0.259 | 7.057 | 53.818 |
| dim 7 | 0.203 | 5.539 | 59.357 |
| dim 8 | 0.170 | 4.642 | 63.999 |
| dim 9 | 0.167 | 4.545 | 68.544 |
| dim 10 | 0.167 | 4.545 | 73.090 |
| dim 11 | 0.157 | 4.280 | 77.370 |
| dim 12 | 0.147 | 4.021 | 81.391 |
| dim 13 | 0.126 | 3.423 | 84.814 |
| dim 14 | 0.120 | 3.275 | 88.089 |
| dim 15 | 0.102 | 2.790 | 90.879 |
| dim 16 | 0.085 | 2.329 | 93.208 |
| dim 17 | 0.083 | 2.275 | 95.483 |
| dim 18 | 0.059 | 1.607 | 97.090 |
| dim 19 | 0.043 | 1.172 | 98.261 |
| dim 20 | 0.032 | 0.866 | 99.127 |
| dim 21 | 0.024 | 0.642 | 99.770 |
| dim 22 | 0.008 | 0.230 | 100.000 |
La Dimensión 1 explica el 13.63% de la inercia total, mientras que la Dimensión 2 aporta un 9.49% y la Dimensión 3 un 8.56%. En conjunto, las tres primeras dimensiones suman un acumulado de varianza del 31.6%. Aunque es un porcentaje bajo, en técnicas como el ACM es normal que cada dimensión explique muy poca varianza, ya que existen varias variables categóricas y a su vez cada una, con muchas modalidades. Por lo tanto, en ACM se prioriza la interpretación de las categorías en vez del acumulado de varianza explicada dado que no es un criterio fuerte. Para este caso en particular se seleccionan las primeras tres dimensiones que tienen mejor capacidad interpretativa.
Para visualizar adecuadamente la nube de individuos en las dimensiones seleccionadas, se tomó una muestra representativa de 500 individuos. Esto se debe a que el conjunto de datos completo es demasiado grande y, su representación en los diferentes gráficos distorsiona los resultados y afecta la interpretación del análisis.
En este gráfico se observa cómo se distribuyen los 500 individuos seleccionados dentro del espacio definido por las dimensiones 1 y 2 del ACM. La mayoría de puntos aparecen concentrados alrededor del centro, lo cual indica que muchos individuos no están fuertemente asociados a ninguna modalidad particular en estas primeras dimensiones. Se observan algunos puntos más alejados del centro, que indican individuos con comportamientos más particulares, pero en general se puede visualizar que no existe una separación muy marcada.
En el gráfico anterior se observa que la dimensión 1 es la que mejor separa a los individuos, mientras que la dimensión 3 no genera grandes contrastes ya que la mayoría de los puntos están cerca del eje horizontal. Por otro lado, se ven puntos extremos en la dimensión 3, los cuales son individuos atípicos, con combinaciones de modalidades particulares por lo que pueden ser de gran importancia en el análisis.
Este gráfico muestra la distribución de los individuos en el plano formado entre la dimensión 2 y 3. Se observa que la mayoría de individuos están cerca al origen, lo que indica que son similares al promedio sin ninguna modalidad distintiva.
Este gráfico muestra cómo se distribuyen las modalidades de todas las variables activas sobre las dimensiones 1 y 2 del ACM.
La dimensión 1 distingue claramente hongos comestibles de hongos venenosos.
Las modalidades cercanas al centro del gráfico representan valores promedio, es decir, categorías que no diferencian fuertemente a los individuos.
En cuanto a la dimensión 2, también introduce una separación entre las modalidades, pero no de forma tan definida como la dimensión 1. Más que agrupar categorías de un mismo tipo, esta dimensión dispersa modalidades diversas, algunas relacionadas con el entorno y otras con características físicas del hongo, sin formar un patrón tan evidente.
En el anterior gráfico:
La dimensión 1 organiza las diferencias principales entre modalidades, especialmente aquellas asociadas al olor, los moretones y algunas condiciones del entorno.
La dimensión 3 aporta una separación muy específica: solo unas pocas modalidades se alejan claramente del centro, como “mohoso”, “baldíos” o “agrupado”, lo que indica que estas categorías representan comportamientos inusuales o poco comunes dentro del conjunto de hongos.
La mayoría de las modalidades se ubican cerca al centro, lo que significa que prácticamente no contribuyen a la dimensión 3 ya que se asemejan mucho al promedio general.
En este gráfico, la mayoría de las categorías se concentran cerca al centro, lo que indica que estas modalidades no aportan una diferenciación fuerte en estas dos dimensiones y representan comportamientos comunes o promedios. Por otro lado, aparecen algunas modalidades muy separadas del resto, como “baldíos”, “mohoso” y “agrupado” lo que sugiere que estas categorías son atípicas y tienen un aporte importante a la estructura de la Dimensión 3.
El biplot de representación simultánea permite visualizar:
La Dimensión 1 separa con claridad dos grupos de modalidades, es decir, a la derecha características más “suaves” o de hongos comestibles, como almendra, anis, praderas, sin moretones, etc, mientras a la izquierda, modalidades asociadas a olores fuertes o condiciones menos favorables, como pescado, especiado, estrechas, creosota, hojarasca,venenosos, etc.
La Dimensión 2 no separa tanto por comestibilidad, sino por otros rasgos más dispersos, asociados a diferencias ambientales y de hábitat, como prados, mohoso, agrupado y baldíos.
Las modalidades cercanas están asociadas entre sí, y los individuos cercanos a una modalidad tienden a presentar ese rasgo.
Las modalidades alejadas del centro indican categorías particulares que aportan bastante información para la interpretación.
Las modalidades que más aportan a la dimensión 1 son estrechas, padros, pescado, con moretones, entre otros, todas por encima delpromedio. Esta dimensión captura diferencias importantes relacionadas con el olor del hongo, el tamaño de las láminas, el hábitat y la presencia de moretones. Estas características son las que más ayudan a distinguir a unos hongos de otros.
Ninguno(valor de olor del hongo), es la modalidad que más aporta a esta dimensión con un poco más del 12%.
Se observa que categorías relacionadas al hábitat y a la población son aquellas que están más relacionadas a la dimensión 2.
Por otro lado, modalidades como pescado, especiado, sin moretones, entre otros tienen valores de contribución muy bajos, por debajo del promedio, lo que indica que no aportan información relevante a la dimensión.
En el gráfico anterior se puede visualizar que agrupado y baldíos son las categorías que más aportan a esta dimensión con alrededor de 36% y 28% respectivamente.
Las modalidades que más aportan a la dimensión 3 son valores de distintas variables como habitat o población por lo cual se puede decir que la dimensión 3 son comportamientos atípicos relacionados a condiciones ambientales inusuales y caracteristicas de crecimiento anormal.
El heatmap permite ver qué individuos aportan más a la construcción de cada dimensión del ACM. En general, se observa que las dimensiones 1 y 2 tienen contribuciones bastante bajas, lo que indica que muchos individuos influyen un poco, pero ninguno domina claramente esos ejes. En cambio, la dimensión 3 muestra contribuciones más altas, donde sobresalen individuos con perfiles muy extremos o inusuales.
En este gráfico se observa qué tan bien están representadas las modalidades de las variables activas en el plano formado por las dimensiones 1 y 2.
Las modalidades estrechas, varios, anchas, agrupado, entre otras son las que mejor se representan en las dimensiones 1 y 2.
Las modalidades creosotota, urbano, fetido, entre otros son las modalidades que no están bien representadas en este plano, por lo que es conveniente interpretarlas mediante otras dimensiones.
En el gráfico anterior se pueden ver que las modalidades mejor representadas en el plano de las dimensiones 1 y 3 son agrupado, baldios, estrechas y anchas.
Respecto a las demás modalidades no presentan un papel importante dentro de estas dimensiones.
Respecto a las gráficas anteriores, que muestran los cosenos cuadrados de los individuos en los planos que se forman entre dimensiones, se puede resaltar que:
La Dimensión 1 capta la mayor parte de la variabilidad individual, y por tanto es la dimensión más importante para describir diferencias entre hongos. Visualmente se puede comprobar porque en los planos donde participa la dimensión 1, se observan puntos rojos(coseno alto) y otros azul oscuro(coseno moderado).
Las dimensiones 2 y 3 explican a pocos individuos, los cuales tienen comportamientos específicos.
En general la mayoría de los individuos, no están bien representados en los planos, lo cual es normal en ACM.
## [1] 0.0499959
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.499866272 13.6327165 13.63272
## dim 2 0.348139769 9.4947210 23.12744
## dim 3 0.313952214 8.5623331 31.68977
## dim 4 0.283977567 7.7448427 39.43461
## dim 5 0.268602523 7.3255233 46.76014
## dim 6 0.258773768 7.0574664 53.81760
## dim 7 0.203095380 5.5389649 59.35657
## dim 8 0.170215793 4.6422489 63.99882
## dim 9 0.166666667 4.5454545 68.54427
## dim 10 0.166666667 4.5454545 73.08973
## dim 11 0.156947320 4.2803815 77.37011
## dim 12 0.147430608 4.0208348 81.39094
## dim 13 0.125527929 3.4234890 84.81443
## dim 14 0.120066805 3.2745492 88.08898
## dim 15 0.102300220 2.7900060 90.87899
## dim 16 0.085405291 2.3292352 93.20822
## dim 17 0.083398481 2.2745040 95.48273
## dim 18 0.058926130 1.6070763 97.08980
## dim 19 0.042957217 1.1715605 98.26136
## dim 20 0.031753066 0.8659927 99.12736
## dim 21 0.023549108 0.6422484 99.76960
## dim 22 0.008447873 0.2303965 100.00000
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.49852073 13.5960199 13.59602
## dim 2 0.34947239 9.5310651 23.12708
## dim 3 0.31323397 8.5427446 31.66983
## dim 4 0.28572053 7.7923780 39.46221
## dim 5 0.27420722 7.4783788 46.94059
## dim 6 0.24805147 6.7650400 53.70563
## dim 7 0.20016253 5.4589781 59.16460
## dim 8 0.17043711 4.6482848 63.81289
## dim 9 0.16696087 4.5534783 68.36637
## dim 10 0.16666961 4.5455347 72.91190
## dim 11 0.15637284 4.2647139 77.17662
## dim 12 0.14928754 4.0714783 81.24809
## dim 13 0.12538497 3.4195900 84.66768
## dim 14 0.11878768 3.2396640 87.90735
## dim 15 0.09597701 2.6175549 90.52490
## dim 16 0.08656418 2.3608413 92.88574
## dim 17 0.08326184 2.2707775 95.15652
## dim 18 0.06182206 1.6860563 96.84258
## dim 19 0.04476503 1.2208643 98.06344
## dim 20 0.03322421 0.9061147 98.96956
## dim 21 0.02393289 0.6527152 99.62227
## dim 22 0.01385000 0.3777272 100.00000
Se puede visualizar de acuerdo a los resultados obtenidos de varianza en cada dimensión que no hay diferencias significativas.
En general se observa que el comportamiento del ACM con los datos originales v/s los datos imputados es similar. Sin embargo, en el conjunto donde se realizó la imputación, se observa un mayor número de individuos concentrados en el centro de los planos, lo cual es normal porque la imputación reduce la dispersión al introducir valores estimados que suelen ser más cercanos al promedio.
Las contribuciones de los individuos y de las modalidades muestran patrones muy similares en ambos conjuntos de datos, con diferencias sutiles. En el caso del conjunto imputado, se observa que un mayor número de individuos aporta a la Dimensión 2, aunque en niveles bajos, lo cual es coherente con la reducción de dispersión generada por la imputación. Asimismo, algunas modalidades incrementaron ligeramente su contribución,en ciertos casos superando el promedio, pero las modalidades que representan los aportes más elevados permanecen prácticamente constantes entre los dos análisis, evidenciando que la estructura general del ACM no se ve alterada de manera significativa por la imputación.