Descripción general del dataset

El conjunto de datos seleccionado se denomina Mushroom Classification y está disponible en https://www.kaggle.com/datasets/uciml/mushroom-classification. Contiene un total de 8124 registros correspondientes a distintas setas, que especifican, mediante 22 distintas variables cualitativas, las caracteristicas de cada hongo y una columna que indica si es venenoso o comestible.

Especificación de las variables

Selección de variables

Para el ACM se seleccionó algunas variables del dataset ya que incluir las 22 generaría demasiadas modalidades, gráficos saturados y ruido en el análisis con resultados difíciles de interpretar. La elección de las variables se hizo analizando cúales realmente diferencian a los hongos, además que tengan un número no muy grande de categorías y que no son redundantes entre sí. Estas permiten captar patrones claros sin distorsionar el análisis. La variable class (comestible/venenoso) se utiliza como suplementaria a fin de permitir interpretar la relación entre las características y la clase sin afectar la estructura del análisis:

Ejemplos de variables no seleccionadas

## 
## =============================
##  Variable: gill.color  —  Demasiadas categorías que indican color 
## =============================
## 
##    b    e    g    h    k    n    o    p    r    u    w    y 
## 1728   96  752  732  408 1048   64 1492   24  492 1202   86 
## 
## =============================
##  Variable: cap.color  —  Demasiadas categorías que indican color 
## =============================
## 
##    b    c    e    g    n    p    r    u    w    y 
##  168   44 1500 1840 2284  144   16   16 1040 1072 
## 
## =============================
##  Variable: veil.type  —  Una categoría en el 100% de los datos 
## =============================
## 
##    p 
## 8124 
## 
## =============================
##  Variable: stalk.root  —  Valores extraños 
## =============================
## 
##    ?    b    c    e    r 
## 2480 3776  556 1120  192

Variables escogidas para ACM

Las variables seleccionadas como activas tienen un número manejable de categorías, lo que evita saturar el análisis y permite que cada una aporte información clara sobre diferencias reales entre los hongos. Además, sus frecuencias están bien distribuidas, sin modalidades extremadamente raras o dominantes. Por otro lado, la variable class (comestible/venenoso) se usa como suplementaria porque, aunque está bien balanceada, no debe intervenir en la formación de los ejes.

Análisis de Correspondencia Múltiple

Valores propios y varianza explicada por cada dimensión
Varianza % Varianza % Acumulado
dim 1 0.500 13.633 13.633
dim 2 0.348 9.495 23.127
dim 3 0.314 8.562 31.690
dim 4 0.284 7.745 39.435
dim 5 0.269 7.326 46.760
dim 6 0.259 7.057 53.818
dim 7 0.203 5.539 59.357
dim 8 0.170 4.642 63.999
dim 9 0.167 4.545 68.544
dim 10 0.167 4.545 73.090
dim 11 0.157 4.280 77.370
dim 12 0.147 4.021 81.391
dim 13 0.126 3.423 84.814
dim 14 0.120 3.275 88.089
dim 15 0.102 2.790 90.879
dim 16 0.085 2.329 93.208
dim 17 0.083 2.275 95.483
dim 18 0.059 1.607 97.090
dim 19 0.043 1.172 98.261
dim 20 0.032 0.866 99.127
dim 21 0.024 0.642 99.770
dim 22 0.008 0.230 100.000

La Dimensión 1 explica el 13.63% de la inercia total, mientras que la Dimensión 2 aporta un 9.49% y la Dimensión 3 un 8.56%. En conjunto, las tres primeras dimensiones suman un acumulado de varianza del 31.6%. Aunque es un porcentaje bajo, en técnicas como el ACM es normal que cada dimensión explique muy poca varianza, ya que existen varias variables categóricas y a su vez cada una, con muchas modalidades. Por lo tanto, en ACM se prioriza la interpretación de las categorías en vez del acumulado de varianza explicada dado que no es un criterio fuerte. Para este caso en particular se seleccionan las primeras tres dimensiones que tienen mejor capacidad interpretativa.

Representación Nube de individuos

Para visualizar adecuadamente la nube de individuos en las dimensiones seleccionadas, se tomó una muestra representativa de 500 individuos. Esto se debe a que el conjunto de datos completo es demasiado grande y, su representación en los diferentes gráficos distorsiona los resultados y afecta la interpretación del análisis.

En este gráfico se observa cómo se distribuyen los 500 individuos seleccionados dentro del espacio definido por las dimensiones 1 y 2 del ACM. La mayoría de puntos aparecen concentrados alrededor del centro, lo cual indica que muchos individuos no están fuertemente asociados a ninguna modalidad particular en estas primeras dimensiones. Se observan algunos puntos más alejados del centro, que indican individuos con comportamientos más particulares, pero en general se puede visualizar que no existe una separación muy marcada.

En el gráfico anterior se observa que la dimensión 1 es la que mejor separa a los individuos, mientras que la dimensión 3 no genera grandes contrastes ya que la mayoría de los puntos están cerca del eje horizontal. Por otro lado, se ven puntos extremos en la dimensión 3, los cuales son individuos atípicos, con combinaciones de modalidades particulares por lo que pueden ser de gran importancia en el análisis.

Este gráfico muestra la distribución de los individuos en el plano formado entre la dimensión 2 y 3. Se observa que la mayoría de individuos están cerca al origen, lo que indica que son similares al promedio sin ninguna modalidad distintiva.

Representación Nube de variables

Este gráfico muestra cómo se distribuyen las modalidades de todas las variables activas sobre las dimensiones 1 y 2 del ACM.

En el anterior gráfico:

En este gráfico, la mayoría de las categorías se concentran cerca al centro, lo que indica que estas modalidades no aportan una diferenciación fuerte en estas dos dimensiones y representan comportamientos comunes o promedios. Por otro lado, aparecen algunas modalidades muy separadas del resto, como “baldíos”, “mohoso” y “agrupado” lo que sugiere que estas categorías son atípicas y tienen un aporte importante a la estructura de la Dimensión 3.

Biplot Representación Simultánea

El biplot de representación simultánea permite visualizar:

Síntesis de resultados

Las modalidades que más aportan a la dimensión 1 son estrechas, padros, pescado, con moretones, entre otros, todas por encima delpromedio. Esta dimensión captura diferencias importantes relacionadas con el olor del hongo, el tamaño de las láminas, el hábitat y la presencia de moretones. Estas características son las que más ayudan a distinguir a unos hongos de otros.

El heatmap permite ver qué individuos aportan más a la construcción de cada dimensión del ACM. En general, se observa que las dimensiones 1 y 2 tienen contribuciones bastante bajas, lo que indica que muchos individuos influyen un poco, pero ninguno domina claramente esos ejes. En cambio, la dimensión 3 muestra contribuciones más altas, donde sobresalen individuos con perfiles muy extremos o inusuales.

Respecto a las gráficas anteriores, que muestran los cosenos cuadrados de los individuos en los planos que se forman entre dimensiones, se puede resaltar que:

Imputación de datos faltantes

## [1] 0.0499959
##         eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.499866272             13.6327165                          13.63272
## dim 2  0.348139769              9.4947210                          23.12744
## dim 3  0.313952214              8.5623331                          31.68977
## dim 4  0.283977567              7.7448427                          39.43461
## dim 5  0.268602523              7.3255233                          46.76014
## dim 6  0.258773768              7.0574664                          53.81760
## dim 7  0.203095380              5.5389649                          59.35657
## dim 8  0.170215793              4.6422489                          63.99882
## dim 9  0.166666667              4.5454545                          68.54427
## dim 10 0.166666667              4.5454545                          73.08973
## dim 11 0.156947320              4.2803815                          77.37011
## dim 12 0.147430608              4.0208348                          81.39094
## dim 13 0.125527929              3.4234890                          84.81443
## dim 14 0.120066805              3.2745492                          88.08898
## dim 15 0.102300220              2.7900060                          90.87899
## dim 16 0.085405291              2.3292352                          93.20822
## dim 17 0.083398481              2.2745040                          95.48273
## dim 18 0.058926130              1.6070763                          97.08980
## dim 19 0.042957217              1.1715605                          98.26136
## dim 20 0.031753066              0.8659927                          99.12736
## dim 21 0.023549108              0.6422484                          99.76960
## dim 22 0.008447873              0.2303965                         100.00000
##        eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.49852073             13.5960199                          13.59602
## dim 2  0.34947239              9.5310651                          23.12708
## dim 3  0.31323397              8.5427446                          31.66983
## dim 4  0.28572053              7.7923780                          39.46221
## dim 5  0.27420722              7.4783788                          46.94059
## dim 6  0.24805147              6.7650400                          53.70563
## dim 7  0.20016253              5.4589781                          59.16460
## dim 8  0.17043711              4.6482848                          63.81289
## dim 9  0.16696087              4.5534783                          68.36637
## dim 10 0.16666961              4.5455347                          72.91190
## dim 11 0.15637284              4.2647139                          77.17662
## dim 12 0.14928754              4.0714783                          81.24809
## dim 13 0.12538497              3.4195900                          84.66768
## dim 14 0.11878768              3.2396640                          87.90735
## dim 15 0.09597701              2.6175549                          90.52490
## dim 16 0.08656418              2.3608413                          92.88574
## dim 17 0.08326184              2.2707775                          95.15652
## dim 18 0.06182206              1.6860563                          96.84258
## dim 19 0.04476503              1.2208643                          98.06344
## dim 20 0.03322421              0.9061147                          98.96956
## dim 21 0.02393289              0.6527152                          99.62227
## dim 22 0.01385000              0.3777272                         100.00000

Se puede visualizar de acuerdo a los resultados obtenidos de varianza en cada dimensión que no hay diferencias significativas.

Comparación gráfica

En general se observa que el comportamiento del ACM con los datos originales v/s los datos imputados es similar. Sin embargo, en el conjunto donde se realizó la imputación, se observa un mayor número de individuos concentrados en el centro de los planos, lo cual es normal porque la imputación reduce la dispersión al introducir valores estimados que suelen ser más cercanos al promedio.

Las contribuciones de los individuos y de las modalidades muestran patrones muy similares en ambos conjuntos de datos, con diferencias sutiles. En el caso del conjunto imputado, se observa que un mayor número de individuos aporta a la Dimensión 2, aunque en niveles bajos, lo cual es coherente con la reducción de dispersión generada por la imputación. Asimismo, algunas modalidades incrementaron ligeramente su contribución,en ciertos casos superando el promedio, pero las modalidades que representan los aportes más elevados permanecen prácticamente constantes entre los dos análisis, evidenciando que la estructura general del ACM no se ve alterada de manera significativa por la imputación.