library(ade4)
library(factoextra)
library(FactoClass)
library(FactoMineR)
library(missMDA)
data("DogBreeds")
head(DogBreeds)
## SIZE WEIG SPEE INTE AFFE AGGR FUNC
## bass sma lig low low low hig hun
## beau lar med hig med hig hig uti
## boxe med med med med hig hig com
## buld sma lig low med hig low com
## bulm lar hea low hig low hig uti
## cani sma lig med hig hig low com
Conjunto de datos perros. La base de datos perros contiene 27 razas de perros y 7 variables cualitativas. Las primeras 6 variables son variables activas y la última es una variable suplementaria.
summary(DogBreeds)
## SIZE WEIG SPEE INTE AFFE AGGR FUNC
## lar:15 hea: 5 hig: 9 hig: 6 hig:14 hig:13 com:10
## med: 5 lig: 8 low:10 low: 8 low:13 low:14 hun: 9
## sma: 7 med:14 med: 8 med:13 uti: 8
res.ACM<-dudi.acm(DogBreeds[,-7],nf=10,scannf = FALSE)
fviz_mca_biplot(res.ACM,repel = TRUE)
Figura 1. Representacion Simultanea ACM
Con base en la figural 1, se observa que el porcentaje de varianza explicado en los dos primeros ejes es del 52%. Ademas se observan algunas tipologias que estam describiendo las asociaciones entre las modalidades, como por ejemplo:
fviz_contrib(res.ACM,choice = "var",axes = 1)
fviz_contrib(res.ACM,choice = "var",axes = 2)
Se puede observar en la figura de las contribuiciones de las variables en la dimension 1, que Weig.lig es la que mas contribuye en esta dimension y se puede apreciar tambien en la siguiente figura que SPEE.low es la variable que mas contribuye en la dimension 2.
boxplot(res.ACM)
Figura 4. Distribucion de modalidades segun el primer eje.
boxplot(res.ACM,2)
Figura 5. Distribucion de modalidades segun el segundo eje.
En los boxplot (figura 4 y 5), se observan las distribuciones de cada una de las modalidades de las variables segun el eje.
Se generan 10 ejes, (16 categorias - 6 preguntas). Tambien se puede ver en terminos del numero de valores propios:
## [1] 0.481606165 0.384737288 0.210954049 0.157554025 0.150132670
## [6] 0.123295308 0.081462460 0.045669757 0.023541911 0.007713034
Como se observa el resultado del codigo arroja 10 valores propios, lo que coincide con el numero de ejes (p-s).
R/ La relacion que existe es que la inercia total es el cociente entre el numero de modalidades y el numero de variables cualitativas menos 1. (p/s) - 1. Donde p=16 y s=6. Observemos los resultados a continuacion.
suml<-sum(res.ACM$eig) ##incercia total
suml
## [1] 1.666667
(16/6)-1
## [1] 1.666667
R/ Para estudiar las similitudes que existen entre razas de perros se podria apoyar de los planos factoriales. Ahora, observe la nube de individuos.
fviz_mca_ind(res.ACM, repel = TRUE)
##repel=TRUE hace que las etiquetas no se junten
Se logra apreciar que las razas de perros que mas similitudes tienen son:
Sin embargo se puede apreciar que hay muchas mas similitudes entre razas por ejemplo la raza teck y buld, entre otras.
fviz_contrib(res.ACM,choice = "ind",axes = 1:2)
Según la nube de individuos y el grafico de barras correspondiente a las contribuciones del eje 1-2, los valores mas excentricos son:
fviz_mca_var(res.ACM, repel = TRUE)
como se puede observar en la gráfica anterior, las modalidades más asociadas son:
## Dim 1 Dim 2
## FUNC 0.7199769 0.1420568
Observen la tabla anterior, presenta las respectivas coordenadas de la variable suplemetaria edad. Tambien se puede observar su representacion en la nube de variables, donde se incluyen dos variables suplementarias.
fviz_contrib(res.ACM,choice = "var",axes = 1:2)
fviz_cos2(res.ACM,choice = "var",axes = 1:2)
Se observa entonces en la figura de contribuciones que WEIG.lig es la que mas contribuye al plano factorial de dos dimensiones. En la figura de cosenos cuadrados la variable que mas aporta o que es mas representativa en el palno factorial de dos dimensiones es SIZE.lar.
Se podria decir entonces que los valores excentricos son aquellos que tienen contribuciones mas altas pues estan mas alejados del centroide.
Comparando las dos nubes de individuos (Completa y con Datos Faltantes), se observa que la inercia total tiende a ser menor en el ACM de la base de datos faltantes.
ACM=MCA(DogBreeds, ncp =2, ind.sup =7,graph = FALSE)
round(ACM$var$coord[17:19,],2)
## Dim 1 Dim 2
## com 1.16 0.28
## hun -0.27 -0.81
## uti -1.01 0.60
Este ultimo cuadro corresponde a las coordenadas en dos dimensiones de la variable suplementaria “FUNC”.