library(ade4)
library(factoextra)
library(FactoClass)
library(FactoMineR)
library(missMDA)

data("DogBreeds")
head(DogBreeds)
##      SIZE WEIG SPEE INTE AFFE AGGR FUNC
## bass  sma  lig  low  low  low  hig  hun
## beau  lar  med  hig  med  hig  hig  uti
## boxe  med  med  med  med  hig  hig  com
## buld  sma  lig  low  med  hig  low  com
## bulm  lar  hea  low  hig  low  hig  uti
## cani  sma  lig  med  hig  hig  low  com

Conjunto de datos

Conjunto de datos perros. La base de datos perros contiene 27 razas de perros y 7 variables cualitativas. Las primeras 6 variables son variables activas y la última es una variable suplementaria.

Analisis Descriptivos

summary(DogBreeds)
##   SIZE     WEIG     SPEE     INTE     AFFE     AGGR     FUNC   
##  lar:15   hea: 5   hig: 9   hig: 6   hig:14   hig:13   com:10  
##  med: 5   lig: 8   low:10   low: 8   low:13   low:14   hun: 9  
##  sma: 7   med:14   med: 8   med:13                     uti: 8

Analisis de Corepondencias Multiples (ACM)

res.ACM<-dudi.acm(DogBreeds[,-7],nf=10,scannf = FALSE)
fviz_mca_biplot(res.ACM,repel = TRUE)

Figura 1. Representacion Simultanea ACM

Con base en la figural 1, se observa que el porcentaje de varianza explicado en los dos primeros ejes es del 52%. Ademas se observan algunas tipologias que estam describiendo las asociaciones entre las modalidades, como por ejemplo:

fviz_contrib(res.ACM,choice = "var",axes = 1)

fviz_contrib(res.ACM,choice = "var",axes = 2)

Se puede observar en la figura de las contribuiciones de las variables en la dimension 1, que Weig.lig es la que mas contribuye en esta dimension y se puede apreciar tambien en la siguiente figura que SPEE.low es la variable que mas contribuye en la dimension 2.

boxplot(res.ACM)

Figura 4. Distribucion de modalidades segun el primer eje.

boxplot(res.ACM,2)

Figura 5. Distribucion de modalidades segun el segundo eje.

En los boxplot (figura 4 y 5), se observan las distribuciones de cada una de las modalidades de las variables segun el eje.

Punto 1

  1. ¿Cuántos ejes se generan en el ACM? (p-s)

Se generan 10 ejes, (16 categorias - 6 preguntas). Tambien se puede ver en terminos del numero de valores propios:

##  [1] 0.481606165 0.384737288 0.210954049 0.157554025 0.150132670
##  [6] 0.123295308 0.081462460 0.045669757 0.023541911 0.007713034

Como se observa el resultado del codigo arroja 10 valores propios, lo que coincide con el numero de ejes (p-s).

Punto 2

  1. ¿Qué relación existe entre la Inercia Total, el número de modalidades y el número de variables cualitativas?

R/ La relacion que existe es que la inercia total es el cociente entre el numero de modalidades y el numero de variables cualitativas menos 1. (p/s) - 1. Donde p=16 y s=6. Observemos los resultados a continuacion.

suml<-sum(res.ACM$eig) ##incercia total
suml
## [1] 1.666667
(16/6)-1
## [1] 1.666667

punto 3

  1. ¿Qué similitudes existen entre las razas de perros?

R/ Para estudiar las similitudes que existen entre razas de perros se podria apoyar de los planos factoriales. Ahora, observe la nube de individuos.

fviz_mca_ind(res.ACM, repel = TRUE)

##repel=TRUE hace que las etiquetas no se junten 

Se logra apreciar que las razas de perros que mas similitudes tienen son:

  • Peky y Chih
  • Coll y Podf
  • Podb y Boxe

Sin embargo se puede apreciar que hay muchas mas similitudes entre razas por ejemplo la raza teck y buld, entre otras.

punto 4

  1. Con base a la nube de individuos cuales son los valores excéntricos?
fviz_contrib(res.ACM,choice = "ind",axes = 1:2)    

Según la nube de individuos y el grafico de barras correspondiente a las contribuciones del eje 1-2, los valores mas excentricos son:

  • chih
  • peki
  • dalm
  • labr
  • mast

punto 5

  1. Con base a la nube de variables cuales son las modalidades más asociadas?
fviz_mca_var(res.ACM, repel = TRUE)

como se puede observar en la gráfica anterior, las modalidades más asociadas son:

  • peso ligero y talla pequeña
  • talla grande, agresividad alta y afectividad baja
  • inteligencia media y agresividad baja
  • talla media y velocidad media

punto 6

  1. Coordenadas de la variable suplementaria edad.
##          Dim 1     Dim 2
## FUNC 0.7199769 0.1420568

Observen la tabla anterior, presenta las respectivas coordenadas de la variable suplemetaria edad. Tambien se puede observar su representacion en la nube de variables, donde se incluyen dos variables suplementarias.

punto 7

  1. Realice una interpretación de las contribuciones absolutas y cosenos cuadrados para las modalidades y variables. Los valores excéntricos tienen contribuciones altas?
fviz_contrib(res.ACM,choice = "var",axes = 1:2)

fviz_cos2(res.ACM,choice = "var",axes = 1:2)  

Se observa entonces en la figura de contribuciones que WEIG.lig es la que mas contribuye al plano factorial de dos dimensiones. En la figura de cosenos cuadrados la variable que mas aporta o que es mas representativa en el palno factorial de dos dimensiones es SIZE.lar.

Se podria decir entonces que los valores excentricos son aquellos que tienen contribuciones mas altas pues estan mas alejados del centroide.

punto 8

  1. De la base de datos activa generé un 5% de datos faltantes o no disponibles (NA) y utilice la función impute.MCA para completar la base de datos. Luego realice el ACM y compare el caso de datos completos vs imputación.

Comparando las dos nubes de individuos (Completa y con Datos Faltantes), se observa que la inercia total tiende a ser menor en el ACM de la base de datos faltantes.

punto 9

  1. Cómo se encuentran las coordenadas de la variable suplementaria 7?
ACM=MCA(DogBreeds, ncp =2, ind.sup =7,graph = FALSE)
round(ACM$var$coord[17:19,],2)
##     Dim 1 Dim 2
## com  1.16  0.28
## hun -0.27 -0.81
## uti -1.01  0.60

Este ultimo cuadro corresponde a las coordenadas en dos dimensiones de la variable suplementaria “FUNC”.