library(readxl)
Actividad1 <- read_excel("C:/Users/christian.figueroa/Desktop/aCTIVIDAD 1 MULTIVARIADO/Actividad1.xlsx")
library(FactoMineR)
library(factoextra)
datos <- Actividad1[,-c(7)]
res.pca = PCA(datos, scale.unit=TRUE, graph=F, quali.sup =7)
eig.val = get_eigenvalue(res.pca)
eig.val
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.1670730 52.784549 52.78455
## Dim.2 0.8186001 13.643335 66.42788
## Dim.3 0.6520363 10.867272 77.29516
## Dim.4 0.5454122 9.090204 86.38536
## Dim.5 0.4712697 7.854495 94.23985
## Dim.6 0.3456088 5.760146 100.00000
Teniendo en cuenta el citerio de Kaiser deberíamos retener la dimensión 1 ya que es la única que tiene un autovalor mayor a 1.
fviz_eig(res.pca, addlabels = TRUE, ylim=c(0,80))
De igual forma con el análisis de la deberiamos retener la primera dimensión ya que posterior a esta dimensión se presenta una estabilización en la varianza.
var <- get_pca_var(res.pca)
var$coord
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## CA 0.6829107 -0.22234079 -0.606261937 0.2681750 0.20561666
## CG 0.7650308 0.08256201 0.293923200 -0.2175448 0.51642295
## FA 0.7746782 0.32319263 -0.202333292 -0.3075086 -0.14387766
## INI 0.7924267 -0.24130130 -0.005318218 -0.2929322 -0.33477453
## M 0.6520990 0.58007592 0.157867217 0.4184200 -0.14083864
## ME 0.6798045 -0.51301100 0.363597045 0.2659370 -0.09843031
fviz_pca_var(res.pca, col.var = "black")
var$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## CA 0.4663670 0.049435429 3.675535e-01 0.07191786 0.042278212
## CG 0.5852721 0.006816485 8.639085e-02 0.04732576 0.266692661
## FA 0.6001264 0.104453479 4.093876e-02 0.09456155 0.020700781
## INI 0.6279401 0.058226316 2.828344e-05 0.08580927 0.112073987
## M 0.4252331 0.336488076 2.492206e-02 0.17507531 0.019835522
## ME 0.4621342 0.263180290 1.322028e-01 0.07072247 0.009688526
fviz_pca_var(res.pca, col.var="cos2",
gradient.cols=c("#00AFBB","#E7B800","#FC4E07"),
repel = TRUE)
Teniendo en cuenta tanto el circulo de correlación, podemos deterinar que las variables INI, FA y CG son las que mas representan la dimensión 1, y teniendo en cuenta el análisis de coseno al cuadrado podemos determinar que las variable que mejor representan las dimensiones 1 y 2 son: M, Me, FA y INI.
var$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## CA 14.72549 6.0390208 56.37010359 13.185964 8.971129
## CG 18.47991 0.8327002 13.24939241 8.677063 56.590243
## FA 18.94893 12.7600133 6.27860153 17.337629 4.392555
## INI 19.82714 7.1129136 0.00433771 15.732920 23.781285
## M 13.42669 41.1053073 3.82218879 32.099632 4.208954
## ME 14.59184 32.1500447 20.27537596 12.966792 2.055835
fviz_contrib(res.pca,choice = "var",axes = 1, top=10)
El analisis de la contribución de las variable nos permite determinar que las variable que mas aportan a la dimensión 1 son INI, FA, CG.
fviz_pca_biplot(res.pca, axes = c(1, 2), repel = TRUE, habillage=7) # biplot
## Warning: ggrepel: 7 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Teniendo en cuenta el gráfico se puede determinar que los resultados en la dimensión 1 tienden más a ser positivos en comparación con la dimensión 2 en la que existe mayor distribución de resultados positivos y negativos, también se puede evidenciar de la misma manera que existen mayor cantidad de datos atipicos en la dimensión 1.
Teniendo en cuenta el gráfico no podemos deterinar algun tipo de aglomeración de datos si nos basamos en la variable sede.