Descripción de la base de datos

1. CA: Cátedra.
2. CG: Contabilidad general.
3. FA: Fundamentos de administración.
4. INI: Introducción a los negocios internacionales.
5. M: Matemáticas.
6. Me: Métodos de estudio.
7. Promedio fallas: Fallas promedio de las asignaturas.
8. Sede.
library(readxl)
Actividad1 <- read_excel("C:/Users/christian.figueroa/Desktop/aCTIVIDAD 1 MULTIVARIADO/Actividad1.xlsx")

1. Porcentaje de varianza.

library(FactoMineR)
library(factoextra)
datos <- Actividad1[,-c(7)]
res.pca = PCA(datos, scale.unit=TRUE, graph=F, quali.sup =7)
eig.val = get_eigenvalue(res.pca)
eig.val
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  3.1670730        52.784549                    52.78455
## Dim.2  0.8186001        13.643335                    66.42788
## Dim.3  0.6520363        10.867272                    77.29516
## Dim.4  0.5454122         9.090204                    86.38536
## Dim.5  0.4712697         7.854495                    94.23985
## Dim.6  0.3456088         5.760146                   100.00000

2. Componentes a retener.

Criterio de Kaiser.

Teniendo en cuenta el citerio de Kaiser deberíamos retener la dimensión 1 ya que es la única que tiene un autovalor mayor a 1.

fviz_eig(res.pca, addlabels = TRUE, ylim=c(0,80))

Diagrama de sedimentación.

De igual forma con el análisis de la deberiamos retener la primera dimensión ya que posterior a esta dimensión se presenta una estabilización en la varianza.

3. Calidad de la representación.

var <- get_pca_var(res.pca)
var$coord
##         Dim.1       Dim.2        Dim.3      Dim.4       Dim.5
## CA  0.6829107 -0.22234079 -0.606261937  0.2681750  0.20561666
## CG  0.7650308  0.08256201  0.293923200 -0.2175448  0.51642295
## FA  0.7746782  0.32319263 -0.202333292 -0.3075086 -0.14387766
## INI 0.7924267 -0.24130130 -0.005318218 -0.2929322 -0.33477453
## M   0.6520990  0.58007592  0.157867217  0.4184200 -0.14083864
## ME  0.6798045 -0.51301100  0.363597045  0.2659370 -0.09843031
fviz_pca_var(res.pca, col.var = "black")

var$cos2
##         Dim.1       Dim.2        Dim.3      Dim.4       Dim.5
## CA  0.4663670 0.049435429 3.675535e-01 0.07191786 0.042278212
## CG  0.5852721 0.006816485 8.639085e-02 0.04732576 0.266692661
## FA  0.6001264 0.104453479 4.093876e-02 0.09456155 0.020700781
## INI 0.6279401 0.058226316 2.828344e-05 0.08580927 0.112073987
## M   0.4252331 0.336488076 2.492206e-02 0.17507531 0.019835522
## ME  0.4621342 0.263180290 1.322028e-01 0.07072247 0.009688526
fviz_pca_var(res.pca, col.var="cos2",
             gradient.cols=c("#00AFBB","#E7B800","#FC4E07"),
             repel = TRUE)

Teniendo en cuenta tanto el circulo de correlación, podemos deterinar que las variables INI, FA y CG son las que mas representan la dimensión 1, y teniendo en cuenta el análisis de coseno al cuadrado podemos determinar que las variable que mejor representan las dimensiones 1 y 2 son: M, Me, FA y INI.

4. Análisis de calidad.

Contribuciones de las variables.

var$contrib
##        Dim.1      Dim.2       Dim.3     Dim.4     Dim.5
## CA  14.72549  6.0390208 56.37010359 13.185964  8.971129
## CG  18.47991  0.8327002 13.24939241  8.677063 56.590243
## FA  18.94893 12.7600133  6.27860153 17.337629  4.392555
## INI 19.82714  7.1129136  0.00433771 15.732920 23.781285
## M   13.42669 41.1053073  3.82218879 32.099632  4.208954
## ME  14.59184 32.1500447 20.27537596 12.966792  2.055835
fviz_contrib(res.pca,choice = "var",axes = 1, top=10)

El analisis de la contribución de las variable nos permite determinar que las variable que mas aportan a la dimensión 1 son INI, FA, CG.

fviz_pca_biplot(res.pca, axes = c(1, 2), repel = TRUE, habillage=7) # biplot
## Warning: ggrepel: 7 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Análisis de Biplot

Teniendo en cuenta el gráfico se puede determinar que los resultados en la dimensión 1 tienden más a ser positivos en comparación con la dimensión 2 en la que existe mayor distribución de resultados positivos y negativos, también se puede evidenciar de la misma manera que existen mayor cantidad de datos atipicos en la dimensión 1.

Teniendo en cuenta el gráfico no podemos deterinar algun tipo de aglomeración de datos si nos basamos en la variable sede.