UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
FACULTAD DE ECONOMÍA Y PLANIFICACIÓN
DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA INFORMÁTICA

Parcial 1

CURSO: Técnicas Multivariadas
DOCENTE: Miranda Villagomez Clodomiro Fernando

ALUMNOS:
Colca Balbin, Josue Jeremías - 20220761
Garces Quispe, Adryana Luisa - 20220764
Jesús Mamani, Angelo Miguel - 20220767
Landa Cordova, Valeria Estefany - 20220768
Ramos Orue, Selene Milagros - 20220777
Sanchez Perez, Omar Zenon - 20211938
Sandoval Hurtado, Nagiely - 20220780

2025

1. MANCOVA EN DCA

Análisis multivariado del impacto de tratamientos de fertilización sobre el rendimiento y crecimiento del maíz, ajustado por condiciones edáficas y climáticas

El presente estudio tiene como objetivo evaluar el efecto de distintos tipos de fertilizantes sobre el crecimiento y rendimiento del cultivo de maíz, analizando simultáneamente múltiples variables respuesta y considerando el impacto de factores ambientales y edáficos que podrían influir en los resultados. Se busca identificar si existen diferencias significativas entre los tratamientos aplicados, teniendo en cuenta posibles variaciones en las condiciones iniciales del suelo y en la precipitación registrada durante el ciclo de cultivo. ## Variables del Estudio

Covariables:

  • Score_Nutrientes_Suelo: Índice (0-100) que cuantifica la concentración inicial de nutrientes esenciales (N, P, K) en el suelo antes de aplicar tratamientos.

  • Precipitación_Acumulada: Precipitación total (mm) durante el ciclo de cultivo, factor crítico para el desarrollo del maíz.

Variables Dependientes:

  • Rendimiento_t: Producción de maíz por hectárea (t/ha) como indicador principal de efectividad del tratamiento.

  • Altura_plantas: Desarrollo morfológico (cm) como indicador secundario del vigor vegetativo.

Factor de Tratamiento:

  • Tipo de fertilizante con tres niveles:
    • Orgánico

    • Químico

    • Control (sin fertilizante).

Vista previa de los datos

Estructura y encabezado

## # A tibble: 6 × 5
##   Tipo_Fertilizante Score_Nutrientes_Suelo Precipitación_Acumulada Rendimiento_T
##   <chr>                              <dbl>                   <dbl>         <dbl>
## 1 Orgánico                              72                    647           7.28
## 2 Orgánico                              79                    673.          7.75
## 3 Orgánico                              79                    772.          7.31
## 4 Orgánico                              68                    699.          7.46
## 5 Orgánico                              83                    698.          7.32
## 6 Orgánico                              63                    786           8.08
## # ℹ 1 more variable: Altura_Plantas <dbl>
## tibble [150 × 5] (S3: tbl_df/tbl/data.frame)
##  $ Tipo_Fertilizante      : chr [1:150] "Orgánico" "Orgánico" "Orgánico" "Orgánico" ...
##  $ Score_Nutrientes_Suelo : num [1:150] 72 79 79 68 83 63 82 75 89 73 ...
##  $ Precipitación_Acumulada: num [1:150] 647 673 772 699 698 ...
##  $ Rendimiento_T          : num [1:150] 7.28 7.75 7.31 7.46 7.32 8.08 7.35 7.19 8.11 6.9 ...
##  $ Altura_Plantas         : num [1:150] 374 376 382 389 386 ...

Análisis descriptivo de los datos

Antes de realizar los análisis estadísticos inferenciales, realizaremos un análisis descriptivo con el fin de explorar la distribución general de las variables, identificar posibles patrones, y detectar valores atípicos o inconsistencias. Este paso nos permitira tener una comprensión inicial de los datos y brindara un contexto para interpretar los resultados posteriores.

Estadísticos de interes

## Descriptive Statistics  
## datos  
## N: 150  
## 
##                     Altura_Plantas   Precipitación_Acumulada   Rendimiento_T   Score_Nutrientes_Suelo
## ----------------- ---------------- ------------------------- --------------- ------------------------
##              Mean           366.47                    658.74            6.55                    56.65
##           Std.Dev            13.95                     63.02            1.07                    21.48
##               Min           339.03                    500.00            4.15                    15.00
##                Q1           352.69                    614.60            5.58                    36.00
##            Median           369.12                    661.95            6.74                    62.00
##                Q3           377.96                    701.30            7.36                    75.00
##               Max           394.12                    800.00            8.48                    96.00
##               MAD            16.11                     68.20            1.11                    25.20
##               IQR            24.87                     86.07            1.77                    38.50
##                CV             0.04                      0.10            0.16                     0.38
##          Skewness            -0.17                     -0.08           -0.40                    -0.24
##       SE.Skewness             0.20                      0.20            0.20                     0.20
##          Kurtosis            -1.14                     -0.47           -0.92                    -1.19
##           N.Valid           150.00                    150.00          150.00                   150.00
##                 N           150.00                    150.00          150.00                   150.00
##         Pct.Valid           100.00                    100.00          100.00                   100.00
  • Altura_Plantas – Rango Intercuartílico (IQR = 24.87): La dispersión central de la altura de las plantas es moderada, con la mitad de los valores concentrados entre aproximadamente 353 cm y 378 cm. Esto sugiere una variabilidad controlada en esta característica.
  • Precipitación_Acumulada – Desviación estándar (SD = 63.02): La precipitación acumulada presenta una desviación moderada respecto a su media (658.74 mm), lo que indica cierta heterogeneidad climática entre las observaciones.
  • Rendimiento_T – Coeficiente de variación (CV = 0.16): El rendimiento total muestra una variabilidad relativa baja (16 % respecto a su media).
  • Score_Nutrientes_Suelo – Mediana (Mediana = 62): La mediana indica que el valor típico o central del puntaje de nutrientes del suelo es 62, lo que representa un nivel moderadamente alto dentro del rango observado (15 a 96), reflejando en general una calidad edáfica favorable.

Gráfico de cajas de la Distribución de rendimiento y altura del maíz según tipo de fertilizante

- Del gráfico se puede concluir lo siguiente:
En ambas variables (Altura_Plantas y Rendimiento_T), el tratamiento Orgánico muestra las medianas más altas, lo que sugiere que es el tratamiento más efectivo tanto en crecimiento como en productividad del maíz.

  • Tanto la altura de las plantas como el rendimiento son menores bajo el tratamiento Control, lo que indica que la ausencia de fertilizante limita significativamente el desarrollo del cultivo.

  • El tratamiento Químico muestra una mediana de rendimiento y altura intermedia, pero con menor dispersión en la altura de las plantas, lo que podría indicar un efecto más uniforme en el crecimiento comparado con los otros tratamientos.

Distribuciones de las Variables del Estudio Agronómico por Fertilización

- Distribución del Rendimiento (ton/ha): La distribución del rendimiento es asimétrica hacia la izquierda, con una mayor frecuencia de valores entre 6.5 y 7.5 ton/ha. Esto sugiere que, en general, los tratamientos tienden a favorecer rendimientos medios-altos, aunque hay algunas parcelas con valores bajos cercanos a 4 ton/ha.

  • Distribución de la Altura de Plantas (cm): La altura de las plantas muestra una distribución ligeramente multimodal, con varios picos entre 360 y 385 cm. Esto podría reflejar diferencias asociadas a los tratamientos o a otras condiciones de cultivo, como el suelo o el clima.

  • Índice de Nutrientes del Suelo (Score 0–100):La variable Score_Nutrientes_Suelo presenta una distribución bastante dispersa y no simétrica, indicando una gran heterogeneidad en la calidad nutricional inicial del suelo entre las parcelas evaluadas.

  • Distribución de la Precipitación Acumulada (mm): La Precipitación Acumulada sigue una distribución aproximadamente normal centrada entre 650 y 700 mm. Esto sugiere que la mayoría de los cultivos se desarrollaron bajo condiciones de humedad similares, aunque algunos casos extremos alcanzaron valores por encima de 750 mm o por debajo de 550 mm.

Diagrama de dispersión entre variables respuesta en el experimento de fertilización de maíz

La gráfica muestra una relación positiva entre la altura de las plantas de maíz y el rendimiento del cultivo (ton/ha). Esto indica que, en general, a mayor altura de las plantas, mayor es la producción por hectárea. La línea de tendencia resalta esta asociación, y la banda gris representa un intervalo de confianza que sugiere que la tendencia es consistente, aunque hay cierta variabilidad entre los datos.

Este patrón sugiere que ambas variables están vinculadas y podrían estar influidas por factores comunes, como las condiciones del suelo, la precipitación o el tipo de fertilizante utilizado.

Gráfico de densidad para el efecto del Tipo de Fertilizante sobre la Altura de las Plantas y el Rendimiento del Cultivo

#### Para la variable dependiente Altura_Plantas:

  • El tratamiento con fertilizante orgánico genera plantas más altas, con una distribución centrada alrededor de 380 cm, en comparación con los otros tratamientos.
  • El grupo control presenta las plantas más bajas, con una densidad mayor concentrada cerca de los 345 cm, lo que indica un crecimiento más limitado en ausencia de fertilización.

Para la variable dependiente Rendimiento_T:

  • El fertilizante orgánico también produce el mayor rendimiento, con la curva desplazada hacia la derecha (mayores toneladas por hectárea) respecto a los otros grupos.

  • El grupo químico muestra una distribución intermedia, pero con una mayor variabilidad, mientras que el grupo control nuevamente tiene los rendimientos más bajos y consistentes cerca de 5.5 ton/ha.

Análisis de los supuestos

Pruebas de normalidad por Tipo de fertilizante

Prueba de Shapiro wilk:

## 
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.95103, p-value = 0.03763
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.98579, p-value = 0.8052
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.9586, p-value = 0.07764
  • Solo el grupo Control presenta evidencia estadísticamente significativa de desviación de la normalidad.

  • Los grupos Orgánico y Químico cumplen con el supuesto de normalidad, al menos según la prueba de Shapiro-Wilk.

Prueba de Henze-Zirkler

## 
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
##            Test       HZ p value MVN
## 1 Henze-Zirkler 0.694323 0.15447 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.2325    0.7884    YES   
## 2 Anderson-Darling Altura_Plantas    0.4860    0.2163    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max     25th   75th
## Rendimiento_T  50   5.2592 0.5236639   5.265   4.15   6.39   4.9700   5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
##                       Skew   Kurtosis
## Rendimiento_T  -0.09303845 -0.2207158
## Altura_Plantas  0.72614519  0.5639663
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
##            Test        HZ   p value MVN
## 1 Henze-Zirkler 0.3398855 0.8165282 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.4389    0.2824    YES   
## 2 Anderson-Darling Altura_Plantas    0.3016    0.5650    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max   25th     75th
## Rendimiento_T  50   7.4338 0.5175487   7.365   6.02   8.48   7.21   7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
##                      Skew   Kurtosis
## Rendimiento_T  -0.3297302  0.1733310
## Altura_Plantas  0.3365233 -0.2424659
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
##            Test        HZ   p value MVN
## 1 Henze-Zirkler 0.4465231 0.5670538 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.3041    0.5584    YES   
## 2 Anderson-Darling Altura_Plantas    0.4450    0.2729    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev Median    Min    Max     25th    75th
## Rendimiento_T  50   6.9690 0.5263283   6.94   5.85   8.27   6.6125   7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
##                     Skew   Kurtosis
## Rendimiento_T  0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
  • Control

    • HZ = 0.694, p = 0.154

      • No se rechaza la normalidad multivariada. Los datos cumplen el supuesto.
  • Orgánico

    • HZ = 0.340, p = 0.817

      • Alta evidencia a favor de la normalidad multivariada. El grupo cumple claramente el supuesto.
  • Químico

    • HZ = 0.447, p = 0.567

      • No hay indicios de violación de la normalidad multivariada. También cumple el supuesto.

Prueba de Mardia

## 
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
##              Test         Statistic           p value Result
## 1 Mardia Skewness  7.12611398525922 0.129371883958709    YES
## 2 Mardia Kurtosis 0.591816342934366 0.553973578172583    YES
## 3             MVN              <NA>              <NA>    YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.2325    0.7884    YES   
## 2 Anderson-Darling Altura_Plantas    0.4860    0.2163    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max     25th   75th
## Rendimiento_T  50   5.2592 0.5236639   5.265   4.15   6.39   4.9700   5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
##                       Skew   Kurtosis
## Rendimiento_T  -0.09303845 -0.2207158
## Altura_Plantas  0.72614519  0.5639663
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
##              Test           Statistic           p value Result
## 1 Mardia Skewness    2.15943426775281 0.706462439302705    YES
## 2 Mardia Kurtosis -0.0535914983442818 0.957260630117935    YES
## 3             MVN                <NA>              <NA>    YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.4389    0.2824    YES   
## 2 Anderson-Darling Altura_Plantas    0.3016    0.5650    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max   25th     75th
## Rendimiento_T  50   7.4338 0.5175487   7.365   6.02   8.48   7.21   7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
##                      Skew   Kurtosis
## Rendimiento_T  -0.3297302  0.1733310
## Altura_Plantas  0.3365233 -0.2424659
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
##              Test         Statistic           p value Result
## 1 Mardia Skewness  6.54186544438511 0.162171561470413    YES
## 2 Mardia Kurtosis 0.295909325126031  0.76729932940294    YES
## 3             MVN              <NA>              <NA>    YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.3041    0.5584    YES   
## 2 Anderson-Darling Altura_Plantas    0.4450    0.2729    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev Median    Min    Max     25th    75th
## Rendimiento_T  50   6.9690 0.5263283   6.94   5.85   8.27   6.6125   7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
##                     Skew   Kurtosis
## Rendimiento_T  0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
  • Todos los tratamientos presentan asimetría y curtosis dentro de los márgenes compatibles con la normalidad multivariada

Prueba de Royston

## 
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
##      Test        H   p value MVN
## 1 Royston 2.815299 0.2457707 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.2325    0.7884    YES   
## 2 Anderson-Darling Altura_Plantas    0.4860    0.2163    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max     25th   75th
## Rendimiento_T  50   5.2592 0.5236639   5.265   4.15   6.39   4.9700   5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
##                       Skew   Kurtosis
## Rendimiento_T  -0.09303845 -0.2207158
## Altura_Plantas  0.72614519  0.5639663
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
##      Test        H   p value MVN
## 1 Royston 1.046809 0.5926925 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.4389    0.2824    YES   
## 2 Anderson-Darling Altura_Plantas    0.3016    0.5650    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev  Median    Min    Max   25th     75th
## Rendimiento_T  50   7.4338 0.5175487   7.365   6.02   8.48   7.21   7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
##                      Skew   Kurtosis
## Rendimiento_T  -0.3297302  0.1733310
## Altura_Plantas  0.3365233 -0.2424659
## 
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
##      Test         H   p value MVN
## 1 Royston 0.7484038 0.6914145 YES
## 
## $univariateNormality
##               Test       Variable Statistic   p value Normality
## 1 Anderson-Darling Rendimiento_T     0.3041    0.5584    YES   
## 2 Anderson-Darling Altura_Plantas    0.4450    0.2729    YES   
## 
## $Descriptives
##                 n     Mean   Std.Dev Median    Min    Max     25th    75th
## Rendimiento_T  50   6.9690 0.5263283   6.94   5.85   8.27   6.6125   7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
##                     Skew   Kurtosis
## Rendimiento_T  0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
  • Según el test de Royston, los tres grupos de tratamiento presentan una distribución multivariada normal,

Supuesto de homogeneidad de matrices variancia covariancia

Test de Box de M

## 
##  Box's M-test for Homogeneity of Covariance Matrices
## 
## data:  datosc[, 4:5]
## Chi-Sq (approx.) = 2.2491, df = 6, p-value = 0.8954

Dado que el p-valor es mucho mayor a 0.05 ( p = 0.8954), no se rechaza la hipótesis nula de igualdad de las matrices de covarianza.

Prueba de Ahmad (2017)

## 
##  Ahmad 2017 Homogeneity of Covariance Matrices Test
## 
## data:  Orgánico, Químico and Control
## Standard Normal = 6938.1, Mean = 0, Variance = 1, p-value < 2.2e-16
## alternative hypothesis: true difference in covariance matrices is not equal to 0

El p-valor extremadamente bajo indica que se rechaza la hipótesis nula de igualdad de las matrices de covarianza entre los grupos. Esto puede deberse ya que el test de Ahmad (2017) suele ser más sensible a pequeñas diferencias en estructuras de covarianza.

Prueba Wrapper

## 
##  Boxes' M Homogeneity of Covariance Matrices Test
## 
## data:  Control, Orgánico and Químico
## Chi-Squared = 308.83, df = 2550, p-value = 1
## alternative hypothesis: true difference in covariance matrices is not equal to 0

El p-valor alto (1) indica que no hay evidencia estadística suficiente para rechazar la hipótesis nula, es decir, se asume homogeneidad de las matrices de covarianza entre los grupos.

Evaluación global y por tratamiento

## **************************************************************************************************
## DFA.CANCOR 0.3.6
## 
## Please contact Brian O'Connor at brian.oconnor@ubc.ca if you have questions or suggestions.
## **************************************************************************************************
## 
## Covariance matrix for GroupOrgánico
##                Rendimiento_T Altura_Plantas
## Rendimiento_T           0.27           0.64
## Altura_Plantas          0.64          32.28
## 
## Covariance matrix for GroupQuímico
##                Rendimiento_T Altura_Plantas
## Rendimiento_T           0.28           1.53
## Altura_Plantas          1.53          39.39
## 
## Covariance matrix for GroupControl
##                Rendimiento_T Altura_Plantas
## Rendimiento_T           0.27           1.05
## Altura_Plantas          1.05          32.15
## 
## 
## Bartlett test of HOMOGENEITY of variances (parametric):
## 
## Bartlett's K-squared =557.968  df =1  p value =0
## 
## 
## Fligner-Killeen test of HOMOGENEITY of variances (non parametric):
## 
## Fligner-Killeen chi-squared =151.839  df =1  p value =0
## 
## 
## Pooled within groups covariance matrix from SPSS:
##                Rendimiento_T Altura_Plantas
## Rendimiento_T          0.273          1.074
## Altura_Plantas         1.074         34.605
## 
## 
## Pooled within groups correlation matrix from SPSS:
##                Rendimiento_T Altura_Plantas
## Rendimiento_T           1.00           0.35
## Altura_Plantas          0.35           1.00
## 
## 
## Box Test of equality of covariance matrices:
## 
## Log determinants:
##          Log Determinant
## Orgánico           2.108
## Químico            2.150
## Control            2.042
## Pooled             2.116
## 
## 
## M = 2.294  F = 0.375  df1 = 6  df2 = 538562.77  p = 0.89543
  • Cuando los tratamientos se evalúan en conjunto, sí se cumple el supuesto de homogeneidad de matrices de covarianza (Box’s M, p = 0.895).

  • Cuando se comparan tratamientos por separado, los tests de Bartlett y Fligner-Killeen indican heterogeneidad significativa en las varianzas.

Supuesto de variables dependientes correlacionadas.

Prueba de esfericidad de Bartlett

## $chisq
## [1] 191.4119
## 
## $p.value
## [1] 1.563694e-43
## 
## $df
## [1] 1

La prueba de esfericidad de Bartlett fue significativa (χ²(1) = 191.41, p < 0.001), indicando que las variables respuesta presentan correlaciones, lo que valida el uso de métodos multivariados para su análisis.

Trabajando con el modelo de MANCOVA en DCA

modelo = manova(cbind(Rendimiento_T, Altura_Plantas) ~ 
                  Tipo_Fertilizante + Score_Nutrientes_Suelo + Precipitación_Acumulada, data = datos)

Determinacion de la matriz residual y la matriz factorial del MANCOVA.

Variabilidad explicada por el factor (grupo). Matriz suma de cuadrados y productos cruzados del factor (SCOCF)

##                Rendimiento_T Altura_Plantas
## Rendimiento_T        131.139       1742.181
## Altura_Plantas      1742.181      23914.590

Los valores relativamente altos en esta matriz, especialmente en Altura_Plantas, indican que el factor tiene un efecto importante en las variables de respuesta.

Variabilidad de la covariable 1. Matriz suma de cuadrados y productos cruzados de la covariable 1 (SCOCX1)

##                Rendimiento_T Altura_Plantas
## Rendimiento_T       12.10738       140.5657
## Altura_Plantas     140.56571      1631.9563

Variabilidad de la covariable 2. Matriz suma de cuadrados y productos cruzados de la covariable 2 (SCOCX2)

##                Rendimiento_T Altura_Plantas
## Rendimiento_T      0.3171112       6.631977
## Altura_Plantas     6.6319771     138.699373

La primera covariable (Score_Nutrientes_Suelo) aporta más explicación que la segunda (Precipitación_Acumulada), especialmente en Altura_Plantas, lo que sugiere que X1 tiene mayor relevancia en el modelo.

Variabilidad residual. Matriz suma de cuadrados y productos cruzados del residual (SCOCR)

##                Rendimiento_T Altura_Plantas
## Rendimiento_T        27.7115        10.7273
## Altura_Plantas       10.7273      3316.2976

Los valores bajos en comparación con las otras matrices indican que el modelo está capturando una gran parte de la variabilidad total, lo cual es positivo.

Variabilidad Total. Matriz suma de cuadrados y productos cruzados total (SCOCT)

##                Rendimiento_T Altura_Plantas
## Rendimiento_T        171.275       1900.106
## Altura_Plantas      1900.106      29001.543

Bondad de ajuste

## [1] 0.8679063

El valor de η² = 0.8679 indica que aproximadamente el 86.8% de la variabilidad total en las variables de respuesta puede explicarse por las diferencias entre los grupos definidos por el factor (en este caso, los tipos de fertilizante). Este valor sugiere un alto grado de ajuste del modelo a los datos, lo que implica que el efecto del tratamiento sobre las variables dependientes es considerablemente fuerte.

Pruebas de hipotesis del modelo

Test de la Traza de Pillai

##                          Df  Pillai approx F num Df den Df  Pr(>F)    
## Tipo_Fertilizante         2 1.00731   73.568      4    290 < 2e-16 ***
## Score_Nutrientes_Suelo    1 0.47294   64.607      2    144 < 2e-16 ***
## Precipitación_Acumulada   1 0.04923    3.728      2    144 0.02638 *  
## Residuals               145                                           
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Fertilizante: Pillai = 1.00731, F(4, 290) = 73.57, p < 0.001
    El tipo de fertilizante tiene un efecto multivariado altamente significativo sobre las variables de respuesta.

  • Score_Nutrientes_Suelo: Efecto significativo (p < 0.001).

  • Precipitación_Acumulada: También tiene un efecto significativo pero más débil (p ≈ 0.026).

Test de Lambda de Wilks

summary(modelo, test = "Wilks")
##                          Df   Wilks approx F num Df den Df  Pr(>F)    
## Tipo_Fertilizante         2 0.07325  194.021      4    288 < 2e-16 ***
## Score_Nutrientes_Suelo    1 0.52706   64.607      2    144 < 2e-16 ***
## Precipitación_Acumulada   1 0.95077    3.728      2    144 0.02638 *  
## Residuals               145                                           
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Fertilizante: Wilks = 0.07325, F(4, 288) = 194.02, p < 0.001
    Confirma un efecto muy fuerte del fertilizante, con una menor lambda indicando mayor separación entre grupos.

  • Los otros dos predictores también son significativos, en particular los nutrientes del suelo.

Test de la Traza de Hotelling-Lawley

summary(modelo, test = "Hotelling-Lawley")
##                          Df Hotelling-Lawley approx F num Df den Df  Pr(>F)    
## Tipo_Fertilizante         2          11.5513   412.96      4    286 < 2e-16 ***
## Score_Nutrientes_Suelo    1           0.8973    64.61      2    144 < 2e-16 ***
## Precipitación_Acumulada   1           0.0518     3.73      2    144 0.02638 *  
## Residuals               145                                                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Fertilizante: HL = 11.55, F ≈ 413, p < 0.001
    Refuerza que el efecto del tipo de fertilizante es muy marcado.

  • Score_Nutrientes_Suelo es altamente significativo, mientras que Precipitación_Acumulada lo es de forma marginal.

Test de la Raíz más grande de Roy

summary(modelo, test = "Roy")
##                          Df     Roy approx F num Df den Df  Pr(>F)    
## Tipo_Fertilizante         2 11.4553   830.51      2    145 < 2e-16 ***
## Score_Nutrientes_Suelo    1  0.8973    64.61      2    144 < 2e-16 ***
## Precipitación_Acumulada   1  0.0518     3.73      2    144 0.02638 *  
## Residuals               145                                           
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Fertilizante: Roy = 11.46, F(2, 145) = 830.5, p < 0.001
    Detecta el máximo efecto lineal entre los grupos, y en este caso, es muy elevado.

  • Este test es el más sensible a grandes diferencias entre grupos, lo cual explica el F tan alto para el fertilizante.

Conclusiones:

  • Los análisis multivariados realizados permitieron evaluar el efecto conjunto de los tratamientos (tipos de fertilizante), la calidad nutricional del suelo y la precipitación acumulada sobre las variables respuesta: rendimiento total y altura de plantas. Los cuatro contrastes multivariados aplicados (Pillai, Wilks, Hotelling-Lawley y Roy) fueron consistentes al señalar que el tipo de fertilizante tiene un efecto altamente significativo sobre el comportamiento multivariado de las variables, con estadísticas que reflejan una separación notable entre los grupos experimentales. Esto indica que los tratamientos influyen de manera contundente en el desarrollo y productividad del cultivo.

  • Asimismo, se observó que el nivel de nutrientes del suelo también ejerce un efecto multivariado estadísticamente significativo, lo que sugiere que la calidad basal del suelo modula las respuestas agronómicas evaluadas. Por su parte, la precipitación acumulada mostró un efecto significativo pero moderado, indicando que aunque influye, su impacto relativo es menor en comparación con los otros factores.

  • En conjunto, estos resultados confirman que los tratamientos aplicados y las condiciones edáficas y climáticas consideradas en el estudio tienen una incidencia multivariada clara y diferenciada sobre las variables de interés, respaldando la relevancia de considerar estos factores de forma conjunta al evaluar la respuesta del cultivo.

2. MANCOVA EN DBCA

Evaluación del efecto de diferentes dosis de un medicamento antihipertensivo sobre la presión arterial, controlando por la edad y el IMC en pacientes de distintas clínicas

La hipertensión arterial es un problema de salud común que requiere un manejo adecuado para prevenir complicaciones cardiovasculares. Con el fin de evaluar la eficacia de un nuevo medicamento antihipertensivo, se administraron tres tipos de dosis (baja, media y alta) a pacientes atendidos en cuatro clínicas diferentes (Clínica A, B, C y D).

Se registraron como variables de respuesta la presión arterial sistólica y diastólica, además de considerar características individuales de los pacientes como la edad y el índice de masa corporal (IMC), que podrían influir en los resultados.

Este estudio busca identificar si existen diferencias significativas en los niveles de presión arterial según la dosis del medicamento administrado, controlando las diferencias propias de cada clínica y las características individuales de los pacientes.

Variables del Estudio

Covariables:

  • Edad: Edad (en años) del paciente

  • IMC: Indice de Masa Corporal del paciente medida en kg/m²

Variables Dependientes

  • PAsistólica: Presión Arterial Sistólica del paciente medida en milímetro de mercurio (mmHg).

  • PAdiastólica: Presión Arterial Diastólica del paciente medida en milímetro de mercurio (mmHg).

Factor de Tratamiento:

  • Nivel de dosis suministrada al paciente con tres niveles:
    • Baja
    • Media
    • Alta

Vista previa de los datos

Estructura y encabezado

##   Tipo_Dosis Clínica Edad IMC PAsistólica PAdiastólica
## 1       Baja       A   25  22         115           72
## 2      Media       A   56  29         124           79
## 3       Alta       A   68  31         129           84
## 4       Baja       B   19  21         113           70
## 5      Media       B   45  27         122           78
## 6       Alta       B   64  30         128           83
## 'data.frame':    12 obs. of  6 variables:
##  $ Tipo_Dosis  : Factor w/ 3 levels "Alta","Baja",..: 2 3 1 2 3 1 2 3 1 2 ...
##  $ Clínica     : Factor w/ 4 levels "A","B","C","D": 1 1 1 2 2 2 3 3 3 4 ...
##  $ Edad        : num  25 56 68 19 45 64 33 48 70 29 ...
##  $ IMC         : num  22 29 31 21 27 30 24 28 32 23 ...
##  $ PAsistólica : num  115 124 129 113 122 128 117 123 130 116 ...
##  $ PAdiastólica: num  72 79 84 70 78 83 74 80 85 71 ...

Preparación de los datos

Dividiendo los datos según el nivel de dosis suministrada

library(tidyverse)
trat1 = datosc %>% filter(Tipo_Dosis == "Baja") %>%
  dplyr::select(PAsistólica, PAdiastólica)
trat2 = datosc %>% filter(Tipo_Dosis == "Media") %>%
  dplyr::select(PAsistólica, PAdiastólica)
trat3 = datosc %>% filter(Tipo_Dosis == "Alta") %>%
  dplyr::select(PAsistólica, PAdiastólica)

Análisis de los supuestos

Pruebas de normalidad por Nivel de dosis suministrada

Prueba de Shapirop wilk

## 
## --- Prueba de Normalidad Multivariada: Nivel de dosis bajo  ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.62978, p-value = 0.001241
## 
## --- Prueba de Normalidad Multivariada: Nivel de dosis medio ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.78544, p-value = 0.07857
## 
## --- Prueba de Normalidad Multivariada: Nivel de dosis alto ---
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.62978, p-value = 0.001241
  • Solo el Nivel de dosis medio presenta evidencia estadísticamente significativa de cumplir el supuesto de normalidad.

  • Los Niveles Medio y Alto NO cumplen con el supuesto de normalidad, esto puede deberse al número de registros que se tiene.

Supuesto de homogeneidad de matrices variancia covariancia

Test de Box de M

## 
##  Box's M-test for Homogeneity of Covariance Matrices
## 
## data:  datosc[, 5:6]
## Chi-Sq (approx.) = 3.3424, df = 6, p-value = 0.7648

Dado que el valor p es mayor que 0.05, no se rechaza la hipótesis nula de igualdad de matrices de covarianza. Esto indica que se cumple el supuesto de homogeneidad de covarianzas entre los grupos

Prueba de Ahmad (2017)

## 
##  Ahmad 2017 Homogeneity of Covariance Matrices Test
## 
## data:  Baja, Media and Alta
## Standard Normal = 63.615, Mean = 0, Variance = 1, p-value < 2.2e-16
## alternative hypothesis: true difference in covariance matrices is not equal to 0

Dado que el valor p es extremadamente pequeño (p < 0.05), se rechaza la hipótesis nula de igualdad de matrices de covarianza entre los grupos. Esto indica que existen diferencias significativas en las matrices de covarianza de las variables dependientes (presión sistólica y diastólica) entre las distintas dosis del medicamento.

Prueba Wrapper

## 
##  Boxes' M Homogeneity of Covariance Matrices Test
## 
## data:  Alta, Baja and Media
## Chi-Squared = 4.9224, df = 20, p-value = 0.9998
## alternative hypothesis: true difference in covariance matrices is not equal to 0

Dado que el p-value es muy alto (p >> 0.05), no se rechaza la hipótesis nula. Esto sugiere que no hay evidencia de diferencias significativas en las matrices de covarianza entre los grupos, es decir, el supuesto de homogeneidad de covarianzas se cumple.

Evaluación global y por tratamiento

## 
## Covariance matrix for GroupBaja
##              PAsistólica PAdiastólica
## PAsistólica         2.92         2.42
## PAdiastólica        2.42         2.92
## 
## Covariance matrix for GroupMedia
##              PAsistólica PAdiastólica
## PAsistólica         1.67         1.33
## PAdiastólica        1.33         1.67
## 
## Covariance matrix for GroupAlta
##              PAsistólica PAdiastólica
## PAsistólica         1.67         2.17
## PAdiastólica        2.17         2.92
## 
## 
## Bartlett test of HOMOGENEITY of variances (parametric):
## 
## Bartlett's K-squared =0.16  df =1  p value =0.6888
## 
## 
## Fligner-Killeen test of HOMOGENEITY of variances (non parametric):
## 
## Fligner-Killeen chi-squared =0.291  df =1  p value =0.58948
## 
## 
## Pooled within groups covariance matrix from SPSS:
##              PAsistólica PAdiastólica
## PAsistólica        2.083        1.972
## PAdiastólica       1.972        2.500
## 
## 
## Pooled within groups correlation matrix from SPSS:
##              PAsistólica PAdiastólica
## PAsistólica        1.000        0.864
## PAdiastólica       0.864        1.000
## 
## 
## Box Test of equality of covariance matrices:
## 
## Log determinants:
##        Log Determinant
## Baja             0.981
## Media            0.000
## Alta            -1.792
## Pooled           0.277
## 
## 
## M = 4.922  F = 0.555  df1 = 6  df2 = 2018.77  p = 0.76665

Pruebas de homogeneidad de varianzas univariadas

Estas evalúan si la varianza individual de las variables dependientes es igual entre los grupos (no la covarianza completa):

  • Bartlett’s test (paramétrico):

    • χ² = 0.16, p = 0.6888 → No se rechaza H₀, varianzas homogéneas.
  • Fligner-Killeen test (no paramétrico):

    • χ² = 0.291, p = 0.5895 → No se rechaza H₀, también sugiere homogeneidad.

Ambos indican que no hay diferencias significativas en las varianzas individuales de presión arterial entre los grupos de dosis.

Box’s M Test (multivariado)

  • M = 4.922, F = 0.555, p = 0.76665

  • Al igual que en las pruebas anteriores, el valor p es alto, por lo que no se rechaza la hipótesis nula de igualdad de matrices de covarianza.

Supuesto de variables dependientes correlacionadas.

Prueba de esfericidad de Bartlett

## $chisq
## [1] 36.28115
## 
## $p.value
## [1] 1.708079e-09
## 
## $df
## [1] 1
  • El p-valor es muy bajo (p < 0.05), por lo que se rechaza la hipótesis nula.

  • Esto indica que la matriz de correlación no es una matriz identidad, es decir, existe una correlación significativa entre las variables dependientes.

Hay evidencia estadística suficiente para afirmar que las variables dependientes (PAsistólica y PAdiastólica) están correlacionadas.

Trabajando con el modelo de MANCOVA en DBCA

modelo = manova(cbind(PAsistólica, PAdiastólica) ~ 
                  Tipo_Dosis + Clínica + Edad + IMC, data = datos)

Determinacion de la matriz residual y las matrices factoriales del MANCOVA.

Variabilidad explicada por el factor (Racion). Matriz suma de cuadrados y productos cruzados del factor (SCOCF)

##              PAsistólica PAdiastólica
## PAsistólica     352.1667     306.4167
## PAdiastólica    306.4167     267.1667
  • Es la fuente principal de variabilidad en el modelo, lo cual es esperable si las dosis tienen un efecto real sobre la presión arterial.
  • Las cifras son altas comparadas con el resto de las fuentes, lo cual sugiere un efecto importante del tratamiento.

Variabilidad explicada por el Bloque. Matriz suma de cuadrados y productos cruzados del Bloque (SCOCBloque)

##              PAsistólica PAdiastólica
## PAsistólica     10.91667     13.83333
## PAdiastólica    13.83333     19.66667
  • Las cifras son pequeñas en comparación con la explicada por las dosis, lo que sugiere que las clínicas no introdujeron una gran variabilidad en los resultados.

Variabilidad de la covariable 1. Matriz suma de cuadrados y productos cruzados de la covariable 1 (SCOCX1)

##              PAsistólica PAdiastólica
## PAsistólica     5.884804     3.082516
## PAdiastólica    3.082516     1.614651

Variabilidad de la covariable 2. Matriz suma de cuadrados y productos cruzados de la covariable 2 (SCOCX2)

##              PAsistólica PAdiastólica
## PAsistólica   1.22331599 -0.045797287
## PAdiastólica -0.04579729  0.001714513

Las matrices X1 y X2 reflejan cuánta variabilidad se explica al controlar por edad e IMC.

  • La edad parece tener un ligero efecto, especialmente sobre la presión sistólica.

  • El IMC aporta muy poca variabilidad explicada; su efecto es mínimo o despreciable en este modelo. Existe una ligera relación inversa entre el IMC y una de las variables (posiblemente presión diastólica), lo que se refleja en un producto cruzado negativo.

Variabilidad residual. Matriz suma de cuadrados y productos cruzados del residual (SCOCR)

##              PAsistólica PAdiastólica
## PAsistólica    0.7252134    0.8799476
## PAdiastólica   0.8799476    1.2169674
  • Es muy baja, lo que indica que el modelo explica casi toda la variabilidad de los datos, lo cual es una muy buena señal.
  • Confirma que el modelo es adecuado para describir los efectos del tratamiento y los factores controlados.

Variabilidad Total. Matriz suma de cuadrados y productos cruzados total (SCOCT)

##              PAsistólica PAdiastólica
## PAsistólica     370.9167     324.1667
## PAdiastólica    324.1667     289.6667
  • Podemos decir que casi el 95% de la variabilidad total proviene del tratamiento (Tipo_Dosis), mientras que el bloque, las covariables y el error aportan una fracción mucho menor.

Bondad de ajuste

## [1] 0.9547053

Resultado: 𝜂² = 0.9547 (95.47%)

  • Esto indica que el 95.47% de la variabilidad multivariada en las variables dependientes (PAsistólica y PAdiastólica) se explica por las diferencias entre los niveles de dosis del medicamento, después de haber controlado por clínica, edad e IMC.

  • Es un valor muy alto, lo que sugiere que el tratamiento (dosis) tiene un efecto altamente explicativo en el modelo.

Pruebas de hipotesis del modelo

Test de la Traza de Pillai (más robusta ante violaciones de los supuestos)

##            Df  Pillai approx F num Df den Df    Pr(>F)    
## Tipo_Dosis  2 1.70170   11.409      4      8 0.0021790 ** 
## Clínica     3 1.87168   19.448      6      8 0.0002288 ***
## Edad        1 0.96411   40.290      2      3 0.0068003 ** 
## IMC         1 0.93552   21.763      2      3 0.0163739 *  
## Residuals   4                                             
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Dosis (Pillai = 1.7017, p = 0.0022):
    El efecto conjunto de las distintas dosis (baja, media y alta) del medicamento sobre la presión sistólica y diastólica es estadísticamente significativo. Esto sugiere que cambiar la dosis administrada puede generar diferencias conjuntas importantes en ambas medidas de presión arterial. El valor alto de Pillai indica una gran proporción de varianza explicada.

  • Clínica (Pillai = 1.8717, p = 0.0002):
    También se observa un efecto significativo del factor bloque (clínica). Esto significa que las condiciones clínicas (como infraestructura, personal médico u otros factores no controlados) están influyendo de manera importante sobre las medidas de presión arterial, independientemente del tipo de dosis administrada.

  • Edad (Pillai = 0.9641, p = 0.0068):
    La edad del paciente tiene un impacto estadísticamente significativo en las presiones arteriales. Esto indica que, a mayor o menor edad, podrían observarse patrones diferentes en la respuesta fisiológica del paciente, incluso después de controlar por dosis y clínica.

  • IMC (Pillai = 0.9355, p = 0.0164):
    El índice de masa corporal también presenta un efecto significativo multivariado. Diferencias en el IMC de los pacientes pueden estar asociadas a variaciones en sus niveles de presión arterial sistólica y diastólica de forma conjunta.

Test de Lambda de Wilks

summary(modelo, test = "Wilks")
##            Df    Wilks approx F num Df den Df    Pr(>F)    
## Tipo_Dosis  2 0.000388   74.677      4      6 3.009e-05 ***
## Clínica     3 0.004063   14.688      6      6  0.002348 ** 
## Edad        1 0.035894   40.290      2      3  0.006800 ** 
## IMC         1 0.064481   21.763      2      3  0.016374 *  
## Residuals   4                                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Dosis (Wilks = 0.000388, p = 3.01e-05):
    Se observa un efecto muy fuerte y altamente significativo de la dosis administrada sobre las variables dependientes. El valor extremadamente bajo de Wilks indica que casi toda la varianza conjunta de las presiones arteriales se explica por el tipo de dosis, lo que refuerza la importancia clínica de ajustar correctamente la cantidad administrada del medicamento.
  • Clínica (Wilks = 0.004063, p = 0.0023):
    El entorno clínico sigue teniendo un efecto significativo en la variabilidad conjunta de la presión arterial. Las diferencias entre clínicas pueden deberse a múltiples factores estructurales, administrativos o de atención que afectan las mediciones.
  • Edad (Wilks = 0.035894, p = 0.0068):

    Confirma que la edad es un predictor significativo. Su efecto sobre la presión puede estar mediado por factores fisiológicos relacionados con el envejecimiento, como rigidez arterial o comorbilidades, que impactan ambas variables.

  • IMC (Wilks = 0.064481, p = 0.0164):
    También significativo, el IMC parece ser un determinante importante de la presión arterial sistólica y diastólica, probablemente por su relación con el metabolismo, la obesidad o el riesgo cardiovascular.

Test de la Traza de Hotelling-Lawley

summary(modelo, test = "Hotelling-Lawley")
##            Df Hotelling-Lawley approx F num Df den Df    Pr(>F)    
## Tipo_Dosis  2           767.34   383.67      4      4 2.024e-05 ***
## Clínica     3            29.58     9.86      6      4   0.02208 *  
## Edad        1            26.86    40.29      2      3   0.00680 ** 
## IMC         1            14.51    21.76      2      3   0.01637 *  
## Residuals   4                                                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Dosis (HL = 767.34, p = 2.02e-05):
    El efecto de la dosis es muy marcado y altamente significativo. Este valor sugiere que las diferencias entre niveles de dosis explican una proporción importante de la variabilidad en ambas presiones arteriales, lo que refuerza la necesidad de definir cuidadosamente la dosis terapéutica.
  • Clínica (HL = 29.58, p = 0.0221):
    Aunque con un valor numéricamente menor, el efecto sigue siendo significativo. Indica que las diferencias entre las clínicas siguen aportando a la variabilidad en las medidas cardiovasculares del paciente.

  • Edad (HL = 26.86, p = 0.0068):
    Edad continúa demostrando un impacto estadísticamente significativo. Refleja que pacientes de diferentes edades tienen respuestas fisiológicas distintas frente al mismo tratamiento.

  • IMC (HL = 14.51, p = 0.0164):
    También mantiene su efecto multivariado significativo. Esto puede indicar que tanto el sobrepeso como el bajo peso pueden alterar la efectividad del tratamiento o la expresión fisiológica de las presiones.

Test de la Raíz más grande de Roy

summary(modelo, test = "Roy")
##            Df    Roy approx F num Df den Df    Pr(>F)    
## Tipo_Dosis  2 764.97  1529.94      2      4 1.704e-06 ***
## Clínica     3  16.60    22.13      3      4   0.00594 ** 
## Edad        1  26.86    40.29      2      3   0.00680 ** 
## IMC         1  14.51    21.76      2      3   0.01637 *  
## Residuals   4                                            
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Tipo_Dosis (Roy = 764.97, p = 1.70e-06):
    Roy identifica a Tipo_Dosis como el factor con mayor influencia en la combinación de variables dependientes. El valor extremadamente alto y el p-valor muy bajo indican que existe un efecto dominante muy potente, lo cual refuerza los hallazgos anteriores sobre la importancia clínica de ajustar bien la dosis.

  • Clínica (Roy = 16.60, p = 0.0059):
    Se reafirma el efecto significativo del entorno clínico. Si bien menos dominante que el de la dosis, aún es relevante en la variabilidad conjunta de las presiones arteriales.

  • Edad (Roy = 26.86, p = 0.0068):
    El efecto de la edad sigue siendo evidente y significativo. La raíz de Roy señala que puede existir una dirección predominante en la que la edad afecta ambas variables dependientes simultáneamente.
  • IMC (Roy = 14.51, p = 0.0164):
    Finalmente, también se confirma el efecto del IMC. Aunque menor en magnitud que los otros factores, sigue siendo un predictor importante dentro del modelo multivariado.

Conclusiones:

  • El presente análisis multivariado permitió evaluar el efecto de distintos niveles de dosis sobre la presión arterial sistólica y diastólica, controlando por posibles efectos de confusión mediante un diseño de bloques completos al azar y la inclusión de covariables relevantes.

  • Los resultados de las pruebas multivariadas (Pillai, Wilks, Hotelling-Lawley y Roy) coincidieron de forma consistente en señalar que el tipo de dosis administrada tiene un efecto significativo y potente sobre las dos variables dependientes consideradas, lo cual respalda la eficacia diferencial del tratamiento según su intensidad o nivel.

  • Asimismo, se evidenció que el efecto del entorno clínico (bloque) también fue estadísticamente significativo, lo que sugiere que las condiciones particulares de cada clínica (recursos, personal, protocolo) pueden influir de manera considerable en la respuesta del paciente, incluso al recibir el mismo tratamiento.

  • Por otro lado, las covariables Edad e IMC también resultaron ser factores explicativos significativos. Esto confirma que existen diferencias fisiológicas asociadas a la edad y al estado nutricional que modulan la respuesta del paciente al tratamiento. En consecuencia, su inclusión en el modelo fue clave para evitar interpretaciones sesgadas y para mejorar la precisión de los efectos estimados.

  • Finalmente, la medida de bondad de ajuste obtenida (η² = 0.9547) indica que el modelo explica aproximadamente el 95.5% de la variabilidad conjunta de las variables dependientes, lo que representa un ajuste excelente y respalda la solidez del análisis.

3. ANÁLISIS DE COMPONENTES PRINCIPALES

library(car)
library(GGally)
library(MVN)
library(epiDisplay)
library(scales)
library(rgl)
library(psych)
library(hrbrthemes)
library(gganimate)
library(png)
library(gifski)
library (dplyr)
library(viridis)
library(tidyverse)
library(forcats)
library(BSDA)
library(dlookr)
library(ggpubr)
library(summarytools)
library(pastecs)
library(corrplot)
library(mvnormtest)
library(PerformanceAnalytics)
library(ggcorrplot)
library(ade4)
library(factoextra)
library(patchwork)
library (adegenet)
library(FactoMineR)

Introducción

En el contexto universitario, evaluar el rendimiento académico de los estudiantes es fundamental para identificar patrones de aprendizaje, diferencias entre facultades y áreas que requieren intervención. Con el aumento del acceso a herramientas estadísticas avanzadas, se pueden analizar múltiples variables académicas de manera simultánea para obtener una comprensión más integral del desempeño estudiantil.

En este trabajo se ha simulado un conjunto de datos que representa a 300 estudiantes distribuidos en cuatro facultades: Ingeniería, Ciencias, Humanidades y Salud. Cada estudiante tiene registradas ocho variables académicas cuantitativas: Matemáticas, Ciencias, Lectura Crítica, Investigación, Inglés, Asistencia, Participación y Proyectos.

Se aplicará el Análisis de Componentes Principales (ACP) como técnica de reducción de dimensionalidad para explorar la estructura subyacente de estas variables, identificar patrones comunes y facilitar una posterior interpretación visual de los datos. Este análisis permitirá detectar grupos de variables que representan dimensiones latentes del rendimiento académico, así como contrastar el comportamiento entre facultades.

Objetivo General

Reducir la dimensionalidad de las variables académicas de estudiantes universitarios mediante el Análisis de Componentes Principales (ACP) para identificar factores clave que expliquen las diferencias de rendimiento entre facultades.

Objetivos Específicos

  • Simular un conjunto de datos representativo de estudiantes universitarios distribuidos en cuatro facultades.
  • Analizar gráficamente la distribución de las variables académicas y detectar la presencia de valores atípicos.
  • Realizar el Análisis de Componentes Principales (ACP) y determinar cuántos componentes retener.
  • Interpretar los componentes obtenidos en términos de las variables originales.
  • Visualizar los estudiantes en el espacio de los componentes principales y explorar diferencias entre facultades.
  • Proponer recomendaciones académicas basadas en los patrones encontrados.

Justificación

La gran cantidad de variables que suelen medirse en evaluaciones académicas hace que el análisis individual sea complejo y propenso a redundancias. El ACP permite transformar este conjunto de variables en un número reducido de componentes no correlacionados, conservando la mayor parte de la información original. Esto resulta particularmente útil para identificar perfiles de estudiantes, realizar segmentaciones y apoyar la toma de decisiones educativas.

Además, la simulación de datos académicos con patrones diferenciados por facultad ofrece una oportunidad práctica para evaluar el comportamiento del ACP bajo escenarios realistas, fortaleciendo las habilidades estadísticas y analíticas en el contexto de la educación superior.

Variables del estudio

Variable Tipo Descripción
Facultad Categórica Facultad a la que pertenece el estudiante (Ingeniería, Ciencias, Humanidades, Salud)
Matemáticas Cuantitativa Nota en el área de matemáticas
Ciencias Cuantitativa Nota en ciencias aplicadas o naturales
Lectura_Critica Cuantitativa Habilidad de lectura crítica
Investigación Cuantitativa Habilidad en investigación académica
Inglés Cuantitativa Nivel de dominio del idioma inglés
Asistencia Cuantitativa Porcentaje de asistencia a clases
Participación Cuantitativa Nivel de participación en clase
Proyectos Cuantitativa Desempeño en proyectos académicos

1. Simulación de Datos

set.seed(123) # Para reproducibilidad

# Crear datos de 300 estudiantes de 4 facultades
datos_univ <- data.frame(
  Facultad = sample(c("Ingeniería", "Ciencias", "Humanidades", "Salud"), 
                    300, replace = TRUE, 
                    prob = c(0.35, 0.25, 0.2, 0.2)),
  
  Matematicas = round(rnorm(300, mean = 70, sd = 10), 1),
  Ciencias = round(rnorm(300, mean = 75, sd = 8), 1),
  Lectura_Critica = round(rnorm(300, mean = 65, sd = 12), 1),
  Investigacion = round(rnorm(300, mean = 80, sd = 7), 1),
  Ingles = round(rnorm(300, mean = 85, sd = 5), 1),
  Asistencia = round(runif(300, min = 70, max = 100), 1),
  Participacion = round(rnorm(300, mean = 75, sd = 8), 1),
  Proyectos = round(rnorm(300, mean = 78, sd = 9), 1)
)

# Ajustar medias por facultad para crear patrones realistas
datos_univ <- datos_univ %>%
  mutate(
    Matematicas = case_when(
      Facultad == "Ingeniería" ~ Matematicas + 8,
      Facultad == "Humanidades" ~ Matematicas - 5,
      TRUE ~ Matematicas
    ),
    Lectura_Critica = case_when(
      Facultad == "Humanidades" ~ Lectura_Critica + 10,
      Facultad == "Ingeniería" ~ Lectura_Critica - 3,
      TRUE ~ Lectura_Critica
    ),
    Investigacion = case_when(
      Facultad == "Ciencias" ~ Investigacion + 5,
      TRUE ~ Investigacion
    )
  )
# Ajustar las notas superiores a 100
datos_univ <- datos_univ %>%
  mutate(
    Matematicas = ifelse(Matematicas > 100, 100, Matematicas),
    Ciencias = ifelse(Ciencias > 100, 100, Ciencias),
    Lectura_Critica = ifelse(Lectura_Critica > 100, 100, Lectura_Critica),
    Investigacion = ifelse(Investigacion > 100, 100, Investigacion),
    Ingles = ifelse(Ingles > 100, 100, Ingles),
    Asistencia = ifelse(Asistencia > 100, 100, Asistencia),
    Participacion = ifelse(Participacion > 100, 100, Participacion),
    Proyectos = ifelse(Proyectos > 100, 100, Proyectos)
  )
head(datos_univ)
##      Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1  Ingeniería        85.9     86.4            80.5          82.3   84.3
## 2 Humanidades        72.7     83.4            73.7          78.7   77.8
## 3    Ciencias        73.3     78.5            71.1          88.3   81.0
## 4       Salud        59.9     80.7            67.6          73.3   89.4
## 5       Salud        68.8     82.3            62.8          88.1   89.5
## 6  Ingeniería        75.2     53.7            60.6          84.1   95.0
##   Asistencia Participacion Proyectos
## 1       70.5          64.7      76.2
## 2       79.3          69.8      81.5
## 3       82.9          74.5      85.1
## 4       86.9          85.1      76.7
## 5       97.6          87.7      82.1
## 6       85.5          77.6      67.7
str(datos_univ)
## 'data.frame':    300 obs. of  9 variables:
##  $ Facultad       : chr  "Ingeniería" "Humanidades" "Ciencias" "Salud" ...
##  $ Matematicas    : num  85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
##  $ Ciencias       : num  86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
##  $ Lectura_Critica: num  80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
##  $ Investigacion  : num  82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
##  $ Ingles         : num  84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
##  $ Asistencia     : num  70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
##  $ Participacion  : num  64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
##  $ Proyectos      : num  76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...

2. Preparación de Datos

# Separar variable categórica (Facultad) y datos para ACP
datos_acp <- datos_univ[, -1]
facultad <- datos_univ$Facultad

# Verificar valores perdidos
per.miss.col <- 100*colSums(is.na(datos_acp))/nrow(datos_acp)
per.miss.col
##     Matematicas        Ciencias Lectura_Critica   Investigacion          Ingles 
##               0               0               0               0               0 
##      Asistencia   Participacion       Proyectos 
##               0               0               0

3. Detección de Outliers

# Función para detectar outliers 
is_outlier2 <- function(x, k = 2) {
  return(abs(scale(x)) > k)
}
# Aplicar a cada variable
for(var in colnames(datos_acp)) {
  cat("\nOutliers en", var, ":\n")
  print(datos_acp[is_outlier2(datos_acp[[var]]), ])
}
## 
## Outliers en Matematicas :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 14        100.0     71.9            44.7          92.3   88.8       95.7
## 46         98.0     64.1            71.8          83.1   78.9       93.1
## 51        100.0     70.2            66.3          86.4   79.6       97.5
## 81         97.6     79.8            74.7          83.4   88.9       94.3
## 96         97.0     81.9            61.7          74.8   79.1       97.2
## 131        48.3     72.5            80.7          80.9   91.6       80.3
## 147        96.7     74.0            64.9          75.4   89.5       73.9
## 160        98.4     68.2            65.1          82.1   89.5       74.9
## 163        47.7     88.5            76.2          81.9   88.8       71.9
## 210       100.0     76.0            73.5          80.5   87.6       95.1
## 221       100.0     70.9            62.7          86.2   91.6       74.3
## 242        43.4     84.5            62.1          92.4   85.6       97.2
## 256        48.5     79.7            87.5          84.5   84.0       95.3
## 266        43.6     84.0            67.2          88.1   77.0       99.2
## 300        48.6     78.0            75.7          82.1   83.5       86.8
##     Participacion Proyectos
## 14           72.2      80.5
## 46           68.2      72.1
## 51           54.0      82.5
## 81           74.6      87.1
## 96           68.1      89.1
## 131          73.4      68.9
## 147          69.8      81.8
## 160          90.7      80.8
## 163          72.2      71.0
## 210          70.5      61.6
## 221          76.0      66.2
## 242          80.2      73.2
## 256          78.2      83.6
## 266          70.5      78.9
## 300          76.8      85.9
## 
## Outliers en Ciencias :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 6          75.2     53.7            60.6          84.1   95.0       85.5
## 58         59.1     58.4           100.0          80.6   91.8       89.6
## 99         63.4     94.4            84.4          81.2   87.8       85.1
## 141        89.7     52.5            50.1          77.8   88.8       88.1
## 166        77.0     54.2            78.2          90.8   87.7       97.2
## 180        70.1     91.7            70.2          87.5   88.2       98.7
## 215        86.2     57.0            63.2          80.5   82.4       87.3
## 240        73.5     58.4            84.9          77.5   88.3       73.6
## 246        80.0     94.7            73.9          80.8   85.6       99.2
## 293        84.6     94.1            60.9          75.9   93.1       86.5
## 296        71.7     57.3            52.8          74.4   82.1       97.1
## 297        74.4     96.5            49.2          71.8   75.6       90.2
## 299        57.5     94.0            83.0          74.0   89.8       74.5
##     Participacion Proyectos
## 6            77.6      67.7
## 58           79.4      67.0
## 99           72.8      79.5
## 141          85.4      70.5
## 166          82.6      83.1
## 180          81.3      76.1
## 215          72.8      68.0
## 240          72.5      79.7
## 246          70.8      77.2
## 293          66.6      84.6
## 296          69.6      67.0
## 297          67.3      83.7
## 299          80.9      90.4
## 
## Outliers en Lectura_Critica :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 26         54.0     76.2            97.5          76.8   88.1       86.1
## 38         78.8     70.4            38.5          86.4   85.6       88.2
## 39         85.5     88.0            39.4          76.8   88.6       98.4
## 58         59.1     58.4           100.0          80.6   91.8       89.6
## 84         57.6     76.0            93.2          73.1   87.0       74.1
## 92         60.0     71.3           100.0          77.7   91.9       78.6
## 161        83.0     71.8            95.9          86.4   83.8       98.4
## 168        65.4     69.6            38.9          69.6   88.4       83.3
## 179        83.4     63.9            94.9          82.8   84.0       88.6
## 198        59.3     72.4            99.1          83.8   88.1       89.0
## 222        53.5     72.6            39.7          84.3   81.5       87.2
## 231        65.3     78.1           100.0          76.6   80.9       73.4
## 255        76.7     64.1            34.4          88.0   76.4       84.6
## 258        77.6     67.8            94.0          85.8   89.9       70.5
## 261        74.9     83.5            98.6          89.4   90.7       88.0
## 262        72.7     73.3            99.0          76.5   89.5       83.3
## 290        77.4     83.2            96.9          76.9   87.1       72.7
##     Participacion Proyectos
## 26           82.0      89.4
## 38           86.0      68.5
## 39           86.2      81.5
## 58           79.4      67.0
## 84           68.8      87.8
## 92           85.5      73.5
## 161          63.6      77.7
## 168          64.8      70.4
## 179          69.7      81.5
## 198          77.2      75.6
## 222          83.9      59.9
## 231          66.3      88.7
## 255          74.9      88.5
## 258          79.8      76.0
## 261          83.9      81.6
## 262          67.1      85.2
## 290          68.6      81.2
## 
## Outliers en Investigacion :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 63         82.3     82.1            64.1         100.0   79.2       93.9
## 76         78.6     79.4            54.9         100.0   92.9       97.1
## 116        93.5     75.8            92.6          65.9   84.0       88.5
## 142        80.5     78.7            71.7          99.5   79.5       91.7
## 167        63.9     71.4            92.3          64.8   83.6       94.5
## 173        56.6     81.8            64.6          64.8   82.0       93.8
## 234        67.4     67.0            55.8          63.8   87.2       90.5
## 239        73.6     72.4            49.3          66.1   93.8       84.9
## 272        80.9     61.2            60.0          66.0  100.0       89.4
## 274        90.7     62.8            72.8         100.0   92.1       99.9
##     Participacion Proyectos
## 63           63.8      68.4
## 76           83.5      73.6
## 116          84.8      74.6
## 142          68.5      78.5
## 167          82.0      81.4
## 173          73.2      87.3
## 234          81.6      68.9
## 239          83.7      76.4
## 272          72.6      71.6
## 274          69.9      92.8
## 
## Outliers en Ingles :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 36         68.0     81.2            57.9          77.8   75.2       73.8
## 85         72.3     90.6            59.7          72.8   71.5       73.2
## 87         68.2     84.3            44.0          74.6   74.2       98.8
## 98         64.4     80.1            74.5          88.4   75.0       88.2
## 139        67.8     79.7            55.8          90.1   96.1       86.1
## 144        72.2     72.7            83.9          81.1   96.4       85.8
## 156        73.3     73.3            57.5          92.7   95.6       81.1
## 241        63.5     74.3            73.1          89.6   74.3       76.9
## 249        57.4     78.4            58.7          79.6   73.8       70.6
## 257        74.5     77.3            65.0          71.5   97.4       84.8
## 272        80.9     61.2            60.0          66.0  100.0       89.4
## 281        63.1     88.9            60.6          74.8   74.5       91.9
## 297        74.4     96.5            49.2          71.8   75.6       90.2
##     Participacion Proyectos
## 36           81.6      76.5
## 85           79.0      78.0
## 87           85.3      70.4
## 98           74.3      69.7
## 139          57.0      79.9
## 144          73.7      75.1
## 156          72.3      86.1
## 241          75.4      73.3
## 249          69.2      68.2
## 257          74.4      84.7
## 272          72.6      71.6
## 281          65.0      68.7
## 297          67.3      83.7
## 
## Outliers en Asistencia :
## [1] Matematicas     Ciencias        Lectura_Critica Investigacion  
## [5] Ingles          Asistencia      Participacion   Proyectos      
## <0 rows> (o 0- extensión row.names)
## 
## Outliers en Participacion :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 51        100.0     70.2            66.3          86.4   79.6       97.5
## 53         62.3     83.2            85.3          73.4   88.6       94.3
## 77         63.0     84.9            60.6          84.6   85.0       72.7
## 106        69.1     63.3            57.8          80.8   87.6       76.7
## 111        64.8     68.3            75.9          83.6   80.7       74.1
## 121        73.5     82.7            61.3          82.7   83.5       74.3
## 139        67.8     79.7            55.8          90.1   96.1       86.1
## 150        77.5     89.9            77.9          82.6   84.2       77.1
## 209        53.3     81.2            44.9          79.2   79.7       90.3
## 223        60.4     78.2            57.0          82.9   81.3       71.5
## 269        83.4     78.0            65.4          88.9   90.2       87.4
## 278        70.1     76.5            82.0          80.1   93.4       72.9
## 286        59.2     79.2            51.4          72.0   83.0       78.3
##     Participacion Proyectos
## 51           54.0      82.5
## 53           93.2      82.3
## 77           94.3      76.6
## 106          54.2      72.1
## 111          94.6      79.0
## 121          56.3      76.3
## 139          57.0      79.9
## 150          97.5      64.1
## 209          91.4      73.9
## 223          91.5      82.5
## 269          58.5      88.3
## 278          57.6      96.6
## 286          56.4      81.6
## 
## Outliers en Proyectos :
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 35         75.6     80.7            46.2          84.6   88.2       95.4
## 40         73.0     72.0            54.2          67.8   79.1       87.4
## 43         70.9     85.4            75.6          89.0   90.3       95.3
## 57         70.1     67.8            61.1          73.1   87.9       79.6
## 72         71.2     74.1            83.9          69.9   90.2       89.6
## 101        66.2     81.8            71.7          84.6   94.3       82.7
## 124        64.0     77.6            72.8          81.2   84.3       86.0
## 146        78.7     65.8            53.6          81.2   86.1       72.4
## 154        67.5     62.9            81.7          74.8   88.1       77.5
## 183        57.8     79.3            75.0          78.9   84.9       78.7
## 207        74.1     83.2            67.6          77.3   87.1       73.9
## 222        53.5     72.6            39.7          84.3   81.5       87.2
## 251        77.3     69.2            50.1          74.8   83.6       97.7
## 267        77.1     81.7            64.7          75.2   85.0       75.3
## 278        70.1     76.5            82.0          80.1   93.4       72.9
## 283        73.0     59.5            53.5          83.0   78.5       74.3
##     Participacion Proyectos
## 35           74.7      55.4
## 40           65.9      60.3
## 43           74.0      58.2
## 57           86.8      57.7
## 72           88.3      60.5
## 101          87.3      98.5
## 124          75.2      57.3
## 146          81.5      59.2
## 154          73.1      60.2
## 183          70.2      55.1
## 207          60.5      97.8
## 222          83.9      59.9
## 251          73.4      60.7
## 267          73.7     100.0
## 278          57.6      96.6
## 283          77.0      52.4
# Outliers multivariados 
outliers <- mvn(data = datos_acp, mvnTest = "hz", 
                multivariateOutlierMethod = "quan")

  • Chi-Square Q-Q Plot (chi cuadrado):

    • Muestra cómo las distancias de Mahalanobis observadas se comparan con la distribución χ² teórica.

4. Análisis Gráfico

4.1. Distribución por Facultad

tabla_facultad <- table(datos_univ$Facultad)
pp_facultad <- round(prop.table(tabla_facultad) * 100, 1)
barplot(pp_facultad, 
        ylab = "Porcentaje (%)", 
        xlab = "Facultad", 
        col = c('green3', 'blue', 'firebrick', 'purple'),
        main = "Proporción de estudiantes por Facultad",
        cex.names = 0.75)

facultad_colores <- c("Ingeniería" = "firebrick", "Ciencias" = "green3", "Humanidades" = "blue", "Salud" = "purple")
mi_tabla <- table(datos_univ$Facultad)
mi_tabla1 <- prop.table(mi_tabla) * 100
df <- data.frame(categorias = names(mi_tabla),
                 porcentaje = mi_tabla1)
df <- df[, c("categorias", "porcentaje.Freq")]
ggplot(df, aes(x = "", y = porcentaje.Freq, fill = categorias)) +
  geom_bar(stat = "identity", color = "white") +
  geom_text(aes(label = paste0(round(porcentaje.Freq, 1), "%")),
            position = position_stack(vjust = 0.5), color = "white", size = 6) +
  coord_polar(theta = "y") +
  labs(title = "Proporción de estudiantes por Facultad") +
  scale_fill_manual(values = facultad_colores) +
  theme_void()  # Elimina los ejes y marcas para que se vea como un gráfico de pie

Del grafico se observa que:
- Ingeniería tiene la mayor representación (34%),seguido de Ciencias (27%); y Salud posee la menor representacion (18.7%).

4.2. Gráficos de Dispersión

datos_univ$Facultad <- factor(datos_univ$Facultad, levels = c("Ingeniería", "Ciencias", "Humanidades", "Salud"))
facultad_colores <- c("Ingeniería" = "firebrick", "Ciencias" = "green3", "Humanidades" = "blue", "Salud" = "purple")

plot3d(datos_univ$Matematicas, datos_univ$Ciencias, datos_univ$Ingles, 
       type = "s", col = facultad_colores[datos_univ$Facultad], size = 2)
legend3d("topright", legend = names(facultad_colores), pch = 16, 
         col = facultad_colores)

Se puede observar que
- Para el curso Matematicas, hay una mayor concetracion de puntos rojos(estudiantes de Ingenieria), hacia notas mas altas; a comparacion de los puntos azules (estudiantes de Humanidades) que tienen a estar mas concetrados en notas mas bajas.

pairs.panels(datos_univ[, -1])

  • Correlaciones :

Valores numéricos entre -1 y 1:

-   Cercano a +1: Correlación positiva fuerte.
-   Cercano a -1: Correlación negativa fuerte.
-   Cercano a 0: Sin correlación.
pairs(x = datos_univ[, -1], 
      col = c("firebrick", "green3", "blue", "purple")[as.numeric(datos_univ$Facultad)], 
      pch = 20,
      main = "Gráfico de dispersión con colores por Facultad")

4.3. Boxplots e Histogramas

p2 <- datos_univ %>%
  ggplot(aes(x = Facultad, y = Matematicas, fill = Facultad)) +
  geom_boxplot() +
  scale_fill_viridis(discrete = TRUE, alpha = 0.6) +
  geom_jitter(color = "darkgray", size = 0.5, alpha = 0.9) +
  theme_ipsum() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold")
  ) +
  ggtitle("Boxplot de Matemáticas por Facultad") +
  xlab("Facultad") +
  ylab("Nota en Matemáticas")

print(p2)

Segun los BOXPLOTS:

  • Los estudiantes de Ingenieria son los que poseen mejor mediana
  • Los estudiantes de Humanidades poseen menor media
  • Humanidades posee asimetria hacia la izquierda
  • Ciencias posee outliers
datos_univ %>%
  group_by(Facultad) %>%
  summarise(
    min = min(Matematicas),
    q1 = quantile(Matematicas, 0.25),
    mediana = median(Matematicas),
    q3 = quantile(Matematicas, 0.75),
    max = max(Matematicas),
    media = mean(Matematicas),
    sd = sd(Matematicas)
  )
## # A tibble: 4 × 8
##   Facultad      min    q1 mediana    q3   max media    sd
##   <fct>       <dbl> <dbl>   <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Ingeniería   53.3  72.5    79.5  85.4 100    79.3 10.2 
## 2 Ciencias     43.6  64      69.5  74.1 100    69.6  9.26
## 3 Humanidades  43.4  57.8    62.9  71.2  87.9  63.5  9.17
## 4 Salud        50.1  65.2    71.3  78.5  94    71.0 10.4
hist(datos_univ$Matematicas, 
     col = "steelblue", 
     main = "Distribución de Notas en Matemáticas",
     xlab = "Notas en Matemáticas", 
     ylab = "Frecuencia")

Se puede observar que
- Para el curso Matematicas, la barra mas alta se encuentra en las notas 70 - 75;lo que indica un buen desempeño general en Matemáticas.

dens <- density(datos_univ$Matematicas)
plot(dens, 
     main = "Curva de Densidad - Matemáticas", 
     xlab = "Nota en Matemáticas", 
     ylab = "Densidad",
     col = "#000000",
     lwd = 2)

Se puede observar que
- Para el curso Matematicas, la curva de densidad muestra un pico entre 60-70, lo que indica que la mayoría de los estudiantes tienen un desempeño medio - alto. Esto sugiere que el curso de Matemáticas está bien comprendido por la mayoría.

nombres_vars <- colnames(datos_univ[, -1])
multi.hist(x = datos_univ[, -1],  # Excluye 'Facultad'
           dcol = c("blue", "red"), 
           dlty = c("dotted", "solid"),
           main = nombres_vars)

  • Histograma de densidades:

    • Línea sólida (roja): Densidad empírica (distribución real de los datos).
    • Línea punteada (azul): Distribución normal teórica (ajustada a la media y desviación estándar de los datos).
data <- datos_univ[, -1]  # Quitamos la variable Facultad para trabajar solo con las numéricas
head(data)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
data <- data %>%
  gather(key = "text", value = "value") %>%
  mutate(text = gsub("\\.", " ", text)) %>%
  mutate(value = round(as.numeric(value), 0))

p <- data %>%
  mutate(text = fct_reorder(text, value)) %>%
  ggplot(aes(x = value, color = text, fill = text)) +
  geom_histogram(alpha = 0.6, binwidth = 5) +
  scale_fill_viridis(discrete = TRUE) +
  scale_color_viridis(discrete = TRUE) +
  theme_ipsum() +
  theme(
    legend.position = "none",
    panel.spacing = unit(0.1, "lines"),
    strip.text.x = element_text(size = 8),
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold")  # centrar y destacar el título
  ) +
  xlab("Nota") +
  ylab("Frecuencia de estudiantes") +
  ggtitle("Distribución de Notas por Variable Académica") +
  facet_wrap(~text)  # Un gráfico por variable

p

Se puede observar que
- Para los cursos Asitencia e Ingles ,muestran una distribución sesgada hacia notas altas (70-90), lo que indica que la mayoría de los estudiantes cumplen con estos requisitos sin dificultad. - Para los cursos Investigacion y Proyectos ,muestran una distribución más equilibrada (pico cerca de 70), lo que indica que los estudiantes tienen resultados mixtos, pero con tendencia al desempeño aceptable.

EDA(datos_univ$Matematicas)
## [1] "datos_univ$Matematicas"

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##  300.000    0.000   43.400   64.175   71.912   71.700   71.794   79.950 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##  100.000   11.384  129.596    0.657   15.775   56.600   -0.240    0.148 
## SW p-val 
##    0.257

5. Análisis Descriptivo

head(datos_acp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
summary(datos_acp)
##   Matematicas        Ciencias     Lectura_Critica  Investigacion   
##  Min.   : 43.40   Min.   :52.50   Min.   : 34.40   Min.   : 63.80  
##  1st Qu.: 64.33   1st Qu.:69.67   1st Qu.: 57.98   1st Qu.: 75.97  
##  Median : 71.70   Median :75.55   Median : 65.90   Median : 80.80  
##  Mean   : 71.91   Mean   :75.14   Mean   : 66.62   Mean   : 81.16  
##  3rd Qu.: 79.85   3rd Qu.:80.70   3rd Qu.: 74.90   3rd Qu.: 86.40  
##  Max.   :100.00   Max.   :96.50   Max.   :100.00   Max.   :100.00  
##      Ingles         Asistencia    Participacion     Proyectos     
##  Min.   : 71.50   Min.   :70.00   Min.   :54.00   Min.   : 52.40  
##  1st Qu.: 82.10   1st Qu.:77.70   1st Qu.:69.70   1st Qu.: 72.17  
##  Median : 85.80   Median :85.55   Median :74.70   Median : 77.60  
##  Mean   : 85.42   Mean   :85.28   Mean   :75.05   Mean   : 77.49  
##  3rd Qu.: 88.83   3rd Qu.:92.12   3rd Qu.:80.92   3rd Qu.: 83.03  
##  Max.   :100.00   Max.   :99.90   Max.   :97.50   Max.   :100.00
summarytools::descr(datos_acp)
## Descriptive Statistics  
## datos_acp  
## N: 300  
## 
##                     Asistencia   Ciencias   Ingles   Investigacion   Lectura_Critica   Matematicas
## ----------------- ------------ ---------- -------- --------------- ----------------- -------------
##              Mean        85.28      75.14    85.42           81.16             66.62         71.91
##           Std.Dev         8.45       8.00     4.87            7.14             13.23         11.38
##               Min        70.00      52.50    71.50           63.80             34.40         43.40
##                Q1        77.70      69.65    82.10           75.95             57.95         64.25
##            Median        85.55      75.55    85.80           80.80             65.90         71.70
##                Q3        92.15      80.70    88.85           86.40             74.90         79.90
##               Max        99.90      96.50   100.00          100.00            100.00        100.00
##               MAD        10.90       8.08     5.04            7.86             12.75         11.34
##               IQR        14.42      11.02     6.72           10.43             16.93         15.52
##                CV         0.10       0.11     0.06            0.09              0.20          0.16
##          Skewness        -0.04      -0.13    -0.16            0.06              0.22          0.15
##       SE.Skewness         0.14       0.14     0.14            0.14              0.14          0.14
##          Kurtosis        -1.14      -0.09    -0.22           -0.36             -0.13         -0.24
##           N.Valid       300.00     300.00   300.00          300.00            300.00        300.00
##                 N       300.00     300.00   300.00          300.00            300.00        300.00
##         Pct.Valid       100.00     100.00   100.00          100.00            100.00        100.00
## 
## Table: Table continues below
## 
##  
## 
##                     Participacion   Proyectos
## ----------------- --------------- -----------
##              Mean           75.05       77.49
##           Std.Dev            8.08        8.38
##               Min           54.00       52.40
##                Q1           69.70       72.15
##            Median           74.70       77.60
##                Q3           80.95       83.05
##               Max           97.50      100.00
##               MAD            8.60        8.08
##               IQR           11.23       10.85
##                CV            0.11        0.11
##          Skewness           -0.02       -0.18
##       SE.Skewness            0.14        0.14
##          Kurtosis           -0.29        0.03
##           N.Valid          300.00      300.00
##                 N          300.00      300.00
##         Pct.Valid          100.00      100.00

Observaciones:

  • Variabilidad:

    • Lectura_Critica tiene la desviación estándar más alta (13.23), es decir, mayor dispersión en los puntajes.

    • Inglés tiene una desviación estándar baja (4.87), lo que sugiere que la mayoría rinde de forma más homogénea.

  • Skewness (Sesgo):

    Variable Skewness Interpretación
    Asistencia -0.04 Muy cerca de 0 ⇒ distribución simétrica
    Ciencias -0.13 Ligero sesgo negativo ⇒ leve cola hacia la izquierda
    Inglés -0.16 Ligero sesgo negativo
    Investigación 0.06 Ligero sesgo positivo ⇒ leve cola hacia la derecha
    Lectura Crítica 0.22 Moderado sesgo positivo
    Matemáticas 0.15 Ligero sesgo positivo
    Participación -0.02 Muy cerca de 0 ⇒ simétrica
    Proyectos -0.18 Ligero sesgo negativo
    • La mayoría de las variables no presentan un sesgo fuerte: esto es favorable, ya que implica que los datos están razonablemente bien distribuidos en torno a su media.

    • Sesgo positivo (Lectura Crítica, Investigación, Matemáticas) indica que hay algunos estudiantes con notas bastante altas que “alargan” la cola derecha de la distribución.

    • Sesgo negativo (Ciencias, Proyectos, Inglés, Participación) indica que hay algunos estudiantes con notas bastante bajas que “alargan” la cola izquierda.

  • Kurtosis:

    Variable Kurtosis Interpretación
    Asistencia -1.14 Platicúrtica (menos valores extremos)
    Ciencias -0.09 Casi mesocúrtica
    Inglés -0.22 Ligeramente platicúrtica
    Investigación -0.36 Ligeramente platicúrtica
    Lectura Crítica -0.13 Casi mesocúrtica
    Matemáticas -0.24 Ligeramente platicúrtica
    Participación -0.29 Ligeramente platicúrtica
    Proyectos 0.03 Muy cerca de mesocúrtica
    • Tus variables no presentan curtosis alta: no hay una concentración inusual de valores extremos.

    • La mayoría son platicúrticas (colas más planas), lo que sugiere menos outliers de lo normal.

    • Esto es bueno en general, porque los datos parecen estables y sin valores atípicos fuertes que puedan distorsionar el ACP.

5.1. Calculamos las medidas muestrales de asimetría y curtosis

Calculamos las medidas muestrales de asimetría y curtosis estandarizadas para la variable Matemáticas, obteniéndose como resultados los siguientes:

X=datos_acp$Matematicas
Xbar=mean(datos_acp$Matematicas)
Sd=sd(X)
mean(((X-Xbar)/Sd)^3)# Asimetria Muestral
## [1] 0.147895
mean(((X-Xbar)/Sd)^4)-3# Curtosis Muestral
## [1] -0.2404275
  • Asimetría Muestral = 0.148

    Ligeramente sesgada hacia la derecha (más estudiantes con notas un poco más altas).

  • Curtosis Muestral = -0.24

    Ligeramente platicúrtica (menos extremos o outliers que una distribución normal)

5.2. Estadísticas agrupadas por facultad

En este caso estamos seleccionando las variables Matemáticas e Investigación:

head(datos_univ)
##      Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1  Ingeniería        85.9     86.4            80.5          82.3   84.3
## 2 Humanidades        72.7     83.4            73.7          78.7   77.8
## 3    Ciencias        73.3     78.5            71.1          88.3   81.0
## 4       Salud        59.9     80.7            67.6          73.3   89.4
## 5       Salud        68.8     82.3            62.8          88.1   89.5
## 6  Ingeniería        75.2     53.7            60.6          84.1   95.0
##   Asistencia Participacion Proyectos
## 1       70.5          64.7      76.2
## 2       79.3          69.8      81.5
## 3       82.9          74.5      85.1
## 4       86.9          85.1      76.7
## 5       97.6          87.7      82.1
## 6       85.5          77.6      67.7
with(datos_univ, stby(Matematicas, Facultad, descr))
## Descriptive Statistics  
## Matematicas by Facultad  
## Data Frame: datos_univ  
## N: 300  
## 
##                     Ingeniería   Ciencias   Humanidades    Salud
## ----------------- ------------ ---------- ------------- --------
##              Mean        79.27      69.58         63.50    71.04
##           Std.Dev        10.23       9.26          9.17    10.39
##               Min        53.30      43.60         43.40    50.10
##                Q1        72.40      64.00         57.80    65.10
##            Median        79.50      69.50         62.90    71.30
##                Q3        85.50      74.10         71.20    78.55
##               Max       100.00     100.00         87.90    94.00
##               MAD         9.79       8.01          7.86    10.16
##               IQR        12.90      10.10         13.40    13.28
##                CV         0.13       0.13          0.14     0.15
##          Skewness        -0.04       0.14          0.22     0.08
##       SE.Skewness         0.24       0.27          0.31     0.32
##          Kurtosis        -0.36       0.89         -0.24    -0.55
##           N.Valid       102.00      81.00         61.00    56.00
##                 N       102.00      81.00         61.00    56.00
##         Pct.Valid       100.00     100.00        100.00   100.00
with(datos_univ, stby(Investigacion, Facultad, descr))
## Descriptive Statistics  
## Investigacion by Facultad  
## Data Frame: datos_univ  
## N: 300  
## 
##                     Ingeniería   Ciencias   Humanidades    Salud
## ----------------- ------------ ---------- ------------- --------
##              Mean        79.39      85.15         79.45    80.50
##           Std.Dev         7.40       6.56          5.89     6.58
##               Min        63.80      68.40         64.80    64.80
##                Q1        74.80      81.20         75.50    74.70
##            Median        79.05      86.30         79.20    79.75
##                Q3        84.10      89.20         82.90    85.35
##               Max       100.00     100.00         92.40    93.30
##               MAD         6.67       6.38          5.49     7.71
##               IQR         9.12       8.00          7.40    10.57
##                CV         0.09       0.08          0.07     0.08
##          Skewness         0.33      -0.37         -0.03     0.11
##       SE.Skewness         0.24       0.27          0.31     0.32
##          Kurtosis         0.06      -0.07         -0.23    -0.90
##           N.Valid       102.00      81.00         61.00    56.00
##                 N       102.00      81.00         61.00    56.00
##         Pct.Valid       100.00     100.00        100.00   100.00
  1. Respecto a la variable Matemáticas:

    Facultad Media Asimetría Curtosis Comentario
    Ingeniería 79.27 -0.04 -0.36 Alta media, distribución simétrica y ligeramente plana.
    Ciencias 69.58 0.14 0.89 Media moderada, ligera asimetría a la derecha, distribución algo más concentrada (leptocúrtica).
    Humanidades 63.50 0.22 -0.24 Media baja, leve sesgo a la derecha, distribución algo plana.
    Salud 71.04 0.08 -0.55 Media media, muy leve asimetría y curtosis platicúrtica.

    Ingeniería destaca con la media más alta. Humanidades tiene las notas más bajas en Matemáticas. Ninguna distribución muestra problemas severos de asimetría o curtosis.

  2. Respecto a la variable Investigación:

    Facultad Media Asimetría Curtosis Comentario
    Ingeniería 79.39 0.33 0.06 Buena media, leve asimetría a la derecha, curtosis cercana a normal.
    Ciencias 85.15 -0.37 -0.07 Mayor media, leve asimetría a la izquierda, curtosis casi normal.
    Humanidades 79.45 -0.03 -0.23 Media igual a Ingeniería, muy simétrica, distribución un poco más plana.
    Salud 80.50 0.11 -0.90 Media intermedia, distribución ligeramente simétrica y claramente platicúrtica.

    Ciencias presenta la media más alta en Investigación. En general, todas las facultades muestran distribuciones bastante simétricas y sin extremos preocupantes de curtosis.

describe(datos_acp)
## # A tibble: 8 × 26
##   described_variables     n    na  mean    sd se_mean   IQR skewness kurtosis
##   <chr>               <int> <int> <dbl> <dbl>   <dbl> <dbl>    <dbl>    <dbl>
## 1 Matematicas           300     0  71.9 11.4    0.657 15.5    0.149   -0.205 
## 2 Ciencias              300     0  75.1  8.00   0.462 11.0   -0.129   -0.0547
## 3 Lectura_Critica       300     0  66.6 13.2    0.764 16.9    0.227   -0.0952
## 4 Investigacion         300     0  81.2  7.14   0.412 10.4    0.0636  -0.323 
## 5 Ingles                300     0  85.4  4.87   0.281  6.72  -0.160   -0.185 
## 6 Asistencia            300     0  85.3  8.45   0.488 14.4   -0.0395  -1.12  
## 7 Participacion         300     0  75.1  8.08   0.467 11.2   -0.0171  -0.257 
## 8 Proyectos             300     0  77.5  8.38   0.484 10.8   -0.177    0.0722
## # ℹ 17 more variables: p00 <dbl>, p01 <dbl>, p05 <dbl>, p10 <dbl>, p20 <dbl>,
## #   p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>,
## #   p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>
round(stat.desc(datos_acp),2)
##              Matematicas Ciencias Lectura_Critica Investigacion   Ingles
## nbr.val           300.00   300.00          300.00        300.00   300.00
## nbr.null            0.00     0.00            0.00          0.00     0.00
## nbr.na              0.00     0.00            0.00          0.00     0.00
## min                43.40    52.50           34.40         63.80    71.50
## max               100.00    96.50          100.00        100.00   100.00
## range              56.60    44.00           65.60         36.20    28.50
## sum             21573.70 22542.60        19985.30      24348.60 25626.20
## median             71.70    75.55           65.90         80.80    85.80
## mean               71.91    75.14           66.62         81.16    85.42
## SE.mean             0.66     0.46            0.76          0.41     0.28
## CI.mean.0.95        1.29     0.91            1.50          0.81     0.55
## var               129.60    63.95          175.09         50.98    23.76
## std.dev            11.38     8.00           13.23          7.14     4.87
## coef.var            0.16     0.11            0.20          0.09     0.06
##              Asistencia Participacion Proyectos
## nbr.val          300.00        300.00    300.00
## nbr.null           0.00          0.00      0.00
## nbr.na             0.00          0.00      0.00
## min               70.00         54.00     52.40
## max               99.90         97.50    100.00
## range             29.90         43.50     47.60
## sum            25584.00      22516.30  23247.40
## median            85.55         74.70     77.60
## mean              85.28         75.05     77.49
## SE.mean            0.49          0.47      0.48
## CI.mean.0.95       0.96          0.92      0.95
## var               71.46         65.31     70.24
## std.dev            8.45          8.08      8.38
## coef.var           0.10          0.11      0.11
round(stat.desc(datos_acp,basic=FALSE),2)
##              Matematicas Ciencias Lectura_Critica Investigacion Ingles
## median             71.70    75.55           65.90         80.80  85.80
## mean               71.91    75.14           66.62         81.16  85.42
## SE.mean             0.66     0.46            0.76          0.41   0.28
## CI.mean.0.95        1.29     0.91            1.50          0.81   0.55
## var               129.60    63.95          175.09         50.98  23.76
## std.dev            11.38     8.00           13.23          7.14   4.87
## coef.var            0.16     0.11            0.20          0.09   0.06
##              Asistencia Participacion Proyectos
## median            85.55         74.70     77.60
## mean              85.28         75.05     77.49
## SE.mean            0.49          0.47      0.48
## CI.mean.0.95       0.96          0.92      0.95
## var               71.46         65.31     70.24
## std.dev            8.45          8.08      8.38
## coef.var           0.10          0.11      0.11

Resumen:

  • Se analizaron 8 variables académicas con 300 observaciones cada una.

  • No se encontraron datos faltantes ni valores nulos.

  • Las medias varían entre 66.6 (Lectura Crítica) y 85.4 (Inglés).

  • Las variables más dispersas fueron Lectura Crítica y Matemáticas (mayor desviación estándar y coeficiente de variación).

  • Rango de valores amplio pero razonable en todas las variables.

  • Medias y medianas similares, lo que sugiere distribuciones aproximadamente simétricas.

  • Se calcularon errores estándar y rangos de confianza al 95% para cada media.

6. Análisis de Correlación

6.1. Matriz de Variancia-Covariancia

head(datos_acp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
options(digits = 3)
cov(datos_acp)
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas         129.596   -6.526         -14.782         1.095 -0.849
## Ciencias             -6.526   63.946           7.546        -0.172 -2.854
## Lectura_Critica     -14.782    7.546         175.093         0.745  7.007
## Investigacion         1.095   -0.172           0.745        50.981 -0.597
## Ingles               -0.849   -2.854           7.007        -0.597 23.762
## Asistencia            3.805   -0.485         -14.809        -5.729 -0.500
## Participacion        -4.562   -4.387          -3.979         3.306  0.826
## Proyectos             6.313    6.504           5.144         5.587  1.835
##                 Asistencia Participacion Proyectos
## Matematicas         3.8055        -4.562    6.3133
## Ciencias           -0.4850        -4.387    6.5035
## Lectura_Critica   -14.8088        -3.979    5.1437
## Investigacion      -5.7288         3.306    5.5873
## Ingles             -0.5001         0.826    1.8349
## Asistencia         71.4577        -3.170   -0.0973
## Participacion      -3.1702        65.315   -2.6965
## Proyectos          -0.0973        -2.696   70.2383
diag(cov(datos_acp))
##     Matematicas        Ciencias Lectura_Critica   Investigacion          Ingles 
##           129.6            63.9           175.1            51.0            23.8 
##      Asistencia   Participacion       Proyectos 
##            71.5            65.3            70.2
sum(diag(cov(datos_acp)))
## [1] 650
  • La diagonal de la matriz muestra las varianzas individuales de cada variable (ej. Matemáticas: 129.6, Lectura Crítica: 175.1).
  • La suma de las varianzas (traza de la matriz): 650, representa la variabilidad total en los datos.

Si observamos la salida de cov(datos_acp):

  • Valores positivos fuera de la diagonal indican covarianzas directas (cuando una variable aumenta, la otra tiende a aumentar).

    • Ejemplo: Proyectos y Ciencias (6.50), Investigacion y Proyectos (5.59).
  • Valores negativos fuera de la diagonal indican covarianzas inversas (cuando una variable aumenta, la otra tiende a disminuir).

    • Ejemplo: Matemáticas y Lectura Crítica (–14.78), Participación y Ciencias (–4.39).
  • Valores cercanos a cero indican poca o nula relación lineal entre variables.

6.2. Coeficientes de Correlación

round(cor(datos_acp),3)
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas           1.000   -0.072          -0.098         0.013 -0.015
## Ciencias             -0.072    1.000           0.071        -0.003 -0.073
## Lectura_Critica      -0.098    0.071           1.000         0.008  0.109
## Investigacion         0.013   -0.003           0.008         1.000 -0.017
## Ingles               -0.015   -0.073           0.109        -0.017  1.000
## Asistencia            0.040   -0.007          -0.132        -0.095 -0.012
## Participacion        -0.050   -0.068          -0.037         0.057  0.021
## Proyectos             0.066    0.097           0.046         0.093  0.045
##                 Asistencia Participacion Proyectos
## Matematicas          0.040        -0.050     0.066
## Ciencias            -0.007        -0.068     0.097
## Lectura_Critica     -0.132        -0.037     0.046
## Investigacion       -0.095         0.057     0.093
## Ingles              -0.012         0.021     0.045
## Asistencia           1.000        -0.046    -0.001
## Participacion       -0.046         1.000    -0.040
## Proyectos           -0.001        -0.040     1.000
diag(cor(datos_acp))
##     Matematicas        Ciencias Lectura_Critica   Investigacion          Ingles 
##               1               1               1               1               1 
##      Asistencia   Participacion       Proyectos 
##               1               1               1
sum(diag(cor(datos_acp)))
## [1] 8
  • En este caso, todas las diagonales valen 1, ya que cada variable está perfectamente correlacionada consigo misma.

  • La suma de la diagonal (traza) es 8, igual al número de variables, como es esperable en una matriz de correlación.

  • La mayoría de las correlaciones son bajas o cercanas a cero, indicando poca relación lineal directa entre las variables.

  • Ejemplos:

    • Correlación más alta: Lectura Crítica e Inglés = 0.109, aún así, es débil.

    • Correlaciones negativas débiles:

      • Matemáticas y Lectura Crítica: –0.098

      • Asistencia y Lectura Crítica: –0.132

  • Esto sugiere que las variables están relativamente poco correlacionadas entre sí.

Prueba Estadística

pairs.panels(datos_acp)

Interpretación:

  • Distribuciones (diagonal del gráfico)

    1. Matemáticas: para esta variable observamos una distribución simétrica y ligeramente concentrada al centro.
    2. Ciencias: esta variable tiene una ligera tendencia a la derecha (asimetría negativa), los valores están algo agrupados.
    3. Lectura Crítica: tiene una leve asimetría a la derecha y un rango más amplio que otras variables.
    4. Investigación: esta variable posee una distribución moderadamente asimétrica, compacta en comparación con otras.
    5. Inglés: tiene una distribución simétrica y sus valores están centrados cerca de 70.
    6. Participación: esta variable tiene una ligera asimetría a la izquierda.
    7. Proyectos: tiene una distribución algo normal con rango amplio.
  • Correlaciones y scatter plots (fuera de la diagonal)

    1. Matemática y Lectura Crítica: tienen una correlación negativa débil (-0.10). Su scatter plot es disperso sin patrón claro (no hay relación lineal fuerte).
    2. Ciencias y Proyectos: tienen una correlación positiva leve (0.10), ligeramente ascendente pero muy débil (apenas una tendencia).
    3. Lectura Crítica e Inglés: tienen una correlación leve positiva (0.11). Los puntos (scatter plot) muestran una pequeña tendencia ascendente.
    4. Investigación y Proyectos: tiene una correlación leve (0.09). Algunos puntos (scatter plot) sugieren relación débilmente positiva.
    5. Lectura Crítica y Asistencia: tiene una correlación negativa moderada (-0.13), esto puede indicar que a mayor asistencia, menor rendimiento en Lectura Crítica, pero la relación es débil.
  • En general, la mayoría de las relaciones son muy débiles (correlaciones cercanas a 0), lo que justifica aplicar ACP para reducir dimensiones y detectar combinaciones de variables con varianza explicativa.

corr.test(datos_acp)
## Call:corr.test(x = datos_acp)
## Correlation matrix 
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas            1.00    -0.07           -0.10          0.01  -0.02
## Ciencias              -0.07     1.00            0.07          0.00  -0.07
## Lectura_Critica       -0.10     0.07            1.00          0.01   0.11
## Investigacion          0.01     0.00            0.01          1.00  -0.02
## Ingles                -0.02    -0.07            0.11         -0.02   1.00
## Asistencia             0.04    -0.01           -0.13         -0.09  -0.01
## Participacion         -0.05    -0.07           -0.04          0.06   0.02
## Proyectos              0.07     0.10            0.05          0.09   0.04
##                 Asistencia Participacion Proyectos
## Matematicas           0.04         -0.05      0.07
## Ciencias             -0.01         -0.07      0.10
## Lectura_Critica      -0.13         -0.04      0.05
## Investigacion        -0.09          0.06      0.09
## Ingles               -0.01          0.02      0.04
## Asistencia            1.00         -0.05      0.00
## Participacion        -0.05          1.00     -0.04
## Proyectos             0.00         -0.04      1.00
## Sample Size 
## [1] 300
## Probability values (Entries above the diagonal are adjusted for multiple tests.) 
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas            0.00     1.00            1.00          1.00   1.00
## Ciencias               0.22     0.00            1.00          1.00   1.00
## Lectura_Critica        0.09     0.22            0.00          1.00   1.00
## Investigacion          0.82     0.96            0.89          0.00   1.00
## Ingles                 0.79     0.21            0.06          0.77   0.00
## Asistencia             0.50     0.90            0.02          0.10   0.83
## Participacion          0.39     0.24            0.52          0.32   0.72
## Proyectos              0.25     0.09            0.42          0.11   0.44
##                 Asistencia Participacion Proyectos
## Matematicas           1.00          1.00         1
## Ciencias              1.00          1.00         1
## Lectura_Critica       0.61          1.00         1
## Investigacion         1.00          1.00         1
## Ingles                1.00          1.00         1
## Asistencia            0.00          1.00         1
## Participacion         0.42          0.00         1
## Proyectos             0.98          0.49         0
## 
##  To see confidence intervals of the correlations, print with the short=FALSE option

Observamos que:

  1. Relaciones muy débiles (|r| < 0.15): Casi todas las correlaciones son muy bajas, lo que indica independencia relativa entre variables, por ejemplo:
    • Matemáticas y Ciencias: r = -0.07

    • Matemáticas y Participación: r = -0.05

    • Ciencias y Inglés: r = -0.07

  2. Relaciones con tendencia leve: Aunque son bajas, algunas variables tienen ligeras correlaciones que podrían ser puntos de análisis:
    • Lectura Crítica e Inglés: r = 0.11

      Podría sugerir que estudiantes con mejor lectura también manejan mejor el inglés.

    • Ciencias y Proyectos: r = 0.10

      Tal vez los estudiantes más científicos tienden a desempeñarse un poco mejor en proyectos.

  3. Relaciones negativas pequeñas:
    • Lectura Crítica y Asistencia: r = -0.13, p = 0.02

      Esta es la única correlación débil pero estadísticamente significativa.

Estas relaciones indican baja multicolinealidad.

6.3. Gráficos de Correlación

i=cor(datos_acp,method="pearson")
corrplot(i,sig.level=0.05,type="lower")

corrplot(i,method = "ellipse",order = "original",addCoef.col = "magenta")

corrplot(i,method = "ellipse",order = "original",addCoef.col = "magenta",type = "upper")

corrplot(i,method = "ellipse",order = "original",addCoef.col = "magenta",type = "lower")

corrplot(i,method = "color",order = "original",tl.pos = "d",addCoef.col = "green2")

corrplot(i,method = "color",order = "original",tl.pos = "d")

Conclusión de los gráficos:

Aunque las gráficas tienen diferentes estilos, todas coinciden en que no hay relaciones fuertes entre las variables. La mayoría son débiles y algunas incluso no son significativas estadísticamente. Destacamos el caso de Lectura Crítica y Asistencia, cuya correlación negativa débil sí fue significativa. Visualmente, este tipo de gráficos nos ayuda a identificar rápidamente qué relaciones podrían ser relevantes para analizar.

res1=cor.mtest(datos_acp,conf.level=0.05)
res1
## $p
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas          0.0000   0.2157          0.0898         0.816 0.7920
## Ciencias             0.2157   0.0000          0.2181         0.959 0.2060
## Lectura_Critica      0.0898   0.2181          0.0000         0.892 0.0602
## Investigacion        0.8163   0.9586          0.8919         0.000 0.7674
## Ingles               0.7920   0.2060          0.0602         0.767 0.0000
## Asistencia           0.4950   0.9015          0.0218         0.101 0.8342
## Participacion        0.3921   0.2412          0.5208         0.323 0.7177
## Proyectos            0.2532   0.0934          0.4235         0.107 0.4383
##                 Asistencia Participacion Proyectos
## Matematicas         0.4950         0.392    0.2532
## Ciencias            0.9015         0.241    0.0934
## Lectura_Critica     0.0218         0.521    0.4235
## Investigacion       0.1008         0.323    0.1065
## Ingles              0.8342         0.718    0.4383
## Asistencia          0.0000         0.423    0.9811
## Participacion       0.4232         0.000    0.4921
## Proyectos           0.9811         0.492    0.0000
## 
## $lowCI
##                 Matematicas Ciencias Lectura_Critica Investigacion  Ingles
## Matematicas         1.00000 -0.07531        -0.10173       0.00983 -0.0189
## Ciencias           -0.07531  1.00000         0.06769      -0.00665 -0.0768
## Lectura_Critica    -0.10173  0.06769         1.00000       0.00424  0.1050
## Investigacion       0.00983 -0.00665         0.00424       1.00000 -0.0208
## Ingles             -0.01893 -0.07683         0.10504      -0.02079  1.0000
## Asistencia          0.03591 -0.01081        -0.13596      -0.09852 -0.0158
## Participacion      -0.05321 -0.07150        -0.04085       0.05366  0.0173
## Proyectos           0.06255  0.09344         0.04275       0.08976  0.0413
##                 Asistencia Participacion Proyectos
## Matematicas        0.03591       -0.0532   0.06255
## Ciencias          -0.01081       -0.0715   0.09344
## Lectura_Critica   -0.13596       -0.0408   0.04275
## Investigacion     -0.09852        0.0537   0.08976
## Ingles            -0.01577        0.0173   0.04128
## Asistencia         1.00000       -0.0500  -0.00501
## Participacion     -0.05003        1.0000  -0.04344
## Proyectos         -0.00501       -0.0434   1.00000
## 
## $uppCI
##                 Matematicas  Ciencias Lectura_Critica Investigacion  Ingles
## Matematicas          1.0000 -0.068066         -0.0945      0.017109 -0.0117
## Ciencias            -0.0681  1.000000          0.0749      0.000629 -0.0696
## Lectura_Critica     -0.0945  0.074929          1.0000      0.011520  0.1122
## Investigacion        0.0171  0.000629          0.0115      1.000000 -0.0135
## Ingles              -0.0117 -0.069594          0.1122     -0.013511  1.0000
## Asistencia           0.0432 -0.003536         -0.1288     -0.091308 -0.0085
## Participacion       -0.0460 -0.064252         -0.0336      0.060916  0.0246
## Proyectos            0.0698  0.100644          0.0500      0.096975  0.0485
##                 Asistencia Participacion Proyectos
## Matematicas        0.04318       -0.0460   0.06979
## Ciencias          -0.00354       -0.0643   0.10064
## Lectura_Critica   -0.12881       -0.0336   0.05001
## Investigacion     -0.09131        0.0609   0.09698
## Ingles            -0.00850        0.0246   0.04854
## Asistencia         1.00000       -0.0428   0.00227
## Participacion     -0.04277        1.0000  -0.03618
## Proyectos          0.00227       -0.0362   1.00000
a=datos_acp$Ingles
b=datos_acp$Ciencias
c=cbind(a,b)
head(c,10)
##          a    b
##  [1,] 84.3 86.4
##  [2,] 77.8 83.4
##  [3,] 81.0 78.5
##  [4,] 89.4 80.7
##  [5,] 89.5 82.3
##  [6,] 95.0 53.7
##  [7,] 85.0 83.9
##  [8,] 77.5 71.1
##  [9,] 81.2 76.8
## [10,] 87.0 72.6
mshapiro.test(t(c))
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 1, p-value = 0.4

¿Qué muestran las matrices $p, $lowCI, $uppCI?

  • $p: p-values para cada correlación → indica si la correlación es estadísticamente significativa (p < 0.05).

  • $lowCI y $uppCI: intervalos de confianza del 95% para cada r.

Test de Shapito Wilk entre variables Inglés y Ciencias

  • W = 1, p-value = 0.4NO se rechaza la normalidad

  • Probamos que ambas variables Inglés y Ciencias (en conjunto) siguen una distribución normal multivariada.

corrplot(i, p.mat = res1$p, sig.level = 0.05)

corrplot(i, p.mat = res1$p, order = "hclust", insig = "pch", addrect = 3)

corrplot(i, p.mat = res1$p, insig = "p-value",sig.level = -1)#agrega los pvalores

Conclusión de los gráficos:

Estos tres gráficos no solo muestran las correlaciones, sino que también integran el análisis de significancia estadística, lo cual es clave para una interpretación responsable de los datos. Visualmente:

  • El primero es útil para un resumen limpio.

  • El segundo para descubrir estructuras entre variables.

  • El tercero para un análisis detallado con los valores p explícitos

a. PRIMERA FORMA

col1 <- colorRampPalette(c("#7F0000","red","#FF7F00","yellow","white", 
                           "cyan", "#007FFF", "blue","#00007F"))
corrplot(cor(datos_acp),
         title = "Matriz de correlacion", mar=c(0,0,1,0),
         method = "color", outline = TRUE, addgrid.col = "darkgray",
         order = "hclust", addrect = 3, col=col1(100),
         tl.col='black', tl.cex=.75)

Este gráfico visualiza la matriz de correlación organizada jerárquicamente, lo que permite identificar grupos de variables con patrones similares. Los rectángulos negros destacan clústeres de variables correlacionadas, facilitando su interpretación conjunta. Ideal para identificar bloques de relaciones.

b. SEGUNDA FORMA

pairs(datos_acp,col="red")

Este gráfico muestra todas las combinaciones posibles de relaciones bivariadas mediante diagramas de dispersión. Es útil para observar visualmente la forma y tendencia de las relaciones (linealidad, dispersión o patrones no lineales) entre variables. Es detallado pero puede ser abrumador con muchas variables.

c. TERCERA FORMA

chart.Correlation(datos_acp, histogram=TRUE, pch=20)
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter

Este gráfico combina la matriz de correlación con histogramas y diagramas de dispersión, mostrando los coeficientes y relaciones visuales entre variables. Es muy completo porque permite observar la fuerza de la relación, la distribución de cada variable y patrones bivariados, todo en un solo vistazo.

d. CUARTA FORMA - Mapas de Calor

cor.plot(cor(datos_acp),
         main="Mapa de Calor", 
         diag=TRUE,
         show.legend = TRUE) 

El mapa de calor muestra la intensidad de las correlaciones con una escala de colores. Es intuitivo y rápido para detectar correlaciones fuertes y débiles. Al no incluir detalles numéricos ni formas de dispersión, es ideal para una vista global y estética de las relaciones.

CORRELOGRAMA
data1=datos_acp

head(data1)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
corr=cor(data1)
corr
##                 Matematicas Ciencias Lectura_Critica Investigacion  Ingles
## Matematicas          1.0000 -0.07169        -0.09813       0.01347 -0.0153
## Ciencias            -0.0717  1.00000         0.07131      -0.00301 -0.0732
## Lectura_Critica     -0.0981  0.07131         1.00000       0.00788  0.1086
## Investigacion        0.0135 -0.00301         0.00788       1.00000 -0.0171
## Ingles              -0.0153 -0.07321         0.10864      -0.01715  1.0000
## Asistencia           0.0395 -0.00717        -0.13239      -0.09491 -0.0121
## Participacion       -0.0496 -0.06787        -0.03721       0.05729  0.0210
## Proyectos            0.0662  0.09704         0.04638       0.09337  0.0449
##                 Asistencia Participacion Proyectos
## Matematicas        0.03954       -0.0496   0.06617
## Ciencias          -0.00717       -0.0679   0.09704
## Lectura_Critica   -0.13239       -0.0372   0.04638
## Investigacion     -0.09491        0.0573   0.09337
## Ingles            -0.01214        0.0210   0.04491
## Asistencia         1.00000       -0.0464  -0.00137
## Participacion     -0.04640        1.0000  -0.03981
## Proyectos         -0.00137       -0.0398   1.00000
ggcorrplot(corr) +
  ggtitle("Correlograma de Estudiantes") +
  theme_minimal()

ggcorrplot(corr, method = 'circle') +
  ggtitle("Correlograma de Estudiantes") +
  theme_minimal()

ggcorrplot(corr, method = 'circle', type = 'lower') +
  ggtitle("Correlograma de Estudiantes") +
  theme_minimal()

ggcorrplot(corr, method = 'circle', type = 'lower', lab = TRUE) +
  ggtitle("Correlograma de Estudiantes") +
  theme_minimal() +
  theme(legend.position="none")

De cada gráfico:

  • Del primer gráfico: Las correlaciones son representadas por cuadrados donde el tamaño y el color indican la fuerza de la relación entre las variables.
  • Del segundo gráfico: La intensidad de la correlación se muestra mediante el tamaño del círculo: círculos más grandes indican correlaciones más fuertes, y círculos pequeños indican correlaciones débiles. El color también refleja la dirección (rojo para correlaciones positivas y azul para negativas).
  • Del tercer gráfico: Este gráfico es como el anterior, pero solo muestra la mitad inferior de la matriz de correlación.
  • Del cuarto gráfico: Esto permite ver de manera más precisa los valores exactos de las correlaciones.

INCLUYENDO p VALORES

p.mat <- cor_pmat(datos_acp)
p.mat
##                 Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas          0.0000   0.2157          0.0898         0.816 0.7920
## Ciencias             0.2157   0.0000          0.2181         0.959 0.2060
## Lectura_Critica      0.0898   0.2181          0.0000         0.892 0.0602
## Investigacion        0.8163   0.9586          0.8919         0.000 0.7674
## Ingles               0.7920   0.2060          0.0602         0.767 0.0000
## Asistencia           0.4950   0.9015          0.0218         0.101 0.8342
## Participacion        0.3921   0.2412          0.5208         0.323 0.7177
## Proyectos            0.2532   0.0934          0.4235         0.107 0.4383
##                 Asistencia Participacion Proyectos
## Matematicas         0.4950         0.392    0.2532
## Ciencias            0.9015         0.241    0.0934
## Lectura_Critica     0.0218         0.521    0.4235
## Investigacion       0.1008         0.323    0.1065
## Ingles              0.8342         0.718    0.4383
## Asistencia          0.0000         0.423    0.9811
## Participacion       0.4232         0.000    0.4921
## Proyectos           0.9811         0.492    0.0000

Los valores p representan la significancia estadística de las correlaciones entre las variables. Si un valor p es bajo (típicamente menor a 0.05), indica que la correlación es estadísticamente significativa.

Agregando la No significacion (X) de las correlaciones
ggcorrplot(corr, hc.order = TRUE,
           type = "lower", p.mat = p.mat)

Dejar en blanco si el coeficiente es no significativo
ggcorrplot(corr, p.mat = p.mat, hc.order = TRUE,
           type = "lower", insig = "blank")

Conclusión de los gráficos:

Como anteriormente lo mencionamos podemos observar que la única correlación estadísticamente significativa (p < 0.05) es entre Lectura_Critica y Asistencia (p = 0.0218). Mientras que Proyectos y Asistencia tienen una correlación extremadamente no significativa (p = 0.9811).

7. Analisis de Componentes Principales usando la libreria ade4 Matriz de Correlaciones

head(datos_acp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
acp <- dudi.pca(datos_acp,
                scannf=FALSE, scale=TRUE,
                nf=ncol(datos_acp))#con scale se tipifican las variables
summary(acp)
## Class: pca dudi
## Call: dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
## 
## Total inertia: 8
## 
## Eigenvalues:
##     Ax1     Ax2     Ax3     Ax4     Ax5 
##  1.2584  1.1539  1.1171  1.0697  0.9561 
## 
## Projected inertia (%):
##     Ax1     Ax2     Ax3     Ax4     Ax5 
##   15.73   14.42   13.96   13.37   11.95 
## 
## Cumulative projected inertia (%):
##     Ax1   Ax1:2   Ax1:3   Ax1:4   Ax1:5 
##   15.73   30.15   44.12   57.49   69.44 
## 
## (Only 5 dimensions (out of 8) are shown)

De lo siguiente se puede afirmar que: las primeras 5 componentes principales capturan el 69.44% de la variabilidad de los datos, lo que sugiere que se puede realizar una reducción de dimensionalidad significativa sin perder demasiada información.

str(acp)
## List of 13
##  $ tab :'data.frame':    300 obs. of  8 variables:
##   ..$ Matematicas    : num [1:300] 1.2308 0.0693 0.1221 -1.057 -0.2739 ...
##   ..$ Ciencias       : num [1:300] 1.41 1.034 0.421 0.696 0.897 ...
##   ..$ Lectura_Critica: num [1:300] 1.0509 0.5361 0.3393 0.0744 -0.289 ...
##   ..$ Investigacion  : num [1:300] 0.16 -0.345 1.001 -1.103 0.973 ...
##   ..$ Ingles         : num [1:300] -0.23 -1.566 -0.908 0.818 0.838 ...
##   ..$ Asistencia     : num [1:300] -1.751 -0.709 -0.282 0.192 1.46 ...
##   ..$ Participacion  : num [1:300] -1.2833 -0.6512 -0.0687 1.2451 1.5673 ...
##   ..$ Proyectos      : num [1:300] -0.1543 0.4791 0.9094 -0.0946 0.5508 ...
##  $ cw  : num [1:8] 1 1 1 1 1 1 1 1
##  $ lw  : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
##  $ eig : num [1:8] 1.258 1.154 1.117 1.07 0.956 ...
##  $ rank: int 8
##  $ nf  : int 8
##  $ c1  :'data.frame':    8 obs. of  8 variables:
##   ..$ CS1: num [1:8] 0.321 -0.297 -0.609 -0.263 -0.246 ...
##   ..$ CS2: num [1:8] 0.2348 0.5319 -0.0182 -0.0385 -0.2411 ...
##   ..$ CS3: num [1:8] 0.48766 -0.23045 -0.23059 0.63155 -0.00675 ...
##   ..$ CS4: num [1:8] 0.308 -0.346 0.22 -0.268 0.727 ...
##   ..$ CS5: num [1:8] 0.376 -0.2386 0.1794 -0.0389 -0.2713 ...
##   ..$ CS6: num [1:8] 0.4298 0.2728 0.0487 -0.592 -0.0776 ...
##   ..$ CS7: num [1:8] -0.423 -0.438 -0.27 -0.326 -0.193 ...
##   ..$ CS8: num [1:8] -0.0649 0.3652 -0.6483 0.0129 0.4854 ...
##  $ li  :'data.frame':    300 obs. of  8 variables:
##   ..$ Axis1: num [1:300] -1.427 -0.598 -0.718 -0.406 -0.116 ...
##   ..$ Axis2: num [1:300] 1.257 1.356 0.827 -0.72 -0.052 ...
##   ..$ Axis3: num [1:300] 0.0676 -0.3681 0.9338 -1.1763 0.6842 ...
##   ..$ Axis4: num [1:300] -0.14 -1.144 -0.816 0.055 -0.102 ...
##   ..$ Axis5: num [1:300] 2.0528 0.8708 0.0837 -1.4431 -2.4413 ...
##   ..$ Axis6: num [1:300] 0.7482 0.6262 -0.142 0.8911 -0.0903 ...
##   ..$ Axis7: num [1:300] -0.8222 0.3522 0.1177 0.0401 -1.02 ...
##   ..$ Axis8: num [1:300] 0.5786 -0.4188 -0.5172 0.3747 0.0206 ...
##  $ co  :'data.frame':    8 obs. of  8 variables:
##   ..$ Comp1: num [1:8] 0.36 -0.333 -0.683 -0.295 -0.275 ...
##   ..$ Comp2: num [1:8] 0.2522 0.5714 -0.0196 -0.0414 -0.259 ...
##   ..$ Comp3: num [1:8] 0.51541 -0.24356 -0.24371 0.66749 -0.00714 ...
##   ..$ Comp4: num [1:8] 0.319 -0.357 0.227 -0.278 0.752 ...
##   ..$ Comp5: num [1:8] 0.368 -0.233 0.175 -0.038 -0.265 ...
##   ..$ Comp6: num [1:8] 0.3996 0.2537 0.0453 -0.5505 -0.0722 ...
##   ..$ Comp7: num [1:8] -0.376 -0.39 -0.24 -0.29 -0.171 ...
##   ..$ Comp8: num [1:8] -0.0577 0.3245 -0.5761 0.0114 0.4313 ...
##  $ l1  :'data.frame':    300 obs. of  8 variables:
##   ..$ RS1: num [1:300] -1.272 -0.533 -0.64 -0.362 -0.104 ...
##   ..$ RS2: num [1:300] 1.1701 1.2621 0.7702 -0.6702 -0.0484 ...
##   ..$ RS3: num [1:300] 0.0639 -0.3483 0.8835 -1.113 0.6473 ...
##   ..$ RS4: num [1:300] -0.1349 -1.1062 -0.7889 0.0532 -0.0985 ...
##   ..$ RS5: num [1:300] 2.0994 0.8906 0.0856 -1.4759 -2.4967 ...
##   ..$ RS6: num [1:300] 0.8046 0.6734 -0.1527 0.9583 -0.0971 ...
##   ..$ RS7: num [1:300] -0.9247 0.3961 0.1324 0.0451 -1.1471 ...
##   ..$ RS8: num [1:300] 0.6512 -0.4713 -0.5821 0.4217 0.0232 ...
##  $ call: language dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
##  $ cent: Named num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
##   ..- attr(*, "names")= chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##  $ norm: Named num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
##   ..- attr(*, "names")= chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##  - attr(*, "class")= chr [1:2] "pca" "dudi"
print(acp)
## Duality diagramm
## class: pca dudi
## $call: dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
## 
## $nf: 8 axis-components saved
## $rank: 8
## eigen values: 1.26 1.15 1.12 1.07 0.956 ...
##   vector length mode    content       
## 1 $cw    8      numeric column weights
## 2 $lw    300    numeric row weights   
## 3 $eig   8      numeric eigen values  
## 
##   data.frame nrow ncol content             
## 1 $tab       300  8    modified array      
## 2 $li        300  8    row coordinates     
## 3 $l1        300  8    row normed scores   
## 4 $co        8    8    column coordinates  
## 5 $c1        8    8    column normed scores
## other elements: cent norm
acp[["eig"]]
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789

Interpretación de acp[["eig"]]:

  • Los valores propios reflejan la cantidad de varianza explicada por cada componente principal. Un valor propio mayor indica una mayor capacidad de la componente para capturar la variabilidad en los datos.

  • Las primeras 5 componentes (Ax1 a Ax5) tienen valores propios mayores que 1, lo que indica que son componentes significativas y explican una proporción considerable de la variabilidad en los datos.

  • Las componentes 6, 7 y 8 tienen valores propios menores que 1, lo que sugiere que no son tan relevantes para explicar la variabilidad de los datos.

VALORES PROPIOS

acp$eig
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789
sum(acp$eig)
## [1] 8
inertia.dudi(acp)
## Inertia information:
## Call: inertia.dudi(x = acp)
## 
## Decomposition of total inertia:
##     inertia     cum  cum(%)
## Ax1  1.2584   1.258   15.73
## Ax2  1.1539   2.412   30.15
## Ax3  1.1171   3.529   44.12
## Ax4  1.0697   4.599   57.49
## Ax5  0.9561   5.555   69.44
## Ax6  0.8647   6.420   80.25
## Ax7  0.7907   7.211   90.13
## Ax8  0.7895   8.000  100.00

La función inertia.dudi(acp) muestra:

  • Proporción de inercia explicada por cada componente.

    • Por ejemplo, Axis1 (Ax1) explica aproximadamente el 15.7% de la varianza.
  • Proporción acumulada.

    • La varianza total explicada acumulada alcanza el 100% al considerar los 8 componentes, como debe ser.

VECTORES PROPIOS

acp$c1
##                     CS1     CS2      CS3    CS4     CS5     CS6    CS7     CS8
## Matematicas      0.3209  0.2348  0.48766  0.308  0.3760  0.4298 -0.423 -0.0649
## Ciencias        -0.2966  0.5319 -0.23045 -0.346 -0.2386  0.2728 -0.438  0.3652
## Lectura_Critica -0.6089 -0.0182 -0.23059  0.220  0.1794  0.0487 -0.270 -0.6483
## Investigacion   -0.2629 -0.0385  0.63155 -0.268 -0.0389 -0.5920 -0.326  0.0129
## Ingles          -0.2455 -0.2411 -0.00675  0.727 -0.2713 -0.0776 -0.193  0.4854
## Asistencia       0.4821  0.2569 -0.16917  0.190 -0.5516 -0.3087 -0.292 -0.3896
## Participacion   -0.0183 -0.5543  0.23348 -0.244 -0.5153  0.5112 -0.141 -0.1784
## Proyectos       -0.2759  0.4783  0.41699  0.202 -0.3532  0.1590  0.555 -0.1506

Correlaciones entre las variables originales y las componentes principales

acp$co
##                   Comp1   Comp2    Comp3  Comp4  Comp5   Comp6  Comp7   Comp8
## Matematicas      0.3600  0.2522  0.51541  0.319  0.368  0.3996 -0.376 -0.0577
## Ciencias        -0.3327  0.5714 -0.24356 -0.357 -0.233  0.2537 -0.390  0.3245
## Lectura_Critica -0.6830 -0.0196 -0.24371  0.227  0.175  0.0453 -0.240 -0.5761
## Investigacion   -0.2949 -0.0414  0.66749 -0.278 -0.038 -0.5505 -0.290  0.0114
## Ingles          -0.2755 -0.2590 -0.00714  0.752 -0.265 -0.0722 -0.171  0.4313
## Asistencia       0.5408  0.2759 -0.17880  0.197 -0.539 -0.2871 -0.260 -0.3462
## Participacion   -0.0205 -0.5954  0.24677 -0.252 -0.504  0.4754 -0.125 -0.1585
## Proyectos       -0.3095  0.5138  0.44072  0.209 -0.345  0.1479  0.493 -0.1338

A partir de la matriz de vectores propios (acp$c1), podemos interpretar cómo cada variable contribuye a los componentes principales (CS). Esto nos permite identificar patrones de comportamiento entre estudiantes según sus puntajes en diferentes áreas.

A continuación, se detalla la interpretación de los tres primeros componentes, que en conjunto explican cerca del 44% de la variabilidad total.

Componente 1 (CS1)

  • Cargas positivas altas en:

    • Asistencia (0.4821)

    • Matematicas (0.3209):

  • Cargas negativas altas en:

    • Lectura_Critica (−0.6089)

    • Investigacion (−0.2629)

  • Interpretación: Este eje contrapone a los estudiantes con alta asistencia y buen desempeño en Matemáticas, frente a aquellos con mayor habilidad en Lectura Crítica e Investigación. Se puede entender como un eje de “constancia en asistencia y razonamiento matemático” vs. “habilidades críticas y analíticas escritas”.

Componente 2 (CS2)

  • Cargas positivas altas en:

    • Ciencias (0.5319)

    • Proyectos (0.4783)

  • Cargas negativas altas en:

    • Participacion (−0.5543)

    • Ingles (−0.2411)

  • Interpretación: Este eje distingue a los estudiantes con buen desempeño en Ciencias y Proyectos, frente a aquellos con mayor Participación en clase. Puede interpretarse como un eje de “rendimiento académico-científico” vs. “interacción y participación en el aula”.

Componente 3 (CS3)

  • Cargas positivas altas en:

    • Investigacion (0.6316)

    • Proyectos (0.4170)

    • Matematicas (0.4877)

  • Cargas negativas en:

    • Lectura_Critica (−0.2306)
  • Interpretación: Este eje agrupa a los estudiantes con mayor capacidad en Investigación, desarrollo de Proyectos y resolución Matemática. Representa una dimensión de “habilidades aplicadas y analíticas”.

7.1 Grafica de Valores propios - ScreePlot

a. PRIMERA FORMA

a=fviz_eig(acp,choice='eigenvalue',geom="line",linecolor = '#3A5FCD',xlab = 'Componentes Principales')+
  geom_hline(yintercept = 1,color='#EE6363')+
  theme_grey()
a

b. SEGUNDA FORMA

eig.val <- get_eigenvalue(acp)
eig.val
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1      1.258            15.73                        15.7
## Dim.2      1.154            14.42                        30.2
## Dim.3      1.117            13.96                        44.1
## Dim.4      1.070            13.37                        57.5
## Dim.5      0.956            11.95                        69.4
## Dim.6      0.865            10.81                        80.2
## Dim.7      0.791             9.88                        90.1
## Dim.8      0.789             9.87                       100.0
barplot(eig.val[, 2], names.arg=1:nrow(eig.val), 
        main = "Autovalores",
        xlab = "Componentes Principales",
        ylab = "Porcentaje de variancias",
        col ="steelblue")
lines(x = 1:nrow(eig.val), eig.val[, 2], 
      type="b", pch=19, col = "red")

c. TERCERA FORMA

b=fviz_screeplot(acp, ncp=9, addlabels=TRUE,hjust = 0.5,linecolor = "#FC4E07",
                 barfill = "#00AFBB",xlab = "Componentes Principales")
b

De los siguiente gráficos observamos:

  1. Criterio del Codo (Scree Plot)
    • En el Gráfico 1 (Scree Plot estándar), la curva muestra una caída pronunciada en los primeros componentes y luego se estabiliza alrededor del CP4.

    • El “codo” (punto donde la pendiente cambia de abrupta a suave) suele indicar el número óptimo de componentes. En este caso, ocurre cerca del CP3 o CP4, lo que sugiere que retener 4 componentes captura la mayor parte de la varianza significativa.

  2. Porcentaje de Varianza Acumulada
    • Según el Gráfico 3, los primeros 4 componentes explican aproximadamente:

      • CP1: 15.7%

      • CP2: 14.4% (Total acumulado: 30.1%)

      • CP3: 13.4% (Total acumulado: 43.5%)

      • CP4: 12.0% (Total acumulado: ~55.5%)

    • Aunque el porcentaje acumulado no supera el 70-80% (ideal), 4 componentes son un equilibrio entre simplificación y retención de información. Si se necesita más varianza explicada, se podría considerar incluir hasta 5 componentes (pero con rendimientos decrecientes).

  3. Criterio de Kaiser (Autovalores > 1)
    • El Gráfico 1 muestra que solo el CP1 tiene un autovalor > 1 (según la línea roja en λ=1).

    • Sin embargo, este criterio suele ser conservador. En casos donde la varianza está distribuida (como el tuyo), es válido flexibilizar la regla y priorizar el criterio del codo o necesidades analíticas.

7.2 Grafica de Variables sobre el circulo de correlaciones

a. PRIMERA FORMA

library(FactoMineR)

s.corcircle(acp$co,grid=FALSE,xax = 1, yax = 2)

a

a. SEGUNDA FORMA

fviz_pca_var(acp,col.var = '#EE8262',axes = c(1, 3))

c=fviz_pca_var(acp, col.var="#FF3030")+theme_minimal()
c

De los siguiente gráficos observamos: 1. BIPLOT DE COMPONENTES PRINCIPALES: * Investigación y Lectura están correlacionadas positivamente. * Asistencia y Lectura parecen ir en direcciones opuestas → posible correlación negativa. Participación, Lectura y Asistencia tienen buenas representaciones(tamaño de flechas) 2. scree plot Número óptimo de componentes a retener: 4, tanto por el criterio de Kaiser como por el “codo” del gráfico.

*Estos componentes explicarían la mayor parte de la varianza en los datos, reduciendo la dimensionalidad sin perder demasiada información. #### C.SCORES O PUNTUACIONES DE CADA INDIVIDUO

acp$li[1:10,]
##     Axis1  Axis2   Axis3   Axis4   Axis5   Axis6   Axis7   Axis8
## 1  -1.427  1.257  0.0676 -0.1396  2.0528  0.7482 -0.8222  0.5786
## 2  -0.598  1.356 -0.3681 -1.1441  0.8708  0.6262  0.3522 -0.4188
## 3  -0.718  0.827  0.9338 -0.8159  0.0837 -0.1420  0.1177 -0.5172
## 4  -0.406 -0.720 -1.1763  0.0550 -1.4431  0.8911  0.0401  0.3747
## 5  -0.116 -0.052  0.6842 -0.1019 -2.4413 -0.0903 -1.0200  0.0206
## 6   0.905 -2.571  0.6933  1.9301  0.3542 -1.0603 -0.0381  0.3663
## 7  -0.179  0.580 -0.5697 -0.0767 -0.5384  0.5385 -1.1415 -0.5413
## 8   0.902  0.061 -0.3957 -1.1471  0.3795 -0.4797  0.5657 -0.7933
## 9   0.656  0.303  1.8424 -1.4151  0.5177 -0.0102  0.3728  1.2776
## 10 -0.340  0.586  0.4448  0.2659  0.2664 -1.6252  0.4556  0.4655
options(scipen=999)
round(cov(acp$li),4)
##       Axis1 Axis2 Axis3 Axis4 Axis5 Axis6 Axis7 Axis8
## Axis1  1.26  0.00  0.00  0.00 0.000 0.000 0.000 0.000
## Axis2  0.00  1.16  0.00  0.00 0.000 0.000 0.000 0.000
## Axis3  0.00  0.00  1.12  0.00 0.000 0.000 0.000 0.000
## Axis4  0.00  0.00  0.00  1.07 0.000 0.000 0.000 0.000
## Axis5  0.00  0.00  0.00  0.00 0.959 0.000 0.000 0.000
## Axis6  0.00  0.00  0.00  0.00 0.000 0.868 0.000 0.000
## Axis7  0.00  0.00  0.00  0.00 0.000 0.000 0.793 0.000
## Axis8  0.00  0.00  0.00  0.00 0.000 0.000 0.000 0.792
acp$eig
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789
round(cor(acp$li),4)
##       Axis1 Axis2 Axis3 Axis4 Axis5 Axis6 Axis7 Axis8
## Axis1     1     0     0     0     0     0     0     0
## Axis2     0     1     0     0     0     0     0     0
## Axis3     0     0     1     0     0     0     0     0
## Axis4     0     0     0     1     0     0     0     0
## Axis5     0     0     0     0     1     0     0     0
## Axis6     0     0     0     0     0     1     0     0
## Axis7     0     0     0     0     0     0     1     0
## Axis8     0     0     0     0     0     0     0     1
describe(acp$li)
## # A tibble: 8 × 26
##   described_variables     n    na      mean    sd se_mean   IQR skewness
##   <chr>               <int> <int>     <dbl> <dbl>   <dbl> <dbl>    <dbl>
## 1 Axis1                 300     0  1.22e-15 1.12   0.0649  1.51  -0.0697
## 2 Axis2                 300     0 -9.45e-16 1.08   0.0621  1.54  -0.0172
## 3 Axis3                 300     0 -8.86e-16 1.06   0.0611  1.46   0.248 
## 4 Axis4                 300     0 -1.26e-15 1.04   0.0598  1.38  -0.241 
## 5 Axis5                 300     0  1.26e-15 0.979  0.0565  1.20   0.0162
## 6 Axis6                 300     0  1.38e-16 0.931  0.0538  1.24  -0.0170
## 7 Axis7                 300     0  5.76e-16 0.891  0.0514  1.15  -0.147 
## 8 Axis8                 300     0 -1.33e-15 0.890  0.0514  1.25  -0.150 
## # ℹ 18 more variables: kurtosis <dbl>, p00 <dbl>, p01 <dbl>, p05 <dbl>,
## #   p10 <dbl>, p20 <dbl>, p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>,
## #   p60 <dbl>, p70 <dbl>, p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>,
## #   p99 <dbl>, p100 <dbl>

Podemos observar:Muestra la matriz de varianzas-covarianzas de las coordenadas principales. Observas una matriz diagonal, lo que indica que los componentes están desacoplados entre sí (sus covarianzas son cero) — lo cual es una propiedad deseada del ACP. ### 7.2 Grafica de Variables sobre el circulo de correlaciones #### Primera forma

library(ade4)

s.label(acp$li,xax=1,yax=2,clabel=0.7,grid=FALSE,boxes=FALSE)

#### Segunda forma

library(factoextra)

fviz_pca_ind(acp,col.ind = "steelblue")

Interpretación:

  1. Ejes Dim1 y Dim2:
    • Dim1 (componente principal 1) explica el 15.7% de la varianza total de los datos.

    • Dim2 (componente principal 2) explica el 14.4% de la varianza.

    • untos, estos dos componentes capturan aproximadamente el 30.1% de la información original (no es todo, pero es un resumen aceptable para visualizar tendencias).

  2. Puntos (Estudiantes) -Cada punto representa a un estudiante (numerados del 1 al 300).

-Estudiantes que están cerca unos de otros en el gráfico tienen patrones de respuestas similares en las ocho variables académicas.

-Estudiantes alejados tienen perfiles académicos diferentes.

  1. Distribución general
  • Los estudiantes situados en los extremos de los ejes pueden tener perfiles muy diferenciados: por ejemplo, estudiantes a la derecha de Dim1 pueden tener un mejor rendimiento en competencias ligadas a Dim1.

  • Estudiantes en la parte superior de Dim2 posiblemente destaquen en las variables asociadas positivamente a ese componente.

7.3 Grafica de individuos sobre los componentes 2 y 3

s.label(acp$li,xax=2,yax=3,clabel=0.7,grid=FALSE,boxes=FALSE)

### 7.4 Grafica de individuos sobre el primer plano con biplot

a) Primera forma

s.label(acp$li,clabel=0.7,grid=FALSE,boxes=FALSE)
s.corcircle(acp$co,grid=FALSE,add.plot = TRUE,clabel=0.7)

#### b) Segunda forma

d=fviz_pca_biplot(acp, repel = FALSE,
                  col.var = "#EE3A8C",
                  col.ind = "green" )
d

Interpretación:

-   Hay una aparente distinción entre estudiantes con fortalezas en áreas cuantitativas (Matemáticas, Ciencias) y aquellos más orientados a habilidades verbales/críticas (Lectura Crítica).

-   La variable Participación parece separarse un poco, lo que sugiere que no está tan fuertemente correlacionada con las otras dimensiones.



-   Proyectos y Ciencias tienen cierta relación, lo que puede indicar que las actividades prácticas son importantes en las carreras científicas.

Grabar los datos y los resultados de los scores en un archivo CSV

salidaacp=cbind(datos_acp,acp$li[,c(1,2,3)])
head(salidaacp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos  Axis1  Axis2   Axis3
## 1          64.7      76.2 -1.427  1.257  0.0676
## 2          69.8      81.5 -0.598  1.356 -0.3681
## 3          74.5      85.1 -0.718  0.827  0.9338
## 4          85.1      76.7 -0.406 -0.720 -1.1763
## 5          87.7      82.1 -0.116 -0.052  0.6842
## 6          77.6      67.7  0.905 -2.571  0.6933
str(salidaacp)
## 'data.frame':    300 obs. of  11 variables:
##  $ Matematicas    : num  85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
##  $ Ciencias       : num  86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
##  $ Lectura_Critica: num  80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
##  $ Investigacion  : num  82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
##  $ Ingles         : num  84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
##  $ Asistencia     : num  70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
##  $ Participacion  : num  64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
##  $ Proyectos      : num  76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
##  $ Axis1          : num  -1.427 -0.598 -0.718 -0.406 -0.116 ...
##  $ Axis2          : num  1.257 1.356 0.827 -0.72 -0.052 ...
##  $ Axis3          : num  0.0676 -0.3681 0.9338 -1.1763 0.6842 ...
write.csv(salidaacp,"P.csv")

fviz_eig(acp, ncp = 9, addlabels=TRUE, hjust = 0.5,barfill = "violet",
         barcolor = "blue")

fviz_pca_ind(acp, repel = FALSE,col.ind = 'steelblue')# Evitar superposicion de texto

Interpretación:

-   Este gráfico indica que no hay una dimensión dominante (por ejemplo, no hay una variable que por sí sola explique la mitad de la varianza).

-  El rendimiento académico de tus 300 estudiantes muestra una variedad continua sin divisiones claras en solo 2 dimensiones.

-   Hay estudiantes destacados en ciertos extremos, pero la mayoría son promedio.

Formando grupos por facultad

head(datos_acp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
datosacp1=scale(datos_acp)
round(head(datosacp1),2)
##      Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## [1,]        1.23     1.41            1.05          0.16  -0.23      -1.75
## [2,]        0.07     1.03            0.54         -0.34  -1.56      -0.71
## [3,]        0.12     0.42            0.34          1.00  -0.91      -0.28
## [4,]       -1.06     0.70            0.07         -1.10   0.82       0.19
## [5,]       -0.27     0.90           -0.29          0.97   0.84       1.46
## [6,]        0.29    -2.68           -0.45          0.41   1.97       0.03
##      Participacion Proyectos
## [1,]         -1.28     -0.15
## [2,]         -0.65      0.48
## [3,]         -0.07      0.91
## [4,]          1.24     -0.09
## [5,]          1.56      0.55
## [6,]          0.31     -1.17
round(colMeans(datosacp1),8)
##     Matematicas        Ciencias Lectura_Critica   Investigacion          Ingles 
##               0               0               0               0               0 
##      Asistencia   Participacion       Proyectos 
##               0               0               0
cov(datosacp1)
##                 Matematicas Ciencias Lectura_Critica Investigacion  Ingles
## Matematicas          1.0000 -0.07169        -0.09813       0.01347 -0.0153
## Ciencias            -0.0717  1.00000         0.07131      -0.00301 -0.0732
## Lectura_Critica     -0.0981  0.07131         1.00000       0.00788  0.1086
## Investigacion        0.0135 -0.00301         0.00788       1.00000 -0.0171
## Ingles              -0.0153 -0.07321         0.10864      -0.01715  1.0000
## Asistencia           0.0395 -0.00717        -0.13239      -0.09491 -0.0121
## Participacion       -0.0496 -0.06787        -0.03721       0.05729  0.0210
## Proyectos            0.0662  0.09704         0.04638       0.09337  0.0449
##                 Asistencia Participacion Proyectos
## Matematicas        0.03954       -0.0496   0.06617
## Ciencias          -0.00717       -0.0679   0.09704
## Lectura_Critica   -0.13239       -0.0372   0.04638
## Investigacion     -0.09491        0.0573   0.09337
## Ingles            -0.01214        0.0210   0.04491
## Asistencia         1.00000       -0.0464  -0.00137
## Participacion     -0.04640        1.0000  -0.03981
## Proyectos         -0.00137       -0.0398   1.00000

Conclusión La matriz de covarianza de los datos estandarizados indica que las relaciones entre las variables son en su mayoría débiles, con algunas correlaciones negativas y otras positivas. Ninguna relación parece ser fuertemente lineal. Esto sugiere que las variables aportan información parcialmente independiente, lo cual es adecuado para aplicar un análisis de componentes principales (ACP), ya que se busca reducir dimensiones sin perder demasiada información.

DAPC: Analisis discriminante de Componentes Principales

#Darle 3 componentes y 1 funcion discriminante



grp <- find.clusters(datosacp1, max.n.clust = 8, n.pca = 5, n.clust = 3)

head(grp)
## $Kstat
## NULL
## 
## $stat
## NULL
## 
## $grp
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   1   2   3   1   3   3   2   2   3   2   1   2   1   2   2   1   2   3   3   1 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   2   3   1   2   1   1   3   3   3   2   1   1   2   2   2   3   2   3   2   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   3   2   1   3   1   2   3   2   2   1   2   3   1   2   3   2   3   1   2   2 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   3   3   2   1   3   2   1   3   2   2   1   3   2   3   3   3   2   3   2 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 
##   2   2   3   1   3   1   2   3   3   2   2   1   3   1   1   2   2   3   1   3 
## 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 
##   1   1   1   3   1   2   2   1   2   1   3   2   3   2   2   2   2   1   2   3 
## 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 
##   2   3   2   1   3   3   2   2   2   2   1   3   1   1   3   1   2   2   1   1 
## 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 
##   3   3   3   1   2   3   2   3   2   3   3   3   3   1   1   1   1   3   2   3 
## 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 
##   2   3   1   3   2   3   1   2   3   1   3   2   2   2   1   1   1   3   1   2 
## 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 
##   1   3   1   2   3   1   2   2   2   1   1   3   3   2   2   1   2   1   3   3 
## 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 
##   3   3   2   3   1   2   1   3   3   2   2   1   2   1   3   3   3   3   2   3 
## 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 
##   3   3   3   3   2   3   3   3   2   2   1   2   3   2   2   3   2   1   2   1 
## 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 
##   3   3   2   3   2   2   1   2   3   1   2   2   2   3   3   1   1   1   1   2 
## 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 
##   1   1   3   2   2   2   1   2   2   1   2   2   1   3   2   1   3   1   2   1 
## 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 
##   2   2   3   2   2   2   1   2   2   1   3   3   2   1   1   2   2   2   1   1 
## Levels: 1 2 3
## 
## $size
## [1]  85 118  97
dapc.WIDIV <- dapc(datosacp1, grp$grp, n.pca = 3, n.da = 1)

scatter (dapc.WIDIV, posi.da = "bottomright", bg = "white", pch = 17:22,
         cstar = 0)

#### Cursos que discriminan mejor. Barras mas altas indican mejor discriminacion

contrib <- loadingplot(dapc.WIDIV$var.contr, axis=1,
                       thres=.07, lab.jitter=1)

is.data.frame(contrib)
## [1] FALSE
contrib1=tibble(nombre=contrib$var.names,valor=contrib$var.values)

orden=contrib1 %>%
  arrange(desc(valor))

orden
## # A tibble: 6 × 2
##   nombre           valor
##   <chr>            <dbl>
## 1 Asistencia      0.318 
## 2 Lectura_Critica 0.185 
## 3 Participacion   0.154 
## 4 Investigacion   0.140 
## 5 Ingles          0.109 
## 6 Matematicas     0.0744

8. Otra alternativa para hacer componentes principales

acp=PCA(datos_acp,scale.unit = TRUE,ncp=9,graph = TRUE)

Interpretación de cada variable:

  1. Lectura_Crítica:
    • Altamente correlacionada con la primera componente (Dim 1).

    • Contribuye fuertemente a esta dimensión.

    • Se relaciona positivamente con Investigación e Inglés (vectores apuntan en direcciones similares).

  1. Ciencias y Proyectos:
    • Se proyectan hacia el primer cuadrante.

    • Están positivamente correlacionadas entre sí y también con Dim 1 y parcialmente con Dim 2.

    • Tienen buena representación en estas dimensiones.

  1. Investigación e Inglés:
    • Correlación positiva con Dim 1, moderada con Dim 2.

    • Cercanas entre sí → es probable que estén relacionadas en el desempeño de los estudiantes.

  1. Participación:
    • Apunta hacia abajo → más relacionada con Dim 2 negativa.

    • Baja correlación con Dim 1, lo que significa que su influencia se da en otra dimensión.

  1. Matemáticas y Asistencia:
    • Se agrupan en el cuadrante izquierdo → relacionadas negativamente con Dim 1.

    • Es posible que estén contrapuestas a Lectura Crítica, Ciencias, etc.

CONCLUSIÓN GENERAL:

  • Las variables Lectura_Crítica, Ciencias y Proyectos son las que más definen la primera dimensión (PC1).
  • Matemáticas y Asistencia se oponen a estas en PC1 → podrían pertenecer a un tipo distinto de competencia (por ejemplo, lógico-numeral vs verbal-analítica).

  • Participación podría representar otro factor no alineado ni con lo verbal ni con lo numérico, sino con la actitud o comportamiento.

str(acp)
## List of 5
##  $ eig : num [1:8, 1:3] 1.258 1.154 1.117 1.07 0.956 ...
##   ..- attr(*, "dimnames")=List of 2
##   .. ..$ : chr [1:8] "comp 1" "comp 2" "comp 3" "comp 4" ...
##   .. ..$ : chr [1:3] "eigenvalue" "percentage of variance" "cumulative percentage of variance"
##  $ var :List of 4
##   ..$ coord  : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ cor    : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ cos2   : num [1:8, 1:8] 0.1296 0.1107 0.4665 0.087 0.0759 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ contrib: num [1:8, 1:8] 10.3 8.8 37.07 6.91 6.03 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##  $ ind :List of 4
##   ..$ coord  : num [1:300, 1:8] 1.427 0.598 0.718 0.406 0.116 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ cos2   : num [1:300, 1:8] 0.21603 0.07017 0.16924 0.03238 0.00181 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ contrib: num [1:300, 1:8] 0.5393 0.0946 0.13655 0.04364 0.00359 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
##   .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   ..$ dist   : Named num [1:300] 3.07 2.26 1.75 2.26 2.74 ...
##   .. ..- attr(*, "names")= chr [1:300] "1" "2" "3" "4" ...
##  $ svd :List of 3
##   ..$ vs: num [1:8] 1.122 1.074 1.057 1.034 0.978 ...
##   ..$ U : num [1:300, 1:8] 1.272 0.533 0.64 0.362 0.104 ...
##   ..$ V : num [1:8, 1:8] -0.321 0.297 0.609 0.263 0.246 ...
##  $ call:List of 9
##   ..$ row.w     : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
##   ..$ col.w     : num [1:8] 1 1 1 1 1 1 1 1
##   ..$ scale.unit: logi TRUE
##   ..$ ncp       : num 8
##   ..$ centre    : num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
##   ..$ ecart.type: num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
##   ..$ X         :'data.frame':   300 obs. of  8 variables:
##   .. ..$ Matematicas    : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
##   .. ..$ Ciencias       : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
##   .. ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
##   .. ..$ Investigacion  : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
##   .. ..$ Ingles         : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
##   .. ..$ Asistencia     : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
##   .. ..$ Participacion  : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
##   .. ..$ Proyectos      : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
##   ..$ row.w.init: num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
##   ..$ call      : language PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
##  - attr(*, "class")= chr [1:2] "PCA" "list"
summary(acp)
## 
## Call:
## PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               1.258   1.154   1.117   1.070   0.956   0.865   0.791
## % of var.             15.730  14.423  13.963  13.371  11.951  10.808   9.884
## Cumulative % of var.  15.730  30.153  44.117  57.488  69.439  80.248  90.131
##                        Dim.8
## Variance               0.789
## % of var.              9.869
## Cumulative % of var. 100.000
## 
## Individuals (the 10 first)
##                     Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## 1               |  3.070 |  1.427  0.539  0.216 |  1.257  0.456  0.168 |  0.068
## 2               |  2.256 |  0.598  0.095  0.070 |  1.356  0.531  0.361 | -0.368
## 3               |  1.745 |  0.718  0.137  0.169 |  0.827  0.198  0.225 |  0.934
## 4               |  2.256 |  0.406  0.044  0.032 | -0.720  0.150  0.102 | -1.176
## 5               |  2.739 |  0.116  0.004  0.002 | -0.052  0.001  0.000 |  0.684
## 6               |  3.608 | -0.905  0.217  0.063 | -2.571  1.909  0.508 |  0.693
## 7               |  1.696 |  0.179  0.008  0.011 |  0.580  0.097  0.117 | -0.570
## 8               |  1.901 | -0.902  0.215  0.225 |  0.061  0.001  0.001 | -0.396
## 9               |  2.821 | -0.656  0.114  0.054 |  0.303  0.026  0.012 |  1.842
## 10              |  1.966 |  0.340  0.031  0.030 |  0.586  0.099  0.089 |  0.445
##                    ctr   cos2  
## 1                0.001  0.000 |
## 2                0.040  0.027 |
## 3                0.260  0.286 |
## 4                0.413  0.272 |
## 5                0.140  0.062 |
## 6                0.143  0.037 |
## 7                0.097  0.113 |
## 8                0.047  0.043 |
## 9                1.013  0.427 |
## 10               0.059  0.051 |
## 
## Variables
##                    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## Matematicas     | -0.360 10.300  0.130 |  0.252  5.511  0.064 |  0.515 23.781
## Ciencias        |  0.333  8.798  0.111 |  0.571 28.291  0.326 | -0.244  5.311
## Lectura_Critica |  0.683 37.071  0.467 | -0.020  0.033  0.000 | -0.244  5.317
## Investigacion   |  0.295  6.912  0.087 | -0.041  0.148  0.002 |  0.667 39.885
## Ingles          |  0.275  6.029  0.076 | -0.259  5.815  0.067 | -0.007  0.005
## Asistencia      | -0.541 23.244  0.293 |  0.276  6.598  0.076 | -0.179  2.862
## Participacion   |  0.020  0.033  0.000 | -0.595 30.725  0.355 |  0.247  5.451
## Proyectos       |  0.310  7.612  0.096 |  0.514 22.878  0.264 |  0.441 17.388
##                   cos2  
## Matematicas      0.266 |
## Ciencias         0.059 |
## Lectura_Critica  0.059 |
## Investigacion    0.446 |
## Ingles           0.000 |
## Asistencia       0.032 |
## Participacion    0.061 |
## Proyectos        0.194 |

Interpretación: Las dos primeras dimensiones explican el 30.15% de la variabilidad total. Esto no es altísimo, pero es suficiente para visualizar patrones y realizar análisis preliminares.

Variables más importantes en cada dimensión:

  • Dimensión 1 (15.73%):

    • Lectura_Critica (contribuye 37.07%, cos2 = 0.467): Muy bien representada,altamente influyente.

    • Asistencia (23.24%, cos2 = 0.293): También importante.

    • Matematicas (-0.360), Ciencias y Proyectos: contribuyen en menor medida.

  • Dimensión 2 (14.42%):

    • Participacion (30.72%, cos2 = 0.355): Principal variable en esta dimensión.

    • Ciencias (28.29%, cos2 = 0.326): Relevante.

    • Proyectos (22.88%, cos2 = 0.264)

  • Dimensión 3 (13.96%):

    • Investigacion (contribución 39.89%, cos2 = 0.446): Altamente representativa aquí.

    • Matematicas, Proyectos: con buena representación secundaria.

CONCLUSIÓN GENERAL:

  • Lectura Crítica domina la primera dimensión y es crucial para diferenciar perfiles.

  • Participación y Ciencias dominan la segunda dimensión, reflejando quizás una dimensión más actitudinal o de interacción.

  • Investigación se posiciona claramente en la tercera dimensión, separada de las otras dos.

sum(acp$ind$contrib[,1])#suma de ctr de los individuos sobre la componente 1
## [1] 100

Esto indica que la suma de las contribuciones de todos los individuos a la primera dimensión es del 100%, como debe ser.

  • La dimensión 1 está completamente “explicada” por la suma de las contribuciones individuales.
sum(acp$ind$cos2[1,])#suma de los cos2 del individuo 1 sobre todas las componentes
## [1] 1

Esto significa que la suma de los cos² del individuo 1 en todas las dimensiones es 1; es decir, toda la varianza de ese individuo ha sido redistribuida entre los 8 ejes principales.

sum(acp$var$contrib[,3])#suma de los ctr de los cursos sobre la componente 3
## [1] 100

Al igual que con los individuos, la suma de las contribuciones de todas las variables a la tercera dimensión es 100%, como es esperado.

  • Confirma que la componente 3 es una combinación lineal de todas las variables consideradas.
sum(acp$var$cos2[3,])#suma de los cos2 del curso MAT sobre todas las componentes
## [1] 1

Aquí estás sumando los cos² del curso “MATEMATICAS” (tercera fila) en todas las dimensiones, y da 1.

  • Confirma que la representación total de la variable MATEMÁTICAS se distribuye completamente entre las 8 dimensiones.
head(datos_acp)
##   Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1        85.9     86.4            80.5          82.3   84.3       70.5
## 2        72.7     83.4            73.7          78.7   77.8       79.3
## 3        73.3     78.5            71.1          88.3   81.0       82.9
## 4        59.9     80.7            67.6          73.3   89.4       86.9
## 5        68.8     82.3            62.8          88.1   89.5       97.6
## 6        75.2     53.7            60.6          84.1   95.0       85.5
##   Participacion Proyectos
## 1          64.7      76.2
## 2          69.8      81.5
## 3          74.5      85.1
## 4          85.1      76.7
## 5          87.7      82.1
## 6          77.6      67.7
respca = PCA(datos_acp, scale.unit=TRUE, ncp=9, graph=TRUE)

summary(respca)
## 
## Call:
## PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               1.258   1.154   1.117   1.070   0.956   0.865   0.791
## % of var.             15.730  14.423  13.963  13.371  11.951  10.808   9.884
## Cumulative % of var.  15.730  30.153  44.117  57.488  69.439  80.248  90.131
##                        Dim.8
## Variance               0.789
## % of var.              9.869
## Cumulative % of var. 100.000
## 
## Individuals (the 10 first)
##                     Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## 1               |  3.070 |  1.427  0.539  0.216 |  1.257  0.456  0.168 |  0.068
## 2               |  2.256 |  0.598  0.095  0.070 |  1.356  0.531  0.361 | -0.368
## 3               |  1.745 |  0.718  0.137  0.169 |  0.827  0.198  0.225 |  0.934
## 4               |  2.256 |  0.406  0.044  0.032 | -0.720  0.150  0.102 | -1.176
## 5               |  2.739 |  0.116  0.004  0.002 | -0.052  0.001  0.000 |  0.684
## 6               |  3.608 | -0.905  0.217  0.063 | -2.571  1.909  0.508 |  0.693
## 7               |  1.696 |  0.179  0.008  0.011 |  0.580  0.097  0.117 | -0.570
## 8               |  1.901 | -0.902  0.215  0.225 |  0.061  0.001  0.001 | -0.396
## 9               |  2.821 | -0.656  0.114  0.054 |  0.303  0.026  0.012 |  1.842
## 10              |  1.966 |  0.340  0.031  0.030 |  0.586  0.099  0.089 |  0.445
##                    ctr   cos2  
## 1                0.001  0.000 |
## 2                0.040  0.027 |
## 3                0.260  0.286 |
## 4                0.413  0.272 |
## 5                0.140  0.062 |
## 6                0.143  0.037 |
## 7                0.097  0.113 |
## 8                0.047  0.043 |
## 9                1.013  0.427 |
## 10               0.059  0.051 |
## 
## Variables
##                    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## Matematicas     | -0.360 10.300  0.130 |  0.252  5.511  0.064 |  0.515 23.781
## Ciencias        |  0.333  8.798  0.111 |  0.571 28.291  0.326 | -0.244  5.311
## Lectura_Critica |  0.683 37.071  0.467 | -0.020  0.033  0.000 | -0.244  5.317
## Investigacion   |  0.295  6.912  0.087 | -0.041  0.148  0.002 |  0.667 39.885
## Ingles          |  0.275  6.029  0.076 | -0.259  5.815  0.067 | -0.007  0.005
## Asistencia      | -0.541 23.244  0.293 |  0.276  6.598  0.076 | -0.179  2.862
## Participacion   |  0.020  0.033  0.000 | -0.595 30.725  0.355 |  0.247  5.451
## Proyectos       |  0.310  7.612  0.096 |  0.514 22.878  0.264 |  0.441 17.388
##                   cos2  
## Matematicas      0.266 |
## Ciencias         0.059 |
## Lectura_Critica  0.059 |
## Investigacion    0.446 |
## Ingles           0.000 |
## Asistencia       0.032 |
## Participacion    0.061 |
## Proyectos        0.194 |

Observaciones clave:

  • Las variables están bien representadas (cos² razonables) en las primeras 3 dimensiones.

  • Algunas variables como Lectura_Critica y Participación dominan en distintas dimensiones (podrían formar ejes temáticos).

  • Se podría interpretar:

    • Dim.1 como desempeño académico general (Lectura, Asistencia, Matemáticas).

    • Dim.2 como participación activa (Participación, Ciencias, Proyectos).

    • Dim.3 como perfil investigativo (Investigación, Proyectos, Matemáticas).

plot(respca, label = "none")

  • Cada punto representa un individuo (un estudiante).
  • Su posición indica su perfil según las dos dimensiones principales.
  • Los más alejados del centro tienen perfiles más “extremos” o diferenciados.
fviz_pca_var(respca, col.var = "steelblue")

Del gráfico observamos:

  1. Variables más influyentes:
    • Ciencias y Proyectos destacan en Dimensión 2 (alta contribución).

    • Lectura_Critica e Investigacion se asocian fuertemente a la Dimensión 1.

  1. Correlaciones entre variables:
    • Ciencias y Proyectos están fuertemente correlacionadas (dirección similar).

    • Asistencia y Matemáticas también muestran una relación positiva entre sí.

  1. Variables menos representadas:
    • Participación tiene baja contribución, no está bien representada en este plano.

    • Inglés tiene una representación moderada.

  1. Explicación del gráfico:
    • Las dos primeras dimensiones solo explican ~30% de la variabilidad total, por lo que se recomienda analizar más dimensiones para obtener una visión más completa.
respca$eig
##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1      1.258                  15.73                              15.7
## comp 2      1.154                  14.42                              30.2
## comp 3      1.117                  13.96                              44.1
## comp 4      1.070                  13.37                              57.5
## comp 5      0.956                  11.95                              69.4
## comp 6      0.865                  10.81                              80.2
## comp 7      0.791                   9.88                              90.1
## comp 8      0.789                   9.87                             100.0
  • Las dos primeras dimensiones explican solo el 30.2% de la variabilidad total.
  • Se necesitan al menos 5 componentes para explicar cerca del 70% de la información.
respca$var
## $coord
##                   Dim.1   Dim.2    Dim.3  Dim.4  Dim.5   Dim.6  Dim.7   Dim.8
## Matematicas     -0.3600  0.2522  0.51541  0.319 -0.368  0.3996  0.376  0.0577
## Ciencias         0.3327  0.5714 -0.24356 -0.357  0.233  0.2537  0.390 -0.3245
## Lectura_Critica  0.6830 -0.0196 -0.24371  0.227 -0.175  0.0453  0.240  0.5761
## Investigacion    0.2949 -0.0414  0.66749 -0.278  0.038 -0.5505  0.290 -0.0114
## Ingles           0.2755 -0.2590 -0.00714  0.752  0.265 -0.0722  0.171 -0.4313
## Asistencia      -0.5408  0.2759 -0.17880  0.197  0.539 -0.2871  0.260  0.3462
## Participacion    0.0205 -0.5954  0.24677 -0.252  0.504  0.4754  0.125  0.1585
## Proyectos        0.3095  0.5138  0.44072  0.209  0.345  0.1479 -0.493  0.1338
## 
## $cor
##                   Dim.1   Dim.2    Dim.3  Dim.4  Dim.5   Dim.6  Dim.7   Dim.8
## Matematicas     -0.3600  0.2522  0.51541  0.319 -0.368  0.3996  0.376  0.0577
## Ciencias         0.3327  0.5714 -0.24356 -0.357  0.233  0.2537  0.390 -0.3245
## Lectura_Critica  0.6830 -0.0196 -0.24371  0.227 -0.175  0.0453  0.240  0.5761
## Investigacion    0.2949 -0.0414  0.66749 -0.278  0.038 -0.5505  0.290 -0.0114
## Ingles           0.2755 -0.2590 -0.00714  0.752  0.265 -0.0722  0.171 -0.4313
## Asistencia      -0.5408  0.2759 -0.17880  0.197  0.539 -0.2871  0.260  0.3462
## Participacion    0.0205 -0.5954  0.24677 -0.252  0.504  0.4754  0.125  0.1585
## Proyectos        0.3095  0.5138  0.44072  0.209  0.345  0.1479 -0.493  0.1338
## 
## $cos2
##                   Dim.1    Dim.2     Dim.3  Dim.4   Dim.5   Dim.6  Dim.7
## Matematicas     0.12962 0.063588 0.2656477 0.1014 0.13517 0.15969 0.1415
## Ciencias        0.11071 0.326443 0.0593224 0.1277 0.05443 0.06435 0.1517
## Lectura_Critica 0.46650 0.000383 0.0593946 0.0516 0.03076 0.00205 0.0575
## Investigacion   0.08698 0.001710 0.4455434 0.0770 0.00145 0.30308 0.0841
## Ingles          0.07587 0.067093 0.0000509 0.5660 0.07036 0.00521 0.0294
## Asistencia      0.29251 0.076137 0.0319689 0.0387 0.29086 0.08241 0.0675
## Participacion   0.00042 0.354523 0.0608931 0.0635 0.25383 0.22600 0.0157
## Proyectos       0.09579 0.263986 0.1942379 0.0437 0.11925 0.02187 0.2433
##                    Dim.8
## Matematicas     0.003325
## Ciencias        0.105287
## Lectura_Critica 0.331863
## Investigacion   0.000131
## Ingles          0.186001
## Asistencia      0.119862
## Participacion   0.025115
## Proyectos       0.017914
## 
## $contrib
##                   Dim.1   Dim.2    Dim.3 Dim.4  Dim.5  Dim.6 Dim.7   Dim.8
## Matematicas     10.3004  5.5109 23.78099  9.48 14.138 18.469 17.90  0.4212
## Ciencias         8.7978 28.2913  5.31059 11.94  5.693  7.442 19.19 13.3359
## Lectura_Critica 37.0708  0.0332  5.31705  4.82  3.218  0.237  7.27 42.0347
## Investigacion    6.9121  0.1482 39.88540  7.20  0.151 35.051 10.64  0.0165
## Ingles           6.0293  5.8146  0.00456 52.91  7.359  0.603  3.72 23.5594
## Asistencia      23.2441  6.5985  2.86189  3.62 30.421  9.530  8.54 15.1821
## Participacion    0.0334 30.7248  5.45119  5.94 26.548 26.138  1.99  3.1812
## Proyectos        7.6122 22.8785 17.38833  4.08 12.472  2.529 30.77  2.2690

Variables más influyentes en cada dimensión (según contribución y cos²):

  • Dim 1: Alta contribución de Lectura_Crítica (37.1%) y Asistencia (23.2%).

  • Dim 2: Destacan Ciencias (28.3%) y Participación (30.7%).

  • Dim 3: Muy relevantes Investigación (39.9%) y Matemáticas (23.8%).

  • Dim 4: Fuerte influencia de Inglés (52.9%).

  • Dim 5: Alta contribución de Asistencia (30.4%) y Participación (26.5%).

Nota: Las variables importantes cambian según la dimensión, por lo que no basta analizar solo el plano 1-2.

fviz_pca_ind(respca, label="none", habillage=datos_univ$Facultad)

fviz_pca_ind(respca, label="none", habillage=datos_univ$Facultad,
             addEllipses=TRUE, ellipse.level=0.95)

fviz_pca_biplot(respca, label = "var", habillage=datos_univ$Facultad,
                addEllipses=TRUE, ellipse.level=0.95,
                ggtheme = theme_minimal())

fviz_pca_biplot(respca, 
                # Individuals
                geom.ind = "point",
                fill.ind = datos_univ$Facultad, col.ind = "black",
                pointshape = 21, pointsize = 2,
                palette = "RdBu",
                addEllipses = TRUE,
                # Variables
                alpha.var ="contrib", col.var = "contrib",
                gradient.cols = "RdYlBu",
                
                legend.title = list(fill = "v1", color = "Contrib",
                                    alpha = "Contrib"))

fviz_pca_ind(respca, col.ind = "#00AFBB", repel = TRUE)

CONCLUSIÓN GENERAL, luego de observar todos los gráficos:

  • Ingeniería: Fuerte en Matemáticas/Asistencia.

  • Humanidades: Destacan en Lectura_Crítica/Investigación.

  • Dim1 = Rendimiento académico; Dim2 = Habilidades prácticas/participación.

    Patrón claro: Las facultades se separan según sus fortalezas académicas.

8.1. Con la libreria ExPosition

library(ExPosition)
ePCA <- epPCA(datos_acp)
summary(datos_acp)
##   Matematicas       Ciencias    Lectura_Critica Investigacion       Ingles     
##  Min.   : 43.4   Min.   :52.5   Min.   : 34.4   Min.   : 63.8   Min.   : 71.5  
##  1st Qu.: 64.3   1st Qu.:69.7   1st Qu.: 58.0   1st Qu.: 76.0   1st Qu.: 82.1  
##  Median : 71.7   Median :75.6   Median : 65.9   Median : 80.8   Median : 85.8  
##  Mean   : 71.9   Mean   :75.1   Mean   : 66.6   Mean   : 81.2   Mean   : 85.4  
##  3rd Qu.: 79.8   3rd Qu.:80.7   3rd Qu.: 74.9   3rd Qu.: 86.4   3rd Qu.: 88.8  
##  Max.   :100.0   Max.   :96.5   Max.   :100.0   Max.   :100.0   Max.   :100.0  
##    Asistencia   Participacion    Proyectos    
##  Min.   :70.0   Min.   :54.0   Min.   : 52.4  
##  1st Qu.:77.7   1st Qu.:69.7   1st Qu.: 72.2  
##  Median :85.6   Median :74.7   Median : 77.6  
##  Mean   :85.3   Mean   :75.1   Mean   : 77.5  
##  3rd Qu.:92.1   3rd Qu.:80.9   3rd Qu.: 83.0  
##  Max.   :99.9   Max.   :97.5   Max.   :100.0

Permite:

  • Visualizar biplots, scree plots, y correlaciones en una app interactiva.
  • Filtrar por componentes, variables o individuos.

8.2. Realizando el PCA en Factoshiny

#library(Factoshiny)
#result=Factoshiny(datos_acp)
#res.shiny=PCAshiny(respca)

Output:

  • Biplot con colores por facultad.

  • Tabla de contribuciones de variables.

  • Útil para presentar resultados a no técnicos o ajustar parámetros visualmente.

8.3. Determinando conglomerados(clusters) jerarquicos con componentes principales

res.hcpc <- HCPC(respca,nb.clust = 3)

Interpretación del Análisis HCPC (Hierarchical Clustering on Principal Components) :

  1. Objetivo del HCPC
    • Agrupa individuos (estudiantes) en clusters basados en sus componentes principales (PCA previo).

    • Combina PCA + Clustering jerárquico para identificar patrones ocultos.

  1. Resultados Clave
    • 3 clusters (definidos por nb.clust = 3):

      • Cluster 1: Asociado a altos valores en Dim1 (ej: notas altas en Matemáticas/Asistencia).
      • Cluster 2: Perfil intermedio (ej: balance entre habilidades).

      • Cluster 3: Relacionado con Dim2 (ej: alta Participación o Ciencias).

    • Factor Map

      • Eje X (Dim1 - 15.73%): Separa clusters por rendimiento académico.

      • Eje Y (Dim2): Diferencias en habilidades prácticas/sociales.

  1. Interpretación Gráfica
    • Puntos numerados: Cada número representa un estudiante.

      • 297 (Cluster 1): Alto en Matemáticas.

      • 114 (Cluster 2): Perfil equilibrado.

    • Outliers: Números alejados (ej: 3841232) pueden ser errores o casos extremos.

str(res.hcpc)
## List of 5
##  $ data.clust:'data.frame':  300 obs. of  9 variables:
##   ..$ Matematicas    : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
##   ..$ Ciencias       : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
##   ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
##   ..$ Investigacion  : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
##   ..$ Ingles         : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
##   ..$ Asistencia     : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
##   ..$ Participacion  : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
##   ..$ Proyectos      : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
##   ..$ clust          : Factor w/ 3 levels "1","2","3": 2 3 2 3 2 1 3 3 2 2 ...
##  $ desc.var  :List of 3
##   ..$ quanti.var: num [1:7, 1:2] 0.324 0.319 0.272 0.202 0.122 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:7] "Matematicas" "Investigacion" "Proyectos" "Ciencias" ...
##   .. .. ..$ : chr [1:2] "Eta2" "P-value"
##   ..$ quanti    :List of 3
##   .. ..$ 1: num [1:6, 1:6] 5.01 2.82 -4.57 -6.34 -6.93 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:6] "Asistencia" "Matematicas" "Lectura_Critica" "Ciencias" ...
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   .. ..$ 2: num [1:5, 1:6] 8.57 8.48 6.71 2.41 -3.04 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:5] "Investigacion" "Proyectos" "Matematicas" "Ingles" ...
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   .. ..$ 3: num [1:4, 1:6] 6.91 5.6 -4.35 -9.67 79.72 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:4] "Ciencias" "Lectura_Critica" "Ingles" "Matematicas"
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   ..$ call      :List of 5
##   .. ..$ num.var  : int 9
##   .. ..$ proba    : num 0.05
##   .. ..$ row.w    : num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
##   .. ..$ X        :'data.frame': 300 obs. of  9 variables:
##   .. .. ..$ Matematicas    : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
##   .. .. ..$ Ciencias       : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
##   .. .. ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
##   .. .. ..$ Investigacion  : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
##   .. .. ..$ Ingles         : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
##   .. .. ..$ Asistencia     : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
##   .. .. ..$ Participacion  : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
##   .. .. ..$ Proyectos      : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
##   .. .. ..$ clust          : Factor w/ 3 levels "1","2","3": 2 3 2 3 2 1 3 3 2 2 ...
##   .. ..$ na.method: chr "NA"
##   ..- attr(*, "class")= chr [1:2] "catdes" "list"
##  $ desc.axes :List of 3
##   ..$ quanti.var: num [1:4, 1:2] 0.5252548232101612590838612959487363696098327636719 0.3766743183733434197080214289599098265171051025391 0.1995129| __truncated__ ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:4] "Dim.3" "Dim.1" "Dim.4" "Dim.2"
##   .. .. ..$ : chr [1:2] "Eta2" "P-value"
##   ..$ quanti    :List of 3
##   .. ..$ 1: num [1:4, 1:6] 4.982 -4.643 -4.787 -10.355 0.452 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:4] "Dim.4" "Dim.2" "Dim.3" "Dim.1"
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   .. ..$ 2: num [1:4, 1:6] 12.41 3.37 3.23 2.57 0.99 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:4] "Dim.3" "Dim.2" "Dim.1" "Dim.4"
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   .. ..$ 3: num [1:3, 1:6] 6.821 -7.531 -8.086 0.635 -0.647 ...
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:3] "Dim.1" "Dim.4" "Dim.3"
##   .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
##   ..$ call      :List of 5
##   .. ..$ num.var  : int 9
##   .. ..$ proba    : num 0.05
##   .. ..$ row.w    : num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
##   .. ..$ X        :'data.frame': 300 obs. of  9 variables:
##   .. .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
##   .. .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
##   .. .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
##   .. .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
##   .. .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
##   .. .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
##   .. .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
##   .. .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
##   .. .. ..$ clust: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
##   .. ..$ na.method: chr "NA"
##   ..- attr(*, "class")= chr [1:2] "catdes" "list"
##  $ desc.ind  :List of 2
##   ..$ para:List of 3
##   .. ..$ 1: Named num [1:5] 1.36 1.39 1.4 1.45 1.64
##   .. .. ..- attr(*, "names")= chr [1:5] "264" "64" "56" "119" ...
##   .. ..$ 2: Named num [1:5] 1.04 1.2 1.39 1.4 1.47
##   .. .. ..- attr(*, "names")= chr [1:5] "100" "236" "3" "95" ...
##   .. ..$ 3: Named num [1:5] 1.1 1.58 1.59 1.63 1.64
##   .. .. ..- attr(*, "names")= chr [1:5] "68" "247" "265" "203" ...
##   .. ..- attr(*, "dim")= int 3
##   .. ..- attr(*, "dimnames")=List of 1
##   .. .. ..$ Cluster: chr [1:3] "1" "2" "3"
##   .. ..- attr(*, "call")= language by.data.frame(data = tabInd, INDICES = cluster, FUN = select, default.size = nb.par,      method = metric, coord.| __truncated__
##   .. ..- attr(*, "class")= chr "by"
##   ..$ dist:List of 3
##   .. ..$ 1: Named num [1:5] 4.6 4.48 4.03 4 3.99
##   .. .. ..- attr(*, "names")= chr [1:5] "272" "283" "58" "116" ...
##   .. ..$ 2: Named num [1:5] 4.96 4.31 4.17 4.16 4.12
##   .. .. ..- attr(*, "names")= chr [1:5] "274" "51" "278" "52" ...
##   .. ..$ 3: Named num [1:5] 4.38 4.35 4.27 4.26 4.05
##   .. .. ..- attr(*, "names")= chr [1:5] "297" "85" "150" "266" ...
##   .. ..- attr(*, "dim")= int 3
##   .. ..- attr(*, "dimnames")=List of 1
##   .. .. ..$ Cluster: chr [1:3] "1" "2" "3"
##   .. ..- attr(*, "call")= language by.data.frame(data = tabInd, INDICES = cluster, FUN = distinctivness, default.size = nb.par,      method = metric| __truncated__
##   .. ..- attr(*, "class")= chr "by"
##  $ call      :List of 8
##   ..$ t               :List of 6
##   .. ..$ res       :List of 5
##   .. .. ..$ eig : num [1:8, 1:3] 1.258 1.154 1.117 1.07 0.956 ...
##   .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. ..$ : chr [1:8] "comp 1" "comp 2" "comp 3" "comp 4" ...
##   .. .. .. .. ..$ : chr [1:3] "eigenvalue" "percentage of variance" "cumulative percentage of variance"
##   .. .. ..$ var :List of 4
##   .. .. .. ..$ coord  : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. .. ..$ cor    : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. .. ..$ cos2   : num [1:8, 1:8] 0.1296 0.1107 0.4665 0.087 0.0759 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. .. ..$ contrib: num [1:8, 1:8] 10.3 8.8 37.07 6.91 6.03 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. ..$ ind :List of 4
##   .. .. .. ..$ coord  :'data.frame': 300 obs. of  8 variables:
##   .. .. .. .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
##   .. .. .. .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
##   .. .. .. .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
##   .. .. .. .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
##   .. .. .. .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
##   .. .. .. .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
##   .. .. .. .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
##   .. .. .. .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
##   .. .. .. ..$ cos2   : num [1:300, 1:8] 0.21603 0.07017 0.16924 0.03238 0.00181 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. .. ..$ contrib: num [1:300, 1:8] 0.5393 0.0946 0.13655 0.04364 0.00359 ...
##   .. .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
##   .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
##   .. .. .. ..$ dist   : Named num [1:300] 3.07 2.26 1.75 2.26 2.74 ...
##   .. .. .. .. ..- attr(*, "names")= chr [1:300] "1" "2" "3" "4" ...
##   .. .. ..$ svd :List of 3
##   .. .. .. ..$ vs: num [1:8] 1.122 1.074 1.057 1.034 0.978 ...
##   .. .. .. ..$ U : num [1:300, 1:8] 1.272 0.533 0.64 0.362 0.104 ...
##   .. .. .. ..$ V : num [1:8, 1:8] -0.321 0.297 0.609 0.263 0.246 ...
##   .. .. ..$ call:List of 9
##   .. .. .. ..$ row.w     : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
##   .. .. .. ..$ col.w     : num [1:8] 1 1 1 1 1 1 1 1
##   .. .. .. ..$ scale.unit: logi TRUE
##   .. .. .. ..$ ncp       : num 8
##   .. .. .. ..$ centre    : num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
##   .. .. .. ..$ ecart.type: num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
##   .. .. .. ..$ X         :'data.frame':  300 obs. of  8 variables:
##   .. .. .. .. ..$ Matematicas    : num [1:300] 84.8 71.7 77.3 82.3 89.7 68.2 73 77.6 66.8 87.8 ...
##   .. .. .. .. ..$ Ciencias       : num [1:300] 68.7 57.3 69.2 72.7 52.5 84.3 72 65.3 86.2 66.7 ...
##   .. .. .. .. ..$ Lectura_Critica: num [1:300] 48.8 52.8 50.1 46.9 50.1 44 54.2 50.8 54 63 ...
##   .. .. .. .. ..$ Investigacion  : num [1:300] 73.3 74.4 74.8 68.1 77.8 74.6 67.8 82 68.4 75.9 ...
##   .. .. .. .. ..$ Ingles         : num [1:300] 80.2 82.1 83.6 89.5 88.8 74.2 79.1 77.2 79.6 82.3 ...
##   .. .. .. .. ..$ Asistencia     : num [1:300] 99.9 97.1 97.7 99.2 88.1 98.8 87.4 88.8 98 96 ...
##   .. .. .. .. ..$ Participacion  : num [1:300] 62.5 69.6 73.4 78 85.4 85.3 65.9 91.1 66.7 79.7 ...
##   .. .. .. .. ..$ Proyectos      : num [1:300] 76 67 60.7 74.1 70.5 70.4 60.3 70.2 63 73.7 ...
##   .. .. .. ..$ row.w.init: num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
##   .. .. .. ..$ call      : language PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
##   .. .. ..- attr(*, "class")= chr [1:2] "PCA" "list"
##   .. ..$ tree      :List of 7
##   .. .. ..$ merge      : int [1:299, 1:2] -141 -173 -179 -37 -44 -43 -106 -258 -86 -185 ...
##   .. .. ..$ height     : num [1:299] 0.00135 0.00135 0.00147 0.00151 0.00167 ...
##   .. .. ..$ order      : int [1:300] 278 258 271 192 254 124 67 146 159 187 ...
##   .. .. ..$ labels     : chr [1:300] "123" "296" "251" "268" ...
##   .. .. ..$ method     : chr "ward"
##   .. .. ..$ call       : language flashClust::hclust(d = dissi, method = method, members = weight)
##   .. .. ..$ dist.method: chr "euclidean"
##   .. .. ..- attr(*, "class")= chr "hclust"
##   .. ..$ nb.clust  : num 3
##   .. ..$ within    : num [1:299] 8 7.44 6.97 6.63 6.3 ...
##   .. ..$ inert.gain: num [1:299] 0.564 0.465 0.338 0.335 0.281 ...
##   .. ..$ quot      : num [1:8] 0.937 0.951 0.949 0.955 0.959 ...
##   ..$ min             : num 3
##   ..$ max             : num 10
##   ..$ X               :'data.frame': 300 obs. of  9 variables:
##   .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
##   .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
##   .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
##   .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
##   .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
##   .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
##   .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
##   .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
##   .. ..$ clust: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
##   ..$ bw.before.consol: num 1.03
##   ..$ bw.after.consol : num 1.39
##   ..$ vec             : logi FALSE
##   ..$ call            : language HCPC(res = respca, nb.clust = 3)
##  - attr(*, "class")= chr "HCPC"
res.hcpc$data.clust 
##     Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1          85.9     86.4            80.5          82.3   84.3       70.5
## 2          72.7     83.4            73.7          78.7   77.8       79.3
## 3          73.3     78.5            71.1          88.3   81.0       82.9
## 4          59.9     80.7            67.6          73.3   89.4       86.9
## 5          68.8     82.3            62.8          88.1   89.5       97.6
## 6          75.2     53.7            60.6          84.1   95.0       85.5
## 7          75.6     83.9            77.2          79.4   85.0       92.2
## 8          66.3     71.1            62.6          80.4   77.5       88.5
## 9          79.8     76.8            40.5          90.0   81.2       76.2
## 10         66.3     72.6            62.6          88.9   87.0       85.3
## 11         80.5     82.0            71.5          90.4   94.5       71.8
## 12         59.5     72.2            72.4          80.7   85.6       93.2
## 13         52.4     79.1            82.4          87.8   90.7       76.1
## 14        100.0     71.9            44.7          92.3   88.8       95.7
## 15         73.8     66.3            66.4          78.9   79.2       85.4
## 16         73.0     84.7            76.6          73.2   84.1       77.5
## 17         84.4     80.9            77.3          72.4   91.5       94.4
## 18         73.2     88.8            59.3          83.2   89.4       72.0
## 19         83.2     75.5            58.1          79.5   87.3       70.8
## 20         73.7     84.0            82.9          92.5   87.4       87.9
## 21         67.8     90.8            45.0          83.7   82.5       95.4
## 22         65.7     72.7            69.8          77.4   78.4       83.6
## 23         64.7     64.4            80.5          72.8   91.5       85.1
## 24         91.3     73.1            45.6          75.9   77.9       76.3
## 25         57.6     73.3            78.4          82.4   80.3       91.5
## 26         54.0     76.2            97.5          76.8   88.1       86.1
## 27         70.4     88.7            65.0          88.6   78.7       71.5
## 28         73.1     72.4            61.7          82.7   82.2       94.7
## 29         82.4     78.0            67.7          79.3   79.1       77.6
## 30         73.4     73.2            58.7          74.9   88.1       85.6
## 31         59.4     75.2            74.8          93.3   87.2       79.8
## 32         82.6     77.5            75.9          82.3   87.1       73.3
## 33         61.5     85.6            75.0          81.6   87.2       95.6
## 34         56.3     76.0            60.9          68.2   87.8       88.7
## 35         75.6     80.7            46.2          84.6   88.2       95.4
## 36         68.0     81.2            57.9          77.8   75.2       73.8
## 37         76.1     82.3            84.6          73.8   84.3       90.0
## 38         78.8     70.4            38.5          86.4   85.6       88.2
## 39         85.5     88.0            39.4          76.8   88.6       98.4
## 40         73.0     72.0            54.2          67.8   79.1       87.4
## 41         80.1     74.2            66.7          92.4   82.5       79.1
## 42         66.8     86.2            54.0          68.4   79.6       98.0
## 43         70.9     85.4            75.6          89.0   90.3       95.3
## 44         61.0     66.3            69.0          92.1   91.4       82.7
## 45         64.9     68.0            60.0          75.6   88.9       84.6
## 46         98.0     64.1            71.8          83.1   78.9       93.1
## 47         84.0     76.5            66.7          83.1   87.3       77.6
## 48         57.5     76.3            59.6          92.3   90.8       94.4
## 49         71.9     77.9            64.8          83.4   85.8       94.7
## 50         58.1     79.4            72.8          78.3   82.2       82.5
## 51        100.0     70.2            66.3          86.4   79.6       97.5
## 52         83.1     67.1            57.1          90.6   81.7       72.1
## 53         62.3     83.2            85.3          73.4   88.6       94.3
## 54         83.4     81.0            75.8          70.2   82.8       84.6
## 55         65.9     62.9            68.3          86.1   86.1       79.2
## 56         73.2     74.2            63.7          78.1   91.5       88.5
## 57         70.1     67.8            61.1          73.1   87.9       79.6
## 58         59.1     58.4           100.0          80.6   91.8       89.6
## 59         86.5     76.2            68.3          70.8   76.5       97.5
## 60         69.5     74.4            63.1          86.1   83.6       87.1
## 61         66.2     74.2            44.9          75.6   85.3       89.1
## 62         80.4     76.7            43.2          86.7   87.9       82.5
## 63         82.3     82.1            64.1         100.0   79.2       93.9
## 64         72.8     76.6            64.5          73.6   89.0       95.9
## 65         60.1     70.1            68.3          87.4   86.5       81.0
## 66         86.8     69.1            74.9          90.8   86.3       84.6
## 67         65.6     73.9            62.7          79.5   87.5       96.9
## 68         62.8     77.5            79.6          76.8   84.4       83.9
## 69         52.6     66.7            63.9          91.0   89.6       76.3
## 70         57.2     73.5            50.5          71.0   88.2       90.3
## 71         59.3     82.7            60.3          75.5   84.2       92.0
## 72         71.2     74.1            83.9          69.9   90.2       89.6
## 73         76.1     69.4            74.0          89.8   86.5       76.2
## 74         85.1     72.8            71.5          78.7   88.3       98.8
## 75         66.4     83.9            61.8          81.3   82.0       70.2
## 76         78.6     79.4            54.9         100.0   92.9       97.1
## 77         63.0     84.9            60.6          84.6   85.0       72.7
## 78         57.8     76.1            52.8          76.9   89.2       95.1
## 79         78.8     78.3            51.0          87.1   84.5       86.6
## 80         67.8     70.5            44.7          69.0   83.6       88.1
## 81         97.6     79.8            74.7          83.4   88.9       94.3
## 82         64.1     70.9            67.8          79.3   77.1       77.9
## 83         72.1     63.6            74.5          88.3   87.4       71.2
## 84         57.6     76.0            93.2          73.1   87.0       74.1
## 85         72.3     90.6            59.7          72.8   71.5       73.2
## 86         56.8     81.4            68.4          80.1   86.8       75.3
## 87         68.2     84.3            44.0          74.6   74.2       98.8
## 88         74.2     77.9            55.2          89.1   88.3       75.8
## 89         73.2     70.1            65.7          91.1   82.7       80.0
## 90         70.2     73.4            65.6          78.9   81.5       90.8
## 91         70.1     72.8            52.9          77.5   85.0       90.8
## 92         60.0     71.3           100.0          77.7   91.9       78.6
## 93         93.0     80.6            56.5          80.5   81.8       79.0
## 94         53.6     65.4            75.8          80.7   87.8       82.9
## 95         76.2     81.9            69.8          82.0   86.7       81.5
## 96         97.0     81.9            61.7          74.8   79.1       97.2
## 97         64.0     65.4            67.3          74.1   76.3       86.0
## 98         64.4     80.1            74.5          88.4   75.0       88.2
## 99         63.4     94.4            84.4          81.2   87.8       85.1
## 100        74.9     70.5            64.6          87.1   84.8       85.1
## 101        66.2     81.8            71.7          84.6   94.3       82.7
## 102        72.4     68.7            60.8          73.3   87.9       76.5
## 103        66.6     83.9            77.2          89.1   89.2       79.6
## 104        70.9     77.0            51.1          81.2   91.7       77.2
## 105        86.0     88.2            92.9          94.8   82.5       70.0
## 106        69.1     63.3            57.8          80.8   87.6       76.7
## 107        80.8     74.6            47.5          77.7   89.3       99.1
## 108        71.3     70.8            70.8          81.9   91.8       83.0
## 109        68.9     73.4            66.8          76.7   88.8       98.9
## 110        62.7     70.0            81.5          74.1   87.1       77.7
## 111        64.8     68.3            75.9          83.6   80.7       74.1
## 112        73.1     79.6            63.7          77.7   88.6       86.9
## 113        78.5     66.3            45.3          79.5   87.5       83.0
## 114        83.0     86.9            54.6          79.2   88.2       95.9
## 115        87.9     65.5            73.0          75.4   87.1       97.5
## 116        93.5     75.8            92.6          65.9   84.0       88.5
## 117        68.7     79.3            42.7          87.4   84.6       95.2
## 118        52.4     79.7            78.6          85.3   88.4       78.6
## 119        66.1     72.6            58.7          76.0   85.9       97.0
## 120        70.9     75.6            85.0          95.4   80.8       74.2
## 121        73.5     82.7            61.3          82.7   83.5       74.3
## 122        87.6     63.3            63.7          89.4   78.4       87.4
## 123        84.8     68.7            48.8          73.3   80.2       99.9
## 124        64.0     77.6            72.8          81.2   84.3       86.0
## 125        78.5     71.4            82.8          84.3   76.0       73.9
## 126        65.5     86.0            88.4          85.4   76.6       75.3
## 127        79.7     80.4            71.6          76.0   90.5       93.2
## 128        78.7     75.6            84.1          79.9   82.1       89.5
## 129        82.3     62.9            77.0          67.5   75.7       86.7
## 130        65.2     75.2            73.4          74.6   84.4       92.4
## 131        48.3     72.5            80.7          80.9   91.6       80.3
## 132        77.4     74.2            53.3          75.1   88.3       81.7
## 133        68.9     65.5            72.8          79.7   87.2       80.6
## 134        62.3     79.0            89.7          76.7   90.9       88.7
## 135        71.2     66.7            71.5          89.2   81.1       74.8
## 136        66.3     73.2            80.5          88.2   88.6       77.4
## 137        72.2     78.1            52.5          74.2   82.1       98.4
## 138        81.4     68.7            67.7          77.9   85.0       99.7
## 139        67.8     79.7            55.8          90.1   96.1       86.1
## 140        71.7     64.5            69.7          69.6   89.8       71.4
## 141        89.7     52.5            50.1          77.8   88.8       88.1
## 142        80.5     78.7            71.7          99.5   79.5       91.7
## 143        89.5     81.7            48.6          95.4   81.1       87.5
## 144        72.2     72.7            83.9          81.1   96.4       85.8
## 145        90.0     79.0            70.5          74.0   79.5       80.6
## 146        78.7     65.8            53.6          81.2   86.1       72.4
## 147        96.7     74.0            64.9          75.4   89.5       73.9
## 148        64.5     59.5            57.8          90.2   90.1       81.0
## 149        78.2     84.4            66.5          74.4   90.4       88.0
## 150        77.5     89.9            77.9          82.6   84.2       77.1
## 151        62.8     83.6            52.8          84.3   80.9       70.5
## 152        62.5     74.8            55.5          79.7   83.5       79.3
## 153        60.6     74.7            68.6          91.0   80.5       72.3
## 154        67.5     62.9            81.7          74.8   88.1       77.5
## 155        73.6     81.3            75.0          84.4   90.6       74.2
## 156        73.3     73.3            57.5          92.7   95.6       81.1
## 157        49.9     69.7            74.9          78.1   86.8       74.2
## 158        80.1     63.7            61.4          87.8   80.6       87.0
## 159        82.4     72.6            68.6          81.6   90.1       86.3
## 160        98.4     68.2            65.1          82.1   89.5       74.9
## 161        83.0     71.8            95.9          86.4   83.8       98.4
## 162        77.6     65.3            50.8          82.0   77.2       88.8
## 163        47.7     88.5            76.2          81.9   88.8       71.9
## 164        64.0     74.9            43.6          76.4   90.6       75.4
## 165        66.5     83.6            72.1          84.0   83.5       90.0
## 166        77.0     54.2            78.2          90.8   87.7       97.2
## 167        63.9     71.4            92.3          64.8   83.6       94.5
## 168        65.4     69.6            38.9          69.6   88.4       83.3
## 169        86.8     65.2            70.0          76.9   84.4       74.8
## 170        87.1     87.4            81.1          68.9   83.3       75.0
## 171        67.4     63.7            70.0          82.9   85.6       84.4
## 172        90.2     77.5            59.5          73.0   83.6       81.9
## 173        56.6     81.8            64.6          64.8   82.0       93.8
## 174        71.6     76.4            79.4          75.5   83.4       93.1
## 175        59.8     68.0            83.0          77.3   85.0       82.0
## 176        71.8     82.5            90.8          86.0   86.0       88.9
## 177        69.4     76.4            63.9          77.3   92.7       82.4
## 178        76.3     66.5            67.4          93.1   78.2       81.0
## 179        83.4     63.9            94.9          82.8   84.0       88.6
## 180        70.1     91.7            70.2          87.5   88.2       98.7
## 181        80.2     69.6            67.3          74.0   93.8       84.3
## 182        66.1     60.2            45.9          93.7   87.1       88.6
## 183        57.8     79.3            75.0          78.9   84.9       78.7
## 184        93.2     77.5            59.3          67.2   83.5       82.2
## 185        73.8     64.2            64.9          83.6   87.1       83.3
## 186        49.5     59.5            58.1          71.5   89.9       78.5
## 187        64.4     74.1            53.8          77.8   84.1       99.1
## 188        68.0     84.1            56.4          82.0   85.8       96.5
## 189        78.7     80.1            62.4          84.8   86.1       94.3
## 190        69.0     71.1            81.4          87.1   88.6       91.2
## 191        84.2     68.3            74.6          74.9   90.6       75.4
## 192        87.6     77.2            57.7          85.6   86.4       71.9
## 193        86.7     76.3            44.8          90.0   84.6       73.2
## 194        65.6     80.0            64.9          74.5   92.0       95.4
## 195        69.5     71.8            59.5          75.4   85.8       80.8
## 196        52.5     82.2            66.2          89.6   92.9       93.6
## 197        71.0     68.4            57.0          86.3   84.7       97.2
## 198        59.3     72.4            99.1          83.8   88.1       89.0
## 199        68.3     80.9            58.7          89.8   77.3       88.5
## 200        68.2     82.9            50.4          87.7   84.4       72.0
## 201        88.1     59.5            60.3          87.4   84.9       77.2
## 202        50.1     75.9            52.9          84.4   81.2       82.3
## 203        60.7     79.9            76.9          83.0   79.8       94.3
## 204        71.2     63.4            67.8          87.7   89.7       81.4
## 205        61.1     78.8            69.3          94.0   89.6       83.4
## 206        73.3     68.4            45.5          73.0   78.5       87.1
## 207        74.1     83.2            67.6          77.3   87.1       73.9
## 208        77.7     79.3            65.7          84.1   79.4       70.4
## 209        53.3     81.2            44.9          79.2   79.7       90.3
## 210       100.0     76.0            73.5          80.5   87.6       95.1
## 211        67.9     81.9            74.4          90.2   81.6       98.1
## 212        84.5     86.0            89.6          85.3   90.0       71.8
## 213        80.7     90.7            63.9          78.2   85.2       90.0
## 214        75.2     74.8            75.6          77.8   87.7       81.6
## 215        86.2     57.0            63.2          80.5   82.4       87.3
## 216        62.9     75.3            75.8          87.4   79.2       74.2
## 217        73.8     76.6            42.8          88.0   89.6       77.7
## 218        60.5     73.8            44.9          95.0   86.2       79.4
## 219        78.6     79.5            64.1          79.9   83.8       91.5
## 220        65.4     83.1            58.0          87.9   85.3       75.7
## 221       100.0     70.9            62.7          86.2   91.6       74.3
## 222        53.5     72.6            39.7          84.3   81.5       87.2
## 223        60.4     78.2            57.0          82.9   81.3       71.5
## 224        73.3     70.6            61.8          78.0   81.9       83.1
## 225        83.1     75.7            73.8          79.2   77.1       84.5
## 226        64.1     59.3            51.8          86.6   89.1       83.9
## 227        60.0     66.0            55.4          85.3   86.0       84.6
## 228        71.4     64.4            66.0          91.6   86.0       92.1
## 229        64.9     68.2            71.1          79.2   84.8       99.7
## 230        52.1     69.5            66.8          79.5   82.4       95.2
## 231        65.3     78.1           100.0          76.6   80.9       73.4
## 232        71.9     82.9            51.5          84.0   89.3       95.8
## 233        71.7     69.2            61.3          84.5   77.9       87.0
## 234        67.4     67.0            55.8          63.8   87.2       90.5
## 235        82.8     66.7            80.1          70.4   81.0       93.7
## 236        83.8     71.7            55.8          84.5   86.4       82.1
## 237        82.6     73.1            61.0          78.1   81.3       95.6
## 238        58.6     78.9            74.4          71.6   82.4       75.7
## 239        73.6     72.4            49.3          66.1   93.8       84.9
## 240        73.5     58.4            84.9          77.5   88.3       73.6
## 241        63.5     74.3            73.1          89.6   74.3       76.9
## 242        43.4     84.5            62.1          92.4   85.6       97.2
## 243        86.8     84.5            67.5          79.7   82.7       84.2
## 244        56.7     68.7            72.4          90.5   79.3       86.2
## 245        72.3     62.6            65.8          80.6   86.0       99.2
## 246        80.0     94.7            73.9          80.8   85.6       99.2
## 247        62.3     73.7            77.8          87.3   83.4       90.6
## 248        78.5     74.2            48.8          73.9   94.9       93.4
## 249        57.4     78.4            58.7          79.6   73.8       70.6
## 250        61.5     62.1            72.0          86.4   89.2       91.9
## 251        77.3     69.2            50.1          74.8   83.6       97.7
## 252        66.3     62.7            49.5          77.7   88.3       83.2
## 253        63.7     69.5            64.8          77.0   82.7       91.2
## 254        77.7     76.0            60.4          82.5   82.0       94.5
## 255        76.7     64.1            34.4          88.0   76.4       84.6
## 256        48.5     79.7            87.5          84.5   84.0       95.3
## 257        74.5     77.3            65.0          71.5   97.4       84.8
## 258        77.6     67.8            94.0          85.8   89.9       70.5
## 259        64.6     76.8            73.2          78.4   93.4       83.2
## 260        72.3     81.0            59.6          80.0   89.6       84.3
## 261        74.9     83.5            98.6          89.4   90.7       88.0
## 262        72.7     73.3            99.0          76.5   89.5       83.3
## 263        71.5     74.3            60.4          85.0   87.4       79.2
## 264        68.8     74.3            70.6          74.8   82.1       90.2
## 265        65.9     86.5            62.5          81.7   82.3       88.3
## 266        43.6     84.0            67.2          88.1   77.0       99.2
## 267        77.1     81.7            64.7          75.2   85.0       75.3
## 268        82.3     72.7            46.9          68.1   89.5       99.2
## 269        83.4     78.0            65.4          88.9   90.2       87.4
## 270        64.4     78.2            86.0          87.5   85.5       92.1
## 271        87.8     66.7            63.0          75.9   82.3       96.0
## 272        80.9     61.2            60.0          66.0  100.0       89.4
## 273        79.3     80.1            78.8          93.3   88.7       90.8
## 274        90.7     62.8            72.8         100.0   92.1       99.9
## 275        57.8     75.0            55.2          81.5   83.3       95.5
## 276        60.5     77.0            77.7          85.9   84.8       93.0
## 277        94.0     79.5            84.8          88.6   87.2       74.1
## 278        70.1     76.5            82.0          80.1   93.4       72.9
## 279        94.3     69.1            67.0          77.5   83.4       85.7
## 280        50.6     82.9            83.7          67.9   89.3       75.8
## 281        63.1     88.9            60.6          74.8   74.5       91.9
## 282        81.8     82.0            65.6          84.4   82.5       84.8
## 283        73.0     59.5            53.5          83.0   78.5       74.3
## 284        67.9     86.2            56.5          78.5   90.6       95.2
## 285        78.2     74.6            73.2          79.2   84.2       98.2
## 286        59.2     79.2            51.4          72.0   83.0       78.3
## 287        85.1     80.0            65.2          85.9   91.8       74.5
## 288        88.8     74.2            67.1          69.9   90.6       91.2
## 289        55.8     74.4            62.7          78.5   80.5       87.0
## 290        77.4     83.2            96.9          76.9   87.1       72.7
## 291        65.6     80.7            49.7          78.5   78.9       86.8
## 292        82.5     82.9            69.3          90.2   82.6       88.5
## 293        84.6     94.1            60.9          75.9   93.1       86.5
## 294        68.0     80.3            61.9          74.5   92.3       81.8
## 295        58.5     76.7            80.6          69.4   90.5       82.5
## 296        71.7     57.3            52.8          74.4   82.1       97.1
## 297        74.4     96.5            49.2          71.8   75.6       90.2
## 298        86.8     71.1            56.1          82.9   79.1       98.6
## 299        57.5     94.0            83.0          74.0   89.8       74.5
## 300        48.6     78.0            75.7          82.1   83.5       86.8
##     Participacion Proyectos clust
## 1            64.7      76.2     2
## 2            69.8      81.5     3
## 3            74.5      85.1     2
## 4            85.1      76.7     3
## 5            87.7      82.1     2
## 6            77.6      67.7     1
## 7            78.1      75.8     3
## 8            73.1      74.2     3
## 9            75.4      79.8     2
## 10           63.8      81.2     2
## 11           77.3      76.9     2
## 12           70.7      71.1     3
## 13           77.7      69.6     3
## 14           72.2      80.5     2
## 15           69.7      90.2     2
## 16           73.2      70.9     3
## 17           72.1      74.5     1
## 18           83.8      81.0     2
## 19           76.7      73.0     2
## 20           78.5      79.1     2
## 21           65.1      77.6     3
## 22           87.0      71.0     3
## 23           76.3      85.5     1
## 24           68.1      85.6     2
## 25           77.5      87.2     3
## 26           82.0      89.4     3
## 27           63.9      73.4     3
## 28           88.5      73.8     1
## 29           73.7      80.4     2
## 30           84.0      83.7     1
## 31           75.6      74.9     3
## 32           72.3      74.2     2
## 33           60.3      72.4     3
## 34           66.2      91.3     3
## 35           74.7      55.4     1
## 36           81.6      76.5     3
## 37           59.9      78.3     3
## 38           86.0      68.5     1
## 39           86.2      81.5     1
## 40           65.9      60.3     1
## 41           78.8      86.6     2
## 42           66.7      63.0     1
## 43           74.0      58.2     3
## 44           82.4      71.1     2
## 45           81.9      79.5     1
## 46           68.2      72.1     1
## 47           71.9      73.0     2
## 48           67.2      81.0     2
## 49           77.7      68.5     1
## 50           62.5      77.2     3
## 51           54.0      82.5     2
## 52           86.8      92.7     2
## 53           93.2      82.3     3
## 54           71.4      93.4     2
## 55           81.1      82.1     2
## 56           74.9      78.0     1
## 57           86.8      57.7     1
## 58           79.4      67.0     1
## 59           76.6      75.1     1
## 60           60.6      84.4     2
## 61           83.7      75.1     1
## 62           72.2      82.9     2
## 63           63.8      68.4     2
## 64           73.4      75.5     1
## 65           74.0      80.0     2
## 66           83.5      74.8     2
## 67           65.7      79.0     1
## 68           70.5      72.0     3
## 69           86.9      81.4     2
## 70           85.9      77.3     1
## 71           84.3      77.6     3
## 72           88.3      60.5     1
## 73           76.6      71.9     2
## 74           70.3      64.6     1
## 75           79.4      63.5     3
## 76           83.5      73.6     2
## 77           94.3      76.6     3
## 78           59.3      80.6     1
## 79           77.2      87.8     2
## 80           80.2      82.0     1
## 81           74.6      87.1     2
## 82           62.5      73.3     3
## 83           80.9      75.2     2
## 84           68.8      87.8     3
## 85           79.0      78.0     3
## 86           82.3      62.9     3
## 87           85.3      70.4     1
## 88           62.5      87.1     2
## 89           83.7      72.5     2
## 90           68.9      81.0     3
## 91           64.7      78.1     1
## 92           85.5      73.5     3
## 93           84.2      74.8     2
## 94           73.1      81.5     3
## 95           81.1      79.9     2
## 96           68.1      89.1     2
## 97           73.8      76.2     1
## 98           74.3      69.7     3
## 99           72.8      79.5     3
## 100          80.9      84.3     2
## 101          87.3      98.5     2
## 102          71.4      73.8     1
## 103          74.7      75.1     3
## 104          88.1      85.9     2
## 105          72.4      89.5     2
## 106          54.2      72.1     1
## 107          79.1      84.0     1
## 108          67.9      72.9     1
## 109          67.0      69.3     1
## 110          86.4      83.6     3
## 111          94.6      79.0     3
## 112          66.7      81.5     2
## 113          83.2      72.8     1
## 114          74.2      94.2     2
## 115          76.1      84.0     1
## 116          84.8      74.6     1
## 117          76.7      84.3     2
## 118          68.2      67.1     3
## 119          71.2      76.8     1
## 120          80.5      90.6     2
## 121          56.3      76.3     3
## 122          83.8      86.2     2
## 123          62.5      76.0     1
## 124          75.2      57.3     3
## 125          73.5      70.1     3
## 126          85.3      80.0     3
## 127          76.5      91.0     2
## 128          75.8      72.7     3
## 129          80.6      80.5     1
## 130          68.4      69.3     1
## 131          73.4      68.9     3
## 132          84.4      71.0     1
## 133          80.5      90.3     2
## 134          64.8      86.5     3
## 135          80.1      83.3     2
## 136          64.0      88.0     2
## 137          70.2      74.2     1
## 138          84.7      84.8     1
## 139          57.0      79.9     2
## 140          60.8      68.6     1
## 141          85.4      70.5     1
## 142          68.5      78.5     2
## 143          84.9      79.9     2
## 144          73.7      75.1     2
## 145          78.4      69.0     1
## 146          81.5      59.2     1
## 147          69.8      81.8     2
## 148          72.6      75.3     2
## 149          71.7      82.9     2
## 150          97.5      64.1     3
## 151          76.0      66.7     3
## 152          78.8      77.0     3
## 153          72.3      65.3     3
## 154          73.1      60.2     1
## 155          86.0      85.1     2
## 156          72.3      86.1     2
## 157          75.2      68.7     3
## 158          78.0      75.6     2
## 159          71.5      67.8     1
## 160          90.7      80.8     2
## 161          63.6      77.7     2
## 162          91.1      70.2     1
## 163          72.2      71.0     3
## 164          85.9      68.4     1
## 165          59.0      81.9     3
## 166          82.6      83.1     2
## 167          82.0      81.4     3
## 168          64.8      70.4     1
## 169          68.9      61.9     1
## 170          76.5      82.8     3
## 171          84.2      76.4     1
## 172          68.9      77.6     1
## 173          73.2      87.3     3
## 174          87.6      70.0     1
## 175          66.0      88.3     3
## 176          82.6      74.3     3
## 177          78.6      71.6     1
## 178          66.2      76.1     2
## 179          69.7      81.5     2
## 180          81.3      76.1     3
## 181          77.0      69.9     1
## 182          86.4      75.5     2
## 183          70.2      55.1     3
## 184          61.3      73.4     1
## 185          83.4      82.1     2
## 186          70.1      76.5     1
## 187          76.0      84.2     1
## 188          88.8      82.4     3
## 189          73.0      83.8     2
## 190          87.4      83.9     2
## 191          66.2      62.4     1
## 192          82.4      78.0     2
## 193          77.0      92.7     2
## 194          69.1      73.7     1
## 195          64.8      82.1     1
## 196          75.6      79.3     3
## 197          77.0      83.0     2
## 198          77.2      75.6     3
## 199          79.3      72.2     3
## 200          71.3      78.6     2
## 201          70.9      79.9     2
## 202          76.9      76.3     3
## 203          70.7      78.3     3
## 204          84.8      81.7     2
## 205          76.4      71.0     3
## 206          70.1      88.3     1
## 207          60.5      97.8     2
## 208          69.9      91.3     2
## 209          91.4      73.9     3
## 210          70.5      61.6     1
## 211          68.3      78.5     3
## 212          80.2      85.9     2
## 213          78.5      85.0     2
## 214          81.0      66.9     1
## 215          72.8      68.0     1
## 216          84.0      79.2     3
## 217          65.6      83.6     2
## 218          74.6      85.9     2
## 219          69.4      85.3     2
## 220          80.4      69.3     3
## 221          76.0      66.2     2
## 222          83.9      59.9     1
## 223          91.5      82.5     3
## 224          76.1      85.5     2
## 225          70.7      81.0     2
## 226          68.4      68.5     1
## 227          72.9      92.1     2
## 228          74.4      74.7     2
## 229          90.9      94.0     2
## 230          66.0      83.0     3
## 231          66.3      88.7     3
## 232          71.7      81.0     2
## 233          79.7      77.4     2
## 234          81.6      68.9     1
## 235          67.7      73.0     1
## 236          76.0      77.6     2
## 237          74.7      80.5     1
## 238          84.6      77.7     3
## 239          83.7      76.4     1
## 240          72.5      79.7     2
## 241          75.4      73.3     3
## 242          80.2      73.2     3
## 243          61.8      64.9     1
## 244          72.5      85.6     3
## 245          79.6      78.4     1
## 246          70.8      77.2     3
## 247          74.5      71.3     3
## 248          74.8      75.8     1
## 249          69.2      68.2     3
## 250          67.0      68.6     1
## 251          73.4      60.7     1
## 252          72.2      86.8     1
## 253          81.7      79.1     1
## 254          87.2      67.9     1
## 255          74.9      88.5     2
## 256          78.2      83.6     3
## 257          74.4      84.7     1
## 258          79.8      76.0     2
## 259          76.7      74.2     3
## 260          76.9      77.1     2
## 261          83.9      81.6     2
## 262          67.1      85.2     3
## 263          86.6      92.3     2
## 264          77.8      73.4     1
## 265          76.4      68.9     3
## 266          70.5      78.9     3
## 267          73.7     100.0     2
## 268          78.0      74.1     1
## 269          58.5      88.3     2
## 270          70.2      75.8     3
## 271          79.7      73.7     1
## 272          72.6      71.6     1
## 273          68.6      76.1     2
## 274          69.9      92.8     2
## 275          76.9      80.7     3
## 276          61.9      82.4     3
## 277          82.0      85.5     2
## 278          57.6      96.6     2
## 279          71.0      85.0     2
## 280          68.7      65.2     3
## 281          65.0      68.7     3
## 282          66.4      63.7     3
## 283          77.0      52.4     1
## 284          74.0      89.6     2
## 285          72.6      73.6     1
## 286          56.4      81.6     3
## 287          64.4      88.6     2
## 288          73.9      73.4     1
## 289          68.0      76.8     3
## 290          68.6      81.2     3
## 291          83.4      80.0     3
## 292          76.4      71.0     2
## 293          66.6      84.6     2
## 294          71.3      82.9     2
## 295          72.7      75.4     3
## 296          69.6      67.0     1
## 297          67.3      83.7     3
## 298          74.6      90.8     2
## 299          80.9      90.4     3
## 300          76.8      85.9     3
# Contiene los datos originales + una columna clust que asigna cada individuo
# a un cluster.
Grupos=res.hcpc$data.clust$clust # Extrae solo la columna de clusters
table(Grupos) # Muestra cuántos individuos hay en cada cluster
## Grupos
##   1   2   3 
##  91 111  98

9. DESCRIPCIÓN DE LOS CLUSTERS

datosf=cbind(datos_univ,Grupos)
head(datosf)
##      Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1  Ingeniería        85.9     86.4            80.5          82.3   84.3
## 2 Humanidades        72.7     83.4            73.7          78.7   77.8
## 3    Ciencias        73.3     78.5            71.1          88.3   81.0
## 4       Salud        59.9     80.7            67.6          73.3   89.4
## 5       Salud        68.8     82.3            62.8          88.1   89.5
## 6  Ingeniería        75.2     53.7            60.6          84.1   95.0
##   Asistencia Participacion Proyectos Grupos
## 1       70.5          64.7      76.2      2
## 2       79.3          69.8      81.5      3
## 3       82.9          74.5      85.1      2
## 4       86.9          85.1      76.7      3
## 5       97.6          87.7      82.1      2
## 6       85.5          77.6      67.7      1

Diagrama de Cajas de variable Matemática segun Cluster

boxplot(datosf$Matematica ~ datosf$Grupos, 
        main= "BoxPlot de Matematica  vs CLUSTER",
        xlab = "Cluster", 
        names=c("Cluster 1", "Cluster 2", "Cluster 3"),
        col = c("red","blue","peru"))

Diagrama de Cajas de variable Ciencias segun Cluster

boxplot(datosf$Ciencias ~ datosf$Grupos, 
        main= "BoxPlot de Ciencias  vs CLUSTER",
        xlab = "Cluster", 
        names=c("Cluster 1", "Cluster 2", "Cluster 3"),
        col = c("red","blue","peru"))

CONCLUSIÓN, luego de observar ambos gráficos:

  • Patrón observado:

    • Cluster 2 domina en Ciencias y Matemáticas (consistente con el primer gráfico).

    • Cluster 1 muestra bajo rendimiento en ambas áreas.

Perfil en base a las medias de los resultados

attach(datosf)
mate <- tapply(Matematicas,Grupos,mean) ; mate
##    1    2    3 
## 74.7 77.7 62.8
cie <- tapply(Ciencias,Grupos,mean)  ; cie
##    1    2    3 
## 70.7 74.7 79.7
lec <- tapply(Lectura_Critica,Grupos,mean) ;lec
##    1    2    3 
## 61.3 65.5 72.8
inv <- tapply(Investigacion,Grupos,mean) ;inv
##    1    2    3 
## 75.9 85.8 80.8
ing <- tapply(Ingles,Grupos,mean) ; ing
##    1    2    3 
## 86.2 86.3 83.7
asi <- tapply(Asistencia,Grupos,mean)   ; asi
##    1    2    3 
## 89.0 83.3 84.0
par <- tapply(Participacion,Grupos,mean) ; par
##    1    2    3 
## 75.3 75.0 74.8
pro <- tapply(Proyectos,Grupos,mean)  ; pro
##    1    2    3 
## 72.4 82.8 76.1
medias <- rbind(mate,cie,lec,inv,ing,asi,par,pro)   ; medias
##         1    2    3
## mate 74.7 77.7 62.8
## cie  70.7 74.7 79.7
## lec  61.3 65.5 72.8
## inv  75.9 85.8 80.8
## ing  86.2 86.3 83.7
## asi  89.0 83.3 84.0
## par  75.3 75.0 74.8
## pro  72.4 82.8 76.1
general <- c(mean(mate),mean(cie),mean(lec),
             mean(inv),mean(ing),mean(asi),
             mean(par),mean(pro))   ; general
## [1] 71.7 75.1 66.5 80.8 85.4 85.5 75.1 77.1
medias <- cbind(medias,general)
str(medias)
##  num [1:8, 1:4] 74.7 70.7 61.3 75.9 86.2 ...
##  - attr(*, "dimnames")=List of 2
##   ..$ : chr [1:8] "mate" "cie" "lec" "inv" ...
##   ..$ : chr [1:4] "1" "2" "3" "general"
medias
##         1    2    3 general
## mate 74.7 77.7 62.8    71.7
## cie  70.7 74.7 79.7    75.1
## lec  61.3 65.5 72.8    66.5
## inv  75.9 85.8 80.8    80.8
## ing  86.2 86.3 83.7    85.4
## asi  89.0 83.3 84.0    85.5
## par  75.3 75.0 74.8    75.1
## pro  72.4 82.8 76.1    77.1

Conclusión:

  • Cluster 2 = Excelencia académica.

  • Cluster 3 = Fortalezas en ciencias/lectura.

  • Cluster 1 = Requiere refuerzo en áreas críticas.

matplot(medias,
        main = "Grafico de promedios de Variables segun Cluster",
        xlab = "Variables",
        ylab = "Promedios",
        type="l",
        xaxt="n",         # Permite eliminar los nombres del eje X
        ylim=c(-2,20), 
        col=c("blue","red","green2","black"))
axis(1,at=1:8,labels=c("mate","cie","lec","inv","ing","asi","par","pro"))

legend("topright", c("Cluster 1", "Cluster 2", "Cluster 3","General"), 
       pch=c(5,5,5,5), ncol=4, cex=0.8, 
       col=c("blue","red","green2","black"), bty="n")

Para obtener conglomerados con los componentes principles tambien se puede usar la libreria Factoshiny. Entrar a “Principal Component Analysis”, hacer check en “perform clustering after leaving PCA app?”, escoger el numero de cluster en “Number of dimensions kept for clustering” y despues “quit the app”, finalmente explorar los cluster, los cluster que se haya elegido.

#library(Factoshiny)
#result1=Factoshiny(datos_acp)

MISCELANEA

Método Paralelo para la retencion de componentes principales. Cuando hay subjetividad en el grafico de sedimentacion (Scree Plot) respecto al numero de CP a retener #se puede recurrir al Método Paralelo

library(paran) 
paran(datos_acp,iterations=5000,graph=TRUE,color=2)
## 
## Using eigendecomposition of correlation matrix.
## Computing: 10%  20%  30%  40%  50%  60%  70%  80%  90%  100%
## 
## 
## Results of Horn's Parallel Analysis for component retention
## 5000 iterations, using the mean estimate
## 
## -------------------------------------------------- 
## Component   Adjusted    Unadjusted    Estimated 
##             Eigenvalue  Eigenvalue    Bias 
## -------------------------------------------------- 
## 1           1.010218    1.258416      0.248197
## -------------------------------------------------- 
## 
## Adjusted eigenvalues > 1 indicate dimensions to retain.
## (1 components retained)

Se confirma que se debe retener 1 CP.

Test Estadístico para retener m CP (H0:lamda(m+1)=lamda(m+2)=…=lamda(p)=0)

Esta prueba tiene la limitacion de aconsejar la retencion de demasiadas Componentes Principales.

library(nFactors) 
nBartlett(cor(datos_acp),N=541,alpha=0.01,cor=TRUE,details=TRUE)
## bartlett anderson   lawley 
##        1        1        2

Con este test se recomienda retener 1 o 2 CP.

4. ANÁLISIS FACTORIAL

Presentación de datos:

Se utilizan los datos de Holzinger y Swineford (1939) consiste en puntuaciones de pruebas de capacidad mental de niños de séptimo y octavo grado de dos escuelas diferentes, tomados del paquete levaan. Habilidades Espaciales:

  • \(x_1:\) Percepción visual.
  • \(x_2:\) Razonamiento espacial (armado de cubos).
  • \(x_3:\) Rotación mental de figuras.

Habilidades Verbales:

  • \(x_4:\) Comprensión de párrafos.
  • \(x_5:\) Completación de oraciones.
  • \(x_6:\) Memoria de palabras.

Velocidad/Precisión:

  • \(x_7:\) Velocidad en sumas.
  • \(x_8:\) Conteo rápido.
  • \(x_9:\) Discriminación visual (líneas rectas/curvas)
library(lavaan)
## This is lavaan 0.6-19
## lavaan is FREE software! Please report any bugs.
## 
## Adjuntando el paquete: 'lavaan'
## The following object is masked from 'package:psych':
## 
##     cor2cov
data(HolzingerSwineford1939)
# Seleccionar solo las variables x1 a x9
datos <- HolzingerSwineford1939[, c("x1", "x2", "x3", "x4", "x5", "x6", "x7", "x8", "x9")]
head(datos)
##     x1   x2    x3   x4   x5    x6   x7   x8   x9
## 1 3.33 7.75 0.375 2.33 5.75 1.286 3.39 5.75 6.36
## 2 5.33 5.25 2.125 1.67 3.00 1.286 3.78 6.25 7.92
## 3 4.50 5.25 1.875 1.00 1.75 0.429 3.26 3.90 4.42
## 4 5.33 7.75 3.000 2.67 4.50 2.429 3.00 5.30 4.86
## 5 4.83 4.75 0.875 2.67 4.00 2.571 3.70 6.30 5.92
## 6 5.33 5.00 2.250 1.00 3.00 0.857 4.35 6.65 7.50

Matriz de covarianza

cova<-cov(datos);cova
##       x1      x2     x3    x4    x5    x6      x7    x8    x9
## x1 1.363  0.4087 0.5818 0.507 0.442 0.456  0.0850 0.265 0.460
## x2 0.409  1.3864 0.4526 0.210 0.212 0.248 -0.0971 0.110 0.245
## x3 0.582  0.4526 1.2791 0.209 0.113 0.245  0.0886 0.213 0.375
## x4 0.507  0.2096 0.2089 1.355 1.101 0.899  0.2205 0.126 0.244
## x5 0.442  0.2118 0.1127 1.101 1.665 1.018  0.1435 0.181 0.296
## x6 0.456  0.2484 0.2449 0.899 1.018 1.200  0.1446 0.166 0.237
## x7 0.085 -0.0971 0.0886 0.220 0.143 0.145  1.1871 0.537 0.375
## x8 0.265  0.1100 0.2130 0.126 0.181 0.166  0.5370 1.025 0.459
## x9 0.460  0.2448 0.3751 0.244 0.296 0.237  0.3745 0.459 1.018

La matriz de covarianza revela relaciones significativas entre varias variables del estudio. Destacan las altas covarianzas entre x4, x5 y x6, lo que sugiere que están asociadas a un mismo factor, posiblemente relacionado con habilidades verbales. También se observan relaciones moderadas entre x7, x8 y x9, indicando un posible componente común vinculado a velocidad o ejecución. En cambio, otras covarianzas, como entre x1 y x7, son bajas, lo que evidencia independencia entre ciertos pares de variables.

Gráfico de covarianza

Matriz de correlación

corre<-cor(datos);corre
##        x1      x2     x3    x4     x5    x6      x7     x8    x9
## x1 1.0000  0.2973 0.4407 0.373 0.2934 0.357  0.0669 0.2239 0.390
## x2 0.2973  1.0000 0.3398 0.153 0.1394 0.193 -0.0757 0.0923 0.206
## x3 0.4407  0.3398 1.0000 0.159 0.0772 0.198  0.0719 0.1860 0.329
## x4 0.3727  0.1529 0.1586 1.000 0.7332 0.704  0.1738 0.1069 0.208
## x5 0.2934  0.1394 0.0772 0.733 1.0000 0.720  0.1020 0.1387 0.227
## x6 0.3568  0.1925 0.1977 0.704 0.7200 1.000  0.1211 0.1496 0.214
## x7 0.0669 -0.0757 0.0719 0.174 0.1020 0.121  1.0000 0.4868 0.341
## x8 0.2239  0.0923 0.1860 0.107 0.1387 0.150  0.4868 1.0000 0.449
## x9 0.3903  0.2060 0.3287 0.208 0.2275 0.214  0.3406 0.4490 1.000

Al igual que en la matriz de covarianza se identifican bloques de variables con correlaciones altas, como x4, x5 y x6, lo que sugiere que comparten una misma dimensión psicológica. De igual forma, x7, x8 y x9 muestran correlaciones moderadas, apuntando a una posible agrupación temática distinta. Las correlaciones bajas entre algunas variables, como x1 y x7, indican que no todas comparten relación significativa. En conjunto, esta estructura de correlaciones apoya la idea de que existen factores comunes que pueden ser identificados mediante análisis factorial.

Grafico de correlaciones

Primero

library(corrr)
## Warning: package 'corrr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'corrr'
## The following object is masked from 'package:dlookr':
## 
##     correlate
library(corrplot)
i=cor(datos,method="pearson")
corrplot(i,method = "circle",order = "FPC",tl.pos = "d",col = COL1('Purples'))
corrplot(i,add=TRUE,type="lower",method = "number",order = "AOE",
         diag = FALSE,tl.pos = "n",cl.pos = "n",col = COL1('Purples'))

Habilidades Verbales (\(x_4,x_5,x_6\)):

Muestran correlaciones fuertes y positivas (tonos oscuros o círculos grandes en el gráfico), especialmente entre:

  • \(x_4\)(comprensión de párrafos) y \(_5\)(completación de oraciones): \(r=0.73\).

  • \(x_4\) y \(x_6\) (memoria de palabras): \(r=0.70.\)

Esto sugiere que estas habilidades comparten un factor subyacente común (ej. “inteligencia verbal”).

Habilidades Espaciales (\(x_1, x_2, x_3\)):

Correlaciones moderadas (tonos medios):

  • \(x_1\) (percepción visual) y \(x_3\) (rotación mental): \(r=0.44\).

  • \(x_2\) (razonamiento espacial) y \(x_3\): \(r=0.34\).

Reflejan que estas habilidades están relacionadas pero no son idénticas.

Velocidad/Precisión (\(x_7, x_8, x_9\)):

  • \(x_7\) (velocidad en sumas) y \(x_8\) (conteo rápido) tienen una correlación alta (\(r=0.49\)), indicando que miden aspectos similares de rapidez cognitiva.

  • \(x_9\) (discriminación visual) correlaciona mejor con habilidades espaciales (\(x_1, x_3\)) que con velocidad.

Correlogramma

library(polycor)
## Warning: package 'polycor' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'polycor'
## The following object is masked from 'package:psych':
## 
##     polyserial
library(ggcorrplot)

matpoly <- hetcor(datos)$correlations

ggcorrplot(matpoly, method = 'circle',type="lower",hc.order = TRUE)+
  theme_gray()

Supuestos

Indicador Kaiser-Meyer-Olkin (KMO)

library(psych)

KMO(datos)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = datos)
## Overall MSA =  0.75
## MSA for each item = 
##   x1   x2   x3   x4   x5   x6   x7   x8   x9 
## 0.81 0.78 0.73 0.76 0.74 0.81 0.59 0.68 0.79

El índice KMO global (0.75) indica que los datos son adecuados para el análisis factorial, aunque no óptimos. A nivel individual, la mayoría de las variables presentan valores superiores a 0.70, destacando:

\(x_1\) (0.81) y \(x_6\) (0.81) como las que mayor varianza comparten.

Sin embargo, \(x_7\) (velocidad en sumas) muestra un MSA bajo (0.59), lo que sugiere que esta variable podría no integrarse eficientemente en la estructura factorial. Este resultado refuerza la necesidad de validar las cargas factoriales en etapas posteriores y considerar la exclusión de \(x_7\) si su contribución al modelo es marginal.

Prueba de esfericidad de Bartlett.

  • \(H_0: R=I\), La matriz de correlaciones poblacionales es una matriz identidad

  • \(H_1: R \neq I\), La matriz de correlaciones no es una matriz identidad

cortest.bartlett(corre, n = NULL,diag=TRUE)
## Warning in cortest.bartlett(corre, n = NULL, diag = TRUE): n not specified, 100
## used
## $chisq
## [1] 291
## 
## $p.value
## [1] 0.000000000000000000000000000000000000000015
## 
## $df
## [1] 36

La prueba de esfericidad de Bartlett se realizó para evaluar la hipótesis nula de que la matriz de correlaciones es una matriz identidad \((H_0: R = I)\). El resultado fue estadísticamente significativo \((X^2 = 290.51, p < 0.001)\), lo que permite rechazar \(H_0\) y concluir que existen correlaciones significativas entre las variables. Esto respalda la aplicabilidad del análisis factorial para identificar dimensiones latentes en los datos.

Supuesto de normalidad multivariada

mshapiro.test(t(datos))
## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 1, p-value = 0.00001

Se evaluó el supuesto de normalidad multivariada mediante la prueba de Shapiro-Wilk aplicada a las variables estandarizadas. El p-valor < 0.001, indica que los datos no siguen una distribución normal multivariada.

Sin embargo, dado que el análisis factorial exploratorio (AFE) no exige estrictamente el cumplimiento de la normalidad multivariada, especialmente cuando se emplean métodos de extracción como mínimos residuales (minres) o ejes principales (principal axis factoring), se considera aceptable continuar con el análisis.

Elección de método para extraer los factores

Se compararon tres métodos de extracción factorial (Máxima Verosimilitud, Ejes Principales y Mínimos Cuadrados) para evaluar la robustez de la estructura latente.

facto1 <- fa(matpoly,nfactors = 3,rotate="none",
             fm="mle") # Máxima Verosimilitud (ML)

facto2 <- fa(matpoly, nfactors = 3, rotate = "none",
             fm="paf") # modelo de ejes principales

facto3 <- fa(matpoly, nfactors = 3, rotate = "none",
             fm="minchi") # modelo mínimos cuadrados

Comparación de las comunalidades

f1<-sort(facto1$communality,decreasing=TRUE)
f2 <- sort(facto2$communality,decreasing = TRUE)
f3 <- sort(facto3$communality,decreasing = TRUE)
head(cbind(f1,f2,f3))
##       f1    f2    f3
## x5 0.757 0.754 0.754
## x4 0.721 0.728 0.728
## x6 0.695 0.691 0.691
## x8 0.531 0.520 0.520
## x7 0.498 0.519 0.519
## x1 0.487 0.477 0.477
  • Las comunalidades son muy similares en los tres enfoques, especialmente para variables con alta varianza compartida (ej. x5, x4, x6).

  • Las variabes probematicas como x7 (velocidad en sumas) y x1 (percepción visual) tienen comunalidades bajas (<0.5 en ML), lo que sugiere que aportan menos a la estructura factorial.

Comparación de las unicidades

u1 <- sort(facto1$uniquenesses,decreasing = TRUE)
u2 <- sort(facto2$uniquenesses,decreasing = TRUE)
u3 <- sort(facto3$uniquenesses,decreasing = TRUE)
head(cbind(u1,u2,u3))
##       u1    u2    u3
## x2 0.749 0.745 0.745
## x9 0.543 0.547 0.547
## x3 0.543 0.540 0.540
## x1 0.513 0.523 0.523
## x7 0.502 0.481 0.481
## x8 0.469 0.480 0.480
  • Las variables x2 (razonamiento espacial) y x3 (rotación mental) tienen alta unicidad, indicando que parte de su varianza no es capturada por los factores comunes.

  • x9 (discriminación visual) también muestra unicidad elevada, lo que podría deberse a su relación mixta con factores espaciales y de velocidad.

En conclución, se selecciona el enfoque de Ejes Principales (PAF) por su robustez ante posibles violaciones de normalidad y su enfoque en la varianza compartida. Aunque las comunalidades y unicidades fueron similares entre PAF, Máxima Verosimilitud (ML) y Mínimos Cuadrados (MinRes), PAF se alinea mejor con los supuestos prácticos de los datos educativos.

Número de factores

ev <- eigen(cor(datos)) 
ev$values
## [1] 3.216 1.639 1.365 0.699 0.584 0.500 0.473 0.286 0.238

Factores retenidos: 3 (valores > 1).

  • Los primeros tres factores explican 61.5% de la varianza total (3.216 + 1.639 + 1.365 = 6.220 / 9 variables).

  • El cuarto valor propio (0.699) está por debajo de 1, lo que sugiere que añadir más factores no aportaría información relevante.

1. Criterio de valores propios (Kaiser):

plot(ev$values,type="b",pch=20,col="blue")
abline(h=1,lty=3,col="red")

Se observa que los valores retinidos, que se encuentran por encima del uumbral son 3 (3.216, 1.639, 1.365), es decir, se encontraron 3 factores significativos.

2. Gráfico de sedimentación (Scree plot):

scree(matpoly)

El punto de codo después del tercer factor, es decir,la pendiente entre los factores 3 y 4 es casi plana.

3. Criterio paralelo

fa.parallel(datos,fa="fa",fm="paf")

## Parallel analysis suggests that the number of factors =  3  and the number of components =  NA

En esta comparación de valores propios observados (línea azul) con los valores propios medios de matrices aleatorias( linea roja), 3 factores observados estan por encima de la linea roja, desdues del cuarto los valores observados caen por debajo.

Matriz de cargas factoriales y Varianza total

modelo2<-fa(matpoly,nfactors = 3,rotate="varimax", fa="minres")

Estructura Factorial

  • MR1 (Habilidades Verbales): x4, x5, x6 (cargas > 0.79).

  • MR3 (Habilidades Espaciales): x1, x3 (cargas > 0.61).

  • MR2 (Velocidad/Precisión): x7, x8, x9 (cargas > 0.52).

El Factor 1 (MR1) está fuertemente relacionado con habilidades verbales, ya que las variables x4 (0.832), x5 (0.859) y x6 (0.799), que corresponden a comprensión de párrafos, completación de oraciones y memoria de palabras, tienen cargas altas. Esto sugiere que las personas con mejor desempeño en estas áreas también tienden a obtener puntuaciones altas en MR1. El Factor 2 (MR3) está vinculado a habilidades espaciales y visuales, reflejadas en las cargas moderadas a altas de x1 (0.613), x2 (0.494) y x3 (0.660), que representan percepción visual y rotación mental de figuras. Finalmente, el Factor 3 (MR2) se asocia con habilidades de velocidad y precisión, dado que x7 (0.709), x8 (0.699) y x9 (0.521), relacionadas con velocidad en sumas, conteo rápido y discriminación visual, presentan altas cargas, indicando que MR2 mide la rapidez y exactitud en tareas visuales y matemáticas.

print(modelo2$loadings,cut=0)
## 
## Loadings:
##    MR1    MR3    MR2   
## x1  0.279  0.613  0.152
## x2  0.102  0.494 -0.030
## x3  0.038  0.660  0.129
## x4  0.832  0.161  0.099
## x5  0.859  0.088  0.089
## x6  0.799  0.214  0.085
## x7  0.093 -0.082  0.709
## x8  0.051  0.171  0.699
## x9  0.130  0.415  0.521
## 
##                  MR1   MR3   MR2
## SS loadings    2.187 1.342 1.329
## Proportion Var 0.243 0.149 0.148
## Cumulative Var 0.243 0.392 0.540

El análisis factorial muestra que el Factor 1 (MR1) explica el 24.3% de la varianza, asociado principalmente con habilidades verbales, como x4 (0.832) y x5 (0.859). El Factor 2 (MR3), que captura 14.9% de la varianza, está relacionado con habilidades espaciales, reflejadas en x1 (0.613) y x3 (0.660). Finalmente, el Factor 3 (MR2) explica 14.8% de la varianza y está vinculado con habilidades de velocidad y precisión, destacando x7 (0.709) y x8 (0.699). En conjunto, estos tres factores explican el 54.0% de la varianza total.

5. ANÁLISIS FACTORIAL MIXTO

Carga de librerías y datos

library(FactoMineR)
library(factoextra)
library(Factoshiny)
## Warning: package 'Factoshiny' was built under R version 4.4.3
## Warning: package 'FactoInvestigate' was built under R version 4.4.3
library(dplyr)
library(FactoMineR)
library(factoextra) # Visualización de resultados
library(tidyverse) # Manipulación, transformación y visualización de datos
library(sjPlot)#fácil visualización
## Warning: package 'sjPlot' was built under R version 4.4.3
library(performance)
## Warning: package 'performance' was built under R version 4.4.3
#library(tidymodels) # Herramientas para estimación modelos
library(jsonlite) # Leer código json
library(visdat) # Vistazo a los datos
## Warning: package 'visdat' was built under R version 4.4.3
library(naniar) # Análisis de datos perdidos
## Warning: package 'naniar' was built under R version 4.4.3
library(GGally) # Complemento de visualización
library(tidytext)
## Warning: package 'tidytext' was built under R version 4.4.3
library(effectsize) 
## Warning: package 'effectsize' was built under R version 4.4.3

Contexto

En el presente estudio se analiza una base de datos correspondiente a un proceso de admisión en una institución educativa de nivel superior. La base de datos incluye información de diversos postulantes, considerando tanto características académicas como socioeconómicas. Las variables consideradas son:

  • Admitido (Sí/No): resultado del proceso de admisión.

  • Sexo: género del postulante.

  • NSE: nivel socioeconómico del postulante (categorizado como A, B, C).

  • PEG: puntaje obtenido en el examen general de admisión (variable numérica).

  • Calificaciones: promedio de rendimiento académico previo (variable numérica).

  • Prestigio: nivel de prestigio de la institución educativa de procedencia (niveles I, II, III, IV).

El propósito del estudio es explorar la estructura subyacente de los datos y comprender cómo se agrupan los postulantes en función de múltiples dimensiones simultáneamente. Para ello, se propone realizar un Análisis Factorial de Datos Mixtos (FAMD).

# Simulación de carga de datos (reemplazar por tu propia lectura de datos)
data <- read.table("Admision.txt", header = TRUE)

head(data)
##      Admitido      Sexo NSE PEG Calificaciones Prestigio
## 1    Admitido Masculino   A 380           3.61       III
## 2 No_admitido  Femenino   A 660           3.67       III
## 3 No_admitido  Femenino   A 800           4.00         I
## 4 No_admitido Masculino   A 640           3.19        IV
## 5    Admitido  Femenino   C 520           2.93        IV
## 6 No_admitido  Femenino   A 760           3.00        II
dim(data)
## [1] 400   6
data$Admitido <- as.factor(data$Admitido)
data$Sexo <- as.factor(data$Sexo)
data$NSE <- as.factor(data$NSE)
data$Prestigio <- as.factor(data$Prestigio)

summary(data)
##         Admitido          Sexo     NSE          PEG      Calificaciones
##  Admitido   :273   Femenino :194   A:117   Min.   :220   Min.   :2.26  
##  No_admitido:127   Masculino:206   B:128   1st Qu.:520   1st Qu.:3.13  
##                                    C:155   Median :580   Median :3.40  
##                                            Mean   :588   Mean   :3.39  
##                                            3rd Qu.:660   3rd Qu.:3.67  
##                                            Max.   :800   Max.   :4.00  
##  Prestigio
##  I  : 61  
##  II :151  
##  III:121  
##  IV : 67  
##           
## 
  • La mayoría de los estudiantes en el conjunto de datos fueron admitidos (273 de 400, es decir, 68.25%).
  • La distribución por sexo está bastante equilibrada, con una ligera mayoría de hombres.
  • El grupo más representado es el NSE C. Esto podría indicar que hay mayor representación de estudiantes de niveles socioeconómicos medios a bajos.
  • En PEG la mediana y la media están cerca, lo cual sugiere una distribución aproximadamente simétrica y la mayoría de los estudiantes tiene puntajes entre 520 y 660.
  • Las calificaciones están bastante concentradas en un rango alto (entre 3.13 y 3.67), lo que sugiere buen desempeño académico general. La distribución también parece simétrica.
  • La mayoría de los estudiantes proviene de instituciones de prestigio nivel II y III.

Análisis Exploratorio de los Datos

# Exploración general
view_df(data, show.frq = TRUE, show.prc = TRUE, show.na = TRUE)
  • Más de dos tercios de los estudiantes fueron admitidos.
  • Distribución casi equitativa, con una leve mayoría masculina.
  • La mayoría de los estudiantes son de nivel socioeconómico bajo (C). La distribución va de más bajo a más alto.
  • La mayoría de los estudiantes provienen de instituciones con prestigio nivel II (medio-alto).
# Frecuencia de admitidos
data %>%
  plot_frq(Admitido)

# Admitido vs Sexo
p <- data %>%
  group_by(Sexo) %>%
  plot_frq(Admitido) %>%
  plot_grid()

p
## TableGrob (2 x 1) "arrange": 2 grobs
##   z     cells    name           grob
## 1 1 (1-1,1-1) arrange gtable[layout]
## 2 2 (2-2,1-1) arrange gtable[layout]
  • La admisión es ligeramente mayor para los hombres (70.1%) que para las mujeres (66.5%).
  • Más hombres (140) fueron admitidos que mujeres (130), y también menos hombres (58) no fueron admitidos en comparación con las mujeres (69).
# Prestigio vs Admitido
plot_grpfrq(
  var.cnt = data$Admitido,
  var.grp = data$Prestigio
)

  • Prestigio I: La cantidad de no admitidos (33) es ligeramente mayor que la cantidad de admitidos (28).
  • Prestigio II: La cantidad de admitidos (97) es considerablemente mayor que la cantidad de no admitidos (54).
  • Prestigio III: La cantidad de admitidos (93) es notablemente mayor que la cantidad de no admitidos (28).
  • Prestigio IV: La cantidad de admitidos (55) es mucho mayor que la cantidad de no admitidos (12).
# Sexo vs NSE
plot_xtab(
  x = data$Sexo,
  grp = data$NSE,
  margin = 'row',
  bar.pos = 'stack',
  show.summary = TRUE,
  coord.flip = TRUE
)

  • NSE A: La proporción de hombres en el NSE A (31.1%) es ligeramente mayor que la proporción de mujeres en el NSE A (27.3%).
  • NSE B: La proporción de mujeres en el NSE B (34.5%) es notablemente mayor que la proporción de hombres en el NSE B (29.6%).
  • NSE C: Las proporciones en el NSE C son bastante similares entre hombres (39.3%) y mujeres (38.1%).
# Tabla cruzada con porcentajes por fila
tab_xtab(
  var.row = data$Sexo,
  var.col = data$NSE,
  show.row.prc = TRUE
)
Sexo NSE Total
A B C
Femenino 53
27.3 %
67
34.5 %
74
38.1 %
194
100 %
Masculino 64
31.1 %
61
29.6 %
81
39.3 %
206
100 %
Total 117
29.2 %
128
32 %
155
38.8 %
400
100 %
χ2=1.273 · df=2 · Cramer’s V=0.056 · p=0.529
  • Distribución por sexo:
    • Femenino: La mayor proporción de mujeres está en el nivel C (38.1%), seguido de B (34.5%) y A (27.3%).
    • Masculino: Los hombres tienen una distribución algo más equilibrada entre los niveles A y B, con un 31.1% en A, y 29.6% en B.
  • Distribución general del NSE:
    • La mayoría de los estudiantes están en el nivel C (38.8%), seguido de B (32%) y A (29.2%).

Prueba de Chi-cuadrado:

H0 : No hay asociación entre el Sexo y el Nivel Socioeconómico (NSE).

H1 : Sí hay asociación entre el Sexo y el NSE.

  • Valor de Chi-cuadrado (χ²) = 1.273

  • Valor de p = 0.529

  • Con un nivel de significación del 5%, no hay suficiente evidencia estadística para rechazar la hipótesis nula. Lo que sugiere que no hay una asociación significativa entre Sexo y NSE. En otras palabras, el sexo no tiene un efecto estadísticamente significativo sobre la distribución de niveles socioeconómicos.

# Histograma de calificaciones por nivel socioeconómico
data %>%
  group_by(NSE) %>%
  plot_frq(
    Calificaciones,
    type = 'histogram',
    show.mean = TRUE,
    normal.curve = TRUE
  ) %>%
  plot_grid()

  • Gráfico A (NSE: A)
    • Las calificaciones están más concentradas cerca del promedio (3.4). La mayoría de los valores están entre 3.0 y 4.0, con una distribución relativamente simétrica.
  • Gráfico B (NSE: C)
    • Aunque la media es 3.4, hay una asimetría a la izquierda, con muchas calificaciones agrupadas entre 2.5 y 3.5, y menos en el extremo alto.
  • Gráfico C (NSE: B)
    • La distribución es asimétrica a la derecha, con una fuerte concentración entre 3.9 y 4.3.La gran mayoría tiene calificaciones por encima del promedio.
m <- lm(PEG ~ Calificaciones, data = data)
summary(m)
## 
## Call:
## lm(formula = PEG ~ Calificaciones, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -302.39  -62.79   -2.21   68.51  283.44 
## 
## Coefficients:
##                Estimate Std. Error t value           Pr(>|t|)    
## (Intercept)       192.3       47.9    4.01 0.0000715236268723 ***
## Calificaciones    116.6       14.0    8.30 0.0000000000000016 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 107 on 398 degrees of freedom
## Multiple R-squared:  0.148,  Adjusted R-squared:  0.146 
## F-statistic: 68.9 on 1 and 398 DF,  p-value: 0.0000000000000016
  • Tanto el intercepto como la pendiente son altamente significativos (p < 0.001), lo cual indica que la relación entre las variables es estadísticamente diferente de cero.
  • R² = 0.1477, lo que significa que el 14.77% de la variabilidad del PEG se explica por las Calificaciones.
# Gráficos del modelo
plot_model(m)

plot_model(m, show.values = TRUE, width = 0.1) +
  ylab('Incremento del puntaje PEG según calificaciones')

  • Las calificaciones tienen un efecto positivo y estadísticamente significativo sobre el puntaje PEG. Por cada unidad de incremento (o aumento estandarizado) en calificaciones, el PEG incrementa en promedio 116.64 puntos.

  • Aunque el intervalo de confianza es moderadamente amplio, se mantiene lejos del valor nulo, lo que indica un efecto robusto.

# Tabla resumen del modelo
tab_model(m,
          show.reflvl = TRUE,
          show.intercept = FALSE,
          p.style = 'numeric_stars')
  PEG
Predictors Estimates CI p
Calificaciones 116.64 *** 89.02 – 144.25 <0.001
Observations 400
R2 / R2 adjusted 0.148 / 0.146
  • p<0.05   ** p<0.01   *** p<0.001
  • R² y R² ajustado: 0.148 / 0.146, lo que indica que el modelo explica aproximadamente el 14.8% de la variabilidad en PEG.
# Interpretación del R²
interpret_r2(summary(m)$r.squared, rules = 'cohen1988')
## [1] "moderate"
## (Rules: cohen1988)
  • El resultado “moderate” indica que, según los criterios de Cohen (1988), un R² de ~ 0.15 representa un tamaño de efecto moderado.
check_model(m)

check_normality(m)
## OK: residuals appear as normally distributed (p = 0.320).
plot(check_normality(m))
## For confidence bands, please install `qqplotr`.

check_heteroscedasticity(m)
## OK: Error variance appears to be homoscedastic (p = 0.117).
plot(check_heteroscedasticity(m))

  • Esto significa que los residuos siguen una distribución normal, lo cual es un supuesto clave para la validez de los intervalos de confianza y las pruebas t.

  • La varianza de los errores es constante, lo cual indica que no hay problemas de heterocedasticidad (es decir, los errores no aumentan o disminuyen sistemáticamente con los valores de Calificaciones).

Análisis FAMD

famd_result <- data %>% 
  FAMD(ncp = 6, graph = TRUE)
famd_result
## *The results are available in the following objects:
## 
##   name          description                             
## 1 "$eig"        "eigenvalues and inertia"               
## 2 "$var"        "Results for the variables"             
## 3 "$ind"        "results for the individuals"           
## 4 "$quali.var"  "Results for the qualitative variables" 
## 5 "$quanti.var" "Results for the quantitative variables"
# str(famd_result)
famd_result %>% fviz_famd_var()

  • Variables asociadas con Dim.1 (eje horizontal):
    • PEG, Calificaciones y Admitido tienen valores altos en Dim.1 → están fuertemente asociadas con esta dimensión.
    • Esto sugiere que Dim.1 representa un eje académico o de desempeño escolar.
  • Variables asociadas con Dim.2 (eje vertical):
    • NSE (Nivel Socioeconómico) y Sexo tienen valores más cercanos al eje vertical.
    • Por tanto, Dim.2 parece capturar diferencias sociodemográficas.
    • Prestigio está en un punto intermedio → podría estar relacionado tanto con el desempeño como con el contexto social.

Valores Propios

# Eigenvalues
eigenvalues <- famd_result %>% get_eigenvalue()
famd_result %>% fviz_screeplot()

famd_result %>% fviz_screeplot(addlabels = TRUE, ylim = c(0, 30),
                                   barfill="white", barcolor ="darkblue",
                                   linecolor ="red")

  • Las dos primeras dimensiones explican juntas el 30.9% de la varianza total. Esto es aceptable en análisis exploratorios, pero sugiere que se podrían considerar hasta 3 o 4 dimensiones para una interpretación más completa.

  • Dimensión 1 es la más relevante, lo que refuerza que las variables más influyentes en esa dimensión (PEG, Calificaciones, Admitido) juegan un papel central en la estructura de los datos.

# Análisis manual
a <- famd_result$eig
a
##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1      1.611                   17.9                              17.9
## comp 2      1.168                   13.0                              30.9
## comp 3      1.082                   12.0                              42.9
## comp 4      1.025                   11.4                              54.3
## comp 5      1.001                   11.1                              65.4
## comp 6      0.937                   10.4                              75.8
b <- a[1:6, 1]  # Autovalores
b
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##  1.611  1.168  1.082  1.025  1.001  0.937
sum(b) # Suma de autovalores
## [1] 6.82
  • La suma 6.82 representa la cantidad de varianza total capturada por los primeros 6 componentes.
# Para los porcentajes sin acumular y acumulados se divide entre 7
(b / 9) * 100
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   17.9   13.0   12.0   11.4   11.1   10.4
c <- a[1:6, 2]
c
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   17.9   13.0   12.0   11.4   11.1   10.4
  • Se visualiza cuánto representa cada autovalor respecto a la varianza total esperada.
d <- (b / sum(b)) * 100
d
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   23.6   17.1   15.9   15.0   14.7   13.7
cumsum(d)
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   23.6   40.7   56.6   71.6   86.3  100.0
  • Las primeras 3 dimensiones ya explican más del 50% de la varianza conjunta de estas 6.
e <- (b / 9) * 100
e
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   17.9   13.0   12.0   11.4   11.1   10.4
cumsum(e)
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 
##   17.9   30.9   42.9   54.3   65.4   75.8
  • Las primeras 3 dimensiones explican ~43% de la varianza total del conjunto de variables activas.
  • Las primeras 6 dimensiones explican ~76%, lo cual suele considerarse un buen umbral para análisis exploratorio.
  • Cada componente tiene un peso relativamente parejo, excepto por el primero que sí resalta con casi 18%.

Análisis de Variables

var_analysis <- famd_result %>% get_famd_var()
var_analysis$coord
##                   Dim.1  Dim.2     Dim.3   Dim.4      Dim.5   Dim.6
## PEG            0.509070 0.0924 0.0171909 0.00228 0.00000797 0.01688
## Calificaciones 0.476848 0.1405 0.0090424 0.00541 0.04396833 0.05353
## Admitido       0.386493 0.1451 0.0000505 0.00234 0.01014764 0.01763
## Sexo           0.000941 0.1737 0.3747265 0.07059 0.01416443 0.00048
## NSE            0.009464 0.3468 0.0335863 0.60266 0.31625726 0.51788
## Prestigio      0.228072 0.2699 0.6478191 0.34184 0.61604176 0.33051
  • PEG tiene una carga alta en Dim.1 (0.509) → muy relevante en esa dimensión.
  • NSE carga más fuerte en Dim.4 (0.60) y Dim.6 (0.52).
  • Prestigio está bastante disperso, con cargas notables en Dim.3 (0.65), Dim.4 (0.34) y Dim.6 (0.33).
var_analysis$cos2
##                      Dim.1   Dim.2         Dim.3      Dim.4           Dim.5
## PEG            0.259151862 0.00854 0.00029552588 0.00000521 0.0000000000636
## Calificaciones 0.227383703 0.01973 0.00008176518 0.00002929 0.0019332140194
## Admitido       0.149376739 0.02106 0.00000000255 0.00000549 0.0001029745131
## Sexo           0.000000885 0.03017 0.14041996019 0.00498332 0.0002006310177
## NSE            0.000044780 0.06014 0.00056401974 0.18160229 0.0500093280552
## Prestigio      0.017338964 0.02428 0.13988984590 0.03895056 0.1265024818294
##                      Dim.6
## PEG            0.000284834
## Calificaciones 0.002865858
## Admitido       0.000310847
## Sexo           0.000000231
## NSE            0.134101357
## Prestigio      0.036412946
  • PEG está mejor representado por Dim.1 (cos2 = 0.259).
  • Sexo es relevante en Dim.3 (0.14)
  • NSE está bien representado por Dim.4 (0.18) y Dim.6 (0.13)
var_analysis$contrib
##                  Dim.1 Dim.2    Dim.3  Dim.4     Dim.5   Dim.6
## PEG            31.6018  7.91  1.58819  0.223  0.000797  1.8013
## Calificaciones 29.6016 12.02  0.83539  0.528  4.394252  5.7138
## Admitido       23.9926 12.42  0.00467  0.228  1.014168  1.8818
## Sexo            0.0584 14.87 34.61946  6.886  1.415611  0.0512
## NSE             0.5875 29.68  3.10290 58.789 31.607161 55.2752
## Prestigio      14.1582 23.10 59.84938 33.346 61.568011 35.2766
famd_result %>% fviz_contrib(choice = "var", axes=1)

  • Dim.1:
    • PEG (31.6%) y Calificaciones (29.6%) → claramente esta dimensión está dominada por el rendimiento académico. Admitido también influye (23.9%).
famd_result %>% fviz_contrib(choice = "var", axes=2)

  • Dim.2:
    • NSE (29.7%) y Prestigio (23.1%) → esta dimensión se relaciona más con estatus socioeconómico.
famd_result %>% fviz_contrib(choice = "var", axes=3)

  • Dim.3:
    • Prestigio (59.8%) y Sexo (34.6%) → esta dimensión está fuertemente marcada por género y reputación institucional.
famd_result %>% fviz_contrib(choice = "var", axes=4:5)

  • Dim.4 , Dim.5 y Dim.6:
    • NSE y Prestigio → dimensión también relacionada al contexto socioeconómico.

Variables Cuantitativas

var_analysis_quanti <- famd_result %>% get_famd_var(element = "quanti.var")
var_analysis_quanti$coord
##                Dim.1 Dim.2   Dim.3   Dim.4    Dim.5 Dim.6
## PEG            0.713 0.304  0.1311 -0.0478 -0.00282 0.130
## Calificaciones 0.691 0.375 -0.0951 -0.0736  0.20969 0.231
  • PEG tiene cargas altas en Dim.1 (0.71) y Dim.2 (0.30), lo que significa que tiene una relación fuerte con estas dos dimensiones.
  • Calificaciones también tiene cargas importantes en Dim.1 (0.69) y Dim.2 (0.37), lo que indica que está asociada con las mismas dimensiones que PEG, pero tiene una carga menor en Dim.1.
var_analysis_quanti$cos2
##                Dim.1  Dim.2   Dim.3   Dim.4      Dim.5  Dim.6
## PEG            0.509 0.0924 0.01719 0.00228 0.00000797 0.0169
## Calificaciones 0.477 0.1405 0.00904 0.00541 0.04396833 0.0535
  • PEG tiene una representación fuerte en Dim.1 (cos2 = 0.51), lo que significa que esta dimensión captura más de la información de PEG.
  • Calificaciones también tiene un cos2 alto en Dim.1 (0.48), pero su representación en Dim.2 es significativa (0.14), lo que la hace relevante también en esa dimensión.
var_analysis_quanti$contrib
##                Dim.1 Dim.2 Dim.3 Dim.4    Dim.5 Dim.6
## PEG             31.6  7.91 1.588 0.223 0.000797  1.80
## Calificaciones  29.6 12.02 0.835 0.528 4.394252  5.71
  • Dim.1:
    • PEG (31.6%) y Calificaciones (29.6%) dominan Dim.1, lo que significa que Dim.1 se interpreta principalmente a través del rendimiento académico (PEG y Calificaciones).
  • Dim.2:
    • Calificaciones (12.0%) tiene una contribución importante en Dim.2, sugiriendo que esta dimensión también está influenciada por el rendimiento académico, aunque con un enfoque distinto al de Dim.1.
    • PEG también tiene una contribución moderada (7.9%) en Dim.2.
  • Dim.3 y Dim.4:
    • Las contribuciones de PEG y Calificaciones disminuyen drásticamente, lo que indica que no son importantes en estas dimensiones.
  • Dim.5 y Dim.6:
    • Ambas variables tienen una baja contribución a estas dimensiones, lo que significa que la variabilidad de PEG y Calificaciones no se encuentra bien representada en estas dimensiones.
# Variables cuantitativas con gradiente según contribución
famd_result %>% 
  fviz_famd_var(choice = "quanti.var", col.var = "contrib",
                gradient.cols = c("red","yellow","green"))

  • Como ambas variables están proyectadas en la misma dirección, lo que sugiere una correlación positiva alta entre ellas.

  • Están ubicadas cerca del borde del círculo, lo cual indica que están bien representadas en este plano.

  • La mayor parte de su contribución es hacia Dim1, como se puede ver por su orientación casi horizontal. Son las variables cuantitativas más importantes para la Dimensión 1 y también aportan algo a Dimensión 2.

  • El color verde indica una contribución fuerte (cerca 22%) a estas dos dimensiones combinadas, siendo “Calificaciones”.

# En los ejes 2 y 3
famd_result %>% 
  fviz_famd_var(choice = "quanti.var", col.var = "contrib",axes=c(2,3),
                gradient.cols = c("red","yellow","green"))

  • Ambas variables están cercanas al centro del gráfico y más cortas, lo que indica una baja calidad de representación en este plano.

  • Esto sugiere que Dim3 no es muy relevante para describir a PEG y Calificaciones. Y “Calificaciones” aporta más información que “PEG”.

  • En comparación con el primer gráfico (Dim1-Dim2), aquí aportan menos tanto en contribución como en calidad de representación.

# Cos2
famd_result %>% 
  fviz_famd_var(choice = "quanti.var", col.var = "cos2",
                gradient.cols = c("red","yellow","green"))

  • Calificaciones está bastante bien representadas (cos² ≈ 0.61), lo cual confirma lo observado en el gráfico de contribuciones.

  • Ambas variables apuntan hacia la misma región (parte superior derecha), lo que implica correlación positiva.

Variables Cualitativas

var_analysis_quali <- famd_result %>% get_famd_var(element = "quali.var")
var_analysis_quali$coord
##               Dim.1  Dim.2    Dim.3   Dim.4   Dim.5   Dim.6
## Admitido    -0.5382  0.281 -0.00504 -0.0334  0.0687  0.0877
## No_admitido  1.1569 -0.604  0.01084  0.0718 -0.1477 -0.1884
## Femenino     0.0401  0.464  0.65628  0.2772 -0.1227 -0.0219
## Masculino   -0.0378 -0.437 -0.61805 -0.2611  0.1155  0.0206
## A            0.1856 -0.920  0.02958  0.5216  0.0851  1.0832
## B           -0.1183  0.689 -0.26043  0.7143 -0.7676 -0.4635
## C           -0.0424  0.125  0.19274 -0.9836  0.5697 -0.4348
## I            1.1875 -0.910 -0.17799  0.9013  0.5960 -1.3032
## II           0.1180 -0.294  0.50710 -0.6556 -0.8958  0.1607
## III         -0.2663  0.699 -1.14855  0.0212  0.1361  0.3143
## IV          -0.8661  0.228  1.09342  0.6189  1.2307  0.2566
  • Admitido y No_admitido están fuertemente asociados con Dim.1, con coordenadas de -0.54 (Admitido) y 1.16 (No_admitido), lo que sugiere que Dim.1 puede ser interpretada en términos de la admisión (por ejemplo, una distinción clara entre los admitidos y no admitidos).

  • Femenino y Masculino tienen coordenadas relativamente cercanas, con Femenino (0.04) y Masculino (-0.04) en Dim.1, lo que indica que Dim.1 también distingue parcialmente entre estos géneros.

  • Categorías A, B, C (en relación con NSE) tienen una distribución diferente, con A (0.19) y B (-0.12) en Dim.1, y C (-0.04). Esto sugiere que la clasificación NSE también influye en Dim.1.

var_analysis_quali$v.test  # Z > 1.96 indica significancia
##               Dim.1  Dim.2   Dim.3   Dim.4  Dim.5   Dim.6
## Admitido    -12.418   7.61  -0.142  -0.967   2.01   2.652
## No_admitido  12.418  -7.61   0.142   0.967  -2.01  -2.652
## Femenino      0.613   8.33  12.228   5.307  -2.38  -0.438
## Masculino    -0.613  -8.33 -12.228  -5.307   2.38   0.438
## A             1.878 -10.93   0.365   6.617   1.09  14.373
## B            -1.277   8.73  -3.430   9.668 -10.52  -6.562
## C            -0.530   1.84   2.943 -15.435   9.05  -7.137
## I             7.928  -7.13  -1.450   7.542   5.05 -11.408
## II            1.446  -4.23   7.582 -10.073 -13.93   2.583
## III          -2.760   8.51 -14.522   0.275   1.79   4.272
## IV           -6.114   1.89   9.417   5.477  11.02   2.376
  • Admitido y No_admitido tienen valores de Z significativos en Dim.1 (Z = ±12.42), lo que confirma que Dim.1 distingue fuertemente entre estas dos categorías.

  • Femenino y Masculino tienen valores significativos en Dim.2 (Z = 8.33 para Femenino y -8.33 para Masculino).

  • Las categorías de NSE (A, B, C) muestran significancia en Dim.2 y Dim.3, lo que sugiere que estas dimensiones son relevantes para representar las diferencias en los niveles socioeconómicos.

var_analysis_quali$contrib
##               Dim.1  Dim.2    Dim.3   Dim.4  Dim.5   Dim.6
## Admitido     7.6176  3.943  0.00148  0.0725  0.322  0.5975
## No_admitido 16.3749  8.476  0.00319  0.1559  0.692  1.2843
## Femenino     0.0301  7.656 17.82902  3.5464  0.729  0.0264
## Masculino    0.0283  7.210 16.79044  3.3398  0.687  0.0249
## A            0.3881 18.121  0.02185  7.5733  0.212 39.0955
## B            0.1726 11.116  1.85245 15.5383 18.835  7.8332
## C            0.0268  0.447  1.22860 35.6775 12.560  8.3464
## I            8.2873  9.246  0.41237 11.7870  5.410 29.5045
## II           0.2024  2.387  8.28554 15.4411 30.260  1.1107
## III          0.8268 10.827 34.05915  0.0129  0.559  3.4047
## IV           4.8417  0.638 17.09231  6.1046 25.338  1.2567
  • No_admitido tiene una alta contribución en Dim.1 (16.37%), lo que subraya su relevancia en la distinción de esta dimensión.
  • Femenino y Masculino contribuyen de manera más balanceada a Dim.2 (aproximadamente 7.65% y 7.21%, respectivamente), reflejando que Dim.2 también tiene relación con el género.
  • Categorías NSE (A, B, C) muestran contribuciones variadas a diferentes dimensiones. A tiene una gran contribución en Dim.2 (18.12%), mientras que B tiene un gran aporte en Dim.4 (15.54%).
var_analysis_quali$cos2
##               Dim.1   Dim.2    Dim.3    Dim.4   Dim.5    Dim.6
## Admitido    0.54654 0.14883 0.000048 0.002108 0.00891 0.014501
## No_admitido 0.54654 0.14883 0.000048 0.002108 0.00891 0.014501
## Femenino    0.00149 0.20006 0.399827 0.071335 0.01397 0.000443
## Masculino   0.00149 0.20006 0.399827 0.071335 0.01397 0.000443
## A           0.01403 0.34456 0.000357 0.110855 0.00295 0.478017
## B           0.00650 0.22038 0.031519 0.237140 0.27385 0.099859
## C           0.00113 0.00993 0.023412 0.609812 0.20453 0.119165
## I           0.24004 0.14089 0.005393 0.138260 0.06046 0.289085
## II          0.00833 0.05169 0.153982 0.257392 0.48056 0.015466
## III         0.02974 0.20490 0.553177 0.000188 0.00776 0.041431
## IV          0.14600 0.01012 0.232719 0.074552 0.29480 0.012820
  • Admitido y No_admitido tienen valores cos2 bastante altos en Dim.1 (0.55), lo que sugiere que Dim.1 representa bien estas categorías.

  • Femenino y Masculino tienen cos2 bajos en Dim.1 (0.001), lo que sugiere que Dim.1 no captura mucho de la variabilidad de estos géneros.

  • Categorías de NSE (A, B, C) muestran una buena representación en Dim.2 y Dim.3, con A mostrando un cos2 de 0.34 en Dim.2, lo que implica que Dim.2 refleja bastante bien la variable A.

# Ejemplos de sumas de contribuciones o cos2
sum(var_analysis_quali$contrib[1:9, 1]) # La suma respecto a la Dim.1 no es 100
## [1] 33.1
sum(var_analysis_quali$cos2[1, 1:6]) # La suma no da 1
## [1] 0.721
# Visualización con contribución
fviz_famd_var(famd_result, choice = "quali.var", col.var = "contrib",
              gradient.cols = c("red", "yellow", "green"))

  • Femenino y Masculino: Se encuentran en lados opuestos del eje vertical (Dim2), lo que sugiere que Dim2 diferencia entre estas dos categorías. Ambas estan de color naranja, indicando que tienen una menor contribución.
  • Admitida y No_admitic: Se encuentran bien separadas a lo largo del eje horizontal (Dim1) por lo que Dim1 parece principalmente diferenciar entre estas categorías. Parecen tener una contribución relativamente alta (colores más verdes/amarillos).
# Visualización con cos2
fviz_famd_var(famd_result, choice = "quali.var", col.var = "cos2",
              gradient.cols = c("red", "yellow", "green"))

  • “No_admitido” y “Admitido” son las categorías más informativas y representativas en estas dos primeras dimensiones: contribuyen y están bien proyectadas.
  • Categorías como A y I se ubican en la parte positiva de Dim1 y negativa de Dim2. Ambas tienen un cos2 moderado, esto sugiere que están razonablemente bien representadas en estas dimensiones también aportan información, aunque su representación en este plano es menos nítida.
  • Categorías como III y B entan cerca de la categoría Femenino y tienen un bajo cos2 lo que sugiere que su variabilidad no se explica bien en estas dos dimensiones, podrían ser analizadas mejor observando otras dimensiones (como Dim3 o Dim4).

Análisis de Individuos

# Obtener análisis de individuos
ind_analysis <- famd_result %>% get_famd_ind()
ind_analysis
## FAMD results for individuals 
##  ===================================================
##   Name       Description                      
## 1 "$coord"   "Coordinates"                    
## 2 "$cos2"    "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
# str(ind_analysis)
# Coordenadas de los primeros 7 individuos
ind_analysis$coord[1:7, ]
##    Dim.1  Dim.2  Dim.3    Dim.4  Dim.5  Dim.6
## 1 -1.105 -0.628 -1.889  0.28509  0.532  1.504
## 2  1.446  0.124 -0.406  0.78684  0.104  1.527
## 3  3.503 -0.611  0.564  1.52502  0.742  0.171
## 4  0.241 -1.538  0.582  0.94478  1.171  1.186
## 5 -1.861  0.356  1.827 -0.00242  1.493 -0.488
## 6  1.213 -1.094  1.394  0.21383 -1.300  1.058
## 7  0.732 -1.232  0.698  0.34980  0.669 -2.370
  • El individuo 3 tiene coordenadas altas en Dim.1 (3.50), lo cual indica que está muy alejado del centro en esa dimensión.

  • El individuo 5 destaca en Dim.3 (1.83).

# Contribución de los primeros 10 individuos
ind_analysis$contrib[1:10, ]
##      Dim.1   Dim.2  Dim.3      Dim.4   Dim.5   Dim.6
## 1  0.18937 0.08444 0.8243 0.01982136 0.07063 0.60352
## 2  0.32457 0.00327 0.0380 0.15098543 0.00268 0.62251
## 3  1.90458 0.07989 0.0736 0.56716465 0.13746 0.00784
## 4  0.00901 0.50587 0.0782 0.21768268 0.34278 0.37532
## 5  0.53767 0.02708 0.7705 0.00000142 0.55720 0.06353
## 6  0.22831 0.25587 0.4489 0.01115041 0.42208 0.29893
## 7  0.08321 0.32479 0.1126 0.02984093 0.11193 1.49814
## 8  0.40751 0.01302 0.2885 0.36611787 0.07455 0.10779
## 9  0.01148 0.19396 0.1256 0.28310811 0.20249 0.05146
## 10 0.16906 0.33483 0.3571 0.55499120 0.00204 0.01559
  • El individuo 3 tiene una contribución muy alta a Dim.1 (1.90). Es decir, este individuo está moldeando fuertemente esa dimensión.

  • El individuo 7 influye mucho en Dim.6 (1.50).

# Suma de las contribuciones de todos los individuos para la Dim.4 (debe ser 100)
sum(ind_analysis$contrib[1:nrow(data), 4])
## [1] 100
  • Todos los individuos suman 100 en cada dimensión, lo que confirma la correcta estandarización.
# Cos2 de los primeros individuos
ind_analysis$cos2[1:8, ]
##    Dim.1   Dim.2  Dim.3       Dim.4   Dim.5   Dim.6
## 1 0.1257 0.04065 0.3677 0.008372429 0.02912 0.23299
## 2 0.2357 0.00172 0.0186 0.069784841 0.00121 0.26296
## 3 0.7156 0.02177 0.0186 0.135605933 0.03208 0.00171
## 4 0.0053 0.21567 0.0309 0.081424925 0.12515 0.12831
## 5 0.3504 0.01280 0.3375 0.000000591 0.22558 0.02408
## 6 0.1393 0.11322 0.1840 0.004329009 0.15995 0.10607
## 7 0.0463 0.13119 0.0421 0.010575801 0.03872 0.48526
## 8 0.3254 0.00754 0.1548 0.186070457 0.03698 0.05007
  • El individuo 3 tiene cos2 de 0.715 en Dim.1, lo que indica excelente representación en ese eje.
# Suma de cos2 del individuo 3 en las primeras 6 dimensiones (debe ser aproximadamente 1)
sum(ind_analysis$cos2[3, 1:6])
## [1] 0.925
  • Su suma total de cos2 para las 6 dimensiones es 0.925, lo que implica que el 92.5% de su información está explicada en estas 6 dimensiones.
fviz_famd_ind(famd_result, col.ind = "contrib",
              gradient.cols = c("red", "yellow", "green"), repel = TRUE)

  • La mayoría de los individuos están en rojo o naranja, lo que significa que no tienen una gran contribución individual en la construcción de Dim1 y Dim2.

  • Pocos individuos sobresalen, como el individuo 290 (parte inferior izquierda) o el individuo 3. Son más relevantes para explicar la variabilidad representada en los primeros dos ejes.

fviz_famd_ind(famd_result, col.ind = "cos2",
              gradient.cols = c("red", "yellow", "green"), repel = TRUE)

  • La mayoría de los individuos están en rojo/naranja. No están bien representados por solo las dos primeras dimensiones.

  • Individuos verdes (290, 324, 223, 331): Están alejados del centro y bien representados en el plano. Son relevantes para interpretar la variabilidad capturada por Dim1 y Dim2.