Parcial 1
CURSO: Técnicas Multivariadas
DOCENTE: Miranda Villagomez Clodomiro Fernando
ALUMNOS:
Colca Balbin, Josue Jeremías - 20220761
Garces
Quispe, Adryana Luisa - 20220764
Jesús Mamani, Angelo Miguel -
20220767
Landa Cordova, Valeria Estefany - 20220768
Ramos Orue,
Selene Milagros - 20220777
Sanchez Perez, Omar Zenon - 20211938
Sandoval Hurtado, Nagiely - 20220780
2025
El presente estudio tiene como objetivo evaluar el efecto de distintos tipos de fertilizantes sobre el crecimiento y rendimiento del cultivo de maíz, analizando simultáneamente múltiples variables respuesta y considerando el impacto de factores ambientales y edáficos que podrían influir en los resultados. Se busca identificar si existen diferencias significativas entre los tratamientos aplicados, teniendo en cuenta posibles variaciones en las condiciones iniciales del suelo y en la precipitación registrada durante el ciclo de cultivo. ## Variables del Estudio
Covariables:
Score_Nutrientes_Suelo: Índice (0-100) que cuantifica la concentración inicial de nutrientes esenciales (N, P, K) en el suelo antes de aplicar tratamientos.
Precipitación_Acumulada: Precipitación total (mm) durante el ciclo de cultivo, factor crítico para el desarrollo del maíz.
Variables Dependientes:
Rendimiento_t: Producción de maíz por hectárea (t/ha) como indicador principal de efectividad del tratamiento.
Altura_plantas: Desarrollo morfológico (cm) como indicador secundario del vigor vegetativo.
Factor de Tratamiento:
Orgánico
Químico
Control (sin fertilizante).
## # A tibble: 6 × 5
## Tipo_Fertilizante Score_Nutrientes_Suelo Precipitación_Acumulada Rendimiento_T
## <chr> <dbl> <dbl> <dbl>
## 1 Orgánico 72 647 7.28
## 2 Orgánico 79 673. 7.75
## 3 Orgánico 79 772. 7.31
## 4 Orgánico 68 699. 7.46
## 5 Orgánico 83 698. 7.32
## 6 Orgánico 63 786 8.08
## # ℹ 1 more variable: Altura_Plantas <dbl>
## tibble [150 × 5] (S3: tbl_df/tbl/data.frame)
## $ Tipo_Fertilizante : chr [1:150] "Orgánico" "Orgánico" "Orgánico" "Orgánico" ...
## $ Score_Nutrientes_Suelo : num [1:150] 72 79 79 68 83 63 82 75 89 73 ...
## $ Precipitación_Acumulada: num [1:150] 647 673 772 699 698 ...
## $ Rendimiento_T : num [1:150] 7.28 7.75 7.31 7.46 7.32 8.08 7.35 7.19 8.11 6.9 ...
## $ Altura_Plantas : num [1:150] 374 376 382 389 386 ...
Antes de realizar los análisis estadísticos inferenciales, realizaremos un análisis descriptivo con el fin de explorar la distribución general de las variables, identificar posibles patrones, y detectar valores atípicos o inconsistencias. Este paso nos permitira tener una comprensión inicial de los datos y brindara un contexto para interpretar los resultados posteriores.
## Descriptive Statistics
## datos
## N: 150
##
## Altura_Plantas Precipitación_Acumulada Rendimiento_T Score_Nutrientes_Suelo
## ----------------- ---------------- ------------------------- --------------- ------------------------
## Mean 366.47 658.74 6.55 56.65
## Std.Dev 13.95 63.02 1.07 21.48
## Min 339.03 500.00 4.15 15.00
## Q1 352.69 614.60 5.58 36.00
## Median 369.12 661.95 6.74 62.00
## Q3 377.96 701.30 7.36 75.00
## Max 394.12 800.00 8.48 96.00
## MAD 16.11 68.20 1.11 25.20
## IQR 24.87 86.07 1.77 38.50
## CV 0.04 0.10 0.16 0.38
## Skewness -0.17 -0.08 -0.40 -0.24
## SE.Skewness 0.20 0.20 0.20 0.20
## Kurtosis -1.14 -0.47 -0.92 -1.19
## N.Valid 150.00 150.00 150.00 150.00
## N 150.00 150.00 150.00 150.00
## Pct.Valid 100.00 100.00 100.00 100.00
- Del gráfico se puede concluir lo siguiente:
En ambas variables (Altura_Plantas
y
Rendimiento_T
), el tratamiento Orgánico
muestra las medianas más altas, lo que sugiere que es
el tratamiento más efectivo tanto en crecimiento como en productividad
del maíz.
Tanto la altura de las plantas como el rendimiento son menores bajo el tratamiento Control, lo que indica que la ausencia de fertilizante limita significativamente el desarrollo del cultivo.
El tratamiento Químico muestra una mediana de rendimiento y altura intermedia, pero con menor dispersión en la altura de las plantas, lo que podría indicar un efecto más uniforme en el crecimiento comparado con los otros tratamientos.
-
Distribución del Rendimiento (ton/ha): La
distribución del rendimiento es asimétrica hacia la
izquierda, con una mayor frecuencia de valores entre 6.5 y 7.5
ton/ha. Esto sugiere que, en general, los tratamientos tienden a
favorecer rendimientos medios-altos, aunque hay algunas parcelas con
valores bajos cercanos a 4 ton/ha.
Distribución de la Altura de Plantas (cm): La altura de las plantas muestra una distribución ligeramente multimodal, con varios picos entre 360 y 385 cm. Esto podría reflejar diferencias asociadas a los tratamientos o a otras condiciones de cultivo, como el suelo o el clima.
Índice de Nutrientes del Suelo (Score
0–100):La variable Score_Nutrientes_Suelo
presenta una distribución bastante dispersa y no
simétrica, indicando una gran heterogeneidad en la calidad
nutricional inicial del suelo entre las parcelas evaluadas.
Distribución de la Precipitación Acumulada (mm): La Precipitación Acumulada sigue una distribución aproximadamente normal centrada entre 650 y 700 mm. Esto sugiere que la mayoría de los cultivos se desarrollaron bajo condiciones de humedad similares, aunque algunos casos extremos alcanzaron valores por encima de 750 mm o por debajo de 550 mm.
La gráfica muestra una relación positiva entre la altura de las
plantas de maíz y el rendimiento del cultivo (ton/ha). Esto
indica que, en general, a mayor altura de las plantas, mayor es
la producción por hectárea. La línea de tendencia resalta esta
asociación, y la banda gris representa un intervalo de confianza que
sugiere que la tendencia es consistente, aunque hay cierta variabilidad
entre los datos.
Este patrón sugiere que ambas variables están vinculadas y podrían estar influidas por factores comunes, como las condiciones del suelo, la precipitación o el tipo de fertilizante utilizado.
####
Para la variable dependiente Altura_Plantas:
El fertilizante orgánico también produce el mayor rendimiento, con la curva desplazada hacia la derecha (mayores toneladas por hectárea) respecto a los otros grupos.
El grupo químico muestra una distribución intermedia, pero con una mayor variabilidad, mientras que el grupo control nuevamente tiene los rendimientos más bajos y consistentes cerca de 5.5 ton/ha.
##
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.95103, p-value = 0.03763
##
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.98579, p-value = 0.8052
##
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.9586, p-value = 0.07764
Solo el grupo Control presenta evidencia estadísticamente significativa de desviación de la normalidad.
Los grupos Orgánico y Químico cumplen con el supuesto de normalidad, al menos según la prueba de Shapiro-Wilk.
##
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 0.694323 0.15447 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.2325 0.7884 YES
## 2 Anderson-Darling Altura_Plantas 0.4860 0.2163 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 5.2592 0.5236639 5.265 4.15 6.39 4.9700 5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
## Skew Kurtosis
## Rendimiento_T -0.09303845 -0.2207158
## Altura_Plantas 0.72614519 0.5639663
##
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 0.3398855 0.8165282 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.4389 0.2824 YES
## 2 Anderson-Darling Altura_Plantas 0.3016 0.5650 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 7.4338 0.5175487 7.365 6.02 8.48 7.21 7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
## Skew Kurtosis
## Rendimiento_T -0.3297302 0.1733310
## Altura_Plantas 0.3365233 -0.2424659
##
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 0.4465231 0.5670538 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.3041 0.5584 YES
## 2 Anderson-Darling Altura_Plantas 0.4450 0.2729 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 6.9690 0.5263283 6.94 5.85 8.27 6.6125 7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
## Skew Kurtosis
## Rendimiento_T 0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
Control
HZ = 0.694, p = 0.154
Orgánico
HZ = 0.340, p = 0.817
Químico
HZ = 0.447, p = 0.567
##
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 7.12611398525922 0.129371883958709 YES
## 2 Mardia Kurtosis 0.591816342934366 0.553973578172583 YES
## 3 MVN <NA> <NA> YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.2325 0.7884 YES
## 2 Anderson-Darling Altura_Plantas 0.4860 0.2163 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 5.2592 0.5236639 5.265 4.15 6.39 4.9700 5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
## Skew Kurtosis
## Rendimiento_T -0.09303845 -0.2207158
## Altura_Plantas 0.72614519 0.5639663
##
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 2.15943426775281 0.706462439302705 YES
## 2 Mardia Kurtosis -0.0535914983442818 0.957260630117935 YES
## 3 MVN <NA> <NA> YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.4389 0.2824 YES
## 2 Anderson-Darling Altura_Plantas 0.3016 0.5650 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 7.4338 0.5175487 7.365 6.02 8.48 7.21 7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
## Skew Kurtosis
## Rendimiento_T -0.3297302 0.1733310
## Altura_Plantas 0.3365233 -0.2424659
##
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 6.54186544438511 0.162171561470413 YES
## 2 Mardia Kurtosis 0.295909325126031 0.76729932940294 YES
## 3 MVN <NA> <NA> YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.3041 0.5584 YES
## 2 Anderson-Darling Altura_Plantas 0.4450 0.2729 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 6.9690 0.5263283 6.94 5.85 8.27 6.6125 7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
## Skew Kurtosis
## Rendimiento_T 0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
##
## --- Prueba de Normalidad Multivariada: Control(Sin fertilizante) ---
## $multivariateNormality
## Test H p value MVN
## 1 Royston 2.815299 0.2457707 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.2325 0.7884 YES
## 2 Anderson-Darling Altura_Plantas 0.4860 0.2163 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 5.2592 0.5236639 5.265 4.15 6.39 4.9700 5.58
## Altura_Plantas 50 349.9156 5.6697062 349.285 339.03 367.45 345.9875 352.66
## Skew Kurtosis
## Rendimiento_T -0.09303845 -0.2207158
## Altura_Plantas 0.72614519 0.5639663
##
## --- Prueba de Normalidad Multivariada: Fertilizante Orgánico ---
## $multivariateNormality
## Test H p value MVN
## 1 Royston 1.046809 0.5926925 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.4389 0.2824 YES
## 2 Anderson-Darling Altura_Plantas 0.3016 0.5650 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 7.4338 0.5175487 7.365 6.02 8.48 7.21 7.8175
## Altura_Plantas 50 380.5466 5.6816977 379.985 369.43 394.12 376.63 383.5525
## Skew Kurtosis
## Rendimiento_T -0.3297302 0.1733310
## Altura_Plantas 0.3365233 -0.2424659
##
## --- Prueba de Normalidad Multivariada: Fertilizante Químico ---
## $multivariateNormality
## Test H p value MVN
## 1 Royston 0.7484038 0.6914145 YES
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling Rendimiento_T 0.3041 0.5584 YES
## 2 Anderson-Darling Altura_Plantas 0.4450 0.2729 YES
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## Rendimiento_T 50 6.9690 0.5263283 6.94 5.85 8.27 6.6125 7.355
## Altura_Plantas 50 368.9384 6.2759952 369.12 354.05 383.50 365.3425 371.895
## Skew Kurtosis
## Rendimiento_T 0.1662513 -0.2967246
## Altura_Plantas 0.2746993 -0.1134441
##
## Box's M-test for Homogeneity of Covariance Matrices
##
## data: datosc[, 4:5]
## Chi-Sq (approx.) = 2.2491, df = 6, p-value = 0.8954
Dado que el p-valor es mucho mayor a 0.05 ( p = 0.8954), no se rechaza la hipótesis nula de igualdad de las matrices de covarianza.
##
## Ahmad 2017 Homogeneity of Covariance Matrices Test
##
## data: Orgánico, Químico and Control
## Standard Normal = 6938.1, Mean = 0, Variance = 1, p-value < 2.2e-16
## alternative hypothesis: true difference in covariance matrices is not equal to 0
El p-valor extremadamente bajo indica que se rechaza la hipótesis nula de igualdad de las matrices de covarianza entre los grupos. Esto puede deberse ya que el test de Ahmad (2017) suele ser más sensible a pequeñas diferencias en estructuras de covarianza.
##
## Boxes' M Homogeneity of Covariance Matrices Test
##
## data: Control, Orgánico and Químico
## Chi-Squared = 308.83, df = 2550, p-value = 1
## alternative hypothesis: true difference in covariance matrices is not equal to 0
El p-valor alto (1) indica que no hay evidencia estadística suficiente para rechazar la hipótesis nula, es decir, se asume homogeneidad de las matrices de covarianza entre los grupos.
## **************************************************************************************************
## DFA.CANCOR 0.3.6
##
## Please contact Brian O'Connor at brian.oconnor@ubc.ca if you have questions or suggestions.
## **************************************************************************************************
##
## Covariance matrix for GroupOrgánico
## Rendimiento_T Altura_Plantas
## Rendimiento_T 0.27 0.64
## Altura_Plantas 0.64 32.28
##
## Covariance matrix for GroupQuímico
## Rendimiento_T Altura_Plantas
## Rendimiento_T 0.28 1.53
## Altura_Plantas 1.53 39.39
##
## Covariance matrix for GroupControl
## Rendimiento_T Altura_Plantas
## Rendimiento_T 0.27 1.05
## Altura_Plantas 1.05 32.15
##
##
## Bartlett test of HOMOGENEITY of variances (parametric):
##
## Bartlett's K-squared =557.968 df =1 p value =0
##
##
## Fligner-Killeen test of HOMOGENEITY of variances (non parametric):
##
## Fligner-Killeen chi-squared =151.839 df =1 p value =0
##
##
## Pooled within groups covariance matrix from SPSS:
## Rendimiento_T Altura_Plantas
## Rendimiento_T 0.273 1.074
## Altura_Plantas 1.074 34.605
##
##
## Pooled within groups correlation matrix from SPSS:
## Rendimiento_T Altura_Plantas
## Rendimiento_T 1.00 0.35
## Altura_Plantas 0.35 1.00
##
##
## Box Test of equality of covariance matrices:
##
## Log determinants:
## Log Determinant
## Orgánico 2.108
## Químico 2.150
## Control 2.042
## Pooled 2.116
##
##
## M = 2.294 F = 0.375 df1 = 6 df2 = 538562.77 p = 0.89543
Cuando los tratamientos se evalúan en conjunto, sí se cumple el supuesto de homogeneidad de matrices de covarianza (Box’s M, p = 0.895).
Cuando se comparan tratamientos por separado, los tests de Bartlett y Fligner-Killeen indican heterogeneidad significativa en las varianzas.
## $chisq
## [1] 191.4119
##
## $p.value
## [1] 1.563694e-43
##
## $df
## [1] 1
La prueba de esfericidad de Bartlett fue significativa (χ²(1) = 191.41, p < 0.001), indicando que las variables respuesta presentan correlaciones, lo que valida el uso de métodos multivariados para su análisis.
modelo = manova(cbind(Rendimiento_T, Altura_Plantas) ~
Tipo_Fertilizante + Score_Nutrientes_Suelo + Precipitación_Acumulada, data = datos)
## Rendimiento_T Altura_Plantas
## Rendimiento_T 131.139 1742.181
## Altura_Plantas 1742.181 23914.590
Los valores relativamente altos en esta matriz, especialmente en Altura_Plantas, indican que el factor tiene un efecto importante en las variables de respuesta.
## Rendimiento_T Altura_Plantas
## Rendimiento_T 12.10738 140.5657
## Altura_Plantas 140.56571 1631.9563
## Rendimiento_T Altura_Plantas
## Rendimiento_T 0.3171112 6.631977
## Altura_Plantas 6.6319771 138.699373
La primera covariable (Score_Nutrientes_Suelo) aporta más explicación que la segunda (Precipitación_Acumulada), especialmente en Altura_Plantas, lo que sugiere que X1 tiene mayor relevancia en el modelo.
## Rendimiento_T Altura_Plantas
## Rendimiento_T 27.7115 10.7273
## Altura_Plantas 10.7273 3316.2976
Los valores bajos en comparación con las otras matrices indican que el modelo está capturando una gran parte de la variabilidad total, lo cual es positivo.
## Rendimiento_T Altura_Plantas
## Rendimiento_T 171.275 1900.106
## Altura_Plantas 1900.106 29001.543
## [1] 0.8679063
El valor de η² = 0.8679 indica que aproximadamente el 86.8% de la variabilidad total en las variables de respuesta puede explicarse por las diferencias entre los grupos definidos por el factor (en este caso, los tipos de fertilizante). Este valor sugiere un alto grado de ajuste del modelo a los datos, lo que implica que el efecto del tratamiento sobre las variables dependientes es considerablemente fuerte.
## Df Pillai approx F num Df den Df Pr(>F)
## Tipo_Fertilizante 2 1.00731 73.568 4 290 < 2e-16 ***
## Score_Nutrientes_Suelo 1 0.47294 64.607 2 144 < 2e-16 ***
## Precipitación_Acumulada 1 0.04923 3.728 2 144 0.02638 *
## Residuals 145
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Fertilizante: Pillai = 1.00731, F(4, 290) =
73.57, p < 0.001
El tipo de fertilizante tiene un efecto multivariado altamente
significativo sobre las variables de respuesta.
Score_Nutrientes_Suelo: Efecto significativo (p < 0.001).
Precipitación_Acumulada: También tiene un efecto significativo pero más débil (p ≈ 0.026).
## Df Wilks approx F num Df den Df Pr(>F)
## Tipo_Fertilizante 2 0.07325 194.021 4 288 < 2e-16 ***
## Score_Nutrientes_Suelo 1 0.52706 64.607 2 144 < 2e-16 ***
## Precipitación_Acumulada 1 0.95077 3.728 2 144 0.02638 *
## Residuals 145
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Fertilizante: Wilks = 0.07325, F(4, 288) =
194.02, p < 0.001
Confirma un efecto muy fuerte del fertilizante, con una
menor lambda indicando mayor separación entre grupos.
Los otros dos predictores también son significativos, en particular los nutrientes del suelo.
## Df Hotelling-Lawley approx F num Df den Df Pr(>F)
## Tipo_Fertilizante 2 11.5513 412.96 4 286 < 2e-16 ***
## Score_Nutrientes_Suelo 1 0.8973 64.61 2 144 < 2e-16 ***
## Precipitación_Acumulada 1 0.0518 3.73 2 144 0.02638 *
## Residuals 145
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Fertilizante: HL = 11.55, F ≈ 413, p <
0.001
Refuerza que el efecto del tipo de fertilizante es muy
marcado.
Score_Nutrientes_Suelo es altamente significativo, mientras que Precipitación_Acumulada lo es de forma marginal.
## Df Roy approx F num Df den Df Pr(>F)
## Tipo_Fertilizante 2 11.4553 830.51 2 145 < 2e-16 ***
## Score_Nutrientes_Suelo 1 0.8973 64.61 2 144 < 2e-16 ***
## Precipitación_Acumulada 1 0.0518 3.73 2 144 0.02638 *
## Residuals 145
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Fertilizante: Roy = 11.46, F(2, 145) =
830.5, p < 0.001
Detecta el máximo efecto lineal entre los grupos, y en
este caso, es muy elevado.
Este test es el más sensible a grandes diferencias entre grupos, lo cual explica el F tan alto para el fertilizante.
Los análisis multivariados realizados permitieron evaluar el efecto conjunto de los tratamientos (tipos de fertilizante), la calidad nutricional del suelo y la precipitación acumulada sobre las variables respuesta: rendimiento total y altura de plantas. Los cuatro contrastes multivariados aplicados (Pillai, Wilks, Hotelling-Lawley y Roy) fueron consistentes al señalar que el tipo de fertilizante tiene un efecto altamente significativo sobre el comportamiento multivariado de las variables, con estadísticas que reflejan una separación notable entre los grupos experimentales. Esto indica que los tratamientos influyen de manera contundente en el desarrollo y productividad del cultivo.
Asimismo, se observó que el nivel de nutrientes del suelo también ejerce un efecto multivariado estadísticamente significativo, lo que sugiere que la calidad basal del suelo modula las respuestas agronómicas evaluadas. Por su parte, la precipitación acumulada mostró un efecto significativo pero moderado, indicando que aunque influye, su impacto relativo es menor en comparación con los otros factores.
En conjunto, estos resultados confirman que los tratamientos aplicados y las condiciones edáficas y climáticas consideradas en el estudio tienen una incidencia multivariada clara y diferenciada sobre las variables de interés, respaldando la relevancia de considerar estos factores de forma conjunta al evaluar la respuesta del cultivo.
La hipertensión arterial es un problema de salud común que requiere un manejo adecuado para prevenir complicaciones cardiovasculares. Con el fin de evaluar la eficacia de un nuevo medicamento antihipertensivo, se administraron tres tipos de dosis (baja, media y alta) a pacientes atendidos en cuatro clínicas diferentes (Clínica A, B, C y D).
Se registraron como variables de respuesta la presión arterial sistólica y diastólica, además de considerar características individuales de los pacientes como la edad y el índice de masa corporal (IMC), que podrían influir en los resultados.
Este estudio busca identificar si existen diferencias significativas en los niveles de presión arterial según la dosis del medicamento administrado, controlando las diferencias propias de cada clínica y las características individuales de los pacientes.
Covariables:
Edad: Edad (en años) del paciente
IMC: Indice de Masa Corporal del paciente medida en kg/m²
Variables Dependientes
PAsistólica: Presión Arterial Sistólica del paciente medida en milímetro de mercurio (mmHg).
PAdiastólica: Presión Arterial Diastólica del paciente medida en milímetro de mercurio (mmHg).
Factor de Tratamiento:
## Tipo_Dosis Clínica Edad IMC PAsistólica PAdiastólica
## 1 Baja A 25 22 115 72
## 2 Media A 56 29 124 79
## 3 Alta A 68 31 129 84
## 4 Baja B 19 21 113 70
## 5 Media B 45 27 122 78
## 6 Alta B 64 30 128 83
## 'data.frame': 12 obs. of 6 variables:
## $ Tipo_Dosis : Factor w/ 3 levels "Alta","Baja",..: 2 3 1 2 3 1 2 3 1 2 ...
## $ Clínica : Factor w/ 4 levels "A","B","C","D": 1 1 1 2 2 2 3 3 3 4 ...
## $ Edad : num 25 56 68 19 45 64 33 48 70 29 ...
## $ IMC : num 22 29 31 21 27 30 24 28 32 23 ...
## $ PAsistólica : num 115 124 129 113 122 128 117 123 130 116 ...
## $ PAdiastólica: num 72 79 84 70 78 83 74 80 85 71 ...
##
## --- Prueba de Normalidad Multivariada: Nivel de dosis bajo ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.62978, p-value = 0.001241
##
## --- Prueba de Normalidad Multivariada: Nivel de dosis medio ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.78544, p-value = 0.07857
##
## --- Prueba de Normalidad Multivariada: Nivel de dosis alto ---
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 0.62978, p-value = 0.001241
Solo el Nivel de dosis medio presenta evidencia estadísticamente significativa de cumplir el supuesto de normalidad.
Los Niveles Medio y Alto NO cumplen con el supuesto de normalidad, esto puede deberse al número de registros que se tiene.
##
## Box's M-test for Homogeneity of Covariance Matrices
##
## data: datosc[, 5:6]
## Chi-Sq (approx.) = 3.3424, df = 6, p-value = 0.7648
Dado que el valor p es mayor que 0.05, no se rechaza la hipótesis nula de igualdad de matrices de covarianza. Esto indica que se cumple el supuesto de homogeneidad de covarianzas entre los grupos
##
## Ahmad 2017 Homogeneity of Covariance Matrices Test
##
## data: Baja, Media and Alta
## Standard Normal = 63.615, Mean = 0, Variance = 1, p-value < 2.2e-16
## alternative hypothesis: true difference in covariance matrices is not equal to 0
Dado que el valor p es extremadamente pequeño (p < 0.05), se rechaza la hipótesis nula de igualdad de matrices de covarianza entre los grupos. Esto indica que existen diferencias significativas en las matrices de covarianza de las variables dependientes (presión sistólica y diastólica) entre las distintas dosis del medicamento.
##
## Boxes' M Homogeneity of Covariance Matrices Test
##
## data: Alta, Baja and Media
## Chi-Squared = 4.9224, df = 20, p-value = 0.9998
## alternative hypothesis: true difference in covariance matrices is not equal to 0
Dado que el p-value es muy alto (p >> 0.05), no se rechaza la hipótesis nula. Esto sugiere que no hay evidencia de diferencias significativas en las matrices de covarianza entre los grupos, es decir, el supuesto de homogeneidad de covarianzas se cumple.
##
## Covariance matrix for GroupBaja
## PAsistólica PAdiastólica
## PAsistólica 2.92 2.42
## PAdiastólica 2.42 2.92
##
## Covariance matrix for GroupMedia
## PAsistólica PAdiastólica
## PAsistólica 1.67 1.33
## PAdiastólica 1.33 1.67
##
## Covariance matrix for GroupAlta
## PAsistólica PAdiastólica
## PAsistólica 1.67 2.17
## PAdiastólica 2.17 2.92
##
##
## Bartlett test of HOMOGENEITY of variances (parametric):
##
## Bartlett's K-squared =0.16 df =1 p value =0.6888
##
##
## Fligner-Killeen test of HOMOGENEITY of variances (non parametric):
##
## Fligner-Killeen chi-squared =0.291 df =1 p value =0.58948
##
##
## Pooled within groups covariance matrix from SPSS:
## PAsistólica PAdiastólica
## PAsistólica 2.083 1.972
## PAdiastólica 1.972 2.500
##
##
## Pooled within groups correlation matrix from SPSS:
## PAsistólica PAdiastólica
## PAsistólica 1.000 0.864
## PAdiastólica 0.864 1.000
##
##
## Box Test of equality of covariance matrices:
##
## Log determinants:
## Log Determinant
## Baja 0.981
## Media 0.000
## Alta -1.792
## Pooled 0.277
##
##
## M = 4.922 F = 0.555 df1 = 6 df2 = 2018.77 p = 0.76665
Pruebas de homogeneidad de varianzas univariadas
Estas evalúan si la varianza individual de las variables dependientes es igual entre los grupos (no la covarianza completa):
Bartlett’s test (paramétrico):
Fligner-Killeen test (no paramétrico):
Ambos indican que no hay diferencias significativas en las varianzas individuales de presión arterial entre los grupos de dosis.
Box’s M Test (multivariado)
M = 4.922, F = 0.555, p = 0.76665
Al igual que en las pruebas anteriores, el valor p es alto, por lo que no se rechaza la hipótesis nula de igualdad de matrices de covarianza.
## $chisq
## [1] 36.28115
##
## $p.value
## [1] 1.708079e-09
##
## $df
## [1] 1
El p-valor es muy bajo (p < 0.05), por lo que se rechaza la hipótesis nula.
Esto indica que la matriz de correlación no es una matriz identidad, es decir, existe una correlación significativa entre las variables dependientes.
Hay evidencia estadística suficiente para afirmar que las variables dependientes (PAsistólica y PAdiastólica) están correlacionadas.
## PAsistólica PAdiastólica
## PAsistólica 352.1667 306.4167
## PAdiastólica 306.4167 267.1667
## PAsistólica PAdiastólica
## PAsistólica 10.91667 13.83333
## PAdiastólica 13.83333 19.66667
## PAsistólica PAdiastólica
## PAsistólica 5.884804 3.082516
## PAdiastólica 3.082516 1.614651
## PAsistólica PAdiastólica
## PAsistólica 1.22331599 -0.045797287
## PAdiastólica -0.04579729 0.001714513
Las matrices X1 y X2 reflejan cuánta variabilidad se explica al controlar por edad e IMC.
La edad parece tener un ligero efecto, especialmente sobre la presión sistólica.
El IMC aporta muy poca variabilidad explicada; su efecto es mínimo o despreciable en este modelo. Existe una ligera relación inversa entre el IMC y una de las variables (posiblemente presión diastólica), lo que se refleja en un producto cruzado negativo.
## PAsistólica PAdiastólica
## PAsistólica 0.7252134 0.8799476
## PAdiastólica 0.8799476 1.2169674
## PAsistólica PAdiastólica
## PAsistólica 370.9167 324.1667
## PAdiastólica 324.1667 289.6667
## [1] 0.9547053
Esto indica que el 95.47% de la variabilidad multivariada en las variables dependientes (PAsistólica y PAdiastólica) se explica por las diferencias entre los niveles de dosis del medicamento, después de haber controlado por clínica, edad e IMC.
Es un valor muy alto, lo que sugiere que el tratamiento (dosis) tiene un efecto altamente explicativo en el modelo.
## Df Pillai approx F num Df den Df Pr(>F)
## Tipo_Dosis 2 1.70170 11.409 4 8 0.0021790 **
## Clínica 3 1.87168 19.448 6 8 0.0002288 ***
## Edad 1 0.96411 40.290 2 3 0.0068003 **
## IMC 1 0.93552 21.763 2 3 0.0163739 *
## Residuals 4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Dosis (Pillai = 1.7017, p = 0.0022):
El efecto conjunto de las distintas dosis (baja, media y alta) del
medicamento sobre la presión sistólica y diastólica es
estadísticamente significativo. Esto sugiere que
cambiar la dosis administrada puede generar diferencias conjuntas
importantes en ambas medidas de presión arterial. El valor alto de
Pillai indica una gran proporción de varianza explicada.
Clínica (Pillai = 1.8717, p = 0.0002):
También se observa un efecto significativo del factor bloque (clínica).
Esto significa que las condiciones clínicas (como infraestructura,
personal médico u otros factores no controlados) están influyendo de
manera importante sobre las medidas de presión arterial,
independientemente del tipo de dosis administrada.
Edad (Pillai = 0.9641, p = 0.0068):
La edad del paciente tiene un impacto estadísticamente significativo en
las presiones arteriales. Esto indica que, a mayor o menor edad, podrían
observarse patrones diferentes en la respuesta fisiológica del paciente,
incluso después de controlar por dosis y clínica.
IMC (Pillai = 0.9355, p = 0.0164):
El índice de masa corporal también presenta un efecto significativo
multivariado. Diferencias en el IMC de los pacientes pueden estar
asociadas a variaciones en sus niveles de presión arterial sistólica y
diastólica de forma conjunta.
## Df Wilks approx F num Df den Df Pr(>F)
## Tipo_Dosis 2 0.000388 74.677 4 6 3.009e-05 ***
## Clínica 3 0.004063 14.688 6 6 0.002348 **
## Edad 1 0.035894 40.290 2 3 0.006800 **
## IMC 1 0.064481 21.763 2 3 0.016374 *
## Residuals 4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Edad (Wilks = 0.035894, p = 0.0068):
Confirma que la edad es un predictor significativo. Su efecto sobre la presión puede estar mediado por factores fisiológicos relacionados con el envejecimiento, como rigidez arterial o comorbilidades, que impactan ambas variables.
## Df Hotelling-Lawley approx F num Df den Df Pr(>F)
## Tipo_Dosis 2 767.34 383.67 4 4 2.024e-05 ***
## Clínica 3 29.58 9.86 6 4 0.02208 *
## Edad 1 26.86 40.29 2 3 0.00680 **
## IMC 1 14.51 21.76 2 3 0.01637 *
## Residuals 4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Clínica (HL = 29.58, p = 0.0221):
Aunque con un valor numéricamente menor, el efecto sigue siendo
significativo. Indica que las diferencias entre las clínicas siguen
aportando a la variabilidad en las medidas cardiovasculares del
paciente.
Edad (HL = 26.86, p = 0.0068):
Edad continúa demostrando un impacto estadísticamente significativo.
Refleja que pacientes de diferentes edades tienen respuestas
fisiológicas distintas frente al mismo tratamiento.
## Df Roy approx F num Df den Df Pr(>F)
## Tipo_Dosis 2 764.97 1529.94 2 4 1.704e-06 ***
## Clínica 3 16.60 22.13 3 4 0.00594 **
## Edad 1 26.86 40.29 2 3 0.00680 **
## IMC 1 14.51 21.76 2 3 0.01637 *
## Residuals 4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tipo_Dosis (Roy = 764.97, p = 1.70e-06):
Roy identifica a Tipo_Dosis como el factor con mayor
influencia en la combinación de variables dependientes. El
valor extremadamente alto y el p-valor muy bajo indican que existe un
efecto dominante muy potente, lo cual refuerza los
hallazgos anteriores sobre la importancia clínica de ajustar bien la
dosis.
Clínica (Roy = 16.60, p = 0.0059):
Se reafirma el efecto significativo del entorno clínico. Si bien menos
dominante que el de la dosis, aún es relevante en la variabilidad
conjunta de las presiones arteriales.
El presente análisis multivariado permitió evaluar el efecto de distintos niveles de dosis sobre la presión arterial sistólica y diastólica, controlando por posibles efectos de confusión mediante un diseño de bloques completos al azar y la inclusión de covariables relevantes.
Los resultados de las pruebas multivariadas (Pillai, Wilks, Hotelling-Lawley y Roy) coincidieron de forma consistente en señalar que el tipo de dosis administrada tiene un efecto significativo y potente sobre las dos variables dependientes consideradas, lo cual respalda la eficacia diferencial del tratamiento según su intensidad o nivel.
Asimismo, se evidenció que el efecto del entorno clínico (bloque) también fue estadísticamente significativo, lo que sugiere que las condiciones particulares de cada clínica (recursos, personal, protocolo) pueden influir de manera considerable en la respuesta del paciente, incluso al recibir el mismo tratamiento.
Por otro lado, las covariables Edad e IMC también resultaron ser factores explicativos significativos. Esto confirma que existen diferencias fisiológicas asociadas a la edad y al estado nutricional que modulan la respuesta del paciente al tratamiento. En consecuencia, su inclusión en el modelo fue clave para evitar interpretaciones sesgadas y para mejorar la precisión de los efectos estimados.
Finalmente, la medida de bondad de ajuste obtenida (η² = 0.9547) indica que el modelo explica aproximadamente el 95.5% de la variabilidad conjunta de las variables dependientes, lo que representa un ajuste excelente y respalda la solidez del análisis.
library(car)
library(GGally)
library(MVN)
library(epiDisplay)
library(scales)
library(rgl)
library(psych)
library(hrbrthemes)
library(gganimate)
library(png)
library(gifski)
library (dplyr)
library(viridis)
library(tidyverse)
library(forcats)
library(BSDA)
library(dlookr)
library(ggpubr)
library(summarytools)
library(pastecs)
library(corrplot)
library(mvnormtest)
library(PerformanceAnalytics)
library(ggcorrplot)
library(ade4)
library(factoextra)
library(patchwork)
library (adegenet)
library(FactoMineR)
En el contexto universitario, evaluar el rendimiento académico de los estudiantes es fundamental para identificar patrones de aprendizaje, diferencias entre facultades y áreas que requieren intervención. Con el aumento del acceso a herramientas estadísticas avanzadas, se pueden analizar múltiples variables académicas de manera simultánea para obtener una comprensión más integral del desempeño estudiantil.
En este trabajo se ha simulado un conjunto de datos que representa a 300 estudiantes distribuidos en cuatro facultades: Ingeniería, Ciencias, Humanidades y Salud. Cada estudiante tiene registradas ocho variables académicas cuantitativas: Matemáticas, Ciencias, Lectura Crítica, Investigación, Inglés, Asistencia, Participación y Proyectos.
Se aplicará el Análisis de Componentes Principales (ACP) como técnica de reducción de dimensionalidad para explorar la estructura subyacente de estas variables, identificar patrones comunes y facilitar una posterior interpretación visual de los datos. Este análisis permitirá detectar grupos de variables que representan dimensiones latentes del rendimiento académico, así como contrastar el comportamiento entre facultades.
Reducir la dimensionalidad de las variables académicas de estudiantes universitarios mediante el Análisis de Componentes Principales (ACP) para identificar factores clave que expliquen las diferencias de rendimiento entre facultades.
La gran cantidad de variables que suelen medirse en evaluaciones académicas hace que el análisis individual sea complejo y propenso a redundancias. El ACP permite transformar este conjunto de variables en un número reducido de componentes no correlacionados, conservando la mayor parte de la información original. Esto resulta particularmente útil para identificar perfiles de estudiantes, realizar segmentaciones y apoyar la toma de decisiones educativas.
Además, la simulación de datos académicos con patrones diferenciados por facultad ofrece una oportunidad práctica para evaluar el comportamiento del ACP bajo escenarios realistas, fortaleciendo las habilidades estadísticas y analíticas en el contexto de la educación superior.
Variable | Tipo | Descripción |
---|---|---|
Facultad | Categórica | Facultad a la que pertenece el estudiante (Ingeniería, Ciencias, Humanidades, Salud) |
Matemáticas | Cuantitativa | Nota en el área de matemáticas |
Ciencias | Cuantitativa | Nota en ciencias aplicadas o naturales |
Lectura_Critica | Cuantitativa | Habilidad de lectura crítica |
Investigación | Cuantitativa | Habilidad en investigación académica |
Inglés | Cuantitativa | Nivel de dominio del idioma inglés |
Asistencia | Cuantitativa | Porcentaje de asistencia a clases |
Participación | Cuantitativa | Nivel de participación en clase |
Proyectos | Cuantitativa | Desempeño en proyectos académicos |
set.seed(123) # Para reproducibilidad
# Crear datos de 300 estudiantes de 4 facultades
datos_univ <- data.frame(
Facultad = sample(c("Ingeniería", "Ciencias", "Humanidades", "Salud"),
300, replace = TRUE,
prob = c(0.35, 0.25, 0.2, 0.2)),
Matematicas = round(rnorm(300, mean = 70, sd = 10), 1),
Ciencias = round(rnorm(300, mean = 75, sd = 8), 1),
Lectura_Critica = round(rnorm(300, mean = 65, sd = 12), 1),
Investigacion = round(rnorm(300, mean = 80, sd = 7), 1),
Ingles = round(rnorm(300, mean = 85, sd = 5), 1),
Asistencia = round(runif(300, min = 70, max = 100), 1),
Participacion = round(rnorm(300, mean = 75, sd = 8), 1),
Proyectos = round(rnorm(300, mean = 78, sd = 9), 1)
)
# Ajustar medias por facultad para crear patrones realistas
datos_univ <- datos_univ %>%
mutate(
Matematicas = case_when(
Facultad == "Ingeniería" ~ Matematicas + 8,
Facultad == "Humanidades" ~ Matematicas - 5,
TRUE ~ Matematicas
),
Lectura_Critica = case_when(
Facultad == "Humanidades" ~ Lectura_Critica + 10,
Facultad == "Ingeniería" ~ Lectura_Critica - 3,
TRUE ~ Lectura_Critica
),
Investigacion = case_when(
Facultad == "Ciencias" ~ Investigacion + 5,
TRUE ~ Investigacion
)
)
# Ajustar las notas superiores a 100
datos_univ <- datos_univ %>%
mutate(
Matematicas = ifelse(Matematicas > 100, 100, Matematicas),
Ciencias = ifelse(Ciencias > 100, 100, Ciencias),
Lectura_Critica = ifelse(Lectura_Critica > 100, 100, Lectura_Critica),
Investigacion = ifelse(Investigacion > 100, 100, Investigacion),
Ingles = ifelse(Ingles > 100, 100, Ingles),
Asistencia = ifelse(Asistencia > 100, 100, Asistencia),
Participacion = ifelse(Participacion > 100, 100, Participacion),
Proyectos = ifelse(Proyectos > 100, 100, Proyectos)
)
## Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1 Ingeniería 85.9 86.4 80.5 82.3 84.3
## 2 Humanidades 72.7 83.4 73.7 78.7 77.8
## 3 Ciencias 73.3 78.5 71.1 88.3 81.0
## 4 Salud 59.9 80.7 67.6 73.3 89.4
## 5 Salud 68.8 82.3 62.8 88.1 89.5
## 6 Ingeniería 75.2 53.7 60.6 84.1 95.0
## Asistencia Participacion Proyectos
## 1 70.5 64.7 76.2
## 2 79.3 69.8 81.5
## 3 82.9 74.5 85.1
## 4 86.9 85.1 76.7
## 5 97.6 87.7 82.1
## 6 85.5 77.6 67.7
## 'data.frame': 300 obs. of 9 variables:
## $ Facultad : chr "Ingeniería" "Humanidades" "Ciencias" "Salud" ...
## $ Matematicas : num 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
## $ Ciencias : num 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
## $ Lectura_Critica: num 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
## $ Investigacion : num 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
## $ Ingles : num 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
## $ Asistencia : num 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
## $ Participacion : num 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
## $ Proyectos : num 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
# Separar variable categórica (Facultad) y datos para ACP
datos_acp <- datos_univ[, -1]
facultad <- datos_univ$Facultad
# Verificar valores perdidos
per.miss.col <- 100*colSums(is.na(datos_acp))/nrow(datos_acp)
per.miss.col
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 0 0 0 0 0
## Asistencia Participacion Proyectos
## 0 0 0
# Función para detectar outliers
is_outlier2 <- function(x, k = 2) {
return(abs(scale(x)) > k)
}
# Aplicar a cada variable
for(var in colnames(datos_acp)) {
cat("\nOutliers en", var, ":\n")
print(datos_acp[is_outlier2(datos_acp[[var]]), ])
}
##
## Outliers en Matematicas :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 14 100.0 71.9 44.7 92.3 88.8 95.7
## 46 98.0 64.1 71.8 83.1 78.9 93.1
## 51 100.0 70.2 66.3 86.4 79.6 97.5
## 81 97.6 79.8 74.7 83.4 88.9 94.3
## 96 97.0 81.9 61.7 74.8 79.1 97.2
## 131 48.3 72.5 80.7 80.9 91.6 80.3
## 147 96.7 74.0 64.9 75.4 89.5 73.9
## 160 98.4 68.2 65.1 82.1 89.5 74.9
## 163 47.7 88.5 76.2 81.9 88.8 71.9
## 210 100.0 76.0 73.5 80.5 87.6 95.1
## 221 100.0 70.9 62.7 86.2 91.6 74.3
## 242 43.4 84.5 62.1 92.4 85.6 97.2
## 256 48.5 79.7 87.5 84.5 84.0 95.3
## 266 43.6 84.0 67.2 88.1 77.0 99.2
## 300 48.6 78.0 75.7 82.1 83.5 86.8
## Participacion Proyectos
## 14 72.2 80.5
## 46 68.2 72.1
## 51 54.0 82.5
## 81 74.6 87.1
## 96 68.1 89.1
## 131 73.4 68.9
## 147 69.8 81.8
## 160 90.7 80.8
## 163 72.2 71.0
## 210 70.5 61.6
## 221 76.0 66.2
## 242 80.2 73.2
## 256 78.2 83.6
## 266 70.5 78.9
## 300 76.8 85.9
##
## Outliers en Ciencias :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## 58 59.1 58.4 100.0 80.6 91.8 89.6
## 99 63.4 94.4 84.4 81.2 87.8 85.1
## 141 89.7 52.5 50.1 77.8 88.8 88.1
## 166 77.0 54.2 78.2 90.8 87.7 97.2
## 180 70.1 91.7 70.2 87.5 88.2 98.7
## 215 86.2 57.0 63.2 80.5 82.4 87.3
## 240 73.5 58.4 84.9 77.5 88.3 73.6
## 246 80.0 94.7 73.9 80.8 85.6 99.2
## 293 84.6 94.1 60.9 75.9 93.1 86.5
## 296 71.7 57.3 52.8 74.4 82.1 97.1
## 297 74.4 96.5 49.2 71.8 75.6 90.2
## 299 57.5 94.0 83.0 74.0 89.8 74.5
## Participacion Proyectos
## 6 77.6 67.7
## 58 79.4 67.0
## 99 72.8 79.5
## 141 85.4 70.5
## 166 82.6 83.1
## 180 81.3 76.1
## 215 72.8 68.0
## 240 72.5 79.7
## 246 70.8 77.2
## 293 66.6 84.6
## 296 69.6 67.0
## 297 67.3 83.7
## 299 80.9 90.4
##
## Outliers en Lectura_Critica :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 26 54.0 76.2 97.5 76.8 88.1 86.1
## 38 78.8 70.4 38.5 86.4 85.6 88.2
## 39 85.5 88.0 39.4 76.8 88.6 98.4
## 58 59.1 58.4 100.0 80.6 91.8 89.6
## 84 57.6 76.0 93.2 73.1 87.0 74.1
## 92 60.0 71.3 100.0 77.7 91.9 78.6
## 161 83.0 71.8 95.9 86.4 83.8 98.4
## 168 65.4 69.6 38.9 69.6 88.4 83.3
## 179 83.4 63.9 94.9 82.8 84.0 88.6
## 198 59.3 72.4 99.1 83.8 88.1 89.0
## 222 53.5 72.6 39.7 84.3 81.5 87.2
## 231 65.3 78.1 100.0 76.6 80.9 73.4
## 255 76.7 64.1 34.4 88.0 76.4 84.6
## 258 77.6 67.8 94.0 85.8 89.9 70.5
## 261 74.9 83.5 98.6 89.4 90.7 88.0
## 262 72.7 73.3 99.0 76.5 89.5 83.3
## 290 77.4 83.2 96.9 76.9 87.1 72.7
## Participacion Proyectos
## 26 82.0 89.4
## 38 86.0 68.5
## 39 86.2 81.5
## 58 79.4 67.0
## 84 68.8 87.8
## 92 85.5 73.5
## 161 63.6 77.7
## 168 64.8 70.4
## 179 69.7 81.5
## 198 77.2 75.6
## 222 83.9 59.9
## 231 66.3 88.7
## 255 74.9 88.5
## 258 79.8 76.0
## 261 83.9 81.6
## 262 67.1 85.2
## 290 68.6 81.2
##
## Outliers en Investigacion :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 63 82.3 82.1 64.1 100.0 79.2 93.9
## 76 78.6 79.4 54.9 100.0 92.9 97.1
## 116 93.5 75.8 92.6 65.9 84.0 88.5
## 142 80.5 78.7 71.7 99.5 79.5 91.7
## 167 63.9 71.4 92.3 64.8 83.6 94.5
## 173 56.6 81.8 64.6 64.8 82.0 93.8
## 234 67.4 67.0 55.8 63.8 87.2 90.5
## 239 73.6 72.4 49.3 66.1 93.8 84.9
## 272 80.9 61.2 60.0 66.0 100.0 89.4
## 274 90.7 62.8 72.8 100.0 92.1 99.9
## Participacion Proyectos
## 63 63.8 68.4
## 76 83.5 73.6
## 116 84.8 74.6
## 142 68.5 78.5
## 167 82.0 81.4
## 173 73.2 87.3
## 234 81.6 68.9
## 239 83.7 76.4
## 272 72.6 71.6
## 274 69.9 92.8
##
## Outliers en Ingles :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 36 68.0 81.2 57.9 77.8 75.2 73.8
## 85 72.3 90.6 59.7 72.8 71.5 73.2
## 87 68.2 84.3 44.0 74.6 74.2 98.8
## 98 64.4 80.1 74.5 88.4 75.0 88.2
## 139 67.8 79.7 55.8 90.1 96.1 86.1
## 144 72.2 72.7 83.9 81.1 96.4 85.8
## 156 73.3 73.3 57.5 92.7 95.6 81.1
## 241 63.5 74.3 73.1 89.6 74.3 76.9
## 249 57.4 78.4 58.7 79.6 73.8 70.6
## 257 74.5 77.3 65.0 71.5 97.4 84.8
## 272 80.9 61.2 60.0 66.0 100.0 89.4
## 281 63.1 88.9 60.6 74.8 74.5 91.9
## 297 74.4 96.5 49.2 71.8 75.6 90.2
## Participacion Proyectos
## 36 81.6 76.5
## 85 79.0 78.0
## 87 85.3 70.4
## 98 74.3 69.7
## 139 57.0 79.9
## 144 73.7 75.1
## 156 72.3 86.1
## 241 75.4 73.3
## 249 69.2 68.2
## 257 74.4 84.7
## 272 72.6 71.6
## 281 65.0 68.7
## 297 67.3 83.7
##
## Outliers en Asistencia :
## [1] Matematicas Ciencias Lectura_Critica Investigacion
## [5] Ingles Asistencia Participacion Proyectos
## <0 rows> (o 0- extensión row.names)
##
## Outliers en Participacion :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 51 100.0 70.2 66.3 86.4 79.6 97.5
## 53 62.3 83.2 85.3 73.4 88.6 94.3
## 77 63.0 84.9 60.6 84.6 85.0 72.7
## 106 69.1 63.3 57.8 80.8 87.6 76.7
## 111 64.8 68.3 75.9 83.6 80.7 74.1
## 121 73.5 82.7 61.3 82.7 83.5 74.3
## 139 67.8 79.7 55.8 90.1 96.1 86.1
## 150 77.5 89.9 77.9 82.6 84.2 77.1
## 209 53.3 81.2 44.9 79.2 79.7 90.3
## 223 60.4 78.2 57.0 82.9 81.3 71.5
## 269 83.4 78.0 65.4 88.9 90.2 87.4
## 278 70.1 76.5 82.0 80.1 93.4 72.9
## 286 59.2 79.2 51.4 72.0 83.0 78.3
## Participacion Proyectos
## 51 54.0 82.5
## 53 93.2 82.3
## 77 94.3 76.6
## 106 54.2 72.1
## 111 94.6 79.0
## 121 56.3 76.3
## 139 57.0 79.9
## 150 97.5 64.1
## 209 91.4 73.9
## 223 91.5 82.5
## 269 58.5 88.3
## 278 57.6 96.6
## 286 56.4 81.6
##
## Outliers en Proyectos :
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 35 75.6 80.7 46.2 84.6 88.2 95.4
## 40 73.0 72.0 54.2 67.8 79.1 87.4
## 43 70.9 85.4 75.6 89.0 90.3 95.3
## 57 70.1 67.8 61.1 73.1 87.9 79.6
## 72 71.2 74.1 83.9 69.9 90.2 89.6
## 101 66.2 81.8 71.7 84.6 94.3 82.7
## 124 64.0 77.6 72.8 81.2 84.3 86.0
## 146 78.7 65.8 53.6 81.2 86.1 72.4
## 154 67.5 62.9 81.7 74.8 88.1 77.5
## 183 57.8 79.3 75.0 78.9 84.9 78.7
## 207 74.1 83.2 67.6 77.3 87.1 73.9
## 222 53.5 72.6 39.7 84.3 81.5 87.2
## 251 77.3 69.2 50.1 74.8 83.6 97.7
## 267 77.1 81.7 64.7 75.2 85.0 75.3
## 278 70.1 76.5 82.0 80.1 93.4 72.9
## 283 73.0 59.5 53.5 83.0 78.5 74.3
## Participacion Proyectos
## 35 74.7 55.4
## 40 65.9 60.3
## 43 74.0 58.2
## 57 86.8 57.7
## 72 88.3 60.5
## 101 87.3 98.5
## 124 75.2 57.3
## 146 81.5 59.2
## 154 73.1 60.2
## 183 70.2 55.1
## 207 60.5 97.8
## 222 83.9 59.9
## 251 73.4 60.7
## 267 73.7 100.0
## 278 57.6 96.6
## 283 77.0 52.4
# Outliers multivariados
outliers <- mvn(data = datos_acp, mvnTest = "hz",
multivariateOutlierMethod = "quan")
Chi-Square Q-Q Plot (chi cuadrado):
tabla_facultad <- table(datos_univ$Facultad)
pp_facultad <- round(prop.table(tabla_facultad) * 100, 1)
barplot(pp_facultad,
ylab = "Porcentaje (%)",
xlab = "Facultad",
col = c('green3', 'blue', 'firebrick', 'purple'),
main = "Proporción de estudiantes por Facultad",
cex.names = 0.75)
facultad_colores <- c("Ingeniería" = "firebrick", "Ciencias" = "green3", "Humanidades" = "blue", "Salud" = "purple")
mi_tabla <- table(datos_univ$Facultad)
mi_tabla1 <- prop.table(mi_tabla) * 100
df <- data.frame(categorias = names(mi_tabla),
porcentaje = mi_tabla1)
df <- df[, c("categorias", "porcentaje.Freq")]
ggplot(df, aes(x = "", y = porcentaje.Freq, fill = categorias)) +
geom_bar(stat = "identity", color = "white") +
geom_text(aes(label = paste0(round(porcentaje.Freq, 1), "%")),
position = position_stack(vjust = 0.5), color = "white", size = 6) +
coord_polar(theta = "y") +
labs(title = "Proporción de estudiantes por Facultad") +
scale_fill_manual(values = facultad_colores) +
theme_void() # Elimina los ejes y marcas para que se vea como un gráfico de pie
Del grafico se observa que:
- Ingeniería tiene la mayor representación (34%),seguido de Ciencias
(27%); y Salud posee la menor representacion (18.7%).
datos_univ$Facultad <- factor(datos_univ$Facultad, levels = c("Ingeniería", "Ciencias", "Humanidades", "Salud"))
facultad_colores <- c("Ingeniería" = "firebrick", "Ciencias" = "green3", "Humanidades" = "blue", "Salud" = "purple")
plot3d(datos_univ$Matematicas, datos_univ$Ciencias, datos_univ$Ingles,
type = "s", col = facultad_colores[datos_univ$Facultad], size = 2)
legend3d("topright", legend = names(facultad_colores), pch = 16,
col = facultad_colores)
Se puede observar que
- Para el curso Matematicas, hay una mayor concetracion de puntos
rojos(estudiantes de Ingenieria), hacia notas mas altas; a comparacion
de los puntos azules (estudiantes de Humanidades) que tienen a estar mas
concetrados en notas mas bajas.
Valores numéricos entre -1 y 1:
- Cercano a +1: Correlación positiva fuerte.
- Cercano a -1: Correlación negativa fuerte.
- Cercano a 0: Sin correlación.
pairs(x = datos_univ[, -1],
col = c("firebrick", "green3", "blue", "purple")[as.numeric(datos_univ$Facultad)],
pch = 20,
main = "Gráfico de dispersión con colores por Facultad")
p2 <- datos_univ %>%
ggplot(aes(x = Facultad, y = Matematicas, fill = Facultad)) +
geom_boxplot() +
scale_fill_viridis(discrete = TRUE, alpha = 0.6) +
geom_jitter(color = "darkgray", size = 0.5, alpha = 0.9) +
theme_ipsum() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold")
) +
ggtitle("Boxplot de Matemáticas por Facultad") +
xlab("Facultad") +
ylab("Nota en Matemáticas")
print(p2)
Segun los BOXPLOTS:
datos_univ %>%
group_by(Facultad) %>%
summarise(
min = min(Matematicas),
q1 = quantile(Matematicas, 0.25),
mediana = median(Matematicas),
q3 = quantile(Matematicas, 0.75),
max = max(Matematicas),
media = mean(Matematicas),
sd = sd(Matematicas)
)
## # A tibble: 4 × 8
## Facultad min q1 mediana q3 max media sd
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Ingeniería 53.3 72.5 79.5 85.4 100 79.3 10.2
## 2 Ciencias 43.6 64 69.5 74.1 100 69.6 9.26
## 3 Humanidades 43.4 57.8 62.9 71.2 87.9 63.5 9.17
## 4 Salud 50.1 65.2 71.3 78.5 94 71.0 10.4
hist(datos_univ$Matematicas,
col = "steelblue",
main = "Distribución de Notas en Matemáticas",
xlab = "Notas en Matemáticas",
ylab = "Frecuencia")
Se puede observar que
- Para el curso Matematicas, la barra mas alta se encuentra en las notas
70 - 75;lo que indica un buen desempeño general en Matemáticas.
dens <- density(datos_univ$Matematicas)
plot(dens,
main = "Curva de Densidad - Matemáticas",
xlab = "Nota en Matemáticas",
ylab = "Densidad",
col = "#000000",
lwd = 2)
Se puede observar que
- Para el curso Matematicas, la curva de densidad muestra un pico entre
60-70, lo que indica que la mayoría de los estudiantes tienen un
desempeño medio - alto. Esto sugiere que el curso de Matemáticas está
bien comprendido por la mayoría.
nombres_vars <- colnames(datos_univ[, -1])
multi.hist(x = datos_univ[, -1], # Excluye 'Facultad'
dcol = c("blue", "red"),
dlty = c("dotted", "solid"),
main = nombres_vars)
Histograma de densidades:
data <- datos_univ[, -1] # Quitamos la variable Facultad para trabajar solo con las numéricas
head(data)
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
data <- data %>%
gather(key = "text", value = "value") %>%
mutate(text = gsub("\\.", " ", text)) %>%
mutate(value = round(as.numeric(value), 0))
p <- data %>%
mutate(text = fct_reorder(text, value)) %>%
ggplot(aes(x = value, color = text, fill = text)) +
geom_histogram(alpha = 0.6, binwidth = 5) +
scale_fill_viridis(discrete = TRUE) +
scale_color_viridis(discrete = TRUE) +
theme_ipsum() +
theme(
legend.position = "none",
panel.spacing = unit(0.1, "lines"),
strip.text.x = element_text(size = 8),
plot.title = element_text(hjust = 0.5, size = 14, face = "bold") # centrar y destacar el título
) +
xlab("Nota") +
ylab("Frecuencia de estudiantes") +
ggtitle("Distribución de Notas por Variable Académica") +
facet_wrap(~text) # Un gráfico por variable
p
Se puede observar que
- Para los cursos Asitencia e Ingles ,muestran una distribución sesgada
hacia notas altas (70-90), lo que indica que la mayoría de los
estudiantes cumplen con estos requisitos sin dificultad. - Para los
cursos Investigacion y Proyectos ,muestran una distribución más
equilibrada (pico cerca de 70), lo que indica que los estudiantes tienen
resultados mixtos, pero con tendencia al desempeño aceptable.
## [1] "datos_univ$Matematicas"
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 300.000 0.000 43.400 64.175 71.912 71.700 71.794 79.950
## Max. Stdev. Var. SE Mean I.Q.R. Range Kurtosis Skewness
## 100.000 11.384 129.596 0.657 15.775 56.600 -0.240 0.148
## SW p-val
## 0.257
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
## Matematicas Ciencias Lectura_Critica Investigacion
## Min. : 43.40 Min. :52.50 Min. : 34.40 Min. : 63.80
## 1st Qu.: 64.33 1st Qu.:69.67 1st Qu.: 57.98 1st Qu.: 75.97
## Median : 71.70 Median :75.55 Median : 65.90 Median : 80.80
## Mean : 71.91 Mean :75.14 Mean : 66.62 Mean : 81.16
## 3rd Qu.: 79.85 3rd Qu.:80.70 3rd Qu.: 74.90 3rd Qu.: 86.40
## Max. :100.00 Max. :96.50 Max. :100.00 Max. :100.00
## Ingles Asistencia Participacion Proyectos
## Min. : 71.50 Min. :70.00 Min. :54.00 Min. : 52.40
## 1st Qu.: 82.10 1st Qu.:77.70 1st Qu.:69.70 1st Qu.: 72.17
## Median : 85.80 Median :85.55 Median :74.70 Median : 77.60
## Mean : 85.42 Mean :85.28 Mean :75.05 Mean : 77.49
## 3rd Qu.: 88.83 3rd Qu.:92.12 3rd Qu.:80.92 3rd Qu.: 83.03
## Max. :100.00 Max. :99.90 Max. :97.50 Max. :100.00
## Descriptive Statistics
## datos_acp
## N: 300
##
## Asistencia Ciencias Ingles Investigacion Lectura_Critica Matematicas
## ----------------- ------------ ---------- -------- --------------- ----------------- -------------
## Mean 85.28 75.14 85.42 81.16 66.62 71.91
## Std.Dev 8.45 8.00 4.87 7.14 13.23 11.38
## Min 70.00 52.50 71.50 63.80 34.40 43.40
## Q1 77.70 69.65 82.10 75.95 57.95 64.25
## Median 85.55 75.55 85.80 80.80 65.90 71.70
## Q3 92.15 80.70 88.85 86.40 74.90 79.90
## Max 99.90 96.50 100.00 100.00 100.00 100.00
## MAD 10.90 8.08 5.04 7.86 12.75 11.34
## IQR 14.42 11.02 6.72 10.43 16.93 15.52
## CV 0.10 0.11 0.06 0.09 0.20 0.16
## Skewness -0.04 -0.13 -0.16 0.06 0.22 0.15
## SE.Skewness 0.14 0.14 0.14 0.14 0.14 0.14
## Kurtosis -1.14 -0.09 -0.22 -0.36 -0.13 -0.24
## N.Valid 300.00 300.00 300.00 300.00 300.00 300.00
## N 300.00 300.00 300.00 300.00 300.00 300.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Participacion Proyectos
## ----------------- --------------- -----------
## Mean 75.05 77.49
## Std.Dev 8.08 8.38
## Min 54.00 52.40
## Q1 69.70 72.15
## Median 74.70 77.60
## Q3 80.95 83.05
## Max 97.50 100.00
## MAD 8.60 8.08
## IQR 11.23 10.85
## CV 0.11 0.11
## Skewness -0.02 -0.18
## SE.Skewness 0.14 0.14
## Kurtosis -0.29 0.03
## N.Valid 300.00 300.00
## N 300.00 300.00
## Pct.Valid 100.00 100.00
Observaciones:
Variabilidad:
Lectura_Critica tiene la desviación estándar más alta (13.23), es decir, mayor dispersión en los puntajes.
Inglés tiene una desviación estándar baja (4.87), lo que sugiere que la mayoría rinde de forma más homogénea.
Skewness (Sesgo):
Variable | Skewness | Interpretación |
---|---|---|
Asistencia | -0.04 | Muy cerca de 0 ⇒ distribución simétrica |
Ciencias | -0.13 | Ligero sesgo negativo ⇒ leve cola hacia la izquierda |
Inglés | -0.16 | Ligero sesgo negativo |
Investigación | 0.06 | Ligero sesgo positivo ⇒ leve cola hacia la derecha |
Lectura Crítica | 0.22 | Moderado sesgo positivo |
Matemáticas | 0.15 | Ligero sesgo positivo |
Participación | -0.02 | Muy cerca de 0 ⇒ simétrica |
Proyectos | -0.18 | Ligero sesgo negativo |
La mayoría de las variables no presentan un sesgo fuerte: esto es favorable, ya que implica que los datos están razonablemente bien distribuidos en torno a su media.
Sesgo positivo (Lectura Crítica, Investigación, Matemáticas) indica que hay algunos estudiantes con notas bastante altas que “alargan” la cola derecha de la distribución.
Sesgo negativo (Ciencias, Proyectos, Inglés, Participación) indica que hay algunos estudiantes con notas bastante bajas que “alargan” la cola izquierda.
Kurtosis:
Variable | Kurtosis | Interpretación |
---|---|---|
Asistencia | -1.14 | Platicúrtica (menos valores extremos) |
Ciencias | -0.09 | Casi mesocúrtica |
Inglés | -0.22 | Ligeramente platicúrtica |
Investigación | -0.36 | Ligeramente platicúrtica |
Lectura Crítica | -0.13 | Casi mesocúrtica |
Matemáticas | -0.24 | Ligeramente platicúrtica |
Participación | -0.29 | Ligeramente platicúrtica |
Proyectos | 0.03 | Muy cerca de mesocúrtica |
Tus variables no presentan curtosis alta: no hay
una concentración inusual de valores extremos.
La mayoría son platicúrticas (colas más planas),
lo que sugiere menos outliers de lo normal.
Esto es bueno en general, porque los datos parecen estables y sin valores atípicos fuertes que puedan distorsionar el ACP.
Calculamos las medidas muestrales de asimetría y curtosis estandarizadas para la variable Matemáticas, obteniéndose como resultados los siguientes:
X=datos_acp$Matematicas
Xbar=mean(datos_acp$Matematicas)
Sd=sd(X)
mean(((X-Xbar)/Sd)^3)# Asimetria Muestral
## [1] 0.147895
## [1] -0.2404275
Asimetría Muestral = 0.148
Ligeramente sesgada hacia la derecha (más estudiantes con notas un poco más altas).
Curtosis Muestral = -0.24
Ligeramente platicúrtica (menos extremos o outliers que una distribución normal)
En este caso estamos seleccionando las variables Matemáticas e Investigación:
## Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1 Ingeniería 85.9 86.4 80.5 82.3 84.3
## 2 Humanidades 72.7 83.4 73.7 78.7 77.8
## 3 Ciencias 73.3 78.5 71.1 88.3 81.0
## 4 Salud 59.9 80.7 67.6 73.3 89.4
## 5 Salud 68.8 82.3 62.8 88.1 89.5
## 6 Ingeniería 75.2 53.7 60.6 84.1 95.0
## Asistencia Participacion Proyectos
## 1 70.5 64.7 76.2
## 2 79.3 69.8 81.5
## 3 82.9 74.5 85.1
## 4 86.9 85.1 76.7
## 5 97.6 87.7 82.1
## 6 85.5 77.6 67.7
## Descriptive Statistics
## Matematicas by Facultad
## Data Frame: datos_univ
## N: 300
##
## Ingeniería Ciencias Humanidades Salud
## ----------------- ------------ ---------- ------------- --------
## Mean 79.27 69.58 63.50 71.04
## Std.Dev 10.23 9.26 9.17 10.39
## Min 53.30 43.60 43.40 50.10
## Q1 72.40 64.00 57.80 65.10
## Median 79.50 69.50 62.90 71.30
## Q3 85.50 74.10 71.20 78.55
## Max 100.00 100.00 87.90 94.00
## MAD 9.79 8.01 7.86 10.16
## IQR 12.90 10.10 13.40 13.28
## CV 0.13 0.13 0.14 0.15
## Skewness -0.04 0.14 0.22 0.08
## SE.Skewness 0.24 0.27 0.31 0.32
## Kurtosis -0.36 0.89 -0.24 -0.55
## N.Valid 102.00 81.00 61.00 56.00
## N 102.00 81.00 61.00 56.00
## Pct.Valid 100.00 100.00 100.00 100.00
## Descriptive Statistics
## Investigacion by Facultad
## Data Frame: datos_univ
## N: 300
##
## Ingeniería Ciencias Humanidades Salud
## ----------------- ------------ ---------- ------------- --------
## Mean 79.39 85.15 79.45 80.50
## Std.Dev 7.40 6.56 5.89 6.58
## Min 63.80 68.40 64.80 64.80
## Q1 74.80 81.20 75.50 74.70
## Median 79.05 86.30 79.20 79.75
## Q3 84.10 89.20 82.90 85.35
## Max 100.00 100.00 92.40 93.30
## MAD 6.67 6.38 5.49 7.71
## IQR 9.12 8.00 7.40 10.57
## CV 0.09 0.08 0.07 0.08
## Skewness 0.33 -0.37 -0.03 0.11
## SE.Skewness 0.24 0.27 0.31 0.32
## Kurtosis 0.06 -0.07 -0.23 -0.90
## N.Valid 102.00 81.00 61.00 56.00
## N 102.00 81.00 61.00 56.00
## Pct.Valid 100.00 100.00 100.00 100.00
Respecto a la variable Matemáticas:
Facultad | Media | Asimetría | Curtosis | Comentario |
---|---|---|---|---|
Ingeniería | 79.27 | -0.04 | -0.36 | Alta media, distribución simétrica y ligeramente plana. |
Ciencias | 69.58 | 0.14 | 0.89 | Media moderada, ligera asimetría a la derecha, distribución algo más concentrada (leptocúrtica). |
Humanidades | 63.50 | 0.22 | -0.24 | Media baja, leve sesgo a la derecha, distribución algo plana. |
Salud | 71.04 | 0.08 | -0.55 | Media media, muy leve asimetría y curtosis platicúrtica. |
Ingeniería destaca con la media más alta.
Humanidades tiene las notas más bajas en Matemáticas.
Ninguna distribución muestra problemas severos de asimetría o
curtosis.
Respecto a la variable Investigación:
Facultad | Media | Asimetría | Curtosis | Comentario |
---|---|---|---|---|
Ingeniería | 79.39 | 0.33 | 0.06 | Buena media, leve asimetría a la derecha, curtosis cercana a normal. |
Ciencias | 85.15 | -0.37 | -0.07 | Mayor media, leve asimetría a la izquierda, curtosis casi normal. |
Humanidades | 79.45 | -0.03 | -0.23 | Media igual a Ingeniería, muy simétrica, distribución un poco más plana. |
Salud | 80.50 | 0.11 | -0.90 | Media intermedia, distribución ligeramente simétrica y claramente platicúrtica. |
Ciencias presenta la media más alta en
Investigación. En general, todas las facultades muestran distribuciones
bastante simétricas y sin extremos preocupantes de curtosis.
## # A tibble: 8 × 26
## described_variables n na mean sd se_mean IQR skewness kurtosis
## <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Matematicas 300 0 71.9 11.4 0.657 15.5 0.149 -0.205
## 2 Ciencias 300 0 75.1 8.00 0.462 11.0 -0.129 -0.0547
## 3 Lectura_Critica 300 0 66.6 13.2 0.764 16.9 0.227 -0.0952
## 4 Investigacion 300 0 81.2 7.14 0.412 10.4 0.0636 -0.323
## 5 Ingles 300 0 85.4 4.87 0.281 6.72 -0.160 -0.185
## 6 Asistencia 300 0 85.3 8.45 0.488 14.4 -0.0395 -1.12
## 7 Participacion 300 0 75.1 8.08 0.467 11.2 -0.0171 -0.257
## 8 Proyectos 300 0 77.5 8.38 0.484 10.8 -0.177 0.0722
## # ℹ 17 more variables: p00 <dbl>, p01 <dbl>, p05 <dbl>, p10 <dbl>, p20 <dbl>,
## # p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>,
## # p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## nbr.val 300.00 300.00 300.00 300.00 300.00
## nbr.null 0.00 0.00 0.00 0.00 0.00
## nbr.na 0.00 0.00 0.00 0.00 0.00
## min 43.40 52.50 34.40 63.80 71.50
## max 100.00 96.50 100.00 100.00 100.00
## range 56.60 44.00 65.60 36.20 28.50
## sum 21573.70 22542.60 19985.30 24348.60 25626.20
## median 71.70 75.55 65.90 80.80 85.80
## mean 71.91 75.14 66.62 81.16 85.42
## SE.mean 0.66 0.46 0.76 0.41 0.28
## CI.mean.0.95 1.29 0.91 1.50 0.81 0.55
## var 129.60 63.95 175.09 50.98 23.76
## std.dev 11.38 8.00 13.23 7.14 4.87
## coef.var 0.16 0.11 0.20 0.09 0.06
## Asistencia Participacion Proyectos
## nbr.val 300.00 300.00 300.00
## nbr.null 0.00 0.00 0.00
## nbr.na 0.00 0.00 0.00
## min 70.00 54.00 52.40
## max 99.90 97.50 100.00
## range 29.90 43.50 47.60
## sum 25584.00 22516.30 23247.40
## median 85.55 74.70 77.60
## mean 85.28 75.05 77.49
## SE.mean 0.49 0.47 0.48
## CI.mean.0.95 0.96 0.92 0.95
## var 71.46 65.31 70.24
## std.dev 8.45 8.08 8.38
## coef.var 0.10 0.11 0.11
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## median 71.70 75.55 65.90 80.80 85.80
## mean 71.91 75.14 66.62 81.16 85.42
## SE.mean 0.66 0.46 0.76 0.41 0.28
## CI.mean.0.95 1.29 0.91 1.50 0.81 0.55
## var 129.60 63.95 175.09 50.98 23.76
## std.dev 11.38 8.00 13.23 7.14 4.87
## coef.var 0.16 0.11 0.20 0.09 0.06
## Asistencia Participacion Proyectos
## median 85.55 74.70 77.60
## mean 85.28 75.05 77.49
## SE.mean 0.49 0.47 0.48
## CI.mean.0.95 0.96 0.92 0.95
## var 71.46 65.31 70.24
## std.dev 8.45 8.08 8.38
## coef.var 0.10 0.11 0.11
Resumen:
Se analizaron 8 variables académicas con 300 observaciones cada una.
No se encontraron datos faltantes ni valores nulos.
Las medias varían entre 66.6 (Lectura Crítica) y 85.4 (Inglés).
Las variables más dispersas fueron Lectura Crítica y Matemáticas (mayor desviación estándar y coeficiente de variación).
Rango de valores amplio pero razonable en todas las variables.
Medias y medianas similares, lo que sugiere distribuciones aproximadamente simétricas.
Se calcularon errores estándar y rangos de confianza al 95% para cada media.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 129.596 -6.526 -14.782 1.095 -0.849
## Ciencias -6.526 63.946 7.546 -0.172 -2.854
## Lectura_Critica -14.782 7.546 175.093 0.745 7.007
## Investigacion 1.095 -0.172 0.745 50.981 -0.597
## Ingles -0.849 -2.854 7.007 -0.597 23.762
## Asistencia 3.805 -0.485 -14.809 -5.729 -0.500
## Participacion -4.562 -4.387 -3.979 3.306 0.826
## Proyectos 6.313 6.504 5.144 5.587 1.835
## Asistencia Participacion Proyectos
## Matematicas 3.8055 -4.562 6.3133
## Ciencias -0.4850 -4.387 6.5035
## Lectura_Critica -14.8088 -3.979 5.1437
## Investigacion -5.7288 3.306 5.5873
## Ingles -0.5001 0.826 1.8349
## Asistencia 71.4577 -3.170 -0.0973
## Participacion -3.1702 65.315 -2.6965
## Proyectos -0.0973 -2.696 70.2383
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 129.6 63.9 175.1 51.0 23.8
## Asistencia Participacion Proyectos
## 71.5 65.3 70.2
## [1] 650
Si observamos la salida de cov(datos_acp)
:
Valores positivos fuera de la diagonal indican covarianzas directas (cuando una variable aumenta, la otra tiende a aumentar).
Valores negativos fuera de la diagonal indican covarianzas inversas (cuando una variable aumenta, la otra tiende a disminuir).
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.000 -0.072 -0.098 0.013 -0.015
## Ciencias -0.072 1.000 0.071 -0.003 -0.073
## Lectura_Critica -0.098 0.071 1.000 0.008 0.109
## Investigacion 0.013 -0.003 0.008 1.000 -0.017
## Ingles -0.015 -0.073 0.109 -0.017 1.000
## Asistencia 0.040 -0.007 -0.132 -0.095 -0.012
## Participacion -0.050 -0.068 -0.037 0.057 0.021
## Proyectos 0.066 0.097 0.046 0.093 0.045
## Asistencia Participacion Proyectos
## Matematicas 0.040 -0.050 0.066
## Ciencias -0.007 -0.068 0.097
## Lectura_Critica -0.132 -0.037 0.046
## Investigacion -0.095 0.057 0.093
## Ingles -0.012 0.021 0.045
## Asistencia 1.000 -0.046 -0.001
## Participacion -0.046 1.000 -0.040
## Proyectos -0.001 -0.040 1.000
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1 1 1 1 1
## Asistencia Participacion Proyectos
## 1 1 1
## [1] 8
En este caso, todas las diagonales valen 1, ya que cada variable está perfectamente correlacionada consigo misma.
La suma de la diagonal (traza) es 8, igual al número de variables, como es esperable en una matriz de correlación.
La mayoría de las correlaciones son bajas o cercanas a cero, indicando poca relación lineal directa entre las variables.
Ejemplos:
Correlación más alta: Lectura Crítica e Inglés = 0.109, aún así, es débil.
Correlaciones negativas débiles:
Matemáticas y Lectura Crítica: –0.098
Asistencia y Lectura Crítica: –0.132
Esto sugiere que las variables están relativamente poco correlacionadas entre sí.
Interpretación:
Distribuciones (diagonal del gráfico)
Correlaciones y scatter plots (fuera de la diagonal)
En general, la mayoría de las relaciones son muy débiles (correlaciones cercanas a 0), lo que justifica aplicar ACP para reducir dimensiones y detectar combinaciones de variables con varianza explicativa.
## Call:corr.test(x = datos_acp)
## Correlation matrix
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.00 -0.07 -0.10 0.01 -0.02
## Ciencias -0.07 1.00 0.07 0.00 -0.07
## Lectura_Critica -0.10 0.07 1.00 0.01 0.11
## Investigacion 0.01 0.00 0.01 1.00 -0.02
## Ingles -0.02 -0.07 0.11 -0.02 1.00
## Asistencia 0.04 -0.01 -0.13 -0.09 -0.01
## Participacion -0.05 -0.07 -0.04 0.06 0.02
## Proyectos 0.07 0.10 0.05 0.09 0.04
## Asistencia Participacion Proyectos
## Matematicas 0.04 -0.05 0.07
## Ciencias -0.01 -0.07 0.10
## Lectura_Critica -0.13 -0.04 0.05
## Investigacion -0.09 0.06 0.09
## Ingles -0.01 0.02 0.04
## Asistencia 1.00 -0.05 0.00
## Participacion -0.05 1.00 -0.04
## Proyectos 0.00 -0.04 1.00
## Sample Size
## [1] 300
## Probability values (Entries above the diagonal are adjusted for multiple tests.)
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 0.00 1.00 1.00 1.00 1.00
## Ciencias 0.22 0.00 1.00 1.00 1.00
## Lectura_Critica 0.09 0.22 0.00 1.00 1.00
## Investigacion 0.82 0.96 0.89 0.00 1.00
## Ingles 0.79 0.21 0.06 0.77 0.00
## Asistencia 0.50 0.90 0.02 0.10 0.83
## Participacion 0.39 0.24 0.52 0.32 0.72
## Proyectos 0.25 0.09 0.42 0.11 0.44
## Asistencia Participacion Proyectos
## Matematicas 1.00 1.00 1
## Ciencias 1.00 1.00 1
## Lectura_Critica 0.61 1.00 1
## Investigacion 1.00 1.00 1
## Ingles 1.00 1.00 1
## Asistencia 0.00 1.00 1
## Participacion 0.42 0.00 1
## Proyectos 0.98 0.49 0
##
## To see confidence intervals of the correlations, print with the short=FALSE option
Observamos que:
Matemáticas y Ciencias: r = -0.07
Matemáticas y Participación: r = -0.05
Ciencias y Inglés: r = -0.07
Lectura Crítica e Inglés: r = 0.11
Podría sugerir que estudiantes con mejor lectura también manejan mejor el inglés.
Ciencias y Proyectos: r = 0.10
Tal vez los estudiantes más científicos tienden a desempeñarse un poco mejor en proyectos.
Lectura Crítica y Asistencia: r = -0.13, p = 0.02
Esta es la única correlación débil pero estadísticamente significativa.
Estas relaciones indican baja multicolinealidad.
Conclusión de los gráficos:
Aunque las gráficas tienen diferentes estilos, todas coinciden en que no hay relaciones fuertes entre las variables. La mayoría son débiles y algunas incluso no son significativas estadísticamente. Destacamos el caso de Lectura Crítica y Asistencia, cuya correlación negativa débil sí fue significativa. Visualmente, este tipo de gráficos nos ayuda a identificar rápidamente qué relaciones podrían ser relevantes para analizar.
## $p
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 0.0000 0.2157 0.0898 0.816 0.7920
## Ciencias 0.2157 0.0000 0.2181 0.959 0.2060
## Lectura_Critica 0.0898 0.2181 0.0000 0.892 0.0602
## Investigacion 0.8163 0.9586 0.8919 0.000 0.7674
## Ingles 0.7920 0.2060 0.0602 0.767 0.0000
## Asistencia 0.4950 0.9015 0.0218 0.101 0.8342
## Participacion 0.3921 0.2412 0.5208 0.323 0.7177
## Proyectos 0.2532 0.0934 0.4235 0.107 0.4383
## Asistencia Participacion Proyectos
## Matematicas 0.4950 0.392 0.2532
## Ciencias 0.9015 0.241 0.0934
## Lectura_Critica 0.0218 0.521 0.4235
## Investigacion 0.1008 0.323 0.1065
## Ingles 0.8342 0.718 0.4383
## Asistencia 0.0000 0.423 0.9811
## Participacion 0.4232 0.000 0.4921
## Proyectos 0.9811 0.492 0.0000
##
## $lowCI
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.00000 -0.07531 -0.10173 0.00983 -0.0189
## Ciencias -0.07531 1.00000 0.06769 -0.00665 -0.0768
## Lectura_Critica -0.10173 0.06769 1.00000 0.00424 0.1050
## Investigacion 0.00983 -0.00665 0.00424 1.00000 -0.0208
## Ingles -0.01893 -0.07683 0.10504 -0.02079 1.0000
## Asistencia 0.03591 -0.01081 -0.13596 -0.09852 -0.0158
## Participacion -0.05321 -0.07150 -0.04085 0.05366 0.0173
## Proyectos 0.06255 0.09344 0.04275 0.08976 0.0413
## Asistencia Participacion Proyectos
## Matematicas 0.03591 -0.0532 0.06255
## Ciencias -0.01081 -0.0715 0.09344
## Lectura_Critica -0.13596 -0.0408 0.04275
## Investigacion -0.09852 0.0537 0.08976
## Ingles -0.01577 0.0173 0.04128
## Asistencia 1.00000 -0.0500 -0.00501
## Participacion -0.05003 1.0000 -0.04344
## Proyectos -0.00501 -0.0434 1.00000
##
## $uppCI
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.0000 -0.068066 -0.0945 0.017109 -0.0117
## Ciencias -0.0681 1.000000 0.0749 0.000629 -0.0696
## Lectura_Critica -0.0945 0.074929 1.0000 0.011520 0.1122
## Investigacion 0.0171 0.000629 0.0115 1.000000 -0.0135
## Ingles -0.0117 -0.069594 0.1122 -0.013511 1.0000
## Asistencia 0.0432 -0.003536 -0.1288 -0.091308 -0.0085
## Participacion -0.0460 -0.064252 -0.0336 0.060916 0.0246
## Proyectos 0.0698 0.100644 0.0500 0.096975 0.0485
## Asistencia Participacion Proyectos
## Matematicas 0.04318 -0.0460 0.06979
## Ciencias -0.00354 -0.0643 0.10064
## Lectura_Critica -0.12881 -0.0336 0.05001
## Investigacion -0.09131 0.0609 0.09698
## Ingles -0.00850 0.0246 0.04854
## Asistencia 1.00000 -0.0428 0.00227
## Participacion -0.04277 1.0000 -0.03618
## Proyectos 0.00227 -0.0362 1.00000
## a b
## [1,] 84.3 86.4
## [2,] 77.8 83.4
## [3,] 81.0 78.5
## [4,] 89.4 80.7
## [5,] 89.5 82.3
## [6,] 95.0 53.7
## [7,] 85.0 83.9
## [8,] 77.5 71.1
## [9,] 81.2 76.8
## [10,] 87.0 72.6
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 1, p-value = 0.4
¿Qué muestran las matrices $p
,
$lowCI
, $uppCI
?
$p: p-values para cada correlación → indica si la correlación es estadísticamente significativa (p < 0.05).
$lowCI y $uppCI: intervalos de confianza del 95% para cada r.
Test de Shapito Wilk entre variables Inglés y Ciencias
W = 1, p-value = 0.4 → NO se rechaza la normalidad
Probamos que ambas variables Inglés y Ciencias (en conjunto) siguen una distribución normal multivariada.
Conclusión de los gráficos:
Estos tres gráficos no solo muestran las correlaciones, sino que también integran el análisis de significancia estadística, lo cual es clave para una interpretación responsable de los datos. Visualmente:
El primero es útil para un resumen limpio.
El segundo para descubrir estructuras entre variables.
El tercero para un análisis detallado con los valores p explícitos
col1 <- colorRampPalette(c("#7F0000","red","#FF7F00","yellow","white",
"cyan", "#007FFF", "blue","#00007F"))
corrplot(cor(datos_acp),
title = "Matriz de correlacion", mar=c(0,0,1,0),
method = "color", outline = TRUE, addgrid.col = "darkgray",
order = "hclust", addrect = 3, col=col1(100),
tl.col='black', tl.cex=.75)
Este gráfico visualiza la matriz de correlación organizada jerárquicamente, lo que permite identificar grupos de variables con patrones similares. Los rectángulos negros destacan clústeres de variables correlacionadas, facilitando su interpretación conjunta. Ideal para identificar bloques de relaciones.
Este gráfico muestra todas las combinaciones posibles de relaciones bivariadas mediante diagramas de dispersión. Es útil para observar visualmente la forma y tendencia de las relaciones (linealidad, dispersión o patrones no lineales) entre variables. Es detallado pero puede ser abrumador con muchas variables.
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
## Warning in par(usr): argument 1 does not name a graphical parameter
Este gráfico combina la matriz de correlación con histogramas y diagramas de dispersión, mostrando los coeficientes y relaciones visuales entre variables. Es muy completo porque permite observar la fuerza de la relación, la distribución de cada variable y patrones bivariados, todo en un solo vistazo.
El mapa de calor muestra la intensidad de las correlaciones con una
escala de colores. Es intuitivo y rápido para detectar correlaciones
fuertes y débiles. Al no incluir detalles numéricos ni formas de
dispersión, es ideal para una vista global y estética de las
relaciones.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.0000 -0.07169 -0.09813 0.01347 -0.0153
## Ciencias -0.0717 1.00000 0.07131 -0.00301 -0.0732
## Lectura_Critica -0.0981 0.07131 1.00000 0.00788 0.1086
## Investigacion 0.0135 -0.00301 0.00788 1.00000 -0.0171
## Ingles -0.0153 -0.07321 0.10864 -0.01715 1.0000
## Asistencia 0.0395 -0.00717 -0.13239 -0.09491 -0.0121
## Participacion -0.0496 -0.06787 -0.03721 0.05729 0.0210
## Proyectos 0.0662 0.09704 0.04638 0.09337 0.0449
## Asistencia Participacion Proyectos
## Matematicas 0.03954 -0.0496 0.06617
## Ciencias -0.00717 -0.0679 0.09704
## Lectura_Critica -0.13239 -0.0372 0.04638
## Investigacion -0.09491 0.0573 0.09337
## Ingles -0.01214 0.0210 0.04491
## Asistencia 1.00000 -0.0464 -0.00137
## Participacion -0.04640 1.0000 -0.03981
## Proyectos -0.00137 -0.0398 1.00000
ggcorrplot(corr, method = 'circle', type = 'lower') +
ggtitle("Correlograma de Estudiantes") +
theme_minimal()
ggcorrplot(corr, method = 'circle', type = 'lower', lab = TRUE) +
ggtitle("Correlograma de Estudiantes") +
theme_minimal() +
theme(legend.position="none")
De cada gráfico:
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 0.0000 0.2157 0.0898 0.816 0.7920
## Ciencias 0.2157 0.0000 0.2181 0.959 0.2060
## Lectura_Critica 0.0898 0.2181 0.0000 0.892 0.0602
## Investigacion 0.8163 0.9586 0.8919 0.000 0.7674
## Ingles 0.7920 0.2060 0.0602 0.767 0.0000
## Asistencia 0.4950 0.9015 0.0218 0.101 0.8342
## Participacion 0.3921 0.2412 0.5208 0.323 0.7177
## Proyectos 0.2532 0.0934 0.4235 0.107 0.4383
## Asistencia Participacion Proyectos
## Matematicas 0.4950 0.392 0.2532
## Ciencias 0.9015 0.241 0.0934
## Lectura_Critica 0.0218 0.521 0.4235
## Investigacion 0.1008 0.323 0.1065
## Ingles 0.8342 0.718 0.4383
## Asistencia 0.0000 0.423 0.9811
## Participacion 0.4232 0.000 0.4921
## Proyectos 0.9811 0.492 0.0000
Los valores p representan la significancia estadística de las correlaciones entre las variables. Si un valor p es bajo (típicamente menor a 0.05), indica que la correlación es estadísticamente significativa.
Conclusión de los gráficos:
Como anteriormente lo mencionamos podemos observar que la única correlación estadísticamente significativa (p < 0.05) es entre Lectura_Critica y Asistencia (p = 0.0218). Mientras que Proyectos y Asistencia tienen una correlación extremadamente no significativa (p = 0.9811).
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
acp <- dudi.pca(datos_acp,
scannf=FALSE, scale=TRUE,
nf=ncol(datos_acp))#con scale se tipifican las variables
summary(acp)
## Class: pca dudi
## Call: dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
##
## Total inertia: 8
##
## Eigenvalues:
## Ax1 Ax2 Ax3 Ax4 Ax5
## 1.2584 1.1539 1.1171 1.0697 0.9561
##
## Projected inertia (%):
## Ax1 Ax2 Ax3 Ax4 Ax5
## 15.73 14.42 13.96 13.37 11.95
##
## Cumulative projected inertia (%):
## Ax1 Ax1:2 Ax1:3 Ax1:4 Ax1:5
## 15.73 30.15 44.12 57.49 69.44
##
## (Only 5 dimensions (out of 8) are shown)
De lo siguiente se puede afirmar que: las primeras 5 componentes principales capturan el 69.44% de la variabilidad de los datos, lo que sugiere que se puede realizar una reducción de dimensionalidad significativa sin perder demasiada información.
## List of 13
## $ tab :'data.frame': 300 obs. of 8 variables:
## ..$ Matematicas : num [1:300] 1.2308 0.0693 0.1221 -1.057 -0.2739 ...
## ..$ Ciencias : num [1:300] 1.41 1.034 0.421 0.696 0.897 ...
## ..$ Lectura_Critica: num [1:300] 1.0509 0.5361 0.3393 0.0744 -0.289 ...
## ..$ Investigacion : num [1:300] 0.16 -0.345 1.001 -1.103 0.973 ...
## ..$ Ingles : num [1:300] -0.23 -1.566 -0.908 0.818 0.838 ...
## ..$ Asistencia : num [1:300] -1.751 -0.709 -0.282 0.192 1.46 ...
## ..$ Participacion : num [1:300] -1.2833 -0.6512 -0.0687 1.2451 1.5673 ...
## ..$ Proyectos : num [1:300] -0.1543 0.4791 0.9094 -0.0946 0.5508 ...
## $ cw : num [1:8] 1 1 1 1 1 1 1 1
## $ lw : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
## $ eig : num [1:8] 1.258 1.154 1.117 1.07 0.956 ...
## $ rank: int 8
## $ nf : int 8
## $ c1 :'data.frame': 8 obs. of 8 variables:
## ..$ CS1: num [1:8] 0.321 -0.297 -0.609 -0.263 -0.246 ...
## ..$ CS2: num [1:8] 0.2348 0.5319 -0.0182 -0.0385 -0.2411 ...
## ..$ CS3: num [1:8] 0.48766 -0.23045 -0.23059 0.63155 -0.00675 ...
## ..$ CS4: num [1:8] 0.308 -0.346 0.22 -0.268 0.727 ...
## ..$ CS5: num [1:8] 0.376 -0.2386 0.1794 -0.0389 -0.2713 ...
## ..$ CS6: num [1:8] 0.4298 0.2728 0.0487 -0.592 -0.0776 ...
## ..$ CS7: num [1:8] -0.423 -0.438 -0.27 -0.326 -0.193 ...
## ..$ CS8: num [1:8] -0.0649 0.3652 -0.6483 0.0129 0.4854 ...
## $ li :'data.frame': 300 obs. of 8 variables:
## ..$ Axis1: num [1:300] -1.427 -0.598 -0.718 -0.406 -0.116 ...
## ..$ Axis2: num [1:300] 1.257 1.356 0.827 -0.72 -0.052 ...
## ..$ Axis3: num [1:300] 0.0676 -0.3681 0.9338 -1.1763 0.6842 ...
## ..$ Axis4: num [1:300] -0.14 -1.144 -0.816 0.055 -0.102 ...
## ..$ Axis5: num [1:300] 2.0528 0.8708 0.0837 -1.4431 -2.4413 ...
## ..$ Axis6: num [1:300] 0.7482 0.6262 -0.142 0.8911 -0.0903 ...
## ..$ Axis7: num [1:300] -0.8222 0.3522 0.1177 0.0401 -1.02 ...
## ..$ Axis8: num [1:300] 0.5786 -0.4188 -0.5172 0.3747 0.0206 ...
## $ co :'data.frame': 8 obs. of 8 variables:
## ..$ Comp1: num [1:8] 0.36 -0.333 -0.683 -0.295 -0.275 ...
## ..$ Comp2: num [1:8] 0.2522 0.5714 -0.0196 -0.0414 -0.259 ...
## ..$ Comp3: num [1:8] 0.51541 -0.24356 -0.24371 0.66749 -0.00714 ...
## ..$ Comp4: num [1:8] 0.319 -0.357 0.227 -0.278 0.752 ...
## ..$ Comp5: num [1:8] 0.368 -0.233 0.175 -0.038 -0.265 ...
## ..$ Comp6: num [1:8] 0.3996 0.2537 0.0453 -0.5505 -0.0722 ...
## ..$ Comp7: num [1:8] -0.376 -0.39 -0.24 -0.29 -0.171 ...
## ..$ Comp8: num [1:8] -0.0577 0.3245 -0.5761 0.0114 0.4313 ...
## $ l1 :'data.frame': 300 obs. of 8 variables:
## ..$ RS1: num [1:300] -1.272 -0.533 -0.64 -0.362 -0.104 ...
## ..$ RS2: num [1:300] 1.1701 1.2621 0.7702 -0.6702 -0.0484 ...
## ..$ RS3: num [1:300] 0.0639 -0.3483 0.8835 -1.113 0.6473 ...
## ..$ RS4: num [1:300] -0.1349 -1.1062 -0.7889 0.0532 -0.0985 ...
## ..$ RS5: num [1:300] 2.0994 0.8906 0.0856 -1.4759 -2.4967 ...
## ..$ RS6: num [1:300] 0.8046 0.6734 -0.1527 0.9583 -0.0971 ...
## ..$ RS7: num [1:300] -0.9247 0.3961 0.1324 0.0451 -1.1471 ...
## ..$ RS8: num [1:300] 0.6512 -0.4713 -0.5821 0.4217 0.0232 ...
## $ call: language dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
## $ cent: Named num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
## ..- attr(*, "names")= chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## $ norm: Named num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
## ..- attr(*, "names")= chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## - attr(*, "class")= chr [1:2] "pca" "dudi"
## Duality diagramm
## class: pca dudi
## $call: dudi.pca(df = datos_acp, scale = TRUE, scannf = FALSE, nf = ncol(datos_acp))
##
## $nf: 8 axis-components saved
## $rank: 8
## eigen values: 1.26 1.15 1.12 1.07 0.956 ...
## vector length mode content
## 1 $cw 8 numeric column weights
## 2 $lw 300 numeric row weights
## 3 $eig 8 numeric eigen values
##
## data.frame nrow ncol content
## 1 $tab 300 8 modified array
## 2 $li 300 8 row coordinates
## 3 $l1 300 8 row normed scores
## 4 $co 8 8 column coordinates
## 5 $c1 8 8 column normed scores
## other elements: cent norm
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789
Interpretación de acp[["eig"]]
:
Los valores propios reflejan la cantidad de varianza explicada por cada componente principal. Un valor propio mayor indica una mayor capacidad de la componente para capturar la variabilidad en los datos.
Las primeras 5 componentes (Ax1 a Ax5) tienen valores propios mayores que 1, lo que indica que son componentes significativas y explican una proporción considerable de la variabilidad en los datos.
Las componentes 6, 7 y 8 tienen valores propios menores que 1, lo que sugiere que no son tan relevantes para explicar la variabilidad de los datos.
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789
## [1] 8
## Inertia information:
## Call: inertia.dudi(x = acp)
##
## Decomposition of total inertia:
## inertia cum cum(%)
## Ax1 1.2584 1.258 15.73
## Ax2 1.1539 2.412 30.15
## Ax3 1.1171 3.529 44.12
## Ax4 1.0697 4.599 57.49
## Ax5 0.9561 5.555 69.44
## Ax6 0.8647 6.420 80.25
## Ax7 0.7907 7.211 90.13
## Ax8 0.7895 8.000 100.00
La función inertia.dudi(acp)
muestra:
Proporción de inercia explicada por cada componente.
Proporción acumulada.
## CS1 CS2 CS3 CS4 CS5 CS6 CS7 CS8
## Matematicas 0.3209 0.2348 0.48766 0.308 0.3760 0.4298 -0.423 -0.0649
## Ciencias -0.2966 0.5319 -0.23045 -0.346 -0.2386 0.2728 -0.438 0.3652
## Lectura_Critica -0.6089 -0.0182 -0.23059 0.220 0.1794 0.0487 -0.270 -0.6483
## Investigacion -0.2629 -0.0385 0.63155 -0.268 -0.0389 -0.5920 -0.326 0.0129
## Ingles -0.2455 -0.2411 -0.00675 0.727 -0.2713 -0.0776 -0.193 0.4854
## Asistencia 0.4821 0.2569 -0.16917 0.190 -0.5516 -0.3087 -0.292 -0.3896
## Participacion -0.0183 -0.5543 0.23348 -0.244 -0.5153 0.5112 -0.141 -0.1784
## Proyectos -0.2759 0.4783 0.41699 0.202 -0.3532 0.1590 0.555 -0.1506
## Comp1 Comp2 Comp3 Comp4 Comp5 Comp6 Comp7 Comp8
## Matematicas 0.3600 0.2522 0.51541 0.319 0.368 0.3996 -0.376 -0.0577
## Ciencias -0.3327 0.5714 -0.24356 -0.357 -0.233 0.2537 -0.390 0.3245
## Lectura_Critica -0.6830 -0.0196 -0.24371 0.227 0.175 0.0453 -0.240 -0.5761
## Investigacion -0.2949 -0.0414 0.66749 -0.278 -0.038 -0.5505 -0.290 0.0114
## Ingles -0.2755 -0.2590 -0.00714 0.752 -0.265 -0.0722 -0.171 0.4313
## Asistencia 0.5408 0.2759 -0.17880 0.197 -0.539 -0.2871 -0.260 -0.3462
## Participacion -0.0205 -0.5954 0.24677 -0.252 -0.504 0.4754 -0.125 -0.1585
## Proyectos -0.3095 0.5138 0.44072 0.209 -0.345 0.1479 0.493 -0.1338
A partir de la matriz de vectores propios (acp$c1
),
podemos interpretar cómo cada variable contribuye a los
componentes principales (CS). Esto nos permite
identificar patrones de comportamiento entre
estudiantes según sus puntajes en diferentes áreas.
A continuación, se detalla la interpretación de los tres primeros componentes, que en conjunto explican cerca del 44% de la variabilidad total.
Componente 1 (CS1)
Cargas positivas altas en:
Asistencia (0.4821)
Matematicas (0.3209):
Cargas negativas altas en:
Lectura_Critica (−0.6089)
Investigacion (−0.2629)
Interpretación: Este eje contrapone a los estudiantes con alta asistencia y buen desempeño en Matemáticas, frente a aquellos con mayor habilidad en Lectura Crítica e Investigación. Se puede entender como un eje de “constancia en asistencia y razonamiento matemático” vs. “habilidades críticas y analíticas escritas”.
Componente 2 (CS2)
Cargas positivas altas en:
Ciencias (0.5319)
Proyectos (0.4783)
Cargas negativas altas en:
Participacion (−0.5543)
Ingles (−0.2411)
Interpretación: Este eje distingue a los estudiantes con buen desempeño en Ciencias y Proyectos, frente a aquellos con mayor Participación en clase. Puede interpretarse como un eje de “rendimiento académico-científico” vs. “interacción y participación en el aula”.
Componente 3 (CS3)
Cargas positivas altas en:
Investigacion (0.6316)
Proyectos (0.4170)
Matematicas (0.4877)
Cargas negativas en:
Interpretación: Este eje agrupa a los estudiantes con mayor capacidad en Investigación, desarrollo de Proyectos y resolución Matemática. Representa una dimensión de “habilidades aplicadas y analíticas”.
a=fviz_eig(acp,choice='eigenvalue',geom="line",linecolor = '#3A5FCD',xlab = 'Componentes Principales')+
geom_hline(yintercept = 1,color='#EE6363')+
theme_grey()
a
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 1.258 15.73 15.7
## Dim.2 1.154 14.42 30.2
## Dim.3 1.117 13.96 44.1
## Dim.4 1.070 13.37 57.5
## Dim.5 0.956 11.95 69.4
## Dim.6 0.865 10.81 80.2
## Dim.7 0.791 9.88 90.1
## Dim.8 0.789 9.87 100.0
barplot(eig.val[, 2], names.arg=1:nrow(eig.val),
main = "Autovalores",
xlab = "Componentes Principales",
ylab = "Porcentaje de variancias",
col ="steelblue")
lines(x = 1:nrow(eig.val), eig.val[, 2],
type="b", pch=19, col = "red")
b=fviz_screeplot(acp, ncp=9, addlabels=TRUE,hjust = 0.5,linecolor = "#FC4E07",
barfill = "#00AFBB",xlab = "Componentes Principales")
b
De los siguiente gráficos observamos:
En el Gráfico 1 (Scree Plot estándar), la curva muestra una caída pronunciada en los primeros componentes y luego se estabiliza alrededor del CP4.
El “codo” (punto donde la pendiente cambia de abrupta a suave)
suele indicar el número óptimo de componentes. En este caso, ocurre
cerca del CP3 o CP4, lo que sugiere que retener 4
componentes captura la mayor parte de la varianza significativa.
Según el Gráfico 3, los primeros 4 componentes explican aproximadamente:
CP1: 15.7%
CP2: 14.4% (Total acumulado: 30.1%)
CP3: 13.4% (Total acumulado: 43.5%)
CP4: 12.0% (Total acumulado:
~55.5%)
Aunque el porcentaje acumulado no supera el 70-80% (ideal),
4 componentes son un equilibrio entre simplificación y retención
de información. Si se necesita más varianza explicada, se
podría considerar incluir hasta 5 componentes (pero con rendimientos
decrecientes).
El Gráfico 1 muestra que solo el
CP1 tiene un autovalor > 1 (según la línea roja en
λ=1).
Sin embargo, este criterio suele ser conservador. En casos donde la varianza está distribuida (como el tuyo), es válido flexibilizar la regla y priorizar el criterio del codo o necesidades analíticas.
De los siguiente gráficos observamos: 1. BIPLOT DE
COMPONENTES PRINCIPALES: * Investigación y Lectura están correlacionadas
positivamente. * Asistencia y Lectura parecen ir en direcciones opuestas
→ posible correlación negativa. Participación, Lectura y Asistencia
tienen buenas representaciones(tamaño de flechas) 2. scree plot
Número óptimo de componentes a retener: 4, tanto por el criterio de
Kaiser como por el “codo” del gráfico.
*Estos componentes explicarían la mayor parte de la varianza en los datos, reduciendo la dimensionalidad sin perder demasiada información. #### C.SCORES O PUNTUACIONES DE CADA INDIVIDUO
## Axis1 Axis2 Axis3 Axis4 Axis5 Axis6 Axis7 Axis8
## 1 -1.427 1.257 0.0676 -0.1396 2.0528 0.7482 -0.8222 0.5786
## 2 -0.598 1.356 -0.3681 -1.1441 0.8708 0.6262 0.3522 -0.4188
## 3 -0.718 0.827 0.9338 -0.8159 0.0837 -0.1420 0.1177 -0.5172
## 4 -0.406 -0.720 -1.1763 0.0550 -1.4431 0.8911 0.0401 0.3747
## 5 -0.116 -0.052 0.6842 -0.1019 -2.4413 -0.0903 -1.0200 0.0206
## 6 0.905 -2.571 0.6933 1.9301 0.3542 -1.0603 -0.0381 0.3663
## 7 -0.179 0.580 -0.5697 -0.0767 -0.5384 0.5385 -1.1415 -0.5413
## 8 0.902 0.061 -0.3957 -1.1471 0.3795 -0.4797 0.5657 -0.7933
## 9 0.656 0.303 1.8424 -1.4151 0.5177 -0.0102 0.3728 1.2776
## 10 -0.340 0.586 0.4448 0.2659 0.2664 -1.6252 0.4556 0.4655
## Axis1 Axis2 Axis3 Axis4 Axis5 Axis6 Axis7 Axis8
## Axis1 1.26 0.00 0.00 0.00 0.000 0.000 0.000 0.000
## Axis2 0.00 1.16 0.00 0.00 0.000 0.000 0.000 0.000
## Axis3 0.00 0.00 1.12 0.00 0.000 0.000 0.000 0.000
## Axis4 0.00 0.00 0.00 1.07 0.000 0.000 0.000 0.000
## Axis5 0.00 0.00 0.00 0.00 0.959 0.000 0.000 0.000
## Axis6 0.00 0.00 0.00 0.00 0.000 0.868 0.000 0.000
## Axis7 0.00 0.00 0.00 0.00 0.000 0.000 0.793 0.000
## Axis8 0.00 0.00 0.00 0.00 0.000 0.000 0.000 0.792
## [1] 1.258 1.154 1.117 1.070 0.956 0.865 0.791 0.789
## Axis1 Axis2 Axis3 Axis4 Axis5 Axis6 Axis7 Axis8
## Axis1 1 0 0 0 0 0 0 0
## Axis2 0 1 0 0 0 0 0 0
## Axis3 0 0 1 0 0 0 0 0
## Axis4 0 0 0 1 0 0 0 0
## Axis5 0 0 0 0 1 0 0 0
## Axis6 0 0 0 0 0 1 0 0
## Axis7 0 0 0 0 0 0 1 0
## Axis8 0 0 0 0 0 0 0 1
## # A tibble: 8 × 26
## described_variables n na mean sd se_mean IQR skewness
## <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Axis1 300 0 1.22e-15 1.12 0.0649 1.51 -0.0697
## 2 Axis2 300 0 -9.45e-16 1.08 0.0621 1.54 -0.0172
## 3 Axis3 300 0 -8.86e-16 1.06 0.0611 1.46 0.248
## 4 Axis4 300 0 -1.26e-15 1.04 0.0598 1.38 -0.241
## 5 Axis5 300 0 1.26e-15 0.979 0.0565 1.20 0.0162
## 6 Axis6 300 0 1.38e-16 0.931 0.0538 1.24 -0.0170
## 7 Axis7 300 0 5.76e-16 0.891 0.0514 1.15 -0.147
## 8 Axis8 300 0 -1.33e-15 0.890 0.0514 1.25 -0.150
## # ℹ 18 more variables: kurtosis <dbl>, p00 <dbl>, p01 <dbl>, p05 <dbl>,
## # p10 <dbl>, p20 <dbl>, p25 <dbl>, p30 <dbl>, p40 <dbl>, p50 <dbl>,
## # p60 <dbl>, p70 <dbl>, p75 <dbl>, p80 <dbl>, p90 <dbl>, p95 <dbl>,
## # p99 <dbl>, p100 <dbl>
Podemos observar:Muestra la matriz de varianzas-covarianzas de las coordenadas principales. Observas una matriz diagonal, lo que indica que los componentes están desacoplados entre sí (sus covarianzas son cero) — lo cual es una propiedad deseada del ACP. ### 7.2 Grafica de Variables sobre el circulo de correlaciones #### Primera forma
####
Segunda forma
Interpretación:
Dim1 (componente principal 1) explica el 15.7% de la varianza total de los datos.
Dim2 (componente principal 2) explica el 14.4% de la varianza.
untos, estos dos componentes capturan aproximadamente el 30.1% de la información original (no es todo, pero es un resumen aceptable para visualizar tendencias).
-Estudiantes que están cerca unos de otros en el gráfico tienen patrones de respuestas similares en las ocho variables académicas.
-Estudiantes alejados tienen perfiles académicos diferentes.
Los estudiantes situados en los extremos de los ejes pueden tener perfiles muy diferenciados: por ejemplo, estudiantes a la derecha de Dim1 pueden tener un mejor rendimiento en competencias ligadas a Dim1.
Estudiantes en la parte superior de Dim2 posiblemente destaquen en las variables asociadas positivamente a ese componente.
### 7.4
Grafica de individuos sobre el primer plano con biplot
s.label(acp$li,clabel=0.7,grid=FALSE,boxes=FALSE)
s.corcircle(acp$co,grid=FALSE,add.plot = TRUE,clabel=0.7)
####
b) Segunda forma
Interpretación:
- Hay una aparente distinción entre estudiantes con fortalezas en áreas cuantitativas (Matemáticas, Ciencias) y aquellos más orientados a habilidades verbales/críticas (Lectura Crítica).
- La variable Participación parece separarse un poco, lo que sugiere que no está tan fuertemente correlacionada con las otras dimensiones.
- Proyectos y Ciencias tienen cierta relación, lo que puede indicar que las actividades prácticas son importantes en las carreras científicas.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos Axis1 Axis2 Axis3
## 1 64.7 76.2 -1.427 1.257 0.0676
## 2 69.8 81.5 -0.598 1.356 -0.3681
## 3 74.5 85.1 -0.718 0.827 0.9338
## 4 85.1 76.7 -0.406 -0.720 -1.1763
## 5 87.7 82.1 -0.116 -0.052 0.6842
## 6 77.6 67.7 0.905 -2.571 0.6933
## 'data.frame': 300 obs. of 11 variables:
## $ Matematicas : num 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
## $ Ciencias : num 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
## $ Lectura_Critica: num 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
## $ Investigacion : num 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
## $ Ingles : num 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
## $ Asistencia : num 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
## $ Participacion : num 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
## $ Proyectos : num 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
## $ Axis1 : num -1.427 -0.598 -0.718 -0.406 -0.116 ...
## $ Axis2 : num 1.257 1.356 0.827 -0.72 -0.052 ...
## $ Axis3 : num 0.0676 -0.3681 0.9338 -1.1763 0.6842 ...
write.csv(salidaacp,"P.csv")
fviz_eig(acp, ncp = 9, addlabels=TRUE, hjust = 0.5,barfill = "violet",
barcolor = "blue")
Interpretación:
- Este gráfico indica que no hay una dimensión dominante (por ejemplo, no hay una variable que por sí sola explique la mitad de la varianza).
- El rendimiento académico de tus 300 estudiantes muestra una variedad continua sin divisiones claras en solo 2 dimensiones.
- Hay estudiantes destacados en ciertos extremos, pero la mayoría son promedio.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## [1,] 1.23 1.41 1.05 0.16 -0.23 -1.75
## [2,] 0.07 1.03 0.54 -0.34 -1.56 -0.71
## [3,] 0.12 0.42 0.34 1.00 -0.91 -0.28
## [4,] -1.06 0.70 0.07 -1.10 0.82 0.19
## [5,] -0.27 0.90 -0.29 0.97 0.84 1.46
## [6,] 0.29 -2.68 -0.45 0.41 1.97 0.03
## Participacion Proyectos
## [1,] -1.28 -0.15
## [2,] -0.65 0.48
## [3,] -0.07 0.91
## [4,] 1.24 -0.09
## [5,] 1.56 0.55
## [6,] 0.31 -1.17
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 0 0 0 0 0
## Asistencia Participacion Proyectos
## 0 0 0
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Matematicas 1.0000 -0.07169 -0.09813 0.01347 -0.0153
## Ciencias -0.0717 1.00000 0.07131 -0.00301 -0.0732
## Lectura_Critica -0.0981 0.07131 1.00000 0.00788 0.1086
## Investigacion 0.0135 -0.00301 0.00788 1.00000 -0.0171
## Ingles -0.0153 -0.07321 0.10864 -0.01715 1.0000
## Asistencia 0.0395 -0.00717 -0.13239 -0.09491 -0.0121
## Participacion -0.0496 -0.06787 -0.03721 0.05729 0.0210
## Proyectos 0.0662 0.09704 0.04638 0.09337 0.0449
## Asistencia Participacion Proyectos
## Matematicas 0.03954 -0.0496 0.06617
## Ciencias -0.00717 -0.0679 0.09704
## Lectura_Critica -0.13239 -0.0372 0.04638
## Investigacion -0.09491 0.0573 0.09337
## Ingles -0.01214 0.0210 0.04491
## Asistencia 1.00000 -0.0464 -0.00137
## Participacion -0.04640 1.0000 -0.03981
## Proyectos -0.00137 -0.0398 1.00000
Conclusión La matriz de covarianza de los datos estandarizados indica que las relaciones entre las variables son en su mayoría débiles, con algunas correlaciones negativas y otras positivas. Ninguna relación parece ser fuertemente lineal. Esto sugiere que las variables aportan información parcialmente independiente, lo cual es adecuado para aplicar un análisis de componentes principales (ACP), ya que se busca reducir dimensiones sin perder demasiada información.
#Darle 3 componentes y 1 funcion discriminante
grp <- find.clusters(datosacp1, max.n.clust = 8, n.pca = 5, n.clust = 3)
head(grp)
## $Kstat
## NULL
##
## $stat
## NULL
##
## $grp
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
## 1 2 3 1 3 3 2 2 3 2 1 2 1 2 2 1 2 3 3 1
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
## 2 3 1 2 1 1 3 3 3 2 1 1 2 2 2 3 2 3 2 2
## 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
## 3 2 1 3 1 2 3 2 2 1 2 3 1 2 3 2 3 1 2 2
## 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
## 2 3 3 2 1 3 2 1 3 2 2 1 3 2 3 3 3 2 3 2
## 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
## 2 2 3 1 3 1 2 3 3 2 2 1 3 1 1 2 2 3 1 3
## 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
## 1 1 1 3 1 2 2 1 2 1 3 2 3 2 2 2 2 1 2 3
## 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140
## 2 3 2 1 3 3 2 2 2 2 1 3 1 1 3 1 2 2 1 1
## 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160
## 3 3 3 1 2 3 2 3 2 3 3 3 3 1 1 1 1 3 2 3
## 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
## 2 3 1 3 2 3 1 2 3 1 3 2 2 2 1 1 1 3 1 2
## 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
## 1 3 1 2 3 1 2 2 2 1 1 3 3 2 2 1 2 1 3 3
## 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220
## 3 3 2 3 1 2 1 3 3 2 2 1 2 1 3 3 3 3 2 3
## 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240
## 3 3 3 3 2 3 3 3 2 2 1 2 3 2 2 3 2 1 2 1
## 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260
## 3 3 2 3 2 2 1 2 3 1 2 2 2 3 3 1 1 1 1 2
## 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280
## 1 1 3 2 2 2 1 2 2 1 2 2 1 3 2 1 3 1 2 1
## 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300
## 2 2 3 2 2 2 1 2 2 1 3 3 2 1 1 2 2 2 1 1
## Levels: 1 2 3
##
## $size
## [1] 85 118 97
dapc.WIDIV <- dapc(datosacp1, grp$grp, n.pca = 3, n.da = 1)
scatter (dapc.WIDIV, posi.da = "bottomright", bg = "white", pch = 17:22,
cstar = 0)
#### Cursos que discriminan mejor. Barras mas altas indican mejor
discriminacion
## [1] FALSE
contrib1=tibble(nombre=contrib$var.names,valor=contrib$var.values)
orden=contrib1 %>%
arrange(desc(valor))
orden
## # A tibble: 6 × 2
## nombre valor
## <chr> <dbl>
## 1 Asistencia 0.318
## 2 Lectura_Critica 0.185
## 3 Participacion 0.154
## 4 Investigacion 0.140
## 5 Ingles 0.109
## 6 Matematicas 0.0744
Interpretación de cada variable:
Altamente correlacionada con la primera componente (Dim 1).
Contribuye fuertemente a esta dimensión.
Se relaciona positivamente con Investigación e Inglés (vectores apuntan en direcciones similares).
Se proyectan hacia el primer cuadrante.
Están positivamente correlacionadas entre sí y también con Dim 1 y parcialmente con Dim 2.
Tienen buena representación en estas dimensiones.
Correlación positiva con Dim 1, moderada con Dim 2.
Cercanas entre sí → es probable que estén relacionadas en el desempeño de los estudiantes.
Apunta hacia abajo → más relacionada con Dim 2 negativa.
Baja correlación con Dim 1, lo que significa que su influencia se da en otra dimensión.
Se agrupan en el cuadrante izquierdo → relacionadas negativamente con Dim 1.
Es posible que estén contrapuestas a Lectura Crítica, Ciencias, etc.
CONCLUSIÓN GENERAL:
Matemáticas y Asistencia se oponen a estas en PC1 → podrían pertenecer a un tipo distinto de competencia (por ejemplo, lógico-numeral vs verbal-analítica).
Participación podría representar otro factor no alineado ni con lo verbal ni con lo numérico, sino con la actitud o comportamiento.
## List of 5
## $ eig : num [1:8, 1:3] 1.258 1.154 1.117 1.07 0.956 ...
## ..- attr(*, "dimnames")=List of 2
## .. ..$ : chr [1:8] "comp 1" "comp 2" "comp 3" "comp 4" ...
## .. ..$ : chr [1:3] "eigenvalue" "percentage of variance" "cumulative percentage of variance"
## $ var :List of 4
## ..$ coord : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ cor : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ cos2 : num [1:8, 1:8] 0.1296 0.1107 0.4665 0.087 0.0759 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ contrib: num [1:8, 1:8] 10.3 8.8 37.07 6.91 6.03 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## $ ind :List of 4
## ..$ coord : num [1:300, 1:8] 1.427 0.598 0.718 0.406 0.116 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ cos2 : num [1:300, 1:8] 0.21603 0.07017 0.16924 0.03238 0.00181 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ contrib: num [1:300, 1:8] 0.5393 0.0946 0.13655 0.04364 0.00359 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
## .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## ..$ dist : Named num [1:300] 3.07 2.26 1.75 2.26 2.74 ...
## .. ..- attr(*, "names")= chr [1:300] "1" "2" "3" "4" ...
## $ svd :List of 3
## ..$ vs: num [1:8] 1.122 1.074 1.057 1.034 0.978 ...
## ..$ U : num [1:300, 1:8] 1.272 0.533 0.64 0.362 0.104 ...
## ..$ V : num [1:8, 1:8] -0.321 0.297 0.609 0.263 0.246 ...
## $ call:List of 9
## ..$ row.w : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
## ..$ col.w : num [1:8] 1 1 1 1 1 1 1 1
## ..$ scale.unit: logi TRUE
## ..$ ncp : num 8
## ..$ centre : num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
## ..$ ecart.type: num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
## ..$ X :'data.frame': 300 obs. of 8 variables:
## .. ..$ Matematicas : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
## .. ..$ Ciencias : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
## .. ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
## .. ..$ Investigacion : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
## .. ..$ Ingles : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
## .. ..$ Asistencia : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
## .. ..$ Participacion : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
## .. ..$ Proyectos : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
## ..$ row.w.init: num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ call : language PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
## - attr(*, "class")= chr [1:2] "PCA" "list"
##
## Call:
## PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 1.258 1.154 1.117 1.070 0.956 0.865 0.791
## % of var. 15.730 14.423 13.963 13.371 11.951 10.808 9.884
## Cumulative % of var. 15.730 30.153 44.117 57.488 69.439 80.248 90.131
## Dim.8
## Variance 0.789
## % of var. 9.869
## Cumulative % of var. 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## 1 | 3.070 | 1.427 0.539 0.216 | 1.257 0.456 0.168 | 0.068
## 2 | 2.256 | 0.598 0.095 0.070 | 1.356 0.531 0.361 | -0.368
## 3 | 1.745 | 0.718 0.137 0.169 | 0.827 0.198 0.225 | 0.934
## 4 | 2.256 | 0.406 0.044 0.032 | -0.720 0.150 0.102 | -1.176
## 5 | 2.739 | 0.116 0.004 0.002 | -0.052 0.001 0.000 | 0.684
## 6 | 3.608 | -0.905 0.217 0.063 | -2.571 1.909 0.508 | 0.693
## 7 | 1.696 | 0.179 0.008 0.011 | 0.580 0.097 0.117 | -0.570
## 8 | 1.901 | -0.902 0.215 0.225 | 0.061 0.001 0.001 | -0.396
## 9 | 2.821 | -0.656 0.114 0.054 | 0.303 0.026 0.012 | 1.842
## 10 | 1.966 | 0.340 0.031 0.030 | 0.586 0.099 0.089 | 0.445
## ctr cos2
## 1 0.001 0.000 |
## 2 0.040 0.027 |
## 3 0.260 0.286 |
## 4 0.413 0.272 |
## 5 0.140 0.062 |
## 6 0.143 0.037 |
## 7 0.097 0.113 |
## 8 0.047 0.043 |
## 9 1.013 0.427 |
## 10 0.059 0.051 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## Matematicas | -0.360 10.300 0.130 | 0.252 5.511 0.064 | 0.515 23.781
## Ciencias | 0.333 8.798 0.111 | 0.571 28.291 0.326 | -0.244 5.311
## Lectura_Critica | 0.683 37.071 0.467 | -0.020 0.033 0.000 | -0.244 5.317
## Investigacion | 0.295 6.912 0.087 | -0.041 0.148 0.002 | 0.667 39.885
## Ingles | 0.275 6.029 0.076 | -0.259 5.815 0.067 | -0.007 0.005
## Asistencia | -0.541 23.244 0.293 | 0.276 6.598 0.076 | -0.179 2.862
## Participacion | 0.020 0.033 0.000 | -0.595 30.725 0.355 | 0.247 5.451
## Proyectos | 0.310 7.612 0.096 | 0.514 22.878 0.264 | 0.441 17.388
## cos2
## Matematicas 0.266 |
## Ciencias 0.059 |
## Lectura_Critica 0.059 |
## Investigacion 0.446 |
## Ingles 0.000 |
## Asistencia 0.032 |
## Participacion 0.061 |
## Proyectos 0.194 |
Interpretación: Las dos primeras dimensiones explican el 30.15% de la variabilidad total. Esto no es altísimo, pero es suficiente para visualizar patrones y realizar análisis preliminares.
Variables más importantes en cada dimensión:
Dimensión 1 (15.73%):
Lectura_Critica (contribuye 37.07%, cos2 = 0.467): Muy bien representada,altamente influyente.
Asistencia (23.24%, cos2 = 0.293): También importante.
Matematicas (-0.360), Ciencias y Proyectos: contribuyen en menor medida.
Dimensión 2 (14.42%):
Participacion (30.72%, cos2 = 0.355): Principal variable en esta dimensión.
Ciencias (28.29%, cos2 = 0.326): Relevante.
Proyectos (22.88%, cos2 = 0.264)
Dimensión 3 (13.96%):
Investigacion (contribución 39.89%, cos2 = 0.446): Altamente representativa aquí.
Matematicas, Proyectos: con buena representación secundaria.
CONCLUSIÓN GENERAL:
Lectura Crítica domina la primera dimensión y es crucial para diferenciar perfiles.
Participación y Ciencias dominan la segunda dimensión, reflejando quizás una dimensión más actitudinal o de interacción.
Investigación se posiciona claramente en la tercera dimensión, separada de las otras dos.
## [1] 100
Esto indica que la suma de las contribuciones de todos los individuos a la primera dimensión es del 100%, como debe ser.
## [1] 1
Esto significa que la suma de los cos² del individuo 1 en todas las dimensiones es 1; es decir, toda la varianza de ese individuo ha sido redistribuida entre los 8 ejes principales.
## [1] 100
Al igual que con los individuos, la suma de las contribuciones de todas las variables a la tercera dimensión es 100%, como es esperado.
## [1] 1
Aquí estás sumando los cos² del curso “MATEMATICAS” (tercera fila) en todas las dimensiones, y da 1.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## Participacion Proyectos
## 1 64.7 76.2
## 2 69.8 81.5
## 3 74.5 85.1
## 4 85.1 76.7
## 5 87.7 82.1
## 6 77.6 67.7
##
## Call:
## PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 1.258 1.154 1.117 1.070 0.956 0.865 0.791
## % of var. 15.730 14.423 13.963 13.371 11.951 10.808 9.884
## Cumulative % of var. 15.730 30.153 44.117 57.488 69.439 80.248 90.131
## Dim.8
## Variance 0.789
## % of var. 9.869
## Cumulative % of var. 100.000
##
## Individuals (the 10 first)
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3
## 1 | 3.070 | 1.427 0.539 0.216 | 1.257 0.456 0.168 | 0.068
## 2 | 2.256 | 0.598 0.095 0.070 | 1.356 0.531 0.361 | -0.368
## 3 | 1.745 | 0.718 0.137 0.169 | 0.827 0.198 0.225 | 0.934
## 4 | 2.256 | 0.406 0.044 0.032 | -0.720 0.150 0.102 | -1.176
## 5 | 2.739 | 0.116 0.004 0.002 | -0.052 0.001 0.000 | 0.684
## 6 | 3.608 | -0.905 0.217 0.063 | -2.571 1.909 0.508 | 0.693
## 7 | 1.696 | 0.179 0.008 0.011 | 0.580 0.097 0.117 | -0.570
## 8 | 1.901 | -0.902 0.215 0.225 | 0.061 0.001 0.001 | -0.396
## 9 | 2.821 | -0.656 0.114 0.054 | 0.303 0.026 0.012 | 1.842
## 10 | 1.966 | 0.340 0.031 0.030 | 0.586 0.099 0.089 | 0.445
## ctr cos2
## 1 0.001 0.000 |
## 2 0.040 0.027 |
## 3 0.260 0.286 |
## 4 0.413 0.272 |
## 5 0.140 0.062 |
## 6 0.143 0.037 |
## 7 0.097 0.113 |
## 8 0.047 0.043 |
## 9 1.013 0.427 |
## 10 0.059 0.051 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## Matematicas | -0.360 10.300 0.130 | 0.252 5.511 0.064 | 0.515 23.781
## Ciencias | 0.333 8.798 0.111 | 0.571 28.291 0.326 | -0.244 5.311
## Lectura_Critica | 0.683 37.071 0.467 | -0.020 0.033 0.000 | -0.244 5.317
## Investigacion | 0.295 6.912 0.087 | -0.041 0.148 0.002 | 0.667 39.885
## Ingles | 0.275 6.029 0.076 | -0.259 5.815 0.067 | -0.007 0.005
## Asistencia | -0.541 23.244 0.293 | 0.276 6.598 0.076 | -0.179 2.862
## Participacion | 0.020 0.033 0.000 | -0.595 30.725 0.355 | 0.247 5.451
## Proyectos | 0.310 7.612 0.096 | 0.514 22.878 0.264 | 0.441 17.388
## cos2
## Matematicas 0.266 |
## Ciencias 0.059 |
## Lectura_Critica 0.059 |
## Investigacion 0.446 |
## Ingles 0.000 |
## Asistencia 0.032 |
## Participacion 0.061 |
## Proyectos 0.194 |
Observaciones clave:
Las variables están bien representadas (cos² razonables) en las primeras 3 dimensiones.
Algunas variables como Lectura_Critica y Participación dominan en distintas dimensiones (podrían formar ejes temáticos).
Se podría interpretar:
Dim.1 como desempeño académico general (Lectura, Asistencia, Matemáticas).
Dim.2 como participación activa (Participación, Ciencias, Proyectos).
Dim.3 como perfil investigativo (Investigación, Proyectos, Matemáticas).
Del gráfico observamos:
Ciencias y Proyectos destacan en Dimensión 2 (alta contribución).
Lectura_Critica e Investigacion se asocian fuertemente a la Dimensión 1.
Ciencias y Proyectos están fuertemente correlacionadas (dirección similar).
Asistencia y Matemáticas también muestran una relación positiva entre sí.
Participación tiene baja contribución, no está bien representada en este plano.
Inglés tiene una representación moderada.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 1.258 15.73 15.7
## comp 2 1.154 14.42 30.2
## comp 3 1.117 13.96 44.1
## comp 4 1.070 13.37 57.5
## comp 5 0.956 11.95 69.4
## comp 6 0.865 10.81 80.2
## comp 7 0.791 9.88 90.1
## comp 8 0.789 9.87 100.0
## $coord
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
## Matematicas -0.3600 0.2522 0.51541 0.319 -0.368 0.3996 0.376 0.0577
## Ciencias 0.3327 0.5714 -0.24356 -0.357 0.233 0.2537 0.390 -0.3245
## Lectura_Critica 0.6830 -0.0196 -0.24371 0.227 -0.175 0.0453 0.240 0.5761
## Investigacion 0.2949 -0.0414 0.66749 -0.278 0.038 -0.5505 0.290 -0.0114
## Ingles 0.2755 -0.2590 -0.00714 0.752 0.265 -0.0722 0.171 -0.4313
## Asistencia -0.5408 0.2759 -0.17880 0.197 0.539 -0.2871 0.260 0.3462
## Participacion 0.0205 -0.5954 0.24677 -0.252 0.504 0.4754 0.125 0.1585
## Proyectos 0.3095 0.5138 0.44072 0.209 0.345 0.1479 -0.493 0.1338
##
## $cor
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
## Matematicas -0.3600 0.2522 0.51541 0.319 -0.368 0.3996 0.376 0.0577
## Ciencias 0.3327 0.5714 -0.24356 -0.357 0.233 0.2537 0.390 -0.3245
## Lectura_Critica 0.6830 -0.0196 -0.24371 0.227 -0.175 0.0453 0.240 0.5761
## Investigacion 0.2949 -0.0414 0.66749 -0.278 0.038 -0.5505 0.290 -0.0114
## Ingles 0.2755 -0.2590 -0.00714 0.752 0.265 -0.0722 0.171 -0.4313
## Asistencia -0.5408 0.2759 -0.17880 0.197 0.539 -0.2871 0.260 0.3462
## Participacion 0.0205 -0.5954 0.24677 -0.252 0.504 0.4754 0.125 0.1585
## Proyectos 0.3095 0.5138 0.44072 0.209 0.345 0.1479 -0.493 0.1338
##
## $cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Matematicas 0.12962 0.063588 0.2656477 0.1014 0.13517 0.15969 0.1415
## Ciencias 0.11071 0.326443 0.0593224 0.1277 0.05443 0.06435 0.1517
## Lectura_Critica 0.46650 0.000383 0.0593946 0.0516 0.03076 0.00205 0.0575
## Investigacion 0.08698 0.001710 0.4455434 0.0770 0.00145 0.30308 0.0841
## Ingles 0.07587 0.067093 0.0000509 0.5660 0.07036 0.00521 0.0294
## Asistencia 0.29251 0.076137 0.0319689 0.0387 0.29086 0.08241 0.0675
## Participacion 0.00042 0.354523 0.0608931 0.0635 0.25383 0.22600 0.0157
## Proyectos 0.09579 0.263986 0.1942379 0.0437 0.11925 0.02187 0.2433
## Dim.8
## Matematicas 0.003325
## Ciencias 0.105287
## Lectura_Critica 0.331863
## Investigacion 0.000131
## Ingles 0.186001
## Asistencia 0.119862
## Participacion 0.025115
## Proyectos 0.017914
##
## $contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
## Matematicas 10.3004 5.5109 23.78099 9.48 14.138 18.469 17.90 0.4212
## Ciencias 8.7978 28.2913 5.31059 11.94 5.693 7.442 19.19 13.3359
## Lectura_Critica 37.0708 0.0332 5.31705 4.82 3.218 0.237 7.27 42.0347
## Investigacion 6.9121 0.1482 39.88540 7.20 0.151 35.051 10.64 0.0165
## Ingles 6.0293 5.8146 0.00456 52.91 7.359 0.603 3.72 23.5594
## Asistencia 23.2441 6.5985 2.86189 3.62 30.421 9.530 8.54 15.1821
## Participacion 0.0334 30.7248 5.45119 5.94 26.548 26.138 1.99 3.1812
## Proyectos 7.6122 22.8785 17.38833 4.08 12.472 2.529 30.77 2.2690
Variables más influyentes en cada dimensión (según contribución y cos²):
Dim 1: Alta contribución de Lectura_Crítica (37.1%) y Asistencia (23.2%).
Dim 2: Destacan Ciencias (28.3%) y Participación (30.7%).
Dim 3: Muy relevantes Investigación (39.9%) y Matemáticas (23.8%).
Dim 4: Fuerte influencia de Inglés (52.9%).
Dim 5: Alta contribución de Asistencia (30.4%) y Participación (26.5%).
Nota: Las variables importantes cambian según la dimensión, por lo que no basta analizar solo el plano 1-2.
fviz_pca_ind(respca, label="none", habillage=datos_univ$Facultad,
addEllipses=TRUE, ellipse.level=0.95)
fviz_pca_biplot(respca, label = "var", habillage=datos_univ$Facultad,
addEllipses=TRUE, ellipse.level=0.95,
ggtheme = theme_minimal())
fviz_pca_biplot(respca,
# Individuals
geom.ind = "point",
fill.ind = datos_univ$Facultad, col.ind = "black",
pointshape = 21, pointsize = 2,
palette = "RdBu",
addEllipses = TRUE,
# Variables
alpha.var ="contrib", col.var = "contrib",
gradient.cols = "RdYlBu",
legend.title = list(fill = "v1", color = "Contrib",
alpha = "Contrib"))
CONCLUSIÓN GENERAL, luego de observar todos los gráficos:
Ingeniería: Fuerte en Matemáticas/Asistencia.
Humanidades: Destacan en Lectura_Crítica/Investigación.
Dim1 = Rendimiento académico; Dim2 = Habilidades prácticas/participación.
Patrón claro: Las facultades se separan según sus fortalezas académicas.
## Matematicas Ciencias Lectura_Critica Investigacion Ingles
## Min. : 43.4 Min. :52.5 Min. : 34.4 Min. : 63.8 Min. : 71.5
## 1st Qu.: 64.3 1st Qu.:69.7 1st Qu.: 58.0 1st Qu.: 76.0 1st Qu.: 82.1
## Median : 71.7 Median :75.6 Median : 65.9 Median : 80.8 Median : 85.8
## Mean : 71.9 Mean :75.1 Mean : 66.6 Mean : 81.2 Mean : 85.4
## 3rd Qu.: 79.8 3rd Qu.:80.7 3rd Qu.: 74.9 3rd Qu.: 86.4 3rd Qu.: 88.8
## Max. :100.0 Max. :96.5 Max. :100.0 Max. :100.0 Max. :100.0
## Asistencia Participacion Proyectos
## Min. :70.0 Min. :54.0 Min. : 52.4
## 1st Qu.:77.7 1st Qu.:69.7 1st Qu.: 72.2
## Median :85.6 Median :74.7 Median : 77.6
## Mean :85.3 Mean :75.1 Mean : 77.5
## 3rd Qu.:92.1 3rd Qu.:80.9 3rd Qu.: 83.0
## Max. :99.9 Max. :97.5 Max. :100.0
Permite:
Output:
Biplot con colores por facultad.
Tabla de contribuciones de variables.
Útil para presentar resultados a no técnicos o ajustar parámetros visualmente.
Interpretación del Análisis HCPC (Hierarchical Clustering on Principal Components) :
Agrupa individuos (estudiantes) en clusters basados en sus componentes principales (PCA previo).
Combina PCA + Clustering jerárquico para identificar patrones ocultos.
3 clusters (definidos por nb.clust = 3):
Cluster 2: Perfil intermedio (ej: balance entre habilidades).
Cluster 3: Relacionado con Dim2 (ej: alta Participación o Ciencias).
Factor Map
Eje X (Dim1 - 15.73%): Separa clusters por rendimiento académico.
Eje Y (Dim2): Diferencias en habilidades prácticas/sociales.
Puntos numerados: Cada número representa un estudiante.
297 (Cluster 1): Alto en Matemáticas.
114 (Cluster 2): Perfil equilibrado.
Outliers: Números alejados (ej: 3841232) pueden ser errores o casos extremos.
## List of 5
## $ data.clust:'data.frame': 300 obs. of 9 variables:
## ..$ Matematicas : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
## ..$ Ciencias : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
## ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
## ..$ Investigacion : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
## ..$ Ingles : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
## ..$ Asistencia : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
## ..$ Participacion : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
## ..$ Proyectos : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
## ..$ clust : Factor w/ 3 levels "1","2","3": 2 3 2 3 2 1 3 3 2 2 ...
## $ desc.var :List of 3
## ..$ quanti.var: num [1:7, 1:2] 0.324 0.319 0.272 0.202 0.122 ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:7] "Matematicas" "Investigacion" "Proyectos" "Ciencias" ...
## .. .. ..$ : chr [1:2] "Eta2" "P-value"
## ..$ quanti :List of 3
## .. ..$ 1: num [1:6, 1:6] 5.01 2.82 -4.57 -6.34 -6.93 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:6] "Asistencia" "Matematicas" "Lectura_Critica" "Ciencias" ...
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## .. ..$ 2: num [1:5, 1:6] 8.57 8.48 6.71 2.41 -3.04 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:5] "Investigacion" "Proyectos" "Matematicas" "Ingles" ...
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## .. ..$ 3: num [1:4, 1:6] 6.91 5.6 -4.35 -9.67 79.72 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:4] "Ciencias" "Lectura_Critica" "Ingles" "Matematicas"
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## ..$ call :List of 5
## .. ..$ num.var : int 9
## .. ..$ proba : num 0.05
## .. ..$ row.w : num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
## .. ..$ X :'data.frame': 300 obs. of 9 variables:
## .. .. ..$ Matematicas : num [1:300] 85.9 72.7 73.3 59.9 68.8 75.2 75.6 66.3 79.8 66.3 ...
## .. .. ..$ Ciencias : num [1:300] 86.4 83.4 78.5 80.7 82.3 53.7 83.9 71.1 76.8 72.6 ...
## .. .. ..$ Lectura_Critica: num [1:300] 80.5 73.7 71.1 67.6 62.8 60.6 77.2 62.6 40.5 62.6 ...
## .. .. ..$ Investigacion : num [1:300] 82.3 78.7 88.3 73.3 88.1 84.1 79.4 80.4 90 88.9 ...
## .. .. ..$ Ingles : num [1:300] 84.3 77.8 81 89.4 89.5 95 85 77.5 81.2 87 ...
## .. .. ..$ Asistencia : num [1:300] 70.5 79.3 82.9 86.9 97.6 85.5 92.2 88.5 76.2 85.3 ...
## .. .. ..$ Participacion : num [1:300] 64.7 69.8 74.5 85.1 87.7 77.6 78.1 73.1 75.4 63.8 ...
## .. .. ..$ Proyectos : num [1:300] 76.2 81.5 85.1 76.7 82.1 67.7 75.8 74.2 79.8 81.2 ...
## .. .. ..$ clust : Factor w/ 3 levels "1","2","3": 2 3 2 3 2 1 3 3 2 2 ...
## .. ..$ na.method: chr "NA"
## ..- attr(*, "class")= chr [1:2] "catdes" "list"
## $ desc.axes :List of 3
## ..$ quanti.var: num [1:4, 1:2] 0.5252548232101612590838612959487363696098327636719 0.3766743183733434197080214289599098265171051025391 0.1995129| __truncated__ ...
## .. ..- attr(*, "dimnames")=List of 2
## .. .. ..$ : chr [1:4] "Dim.3" "Dim.1" "Dim.4" "Dim.2"
## .. .. ..$ : chr [1:2] "Eta2" "P-value"
## ..$ quanti :List of 3
## .. ..$ 1: num [1:4, 1:6] 4.982 -4.643 -4.787 -10.355 0.452 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:4] "Dim.4" "Dim.2" "Dim.3" "Dim.1"
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## .. ..$ 2: num [1:4, 1:6] 12.41 3.37 3.23 2.57 0.99 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:4] "Dim.3" "Dim.2" "Dim.1" "Dim.4"
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## .. ..$ 3: num [1:3, 1:6] 6.821 -7.531 -8.086 0.635 -0.647 ...
## .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. ..$ : chr [1:3] "Dim.1" "Dim.4" "Dim.3"
## .. .. .. ..$ : chr [1:6] "v.test" "Mean in category" "Overall mean" "sd in category" ...
## ..$ call :List of 5
## .. ..$ num.var : int 9
## .. ..$ proba : num 0.05
## .. ..$ row.w : num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
## .. ..$ X :'data.frame': 300 obs. of 9 variables:
## .. .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
## .. .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
## .. .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
## .. .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
## .. .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
## .. .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
## .. .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
## .. .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
## .. .. ..$ clust: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## .. ..$ na.method: chr "NA"
## ..- attr(*, "class")= chr [1:2] "catdes" "list"
## $ desc.ind :List of 2
## ..$ para:List of 3
## .. ..$ 1: Named num [1:5] 1.36 1.39 1.4 1.45 1.64
## .. .. ..- attr(*, "names")= chr [1:5] "264" "64" "56" "119" ...
## .. ..$ 2: Named num [1:5] 1.04 1.2 1.39 1.4 1.47
## .. .. ..- attr(*, "names")= chr [1:5] "100" "236" "3" "95" ...
## .. ..$ 3: Named num [1:5] 1.1 1.58 1.59 1.63 1.64
## .. .. ..- attr(*, "names")= chr [1:5] "68" "247" "265" "203" ...
## .. ..- attr(*, "dim")= int 3
## .. ..- attr(*, "dimnames")=List of 1
## .. .. ..$ Cluster: chr [1:3] "1" "2" "3"
## .. ..- attr(*, "call")= language by.data.frame(data = tabInd, INDICES = cluster, FUN = select, default.size = nb.par, method = metric, coord.| __truncated__
## .. ..- attr(*, "class")= chr "by"
## ..$ dist:List of 3
## .. ..$ 1: Named num [1:5] 4.6 4.48 4.03 4 3.99
## .. .. ..- attr(*, "names")= chr [1:5] "272" "283" "58" "116" ...
## .. ..$ 2: Named num [1:5] 4.96 4.31 4.17 4.16 4.12
## .. .. ..- attr(*, "names")= chr [1:5] "274" "51" "278" "52" ...
## .. ..$ 3: Named num [1:5] 4.38 4.35 4.27 4.26 4.05
## .. .. ..- attr(*, "names")= chr [1:5] "297" "85" "150" "266" ...
## .. ..- attr(*, "dim")= int 3
## .. ..- attr(*, "dimnames")=List of 1
## .. .. ..$ Cluster: chr [1:3] "1" "2" "3"
## .. ..- attr(*, "call")= language by.data.frame(data = tabInd, INDICES = cluster, FUN = distinctivness, default.size = nb.par, method = metric| __truncated__
## .. ..- attr(*, "class")= chr "by"
## $ call :List of 8
## ..$ t :List of 6
## .. ..$ res :List of 5
## .. .. ..$ eig : num [1:8, 1:3] 1.258 1.154 1.117 1.07 0.956 ...
## .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. ..$ : chr [1:8] "comp 1" "comp 2" "comp 3" "comp 4" ...
## .. .. .. .. ..$ : chr [1:3] "eigenvalue" "percentage of variance" "cumulative percentage of variance"
## .. .. ..$ var :List of 4
## .. .. .. ..$ coord : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. .. ..$ cor : num [1:8, 1:8] -0.36 0.333 0.683 0.295 0.275 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. .. ..$ cos2 : num [1:8, 1:8] 0.1296 0.1107 0.4665 0.087 0.0759 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. .. ..$ contrib: num [1:8, 1:8] 10.3 8.8 37.07 6.91 6.03 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:8] "Matematicas" "Ciencias" "Lectura_Critica" "Investigacion" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. ..$ ind :List of 4
## .. .. .. ..$ coord :'data.frame': 300 obs. of 8 variables:
## .. .. .. .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
## .. .. .. .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
## .. .. .. .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
## .. .. .. .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
## .. .. .. .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
## .. .. .. .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
## .. .. .. .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
## .. .. .. .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
## .. .. .. ..$ cos2 : num [1:300, 1:8] 0.21603 0.07017 0.16924 0.03238 0.00181 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. .. ..$ contrib: num [1:300, 1:8] 0.5393 0.0946 0.13655 0.04364 0.00359 ...
## .. .. .. .. ..- attr(*, "dimnames")=List of 2
## .. .. .. .. .. ..$ : chr [1:300] "1" "2" "3" "4" ...
## .. .. .. .. .. ..$ : chr [1:8] "Dim.1" "Dim.2" "Dim.3" "Dim.4" ...
## .. .. .. ..$ dist : Named num [1:300] 3.07 2.26 1.75 2.26 2.74 ...
## .. .. .. .. ..- attr(*, "names")= chr [1:300] "1" "2" "3" "4" ...
## .. .. ..$ svd :List of 3
## .. .. .. ..$ vs: num [1:8] 1.122 1.074 1.057 1.034 0.978 ...
## .. .. .. ..$ U : num [1:300, 1:8] 1.272 0.533 0.64 0.362 0.104 ...
## .. .. .. ..$ V : num [1:8, 1:8] -0.321 0.297 0.609 0.263 0.246 ...
## .. .. ..$ call:List of 9
## .. .. .. ..$ row.w : num [1:300] 0.00333 0.00333 0.00333 0.00333 0.00333 ...
## .. .. .. ..$ col.w : num [1:8] 1 1 1 1 1 1 1 1
## .. .. .. ..$ scale.unit: logi TRUE
## .. .. .. ..$ ncp : num 8
## .. .. .. ..$ centre : num [1:8] 71.9 75.1 66.6 81.2 85.4 ...
## .. .. .. ..$ ecart.type: num [1:8] 11.37 7.98 13.21 7.13 4.87 ...
## .. .. .. ..$ X :'data.frame': 300 obs. of 8 variables:
## .. .. .. .. ..$ Matematicas : num [1:300] 84.8 71.7 77.3 82.3 89.7 68.2 73 77.6 66.8 87.8 ...
## .. .. .. .. ..$ Ciencias : num [1:300] 68.7 57.3 69.2 72.7 52.5 84.3 72 65.3 86.2 66.7 ...
## .. .. .. .. ..$ Lectura_Critica: num [1:300] 48.8 52.8 50.1 46.9 50.1 44 54.2 50.8 54 63 ...
## .. .. .. .. ..$ Investigacion : num [1:300] 73.3 74.4 74.8 68.1 77.8 74.6 67.8 82 68.4 75.9 ...
## .. .. .. .. ..$ Ingles : num [1:300] 80.2 82.1 83.6 89.5 88.8 74.2 79.1 77.2 79.6 82.3 ...
## .. .. .. .. ..$ Asistencia : num [1:300] 99.9 97.1 97.7 99.2 88.1 98.8 87.4 88.8 98 96 ...
## .. .. .. .. ..$ Participacion : num [1:300] 62.5 69.6 73.4 78 85.4 85.3 65.9 91.1 66.7 79.7 ...
## .. .. .. .. ..$ Proyectos : num [1:300] 76 67 60.7 74.1 70.5 70.4 60.3 70.2 63 73.7 ...
## .. .. .. ..$ row.w.init: num [1:300] 1 1 1 1 1 1 1 1 1 1 ...
## .. .. .. ..$ call : language PCA(X = datos_acp, scale.unit = TRUE, ncp = 9, graph = TRUE)
## .. .. ..- attr(*, "class")= chr [1:2] "PCA" "list"
## .. ..$ tree :List of 7
## .. .. ..$ merge : int [1:299, 1:2] -141 -173 -179 -37 -44 -43 -106 -258 -86 -185 ...
## .. .. ..$ height : num [1:299] 0.00135 0.00135 0.00147 0.00151 0.00167 ...
## .. .. ..$ order : int [1:300] 278 258 271 192 254 124 67 146 159 187 ...
## .. .. ..$ labels : chr [1:300] "123" "296" "251" "268" ...
## .. .. ..$ method : chr "ward"
## .. .. ..$ call : language flashClust::hclust(d = dissi, method = method, members = weight)
## .. .. ..$ dist.method: chr "euclidean"
## .. .. ..- attr(*, "class")= chr "hclust"
## .. ..$ nb.clust : num 3
## .. ..$ within : num [1:299] 8 7.44 6.97 6.63 6.3 ...
## .. ..$ inert.gain: num [1:299] 0.564 0.465 0.338 0.335 0.281 ...
## .. ..$ quot : num [1:8] 0.937 0.951 0.949 0.955 0.959 ...
## ..$ min : num 3
## ..$ max : num 10
## ..$ X :'data.frame': 300 obs. of 9 variables:
## .. ..$ Dim.1: num [1:300] -2.89 -2.74 -2.73 -2.47 -2.43 ...
## .. ..$ Dim.2: num [1:300] 1.385 -0.8383 -0.6055 -0.0251 -2.2923 ...
## .. ..$ Dim.3: num [1:300] -0.37 -0.765 -1.004 -0.665 1.297 ...
## .. ..$ Dim.4: num [1:300] 0.5202 0.4729 0.0204 1.3038 1.4015 ...
## .. ..$ Dim.5: num [1:300] -0.62 -0.579 -0.27 0.962 -0.321 ...
## .. ..$ Dim.6: num [1:300] -0.421 -1.032 -0.381 0.869 0.483 ...
## .. ..$ Dim.7: num [1:300] -0.418 -0.7 0.689 0.173 -0.195 ...
## .. ..$ Dim.8: num [1:300] 0.3993 0.7165 -0.0805 -0.5332 0.2287 ...
## .. ..$ clust: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## ..$ bw.before.consol: num 1.03
## ..$ bw.after.consol : num 1.39
## ..$ vec : logi FALSE
## ..$ call : language HCPC(res = respca, nb.clust = 3)
## - attr(*, "class")= chr "HCPC"
## Matematicas Ciencias Lectura_Critica Investigacion Ingles Asistencia
## 1 85.9 86.4 80.5 82.3 84.3 70.5
## 2 72.7 83.4 73.7 78.7 77.8 79.3
## 3 73.3 78.5 71.1 88.3 81.0 82.9
## 4 59.9 80.7 67.6 73.3 89.4 86.9
## 5 68.8 82.3 62.8 88.1 89.5 97.6
## 6 75.2 53.7 60.6 84.1 95.0 85.5
## 7 75.6 83.9 77.2 79.4 85.0 92.2
## 8 66.3 71.1 62.6 80.4 77.5 88.5
## 9 79.8 76.8 40.5 90.0 81.2 76.2
## 10 66.3 72.6 62.6 88.9 87.0 85.3
## 11 80.5 82.0 71.5 90.4 94.5 71.8
## 12 59.5 72.2 72.4 80.7 85.6 93.2
## 13 52.4 79.1 82.4 87.8 90.7 76.1
## 14 100.0 71.9 44.7 92.3 88.8 95.7
## 15 73.8 66.3 66.4 78.9 79.2 85.4
## 16 73.0 84.7 76.6 73.2 84.1 77.5
## 17 84.4 80.9 77.3 72.4 91.5 94.4
## 18 73.2 88.8 59.3 83.2 89.4 72.0
## 19 83.2 75.5 58.1 79.5 87.3 70.8
## 20 73.7 84.0 82.9 92.5 87.4 87.9
## 21 67.8 90.8 45.0 83.7 82.5 95.4
## 22 65.7 72.7 69.8 77.4 78.4 83.6
## 23 64.7 64.4 80.5 72.8 91.5 85.1
## 24 91.3 73.1 45.6 75.9 77.9 76.3
## 25 57.6 73.3 78.4 82.4 80.3 91.5
## 26 54.0 76.2 97.5 76.8 88.1 86.1
## 27 70.4 88.7 65.0 88.6 78.7 71.5
## 28 73.1 72.4 61.7 82.7 82.2 94.7
## 29 82.4 78.0 67.7 79.3 79.1 77.6
## 30 73.4 73.2 58.7 74.9 88.1 85.6
## 31 59.4 75.2 74.8 93.3 87.2 79.8
## 32 82.6 77.5 75.9 82.3 87.1 73.3
## 33 61.5 85.6 75.0 81.6 87.2 95.6
## 34 56.3 76.0 60.9 68.2 87.8 88.7
## 35 75.6 80.7 46.2 84.6 88.2 95.4
## 36 68.0 81.2 57.9 77.8 75.2 73.8
## 37 76.1 82.3 84.6 73.8 84.3 90.0
## 38 78.8 70.4 38.5 86.4 85.6 88.2
## 39 85.5 88.0 39.4 76.8 88.6 98.4
## 40 73.0 72.0 54.2 67.8 79.1 87.4
## 41 80.1 74.2 66.7 92.4 82.5 79.1
## 42 66.8 86.2 54.0 68.4 79.6 98.0
## 43 70.9 85.4 75.6 89.0 90.3 95.3
## 44 61.0 66.3 69.0 92.1 91.4 82.7
## 45 64.9 68.0 60.0 75.6 88.9 84.6
## 46 98.0 64.1 71.8 83.1 78.9 93.1
## 47 84.0 76.5 66.7 83.1 87.3 77.6
## 48 57.5 76.3 59.6 92.3 90.8 94.4
## 49 71.9 77.9 64.8 83.4 85.8 94.7
## 50 58.1 79.4 72.8 78.3 82.2 82.5
## 51 100.0 70.2 66.3 86.4 79.6 97.5
## 52 83.1 67.1 57.1 90.6 81.7 72.1
## 53 62.3 83.2 85.3 73.4 88.6 94.3
## 54 83.4 81.0 75.8 70.2 82.8 84.6
## 55 65.9 62.9 68.3 86.1 86.1 79.2
## 56 73.2 74.2 63.7 78.1 91.5 88.5
## 57 70.1 67.8 61.1 73.1 87.9 79.6
## 58 59.1 58.4 100.0 80.6 91.8 89.6
## 59 86.5 76.2 68.3 70.8 76.5 97.5
## 60 69.5 74.4 63.1 86.1 83.6 87.1
## 61 66.2 74.2 44.9 75.6 85.3 89.1
## 62 80.4 76.7 43.2 86.7 87.9 82.5
## 63 82.3 82.1 64.1 100.0 79.2 93.9
## 64 72.8 76.6 64.5 73.6 89.0 95.9
## 65 60.1 70.1 68.3 87.4 86.5 81.0
## 66 86.8 69.1 74.9 90.8 86.3 84.6
## 67 65.6 73.9 62.7 79.5 87.5 96.9
## 68 62.8 77.5 79.6 76.8 84.4 83.9
## 69 52.6 66.7 63.9 91.0 89.6 76.3
## 70 57.2 73.5 50.5 71.0 88.2 90.3
## 71 59.3 82.7 60.3 75.5 84.2 92.0
## 72 71.2 74.1 83.9 69.9 90.2 89.6
## 73 76.1 69.4 74.0 89.8 86.5 76.2
## 74 85.1 72.8 71.5 78.7 88.3 98.8
## 75 66.4 83.9 61.8 81.3 82.0 70.2
## 76 78.6 79.4 54.9 100.0 92.9 97.1
## 77 63.0 84.9 60.6 84.6 85.0 72.7
## 78 57.8 76.1 52.8 76.9 89.2 95.1
## 79 78.8 78.3 51.0 87.1 84.5 86.6
## 80 67.8 70.5 44.7 69.0 83.6 88.1
## 81 97.6 79.8 74.7 83.4 88.9 94.3
## 82 64.1 70.9 67.8 79.3 77.1 77.9
## 83 72.1 63.6 74.5 88.3 87.4 71.2
## 84 57.6 76.0 93.2 73.1 87.0 74.1
## 85 72.3 90.6 59.7 72.8 71.5 73.2
## 86 56.8 81.4 68.4 80.1 86.8 75.3
## 87 68.2 84.3 44.0 74.6 74.2 98.8
## 88 74.2 77.9 55.2 89.1 88.3 75.8
## 89 73.2 70.1 65.7 91.1 82.7 80.0
## 90 70.2 73.4 65.6 78.9 81.5 90.8
## 91 70.1 72.8 52.9 77.5 85.0 90.8
## 92 60.0 71.3 100.0 77.7 91.9 78.6
## 93 93.0 80.6 56.5 80.5 81.8 79.0
## 94 53.6 65.4 75.8 80.7 87.8 82.9
## 95 76.2 81.9 69.8 82.0 86.7 81.5
## 96 97.0 81.9 61.7 74.8 79.1 97.2
## 97 64.0 65.4 67.3 74.1 76.3 86.0
## 98 64.4 80.1 74.5 88.4 75.0 88.2
## 99 63.4 94.4 84.4 81.2 87.8 85.1
## 100 74.9 70.5 64.6 87.1 84.8 85.1
## 101 66.2 81.8 71.7 84.6 94.3 82.7
## 102 72.4 68.7 60.8 73.3 87.9 76.5
## 103 66.6 83.9 77.2 89.1 89.2 79.6
## 104 70.9 77.0 51.1 81.2 91.7 77.2
## 105 86.0 88.2 92.9 94.8 82.5 70.0
## 106 69.1 63.3 57.8 80.8 87.6 76.7
## 107 80.8 74.6 47.5 77.7 89.3 99.1
## 108 71.3 70.8 70.8 81.9 91.8 83.0
## 109 68.9 73.4 66.8 76.7 88.8 98.9
## 110 62.7 70.0 81.5 74.1 87.1 77.7
## 111 64.8 68.3 75.9 83.6 80.7 74.1
## 112 73.1 79.6 63.7 77.7 88.6 86.9
## 113 78.5 66.3 45.3 79.5 87.5 83.0
## 114 83.0 86.9 54.6 79.2 88.2 95.9
## 115 87.9 65.5 73.0 75.4 87.1 97.5
## 116 93.5 75.8 92.6 65.9 84.0 88.5
## 117 68.7 79.3 42.7 87.4 84.6 95.2
## 118 52.4 79.7 78.6 85.3 88.4 78.6
## 119 66.1 72.6 58.7 76.0 85.9 97.0
## 120 70.9 75.6 85.0 95.4 80.8 74.2
## 121 73.5 82.7 61.3 82.7 83.5 74.3
## 122 87.6 63.3 63.7 89.4 78.4 87.4
## 123 84.8 68.7 48.8 73.3 80.2 99.9
## 124 64.0 77.6 72.8 81.2 84.3 86.0
## 125 78.5 71.4 82.8 84.3 76.0 73.9
## 126 65.5 86.0 88.4 85.4 76.6 75.3
## 127 79.7 80.4 71.6 76.0 90.5 93.2
## 128 78.7 75.6 84.1 79.9 82.1 89.5
## 129 82.3 62.9 77.0 67.5 75.7 86.7
## 130 65.2 75.2 73.4 74.6 84.4 92.4
## 131 48.3 72.5 80.7 80.9 91.6 80.3
## 132 77.4 74.2 53.3 75.1 88.3 81.7
## 133 68.9 65.5 72.8 79.7 87.2 80.6
## 134 62.3 79.0 89.7 76.7 90.9 88.7
## 135 71.2 66.7 71.5 89.2 81.1 74.8
## 136 66.3 73.2 80.5 88.2 88.6 77.4
## 137 72.2 78.1 52.5 74.2 82.1 98.4
## 138 81.4 68.7 67.7 77.9 85.0 99.7
## 139 67.8 79.7 55.8 90.1 96.1 86.1
## 140 71.7 64.5 69.7 69.6 89.8 71.4
## 141 89.7 52.5 50.1 77.8 88.8 88.1
## 142 80.5 78.7 71.7 99.5 79.5 91.7
## 143 89.5 81.7 48.6 95.4 81.1 87.5
## 144 72.2 72.7 83.9 81.1 96.4 85.8
## 145 90.0 79.0 70.5 74.0 79.5 80.6
## 146 78.7 65.8 53.6 81.2 86.1 72.4
## 147 96.7 74.0 64.9 75.4 89.5 73.9
## 148 64.5 59.5 57.8 90.2 90.1 81.0
## 149 78.2 84.4 66.5 74.4 90.4 88.0
## 150 77.5 89.9 77.9 82.6 84.2 77.1
## 151 62.8 83.6 52.8 84.3 80.9 70.5
## 152 62.5 74.8 55.5 79.7 83.5 79.3
## 153 60.6 74.7 68.6 91.0 80.5 72.3
## 154 67.5 62.9 81.7 74.8 88.1 77.5
## 155 73.6 81.3 75.0 84.4 90.6 74.2
## 156 73.3 73.3 57.5 92.7 95.6 81.1
## 157 49.9 69.7 74.9 78.1 86.8 74.2
## 158 80.1 63.7 61.4 87.8 80.6 87.0
## 159 82.4 72.6 68.6 81.6 90.1 86.3
## 160 98.4 68.2 65.1 82.1 89.5 74.9
## 161 83.0 71.8 95.9 86.4 83.8 98.4
## 162 77.6 65.3 50.8 82.0 77.2 88.8
## 163 47.7 88.5 76.2 81.9 88.8 71.9
## 164 64.0 74.9 43.6 76.4 90.6 75.4
## 165 66.5 83.6 72.1 84.0 83.5 90.0
## 166 77.0 54.2 78.2 90.8 87.7 97.2
## 167 63.9 71.4 92.3 64.8 83.6 94.5
## 168 65.4 69.6 38.9 69.6 88.4 83.3
## 169 86.8 65.2 70.0 76.9 84.4 74.8
## 170 87.1 87.4 81.1 68.9 83.3 75.0
## 171 67.4 63.7 70.0 82.9 85.6 84.4
## 172 90.2 77.5 59.5 73.0 83.6 81.9
## 173 56.6 81.8 64.6 64.8 82.0 93.8
## 174 71.6 76.4 79.4 75.5 83.4 93.1
## 175 59.8 68.0 83.0 77.3 85.0 82.0
## 176 71.8 82.5 90.8 86.0 86.0 88.9
## 177 69.4 76.4 63.9 77.3 92.7 82.4
## 178 76.3 66.5 67.4 93.1 78.2 81.0
## 179 83.4 63.9 94.9 82.8 84.0 88.6
## 180 70.1 91.7 70.2 87.5 88.2 98.7
## 181 80.2 69.6 67.3 74.0 93.8 84.3
## 182 66.1 60.2 45.9 93.7 87.1 88.6
## 183 57.8 79.3 75.0 78.9 84.9 78.7
## 184 93.2 77.5 59.3 67.2 83.5 82.2
## 185 73.8 64.2 64.9 83.6 87.1 83.3
## 186 49.5 59.5 58.1 71.5 89.9 78.5
## 187 64.4 74.1 53.8 77.8 84.1 99.1
## 188 68.0 84.1 56.4 82.0 85.8 96.5
## 189 78.7 80.1 62.4 84.8 86.1 94.3
## 190 69.0 71.1 81.4 87.1 88.6 91.2
## 191 84.2 68.3 74.6 74.9 90.6 75.4
## 192 87.6 77.2 57.7 85.6 86.4 71.9
## 193 86.7 76.3 44.8 90.0 84.6 73.2
## 194 65.6 80.0 64.9 74.5 92.0 95.4
## 195 69.5 71.8 59.5 75.4 85.8 80.8
## 196 52.5 82.2 66.2 89.6 92.9 93.6
## 197 71.0 68.4 57.0 86.3 84.7 97.2
## 198 59.3 72.4 99.1 83.8 88.1 89.0
## 199 68.3 80.9 58.7 89.8 77.3 88.5
## 200 68.2 82.9 50.4 87.7 84.4 72.0
## 201 88.1 59.5 60.3 87.4 84.9 77.2
## 202 50.1 75.9 52.9 84.4 81.2 82.3
## 203 60.7 79.9 76.9 83.0 79.8 94.3
## 204 71.2 63.4 67.8 87.7 89.7 81.4
## 205 61.1 78.8 69.3 94.0 89.6 83.4
## 206 73.3 68.4 45.5 73.0 78.5 87.1
## 207 74.1 83.2 67.6 77.3 87.1 73.9
## 208 77.7 79.3 65.7 84.1 79.4 70.4
## 209 53.3 81.2 44.9 79.2 79.7 90.3
## 210 100.0 76.0 73.5 80.5 87.6 95.1
## 211 67.9 81.9 74.4 90.2 81.6 98.1
## 212 84.5 86.0 89.6 85.3 90.0 71.8
## 213 80.7 90.7 63.9 78.2 85.2 90.0
## 214 75.2 74.8 75.6 77.8 87.7 81.6
## 215 86.2 57.0 63.2 80.5 82.4 87.3
## 216 62.9 75.3 75.8 87.4 79.2 74.2
## 217 73.8 76.6 42.8 88.0 89.6 77.7
## 218 60.5 73.8 44.9 95.0 86.2 79.4
## 219 78.6 79.5 64.1 79.9 83.8 91.5
## 220 65.4 83.1 58.0 87.9 85.3 75.7
## 221 100.0 70.9 62.7 86.2 91.6 74.3
## 222 53.5 72.6 39.7 84.3 81.5 87.2
## 223 60.4 78.2 57.0 82.9 81.3 71.5
## 224 73.3 70.6 61.8 78.0 81.9 83.1
## 225 83.1 75.7 73.8 79.2 77.1 84.5
## 226 64.1 59.3 51.8 86.6 89.1 83.9
## 227 60.0 66.0 55.4 85.3 86.0 84.6
## 228 71.4 64.4 66.0 91.6 86.0 92.1
## 229 64.9 68.2 71.1 79.2 84.8 99.7
## 230 52.1 69.5 66.8 79.5 82.4 95.2
## 231 65.3 78.1 100.0 76.6 80.9 73.4
## 232 71.9 82.9 51.5 84.0 89.3 95.8
## 233 71.7 69.2 61.3 84.5 77.9 87.0
## 234 67.4 67.0 55.8 63.8 87.2 90.5
## 235 82.8 66.7 80.1 70.4 81.0 93.7
## 236 83.8 71.7 55.8 84.5 86.4 82.1
## 237 82.6 73.1 61.0 78.1 81.3 95.6
## 238 58.6 78.9 74.4 71.6 82.4 75.7
## 239 73.6 72.4 49.3 66.1 93.8 84.9
## 240 73.5 58.4 84.9 77.5 88.3 73.6
## 241 63.5 74.3 73.1 89.6 74.3 76.9
## 242 43.4 84.5 62.1 92.4 85.6 97.2
## 243 86.8 84.5 67.5 79.7 82.7 84.2
## 244 56.7 68.7 72.4 90.5 79.3 86.2
## 245 72.3 62.6 65.8 80.6 86.0 99.2
## 246 80.0 94.7 73.9 80.8 85.6 99.2
## 247 62.3 73.7 77.8 87.3 83.4 90.6
## 248 78.5 74.2 48.8 73.9 94.9 93.4
## 249 57.4 78.4 58.7 79.6 73.8 70.6
## 250 61.5 62.1 72.0 86.4 89.2 91.9
## 251 77.3 69.2 50.1 74.8 83.6 97.7
## 252 66.3 62.7 49.5 77.7 88.3 83.2
## 253 63.7 69.5 64.8 77.0 82.7 91.2
## 254 77.7 76.0 60.4 82.5 82.0 94.5
## 255 76.7 64.1 34.4 88.0 76.4 84.6
## 256 48.5 79.7 87.5 84.5 84.0 95.3
## 257 74.5 77.3 65.0 71.5 97.4 84.8
## 258 77.6 67.8 94.0 85.8 89.9 70.5
## 259 64.6 76.8 73.2 78.4 93.4 83.2
## 260 72.3 81.0 59.6 80.0 89.6 84.3
## 261 74.9 83.5 98.6 89.4 90.7 88.0
## 262 72.7 73.3 99.0 76.5 89.5 83.3
## 263 71.5 74.3 60.4 85.0 87.4 79.2
## 264 68.8 74.3 70.6 74.8 82.1 90.2
## 265 65.9 86.5 62.5 81.7 82.3 88.3
## 266 43.6 84.0 67.2 88.1 77.0 99.2
## 267 77.1 81.7 64.7 75.2 85.0 75.3
## 268 82.3 72.7 46.9 68.1 89.5 99.2
## 269 83.4 78.0 65.4 88.9 90.2 87.4
## 270 64.4 78.2 86.0 87.5 85.5 92.1
## 271 87.8 66.7 63.0 75.9 82.3 96.0
## 272 80.9 61.2 60.0 66.0 100.0 89.4
## 273 79.3 80.1 78.8 93.3 88.7 90.8
## 274 90.7 62.8 72.8 100.0 92.1 99.9
## 275 57.8 75.0 55.2 81.5 83.3 95.5
## 276 60.5 77.0 77.7 85.9 84.8 93.0
## 277 94.0 79.5 84.8 88.6 87.2 74.1
## 278 70.1 76.5 82.0 80.1 93.4 72.9
## 279 94.3 69.1 67.0 77.5 83.4 85.7
## 280 50.6 82.9 83.7 67.9 89.3 75.8
## 281 63.1 88.9 60.6 74.8 74.5 91.9
## 282 81.8 82.0 65.6 84.4 82.5 84.8
## 283 73.0 59.5 53.5 83.0 78.5 74.3
## 284 67.9 86.2 56.5 78.5 90.6 95.2
## 285 78.2 74.6 73.2 79.2 84.2 98.2
## 286 59.2 79.2 51.4 72.0 83.0 78.3
## 287 85.1 80.0 65.2 85.9 91.8 74.5
## 288 88.8 74.2 67.1 69.9 90.6 91.2
## 289 55.8 74.4 62.7 78.5 80.5 87.0
## 290 77.4 83.2 96.9 76.9 87.1 72.7
## 291 65.6 80.7 49.7 78.5 78.9 86.8
## 292 82.5 82.9 69.3 90.2 82.6 88.5
## 293 84.6 94.1 60.9 75.9 93.1 86.5
## 294 68.0 80.3 61.9 74.5 92.3 81.8
## 295 58.5 76.7 80.6 69.4 90.5 82.5
## 296 71.7 57.3 52.8 74.4 82.1 97.1
## 297 74.4 96.5 49.2 71.8 75.6 90.2
## 298 86.8 71.1 56.1 82.9 79.1 98.6
## 299 57.5 94.0 83.0 74.0 89.8 74.5
## 300 48.6 78.0 75.7 82.1 83.5 86.8
## Participacion Proyectos clust
## 1 64.7 76.2 2
## 2 69.8 81.5 3
## 3 74.5 85.1 2
## 4 85.1 76.7 3
## 5 87.7 82.1 2
## 6 77.6 67.7 1
## 7 78.1 75.8 3
## 8 73.1 74.2 3
## 9 75.4 79.8 2
## 10 63.8 81.2 2
## 11 77.3 76.9 2
## 12 70.7 71.1 3
## 13 77.7 69.6 3
## 14 72.2 80.5 2
## 15 69.7 90.2 2
## 16 73.2 70.9 3
## 17 72.1 74.5 1
## 18 83.8 81.0 2
## 19 76.7 73.0 2
## 20 78.5 79.1 2
## 21 65.1 77.6 3
## 22 87.0 71.0 3
## 23 76.3 85.5 1
## 24 68.1 85.6 2
## 25 77.5 87.2 3
## 26 82.0 89.4 3
## 27 63.9 73.4 3
## 28 88.5 73.8 1
## 29 73.7 80.4 2
## 30 84.0 83.7 1
## 31 75.6 74.9 3
## 32 72.3 74.2 2
## 33 60.3 72.4 3
## 34 66.2 91.3 3
## 35 74.7 55.4 1
## 36 81.6 76.5 3
## 37 59.9 78.3 3
## 38 86.0 68.5 1
## 39 86.2 81.5 1
## 40 65.9 60.3 1
## 41 78.8 86.6 2
## 42 66.7 63.0 1
## 43 74.0 58.2 3
## 44 82.4 71.1 2
## 45 81.9 79.5 1
## 46 68.2 72.1 1
## 47 71.9 73.0 2
## 48 67.2 81.0 2
## 49 77.7 68.5 1
## 50 62.5 77.2 3
## 51 54.0 82.5 2
## 52 86.8 92.7 2
## 53 93.2 82.3 3
## 54 71.4 93.4 2
## 55 81.1 82.1 2
## 56 74.9 78.0 1
## 57 86.8 57.7 1
## 58 79.4 67.0 1
## 59 76.6 75.1 1
## 60 60.6 84.4 2
## 61 83.7 75.1 1
## 62 72.2 82.9 2
## 63 63.8 68.4 2
## 64 73.4 75.5 1
## 65 74.0 80.0 2
## 66 83.5 74.8 2
## 67 65.7 79.0 1
## 68 70.5 72.0 3
## 69 86.9 81.4 2
## 70 85.9 77.3 1
## 71 84.3 77.6 3
## 72 88.3 60.5 1
## 73 76.6 71.9 2
## 74 70.3 64.6 1
## 75 79.4 63.5 3
## 76 83.5 73.6 2
## 77 94.3 76.6 3
## 78 59.3 80.6 1
## 79 77.2 87.8 2
## 80 80.2 82.0 1
## 81 74.6 87.1 2
## 82 62.5 73.3 3
## 83 80.9 75.2 2
## 84 68.8 87.8 3
## 85 79.0 78.0 3
## 86 82.3 62.9 3
## 87 85.3 70.4 1
## 88 62.5 87.1 2
## 89 83.7 72.5 2
## 90 68.9 81.0 3
## 91 64.7 78.1 1
## 92 85.5 73.5 3
## 93 84.2 74.8 2
## 94 73.1 81.5 3
## 95 81.1 79.9 2
## 96 68.1 89.1 2
## 97 73.8 76.2 1
## 98 74.3 69.7 3
## 99 72.8 79.5 3
## 100 80.9 84.3 2
## 101 87.3 98.5 2
## 102 71.4 73.8 1
## 103 74.7 75.1 3
## 104 88.1 85.9 2
## 105 72.4 89.5 2
## 106 54.2 72.1 1
## 107 79.1 84.0 1
## 108 67.9 72.9 1
## 109 67.0 69.3 1
## 110 86.4 83.6 3
## 111 94.6 79.0 3
## 112 66.7 81.5 2
## 113 83.2 72.8 1
## 114 74.2 94.2 2
## 115 76.1 84.0 1
## 116 84.8 74.6 1
## 117 76.7 84.3 2
## 118 68.2 67.1 3
## 119 71.2 76.8 1
## 120 80.5 90.6 2
## 121 56.3 76.3 3
## 122 83.8 86.2 2
## 123 62.5 76.0 1
## 124 75.2 57.3 3
## 125 73.5 70.1 3
## 126 85.3 80.0 3
## 127 76.5 91.0 2
## 128 75.8 72.7 3
## 129 80.6 80.5 1
## 130 68.4 69.3 1
## 131 73.4 68.9 3
## 132 84.4 71.0 1
## 133 80.5 90.3 2
## 134 64.8 86.5 3
## 135 80.1 83.3 2
## 136 64.0 88.0 2
## 137 70.2 74.2 1
## 138 84.7 84.8 1
## 139 57.0 79.9 2
## 140 60.8 68.6 1
## 141 85.4 70.5 1
## 142 68.5 78.5 2
## 143 84.9 79.9 2
## 144 73.7 75.1 2
## 145 78.4 69.0 1
## 146 81.5 59.2 1
## 147 69.8 81.8 2
## 148 72.6 75.3 2
## 149 71.7 82.9 2
## 150 97.5 64.1 3
## 151 76.0 66.7 3
## 152 78.8 77.0 3
## 153 72.3 65.3 3
## 154 73.1 60.2 1
## 155 86.0 85.1 2
## 156 72.3 86.1 2
## 157 75.2 68.7 3
## 158 78.0 75.6 2
## 159 71.5 67.8 1
## 160 90.7 80.8 2
## 161 63.6 77.7 2
## 162 91.1 70.2 1
## 163 72.2 71.0 3
## 164 85.9 68.4 1
## 165 59.0 81.9 3
## 166 82.6 83.1 2
## 167 82.0 81.4 3
## 168 64.8 70.4 1
## 169 68.9 61.9 1
## 170 76.5 82.8 3
## 171 84.2 76.4 1
## 172 68.9 77.6 1
## 173 73.2 87.3 3
## 174 87.6 70.0 1
## 175 66.0 88.3 3
## 176 82.6 74.3 3
## 177 78.6 71.6 1
## 178 66.2 76.1 2
## 179 69.7 81.5 2
## 180 81.3 76.1 3
## 181 77.0 69.9 1
## 182 86.4 75.5 2
## 183 70.2 55.1 3
## 184 61.3 73.4 1
## 185 83.4 82.1 2
## 186 70.1 76.5 1
## 187 76.0 84.2 1
## 188 88.8 82.4 3
## 189 73.0 83.8 2
## 190 87.4 83.9 2
## 191 66.2 62.4 1
## 192 82.4 78.0 2
## 193 77.0 92.7 2
## 194 69.1 73.7 1
## 195 64.8 82.1 1
## 196 75.6 79.3 3
## 197 77.0 83.0 2
## 198 77.2 75.6 3
## 199 79.3 72.2 3
## 200 71.3 78.6 2
## 201 70.9 79.9 2
## 202 76.9 76.3 3
## 203 70.7 78.3 3
## 204 84.8 81.7 2
## 205 76.4 71.0 3
## 206 70.1 88.3 1
## 207 60.5 97.8 2
## 208 69.9 91.3 2
## 209 91.4 73.9 3
## 210 70.5 61.6 1
## 211 68.3 78.5 3
## 212 80.2 85.9 2
## 213 78.5 85.0 2
## 214 81.0 66.9 1
## 215 72.8 68.0 1
## 216 84.0 79.2 3
## 217 65.6 83.6 2
## 218 74.6 85.9 2
## 219 69.4 85.3 2
## 220 80.4 69.3 3
## 221 76.0 66.2 2
## 222 83.9 59.9 1
## 223 91.5 82.5 3
## 224 76.1 85.5 2
## 225 70.7 81.0 2
## 226 68.4 68.5 1
## 227 72.9 92.1 2
## 228 74.4 74.7 2
## 229 90.9 94.0 2
## 230 66.0 83.0 3
## 231 66.3 88.7 3
## 232 71.7 81.0 2
## 233 79.7 77.4 2
## 234 81.6 68.9 1
## 235 67.7 73.0 1
## 236 76.0 77.6 2
## 237 74.7 80.5 1
## 238 84.6 77.7 3
## 239 83.7 76.4 1
## 240 72.5 79.7 2
## 241 75.4 73.3 3
## 242 80.2 73.2 3
## 243 61.8 64.9 1
## 244 72.5 85.6 3
## 245 79.6 78.4 1
## 246 70.8 77.2 3
## 247 74.5 71.3 3
## 248 74.8 75.8 1
## 249 69.2 68.2 3
## 250 67.0 68.6 1
## 251 73.4 60.7 1
## 252 72.2 86.8 1
## 253 81.7 79.1 1
## 254 87.2 67.9 1
## 255 74.9 88.5 2
## 256 78.2 83.6 3
## 257 74.4 84.7 1
## 258 79.8 76.0 2
## 259 76.7 74.2 3
## 260 76.9 77.1 2
## 261 83.9 81.6 2
## 262 67.1 85.2 3
## 263 86.6 92.3 2
## 264 77.8 73.4 1
## 265 76.4 68.9 3
## 266 70.5 78.9 3
## 267 73.7 100.0 2
## 268 78.0 74.1 1
## 269 58.5 88.3 2
## 270 70.2 75.8 3
## 271 79.7 73.7 1
## 272 72.6 71.6 1
## 273 68.6 76.1 2
## 274 69.9 92.8 2
## 275 76.9 80.7 3
## 276 61.9 82.4 3
## 277 82.0 85.5 2
## 278 57.6 96.6 2
## 279 71.0 85.0 2
## 280 68.7 65.2 3
## 281 65.0 68.7 3
## 282 66.4 63.7 3
## 283 77.0 52.4 1
## 284 74.0 89.6 2
## 285 72.6 73.6 1
## 286 56.4 81.6 3
## 287 64.4 88.6 2
## 288 73.9 73.4 1
## 289 68.0 76.8 3
## 290 68.6 81.2 3
## 291 83.4 80.0 3
## 292 76.4 71.0 2
## 293 66.6 84.6 2
## 294 71.3 82.9 2
## 295 72.7 75.4 3
## 296 69.6 67.0 1
## 297 67.3 83.7 3
## 298 74.6 90.8 2
## 299 80.9 90.4 3
## 300 76.8 85.9 3
# Contiene los datos originales + una columna clust que asigna cada individuo
# a un cluster.
Grupos=res.hcpc$data.clust$clust # Extrae solo la columna de clusters
table(Grupos) # Muestra cuántos individuos hay en cada cluster
## Grupos
## 1 2 3
## 91 111 98
## Facultad Matematicas Ciencias Lectura_Critica Investigacion Ingles
## 1 Ingeniería 85.9 86.4 80.5 82.3 84.3
## 2 Humanidades 72.7 83.4 73.7 78.7 77.8
## 3 Ciencias 73.3 78.5 71.1 88.3 81.0
## 4 Salud 59.9 80.7 67.6 73.3 89.4
## 5 Salud 68.8 82.3 62.8 88.1 89.5
## 6 Ingeniería 75.2 53.7 60.6 84.1 95.0
## Asistencia Participacion Proyectos Grupos
## 1 70.5 64.7 76.2 2
## 2 79.3 69.8 81.5 3
## 3 82.9 74.5 85.1 2
## 4 86.9 85.1 76.7 3
## 5 97.6 87.7 82.1 2
## 6 85.5 77.6 67.7 1
boxplot(datosf$Matematica ~ datosf$Grupos,
main= "BoxPlot de Matematica vs CLUSTER",
xlab = "Cluster",
names=c("Cluster 1", "Cluster 2", "Cluster 3"),
col = c("red","blue","peru"))
boxplot(datosf$Ciencias ~ datosf$Grupos,
main= "BoxPlot de Ciencias vs CLUSTER",
xlab = "Cluster",
names=c("Cluster 1", "Cluster 2", "Cluster 3"),
col = c("red","blue","peru"))
CONCLUSIÓN, luego de observar ambos gráficos:
Patrón observado:
Cluster 2 domina en Ciencias y Matemáticas (consistente con el primer gráfico).
Cluster 1 muestra bajo rendimiento en ambas áreas.
## 1 2 3
## 74.7 77.7 62.8
## 1 2 3
## 70.7 74.7 79.7
## 1 2 3
## 61.3 65.5 72.8
## 1 2 3
## 75.9 85.8 80.8
## 1 2 3
## 86.2 86.3 83.7
## 1 2 3
## 89.0 83.3 84.0
## 1 2 3
## 75.3 75.0 74.8
## 1 2 3
## 72.4 82.8 76.1
## 1 2 3
## mate 74.7 77.7 62.8
## cie 70.7 74.7 79.7
## lec 61.3 65.5 72.8
## inv 75.9 85.8 80.8
## ing 86.2 86.3 83.7
## asi 89.0 83.3 84.0
## par 75.3 75.0 74.8
## pro 72.4 82.8 76.1
general <- c(mean(mate),mean(cie),mean(lec),
mean(inv),mean(ing),mean(asi),
mean(par),mean(pro)) ; general
## [1] 71.7 75.1 66.5 80.8 85.4 85.5 75.1 77.1
## num [1:8, 1:4] 74.7 70.7 61.3 75.9 86.2 ...
## - attr(*, "dimnames")=List of 2
## ..$ : chr [1:8] "mate" "cie" "lec" "inv" ...
## ..$ : chr [1:4] "1" "2" "3" "general"
## 1 2 3 general
## mate 74.7 77.7 62.8 71.7
## cie 70.7 74.7 79.7 75.1
## lec 61.3 65.5 72.8 66.5
## inv 75.9 85.8 80.8 80.8
## ing 86.2 86.3 83.7 85.4
## asi 89.0 83.3 84.0 85.5
## par 75.3 75.0 74.8 75.1
## pro 72.4 82.8 76.1 77.1
Conclusión:
Cluster 2 = Excelencia académica.
Cluster 3 = Fortalezas en ciencias/lectura.
Cluster 1 = Requiere refuerzo en áreas críticas.
matplot(medias,
main = "Grafico de promedios de Variables segun Cluster",
xlab = "Variables",
ylab = "Promedios",
type="l",
xaxt="n", # Permite eliminar los nombres del eje X
ylim=c(-2,20),
col=c("blue","red","green2","black"))
axis(1,at=1:8,labels=c("mate","cie","lec","inv","ing","asi","par","pro"))
legend("topright", c("Cluster 1", "Cluster 2", "Cluster 3","General"),
pch=c(5,5,5,5), ncol=4, cex=0.8,
col=c("blue","red","green2","black"), bty="n")
Para obtener conglomerados con los componentes principles tambien se puede usar la libreria Factoshiny. Entrar a “Principal Component Analysis”, hacer check en “perform clustering after leaving PCA app?”, escoger el numero de cluster en “Number of dimensions kept for clustering” y despues “quit the app”, finalmente explorar los cluster, los cluster que se haya elegido.
Método Paralelo para la retencion de componentes principales. Cuando hay subjetividad en el grafico de sedimentacion (Scree Plot) respecto al numero de CP a retener #se puede recurrir al Método Paralelo
##
## Using eigendecomposition of correlation matrix.
## Computing: 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
##
##
## Results of Horn's Parallel Analysis for component retention
## 5000 iterations, using the mean estimate
##
## --------------------------------------------------
## Component Adjusted Unadjusted Estimated
## Eigenvalue Eigenvalue Bias
## --------------------------------------------------
## 1 1.010218 1.258416 0.248197
## --------------------------------------------------
##
## Adjusted eigenvalues > 1 indicate dimensions to retain.
## (1 components retained)
Se confirma que se debe retener 1 CP.
Esta prueba tiene la limitacion de aconsejar la retencion de demasiadas Componentes Principales.
## bartlett anderson lawley
## 1 1 2
Con este test se recomienda retener 1 o 2 CP.
Se utilizan los datos de Holzinger y Swineford (1939) consiste en puntuaciones de pruebas de capacidad mental de niños de séptimo y octavo grado de dos escuelas diferentes, tomados del paquete levaan. Habilidades Espaciales:
Habilidades Verbales:
Velocidad/Precisión:
## This is lavaan 0.6-19
## lavaan is FREE software! Please report any bugs.
##
## Adjuntando el paquete: 'lavaan'
## The following object is masked from 'package:psych':
##
## cor2cov
data(HolzingerSwineford1939)
# Seleccionar solo las variables x1 a x9
datos <- HolzingerSwineford1939[, c("x1", "x2", "x3", "x4", "x5", "x6", "x7", "x8", "x9")]
head(datos)
## x1 x2 x3 x4 x5 x6 x7 x8 x9
## 1 3.33 7.75 0.375 2.33 5.75 1.286 3.39 5.75 6.36
## 2 5.33 5.25 2.125 1.67 3.00 1.286 3.78 6.25 7.92
## 3 4.50 5.25 1.875 1.00 1.75 0.429 3.26 3.90 4.42
## 4 5.33 7.75 3.000 2.67 4.50 2.429 3.00 5.30 4.86
## 5 4.83 4.75 0.875 2.67 4.00 2.571 3.70 6.30 5.92
## 6 5.33 5.00 2.250 1.00 3.00 0.857 4.35 6.65 7.50
## x1 x2 x3 x4 x5 x6 x7 x8 x9
## x1 1.363 0.4087 0.5818 0.507 0.442 0.456 0.0850 0.265 0.460
## x2 0.409 1.3864 0.4526 0.210 0.212 0.248 -0.0971 0.110 0.245
## x3 0.582 0.4526 1.2791 0.209 0.113 0.245 0.0886 0.213 0.375
## x4 0.507 0.2096 0.2089 1.355 1.101 0.899 0.2205 0.126 0.244
## x5 0.442 0.2118 0.1127 1.101 1.665 1.018 0.1435 0.181 0.296
## x6 0.456 0.2484 0.2449 0.899 1.018 1.200 0.1446 0.166 0.237
## x7 0.085 -0.0971 0.0886 0.220 0.143 0.145 1.1871 0.537 0.375
## x8 0.265 0.1100 0.2130 0.126 0.181 0.166 0.5370 1.025 0.459
## x9 0.460 0.2448 0.3751 0.244 0.296 0.237 0.3745 0.459 1.018
La matriz de covarianza revela relaciones significativas entre varias variables del estudio. Destacan las altas covarianzas entre x4, x5 y x6, lo que sugiere que están asociadas a un mismo factor, posiblemente relacionado con habilidades verbales. También se observan relaciones moderadas entre x7, x8 y x9, indicando un posible componente común vinculado a velocidad o ejecución. En cambio, otras covarianzas, como entre x1 y x7, son bajas, lo que evidencia independencia entre ciertos pares de variables.
## x1 x2 x3 x4 x5 x6 x7 x8 x9
## x1 1.0000 0.2973 0.4407 0.373 0.2934 0.357 0.0669 0.2239 0.390
## x2 0.2973 1.0000 0.3398 0.153 0.1394 0.193 -0.0757 0.0923 0.206
## x3 0.4407 0.3398 1.0000 0.159 0.0772 0.198 0.0719 0.1860 0.329
## x4 0.3727 0.1529 0.1586 1.000 0.7332 0.704 0.1738 0.1069 0.208
## x5 0.2934 0.1394 0.0772 0.733 1.0000 0.720 0.1020 0.1387 0.227
## x6 0.3568 0.1925 0.1977 0.704 0.7200 1.000 0.1211 0.1496 0.214
## x7 0.0669 -0.0757 0.0719 0.174 0.1020 0.121 1.0000 0.4868 0.341
## x8 0.2239 0.0923 0.1860 0.107 0.1387 0.150 0.4868 1.0000 0.449
## x9 0.3903 0.2060 0.3287 0.208 0.2275 0.214 0.3406 0.4490 1.000
Al igual que en la matriz de covarianza se identifican bloques de variables con correlaciones altas, como x4, x5 y x6, lo que sugiere que comparten una misma dimensión psicológica. De igual forma, x7, x8 y x9 muestran correlaciones moderadas, apuntando a una posible agrupación temática distinta. Las correlaciones bajas entre algunas variables, como x1 y x7, indican que no todas comparten relación significativa. En conjunto, esta estructura de correlaciones apoya la idea de que existen factores comunes que pueden ser identificados mediante análisis factorial.
Primero
## Warning: package 'corrr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'corrr'
## The following object is masked from 'package:dlookr':
##
## correlate
library(corrplot)
i=cor(datos,method="pearson")
corrplot(i,method = "circle",order = "FPC",tl.pos = "d",col = COL1('Purples'))
corrplot(i,add=TRUE,type="lower",method = "number",order = "AOE",
diag = FALSE,tl.pos = "n",cl.pos = "n",col = COL1('Purples'))
Habilidades Verbales (\(x_4,x_5,x_6\)):
Muestran correlaciones fuertes y positivas (tonos oscuros o círculos grandes en el gráfico), especialmente entre:
\(x_4\)(comprensión de párrafos) y \(_5\)(completación de oraciones): \(r=0.73\).
\(x_4\) y \(x_6\) (memoria de palabras): \(r=0.70.\)
Esto sugiere que estas habilidades comparten un factor subyacente común (ej. “inteligencia verbal”).
Habilidades Espaciales (\(x_1, x_2, x_3\)):
Correlaciones moderadas (tonos medios):
\(x_1\) (percepción visual) y \(x_3\) (rotación mental): \(r=0.44\).
\(x_2\) (razonamiento espacial) y \(x_3\): \(r=0.34\).
Reflejan que estas habilidades están relacionadas pero no son idénticas.
Velocidad/Precisión (\(x_7, x_8, x_9\)):
\(x_7\) (velocidad en sumas) y \(x_8\) (conteo rápido) tienen una correlación alta (\(r=0.49\)), indicando que miden aspectos similares de rapidez cognitiva.
\(x_9\) (discriminación visual) correlaciona mejor con habilidades espaciales (\(x_1, x_3\)) que con velocidad.
## Warning: package 'polycor' was built under R version 4.4.3
##
## Adjuntando el paquete: 'polycor'
## The following object is masked from 'package:psych':
##
## polyserial
library(ggcorrplot)
matpoly <- hetcor(datos)$correlations
ggcorrplot(matpoly, method = 'circle',type="lower",hc.order = TRUE)+
theme_gray()
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = datos)
## Overall MSA = 0.75
## MSA for each item =
## x1 x2 x3 x4 x5 x6 x7 x8 x9
## 0.81 0.78 0.73 0.76 0.74 0.81 0.59 0.68 0.79
El índice KMO global (0.75) indica que los datos son adecuados para el análisis factorial, aunque no óptimos. A nivel individual, la mayoría de las variables presentan valores superiores a 0.70, destacando:
\(x_1\) (0.81) y \(x_6\) (0.81) como las que mayor varianza comparten.
Sin embargo, \(x_7\) (velocidad en sumas) muestra un MSA bajo (0.59), lo que sugiere que esta variable podría no integrarse eficientemente en la estructura factorial. Este resultado refuerza la necesidad de validar las cargas factoriales en etapas posteriores y considerar la exclusión de \(x_7\) si su contribución al modelo es marginal.
\(H_0: R=I\), La matriz de correlaciones poblacionales es una matriz identidad
\(H_1: R \neq I\), La matriz de correlaciones no es una matriz identidad
## Warning in cortest.bartlett(corre, n = NULL, diag = TRUE): n not specified, 100
## used
## $chisq
## [1] 291
##
## $p.value
## [1] 0.000000000000000000000000000000000000000015
##
## $df
## [1] 36
La prueba de esfericidad de Bartlett se realizó para evaluar la hipótesis nula de que la matriz de correlaciones es una matriz identidad \((H_0: R = I)\). El resultado fue estadísticamente significativo \((X^2 = 290.51, p < 0.001)\), lo que permite rechazar \(H_0\) y concluir que existen correlaciones significativas entre las variables. Esto respalda la aplicabilidad del análisis factorial para identificar dimensiones latentes en los datos.
##
## Shapiro-Wilk normality test
##
## data: Z
## W = 1, p-value = 0.00001
Se evaluó el supuesto de normalidad multivariada mediante la prueba de Shapiro-Wilk aplicada a las variables estandarizadas. El p-valor < 0.001, indica que los datos no siguen una distribución normal multivariada.
Sin embargo, dado que el análisis factorial exploratorio (AFE) no exige estrictamente el cumplimiento de la normalidad multivariada, especialmente cuando se emplean métodos de extracción como mínimos residuales (minres) o ejes principales (principal axis factoring), se considera aceptable continuar con el análisis.
Se compararon tres métodos de extracción factorial (Máxima Verosimilitud, Ejes Principales y Mínimos Cuadrados) para evaluar la robustez de la estructura latente.
facto1 <- fa(matpoly,nfactors = 3,rotate="none",
fm="mle") # Máxima Verosimilitud (ML)
facto2 <- fa(matpoly, nfactors = 3, rotate = "none",
fm="paf") # modelo de ejes principales
facto3 <- fa(matpoly, nfactors = 3, rotate = "none",
fm="minchi") # modelo mínimos cuadrados
f1<-sort(facto1$communality,decreasing=TRUE)
f2 <- sort(facto2$communality,decreasing = TRUE)
f3 <- sort(facto3$communality,decreasing = TRUE)
head(cbind(f1,f2,f3))
## f1 f2 f3
## x5 0.757 0.754 0.754
## x4 0.721 0.728 0.728
## x6 0.695 0.691 0.691
## x8 0.531 0.520 0.520
## x7 0.498 0.519 0.519
## x1 0.487 0.477 0.477
Las comunalidades son muy similares en los tres enfoques, especialmente para variables con alta varianza compartida (ej. x5, x4, x6).
Las variabes probematicas como x7 (velocidad en sumas) y x1 (percepción visual) tienen comunalidades bajas (<0.5 en ML), lo que sugiere que aportan menos a la estructura factorial.
u1 <- sort(facto1$uniquenesses,decreasing = TRUE)
u2 <- sort(facto2$uniquenesses,decreasing = TRUE)
u3 <- sort(facto3$uniquenesses,decreasing = TRUE)
head(cbind(u1,u2,u3))
## u1 u2 u3
## x2 0.749 0.745 0.745
## x9 0.543 0.547 0.547
## x3 0.543 0.540 0.540
## x1 0.513 0.523 0.523
## x7 0.502 0.481 0.481
## x8 0.469 0.480 0.480
Las variables x2 (razonamiento espacial) y x3 (rotación mental) tienen alta unicidad, indicando que parte de su varianza no es capturada por los factores comunes.
x9 (discriminación visual) también muestra unicidad elevada, lo que podría deberse a su relación mixta con factores espaciales y de velocidad.
En conclución, se selecciona el enfoque de Ejes Principales (PAF) por su robustez ante posibles violaciones de normalidad y su enfoque en la varianza compartida. Aunque las comunalidades y unicidades fueron similares entre PAF, Máxima Verosimilitud (ML) y Mínimos Cuadrados (MinRes), PAF se alinea mejor con los supuestos prácticos de los datos educativos.
## [1] 3.216 1.639 1.365 0.699 0.584 0.500 0.473 0.286 0.238
Factores retenidos: 3 (valores > 1).
Los primeros tres factores explican 61.5% de la varianza total (3.216 + 1.639 + 1.365 = 6.220 / 9 variables).
El cuarto valor propio (0.699) está por debajo de 1, lo que sugiere que añadir más factores no aportaría información relevante.
Se observa que los valores retinidos, que se encuentran por encima del
uumbral son 3 (3.216, 1.639, 1.365), es decir, se encontraron 3 factores
significativos.
El punto de codo después del tercer factor, es decir,la pendiente entre los factores 3 y 4 es casi plana.
## Parallel analysis suggests that the number of factors = 3 and the number of components = NA
En esta comparación de valores propios observados (línea azul) con los valores propios medios de matrices aleatorias( linea roja), 3 factores observados estan por encima de la linea roja, desdues del cuarto los valores observados caen por debajo.
MR1 (Habilidades Verbales): x4, x5, x6 (cargas > 0.79).
MR3 (Habilidades Espaciales): x1, x3 (cargas > 0.61).
MR2 (Velocidad/Precisión): x7, x8, x9 (cargas > 0.52).
El Factor 1 (MR1) está fuertemente relacionado con habilidades verbales, ya que las variables x4 (0.832), x5 (0.859) y x6 (0.799), que corresponden a comprensión de párrafos, completación de oraciones y memoria de palabras, tienen cargas altas. Esto sugiere que las personas con mejor desempeño en estas áreas también tienden a obtener puntuaciones altas en MR1. El Factor 2 (MR3) está vinculado a habilidades espaciales y visuales, reflejadas en las cargas moderadas a altas de x1 (0.613), x2 (0.494) y x3 (0.660), que representan percepción visual y rotación mental de figuras. Finalmente, el Factor 3 (MR2) se asocia con habilidades de velocidad y precisión, dado que x7 (0.709), x8 (0.699) y x9 (0.521), relacionadas con velocidad en sumas, conteo rápido y discriminación visual, presentan altas cargas, indicando que MR2 mide la rapidez y exactitud en tareas visuales y matemáticas.
##
## Loadings:
## MR1 MR3 MR2
## x1 0.279 0.613 0.152
## x2 0.102 0.494 -0.030
## x3 0.038 0.660 0.129
## x4 0.832 0.161 0.099
## x5 0.859 0.088 0.089
## x6 0.799 0.214 0.085
## x7 0.093 -0.082 0.709
## x8 0.051 0.171 0.699
## x9 0.130 0.415 0.521
##
## MR1 MR3 MR2
## SS loadings 2.187 1.342 1.329
## Proportion Var 0.243 0.149 0.148
## Cumulative Var 0.243 0.392 0.540
El análisis factorial muestra que el Factor 1 (MR1) explica el 24.3% de la varianza, asociado principalmente con habilidades verbales, como x4 (0.832) y x5 (0.859). El Factor 2 (MR3), que captura 14.9% de la varianza, está relacionado con habilidades espaciales, reflejadas en x1 (0.613) y x3 (0.660). Finalmente, el Factor 3 (MR2) explica 14.8% de la varianza y está vinculado con habilidades de velocidad y precisión, destacando x7 (0.709) y x8 (0.699). En conjunto, estos tres factores explican el 54.0% de la varianza total.
## Warning: package 'Factoshiny' was built under R version 4.4.3
## Warning: package 'FactoInvestigate' was built under R version 4.4.3
library(dplyr)
library(FactoMineR)
library(factoextra) # Visualización de resultados
library(tidyverse) # Manipulación, transformación y visualización de datos
library(sjPlot)#fácil visualización
## Warning: package 'sjPlot' was built under R version 4.4.3
## Warning: package 'performance' was built under R version 4.4.3
#library(tidymodels) # Herramientas para estimación modelos
library(jsonlite) # Leer código json
library(visdat) # Vistazo a los datos
## Warning: package 'visdat' was built under R version 4.4.3
## Warning: package 'naniar' was built under R version 4.4.3
## Warning: package 'tidytext' was built under R version 4.4.3
## Warning: package 'effectsize' was built under R version 4.4.3
En el presente estudio se analiza una base de datos correspondiente a un proceso de admisión en una institución educativa de nivel superior. La base de datos incluye información de diversos postulantes, considerando tanto características académicas como socioeconómicas. Las variables consideradas son:
Admitido (Sí/No): resultado del proceso de admisión.
Sexo: género del postulante.
NSE: nivel socioeconómico del postulante (categorizado como A, B, C).
PEG: puntaje obtenido en el examen general de admisión (variable numérica).
Calificaciones: promedio de rendimiento académico previo (variable numérica).
Prestigio: nivel de prestigio de la institución educativa de procedencia (niveles I, II, III, IV).
El propósito del estudio es explorar la estructura subyacente de los datos y comprender cómo se agrupan los postulantes en función de múltiples dimensiones simultáneamente. Para ello, se propone realizar un Análisis Factorial de Datos Mixtos (FAMD).
# Simulación de carga de datos (reemplazar por tu propia lectura de datos)
data <- read.table("Admision.txt", header = TRUE)
head(data)
## Admitido Sexo NSE PEG Calificaciones Prestigio
## 1 Admitido Masculino A 380 3.61 III
## 2 No_admitido Femenino A 660 3.67 III
## 3 No_admitido Femenino A 800 4.00 I
## 4 No_admitido Masculino A 640 3.19 IV
## 5 Admitido Femenino C 520 2.93 IV
## 6 No_admitido Femenino A 760 3.00 II
## [1] 400 6
data$Admitido <- as.factor(data$Admitido)
data$Sexo <- as.factor(data$Sexo)
data$NSE <- as.factor(data$NSE)
data$Prestigio <- as.factor(data$Prestigio)
summary(data)
## Admitido Sexo NSE PEG Calificaciones
## Admitido :273 Femenino :194 A:117 Min. :220 Min. :2.26
## No_admitido:127 Masculino:206 B:128 1st Qu.:520 1st Qu.:3.13
## C:155 Median :580 Median :3.40
## Mean :588 Mean :3.39
## 3rd Qu.:660 3rd Qu.:3.67
## Max. :800 Max. :4.00
## Prestigio
## I : 61
## II :151
## III:121
## IV : 67
##
##
# Exploración general
view_df(data, show.frq = TRUE, show.prc = TRUE, show.na = TRUE)
## TableGrob (2 x 1) "arrange": 2 grobs
## z cells name grob
## 1 1 (1-1,1-1) arrange gtable[layout]
## 2 2 (2-2,1-1) arrange gtable[layout]
# Sexo vs NSE
plot_xtab(
x = data$Sexo,
grp = data$NSE,
margin = 'row',
bar.pos = 'stack',
show.summary = TRUE,
coord.flip = TRUE
)
# Tabla cruzada con porcentajes por fila
tab_xtab(
var.row = data$Sexo,
var.col = data$NSE,
show.row.prc = TRUE
)
Sexo | NSE | Total | ||
---|---|---|---|---|
A | B | C | ||
Femenino |
53 27.3 % |
67 34.5 % |
74 38.1 % |
194 100 % |
Masculino |
64 31.1 % |
61 29.6 % |
81 39.3 % |
206 100 % |
Total |
117 29.2 % |
128 32 % |
155 38.8 % |
400 100 % |
χ2=1.273 · df=2 · Cramer’s V=0.056 · p=0.529 |
H0 : No hay asociación entre el Sexo y el Nivel Socioeconómico (NSE).
H1 : Sí hay asociación entre el Sexo y el NSE.
Valor de Chi-cuadrado (χ²) = 1.273
Valor de p = 0.529
Con un nivel de significación del 5%, no hay suficiente evidencia estadística para rechazar la hipótesis nula. Lo que sugiere que no hay una asociación significativa entre Sexo y NSE. En otras palabras, el sexo no tiene un efecto estadísticamente significativo sobre la distribución de niveles socioeconómicos.
# Histograma de calificaciones por nivel socioeconómico
data %>%
group_by(NSE) %>%
plot_frq(
Calificaciones,
type = 'histogram',
show.mean = TRUE,
normal.curve = TRUE
) %>%
plot_grid()
##
## Call:
## lm(formula = PEG ~ Calificaciones, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -302.39 -62.79 -2.21 68.51 283.44
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 192.3 47.9 4.01 0.0000715236268723 ***
## Calificaciones 116.6 14.0 8.30 0.0000000000000016 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 107 on 398 degrees of freedom
## Multiple R-squared: 0.148, Adjusted R-squared: 0.146
## F-statistic: 68.9 on 1 and 398 DF, p-value: 0.0000000000000016
plot_model(m, show.values = TRUE, width = 0.1) +
ylab('Incremento del puntaje PEG según calificaciones')
Las calificaciones tienen un efecto positivo y estadísticamente significativo sobre el puntaje PEG. Por cada unidad de incremento (o aumento estandarizado) en calificaciones, el PEG incrementa en promedio 116.64 puntos.
Aunque el intervalo de confianza es moderadamente amplio, se mantiene lejos del valor nulo, lo que indica un efecto robusto.
# Tabla resumen del modelo
tab_model(m,
show.reflvl = TRUE,
show.intercept = FALSE,
p.style = 'numeric_stars')
PEG | |||
---|---|---|---|
Predictors | Estimates | CI | p |
Calificaciones | 116.64 *** | 89.02 – 144.25 | <0.001 |
Observations | 400 | ||
R2 / R2 adjusted | 0.148 / 0.146 | ||
|
## [1] "moderate"
## (Rules: cohen1988)
## OK: residuals appear as normally distributed (p = 0.320).
## For confidence bands, please install `qqplotr`.
## OK: Error variance appears to be homoscedastic (p = 0.117).
Esto significa que los residuos siguen una distribución normal, lo cual es un supuesto clave para la validez de los intervalos de confianza y las pruebas t.
La varianza de los errores es constante, lo cual indica que no hay problemas de heterocedasticidad (es decir, los errores no aumentan o disminuyen sistemáticamente con los valores de Calificaciones).
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues and inertia"
## 2 "$var" "Results for the variables"
## 3 "$ind" "results for the individuals"
## 4 "$quali.var" "Results for the qualitative variables"
## 5 "$quanti.var" "Results for the quantitative variables"
famd_result %>% fviz_screeplot(addlabels = TRUE, ylim = c(0, 30),
barfill="white", barcolor ="darkblue",
linecolor ="red")
Las dos primeras dimensiones explican juntas el 30.9% de la varianza total. Esto es aceptable en análisis exploratorios, pero sugiere que se podrían considerar hasta 3 o 4 dimensiones para una interpretación más completa.
Dimensión 1 es la más relevante, lo que refuerza que las variables más influyentes en esa dimensión (PEG, Calificaciones, Admitido) juegan un papel central en la estructura de los datos.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 1.611 17.9 17.9
## comp 2 1.168 13.0 30.9
## comp 3 1.082 12.0 42.9
## comp 4 1.025 11.4 54.3
## comp 5 1.001 11.1 65.4
## comp 6 0.937 10.4 75.8
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 1.611 1.168 1.082 1.025 1.001 0.937
## [1] 6.82
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 17.9 13.0 12.0 11.4 11.1 10.4
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 17.9 13.0 12.0 11.4 11.1 10.4
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 23.6 17.1 15.9 15.0 14.7 13.7
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 23.6 40.7 56.6 71.6 86.3 100.0
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 17.9 13.0 12.0 11.4 11.1 10.4
## comp 1 comp 2 comp 3 comp 4 comp 5 comp 6
## 17.9 30.9 42.9 54.3 65.4 75.8
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## PEG 0.509070 0.0924 0.0171909 0.00228 0.00000797 0.01688
## Calificaciones 0.476848 0.1405 0.0090424 0.00541 0.04396833 0.05353
## Admitido 0.386493 0.1451 0.0000505 0.00234 0.01014764 0.01763
## Sexo 0.000941 0.1737 0.3747265 0.07059 0.01416443 0.00048
## NSE 0.009464 0.3468 0.0335863 0.60266 0.31625726 0.51788
## Prestigio 0.228072 0.2699 0.6478191 0.34184 0.61604176 0.33051
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## PEG 0.259151862 0.00854 0.00029552588 0.00000521 0.0000000000636
## Calificaciones 0.227383703 0.01973 0.00008176518 0.00002929 0.0019332140194
## Admitido 0.149376739 0.02106 0.00000000255 0.00000549 0.0001029745131
## Sexo 0.000000885 0.03017 0.14041996019 0.00498332 0.0002006310177
## NSE 0.000044780 0.06014 0.00056401974 0.18160229 0.0500093280552
## Prestigio 0.017338964 0.02428 0.13988984590 0.03895056 0.1265024818294
## Dim.6
## PEG 0.000284834
## Calificaciones 0.002865858
## Admitido 0.000310847
## Sexo 0.000000231
## NSE 0.134101357
## Prestigio 0.036412946
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## PEG 31.6018 7.91 1.58819 0.223 0.000797 1.8013
## Calificaciones 29.6016 12.02 0.83539 0.528 4.394252 5.7138
## Admitido 23.9926 12.42 0.00467 0.228 1.014168 1.8818
## Sexo 0.0584 14.87 34.61946 6.886 1.415611 0.0512
## NSE 0.5875 29.68 3.10290 58.789 31.607161 55.2752
## Prestigio 14.1582 23.10 59.84938 33.346 61.568011 35.2766
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## PEG 0.713 0.304 0.1311 -0.0478 -0.00282 0.130
## Calificaciones 0.691 0.375 -0.0951 -0.0736 0.20969 0.231
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## PEG 0.509 0.0924 0.01719 0.00228 0.00000797 0.0169
## Calificaciones 0.477 0.1405 0.00904 0.00541 0.04396833 0.0535
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## PEG 31.6 7.91 1.588 0.223 0.000797 1.80
## Calificaciones 29.6 12.02 0.835 0.528 4.394252 5.71
# Variables cuantitativas con gradiente según contribución
famd_result %>%
fviz_famd_var(choice = "quanti.var", col.var = "contrib",
gradient.cols = c("red","yellow","green"))
Como ambas variables están proyectadas en la misma dirección, lo que sugiere una correlación positiva alta entre ellas.
Están ubicadas cerca del borde del círculo, lo cual indica que están bien representadas en este plano.
La mayor parte de su contribución es hacia Dim1, como se puede ver por su orientación casi horizontal. Son las variables cuantitativas más importantes para la Dimensión 1 y también aportan algo a Dimensión 2.
El color verde indica una contribución fuerte (cerca 22%) a estas dos dimensiones combinadas, siendo “Calificaciones”.
# En los ejes 2 y 3
famd_result %>%
fviz_famd_var(choice = "quanti.var", col.var = "contrib",axes=c(2,3),
gradient.cols = c("red","yellow","green"))
Ambas variables están cercanas al centro del gráfico y más cortas, lo que indica una baja calidad de representación en este plano.
Esto sugiere que Dim3 no es muy relevante para describir a PEG y Calificaciones. Y “Calificaciones” aporta más información que “PEG”.
En comparación con el primer gráfico (Dim1-Dim2), aquí aportan menos tanto en contribución como en calidad de representación.
# Cos2
famd_result %>%
fviz_famd_var(choice = "quanti.var", col.var = "cos2",
gradient.cols = c("red","yellow","green"))
Calificaciones está bastante bien representadas (cos² ≈ 0.61), lo cual confirma lo observado en el gráfico de contribuciones.
Ambas variables apuntan hacia la misma región (parte superior derecha), lo que implica correlación positiva.
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## Admitido -0.5382 0.281 -0.00504 -0.0334 0.0687 0.0877
## No_admitido 1.1569 -0.604 0.01084 0.0718 -0.1477 -0.1884
## Femenino 0.0401 0.464 0.65628 0.2772 -0.1227 -0.0219
## Masculino -0.0378 -0.437 -0.61805 -0.2611 0.1155 0.0206
## A 0.1856 -0.920 0.02958 0.5216 0.0851 1.0832
## B -0.1183 0.689 -0.26043 0.7143 -0.7676 -0.4635
## C -0.0424 0.125 0.19274 -0.9836 0.5697 -0.4348
## I 1.1875 -0.910 -0.17799 0.9013 0.5960 -1.3032
## II 0.1180 -0.294 0.50710 -0.6556 -0.8958 0.1607
## III -0.2663 0.699 -1.14855 0.0212 0.1361 0.3143
## IV -0.8661 0.228 1.09342 0.6189 1.2307 0.2566
Admitido y No_admitido están fuertemente asociados con Dim.1, con coordenadas de -0.54 (Admitido) y 1.16 (No_admitido), lo que sugiere que Dim.1 puede ser interpretada en términos de la admisión (por ejemplo, una distinción clara entre los admitidos y no admitidos).
Femenino y Masculino tienen coordenadas relativamente cercanas, con Femenino (0.04) y Masculino (-0.04) en Dim.1, lo que indica que Dim.1 también distingue parcialmente entre estos géneros.
Categorías A, B, C (en relación con NSE) tienen una distribución diferente, con A (0.19) y B (-0.12) en Dim.1, y C (-0.04). Esto sugiere que la clasificación NSE también influye en Dim.1.
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## Admitido -12.418 7.61 -0.142 -0.967 2.01 2.652
## No_admitido 12.418 -7.61 0.142 0.967 -2.01 -2.652
## Femenino 0.613 8.33 12.228 5.307 -2.38 -0.438
## Masculino -0.613 -8.33 -12.228 -5.307 2.38 0.438
## A 1.878 -10.93 0.365 6.617 1.09 14.373
## B -1.277 8.73 -3.430 9.668 -10.52 -6.562
## C -0.530 1.84 2.943 -15.435 9.05 -7.137
## I 7.928 -7.13 -1.450 7.542 5.05 -11.408
## II 1.446 -4.23 7.582 -10.073 -13.93 2.583
## III -2.760 8.51 -14.522 0.275 1.79 4.272
## IV -6.114 1.89 9.417 5.477 11.02 2.376
Admitido y No_admitido tienen valores de Z significativos en Dim.1 (Z = ±12.42), lo que confirma que Dim.1 distingue fuertemente entre estas dos categorías.
Femenino y Masculino tienen valores significativos en Dim.2 (Z = 8.33 para Femenino y -8.33 para Masculino).
Las categorías de NSE (A, B, C) muestran significancia en Dim.2 y Dim.3, lo que sugiere que estas dimensiones son relevantes para representar las diferencias en los niveles socioeconómicos.
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## Admitido 7.6176 3.943 0.00148 0.0725 0.322 0.5975
## No_admitido 16.3749 8.476 0.00319 0.1559 0.692 1.2843
## Femenino 0.0301 7.656 17.82902 3.5464 0.729 0.0264
## Masculino 0.0283 7.210 16.79044 3.3398 0.687 0.0249
## A 0.3881 18.121 0.02185 7.5733 0.212 39.0955
## B 0.1726 11.116 1.85245 15.5383 18.835 7.8332
## C 0.0268 0.447 1.22860 35.6775 12.560 8.3464
## I 8.2873 9.246 0.41237 11.7870 5.410 29.5045
## II 0.2024 2.387 8.28554 15.4411 30.260 1.1107
## III 0.8268 10.827 34.05915 0.0129 0.559 3.4047
## IV 4.8417 0.638 17.09231 6.1046 25.338 1.2567
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## Admitido 0.54654 0.14883 0.000048 0.002108 0.00891 0.014501
## No_admitido 0.54654 0.14883 0.000048 0.002108 0.00891 0.014501
## Femenino 0.00149 0.20006 0.399827 0.071335 0.01397 0.000443
## Masculino 0.00149 0.20006 0.399827 0.071335 0.01397 0.000443
## A 0.01403 0.34456 0.000357 0.110855 0.00295 0.478017
## B 0.00650 0.22038 0.031519 0.237140 0.27385 0.099859
## C 0.00113 0.00993 0.023412 0.609812 0.20453 0.119165
## I 0.24004 0.14089 0.005393 0.138260 0.06046 0.289085
## II 0.00833 0.05169 0.153982 0.257392 0.48056 0.015466
## III 0.02974 0.20490 0.553177 0.000188 0.00776 0.041431
## IV 0.14600 0.01012 0.232719 0.074552 0.29480 0.012820
Admitido y No_admitido tienen valores cos2 bastante altos en Dim.1 (0.55), lo que sugiere que Dim.1 representa bien estas categorías.
Femenino y Masculino tienen cos2 bajos en Dim.1 (0.001), lo que sugiere que Dim.1 no captura mucho de la variabilidad de estos géneros.
Categorías de NSE (A, B, C) muestran una buena representación en Dim.2 y Dim.3, con A mostrando un cos2 de 0.34 en Dim.2, lo que implica que Dim.2 refleja bastante bien la variable A.
# Ejemplos de sumas de contribuciones o cos2
sum(var_analysis_quali$contrib[1:9, 1]) # La suma respecto a la Dim.1 no es 100
## [1] 33.1
## [1] 0.721
# Visualización con contribución
fviz_famd_var(famd_result, choice = "quali.var", col.var = "contrib",
gradient.cols = c("red", "yellow", "green"))
# Visualización con cos2
fviz_famd_var(famd_result, choice = "quali.var", col.var = "cos2",
gradient.cols = c("red", "yellow", "green"))
## FAMD results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 -1.105 -0.628 -1.889 0.28509 0.532 1.504
## 2 1.446 0.124 -0.406 0.78684 0.104 1.527
## 3 3.503 -0.611 0.564 1.52502 0.742 0.171
## 4 0.241 -1.538 0.582 0.94478 1.171 1.186
## 5 -1.861 0.356 1.827 -0.00242 1.493 -0.488
## 6 1.213 -1.094 1.394 0.21383 -1.300 1.058
## 7 0.732 -1.232 0.698 0.34980 0.669 -2.370
El individuo 3 tiene coordenadas altas en Dim.1 (3.50), lo cual indica que está muy alejado del centro en esa dimensión.
El individuo 5 destaca en Dim.3 (1.83).
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 0.18937 0.08444 0.8243 0.01982136 0.07063 0.60352
## 2 0.32457 0.00327 0.0380 0.15098543 0.00268 0.62251
## 3 1.90458 0.07989 0.0736 0.56716465 0.13746 0.00784
## 4 0.00901 0.50587 0.0782 0.21768268 0.34278 0.37532
## 5 0.53767 0.02708 0.7705 0.00000142 0.55720 0.06353
## 6 0.22831 0.25587 0.4489 0.01115041 0.42208 0.29893
## 7 0.08321 0.32479 0.1126 0.02984093 0.11193 1.49814
## 8 0.40751 0.01302 0.2885 0.36611787 0.07455 0.10779
## 9 0.01148 0.19396 0.1256 0.28310811 0.20249 0.05146
## 10 0.16906 0.33483 0.3571 0.55499120 0.00204 0.01559
El individuo 3 tiene una contribución muy alta a Dim.1 (1.90). Es decir, este individuo está moldeando fuertemente esa dimensión.
El individuo 7 influye mucho en Dim.6 (1.50).
# Suma de las contribuciones de todos los individuos para la Dim.4 (debe ser 100)
sum(ind_analysis$contrib[1:nrow(data), 4])
## [1] 100
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 0.1257 0.04065 0.3677 0.008372429 0.02912 0.23299
## 2 0.2357 0.00172 0.0186 0.069784841 0.00121 0.26296
## 3 0.7156 0.02177 0.0186 0.135605933 0.03208 0.00171
## 4 0.0053 0.21567 0.0309 0.081424925 0.12515 0.12831
## 5 0.3504 0.01280 0.3375 0.000000591 0.22558 0.02408
## 6 0.1393 0.11322 0.1840 0.004329009 0.15995 0.10607
## 7 0.0463 0.13119 0.0421 0.010575801 0.03872 0.48526
## 8 0.3254 0.00754 0.1548 0.186070457 0.03698 0.05007
# Suma de cos2 del individuo 3 en las primeras 6 dimensiones (debe ser aproximadamente 1)
sum(ind_analysis$cos2[3, 1:6])
## [1] 0.925
fviz_famd_ind(famd_result, col.ind = "contrib",
gradient.cols = c("red", "yellow", "green"), repel = TRUE)
La mayoría de los individuos están en rojo o naranja, lo que significa que no tienen una gran contribución individual en la construcción de Dim1 y Dim2.
Pocos individuos sobresalen, como el individuo 290 (parte inferior izquierda) o el individuo 3. Son más relevantes para explicar la variabilidad representada en los primeros dos ejes.
fviz_famd_ind(famd_result, col.ind = "cos2",
gradient.cols = c("red", "yellow", "green"), repel = TRUE)
La mayoría de los individuos están en rojo/naranja. No están bien representados por solo las dos primeras dimensiones.
Individuos verdes (290, 324, 223, 331): Están alejados del centro y bien representados en el plano. Son relevantes para interpretar la variabilidad capturada por Dim1 y Dim2.