Se parte de una base de datos que incluye las calificaciones de 20 estudiantes, en 5 materias: Ciencias Naturales, Matemática, Francés, Latín y Literatura.

La matriz es la siguiente:

TABLA DE DATOS

Alumno CNa Mat Fra Lat Lit
1 7 7 5 5 6
2 5 5 6 6 5
3 5 6 5 7 5
4 6 8 5 6 6
5 7 6 6 7 6
6 4 4 6 7 6
7 5 5 5 5 6
8 5 6 5 5 5
9 6 5 7 6 6
10 6 5 6 6 6
11 6 7 5 6 5
12 5 5 4 5 4
13 6 6 6 6 5
14 8 7 8 8 8
15 6 7 5 6 6
16 4 3 4 4 4
17 6 4 7 8 7
18 6 6 7 7 7
19 6 5 4 4 4
20 7 7 6 7 6

Se procede a la exploración de las variables con un análisis descriptivo.

ESTADÍSTICA DESCRIPTIVA

Comentario: Se puede observar que las variables tienen medias parecidas, al igual que su desviación, lo que es buena señal, esto podría decir que las variables han sido medidas con una misma escala. Por ahora se tiene información de cada variable independiente, necesitamos saber cómo se comportan entre sí, para eso se calcula la matriz de correlación.

Para facilitar la visualización, la matriz de correlaciones es presentada gráficamente.

CORRELACIONES

Comentario: Mientras la correlación es más fuerte, más oscuro es el azul en el gráfico, se puede identificar concentraciones en la esquina superior izquierda y en la esquina inferior derecha, esto podría indicar 2 grupos de variables, la correlación entre Mat y CNa es 0.66, no es tan baja, en relación a la correlación entre Mat y Francés (0.10). De la misma forma las correlaciones de Francés vs Latín, Francés vs Literatura, Latín vs Literatura, son bastente cercanas a 1.

Comentario: Se muestran las correlaciones, esta vez con significancia, podemos ver que los que tienen mayor correlación son altamente significativos. Se puede apreciar que existen algunos valores potencialmente atípicos, es probable que esos individuos hayan tenido notas muy altas, o muy bajas, en comparación a los demás, es recomendable consultar a un experto o recurrir a la persona que obtuvo los datos, para comprobar que no sea un error, si no lo es, se podrá apreciar más tarde el comportamiento de los individuos con respecto a los otros.

Descomposición de valores singulares de la matriz de correlación.

## eigen() decomposition
## $values
## [1] 3.1678939 1.1956662 0.3381577 0.1944985 0.1037838
## 
## $vectors
##            [,1]       [,2]        [,3]        [,4]       [,5]
## [1,] -0.4291224  0.4549203  0.62814938 -0.38615922  0.2553641
## [2,] -0.2786606  0.7408079 -0.49047732  0.17184436 -0.3216418
## [3,] -0.4913806 -0.3654956  0.20979440 -0.04636445 -0.7607856
## [4,] -0.4796077 -0.2926403 -0.56262319 -0.51115550  0.3263638
## [5,] -0.5164531 -0.1581955  0.06558818  0.74694107  0.3821356

Se puede observar que la mayor parte de la variabilidad está explicada por las dos primeras componentes,

EXTRACCIÓN DE COMPONENTES PRINCIPALES

## Principal Components Analysis
## Call: principal(r = (R), nfactors = 2, rotate = "none")
## Standardized loadings (pattern matrix) based upon correlation matrix
##      PC1   PC2   h2    u2 com
## CNa 0.76  0.50 0.83 0.169 1.7
## Mat 0.50  0.81 0.90 0.098 1.7
## Fra 0.87 -0.40 0.92 0.075 1.4
## Lat 0.85 -0.32 0.83 0.169 1.3
## Lit 0.92 -0.17 0.87 0.125 1.1
## 
##                        PC1  PC2
## SS loadings           3.17 1.20
## Proportion Var        0.63 0.24
## Cumulative Var        0.63 0.87
## Proportion Explained  0.73 0.27
## Cumulative Proportion 0.73 1.00
## 
## Mean item complexity =  1.4
## Test of the hypothesis that 2 components are sufficient.
## 
## The root mean square of the residuals (RMSR) is  0.06 
## 
## Fit based upon off diagonal values = 0.99

Es notorio que en la primera componente carga más Francés, Latín y Literatura, en la segunda componente carga más Ciencias Naturales y Matemáticas, puede que Ciencias Naturales también cargue de manera significativa en la componente 1, ya que puede compartir caracteristicas importantes con las otras 3 materias.

Para visualizar las distancias y el posible agrupamiento de las variables se presenta el siguiente gráfico:

Se puede ver que las variables Latín, Literatura y Francés, se encuentrán concentradas, a diferencia de Matemática y Ciencias Naturales, que están alejados.

EMPEZAMOS ANÁLISIS FACTORIAL

Determinante de la matriz de correlaciones:

## [1] 0.02585506

El determinante es cercano a cero, lo que indica una alta multicolinealidad. Esto es bueno, ya que para proceder con el análisis es necesario que las variables no estén incorrelacionadas.

ESTADISTICO KMO

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R)
## Overall MSA =  0.67
## MSA for each item = 
##  CNa  Mat  Fra  Lat  Lit 
## 0.65 0.42 0.63 0.76 0.81

El índice de Kaiser-Meyer-Olkin ayuda a identificar si la matriz de datos que estamos usando es apropiada para un análisis factorial. En este caso parece ser buena idea, ya que los valores no son tan cercanos a 0.

TEST DE BARLETT

## 
##  Bartlett test of homogeneity of variances
## 
## data:  Datos
## Bartlett's K-squared = 1.1957, df = 4, p-value = 0.8788

El test de Barlett tiene como hipótesis nula la homogeneidad de las varianzas, en este caso, la hipótesis nula no es rechazada. Se puede concluir que la matriz de correlación no puede ser una matriz identidad, y es factible realizar un análisis factorial.

ANÁLISIS FACTORIAL

## maximum iteration exceeded
## Factor Analysis using method =  pa
## Call: fa(r = Datos, nfactors = 2, n.obs = 220, rotate = "none", fm = "pa")
## Standardized loadings (pattern matrix) based upon correlation matrix
##      PA1   PA2   h2    u2 com
## CNa 0.70  0.39 0.64 0.357 1.6
## Mat 0.48  0.80 0.88 0.124 1.6
## Fra 0.90 -0.40 0.96 0.038 1.4
## Lat 0.80 -0.23 0.69 0.307 1.2
## Lit 0.90 -0.14 0.82 0.175 1.0
## 
##                        PA1  PA2
## SS loadings           2.97 1.03
## Proportion Var        0.59 0.21
## Cumulative Var        0.59 0.80
## Proportion Explained  0.74 0.26
## Cumulative Proportion 0.74 1.00
## 
## Mean item complexity =  1.4
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  3.66 with Chi Square of  60.31
## The degrees of freedom for the model are 1  and the objective function was  0.11 
## 
## The root mean square of the residuals (RMSR) is  0.02 
## The df corrected root mean square of the residuals is  0.07 
## 
## The harmonic number of observations is  20 with the empirical chi square  0.19  with prob <  0.66 
## The total number of observations was  20  with Likelihood Chi Square =  1.62  with prob <  0.2 
## 
## Tucker Lewis Index of factoring reliability =  0.863
## RMSEA index =  0.169  and the 90 % confidence intervals are  0 0.67
## BIC =  -1.37
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy             
##                                                    PA1  PA2
## Correlation of (regression) scores with factors   0.99 0.94
## Multiple R square of scores with factors          0.97 0.89
## Minimum correlation of possible factor scores     0.94 0.78

Se puede observar los coeficientes de regresión proporcionados por el modelo, las saturaciones se presentan en la siguiente tabla. La tabla también muestra las comunalidades (el porcentaje de variabilidad que explica el factor sobre la varible), las unicidades (porcentaje de variabilidad no explicado por los factores, sino por las variables)

## 
## Loadings:
##     PA1    PA2   
## CNa  0.698  0.395
## Mat  0.484  0.801
## Fra  0.896 -0.398
## Lat  0.800 -0.231
## Lit  0.898 -0.135
## 
##                  PA1   PA2
## SS loadings    2.971 1.028
## Proportion Var 0.594 0.206
## Cumulative Var 0.594 0.800

Se presentan las cargas, observando esto se puede que el factor 1 puede tratarse del promedio de los estudiantes en las materias que involucran interpretación artística, subjetiva, se la puede denominar como “Letras”, el factor 2, tiene que ver con las materias que involucran análisis cuantitativo, se la puede definir como “Ciencias”.

## maximum iteration exceeded
##               PA1         PA2
##  [1,]  0.06447078  1.33146498
##  [2,] -0.08873103 -0.74854046
##  [3,] -0.42494511  0.25493202
##  [4,]  0.32416622  1.67395867
##  [5,]  0.42179630  0.16510852
##  [6,] -0.16092353 -1.58222764
##  [7,] -0.50276841 -0.22511928
##  [8,] -0.43901941  0.36352134
##  [9,]  0.74252973 -1.02911585
## [10,]  0.13113956 -0.55888895
## [11,] -0.14836267  1.08751882
## [12,] -1.52293847  0.24730839
## [13,]  0.19488856  0.02975168
## [14,]  2.34401328 -0.05354858
## [15,]  0.05602728  1.08641843
## [16,] -2.08173416 -1.06422932
## [17,]  0.69285503 -1.72634580
## [18,]  1.22209577 -0.49697066
## [19,] -1.51449497  0.49235495
## [20,]  0.68993525  0.75264876

Para comparar, se adjunta la matriz de diseño.

Alumno CNa Mat Fra Lat Lit Ciencias Letras
1 7 7 5 5 6 7 5
2 5 5 6 6 5 5 6
3 5 6 5 7 5 6 5
4 6 8 5 6 6 7 5
5 7 6 6 7 6 6 6
6 4 4 6 7 6 4 6
7 5 5 5 5 6 5 6
8 5 6 5 5 5 6 5
9 6 5 7 6 6 5 6
10 6 5 6 6 6 5 6
11 6 7 5 6 5 7 5
12 5 5 4 5 4 6 4
13 6 6 6 6 5 6 6
14 8 7 8 8 8 7 8
15 6 7 5 6 6 6 5
16 4 3 4 4 4 3 4
17 6 4 7 8 7 5 7
18 6 6 7 7 7 6 7
19 6 5 4 4 4 5 4
20 7 7 6 7 6 7 6

Se obtine la distribución de los individuos en el plano, se puede observar diferencias notorias entre el individuo 14 y el 16, pero son evidentes los grupos, se podría concluir con esta representación, sin embargo no sería tan eficiente, por lo tanto se le aplica una rotación ortogonal Varimax.

ANÁLISIS DE FACTORES CON ROTACIÓN

## maximum iteration exceeded
## Factor Analysis using method =  pa
## Call: fa(r = Datos, nfactors = 2, n.obs = 220, rotate = "varimax", 
##     scores = "regression", fm = "pa")
## Standardized loadings (pattern matrix) based upon correlation matrix
##      PA1  PA2   h2    u2 com
## CNa 0.42 0.68 0.64 0.357 1.7
## Mat 0.04 0.93 0.88 0.124 1.0
## Fra 0.98 0.08 0.96 0.038 1.0
## Lat 0.81 0.18 0.69 0.307 1.1
## Lit 0.85 0.31 0.82 0.175 1.3
## 
##                        PA1  PA2
## SS loadings           2.53 1.47
## Proportion Var        0.51 0.29
## Cumulative Var        0.51 0.80
## Proportion Explained  0.63 0.37
## Cumulative Proportion 0.63 1.00
## 
## Mean item complexity =  1.2
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  3.66 with Chi Square of  60.31
## The degrees of freedom for the model are 1  and the objective function was  0.11 
## 
## The root mean square of the residuals (RMSR) is  0.02 
## The df corrected root mean square of the residuals is  0.07 
## 
## The harmonic number of observations is  20 with the empirical chi square  0.19  with prob <  0.66 
## The total number of observations was  20  with Likelihood Chi Square =  1.62  with prob <  0.2 
## 
## Tucker Lewis Index of factoring reliability =  0.863
## RMSEA index =  0.169  and the 90 % confidence intervals are  0 0.67
## BIC =  -1.37
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy             
##                                                    PA1  PA2
## Correlation of (regression) scores with factors   0.98 0.94
## Multiple R square of scores with factors          0.97 0.89
## Minimum correlation of possible factor scores     0.94 0.78

Podemos verificar en los coeficientes de regresión que las variables se discriminaron un poco más, lo que es bueno para nuestro estudio, permite visualizar mejor las agrupaciones de los individuos y la ubicación de las variables.

Para comparar, se adjunta la matriz de diseño.

Alumno CNa Mat Fra Lat Lit Ciencias Letras
1 7 7 5 5 6 7 5
2 5 5 6 6 5 5 6
3 5 6 5 7 5 6 5
4 6 8 5 6 6 7 5
5 7 6 6 7 6 6 6
6 4 4 6 7 6 4 6
7 5 5 5 5 6 5 6
8 5 6 5 5 5 6 5
9 6 5 7 6 6 5 6
10 6 5 6 6 6 5 6
11 6 7 5 6 5 7 5
12 5 5 4 5 4 6 4
13 6 6 6 6 5 6 6
14 8 7 8 8 8 7 8
15 6 7 5 6 6 6 5
16 4 3 4 4 4 3 4
17 6 4 7 8 7 5 7
18 6 6 7 7 7 6 7
19 6 5 4 4 4 5 4
20 7 7 6 7 6 7 6

Se puede ver que, aplicando la rotación, los individuos se ordenan de una forma que permite que la interpretación sea mejor, tomemos como referencia al individuo 14, por su ubicación, podemos deducir que es el que ha tenido mejores notas en Ciencias y en Letras, si revisamos sus calificaciones, efectivamente son altas en los dos factores. Veamos el individuo 16, de igual manera, por su ubicación podemos inderir que es el que tiene el promedio más bajo, revisando en la tabla, tiene 3 en Ciencias y 4 en letras, así que se confirma la premisa. Ahora revisemos los individuos 4,1,11,15, visualmente podemos concluir que tienen calificaciones altas en las materias relacionadas con Ciencias, pero están bajos en Letras, de hecho todos tienen 5 en Letras, por lo que se ubican cercanos, su diferencia tendría que ver con las calificaciones en el factor Letras. Los individuos 17,9,6, tienen notas altas en Letras, pero bajo en ciencias.

Podemos concluir que la rotación ayudó para la interpretación, ya que podemos ver que los ejes son discriminantes y separan los grupos de los individuos. Además se ve que las variables son mejor explicadas por el factor 1. Podemos notar que existe una alta correlación con el factor 2, de parte de las variables: Matemáticas y Ciencias Naturales. Y una alta correlación con el factor 1, de parte de Latín, Francés y Literatura.

## maximum iteration exceeded
## maximum iteration exceeded
## maximum iteration exceeded

### ESTIMAMOS LOS FACTORES CON EL MÉTODO DE MÁXIMA VEROSIMILITUD

## Factor Analysis using method =  ml
## Call: fa(r = Datos, nfactors = 2, n.obs = 220, rotate = "none", scores = "regression", 
##     fm = "ml")
## Standardized loadings (pattern matrix) based upon correlation matrix
##       ML2  ML1   h2    u2 com
## CNa  0.42 0.67 0.62 0.378 1.7
## Mat -0.03 1.00 1.00 0.005 1.0
## Fra  0.97 0.13 0.96 0.040 1.0
## Lat  0.80 0.25 0.71 0.291 1.2
## Lit  0.82 0.34 0.79 0.205 1.3
## 
##                        ML2  ML1
## SS loadings           2.44 1.64
## Proportion Var        0.49 0.33
## Cumulative Var        0.49 0.82
## Proportion Explained  0.60 0.40
## Cumulative Proportion 0.60 1.00
## 
## Mean item complexity =  1.2
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  3.66 with Chi Square of  60.31
## The degrees of freedom for the model are 1  and the objective function was  0.08 
## 
## The root mean square of the residuals (RMSR) is  0.03 
## The df corrected root mean square of the residuals is  0.09 
## 
## The harmonic number of observations is  20 with the empirical chi square  0.3  with prob <  0.58 
## The total number of observations was  20  with Likelihood Chi Square =  1.23  with prob <  0.27 
## 
## Tucker Lewis Index of factoring reliability =  0.95
## RMSEA index =  0.093  and the 90 % confidence intervals are  0 0.631
## BIC =  -1.77
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy             
##                                                    ML2  ML1
## Correlation of (regression) scores with factors   0.98 1.00
## Multiple R square of scores with factors          0.97 1.00
## Minimum correlation of possible factor scores     0.94 0.99

APLICAMOS UNA ROTACIÓN VARIMAX

## Factor Analysis using method =  ml
## Call: fa(r = Datos, nfactors = 2, n.obs = 220, rotate = "varimax", 
##     scores = "regression", fm = "ml")
## Standardized loadings (pattern matrix) based upon correlation matrix
##      ML2  ML1   h2    u2 com
## CNa 0.46 0.64 0.62 0.378 1.8
## Mat 0.04 1.00 1.00 0.005 1.0
## Fra 0.98 0.06 0.96 0.040 1.0
## Lat 0.82 0.19 0.71 0.291 1.1
## Lit 0.85 0.28 0.79 0.205 1.2
## 
##                        ML2  ML1
## SS loadings           2.56 1.52
## Proportion Var        0.51 0.30
## Cumulative Var        0.51 0.82
## Proportion Explained  0.63 0.37
## Cumulative Proportion 0.63 1.00
## 
## Mean item complexity =  1.2
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  3.66 with Chi Square of  60.31
## The degrees of freedom for the model are 1  and the objective function was  0.08 
## 
## The root mean square of the residuals (RMSR) is  0.03 
## The df corrected root mean square of the residuals is  0.09 
## 
## The harmonic number of observations is  20 with the empirical chi square  0.3  with prob <  0.58 
## The total number of observations was  20  with Likelihood Chi Square =  1.23  with prob <  0.27 
## 
## Tucker Lewis Index of factoring reliability =  0.95
## RMSEA index =  0.093  and the 90 % confidence intervals are  0 0.631
## BIC =  -1.77
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy             
##                                                    ML2  ML1
## Correlation of (regression) scores with factors   0.98 1.00
## Multiple R square of scores with factors          0.97 0.99
## Minimum correlation of possible factor scores     0.94 0.99