El Análisis Factorial Exploratorio (EFA por sus siglas en inglés Exploratory Factor Analysis) es una técnica estadística que se utiliza en diversas disciplinas para explorar la estructura subyacente de un conjunto de variables observadas, permitiendo explorar patrones de correlación y reducir la dimensionalidad de los datos. Se usa en investigaciones donde no hay una hipótesis previa sobre las relaciones entre variables, y su objetivo es descubrir posibles factores latentes (no observados) que expliquen la variabilidad en las respuestas de los sujetos o unidades analizadas..
EFA se usa ampliamente en el análisis de encuestas, especialmente en aquellas que incluyen múltiples preguntas diseñadas para medir conceptos complejos como actitudes, percepciones, o características psicológicas. Es particularmente útil cuando un investigador busca:
Reducir la cantidad de preguntas: ayuda a identificar redundancias en preguntas y las agrupa en factores subyacentes, lo que permite simplificar el análisis de la encuesta o evitar preguntas innecesarias.
Validar la estructura de la encuesta: permite comprobar si las preguntas se agrupan en factores que reflejan los conceptos que se espera medir. Por ejemplo, en una encuesta de actitudes hacia la estadística, EFA podría identificar factores como “ansiedad”, “confianza”, y “interés”.
Identificar factores latentes: En encuestas que exploran un tema sin una estructura preconcebida, EFA ayuda a descubrir los factores latentes que representan dimensiones importantes, como en estudios de satisfacción de clientes o evaluaciones de competencias.
Es muy importante distinguir las diferencias con PCA, tarea nada sencilla, ya que existe mucha confusión al respecto. Gran parte de esta confusión nace del hecho de que la mayoría de programas estadísticos tiene por defecto calcular las componentes principales para extraer los factores. Muchos investigadores utilizan ambas técnicas indistintamente.
Iniciamos recordando, como vimos en el módulo anterior, PCA no le importa cuál es la estructura latente de las variables, es decir, si hay factores que estén provocando que esas variables estén correlacionadas entre sí. Para PCA las variables son en sí mismas el objetivo de interés, no su estructura subyacente. En buen medida esto convierte a PCA en una herramienta similar a la regresión, al generar combinaciones lineales ponderadas de las variables.
Ahora, el objetivo de EFA, sin embargo, es otro. Lo que busca es intentar detectar si hay variables latentes (no observadas) que explican por qué las variables están correlacionadas entre sí.
En la figura, respecto a PCA, la dirección de las flechas va de las variables a las componentes principales, el 100% de lo que contienen las componentes principales procede de las variables, están completamente definidas por ellas. En este sentido se dice que PCA pretende reproducir las características de la muestra más que de la población.
Ahora, respecto a EFA, las flechas van desde los factores hacia los indicadores en la medida en que asumimos que hacen que se comporten (correlaciones) entre ellos de una manera determinada. También asumimos que los factores no explican todo el comportamiento de las variables, motivo por el cual incorporamos un término de error que recoge la parte del comportamiento de los indicadores no explicado por los factores (residuales).
No entraremos en la explicación matemática de sus fundamentos, que puede ser algo compleja. Sin embargo, comprender los cinco pasos siguientes puede dar una mejor idea de cómo funciona EFA.
Antes de comenzar, es importante evaluar si los datos son adecuados para un EFA. Es decir, comprobar que las variables realmente estén correlacionadas. Si no lo estuvieran, no existirían factores comunes y, por lo tanto, no tendría sentido aplicar un EFA.
Existen dos pruebas importantes para esto. La prueba de esfericidad de Bartlett y el índice de adecuación de Kaiser-Meyer-Olkin (KMO).
Prueba de Barlett: la hipótesis nula en esta
prueba es que todos los coeficientes de correlación entre cada par de
variables es cero. El desarrollo de esta prueba ya la estudiamos en
módulos anteriores, pero por cuestiones practicas ahora, podemos hacer
uso de la prueba programada en R, que se desarrolla con la función cortest.bartlett(R)
de la librería psych.
Índice de adecuación de Kaiser-Meyer-Olkin (KMO): entre más cercano a 1 el índice KMO indica que es adecuado realizar el EFA. Se tiene la siguiente escala de evaluación:
KMO | Evaluación |
---|---|
≥ 0.9 | Excelente |
[0.8,0.9) | Buena |
[0.7,0.8) | Media |
[0.6,0.7) | Aceptable |
[0.5,0.6) | Mala |
< 0.5 | Inaceptable |
Existen varios métodos para extraer factores, como el de componentes principales, ejes principales, máxima verosimilitud, entre otros. La elección depende de los objetivos y el tipo de dato. Este paso consiste en identificar patrones comunes en las correlaciones, extrayendo factores latentes que explican la mayor parte de la varianza en las variables observadas.
Es ideal cuando el objetivo principal es reducir la dimensionalidad de los datos o sintetizar la información de un conjunto de variables en un número menor de componentes sin preocuparse tanto por la interpretación de factores latentes.
PCA maximiza la varianza total explicada, produciendo componentes que son combinaciones lineales de las variables originales. Se usa con frecuencia en análisis exploratorio preliminar o para preparar datos antes de realizar análisis más complejos.
Es adecuado cuando se busca descubrir factores subyacentes que explican la varianza compartida entre las variables y cuando la muestra puede no cumplir el supuesto de normalidad.
A diferencia del PCA, que usa toda la varianza de las variables, ejes principales se centra en la varianza común (compartida entre variables), lo cual es más representativo de factores latentes. Es útil para estudios en psicología o ciencias sociales donde los constructos suelen ser latentes y no observables directamente.
Es apropiado cuando los datos cumplen los supuestos de normalidad multivariada y cuando el objetivo es probar hipótesis o realizar inferencias estadísticas sobre los factores.
Máxima verosimilitud permite obtener intervalos de confianza y realizar pruebas de significancia, lo que facilita la evaluación estadística de los factores y su ajuste al modelo. Es común en investigaciones que buscan una validación rigurosa de los factores.
Existe una gran variedad de métodos que resumiremos breve mente:
Alfa mínima:
Es útil cuando el objetivo es estimar el número mínimo de factores necesarios para explicar la estructura de correlaciones. Busca encontrar la cantidad más reducida de factores posibles sin perder precisión en la representación de las correlaciones, lo cual es útil para análisis parciales o cuando se necesitan soluciones interpretativamente simples.
Mínimos cuadrados:
Es útil para datos ordinales (como escalas Likert) o cuando no se cumple la normalidad multivariada. MCP minimiza el error al ponderar los cuadrados de las diferencias y maneja mejor las escalas ordinales, obteniendo factores representativos sin requerir normalidad estricta. Es muy usado en encuestas y cuestionarios con respuestas ordinales.
Aunque existen las anteriores consideraciones, esta, es obviamente la gran pregunta. Afortunadamente, varios autores afirman que las diferencias entre los métodos son mínimas, lo que hace que, en el fondo no cambie en mucho el método a usar.
Sin embargo, si resalta el analizar si se cumple el supuesto de normalidad en los datos. Si este se cumple, el método no importa, pero en el caso de que no se cumpla, los ejes principales o mínimos cuadrados ponderados pueden ser la mejor opción.
Si se tienen dudas en la elección del método, con la función fa()
de la librería psych, podemos explorar diferentes
métodos. Es importante explorar diferentes métodos y criterios, así como
considerar la teoría subyacente para tomar decisiones informadas sobre
cómo realizar el análisis factorial.
Existen diferentes criterios para este paso y decidir cuántos factores incluir puede ser crucial. Se puede usar el criterio de valores propios (Kaiser), el gráfico de sedimentación (Scree plot), o el análisis paralelo. Estos métodos ayudan a evitar tanto incluir factores irrelevantes como dejar fuera aquellos que son importantes para explicar la estructura de los datos.
Esta regla sugiere que se deben retener todos los factores que tengan un valor propio mayor a 1, con el razonamiento de que un factor no debe explicar menos que la varianza equivalente que hubiera explicado una sola de las variables incluidas en el análisis. La regla sin embargo no es estricta y debe analizarse en conjunto con otros criterios.
Este método complementa al anterior y se basa también el análisis de la magnitud de los valores propios pero a partir de la tendencia que se observa en el Scree Plot. Se selecciona un grupo reducido de factores que tengan valores propios significativamente superiores a los demás, para lo cual se identifica el punto de inflexión en la curva (también referido como el codo por su semejanza con un brazo) a partir del cual la curva se transforma a una línea “plana” o relativamente recta.
Esta regla suele complementar las anteriores cuando el numero de variables iniciales y factores resultantes es elevado. El procedimiento es basado en el principio de que los factores a extraer deben dar cuenta de más varianza que la que es esperada de manera aleatoria. El procedimiento reordena las observaciones de manera aleatoria entre cada variable y los valores propios son recalculados a partir de esta nueva base de datos aleatoriamente ordenada. Los factores con valores propios mayores a los valores aleatorios son retenidos para su interpretación.
Cuando se aplica el EFA se trata de que los factores comunes tengan una interpretación clara, porque de esa forma se analizan las interpretaciones existentes entre las variables originales. Sin embargo, en muy pocas ocasiones resulta fácil encontrar una interpretación adecuada de los factores iniciales, sin importar del método que se haya utilizado para su extracción.
La rotación facilita la interpretación de los factores, maximizando las cargas altas y minimizando las bajas para cada factor. Se pueden aplicar rotaciones ortogonales o rotaciones oblicuas, dependiendo de si se asume que los factores son independientes o están correlacionados entre sí.
Los ejes se rotan manteniendo los factores en ángulos rectos (90 grados), lo que significa que los factores son tratados como independientes o no correlacionados entre sí. Por esta restricción, esta rotación también se conoce como rotación rígida.
En la siguiente tabla se puede observar los métodos más conocidos para realizar esta rotación.
Método | Objetivo Principal | Ventaja Principal |
---|---|---|
Varimax | Maximizar la varianza en cada factor | Simplifica la interpretación de cada factor |
Quartimax | Simplificar la carga de cada variable | Minimiza el número de factores por variable |
Biquartimax | Simplificar ambos, factores y variables | Balancea la carga de variables y factores |
Esta rotación no preserva que los ejes sean ortogonales, es decir, no son perpendiculares. Se pierde una propiedad que en principio es deseable cumplan los factores. Sin embargo, en ocasiones puede compensarse esta pérdida, si, a cambio, se consigue una asociación más nítida de cada una de las variables con el factor correspondiente.
El método de rotación oblicua más conocido es el denominado oblimin.
Finalmente, se interpretan los factores en función de las cargas factoriales de las variables.
Examinar las Cargas factoriales: las variables que tienen cargas cercanas a 1 o -1 indican una fuerte relación entre la variable y el factor. Mientras que cargas cercanas a 0 indican poca o ninguna relación. Se puede considerar eliminar variables con bajas cargas en todos los factores, ya que pueden no contribuir al modelo.
Identificación de Factores: Basándose en las variables que cargan fuertemente en cada factor, se puede asignar nombres descriptivos a los factores. Al nombrar los factores, es importante considerar el contexto de tu investigación. Asegúrate de que los nombres sean coherentes con lo que se conoce sobre el tema.
Correlaciones entre Factores: si utilizaste una rotación oblicua, examina las correlaciones entre los factores. Las correlaciones entre factores pueden ofrecer información sobre cómo se relacionan diferentes constructos, esto puede sugerir que hay una superposición significativa entre estos constructos en tu población de estudio. Considera usar matrices de correlación o diagramas para visualizar las relaciones entre factores, lo que puede facilitar la interpretación.
Evaluar la Adecuación del Modelo: es fundamental evaluar si el modelo de factores extraídos es adecuado para los datos. Considera utilizar índices de bondad de ajuste, como el KMO. Además, asegúrate de que los supuestos de normalidad, linealidad y la homocedasticidad, para asegurar la validez de los resultados.
Revisar la validez fiabilidad: examina si los factores extraídos representan adecuadamente el constructo que estás midiendo. Considera calcular el coeficiente de fiabilidad (como el coeficiente alpha de Cronbach) para cada factor, lo que te dará una idea de la consistencia interna de las variables agrupadas.
Para este primer ejemplo trabajaremos con el conjunto de datos bfi
de la librería psyh. Este conjunto de datos contiene
2800 observaciones con 28 variables, con 25 ítem de una prueba de
personalidad. Además incluye las variables de género, nivel de educación
y edad. Por cuestiones prácticas solo trabajaremos con sus primeras 200
observaciones.
library(psych)
library(printr)
N <- 2800
n <- 200
set.seed(1234)
m <- sample(1:N,n,replace = F)
data1 <- bfi[m,1:25] # subconjunto de datos
Primero, debemos calcular la matriz de correlación. Pero aquí debemos tener cuidado con el tipo de correlación, pues tenemos variables ordinales (escala Likert). La correlación correcta para este tipo de datos es la correlación policórica. Si tuviéramos solo dicotómicas, usaríamos tetracóricas y si tuviéramos variables con múltiples niveles de medición haríamos una biserial. Para más información de cómo calcularlas, se puede revisar la librería psych.
# Matriz de correlación datos ordinales
library(polycor)
R <- hetcor(data1)$correlations
library(ggcorrplot)
ggcorrplot(R,type="lower",hc.order = T)
Después de calcular la matriz de correlación, se puede verificar si la matriz de datos es factorizable por medio de la prueba de esfericidad de Bartlett, y la prueba de KMO. En este paso nos tenemos que preguntar si existe la suficiente correlación entre las variable para efectuar el análisis factorial.
Prueba de esfericidad de Bartlett
cortest.bartlett(R)$p.value
## [1] 8.165851e-51
Dado que el \(p-value=0\), rechazamos la hipótesis nula y concluimos que las variables efectivamente están correlacionadas entre sí.
Prueba de KMO
KMO(R)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R)
## Overall MSA = 0.75
## MSA for each item =
## A1 A2 A3 A4 A5 C1 C2 C3 C4 C5 E1 E2 E3 E4 E5 N1
## 0.67 0.75 0.76 0.77 0.82 0.75 0.70 0.70 0.76 0.82 0.84 0.82 0.80 0.76 0.75 0.63
## N2 N3 N4 N5 O1 O2 O3 O4 O5
## 0.62 0.75 0.78 0.72 0.77 0.72 0.73 0.51 0.78
Un valor global de \(0.76\) nos corrobora que con estas variables podemos aplicar un EFA. Además, el MSA de cada ítem muestra la importancia de cada uno de ellos en el análisis.
Recordemos que la elección del método es un tema de gran interés y se espera que con la ayuda del investigador del tema, se logre encontrar el método más adecuado.
Con la función fa()
podemos explorar los siguientes métodos:
minres
: mínimo residuo.mle
: máxima verosimilitud.paf
: ejes principales.alpah
: alfa.minchi
: mínimos cuadrados.minrak
: rango mínimo.Como parte de la exploración, supongamos que probamos dos modelos, uno con el método de ejes principales y el otro con el método mínimo cuadrados ponderados. Esto es:
### prueba de dos modelos con cinco factores
m1 <- fa(R, nfactors = 5, rotate = "none",
fm="paf") # modelo de ejes principales
m2 <- fa(R, nfactors = 5, rotate = "none",
fm="minchi") # modelo mínimos cuadrados
######comparación de las comunalidades
c1 <- sort(m1$communality,decreasing = T)
c2 <- sort(m2$communality,decreasing = T)
head(cbind(c1,c2))
c1 | c2 | |
---|---|---|
N2 | 0.7074126 | 0.7074126 |
N1 | 0.6545525 | 0.6545525 |
C2 | 0.6305464 | 0.6305464 |
E3 | 0.5904160 | 0.5904160 |
C4 | 0.5642225 | 0.5642225 |
N4 | 0.5511394 | 0.5511394 |
####comparación de las unicidades
u1 <- sort(m1$uniquenesses,decreasing = T)
u2 <- sort(m2$uniquenesses,decreasing = T)
head(cbind(u1,u2))
u1 | u2 | |
---|---|---|
A1 | 0.8512869 | 0.8512869 |
O4 | 0.8259042 | 0.8259042 |
O1 | 0.6758631 | 0.6758631 |
C1 | 0.6742167 | 0.6742167 |
E4 | 0.6607098 | 0.6607098 |
A4 | 0.6570503 | 0.6570503 |
Comunalidades: es la proporción de la varianza total de esa variable que es explicada por los factores extraídos en el modelo. En otras palabras, indica cuánto de la variación en una variable se puede atribuir a los factores comunes que han sido identificados. Valores altos de comunalidad sugieren que la variable tiene una fuerte relación con los factores subyacentes, mientras que valores bajos pueden indicar que la variable es independiente o que no se relaciona bien con los factores.
Unicidades: es la proporción de la varianza total de esa variable que no es explicada por los factores extraídos. En otras palabras, es la parte de la varianza que es única para esa variable y que no está relacionada con los factores comunes. Valores altos de unicidad indican que la variable tiene un componente importante de varianza que no está capturado por los factores extraídos. Esto puede ser una señal de que la variable no se relaciona bien con el modelo.
Aplicamos los tres métodos mencionados y comparamos el número de factores que determina.
# 1. Valores propios
ei <- eigen(R)
plot(ei$values,type="b",pch=20,col="blue")
abline(h=1,lty=3,col="red")
# 2. Scree plot
scree(R)
# 3. Paralelo
fa.parallel(R,main=" ",ylab=" ")
## Parallel analysis suggests that the number of factors = 5 and the number of components = 5
library(GPArotation)
rot<-c("none", "varimax", "quartimax","Promax")
bi_mod<-function(tipo){
biplot.psych(fa(data1,nfactors = 2,fm="paf",rotate = tipo),main = paste("Biplot con rotación ",tipo),col=c("red","black"),pch=c(5,19),group = bfi[,"gender"])
}
sapply(rot,bi_mod)
## $none
## NULL
##
## $varimax
## NULL
##
## $quartimax
## NULL
##
## $Promax
## NULL
Para ayudar a la interpretación se puede hacer un gráfico de árbol. Esto es:
modelo_varimax <- fa(R,nfactors = 5,rotate = "varimax",fa="ml")
fa.diagram(modelo_varimax)
Con ayuda del investigador del tema, podemos pensar en que los factores pueden ser interpretados como:
MR1: Extraversión (E1, E2, E3, E4, E5).
MR2: Neuroticismo (N1, N2, N3, N4, N5).
MR3: Conciencia (C1, C2, C3, C4, C5).
MR4: Agradable (A1, A2, A3, A4, A5).
MR5: Apertura (O1, O2, O3, O4, O5).
Para este segundo ejemplo, trabajaremos la base de datos Hatco
, tomada del libro de Anderson (1999). Estos
datos corresponden a 100 observaciones de 7 variables influyentes en la
elección de un distribuidor industrial. Las variables de interés
son:
data2 <- read.csv("hatco.csv")
head(data2)
empresa | x1 | x2 | x3 | x4 | x5 | x6 | x7 |
---|---|---|---|---|---|---|---|
1 | 4.1 | 0.6 | 6.9 | 4.7 | 2.35 | 5.2 | 4.2 |
2 | 1.8 | 3.0 | 6.3 | 6.6 | 4.00 | 8.4 | 4.3 |
3 | 3.4 | 5.2 | 5.7 | 6.0 | 2.70 | 8.2 | 5.2 |
4 | 2.7 | 1.0 | 7.1 | 5.9 | 2.30 | 7.8 | 3.9 |
5 | 6.0 | 0.9 | 9.6 | 7.8 | 4.60 | 4.5 | 6.8 |
6 | 1.9 | 3.3 | 7.9 | 4.8 | 1.90 | 9.7 | 4.4 |
library(psych)
datos <- data2[,-1]
describe(datos)
vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x1 | 1 | 99 | 3.525253 | 1.3234420 | 3.4 | 3.543210 | 1.48260 | 0.0 | 6.1 | 6.1 | -0.1014549 | -0.5905158 | 0.1330109 |
x2 | 2 | 99 | 2.369697 | 1.2003787 | 2.2 | 2.313580 | 1.18608 | 0.2 | 5.4 | 5.2 | 0.4414306 | -0.6152850 | 0.1206426 |
x3 | 3 | 99 | 7.882828 | 1.3890270 | 8.0 | 7.934568 | 1.77912 | 5.0 | 10.0 | 5.0 | -0.2629670 | -1.1254504 | 0.1396025 |
x4 | 4 | 99 | 5.250505 | 1.1368928 | 5.0 | 5.235803 | 1.03782 | 2.5 | 8.2 | 5.7 | 0.2040546 | -0.0680763 | 0.1142620 |
x5 | 5 | 99 | 2.662121 | 0.7738089 | 2.6 | 2.629012 | 0.59304 | 1.1 | 4.6 | 3.5 | 0.4886058 | -0.0271694 | 0.0777707 |
x6 | 6 | 99 | 6.980808 | 1.5902558 | 7.2 | 7.019753 | 1.77912 | 3.7 | 10.0 | 6.3 | -0.2382856 | -0.9107820 | 0.1598267 |
x7 | 7 | 99 | 4.774748 | 0.8590863 | 4.9 | 4.769136 | 0.88956 | 3.2 | 6.8 | 3.6 | 0.0743982 | -0.8442853 | 0.0863414 |
R2 <- cor(datos)
library(ggcorrplot)
ggcorrplot(R2,type="lower",hc.order = T)
# Otra Forma
cor.plot(R2,main="Mapa de calor", diag=F, show.legend = T, cex=0.5)
Prueba de esfericidad de Bartlett
cortest.bartlett(R2)
## $chisq
## [1] 361.9314
##
## $p.value
## [1] 6.663565e-64
##
## $df
## [1] 21
Dado el \(p-value=0\) rechazamos la hipótesis nula y concluimos que están correlacionadas entre sí las variables originales.
Prueba de KMO
KMO(R2)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R2)
## Overall MSA = 0.51
## MSA for each item =
## x1 x2 x3 x4 x5 x6 x7
## 0.58 0.45 0.51 0.44 0.54 0.84 0.42
Notemos que hay variables que no tiene un valor adecuado para el agrupamiento. Si fuera posible no tenerlas en cuenta, podemos ver que tanto mejora:
datos1 <- datos[,-7]
R3 <- cor(datos1)
cortest.bartlett(R3)
## $chisq
## [1] 208.0901
##
## $p.value
## [1] 4.801094e-36
##
## $df
## [1] 15
KMO(R3)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R3)
## Overall MSA = 0.67
## MSA for each item =
## x1 x2 x3 x4 x5 x6
## 0.72 0.79 0.75 0.54 0.53 0.78
# Scree plot
scree(R3)
modelo_varimax2 <- fa(R3,nfactors = 2,rotate = "varimax",fa="ml")
# aplicamos máxima verosimilitud
fa.diagram(modelo_varimax2)
# Método de Componentes principales
modelo <- principal(datos1,nfactors=2,rotate="varimax")
Gráfico circular de correlaciones:
library(ade4)
load <- modelo$loadings[,1:2]
s.corcircle(load,grid=FALSE)
Aplique todo lo aprendido en clase sobre “Análisis Exploratorio Factorial” para solucionar los siguientes ejercicios. Las bases de datos necesarias para trabajar los ejercicios las puedes descargar desde la plataforma de Moodle Institucional.
Ejercicio 1. Atención médica: Para este primer
ejercicio trabajaremos con la base de datos denominada Atencion
. Esta base de datos contiene la información de 100 pacientes
atendidos en cierto hospital, donde se registraron las siguientes
variables:
S: sexo registrado como: hombre (h) y mujer
(m).
E: edad en años.
DI: día de ingreso respecto al 1 de enero del año registrado.
C: sí o no se realizo una cirugía.
D: tipo de tratamiento realizado (1: medicina interna, 2: traumatología, 3: urología, 4: oftalmología).
P1: Estado de las habitaciones.
P2: Comida.
P3: Atención del personal no sanitario.
P4: Atención del personal sanitario.
P5: Atención del personal de enfermería.
P6: Atención del personal médico.
P7: Información recibida.
P8: Solución del problema.
P9: valoración general.
Estadísticas descriptivas: Con las variables que corresponden a la descripción de los pacientes, realice un análisis exploratorio descriptivo, explicando a detalle las características encontradas.
Análisis factorial exploratorio (EFA): realice EFA con las de valoración de las diferentes atenciones recibidas (P1, P2, P3, P4, P5, P6, P7, P8, P9) durante la estancia en el hospital, esperando encontrar alguna estructura subyacente y apreciar cuales son las áreas de oportunidad para mejorar. Recuerde explicar a detalle el paso 5.
Ejercicio 2. Calificaciones estudiantiles: La base
de datos para este segundo ejercicio se denomina Calificaciones
.
Esta base de datos contiene la información de 100 estudiantes de
educación secundaria, donde se registraron las siguientes variables:
Edad: Edad del estudiante.
Grado: año escolar.
Naturales: Calificaciones obtenidas en ciencias naturales.
Sociales: Calificaciones obtenidas en ciencias Sociales.
Espanol: Calificaciones obtenidas en español.
Ingles: Calificaciones obtenidas en inglés.
Deportes: Calificaciones obtenidas en deportes.
Humanidades: Calificaciones obtenidas en humanidades.
Etica: Calificaciones obtenidas en ética.
Estadísticas descriptivas: Con las variables que corresponden a la descripción de los estudiantes, realice un análisis exploratorio descriptivo, explicando a detalle las características encontradas.
Análisis factorial exploratorio (EFA): realice EFA con las calificaciones de las diferentes asignaturas, explorando algunas estructura subyacente. Recuerde explicar a detalle el paso 5. \[ \]