El siguiente análisis se realizó por el método de análisis factorial para encontrar factores que mejor describan 31 variables de China que inciden con la innovación, todas estas variables fueron estandarizadas bajo la técnica de escalamiento de datos poderlas trabajar.
Se siguió la técnica de análisis factorial (AF) exploratorio el cual es un método multivariante que pretende expresar p variables observables como una combinación lineal de m variables hipotéticas o latentes, denominadas factores. Tiene una formulación parecida al Análisis de Componentes Principales, pero el modelo que relaciona variables y factores es diferente en AF. Si la matriz de correlaciones existe, las componentes principales también existen, mientras que el modelo factorial podrá ser aceptado o no mediante un test estadístico.
Los pasos para efectuar el análisis factorial fueron
• Verificar que la matriz de datos sea factorizable
• Extraer los Factores
• Determinar el número correcto de factores
• Rotar los factores
• Interpretar los resultados
En este documento trabajaremos con el conjunto de datos que contiene 31 variables relacionadas con la innovación de China en el periodo 2000-2021.
Generando matriz para trabajo
library(psych)
library(polycor)
library(ggplot2)
library(ggcorrplot)
generar_matriz_correlacion <- function(datost)
# Seleccionar un subconjunto de datos
datos_subset=(datost)
# Calcular la matriz de correlación policórica
mat_cor <- hetcor(datost)$correlations
# Crear y mostrar el gráfico de la matriz de correlación
ggcorrplot(mat_cor, type = "lower", hc.order = TRUE)Después de calcular la matriz de correlación, se puede verificar si la matriz de datos es factorizable por medio de la prueba de esfericidad de Bartlett, y la prueba de Kaiser-Meyer-Olkin.
En este paso nos tenemos que preguntar si existe la suficiente correlación entre las variable para efectuar el análisis factorial. Aplicamos la prueba de Bartlett que se utiliza para probar la hipótesis nula que afirma que las variables no están correlacionadas en la población.
## $chisq
## [1] 17616.12
##
## $p.value
## [1] 0
##
## $df
## [1] 465
El resultado del p valor nos permite rechazar la hipótesis nula. La otra prueba que podemos aplicar es el criterio de Kaiser-Meyer-Olkin. La prueba de Kaiser-Meyer-Olkin (KMO) es una medida de qué tan adecuados son sus datos para el análisis factorial . La prueba mide la adecuación del muestreo para cada variable en el modelo y para el modelo completo. La estadística es una medida de la proporción de varianza entre variables que podrían ser varianza común.
Como referencia, Kaiser puso los siguientes valores en los resultados:
-0.00 a 0.49 inaceptable.
-0.50 a 0.59 miserable.
-0,60 a 0,69 mediocre.
-0.70 a 0.79 medio.
-0,80 a 0,89 meritorio.
-0.90 a 1.00 maravilloso.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = mat_cor)
## Overall MSA = 0.81
## MSA for each item =
## v1 v2 v3 v5 v6 v7 v8 v9 v10 v11 v12 v13 v19 v20 v21 v22
## 0.11 0.14 0.92 0.86 0.77 0.87 0.86 0.08 0.82 0.34 0.80 0.79 0.65 0.95 0.27 0.81
## v23 v24 v25 v26 v27 v28 v29 v30 v31 v32 v33 v34 v38 v42 v43
## 0.92 0.69 0.74 0.96 0.09 0.95 0.94 0.94 0.85 0.94 0.94 0.83 0.89 0.76 0.62
El resultado es 0.81 lo que nos dice que podemos continuar con el Análisis Factorial.
Los métodos disponibles son: Componentes principales, Mínimos cuadrados no ponderados, Mínimos cuadrados generalizados, Máxima verosimilitud, factorización de Ejes principales, factorización Alfa y factorización Imagen.
-Análisis de componentes principales. Método para la extracción de factores utilizada para formar combinaciones lineales no correlacionadas de las variables observadas. El primer componente tiene la varianza máxima. Las componentes sucesivas explican progresivamente proporciones menores de la varianza y no están correlacionadas unas con otras. El análisis principal de las componentes se utiliza para obtener la solución factorial inicial. No se puede utilizar cuando una matriz de correlaciones es singular.
-Método de mínimos cuadrados no ponderados. Método de extracción de factores que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida, ignorando las diagonales.
-Método de Mínimos cuadrados generalizados. Método de extracción de factores que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida. Las correlaciones se ponderan por el inverso de su exclusividad, de manera que las variables que tengan un valor alto de exclusividad reciban una ponderación menor que aquéllas que tengan un valor bajo de exclusividad.
-Método de máxima verosimilitud. Método de extracción factorial que proporciona las estimaciones de los parámetros que con mayor probabilidad ha producido la matriz de correlaciones observada, si la muestra procede de una distribución normal multivariada. Las correlaciones se ponderan por el inverso de la exclusividad de las variables, y se emplea un algoritmo iterativo.
-Factorización de ejes principales. Método para la extracción de factores que parte de la matriz de correlaciones original con los cuadrados de los coeficientes de correlación múltiple insertados en la diagonal principal como estimaciones iniciales de las comunalidades. Las cargas factoriales resultantes se utilizan para estimar de nuevo las comunalidades que reemplazan a las estimaciones previas de comunalidad en la diagonal. Las iteraciones continúan hasta que el cambio en las comunalidades, de una iteración a la siguiente, satisfaga el criterio de convergencia para la extracción. Alfa.
-Método de extracción factorial que considera a las variables incluidas en el análisis como una muestra del universo de las variables posibles. Este método maximiza el Alfa de Cronbach para los factores.
-Factorización imagen. Método para la extracción de factores, desarrollado por Guttman y basado en la teoría de las imágenes. La parte común de una variable, llamada la imagen parcial, se define como su regresión lineal sobre las restantes variables, en lugar de ser una función de los factores hipotéticos. Con la función fa() podemos utilizar los métodos siguientes.
minres: minimo residuo mle: maxima verosimilitud paf: método de ejes principales alpah: alfa minchi: minimos cuadrados minrak : rango minimo
### prueba de dos modelos con tres factores
modelo1<-fa(mat_cor,
nfactors = 3,
rotate = "none",
fm="mle") # modelo máxima verosimilitud
modelo2<-fa(mat_cor,
nfactors = 3,
rotate = "none",
fm="minres") # modelo minimo residuo######comparando las comunalidades
sort(modelo1$communality,decreasing = T)->c1
sort(modelo2$communality,decreasing = T)->c2
head(cbind(c1,c2))## c1 c2
## v3 0.9971039 0.9983408
## v20 0.9966360 0.9926902
## v31 0.9953153 0.9915159
## v8 0.9951259 0.9914482
## v23 0.9919064 0.9871351
## v38 0.9916500 0.9846171
####comparacion de las unicidades
sort(modelo1$uniquenesses,decreasing = T)->u1
sort(modelo2$uniquenesses,decreasing = T)->u2
head(cbind(u1,u2))## u1 u2
## v9 0.9346962 0.9559138
## v27 0.9029582 0.9060889
## v11 0.8755067 0.8386574
## v1 0.8742576 0.8380379
## v21 0.5602567 0.5304421
## v2 0.5599850 0.5120312
-Kaiser Criterion (Guttman, 1954): esta regla sugiere que se deben retener todos los factores que tengan un eigenvalue de 1.0 o mayor; con el razonamiento de que un factor no debe explicar menos que la varianza equivalente que hubiera explicado una sola de las variables incluidas en el análisis. La regla sin embargo no es estricta y debe analizarse en conjunto con otros criterios.
-Análisis del Scree Plot (Cattell, 1966): este método complementa al anterior y se basa también el análisis de la magnitud de los eigenvalues pero a partir de la tendencia que se observa en el Scree Plot. Se procuran seleccionar un grupo reducido de factores que tengan eigenvalues significativamente superiores a los demás, para lo cual se identifica el punto de inflexión en la curva del scree plot (también referido como el codo por su semejanza con un brazo) a partir del cual la curva se transforma a una línea “plana” o relativamente recta. En el ejemplo que se presenta hay un claro punto de inflexión después de dos factores.
-Análisis paralelo (Horn, 1965): Esta regla suele complementar las anteriores cuando el numero de variables iniciales y factores resultantes es elevado. El procedimiento es basado en el principio de que los factores a extraer deben dar cuenta de mas varianza que la que es esperada de manera aleatoria. El procedimiento reordena las observaciones de manera aleatoria entre cada variable y los eigenvalues son recalculados a partir de esta nueva base de datos aleatoriamente ordenada. Los factores con eigenvalues mayores a los valores aleatorios son retenidos para interpretación.
La obtención de la matriz factorial, no es mas que el primer paso del AF. Normalmente la matriz obtenida no define unos factores interpretables, Se han propuesto diferentes versiones sobre como transformar la matriz factorial a fin de obtener una estructura simple de los factores. Esencialmente se trata de conseguir que unas saturaciones sean altas a costa de otras, que serán bajas, para así destacar la influencia de los factores comunes sobre las variables observables. Existen dos formas básicas de realizar la Rotación de Factores , oblicuas y ortogonales. Se elige uno u otro procedimiento según que los factores rotados sigan siendo ortogonales o no. Señalar que en ambas rotaciones la comunalidad de cada variable no se modifica, esto es, la rotación no afecta a la bondad del ajuste de la solución factorial: aunque cambie la matriz factorial, las especificidades no cambian y, en consecuencia, las comunidades permanecen invariantes. Sin embargo, cambia la varianza explicada por cada factor, por tanto, los nuevos factores no están ordenados de acuerdo con la información que contienen, cuantificada mediante su varianza.
-Varimax:Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de los factores.
-Criterio Oblimin directo:Método para la rotación oblicua (no ortogonal). El método necesita un valor delta que servirá para ajustar los ejes en función de las saturaciones buscan una mejor aproximación, pero considerando que la varianza se distribuirá entre todos los factores.
-Método quartimax: Método de rotación que minimiza el número de factores necesarios para explicar cada variable.
-Método equamax:Método de rotación que es combinación del método varimax, que simplifica los factores, y el método quartimax, que simplifica las variables. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable.
-Rotación Promax: Rotación oblicua que permite que los factores estén correlacionados. Esta rotación se puede calcular más rápidamente que una rotación oblimin directa, por lo que es útil para conjuntos de datos grandes.
library()
#Rotaciones
library(GPArotation)
rot<-c("none", "varimax", "quartimax","Promax")
bi_mod<-function(tipo){
biplot.psych(fa(datost,nfactors = 4,fm="minres",rotate = tipo),main = paste("Biplot con rotación ",tipo),col=c(2,3,4),pch = c(21,18),group = bfi[,"gender"])
}
sapply(rot,bi_mod)## $none
## NULL
##
## $varimax
## NULL
##
## $quartimax
## NULL
##
## $Promax
## NULL
Los factores pueden ser interprestados como:
##
## Loadings:
## MR1 MR2 MR4 MR3
## v1 -0.130 0.367 0.031 -0.156
## v2 -0.032 0.000 -0.026 0.925
## v3 0.993 -0.079 0.050 -0.032
## v5 0.964 -0.071 0.194 -0.019
## v6 0.699 0.528 0.351 0.229
## v7 0.875 0.351 0.272 0.142
## v8 0.988 -0.124 0.010 -0.048
## v9 0.000 0.100 0.313 -0.021
## v10 0.978 0.069 0.126 0.040
## v11 0.206 0.039 0.646 -0.103
## v12 0.879 0.344 0.173 0.103
## v13 0.975 -0.154 0.073 -0.041
## v19 0.471 0.630 0.420 0.191
## v20 0.987 0.019 0.155 0.002
## v21 0.078 0.495 -0.063 0.515
## v22 0.924 0.247 0.271 0.050
## v23 0.945 0.213 0.229 -0.025
## v24 -0.792 0.441 0.003 0.070
## v25 0.576 0.684 0.184 0.069
## v26 0.955 0.220 0.154 0.052
## v27 -0.006 -0.316 -0.015 -0.045
## v28 0.962 0.198 0.142 0.042
## v29 0.737 0.434 0.258 0.216
## v30 0.930 0.217 0.182 0.079
## v31 0.896 0.141 0.185 0.285
## v32 0.737 0.434 0.258 0.216
## v33 0.930 0.217 0.182 0.079
## v34 0.929 0.070 0.044 0.251
## v38 0.975 0.112 0.168 0.044
## v42 -0.814 0.330 -0.246 0.095
## v43 0.555 -0.145 0.722 0.295
##
## MR1 MR2 MR4 MR3
## SS loadings 19.035 2.959 2.058 1.650
## Proportion Var 0.614 0.095 0.066 0.053
## Cumulative Var 0.614 0.710 0.776 0.829