En esta práctica haremos análisis de diferentes bases de datos con el objetivo de hacer un modelo de componentes principales, viendo cuáles son las variables más importantes y que más efecto tienen en representar el evento.
Data_PCA
A pesar de que no tenemos conocimiento de donde proviene la información o qué representa cada uno de los campos de las observaciones, podemos hacer el análisis de PCA. Comenzando por ver cuál es la estructura de nuestra base de datos.
La base de datos data_pca tiene un total de 16 variables con la última siendo la variable dependiente con un número de 200 observaciones.
Gráfico de correlación
Hacer un gráfico de correlación dentro de las variables nos puede ayudar a ver si existe alguna correlación entre las variables significativo para ver si es conveniente hacer una reducción de variables por componntes principales, si no hubiera relación entre las variables, no sería posible hacer la reducción ya que implicaría cierta pérdida de información con el modelo, cierto grado de redundancia se necesita para hacer el PCA.
psych::cor.plot(data1[,-16])
Como podemos ver si hay una cantidad de variables que tienen cierta correlación con otras, ya sea de forma positiva o negativa, indicativo de que si es posible hacer el modelo.
La tabla anterior nos muestra cuáles son las variables con mayor significancia, medida en términos de varianza, mientras más varianza, más significativa es para el evento analizado.
En el caso particular de estos datos podemos ver que al ser muchas variables, la varianza es menor en cada variable que en otras bases de datos que ya hemos analizado. Donde ninguna de las variables excede una varianza del 20%.
Revisar varianza y eigenvalores
Si hiciéramos el “Método del codo”, la reducción de nuestras variables sería hasta la sexta, donde se hace un cambio de inclinación.
fviz_eig(pca,choice="eigenvalue")
Tenemos el mismo comportamiento de las variables con el análisis de eigenvalores.
Análisis gráfico
Coseno cuadrado:
Se utiliza para medir la calidad de la representación de las variables originales en el espacio de los componentes principales. Específicamente, el coseno cuadrado de una variable en un componente principal es el cuadrado del coseno del ángulo entre la variable original y el componente principal.
Gráfico de las puntuaciones factoriales y su representación
Para visualizar las puntuaciones se emplea un biplot La flecha indica la dirección en la que contribuyen las ubican los sujetos estudiados.
Representacion de los componentes en relación con todas las observaciones, sin embargo, para poder ver los componentes de forma más clara, veremos sus vectores sin las observaciones.
Podemos ver cuáles son los componentes que más contribuyen al comportamiento de nuestro modelo, justificando nuestra elección previa de los componentes a través de las varianzas.
Resultados del pca rotando los factores
La rotación más común es varimax. En un PCA, los componentes principales iniciales pueden ser difíciles de intrpretar porque cada variable puede tener cargas significativas en varios componentes. Al aplicar la rotación varimax, se ajustan las cargas de manera que cada variable tenga una carga alta en un solo componente, haciendo que la estructura sea más simple y clara.
Nuevas variables obtenidas, cuya principal característica es que son ortogonales, es decir, linealmente independientes.
Por lo anterior, un conjunto de 16 variables altamente relacionadas se redujo a unicamente seis variables cuya característica es que son ortogonales.
Las variables son las siguientes:
Nuevas variables
RC1
RC2
RC4
RC3
RC6
RC5
1.6966757
-2.9523739
0.1840956
-1.8786541
-0.6739879
0.1845061
0.3512844
1.0883581
-0.0624244
-2.7275223
0.2596126
-1.2133255
-0.2010572
-0.5710163
0.2524740
1.1201882
-1.0263194
0.8804668
0.1702994
0.4776253
0.5119963
0.2076556
-0.6050585
0.4909305
1.7590966
-0.0669114
-0.3037917
0.1025500
0.2531106
0.4878950
Poblacion USA
En este caso sabemos que la información proporcionada son datos censales de de la población por estado en Estados Unidos de América, separado por años desde el 2000. En este caso en particular haremos el análisis para los años del 2020 y 2021. Como casos distintos y ver si hay ciertos patrones que se repiten.
# A tibble: 6 × 20
State Census Resident Tota…¹ Resident Total Popul…² Resident Total Popul…³
<chr> <dbl> <dbl> <dbl>
1 Alabama 4447100 4451493 4464356
2 Alaska 626932 627601 634892
3 Arizona 5130632 5165274 5307331
4 Arkansas 2673400 2678030 2692090
5 Californ… 33871648 34000446 34501130
6 Colorado 4301261 4323410 4417714
# ℹ abbreviated names: ¹`Census Resident Total Population - AB:Qr-1-2000`,
# ²`Resident Total Population Estimate - Jul-1-2000`,
# ³`Resident Total Population Estimate - Jul-1-2001`
# ℹ 16 more variables: `Net Domestic Migration - Jul-1-2000` <dbl>,
# `Net Domestic Migration - Jul-1-2001` <dbl>,
# `Federal/Civilian Movement from Abroad - Jul-1-2000` <dbl>,
# `Federal/Civilian Movement from Abroad - Jul-1-2001` <dbl>, …
Ya que tenemos una idea sobre la información proporcionada, nos encargaremos primero en hacer el análisis PCA para el año 2000.
PCA población USA 2000
Estructura y análisis exploratorio inicial
Las variables que quedaron para el 2000 fueron:
[1] "Census Resident Total Population"
[2] "Resident Total Population Estimate"
[3] "Net Domestic Migration"
[4] "Federal/Civilian Movement from Abroad"
[5] "Net International Migration"
[6] "Period Births"
[7] "Period Deaths"
[8] "Resident Under 65 Population Estimate"
[9] "Resident 65 Plus Population Estimate"
[10] "Residual"
La base de datos tiene un total de 10 variables con un número de 51 observaciones.
Gráfico de correlación
Hacer un gráfico de correlación dentro de las variables nos puede ayudar a ver si existe alguna correlación entre las variables significativo para ver si es conveniente hacer una reducción de variables por componntes principales, si no hubiera relación entre las variables, no sería posible hacer la reducción ya que implicaría cierta pérdida de información con el modelo, cierto grado de redundancia se necesita para hacer el PCA.
Como podemos ver si hay una cantidad de variables que tienen cierta correlación con otras, ya sea de forma positiva o negativa, indicativo de que si es posible hacer el modelo.
Primero, podemos observar que el método de adecuación muestral de Kaiser-Meyer-Olkin, no es posible invertir, dentro de nuestras variables hay algunas con una correlación perfecta con otras variables. Sin embargo esto nos indica una alta redundancia.
La tabla anterior nos muestra cuáles son las variables con mayor significancia, medida en términos de varianza, mientras más varianza, más significativa es para el evento analizado.
En el caso particular de estos datos podemos ver que al ser muchas variables, la varianza es menor en cada variable que en otras bases de datos que ya hemos analizado. Donde ninguna de las variables excede una varianza del 20%.
Revisar varianza y eigenvalores
Si hiciéramos el “Método del codo”, la reducción de nuestras variables sería hasta la segunda, donde se hace un cambio de inclinación.
fviz_eig(pca1_2000,choice="eigenvalue")
Tenemos el mismo comportamiento de las variables con el análisis de eigenvalores.
Análisis gráfico
Coseno cuadrado:
Se utiliza para medir la calidad de la representación de las variables originales en el espacio de los componentes principales. Específicamente, el coseno cuadrado de una variable en un componente principal es el cuadrado del coseno del ángulo entre la variable original y el componente principal.
Gráfico de las puntuaciones factoriales y su representación
Para visualizar las puntuaciones se emplea un biplot La flecha indica la dirección en la que contribuyen las ubican los sujetos estudiados.
Representacion de los componentes en relación con todas las observaciones, sin embargo, para poder ver los componentes de forma más clara, veremos sus vectores sin las observaciones.
Podemos ver cuáles son los componentes que más contribuyen al comportamiento de nuestro modelo, justificando nuestra elección previa de los componentes a través de las varianzas. Las de mayor contribución se encuentran en el cuadrante1.
Resultados del pca rotando los factores
La rotación más común es varimax. En un PCA, los componentes principales iniciales pueden ser difíciles de intrpretar porque cada variable puede tener cargas significativas en varios componentes. Al aplicar la rotación varimax, se ajustan las cargas de manera que cada variable tenga una carga alta en un solo componente, haciendo que la estructura sea más simple y clara.
Principal Components Analysis
Call: psych::principal(r = data2_2000_1, nfactors = 2, residuals = FALSE,
rotate = "varimax", scores = TRUE, oblique.scores = FALSE,
method = "regression", use = "pairwise", cor = "cor", weight = NULL)
Standardized loadings (pattern matrix) based upon correlation matrix
RC1 RC2 h2 u2 com
Census Resident Total Population 1.00 -0.02 0.99 0.0059 1.0
Resident Total Population Estimate 1.00 -0.02 0.99 0.0058 1.0
Net Domestic Migration -0.26 0.77 0.66 0.3421 1.2
Federal/Civilian Movement from Abroad 0.74 0.42 0.73 0.2692 1.6
Net International Migration 0.94 0.04 0.89 0.1128 1.0
Period Births 0.99 0.05 0.99 0.0142 1.0
Period Deaths 0.97 -0.08 0.94 0.0563 1.0
Resident Under 65 Population Estimate 1.00 -0.01 0.99 0.0061 1.0
Resident 65 Plus Population Estimate 0.97 -0.07 0.94 0.0623 1.0
Residual 0.20 0.77 0.63 0.3663 1.1
RC1 RC2
SS loadings 7.38 1.38
Proportion Var 0.74 0.14
Cumulative Var 0.74 0.88
Proportion Explained 0.84 0.16
Cumulative Proportion 0.84 1.00
Mean item complexity = 1.1
Test of the hypothesis that 2 components are sufficient.
The root mean square of the residuals (RMSR) is 0.06
with the empirical chi square 15.64 with prob < 0.94
Fit based upon off diagonal values = 0.99
Matriz de coeficientes para las puntuaciones de los componentes
Nuevas variables obtenidas, cuya principal característica es que son ortogonales, es decir, linealmente independientes.
Por lo anterior, un conjunto de 10 variables altamente relacionadas se redujo a unicamente dos variables cuya característica es que son ortogonales.
Las variables son las siguientes:
Nuevas variables
RC1
RC2
-1.5127071
-0.5211650
-5.2605020
0.0880784
-0.5341723
1.9213981
-3.3855968
-0.0883064
35.1759366
-0.1163695
PCA población USA 2001
Estructura y análisis exploratorio inicial
Las variables que quedaron para el 2001 fueron:
[1] "Resident Total Population Estimate"
[2] "Net Domestic Migration"
[3] "Federal/Civilian Movement from Abroad"
[4] "Net International Migration"
[5] "Period Births"
[6] "Period Deaths"
[7] "Resident Under 65 Population Estimate"
[8] "Resident 65 Plus Population Estimate"
[9] "Residual"
La base de datos tiene un total de 9 variables con un número de 51 observaciones.
Gráfico de correlación
Hacer un gráfico de correlación dentro de las variables nos puede ayudar a ver si existe alguna correlación entre las variables significativo para ver si es conveniente hacer una reducción de variables por componntes principales, si no hubiera relación entre las variables, no sería posible hacer la reducción ya que implicaría cierta pérdida de información con el modelo, cierto grado de redundancia se necesita para hacer el PCA.
Como podemos ver si hay una cantidad de variables que tienen cierta correlación con otras, ya sea de forma positiva o negativa, indicativo de que si es posible hacer el modelo.
Primero, podemos observar que el método de adecuación muestral de Kaiser-Meyer-Olkin, no es posible invertir, dentro de nuestras variables hay algunas con una correlación perfecta con otras variables. Sin embargo esto nos indica una alta redundancia.
La tabla anterior nos muestra cuáles son las variables con mayor significancia, medida en términos de varianza, mientras más varianza, más significativa es para el evento analizado.
En el caso particular de estos datos podemos ver que al ser muchas variables, la varianza es menor en cada variable que en otras bases de datos que ya hemos analizado. Donde ninguna de las variables excede una varianza del 20%.
Revisar varianza y eigenvalores
Si hiciéramos el “Método del codo”, la reducción de nuestras variables sería hasta la segunda, donde se hace un cambio de inclinación.
fviz_eig(pca1_2000,choice="eigenvalue")
Análisis gráfico
Coseno cuadrado:
Se utiliza para medir la calidad de la representación de las variables originales en el espacio de los componentes principales. Específicamente, el coseno cuadrado de una variable en un componente principal es el cuadrado del coseno del ángulo entre la variable original y el componente principal.
Gráfico de las puntuaciones factoriales y su representación
Para visualizar las puntuaciones se emplea un biplot La flecha indica la dirección en la que contribuyen las ubican los sujetos estudiados.
Representacion de los componentes en relación con todas las observaciones, sin embargo, para poder ver los componentes de forma más clara, veremos sus vectores sin las observaciones.
Podemos ver cuáles son los componentes que más contribuyen al comportamiento de nuestro modelo, justificando nuestra elección previa de los componentes a través de las varianzas. Las de mayor contribución se encuentran en el cuadrante1.
Resultados del pca rotando los factores
La rotación más común es varimax. En un PCA, los componentes principales iniciales pueden ser difíciles de intrpretar porque cada variable puede tener cargas significativas en varios componentes. Al aplicar la rotación varimax, se ajustan las cargas de manera que cada variable tenga una carga alta en un solo componente, haciendo que la estructura sea más simple y clara.
Principal Components Analysis
Call: psych::principal(r = data2_2001_1, nfactors = 2, residuals = FALSE,
rotate = "varimax", scores = TRUE, oblique.scores = FALSE,
method = "regression", use = "pairwise", cor = "cor", weight = NULL)
Standardized loadings (pattern matrix) based upon correlation matrix
RC1 RC2 h2 u2 com
Resident Total Population Estimate 1.00 0.03 0.99 0.0068 1.0
Net Domestic Migration -0.22 0.87 0.81 0.1884 1.1
Federal/Civilian Movement from Abroad -0.70 -0.47 0.72 0.2839 1.8
Net International Migration 0.94 0.08 0.89 0.1088 1.0
Period Births 0.99 0.06 0.98 0.0178 1.0
Period Deaths 0.97 0.00 0.93 0.0651 1.0
Resident Under 65 Population Estimate 1.00 0.03 0.99 0.0068 1.0
Resident 65 Plus Population Estimate 0.96 0.04 0.93 0.0676 1.0
Residual 0.27 0.87 0.83 0.1691 1.2
RC1 RC2
SS loadings 6.32 1.76
Proportion Var 0.70 0.20
Cumulative Var 0.70 0.90
Proportion Explained 0.78 0.22
Cumulative Proportion 0.78 1.00
Mean item complexity = 1.1
Test of the hypothesis that 2 components are sufficient.
The root mean square of the residuals (RMSR) is 0.05
with the empirical chi square 7.81 with prob < 0.99
Fit based upon off diagonal values = 1
Matriz de coeficientes para las puntuaciones de los componentes