Importar las bases de datos
Datos_Economia_Proyecto_Final_Jairo <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx")
data16 <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx",
sheet = "2016")
data22 <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx",
sheet = "2022")
Al importar las bases de datos podemos observar que ambas tienen un total de 217 observaciones y 7 variables.
Limpieza de datos 2016
Se realizara una limpieza de datos para el 2016 donde eliminaremos datos repetidos, datos nulos y cualquier otra inconsistencia que altere el resultado de los analisis que realizaremos mas adelante.
summary(data16)
| País | GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|---|
| Length:217 | Min. : 242.5 | Min. :-12.2028 | Min. :-2.2173 | Min. :52.04 | Min. :14.38 | Min. : 0.150 | |
| Class :character | 1st Qu.: 2189.9 | 1st Qu.: 0.3276 | 1st Qu.: 0.2874 | 1st Qu.:66.12 | 1st Qu.:32.36 | 1st Qu.: 3.877 | |
| Mode :character | Median : 6131.6 | Median : 2.1415 | Median : 1.1179 | Median :73.70 | Median :40.23 | Median : 5.904 | |
| NA | Mean : 17149.0 | Mean : 1.8490 | Mean : 1.2169 | Mean :72.30 | Mean :42.02 | Mean : 7.946 | |
| NA | 3rd Qu.: 21525.9 | 3rd Qu.: 3.4223 | 3rd Qu.: 2.0863 | 3rd Qu.:78.13 | 3rd Qu.:51.05 | 3rd Qu.:10.860 | |
| NA | Max. :174412.5 | Max. : 30.1749 | Max. : 7.2128 | Max. :84.23 | Max. :83.03 | Max. :25.999 | |
| NA | NA’s :7 | NA’s :9 | NA | NA’s :7 | NA’s :30 | NA’s :30 |
La base de datos contiene 217 observaciones con información socioeconómica de diferentes países, aunque algunas variables presentan valores faltantes. La variable GDP (Producto Interno Bruto) muestra un rango amplio, desde 242.5 hasta 174,412.5, con una mediana de 6,131.6 y un promedio de 17,149.0, lo que indica una distribución sesgada hacia valores altos. Asimismo, el Crecimiento del GDP varía desde -12.20 (contracción económica) hasta 30.17 (crecimiento acelerado), con una mediana de 2.14, sugiriendo que la mayoría de los países experimentan un crecimiento moderado. El Crecimiento Poblacional tiene un rango de -2.22 a 7.21, con una mediana de 1.12 y una media de 1.22, reflejando en general un aumento leve en la población.
En cuanto a la Esperanza de Vida, esta varía entre 52.04 y 84.23 años, con una mediana de 73.7 años, lo que indica que la mayoría de los países se encuentran en un rango moderado-alto. Por otro lado, la Participación Laboral fluctúa entre el 14.38% y el 83.03%, con una mediana de 40.23%, lo que sugiere que en la mitad de los países menos de la mitad de la población económicamente activa está trabajando. El Desempleo muestra valores bajos en algunos países (0.15%), pero en otros alcanza niveles preocupantes (25.99%), con una mediana de 5.90%.
Es importante notar que hay valores faltantes en varias variables, como GDP (7 valores), Crecimiento GDP (9 valores), Esperanza de Vida (7 valores), Participación Laboral (30 valores) y Desempleo (30 valores), lo que debe abordarse adecuadamente para evitar sesgos en el análisis. En general, el dataset evidencia una gran disparidad en métricas clave, reflejando desigualdades significativas entre los países analizados.
colSums(is.na(data16))
## País GDP Crecimiento GDP
## 0 7 9
## Crecimiento Poblacional Esperanza de vida Participación Laboral
## 0 7 30
## Desempleo
## 30
data.limpia16 <- na.omit(data16)
data.limpia16 <- data.limpia16[, -1]
summary(data.limpia16)
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| Min. : 242.5 | Min. :-12.2028 | Min. :-2.2173 | Min. :52.04 | Min. :14.38 | Min. : 0.150 | |
| 1st Qu.: 1809.7 | 1st Qu.: 0.2774 | 1st Qu.: 0.4438 | 1st Qu.:65.80 | 1st Qu.:31.98 | 1st Qu.: 3.853 | |
| Median : 5598.5 | Median : 1.9437 | Median : 1.2308 | Median :73.53 | Median :40.08 | Median : 5.904 | |
| Mean : 13566.7 | Mean : 1.5415 | Mean : 1.3648 | Mean :72.05 | Mean :41.64 | Mean : 7.949 | |
| 3rd Qu.: 17082.2 | 3rd Qu.: 3.3084 | 3rd Qu.: 2.2461 | 3rd Qu.:78.02 | 3rd Qu.:50.46 | 3rd Qu.:10.820 | |
| Max. :106899.3 | Max. : 11.0230 | Max. : 7.2128 | Max. :84.23 | Max. :83.03 | Max. :25.999 |
Tras la limpieza de los datos, el Producto Interno Bruto (PIB) de los países muestra una gran variación, con valores que van desde 242.5 hasta 106,899.3, una mediana de 5,598.5 y un promedio de 13,566.7, lo que indica una distribución sesgada hacia los valores más altos. El crecimiento del PIB fluctúa entre -12.20 y 11.02, con una mediana de 1.94, lo que sugiere que la mayoría de los países experimentan un crecimiento moderado, aunque algunos registran contracciones significativas. El crecimiento poblacional varía de -2.22 a 7.21, con una mediana de 1.23 y un promedio de 1.36, lo que refleja un aumento poblacional generalmente moderado.
La esperanza de vida se sitúa entre 52.04 y 84.23 años, con una mediana de 73.53 años, destacando que la mayoría de los países están en un rango medio a alto. La participación laboral oscila entre el 14.38% y el 83.03%, con una mediana del 40.08%, lo que indica que en muchos países menos de la mitad de la población económicamente activa está trabajando. Por último, la tasa de desempleo varía de 0.15% a 25.99%, con una mediana de 5.90%, señalando que, aunque la mayoría enfrenta un desempleo moderado, algunos países tienen tasas preocupantes. En general, los datos destacan la amplia diversidad económica y social entre las naciones analizadas.
Limpieza de datos 2022
Se realizara una limpieza de datos para el 2022 donde eliminaremos datos repetidos, datos nulos y cualquier otra inconsistencia que altere el resultado de los analisis que realizaremos mas adelante.
summary(data22)
| País | GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|---|
| Length:217 | Min. : 259 | Min. :-22.370 | Min. :-14.3165 | Min. :53.00 | Min. :13.55 | Min. : 0.130 | |
| Class :character | 1st Qu.: 2659 | 1st Qu.: 1.179 | 1st Qu.: 0.2382 | 1st Qu.:66.78 | 1st Qu.:30.29 | 1st Qu.: 3.501 | |
| Mode :character | Median : 7657 | Median : 2.950 | Median : 0.9037 | Median :73.51 | Median :39.20 | Median : 5.537 | |
| NA | Mean : 20443 | Mean : 3.326 | Mean : 0.8830 | Mean :72.42 | Mean :40.53 | Mean : 7.269 | |
| NA | 3rd Qu.: 26435 | 3rd Qu.: 5.308 | 3rd Qu.: 1.8942 | 3rd Qu.:78.47 | 3rd Qu.:48.74 | 3rd Qu.: 9.455 | |
| NA | Max. :240862 | Max. : 62.599 | Max. : 3.7130 | Max. :85.38 | Max. :77.93 | Max. :37.852 | |
| NA | NA’s :15 | NA’s :16 | NA’s :1 | NA’s :8 | NA’s :31 | NA’s :31 |
El GDP presenta una amplia variabilidad, desde un mínimo de 259 hasta un máximo de 240,862 unidades monetarias, con una mediana de 7,657 y una media de 20,443. El crecimiento del GDP también varía significativamente, oscilando entre -22.37% y 62.60%, con una mediana del 2.95% y una media del 3.33%. Sin embargo, hay valores faltantes en ambas variables (15 para GDP y 16 para crecimiento del GDP).
El crecimiento poblacional tiene una media cercana al 0.88% y una mediana del 0.90%, indicando que la mayoría de los países crecen a tasas moderadas, aunque hay un rango notable de -14.32% a 3.71%, lo que incluye casos de decrecimiento poblacional. Por otro lado, la esperanza de vida muestra un promedio de 72.42 años, con una mediana de 73.51 años, destacando diferencias significativas entre países, con valores mínimos de 53 años y máximos de 85.38 años. Hay 8 valores faltantes en esta variable.
En cuanto a la participación laboral, la media es del 40.53% y la mediana del 39.20%, con valores mínimos del 13.55% y máximos del 77.93%, reflejando una disparidad considerable en la integración laboral a nivel global. Esta variable tiene 31 valores faltantes, igual que la tasa de desempleo, la cual oscila entre el 0.13% y el 37.85%, con una mediana del 5.54% y una media más elevada del 7.27%, señalando que hay países con niveles de desempleo alarmantes.
En resumen, el conjunto de datos refleja grandes desigualdades entre los países, tanto en términos económicos como demográficos y laborales, con una cantidad significativa de valores faltantes que podrían influir en el análisis.
colSums(is.na(data22))
## País GDP Crecimiento GDP
## 0 15 16
## Crecimiento Poblacional Esperanza de vida Participación Laboral
## 1 8 31
## Desempleo
## 31
data.limpia22 <- na.omit(data22)
data.limpia22 <- data.limpia22[, -1]
summary(data.limpia22)
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| Min. : 259 | Min. :-22.370 | Min. :-6.1873 | Min. :53.00 | Min. :13.55 | Min. : 0.130 | |
| 1st Qu.: 2276 | 1st Qu.: 1.185 | 1st Qu.: 0.4458 | 1st Qu.:65.99 | 1st Qu.:30.80 | 1st Qu.: 3.493 | |
| Median : 6810 | Median : 2.803 | Median : 1.0722 | Median :73.49 | Median :39.26 | Median : 5.504 | |
| Mean : 17501 | Mean : 3.258 | Mean : 1.0690 | Mean :72.23 | Mean :40.48 | Mean : 7.207 | |
| 3rd Qu.: 24515 | 3rd Qu.: 4.968 | 3rd Qu.: 2.0240 | 3rd Qu.:78.33 | 3rd Qu.:48.71 | 3rd Qu.: 9.085 | |
| Max. :125006 | Max. : 62.599 | Max. : 3.7130 | Max. :85.38 | Max. :77.93 | Max. :37.852 |
El GDP varía desde 259 hasta 125,006, con una media de 17,501 y una mediana de 6,810, lo que indica que la mayoría de los países tienen un GDP más bajo que algunos pocos con un nivel mucho más alto. El crecimiento del GDP tiene una media de 3.26% y una mediana de 2.80%, con extremos que van desde una contracción de -22.37% hasta un crecimiento de 62.60%, lo que refleja variabilidad en las tasas de crecimiento económico. El crecimiento poblacional tiene una media y mediana de 1.07%, con valores entre -6.19% y 3.71%, lo que muestra un rango de países con tanto decrecimiento como crecimiento moderado. La esperanza de vida tiene una media de 72.23 años y una mediana de 73.49 años, con valores que varían entre 53 y 85.38 años, reflejando diferencias significativas en la salud y longevidad. La participación laboral muestra una media de 40.48% y una mediana de 39.26%, con valores entre 13.55% y 77.93%, lo que indica diferencias en la inclusión laboral. Finalmente, el desempleo tiene una media de 7.21% y una mediana de 5.50%, con un rango entre 0.13% y 37.85%, mostrando que algunos países enfrentan altos niveles de desempleo mientras que otros tienen tasas más bajas. Estos datos reflejan grandes disparidades económicas y sociales entre los países.
Luego de la limpieza de datos de ambas bases de datos llegamos a la conclusion de que en el 2016 trabajaremos con 181 observaciones y 6 variables y en el 2022 trabajaremos con 177 observaciones y 6 variables.
Analisis de Componentes Principales
2016:
Paso 1 : Estandarizar los datos
colMeans(data.limpia16)
## GDP Crecimiento GDP Crecimiento Poblacional
## 13566.725175 1.541499 1.364840
## Esperanza de vida Participación Laboral Desempleo
## 72.048344 41.635950 7.949221
En el vector de medias podemos observar que el GDP promedio (13,566.73) es significativamente más alto en comparación con las demás variables, lo cual es esperable dado que se mide en una escala diferente. El crecimiento del GDP (1.54) es ligeramente mayor que el crecimiento poblacional (1.36), lo que sugiere un aumento económico moderado en relación al crecimiento demográfico. Además, la esperanza de vida promedio (72 años) y la participación laboral promedio (41.64%) muestran diferencias notables, indicando que menos de la mitad de la población está activamente involucrada en la fuerza laboral. Finalmente, la tasa de desempleo (7.95%) destaca como un porcentaje considerable que podría estar influyendo en el crecimiento económico y el bienestar general.
Paso 2: Calcular la matriz de covarianza
Datos reales
cov(data.limpia16)
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 344303289.756 | -3611.715543 | -3171.593537 | 98821.9860935 | 61547.626880 | -1.437995e+04 |
| Crecimiento GDP | -3611.716 | 11.547137 | -1.129025 | 3.6140624 | 1.861871 | -1.727797e+00 |
| Crecimiento Poblacional | -3171.594 | -1.129025 | 1.811561 | -4.7205138 | 2.866898 | -1.784139e+00 |
| Esperanza de vida | 98821.986 | 3.614062 | -4.720514 | 62.7940559 | 10.836974 | -6.434017e-01 |
| Participación Laboral | 61547.627 | 1.861871 | 2.866898 | 10.8369739 | 165.646650 | -3.255076e+01 |
| Desempleo | -14379.953 | -1.727797 | -1.784139 | -0.6434017 | -32.550763 | 3.487263e+01 |
En los datos reales, las varianzas son muy diferentes. Por ejemplo, el GDP tiene una varianza extremadamente alta, lo cual refleja su escala mucho mayor en comparación con el resto de las variables, mientras que otras, como el crecimiento del GDP y el crecimiento poblacional, presentan valores de varianza mucho más pequeños.
Datos estandarizados
cov(scale(data.limpia16))
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 1.0000000 | -0.0572804 | -0.1269932 | 0.6720843 | 0.2577208 | -0.1312334 |
| Crecimiento GDP | -0.0572804 | 1.0000000 | -0.2468538 | 0.1342144 | 0.0425717 | -0.0861020 |
| Crecimiento Poblacional | -0.1269932 | -0.2468538 | 1.0000000 | -0.4425919 | 0.1654986 | -0.2244708 |
| Esperanza de vida | 0.6720843 | 0.1342144 | -0.4425919 | 1.0000000 | 0.1062570 | -0.0137493 |
| Participación Laboral | 0.2577208 | 0.0425717 | 0.1654986 | 0.1062570 | 1.0000000 | -0.4282797 |
| Desempleo | -0.1312334 | -0.0861020 | -0.2244708 | -0.0137493 | -0.4282797 | 1.0000000 |
En los datos estandarizados, las varianzas se igualan a 1 y ahora es posible interpretar las correlaciones entre variables. Por ejemplo, se observa una correlación negativa moderada entre el crecimiento poblacional y la esperanza de vida (-0.44), lo cual sugiere que un mayor crecimiento poblacional está asociado a una ligera disminución en la esperanza de vida. Además, existe una correlación negativa entre el desempleo y la participación laboral (-0.43), indicando la lógica de que a medida que el desempleo aumenta, la participación en la fuerza laboral tiende a reducirse.
Paso 3: Calcular los componentes principales
pca <- prcomp(data.limpia16, scale = TRUE)
round(pca$rotation,3)
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | |
|---|---|---|---|---|---|---|
| GDP | 0.589 | 0.125 | -0.359 | -0.225 | 0.271 | -0.621 |
| Crecimiento GDP | 0.175 | -0.122 | 0.844 | -0.181 | 0.449 | -0.085 |
| Crecimiento Poblacional | -0.358 | 0.504 | -0.220 | -0.370 | 0.594 | 0.283 |
| Esperanza de vida | 0.647 | -0.141 | -0.128 | -0.142 | 0.030 | 0.724 |
| Participación Laboral | 0.241 | 0.579 | 0.127 | 0.753 | 0.140 | 0.061 |
| Desempleo | -0.133 | -0.600 | -0.279 | 0.439 | 0.593 | 0.014 |
En el primer componente principal, se observa que las variables esperanza de vida (0.65) y GDP (0.589) tienen los pesos más altos y positivos. Esto indica que la primera componente principal está capturando principalmente la información relacionada con el nivel de desarrollo económico y la calidad de vida, ya que un mayor GDP suele estar asociado a una mayor esperanza de vida.
Por otro lado, en la segundo componente principal, las variables con mayores pesos positivos son crecimiento poblacional (0.504) y participación laboral (0.57), mientras que el desempleo (-0.60) tiene un peso negativo considerable. Por lo tanto, esta componente parece estar relacionada con la dinámica laboral y demográfica, destacando cómo el crecimiento poblacional y la participación laboral se contraponen al desempleo.
En el tercer componente principal, destaca el peso positivo alto de la variable crecimiento del GDP (0.84). Esto sugiere que el tercer componente captura principalmente la información relacionada con el crecimiento económico.
Visualizacion
head(pca$x)
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 |
|---|---|---|---|---|---|
| -1.6567118 | 0.2656409 | -0.3975451 | 0.1004325 | 0.2521268 | -0.0815960 |
| 0.4063800 | -2.0346246 | 0.3519200 | 0.2783754 | 0.1123847 | 0.5399512 |
| -0.5098530 | -0.8998783 | -0.1846890 | -0.9769922 | 0.2389953 | 0.6893540 |
| -2.1790653 | 0.9714880 | -2.1057439 | 1.5904220 | 0.7871819 | 0.1342770 |
| 0.1103569 | -0.1691687 | -1.1930296 | 0.1114136 | -0.7630680 | 0.4539835 |
| 0.2423758 | -1.2093277 | 0.0037243 | 1.0197223 | -0.5620639 | 0.2273130 |
Paso 4: Seleccion de los componentes principales
Una vez calculados los componentes principales, los valores propios nos darán la información de la varianza explicada por cada una de los vectores propios.
Valores propios
prop_varianza <- pca$sdev^2 / sum(pca$sdev^2)
prop_varianza
## [1] 0.32243518 0.26812715 0.18386073 0.09362692 0.09130698 0.04064304
En este caso, el primer componente principal (PC1) explica el 32% de la varianza observada en los datos, el segundo componente (PC2) explica el 27%, y la tercer componente (PC3) explica el 18%. En conjunto, los tres primeros componentes explican aproximadamente el 77% de la varianza total de los datos.
El cuarto componente (PC4) aporta un 9%, el quinto componente (PC5) un 9%, y el sexto componente (PC6) solo un 4%.
Por lo tanto, si se tienen en cuenta únicamente los tres primeros componentes principales, se consigue explicar el 77% de la varianza observada, mientras que al incluir hasta la cuarta componente se alcanza un 87% de la varianza explicada.
Otra forma de analizarlo, es por medio de la varianza acumulada.
Varianza acumulada
prop_varianza_acum <- cumsum(prop_varianza)
round(prop_varianza_acum,2)
## [1] 0.32 0.59 0.77 0.87 0.96 1.00
Existen diferentes visualizaciones que muestran la varianza explicada por cada componente principal. Por ejemplo, en la siguiente gráfica se puede ver la varianza acumulada de las componentes principales.
Visualizacion
ggplot(data = data.frame(prop_varianza_acum, pc = 1:6),
aes(x = pc, y = prop_varianza_acum, group = 1)) +
geom_point() +
geom_line() +
theme_bw() +
labs(x = "Componente principal", y = "Prop. varianza explicada acumulada")
Dejándonos guiar por el gráfico podemos confirmar lo mencionado anteriormente, con los tres primeros componentes principales, se consigue explicar el 77% de la varianza acumulada.
Paso 5: Transformar los datos al nuevo espacio dimensional
pca$rotation <- -pca$rotation
pca$x <- -pca$x
biplot(pca, scale = 0, cex = 0.5, col = c("blue2", "red2"))
Los países cercanos entre sí en la gráfica tienen patrones de datos
similares con respecto a las variables del conjunto de datos
original.
Podemos ver que ciertos países están más asociados con ciertas variables que otros. Por ejemplo, los países ubicados en la misma dirección y cercanos al vector “Desempleo” tienen valores altos en esta variable en comparación con otros países.
Otro ejemplo, países cercanos al vector “Crecimiento Poblacional” tienden a tener un comportamiento similar en esta variable, mientras que aquellos más próximos a “Esperanza de vida” muestran valores más altos en esta variable.
Finalmente, podemos observar que las variables están representadas como vectores en rojo, y su dirección indica la correlación con las componentes principales (PC1 y PC2). Por ejemplo:
Además, podemos notar que Crecimiento Poblacional y Participación Laboral tienen una mayor influencia en la dirección positiva de PC1. Mientras que la Esperanza de Vida y GDP están más relacionadas con la dirección negativa de PC2.
2022:
Paso 1 : Estandarizar los datos
colMeans(data.limpia22)
## GDP Crecimiento GDP Crecimiento Poblacional
## 17500.679557 3.258020 1.068968
## Esperanza de vida Participación Laboral Desempleo
## 72.229278 40.479040 7.206503
Calculamos el vector de medias. En el vector de medias podemos observar que el GDP promedio (17,500.68) es significativamente más alto en comparación con las demás variables, lo cual es esperable dado que se mide en una escala diferente. El Crecimiento del GDP (3.26) es considerablemente mayor que el Crecimiento Poblacional (1.07), lo que sugiere un crecimiento económico sólido en relación con el aumento demográfico.
Además, la Esperanza de vida promedio (72 años) es similar a los valores globales observados en otros contextos, reflejando un nivel de bienestar moderado en la población. La Participación Laboral promedio (40.48%) indica que menos de la mitad de la población está involucrada activamente en la fuerza laboral, lo que podría impactar el desarrollo económico.
Finalmente, la tasa de desempleo (7.21%) muestra un valor relevante que podría estar afectando tanto la participación laboral como el crecimiento económico general. Esto sugiere que, a pesar del crecimiento del GDP, persisten desafíos en la fuerza laboral y el empleo.
Paso 2: Calcular la matriz de covarianza
Datos reales
cov(data.limpia22)
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 558040044.185 | 3663.376190 | -4616.5455669 | 124946.152137 | 94319.456109 | -2.942760e+04 |
| Crecimiento GDP | 3663.376 | 42.362497 | -1.6761057 | 3.291744 | 2.758814 | 2.929612e+00 |
| Crecimiento Poblacional | -4616.546 | -1.676106 | 1.6905843 | -4.975841 | 3.332920 | -2.574127e-01 |
| Esperanza de vida | 124946.152 | 3.291744 | -4.9758412 | 62.035728 | 13.859952 | -9.593702e+00 |
| Participación Laboral | 94319.456 | 2.758814 | 3.3329195 | 13.859952 | 165.492747 | -2.727075e+01 |
| Desempleo | -29427.601 | 2.929612 | -0.2574127 | -9.593702 | -27.270745 | 3.415009e+01 |
En los datos reales, las varianzas entre las variables son notablemente diferentes. El GDP presenta una varianza extremadamente alta, reflejando su escala mucho mayor en comparación con las demás variables. Por otro lado, variables como el crecimiento del GDP y el crecimiento poblacional tienen varianzas mucho más pequeñas (42.36 y 1.69, respectivamente), lo que indica que varían dentro de rangos más pequeños. Además, se observan relaciones interesantes, como una covarianza negativa entre el crecimiento poblacional y el GDP (-4616.55), sugiriendo una posible relación inversa entre estas variables, mientras que la esperanza de vida y el GDP muestran una covarianza positiva considerable (124946.15).
Datos estandarizados
cov(scale(data.limpia22))
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 1.0000000 | 0.0238264 | -0.1503024 | 0.6715359 | 0.3103696 | -0.2131701 |
| Crecimiento GDP | 0.0238264 | 1.0000000 | -0.1980579 | 0.0642117 | 0.0329490 | 0.0770235 |
| Crecimiento Poblacional | -0.1503024 | -0.1980579 | 1.0000000 | -0.4858779 | 0.1992585 | -0.0338778 |
| Esperanza de vida | 0.6715359 | 0.0642117 | -0.4858779 | 1.0000000 | 0.1367890 | -0.2084344 |
| Participación Laboral | 0.3103696 | 0.0329490 | 0.1992585 | 0.1367890 | 1.0000000 | -0.3627535 |
| Desempleo | -0.2131701 | 0.0770235 | -0.0338778 | -0.2084344 | -0.3627535 | 1.0000000 |
En los datos estandarizados, al igualar las varianzas a 1, es posible interpretar las relaciones entre las variables en términos de correlación. Se destaca una correlación negativa moderada entre el crecimiento poblacional y la esperanza de vida (-0.4858), lo que indica que un mayor crecimiento poblacional podría asociarse con una disminución en la calidad de vida. Asimismo, la participación laboral muestra una correlación positiva con el GDP (0.3104), sugiriendo su papel favorable en el crecimiento económico, mientras que el desempleo tiene una relación negativa con la participación laboral (-0.3627) y el GDP (-0.2132). Esto refuerza la idea de que un aumento en el desempleo afecta tanto la economía como la fuerza laboral.
Paso 3: Calcular los componentes principales
pca1 <- prcomp(data.limpia22, scale = TRUE)
round(pca1$rotation,3)
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | |
|---|---|---|---|---|---|---|
| GDP | 0.578 | 0.059 | 0.110 | 0.464 | 0.331 | -0.570 |
| Crecimiento GDP | 0.093 | -0.309 | -0.906 | -0.005 | 0.269 | 0.039 |
| Crecimiento Poblacional | -0.309 | 0.593 | -0.070 | 0.403 | 0.508 | 0.357 |
| Esperanza de vida | 0.609 | -0.212 | 0.185 | 0.082 | 0.063 | 0.734 |
| Participación Laboral | 0.299 | 0.550 | -0.356 | 0.170 | -0.672 | 0.039 |
| Desempleo | -0.319 | -0.449 | 0.023 | 0.766 | -0.324 | 0.071 |
En el primer componente principal, se observa que las variables esperanza de vida (0.609) y GDP (0.578) tienen los pesos más altos y positivos. Esto indica que la primera componente principal está capturando principalmente la información relacionada con el desarrollo económico y la calidad de vida, ya que un mayor GDP suele estar asociado con una mayor esperanza de vida.
Por otro lado, en el segundo componente principal, las variables con mayores pesos positivos son crecimiento poblacional (0.593) y participación laboral (0.550), mientras que el desempleo (-0.449) tiene un peso negativo considerable. Por lo tanto, esta componente parece estar relacionada con la dinámica laboral y demográfica, mostrando cómo el crecimiento poblacional y la participación laboral se contraponen al desempleo.
En el tercer componente principal, destaca el peso negativo alto de la variable crecimiento del GDP (-0.906). Esto sugiere que el tercer componente captura principalmente la información relacionada con la variabilidad en el crecimiento económico.
Visualizacion
head(pca1$x)
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 |
|---|---|---|---|---|---|
| -2.1780482 | 0.6499844 | 1.4678201 | 0.8510219 | -0.2947076 | -0.0620868 |
| 0.2931480 | -1.9365598 | -0.0277682 | -0.3808846 | -0.7995376 | 0.1124802 |
| -0.7747214 | -1.0027244 | 0.7224669 | 0.4317185 | 0.6621883 | 0.9133375 |
| -1.7970165 | 1.2926935 | -0.2719019 | 1.3854109 | -0.7084954 | 0.0572642 |
| 0.1979641 | -0.3121553 | 0.0605634 | -0.1735062 | 0.1322771 | 0.4014843 |
| 0.1870551 | -1.3837379 | -1.2373738 | -0.4947633 | -0.2604291 | 0.0325998 |
Paso 4: Seleccion de los componentes principales
Una vez calculados los componentes principales, los valores propios nos darán la información de la varianza explicada por cada una de los vectores propios.
Valores propios
prop_varianza1 <- pca1$sdev^2 / sum(pca1$sdev^2)
prop_varianza1
## [1] 0.34498571 0.24539167 0.16327794 0.12496113 0.08254891 0.03883464
En este caso, el primer componente principal (PC1) explica el 34.5% de la varianza observada en los datos, el segundo componente (PC2) explica el 24.5%, y el tercer componente (PC3) explica el 16.3%. En conjunto, los tres primeros componentes explican aproximadamente el 75.3% de la varianza total de los datos.
El cuarto componente (PC4) aporta un 12.5%, el quinto componente (PC5) un 8.3%, y el sexto componente (PC6) solo un 3.9%.
Por lo tanto, si se consideran únicamente los tres primeros componentes principales, se consigue explicar el 75.3% de la varianza observada, mientras que al incluir hasta la cuarta componente se alcanza un 87.8% de la varianza explicada.
Otra forma de analizarlo, es por medio de la varianza acumulada.
Varianza acumulada
prop_varianza_acum1 <- cumsum(prop_varianza1)
round(prop_varianza_acum1,2)
## [1] 0.34 0.59 0.75 0.88 0.96 1.00
Existen diferentes visualizaciones que muestran la varianza explicada por cada componente principal. Por ejemplo, en la siguiente gráfica se puede ver la varianza acumulada de las componentes principales.
Visualizacion
ggplot(data = data.frame(prop_varianza_acum1, pc = 1:6),
aes(x = pc, y = prop_varianza_acum1, group = 1)) +
geom_point() +
geom_line() +
theme_bw() +
labs(x = "Componente principal", y = "Prop. varianza explicada acumulada")
Dejándonos guiar por el gráfico podemos confirmar lo mencionado anteriormente, con los tres primeros componentes principales, se consigue explicar el 75.3% de la varianza acumulada.
Paso 5: Transformar los datos al nuevo espacio dimensional
pca$rotation1 <- -pca1$rotation
pca1$x <- -pca1$x
biplot(pca1, scale = 0, cex = 0.5, col = c("blue2", "red2"))
En la gráfica, observamos que las observaciones cercanas entre sí tienen patrones similares respecto a las variables Crecimiento Poblacional, Participación Laboral, GDP, Esperanza de Vida, Crecimiento Económico y Desempleo. Por ejemplo, las observaciones ubicadas en la dirección de GDP y Esperanza de Vida tienen valores más altos en estas variables, mientras que las ubicadas en la dirección opuesta presentan mayores niveles de Desempleo.
Además, podemos observar que Crecimiento Poblacional y Participación Laboral tienen una mayor influencia en la dirección positiva de PC1, indicando que estas variables contribuyen significativamente a este componente principal. Por otro lado, Esperanza de Vida y GDP están más relacionadas con la dirección negativa de PC2, mostrando que estas variables influyen principalmente en esa dimensión del análisis. Además, el vector de Desempleo apunta en sentido opuesto al GDP y Esperanza de Vida, lo que sugiere una relación inversa entre estas variables.
Analisis de Correlacion Canonica:
2016:
Paso 1: Preparacion de los datos
X <- data.limpia16[,(1:3)]
Y <- data.limpia16[,(4:6)]
Comenzamos definiendo dos conjuntos de datos, X e Y. El conjunto X esta compuesto por las columnas 1,2, y 3, mientras que el conjunto Y esta compuesto por las columnas 4,5 y 6 de la base de datos llamada data.limpia16. De esta forma, se están separando dos subconjuntos de variables o características del conjunto de datos original, lo que puede ser útil para realizar análisis o modelado por separado de ambas partes.
X <- scale(X)
Y <- scale(Y)
Los subconjuntos X e Y fueron transfromados para que todas tengan la misma escala y, por lo tanto, se les dé igual importancia en el análisis posterior. Este paso es fundamental cuando las variables tienen unidades o rangos diferente lo que podría sesgar el análisis.
Al escalar los datos, generalmente se realiza una normalización o estandarización. En la estandarización, cada variable se transforma de manera que tenga media cero y desviación estándar uno, lo que permite que todas las variables estén en una escala comparable.
Paso 2: Validacion de los supuestos iniciales
Procedemos a calcular
matcor(X,Y)$XYcor
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 1.0000000 | -0.0572804 | -0.1269932 | 0.6720843 | 0.2577208 | -0.1312334 |
| Crecimiento GDP | -0.0572804 | 1.0000000 | -0.2468538 | 0.1342144 | 0.0425717 | -0.0861020 |
| Crecimiento Poblacional | -0.1269932 | -0.2468538 | 1.0000000 | -0.4425919 | 0.1654986 | -0.2244708 |
| Esperanza de vida | 0.6720843 | 0.1342144 | -0.4425919 | 1.0000000 | 0.1062570 | -0.0137493 |
| Participación Laboral | 0.2577208 | 0.0425717 | 0.1654986 | 0.1062570 | 1.0000000 | -0.4282797 |
| Desempleo | -0.1312334 | -0.0861020 | -0.2244708 | -0.0137493 | -0.4282797 | 1.0000000 |
Normalidad multivariada de X
mvn(data = as.data.frame(X), mvnTest = "hz")$multivariateNormality
| Test | HZ | p value | MVN |
|---|---|---|---|
| Henze-Zirkler | 6.041031 | 0 | NO |
Normalidad multivariada de Y
mvn(data = as.data.frame(Y), mvnTest = "hz")$multivariateNormality
| Test | HZ | p value | MVN |
|---|---|---|---|
| Henze-Zirkler | 2.637415 | 0 | NO |
Después de realizar la prueba de normalidad multivariada en los conjuntos X e Y, los resultados indicaron que ninguno de los dos conjuntos sigue una distribución normal. Esto sugiere que las variables en ambos conjuntos no cumplen con el supuesto de normalidad, lo cual es importante a la hora de aplicar ciertos modelos estadísticos que requieren esta condición.
Paso 3: Construccion del metodo
cca1 <- cc(X,Y)
Los vectores canonicos son:
cca1[3:4]
## $xcoef
## [,1] [,2] [,3]
## GDP -0.8452297 0.5063053 -0.23312837
## Crecimiento GDP -0.1217855 0.4203364 0.93941898
## Crecimiento Poblacional 0.4116219 0.9552037 -0.07873392
##
## $ycoef
## [,1] [,2] [,3]
## Esperanza de vida -0.98428786 -0.1397011 0.1560307
## Participación Laboral -0.10552255 0.5780548 -0.9458552
## Desempleo -0.02106318 -0.6051400 -0.9271023
Los resultados obtenidos de los vectores canónicos muestran las relaciones entre las variables de los conjuntos X e Y . En el conjunto X, que incluye variables como el PIB (GDP), el crecimiento del PIB y el crecimiento poblacional, los coeficientes canónicos indican las siguientes relaciones: el PIB tiene una fuerte relación negativa con el primer vector canónico (-0.845), lo que sugiere que a medida que el PIB aumenta, el primer componente canónico tiende a disminuir. El crecimiento del PIB está más relacionado positivamente con el segundo vector canónico (0.420) y negativamente con el primero (-0.121). Por otro lado, el crecimiento poblacional tiene una relación positiva con el segundo componente (0.955) y una relación moderadamente negativa con el tercer componente canónico (-0.078).
En el conjunto Y, que incluye la esperanza de vida, la participación laboral y el desempleo, los coeficientes canónicos reflejan interacciones similares. La esperanza de vida muestra una fuerte relación negativa con el primer vector canónico (-0.984), lo que podría indicar que, a medida que la esperanza de vida aumenta, el primer componente canónico disminuye. La participación laboral tiene una relación positiva con el segundo componente (0.578) y una relación negativa con el tercero (-0.945), mientras que el desempleo tiene una relación negativa con el segundo y tercer vector canónico (-0.605) y (-0.927) respectivamente), lo que sugiere una correlación inversa entre el desempleo y los componentes canónicos relacionados con la participación laboral y la esperanza de vida.
En resumen, estos coeficientes canónicos reflejan cómo las variables de ambos conjuntos se interrelacionan a través de los componentes canónicos, ayudando a entender las correlaciones subyacentes y las interdependencias entre las variables económicas y sociales.
Paso 4: Correlaciones Significativas
Procedemos a evaluar que correlaciones canonicas son significativas utilizando dos metodos.
Prueba de significancia
p.asym(cca1$cor, nrow(X), ncol(X), ncol(Y))
## Wilks' Lambda, using F-approximation (Rao's F):
## stat approx df1 df2 p.value
## 1 to 3: 0.3488368 25.6323877 9 426.0546 0.000000e+00
## 2 to 3: 0.8577928 7.0148463 4 352.0000 1.921278e-05
## 3 to 3: 0.9961275 0.6881044 1 177.0000 4.079272e-01
Los resultados muestran que los primeros dos componentes canónicos (1 a 3 y 2 a 3) están altamente relacionados de manera significativa, mientras que el tercer componente (3 a 3) no muestra una relación significativa. Esto sugiere que los primeros dos conjuntos de variables tienen un impacto importante en la relación entre X e Y, pero el tercer conjunto de variables no agrega valor significativo al modelo.
Correlacion Canonica
cca1$cor
## [1] 0.77028051 0.37265592 0.06222974
(𝑈1,𝑉1): correlación fuerte (0.770). (𝑈2,𝑉2): correlación débil (0.372). (𝑈3,𝑉3): correlación muy débil (0.062).
En resumen, los primeros componentes canónicos muestran una fuerte relación entre los conjuntos X e Y, mientras que las relaciones entre los componentes canónicos 2 y 2, y 3 y 3 son mucho más débiles. Esto indica que los primeros vectores canónicos capturan la mayor parte de la asociación entre las dos matrices, y las asociaciones adicionales son más débiles o insignificantes.
Paso 5: Interpretacion de los resultados
# Graficamos solo la primera pareja
plt.cc(cca1, var.label = TRUE, type = "b")
2022:
Paso 1: Preparacion de los datos
X1 <- data.limpia22[,(1:3)]
Y1 <- data.limpia22[,(4:6)]
Comenzamos definiendo dos conjuntos de datos, X e Y. El conjunto X esta compuesto por las columnas 1,2, y 3, mientras que el conjunto Y esta compuesto por las columnas 4,5 y 6 de la base de datos llamada data.limpia22. De esta forma, se están separando dos subconjuntos de variables o características del conjunto de datos original, lo que puede ser útil para realizar análisis o modelado por separado de ambas partes.
X1 <- scale(X1)
Y1 <- scale(Y1)
Los subconjuntos X e Y fueron transfromados para que todas tengan la misma escala y, por lo tanto, se les dé igual importancia en el análisis posterior. Este paso es fundamental cuando las variables tienen unidades o rangos diferente lo que podría sesgar el análisis.
Al escalar los datos, generalmente se realiza una normalización o estandarización. En la estandarización, cada variable se transforma de manera que tenga media cero y desviación estándar uno, lo que permite que todas las variables estén en una escala comparable.
Paso 2: Validacion de los supuestos iniciales
matcor(X1,Y1)$XYcor
| GDP | Crecimiento GDP | Crecimiento Poblacional | Esperanza de vida | Participación Laboral | Desempleo | |
|---|---|---|---|---|---|---|
| GDP | 1.0000000 | 0.0238264 | -0.1503024 | 0.6715359 | 0.3103696 | -0.2131701 |
| Crecimiento GDP | 0.0238264 | 1.0000000 | -0.1980579 | 0.0642117 | 0.0329490 | 0.0770235 |
| Crecimiento Poblacional | -0.1503024 | -0.1980579 | 1.0000000 | -0.4858779 | 0.1992585 | -0.0338778 |
| Esperanza de vida | 0.6715359 | 0.0642117 | -0.4858779 | 1.0000000 | 0.1367890 | -0.2084344 |
| Participación Laboral | 0.3103696 | 0.0329490 | 0.1992585 | 0.1367890 | 1.0000000 | -0.3627535 |
| Desempleo | -0.2131701 | 0.0770235 | -0.0338778 | -0.2084344 | -0.3627535 | 1.0000000 |
Normalidad multivariada de X
mvn(data = as.data.frame(X1), mvnTest = "hz")$multivariateNormality
| Test | HZ | p value | MVN |
|---|---|---|---|
| Henze-Zirkler | 11.1499 | 0 | NO |
Normalidad multivariada de Y
mvn(data = as.data.frame(Y1), mvnTest = "hz")$multivariateNormality
| Test | HZ | p value | MVN |
|---|---|---|---|
| Henze-Zirkler | 2.994708 | 0 | NO |
Después de realizar la prueba de normalidad multivariada en los conjuntos X e Y, los resultados indicaron que ninguno de los dos conjuntos sigue una distribución normal. Esto sugiere que las variables en ambos conjuntos no cumplen con el supuesto de normalidad, lo cual es importante a la hora de aplicar ciertos modelos estadísticos que requieren esta condición.
Paso 3: Construccion del metodo
cca.1 <- cc(X1,Y1)
Los vectores canonicos son:
cca.1[3:4]
## $xcoef
## [,1] [,2] [,3]
## GDP -0.8050206 -0.6051250 0.094429417
## Crecimiento GDP 0.0279984 -0.2036458 -0.999305827
## Crecimiento Poblacional 0.4891651 -0.9082768 -0.008446463
##
## $ycoef
## [,1] [,2] [,3]
## Esperanza de vida -0.99472683 0.20458338 -0.1371640
## Participación Laboral -0.06968098 -0.98546506 -0.4251412
## Desempleo -0.03060013 0.06103851 -1.0871935
En el conjunto X, el PIB (GDP) tiene una fuerte contribución negativa al primer componente canónico (−0.805), lo que indica que su relación con el primer vector canónico es inversa y significativa. Por otro lado, el Crecimiento del PIB tiene una mínima influencia en el primer componente (0.028), pero contribuye negativamente y de manera significativa al tercer componente (−0.999). El Crecimiento Poblacional muestra una relación positiva importante con el primer componente (0.489) y una fuerte relación negativa con el segundo componente (−0.908), lo que indica que estas variaciones están capturadas principalmente por estos dos componentes.
En el conjunto Y, la Esperanza de vida tiene una fuerte influencia negativa en el primer componente (−0.995), mientras que su influencia en los otros dos componentes es menor pero opuesta en dirección. La Participación Laboral muestra una relación negativa predominante con el segundo componente (−0.985), y el Desempleo tiene una contribución negativa considerable al tercer componente (−1.087), lo que sugiere que este componente captura principalmente la variación del desempleo.
En resumen, estos coeficientes reflejan cómo las variables económicas y sociales están asociadas a través de los componentes canónicos. El primer componente captura principalmente las relaciones del PIB y la Esperanza de vida, el segundo está influenciado principalmente por el Crecimiento Poblacional y la Participación Laboral, mientras que el tercer componente destaca el impacto del Crecimiento del PIB y el Desempleo.
Paso 4: Correlaciones Significativas
Procedemos a evaluar que correlaciones canonicas son significativas utilizando dos metodos.
Prueba de significancia
p.asym(cca.1$cor, nrow(X1), ncol(X1), ncol(Y1))
## Wilks' Lambda, using F-approximation (Rao's F):
## stat approx df1 df2 p.value
## 1 to 3: 0.3326956 26.448355 9 416.3197 0.000000e+00
## 2 to 3: 0.8432936 7.650275 4 344.0000 6.482330e-06
## 3 to 3: 0.9885405 2.005482 1 173.0000 1.585294e-01
Los resultados de la prueba muestran diferencias significativas entre los grupos en las comparaciones “1 to 3” (p < 0.000) y “2 to 3” (p = 6.48e-06), indicando que las diferencias entre estos grupos son estadísticamente relevantes. Sin embargo, en la comparación “3 to 3”, el valor p es 0.1585, lo que sugiere que no hay diferencias significativas entre los grupos en este caso..
Correlacion Canonica
cca.1$cor
## [1] 0.7781264 0.3833153 0.1070492
(𝑈1,𝑉1): correlación fuerte (0.778). (𝑈2,𝑉2): correlación débil (0.383). (𝑈3,𝑉3): correlación muy débil (0.107).
En resumen, los primeros componentes canónicos muestran una fuerte relación entre los conjuntos X e Y, mientras que las relaciones entre los componentes canónicos 2 y 2, y 3 y 3 son mucho más débiles. Esto indica que los primeros vectores canónicos capturan la mayor parte de la asociación entre las dos matrices, y las asociaciones adicionales son más débiles o insignificantes.
Paso 5: Interpretacion de los resultados
# Graficamos solo la primera pareja
plt.cc(cca.1, var.label = TRUE, type = "b")