Importar las bases de datos

Datos_Economia_Proyecto_Final_Jairo <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx")

data16 <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx", 
    sheet = "2016")

data22 <- read_excel("/Volumes/Extreme SSD/Datos Economia Proyecto Final Jairo.xlsx", 
    sheet = "2022")

Al importar las bases de datos podemos observar que ambas tienen un total de 217 observaciones y 7 variables.

Limpieza de datos 2016

Se realizara una limpieza de datos para el 2016 donde eliminaremos datos repetidos, datos nulos y cualquier otra inconsistencia que altere el resultado de los analisis que realizaremos mas adelante.

summary(data16)
País GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
Length:217 Min. : 242.5 Min. :-12.2028 Min. :-2.2173 Min. :52.04 Min. :14.38 Min. : 0.150
Class :character 1st Qu.: 2189.9 1st Qu.: 0.3276 1st Qu.: 0.2874 1st Qu.:66.12 1st Qu.:32.36 1st Qu.: 3.877
Mode :character Median : 6131.6 Median : 2.1415 Median : 1.1179 Median :73.70 Median :40.23 Median : 5.904
NA Mean : 17149.0 Mean : 1.8490 Mean : 1.2169 Mean :72.30 Mean :42.02 Mean : 7.946
NA 3rd Qu.: 21525.9 3rd Qu.: 3.4223 3rd Qu.: 2.0863 3rd Qu.:78.13 3rd Qu.:51.05 3rd Qu.:10.860
NA Max. :174412.5 Max. : 30.1749 Max. : 7.2128 Max. :84.23 Max. :83.03 Max. :25.999
NA NA’s :7 NA’s :9 NA NA’s :7 NA’s :30 NA’s :30

La base de datos contiene 217 observaciones con información socioeconómica de diferentes países, aunque algunas variables presentan valores faltantes. La variable GDP (Producto Interno Bruto) muestra un rango amplio, desde 242.5 hasta 174,412.5, con una mediana de 6,131.6 y un promedio de 17,149.0, lo que indica una distribución sesgada hacia valores altos. Asimismo, el Crecimiento del GDP varía desde -12.20 (contracción económica) hasta 30.17 (crecimiento acelerado), con una mediana de 2.14, sugiriendo que la mayoría de los países experimentan un crecimiento moderado. El Crecimiento Poblacional tiene un rango de -2.22 a 7.21, con una mediana de 1.12 y una media de 1.22, reflejando en general un aumento leve en la población.

En cuanto a la Esperanza de Vida, esta varía entre 52.04 y 84.23 años, con una mediana de 73.7 años, lo que indica que la mayoría de los países se encuentran en un rango moderado-alto. Por otro lado, la Participación Laboral fluctúa entre el 14.38% y el 83.03%, con una mediana de 40.23%, lo que sugiere que en la mitad de los países menos de la mitad de la población económicamente activa está trabajando. El Desempleo muestra valores bajos en algunos países (0.15%), pero en otros alcanza niveles preocupantes (25.99%), con una mediana de 5.90%.

Es importante notar que hay valores faltantes en varias variables, como GDP (7 valores), Crecimiento GDP (9 valores), Esperanza de Vida (7 valores), Participación Laboral (30 valores) y Desempleo (30 valores), lo que debe abordarse adecuadamente para evitar sesgos en el análisis. En general, el dataset evidencia una gran disparidad en métricas clave, reflejando desigualdades significativas entre los países analizados.

colSums(is.na(data16))
##                    País                     GDP         Crecimiento GDP 
##                       0                       7                       9 
## Crecimiento Poblacional       Esperanza de vida   Participación Laboral 
##                       0                       7                      30 
##               Desempleo 
##                      30
data.limpia16 <- na.omit(data16)
data.limpia16 <- data.limpia16[, -1]
summary(data.limpia16)
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
Min. : 242.5 Min. :-12.2028 Min. :-2.2173 Min. :52.04 Min. :14.38 Min. : 0.150
1st Qu.: 1809.7 1st Qu.: 0.2774 1st Qu.: 0.4438 1st Qu.:65.80 1st Qu.:31.98 1st Qu.: 3.853
Median : 5598.5 Median : 1.9437 Median : 1.2308 Median :73.53 Median :40.08 Median : 5.904
Mean : 13566.7 Mean : 1.5415 Mean : 1.3648 Mean :72.05 Mean :41.64 Mean : 7.949
3rd Qu.: 17082.2 3rd Qu.: 3.3084 3rd Qu.: 2.2461 3rd Qu.:78.02 3rd Qu.:50.46 3rd Qu.:10.820
Max. :106899.3 Max. : 11.0230 Max. : 7.2128 Max. :84.23 Max. :83.03 Max. :25.999

Tras la limpieza de los datos, el Producto Interno Bruto (PIB) de los países muestra una gran variación, con valores que van desde 242.5 hasta 106,899.3, una mediana de 5,598.5 y un promedio de 13,566.7, lo que indica una distribución sesgada hacia los valores más altos. El crecimiento del PIB fluctúa entre -12.20 y 11.02, con una mediana de 1.94, lo que sugiere que la mayoría de los países experimentan un crecimiento moderado, aunque algunos registran contracciones significativas. El crecimiento poblacional varía de -2.22 a 7.21, con una mediana de 1.23 y un promedio de 1.36, lo que refleja un aumento poblacional generalmente moderado.

La esperanza de vida se sitúa entre 52.04 y 84.23 años, con una mediana de 73.53 años, destacando que la mayoría de los países están en un rango medio a alto. La participación laboral oscila entre el 14.38% y el 83.03%, con una mediana del 40.08%, lo que indica que en muchos países menos de la mitad de la población económicamente activa está trabajando. Por último, la tasa de desempleo varía de 0.15% a 25.99%, con una mediana de 5.90%, señalando que, aunque la mayoría enfrenta un desempleo moderado, algunos países tienen tasas preocupantes. En general, los datos destacan la amplia diversidad económica y social entre las naciones analizadas.

Limpieza de datos 2022

Se realizara una limpieza de datos para el 2022 donde eliminaremos datos repetidos, datos nulos y cualquier otra inconsistencia que altere el resultado de los analisis que realizaremos mas adelante.

summary(data22)
País GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
Length:217 Min. : 259 Min. :-22.370 Min. :-14.3165 Min. :53.00 Min. :13.55 Min. : 0.130
Class :character 1st Qu.: 2659 1st Qu.: 1.179 1st Qu.: 0.2382 1st Qu.:66.78 1st Qu.:30.29 1st Qu.: 3.501
Mode :character Median : 7657 Median : 2.950 Median : 0.9037 Median :73.51 Median :39.20 Median : 5.537
NA Mean : 20443 Mean : 3.326 Mean : 0.8830 Mean :72.42 Mean :40.53 Mean : 7.269
NA 3rd Qu.: 26435 3rd Qu.: 5.308 3rd Qu.: 1.8942 3rd Qu.:78.47 3rd Qu.:48.74 3rd Qu.: 9.455
NA Max. :240862 Max. : 62.599 Max. : 3.7130 Max. :85.38 Max. :77.93 Max. :37.852
NA NA’s :15 NA’s :16 NA’s :1 NA’s :8 NA’s :31 NA’s :31

El GDP presenta una amplia variabilidad, desde un mínimo de 259 hasta un máximo de 240,862 unidades monetarias, con una mediana de 7,657 y una media de 20,443. El crecimiento del GDP también varía significativamente, oscilando entre -22.37% y 62.60%, con una mediana del 2.95% y una media del 3.33%. Sin embargo, hay valores faltantes en ambas variables (15 para GDP y 16 para crecimiento del GDP).

El crecimiento poblacional tiene una media cercana al 0.88% y una mediana del 0.90%, indicando que la mayoría de los países crecen a tasas moderadas, aunque hay un rango notable de -14.32% a 3.71%, lo que incluye casos de decrecimiento poblacional. Por otro lado, la esperanza de vida muestra un promedio de 72.42 años, con una mediana de 73.51 años, destacando diferencias significativas entre países, con valores mínimos de 53 años y máximos de 85.38 años. Hay 8 valores faltantes en esta variable.

En cuanto a la participación laboral, la media es del 40.53% y la mediana del 39.20%, con valores mínimos del 13.55% y máximos del 77.93%, reflejando una disparidad considerable en la integración laboral a nivel global. Esta variable tiene 31 valores faltantes, igual que la tasa de desempleo, la cual oscila entre el 0.13% y el 37.85%, con una mediana del 5.54% y una media más elevada del 7.27%, señalando que hay países con niveles de desempleo alarmantes.

En resumen, el conjunto de datos refleja grandes desigualdades entre los países, tanto en términos económicos como demográficos y laborales, con una cantidad significativa de valores faltantes que podrían influir en el análisis.

colSums(is.na(data22))
##                    País                     GDP         Crecimiento GDP 
##                       0                      15                      16 
## Crecimiento Poblacional       Esperanza de vida   Participación Laboral 
##                       1                       8                      31 
##               Desempleo 
##                      31
data.limpia22 <- na.omit(data22)
data.limpia22 <- data.limpia22[, -1]
summary(data.limpia22)
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
Min. : 259 Min. :-22.370 Min. :-6.1873 Min. :53.00 Min. :13.55 Min. : 0.130
1st Qu.: 2276 1st Qu.: 1.185 1st Qu.: 0.4458 1st Qu.:65.99 1st Qu.:30.80 1st Qu.: 3.493
Median : 6810 Median : 2.803 Median : 1.0722 Median :73.49 Median :39.26 Median : 5.504
Mean : 17501 Mean : 3.258 Mean : 1.0690 Mean :72.23 Mean :40.48 Mean : 7.207
3rd Qu.: 24515 3rd Qu.: 4.968 3rd Qu.: 2.0240 3rd Qu.:78.33 3rd Qu.:48.71 3rd Qu.: 9.085
Max. :125006 Max. : 62.599 Max. : 3.7130 Max. :85.38 Max. :77.93 Max. :37.852

El GDP varía desde 259 hasta 125,006, con una media de 17,501 y una mediana de 6,810, lo que indica que la mayoría de los países tienen un GDP más bajo que algunos pocos con un nivel mucho más alto. El crecimiento del GDP tiene una media de 3.26% y una mediana de 2.80%, con extremos que van desde una contracción de -22.37% hasta un crecimiento de 62.60%, lo que refleja variabilidad en las tasas de crecimiento económico. El crecimiento poblacional tiene una media y mediana de 1.07%, con valores entre -6.19% y 3.71%, lo que muestra un rango de países con tanto decrecimiento como crecimiento moderado. La esperanza de vida tiene una media de 72.23 años y una mediana de 73.49 años, con valores que varían entre 53 y 85.38 años, reflejando diferencias significativas en la salud y longevidad. La participación laboral muestra una media de 40.48% y una mediana de 39.26%, con valores entre 13.55% y 77.93%, lo que indica diferencias en la inclusión laboral. Finalmente, el desempleo tiene una media de 7.21% y una mediana de 5.50%, con un rango entre 0.13% y 37.85%, mostrando que algunos países enfrentan altos niveles de desempleo mientras que otros tienen tasas más bajas. Estos datos reflejan grandes disparidades económicas y sociales entre los países.

Luego de la limpieza de datos de ambas bases de datos llegamos a la conclusion de que en el 2016 trabajaremos con 181 observaciones y 6 variables y en el 2022 trabajaremos con 177 observaciones y 6 variables.

Analisis de Componentes Principales

2016:

Paso 1 : Estandarizar los datos

colMeans(data.limpia16)
##                     GDP         Crecimiento GDP Crecimiento Poblacional 
##            13566.725175                1.541499                1.364840 
##       Esperanza de vida   Participación Laboral               Desempleo 
##               72.048344               41.635950                7.949221

En el vector de medias podemos observar que el GDP promedio (13,566.73) es significativamente más alto en comparación con las demás variables, lo cual es esperable dado que se mide en una escala diferente. El crecimiento del GDP (1.54) es ligeramente mayor que el crecimiento poblacional (1.36), lo que sugiere un aumento económico moderado en relación al crecimiento demográfico. Además, la esperanza de vida promedio (72 años) y la participación laboral promedio (41.64%) muestran diferencias notables, indicando que menos de la mitad de la población está activamente involucrada en la fuerza laboral. Finalmente, la tasa de desempleo (7.95%) destaca como un porcentaje considerable que podría estar influyendo en el crecimiento económico y el bienestar general.

Paso 2: Calcular la matriz de covarianza

Datos reales

cov(data.limpia16)
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 344303289.756 -3611.715543 -3171.593537 98821.9860935 61547.626880 -1.437995e+04
Crecimiento GDP -3611.716 11.547137 -1.129025 3.6140624 1.861871 -1.727797e+00
Crecimiento Poblacional -3171.594 -1.129025 1.811561 -4.7205138 2.866898 -1.784139e+00
Esperanza de vida 98821.986 3.614062 -4.720514 62.7940559 10.836974 -6.434017e-01
Participación Laboral 61547.627 1.861871 2.866898 10.8369739 165.646650 -3.255076e+01
Desempleo -14379.953 -1.727797 -1.784139 -0.6434017 -32.550763 3.487263e+01

En los datos reales, las varianzas son muy diferentes. Por ejemplo, el GDP tiene una varianza extremadamente alta, lo cual refleja su escala mucho mayor en comparación con el resto de las variables, mientras que otras, como el crecimiento del GDP y el crecimiento poblacional, presentan valores de varianza mucho más pequeños.

Datos estandarizados

cov(scale(data.limpia16))
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 1.0000000 -0.0572804 -0.1269932 0.6720843 0.2577208 -0.1312334
Crecimiento GDP -0.0572804 1.0000000 -0.2468538 0.1342144 0.0425717 -0.0861020
Crecimiento Poblacional -0.1269932 -0.2468538 1.0000000 -0.4425919 0.1654986 -0.2244708
Esperanza de vida 0.6720843 0.1342144 -0.4425919 1.0000000 0.1062570 -0.0137493
Participación Laboral 0.2577208 0.0425717 0.1654986 0.1062570 1.0000000 -0.4282797
Desempleo -0.1312334 -0.0861020 -0.2244708 -0.0137493 -0.4282797 1.0000000

En los datos estandarizados, las varianzas se igualan a 1 y ahora es posible interpretar las correlaciones entre variables. Por ejemplo, se observa una correlación negativa moderada entre el crecimiento poblacional y la esperanza de vida (-0.44), lo cual sugiere que un mayor crecimiento poblacional está asociado a una ligera disminución en la esperanza de vida. Además, existe una correlación negativa entre el desempleo y la participación laboral (-0.43), indicando la lógica de que a medida que el desempleo aumenta, la participación en la fuerza laboral tiende a reducirse.

Paso 3: Calcular los componentes principales

pca <- prcomp(data.limpia16, scale = TRUE)
round(pca$rotation,3)
PC1 PC2 PC3 PC4 PC5 PC6
GDP 0.589 0.125 -0.359 -0.225 0.271 -0.621
Crecimiento GDP 0.175 -0.122 0.844 -0.181 0.449 -0.085
Crecimiento Poblacional -0.358 0.504 -0.220 -0.370 0.594 0.283
Esperanza de vida 0.647 -0.141 -0.128 -0.142 0.030 0.724
Participación Laboral 0.241 0.579 0.127 0.753 0.140 0.061
Desempleo -0.133 -0.600 -0.279 0.439 0.593 0.014

En el primer componente principal, se observa que las variables esperanza de vida (0.65) y GDP (0.589) tienen los pesos más altos y positivos. Esto indica que la primera componente principal está capturando principalmente la información relacionada con el nivel de desarrollo económico y la calidad de vida, ya que un mayor GDP suele estar asociado a una mayor esperanza de vida.

Por otro lado, en la segundo componente principal, las variables con mayores pesos positivos son crecimiento poblacional (0.504) y participación laboral (0.57), mientras que el desempleo (-0.60) tiene un peso negativo considerable. Por lo tanto, esta componente parece estar relacionada con la dinámica laboral y demográfica, destacando cómo el crecimiento poblacional y la participación laboral se contraponen al desempleo.

En el tercer componente principal, destaca el peso positivo alto de la variable crecimiento del GDP (0.84). Esto sugiere que el tercer componente captura principalmente la información relacionada con el crecimiento económico.

Visualizacion

head(pca$x)
PC1 PC2 PC3 PC4 PC5 PC6
-1.6567118 0.2656409 -0.3975451 0.1004325 0.2521268 -0.0815960
0.4063800 -2.0346246 0.3519200 0.2783754 0.1123847 0.5399512
-0.5098530 -0.8998783 -0.1846890 -0.9769922 0.2389953 0.6893540
-2.1790653 0.9714880 -2.1057439 1.5904220 0.7871819 0.1342770
0.1103569 -0.1691687 -1.1930296 0.1114136 -0.7630680 0.4539835
0.2423758 -1.2093277 0.0037243 1.0197223 -0.5620639 0.2273130

Paso 4: Seleccion de los componentes principales

Una vez calculados los componentes principales, los valores propios nos darán la información de la varianza explicada por cada una de los vectores propios.

Valores propios

prop_varianza      <- pca$sdev^2 / sum(pca$sdev^2)
prop_varianza
## [1] 0.32243518 0.26812715 0.18386073 0.09362692 0.09130698 0.04064304

En este caso, el primer componente principal (PC1) explica el 32% de la varianza observada en los datos, el segundo componente (PC2) explica el 27%, y la tercer componente (PC3) explica el 18%. En conjunto, los tres primeros componentes explican aproximadamente el 77% de la varianza total de los datos.

El cuarto componente (PC4) aporta un 9%, el quinto componente (PC5) un 9%, y el sexto componente (PC6) solo un 4%.

Por lo tanto, si se tienen en cuenta únicamente los tres primeros componentes principales, se consigue explicar el 77% de la varianza observada, mientras que al incluir hasta la cuarta componente se alcanza un 87% de la varianza explicada.

Otra forma de analizarlo, es por medio de la varianza acumulada.

Varianza acumulada

prop_varianza_acum <- cumsum(prop_varianza)
round(prop_varianza_acum,2)
## [1] 0.32 0.59 0.77 0.87 0.96 1.00

Existen diferentes visualizaciones que muestran la varianza explicada por cada componente principal. Por ejemplo, en la siguiente gráfica se puede ver la varianza acumulada de las componentes principales.

Visualizacion

ggplot(data = data.frame(prop_varianza_acum, pc = 1:6),
       aes(x = pc, y = prop_varianza_acum, group = 1)) +
        geom_point() +
        geom_line() +
        theme_bw() +
labs(x = "Componente principal", y = "Prop. varianza explicada acumulada")

Dejándonos guiar por el gráfico podemos confirmar lo mencionado anteriormente, con los tres primeros componentes principales, se consigue explicar el 77% de la varianza acumulada.

Paso 5: Transformar los datos al nuevo espacio dimensional

pca$rotation <- -pca$rotation
pca$x        <- -pca$x
biplot(pca, scale = 0, cex = 0.5, col = c("blue2", "red2"))

Los países cercanos entre sí en la gráfica tienen patrones de datos similares con respecto a las variables del conjunto de datos original.

Podemos ver que ciertos países están más asociados con ciertas variables que otros. Por ejemplo, los países ubicados en la misma dirección y cercanos al vector “Desempleo” tienen valores altos en esta variable en comparación con otros países.

Otro ejemplo, países cercanos al vector “Crecimiento Poblacional” tienden a tener un comportamiento similar en esta variable, mientras que aquellos más próximos a “Esperanza de vida” muestran valores más altos en esta variable.

Finalmente, podemos observar que las variables están representadas como vectores en rojo, y su dirección indica la correlación con las componentes principales (PC1 y PC2). Por ejemplo:

Además, podemos notar que Crecimiento Poblacional y Participación Laboral tienen una mayor influencia en la dirección positiva de PC1. Mientras que la Esperanza de Vida y GDP están más relacionadas con la dirección negativa de PC2.

2022:

Paso 1 : Estandarizar los datos

colMeans(data.limpia22)
##                     GDP         Crecimiento GDP Crecimiento Poblacional 
##            17500.679557                3.258020                1.068968 
##       Esperanza de vida   Participación Laboral               Desempleo 
##               72.229278               40.479040                7.206503

Calculamos el vector de medias. En el vector de medias podemos observar que el GDP promedio (17,500.68) es significativamente más alto en comparación con las demás variables, lo cual es esperable dado que se mide en una escala diferente. El Crecimiento del GDP (3.26) es considerablemente mayor que el Crecimiento Poblacional (1.07), lo que sugiere un crecimiento económico sólido en relación con el aumento demográfico.

Además, la Esperanza de vida promedio (72 años) es similar a los valores globales observados en otros contextos, reflejando un nivel de bienestar moderado en la población. La Participación Laboral promedio (40.48%) indica que menos de la mitad de la población está involucrada activamente en la fuerza laboral, lo que podría impactar el desarrollo económico.

Finalmente, la tasa de desempleo (7.21%) muestra un valor relevante que podría estar afectando tanto la participación laboral como el crecimiento económico general. Esto sugiere que, a pesar del crecimiento del GDP, persisten desafíos en la fuerza laboral y el empleo.

Paso 2: Calcular la matriz de covarianza

Datos reales

cov(data.limpia22)
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 558040044.185 3663.376190 -4616.5455669 124946.152137 94319.456109 -2.942760e+04
Crecimiento GDP 3663.376 42.362497 -1.6761057 3.291744 2.758814 2.929612e+00
Crecimiento Poblacional -4616.546 -1.676106 1.6905843 -4.975841 3.332920 -2.574127e-01
Esperanza de vida 124946.152 3.291744 -4.9758412 62.035728 13.859952 -9.593702e+00
Participación Laboral 94319.456 2.758814 3.3329195 13.859952 165.492747 -2.727075e+01
Desempleo -29427.601 2.929612 -0.2574127 -9.593702 -27.270745 3.415009e+01

En los datos reales, las varianzas entre las variables son notablemente diferentes. El GDP presenta una varianza extremadamente alta, reflejando su escala mucho mayor en comparación con las demás variables. Por otro lado, variables como el crecimiento del GDP y el crecimiento poblacional tienen varianzas mucho más pequeñas (42.36 y 1.69, respectivamente), lo que indica que varían dentro de rangos más pequeños. Además, se observan relaciones interesantes, como una covarianza negativa entre el crecimiento poblacional y el GDP (-4616.55), sugiriendo una posible relación inversa entre estas variables, mientras que la esperanza de vida y el GDP muestran una covarianza positiva considerable (124946.15).

Datos estandarizados

cov(scale(data.limpia22))
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 1.0000000 0.0238264 -0.1503024 0.6715359 0.3103696 -0.2131701
Crecimiento GDP 0.0238264 1.0000000 -0.1980579 0.0642117 0.0329490 0.0770235
Crecimiento Poblacional -0.1503024 -0.1980579 1.0000000 -0.4858779 0.1992585 -0.0338778
Esperanza de vida 0.6715359 0.0642117 -0.4858779 1.0000000 0.1367890 -0.2084344
Participación Laboral 0.3103696 0.0329490 0.1992585 0.1367890 1.0000000 -0.3627535
Desempleo -0.2131701 0.0770235 -0.0338778 -0.2084344 -0.3627535 1.0000000

En los datos estandarizados, al igualar las varianzas a 1, es posible interpretar las relaciones entre las variables en términos de correlación. Se destaca una correlación negativa moderada entre el crecimiento poblacional y la esperanza de vida (-0.4858), lo que indica que un mayor crecimiento poblacional podría asociarse con una disminución en la calidad de vida. Asimismo, la participación laboral muestra una correlación positiva con el GDP (0.3104), sugiriendo su papel favorable en el crecimiento económico, mientras que el desempleo tiene una relación negativa con la participación laboral (-0.3627) y el GDP (-0.2132). Esto refuerza la idea de que un aumento en el desempleo afecta tanto la economía como la fuerza laboral.

Paso 3: Calcular los componentes principales

pca1 <- prcomp(data.limpia22, scale = TRUE)
round(pca1$rotation,3)
PC1 PC2 PC3 PC4 PC5 PC6
GDP 0.578 0.059 0.110 0.464 0.331 -0.570
Crecimiento GDP 0.093 -0.309 -0.906 -0.005 0.269 0.039
Crecimiento Poblacional -0.309 0.593 -0.070 0.403 0.508 0.357
Esperanza de vida 0.609 -0.212 0.185 0.082 0.063 0.734
Participación Laboral 0.299 0.550 -0.356 0.170 -0.672 0.039
Desempleo -0.319 -0.449 0.023 0.766 -0.324 0.071

En el primer componente principal, se observa que las variables esperanza de vida (0.609) y GDP (0.578) tienen los pesos más altos y positivos. Esto indica que la primera componente principal está capturando principalmente la información relacionada con el desarrollo económico y la calidad de vida, ya que un mayor GDP suele estar asociado con una mayor esperanza de vida.

Por otro lado, en el segundo componente principal, las variables con mayores pesos positivos son crecimiento poblacional (0.593) y participación laboral (0.550), mientras que el desempleo (-0.449) tiene un peso negativo considerable. Por lo tanto, esta componente parece estar relacionada con la dinámica laboral y demográfica, mostrando cómo el crecimiento poblacional y la participación laboral se contraponen al desempleo.

En el tercer componente principal, destaca el peso negativo alto de la variable crecimiento del GDP (-0.906). Esto sugiere que el tercer componente captura principalmente la información relacionada con la variabilidad en el crecimiento económico.

Visualizacion

head(pca1$x)
PC1 PC2 PC3 PC4 PC5 PC6
-2.1780482 0.6499844 1.4678201 0.8510219 -0.2947076 -0.0620868
0.2931480 -1.9365598 -0.0277682 -0.3808846 -0.7995376 0.1124802
-0.7747214 -1.0027244 0.7224669 0.4317185 0.6621883 0.9133375
-1.7970165 1.2926935 -0.2719019 1.3854109 -0.7084954 0.0572642
0.1979641 -0.3121553 0.0605634 -0.1735062 0.1322771 0.4014843
0.1870551 -1.3837379 -1.2373738 -0.4947633 -0.2604291 0.0325998

Paso 4: Seleccion de los componentes principales

Una vez calculados los componentes principales, los valores propios nos darán la información de la varianza explicada por cada una de los vectores propios.

Valores propios

prop_varianza1      <- pca1$sdev^2 / sum(pca1$sdev^2)
prop_varianza1
## [1] 0.34498571 0.24539167 0.16327794 0.12496113 0.08254891 0.03883464

En este caso, el primer componente principal (PC1) explica el 34.5% de la varianza observada en los datos, el segundo componente (PC2) explica el 24.5%, y el tercer componente (PC3) explica el 16.3%. En conjunto, los tres primeros componentes explican aproximadamente el 75.3% de la varianza total de los datos.

El cuarto componente (PC4) aporta un 12.5%, el quinto componente (PC5) un 8.3%, y el sexto componente (PC6) solo un 3.9%.

Por lo tanto, si se consideran únicamente los tres primeros componentes principales, se consigue explicar el 75.3% de la varianza observada, mientras que al incluir hasta la cuarta componente se alcanza un 87.8% de la varianza explicada.

Otra forma de analizarlo, es por medio de la varianza acumulada.

Varianza acumulada

prop_varianza_acum1 <- cumsum(prop_varianza1)
round(prop_varianza_acum1,2)
## [1] 0.34 0.59 0.75 0.88 0.96 1.00

Existen diferentes visualizaciones que muestran la varianza explicada por cada componente principal. Por ejemplo, en la siguiente gráfica se puede ver la varianza acumulada de las componentes principales.

Visualizacion

ggplot(data = data.frame(prop_varianza_acum1, pc = 1:6),
       aes(x = pc, y = prop_varianza_acum1, group = 1)) +
        geom_point() +
        geom_line() +
        theme_bw() +
labs(x = "Componente principal", y = "Prop. varianza explicada acumulada")

Dejándonos guiar por el gráfico podemos confirmar lo mencionado anteriormente, con los tres primeros componentes principales, se consigue explicar el 75.3% de la varianza acumulada.

Paso 5: Transformar los datos al nuevo espacio dimensional

pca$rotation1 <- -pca1$rotation
pca1$x        <- -pca1$x
biplot(pca1, scale = 0, cex = 0.5, col = c("blue2", "red2"))

En la gráfica, observamos que las observaciones cercanas entre sí tienen patrones similares respecto a las variables Crecimiento Poblacional, Participación Laboral, GDP, Esperanza de Vida, Crecimiento Económico y Desempleo. Por ejemplo, las observaciones ubicadas en la dirección de GDP y Esperanza de Vida tienen valores más altos en estas variables, mientras que las ubicadas en la dirección opuesta presentan mayores niveles de Desempleo.

Además, podemos observar que Crecimiento Poblacional y Participación Laboral tienen una mayor influencia en la dirección positiva de PC1, indicando que estas variables contribuyen significativamente a este componente principal. Por otro lado, Esperanza de Vida y GDP están más relacionadas con la dirección negativa de PC2, mostrando que estas variables influyen principalmente en esa dimensión del análisis. Además, el vector de Desempleo apunta en sentido opuesto al GDP y Esperanza de Vida, lo que sugiere una relación inversa entre estas variables.

Analisis de Correlacion Canonica:

2016:

Paso 1: Preparacion de los datos

X   <- data.limpia16[,(1:3)]
Y   <- data.limpia16[,(4:6)]

Comenzamos definiendo dos conjuntos de datos, X e Y. El conjunto X esta compuesto por las columnas 1,2, y 3, mientras que el conjunto Y esta compuesto por las columnas 4,5 y 6 de la base de datos llamada data.limpia16. De esta forma, se están separando dos subconjuntos de variables o características del conjunto de datos original, lo que puede ser útil para realizar análisis o modelado por separado de ambas partes.

X <- scale(X)
Y <- scale(Y)

Los subconjuntos X e Y fueron transfromados para que todas tengan la misma escala y, por lo tanto, se les dé igual importancia en el análisis posterior. Este paso es fundamental cuando las variables tienen unidades o rangos diferente lo que podría sesgar el análisis.

Al escalar los datos, generalmente se realiza una normalización o estandarización. En la estandarización, cada variable se transforma de manera que tenga media cero y desviación estándar uno, lo que permite que todas las variables estén en una escala comparable.

Paso 2: Validacion de los supuestos iniciales

Procedemos a calcular

matcor(X,Y)$XYcor
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 1.0000000 -0.0572804 -0.1269932 0.6720843 0.2577208 -0.1312334
Crecimiento GDP -0.0572804 1.0000000 -0.2468538 0.1342144 0.0425717 -0.0861020
Crecimiento Poblacional -0.1269932 -0.2468538 1.0000000 -0.4425919 0.1654986 -0.2244708
Esperanza de vida 0.6720843 0.1342144 -0.4425919 1.0000000 0.1062570 -0.0137493
Participación Laboral 0.2577208 0.0425717 0.1654986 0.1062570 1.0000000 -0.4282797
Desempleo -0.1312334 -0.0861020 -0.2244708 -0.0137493 -0.4282797 1.0000000

Normalidad multivariada de X

mvn(data = as.data.frame(X), mvnTest = "hz")$multivariateNormality
Test HZ p value MVN
Henze-Zirkler 6.041031 0 NO

Normalidad multivariada de Y

mvn(data = as.data.frame(Y), mvnTest = "hz")$multivariateNormality
Test HZ p value MVN
Henze-Zirkler 2.637415 0 NO

Después de realizar la prueba de normalidad multivariada en los conjuntos X e Y, los resultados indicaron que ninguno de los dos conjuntos sigue una distribución normal. Esto sugiere que las variables en ambos conjuntos no cumplen con el supuesto de normalidad, lo cual es importante a la hora de aplicar ciertos modelos estadísticos que requieren esta condición.

Paso 3: Construccion del metodo

cca1 <- cc(X,Y)

Los vectores canonicos son:

cca1[3:4]
## $xcoef
##                               [,1]      [,2]        [,3]
## GDP                     -0.8452297 0.5063053 -0.23312837
## Crecimiento GDP         -0.1217855 0.4203364  0.93941898
## Crecimiento Poblacional  0.4116219 0.9552037 -0.07873392
## 
## $ycoef
##                              [,1]       [,2]       [,3]
## Esperanza de vida     -0.98428786 -0.1397011  0.1560307
## Participación Laboral -0.10552255  0.5780548 -0.9458552
## Desempleo             -0.02106318 -0.6051400 -0.9271023

Los resultados obtenidos de los vectores canónicos muestran las relaciones entre las variables de los conjuntos X e Y . En el conjunto X, que incluye variables como el PIB (GDP), el crecimiento del PIB y el crecimiento poblacional, los coeficientes canónicos indican las siguientes relaciones: el PIB tiene una fuerte relación negativa con el primer vector canónico (-0.845), lo que sugiere que a medida que el PIB aumenta, el primer componente canónico tiende a disminuir. El crecimiento del PIB está más relacionado positivamente con el segundo vector canónico (0.420) y negativamente con el primero (-0.121). Por otro lado, el crecimiento poblacional tiene una relación positiva con el segundo componente (0.955) y una relación moderadamente negativa con el tercer componente canónico (-0.078).

En el conjunto Y, que incluye la esperanza de vida, la participación laboral y el desempleo, los coeficientes canónicos reflejan interacciones similares. La esperanza de vida muestra una fuerte relación negativa con el primer vector canónico (-0.984), lo que podría indicar que, a medida que la esperanza de vida aumenta, el primer componente canónico disminuye. La participación laboral tiene una relación positiva con el segundo componente (0.578) y una relación negativa con el tercero (-0.945), mientras que el desempleo tiene una relación negativa con el segundo y tercer vector canónico (-0.605) y (-0.927) respectivamente), lo que sugiere una correlación inversa entre el desempleo y los componentes canónicos relacionados con la participación laboral y la esperanza de vida.

En resumen, estos coeficientes canónicos reflejan cómo las variables de ambos conjuntos se interrelacionan a través de los componentes canónicos, ayudando a entender las correlaciones subyacentes y las interdependencias entre las variables económicas y sociales.

Paso 4: Correlaciones Significativas

Procedemos a evaluar que correlaciones canonicas son significativas utilizando dos metodos.

Prueba de significancia

p.asym(cca1$cor, nrow(X), ncol(X), ncol(Y))
## Wilks' Lambda, using F-approximation (Rao's F):
##               stat     approx df1      df2      p.value
## 1 to 3:  0.3488368 25.6323877   9 426.0546 0.000000e+00
## 2 to 3:  0.8577928  7.0148463   4 352.0000 1.921278e-05
## 3 to 3:  0.9961275  0.6881044   1 177.0000 4.079272e-01

Los resultados muestran que los primeros dos componentes canónicos (1 a 3 y 2 a 3) están altamente relacionados de manera significativa, mientras que el tercer componente (3 a 3) no muestra una relación significativa. Esto sugiere que los primeros dos conjuntos de variables tienen un impacto importante en la relación entre X e Y, pero el tercer conjunto de variables no agrega valor significativo al modelo.

Correlacion Canonica

cca1$cor
## [1] 0.77028051 0.37265592 0.06222974

(𝑈1,𝑉1): correlación fuerte (0.770). (𝑈2,𝑉2): correlación débil (0.372). (𝑈3,𝑉3): correlación muy débil (0.062).

En resumen, los primeros componentes canónicos muestran una fuerte relación entre los conjuntos X e Y, mientras que las relaciones entre los componentes canónicos 2 y 2, y 3 y 3 son mucho más débiles. Esto indica que los primeros vectores canónicos capturan la mayor parte de la asociación entre las dos matrices, y las asociaciones adicionales son más débiles o insignificantes.

Paso 5: Interpretacion de los resultados

# Graficamos solo la primera pareja
plt.cc(cca1, var.label = TRUE, type = "b")

2022:

Paso 1: Preparacion de los datos

X1   <- data.limpia22[,(1:3)]
Y1   <- data.limpia22[,(4:6)]

Comenzamos definiendo dos conjuntos de datos, X e Y. El conjunto X esta compuesto por las columnas 1,2, y 3, mientras que el conjunto Y esta compuesto por las columnas 4,5 y 6 de la base de datos llamada data.limpia22. De esta forma, se están separando dos subconjuntos de variables o características del conjunto de datos original, lo que puede ser útil para realizar análisis o modelado por separado de ambas partes.

X1 <- scale(X1)
Y1 <- scale(Y1)

Los subconjuntos X e Y fueron transfromados para que todas tengan la misma escala y, por lo tanto, se les dé igual importancia en el análisis posterior. Este paso es fundamental cuando las variables tienen unidades o rangos diferente lo que podría sesgar el análisis.

Al escalar los datos, generalmente se realiza una normalización o estandarización. En la estandarización, cada variable se transforma de manera que tenga media cero y desviación estándar uno, lo que permite que todas las variables estén en una escala comparable.

Paso 2: Validacion de los supuestos iniciales

matcor(X1,Y1)$XYcor
GDP Crecimiento GDP Crecimiento Poblacional Esperanza de vida Participación Laboral Desempleo
GDP 1.0000000 0.0238264 -0.1503024 0.6715359 0.3103696 -0.2131701
Crecimiento GDP 0.0238264 1.0000000 -0.1980579 0.0642117 0.0329490 0.0770235
Crecimiento Poblacional -0.1503024 -0.1980579 1.0000000 -0.4858779 0.1992585 -0.0338778
Esperanza de vida 0.6715359 0.0642117 -0.4858779 1.0000000 0.1367890 -0.2084344
Participación Laboral 0.3103696 0.0329490 0.1992585 0.1367890 1.0000000 -0.3627535
Desempleo -0.2131701 0.0770235 -0.0338778 -0.2084344 -0.3627535 1.0000000

Normalidad multivariada de X

mvn(data = as.data.frame(X1), mvnTest = "hz")$multivariateNormality
Test HZ p value MVN
Henze-Zirkler 11.1499 0 NO

Normalidad multivariada de Y

mvn(data = as.data.frame(Y1), mvnTest = "hz")$multivariateNormality
Test HZ p value MVN
Henze-Zirkler 2.994708 0 NO

Después de realizar la prueba de normalidad multivariada en los conjuntos X e Y, los resultados indicaron que ninguno de los dos conjuntos sigue una distribución normal. Esto sugiere que las variables en ambos conjuntos no cumplen con el supuesto de normalidad, lo cual es importante a la hora de aplicar ciertos modelos estadísticos que requieren esta condición.

Paso 3: Construccion del metodo

cca.1 <- cc(X1,Y1)

Los vectores canonicos son:

cca.1[3:4]
## $xcoef
##                               [,1]       [,2]         [,3]
## GDP                     -0.8050206 -0.6051250  0.094429417
## Crecimiento GDP          0.0279984 -0.2036458 -0.999305827
## Crecimiento Poblacional  0.4891651 -0.9082768 -0.008446463
## 
## $ycoef
##                              [,1]        [,2]       [,3]
## Esperanza de vida     -0.99472683  0.20458338 -0.1371640
## Participación Laboral -0.06968098 -0.98546506 -0.4251412
## Desempleo             -0.03060013  0.06103851 -1.0871935

En el conjunto X, el PIB (GDP) tiene una fuerte contribución negativa al primer componente canónico (−0.805), lo que indica que su relación con el primer vector canónico es inversa y significativa. Por otro lado, el Crecimiento del PIB tiene una mínima influencia en el primer componente (0.028), pero contribuye negativamente y de manera significativa al tercer componente (−0.999). El Crecimiento Poblacional muestra una relación positiva importante con el primer componente (0.489) y una fuerte relación negativa con el segundo componente (−0.908), lo que indica que estas variaciones están capturadas principalmente por estos dos componentes.

En el conjunto Y, la Esperanza de vida tiene una fuerte influencia negativa en el primer componente (−0.995), mientras que su influencia en los otros dos componentes es menor pero opuesta en dirección. La Participación Laboral muestra una relación negativa predominante con el segundo componente (−0.985), y el Desempleo tiene una contribución negativa considerable al tercer componente (−1.087), lo que sugiere que este componente captura principalmente la variación del desempleo.

En resumen, estos coeficientes reflejan cómo las variables económicas y sociales están asociadas a través de los componentes canónicos. El primer componente captura principalmente las relaciones del PIB y la Esperanza de vida, el segundo está influenciado principalmente por el Crecimiento Poblacional y la Participación Laboral, mientras que el tercer componente destaca el impacto del Crecimiento del PIB y el Desempleo.

Paso 4: Correlaciones Significativas

Procedemos a evaluar que correlaciones canonicas son significativas utilizando dos metodos.

Prueba de significancia

p.asym(cca.1$cor, nrow(X1), ncol(X1), ncol(Y1))
## Wilks' Lambda, using F-approximation (Rao's F):
##               stat    approx df1      df2      p.value
## 1 to 3:  0.3326956 26.448355   9 416.3197 0.000000e+00
## 2 to 3:  0.8432936  7.650275   4 344.0000 6.482330e-06
## 3 to 3:  0.9885405  2.005482   1 173.0000 1.585294e-01

Los resultados de la prueba muestran diferencias significativas entre los grupos en las comparaciones “1 to 3” (p < 0.000) y “2 to 3” (p = 6.48e-06), indicando que las diferencias entre estos grupos son estadísticamente relevantes. Sin embargo, en la comparación “3 to 3”, el valor p es 0.1585, lo que sugiere que no hay diferencias significativas entre los grupos en este caso..

Correlacion Canonica

cca.1$cor
## [1] 0.7781264 0.3833153 0.1070492

(𝑈1,𝑉1): correlación fuerte (0.778). (𝑈2,𝑉2): correlación débil (0.383). (𝑈3,𝑉3): correlación muy débil (0.107).

En resumen, los primeros componentes canónicos muestran una fuerte relación entre los conjuntos X e Y, mientras que las relaciones entre los componentes canónicos 2 y 2, y 3 y 3 son mucho más débiles. Esto indica que los primeros vectores canónicos capturan la mayor parte de la asociación entre las dos matrices, y las asociaciones adicionales son más débiles o insignificantes.

Paso 5: Interpretacion de los resultados

# Graficamos solo la primera pareja
plt.cc(cca.1, var.label = TRUE, type = "b")