Set de Datos

A continuación se muestra el encabezado del set de datos de trabajo
Logged.GDP.per.capita Social.support Healthy.life.expectancy Freedom.to.make.life.choices Generosity Perceptions.of.corruption
Finland 10.63927 0.9543297 71.90083 0.9491722 -0.0594820 0.1954446
Denmark 10.77400 0.9559908 72.40250 0.9514443 0.0662018 0.1684895
Switzerland 10.97993 0.9428466 74.10245 0.9213367 0.1059110 0.3037284
Iceland 10.77256 0.9746696 73.00000 0.9488919 0.2469442 0.7117097
Norway 11.08780 0.9524866 73.20078 0.9557503 0.1345326 0.2632182
Netherlands 10.81271 0.9391388 72.30092 0.9085478 0.2076124 0.3647171

La datos completos se pueden encontrar en el siguiente enlace


Análisis de Componentes Principales

Con el objetivo de reducir la dimensionalidad y reconocer relaciones entre variables e individuos se desarrolla un análisis de componentes principales (ACP) de nuestro set de datos, los resultados se muestran a continuación.

Gráfico 1. Contribución a la varianza de las dimensiones

En el Gráfico 1 se encuentra que existe 6 dimensiones o componentes principales que suman el 100% de la varianza de los datos. Sin embargo, en proposito de reducir dimensionalidad del problema y reducir ruido podemos de ahora en adelante representar nuestro sistema con las primeras 3 dimensiones. Las mismas contienen el 85% de la información. Se ha reducido un 50% de dimensiones a cambio de sacrificar 15% de la información.

Una vez identificado los componentes principales es posible computar la interacción de las variables ante cada dimensión.

                                   Dim.1     Dim.2       Dim.3       Dim.4
Logged.GDP.per.capita        26.17596526  4.764789  0.12432342  5.74550317
Social.support               23.87400513  3.886383  9.53031692  0.82603048
Healthy.life.expectancy      26.15286288  2.817570  0.09727615  5.31257410
Freedom.to.make.life.choices 14.87587527 11.779738  7.59336003 62.82944125
Generosity                    0.07026692 53.971583 20.23161056 25.22305583
Perceptions.of.corruption     8.85102455 22.779938 62.42311291  0.06339517
                                  Dim.5
Logged.GDP.per.capita         3.1293136
Social.support               57.0545288
Healthy.life.expectancy      31.3498801
Freedom.to.make.life.choices  2.5180485
Generosity                    0.3320918
Perceptions.of.corruption     5.6161372



Gráfico 2. Contribución de las variables a las dimensiones
Cada variable contribuye un porcentaje a cada dimensión, el gráfico de pastel dentro representa el porcentaje de aporte, siendo 0% es completamente vacio y 62% el gráfico completo.

La dimensión 1 está representada principalmente por las variables Logged GDP per capita, Social support, Healthy life expectancy.
La dimensión 2 esta mayormente representada por las variables Generosity y Perceptions of corruption.
La dimensión 3 tiene la mayor contribución por las variables Perceptions of corruption y Generosity.

Se observa que la variable Freedom to make life choices no representa importante contribución a ninguno de los 3 componentes principales mas importantes. La información de esta variable ya está representada en las 5 restantes.

A continuación se muestra dos gráficos que complementa lo mencionado, representa la contribución de cada variable a las dimensiones ademas de visualizar las relaciones entre variables.

Gráfico 3. Contribución de las variables a las dimensiones 1 y 2

Es posible observar que las variables Logged GDP per capita, Social support, Healthy life expectancy tienen un comportamiento o correlacion similar entre ellas. Si una variable crece la otra crece en el mismo sentido. La flecha larga, el color rojo y la cercania al eje de la dimensión 1 muestra que son los principales contribuyentes. Importante destacar el comportamiento de la variable Generosity, la flecha demuestra que tiene la mayor contribución al componente principal 2 y al formar un angulo mayor a 90° respecto a Logged GDP per capita, Social support y Healthy life expectancy demuestra que no hay una correlacion relevante entre ellas. Mayor ingreso económico de la población no refleja mayor generosidad ante los mas necesitados.
Las variables Freedom to make life choices y Perceptions of corruption presentan un comportamiento inverso, es posible interpretar que si los individuos de un país sienten que tienen alta libertad de decisión van a expresar baja corrupción.



Gráfico 4. Contribución de las variables a las dimensiones 2 y 3

Ahora en el gráfico se representa las variables en la dimensión 2 y 3 (estas dimensiones aportan el 33% de la varianza total) donde resaltan las variables Perceptions of corruption y Generosity. El componente principal 2 está bien representado por la variable Generosity y a su vez el componente principal 3 representado en su mayoria por Perceptions of corruption. La baja magnitud de contribucion de las demas variables se observa en el color azul y flechas cortas. Un angulo de 90° entre las variables nos da una idea de la nula relación entre Perceptions of corruption y Generosity.


Introduciendo los individuos



A continuacion se muestra el grafico ACP de los individuos, en las dimensiones 1 y 2.

Gráfico 5. Analisis de componentes principales, coseno cuadrado individuos

Representar la contribucion de los individuos mediante el coseno cuadrado permite parametrizar entre -1 a 1 el nivel de contribucion de cada individuo a cada componente principal. No todos los individuos estan significativamente representando por las dimensiones, tal es el caso de los paises en color turquesa, Guatemala, Sri Lanka, Libia, entre otros. En el caso contrario encontramos paises como Luxemburgo, Noruega y Singapur muy bien representados por el componente principal 1 al lado derecho del grafico y del mismo modo, al lado izquierdo, muy bien representados por el componente principal 1 paises como Sudan del Sur, Afganistan y Mali. Myanmar, Indonesia, Turquia y Grecia se encuentra bien representados por el componente principal 2.


Individuos y variables


Es posible ahora vizualizar en conjunto la contribucion de las variables e individuos a los componentes principales y a su vez observar algunas relaciones entre ellos. Para ello se grafica dos ACP para dimensiones (1,2) y (2,3). Con proposito de una mejor interpretacion grafica se ha computado con los top 100 individuos mas contribuyentes.

Gráfico 6. Analisis de componentes principales, dimension 1 y 2

El grafico nos muestra que es posible esperar que paises como Noruega, Dinamarca, Suiza cuenten con alta calidad de vida, apoyo social e ingresos economicos. Diagonalmente contrario a las variables vemos el caso de paises como Haiti, Nigeria, Sudan del Sur y Sierra Leona donde esperamos pobre calidad de vida y deficiente desarrollo socioeconomico. Indonesia y Myanmar destacan por su alto nivel de generosidad, Grecia y Turquia representan lo contrario.



Gráfico 7. Analisis de componentes principales, dimension 2 y 3

Ahora en la dimension 2 y 3 resalta la contribucion de principalmente dos variables, Perceptions of corruption y Generosity. Importante mencionar que la dimension 1 y 2 explica la mayoria de la informacion.

La corrupcion se percibe de menor intensidad en paises como Singapur, Nueva Zelanda, Dinamarca y Suecia. Paises inversamente relacionados con la direccion del componente principal. Caso contrario de paises tales como Jamaica, Ucrania, Turkmenistan y Tailandia presentan mayores niveles de percepcion de corrupcion. Esta variable se encuentra bien representada por el componente principal 3.

Relacion k-medias


Es posible ahora comparar la formacion de clusters de individuos con el analisis de componentes principales. A continuacion se muestra el resultado de k-medias y el ACP.

Gráfico 8. Analisis de cluster k-medias



Gráfico 9. Analisis de ACP editado

Se observa que el analisis de ACP forma agrupaciones que coincide en su mayoria con la formacion de cluster por kmedias.

Gracias a que el analisis de componentes principales nos permite identificar variables redundantes, a modo de ejercicio podemos volver a realizar los cluster por kmedias sin la variable Freedom.to.make.life.choices, como se observa en el grafico 2, la informacion de la variable ya se encuentra representada en las dimensiones 1 2 y 3.

Gráfico 10. Analisis de cluster k-medias sin variable Freedom.to.make.life.choices

Aunque los colores han cambiado por cuestiones de formato, la información nos muestra que la conformación de grupos no muestra diferencia significativa antes y despues de eliminar la variable Freedom.to.make.life.choices. Esto nos demuestra la capacidad de la herramienta ACP para reducir la dimensionalidad de los datos para mantener la mayoria de la información confiable.


Representación de países en componente principal



Para finalizar el analisis, a continuacion se muestra tres gráficos que muestra el top 15 de individuos con mejor representación en cada dimension 1, 2 y 3.


Gráfico 11. Individuos principales, componente 1

Gráfico 12. Individuos principales, componente 2

Gráfico 13. Individuos principales, componente 3

Tomando como ejemplo el Grafico 11 es de esperar que tanto paises en los primeros lugares del ranking de felicidad (Noruega) como en los ultimos paises del ranking (Afganistan) se encuentren ambos entre los principales contribuyentes a la dimensión, la diferencia reside que ambos se van a encontrar en posiciones contrarias de esa misma dimensión.