El propósito del siguiente trabajo es examinar de forma visual los indicadores ajustados de inequidad para una de las tres dimensiones básicas consideradas por la ONU en su reporte de desarrollo humano y mostrar cómo distintas representaciones gráficas sobre un mismo conjunto de datos puede llevar a nuevos y diferentes análisis sobre los mismos. En este caso se realizará un análisis inicial sobre el índice ajustado de educación, intentando encontrar tendencias que estén soportadas en diferentes representaciones gráficas del conjunto de datos. En nuestro caso, y tomando como referencia la tabla que se construyó en 2013 para evaluar estos valores (disponible en el siguiente enlace http://hdr.undp.org/en/content/inequality-adjusted-hdi), se considerará:
Estos rangos han sido construidos tomando como base los cuartiles estadísticos obtenidos del dataset.
## [1] "Estadística del Índice de Educación Ajustado"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1150 0.3225 0.5350 0.5287 0.7230 0.9180
Finalmente, se realizarán algunos ejercicios adicionales de análisis que incluye los índices ajustados de ingresos y esperanza de vida.
Una adecuada primera aproximación al conjunto de datos, para visualizar y entender los distintos niveles de desarrollo que hemos descrito anteriormente, es visualizar esta distribución estadística gráficamente:
Esta distribución global del índice de educación muestra una clara diferenciación entre valores altos y bajos del índice, con picos en valores por encima del tercer cuartil y también picos en valores por debajo del primer cuartil. Esto quiere decir que hay una gran cantidad de países con niveles muy bajos de educación, pero también hay una gran cantidad de países con niveles muy altos de educación. Esta diferencia en la distribución global del índice nos permite inferir un alto nivel de inequidad entre países en términos educativos a nivel global.
Sin embargo, la distribución anterior no nos da información con respecto a qué países corresponden a aquellos con niveles bajos o altos del índice de educación. Para esto, una primera aproximación sería diferenciar por continentes la distribución del índice de educación construido anteriormente.
Con esta representación de la distribución del índice de educación, empezamos a visualizar mejor las diferencias entre continentes. Pareciera que los picos del primer gráfico corresponden al aporte que África y Europa hacen sobre el total de niveles bajos y altos del índice, respectivamente. Así mismo, Asia, Norte América y Oceanía parecen tener una distribución más heterogénea del índice. Es decir: en estos tres continentes pareciera existir una mayor inequidad dentro de su propio territorio en términos educativos. Finalmente, Sur América pareciera concentrar su distribución alrededor de la media global, pero con una curva asimétrica positiva dentro de su propio territorio.
Aunque de la gráfica anterior se puede inferir que Europa y África tienen incidencia en los picos altos y bajos observados en la distribución global, esto en realidad dependerá de la cantidad de países que aporten cada uno de estos territorios al consolidado total. Es decir: entre más países tenga un continente, mayor será su aporte a la distribución global y en casos de alta concentración, generará picos en la distribución. Además, un problema de las representaciones gráficas que hemos realizado hasta ahora es que son conglomerados para todo el conjunto de años, y no permiten diferenciar los cambios anuales tanto a nivel global como en cada uno de los continentes. Para resolver estas inquietudes, es deseable explorar la distribución anual de la cantidad de países por continente a los cuales se les ha hecho el estudio del índice de educación ajustado.
De esta representación gráfica podemos sacar otras conclusiones. La primera es que sin lugar a dudas África y Europa sí tienen un alto impacto en la distribución global del índice, en tanto son dos de los continentes con la mayor cantidad de países dentro del conjunto de datos a lo largo de los años. Se puede confirmar entonces que Europa aporta un número significativo de países con un valor alto del índice (niveles de desarrollo muy alto a nivel educativo) y África es el principal responsable de los países con un valor bajo del índice (niveles de desarrollo muy bajos a nivel educativo).
Otra conclusión que se puede sacar a partir de este último gráfico, es que el índice de educación de la ONU cada vez incluye más países a nivel global. En Asia, África y Europa se nota un incremento anual de la cantidad de países que componen el conjunto de datos. Particularmente Asia ha sido el continente que cada vez incluye más países, pues en 2010 se ubicaba por debajo de Europa con apenas 32 países reportados, mientras que en 2017 casi es equiparable a África con un aporte de 45 países para el consolidado global. Por el contrario, pareciera que en 2011 y 2012 apenas se reportaron un par de países en Oceanía, aunque a partir de 2013 empezó a crecer la cantidad de países sobre los cuales se tiene información del índice.
Sin embargo, aún no tenemos una clara percepción de las diferencias anuales en la distribución de los datos entre continentes. Para esto, lo mejor es hacer gráficos de caja y bigotes por continente y por año, para intentar observar nuevas distribuciones que nos permitan inferir información sobre el dataset.
En esta representación gráfica confirmamos que la distribución a lo largo de todos los años tiende a que Europa presente valores altos del índice en todos sus países. Por el contrario, África se mantiene en los valores bajos del índice, aunque con un par de países en el extremo del bigote superior para todos los años, lo que implica que hay un par de países con valores del índice muy por encima de la media continental.
Aunque esta representación gráfica es interesante, y nos permite observar algunas cosas de las distribución en cada continente a lo largo del tiempo, lo cierto es que presenta también un problema para el análisis. El conjunto de datos empieza a incluir tanta información y tan diversa, que resulta dificil centrar la atención en algo específico y sacar conclusiones. Para esto, una mejor aproximación puede implicar a veces segmentar el conjunto de datos, seleccionando aquella información que nos interese; es decir una muestra del conjunto de datos. En nuestro caso, interesa continuar con el análisis de inequidad global, es decir los picos de la primera gráfica de distibución. Para esto decidimos seleccionar a África y Europa en los análisis posteriores. Pero también pareciera sensato incluir a Sur América, tanto porque de acuerdo al último gráfico y al de dispersión por continentes, sus datos parecieran ubicarse entre extremos (lo que nos daría una muestra continua de todo el conjunto de datos), pero también porque nos interesa conocer el desempeño de nuestra propia región.
Una vez seleccionados los datos de interés, vamos a intentar replicar el último análisis, pero en esta ocasión no vamos a incluir el análisis de caja y bigotes de cada continente. Esto en tanto que del gráfico anterior alcanzamos a aprender que a lo largo del tiempo las distribuciones de África se mantienen en los niveles bajos del índice, los de Europa en los altos y Sur América se encuentra típicamente entre ambos. En esta nueva representación gráfica lo que queremos observar es si hay cambios de las distribuciones con respecto a la mediana global. Dado que tenemos una variable de tiempo, un primer análisis podría ser observar la evolución del comportamiento de la media y la desviación estándar con respecto a la mediana del conjunto de datos, a lo largo de los años.
Con esta representación gráfica sí podemos sacar nuevas conclusiones y observar cosas que no habían sido evidentes hasta ahora. Por ejemplo, resulta evidente que Sur América ha mejorado en el valor de su índice de educación a lo largo del tiempo, pero entre el año 2016 y 2017 no logró continuar con dicha tendencia, aunque logró sostenerse en el mismo valor en ambos años. Y aunque Europa y África tienen valores del índice en rangos muy diferentes, aquí se observa una similitud: en ambos continentes hubo una leve mejoría en su índice de educación entre 2010 y 2015, pero entre 2015 y 2017 pareciera revertirse esta tendencia y ambos continentes muestran una leve caída del valor del índice.
En el gráfico anterior también se observa que la desviación estándar de los índices de educación para los países en África es mucho mayor que en los países de Europa o Sur América. Adicionalmente, en el gráfico de caja y bigotes para África se observan unos países que típicamente están en el extremo superior y aproximándose al límite del bigote superior, incluso aparecen como datos atípicos en algunos años. Pero en la medida en que la desviación estándar opera sobre el conjunto de datos, esto no se visualiza en esta última gráfica. Y aunque la media de Sur América está por encima de la mediana global, el límite inferior de la desviación estándar alcanza a estar ligeramente por debajo. ¿Pueden haber países en cada continente que se escapen del conjunto de datos y no hayan resultado evidentes? De ser así, ¿cuántos son?. Para resolver estas dudas puede resultar útil observar todo el conjunto de países por continente y su distribución anual.
Finalmente, este gráfico de distribución anual nos permite analizar el conjunto global de datos, y así observar nuevas cosas. Por ejemplo, resulta más evidente la evolución de todos los países de Sur América con el paso del tiempo. Si bien en el gráfico de la evolución de la media en el tiempo observamos que para el año 2010 el promedio suramericano estaba alrededor de la mediana global, en este nuevo gráfico observamos que eso se debía en parte a que hay un país con un valor alto del índice de educación que logra subir el promedio de toda la región como conjunto. En realidad, para los años 2010 y 2011, apenas hay 4 países suramericanos por encima de la mediana global y la mayoría de países se encontraban por debajo. Sin embargo hubo una evolución favorable en los índices de educación para la región, de forma que para el año 2016 ya casi todos se encontraban por encima de la mediana. Y aunque para el año 2017 al menos uno tuvo un retroceso (está por debajo de la mediana), en el análisis de la media esto no se vió reflejado y el valor se mantuvo, sin lugar a dudas compensado por el crecimiento de los otros países de la región.
Esta representación gráfica también nos permite observar algunos datos atípicos, como que en el 2010 había al menos un país europeo por debajo de la mediana global o confirmar que normalmente hay al menos dos países africanos por encima de la mediana global en todos los años.
Si bien hasta ahora hemos aprendido bastantes cosas sobre el conjunto de datos, resulta interesante contrastar esto contra el gráfico inicial del que únicamente pudimos concluir que había inequidad global en la medida en que habían picos por debajo y por encima del primer y tercer cuartil respectivamente. Para esto, revisemos el gráfico inicial, pero segmentando los continentes analizados y sinteticemos algunas de nuestras conclusiones:
Algo bastante útil de esta metodología de análisis visual, es que se puede extrapolar fácilmente a los otros índices del HDI que hasta ahora no hemos examinado. No sólo en la forma de interpretar los datos, sino también en la reutilización del código en R, cambiando unas pocas variables. Por ejemplo, del análisis anterior uno de los gráficos más interesantes es la evolución de la mediana y su respectiva desviación estándar para los distintos años, en tanto nos da una información estadística general sobre la evolución del índice.
Fácilmente podemos realizar la misma revisión para el índice de ingresos:
Donde se observa que entre 2010 y 2014 pareciera haber un incremento para África y Sur América, pero a partir del 2015 no pareciera haber mucha variación. Para Europa hay apenas dos incrementos: uno en 2011 y otro en 2017.
E igualmente podemos realizar esta inspección visual sobre el índice de esperanza de vida:
Donde claramente se observa que para las tres regiones ha habido un incremento sostenido a lo largo del tiempo, aunque con diferentes pendientes.
Tener varios índices puede permitir también otro tipo de análisis. Por ejemplo, un análisis de distribución entre índices. Del análisis previo, realizado por el profesor Juan Salamanca, aprendimos que existe una alta correlación positiva entre los índices de educación y esperanza de vida. Se puede entonces realizar una inspección multivariable, donde el canal más efectivo de interpretación para este tipo de variables, se use en aquellas que tienen una mayor correlación (educación y esperanza de vida), mientras la tercera (ingresos) se codifica en un canal visible, aunque un poco menos efectivo.
De aquí nace el gráfico de distribución para todos los índices ajustado del HDI.
Nuevamente se evidencia la diferencia entre África y Europa. Y aunque los datos son relativamente homogéneos, se pueden encontrar segmentos de grupos aislados que podrían valer la pena revisar al detalle.
Por ejemplo, ¿a qué países corresponde el segmento de datos atípicos de África que sobresalen entre Europa y Sur América? Para revisarlo, se puede hacer un zoom en la distribución y aplicar el mismo zoom sobre el dataset.
## year Country country_name Continent education income life
## 1 X2011 MUS Mauritius África 0.589 0.644 0.745
## 2 X2012 MUS Mauritius África 0.604 0.648 0.749
## 3 X2013 MUS Mauritius África 0.613 0.627 0.757
## 4 X2014 MUS Mauritius África 0.632 0.628 0.760
## 5 X2015 MUS Mauritius África 0.626 0.634 0.758
## 6 X2016 MUS Mauritius África 0.633 0.638 0.767
## 7 X2017 MUS Mauritius África 0.633 0.656 0.769
Dichos datos corresponden a los datos de distintos años para la República de Mauricio (Mauritius), cuyos tres índices parecieran tener valores altos, no sólo a nivel de Africa sino en el conjunto global de datos.
¿Y a qué países corresponde el segmento de datos de Sur América que pareciera mezclarse con el africano?
## year Country country_name Continent education income life
## 1 X2010 BOL Bolivia ( ) Sur América 0.457 0.273 0.520
## 2 X2011 BOL Bolivia ( ) Sur América 0.470 0.317 0.541
## 3 X2012 BOL Bolivia ( ) Sur América 0.477 0.317 0.547
## 4 X2013 BOL Bolivia ( ) Sur América 0.480 0.390 0.557
## 5 X2014 BOL Bolivia ( ) Sur América 0.502 0.395 0.562
## 6 X2015 BOL Bolivia ( ) Sur América 0.532 0.398 0.532
## 7 X2016 BOL Bolivia ( ) Sur América 0.542 0.421 0.565
## 8 X2017 BOL Bolivia ( ) Sur América 0.549 0.434 0.569
## 9 X2010 GUY Guyana Sur América 0.519 0.491 0.530
## 10 X2011 GUY Guyana Sur América 0.522 0.422 0.556
## 11 X2012 GUY Guyana Sur América 0.529 0.475 0.557
## 12 X2013 GUY Guyana Sur América 0.531 0.479 0.576
## 13 X2014 GUY Guyana Sur América 0.533 0.483 0.577
## 14 X2015 GUY Guyana Sur América 0.534 0.489 0.568
## 15 X2016 GUY Guyana Sur América 0.532 0.485 0.577
## 16 X2017 GUY Guyana Sur América 0.532 0.488 0.579
Se tratan de los datos anuales de dos países de la región, Bolivia y Guyana, que aunque tienen valores bajos en 2010, han ido mejorando en los tres aspectos con el paso del tiempo.