El Índice de Desarrollo Humano, nace en la década de los 90’ como una herramienta para la formulación de políticas publicas enmarcadas en las dimensiones de esperanza de vida, educación, e ingresos percapita. En esta ocasión se estudiara más específicamente la dimensión de educación pero para el índice ajustado por desigualdad: esta dimensión la componen otros indicadores como las tasas de alfabetización, y cobertura. El índice de logro educativo se determina a partir de dos componentes: proporción de alfabetizados en la población adulta (porcentaje de la población adulta que sabe leer y escribir) y media de años de escolaridad. En el primer año que se calculó el IDH se utilizó solamente el porcentaje de alfabetizados. Como la capacidad de elección no depende solamente de saber leer y escribir, sino también de los conocimientos impartidos a través de un sistema formal de educación, se decidió posteriormente agregar un componente basado en el promedio de años de escolaridad. Tanto el porcentaje de alfabetizados como el promedio de escolaridad se convierten primero en un índice normalizado. Dicho esto, se quiere indagar acerca de ¿Cómo se comporta el índice de desarrollo humano ajustado por desigualdad en la dimensión de educación para el caso de Colombia con respecto a los otros países de Latinoamérica entre el 2010 al 2017? Para ello se presenta graficamente la region a estudiar, luego se hace un paneo del tipo de datos a trabajar (inicialmente se trabajaran dos bases de datos: “Adjusted_Education” la cual contiene la informacion del valor del indicador, y “globeMap” la cual contiene las coordenadas de ubicación), algunas estadisticas descriptivas y graficas de dispersion de los datos, asi como graficos y mapas de calor de las regiones.

#subimos la base de datos de solo el IDH ajustado para educación
Adjusted_Education <- read.csv2("C:/Users/YANDAHAR/Downloads/Adjusted_Education.csv")

#decantamos la base de datos para solo tener a centro América y sur america en ella
new.data <- Adjusted_Education[ which(Adjusted_Education$Continent== 7 | Adjusted_Education$Continent== 5 & Adjusted_Education$country_name!= "Canada" & Adjusted_Education$country_name!= "United States"), ]

Seguidamente expondremos los datos geograficamente en un mapa de localizacion:

#Importar data set de mapa
globeMap <- read.csv("C:/Users/YANDAHAR/Downloads/globeMap.csv")

#Decantar las regiones de North America y Sur America
new.datamap <- as.data.frame(globeMap[which(globeMap$Continent_Name== "North America" | globeMap$Continent_Name== "South America"), ])

#Excluir de North America los paises de Canada y Estados Unidos 
new.datamap1 <- as.data.frame(new.datamap[which(new.datamap$Country_Name!= "Canada" & new.datamap$Country_Name!= "United States of America"), ])

#Cambio nombre de North America a Centro America
new.datamap1$Continent_Name[new.datamap1$Continent_Name == "North America"] <- "Central America"

#instalar paquetes y llamar librerias
#install.packages("ggplot2")

library(ggplot2)
ggplot(new.datamap1, aes(x = new.datamap1$long, y = new.datamap1$lat, group = new.datamap1$group)) +
  geom_polygon(aes(fill= Continent_Name, color=Continent_Name))+
  scale_fill_manual(values = c("#596791","#ca3355","#acc11d","#3b5c5d","#f1e943","#4146ca","#e8737b","#251141"))+
  labs(title = "Regions of Latin America", caption = "Empty territories have no index. Source Uknown", x = "Longitude", y= "Latitude")+ theme_bw()
## Warning: Use of `new.datamap1$long` is discouraged. Use `long` instead.
## Warning: Use of `new.datamap1$lat` is discouraged. Use `lat` instead.
## Warning: Use of `new.datamap1$group` is discouraged. Use `group` instead.

#Paneo del tipo de datos
str(new.data)
## 'data.frame':    204 obs. of  9 variables:
##  $ X             : int  41443 41448 41454 41457 41460 41470 41472 41476 41484 41485 ...
##  $ dimension     : chr  "Inequality" "Inequality" "Inequality" "Inequality" ...
##  $ indicator_id  : int  71406 71406 71406 71406 71406 71406 71406 71406 71406 71406 ...
##  $ indicator_name: chr  "Inequality-adjusted education index" "Inequality-adjusted education index" "Inequality-adjusted education index" "Inequality-adjusted education index" ...
##  $ iso3          : chr  "ARG" "BHS" "BLZ" "BOL" ...
##  $ country_name  : chr  "Argentina" "Bahamas" "Belize" "Bolivia (Plurinational State of)" ...
##  $ Continent     : int  7 5 5 7 7 7 7 5 5 7 ...
##  $ year          : chr  "X2010" "X2010" "X2010" "X2010" ...
##  $ value         : num  0.705 0.659 0.557 0.457 0.46 0.648 0.49 0.535 0.471 0.494 ...

Obtenemos 204 observaciones acerca de los paises que conforman centro america y latinoamerica.

#Resumen del valor del indicador de inequidad en educacion
summary(new.data$value)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2370  0.4793  0.5350  0.5345  0.6248  0.7650

Con respecto al valor promedio del indicador de inequidad en educacion para la region seleccionado este se ubica en un 0.5345, con valores minimos que van desde el 0.2370 hasta el 0.7650 como valor maximo.

#Graficaremos la distribucion del valor del indicador para las regiones trabajadas
overallDist <- ggplot(new.data,aes(x=value))
overallDist <- overallDist + geom_histogram(aes(y=..density..), binwidth=.005,colour="black", fill="white")
overallDist <- overallDist + geom_density(alpha=.2, fill="#FF6666")
overallDist <- overallDist + geom_vline (aes ( xintercept = 0.5345, color = 'red'))
overallDist <- overallDist + geom_text (x=0.5345, y=0.7650, label="region median")
overallDist <- overallDist + labs(title = "Region distribution of education inequality", subtitle = "Aggregated from 2010-2017", x = "Percentage of education inequality")
overallDist <- overallDist + theme(legend.position = "none")
overallDist

Para el caso de la region seleccionada podemos ver como los valores estan concentrados en la media y en los valores mas elevados, lo que se traduce en una alta desigualdad.

#Graficaremos la distribucion del indicador para Colombia en contraste con las regiones estudiadas

#Modificando la base para poder identificar a Colombia
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
new.data_despues <- new.data %>% 
                 mutate(Continent = ifelse(country_name == "Colombia", 0, Continent))

#Grafica
overallDist <- ggplot(new.data_despues,aes(x=value))
overallDist <- overallDist + geom_histogram(aes(y=..density..), binwidth=.045,colour="black", fill="white")
overallDist <- overallDist + geom_density(alpha=.2, fill="#FF6666")
overallDist <- overallDist + geom_vline (aes ( xintercept = 0.6, color = 'red'))
overallDist <- overallDist + geom_text (x=0.5345, y=0.3, label="region median")
overallDist <- overallDist + facet_grid(as.character(Continent)~.)
overallDist <- overallDist + labs(title = "Region distribution of education inequality", subtitle = "Aggregated from 2010-2017", caption = " 0:Colombia, 5:Central America, 7:South America",x = "Percentage of education inequality")
overallDist <- overallDist + theme(legend.position = "none")
overallDist

Al comparar Colombia con las otras regiones, se evidencia la concentracion de desigualdad en la educacion de la misma y de la region 7 (suramerica) en la cual este pais esta ubicado; para el caso de la region 5 (centroamerica) la desigualdad esta menos concentrada.

#Elaboramos un boxplot para ver más a detalle
library(ggplot2)
overallDist <- ggplot(new.data, aes(x=as.factor(Continent), y=value, group = Continent))
overallDist <- overallDist + geom_point(aes(color=as.factor(Continent)), position=position_jitter(width=0.2,height=.2))
overallDist <- overallDist + geom_boxplot(aes(alpha=0.2))
overallDist <- overallDist + scale_color_manual(values = c("#596791" ,"#ca3355", "#acc11d", "#3b5c5d", "#f1e943", "#4146ca", "#e8737b", "#251141"))
overallDist <- overallDist + labs(title = "Distribution of educational inequality by region", subtitle = "Aggregated from 2010-2017", caption = "5:Central America, 7:South America", x = "Percentage of IHDI")
overallDist <- overallDist + theme(legend.position = "none")
overallDist

En la anterior grafica de bigotes se evidencia la distribución de los valores asignados al indicador de Centro y Sur América; Para el caso de Centro América la distribución es más amplia y se evidencia valores por debajo de la media además de valores cercanos a cero; para el caso Sur América hay una distribución más pequeña y más valores por encima de la media, además de valores cercanos a uno.

#Realizamos los heatmaps para las regiones de centro america y sur america

CentralAmerica <- subset (new.data, new.data$Continent == 5)
SouthAmerica <- subset (new.data, new.data$Continent == 7)
#CENTROAMERICA
heatmap <- ggplot(CentralAmerica, aes(x=country_name, y=year, fill=value)) 
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0.2,0.8))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "Education Inequality in Central America", subtitle = "From 2010-2017", caption = "Source: UN", x = "Country", y="Year")
heatmap

Para el caso de centro america, es evidente la desigualdad en paises como Haiti, Guatemala y Honduras.

#SOUTHAMERICA
heatmap <- ggplot(SouthAmerica, aes(x=country_name, y=year, fill=value)) 
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0.2,0.8))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "education inequality in South America", subtitle = "From 2010-2017", caption = "Source: UN", x = "Country", y="Year")
heatmap

new.datamap2 <- subset(new.data, new.data$year == "X2017")
colnames(new.datamap2)[5] <- "Three_Letter_Country_Code"
colnames(new.datamap2)[1] <- "ID"
mapData <- full_join(new.datamap1,new.datamap2, by = NULL)
## Joining, by = "Three_Letter_Country_Code"
# Create ggplot object and save it in an object. The group parameter is very important because it groups all the coordinates by country
myMap <- ggplot(mapData, aes(x=long, y=lat, group = as.factor(group)))
# add geometry
myMap <- myMap + geom_polygon(aes(fill = value))
# add color palettes
myMap <- myMap + scale_fill_viridis_c(option="plasma")
# add labels
myMap <- myMap + labs(title = "Educational Inequality-Adjusted Development Index (IHDI) for 2017", subtitle = "Average of education inequality index", caption = "Grey territories have no index. Source UN", x = "Longitude", y= "Latitude")
# add margins
myMap <- myMap + theme_bw()
# plot the map
myMap

De este ejercicio podemos concluir que tanto Colombia como la región a la que pertenece están agrupados por debajo del conjunto de regiones estudiadas, mientras la región denominada como Centro América esta mas dispersa en niveles de desigualdad educativa. También podemos observar que para varios países de ambas regiones la calificación de este índice mejora con el tiempo, a excepción de países como Haití, en contraste los países de más al sur de la región Sur Americana son los que mejor índice presentan, y países como México, Colombia, Brasil y Bolivia tienen puntuaciones relativamente aproximadas. Cabe anotar que se eligio la dimensión de la educación porque es la dimensión más importante para llevar una vida productiva, siendo este dato esencial en cualquier medición de desarrollo humano.