El Índice de Desarrollo Humano (HDI por sus siglas en inglés) es un estdístico que busca medir el desarrollo de las naciones a través de 3 dimensiones básicas del desarrollo de las personas: educación, expectativa de vida e ingreso-PIB percapita. Este trabajo se centra en la dimensión educativa, buscando evaluar la concentración de misma en los países y/o regiones más desarrolladas frente a los países en vía de desarrollo y buscando responder a la siguiente hipótesis de investigación: Los países desarrollados tienen el nivel de educación más alto.
En el siguiente mapa se observan todas las regiones del mundo que se utilizarán para el análisis:
# Importar mapa y plotearlo
globeMap = read.csv2("map_2022.csv")
# adicionar latitud y longitud
library(ggplot2)
#str(globeMap)
mapa = ggplot(globeMap, aes(x = long, y = lat, group = as.factor(group)))
mapa = mapa + geom_polygon(aes(fill=sub.region)) # fill es para colorear áreas, sub.region pq así leyó R a sub-region
mapa = mapa + theme_bw()
mapa
La base de datos consta de 5 variables y un indicador de posición; 2 variables númericas (enteros) que son el ranking HDI y el valor para la educación y 3 variables tipo caracter, que son el año, el nombre del país, el código del mismo y el año en que se midió la variable de interés.
#Importar base de datos
edu = read.csv2("Inequality_Education_2010-2019.csv")
#View(edu)
edu$variable = as.factor(edu$variable)
str(edu)
## 'data.frame': 1820 obs. of 6 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ HDI.Rank: int 169 69 91 36 148 46 81 8 18 88 ...
## $ Country : chr "Afghanistan" "Albania" "Algeria" "Andorra" ...
## $ ISO3 : chr "AFG" "ALB" "DZA" "AND" ...
## $ variable: Factor w/ 10 levels "2010","2011",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ value : num 39.3 12.7 NA NA 26.2 12.1 6.5 1.7 2.4 12 ...
summary(edu$value)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.70 6.30 17.10 19.99 32.20 50.10 251
En cuanto a la variable de interés, se observa como tiene un valor mínimo de 0.7 y un máximo de 50.1, se distribuye de forma asimétrica (media y mediana diferentes) y presenta 251 valores con NA. Es importante destacar que el indicador de educación en inverso (menor valor mejor nivel educativo).
summary(edu$value)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.70 6.30 17.10 19.99 32.20 50.10 251
dist = ggplot(edu, aes(x=value))
dist = dist + geom_histogram(aes(y=..density..),binwidth=.5,colour="white", fill="grey")
dist = dist + geom_density(alpha=0.2,fill="#FF6666") # el alpha es para que quede traslúcido
dist = dist + geom_vline (aes ( xintercept = 19.99, color = 'red'))
dist = dist + geom_text (x=19.4, y=0.045, label="media global")
dist = dist +labs(title = "Distribución global de la educación", subtitle = "agregado 2010-2019", x = "Indicador del nivel de educación")
dist = dist + theme(legend.position = "none") #este es para que no me muestre una leyenda de la línea vertical
dist
## Warning: Removed 251 rows containing non-finite values (stat_bin).
## Warning: Removed 251 rows containing non-finite values (stat_density).
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
new_edu = left_join(edu,globeMap,by=c('ISO3' = 'ISO3'))
#View(new_edu)
cont = subset(new_edu, new_edu$region == 'Africa'| new_edu$region == "Americas" | new_edu$region =="Asia" | new_edu$region == "Europe" | new_edu$region == "Oceania")
dist = ggplot(cont, aes(x=value))
dist = dist + geom_histogram(aes(y=..density..),binwidth=.5,colour="white", fill="grey")
dist = dist + geom_density(alpha=0.2,fill="#FF6666") # el alpha es para que quede traslúcido
dist = dist + geom_vline (aes ( xintercept = 19.99, color = 'red'))
dist = dist + geom_text (x=19.4, y=0.35, label="media global")
dist = dist + facet_grid(region~.)
dist = dist +labs(title = "Distribución global de la educación por regiones", subtitle = "agregado 2010-2019", caption = "1: Africa, 2:América, 3:Asia, 4:Europa, 5:Oceania", x = "Indicador del nivel de educación")
dist = dist + theme(legend.position = "none") #este es para que no me muestre una leyenda de la línea vertical
dist
## Warning: Removed 69463 rows containing non-finite values (stat_bin).
## Warning: Removed 69463 rows containing non-finite values (stat_density).
Llama la atención como los valores de Africa están por encima de los valores de los otros continentes, con el entendimiento de que el indicador tiene un valor inverso, se da una señal clara que África podría ser la región con valores más deficientes. A continuación se revisará un poco más en detalle la distribución de los datos: Africa y Asia son los continenetes que presentan peor desempeño en este indicador, mientras que Europa es el continente con mejores indicadores, seguido de America y Oceanía.
hst = ggplot(cont, aes(x=as.factor(region),y=value,group = region))
hst = hst + geom_point(aes(color = as.factor(region)),position=position_jitter(width=0.2,height=.2))
hst = hst + geom_boxplot(aes(alpha=0.2)) # el alpha es para que quede traslúcido
hst = hst + scale_color_manual(values = c("#ff1d1d","#db406b","#95f4da","#4e3e7b","#c9ca00"))
hst = hst +labs(title = "Distribución global, en diagramas de cajas, de la educación por regiones", subtitle = "agregado 2010-2019", caption = "1: Africa, 2:América, 3:Asia, 4:Europa, 5:Oceania", x = "Indicador del nivel de educación")
hst = hst + theme(legend.position = "none") #este es para que no me muestre una leyenda de la línea vertical
hst
## Warning: Removed 69463 rows containing non-finite values (stat_boxplot).
## Warning: Removed 69463 rows containing missing values (geom_point).
Ahora se procederá a dar un vistazo al interior de algunos continentes, para tener una información descriptiva del desempeño de cada país en el indicador de educación y empezar a responder el interrogante referente a la diferencia de educación entre paises desarrollados y en vía de desarrollo. Se hará especial énfasis en Europa, que contiene la mayoría de países desarrollados, America que tiene una mescla de paises en vía de desarrollo y algunos desarrollados y Africa que tiene muchos países en vía de desarrolo.
# Se cran los subconjuntos
edu_Africa=subset(new_edu, new_edu$region == 'Africa')
edu_America=subset(new_edu, new_edu$region == 'Americas')
edu_Europa=subset(new_edu, new_edu$region == 'Europe')
# Mapa de calor África
heatmap <- ggplot(edu_Africa, aes(x=Country, y=variable, fill=value))
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0,50))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "Educación en África", subtitle = "From 2010-2019", caption = "Source: UN", x = "Country", y="Year")
heatmap
Al revisar la gráficas se observan valor muy elevados (amarillo intenso) para mucho de los países, lo cual evidencia como la educación no es la mejor en esta latitud. Las manchas grises corresponden a datos ausentes.
# Mapa de calor América
heatmap <- ggplot(edu_America, aes(x=Country, y=variable, fill=value))
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0,50))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "Educación en América", subtitle = "From 2010-2019", caption = "Source: UN", x = "Country", y="Year")
heatmap
En esta ocasión llama la atención como el mapa de calor tiene un cambio importante, pasando de predominar en colores encendidos como el amarillo y naranja (que se entiende como un indicador de educación deficiente) a tonalidades más oscuras (indicador de educación sobresaliente) siendo Canadá y Estados Unidos, quienes mejor desempeño muestran en el continente, mientrtas que GUatemala, Salvador y Haití son el caso contrario. Aquí se empieza a evidenciar la gran bracha educativa presente entre países en vía de desarrollo y países desarrollados. POr su parte Colombia se encuentra en un valor intermedio, con mucho por mejorar al compararse con los mejores del continente.
# Mapa de calor Europa
heatmap <- ggplot(edu_Europa, aes(x=Country, y=variable, fill=value))
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0,50))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "Educación en Europa", subtitle = "From 2010-2019", caption = "Source: UN", x = "Country", y="Year")
heatmap
#### Europa En esta ocasión, como era de esoerarse, el mapa de calor se torna en colores totalmente oscuros, dando el mensaje claro que el nivel educativo en Europa es muy superior al resto de contienentes; solamente España, Portugal y Bosnia Herzegovina, presentan un leve descenso (colores claros) en los últimos años.
Por último se plasma en un mapa mundial, la variable de interés (indicador de educación), diferenciando cada país con una escala de calor, donde los valores más encendidos representan peor nivel educativo y los valores oscuros mejor nivel educativo; el resultado obtenido es totalmente consecuente con lo analizado previamente, África con valores encendidos, America con un Mix (destacándose Estados Unidos y Canadá) y Europa con los mejores valores de todo el análisis.
# Mapa comparando países
new_edu_2=subset(new_edu, new_edu$variable == '2019')
myMap <- ggplot(new_edu_2, aes(x=long, y=lat, group = as.factor(group)))# add geometry
myMap <- myMap + geom_polygon(aes(fill = value))# add color palettes
myMap <- myMap + scale_fill_viridis_c(option="plasma")# add labels
myMap <- myMap + labs(title = "Indicador de Educación para 2019", caption = "Territorios en Gris no tienen un valor asigando - fuente UN", x = "Longitude", y= "Latitude")# add margins
myMap <- myMap + theme_bw()# plot the map
myMap
Después de recorrer el dataset, a nivel continente, a nivel país y hacer una comparación interregional, es clara la diferencia en los niveles educativos de los países desarrollados frente a los países en vía de desarrollo, siendo los primeros quienes presentan un indicador del nivel educativo mucho mejor, ratificando la hipótesis de investigación que responde la pregunta planteada al inicio del ejercicio.