Revisión general de la inequidad educativa

Visión de las Naciones Unidas

El acceso a la educación es un derecho humano básico, sin embargo, en la actualidad esta brecha ha venido creciendo impactando directamente con el desarrollo y progreso de cada nación. La falta de atención por parte de los gobiernos ha incrementado esta brecha de inequidad en la que no ven la educación como ese medio para lograr sociedades más justas. Asimismo, es importante mencionar que la Pandemia ha agudizado esta problemática dado que el mundo no estaba preparado para migrar a una educación 100% digital.

¿Qué es el índice de desarrollo humano?

El IDH es un indicador de las Naciones Unidas que se utiliza para clasificar los países en tres niveles de desarrollo humano. Sus componentes son: esperanza de vida, educación e ingreso per cápita. Estos componentes son calificados entre un valor de 0 y 1.

¿Qué es el índice de desarrollo humano ajustado por desigualdad?

El IHDI representa el nivel real de desarrollo humano en términos de desigualdad entre quienes más tienen y los que no.

En este proyecto, se trabaja con la base de datos del índice de desarrollo humano ajustado por desigualdad extraído de la página web de las Naciones Unidas entre los años 2010 y 2019. Para tener una mejor visualización de la información, se incluye la variable Continente en el conjunto de datos asignada de forma manual.

A continuación, se presenta un mapa global por regiones:

#Cargar Dataset Mapa global

map_2022 <- read.csv2("~/R/Proyecto/ProjectoEducacion/map_2022.csv",na.strings="\"\"", stringsAsFactors=TRUE)

#Cargar dataset indice de desarrollo humano para educacion

Educacion <- read.csv2("~/R/Proyecto/ProjectoEducacion/Educacion.csv", stringsAsFactors=TRUE)


#Cargar librerias

library(ggplot2)
library(dplyr)
library(ggThemeAssist)
library(scales)
library(ggthemes)
library(extrafont)
library(ggalt)
library(gganimate)
library(gapminder)
library(ggmap)
library(ggdendro)
library(ggstream)
register_google("AIzaSyBVBzq2Yz_sMFUYRQpC_4GlguOOOHiHVSw")

#Crear Mapa global

MapaPorRegiones <- ggplot(map_2022, aes(x=long, y=lat, group=as.factor(group))) + geom_polygon(aes(fill=sub.region))+scale_fill_manual(values=c("#264653ff","#2a9d8fff" ,"#e9c46aff" ,"#f4a261ff" , "#e76f51ff","#e63946ff", "#f1faeeff", "#a8dadcff", "#457b9dff", "#1d3557ff","#264653ff","#2a9d8fff" ,"#e9c46aff" ,"#f4a261ff" , "#e76f51ff","#e63946ff", "#f1faeeff", "#a8dadcff", "#457b9dff", "#1d3557ff"))+ 
  labs(title = "Regiones del mundo")

MapaPorRegiones

Resumen general del conjunto de datos

Como se mencionó anteriormente, el proyecto está enfocado en realizar un análisis del índice de desarrollo humano ajustado por desigualdad en educación para todas las regiones y así determinar cuáles son los países de cada continente que tienen una mayor inequidad educativa, para esto, se presenta un conjunto de datos con 1569 observaciones y 7 variables, de las que 3 son categóricas y el resto numéricas y enteras. Es importante mencionar que se realizó una depuración previa eliminando aquellos valores inconsistentes. Se trabaja en un periodo de 10 años entre 2010 y 2019. En la columna valor encontramos el porcentaje de desigualdad de cada país según el año. Cabe resaltar que 0% significa que no existe desigualdad, mientras que 100% traduce desigualdad total.

#Filtrar el dataframe solamente por continente Americano y Asiatico
#mapaajustado<-filter(map_2022, (region=="Americas") | (region=="Asia"))

#Crear mapa filtrado

#mapafinal <- ggplot(mapaajustado, aes(x=long, y=lat, group=as.factor(group))) + geom_polygon(aes(fill=sub.region))+scale_fill_manual(values=c("#264653ff","#2a9d8fff" ,"#e9c46aff" ,"#f4a261ff" , "#e76f51ff","#e63946ff", "#f1faeeff", "#a8dadcff", "#457b9dff", "#1d3557ff","#264653ff","#2a9d8fff" ,"#e9c46aff" ,"#f4a261ff" , "#e76f51ff","#e63946ff", "#f1faeeff", "#a8dadcff", "#457b9dff", "#1d3557ff"))

#Filtrar el dataframe solamente por continente Americano y Asiatico
#target<-filter(Educacion, (Continent=="America") | (Continent=="Asia"))

#Tipo de datos 
str(Educacion)
## 'data.frame':    1569 obs. of  7 variables:
##  $ X        : int  1 2 5 6 7 8 9 10 11 13 ...
##  $ HDI.Rank : int  169 69 148 46 81 8 18 88 58 133 ...
##  $ Country  : Factor w/ 182 levels "Afghanistan",..: 1 2 5 6 7 8 9 10 11 13 ...
##  $ ISO3     : Factor w/ 182 levels "AFG","AGO","ALB",..: 1 3 2 6 7 8 9 10 18 15 ...
##  $ variable : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ value    : num  39.3 12.7 26.2 12.1 6.5 1.7 2.4 12 7.9 44.8 ...
##  $ Continent: Factor w/ 5 levels "Africa","America",..: 3 4 1 2 3 5 4 3 2 3 ...

La estadística descriptiva nos ayuda a comprender y describir las características de un conjunto de datos. A continuación se presenta un breve resumen del dataset> índice de desarrollo humano ajustado por desigualdad en educación:

#Resumen de los datos seleccionados

summary(Educacion$value)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.70    6.30   17.10   19.99   32.20   50.10

En la tabla resumen observamos que el valor de desigualdad más bajo es de 0.7%, mientras que el más alto es de 50.1%. Asimismo, se visualiza que el promedio general de desigualdad durante los 10 años es de 19.99%. Por otro lado, la mediana es de 17.1% mostrándonos que la mitad del conjunto de datos tiene un índice superior a este valor. Sin embargo, se debe analizar más a fondo para entender la problemática real de cada país.

A continuación, se presenta el promedio de desigualdad educativa por continente mediante un gráfico de torta:

#Agrupar por paises y continentes y sacar la media de los valores

Paises  <- Educacion %>% group_by(Country, Continent) %>% summarize(Total=mean(value))

#Agrupar por continentes y sacar la media de los valores

Proporcion  <- Educacion %>% group_by(Continent) %>% summarize(Total=mean(value))


#Grafico de torta

Grafica3 <- ggplot(Proporcion,aes(x="",y=Total, fill=Continent))+
  geom_bar(stat="identity", width=1)+
  coord_polar("y", start=0)+
  geom_text(aes(label=paste(round(Proporcion$Total/sum(Proporcion$Total)*100,1),"%")),position=position_stack(vjust = 0.5))+
  theme_classic()+
  theme(plot.title = element_text(hjust=0.5),
        axis.line = element_blank(),
        axis.text = element_blank(),
        axis.ticks = element_blank()) +
  labs(fill = "Continent",
       x = NULL,
       y = NULL,
       title = "Promedio de inequidad educativa por Continente",
       subtitle = "Periodo comprendido entre 2010-2019")

    
Grafica3

Este grafico nos muestra la proporción con respecto al promedio inicial calculado por continente en un periodo de 10 años. Los continentes con mayor promedio de desigualdad educativa son Asia y África; Por otro lado, Oceanía y Europa tienen el menor promedio de inequidad. Para ver el comportamiento por año, se presenta el siguiente gráfico de caja- bigotes:

#Histograma
#Grafica1 <- ggplot(Paises,aes(x=Total))
#Grafica1 <- Grafica1 + geom_histogram(aes(y=..density..), binwidth=.5, fill="#A09D9D", position = "identity")
#Grafica1 <- Grafica1 + geom_density(alpha=.3, fill="#a5bfde")
#Grafica1 <- Grafica1 + geom_vline (aes ( xintercept = 17.1))
#Grafica1 <- Grafica1 + geom_text (x=17.3, y=0.06, label="Mediana")
#Grafica1 <- Grafica1 + labs(title = "Distribucion de inequidad educativa en el mundo", subtitle = "Periodo comprendido entre 2010-2019", x = "Porcentaje de IHDI")
#Grafica1 <- Grafica1 + theme(legend.position = "none")
#Grafica1


#Grafico de cajas

Grafica4 <- ggplot(Educacion,aes(x=Continent, y=value, fill=Continent))+
  geom_boxplot(aes(alpha=0.2))+theme(axis.text.x=element_text(angle = 45, vjust=0.5, hjust=1)) 
#Grafica4 <- Grafica4 + geom_point(aes(color=Continent), position=position_jitter(width=0.2,height=.2))
Grafica4 <-Grafica4+facet_wrap(~ variable, scales="free")+
  labs(title = "Distribución y tendencia central del IHDI")

Grafica4

En este diagrama se visualiza un comportamiento similar a lo largo de los años para cada uno de los continentes, donde África y Asia son los que tienen un mayor promedio de IHDI. Sin embargo,el diagrama caja bigotes para Asia nos permite visualizar que el percentil 0 está muy cercano al 0% de IHDI en cada uno de los años. Adicionalmente, el percentil 2 (también es llamada la mediana) se encuentra entre el 15% y 20% aproximadamente. Finalmente, se aprecia una alta variabilidad entre el conjunto de datos de Asia ya que la diferencia entre el percentil 0 y percentil 4 es bastante pronunciada, lo que indica que por un lado hay muchos países que tienen un bajo IHDI mientras que por otro lado son bastantes los que tienen un alto IHDI en el mismo continente. En África se evidencia que la mediana se encuentra alrededor del 30% para cada uno de los años y su variabilidad es relativamente baja, lo que indica que un mayor número de países tienen un alto IHDI. Cabe resaltar que el 50% de los datos se encuentran siempre entre el percentil 1 y percentil 3 corroborando que el continente más desigual en educación es África seguido de Asia y América.

De esta manera, se procede a realizar un filtro seleccionando los primeros 60 países que presentan un mayor promedio de IHDI.

# Top 60 paises con mayor indice de innequidad educativa
PaisesConMayorIndiceTopdos<- Paises[order(Paises$Total, decreasing = TRUE), ] 
PaisesConMayorIndiceTopdos<-head(PaisesConMayorIndiceTopdos,60)
PaisesConMayorIndiceTopdos
## # A tibble: 60 × 3
## # Groups:   Country [60]
##    Country       Continent Total
##    <fct>         <fct>     <dbl>
##  1 Gambia        Africa     48.1
##  2 Yemen         Asia       47.7
##  3 Sierra Leone  Africa     47.7
##  4 Comoros       Africa     47.5
##  5 Djibouti      Africa     47  
##  6 Timor-Leste   Asia       46.4
##  7 Guinea        Africa     46.0
##  8 Senegal       Africa     45.5
##  9 Morocco       Africa     45.3
## 10 CÙte d'Ivoire Africa     45.2
## # … with 50 more rows
#Grafica Dendograma

PaisesN <- scale(PaisesConMayorIndiceTopdos[ ,c(3:3) ], center=FALSE)
rownames(PaisesN) <- PaisesConMayorIndiceTopdos$Country
distancias <- dist(PaisesN)
clusters <- hclust(distancias)
grafica7 <- ggdendrogram(clusters, size=2)+
    labs(title="Dendograma segun los 60 paises de mayor IHDI")+theme(text=element_text(family="Barlow", face="bold", size=12))


grafica7

Este grafico nos muestra el nivel de similitud que tienen cada uno de los países según su inequidad educativa permitiendo realizar comparaciones entre paises de diferentes continentes. Se puede apreciar que Guatemala (America) y Tunisia (Africa) tiene una relación cercana en terminos de inequidad educativa. Por el lado de Asia y África, esta cercanía se encuentra en los países de India y Mali. A continuación, se decide realizar una nueva segmentación realizando un filtro con los 30 países que tienen un mayor promedio de IHDI.

# Top 30 paises con mayor indice de innequidad educativa
PaisesConMayorIndiceTop<- Paises[order(Paises$Total, decreasing = TRUE), ] 
PaisesConMayorIndiceTop<-head(PaisesConMayorIndiceTop,30)
PaisesConMayorIndiceTop
## # A tibble: 30 × 3
## # Groups:   Country [30]
##    Country       Continent Total
##    <fct>         <fct>     <dbl>
##  1 Gambia        Africa     48.1
##  2 Yemen         Asia       47.7
##  3 Sierra Leone  Africa     47.7
##  4 Comoros       Africa     47.5
##  5 Djibouti      Africa     47  
##  6 Timor-Leste   Asia       46.4
##  7 Guinea        Africa     46.0
##  8 Senegal       Africa     45.5
##  9 Morocco       Africa     45.3
## 10 CÙte d'Ivoire Africa     45.2
## # … with 20 more rows
#Grafico de barras

Grafica2 <- ggplot(PaisesConMayorIndiceTop,aes(x=reorder(Country, Total), y=Total))
Grafica2 <- Grafica2 + geom_bar(stat = "identity")
Grafica2<-Grafica2 + theme(axis.text.x = element_text(angle = 90, size=7))
Grafica2 <- Grafica2 + labs(title = "Promedio del coeficiente de desigualdad humana en educación  entre 2010-2019", subtitle = "Top 30 de países con mayor coeficiente ", y = "Porcentaje de IDHI", x="Países")
Grafica2

El grafico de barras nos presenta 30 países con mayor promedio de IHDI de los cuales: 6 son asiáticos, 1 americano y 23 africanos. Evidentemente, el continente africano es quien presenta un mayor impacto en desigualdad educativa a nivel global aportando un mayor número de países en el top 30.

A continuación, se realiza un nuevo filtro incluyendo los 150 países con mayor promedio de IHDI. Esto se hace con la finalidad de poder incluir países Europeos dentro de la muestra.

# 150 paises con mayor indice de innequidad educativa
PaisesConMayorIndice<- Paises[order(Paises$Total, decreasing = TRUE), ] 
PaisesConMayorIndice<-head(PaisesConMayorIndice,150)
PaisesConMayorIndice
## # A tibble: 150 × 3
## # Groups:   Country [150]
##    Country       Continent Total
##    <fct>         <fct>     <dbl>
##  1 Gambia        Africa     48.1
##  2 Yemen         Asia       47.7
##  3 Sierra Leone  Africa     47.7
##  4 Comoros       Africa     47.5
##  5 Djibouti      Africa     47  
##  6 Timor-Leste   Asia       46.4
##  7 Guinea        Africa     46.0
##  8 Senegal       Africa     45.5
##  9 Morocco       Africa     45.3
## 10 CÙte d'Ivoire Africa     45.2
## # … with 140 more rows

El siguiente conjunto de graficas tiene como objetivo presentar de diferentes formas el comportamiento de los 5 países que tienen mayor promedio de IHDI según cada continente en un periodo de 10 años.

Los 5 paises con mayor IHDI son:

  1. Gambia (África)
  2. Haití (América)
  3. Solomon Islands (Oceanía)
  4. Turkey (Europa)
  5. Yemen (Asia)
#Filtrar el dataframe solamente por paises con mayor DHI
PaisesConMayorDHI<-filter(Educacion, (Country=="Gambia") | (Country=="Yemen")| (Country=="Haiti")| (Country=="Solomon Islands")| (Country=="Turkey"))


Grafico10 <- ggplot(PaisesConMayorDHI, aes(x=variable, y = value, fill = Country)) + 
  geom_bar(stat = "identity") +
  labs(subtitle="Periodo comprendido entre 2010 y 2019", 
       y="IHDI", 
       x="Año", 
       title="Paises con mayor IHDI por continente")

Grafico10

El grafico de columnas apiladas nos muestra que Gambia, Yemen y Haiti presentan una alta inequidad educativa. Asimismo, se muestre que entre 2011 y 2016 no se presentan datos reportados de Gambia. Mientras que por el lado de Solomon Islands, no se presentan registros en los anos 2011,2012,2016,2017,2018,2019. Para efectos del proyecto se decide que Turquia se encuentra unicamente en el continente Europeo.

#Generar nueva columna con promedios

Proporcion$Promedio <- Proporcion$Total/sum(Proporcion$Total)
Proporcion$Promedio <- Proporcion$Promedio*100
Proporcion$PromedioRedondeado <- round(Proporcion$Promedio, digits=0)
Proporcion$PromedioRedondeado <- paste0(Proporcion$PromedioRedondeado,"%")



#DataFrame con paises con mas alto DHI por continente
PeoresPaises <- PaisesConMayorIndice %>% group_by(Continent) %>% filter(Total == max(Total, na.rm=TRUE))

#Grafico de lineas

Grafica8<-ggplot(PaisesConMayorDHI, aes(x=variable, y=value, group=Country)) +
  geom_line(aes(color=Country))+
  geom_point(aes(color=Country))+
  labs(subtitle="Periodo comprendido entre 2010 y 2019", 
       y="IHDI", 
       x="Año", 
       title="Paises con mayor IHDI por continente")
Grafica8

El grafico de líneas nos muestra que Gambia viene presentando un incremento en el IHDI ocupando la primera posición en el 2019. Por el lado de América, se aprecia que Haití presenta un comportamiento constante durante los 10 años. Mientras que, por Europa, se ve que Turquía tiene un leve pico en el año 2018, sin embargo, en términos generales ha mantenido un IHDI relativamente bajo siendo el país con menor inequidad del grupo de mayor inequidad por continente.

#Streamplot

Grafica9 <- ggplot(PaisesConMayorDHI, aes(x = variable, y = value, fill = Country)) +
  geom_stream() +
  geom_stream_label(aes(label = Country))+
  labs(subtitle="Periodo comprendido entre 2010 y 2019", 
       y="IHDI", 
       x="Año", 
       title="Paises con mayor IHDI por continente")

Grafica9

Este grafico es un poco similar al de columnas apiladas, donde podemos visualizar el área de cada país y así identificar los de mayor IHDI. Se corrobora una diferencia marcada entre los datos de 2 continentes y los demás. Definitivamente Oceanía y Europa presentan un menos IDHI que el resto de los continentes.

#Mapa de Calor
heatmap <- ggplot(PaisesConMayorDHI,aes(x=Country, y=variable, fill=value)) 
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma", limits = c(0,50))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "IHDI ", subtitle = "Periodo comprendido entre 2010-2019", caption = "Source: UN", x = "País", y="Año")
heatmap

En el mapa de calor se ve una forma clara los años donde los países no reportaron registros y es otra perspectiva para poder visualizar el porcentaje de IHDI según la intensidad del color, siendo amarillo claro muy alto y negro muy bajo.

# Grafico Scatterplot

PaisesConMayorDHI_select <- PaisesConMayorDHI[PaisesConMayorDHI$value > 45 & 
                            PaisesConMayorDHI$value <= 50 & 
                            PaisesConMayorDHI$value > 45 & 
                            PaisesConMayorDHI$value < 50, ]



gg <- ggplot(PaisesConMayorDHI, aes(x=value, y=variable)) + 
  geom_point(aes(col=Country, size=value)) + 
  geom_smooth(method="loess", se=F) + 
  xlim(c(5, 50)) + 
  ylim(c(2010, 2019)) + 
  labs(subtitle="IHDI Vs años", 
       y="año", 
       x="IHDI", 
       title="Comportamiento del HDI a través de los anos con base a los 5 países seleccionados")+
  theme(text=element_text(family="Barlow", face="bold", size=12))+
  geom_encircle(aes(x=value, y=variable), 
                data=PaisesConMayorDHI_select, 
                color="red", 
                size=2, 
                expand=0.08)
gg

En este último grafico se hace una selección para identificar los valores más altos durante la década. Por otro lado, el tamaño del círculo indica la magnitud del IHDI según cada país.

Conclusión

La desigualdad educativa se encuentra concentrada principalmente en tres continentes: África, Asia y América. Sin embargo, entre África y Asia existe una diferencia porcentual del 13%. Los países que generan mayor preocupación son: Gambia, Yemen y Sierra Leone. Por el lado del continente americano se debe prestar atención a Haití. Se espera actualizar la información con los últimos años para ver el impacto que genero la pandemia en términos de inequidad educativa.