Proyecto Final

Pregunta o reto a resolver: ¿El comportamiento del índice de desarrollo humano entre los años 2010 y 2017 es diferente para los paises de latinoamerica comparado con paises desarrollados de norteamerica (EE.UU y Canada)?

Se procederá a trabajar con las bases de datos de los índices ajustados, en donde, teóricamente se puede conocer la relación intrínseca del IDH con lo demás indicadores, salud, educación e ingresos, a partir de los cuales se mide el desarrollo de un territorio.

El IHDI da cuenta de la distribución de los logros de un país en las tres dimensiones entre su población las cuales son: i) esperanza de vida (salud), ii) educación e iii) ingresos. Esto es, en otras palabras, qué tan grande es la brecha de desigualdad entre los que disfrutan de los desarrollos más altos y los que tienen los logros más bajos en un determinado período o país. Con este contexto previo, se busca conocer la diferencia en el nivel de educación con el índice de desarrollo humano entre los países latinoamericanos y paises desarrollados de america, USA y Canadá. Para este caso, se validará gráficamente como se comporta esta tasa en el continente americano haciendo la clasificación entre países de habla hispana Vs. Estados Unidos Y Canadá, conocidos mundialmente por ser potencias.

Cargar datos

library("dplyr")
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library("ggplot2")
hdi_data <- read.csv("Adjusted_HDI.csv", sep = ";", dec=",")
hdi_data$dimension <- as.factor(hdi_data$dimension)
hdi_data$indicator_name <- as.factor(hdi_data$indicator_name)
hdi_data$iso3 <- as.factor(hdi_data$iso3)
hdi_data$country_name = as.factor(hdi_data$country_name)
hdi_data$year <- as.integer(gsub("X", "", hdi_data$year))
colnames(hdi_data)[9] = "HDI_value"


hdi_data_american <- subset(hdi_data, hdi_data$Continent==7 | hdi_data$Continent==5)
hdi_data_american[,"Grupo"] = "Latinoamerica"
hdi_data_american[hdi_data_american$iso3=="CAN" | hdi_data_american$iso3=="USA","Grupo"] = "CAN y USA"
hdi_data_american$Grupo = as.factor(hdi_data_american$Grupo)
head(hdi_data_american)
##        X  dimension indicator_id                 indicator_name iso3
## 3  41618 Inequality       138806 Inequality-adjusted HDI (IHDI)  ARG
## 8  41623 Inequality       138806 Inequality-adjusted HDI (IHDI)  BHS
## 12 41628 Inequality       138806 Inequality-adjusted HDI (IHDI)  BLZ
## 14 41631 Inequality       138806 Inequality-adjusted HDI (IHDI)  BOL
## 16 41634 Inequality       138806 Inequality-adjusted HDI (IHDI)  BRA
## 22 41641 Inequality       138806 Inequality-adjusted HDI (IHDI)  CAN
##                        country_name Continent year HDI_value         Grupo
## 3                         Argentina         7 2010     0.653 Latinoamerica
## 8                           Bahamas         5 2010     0.676 Latinoamerica
## 12                           Belize         5 2010     0.498 Latinoamerica
## 14 Bolivia (Plurinational State of)         7 2010     0.402 Latinoamerica
## 16                           Brazil         7 2010     0.529 Latinoamerica
## 22                           Canada         5 2010     0.824     CAN y USA
str(hdi_data_american)
## 'data.frame':    211 obs. of  10 variables:
##  $ X             : int  41618 41623 41628 41631 41634 41641 41644 41646 41650 41657 ...
##  $ dimension     : Factor w/ 1 level "Inequality": 1 1 1 1 1 1 1 1 1 1 ...
##  $ indicator_id  : int  138806 138806 138806 138806 138806 138806 138806 138806 138806 138806 ...
##  $ indicator_name: Factor w/ 1 level "Inequality-adjusted HDI (IHDI)": 1 1 1 1 1 1 1 1 1 1 ...
##  $ iso3          : Factor w/ 164 levels "AFG","AGO","ALB",..: 4 15 18 19 20 25 27 33 36 42 ...
##  $ country_name  : Factor w/ 164 levels "Afghanistan",..: 5 10 15 18 21 29 32 34 38 44 ...
##  $ Continent     : int  7 5 5 7 7 5 7 7 5 5 ...
##  $ year          : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ HDI_value     : num  0.653 0.676 0.498 0.402 0.529 0.824 0.655 0.513 0.599 0.528 ...
##  $ Grupo         : Factor w/ 2 levels "CAN y USA","Latinoamerica": 2 2 2 2 2 1 2 2 2 2 ...
summary(hdi_data_american)
##        X              dimension    indicator_id   
##  Min.   :41618   Inequality:211   Min.   :138806  
##  1st Qu.:44717                    1st Qu.:138806  
##  Median :49687                    Median :138806  
##  Mean   :48809                    Mean   :138806  
##  3rd Qu.:53707                    3rd Qu.:138806  
##  Max.   :55871                    Max.   :138806  
##                                                   
##                         indicator_name      iso3    
##  Inequality-adjusted HDI (IHDI):211    ARG    :  8  
##                                        BOL    :  8  
##                                        BRA    :  8  
##                                        CAN    :  8  
##                                        CHL    :  8  
##                                        COL    :  8  
##                                        (Other):163  
##                            country_name   Continent        year     
##  Argentina                       :  8   Min.   :5.0   Min.   :2010  
##  Bolivia (Plurinational State of):  8   1st Qu.:5.0   1st Qu.:2012  
##  Brazil                          :  8   Median :5.0   Median :2014  
##  Canada                          :  8   Mean   :5.9   Mean   :2014  
##  Chile                           :  8   3rd Qu.:7.0   3rd Qu.:2016  
##  Colombia                        :  8   Max.   :7.0   Max.   :2017  
##  (Other)                         :163                               
##    HDI_value                Grupo    
##  Min.   :0.2780   CAN y USA    : 16  
##  1st Qu.:0.5165   Latinoamerica:195  
##  Median :0.5710                      
##  Mean   :0.5743                      
##  3rd Qu.:0.6400                      
##  Max.   :0.8520                      
## 

Resumen Descriptivo

Inicialmente, se validan los indicadores de tendencia central de esta variable (IDH) donde se observan valores extremos entre 0.2780 y 0.8520, de aquí que también se logra evidenciar que el 25% de los países tienen valores por encima de 0.64 para este indicador, mientras que el 50% son iguales o inferiores a 0.5710

summary(hdi_data_american$HDI_value)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2780  0.5165  0.5710  0.5743  0.6400  0.8520

Se realiza un gráfico de densidad superpuesto a un histograma que permita validar lo antes encontrado en los indicadores de tendencia central, y se hace muy notorio que la mayoría de los datos de los países que conforman el continente americano están concentrados alrededor de la cifra 0.57. También es importante resaltar que hay valores superiores a 0.80 que resaltan en contraste con el comportamiento de los datos.

densidadPlot <- ggplot(hdi_data_american,aes(x=HDI_value))
densidadPlot <- densidadPlot + geom_histogram(aes(y=..density..), binwidth=0.05,colour="black", fill="#f2f0f7")
densidadPlot <- densidadPlot + geom_density(alpha=.3, fill="#FF6666")
densidadPlot <- densidadPlot + geom_vline (aes ( xintercept = 0.5165, color = 'red'))
densidadPlot <- densidadPlot + geom_text (x=0.52, y=4.9, label="Promedio total (0.52)")
densidadPlot <- densidadPlot + 
                labs(title = "Distribución Global de Índice de Desarrollo Humano de 2010-2017",
                         x = "Índice de Desarrollo Humano")
densidadPlot <- densidadPlot + theme(legend.position = "none")
densidadPlot

Realizando el mismo ejercicio de conocer el comportamiento de este indicador para la clasificación de los grupos previamente establecidos, se observa un comportamiento que resalta y permite generar hallazgos de valor para la investigación propuesta, de aquí que, Estados unidos y Canadá evidentemente presentan un comportamiento superior respecto a Latinoamérica, por lo que permite pensar que el 25% de los datos superiores a 0.64% están conformados por estos, y es acorde a las condiciones económicas de ambos países, que son conocidos como potencias dentro del continente americano.

densidadRegionPlot <- ggplot(hdi_data_american,aes(x=HDI_value))
densidadRegionPlot <- densidadRegionPlot + geom_histogram(aes(y=..density..), binwidth=.05,colour="black", fill="white")
densidadRegionPlot <- densidadRegionPlot + geom_density(alpha=.2, fill="#FF6666")
densidadRegionPlot <- densidadRegionPlot + geom_vline (aes ( xintercept = 0.5165, color = 'red'))
densidadRegionPlot <- densidadRegionPlot + geom_text (x=0.52, y=0.3, label="global median")
densidadRegionPlot <- densidadRegionPlot + facet_grid(as.character(Grupo)~.)
densidadRegionPlot <- densidadRegionPlot + 
                      labs(title = "Distribución Global de Índice de Desarrollo Humano por Región de 2010-2017",
                       caption = " 1: USA y Canadá, 2: Latinoamerica",x = "Índice de Desarrollo Humano")
densidadRegionPlot <- densidadRegionPlot + theme(legend.position = "none")
densidadRegionPlot

Ahora bien, a través de un grafico de cajas y alambres, se quiere observar como a través de medidas de posición gráficas, se comportan ambos grupos bajo el mismo indicador, donde nuevamente es evidente la diferencia en cuanto al valor del indicador se refiere, pues, el IDH de Estados Unidos y Canadá se encuentran ubicados por encima del 75% de los datos para Latinoamérica, y adicionalmente, los valores alcanzados por Latinoamérica no superan los registrados en estos países, por lo cual se logra evidenciar la brecha existente entre un grupo y otro.

distri <- ggplot(hdi_data_american, aes(x=Grupo, y=HDI_value, group = Grupo))
distri <- distri + geom_point(aes(color=Grupo), position=position_jitter(width=0.2,height=.2))
distri <- distri + geom_boxplot(aes(alpha=0.2))
distri <- distri + scale_color_manual(values = c("#596791" ,"#ca3355", "#acc11d", "#3b5c5d", "#f1e943", "#4146ca", "#e8737b", "#251141"))
distri <- distri + labs(title = "Distribución Global de Índice de Desarrollo Humano por Región de 2010-2017",
           caption = "1: USA y Canadá, 2: Latinoamerica", x = "Índice de Desarrollo Humano")
distri <- distri + theme(legend.position = "none")
distri

Ahora bien, sintetizando la información a partir de medidas de resumen como la media, se realiza un resumen del comportamiento de cada uno de los países que componen cada grupo para consolidarlo en una única cifra anual, donde nuevamente, es observable la clara diferencia entre ambos grupos considerados en este estudio, y la distancia entre ambas rectas es significativa, respecto a los anteriores gráficos por lo que se evidencia que en Latinoamérica hay algunos países que sobresalen a nivel de calidad de desarrollo pero la gran mayoría presentan indicadores muy bajos que jalonan el comportamiento global para este segmento, de aquí que, Estados Unidos y Canadá por lo que se puede concluir que estos tienen desarrollos mas altos respecto a Latinoamérica.

data_group <- group_by(hdi_data_american[,c("year","HDI_value","Grupo")], year,Grupo,
            label="Región")
promedioRegion <- summarise_all(data_group,mean)
line <- ggplot(promedioRegion, aes(x=year, y=HDI_value, group=Grupo,
            color=Grupo, label="Región"))
line <- line + geom_line()
line <- line + labs(title = "Evolución de Índice de Desarrollo Humano por Región de 2010-2017",
           x = "Índice de Desarrollo Humano",
           color ="Región")
line

Ahora con el grafico de barras por faceta, es fácilmente identificable que los países con indicadores mas altos son Cada y USA, y los países de Latinoamérica con indicadores más bajos son Haiti y Cuba. En el resto de los países latinoamericano se observa un comportamiento medio-bajo.

chart <- ggplot(hdi_data_american, aes(x=year, y=HDI_value, fill=HDI_value))
chart <- chart + geom_col()
chart <- chart + facet_wrap(.~iso3)
chart <- chart + scale_fill_viridis_c(option="plasma") 
chart <- chart + labs(title = "Índice de Desarrollo Humano por Región",
          x = "Año", y ="Valor", color="IDH") 
chart <- chart + theme(axis.text.x = element_text(angle = 90))
chart

Ahora, en el gráfico de barras por años clasificado por grupos es identificable que los indicadores mas altos siempre se han observado en el segmento Estados Unidos y Canada, y que en general, la tendencia de decrecimiento marcada en el año 2012 se sostuvo para todos, conservando de igual manera al alza en el indicador, como todos los años.

hist <- ggplot(hdi_data_american, aes(x=year, y=HDI_value, fill=Grupo))
hist <- hist + geom_bar(stat="identity")
hist <- hist + labs(title = "Índice de Desarrollo Humano por Región",
          x = "Año", y ="Valor", color="IDH") 
hist

A través del grafico de calor, nuevamente resalta el comportamiento observado a lo largo del informe, donde Estados Unidos y Canada para todos los años, respecto a los demás países tuvieron un comportamiento en el indicador alto, mientras que los países de Latinoamérica se ven opacados por Guatemala, Honduras, Haiti y Cuba.

heatmap <- ggplot(hdi_data_american, aes(x=iso3, y=year, fill=HDI_value)) 
heatmap <- heatmap + geom_tile()
heatmap <- heatmap + scale_fill_viridis_c(option="magma",limits = c(0,1))
heatmap <- heatmap + theme(axis.text.x = element_text(angle = 90))
heatmap <- heatmap + labs(title = "Índice de Desarrollo Humano en América por País",
           subtitle = "Desde 2010-2017", x = "País", y="Año", color="IDH")
heatmap

Por último, mediante un gráfico de densidad, donde se superponen los comportamientos de este indicador para los grupos clasificados previamente para propósitos de este estudio, nuevamente se revela que Estados Unidos y Canadá, tienen una ventaja en cuanto a este indicador respecto a los países de habla hispana, por lo que el desarrollo es mas marcado en este grupo.

plot <- ggplot(hdi_data_american, aes(x=HDI_value, fill=Grupo, color=Grupo))
plot <- plot + geom_density(alpha=.3)
plot <- plot + scale_fill_brewer(type = "qual", palette = "Set1")
plot <- plot + scale_color_brewer(type = "qual", palette = "Set1")
plot <- plot + labs(title = "HDI en Latinoamerica Vs. Usa y Canadá", subtitle = "Desde 2010-2017",
          x = "Índice Desarrollo Humano", y="Densidad", color="Región")
plot

Conclusión

En conclusión, con los datos suministrados es posible evidenciar la brecha existente a nivel de desarrollo entre países de un mismo continente, y se confirman a través de los gráficos analizados a lo largo del informe la información social extendida sobre los países potencias, de los cuales se espera condiciones de vida mucho más altas.