Transiciones de situación.
En esta clase veremos un ejemplo de trabajo con datos de Panel. El ejercicio consiste en identificar a cada Individuo según su pertenencia a las categorías: Indigente, Pobre y No Pobre, en dos períodos consecutivos.
Es importante aclarar que los resultado no van a ser los mismos que los publicados, porque el calculo oficial se hace en una base semestral, mientras que este cálculo es una aproximación, en base trimestral.
Comenzamos limpiando la memoria y creando los directorios
rm(list=ls())
dir <- paste0(dirname(rstudioapi::getActiveDocumentContext()$path),"/")
bases.dir <- paste0(dirname(dir),"/Fuentes/")
resultados.dir <- paste0(dirname(dir),"/Resultados/")
Para el tipo especial de gráficos, utilizamos el paquete alluvial
library(alluvial, warn=FALSE)
library(tidyverse, warn=FALSE)
library(readxl, warn=FALSE)
library(questionr, warn=FALSE)
Levantamos las Bases Individuales de 2 trimestres consecutivos.
A su vez levantamos fuentes secundarias con información de la canasta alimentaria y la canasta total, categorías de Adulto equivalente, y códigos de regiones y aglomerados.
La información de estas tablas la podemos sacar del comunicado de pobreza.
individual.316 <- read.table(paste0(bases.dir, "usu_individual_t316.txt"), sep=";", dec=",", header = TRUE, fill = TRUE)
individual.416 <- read.table(paste0(bases.dir, "usu_individual_t416.txt"), sep=";", dec=",", header = TRUE, fill = TRUE)
Adequi <- read_excel(paste0(bases.dir,"ADEQUI.xls"))
Adequi
CBA <- read_excel(paste0(bases.dir,"CANASTAS.xls"),sheet = "CBA")
CBA
CBT <- read_excel(paste0(bases.dir,"CANASTAS.xls"),sheet = "CBT")
CBT
dic.regiones <- read_excel(paste0(bases.dir,'Regiones.xlsx'))
dic.regiones
Canastas Trimestrales por Region
A partir de los datos mensuales de la Canasta Básica Alimentaria y Total publicados por INDEC, calculamos un valor trimestral de ambas canastas, para un Adulto Equivalente perteneciente a cada una de las regiones.
CBA$Canasta <- 'CBA'
CBT$Canasta <- 'CBT'
Canasta <- bind_rows(CBA,CBT) %>%
gather(.,Region, Valor, c(3:(ncol(.)-1) )) %>%
mutate(Trimestre = case_when(Mes %in% c(1:3) ~1,
Mes %in% c(4:6) ~2,
Mes %in% c(7:9) ~3,
Mes %in% c(10:12) ~4),
Periodo = paste(Año, Trimestre, sep='.')) %>%
group_by(Canasta, Region, Periodo) %>%
summarise(Valor = mean(Valor)) %>%
spread(., Canasta,Valor) %>%
left_join(., dic.regiones, by = "Region") %>%
ungroup() %>%
select(-Region)
package 㤼㸱bindrcpp㤼㸲 was built under R version 3.4.1
Canasta
Armamos un vector que contiene las variables relevantes para el ejercicio. Para luego seleccionar de la tabla solo las mismas.
var.ind <- c('CODUSU', 'ANO4','TRIMESTRE','NRO_HOGAR','COMPONENTE','REGION',
'AGLOMERADO', 'PONDERA', 'CH04', 'CH06', 'ITF', 'PONDIH','P21')
Calculo de las Unidades de Adulto Equivalente por hogar, en la base Individual
- Chequeamos la consistencia entre los individuos entre un período y otro. Para ello utilizamos la función lead para observar las características de los individuos en en t+1.
- Incorporamos a cada registro de nuestra base la Unidad de Adulto Equivalente (UAE) correspondiente, matcheando las columnas de Edad (CH06) y género (CH04) mediante la función left_join.
- Utilizamos la función group_by para calcular el total de UAE por hogar. Notesé que al usar la función mutate creamos una nueva columna, permitiendo conservar la dimensión individual de la base.
- En base a las UAE del hogar al que pertenece cada individuo calculamos el valor de las canastas que delimitan las lineas de pobreza e indigencia correspondientes.
- Realizamos la comparación lógica entre el Ingreso Total Familiar y las Canastas calculadas para asignar a cada individuo su “situación” mediante la función case_when.
Pobreza_Individual <- bind_rows(individual.316 %>%
select(var.ind),
individual.416 %>%
select(var.ind)) %>%
mutate(Periodo = paste(ANO4, TRIMESTRE, sep='.')) %>%
group_by(CODUSU,NRO_HOGAR,COMPONENTE) %>%
mutate(CH06_Diff = abs(lead(CH06) - CH06)<3,
CH04_Diff = lead(CH04==CH04),
Consistencia= ifelse((CH06_Diff & CH04_Diff)== FALSE,
"inconsistente","consistente")) %>%
ungroup() %>%
left_join(., Adequi, by = c("CH04", "CH06")) %>%
group_by(CODUSU, NRO_HOGAR, Periodo) %>%
mutate(Adequi_hogar = sum(adequi)) %>%
ungroup() %>%
left_join(., Canasta, by = c("REGION", "Periodo")) %>%
mutate(CBA = CBA*Adequi_hogar,
CBT = CBT*Adequi_hogar,
Situacion = case_when(ITF<CBA ~ 'Indigente',
ITF>=CBA & ITF<CBT ~ 'Pobre',
ITF>=CBT ~ 'No.Pobre'))
Pobreza_Individual
Armado de Paneles
Dada la estructura de rotación de la muestra de la EPH, solo la mitad de los hogares permanece en la muestra en dos trimestres consecutivos. Por ende identificamos a aquellos hogares que entraron en ambas muestras. Para eso, utilizamos las función lag (lead) que sirve para obtener el valor anterior (posterior) de una variable en el Dataframe. Al estar trabajando de manera agrupada por hogar, podemos chequear si existe un valor con determinado CODUSU en el período siguiente o no.
Una vez identificados los hogares que permanecen en la muestra, con la función lead podemos crear una variable de Situación_t1.
Panel_Ind <- Pobreza_Individual %>%
filter(PONDIH>0) %>%
#Si no saco estos me queda gente que en alguno de los dos periodos no respondio ingresos y distorsiona todo
group_by(CODUSU, NRO_HOGAR, COMPONENTE) %>%
arrange(Periodo) %>%
mutate(Cod.Panel = as.factor(ifelse(!is.na(lead(Periodo)),1,0)),
Situacion_t1 = lead(Situacion)) %>%
filter(Cod.Panel == 1,Consistencia=="consistente")
Panel_Ind
Cálculo de Tasas de Pobreza e Indigencia - Base completa y Panel
Pobreza_resumen <- Pobreza_Individual %>%
group_by(Periodo) %>%
summarise(Tasa_pobreza = sum(PONDIH[Situacion %in% c('Pobre', 'Indigente')],na.rm = TRUE)/
sum(PONDIH,na.rm = TRUE),
Tasa_indigencia = sum(PONDIH[Situacion == 'Indigente'],na.rm = TRUE)/
sum(PONDIH,na.rm = TRUE))
Pobreza_resumen
Pobreza.panel <- Panel_Ind %>%
group_by(Periodo) %>%
summarise(Tasa_pobreza = sum(PONDIH[Situacion %in% c('Pobre', 'Indigente')],na.rm = TRUE)/
sum(PONDIH,na.rm = TRUE),
Tasa_indigencia = sum(PONDIH[Situacion == 'Indigente'],na.rm = TRUE)/
sum(PONDIH,na.rm = TRUE))
Pobreza.panel
Grafico de Transición
Para realizar el gráfico de transición, utilizaremos el paquete alluvial, con la función homónima.
Para ello debemos construir un Dataframe que contenga la cantidad de casos observado para cada posible transición. Utilizamos el Ponderador de Ingresos (PONDIH).
Adicionalmente, reescribimos como factores a las variables de Situación, para ordenar su aparición en el gráfico.
datos.alluvial <- Panel_Ind %>%
group_by(Situacion,Situacion_t1, REGION) %>%
summarise(frecuencia = sum(PONDIH),
n_muestral = n()) %>%
left_join(.,dic.regiones, by= "REGION") %>%
arrange(REGION)
datos.alluvial$Situacion <- factor(datos.alluvial$Situacion, levels =
c("No.Pobre","Pobre","Indigente"))
datos.alluvial$Situacion_t1 <- factor(datos.alluvial$Situacion_t1, levels =
c("No.Pobre","Pobre","Indigente"))
datos.alluvial
Loop de Gráficos
- Con la función pdf(generamos un archivo “.pdf” en la dirección y nombre especificados)
- Realizamos un loop por aglomerado para ir armando los gráficos.
- Filtramos iterativamente nuestra tabla a graficar según el aglomerado en curso y creamos un vector con el nombre del mismo.
- Especificamos un vector de colores en función de las posibles transiciones.
- Realizamos el gráfico con las especificaciones de data, color y tamaño.
- Con
dev.off() cerramos el archivo .pdf
# pdf(paste(resultados.dir, "Transiciones de Situación - Regiones - t316-t416.pdf", sep = ""), onefile = T)
for(Reg in unique(datos.alluvial$REGION)){
data.Reg <- datos.alluvial %>% filter(REGION == Reg)
tmp.nom <- dic.regiones$Region[dic.regiones$REGION==Reg]
colores <- ifelse(data.Reg$Situacion==data.Reg$Situacion_t1,"gray90",
ifelse(data.Reg$Situacion_t1=="Indigente","firebrick1",
ifelse(data.Reg$Situacion_t1 == 'Pobre','goldenrod1',
ifelse(data.Reg$Situacion_t1 == 'No.Pobre','chartreuse2','red'))))
transiciones <- alluvial(data.Reg[,c(1:2)], freq=data.Reg$frecuencia, border=NA,
col = colores, cex=0.75, xw=.15)
mtext(paste0('Region: ',tmp.nom), 3, line=3, font=2)
paste(Sys.time(),tmp.nom)
}






# dev.off()
---
title: "Clase 4. Datos en Panel - Transiciones de Situación por Hogar."
author: "Natsumi Shokida, Gudio Weksler y Diego Kozlowski"
date: "27 de Octubre de 2017"
output:
  html_notebook: 
    toc: true
    toc_float: true 
---

# Transiciones de situación. 

En esta clase veremos un ejemplo de trabajo con datos de Panel. El ejercicio consiste en identificar a cada Individuo según su pertenencia a las categorías: _Indigente_, _Pobre_ y _No Pobre_, en dos períodos consecutivos.      
Es importante aclarar que los resultado no van a ser los mismos que los publicados, porque el calculo oficial se hace en una base semestral, mientras que este cálculo es una aproximación, en base trimestral.

 
Comenzamos limpiando la memoria y creando los directorios

```{r, warning=FALSE}
rm(list=ls())

dir <- paste0(dirname(rstudioapi::getActiveDocumentContext()$path),"/")
bases.dir      <-  paste0(dirname(dir),"/Fuentes/")
resultados.dir <- paste0(dirname(dir),"/Resultados/")
```

Para el tipo especial de gráficos, utilizamos el paquete _alluvial_

```{r}
library(alluvial, warn = FALSE)
library(tidyverse, warn = FALSE)
library(readxl, warn = FALSE)
library(questionr, warn = FALSE)
```

Levantamos las Bases Individuales de 2 trimestres consecutivos.       
A su vez levantamos fuentes secundarias con información de la canasta alimentaria y la canasta total, categorías de Adulto equivalente, y códigos de regiones y aglomerados.     
La información de estas tablas la podemos sacar del [comunicado de pobreza](http://www.indec.gob.ar/uploads/informesdeprensa/eph_pobreza_02_16.pdf).


```{r}
individual.316 <- read.table(paste0(bases.dir, "usu_individual_t316.txt"), sep=";", dec=",", header = TRUE, fill = TRUE)
individual.416 <- read.table(paste0(bases.dir, "usu_individual_t416.txt"), sep=";", dec=",", header = TRUE, fill = TRUE)


Adequi <- read_excel(paste0(bases.dir,"ADEQUI.xls"))
Adequi
CBA <- read_excel(paste0(bases.dir,"CANASTAS.xls"),sheet = "CBA")
CBA
CBT <- read_excel(paste0(bases.dir,"CANASTAS.xls"),sheet = "CBT")
CBT
dic.regiones <- read_excel(paste0(bases.dir,'Regiones.xlsx'))
dic.regiones
```

## Canastas Trimestrales por Region

A partir de los datos mensuales de la Canasta Básica Alimentaria y Total publicados por INDEC, calculamos un valor trimestral de ambas canastas, para un Adulto Equivalente perteneciente a cada una de las regiones.

```{r}
CBA$Canasta <- 'CBA'
CBT$Canasta <- 'CBT'
Canasta <- bind_rows(CBA,CBT)                            %>% 
  gather(.,Region, Valor, c(3:(ncol(.)-1) ))             %>%
  mutate(Trimestre = case_when(Mes %in% c(1:3)   ~1,
                               Mes %in% c(4:6)   ~2,
                               Mes %in% c(7:9)   ~3,
                               Mes %in% c(10:12) ~4),
         Periodo = paste(Año, Trimestre, sep='.'))       %>% 
  group_by(Canasta, Region, Periodo)                     %>% 
  summarise(Valor = mean(Valor))                         %>% 
  spread(., Canasta,Valor)                               %>% 
  left_join(., dic.regiones, by = "Region")              %>% 
  ungroup()                                              %>% 
  select(-Region)
Canasta
```

Armamos un vector que contiene las variables relevantes para el ejercicio. Para luego seleccionar de la tabla solo las mismas.
```{r}

var.ind <- c('CODUSU', 'ANO4','TRIMESTRE','NRO_HOGAR','COMPONENTE','REGION',
             'AGLOMERADO', 'PONDERA', 'CH04', 'CH06', 'ITF', 'PONDIH','P21')
```

##Calculo de las Unidades de Adulto Equivalente por hogar, en la base Individual

1. Chequeamos la consistencia entre los individuos entre un período y otro. Para ello utilizamos la función __lead__ para observar las características de los individuos en en t+1.          
2. Incorporamos a cada registro de nuestra base la Unidad de Adulto Equivalente (UAE) correspondiente, matcheando las columnas de Edad (CH06) y género (CH04) mediante la función __left_join__.            
3. Utilizamos la función __group_by__ para calcular el total de UAE por hogar. Notesé que al usar la función __mutate__ creamos una nueva columna, permitiendo conservar la dimensión individual de la base.              
4. En base a las UAE del hogar al que pertenece cada individuo calculamos el valor de las canastas que delimitan las lineas de pobreza e indigencia correspondientes.  
5. Realizamos la comparación lógica entre el Ingreso Total Familiar y las Canastas calculadas para asignar a cada individuo su "situación" mediante la función __case_when__.  

```{r, warning=FALSE}
Pobreza_Individual <- bind_rows(individual.316        %>% 
                          select(var.ind),
                        individual.416                %>% 
                          select(var.ind))                      %>% 
  mutate(Periodo = paste(ANO4, TRIMESTRE, sep='.'))             %>% 
  group_by(CODUSU,NRO_HOGAR,COMPONENTE)                         %>% 
  mutate(CH06_Diff   = abs(lead(CH06) - CH06)<3,
         CH04_Diff   = lead(CH04==CH04),
         Consistencia=  ifelse((CH06_Diff & CH04_Diff)== FALSE,
                               "inconsistente","consistente"))  %>%  
  ungroup()                                                     %>% 
  left_join(., Adequi, by = c("CH04", "CH06"))                  %>%  
  group_by(CODUSU, NRO_HOGAR, Periodo)                          %>% 
  mutate(Adequi_hogar = sum(adequi))                            %>%
  ungroup()                                                     %>% 
  left_join(., Canasta, by = c("REGION", "Periodo"))            %>% 
  mutate(CBA = CBA*Adequi_hogar,
         CBT = CBT*Adequi_hogar,
         Situacion = case_when(ITF<CBA            ~ 'Indigente',
                               ITF>=CBA & ITF<CBT ~ 'Pobre',
                               ITF>=CBT           ~ 'No.Pobre'))  

Pobreza_Individual
```

## Armado de Paneles

Dada la estructura de rotación de la muestra de la EPH, solo la mitad de los hogares permanece en la muestra en dos trimestres consecutivos. Por ende identificamos a aquellos hogares que entraron en ambas muestras. Para eso, utilizamos las función __lag__ __(lead)__ que sirve para obtener el valor anterior (posterior) de una variable en el Dataframe. Al estar trabajando de manera agrupada por hogar, podemos chequear si existe un valor con determinado CODUSU en el período siguiente o no.       

Una vez identificados los hogares que permanecen en la muestra, con la función __lead__ podemos crear una variable de Situación_t1.

```{r, warning=FALSE}
Panel_Ind <- Pobreza_Individual %>% 
  filter(PONDIH>0) %>% 
#Si no saco estos me queda gente que en alguno de los dos periodos no respondio ingresos y distorsiona todo
  group_by(CODUSU, NRO_HOGAR, COMPONENTE) %>% 
  arrange(Periodo) %>% 
  mutate(Cod.Panel = as.factor(ifelse(!is.na(lead(Periodo)),1,0)),
         Situacion_t1 = lead(Situacion)) %>% 
         filter(Cod.Panel == 1,Consistencia=="consistente")

Panel_Ind
```

##Cálculo de Tasas de Pobreza e Indigencia - Base completa y Panel
```{r, warning=FALSE}
Pobreza_resumen <- Pobreza_Individual %>% 
  group_by(Periodo) %>% 
  summarise(Tasa_pobreza    = sum(PONDIH[Situacion %in% c('Pobre', 'Indigente')],na.rm = TRUE)/
                              sum(PONDIH,na.rm = TRUE),
            
            Tasa_indigencia = sum(PONDIH[Situacion == 'Indigente'],na.rm = TRUE)/
                              sum(PONDIH,na.rm = TRUE)) 
Pobreza_resumen

Pobreza.panel <- Panel_Ind %>% 
  group_by(Periodo) %>% 
  summarise(Tasa_pobreza    = sum(PONDIH[Situacion %in% c('Pobre', 'Indigente')],na.rm = TRUE)/
                              sum(PONDIH,na.rm = TRUE),
            
            Tasa_indigencia = sum(PONDIH[Situacion == 'Indigente'],na.rm = TRUE)/
                              sum(PONDIH,na.rm = TRUE)) 
Pobreza.panel
```

##Grafico de Transición
Para realizar el gráfico de transición, utilizaremos el paquete __alluvial__, con la función homónima.     
Para ello debemos construir un Dataframe que contenga la cantidad de casos observado para cada posible transición. Utilizamos el Ponderador de Ingresos (PONDIH).        
Adicionalmente, reescribimos como factores a las variables de Situación, para ordenar su aparición en el gráfico.
```{r}
datos.alluvial <- Panel_Ind %>% 
  group_by(Situacion,Situacion_t1, REGION) %>% 
  summarise(frecuencia = sum(PONDIH),
            n_muestral = n()) %>% 
  left_join(.,dic.regiones, by= "REGION") %>% 
  arrange(REGION)

datos.alluvial$Situacion <- factor(datos.alluvial$Situacion, levels =
                                         c("No.Pobre","Pobre","Indigente"))
datos.alluvial$Situacion_t1 <- factor(datos.alluvial$Situacion_t1, levels =
                                         c("No.Pobre","Pobre","Indigente"))

datos.alluvial
```
##Loop de Gráficos 

1. Con la función __pdf__(generamos un archivo ".pdf" en la dirección y nombre especificados)   
2. Realizamos un _loop_ por aglomerado para ir armando los gráficos.
    - Filtramos iterativamente nuestra tabla a graficar según el aglomerado en curso y creamos un vector con el nombre del mismo.        
    - Especificamos un vector de colores en función de las posibles transiciones.      
    - Realizamos el gráfico con las especificaciones de data, color y tamaño. 
3. Con ```dev.off()``` _cerramos el archivo .pdf_
```{r,warning=FALSE,error=FALSE}
# pdf(paste(resultados.dir, "Transiciones de Situación - Regiones - t316-t416.pdf", sep = ""), onefile = T)
for(Reg in unique(datos.alluvial$REGION)){
  
  data.Reg <- datos.alluvial %>% filter(REGION == Reg)
  tmp.nom <- dic.regiones$Region[dic.regiones$REGION==Reg]
  colores <- ifelse(data.Reg$Situacion==data.Reg$Situacion_t1,"gray90",
                    ifelse(data.Reg$Situacion_t1=="Indigente","firebrick1",
                           ifelse(data.Reg$Situacion_t1 == 'Pobre','goldenrod1',
                                  ifelse(data.Reg$Situacion_t1 == 'No.Pobre','chartreuse2','red'))))
  
  transiciones <- alluvial(data.Reg[,c(1:2)], freq=data.Reg$frecuencia, border=NA, 
                           col = colores, cex=0.75, xw=.15)
  mtext(paste0('Region: ',tmp.nom), 3, line=3, font=2)
  paste(Sys.time(),tmp.nom)
}
# dev.off()
```