Estudiando diferencias

Diferencias entre periodos quinquenales en los promedios de desercion escolar a nivel global

Cargando datos:

filename="dataMundo.csv"
data=read.csv(filename,stringsAsFactors =F)

Verificando tipos:

str(data)
## 'data.frame':    175 obs. of  12 variables:
##  $ Country       : chr  "Afghanistan" "Albania" "Andorra" "Angola" ...
##  $ gasto2000     : num  NA 3.3 NA 2.6 4.6 2.8 4.9 5.6 3.9 2.9 ...
##  $ gasto2005     : num  NA 3.2 1.6 2.8 3.9 2.7 4.9 5.2 3 NA ...
##  $ gasto2010     : num  3.5 NA 3.1 3.5 5 3.2 5.6 5.7 2.8 NA ...
##  $ drop2000      : num  NA NA NA NA 5.5 1.5 NA NA 3.1 18.6 ...
##  $ drop2005      : num  NA 10.4 NA NA 9.2 NA NA NA 4 NA ...
##  $ drop2010      : num  NA 2.1 NA NA 6.9 4 NA 0.6 2.8 NA ...
##  $ drop2015      : num  NA 11.2 NA NA NA 5.3 NA 0.4 1.1 NA ...
##  $ incomeIneq2017: num  NA 29 NA 42.7 42.4 32.5 34.7 30.5 16.6 NA ...
##  $ pisaRead2015  : int  NA 405 NA NA 425 NA 503 485 NA NA ...
##  $ pisaMath2015  : int  NA 413 NA NA 456 NA 494 497 NA NA ...
##  $ pisaSci2015   : int  NA 427 NA NA 475 NA 510 495 NA NA ...

Comparacion grafica de cada quinquenio: desde el 2010 se observa que el “cuerpo” de los datos (incluida la cola de datos extremos) llega solo hasta una desercion del 40%. Solo hay desercion superior al 40% en un pais en el 2010 y en un pais en el 2015. Estos ya no son parte de la distribucion normal de los datos, sino son casos atipicos.

varsRepeated=c('drop2000','drop2005','drop2010','drop2015')
drops1=data[complete.cases(data[,varsRepeated]),] #data sin perdidos
boxplot(drops1[,varsRepeated])

Para evaluar si hay diferencias significativas en dos momentos (si la tasa de deserción ha aumentado o disminuido significativamente de un quinquenio a otro), se realizan pruebas T de medias de grupos distintos. Se realiza esta prueba para comparar las medias de deserción entre el año 2000 y 2005. Dado que el p valor (resultado de la prueba) es superior a 0.05, se concluye que no hay diferencias significativas entre los quinquenios.

# prueba a dos colas: solo pregunta si las medias de los años difieren.
# si p-value es menor que 0.05 se acepta que HAY DIFERENCIAS
t.test(drops1$drop2000, drops1$drop2005, paired = TRUE, alternative = "two.sided")
## 
##  Paired t-test
## 
## data:  drops1$drop2000 and drops1$drop2005
## t = -1.086, df = 27, p-value = 0.2871
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.580692  1.102120
## sample estimates:
## mean of the differences 
##               -1.239286

Se puede verificar también si la deserción en 2005 es significativamente menor que en 2000. Para ello, se realiza una prueba T a la cola izquierda. Dado que el p valor es superior a 0.05, se observa que la desercion en 2005 NO es significativamente menor que en 2000.

# prueba a la cola izquierda: pregunta si la media del primer año es menor a la del año posterior.
# si p-value es menor que 0.05 se acepta que es MENOR
t.test(drops1$drop2000, drops1$drop2005, 
       paired = TRUE, alternative = "less")
## 
##  Paired t-test
## 
## data:  drops1$drop2000 and drops1$drop2005
## t = -1.086, df = 27, p-value = 0.1435
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf 0.7043883
## sample estimates:
## mean of the differences 
##               -1.239286

DATA NO está balanceada para hacer calculo para todos los años.

Diferencias entre grupos para medir el efecto de distintas alternativas de politica

Caso 1: Experimento con grupo de control: Aplicacion de medidas para promover la participacion en las elecciones

Se aplico distintos tipos de politica para promover el voto voluntario: 1. mensajes que apelaban al deber civico, 2. vigilancia social, 3. apelar a la “verguenza social” frente a una potencial reprobacion de los vecinos. Asimismo, se tiene un grupo de control al que no se aplico ninguna politica.

social <- read.csv("social.csv",stringsAsFactors = T) 
summary(social) # 
##      sex          yearofbirth    primary2004           messages     
##  female:152702   Min.   :1900   Min.   :0.0000   Civic Duty: 38218  
##  male  :153164   1st Qu.:1947   1st Qu.:0.0000   Control   :191243  
##                  Median :1956   Median :0.0000   Hawthorne : 38204  
##                  Mean   :1956   Mean   :0.4014   Neighbors : 38201  
##                  3rd Qu.:1965   3rd Qu.:1.0000                      
##                  Max.   :1986   Max.   :1.0000                      
##   primary2006         hhsize     
##  Min.   :0.0000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:2.000  
##  Median :0.0000   Median :2.000  
##  Mean   :0.3122   Mean   :2.184  
##  3rd Qu.:1.0000   3rd Qu.:2.000  
##  Max.   :1.0000   Max.   :8.000

Se observan primero los promedios de participacion en las elecciones para los grupos en los que se aplico cada una de las politicas, y para el grupo de control.

## turnout promedio segun mensaje para el 2006: 
tapply(social$primary2006, social$messages, mean)
## Civic Duty    Control  Hawthorne  Neighbors 
##  0.3145377  0.2966383  0.3223746  0.3779482
## turnout del  control group 
(ctTO=tapply(social$primary2006, social$messages, mean)[2])
##   Control 
## 0.2966383

Qué tanto se diferencian del grupo de control? Se calcula la diferencia entre el promedio de voto de cada grupo experimental con el grupo de control. Ello nos aproxima al efecto que ha tenido cada una de las medidas. Observamos que la medida de apelar a la reprobacion social de los vecinos tiene la mayor diferencia, por lo que seria la mas efectiva.

## control group turnout - mean de cada grupo
tapply(social$primary2006, social$messages, mean) -ctTO
## Civic Duty    Control  Hawthorne  Neighbors 
## 0.01789934 0.00000000 0.02573631 0.08130991
  • VERIFICANDO PROCESO ADECUADO:

La variable de interés es la reacción a los mensajes, pero el efecto de estos no debería ser tal en las otras variables:

Se observa que los cuatro grupos solo difieren en cuanto a la participacion en las elecciones 2006. Para otras variables, los grupos son similares. Ello prueba que los efectos en esta variable (participacion en las elecciones) se deben exclusivamente a la medida de promocion del voto y no estan interaccionando con otras variables para producir este resultado.

tapply(social$yearofbirth, social$messages, mean)
## Civic Duty    Control  Hawthorne  Neighbors 
##   1956.341   1956.186   1956.295   1956.147
tapply(social$primary2004, social$messages, mean)
## Civic Duty    Control  Hawthorne  Neighbors 
##  0.3994453  0.4003388  0.4032300  0.4066647
tapply(social$hhsize, social$messages, mean)
## Civic Duty    Control  Hawthorne  Neighbors 
##   2.189126   2.183667   2.180138   2.187770

Efecto del experimento: En el grafico se visualiza el porcentaje promedio de participacion por cada una de las medidas aplicadas. Aqui es evidente que la medida que apela a la reprobación social (por parte de los vecinos) tiene los mayores efectos.

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggerrorplot(social, x = "messages", y = "primary2006", 
            desc_stat = "mean_se")

La data está completa, pero NO balanceada.

Diferencias entre grupos para medir el efecto de distintas alternativas de politica

Caso 2: Comparacion de contextos (no-experimentales): Efecto de una medida de aumento salarial sobre los niveles de empleo

En este caso se examina el efecto de una política sin tener como referencia a un grupo de control. La evaluación de muchas políticas debe recurrir, como en este caso, a la comparación de los contextos en los que se ha aplicado la medida, con otros contextos reales en los cuales la medida no ha estado presente. Ello debido a que la realidad no puede siempre ser manipulada de forma experimental.

minwage <- read.csv("minwage.csv")

Veamos sueldos de dos Estados en USA:

summary(minwage)
##         chain          location     wageBefore      wageAfter    
##  burgerking:149   centralNJ: 45   Min.   :4.250   Min.   :4.250  
##  kfc       : 75   northNJ  :146   1st Qu.:4.250   1st Qu.:5.050  
##  roys      : 88   PA       : 67   Median :4.500   Median :5.050  
##  wendys    : 46   shoreNJ  : 33   Mean   :4.618   Mean   :4.994  
##                   southNJ  : 67   3rd Qu.:4.987   3rd Qu.:5.050  
##                                   Max.   :5.750   Max.   :6.250  
##    fullBefore       fullAfter        partBefore      partAfter    
##  Min.   : 0.000   Min.   : 0.000   Min.   : 0.00   Min.   : 0.00  
##  1st Qu.: 2.125   1st Qu.: 2.000   1st Qu.:11.00   1st Qu.:11.00  
##  Median : 6.000   Median : 6.000   Median :16.25   Median :17.00  
##  Mean   : 8.475   Mean   : 8.362   Mean   :18.75   Mean   :18.69  
##  3rd Qu.:12.000   3rd Qu.:12.000   3rd Qu.:25.00   3rd Qu.:25.00  
##  Max.   :60.000   Max.   :40.000   Max.   :60.00   Max.   :60.00

En este caso, para evaluar el efecto de una ley de aumento de ingresos sobre el nivel de desempleo, se observará tanto el nivel de desempleo en el Estado donde se aplicó la medida (NJ) como en un Estado donde no se aplicó (PA). Dado que no puede tenerse un grupo de control (no podemos manipular la realidad como en un experimento), debemos recurrir a un grupo SIMILAR a NJ, pero que no ha estado sujeto a la medida que vamos a evaluar. Este grupo (PA) nos servirá de CONTRAFACTUAL, de manera similar a un grupo de control.

La teoría sugiere que, de fomentarse el aumento de ingresos, ocurriría un aumento en el nivel de desempleo.

Antes de evaluar este planteamiento, es necesario cponfirmar que la ley fue aplicada de forma efectiva en el Estado de NJ y que esta ley (o alguna ley con efectos similares) NO fue aplicada en PA.

Para ello, se indica primero el valor del ingreso mínimo en los EEUU, que corresponde a 5.05. Luego, se calcula para el primer corte temporal (antes de la aplicación de la ley en NJ), cuál es el promedio de asalariados que tenían ingresos menores al mínimo. Finalente, se calcula para el segundo corte temporal (de la aplicación de la ley en NJ), cuál es el promedio de asalariados que tenían ingresos menores al mínimo. Se observa que el promedio en el segundo momento (después de la ley) es mucho menor que en el primer momento. Esto es, en el segundo momento una proporción significativa de los asalariados han sido beneficiados con un aumento que ha elevado sus salarios al nivel o por encima del mínimo. Ello permite confirmar que la ley sí fue aplicada de manera efectiva.

# se respeto ley en NJ?
minwageBefore=5.05
minwageNJ <- subset(minwage, subset = (location != "PA"))
mean(minwageNJ$wageBefore < minwageBefore) # NJ before
## [1] 0.9106529
mean(minwageNJ$wageAfter < minwageBefore) # NJ after
## [1] 0.003436426

También es necesario verificar si PA es realmente distinto a NJ, en tanto en este Estado no se aplicó la ley y, por ende, no puede haber ocurrido un aumento de salarios. Se calcula, de manera similar al paso anterior, los promedios de asalariados con ingresos inferiores al mínimo para los dos cortes temporales: 1. Antes de la aplicación de la ley en NJ y 2. Después de la aplicación de la ley en NJ.

Observamos que los dos promedios son similares. Por lo tanto, no hay variación entre los dos momentos en el caso de PA.

minwagePA <- subset(minwage, subset = (location == "PA"))
mean(minwagePA$wageBefore < minwageBefore) # PA before 
## [1] 0.9402985
mean(minwagePA$wageAfter < minwageBefore) # PA after 
## [1] 0.9552239

Recordemos entonces que la teoría establecía que, de ocurrir un aumento de ingresos, el desempleo también aumentaría. Si ello fuera cierto, la proporción de trabajadores a tiempo completo (que se asume como medida del nivel de empleo) en NJ después de la aplicación de la medida debería ser menor que la proporción en PA (en el mismo momento). Por ende, la resta de la proporción de NJ con la proporción de PA debería ser negativa.

En los comandos especificados abajo se calcula primero la proporción de trabajadores a tiempo completo (fullPropAfter) sobre el total de trabajadores, para el caso de NJ. Luego, para el caso de PA.

Finalmente, se calcula la resta de la proporción en NJ y en PA. Obtenemos como resultado una resta de +0.048. Dado que es positiva, indica que la proporción de trabajadores a tiempo completo (una medida del nivel de empleo) es incluso mayor en NJ, donde se aplicó la medida de ingreso mínimo, que en PA, donde no se aplicó. Ello es un primer indicador para REFUTAR la teoría que indica que el aumento de ingresos se asocia a mayor desempleo.

## proporcion de trabajadores a fulltime en NJ
minwageNJ$fullPropAfter <- minwageNJ$fullAfter /
(minwageNJ$fullAfter + minwageNJ$partAfter)

## proporcion de trabajadores a fulltime en PA
minwagePA$fullPropAfter <- minwagePA$fullAfter /
(minwagePA$fullAfter + minwagePA$partAfter) 

## diferencias: si sale negativa conforma teoría!!!!
mean(minwageNJ$fullPropAfter) - mean(minwagePA$fullPropAfter)
## [1] 0.04811886

El mayor nivel de empleo en NJ a comparación de PA, sin embargo, puede estar asociado a otros factores, distintos de la ley aplicada.

Es preciso verificar si en NJ la proporción de trabajadores a tiempo completo es mayor o igual después de la aplicación de la ley. Para ello, se calcula primero la proporción de trabajadores antes de la aplicación de la ley (minwageNJ\(fullPropBefore). La proporción después de la ley (minwageNJ\)fullPropAfter) ya fue calculada líneas arriba. La resta entre la proporción de trabajadores DESPUÉS de la ley (NJdiff) menos la proporción ANTES de la ley resulta positiva (+0.024). Ello indica que el nivel de empleo AUMENTÓ en NJ.

## proporcion full-time en NJ "antes":
minwageNJ$fullPropBefore <- minwageNJ$fullBefore /
(minwageNJ$fullBefore + minwageNJ$partBefore) 

## Diference entre antes y despues del incremento para NJ:
NJdiff <- mean(minwageNJ$fullPropAfter) - mean(minwageNJ$fullPropBefore)

# diferencia DESPUES-ANTES en CASO observado
NJdiff
## [1] 0.02387474

Luego, verificamos qué ocurrió en PA: si la proporción de trabajadores a tiempo completo es mayor o menor después de la aplicación de la ley. Para ello, se calcula primero la proporción de trabajadores antes de la aplicación de la ley (minwagePA\(fullPropBefore). La proporción después de la ley (minwagePA\)fullPropAfter) ya fue calculada líneas arriba. La resta entre la proporción de trabajadores DESPUÉS de la ley (PAdiff) menos la proporción ANTES de la ley resulta negativa (+0.038). Ello indica que el nivel de empleo DISMINUYÓ en PA

## proporcion full-time en PA "antes":
minwagePA$fullPropBefore <- minwagePA$fullBefore/
  (minwagePA$fullBefore + minwagePA$partBefore) 

## Diference entre antes y despues del incremento para PA:
PAdiff <- mean(minwagePA$fullPropAfter) - mean(minwagePA$fullPropBefore)

# diferencia DESPUES-ANTES en CASO de comparación
PAdiff
## [1] -0.03768357

Hemos observado, entonces, que el Estado donde se aplicó la ley de aumento de ingresos (NJ) experimentó un aumento del empleo, mientras que el Estado donde no se aplicó la ley (PA) experimentó una disminución del empleo. Ello indica que la aplicación de la ley NO ESTÁ ASOCIADA a una DISMINUCIÓN de los niveles de empleo. Se ha refutado la teoría que argumentaba que el aumento salarial tendría un impacto negativo en los niveles de empleo.

Ello también se comprueba con la resta entre la diferencia en los niveles de empleo (después y antes de la medida) entre NJ y PA. De ser negativa, indicaría que en NJ hubo un menor aumento del empleo a comparación de PA. Obtenemos un resultado positivo, lo que vuelve a refutar la teoría.

## difference-in-differences 
NJdiff - PAdiff
## [1] 0.06155831

Esto es evaluación de impacto, donde hay grupo intervenido y de comparación. Recuerda: 1. No puedes hacer esta tecnica si NO convences que los grupos antes de la intervención son similares. 2. No puedes hacer esta tecnica si NO convences que lo que pase en un grupo no tiene que afectar al otro. 3. El grupo de comparación te sirve como contrafactual, pues éste no es observable.