Cargando datos:
filename="dataMundo.csv"
data=read.csv(filename,stringsAsFactors =F)
Verificando tipos:
str(data)
## 'data.frame': 175 obs. of 12 variables:
## $ Country : chr "Afghanistan" "Albania" "Andorra" "Angola" ...
## $ gasto2000 : num NA 3.3 NA 2.6 4.6 2.8 4.9 5.6 3.9 2.9 ...
## $ gasto2005 : num NA 3.2 1.6 2.8 3.9 2.7 4.9 5.2 3 NA ...
## $ gasto2010 : num 3.5 NA 3.1 3.5 5 3.2 5.6 5.7 2.8 NA ...
## $ drop2000 : num NA NA NA NA 5.5 1.5 NA NA 3.1 18.6 ...
## $ drop2005 : num NA 10.4 NA NA 9.2 NA NA NA 4 NA ...
## $ drop2010 : num NA 2.1 NA NA 6.9 4 NA 0.6 2.8 NA ...
## $ drop2015 : num NA 11.2 NA NA NA 5.3 NA 0.4 1.1 NA ...
## $ incomeIneq2017: num NA 29 NA 42.7 42.4 32.5 34.7 30.5 16.6 NA ...
## $ pisaRead2015 : int NA 405 NA NA 425 NA 503 485 NA NA ...
## $ pisaMath2015 : int NA 413 NA NA 456 NA 494 497 NA NA ...
## $ pisaSci2015 : int NA 427 NA NA 475 NA 510 495 NA NA ...
Comparacion grafica de cada quinquenio: desde el 2010 se observa que el “cuerpo” de los datos (incluida la cola de datos extremos) llega solo hasta una desercion del 40%. Solo hay desercion superior al 40% en un pais en el 2010 y en un pais en el 2015. Estos ya no son parte de la distribucion normal de los datos, sino son casos atipicos.
varsRepeated=c('drop2000','drop2005','drop2010','drop2015')
drops1=data[complete.cases(data[,varsRepeated]),] #data sin perdidos
boxplot(drops1[,varsRepeated])
Para evaluar si hay diferencias significativas en dos momentos (si la tasa de deserción ha aumentado o disminuido significativamente de un quinquenio a otro), se realizan pruebas T de medias de grupos distintos. Se realiza esta prueba para comparar las medias de deserción entre el año 2000 y 2005. Dado que el p valor (resultado de la prueba) es superior a 0.05, se concluye que no hay diferencias significativas entre los quinquenios.
# prueba a dos colas: solo pregunta si las medias de los años difieren.
# si p-value es menor que 0.05 se acepta que HAY DIFERENCIAS
t.test(drops1$drop2000, drops1$drop2005, paired = TRUE, alternative = "two.sided")
##
## Paired t-test
##
## data: drops1$drop2000 and drops1$drop2005
## t = -1.086, df = 27, p-value = 0.2871
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.580692 1.102120
## sample estimates:
## mean of the differences
## -1.239286
Se puede verificar también si la deserción en 2005 es significativamente menor que en 2000. Para ello, se realiza una prueba T a la cola izquierda. Dado que el p valor es superior a 0.05, se observa que la desercion en 2005 NO es significativamente menor que en 2000.
# prueba a la cola izquierda: pregunta si la media del primer año es menor a la del año posterior.
# si p-value es menor que 0.05 se acepta que es MENOR
t.test(drops1$drop2000, drops1$drop2005,
paired = TRUE, alternative = "less")
##
## Paired t-test
##
## data: drops1$drop2000 and drops1$drop2005
## t = -1.086, df = 27, p-value = 0.1435
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf 0.7043883
## sample estimates:
## mean of the differences
## -1.239286
DATA NO está balanceada para hacer calculo para todos los años.
Se aplico distintos tipos de politica para promover el voto voluntario: 1. mensajes que apelaban al deber civico, 2. vigilancia social, 3. apelar a la “verguenza social” frente a una potencial reprobacion de los vecinos. Asimismo, se tiene un grupo de control al que no se aplico ninguna politica.
social <- read.csv("social.csv",stringsAsFactors = T)
summary(social) #
## sex yearofbirth primary2004 messages
## female:152702 Min. :1900 Min. :0.0000 Civic Duty: 38218
## male :153164 1st Qu.:1947 1st Qu.:0.0000 Control :191243
## Median :1956 Median :0.0000 Hawthorne : 38204
## Mean :1956 Mean :0.4014 Neighbors : 38201
## 3rd Qu.:1965 3rd Qu.:1.0000
## Max. :1986 Max. :1.0000
## primary2006 hhsize
## Min. :0.0000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:2.000
## Median :0.0000 Median :2.000
## Mean :0.3122 Mean :2.184
## 3rd Qu.:1.0000 3rd Qu.:2.000
## Max. :1.0000 Max. :8.000
Se observan primero los promedios de participacion en las elecciones para los grupos en los que se aplico cada una de las politicas, y para el grupo de control.
## turnout promedio segun mensaje para el 2006:
tapply(social$primary2006, social$messages, mean)
## Civic Duty Control Hawthorne Neighbors
## 0.3145377 0.2966383 0.3223746 0.3779482
## turnout del control group
(ctTO=tapply(social$primary2006, social$messages, mean)[2])
## Control
## 0.2966383
Qué tanto se diferencian del grupo de control? Se calcula la diferencia entre el promedio de voto de cada grupo experimental con el grupo de control. Ello nos aproxima al efecto que ha tenido cada una de las medidas. Observamos que la medida de apelar a la reprobacion social de los vecinos tiene la mayor diferencia, por lo que seria la mas efectiva.
## control group turnout - mean de cada grupo
tapply(social$primary2006, social$messages, mean) -ctTO
## Civic Duty Control Hawthorne Neighbors
## 0.01789934 0.00000000 0.02573631 0.08130991
La variable de interés es la reacción a los mensajes, pero el efecto de estos no debería ser tal en las otras variables:
Se observa que los cuatro grupos solo difieren en cuanto a la participacion en las elecciones 2006. Para otras variables, los grupos son similares. Ello prueba que los efectos en esta variable (participacion en las elecciones) se deben exclusivamente a la medida de promocion del voto y no estan interaccionando con otras variables para producir este resultado.
tapply(social$yearofbirth, social$messages, mean)
## Civic Duty Control Hawthorne Neighbors
## 1956.341 1956.186 1956.295 1956.147
tapply(social$primary2004, social$messages, mean)
## Civic Duty Control Hawthorne Neighbors
## 0.3994453 0.4003388 0.4032300 0.4066647
tapply(social$hhsize, social$messages, mean)
## Civic Duty Control Hawthorne Neighbors
## 2.189126 2.183667 2.180138 2.187770
Efecto del experimento: En el grafico se visualiza el porcentaje promedio de participacion por cada una de las medidas aplicadas. Aqui es evidente que la medida que apela a la reprobación social (por parte de los vecinos) tiene los mayores efectos.
library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggerrorplot(social, x = "messages", y = "primary2006",
desc_stat = "mean_se")
La data está completa, pero NO balanceada.
En este caso se examina el efecto de una política sin tener como referencia a un grupo de control. La evaluación de muchas políticas debe recurrir, como en este caso, a la comparación de los contextos en los que se ha aplicado la medida, con otros contextos reales en los cuales la medida no ha estado presente. Ello debido a que la realidad no puede siempre ser manipulada de forma experimental.
minwage <- read.csv("minwage.csv")
Veamos sueldos de dos Estados en USA:
summary(minwage)
## chain location wageBefore wageAfter
## burgerking:149 centralNJ: 45 Min. :4.250 Min. :4.250
## kfc : 75 northNJ :146 1st Qu.:4.250 1st Qu.:5.050
## roys : 88 PA : 67 Median :4.500 Median :5.050
## wendys : 46 shoreNJ : 33 Mean :4.618 Mean :4.994
## southNJ : 67 3rd Qu.:4.987 3rd Qu.:5.050
## Max. :5.750 Max. :6.250
## fullBefore fullAfter partBefore partAfter
## Min. : 0.000 Min. : 0.000 Min. : 0.00 Min. : 0.00
## 1st Qu.: 2.125 1st Qu.: 2.000 1st Qu.:11.00 1st Qu.:11.00
## Median : 6.000 Median : 6.000 Median :16.25 Median :17.00
## Mean : 8.475 Mean : 8.362 Mean :18.75 Mean :18.69
## 3rd Qu.:12.000 3rd Qu.:12.000 3rd Qu.:25.00 3rd Qu.:25.00
## Max. :60.000 Max. :40.000 Max. :60.00 Max. :60.00
En este caso, para evaluar el efecto de una ley de aumento de ingresos sobre el nivel de desempleo, se observará tanto el nivel de desempleo en el Estado donde se aplicó la medida (NJ) como en un Estado donde no se aplicó (PA). Dado que no puede tenerse un grupo de control (no podemos manipular la realidad como en un experimento), debemos recurrir a un grupo SIMILAR a NJ, pero que no ha estado sujeto a la medida que vamos a evaluar. Este grupo (PA) nos servirá de CONTRAFACTUAL, de manera similar a un grupo de control.
La teoría sugiere que, de fomentarse el aumento de ingresos, ocurriría un aumento en el nivel de desempleo.
Antes de evaluar este planteamiento, es necesario cponfirmar que la ley fue aplicada de forma efectiva en el Estado de NJ y que esta ley (o alguna ley con efectos similares) NO fue aplicada en PA.
Para ello, se indica primero el valor del ingreso mínimo en los EEUU, que corresponde a 5.05. Luego, se calcula para el primer corte temporal (antes de la aplicación de la ley en NJ), cuál es el promedio de asalariados que tenían ingresos menores al mínimo. Finalente, se calcula para el segundo corte temporal (de la aplicación de la ley en NJ), cuál es el promedio de asalariados que tenían ingresos menores al mínimo. Se observa que el promedio en el segundo momento (después de la ley) es mucho menor que en el primer momento. Esto es, en el segundo momento una proporción significativa de los asalariados han sido beneficiados con un aumento que ha elevado sus salarios al nivel o por encima del mínimo. Ello permite confirmar que la ley sí fue aplicada de manera efectiva.
# se respeto ley en NJ?
minwageBefore=5.05
minwageNJ <- subset(minwage, subset = (location != "PA"))
mean(minwageNJ$wageBefore < minwageBefore) # NJ before
## [1] 0.9106529
mean(minwageNJ$wageAfter < minwageBefore) # NJ after
## [1] 0.003436426
También es necesario verificar si PA es realmente distinto a NJ, en tanto en este Estado no se aplicó la ley y, por ende, no puede haber ocurrido un aumento de salarios. Se calcula, de manera similar al paso anterior, los promedios de asalariados con ingresos inferiores al mínimo para los dos cortes temporales: 1. Antes de la aplicación de la ley en NJ y 2. Después de la aplicación de la ley en NJ.
Observamos que los dos promedios son similares. Por lo tanto, no hay variación entre los dos momentos en el caso de PA.
minwagePA <- subset(minwage, subset = (location == "PA"))
mean(minwagePA$wageBefore < minwageBefore) # PA before
## [1] 0.9402985
mean(minwagePA$wageAfter < minwageBefore) # PA after
## [1] 0.9552239
Recordemos entonces que la teoría establecía que, de ocurrir un aumento de ingresos, el desempleo también aumentaría. Si ello fuera cierto, la proporción de trabajadores a tiempo completo (que se asume como medida del nivel de empleo) en NJ después de la aplicación de la medida debería ser menor que la proporción en PA (en el mismo momento). Por ende, la resta de la proporción de NJ con la proporción de PA debería ser negativa.
En los comandos especificados abajo se calcula primero la proporción de trabajadores a tiempo completo (fullPropAfter) sobre el total de trabajadores, para el caso de NJ. Luego, para el caso de PA.
Finalmente, se calcula la resta de la proporción en NJ y en PA. Obtenemos como resultado una resta de +0.048. Dado que es positiva, indica que la proporción de trabajadores a tiempo completo (una medida del nivel de empleo) es incluso mayor en NJ, donde se aplicó la medida de ingreso mínimo, que en PA, donde no se aplicó. Ello es un primer indicador para REFUTAR la teoría que indica que el aumento de ingresos se asocia a mayor desempleo.
## proporcion de trabajadores a fulltime en NJ
minwageNJ$fullPropAfter <- minwageNJ$fullAfter /
(minwageNJ$fullAfter + minwageNJ$partAfter)
## proporcion de trabajadores a fulltime en PA
minwagePA$fullPropAfter <- minwagePA$fullAfter /
(minwagePA$fullAfter + minwagePA$partAfter)
## diferencias: si sale negativa conforma teoría!!!!
mean(minwageNJ$fullPropAfter) - mean(minwagePA$fullPropAfter)
## [1] 0.04811886
El mayor nivel de empleo en NJ a comparación de PA, sin embargo, puede estar asociado a otros factores, distintos de la ley aplicada.
Es preciso verificar si en NJ la proporción de trabajadores a tiempo completo es mayor o igual después de la aplicación de la ley. Para ello, se calcula primero la proporción de trabajadores antes de la aplicación de la ley (minwageNJ\(fullPropBefore). La proporción después de la ley (minwageNJ\)fullPropAfter) ya fue calculada líneas arriba. La resta entre la proporción de trabajadores DESPUÉS de la ley (NJdiff) menos la proporción ANTES de la ley resulta positiva (+0.024). Ello indica que el nivel de empleo AUMENTÓ en NJ.
## proporcion full-time en NJ "antes":
minwageNJ$fullPropBefore <- minwageNJ$fullBefore /
(minwageNJ$fullBefore + minwageNJ$partBefore)
## Diference entre antes y despues del incremento para NJ:
NJdiff <- mean(minwageNJ$fullPropAfter) - mean(minwageNJ$fullPropBefore)
# diferencia DESPUES-ANTES en CASO observado
NJdiff
## [1] 0.02387474
Luego, verificamos qué ocurrió en PA: si la proporción de trabajadores a tiempo completo es mayor o menor después de la aplicación de la ley. Para ello, se calcula primero la proporción de trabajadores antes de la aplicación de la ley (minwagePA\(fullPropBefore). La proporción después de la ley (minwagePA\)fullPropAfter) ya fue calculada líneas arriba. La resta entre la proporción de trabajadores DESPUÉS de la ley (PAdiff) menos la proporción ANTES de la ley resulta negativa (+0.038). Ello indica que el nivel de empleo DISMINUYÓ en PA
## proporcion full-time en PA "antes":
minwagePA$fullPropBefore <- minwagePA$fullBefore/
(minwagePA$fullBefore + minwagePA$partBefore)
## Diference entre antes y despues del incremento para PA:
PAdiff <- mean(minwagePA$fullPropAfter) - mean(minwagePA$fullPropBefore)
# diferencia DESPUES-ANTES en CASO de comparación
PAdiff
## [1] -0.03768357
Hemos observado, entonces, que el Estado donde se aplicó la ley de aumento de ingresos (NJ) experimentó un aumento del empleo, mientras que el Estado donde no se aplicó la ley (PA) experimentó una disminución del empleo. Ello indica que la aplicación de la ley NO ESTÁ ASOCIADA a una DISMINUCIÓN de los niveles de empleo. Se ha refutado la teoría que argumentaba que el aumento salarial tendría un impacto negativo en los niveles de empleo.
Ello también se comprueba con la resta entre la diferencia en los niveles de empleo (después y antes de la medida) entre NJ y PA. De ser negativa, indicaría que en NJ hubo un menor aumento del empleo a comparación de PA. Obtenemos un resultado positivo, lo que vuelve a refutar la teoría.
## difference-in-differences
NJdiff - PAdiff
## [1] 0.06155831
Esto es evaluación de impacto, donde hay grupo intervenido y de comparación. Recuerda: 1. No puedes hacer esta tecnica si NO convences que los grupos antes de la intervención son similares. 2. No puedes hacer esta tecnica si NO convences que lo que pase en un grupo no tiene que afectar al otro. 3. El grupo de comparación te sirve como contrafactual, pues éste no es observable.