En esta unidad final estudiaremos la asociación entre dos o más variables y, en base al diseño de investigación, descubriremos (o no) relaciones de causalidad.
Actividad 1: Experimentos y causalidad (25% de la nota del Reto)
¿Los estudiantes con mayor exposición a las virtudes del análisis cuantitativo tienen más propensión a utilizar el análisis cuantitativo en el Trabajo Final de Grado? Al principio de esta asignatura os pedimos que respondierais a una breve encuesta. El propósito de la encuesta era doble:
Tener información del tipo de datos cuantitativos que pueden ser de interés a los estudiantes en Relaciones Internacionales/Ciencias Políticas/Sociología.
Hacer un pequeño experimento, con fines pedagógicos, que recuperaremos en este último Reto.
Como sabéis, un experimento requiere aleatorización y esto es lo que hemos hecho en el cuestionario. Hemos considerado que no hay ninguna diferencia de base entre los estudiantes que tienen el último número par en el DNI y los estudiantes que lo tienen impar. Si nos toca un DNI con el último número par o impar es algo totalmente azaroso, por lo que hemos utilizado este criterio aleatorio para dividir la clase en dos grupos:
A los estudiantes con DNI par les hemos expuesto a información que explicaba las virtudes del análisis cuantitativo (grupo de tratamiento).
A los estudiantes con DNI impar no les hemos enseñado esta información (grupo de control).
Con este experimento hemos obtenido el siguiente marco de datos Descargar marco de datos, que debes descargar.
Se espera que el tratamiento o variable independiente (exposición a información sobre el análisis cuantitativo) T1 tenga un efecto sobre el resultado o variable dependiente (propensión a realizar el TFG cuantitativo) Outcome.
Podemos plantear la siguiente hipótesis. H1: “Los estudiantes más expuestos a las virtudes del análisis cuantitativo tienden a querer realizar un Trabajo Final de Grado cuantitativo”.
Como diseño, hemos realizado un experimento de encuesta en el que esperamos que no haya diferencias de base entre grupos y éstos sólo diverjan por el tratamiento que hemos aplicado.
Utiliza los datos del experimento de encuesta que te proporcionamos para responder a la pregunta: ¿Los estudiantes con mayor exposición a las virtudes del análisis cuantitativo tienen más propensión a querer utilizar el análisis cuantitativo en el Trabajo Final de Grado? (máximo 300 palabras + gráficos, tablas, etc.).
Utiliza la diferencia de medias para obtener los resultados cuantitativos y crea el gráfico que consideres oportuno.
Interpreta los resultados en términos de asociación y en términos de causalidad. Podemos observar que en el Grupo de Tratamiento (T1) apenas hay cambios. En el grupo de control, la mayoría de los sujetos se ubicaban cerca del 4 en la escala de propensión a realizar un TFG cuantitativo, mientras que en el Grupo de Tratamiento (T1) la mayoría están en el 3, pero hay menos en el 2 y el 1. A su vez, la media (representada por el punto rojo) se mantiene idéntica en ambos casos.
Podemos observar que en el Grupo de Tratamiento (T1) apenas hay cambios. En el grupo de control, la mayoría de los sujetos se ubicaban cerca del 4 en la escala de propensión a realizar un TFG cuantitativo, mientras que en el Grupo de Tratamiento (T1) la mayoría están en el 3, pero hay menos en el 2 y el 1. A su vez, la media (representada por el punto rojo) se mantiene idéntica en ambos casos.
Así, podemos concluir que no hay asociación entre el tratamiento (exposición a la información sobre el análisis cuantitativo) y la propensión a realizar el TFG cuantitativo. Las medias en ambos grupos son iguales, por lo que la exposición a la información no genera un cambio en la propensión.
Además, no se puede establecer una relación causal entre el grupo tratado y el de control, ya que no hubo diferencia en la propensión de los estudiantes para realizar el TFG cuantitativo entre los grupos.
Deberíamos esperar a que no hubiera ninguna diferencia significativa de base entre grupos. Utiliza la edad para comprobar que el azar ha repartido el tratamiento de forma similar entre grupos. Interpreta los resultados.
adq |>ggplot(aes(x = T1, y = Edad)) +geom_point(position =position_jitter(width =0.1, height =0.2)) +stat_summary(geom ="pointrange", fun.data = mean_se, col ="red", size =0.8,fun.args =list(mult =1.96)) +labs(x ="Tratamiento", y ="Edad")
Si analizamos la gráfica, no parece haber grandes diferencias en la distribución de la edad entre los grupos. Esto indica que el azar ha funcionado adecuadamente para distribuir el tratamiento de manera balanceada respecto a la edad.
Libro de códigos del marco de datos
Sexo: variable categórica con categoría masculino o femenino
Edad: variable categórica con categorías de grupos de edad
Idioma: variable categórica con el idioma en el que se cursa la asignatura
T1: variable dicotómica, 0 refleja los individuos no expuestos a las virtudes del análisis cuantitativo y 1 los que sí estuvieron expuestos
first_week: variable dicotómica, 1 indica que se respondió al cuestionario la primera semana del curso, 0 si se respondió más tarde
Outcome: variable que refleja la propensión a realizar el TFG cuantitativo (escala de 1 a 5).
Actividad 2: Interpretar un análisis cuantitativo (25% de la nota del Reto)
Quizás se podría pensar que el experimento anterior no tiene mucha relevancia, pero el planteamiento del método experimental contribuye a entender mejor algunas preguntas interesantes en el ámbito de las ciencias sociales.
Por ejemplo en el artículo The Wars of Others: The Effect of the Russian Invasion of Ukraine on Spanish Nationalism (en abierto aquí) los autores se preguntan hasta qué punto los conflictos bélicos internacionales influyen en los niveles de nacionalismo en otros países, variable que miden a partir de una escala 0-10 donde 0 es no nacionalista y 10 muy nacionalista. En este caso, el planteamiento experimental de los autores aprovecha el hecho que el inicio de la invasión rusa en Ucrania en febrero de 2022 ocurrió de un modo inesperado para la grandísima mayoría de la sociedad en España.
Para analizar causalmente el impacto de la guerra, se aprovechan encuestas que hicieron su trabajo de campo en los días previos y posteriores al estallido de la guerra. Así, el grupo de tratamiento son las personas encuestadas una vez había iniciado la invasión rusa y el grupo de control las personas encuestadas pocos días antes del inicio del conflicto. En principio, como la invasión no está relacionada con quién ni el el timing de ser contactado, los encuestados antes y después deberían ser grupos muy parecidos y lo único que los distingue es que unos conocen de la existencia de un nuevo conflicto armado y los otros no. La variable Post-Invasion en sus datos, por lo tanto, distingue a los dos grupos y toma valor 0 en los encuestados antes de la invasión y 1 para los encuestados después de la invasión rusa.
A partir de los materiales de replicación de este artículo (los puedes encontrar aquí), hemos generado una tabla con cuatro modelos distintos que serían equivalentes a la Figura 1 del artículo.
Tabla de modelos, equivalente a la Figura 1
1. Indica cuál es la variable dependiente en cada modelo
En M1 y M2 la variable dependiente es National Identification. En M3 y M4, la variable dependiente es Regional Identification.
2. Interpreta el significado de la variable Post-Invasion en cada uno de los modelos
En el M1, la variable Post-Invasion es de 0,64, lo que indica que el nacionalismo aumentó considerablemente, así como en el M2, con un 0,56, solo que aumentó ligeramente menos. Respecto a la variable de regionalismo, este apenas varió, siendo de 0,04 en el M3, y -0,12 en el M4, es decir, una diferencia ínfima.
3. Comenta los coeficientes vinculados a dos de las variables de control
El coeficiente más destacado es el de Ideology (ideología), con un 0,37 en la primera variable, pero tan solo un 0,05 en la segunda. Los que sí que tienen impacto en ambas variables son los coeficientes de Sex (sexo) (de 0,24 y 0,26) y Education (educación) (-0,24 y -0,29, lo que indica que a mayor sea tu nivel educativo, menos nacionalismo o regionalismo sentirás). También valoraron el coeficiente Age (edad), cuyo impacto es ínfimo (0,03 y 0,00) e Income (ingresos), que, con un 0,16 en ambos casos, indica que hay un ligero impacto, siento más nacionalista y regionalista si tienes más ingresos, en pequeña medida.
4. ¿Cuáles de los modelos capturan mejor la variación de valores en la variable dependiente? Compara especialmente M1 y M2 entre sí y/o M3 y M4.
M2 y M4 destacan como modelos, ya que capturan mejor la variación en la variable dependiente al incluir efectos fijos regionales. Concretamente, señalaría M2, ya que explica muy bien la identificación nacional; por otra parte, el regionalismo no se ve tan afectado por la invasión.
Actividad 3: Análisis de regresión (25% de la nota del Reto)
Otro ejemplo de pregunta interesante en Ciencias Sociales usando métodos experimentales lo podemos encontrar en el artículo: Do transitional justice museums persuade visitors? Evidence from a field experiment. En esta investigación se busca conocer hasta qué punto el conocimiento del pasado y la apelación a las emociones puede contribuir a reconciliar sociedades dividas después de largos periodos de conflicto. Las autoras del artículo se preguntaron si visitar un museo de la memoria, que explica un conflicto y busca reparar a sus víctimas (en un ejercicio de justicia transicional) tiene un impacto.
El primer problema es que el hecho de visitar o no un museo no es aleatorio, por lo tanto, no se puede comparar a los visitantes con los no visitantes porque serán muy distintos entre sí. En su caso lo que hicieron fue plantear un experimento con estudiantes de la Pontificia Universidad Católica de Chile. Mandaron un correo al estudiantado y seleccionaron a 502 personas que habían indicado que nunca habían ido al museo (se pidió una lista de varios museos de Santiago de Chile a los que se había ido). Se dividió a los participantes en el estudio en dos mitades, una asistió al Museo de la Memoria y la otra no. Todas las 502 personas respondieron una encuesta antes del día en qué se realizó el experimento y otra el día del experimento (después de la visita al museo para los que estaban en el grupo de tratamiento). Además, se administraron diferentes encuestas de seguimiento un tiempo después.
Proceso experimental en Balcells et al. (2022)
El principal objetivo del estudio era saber si el hecho de haber ido al museo y conocer mejor el pasado autoritario y la represión política que tuvo lugar en Chile en años anteriores contribuía a cambiar algunas actitudes políticas, en especial en el apoyo a la democracia, la propensidad a rechazar las instituciones vinculadas a la dictadura, o en el apoyo a políticas de justicia transicional. Usa los datos del experimento para reproducir los principales análisis del artículo. Los datos se encuentran disponibles en el repositorio Dataverse. Usa el fichero all.RData (o descárgalo del Dataverse) y cárgalo a R. Este marco de datos contiene información tanto de la encuesta previa como de la encuesta del día del experimento. Echa un vistazo al artículo, al libro de códigos de los datos i al annexo del artículo para conocer mejor los datos.
En esta actividad os pedimos que repliquéis los principales resultados del experimento.
Crea una tabla con varios modelos de regresión, con la misma variable dependiente: apoyo a un gobierno militar (es importante que esta variable mida la actitud en la encuesta realizada después de la asignación experimental). Crea 4 modelos, que contengan las siguientes variables independientes
Variable que distingue el grupo de tratamiento y el de control.
Variable que mide preferencias de apoyo a un gobierno militar medida en la primera encuesta (la variable tiene que empezar por pre_).
Las dos variables.
Las dos variables más controles de sexo, edad y de si se tienen familiares víctimas de la represión.
library(dplyr)library(stargazer)#Lamentablemente, el marco de datos del experimento se llama "all", al igual que la función del mismo nombre, y aunque trate de cambiar su denominación, RStudio sigue detectando ese "all" como la función. Le he cambiado el nombre a "all.datos", pero igualmente me sigue dando error cuando trato de darle a render, así que solo dejaré el código que yo creo que es correcto en lugar de permitir que se aplique el código que mostraría el resultado del mismo. Como demostración, incluyo lo siguiente:all.datos <- allclass(all.datos)#Así, continúo con la creación del código:M1 <-lm(military_gov ~ treat, data = all.datos)M2 <-lm(military_gov ~ treat + pre_military_gov, data = all.datos)M3 <-lm(military_gov ~ treat + pre_military_gov + base_gender + age, data = all.datos)M4 <-lm(military_gov ~ treat + pre_military_gov + base_gender + age + v, data = all.datos)stargazer(M1, M2, M3, M4, type ="text", title ="Modelos de Regresión")
¿Por qué la variable que distingue tratamiento de control tiene valores diferentes en los coeficientes y en los niveles de significación en los distintos modelos?
Las diferencias en los coeficientes y niveles de significación se deben a los efectos de la especificación del modelo, la inclusión de nuevas variables, la colinealidad entre ellas, y cómo cada variable afecta el ajuste y la precisión del modelo.
Crea dos nuevas tablas que muestren los resultados para los individuos de derechas y para los de izquierdas (Pista: usa la variable right y usa la función filter())
derechas <- all.datos %>%filter(right ==1)izquierdas <- all.datos %>%filter(right ==0)M1_derechas <-lm(military_gov ~ treat, data = derechas)M2_derechas <-lm(military_gov ~ treat + pre_military_gov, data = derechas)M3_derechas <-lm(military_gov ~ treat + pre_military_gov, data = derechas)M4_derechas <-lm(military_gov ~ treat + pre_military_gov + base_gender + age + v, data = derechas)M1_izquierdas <-lm(military_gov ~ treat, data = izquierdas)M2_izquierdas <-lm(military_gov ~ treat + pre_military_gov, data = izquierdas)M3_izquierdas <-lm(military_gov ~ treat + pre_military_gov, data = izquierdas)M4_izquierdas <-lm(military_gov ~ treat + pre_military_gov + base_gender + age + v, data = izquierdas)stargazer(M1_derechas, M2_derechas, M3_derechas, M4_derechas, type ="text", title ="Modelos de Regresión - Individuos de Derechas")stargazer(M1_izquierdas, M2_izquierdas, M3_izquierdas, M4_izquierdas, type ="text", title ="Modelos de Regresión - Individuos de Izquierdas")
Actividad opcional (10% de la nota del Reto extra)
Fíjate que las autoras plantean varias variables dependientes alternativas en la Tabla A4 del apéndice. Elige una de ellas, plantea una hipótesis y crea una tabla similar a la del ejercicio 3.1. Cambia todos los elementos que sean necesarios en los modelos y describe brevemente los resultados.
Mi hipótesis es que, tras visitar el museo, el grupo tratado debería sentir más satisfacción con la democracia. Considero que contemplar cómo eran los tiempos antes podría desencadenar un sentimiento de gratitud y conformidad con su situación actual. El grupo de control, por el contrario, deberían mantenerse igual.
M1_democracia <-lm(democracy ~ treat, data = all.datos)M2_democracia <-lm(democracy ~ treat + pre_democracy, data = all.datos)M3_democracia <-lm(democracy ~ treat + pre_democracy + base_gender + age, data = all.datos)M4_democracia <-lm(democracy ~ treat + pre_democracy + base_gender + age + v, data = all.datos)stargazer(M1_democracia, M2_democracia, M3_democracia, M4_democracia, type ="text", title ="Modelos de Regresión para la Satisfacción con la Democracia")
En todos los modelos, el coeficiente de treat es positivo, con valores entre 0.127 y 0.153 (p<0.05). Esto nos demuestra que los individuos que visitaron el museo, en efecto reportan una mayor satisfacción con la democracia que los del grupo de control. El coeficiente de pre_democracy también es positivo, con valores entre 0.535 y 0.553 (p<0.01). Esto parece señalar que la satisfacción con la democracia antes del tratamiento es un predictor de la satisfacción posterior. El coeficiente de gender no era muy significativo, con 0.019 en el Modelo 3 y 0.018 en el Modelo 4. El de age es negativo y poco significativo, -0.003 en ambos modelos, así como el de v. Finalmente, el coeficiente de constant es significativo y positivo, con valores entre 0.575 y 1.159 (p<0.01).
Por otra parte, el R2 varía entre ambos modelos, siendo el más insignificante el del Modelo 1, con un 0,018, y el más significativo el Modelo 2, con 0,347, indicando que la variable pre_democracy es un indicador predictor bastante acertado.
Los valores de F son significativos en todos los casos, por lo que podemos concluir que son medianamente distintos de un modelo sin variables explicativas.