20619_R4_Actividad 4.2: Ejercicios
Actividad 1: Asociaciones causales.
En estadística, se entiende por asociación la relación entre dos o más variables, es decir, cuando los valores de una ofrecen información y varían respecto a los de otra (Mas y Vall-Prat 2023).
Los medios de comunicación difunden constantemente noticias y opiniones basadas en asociaciones mal formuladas. Un ejemplo sería el artículo “Los extranjeros delinquen más” publicado en The Objective (Ruiz-Jarabo 2024).
Actividad 2: Correlaciones.
Otra de las características de las asociaciones es el nivel de relación que alcanzan las variables, que puede medirse mediante el coeficiente de correlación: si es próximo a 0 la correlación es débil y si se acerca al 1, fuerte.
Un alumno del European Bioinformatics Institute desarrolló un sencillo juego para poner en práctica dicho coeficiente (Wagih 2016):
Actividad 3: Azar.
A la hora de comprobar la influencia del azar, se puede recrear el lanzamiento de una moneda con sample() y observar el resultado de 100 tiradas para dos experimentos diferentes:
Mostrar código.
set.seed(242)
a <- sample(c("Cara", "Cruz"), 100, replace = TRUE)
table(a)a
Cara Cruz
55 45
Mostrar código.
set.seed(1400)
b <- sample(c("Cara", "Cruz"), 100, replace = TRUE)
table(b)b
Cara Cruz
44 56
La función set.seed() fija la incertidumbre y hace reproducibles los resultados. Se ha modificado su valor de un caso a otro tratando de forzar la distinción entre los ejemplos a y b.
En Ciencias Sociales existe la convención de que el reparto de frecuencias en un experimento azaroso tiende a ser justo, un hecho que la moneda ha validado al quedarse considerablemente cerca de la mitad de resultados para las opciones cara y cruz: 55-45 en a y 44-56 en b.
Con un intervalo de confianza de 14.31 al 95%, se asume que la diferencia de caras y cruces debe ser mayor que el citado valor para rechazar la hipótesis nula, siendo ésta la que plantea una relación entre las variables determinada únicamente por el azar, mientras que la hipótesis alternativa se centra en el estudio de algún tipo de inferencia estadística:
a: 55-45=10 < 14.31b: 56-44=12 < 14.31
Los experimentos no rechazan la hipótesis nula y, por tanto, los resultados del resto de alumnos no deberían presentar variaciones significativas. El número de lanzamientos propuesto no se antoja suficiente como para que la aleatoriedad propia de la moneda sobrepase el umbral de confianza.
Actividad 4: Causalidad.
Se dispone de un marco de datos de 50 observaciones con las respuestas de una población en cuanto a la percepción de seguridad en su barrio, siendo 0 muy inseguro y 10 muy seguro:
Mostrar código.
datos <- read_rds("r4_es.rds")
glimpse(datos)Rows: 50
Columns: 7
$ num <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 1…
$ nombre <chr> "Pere Puig", "Ana García", "Joan Rovira", "Lucía López", "Ca…
$ edad <int> 35, 60, 50, 39, 38, 40, 42, 32, 45, 23, 42, 21, 54, 30, 58, …
$ genero <chr> "Hombre", "Mujer", "Hombre", "Mujer", "Hombre", "Mujer", "Ho…
$ educacion <chr> "Secundarios", "Universitarios", "Secundarios", "Sin estudio…
$ politica <chr> "Liberalismo", "Progresismo", "Liberalismo", "Progresismo", …
$ seguridad <int> 1, 2, 1, 2, 4, 1, 3, 0, 4, 3, 2, 1, 3, 0, 3, 7, 8, 6, 8, 4, …
Se quiere separar a los individuos en un grupo de tratamiento (1) y un grupo de control (2). A los primeros se les ofrecería información sobre la adecuada seguridad de sus barrios en comparación con otros y a los segundos no.
- La división ordenada de los grupos otorga el siguiente gráfico:
Mostrar código.
datos |>
mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
grupo_random = sample(c("1", "2"), n(), replace = T)) |>
ggplot(aes(x = grupo, y = seguridad)) +
geom_jitter(width = 0.2, alpha = 0.1) +
stat_summary(fun.data = mean_se,
fun.args = list(mult = 1.96),
size = 0.2, colour = "red") +
labs(title = "Experimento sobre seguridad (grupos ordenados)",
x = "Grupo",
y = "Percepción seguridad")El grupo 1 corresponde a las primeras 25 observaciones del marco y el grupo 2 a las últimas 25, en estricto orden de aparición. Se ha utilizado la técnica de la media con la función mean_se, agregando todas las respuestas de cada grupo en dos únicas cifras: el grupo 1 alcanza los 3,75 puntos y el grupo 2 se aproxima por debajo a los 7,5.
- Si se aleatorizan los integrantes de cada grupo, el gráfico cambia:
Mostrar código.
datos |>
mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
grupo_random = sample(c("1", "2"), n(), replace = T)) |>
ggplot(aes(x = grupo_random, y = seguridad)) +
geom_jitter(width = 0.2, alpha = 0.1) +
stat_summary(fun.data = mean_se,
fun.args = list(mult = 1.96),
size = 0.2, colour = "red") +
labs(title = "Experimento sobre seguridad (grupos aleatorios)",
x = "Grupo",
y = "Percepción seguridad")En esta ocasión, el grupo 1 ya no recoge exclusivamente las 25 primeras observaciones del marco codificadas con el valor 1 y el grupo 2 las últimas 25 codificadas con el valor 2, sino que todas ellas se reparten aleatoriamente, dando lugar a una mezcla heterogénea que iguala las respuestas de los grupos, acercándolas en ambos casos a un valor ligeramente superior al 5.
- Por último, se establece una distinción por género en los grupos:
Mostrar código.
datos |>
mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
grupo_random = sample(c("1", "2"), n(), replace = T)) |>
ggplot(aes(x = grupo, y = seguridad, col = genero)) +
geom_jitter(width = 0.2, alpha = 0.1) +
stat_summary(fun.data = mean_se,
fun.args = list(mult = 1.96),
size = 0.2,
position = position_dodge(0.2)) +
labs(title = "Experimento sobre seguridad (grupos comparados por género)",
x = "Grupo",
y = "Percepción seguridad",
col = "Género")La variable genero incide en la percepción de seguridad. Las mujeres son más conservadoras que los hombres a la hora de puntuar, provocando que el agregado final caiga en los dos grupos. Este fenómeno podría asociarse a los antecedentes y valores sociales y culturales propios de los seres humanos a lo largo de la historia: el predominio del heteropatriarcado, la asociación del “deber de seguridad” con los hombres o la prevalencia, aún a día de hoy, de un volumen mucho mayor de casos de violencia de género y abusos sexuales hacia las mujeres.
Actividad 5: Modelos.
Esta gráfica (Poast 2024) relaciona las capacidades materiales de un Estado (índice CINC) con su poder diplomático (número de embajadas diferentes en territorio nacional).
En base a la original, se diseña una recta de regresión con un intercept de 0 y una slope de 1.55:
Mostrar código.
datos |>
ggplot(aes(x = 0, y = 1)) +
geom_abline(intercept = 0 , slope = 1.55, col = "blue") +
lims(x = c(0,1), y = c(0,1)) +
labs(title = "Recta de regresión CINC-relaciones diplomáticas",
x = "Índice CINC",
y = "Relaciones diplomáticas")El intercepto indica el valor de y cuando x = 0 (en la gráfica original corresponde a 0).
La pendiente mide cómo cambia y cuando x incrementa 1 unidad (en la gráfica original se estima que si x = 0.4, y = 0.625; mediante la fórmula general de la recta se obtiene un valor aproximado de y = 1.55 cuando x = 1).
Conocidos los valores que toma la recta, se puede crear un modelo de regresión que permita predecir una variable si se dispone de la otra:
Mostrar código.
y = intercepto + pendiente * xAplicado al ejemplo con el que se está trabajando, la fórmula actualizada quedaría así:
Mostrar código.
y = 0 + 1.55 * xA modo de prueba, se imagina un Estado con 0.35 puntos en el índice CINC del que se desea conocer la intensidad de sus relaciones diplomáticas:
Mostrar código.
modelo_regresion <- 0 + 1.55 * 0.35
modelo_regresion[1] 0.5425
La estimación que ofrece el modelo es de 0.5425 puntos.
Para cerrar, en términos causales, se aprecia una asociación positiva entre las variables: cuando una varía, la otra replica dicho comportamiento en el mismo sentido.
Además, podría añadirse un fuerte grado de correlación. El modelo original refleja que, excepto algunos casos aislados, destacando sobre todo EE.UU. y China pero también Bélgica o India, el grueso de Estados se aglomeran junto a la recta de regresión.
Por último, no se antoja que las variables mantengan una causalidad directa. Pese a su clara asociación, no sólo el poder material influye en las capacidades diplomáticas: factores geopolíticos, estratégicos o económicos las pueden alterar. Sería, por tanto, una relación no determinista, en la que eventos pasados no garantizan sucesos futuros en este tipo de estudios sociales.