Tras jugar a “Guess the Correlation” a continuación adjunto captura de pantalla del juego.
Actividad 3: Azar (15%)
Se simula el lanzamiento de una moneda 250 veces para a y para b. Los resultados los vemos a continuación.Donde vemos valores para Cara y Crus para los casos a y b.
set.seed(242) #esta función te sirve para "fijar" el azar, lo que nos viene bien para el propósito del ejercicio ya que los resultados serán replicables (más info: https://r-coder.com/set-seed-r/?utm_content=cmp-true)a <-sample(c("Cara", "Cruz"), 250, replace =TRUE)b <-sample(c("Cara", "Cruz"), 250, replace =TRUE)table(a)
a
Cara Cruz
136 114
table(b)
b
Cara Cruz
120 130
Hipótesis nula : No hay diferencia significativa entre el número de “Cara” y “Cruz” (probabilidad de 0.5 para cada lado), esto es la moneda está equilibrada.
Hipótesis alternativa: La moneda no está equilibrada, esto es, existe una diferencia significativa entre el número de “Cara” y “Cruz”.
Que el intervalo de confianza al 95% tenga un valor crítico de 14.31, significa que la diferencia en el número de resultados entre “Cara” y “Cruz” debe superar este umbral para considerarse significativa. De manera esquematica si:
∣Cara−Cruz∣≤14.31, no hay diferencias significativas y aceptamos la hipótesis nula.
∣Cara−Cruz∣>14.31 ,existen diferencias significativas y aceptamos la hipótesis alternativa.
En nuestro caso para:
a: ∣Cara−Cruz∣=22>14.31 lo que significa que existen diferencias significativas y aceptamos la hipótesis alternativa.
b: ∣Cara−Cruz∣=10<14,31 no hay diferencias significativas y aceptamos la hipótesis nula.
Vemos que en el caso b la diferencia no es significativa y se puede dar por el azar mientras que en el caso a este valor si es significativo. En el caso de a, podemos decir que en raras ocasiones el azar puede dar resultados extremos, como en este caso. Por lo tanto, a pesar de que es poco probable que los valores de otros estudiantes difieran mucho en alguna raras ocasiones esto se puede dar
Actividad 4: Causalidad (15%)
Examinanos el marco de datos, en el qu e vemos que existes 50 observaciones y 7 variables.
datos <-read_rds("r4_es.rds")datos
# A tibble: 50 × 7
num nombre edad genero educacion politica seguridad
<int> <chr> <int> <chr> <chr> <chr> <int>
1 1 Pere Puig 35 Hombre Secundarios Liberalismo 1
2 2 Ana García 60 Mujer Universitarios Progresismo 2
3 3 Joan Rovira 50 Hombre Secundarios Liberalismo 1
4 4 Lucía López 39 Mujer Sin estudios Progresismo 2
5 5 Carles Martínez 38 Hombre Universitarios Liberalismo 4
6 6 Marta Ruiz 40 Mujer Primarios Progresismo 1
7 7 Jordi Ferrer 42 Hombre Primarios Conservadurismo 3
8 8 Sara Muñoz 32 Mujer Secundarios Progresismo 0
9 9 Arnau Vidal 45 Hombre Secundarios Progresismo 4
10 10 Cristina Sánchez 23 Mujer Secundarios Conservadurismo 3
# ℹ 40 more rows
La gráfica inferior muestra la percepción de seguridad en función del grupo en el que se ha colocado cada individuo. Los puntos que vemos en la gráfica inferior muestran cada individuo y la percepción del nivel de seguridad en su barrio. La variable grupo está dividida de forma secuencial, con los primeros 25 individuos en un grupo (grupo= 1) y los últimos 25 en el otro (grupo = 2). Los estadísticos de resumen en color rojo indican que hay una gran variabilidad en la percepción de seguridad entre los grupos, lo que puede significar un sesgo en la manera en la que se han dividido los grupos pues no se han cogido de manera aleatoria sino que se dividido de forma secuencial.
Al utilizar grupo_random, cada individuo es asignado aleatoriamente a uno de los dos grupos (grupo = 1 o grupo = 2). De esta manera se elimina el sesgo secuencial que habiamos visto en el apartado anterior. Los puntos muestran una distribución más equilibrada en términos de percepción de seguridad entre los grupos, esto es una señal de que los grupos elegidos ahora son más similares en sus características básicas que en el apartado anterior.
En esta gráfica vemos los mismos grupos que en la primera gráfica donde los grupos están formados de forma secuencial. Lo que observamos en la gráfica ahora al separar los grupos por géneros es que dentro de cada uno de estos grupos la variabilidad no es grande, esto es, los individuos en cada grupo tienen distribuciones similares en términos de género. Esto a pesar de que la diferencia entre ambos grupos es grande.
Esto sugiere que cualquier diferencia observada en los resultados del experimento posterior puede ser atribuida al tratamiento, no a diferencias preexistentes entre los grupos.
datos |>mutate(grupo =rep(c("1", "2"), length.out =n(), each =25),grupo_random =sample(c("1", "2"), n(), replace = T)) |>ggplot(aes(x = grupo, y = seguridad, col = genero)) +geom_jitter(width =0.2, alpha =0.1) +stat_summary(fun.data = mean_se,fun.args =list(mult =1.96), size =0.2,position =position_dodge(0.2))
Actividad 5: Modelos
La pendiente está definida como m=1 lo que indica que por cada aumento unitario en x, y aumenta también en una unidad.Esto es, que la intensidad de las relaciones diplomáticas aumenta a medida que aumentan las capacidades materiales, El intercepto b=0 significa que la línea pasa por el origen del plano cartesiano (0,0).Esto significa que un país con un CINC muy bajo tendría una intensidad diplomática baja
datos |>ggplot(aes(x =0, y =1)) +geom_abline(intercept =0 , slope =1, col ="blue") +lims(x =c(0,1), y =c(0,1))
A continuación vemos la formula que nos permite estimar la intensidad de las relaciones diplomáticas de un estado en función de sus capacidades materiales. La gráfica nos permite visualizar una tendencia positiva en la que a medida que las capacidades materiales de un estado (CINC) aumentan, la intensidad de sus relaciones diplomáticas también tiende a aumentar.
# Establecer valores de CINC y calcular la intensidad de relacionesCINC <-seq(0, 1, length.out =100)intensidad <-1.5* CINClibrary(ggplot2)ggplot(data.frame(CINC, Intensidad = intensidad), aes(x = CINC, y = Intensidad)) +geom_line(color ="blue") +labs(x ="Índice CINC", y ="Intensidad de Relaciones Diplomáticas") +theme_minimal()
La intensidad de las relaciones diplomáticas de un estado que puntúa 0.35 en el índice CINC es 0.525 como vemos tras usar el siguiente codigo.
La relación entre las capacidades materiales de un estado y la intensidad de sus relaciones diplomáticas esta relacionada de manera positiva. Como hemos visto, los estados con un valor de CINC más alto mantienen más relaciones diplomáticas. Las relaciones diplomáticas las hemos medido en base al número de embajadas de otros estados que se encuentran dentro del estado. Sin embargo, cabe destacar, que, a pesar de esta correlación, se deben de tener en cuenta otros factores como la historia, la cultura, y la geopolítica a la hora de explicar estas relaciones. En resumen, los estados con mayores capacidades materiales tienen mayor probabilidad de mantener fuertes relaciones diplomática, pero esto no significa que sea una causalidad absoluta y por lo tanto deben considerarse múltiples factores que influyen en las interacciones internacionales.