PEC4: Actividad 4.2

Autor

Itxaso Yuguero Garmendia

Última modificación

15 de diciembre de 2024

Actividad 2: Correlaciones (30%)

Tras jugar a “Guess the Correlation” a continuación adjunto captura de pantalla del juego.

Actividad 3: Azar (15%)

Se simula el lanzamiento de una moneda 250 veces para a y para b. Los resultados los vemos a continuación.Donde vemos valores para Cara y Crus para los casos a y b.

set.seed(242) #esta función te sirve para "fijar" el azar, lo que nos viene bien para el propósito del ejercicio ya que los resultados serán replicables (más info: https://r-coder.com/set-seed-r/?utm_content=cmp-true)
a <- sample(c("Cara", "Cruz"), 250, replace = TRUE)
b <- sample(c("Cara", "Cruz"), 250, replace = TRUE)
table(a)
a
Cara Cruz 
 136  114 
table(b)
b
Cara Cruz 
 120  130 

Hipótesis nula : No hay diferencia significativa entre el número de “Cara” y “Cruz” (probabilidad de 0.5 para cada lado), esto es la moneda está equilibrada.

Hipótesis alternativa: La moneda no está equilibrada, esto es, existe una diferencia significativa entre el número de “Cara” y “Cruz”.

Que el intervalo de confianza al 95% tenga un valor crítico de 14.31, significa que la diferencia en el número de resultados entre “Cara” y “Cruz” debe superar este umbral para considerarse significativa. De manera esquematica si:

∣Cara−Cruz∣≤14.31, no hay diferencias significativas y aceptamos la hipótesis nula.

∣Cara−Cruz∣>14.31 ,existen diferencias significativas y aceptamos la hipótesis alternativa.

En nuestro caso para:

a: ∣Cara−Cruz∣=22>14.31 lo que significa que existen diferencias significativas y aceptamos la hipótesis alternativa.

b: ∣Cara−Cruz∣=10<14,31 no hay diferencias significativas y aceptamos la hipótesis nula.

Vemos que en el caso b la diferencia no es significativa y se puede dar por el azar mientras que en el caso a este valor si es significativo. En el caso de a, podemos decir que en raras ocasiones el azar puede dar resultados extremos, como en este caso. Por lo tanto, a pesar de que es poco probable que los valores de otros estudiantes difieran mucho en alguna raras ocasiones esto se puede dar

Actividad 4: Causalidad (15%)

Examinanos el marco de datos, en el qu e vemos que existes 50 observaciones y 7 variables.

datos <- read_rds("r4_es.rds")
datos
# A tibble: 50 × 7
     num nombre            edad genero educacion      politica        seguridad
   <int> <chr>            <int> <chr>  <chr>          <chr>               <int>
 1     1 Pere Puig           35 Hombre Secundarios    Liberalismo             1
 2     2 Ana García          60 Mujer  Universitarios Progresismo             2
 3     3 Joan Rovira         50 Hombre Secundarios    Liberalismo             1
 4     4 Lucía López         39 Mujer  Sin estudios   Progresismo             2
 5     5 Carles Martínez     38 Hombre Universitarios Liberalismo             4
 6     6 Marta Ruiz          40 Mujer  Primarios      Progresismo             1
 7     7 Jordi Ferrer        42 Hombre Primarios      Conservadurismo         3
 8     8 Sara Muñoz          32 Mujer  Secundarios    Progresismo             0
 9     9 Arnau Vidal         45 Hombre Secundarios    Progresismo             4
10    10 Cristina Sánchez    23 Mujer  Secundarios    Conservadurismo         3
# ℹ 40 more rows

La gráfica inferior muestra la percepción de seguridad en función del grupo en el que se ha colocado cada individuo. Los puntos que vemos en la gráfica inferior muestran cada individuo y la percepción del nivel de seguridad en su barrio. La variable grupo está dividida de forma secuencial, con los primeros 25 individuos en un grupo (grupo= 1) y los últimos 25 en el otro (grupo = 2). Los estadísticos de resumen en color rojo indican que hay una gran variabilidad en la percepción de seguridad entre los grupos, lo que puede significar un sesgo en la manera en la que se han dividido los grupos pues no se han cogido de manera aleatoria sino que se dividido de forma secuencial.

datos |> 
  mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
         grupo_random = sample(c("1", "2"), n(), replace = T)) |>
  ggplot(aes(x = grupo, y = seguridad)) +
  geom_jitter(width = 0.2, alpha = 0.1) +
  stat_summary(fun.data = mean_se,
               fun.args = list(mult = 1.96), 
               size = 0.2, colour = "red")

Al utilizar grupo_random, cada individuo es asignado aleatoriamente a uno de los dos grupos (grupo = 1 o grupo = 2). De esta manera se elimina el sesgo secuencial que habiamos visto en el apartado anterior. Los puntos muestran una distribución más equilibrada en términos de percepción de seguridad entre los grupos, esto es una señal de que los grupos elegidos ahora son más similares en sus características básicas que en el apartado anterior.

datos |> 
  mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
         grupo_random = sample(c("1", "2"), n(), replace = T)) |>
  ggplot(aes(x = grupo_random, y = seguridad)) +
  geom_jitter(width = 0.2, alpha = 0.1) +
  stat_summary(fun.data = mean_se,
               fun.args = list(mult = 1.96), 
               size = 0.2, colour = "red")

En esta gráfica vemos los mismos grupos que en la primera gráfica donde los grupos están formados de forma secuencial. Lo que observamos en la gráfica ahora al separar los grupos por géneros es que dentro de cada uno de estos grupos la variabilidad no es grande, esto es, los individuos en cada grupo tienen distribuciones similares en términos de género. Esto a pesar de que la diferencia entre ambos grupos es grande.

Esto sugiere que cualquier diferencia observada en los resultados del experimento posterior puede ser atribuida al tratamiento, no a diferencias preexistentes entre los grupos.

datos |> 
  mutate(grupo = rep(c("1", "2"), length.out = n(), each = 25),
         grupo_random = sample(c("1", "2"), n(), replace = T)) |>
  ggplot(aes(x = grupo, y = seguridad, col = genero)) +
  geom_jitter(width = 0.2, alpha = 0.1) +
  stat_summary(fun.data = mean_se,
               fun.args = list(mult = 1.96), 
               size = 0.2,
               position = position_dodge(0.2))

Actividad 5: Modelos

La pendiente está definida como m=1 lo que indica que por cada aumento unitario en x, y aumenta también en una unidad.Esto es, que la intensidad de las relaciones diplomáticas aumenta a medida que aumentan las capacidades materiales, El intercepto b=0 significa que la línea pasa por el origen del plano cartesiano (0,0).Esto significa que un país con un CINC muy bajo tendría una intensidad diplomática baja

datos |> 
  ggplot(aes(x = 0, y = 1)) +
  geom_abline(intercept = 0 , slope = 1, col = "blue") +
  lims(x = c(0,1), y = c(0,1))

A continuación vemos la formula que nos permite estimar la intensidad de las relaciones diplomáticas de un estado en función de sus capacidades materiales. La gráfica nos permite visualizar una tendencia positiva en la que a medida que las capacidades materiales de un estado (CINC) aumentan, la intensidad de sus relaciones diplomáticas también tiende a aumentar.

# Establecer valores de CINC y calcular la intensidad de relaciones
CINC <- seq(0, 1, length.out = 100)
intensidad <-  1.5 * CINC

library(ggplot2)
ggplot(data.frame(CINC, Intensidad = intensidad), aes(x = CINC, y = Intensidad)) +
  geom_line(color = "blue")  +
  labs(x = "Índice CINC", y = "Intensidad de Relaciones Diplomáticas") +
  theme_minimal()

La intensidad de las relaciones diplomáticas de un estado que puntúa 0.35 en el índice CINC es 0.525 como vemos tras usar el siguiente codigo.

puntaje_CINC <- 0.35
intensidad_CINC <-  1.5 * puntaje_CINC
intensidad_CINC
[1] 0.525

La relación entre las capacidades materiales de un estado y la intensidad de sus relaciones diplomáticas esta relacionada de manera positiva. Como hemos visto, los estados con un valor de CINC más alto mantienen más relaciones diplomáticas. Las relaciones diplomáticas las hemos medido en base al número de embajadas de otros estados que se encuentran dentro del estado. Sin embargo, cabe destacar, que, a pesar de esta correlación, se deben de tener en cuenta otros factores como la historia, la cultura, y la geopolítica a la hora de explicar estas relaciones. En resumen, los estados con mayores capacidades materiales tienen mayor probabilidad de mantener fuertes relaciones diplomática, pero esto no significa que sea una causalidad absoluta y por lo tanto deben considerarse múltiples factores que influyen en las interacciones internacionales.