Actividad 4

Autor

Cristina Manovel Redondo

Última modificación

8 de mayo de 2026

Ejercicio 1: Asociaciones causales (30%)

Busca en internet (prensa, twitter/x, etc.) una asociación causal que consideres problemática y que se haya publicado durante los últimos 3 meses. Coméntala en el foro de acuerdo con los principales elementos que aparecen en el módulo de esta unidad.

En la actividad que publiques en el foro:

Sube un vídeo (máximo 1 minuto y medio) en el que expliques brevemente la asociación causal que se ha formulado, la fuente donde la encontraste y la problemática que detectas. Se valorará principalmente el razonamiento que hagas sobre por qué es problemática.

En el texto de tu publicación, incluye la información que consideres necesaria sobre la fuente: enlace, captura de pantalla, etc. Es importante que sea algo de actualidad.

Da “like” a tres publicaciones de otros estudiantes que te hayan gustado.

Ejercicio 2: Correlaciones (15%)

A continuación encontraréis algunos gráficos de correlaciones. De manera similar al juego que podéis encontrar en el material de la asignatura (Guess the Correlation), intentad averiguar, a partir de la imagen, cuál es el coeficiente de correlación. Dad un número y justificadlo adecuadamente (¿Cuál es la dirección? ¿Y la intensidad?).

Imagen 1

Respuesta:

La correlación de esta imagen podría rondar el r=-0.8/-0.85.

Es una correlación negativa puesto que a medida que la variable X aumentan los valores de la variable Y disminuyen es por ello que los puntos toman una forma descendente y por lo que tienen que ser llevar el signo negativo.

Por otro lado, la intensidad de esa correlación es alta puesto que, aunque no vemos la linea linea de regresión, podemos intuir más o menos donde se encuentra ya que los puntos se agrupan en vez de dispersarse.

Imagen 2

Respuesta:

La correlación de la imagen estaría alrededor del 0 puesto que no hay una correlación clara.

La dirección no sigue una tendencia, es por ello que le otorgamos un valor entorno a 0. No podemos observar como, si se introducen cambios en los valores estos reacción de una manera similar, por lo que no existe una relación lineal entre varibles.

Por otro lado, no existe intensidad pues los puntos se dispersan por el gráfico. Por lo que, no se observa un patrón lo que nos dificulta, a su vez, imaginarnos la linea de regresión.

Imagen 3

Respuesta:

En este caso, la correlación sería de 0.6/0.65.

Hay una asociación puesto que a medida que los valores de X aumentan la variable Y también lo hace. por ello la dirección es positiva.

Por otro lado, la intensidad no es tan fuerte como en la imangen 1, pero aun así podemos ver una correlación por lo que diría que es media. Nos encontramos ante puntos más dispersos pero tienen una tendencia clara, e incluso, aunque con más dificultad que en la imagen 1, podríamos imaginar por donde pasa la recta de regresión.

Ejercicio 3: Azar (15%)

En la población, podemos suponer que los cumpleaños se distribuyen de manera aproximadamente uniforme a lo largo de las diferentes estaciones del año.

Imaginad que, para demostrarlo, vamos a una escuela y tomamos la estación del año en que nacieron los alumnos. Lo hacemos a varios niveles:

Una clase (n = 25)
Un curso (n = 100)
Una escuela entera (n = 1000)

Se ha generado un gráfico de barras con la distribución de las estaciones de nacimiento para cada caso (con datos simulados).

Mostrar el código

set.seed(9999)

# Simulamos la estación de nacimiento
classe <- tibble(
  grup = "Clase (N=25)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 25, replace = TRUE)
)

curs <- tibble(
  grup = "Curso (N=100)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 100, replace = TRUE)
)

escola <- tibble(
  grup = "Escuela (N=1000)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 1000, replace = TRUE)
)

# Unimos todos los datos
aniversaris <- bind_rows(classe, curs, escola)

# Ordenamos las estaciones
aniversaris$estacio <- factor(
  aniversaris$estacio,
  levels = c("Primavera", "Verano", "Otoño", "Invierno")
)

# Gráfico de barras
ggplot(aniversaris, aes(x = estacio)) +
  geom_bar(aes(y = after_stat(prop)*100, group = grup), fill = "steelblue") +
  geom_hline(yintercept = 25, linetype = "dashed", color = "red") +
  facet_wrap(~grup, nrow = 3) +
  ylim(c(0, 52)) +
  labs(
    title = "Distribución simulada de los cumpleaños por estación",
    x = "Estación del año en la que nace la persona",
    y = "Porcentaje de estudiantes"
  ) +
  theme_light()

Observa la distribución de los cumpleaños en cada caso (clase, curso y escuela). ¿Hay estaciones con muchos más cumpleaños que otras?

Respuesta:

Si nos fijamos en la distribución por estaciones que se da en clase, nos encontramos con una distribución desigual, en la que en verano e invierno hay un mayor número de nacidos mientras que en primavera y otoño el número de nacidos es más bajos.

A nivel del curso nos encontramos con que en otoño e invierno hay más nacidos que en primavera y verano, pero también con gran desigualdad.

Y, por último, a nivel escuela, podemos ver como se igualan mucho los nacidos, y que todos están cerca de la media.

¿En cuál de los casos la distribución parece más irregular? ¿Y en cuál más equilibrada? ¿Por qué?

Respuesta:

A nivel aula y a nivel curso la distribución es más irregular mientras que a nivel escuela es mucho más equitativo.

Esto se debe a que el número de casos son datos determinantes de la incertidumbre, y es que es imposible estar seguros de que el número de casos es 100% representativo pero cuanto mayor sean los casos que se estudian menor será la incertidumbre.

Por lo tanto, en el caso que se estudia, podemos ver como cuanto mayor es el número de casos estudiados, más estable es el resultado.

Cambiad el siguiente código a EVAL = TRUE y ejecutadlo. ¿Qué información os da? Nota: no es necesario que entréis en el código en sí, sino que interpretéis lo que se ve en el gráfico que genera.

Respuesta:

Podemos ver como a nivel clase las barras de error son muy largas, por lo que, como se indica anteriormente, al haber un bajo número de casos la incertidumbre es muy alta, por lo que el error puede ser grande.

A nivel curso, aunque las barras se acortan, debido al número de casos que se estudian aumenta, esto supone que la estimación es más precisa pero todavía con cierto margen de error.

Por último, a nivel escuela las barras de error existen pero son más cortas y la incertidumbre se reduce mucho. Lo que confirma que cuanto más grande es la muestra menor es la incertidumbre.

Mostrar el código

# Calculamos proporciones e IC
resum <- aniversaris %>%
  count(grup, estacio) %>%
  group_by(grup) %>%
  mutate(
    n_total = sum(n),
    prop = n / n_total,
    se = sqrt(prop * (1 - prop) / n_total),
    lower = (prop - 1.96 * se) * 100, # Utilizamos 1,96 para el IC al 95%
    upper = (prop + 1.96 * se) * 100, # Utilizamos 1,96 para el IC al 95%
    prop = prop * 100
  )

# Gráfico
ggplot(resum, aes(x = estacio, y = prop)) +
  geom_col(fill = "steelblue") +
  geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2) +
  geom_hline(yintercept = 25, linetype = "dashed", color = "red") +
  facet_wrap(~grup, nrow = 3) +
  ylim(c(0, 52)) +
  labs(
    title = "Distribución simulada de los cumpleaños por estación, con intervalos de confianza al 95%",
    x = "Estación del año en la que nace la persona",
    y = "Porcentaje de estudiantes"
  ) +
  theme_light()

Ejercicio 4: Causalidad y relaciones entre variables (40%)

En las ciencias sociales, a menudo es difícil establecer relaciones causales de manera clara, ya que en muchos casos no podemos controlar todas las variables que pueden influir en un fenómeno.

Una de las situaciones en las que sí se pueden aproximar diseños experimentales es en el caso de las encuestas. En este contexto, es posible introducir pequeñas variaciones en el enunciado de las preguntas o proporcionar información adicional a una parte de los encuestados. Esto permite analizar cómo estas modificaciones pueden influir en las respuestas.

En este ejercicio trabajaremos con datos de una encuesta real del Centre d’Estudis d’Opinió sobre el apoyo a las energías renovables en Cataluña. En concreto, se plantea una misma pregunta sobre el apoyo a subvencionar energías renovables, pero con una diferencia importante: a una parte de los encuestados se les indica que estas subvenciones se financiarán mediante un aumento de los impuestos.

Podemos interpretar esta información adicional como un tratamiento experimental: algunos individuos responden sin considerar explícitamente el coste de la política, mientras que otros responden teniendo en cuenta este coste.

El objetivo es analizar si este “tratamiento” (introducir el coste) está asociado a cambios en el apoyo a la política, y reflexionar sobre hasta qué punto podemos interpretar esta relación en términos causales.

En primer lugar, carga el marco de datos, y ejecuta el código que limpia estos datos para quedaros solo con lo que trabajaréis posteriormente.

Mostrar el código

# Lo podéis hacer con el paquete CEOdata, que hace accesibles los datos 
# de encuestas del CEO directamente en R. 
dades_ceo <- CEOdata::CEOdata(reo = "1083")

# Si no os funciona, podéis utilizar el dataset que tenéis en la carpeta
# dades_ceo <- read.csv("enquesta_1083.csv")

dades_ceo <- dades_ceo %>%
   # 1. Seleccionamos solo las variables necesarias
   select(
      TRADEOFFSA, 
      VAL_SUBV_RENOVABLES, 
      VAL_SUBV_RENOVABLES_IMPOSTOS, 
      SIT_LAB
   ) %>%
  
   # 2. Unimos las dos variables de apoyo en una sola
   mutate(
      VAL_RENOVABLES = ifelse(
         TRADEOFFSA == "p30a",
         as.numeric(VAL_SUBV_RENOVABLES) - 1, # -1 para pasar de 1-11 a 0-10
         as.numeric(VAL_SUBV_RENOVABLES_IMPOSTOS) - 1 # -1 para pasar de 1-11 a 0-10
      )
   ) %>%
   select(-VAL_SUBV_RENOVABLES, -VAL_SUBV_RENOVABLES_IMPOSTOS) %>%

   
   # 3. Recodificamos la variable de tratamiento
   mutate(
      TRADEOFFSA = recode(
         TRADEOFFSA,
         "p30a" = "Sin coste",
         "p30b" = "Con coste"
      )
   ) %>%
   
   # 4. Recodificamos la situación laboral en dos grupos
   mutate(
      SIT_LAB = recode(
         SIT_LAB,
         "Treballo" = "Trabaja",
         "No treballo" = "No trabaja",
         "Estic temporalment de baixa" = NA_character_,
         "Prefereixo no contestar" = NA_character_
      )
   )

0. Examinad el marco de datos

¿Qué variables tenéis? ¿De qué tipo?

Mostrar el código

# Escribe el código y cambia a eval=T
glimpse(dades_ceo)

Rows: 2,023
Columns: 3
$ TRADEOFFSA     <fct> Sin coste, Sin coste, Sin coste, Con coste, Con coste, …
$ SIT_LAB        <fct> Trabaja, Trabaja, NA, Trabaja, Trabaja, NA, No trabaja,…
$ VAL_RENOVABLES <dbl> 5, 3, 10, 4, 6, 4, 10, 5, 10, 5, 5, 4, 6, 10, 5, 8, 10,…

Tenemos 3 variables, la TRADEOFFSA, SIT_LAB y VAL_RENOVABLES. De estas variables, las dos primeras son categórica y la última es númerica.

1. Descripción de la variable

Describe la variable VAL_RENOVABLES, que recoge el apoyo a las energías renovables. Utiliza algún gráfico que consideres adecuado para mostrar cómo se distribuyen las respuestas. (Nota: hay diferentes gráficos posibles, elegid el que consideréis más adecuado)

Mostrar el código

# Escribe el código y cambia a eval=T
ggplot(dades_ceo, aes(x = VAL_RENOVABLES)) +
  geom_histogram(binwidth = 1, fill = "blue", color = "white") +
  scale_x_continuous(breaks = 0:10) +
  labs(
    title = "Apoyo a las subvenciones de renovables",
    x = "Nivel de apoyo (0: Mínimo - 10: Máximo)",
    y = "Frecuencia"
  ) +
  theme_minimal()

Interpretación:

Podemos ver como el apoyo a las energias renovables es positivo, puesto que hay una aprobación de entre el 5 y el 10, aunque el apoyo mayoritario es en el 5, por lo que, hay una postura moderada.

2. Efecto del tratamiento (coste)

Analiza los datos para ver si hay diferencias en el apoyo medio a las subvenciones a las energías renovables según si los individuos han estado expuestos al coste de la política (TRADEOFFA). Utiliza un gráfico para comparar la media entre los dos grupos y coméntalo. Explicad, también, qué creeis que se estaba intentando averiguar con este experimento.

Mostrar el código

# Escribe el código y cambia a eval=T

resum_experiment <- dades_ceo %>%
  group_by(TRADEOFFSA) %>%
  summarise(
    Media_Apoyo = mean(VAL_RENOVABLES, na.rm = TRUE)
  )

ggplot(resum_experiment, aes(x = TRADEOFFSA, y = Media_Apoyo, fill = TRADEOFFSA)) +
  geom_col(width = 0.5) +
  scale_y_continuous(limits = c(0, 10)) + 
  labs(
    title = "Información del coste en el apoyo a las renovables",
    x = "Condición Experimental",
    y = "Media de Apoyo (0-10)"
  ) +
  theme_minimal() +
  guides(fill = "none")

Respuesta:

Podemos ver que el apoyo a las renovables cambia dependiendo si va a suponer un coste extra al contribuyente o no. Las personas que reciben la informacion sobre el incremento del coste apoyan en menor medida (un 5) que las personas que no tienen esta información que lo apoyan en un 7.

Por lo tanto, esta información tiene un impacto negativo en el apoyo de las renovables.

3. Efecto de la situación laboral

A continuación, se muestran las diferencias en el apoyo medio a las subvenciones a las energías renovables por situación laboral (Nota: Se han excluido del análisis las personas que están de baja o que no han contestado a la pregunta de situación laboral). ¿Observas diferencias entre grupos? ¿Crees que son debidas al azar?

Mostrar el código

# Calculamos medias e intervalos de confianza
resum <- dades_ceo %>%
  filter(!is.na(SIT_LAB)) %>%
  group_by(SIT_LAB) %>%
  summarise(
    n = n(),
    mitjana = mean(VAL_RENOVABLES, na.rm = TRUE),
    se = sd(VAL_RENOVABLES, na.rm = TRUE) / sqrt(n),
    lower = mitjana - 1.96 * se,
    upper = mitjana + 1.96 * se
  )

# Gráfico
ggplot(resum, aes(x = SIT_LAB, y = mitjana)) +
  geom_point(size = 3) +
  geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2) +
  labs(
    title = "Apoyo a las energías renovables según situación laboral",
    x = "Situación laboral",
    y = "Media del apoyo (0–10)"
  ) +
  theme_light()

Respuesta:

El grupo que trabaja apoya la renovables (6) en mayor medida que el grupo que no lo hace (entre el 5.8 y 5.9). Aunque los intervalos de confianza se solapan por lo que esto puede ser debido al azar y por la muestra que se ha escogido. Así que no podemos confirmar que haya una evidencia que el apoyo a las renovables, dependa, en cierta medida a la situación laboral.

4. Interpretación causal

A partir de lo que has observado en los apartados 2 y 3:

¿Crees que dar información sobre los costes causa una disminución del apoyo a subvenciones para las energías renovables?

Respuesta:

Teniendo en cuenta el gráfico del ejercicio 2, la información sobre los costes tuvo un impacto en el apoyo a las renovables. Teniendo en cuenta su condicion de diseño experimental, podemos confirmar que la bajada del apoyo fue provocada en gran parte por introducir la información del costo que iba a tener esto sobre los impuestos.

¿Crees que hay una relación causal entre la situación laboral y el apoyo a las energías renovables? ¿Puede ser que haya alguna otra variable de confusión?

Respuesta:

No se puede decir que haya una relación causal entre la situación laboral y el apoyo a las renovables puesto que, como se ha destacado antes, los intervalos se solapan. Por ello, podemos deducir que hay otras variables de confusión, como podería ser la ideología o el nivel educativo de la persona.