Actividad 4

Autor

Eugenia Cornide

Última modificación

11 de mayo de 2026

Ejercicio 1: Asociaciones causales (30%)

Busca en internet (prensa, twitter/x, etc.) una asociación causal que consideres problemática y que se haya publicado durante los últimos 3 meses. Coméntala en el foro de acuerdo con los principales elementos que aparecen en el módulo de esta unidad.

En la actividad que publiques en el foro:

Sube un vídeo (máximo 1 minuto y medio) en el que expliques brevemente la asociación causal que se ha formulado, la fuente donde la encontraste y la problemática que detectas. Se valorará principalmente el razonamiento que hagas sobre por qué es problemática.

En el texto de tu publicación, incluye la información que consideres necesaria sobre la fuente: enlace, captura de pantalla, etc. Es importante que sea algo de actualidad.

Da “like” a tres publicaciones de otros estudiantes que te hayan gustado.

Ejercicio 2: Correlaciones (15%)

A continuación encontraréis algunos gráficos de correlaciones. De manera similar al juego que podéis encontrar en el material de la asignatura (Guess the Correlation), intentad averiguar, a partir de la imagen, cuál es el coeficiente de correlación. Dad un número y justificadlo adecuadamente (¿Cuál es la dirección? ¿Y la intensidad?).

Imagen 1

Respuesta: En este gráfico se puede observar que, aunque existe algo de dispersión, la intensidad es bastante fuerte, lo que indica un valor cercano a 1. Como al aumentar el valor de X, diminuye el valor de y podemos establecer una dirección negativa, por lo que el valor puede ser cercano a -0,8 o -0,9.

Imagen 2

Respuesta: Aquí no pdemos determinar una tendencia positiva ni negativa, ya que el valor de y no varía en funcion de los valores de x y además, los puntos están muy dispersos, por lo que no existe correlacion entre las variables. El valor es cercano a 0.No existe correlación entre las variables.

Imagen 3

Respuesta: En este gráfico podemos identificar una tendencia positiva que indica la dirección ascendente de los valores; cuando aumenta x tambien lo hace y. Al existir bastante dispersion podemos estimar el coeficiente de correlacion entre 0.5 y 0.6 aproximadamente.

Ejercicio 3: Azar (15%)

En la población, podemos suponer que los cumpleaños se distribuyen de manera aproximadamente uniforme a lo largo de las diferentes estaciones del año.

Imaginad que, para demostrarlo, vamos a una escuela y tomamos la estación del año en que nacieron los alumnos. Lo hacemos a varios niveles:

Una clase (n = 25)
Un curso (n = 100)
Una escuela entera (n = 1000)

Se ha generado un gráfico de barras con la distribución de las estaciones de nacimiento para cada caso (con datos simulados).

Mostrar el código

set.seed(9999)

# Simulamos la estación de nacimiento
classe <- tibble(
  grup = "Clase (N=25)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 25, replace = TRUE)
)

curs <- tibble(
  grup = "Curso (N=100)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 100, replace = TRUE)
)

escola <- tibble(
  grup = "Escuela (N=1000)",
  estacio = sample(c("Primavera", "Verano", "Otoño", "Invierno"),
                   size = 1000, replace = TRUE)
)

# Unimos todos los datos
aniversaris <- bind_rows(classe, curs, escola)

# Ordenamos las estaciones
aniversaris$estacio <- factor(
  aniversaris$estacio,
  levels = c("Primavera", "Verano", "Otoño", "Invierno")
)

# Gráfico de barras
ggplot(aniversaris, aes(x = estacio)) +
  geom_bar(aes(y = after_stat(prop)*100, group = grup), fill = "steelblue") +
  geom_hline(yintercept = 25, linetype = "dashed", color = "red") +
  facet_wrap(~grup, nrow = 3) +
  ylim(c(0, 52)) +
  labs(
    title = "Distribución simulada de los cumpleaños por estación",
    x = "Estación del año en la que nace la persona",
    y = "Porcentaje de estudiantes"
  ) +
  theme_light()

Observa la distribución de los cumpleaños en cada caso (clase, curso y escuela). ¿Hay estaciones con muchos más cumpleaños que otras?

Respuesta: Podemos observar, a nivel de clase, que existe una notable diferencia entre estaciones, siendo la primavera la que menos cumpleaños tiene en contraposición al verano, donde hay más. A nivel de curso, esta distribuciín varía y se traslada al otoño la estación con mas cumpleaños. Sin embargo, al ir aumentando la muestra se observa que esta distribución se va volviendo más de equilibrada y prácticamente imperceptible en la escuela.

¿En cuál de los casos la distribución parece más irregular? ¿Y en cuál más equilibrada? ¿Por qué?

Respuesta: La distribucion más irregualr corresponde a la clase y la mas equilibrada a la escuela. Esto es debido a que al aumentar el tamaño de la muestra, las diferencias aleatorias tienden a compensarse porque los efectos del azar son menores.

Cambiad el siguiente código a EVAL = TRUE y ejecutadlo. ¿Qué información os da? Nota: no es necesario que entréis en el código en sí, sino que interpretéis lo que se ve en el gráfico que genera.

Respuesta: Lo que observamos ahora en el gráfico es la distribución simulada con intervalos de confianza. Estos intervalos muestran el margen de incertidumbre de cada distribución. Cuanto más pequeña es la muestra, más amplio es el margen de incertidumbre, mientras que en la muestra mayor, el intervalo de confianza indica una estimación más fiable de los datos.

Mostrar el código

# Calculamos proporciones e IC
resum <- aniversaris %>%
  count(grup, estacio) %>%
  group_by(grup) %>%
  mutate(
    n_total = sum(n),
    prop = n / n_total,
    se = sqrt(prop * (1 - prop) / n_total),
    lower = (prop - 1.96 * se) * 100, # Utilizamos 1,96 para el IC al 95%
    upper = (prop + 1.96 * se) * 100, # Utilizamos 1,96 para el IC al 95%
    prop = prop * 100
  )

# Gráfico
ggplot(resum, aes(x = estacio, y = prop)) +
  geom_col(fill = "steelblue") +
  geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2) +
  geom_hline(yintercept = 25, linetype = "dashed", color = "red") +
  facet_wrap(~grup, nrow = 3) +
  ylim(c(0, 52)) +
  labs(
    title = "Distribución simulada de los cumpleaños por estación, con intervalos de confianza al 95%",
    x = "Estación del año en la que nace la persona",
    y = "Porcentaje de estudiantes"
  ) +
  theme_light()

Ejercicio 4: Causalidad y relaciones entre variables (40%)

En las ciencias sociales, a menudo es difícil establecer relaciones causales de manera clara, ya que en muchos casos no podemos controlar todas las variables que pueden influir en un fenómeno.

Una de las situaciones en las que sí se pueden aproximar diseños experimentales es en el caso de las encuestas. En este contexto, es posible introducir pequeñas variaciones en el enunciado de las preguntas o proporcionar información adicional a una parte de los encuestados. Esto permite analizar cómo estas modificaciones pueden influir en las respuestas.

En este ejercicio trabajaremos con datos de una encuesta real del Centre d’Estudis d’Opinió sobre el apoyo a las energías renovables en Cataluña. En concreto, se plantea una misma pregunta sobre el apoyo a subvencionar energías renovables, pero con una diferencia importante: a una parte de los encuestados se les indica que estas subvenciones se financiarán mediante un aumento de los impuestos.

Podemos interpretar esta información adicional como un tratamiento experimental: algunos individuos responden sin considerar explícitamente el coste de la política, mientras que otros responden teniendo en cuenta este coste.

El objetivo es analizar si este “tratamiento” (introducir el coste) está asociado a cambios en el apoyo a la política, y reflexionar sobre hasta qué punto podemos interpretar esta relación en términos causales.

En primer lugar, carga el marco de datos, y ejecuta el código que limpia estos datos para quedaros solo con lo que trabajaréis posteriormente.

Mostrar el código

# Lo podéis hacer con el paquete CEOdata, que hace accesibles los datos 
# de encuestas del CEO directamente en R. 
dades_ceo <- CEOdata::CEOdata(reo = "1083")

# Si no os funciona, podéis utilizar el dataset que tenéis en la carpeta
# dades_ceo <- read.csv("enquesta_1083.csv")

dades_ceo <- dades_ceo %>%
   # 1. Seleccionamos solo las variables necesarias
   select(
      TRADEOFFSA, 
      VAL_SUBV_RENOVABLES, 
      VAL_SUBV_RENOVABLES_IMPOSTOS, 
      SIT_LAB
   ) %>%
  
   # 2. Unimos las dos variables de apoyo en una sola
   mutate(
      VAL_RENOVABLES = ifelse(
         TRADEOFFSA == "p30a",
         as.numeric(VAL_SUBV_RENOVABLES) - 1, # -1 para pasar de 1-11 a 0-10
         as.numeric(VAL_SUBV_RENOVABLES_IMPOSTOS) - 1 # -1 para pasar de 1-11 a 0-10
      )
   ) %>%
   select(-VAL_SUBV_RENOVABLES, -VAL_SUBV_RENOVABLES_IMPOSTOS) %>%

   
   # 3. Recodificamos la variable de tratamiento
   mutate(
      TRADEOFFSA = recode(
         TRADEOFFSA,
         "p30a" = "Sin coste",
         "p30b" = "Con coste"
      )
   ) %>%
   
   # 4. Recodificamos la situación laboral en dos grupos
   mutate(
      SIT_LAB = recode(
         SIT_LAB,
         "Treballo" = "Trabaja",
         "No treballo" = "No trabaja",
         "Estic temporalment de baixa" = NA_character_,
         "Prefereixo no contestar" = NA_character_
      )
   )

0. Examinad el marco de datos

¿Qué variables tenéis? ¿De qué tipo?

El marco de datos contiene tres variables principales. - TRADEOFFSA es una variable categórica que indica si la persona respondió la pregunta sobre subvenciones a energías renovables “sin coste” o “con coste”. -VAL_RENOVABLES es una variable numérica, medida en una escala de 0 a 10, que recoge el nivel de apoyo a las subvenciones. Finalmente, - SIT_LAB es una variable categórica que distingue entre personas que trabajan y personas que no trabajan.

Mostrar el código

# Escribe el código y cambia a eval=T
glimpse(dades_ceo)

Rows: 2,023
Columns: 3
$ TRADEOFFSA     <fct> Sin coste, Sin coste, Sin coste, Con coste, Con coste, …
$ SIT_LAB        <fct> Trabaja, Trabaja, NA, Trabaja, Trabaja, NA, No trabaja,…
$ VAL_RENOVABLES <dbl> 5, 3, 10, 4, 6, 4, 10, 5, 10, 5, 5, 4, 6, 10, 5, 8, 10,…

Mostrar el código

summary(dades_ceo)

     TRADEOFFSA         SIT_LAB     VAL_RENOVABLES  
 Sin coste:1012   Trabaja   :1187   Min.   : 0.000  
 Con coste:1011   No trabaja: 729   1st Qu.: 5.000  
                  NAs       : 107   Median : 6.000  
                                    Mean   : 5.924  
                                    3rd Qu.: 8.000  
                                    Max.   :10.000

1. Descripción de la variable

Describe la variable VAL_RENOVABLES, que recoge el apoyo a las energías renovables. Utiliza algún gráfico que consideres adecuado para mostrar cómo se distribuyen las respuestas. (Nota: hay diferentes gráficos posibles, elegid el que consideréis más adecuado)

Mostrar el código

# Escribe el código y cambia a eval=T
ggplot(dades_ceo, aes(x = VAL_RENOVABLES)) +
  geom_histogram(binwidth = 1, fill = "steelblue", color = "red") +
  labs(
    title = "Distribución del apoyo a las energías renovables",
    x = "Nivel de apoyo (0-10)",
    y = "Frecuencia"
  ) +
  theme_light()

Interpretación: Según el gráfico resultante, la mayor parte de las respuestan señalan un apoyo positivo a las energías renovables. Se observa una representación significativa de la negativa total de estas energías, pero puntuaciones poco frecuentes en los valores más bajos. Esto indica que existe un consenso relativamente amplio favorable a subvencionar las energías renovables.

2. Efecto del tratamiento (coste)

Analiza los datos para ver si hay diferencias en el apoyo medio a las subvenciones a las energías renovables según si los individuos han estado expuestos al coste de la política (TRADEOFFA). Utiliza un gráfico para comparar la media entre los dos grupos y coméntalo. Explicad, también, qué creeis que se estaba intentando averiguar con este experimento.

Mostrar el código

# Escribe el código y cambia a eval=T

# Creamos un nuevo marco de datos para hacer el cálculo
apoyo <- dades_ceo |>
  group_by(TRADEOFFSA) |> #agrupa los datos segun la variable tradeoffsa
  summarise( #creamos las estadisticas para cada grupo
    media = mean(VAL_RENOVABLES, na.rm = TRUE),#calculamos la media eliminando las respuestas na,
    n = n(),#calcula cuantas observaciones hay en cada grupo (sin coste y con coste)
    se = sd(VAL_RENOVABLES, na.rm = TRUE) / sqrt(n), #calculamos el error típico de la media (se)
    limite_inferior = media - 1.96 *  se ,#Calculamos el límite inferior del intervalo de confianza del 95%
    limite_superior = media + 1.96 *  se) #calculamos el limite superior
  
# Gráfico
ggplot(apoyo, aes(x = TRADEOFFSA, y = media)) +
  
  geom_col(fill = "steelblue") +
  
  geom_errorbar(aes(ymin = limite_inferior, ymax = limite_superior), width = 0.2) +
  
  labs(
    title = "Apoyo medio a las renovables según tratamiento (coste)",
    x = "Información sobre el coste",
    y = "Media de apoyo (0-10)"
  ) +
  
  theme_light()

Respuesta: El gráfico muestra que el apoyo medio a las subvenciones para energías renovables disminuye cuando las personas entrevistadas son informadas de que estas políticas implican un aumento de impuestos. Es decir, el grupo “con coste” presenta una media de apoyo ligeramente inferior al grupo “sin coste”.

Con este experimento probablemente se intentaba analizar si la población mantiene su grado de apoyo a esta politica pública al conocer su coste económico, puesto que un incremento en los impuestos y por tanto, en el día a día de la ciudadanía puede condicionar el apoyo a una media que, de otra forma, estaría mas asegurado.

3. Efecto de la situación laboral

A continuación, se muestran las diferencias en el apoyo medio a las subvenciones a las energías renovables por situación laboral (Nota: Se han excluido del análisis las personas que están de baja o que no han contestado a la pregunta de situación laboral). ¿Observas diferencias entre grupos? ¿Crees que son debidas al azar?

Mostrar el código

# Calculamos medias e intervalos de confianza
resum <- dades_ceo %>%
  filter(!is.na(SIT_LAB)) %>%
  group_by(SIT_LAB) %>%
  summarise(
    n = n(),
    mitjana = mean(VAL_RENOVABLES, na.rm = TRUE),
    se = sd(VAL_RENOVABLES, na.rm = TRUE) / sqrt(n),
    lower = mitjana - 1.96 * se,
    upper = mitjana + 1.96 * se
  )

# Gráfico
ggplot(resum, aes(x = SIT_LAB, y = mitjana)) +
  geom_point(size = 3) +
  geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2) +
  labs(
    title = "Apoyo a las energías renovables según situación laboral",
    x = "Situación laboral",
    y = "Media del apoyo (0–10)"
  ) +
  theme_light()

Respuesta:

4. Interpretación causal

A partir de lo que has observado en los apartados 2 y 3:

¿Crees que dar información sobre los costes causa una disminución del apoyo a subvenciones para las energías renovables?

Respuesta: Sí, podemos inferir una interpretación causal con gran seguridad, puesto que la diferencia principal entre ambos grupos es que a uno de ellos se le proporciona información adicional sobre el coste de la política, mientras que al otro no. Es decir, existe una especie de tratamiento experimental dentro de la encuesta.

Como los resultados muestran que el apoyo medio a las subvenciones disminuye cuando se menciona explícitamente el coste de las polñiticas, podemos pensar que la introducción de esta variable influye en las respuestas de las personas participantes.

En cualquier caso, aunque se vea una cierta relación causal, podrían existir otros motivos no recogidos en estos datos que expliquen las diferencias en el apoyo a estas politicas.

¿Crees que hay una relación causal entre la situación laboral y el apoyo a las energías renovables? ¿Puede ser que haya alguna otra variable de confusión?

Respuesta: Como la situación laboral es una característica previa de las personas encuestadas y no podemos establecer un universo paralelo donde cambiarla y hacer la misma pregunta a estas personas, no podemos saber con seguridad si las diferencias se deben realmente a estar o no trabajando o a otros factores.

Además, podrían existir variables de confusión que influyan simultáneamente tanto en la situación laboral como en las opiniones sobre las energías renovables. Por ejemplo, la edad, el nivel educativo, la situación económica, la ideología política, etc.

Las barras de error en el gráfico muestran tambien un cierto nivel de incertidumbre en los datos a través de los intervalos de confianza que, en ambos grupos se solapan bastante, lo que indica que las diferencias podrían deberse parcialmente al azar.

Por todo ello, no podemos concluir que exista una relación causal clara que descarte la influencia de otros factores no estudiados.