Estadística para el Análisis Político 1 | Lección 5: Comparación de medias y de proporciones

Marylia Cruz

Repaso de las sesiones anteriores

  • ¿Cómo se calcula un indice aditivo?

  • ¿Cuando utilizamos el intervalo de confianza ?

  • ¿Qué prueba utilizamos para comparar dos medias?

  • ¿Qué grafico usamos para mostrar la diferencia de dos medias?

Repaso de Creación de un indicador aditivo

Deseamos crear un indicador con: P30_01 ,P30_02,P30_03, P30_08 , P30_09 y P30_10.

  • Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.

  • Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

Creación de un indicador aditivo

Calcula indicador :

library(rio)
data=import("Base de datos para Proética 2019_4.sav")
head(names(data))
[1] "SbjNum" "nivel"  "nivel2" "Dg1"    "Dg1x"   "DG02"  

Resolución / Dar formato a las variables

Se debe reemplazar el valor 6 por 0 Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data=data%>%
  dplyr::rename("congreso"=P30_01)%>%
  dplyr::mutate(congreso=replace(congreso, 6,0))%>%
  dplyr::rename("contraloria"=P30_02)%>%
  dplyr::mutate(contraloria=replace(contraloria, 6,0))%>%
  dplyr::rename("fiscalia"=P30_03)%>%
  dplyr::mutate(fiscalia=replace(fiscalia, 6,0))%>%
  dplyr::rename("procur"=P30_08)%>%
  dplyr::mutate(procur=replace(procur,6,0))%>%
  dplyr::rename("judicial"=P30_09)%>%
  dplyr::mutate(judicial=replace(judicial, 6,0))%>%
  dplyr::rename("policia"=P30_10)%>%
  dplyr::mutate(policia=replace(policia, 6,0))

Resolución / Ejecutar la suma

data$suma=
  data$congreso+data$contraloria+data$fiscalia+data$procur+data$judicial+data$policia
summary(data$suma)
hist(data$suma)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   6.00   12.00   14.00   14.42   18.00   28.00     235 

Resolución /Reescalar la suma de 0 a 100

Manera 1

data=data%>%
  mutate(lucha_anticorr=((suma-0)/36)*100)

summary(data$lucha_anticorr)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  16.67   33.33   38.89   40.04   50.00   77.78     235 

Manera 2

library(scales)
data$indicador=rescale(data$suma,to=c(0,100))

Resolución / Intervalo de la media

Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.

library(Rmisc)
intervalomedia=CI(na.omit(data$lucha_anticorr),ci=0.99)
intervalomedia
   upper     mean    lower 
40.79116 40.04487 39.29858 

Interpretación: A un 99% de nivel de confianza, el intervalo de confianza de la media oscila entre 41.00 y 42.51, en un rango de 0 a 100. En otras palabras, los peruanos y peruanas tienen una evaluación negativa sobre el desempeño de las instituciones encargadas de la lucha anticorrupción.

Resolución / Intervalo de la media - Gráfico

library(lsr)
tabla=data%>%summarise(Media = mean(lucha_anticorr, na.rm=T),
            LimiteInferior = ciMean(lucha_anticorr,conf = 0.99, na.rm=T)[1],
            LimiteSuperior = ciMean(lucha_anticorr,conf = 0.99, na.rm=T)[2]
            )
tabla
     Media LimiteInferior LimiteSuperior
1 40.04487       39.29858       40.79116

Resolución / Intervalo de la media - Gráfico

library(ggplot2)
ggplot(tabla, aes(x = "", y = Media)) +
  geom_point(size = 5) +  # Punto de la media
  geom_errorbar(aes(ymin = LimiteInferior, ymax = LimiteSuperior), width = 0.2) +
  labs(y = "Valor", x = "") +
  theme_minimal() +
  theme(axis.text.x = element_blank(), axis.ticks.x = element_blank())+ ylab("Promedio del ingreso mínimo")+
  ylim(30, 50) 

Resolución / Intervalo de la media por grupos - Formato

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

  • Dar formato a la variable zonab
data$zonab=as.factor(data$zonab)
data$zonab=factor(data$zonab,levels = c(1:2),labels = c("LimaM","Interior"))
table(data$zonab)

   LimaM Interior 
     578     1279 

Resolución / Intervalo de la media por grupos - Tabla resumen

library(dplyr)
library(lsr)
tabla2=data%>%
  dplyr::group_by(zonab)%>%
  dplyr::summarise(Media = mean(indicador, na.rm=T),
            limiteinferior = ciMean(indicador,conf = 0.99, na.rm=T)[1],
            limitesuperior = ciMean(indicador,conf = 0.99, na.rm=T)[2]
            )
tabla2
# A tibble: 2 × 4
  zonab    Media limiteinferior limitesuperior
  <fct>    <dbl>          <dbl>          <dbl>
1 LimaM     38.3           36.1           40.5
2 Interior  38.2           36.8           39.7

Resolución / Intervalo de la media por grupos - Gráfico: Barras de Error

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

library(ggplot2)
ggplot(tabla2, aes(x=zonab, y = Media))+
  geom_errorbar(aes(ymin=limiteinferior, ymax=limitesuperior), width=0.2)+
  geom_text(aes(label=paste(round(Media, 2))), size = 4)+
  xlab("Zona") + ylab("Índice de Evaluacion a las instituciones en su lucha contra la corrupción")+
  ggtitle("Promedio de índice de Evaluacion a las instituciones en su lucha contra la corrupción segun la zona de residencia")+ylim(35,45)

Comparación de medias - Prueba T para muestras indepedientes

Esta prueba compara la media de una variable de numérica para dos grupos. Los grupos que forman la variable nominal/ordinal tienen que ser independientes. Es decir, cada observación debe pertenecer a un grupo o al otro, pero no a ambos.

Comparación de medias - Prueba T para muestras indepedientes

Comparación de medias - Prueba T para muestras indepedientes (Ej. 1)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano?

t.test(indicador~zonab,data=data)

Comparación de medias - Interpretación

  • Hipótesis nula: No hay diferencia de medias entre los grupos

Al 95% de nivel de confianza, considera lo siguiente:

Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.

Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.

Interpretación: Al 95% de nivel de confianza, no rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

  • Dar formato a la variable DG06
data$DG06=as.factor(data$DG06)
data$DG06=factor(data$DG06,levels = c(1:2),labels = c("Sí","No"))
table(data$DG06)

  Sí   No 
1260  597 

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

t.test(indicador~DG06,data=data)

    Welch Two Sample t-test

data:  indicador by DG06
t = -4.5381, df = 983.32, p-value = 6.379e-06
alternative hypothesis: true difference in means between group Sí and group No is not equal to 0
95 percent confidence interval:
 -6.661880 -2.639651
sample estimates:
mean in group Sí mean in group No 
        36.75277         41.40354 

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

Dado que el valor del p-valor es = 9.794e-05

El e- significa que se incluyen 5 decimales antes del punto. Por tanto, el valor es 0.00009794.

Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, existe una diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre quienes tienen o no hijos.

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Realiza el gráfico de comparación de medias.

Comparación de proporciones

  • π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.

  • Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.

Ejemplos:

Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.

Comparación de proporciones

Cuando usar la técnica de comparación de proporciones.

Comparación de proporciones

  1. Dar formato a las variables.
  • Variable P1_03: Si considera que la corrupción es el principal problema del país.
data$P1_03=as.factor(data$P1_03)
data$P1_03=factor(data$P1_03,levels = c(0:1),labels = c("No","Yes"))
table(data$P1_03)

  No  Yes 
 732 1125 
  • Variable Sexo: Hombre o Mujer
data$sexo=as.factor(data$DG02)
data$sexo=factor(data$sexo,levels = c(1:2),labels = c("Hombre","Mujer"))
table(data$sexo)

Hombre  Mujer 
   909    948 

Comparación de proporciones / Prueba de proporciones

  1. Tabla cruzada de las dos variables nominales.
table(data$P1_03,data$sexo)
     
      Hombre Mujer
  No     332   400
  Yes    577   548
  1. Tabla cruzada de porcentajes de las dos variables nominales.
prop.table(table(data$P1_03,data$sexo),2)
     
         Hombre     Mujer
  No  0.3652365 0.4219409
  Yes 0.6347635 0.5780591

Comparación de proporciones / Prueba de proporciones

  1. Realizar la prueba de diferencia de proporciones. Recordar que la hipótesis nula es que no existe diferencia de proporciones.
prop.test(x=c(577,548),n=c(332+577,400+548))

    2-sample test for equality of proportions with continuity correction

data:  c(577, 548) out of c(332 + 577, 400 + 548)
X-squared = 6.013, df = 1, p-value = 0.0142
alternative hypothesis: two.sided
95 percent confidence interval:
 0.01126355 0.10214526
sample estimates:
   prop 1    prop 2 
0.6347635 0.5780591 

Comparación de proporciones / Prueba de proporciones - Interpretación

  • Hipótesis nula: No hay diferencia de medias entre los grupos

Al 95% de nivel de confianza, considera lo siguiente:

Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.

Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.

Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano

Comparación de proporciones / Prueba de proporciones

n <- c(909, 948)  # Tamaños de muestra
x <- c(577, 548)    # Éxitos
test_result <- prop.test(x, n, conf.level = 0.95)

Realizar la prueba de proporciones y obtener intervalos de confianza