Estadística para el Análisis Político | Lección 7

Marylia Cruz

Repaso de las sesiones anteriores

  • ¿Cómo se calcula un indice aditivo?

  • ¿Cuando utilizamos el intervalo de confianza ?

  • ¿Qué es la estadística bivariada?

  • ¿Qué prueba utilizamos para comparar dos medias?

  • ¿Qué grafico usamos para mostrar la diferencia de dos medias?

Repaso de Creación de un indicador aditivo

Deseamos crear un indicador con: P30_01 ,P30_02,P30_03, P30_08 , P30_09 y P30_10.

  • Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.

  • Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

Creación de un indicador aditivo

Calcula indicador :

setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278/Lecture6_files")
library(rio)
data=import("Base de datos para Proética 2019_4.sav")
head(names(data))
[1] "SbjNum" "nivel"  "nivel2" "Dg1"    "Dg1x"   "DG02"  

Resolución / Dar formato a las variables

Se debe reemplazar el valor 6 por 0 Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data=data%>%
  dplyr::rename("congreso"=P30_01)%>%
  dplyr::mutate(congreso=replace(congreso, 6,0))%>%
  dplyr::rename("contraloria"=P30_02)%>%
  dplyr::mutate(contraloria=replace(contraloria, 6,0))%>%
  dplyr::rename("fiscalia"=P30_03)%>%
  dplyr::mutate(fiscalia=replace(fiscalia, 6,0))%>%
  dplyr::rename("procur"=P30_08)%>%
  dplyr::mutate(procur=replace(procur,6,0))%>%
  dplyr::rename("judicial"=P30_09)%>%
  dplyr::mutate(judicial=replace(judicial, 6,0))%>%
  dplyr::rename("policia"=P30_10)%>%
  dplyr::mutate(policia=replace(policia, 6,0))

Resolución / Ejecutar la suma

data$suma=
  data$congreso+data$contraloria+data$fiscalia+data$procur+data$judicial+data$policia
summary(data$suma)
hist(data$suma)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   12.00   15.00   15.03   18.00   36.00 

Resolución /Reescalar la suma de 0 a 100

Manera 1

data=data%>%
  mutate(lucha_anticorr=((suma-0)/36)*100)

summary(data$lucha_anticorr)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   33.33   41.67   41.76   50.00  100.00 

Manera 2

library(scales)
data$indicador=rescale(data$suma,to=c(0,100))

Resolución / Intervalo de la media

Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.

library(Rmisc)
intervalomedia=CI(na.omit(data$lucha_anticorr),ci=0.99)
intervalomedia
   upper     mean    lower 
42.51455 41.75791 41.00128 

Interpretación: A un 99% de nivel de confianza, el intervalo de confianza de la media oscila entre 41.00 y 42.51, en un rango de 0 a 100. En otras palabras, los peruanos y peruanas tienen una evaluación negativa sobre el desempeño de las instituciones encargadas de la lucha anticorrupción.

Resolución / Intervalo de la media por grupos - Formato

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

  • Dar formato a la variable zonab
data$zonab=as.factor(data$zonab)
data$zonab=factor(data$zonab,levels = c(1:2),labels = c("LimaM","Interior"))
table(data$zonab)

   LimaM Interior 
     578     1279 

Resolución / Intervalo de la media por grupos - Tabla resumen

library(dplyr)
library(lsr)
tabla2=data%>%
  dplyr::group_by(zonab)%>%
  dplyr::summarise(Media = mean(indicador, na.rm=T),
            limiteinferior = ciMean(indicador,conf = 0.99, na.rm=T)[1],
            limitesuperior = ciMean(indicador,conf = 0.99, na.rm=T)[2]
            )
tabla2
# A tibble: 2 × 4
  zonab    Media limiteinferior limitesuperior
  <fct>    <dbl>          <dbl>          <dbl>
1 LimaM     41.6           40.3           42.9
2 Interior  41.8           40.9           42.8

Resolución / Intervalo de la media por grupos - Gráfico: Barras de Error

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

library(ggplot2)
ggplot(tabla2, aes(x=zonab, y = Media))+
  geom_errorbar(aes(ymin=limiteinferior, ymax=limitesuperior), width=0.2)+
  geom_text(aes(label=paste(round(Media, 2))), size = 4)+
  xlab("Zona") + ylab("Índice de Evaluacion a las instituciones en su lucha contra la corrupción")+
  ggtitle("Promedio de índice de Evaluacion a las instituciones en su lucha contra la corrupción segun la zona de residencia")+ylim(35,45)

Comparación de medias - Prueba T para muestras indepedientes

Esta prueba compara la media de una variable de numérica para dos grupos. Los grupos que forman la variable nominal/ordinal tienen que ser independientes. Es decir, cada observación debe pertenecer a un grupo o al otro, pero no a ambos.

Comparación de medias - Prueba T para muestras indepedientes

Comparación de medias - Prueba T para muestras indepedientes (Ej. 1)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano?

t.test(indicador~zonab,data=data)

Comparación de medias - Interpretación

  • Hipótesis nula: No hay diferencia de medias entre los grupos

Al 95% de nivel de confianza, considera lo siguiente:

Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.

Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.

Interpretación: Al 95% de nivel de confianza, no rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

  • Dar formato a la variable DG06
data$DG06=as.factor(data$DG06)
data$DG06=factor(data$DG06,levels = c(1:2),labels = c("Sí","No"))
table(data$DG06)

  Sí   No 
1260  597 

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

t.test(indicador~DG06,data=data)

    Welch Two Sample t-test

data:  indicador by DG06
t = -3.9093, df = 1157.2, p-value = 9.794e-05
alternative hypothesis: true difference in means between group Sí and group No is not equal to 0
95 percent confidence interval:
 -3.691100 -1.224195
sample estimates:
mean in group Sí mean in group No 
        40.96781         43.42546 

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

Dado que el valor del p-valor es = 9.794e-05

El e- significa que se incluyen 5 decimales antes del punto. Por tanto, el valor es 0.00009794.

Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, existe una diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre quienes tienen o no hijos

Comparación de proporciones

  • π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.

  • Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.

Ejemplos:

Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.

Comparación de proporciones

Abrimos la base de datos de Encuesta Nacional de Docentes.

library(rio)
endo=import("Base ENDO 2018.sav")
head(names(endo))
[1] "CUESTIONARIO"    "cod_ie"          "Estrato"         "DEPTO"          
[5] "CODGEO"          "FACTOREXPANSION"

Comparación de proporciones

Exploro las variables.

  • Corroboro los valores de la variable P502:

str(endo$P502)
 num [1:15087] 1 1 1 1 2 1 2 2 2 2 ...
 - attr(*, "label")= chr "En su opinión, ¿considera justa la remuneración que recibe actualmente por su labor como docente en esta escuela?"
 - attr(*, "format.spss")= chr "F1.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:3] 1 2 99
  ..- attr(*, "names")= chr [1:3] "Si" "No" "NEP"
  • Docente de colegio público o privado.
str(endo$P07)

Dar formato a las variables.

endo$P502=as.factor(endo$P502)
endo$remuneracion=factor(endo$P502,
                levels = levels(endo$P502),
                labels = c("Si justo ","No justo"),
                ordered = F)

Comparación de proporciones/ Formato de las variables

  • Corroboro los valores de la variable P07:
str(endo$P07)
 num [1:15087] 2 2 2 2 2 2 2 2 2 1 ...
 - attr(*, "label")= chr "Gestión"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:2] 1 2
  ..- attr(*, "names")= chr [1:2] "Publica" "Privada"
endo$P07=as.factor(endo$P07)
endo$P07=factor(endo$P07,
                levels = levels(endo$P07),
                labels = c("Pública","Privada"),
                ordered = F)

Comparación de proporciones / Tabla de contingencia

table(endo$P502,endo$P07)
           
            Pública Privada
  Si justa      721    3232
  No justa     7504    3630

Comparación de proporciones / Tabla de contingencia con proporciones

prop.table(table(endo$remuneracion,endo$P07),2)
           
               Pública    Privada
  Si justa  0.08765957 0.47099971
  No justa  0.91234043 0.52900029

Comparación de proporciones / Prueba de proporciones

Pregunta: ¿hay diferencias entre la proporción de si los docentes consideran justa o no su remuneración por si son de colegios públicos o privados?

prop.test(x=c(7504,3630),n=c(7504+721,3630+3232))

    2-sample test for equality of proportions with continuity correction

data:  c(7504, 3630) out of c(7504 + 721, 3630 + 3232)
X-squared = 2841, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
 0.3699085 0.3967717
sample estimates:
   prop 1    prop 2 
0.9123404 0.5290003 

Conclusión: Se rechaza la H0. Es probable que haya diferencias entre lo que no consideran justa su remuneración de acuerdo al colegios público o privado.

Comparación de proporciones / Gráfico de barras

  • Dado que 2 es No.Reemplazo el valor de 2 por 0.
endo$P502=as.factor(endo$P502)
levels(endo$P502)[2] <- 0
endo$P502=as.character(endo$P502)
endo$P502=as.numeric(as.character(endo$P502))
  • Les asigno el formato de numéricas solo por conveniencia de formato para porder graficar.
endo$P07=as.factor(endo$P07)

proporcion <- group.CI(P502~P07, endo)
proporcion
      P07 P502.upper  P502.mean P502.lower
1 Pública 0.09377249 0.08765957 0.08154666
2 Privada 0.48281296 0.47099971 0.45918646

Comparación de proporciones / Gráfico de barras

Repaso de creación de un indicador