Estadística para el Análisis Político | Lección 7

Marylia Cruz

Repaso de las sesiones anteriores

¿Cómo se calcula un indice aditivo?
¿Cuando utilizamos el intervalo de confianza ?
¿Qué es la estadística bivariada?
¿Qué prueba utilizamos para comparar dos medias?
¿Qué grafico usamos para mostrar la diferencia de dos medias?

Repaso de Creación de un indicador aditivo

Deseamos crear un indicador con: P30_01 ,P30_02,P30_03, P30_08 , P30_09 y P30_10.

Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

Creación de un indicador aditivo

Calcula indicador :

setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278/Lecture6_files")

library(rio)
data=import("Base de datos para Proética 2019_4.sav")
head(names(data))

[1] "SbjNum" "nivel"  "nivel2" "Dg1"    "Dg1x"   "DG02"

Resolución / Dar formato a las variables

Se debe reemplazar el valor 6 por 0 Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data=data%>%
  dplyr::rename("congreso"=P30_01)%>%
  dplyr::mutate(congreso=replace(congreso, 6,0))%>%
  dplyr::rename("contraloria"=P30_02)%>%
  dplyr::mutate(contraloria=replace(contraloria, 6,0))%>%
  dplyr::rename("fiscalia"=P30_03)%>%
  dplyr::mutate(fiscalia=replace(fiscalia, 6,0))%>%
  dplyr::rename("procur"=P30_08)%>%
  dplyr::mutate(procur=replace(procur,6,0))%>%
  dplyr::rename("judicial"=P30_09)%>%
  dplyr::mutate(judicial=replace(judicial, 6,0))%>%
  dplyr::rename("policia"=P30_10)%>%
  dplyr::mutate(policia=replace(policia, 6,0))

Resolución / Ejecutar la suma

data$suma=
  data$congreso+data$contraloria+data$fiscalia+data$procur+data$judicial+data$policia
summary(data$suma)
hist(data$suma)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   12.00   15.00   15.03   18.00   36.00

Resolución /Reescalar la suma de 0 a 100

Manera 1

data=data%>%
  mutate(lucha_anticorr=((suma-0)/36)*100)

summary(data$lucha_anticorr)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   33.33   41.67   41.76   50.00  100.00

Manera 2

library(scales)
data$indicador=rescale(data$suma,to=c(0,100))

Resolución / Intervalo de la media

Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.

library(Rmisc)
intervalomedia=CI(na.omit(data$lucha_anticorr),ci=0.99)
intervalomedia

   upper     mean    lower 
42.51455 41.75791 41.00128

Interpretación: A un 99% de nivel de confianza, el intervalo de confianza de la media oscila entre 41.00 y 42.51, en un rango de 0 a 100. En otras palabras, los peruanos y peruanas tienen una evaluación negativa sobre el desempeño de las instituciones encargadas de la lucha anticorrupción.

Resolución / Intervalo de la media por grupos - Formato

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

Dar formato a la variable zonab

data$zonab=as.factor(data$zonab)
data$zonab=factor(data$zonab,levels = c(1:2),labels = c("LimaM","Interior"))
table(data$zonab)


   LimaM Interior 
     578     1279

Resolución / Intervalo de la media por grupos - Tabla resumen

library(dplyr)
library(lsr)
tabla2=data%>%
  dplyr::group_by(zonab)%>%
  dplyr::summarise(Media = mean(indicador, na.rm=T),
            limiteinferior = ciMean(indicador,conf = 0.99, na.rm=T)[1],
            limitesuperior = ciMean(indicador,conf = 0.99, na.rm=T)[2]
            )
tabla2

# A tibble: 2 × 4
  zonab    Media limiteinferior limitesuperior
  <fct>    <dbl>          <dbl>          <dbl>
1 LimaM     41.6           40.3           42.9
2 Interior  41.8           40.9           42.8

Resolución / Intervalo de la media por grupos - Gráfico: Barras de Error

Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.

library(ggplot2)
ggplot(tabla2, aes(x=zonab, y = Media))+
  geom_errorbar(aes(ymin=limiteinferior, ymax=limitesuperior), width=0.2)+
  geom_text(aes(label=paste(round(Media, 2))), size = 4)+
  xlab("Zona") + ylab("Índice de Evaluacion a las instituciones en su lucha contra la corrupción")+
  ggtitle("Promedio de índice de Evaluacion a las instituciones en su lucha contra la corrupción segun la zona de residencia")+ylim(35,45)

Comparación de medias - Prueba T para muestras indepedientes

Esta prueba compara la media de una variable de numérica para dos grupos. Los grupos que forman la variable nominal/ordinal tienen que ser independientes. Es decir, cada observación debe pertenecer a un grupo o al otro, pero no a ambos.

Comparación de medias - Prueba T para muestras indepedientes

Comparación de medias - Prueba T para muestras indepedientes (Ej. 1)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano?

t.test(indicador~zonab,data=data)

Comparación de medias - Interpretación

Hipótesis nula: No hay diferencia de medias entre los grupos

Al 95% de nivel de confianza, considera lo siguiente:

Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.

Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.

Interpretación: Al 95% de nivel de confianza, no rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

Dar formato a la variable DG06

data$DG06=as.factor(data$DG06)
data$DG06=factor(data$DG06,levels = c(1:2),labels = c("Sí","No"))
table(data$DG06)


  Sí   No 
1260  597

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

t.test(indicador~DG06,data=data)


    Welch Two Sample t-test

data:  indicador by DG06
t = -3.9093, df = 1157.2, p-value = 9.794e-05
alternative hypothesis: true difference in means between group Sí and group No is not equal to 0
95 percent confidence interval:
 -3.691100 -1.224195
sample estimates:
mean in group Sí mean in group No 
        40.96781         43.42546

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?

Dado que el valor del p-valor es = 9.794e-05

El e- significa que se incluyen 5 decimales antes del punto. Por tanto, el valor es 0.00009794.

Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, existe una diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre quienes tienen o no hijos

Comparación de proporciones

π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.
Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.

Ejemplos:

Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.

Comparación de proporciones

Abrimos la base de datos de Encuesta Nacional de Docentes.

library(rio)
endo=import("Base ENDO 2018.sav")
head(names(endo))

[1] "CUESTIONARIO"    "cod_ie"          "Estrato"         "DEPTO"          
[5] "CODGEO"          "FACTOREXPANSION"

Comparación de proporciones

Exploro las variables.

Corroboro los valores de la variable P502:

str(endo$P502)

 num [1:15087] 1 1 1 1 2 1 2 2 2 2 ...
 - attr(*, "label")= chr "En su opinión, ¿considera justa la remuneración que recibe actualmente por su labor como docente en esta escuela?"
 - attr(*, "format.spss")= chr "F1.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:3] 1 2 99
  ..- attr(*, "names")= chr [1:3] "Si" "No" "NEP"

Docente de colegio público o privado.

str(endo$P07)

Dar formato a las variables.

endo$P502=as.factor(endo$P502)

endo$remuneracion=factor(endo$P502,
                levels = levels(endo$P502),
                labels = c("Si justo ","No justo"),
                ordered = F)

Comparación de proporciones/ Formato de las variables

Corroboro los valores de la variable P07:

str(endo$P07)

 num [1:15087] 2 2 2 2 2 2 2 2 2 1 ...
 - attr(*, "label")= chr "Gestión"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:2] 1 2
  ..- attr(*, "names")= chr [1:2] "Publica" "Privada"

endo$P07=as.factor(endo$P07)

endo$P07=factor(endo$P07,
                levels = levels(endo$P07),
                labels = c("Pública","Privada"),
                ordered = F)

Comparación de proporciones / Tabla de contingencia

table(endo$P502,endo$P07)

           
            Pública Privada
  Si justa      721    3232
  No justa     7504    3630

Comparación de proporciones / Tabla de contingencia con proporciones

prop.table(table(endo$remuneracion,endo$P07),2)

           
               Pública    Privada
  Si justa  0.08765957 0.47099971
  No justa  0.91234043 0.52900029

Comparación de proporciones / Prueba de proporciones

Pregunta: ¿hay diferencias entre la proporción de si los docentes consideran justa o no su remuneración por si son de colegios públicos o privados?

prop.test(x=c(7504,3630),n=c(7504+721,3630+3232))


    2-sample test for equality of proportions with continuity correction

data:  c(7504, 3630) out of c(7504 + 721, 3630 + 3232)
X-squared = 2841, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
 0.3699085 0.3967717
sample estimates:
   prop 1    prop 2 
0.9123404 0.5290003

Conclusión: Se rechaza la H0. Es probable que haya diferencias entre lo que no consideran justa su remuneración de acuerdo al colegios público o privado.

Comparación de proporciones / Gráfico de barras

Dado que 2 es No.Reemplazo el valor de 2 por 0.

endo$P502=as.factor(endo$P502)

levels(endo$P502)[2] <- 0

endo$P502=as.character(endo$P502)
endo$P502=as.numeric(as.character(endo$P502))

Les asigno el formato de numéricas solo por conveniencia de formato para porder graficar.

endo$P07=as.factor(endo$P07)

proporcion <- group.CI(P502~P07, endo)
proporcion

      P07 P502.upper  P502.mean P502.lower
1 Pública 0.09377249 0.08765957 0.08154666
2 Privada 0.48281296 0.47099971 0.45918646

Estadística para el Análisis Político | Lección 7

Repaso de las sesiones anteriores

Repaso de Creación de un indicador aditivo

Creación de un indicador aditivo

Resolución / Dar formato a las variables

Resolución / Ejecutar la suma

Resolución /Reescalar la suma de 0 a 100

Manera 1

Manera 2

Resolución / Intervalo de la media

Resolución / Intervalo de la media por grupos - Formato

Resolución / Intervalo de la media por grupos - Tabla resumen

Resolución / Intervalo de la media por grupos - Gráfico: Barras de Error

Comparación de medias - Prueba T para muestras indepedientes

Comparación de medias - Prueba T para muestras indepedientes

Comparación de medias - Prueba T para muestras indepedientes (Ej. 1)

Comparación de medias - Interpretación

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Comparación de medias - Prueba T para muestras indepedientes (Ej. 2)

Comparación de proporciones

Comparación de proporciones

Comparación de proporciones

Comparación de proporciones/ Formato de las variables

Comparación de proporciones / Tabla de contingencia

Comparación de proporciones / Tabla de contingencia con proporciones

Comparación de proporciones / Prueba de proporciones

Comparación de proporciones / Gráfico de barras

Comparación de proporciones / Gráfico de barras

Repaso de creación de un indicador