Estadística para el Análisis Político | Lección 6

Marylia Cruz

Repaso de las sesiones anteriores

  • ¿Qué significa realizar un análisis descriptivo?

  • ¿Cuando utilizamos el intervalo de confianza ?

  • ¿Qué es la estadística bivariada?

  • ¿Qué prueba utilizamos para comparar dos medias?

  • ¿Qué grafico usamos para mostrar la diferencia de dos medias?

Creación de un indicador

  • ¿Qué es un indicador?

    Los indicadores son datos cuantitativos, producto de los procedimientos establecidos por el investigador, quien genera resultados que todos pueden observar de la misma manera.

  • ¿Cuándo empleo indicadores?

    Representar de manera empírica un concepto-abstracto.

  • ¿Qué es un indicador aditivo?

    Es una variable latente producido a través de la suma de un conjunto de variables manifiestas.

  • ¿Cuándo empleo indicadores aditivos?

    Para resumir información.

Creación de un indicador aditivo

Deseamos crear un indicador sobre TOLERANCIA A LA CORRUPCIÓN.

  • ¿Qué es la tolerancia a la corrupción?

  • ¿Cómo observo la tolerancia a la corrupción en la realidad?

Creación de un indicador aditivo

Calcula indicador de TOLERANCIA A LA CORRUPCIÓN con las siguientes variables:

Resolución

Como ya sabemos, lo primero a realizar es cambiar el directorio y abrir la base de datos.

setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278/Lecture6_files")
library(rio)
data=import("Base de datos para Proética 2019_4.sav")
head(names(data))
[1] "SbjNum" "nivel"  "nivel2" "Dg1"    "Dg1x"   "DG02"  
 num [1:1857] 6 2 1 1 4 2 2 1 2 1 ...
 - attr(*, "label")= chr "P41.1 ¿Qué tan de acuerdo o en desacuerdo está con…? - Evadir impuestos si sabe que no lo descubrirán"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "labels")= Named num [1:6] 1 2 3 4 5 6
  ..- attr(*, "names")= chr [1:6] "Totalmente en desacuerdo" "En desacuerdo" "Ni de acuerdo ni en desacuerdo" "De acuerdo" ...

Resolución / Dar formato a las variables

Se debe reemplazar el valor 6 por NA. Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data=data%>%
  rename("impuestos"=P41_1)%>%
  mutate(impuestos=na_if(impuestos, 6))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  1.000   2.000   2.000   1.998   2.000   5.000      17 
summary(data$impuestos)

Se repite este procedimiento con las demás variables.

Comparación de proporciones

  • π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.

  • Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.

Ejemplos:

Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.

Comparación de proporciones

Abrimos la base de datos de Encuesta Nacional de Docentes.

library(rio)
endo=import("Base ENDO 2018.sav")
head(names(endo))
[1] "CUESTIONARIO"    "cod_ie"          "Estrato"         "DEPTO"          
[5] "CODGEO"          "FACTOREXPANSION"

Comparación de proporciones

Exploro las variables.

  • Corroboro los valores de la variable P502:

str(endo$P502)
 num [1:15087] 1 1 1 1 2 1 2 2 2 2 ...
 - attr(*, "label")= chr "En su opinión, ¿considera justa la remuneración que recibe actualmente por su labor como docente en esta escuela?"
 - attr(*, "format.spss")= chr "F1.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:3] 1 2 99
  ..- attr(*, "names")= chr [1:3] "Si" "No" "NEP"
  • Docente de colegio público o privado.
str(endo$P07)

Dar formato a las variables.

endo$P502=as.factor(endo$P502)
endo$remuneracion=factor(endo$P502,
                levels = levels(endo$P502),
                labels = c("Si justo ","No justo"),
                ordered = F)

Comparación de proporciones/ Formato de las variables

  • Corroboro los valores de la variable P07:
str(endo$P07)
 num [1:15087] 2 2 2 2 2 2 2 2 2 1 ...
 - attr(*, "label")= chr "Gestión"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:2] 1 2
  ..- attr(*, "names")= chr [1:2] "Publica" "Privada"
endo$P07=as.factor(endo$P07)
endo$P07=factor(endo$P07,
                levels = levels(endo$P07),
                labels = c("Pública","Privada"),
                ordered = F)

Comparación de proporciones / Tabla de contingencia

table(endo$P502,endo$P07)
           
            Pública Privada
  Si justa      721    3232
  No justa     7504    3630

Comparación de proporciones / Tabla de contingencia con proporciones

prop.table(table(endo$remuneracion,endo$P07),2)
           
               Pública    Privada
  Si justa  0.08765957 0.47099971
  No justa  0.91234043 0.52900029

Comparación de proporciones / Prueba de proporciones

Pregunta: ¿hay diferencias entre la proporción de si los docentes consideran justa o no su remuneración por si son de colegios públicos o privados?

prop.test(x=c(7504,3630),n=c(7504+721,3630+3232))

    2-sample test for equality of proportions with continuity correction

data:  c(7504, 3630) out of c(7504 + 721, 3630 + 3232)
X-squared = 2841, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
 0.3699085 0.3967717
sample estimates:
   prop 1    prop 2 
0.9123404 0.5290003 

Conclusión: Se rechaza la H0. Es probable que haya diferencias entre lo que no consideran justa su remuneración de acuerdo al colegios público o privado.

Comparación de proporciones / Gráfico de barras

  • Dado que 2 es No.Reemplazo el valor de 2 por 0.
endo$P502=as.factor(endo$P502)
levels(endo$P502)[2] <- 0
endo$P502=as.character(endo$P502)
endo$P502=as.numeric(as.character(endo$P502))
  • Les asigno el formato de numéricas solo por conveniencia de formato para porder graficar.
endo$P07=as.factor(endo$P07)

proporcion <- group.CI(P502~P07, endo)
proporcion
      P07 P502.upper  P502.mean P502.lower
1 Pública 0.09377249 0.08765957 0.08154666
2 Privada 0.48281296 0.47099971 0.45918646

Comparación de proporciones / Gráfico de barras

Repaso de creación de un indicador