Estadística para el Análisis Político | Lección 6

Marylia Cruz

Repaso de las sesiones anteriores

  • ¿Qué significa realizar un análisis descriptivo?

  • ¿Cuando utilizamos el intervalo de confianza ?

  • ¿Qué es la estadística bivariada?

  • ¿Qué prueba utilizamos para comparar dos medias?

  • ¿Qué grafico usamos para mostrar la diferencia de dos medias?

Creación de un indicador

  • ¿Qué es un indicador?

    Los indicadores son datos cuantitativos, producto de los procedimientos establecidos por el investigador (Variable latente), quien genera resultados que todos pueden observar de la misma manera.

  • ¿Cuándo empleo indicadores?

    Representar de manera empírica un concepto-abstracto.

  • ¿Qué es un indicador aditivo?

    Es una variable latente producido a través de la suma de un conjunto de variables manifiestas.

Creación de un indicador aditivo

Deseamos crear un indicador sobre TOLERANCIA A LA CORRUPCIÓN.

  • ¿Qué es la tolerancia a la corrupción?

  • ¿Cómo observo la tolerancia a la corrupción en la realidad?

  • ¿Con qué información cuento para construir un indicador de tolerancia a la corrupción?

  • ¿De qué tipo son las variables manifiestas para crear dicho indicador ?

  • ¿Existen categorías como “No sabe/no responde” en las variables manifiestas para crear dicho indicador ?

Creación de un indicador aditivo

Calcula indicador de TOLERANCIA A LA CORRUPCIÓN con las siguientes variables:

Resolución

Como ya sabemos, lo primero a realizar es cambiar el directorio y abrir la base de datos.

setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278/Lecture6_files")
library(rio)
data=import("Base de datos para Proética 2019_4.sav")
head(names(data))
[1] "SbjNum" "nivel"  "nivel2" "Dg1"    "Dg1x"   "DG02"  
 num [1:1857] 6 2 1 1 4 2 2 1 2 1 ...
 - attr(*, "label")= chr "P41.1 ¿Qué tan de acuerdo o en desacuerdo está con…? - Evadir impuestos si sabe que no lo descubrirán"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "labels")= Named num [1:6] 1 2 3 4 5 6
  ..- attr(*, "names")= chr [1:6] "Totalmente en desacuerdo" "En desacuerdo" "Ni de acuerdo ni en desacuerdo" "De acuerdo" ...

Resolución / Dar formato a las variables

Se debe reemplazar el valor 6 por NA. Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data=data%>%
  rename("impuestos"=P41_1)%>%
  mutate(impuestos=na_if(impuestos, 6))
summary(data$impuestos)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  1.000   2.000   2.000   1.998   2.000   5.000      17 

Resolución / Dar formato a las variables

Con las demás variables.

data=data%>%
  dplyr::rename("piratas"=P41_2)%>%
  mutate(piratas=na_if(piratas, 6))%>%
  dplyr::rename("propinas"=P41_3)%>%
  mutate(propinas=na_if(propinas, 6))%>%
  dplyr::rename("simpatizantes"=P41_4)%>%
  mutate(simpatizantes=na_if(simpatizantes, 6))%>%
  dplyr::rename("factura"=P41_5)%>%
  mutate(factura=na_if(factura, 6))%>%
  dplyr::rename("pariente"=P41_6)%>%
  mutate(pariente=na_if(pariente, 6))%>%
  dplyr::rename("favor"=P41_7)%>%
  mutate(favor=na_if(favor, 6))%>%
  dplyr::rename("autoridad"=P41_8)%>%
  mutate(autoridad=na_if(autoridad, 6))%>%
  rename("supremo"=P41_9)%>%
  mutate(supremo=na_if(supremo, 6))%>%
  rename("parlamentario"=P41_10)%>%
  mutate(parlamentario=na_if(parlamentario, 6))%>%
  rename("corrupto"=P41_11)%>%
  mutate(corrupto=na_if(corrupto, 6))

Resolución / Ejecutar la suma

Sumar las variables

data$suma=data$impuestos+data$piratas+data$propinas+
data$simpatizantes+data$factura+data$pariente+
data$favor+data$autoridad+data$supremo+
data$parlamentario+data$corrupto

Resumen de la suma como summary.

summary(data$suma)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  11.00   18.00   22.00   21.48   23.00   54.00      91 

Resolución / Realizar la transformación de 0 a 100

Resto el mínimo y divido entre el nuevo máximo. Múltiplico por 100.

data=data %>%
  mutate(resta = ((suma - 11)/ 43), 
tolerancia_corrupcion = resta * 100) 
summary(data$tolerancia_corrupcion)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   0.00   16.28   25.58   24.36   27.91  100.00      91 

Se repite este procedimiento con las demás variables.

Intervalo de confianza de la media

Calcula el intervalo de confianza de la media del indicador de corrupción.

library(Rmisc)
intervalomedia=CI(na.omit(data$tolerancia_corrupcion),ci=0.95)
intervalomedia
   upper     mean    lower 
25.02882 24.36461 23.70040 

Intervalo de confianza de la media por grupos

Calcula el intervalo de confianza de la media del indicador de corrupción según hombres y mujeres.

Comparación de proporciones

  • π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.

  • Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.

Ejemplos:

Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.

Comparación de proporciones

Abrimos la base de datos de Encuesta Nacional de Docentes.

library(rio)
endo=import("Base ENDO 2018.sav")
head(names(endo))
[1] "CUESTIONARIO"    "cod_ie"          "Estrato"         "DEPTO"          
[5] "CODGEO"          "FACTOREXPANSION"

Comparación de proporciones

Exploro las variables.

  • Corroboro los valores de la variable P502:

str(endo$P502)
 num [1:15087] 1 1 1 1 2 1 2 2 2 2 ...
 - attr(*, "label")= chr "En su opinión, ¿considera justa la remuneración que recibe actualmente por su labor como docente en esta escuela?"
 - attr(*, "format.spss")= chr "F1.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:3] 1 2 99
  ..- attr(*, "names")= chr [1:3] "Si" "No" "NEP"
  • Docente de colegio público o privado.
str(endo$P07)

Dar formato a las variables.

endo$P502=as.factor(endo$P502)
endo$remuneracion=factor(endo$P502,
                levels = levels(endo$P502),
                labels = c("Si justo ","No justo"),
                ordered = F)

Comparación de proporciones/ Formato de las variables

  • Corroboro los valores de la variable P07:
str(endo$P07)
 num [1:15087] 2 2 2 2 2 2 2 2 2 1 ...
 - attr(*, "label")= chr "Gestión"
 - attr(*, "format.spss")= chr "F8.0"
 - attr(*, "display_width")= int 6
 - attr(*, "labels")= Named num [1:2] 1 2
  ..- attr(*, "names")= chr [1:2] "Publica" "Privada"
endo$P07=as.factor(endo$P07)
endo$P07=factor(endo$P07,
                levels = levels(endo$P07),
                labels = c("Pública","Privada"),
                ordered = F)

Comparación de proporciones / Tabla de contingencia

table(endo$P502,endo$P07)
           
            Pública Privada
  Si justa      721    3232
  No justa     7504    3630

Comparación de proporciones / Tabla de contingencia con proporciones

prop.table(table(endo$remuneracion,endo$P07),2)
           
               Pública    Privada
  Si justa  0.08765957 0.47099971
  No justa  0.91234043 0.52900029

Comparación de proporciones / Prueba de proporciones

Pregunta: ¿hay diferencias entre la proporción de si los docentes consideran justa o no su remuneración por si son de colegios públicos o privados?

prop.test(x=c(7504,3630),n=c(7504+721,3630+3232))

    2-sample test for equality of proportions with continuity correction

data:  c(7504, 3630) out of c(7504 + 721, 3630 + 3232)
X-squared = 2841, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
 0.3699085 0.3967717
sample estimates:
   prop 1    prop 2 
0.9123404 0.5290003 

Conclusión: Se rechaza la H0. Es probable que haya diferencias entre lo que no consideran justa su remuneración de acuerdo al colegios público o privado.

Comparación de proporciones / Gráfico de barras

  • Dado que 2 es No.Reemplazo el valor de 2 por 0.
endo$P502=as.factor(endo$P502)
levels(endo$P502)[2] <- 0
endo$P502=as.character(endo$P502)
endo$P502=as.numeric(as.character(endo$P502))
  • Les asigno el formato de numéricas solo por conveniencia de formato para porder graficar.
endo$P07=as.factor(endo$P07)

proporcion <- group.CI(P502~P07, endo)
proporcion
      P07 P502.upper  P502.mean P502.lower
1 Pública 0.09377249 0.08765957 0.08154666
2 Privada 0.48281296 0.47099971 0.45918646

Comparación de proporciones / Gráfico de barras

Repaso de creación de un indicador