Estadística para el Análisis Político | Lección 7

Marylia Cruz

¿Hay diferencia significativa del promedio entre ambos grupos?

Para contestar esta pregunta necesitamos revisar la prueba estadística que sirve para la comparación de un promedio en dos grupos (Prueba t de Student).

Por ello, a continuación observaremos:

  • Estadística bivariada

  • Prueba de hipótesis

Estadística bivariada

La descripción bivariada trata de estudiar la relación entre dos variables de una misma muestra o conjunto de datos. El análisis se realiza con el fin en determinar una relación empírica entre ellas. La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

  • Prueba T: Una variable numérica y una variable categórica (+2 categoría)

  • Prueba Anova: Una variable numérica y una variable categórica (+2 categorías)

  • Prueba Chi-cuadrado: Dos variables categóricas.

  • Prueba de Correlación: Dos variables numéricas.

Prueba de hipótesis

¿Qué es una hipótesis?

Es una afirmación sujeta a verificación.

¿Qué es la prueba de hipótesis?

Es el proceso que se lleva a cabo para determinar la validez de una aseveración hecha sobre la población basándose en evidencia muestral.

La aseveración sobre la población a nivel sus parámetros se refiere a la media, varianza o desviación estándar y proporción.

Para realizar una prueba de hipótesis se requiere plantearse una hipótesis.

Prueba de hipótesis

HIPÓTESIS NULA H0

  • La afirmación que se contrasta en una prueba estadística se llama hipótesis nula. Las pruebas de significación se diseñan para valorar la fuerza de la evidencia en contra de la hipótesis nula.

  • En general, la hipótesis nula es una afirmación de “ausencia de efecto” o de “no diferencia”.

La afirmación en relación con la población sobre la cual queremos hallar evidencia a favor es la hipótesis alternativa, designada como Ha.

Prueba de hipótesis

VALOR P

  • La probabilidad, calculada suponiendo que H0 es cierta, de que el resultado tome un valor al menos tan extremo como el observado se llama valor P de la prueba de significación.

  • Cuanto menor sea el valor P, más fuerte es la evidencia que proporcionan los datos en contra de H0.

Prueba de hipótesis

Prueba de hipótesis

Prueba de hipótesis

Prueba de hipótesis

Prueba de hipótesis

Curva al 99% del nivel de confianza

Prueba T

Es una de las técnicas más comunes para el análisis en ciencias sociales. Ejemplos: Comparar el nivel de ingresos entre hombres y mujeres. Se corrobora si el medio de la variable numérica es diferente en el grupo A, en comparació el grupo B.

  • La variable numérica se denomina “variable dependiente” y a la variable dicotómica, “variable independiente”.

  • Prueba T para muestras independientes Una variable numérica según dos grupos . Ejemplo:

  • Prueba T para muestras relacionadas : Una variable numérica medida en dos tiempos.

Prueba T

Prueba T

Se verifica las varianzas.

La Prueba de Levene es una prueba estadística inferencial utilizada para evaluar la igualdad de las varianzas para una variable calculada para dos o más grupos.

Hipótesis Nula de Prueba de Levene: las varianzas son iguales

Buscamos rechazar la Hipótesis Nula, POR TANTO, las varianza son diferentes.

Prueba T

Ejercicio

Utilizaremos la base de datos sobre las percepciones de corrupción de PROETICA

library(rio)
data=import("proetica2022.sav")
names(data)
  [1] "BS1"           "D1"            "D2"            "D3"           
  [5] "D4"            "D5"            "D6"            "D7"           
  [9] "D2R"           "E1"            "E2"            "E31"          
 [13] "E32"           "E33"           "E34"           "E35"          
 [17] "E36"           "N1"            "N6"            "N7"           
 [21] "N8"            "N9"            "N10"           "N2_1_Rp"      
 [25] "N3_1_Rp"       "N3_2_Rp"       "N3_3_Rp"       "N3_4_Rp"      
 [29] "N4_1_Rp"       "N4_2_Rp"       "N5_1_Rp"       "N5_2_Rp"      
 [33] "P03"           "P07"           "P09"           "P11"          
 [37] "P011"          "P012"          "P013"          "P18"          
 [41] "P19"           "P25"           "P32"           "P131"         
 [45] "P132"          "P133"          "P221"          "P222"         
 [49] "P223"          "P224"          "P225"          "P261"         
 [53] "P262"          "P263"          "P301"          "P302"         
 [57] "P303"          "P0401"         "P0402"         "P0403"        
 [61] "P0404"         "P0405"         "P0406"         "P0407"        
 [65] "P0408"         "P0409"         "P0410"         "P3101"        
 [69] "P3102"         "P3103"         "P3104"         "P3105"        
 [73] "P3106"         "P3107"         "P3108"         "P3109"        
 [77] "P3110"         "P3111"         "P3112"         "P3113"        
 [81] "P3114"         "P3115"         "P3116"         "P07A01"       
 [85] "P07A02"        "P07A03"        "P07A04"        "P07A05"       
 [89] "P07A06"        "P07A07"        "P07A08"        "P07A09"       
 [93] "P07A10"        "P07A11"        "P07A12"        "P08_1_Rp"     
 [97] "P08_10_Rp"     "P08_11_Rp"     "P08_12_Rp"     "P08_13_Rp"    
[101] "P08_14_Rp"     "P08_15_Rp"     "P08_2_Rp"      "P08_3_Rp"     
[105] "P08_4_Rp"      "P08_5_Rp"      "P08_6_Rp"      "P08_7_Rp"     
[109] "P08_8_Rp"      "P08_9_Rp"      "P10_1_Rp"      "P10_2_Rp"     
[113] "P10_3_Rp"      "P10_4_Rp"      "P10_5_Rp"      "P16B_1_Rp"    
[117] "P16B_2_Rp"     "P16B_3_Rp"     "P16B_4_Rp"     "P16B_5_Rp"    
[121] "P16B_6_Rp"     "P20_1_Rp"      "P20_2_Rp"      "P20_3_Rp"     
[125] "P20_4_Rp"      "P20_5_Rp"      "P20_6_Rp"      "P21_1_Rp"     
[129] "P21_2_Rp"      "P21_3_Rp"      "P21_4_Rp"      "P21_5_Rp"     
[133] "P21_6_Rp"      "P21A"          "P22A1"         "P22A2"        
[137] "P22A3"         "P22A4"         "P22A5"         "P22A6"        
[141] "P22A7"         "P22A8"         "P22A9"         "P23_1_Rp"     
[145] "P23_10_Rp"     "P23_11_Rp"     "P23_12_Rp"     "P23_13_Rp"    
[149] "P23_14_Rp"     "P23_15_Rp"     "P23_2_Rp"      "P23_3_Rp"     
[153] "P23_4_Rp"      "P23_5_Rp"      "P23_6_Rp"      "P23_7_Rp"     
[157] "P23_8_Rp"      "P23_9_Rp"      "P27A_A"        "P27A_B"       
[161] "P27A_C"        "P27A_D"        "P27A_E"        "P29_1_Rp"     
[165] "P29_10_Rp"     "P29_11_Rp"     "P29_12_Rp"     "P29_13_Rp"    
[169] "P29_14_Rp"     "P29_15_Rp"     "P29_2_Rp"      "P29_3_Rp"     
[173] "P29_4_Rp"      "P29_5_Rp"      "P29_6_Rp"      "P29_7_Rp"     
[177] "P29_8_Rp"      "P29_9_Rp"      "P30A_1_Rp"     "P30A_2_Rp"    
[181] "P30A_3_Rp"     "P31A_1_Rp"     "P31A_2_Rp"     "P31A_3_Rp"    
[185] "P45_1_Rp"      "P45_2_Rp"      "P45_3_Rp"      "P45_4_Rp"     
[189] "PA"            "PA_RECOD"      "PA_RECOD_POND" "PD_EDAD"      
[193] "PTJE3"         "WTVAR"         "WTVAR_CH"      "WTVAR_CU"     
[197] "WTVAR_HU"      "WTVAR_IQ"      "WTVAR_PI"     

Ejercicio - Creación del indicador

Revisar las variables involucradas en la creación del indicador, si estan tiene 99 como “No Sabe/No responde”, reemplazarlas por cero.

library(dplyr)
data$P10_1_Rp[data$P10_1_Rp==99]=0
data$P10_2_Rp[data$P10_2_Rp==99]=0
data$P10_3_Rp[data$P10_3_Rp==99]=0
data$P10_4_Rp[data$P10_4_Rp==99]=0

Verifico que se realizo el cambio.

table(data$P10_1_R)

  0   1   2   3   4   5 
 10  14  40 347 547 924 

ÍNDICE ADITIVO - Realizo la suma

Realizo la suma de las variables.

data$suma2=data$P10_1_R+data$P10_2_R+data$P10_3_R+data$P10_4_R
summary(data$suma2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   11.00   13.00   13.42   16.00   20.00 

ÍNDICE ADITIVO - Reescalo el indicador de 0 a 100

library(scales)
data$indicador_percepcion_corrupcion=rescale(data$suma2,to=c(0,100))
summary(data$indicador_percepcion_corrupcion)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   55.00   65.00   67.12   80.00  100.00 

Variable categórica

A la variable categórica se le asigna el formato correspondiente.

data$D1=as.factor(data$D1)
data$D1=as.factor(data$D1)

PRUEBA T

t.test(indicador_percepcion_corrupcion~ sexo,data=data)

    Welch Two Sample t-test

data:  indicador_percepcion_corrupcion by sexo
t = -1.2375, df = 1874.9, p-value = 0.216
alternative hypothesis: true difference in means between group Hombre and group Mujer is not equal to 0
95 percent confidence interval:
 -2.4975408  0.5650522
sample estimates:
mean in group Hombre  mean in group Mujer 
            66.63482             67.60106 

A un 95% de nivel de confianza, no se rechaza la H0 , por tanto, no existe diferencia de medias significativas de la percepción de corrupción entre los hombres y las mujeres.

Gráfico - Barras de error

Se realiza la tabla resumen primero.

library(lsr)
ic_grupo=data%>%
  group_by(sexo) %>%
summarise(Media = mean(indicador_percepcion_corrupcion, na.rm=T),
            linf = ciMean(indicador_percepcion_corrupcion,conf = 0.95, na.rm=T)[1],
            lsup= ciMean(indicador_percepcion_corrupcion,conf = 0.95, na.rm=T)[2]
            )
ic_grupo
# A tibble: 2 × 4
  sexo   Media  linf  lsup
  <fct>  <dbl> <dbl> <dbl>
1 Hombre  66.6  65.5  67.7
2 Mujer   67.6  66.5  68.7

Código para el gráfico

library(ggplot2)
ggplot(ic_grupo, aes(x= sexo, y =Media)) +
  geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
   geom_text(aes(label=paste(round(Media, 1))), size=4)+
  xlab("Sexo del encuestado") + ylab("INDICADOR DE TOLERANCIA A LA CORRUPCIÓN")+
  ylim(50, 70)

Ejercicio 2

Preparo a la variable categórica.

data$P03[data$P03==99]=NA

Ejercicio 2

t.test(indicador_percepcion_corrupcion~ P03,data=data)

    Welch Two Sample t-test

data:  indicador_percepcion_corrupcion by P03
t = 4.1857, df = 330.89, p-value = 3.648e-05
alternative hypothesis: true difference in means between group Sí, me perjudica and group No me perjudica is not equal to 0
95 percent confidence interval:
 2.656096 7.366383
sample estimates:
mean in group Sí, me perjudica  mean in group No me perjudica 
                      67.84070                       62.82946 

A un 95% de nivel de confianza, se rechaza la H0 , por tanto, si existe diferencia de medias significativas de la percepción de corrupción entre quienes se sienten afectados o no por corrupción.

library(lsr)
ic_grupo=data%>%
  group_by(P03) %>%
summarise(Media = mean(indicador_percepcion_corrupcion, na.rm=T),
            linf = ciMean(indicador_percepcion_corrupcion,conf = 0.95, na.rm=T)[1],
            lsup= ciMean(indicador_percepcion_corrupcion,conf = 0.95, na.rm=T)[2]
            )
ic_grupo
# A tibble: 3 × 4
  P03              Media  linf  lsup
  <fct>            <dbl> <dbl> <dbl>
1 Sí, me perjudica  67.8  67.0  68.7
2 No me perjudica   62.8  60.6  65.0
3 <NA>              63.8  53.6  74.1
library(ggplot2)
ggplot(ic_grupo, aes(x= P03, y =Media)) +
  geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
   geom_text(aes(label=paste(round(Media, 1))), size=4)+
  xlab("Creencia que la corrupción lo afecta en su vida cotidiana") + ylab("Indicador de Tolerancia a la Corrupción")+
  ylim(50, 90)