Estadística para el Análisis Político | Chi cuadrado

Marylia Cruz

Introducción

  • Relaciones bivariadas.

  • Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.

  • Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.

  • La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.

Introducción

  • La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

Motivación

Motivación

Tabla de contigencia

Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.

  • Un tabla de contingencia contiene:
  • Distribuciones condicionales
  • Distribuciones marginales

Tabla de contigencia

Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente

Construcción de una tabla de contigencia

Formato

data$P02[data$P02 == "4"] <- NA
data$P02=as.factor(data$P02)
data$P02=factor(data$P02,
                levels = levels(data$P02),
                labels = c("Ha aumentado","Sigue igual","Ha disminuido"),
                ordered = F)

Construcción de una tabla de contigencia

Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.

P02. ¿Cree que en los últimos 5 años la corrupción en el Perú ha aumentado, sigue igual o ha disminuido?

Luege de dar formato a las variables.

tablasimple=table(data$P02,data$DG02)
tablasimple
               
                Hombre Mujer
  Ha aumentado     644   706
  Sigue igual      219   216
  Ha disminuido     43    22

Tabla de porcentajes

Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.

tablaporcentajes=prop.table(table(data$P02,data$DG02),2)*100
tablaporcentajes
               
                   Hombre     Mujer
  Ha aumentado  71.081678 74.788136
  Sigue igual   24.172185 22.881356
  Ha disminuido  4.746137  2.330508

Tabla de porcentajes con formato

Usamos el paquete kableExtra para darle formato a la tabla anterior.

library(kableExtra)
tablaporcentajes|>
  round(2)|>
  addmargins(1) |>
  kbl()|>
  kable_styling()
Hombre Mujer
Ha aumentado 71.08 74.79
Sigue igual 24.17 22.88
Ha disminuido 4.75 2.33
Sum 100.00 100.00

Test de independencia Chi-cuadrado (1)

  • Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales

  • Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”

  • En el contexto de esta prueba o test, cuando se habla de independencia o dependencia estadística se está haciendo referencia a lo que sucede entre esas dos variables a nivel de la población [Estadística inferencial]

Frecuencias observadas

Las frecuencias observadas nos indican cuántos casos caen en cada casilla.

tablasimple=table(data$P02,data$DG02)
tablasimple
               
                Hombre Mujer
  Ha aumentado     644   706
  Sigue igual      219   216
  Ha disminuido     43    22

Otra manera es :

chisq.test(tablasimple)$observed

Frecuencias esperadas

Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.

chisq.test(tablasimple)$expected
               
                   Hombre     Mujer
  Ha aumentado  661.13514 688.86486
  Sigue igual   213.03243 221.96757
  Ha disminuido  31.83243  33.16757

Se espera que cada casilla sea mayor a 5.

Test de independencia Chi-cuadrado (1)

Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:

Test de independencia Chi-cuadrado (2)

Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :

Test de independencia Chi-cuadrado (3)

  • El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)

  • Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)

En el caso de Chi-cuadrado recuerden que:

  • Ho: no hay asociación entre las variables
  • Ha: sí hay asociación entre las variables

Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?

Test de independencia Chi-cuadrado (4)

Test de independencia Chi-cuadrado (5)

Test de independencia Chi-cuadrado (6)

Test de independencia Chi-cuadrado (7)

Aplicación Chi-cuadrado


    Pearson's Chi-squared test

data:  tablasimple
X-squared = 8.8759, df = 2, p-value = 0.01182

Aplicación Chi-cuadrado

Aplicación Chi-cuadrado

En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas

Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)

Aplicación Chi-cuadrado

El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente

Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales

Gráfico

tablaporcentajes=as.data.frame(tablaporcentajes)
           Var1   Var2      Freq
1  Ha aumentado Hombre 71.081678
2   Sigue igual Hombre 24.172185
3 Ha disminuido Hombre  4.746137
4  Ha aumentado  Mujer 74.788136
5   Sigue igual  Mujer 22.881356
6 Ha disminuido  Mujer  2.330508

Gráfico

library(ggplot2)
ggplot(data=tablaporcentajes, aes(x=Var2, y=Freq, fill=Var1, ymax=100))+
  geom_bar(position="stack", stat="identity")+
  geom_text(aes(label=paste(round(Freq, 1), "%", sep="")),
            position=position_stack(), vjust=1.5)+
  labs(fill="Percepción prospectiva de la corrupción")+
  ylab("Porcentaje")+
  xlab("Sexo")

Gráfico

Ejercicios de repaso