Estadística para el Análisis Político | Chi cuadrado

Marylia Cruz

Introducción

  • Relaciones bivariadas.

  • Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.

  • Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.

  • La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.

Introducción

  • La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

Motivación

Barómetro de las Américas

Motivación

Informe del Cifras de Pobreza2024

Motivación

Motivación

Tabla de contigencia

Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.

  • Un tabla de contingencia contiene:
  • Distribuciones condicionales
  • Distribuciones marginales

Tabla de contigencia

Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente

Abrir la base de datos

library(rio)
data=import("Merge_2023_LAPOP_AmericasBarometer_v1.0_w.dta")

Filtramos los datos de Peru

library(dplyr)
peru=filter(data,pais=="11")

Preparamos los datos


  1   2 
392 337 
peru$jc10=as.factor(peru$jc10)
peru$jc10=factor(peru$jc10,
                levels = levels(peru$jc10),
                labels = c("Si","No"),
                ordered = F)
peru$vic1ext=as.factor(peru$vic1ext)
peru$victimizacion=factor(peru$vic1ext,
                levels = levels(peru$vic1ext),
                labels = c("Si","No"),
                ordered = F)

Construcción de una tabla de contigencia

Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.

Frente a mucha delincuencia, se justificaría que los militares omen el poder por un golpe de Estado

Luege de dar formato a las variables.

tablasimple=table(peru$jc10,data$victimizacion)
tablasimple
    
     SiV NoV
  Si 143 249
  No  97 240

Tabla de porcentajes

Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.

tablaporcentajes=prop.table(table(peru$jc10,peru$victimizacion),2)*100
tablaporcentajes
    
          SiV      NoV
  Si 59.58333 50.92025
  No 40.41667 49.07975

Tabla de porcentajes

tabla2=table(peru$jc10,peru$victimizacion)
tabla3 = tabla2 |>
  prop.table(2)|>
  round(3)*100 
tabla3
    
      SiV  NoV
  Si 59.6 50.9
  No 40.4 49.1

Tabla de porcentajes con formato

Usamos el paquete kableExtra para darle formato a la tabla anterior.

library(kableExtra)
tablaporcentajes|>
  round(2)|>
  addmargins(1) |>
  kbl()|>
  kable_styling()
SiV NoV
Si 59.58 50.92
No 40.42 49.08
Sum 100.00 100.00

Gráfico de barras

tabla4 = as.data.frame(tabla3)
tabla4
  Var1 Var2 Freq
1   Si  SiV 59.6
2   No  SiV 40.4
3   Si  NoV 50.9
4   No  NoV 49.1
library(ggplot2)
ggplot(data=tabla4, aes(x=Var1, y=Freq, fill=Var2))+
  geom_bar(position = "dodge", stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), 
            position = position_dodge(width = 0.9), 
            vjust=0, size = 3)+
  labs(x="Conocimiento sobre que es la democracia", y="Porcentaje", fill="Sexo")

Gráfico de barras apiladas

ggplot(data=tabla4, aes(x=Var2, y=Freq, fill=Var1))+
  geom_bar(position="stack", stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), 
            position = position_stack(), vjust=1, size = 3)+
  labs(x="Sexo", y="Porcentaje", fill="Satisfacción con la democracia")+
  scale_fill_manual(values = c("#FCFED4", "#CCEDB1"))

Buscar colores en : https://r-charts.com/es/colores/

Test de independencia Chi-cuadrado (1)

  • Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales

  • Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”

Test de independencia Chi-cuadrado (1)

  • En el contexto de esta prueba o test, cuando se habla de independencia o dependencia estadística se está haciendo referencia a lo que sucede entre esas dos variables a nivel de la población [Estadística inferencial]

Frecuencias observadas

Las frecuencias observadas nos indican cuántos casos caen en cada casilla.

tablasimple=table(peru$jc10,peru$victimizacion
tablasimple
    
     SiV NoV
  Si 143 249
  No  97 240

Otra manera es :

chisq.test(tablasimple)$observed

Frecuencias esperadas

Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.

chisq.test(tablasimple)$expected
    
          SiV      NoV
  Si 129.0535 262.9465
  No 110.9465 226.0535

Se espera que cada casilla sea mayor a 5.

Test de independencia Chi-cuadrado (1)

Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:

Test de independencia Chi-cuadrado (2)

Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :

Test de independencia Chi-cuadrado (3)

  • El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)

  • Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)

Test de independencia Chi-cuadrado (3)

En el caso de Chi-cuadrado recuerden que:

  • Ho: no hay asociación entre las variables
  • Ha: sí hay asociación entre las variables

Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?

Test de independencia Chi-cuadrado (4)

Test de independencia Chi-cuadrado (5)

Test de independencia Chi-cuadrado (6)

Test de independencia Chi-cuadrado (7)

Aplicación Chi-cuadrado


    Pearson's Chi-squared test with Yates' continuity correction

data:  tablasimple
X-squared = 4.5182, df = 1, p-value = 0.03354

Aplicación Chi-cuadrado

Aplicación Chi-cuadrado

En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas

Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)

Aplicación Chi-cuadrado

El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente

Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales

Ejercicios de repaso

Verificar si existe diferencia entre estrato y el opinión de la gestión del gobierno central.