Estadística para el Análisis Sociológico | Chi cuadrado

Marylia Cruz

Introducción

  • Relaciones bivariadas.

  • Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.

  • Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.

  • La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.

Introducción

  • La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

Motivación

Barómetro de las Américas

Motivación

Informe del Cifras de Pobreza2023

Motivación

Motivación

Tabla de contigencia

Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.

  • Un tabla de contingencia contiene:
  • Distribuciones condicionales
  • Distribuciones marginales

Tabla de contigencia

Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente

Construcción de una tabla de contigencia

Formato

data$P02[data$P02 == "4"] <- NA
data$P02=as.factor(data$P02)
data$P02=factor(data$P02,
                levels = levels(data$P02),
                labels = c("Ha aumentado","Sigue igual","Ha disminuido"),
                ordered = F)

Construcción de una tabla de contigencia

Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.

P02. ¿Cree que en los últimos 5 años la corrupción en el Perú ha aumentado, sigue igual o ha disminuido?

Luege de dar formato a las variables.

 [1] "NC"          "edad"        "edadr"       "sexo"        "dep"        
 [6] "prov"        "dist"        "zona1"       "zona2"       "zona3"      
[11] "zonali1"     "zonali2"     "region"      "area"        "area2"      
[16] "ambito"      "hijos18"     "hogar"       "edu"         "edur"       
[21] "edu2"        "edupadre"    "edupadrer"   "edupadre2"   "edumadre"   
[26] "edumadrer"   "edumadre2"   "ocup1"       "ocup2.CIUO1" "ocup2.CIUO2"
[31] "ocupadre"    "p01.1"       "p01.2"       "p01.3"       "p01.4"      
[36] "p01.5"       "p01.99"      "p02"         "p03.1"       "p03.2"      
[41] "p03.3"       "p03.4"       "p03.5"       "p04"         "p04a"       
[46] "p05"         "p06"         "p07"         "p07a"        "p08"        
[51] "yhogar"      "yhogar_pc1"  "yhogar_pc2"  "ABq10d"      "p10.1"      
[56] "p10.2"       "p10.3"       "p10.4"       "p10.5"       "p10.6"      
[61] "p10.7"       "p11.1"       "p11.2"       "p11.3"       "p11.4"      
[66] "p12.1"       "p12.2"       "p12.3"       "p12.4"       "ABros1"     
[71] "ABros6"      "ABros4"      "p13"         "p14_1"       "p14_2"      
[76] "p14_3"       "p15"         "p16"         "p17"         "etnicidad"  
[81] "etnicidad2"  "ideología"   "ideologia2"  "NSE"         "NSE1"       
[86] "NSE2"        "pondera"    
tablasimple=table(data$p15,data$ambito)
tablasimple
    
     LimaMetropolitana PeruUrbano PeruRural
  Si               409        603       224
  No               119        115        28

Tabla de porcentajes

Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.

tablaporcentajes=prop.table(table(data$p15,data$ambito),2)*100
tablaporcentajes
    
     LimaMetropolitana PeruUrbano PeruRural
  Si          77.46212   83.98329  88.88889
  No          22.53788   16.01671  11.11111

Tabla de porcentajes

tabla2=table(data$p15,data$ambito)
tabla3 = tabla2 |>
  prop.table(2)|>
  round(3)*100 
tabla3
    
     LimaMetropolitana PeruUrbano PeruRural
  Si              77.5       84.0      88.9
  No              22.5       16.0      11.1

Tabla de porcentajes con formato

Usamos el paquete kableExtra para darle formato a la tabla anterior.

library(kableExtra)
tablaporcentajes|>
  round(2)|>
  addmargins(1) |>
  kbl()|>
  kable_styling()
LimaMetropolitana PeruUrbano PeruRural
Si 77.46 83.98 88.89
No 22.54 16.02 11.11
Sum 100.00 100.00 100.00

Gráfico de barras

tabla4 = as.data.frame(tabla3)
tabla4
  Var1              Var2 Freq
1   Si LimaMetropolitana 77.5
2   No LimaMetropolitana 22.5
3   Si        PeruUrbano 84.0
4   No        PeruUrbano 16.0
5   Si         PeruRural 88.9
6   No         PeruRural 11.1
library(ggplot2)
ggplot(data=tabla4, aes(x=Var1, y=Freq, fill=Var2))+
  geom_bar(position = "dodge", stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), 
            position = position_dodge(width = 0.9), 
            vjust=0, size = 3)+
  labs(x="Conocimiento sobre que es la democracia", y="Porcentaje", fill="Sexo")

Gráfico de barras apiladas

ggplot(data=tabla4, aes(x=Var2, y=Freq, fill=Var1))+
  geom_bar(position="stack", stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), 
            position = position_stack(), vjust=1, size = 3)+
  labs(x="Sexo", y="Porcentaje", fill="Satisfacción con la democracia")+
  scale_fill_manual(values = c("#FCFED4", "#CCEDB1"))

Buscar colores en : https://r-charts.com/es/colores/

Test de independencia Chi-cuadrado (1)

  • Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales

  • Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”

Test de independencia Chi-cuadrado (1)

  • En el contexto de esta prueba o test, cuando se habla de independencia o dependencia estadística se está haciendo referencia a lo que sucede entre esas dos variables a nivel de la población [Estadística inferencial]

Frecuencias observadas

Las frecuencias observadas nos indican cuántos casos caen en cada casilla.

tablasimple=table(data$p15,data$ambito)
tablasimple
    
     LimaMetropolitana PeruUrbano PeruRural
  Si               409        603       224
  No               119        115        28

Otra manera es :

chisq.test(tablasimple)$observed

Frecuencias esperadas

Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.

chisq.test(tablasimple)$expected
    
     LimaMetropolitana PeruUrbano PeruRural
  Si         435.65287   592.4219 207.92523
  No          92.34713   125.5781  44.07477

Se espera que cada casilla sea mayor a 5.

Test de independencia Chi-cuadrado (1)

Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:

Test de independencia Chi-cuadrado (2)

Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :

Test de independencia Chi-cuadrado (3)

  • El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)

  • Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)

Test de independencia Chi-cuadrado (3)

En el caso de Chi-cuadrado recuerden que:

  • Ho: no hay asociación entre las variables
  • Ha: sí hay asociación entre las variables

Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?

Test de independencia Chi-cuadrado (4)

Test de independencia Chi-cuadrado (5)

Test de independencia Chi-cuadrado (6)

Test de independencia Chi-cuadrado (7)

Aplicación Chi-cuadrado


    Pearson's Chi-squared test

data:  tablasimple
X-squared = 17.508, df = 2, p-value = 0.0001578

Aplicación Chi-cuadrado

Aplicación Chi-cuadrado

En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas

Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)

Aplicación Chi-cuadrado

El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente

Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales

Ejercicios de repaso

Verificar si existe diferencia entre estrato (P06) y el opinión del ingreso económico (P09)