rm(list=ls()) #Limpiar entorno de trabajo
setwd("/home/daniel/Dropbox/U CENTRAL/02 2020/01 Primer semestre 2020/Analisis de datos cuantitativos I/Clases/14") #Escribir el directorio en que va a trabajar
#Sólo si no has instalado antes los paquetes requeridos:
# install.packages("foreign")
# install.packages("dplyr")
# install.packages("xtable")
library(foreign) #Paquete para importar datos
library(dplyr) #Paquete de procesamiento de bases de datos
library(xtable) #Paquete para reportar en LaTeX

Abrir base de datos CEP 84 (Diciembre 2019).

CEP84 <- read.spss("/home/daniel/Dropbox/U CENTRAL/02 2020/01 Primer semestre 2020/Analisis de datos cuantitativos I/Bases de datos/CEP84/Encuesta CEP 84 Dic 2019 v1.sav", to.data.frame = TRUE) 
#ajustar ruta a tu pc

La prueba de independencia Chi cuadrado permite determinar si existe asociación entre dos variables discretas. Sus supuestos de aplicación son:

La prueba de independencia Chi cuadrado permite evaluar la siguientes hipótesis nulas y alternativa:

Veamos un ejemplo.

Necesitamos saber si, en Chile, el estado de salud percibido varía según sexo. Por lo tanto, se evaluará la siguiente hipótesis nula y alternativa:

Se decide trabajar con un nivel de confianza del 95% y un nivel de significación de \(\alpha = 0.05\).

# Primero, preparamos los datos para el análisis.

#Estado de salud percibido
CEP84$SV_4 <- na_if(CEP84$SV_4,"8.- No sabe") #No sabe como NA
CEP84$SV_4 <- na_if(CEP84$SV_4,"9.- No contesta") #No contesta como NA
CEP84$SV_4 <- droplevels(CEP84$SV_4) # Borrar niveles no usados
levels(CEP84$SV_4) #Ver niveles de variable
## [1] "1.- Excelente"   "2.- Muy buena"   "3.- Buena"       "4.- Más o menos"
## [5] "5.- Mala"
levels(CEP84$SV_4) <- c("Excelente", "Muy buena", "Buena", "Más o menos", "Mala") 
#Mejorar el formato de los niveles del factor

#Sexo
levels(CEP84$DS_P1) #Ver niveles de variable sexo
## [1] "1. - HOMBRE" "2. - MUJER"
levels(CEP84$DS_P1) <- c("Hombre", "Mujer") #Mejorar el formato de los niveles del factor

Comprobamos supuestos de aplicación.

Dado que el diseño de muestra de la Encuesta CEP84 es de tipo probabilístico se cumple que la muestra sea un subconjunto aleatorio de la población. Además, examinando las características de las variables a analizar se cumple que cada una tenga menos de 20 niveles. Por último, el supuesto relativo a que exista un mínimo de 5 valores esperados en cada celda también se cumple.

tabla <- table(CEP84$SV_4, CEP84$DS_P1) # Elaborar tabla cruzada
chisq.test(tabla)$expected # Ver valores esperados en la tabla cruzada
##              
##                  Hombre     Mujer
##   Excelente    34.45783  53.54217
##   Muy buena    67.34940 104.65060
##   Buena       236.89759 368.10241
##   Más o menos 193.43373 300.56627
##   Mala         52.86145  82.13855
chi <-chisq.test(tabla) #Guardamos los resultados del test en un objeto
chi
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 18.367, df = 4, p-value = 0.001046

Con un 95% de confianza, existe evidencia suficiente para rechazar la hipótesis nula de independencia estadística entre las variables sexo y estado de salud percibido (\(\chi² = 18.37, \; df = 4, \; p < 0.05\)). Por lo tanto, es posible sostener que, en Chile, el estado de salud percibido varía según sexo.

Si observamos la tabla cruzada, se constata que los hombres tienden a presentar un mejor estado de salud percibido que las mujeres. Un 19.66% de los hombres encuestados señalan tener una salud excelente o buena, en cambio, sólo un 15.95% de las mujeres lo hace. Un 44.96% de los hombres califica su salud como buena y un 37.62% de las mujeres. Y un 35.38% de los hombres dice que su salud es más o menos o mala, frente a un 46.43% mujeres.

#Para analizar de qué manera se asocian ambas variables

#Tabla cruzada con porcentajes
tabla2 <- prop.table(tabla,2)*100 #Distribución condicionada por columnas
#Agregar las distribuciones marginales hace más fácil de leer la tabla
Total <- prop.table(margin.table(tabla,1))*100 #Filas
tabla2 <- cbind(tabla2, Total)
Total <- c(100,100,100)
tabla2 <- rbind(tabla2, Total)
#Tabla en LaTeX
xtable(tabla2, caption = "Estado de salud percibido, según sexo (porcentajes)")
## % latex table generated in R 4.0.2 by xtable 1.8-4 package
## % Wed Aug  5 22:20:10 2020
## \begin{table}[ht]
## \centering
## \begin{tabular}{rrrr}
##   \hline
##  & Hombre & Mujer & Total \\ 
##   \hline
## Excelente & 6.50 & 5.50 & 5.89 \\ 
##   Muy buena & 13.16 & 10.45 & 11.51 \\ 
##   Buena & 44.96 & 37.62 & 40.50 \\ 
##   Más o menos & 28.38 & 36.08 & 33.07 \\ 
##   Mala & 7.01 & 10.34 & 9.04 \\ 
##   Total & 100.00 & 100.00 & 100.00 \\ 
##    \hline
## \end{tabular}
## \caption{Estado de salud percibido, según sexo (porcentajes)} 
## \end{table}
#Residuos estandarizados del test
round(chi$residuals, 3)
##              
##               Hombre  Mujer
##   Excelente    0.603 -0.484
##   Muy buena    1.176 -0.943
##   Buena        1.696 -1.360
##   Más o menos -1.973  1.582
##   Mala        -1.631  1.309

Nota: Analizar los residuos estandarizados permite orientar la interpretación de una asociación identificada mediante la prueba chi cuadrado. Residuos positivos significan una atracción entre las categorías de cada variable analizada. Y residuos negativos significan repulsión entre las categorías de cada variable analizada. A mayor valor absoluto del residuo, mayor fuerza tiene la repulsión o atracción.

Generalmente no se reportan los residuos, sino que las tablas cruzadas, el estadístico chi cuadrado, los grados de libertad y el valor p, ya que resultan poco intuitivos y difíciles de comunicar.

Los residuos estandarizados se calculan como: \(\frac{O-E}{\sqrt{E}}\).