Relaciones bivariadas.
Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.
Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.
La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.
Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.
Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente
Formato
Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.
P02. ¿Cree que en los últimos 5 años la corrupción en el Perú ha aumentado, sigue igual o ha disminuido?
Luege de dar formato a las variables.
Hombre Mujer
Ha aumentado 644 706
Sigue igual 219 216
Ha disminuido 43 22
Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.
Hombre Mujer
Ha aumentado 71.081678 74.788136
Sigue igual 24.172185 22.881356
Ha disminuido 4.746137 2.330508
Usamos el paquete kableExtra para darle formato a la tabla anterior.
Hombre | Mujer | |
---|---|---|
Ha aumentado | 71.08 | 74.79 |
Sigue igual | 24.17 | 22.88 |
Ha disminuido | 4.75 | 2.33 |
Sum | 100.00 | 100.00 |
Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales
Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”
En el contexto de esta prueba o test, cuando se habla de independencia o dependencia estadística se está haciendo referencia a lo que sucede entre esas dos variables a nivel de la población [Estadística inferencial]
Las frecuencias observadas nos indican cuántos casos caen en cada casilla.
Hombre Mujer
Ha aumentado 644 706
Sigue igual 219 216
Ha disminuido 43 22
Otra manera es :
Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.
Hombre Mujer
Ha aumentado 661.13514 688.86486
Sigue igual 213.03243 221.96757
Ha disminuido 31.83243 33.16757
Se espera que cada casilla sea mayor a 5.
Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:
Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :
El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)
Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)
En el caso de Chi-cuadrado recuerden que:
Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?
Pearson's Chi-squared test
data: tablasimple
X-squared = 8.8759, df = 2, p-value = 0.01182
En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas
Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)
El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente
Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales
Var1 Var2 Freq
1 Ha aumentado Hombre 71.081678
2 Sigue igual Hombre 24.172185
3 Ha disminuido Hombre 4.746137
4 Ha aumentado Mujer 74.788136
5 Sigue igual Mujer 22.881356
6 Ha disminuido Mujer 2.330508
library(ggplot2)
ggplot(data=tablaporcentajes, aes(x=Var2, y=Freq, fill=Var1, ymax=100))+
geom_bar(position="stack", stat="identity")+
geom_text(aes(label=paste(round(Freq, 1), "%", sep="")),
position=position_stack(), vjust=1.5)+
labs(fill="Percepción prospectiva de la corrupción")+
ylab("Porcentaje")+
xlab("Sexo")