Relaciones bivariadas.
Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.
Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.
La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.
Informe del Cifras de Pobreza2023
Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.
Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente
Formato
Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.
P02. ¿Cree que en los últimos 5 años la corrupción en el Perú ha aumentado, sigue igual o ha disminuido?
Luege de dar formato a las variables.
[1] "NC" "edad" "edadr" "sexo" "dep"
[6] "prov" "dist" "zona1" "zona2" "zona3"
[11] "zonali1" "zonali2" "region" "area" "area2"
[16] "ambito" "hijos18" "hogar" "edu" "edur"
[21] "edu2" "edupadre" "edupadrer" "edupadre2" "edumadre"
[26] "edumadrer" "edumadre2" "ocup1" "ocup2.CIUO1" "ocup2.CIUO2"
[31] "ocupadre" "p01.1" "p01.2" "p01.3" "p01.4"
[36] "p01.5" "p01.99" "p02" "p03.1" "p03.2"
[41] "p03.3" "p03.4" "p03.5" "p04" "p04a"
[46] "p05" "p06" "p07" "p07a" "p08"
[51] "yhogar" "yhogar_pc1" "yhogar_pc2" "ABq10d" "p10.1"
[56] "p10.2" "p10.3" "p10.4" "p10.5" "p10.6"
[61] "p10.7" "p11.1" "p11.2" "p11.3" "p11.4"
[66] "p12.1" "p12.2" "p12.3" "p12.4" "ABros1"
[71] "ABros6" "ABros4" "p13" "p14_1" "p14_2"
[76] "p14_3" "p15" "p16" "p17" "etnicidad"
[81] "etnicidad2" "ideología" "ideologia2" "NSE" "NSE1"
[86] "NSE2" "pondera"
LimaMetropolitana PeruUrbano PeruRural
Si 409 603 224
No 119 115 28
Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.
LimaMetropolitana PeruUrbano PeruRural
Si 77.46212 83.98329 88.88889
No 22.53788 16.01671 11.11111
LimaMetropolitana PeruUrbano PeruRural
Si 77.5 84.0 88.9
No 22.5 16.0 11.1
Usamos el paquete kableExtra para darle formato a la tabla anterior.
LimaMetropolitana | PeruUrbano | PeruRural | |
---|---|---|---|
Si | 77.46 | 83.98 | 88.89 |
No | 22.54 | 16.02 | 11.11 |
Sum | 100.00 | 100.00 | 100.00 |
Var1 Var2 Freq
1 Si LimaMetropolitana 77.5
2 No LimaMetropolitana 22.5
3 Si PeruUrbano 84.0
4 No PeruUrbano 16.0
5 Si PeruRural 88.9
6 No PeruRural 11.1
library(ggplot2)
ggplot(data=tabla4, aes(x=Var1, y=Freq, fill=Var2))+
geom_bar(position = "dodge", stat="identity")+
geom_text(aes(label=paste(Freq, "%", sep="")),
position = position_dodge(width = 0.9),
vjust=0, size = 3)+
labs(x="Conocimiento sobre que es la democracia", y="Porcentaje", fill="Sexo")
ggplot(data=tabla4, aes(x=Var2, y=Freq, fill=Var1))+
geom_bar(position="stack", stat="identity")+
geom_text(aes(label=paste(Freq, "%", sep="")),
position = position_stack(), vjust=1, size = 3)+
labs(x="Sexo", y="Porcentaje", fill="Satisfacción con la democracia")+
scale_fill_manual(values = c("#FCFED4", "#CCEDB1"))
Buscar colores en : https://r-charts.com/es/colores/
Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales
Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”
Las frecuencias observadas nos indican cuántos casos caen en cada casilla.
LimaMetropolitana PeruUrbano PeruRural
Si 409 603 224
No 119 115 28
Otra manera es :
Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.
LimaMetropolitana PeruUrbano PeruRural
Si 435.65287 592.4219 207.92523
No 92.34713 125.5781 44.07477
Se espera que cada casilla sea mayor a 5.
Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:
Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :
El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)
Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)
En el caso de Chi-cuadrado recuerden que:
Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?
Pearson's Chi-squared test
data: tablasimple
X-squared = 17.508, df = 2, p-value = 0.0001578
En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas
Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)
El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente
Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales
Verificar si existe diferencia entre estrato (P06) y el opinión del ingreso económico (P09)