Relaciones bivariadas.
Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.
Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.
La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.
Informe del Cifras de Pobreza2023
Un tabla de contingencia se asemeja mucho a las típicas tablas 2x2 o 3x3 etc.
Aprobación a la presidenta Dina Boluarte en Marzo 2023 según las Encuestas de Opinión del Instituto de Estudios Peruanos. Fuente
Filtramos los datos de Peru
1 2
392 337
peru$jc10=as.factor(peru$jc10)
peru$jc10=factor(peru$jc10,
levels = levels(peru$jc10),
labels = c("Si","No"),
ordered = F)
peru$vic1ext=as.factor(peru$vic1ext)
peru$victimizacion=factor(peru$vic1ext,
levels = levels(peru$vic1ext),
labels = c("Si","No"),
ordered = F)
Elabore una tabla de contingencia de la percepción prospectiva de la corrupción según el sexo.
Frente a mucha delincuencia, se justificaría que los militares omen el poder por un golpe de Estado
Luege de dar formato a las variables.
SiV NoV
Si 143 249
No 97 240
Usamos el comando prop.table para solicitar la tabla de proporciones, ,2 para solicitar que deseamos las proporciones por columnas. 100 para multiplicar por 100.
SiV NoV
Si 59.58333 50.92025
No 40.41667 49.07975
SiV NoV
Si 59.6 50.9
No 40.4 49.1
Usamos el paquete kableExtra para darle formato a la tabla anterior.
SiV | NoV | |
---|---|---|
Si | 59.58 | 50.92 |
No | 40.42 | 49.08 |
Sum | 100.00 | 100.00 |
Var1 Var2 Freq
1 Si SiV 59.6
2 No SiV 40.4
3 Si NoV 50.9
4 No NoV 49.1
library(ggplot2)
ggplot(data=tabla4, aes(x=Var1, y=Freq, fill=Var2))+
geom_bar(position = "dodge", stat="identity")+
geom_text(aes(label=paste(Freq, "%", sep="")),
position = position_dodge(width = 0.9),
vjust=0, size = 3)+
labs(x="Conocimiento sobre que es la democracia", y="Porcentaje", fill="Sexo")
ggplot(data=tabla4, aes(x=Var2, y=Freq, fill=Var1))+
geom_bar(position="stack", stat="identity")+
geom_text(aes(label=paste(Freq, "%", sep="")),
position = position_stack(), vjust=1, size = 3)+
labs(x="Sexo", y="Porcentaje", fill="Satisfacción con la democracia")+
scale_fill_manual(values = c("#FCFED4", "#CCEDB1"))
Buscar colores en : https://r-charts.com/es/colores/
Chi-cuadrado es una prueba de independencia entre dos variables que es apropiada cuando estas dos variables son nominales
Chi-cuadrado trata a las variables que analiza como nominales , por lo tanto si las variables analizadas son ordinales o intervalares, esta prueba no toma en cuenta esta información “adicional”
Las frecuencias observadas nos indican cuántos casos caen en cada casilla.
SiV NoV
Si 143 249
No 97 240
Otra manera es :
Las frecuencias esperadas nos indican cuántos casos caen en cada casilla, si cada casilla es proporcional a las frecuencias marginales. Supone que no existe relación entre las variables.
SiV NoV
Si 129.0535 262.9465
No 110.9465 226.0535
Se espera que cada casilla sea mayor a 5.
Cálculo del estadístico de la prueba. El estadístico de la prueba de 𝑋^2 se calcula de la siguiente manera:
Entonces sería restar cada celda ( Frecuencia observada - Frecuencia esperada :
El valor de un test o prueba de significancia estadística tiene que con la intención de resumir la evidencia contra Ho (hipótesis nula)
Cuanto más pequeño es el valor de p (p-value) más fuerte es la evidencia contra Ho (hipótesis nula) y a favor de Ha (hipótesis alterna)
En el caso de Chi-cuadrado recuerden que:
Cuando el valor de p (p-value) de una prueba Chi-cuadrado es menor que 0.05, entonces podemos rechazar Ho y aceptar Ha ¿Cómo se describe este hallazgo?
Pearson's Chi-squared test with Yates' continuity correction
data: tablasimple
X-squared = 4.5182, df = 1, p-value = 0.03354
En resumen, qué se mide con el test o la prueba Chi-cuadrado: Se mide cuán cerca (o cuán lejos) están las frecuencias esperadas (el número de casos que se esperaría en cada celda si es que las variables fueran estadísticamente independientes) de las frecuencias observadas
Cuanto más grande el valor de este test o prueba, mucho mayor es la evidencia contra la Ho (la hipótesis que establece que las variables son estadísticamente independientes)
El valor de este test o prueba no depende de qué variable se asume como independiente y qué variable se asume como dependiente
Sin embargo, esta prueba o test no cuenta toda la historia de la relación entre dos variables nominales
Verificar si existe diferencia entre estrato y el opinión de la gestión del gobierno central.