library(rio)
data=import("eda.sav")
PASO 0: Limpieza de variables
#exploro mi variable sexo
summary(data$sexo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 1.563 2.000 2.000
str(data$sexo)
## num [1:1807] 1 2 2 1 2 1 1 2 2 2 ...
## - attr(*, "label")= chr "Sexo"
## - attr(*, "format.spss")= chr "F1.0"
## - attr(*, "labels")= Named num [1:2] 1 2
## ..- attr(*, "names")= chr [1:2] "Hombre" "Mujer"
class(data$sexo)
## [1] "numeric"
table(data$sexo)
##
## 1 2
## 790 1017
#tengo que convertirla a factor
data$sexo = factor(data$sexo,
levels = c(1:2),
labels=c("mujer","hombre"))
table(data$sexo)
##
## mujer hombre
## 790 1017
sum(is.na(data$sexo))
## [1] 0
#no tengo datos perdidos
#exploro mi variable educación
summary(data$educ)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 2.000 3.000 2.512 3.000 3.000 7
str(data$educ)
## num [1:1807] 3 3 2 3 3 1 3 3 3 2 ...
## - attr(*, "label")= chr "Nivel Educativo"
## - attr(*, "format.spss")= chr "F3.0"
## - attr(*, "labels")= Named num [1:3] 1 2 3
## ..- attr(*, "names")= chr [1:3] "1. Menos que Secundaria" "2. Secundaria Completa" "3. Más que secundaria"
class(data$educ)
## [1] "numeric"
table(data$educ)
##
## 1 2 3
## 180 519 1101
#tengo que convertirla a factor nominal
data$educ = ordered(data$educ,
levels = c(1:3),
labels=c("Menos que secundaria","Secundaria completa","Mas que secundaria"))
table(data$educ)
##
## Menos que secundaria Secundaria completa Mas que secundaria
## 180 519 1101
sum(is.na(data$educ))
## [1] 7
#tengo 7 datos perdidos
limpio variable educación
data=data[complete.cases(data$educ),]
sum(is.na(data$educ))
## [1] 0
PASO 1: Solicitamos una tabla de contingencia
En esta tabla se observan los valores observados: valores de nuestra tabla tal como la tenemos en nuestra base
tabla1.1= table(data$educ, data$sexo)
tabla1.1
##
## mujer hombre
## Menos que secundaria 83 97
## Secundaria completa 197 322
## Mas que secundaria 506 595
Observamos los porcentajes por columna
tabla1.2 = prop.table(tabla1.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla1.1
tabla1.2
##
## mujer hombre
## Menos que secundaria 10.559796 9.566075
## Secundaria completa 25.063613 31.755424
## Mas que secundaria 64.376590 58.678501
Interpretación el 46% de las personas que tienen un nivel educativo “menos de secundaria” son mujeres el 45% de personas que tienen “más que secundaria” son mujeres. Hay 506 mujeres que tienen más que secundaria
PASO 2: solicitamos un diagrama de barras apiladas del porcentaje
barplot(tabla1.2, main = "Nivel de educación según sexo", legend.text = T)
Interpretación: se observa gráficamente que que hay mayor porcentaje de
hombres con secundaria completa respecto al de mujeres. La diferencia
entre hombres y mujeres respecto al porcentaje que presenta un nivel
educativo menor a secundaria no es muy significativo
PASO 3: Prueba Chi-cuadrado
H0: Las variables sexo y educación son estadísticamente independientes (no hay asociación)
H1: Las variables sexo y educación son estadísticamente dependientes (sí hay asociación)
chisq.test(tabla1.1)
##
## Pearson's Chi-squared test
##
## data: tabla1.1
## X-squared = 9.6643, df = 2, p-value = 0.007969
La prueba nos da como resultado un p-value de 0.007, es decir, menor a < 0.05, por lo que rechazo mi H0 y compruebo mi H1: sexo y educación son estadísticamente dependientes. Así, se concluye que sí existe asociación/relación/dependencia entre nivel de educación respecto del año pasado (más que secundaria, secundaria completa y menos que secundaria) y el sexo de la persona encuestada.
PASO 4: Medidas de asociación
¿qué tan fuerte es la asociación? Una medida de asociación es un estadístico que resume la intensidad y la dirección(SENTIDO).
La intensidad indica cuál es la fuerza de la asociación (puede ir de muy débil a muy fuerte).
El sentido puede ser directo (mientras una variable aumenta la otra aumenta) o inversa (mientras una variable aumenta, la otra disminuye). • Para el caso de la asociación entre al menos una nominal y ordinal, podemos medir la intensidad • Para el caso de la asociación entre ordinales, podemos medir la intensidad y dirección(SENTIDO)
Ya que se considera que existe dependencia o causalidad entre sexo y educación, usaremos la prueba simétrica ya que se considera que la variable que no hay causalidad entre ambas variables
library(vcd)
## Loading required package: grid
library(DescTools)
assocstats(tabla1.1)
## X^2 df P(> X^2)
## Likelihood Ratio 9.7385 2 0.0076791
## Pearson 9.6643 2 0.0079694
##
## Phi-Coefficient : NA
## Contingency Coeff.: 0.073
## Cramer's V : 0.073
Phi(tabla1.1)
## [1] 0.0732738
Interpretación: Las 3 pruebas me salen 0.73. Por lo tanto, se concluye que la dependencia entre ambas variables es alta. Por lo tanto,la dependencia entre el sexo de los votantes y su nivel educativo es alta.