library(rio)
data=import("eda.sav")

PASO 0: Limpieza de variables

#exploro mi variable sexo
summary(data$sexo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   2.000   1.563   2.000   2.000
str(data$sexo)
##  num [1:1807] 1 2 2 1 2 1 1 2 2 2 ...
##  - attr(*, "label")= chr "Sexo"
##  - attr(*, "format.spss")= chr "F1.0"
##  - attr(*, "labels")= Named num [1:2] 1 2
##   ..- attr(*, "names")= chr [1:2] "Hombre" "Mujer"
class(data$sexo)
## [1] "numeric"
table(data$sexo)
## 
##    1    2 
##  790 1017
#tengo que convertirla a factor
data$sexo = factor(data$sexo,
                   levels = c(1:2),
                   labels=c("mujer","hombre"))
table(data$sexo)
## 
##  mujer hombre 
##    790   1017
sum(is.na(data$sexo))
## [1] 0
#no tengo datos perdidos

#exploro mi variable educación
summary(data$educ)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.000   2.000   3.000   2.512   3.000   3.000       7
str(data$educ)
##  num [1:1807] 3 3 2 3 3 1 3 3 3 2 ...
##  - attr(*, "label")= chr "Nivel Educativo"
##  - attr(*, "format.spss")= chr "F3.0"
##  - attr(*, "labels")= Named num [1:3] 1 2 3
##   ..- attr(*, "names")= chr [1:3] "1. Menos que Secundaria" "2. Secundaria Completa" "3. Más que secundaria"
class(data$educ)
## [1] "numeric"
table(data$educ)
## 
##    1    2    3 
##  180  519 1101
#tengo que convertirla a factor nominal
data$educ = ordered(data$educ,
                   levels = c(1:3),
                   labels=c("Menos que secundaria","Secundaria completa","Mas que secundaria"))
table(data$educ)
## 
## Menos que secundaria  Secundaria completa   Mas que secundaria 
##                  180                  519                 1101
sum(is.na(data$educ))
## [1] 7
#tengo 7 datos perdidos

limpio variable educación

data=data[complete.cases(data$educ),]
sum(is.na(data$educ))
## [1] 0

PASO 1: Solicitamos una tabla de contingencia

En esta tabla se observan los valores observados: valores de nuestra tabla tal como la tenemos en nuestra base

tabla1.1= table(data$educ, data$sexo)
tabla1.1
##                       
##                        mujer hombre
##   Menos que secundaria    83     97
##   Secundaria completa    197    322
##   Mas que secundaria     506    595

Observamos los porcentajes por columna

tabla1.2 = prop.table(tabla1.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla1.1
tabla1.2
##                       
##                            mujer    hombre
##   Menos que secundaria 10.559796  9.566075
##   Secundaria completa  25.063613 31.755424
##   Mas que secundaria   64.376590 58.678501

Interpretación el 46% de las personas que tienen un nivel educativo “menos de secundaria” son mujeres el 45% de personas que tienen “más que secundaria” son mujeres. Hay 506 mujeres que tienen más que secundaria

PASO 2: solicitamos un diagrama de barras apiladas del porcentaje

barplot(tabla1.2, main = "Nivel de educación según sexo", legend.text = T)

Interpretación: se observa gráficamente que que hay mayor porcentaje de hombres con secundaria completa respecto al de mujeres. La diferencia entre hombres y mujeres respecto al porcentaje que presenta un nivel educativo menor a secundaria no es muy significativo

PASO 3: Prueba Chi-cuadrado

H0: Las variables sexo y educación son estadísticamente independientes (no hay asociación)

H1: Las variables sexo y educación son estadísticamente dependientes (sí hay asociación)

chisq.test(tabla1.1)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla1.1
## X-squared = 9.6643, df = 2, p-value = 0.007969

La prueba nos da como resultado un p-value de 0.007, es decir, menor a < 0.05, por lo que rechazo mi H0 y compruebo mi H1: sexo y educación son estadísticamente dependientes. Así, se concluye que sí existe asociación/relación/dependencia entre nivel de educación respecto del año pasado (más que secundaria, secundaria completa y menos que secundaria) y el sexo de la persona encuestada.

PASO 4: Medidas de asociación

¿qué tan fuerte es la asociación? Una medida de asociación es un estadístico que resume la intensidad y la dirección(SENTIDO).

La intensidad indica cuál es la fuerza de la asociación (puede ir de muy débil a muy fuerte).

El sentido puede ser directo (mientras una variable aumenta la otra aumenta) o inversa (mientras una variable aumenta, la otra disminuye). • Para el caso de la asociación entre al menos una nominal y ordinal, podemos medir la intensidadPara el caso de la asociación entre ordinales, podemos medir la intensidad y dirección(SENTIDO)

Ya que se considera que existe dependencia o causalidad entre sexo y educación, usaremos la prueba simétrica ya que se considera que la variable que no hay causalidad entre ambas variables

library(vcd)
## Loading required package: grid
library(DescTools)
assocstats(tabla1.1)
##                     X^2 df  P(> X^2)
## Likelihood Ratio 9.7385  2 0.0076791
## Pearson          9.6643  2 0.0079694
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.073 
## Cramer's V        : 0.073
Phi(tabla1.1)
## [1] 0.0732738

Interpretación: Las 3 pruebas me salen 0.73. Por lo tanto, se concluye que la dependencia entre ambas variables es alta. Por lo tanto,la dependencia entre el sexo de los votantes y su nivel educativo es alta.