library(rio)
data = import("PERU2020.csv")
data[,c(2,7:10,14,20)]=lapply(data[,c(2,7:10,14,20)],as.numeric) 
                                                                                #Forma corta de cambiar la configuración
str(data)
## 'data.frame':    1539 obs. of  20 variables:
##  $ sexo         : chr  "Mujer" "Hombre" "Hombre" "Hombre" ...
##  $ edad         : num  54 18 56 50 40 38 65 30 5 39 ...
##  $ pobreza      : chr  "No pobres" "No pobres" "No pobres" "No pobres" ...
##  $ y1           : num  320000 NA NA NA 140000 NA NA NA NA NA ...
##  $ ytotcorh     : num  1321481 1321481 302083 302083 150417 ...
##  $ ytot         : num  320000 NA 18750 283333 150417 ...
##  $ y2_hrs       : num  180 NA NA NA 70 NA NA NA NA NA ...
##  $ tot_per      : num  4 4 2 2 1 2 2 4 3 3 ...
##  $ n_ocupados   : num  2 2 1 1 1 1 1 1 1 1 ...
##  $ n_desocupados: num  0 0 0 0 0 0 0 0 1 1 ...
##  $ v19          : num  400000 400000 100000 100000 80000 130000 130000 200000 70000 70000 ...
##  $ pobreza_sinte: chr  "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" ...
##  $ asiste2      : chr  "No asiste" "No asiste" "No asiste" "No asiste" ...
##  $ esc          : num  14 12 12 12 8 12 12 14 NA 12 ...
##  $ educ         : chr  "Técnico nivel superior incompleta" "Media humanista completa" "Media humanista completa" "Media humanista completa" ...
##  $ activ        : chr  "Ocupados" "Inactivos" "Inactivos" "Ocupados" ...
##  $ activ2       : chr  "Ocupado, no suspendido por LPE" "Inactivos" "Inactivos" "Ocupado, no suspendido por LPE" ...
##  $ ocup_inf     : chr  "No" "" "" "Sí" ...
##  $ sist_salud   : chr  "FONASA" "Ninguno (particular)" "Ninguno (particular)" "Ninguno (particular)" ...
##  $ expr         : num  28 28 30 30 32 28 28 28 28 28 ...
sum(is.na(data$ytot)) #ejemplo 2 (aquí, sí hay perdidos) 
## [1] 546
data1 = data[complete.cases(data$ytot),] #imputando perdidos de "ytot
sum(is.na(data1$ytot))  
## [1] 0
sum(is.na(data1$ytotcorh))  
## [1] 0
str(data1$ytot)
##  num [1:993] 320000 18750 283333 150417 225000 ...
str(data$ytotcorh)
##  num [1:1539] 1321481 1321481 302083 302083 150417 ...

• Supuesto de NORMALIDAD

library(nortest)
lillie.test(data$ytotcorh) #Kolmogorov smirnov
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data$ytotcorh
## D = 0.19386, p-value < 2.2e-16
lillie.test(data1$ytot)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data1$ytot
## D = 0.2047, p-value < 2.2e-16

ES MENOR ASÍ QUE SE RECHAZA EL QUE HAYA NORMALIDAD

-> Conclusión: No hay normalida en ninguna variable, por lo que debiéramos usar Coef de Spearman.

cor.test(data1$ytotcorh,data1$ytot, method = c("spearman")) #otra forma #en method puede colocars
## Warning in cor.test.default(data1$ytotcorh, data1$ytot, method = c("spearman")):
## Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  data1$ytotcorh and data1$ytot
## S = 85316624, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4771976

el p value es menor así que … “sí existe correlación entre las variables edad e ingresos”.

Al ser 0.47 es una correlación mediana positiva

plot(data1$ytotcorh,data1$ytot)