library(rio)
data = import("PERU2020.csv")
data[,c(2,7:10,14,20)]=lapply(data[,c(2,7:10,14,20)],as.numeric)
#Forma corta de cambiar la configuración
str(data)
## 'data.frame': 1539 obs. of 20 variables:
## $ sexo : chr "Mujer" "Hombre" "Hombre" "Hombre" ...
## $ edad : num 54 18 56 50 40 38 65 30 5 39 ...
## $ pobreza : chr "No pobres" "No pobres" "No pobres" "No pobres" ...
## $ y1 : num 320000 NA NA NA 140000 NA NA NA NA NA ...
## $ ytotcorh : num 1321481 1321481 302083 302083 150417 ...
## $ ytot : num 320000 NA 18750 283333 150417 ...
## $ y2_hrs : num 180 NA NA NA 70 NA NA NA NA NA ...
## $ tot_per : num 4 4 2 2 1 2 2 4 3 3 ...
## $ n_ocupados : num 2 2 1 1 1 1 1 1 1 1 ...
## $ n_desocupados: num 0 0 0 0 0 0 0 0 1 1 ...
## $ v19 : num 400000 400000 100000 100000 80000 130000 130000 200000 70000 70000 ...
## $ pobreza_sinte: chr "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" "No pobres sin transferencia Covid" ...
## $ asiste2 : chr "No asiste" "No asiste" "No asiste" "No asiste" ...
## $ esc : num 14 12 12 12 8 12 12 14 NA 12 ...
## $ educ : chr "Técnico nivel superior incompleta" "Media humanista completa" "Media humanista completa" "Media humanista completa" ...
## $ activ : chr "Ocupados" "Inactivos" "Inactivos" "Ocupados" ...
## $ activ2 : chr "Ocupado, no suspendido por LPE" "Inactivos" "Inactivos" "Ocupado, no suspendido por LPE" ...
## $ ocup_inf : chr "No" "" "" "Sí" ...
## $ sist_salud : chr "FONASA" "Ninguno (particular)" "Ninguno (particular)" "Ninguno (particular)" ...
## $ expr : num 28 28 30 30 32 28 28 28 28 28 ...
sum(is.na(data$ytot)) #ejemplo 2 (aquí, sí hay perdidos)
## [1] 546
data1 = data[complete.cases(data$ytot),] #imputando perdidos de "ytot
sum(is.na(data1$ytot))
## [1] 0
sum(is.na(data1$ytotcorh))
## [1] 0
str(data1$ytot)
## num [1:993] 320000 18750 283333 150417 225000 ...
str(data$ytotcorh)
## num [1:1539] 1321481 1321481 302083 302083 150417 ...
• Supuesto de NORMALIDAD
library(nortest)
lillie.test(data$ytotcorh) #Kolmogorov smirnov
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$ytotcorh
## D = 0.19386, p-value < 2.2e-16
lillie.test(data1$ytot)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data1$ytot
## D = 0.2047, p-value < 2.2e-16
ES MENOR ASÍ QUE SE RECHAZA EL QUE HAYA NORMALIDAD
-> Conclusión: No hay normalida en ninguna variable, por lo que debiéramos usar Coef de Spearman.
cor.test(data1$ytotcorh,data1$ytot, method = c("spearman")) #otra forma #en method puede colocars
## Warning in cor.test.default(data1$ytotcorh, data1$ytot, method = c("spearman")):
## Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: data1$ytotcorh and data1$ytot
## S = 85316624, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4771976
el p value es menor así que … “sí existe correlación entre las variables edad e ingresos”.
Al ser 0.47 es una correlación mediana positiva
plot(data1$ytotcorh,data1$ytot)