El siguiente comando nos permite acceder directametne a la base alojada en la pagina web del INE
# directorio
setwd("D:/OD/OneDrive/FACEN_BIGDATA")
#Este comendo es para descargar la base
#baseEPH=read.csv("https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv",sep=";",header=T, dec = ",")
# para guardar la base en formato R
#save(datos, datos2, file = "dosresultados.RData")
#write.csv2(baseEPH,"baseEPH.csv")
#para cargar las base
baseEPH=read.csv2("baseEPH.csv")
#names(baseEPH)
# para ver los nombres de las variables
# names(baseEPH)
str(baseEPH$e01aimde)
## num [1:16569] 0 0 2844444 812698 2387302 ...
La idea es proveer datos a una empresa que desea instalar una sucursal para colocar su seguro de salud en determinados puntos del país. En qué departamentos sería mas conveniente para la empresa habilitar una nueva sucursal
La idea es detectar la variable que permita responder a la necesidad del estudio
Detectar a las personas con ingresos suficientes y que no posean motocicleta.
Ocupados 1 Desocupados 2 Inactivos 3 NR 9 NA 0
table(baseEPH$PEAA)
##
## 1 2 3
## 8182 507 4959
basefil=subset(baseEPH,PEAA==1 & P02>18 & e01aimde>1999999)
summary(basefil$e01aimde)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2000000 2234921 2844444 3911221 4000000 117230000
La variable que me permita identificar si la persona posee o no un seguro privado de salud es S01A
Sí, IPS 1 Sí, Seguro privado individual 2 Sí, Seguro privado laboral 3 Sí, Seguro privado familiar 4 Sí, Sanidad militar 5 Sí, Sanidad policial 6 No tiene en ningún lugar 7 Otro (especificar) 8 NR 9
table(basefil$S01A)
##
## 1 2 3 4 5 6 7 9
## 1166 22 113 168 21 34 1686 2
Etiquetar las categorias de la variable
basefil$S01A=factor(basefil$S01A,labels=c("IPS","Individual","Laboral","Familiar","Militar","Policial","No tiene","NR"))
barplot(prop.table(table(basefil$S01A)))
basefil$DPTOREP=factor(basefil$DPTOREP,labels=c("Asunciòn","San Pedro","Caaguazù","Caazapà","Itapùa","Alto Paranà","Cetral","Resto"))
barplot(table(basefil$DPTOREP))
tablafrec=table(basefil$DPTOREP,basefil$S01A)
tablafrec
##
## IPS Individual Laboral Familiar Militar Policial No tiene NR
## Asunciòn 168 7 25 43 9 1 131 0
## San Pedro 62 0 2 2 0 3 125 0
## Caaguazù 58 1 4 3 1 1 94 0
## Caazapà 54 1 2 2 0 3 67 0
## Itapùa 106 2 9 15 0 1 138 0
## Alto Paranà 142 3 8 35 0 3 308 0
## Cetral 315 6 38 43 8 11 395 2
## Resto 261 2 25 25 3 11 428 0
prop.table(tablafrec,margin=c(1))
##
## IPS Individual Laboral Familiar Militar
## Asunciòn 0.437500000 0.018229167 0.065104167 0.111979167 0.023437500
## San Pedro 0.319587629 0.000000000 0.010309278 0.010309278 0.000000000
## Caaguazù 0.358024691 0.006172840 0.024691358 0.018518519 0.006172840
## Caazapà 0.418604651 0.007751938 0.015503876 0.015503876 0.000000000
## Itapùa 0.391143911 0.007380074 0.033210332 0.055350554 0.000000000
## Alto Paranà 0.284569138 0.006012024 0.016032064 0.070140281 0.000000000
## Cetral 0.385085575 0.007334963 0.046454768 0.052567237 0.009779951
## Resto 0.345695364 0.002649007 0.033112583 0.033112583 0.003973510
##
## Policial No tiene NR
## Asunciòn 0.002604167 0.341145833 0.000000000
## San Pedro 0.015463918 0.644329897 0.000000000
## Caaguazù 0.006172840 0.580246914 0.000000000
## Caazapà 0.023255814 0.519379845 0.000000000
## Itapùa 0.003690037 0.509225092 0.000000000
## Alto Paranà 0.006012024 0.617234469 0.000000000
## Cetral 0.013447433 0.482885086 0.002444988
## Resto 0.014569536 0.566887417 0.000000000
plot(prop.table(tablafrec,margin=c(1)),color=basefil$S01A)