Primer examen parcial de Analitica de Big Data, 1er Periodo 2023

Accedemos a la base de datos de la EPH

baseEPH=read.csv("https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv",sep=";",header=T, dec = ",")

Generamos una nueva base considerando a personas mayores de edad que estan ocupadas con las variables e0aimde, P06, , área y P02 para realizar un analisis sobre el ingreso de dichas personas, para comprobar que hombres y mujeres no difieren unos de otros

basefil=subset(baseEPH,PEAA==1 & P02>18, select = c(P06,e01aimde,AREA,P02))
#basefil

Analisis exploratorio de los datos

Edad

summary(basefil$P02)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.00   29.00   40.00   41.61   53.00   94.00
#Recodificaremos la edad en 3 grupos grandes
basefil$edadrec[basefil$P02<=29] <-"29 o menos"
basefil$edadrec[basefil$P02>29&basefil$P06<=50]<-"de 30 a 50 "
basefil$edadrec[basefil$P02>50]<-"mayores a 50"
#Distribucion de la variable edad recodificada
tabla1=table(basefil$edadrec);tabla1
## 
##   29 o menos  de 30 a 50  mayores a 50 
##         1965         3478         2191
barplot(tabla1)

Ingreso

summary(basefil$e01aimde)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0    586791   1600000   2105371   2539683 117230000
# Para una mejor apreciacion recodificaremos el ingreso en 3 categorias y especificar que el ingreso debe ser mayor a cero
basefil$Ing.rec[basefil$e01aimde<=2500000&basefil$e01aimde>0]<-1
basefil$Ing.rec[basefil$e01aimde>2500000&basefil$e01aimde<=5000000]<-2
basefil$Ing.rec[basefil$e01aimde>5000000]<-3
basefil$Ing.rec=factor(basefil$Ing.rec, labels = c("2.5 millones o menos", "de 2.5 a 5 millones","mayores a 5 millones"))
#Distribucion de la variable Ingreso
table(basefil$Ing.rec) 
## 
## 2.5 millones o menos  de 2.5 a 5 millones mayores a 5 millones 
##                 4921                 1465                  452
barplot(table(basefil$Ing.rec))

#Se observa una gran nayoria de personas que perciben 2 millones quinientos mil gs o menos

Sexo

basefil$P06=factor(basefil$P06,labels = c('Hombres','Mujeres'))
#DISTRIBUCION DEL SEXO
table(basefil$P06)
## 
## Hombres Mujeres 
##    4435    3199
barplot(prop.table(table(basefil$P06)))

#Se observa una proporcion mayor de hombres con respecto  a las mujeres

AREA

#vista de la variable Area
basefil$AREA=factor(basefil$AREA,labels = c('Urbana','Rural'))
barplot(prop.table(table(basefil$AREA)))

#Aparentemente tenemos una proporcion de personas que viven en area urbana y area rural muy similiares

Veremos la relacion entre el sexo y el ingreso de las personas

prop.table(table(basefil$Ing.rec,basefil$P06),margin = 1)
##                       
##                          Hombres   Mujeres
##   2.5 millones o menos 0.5791506 0.4208494
##   de 2.5 a 5 millones  0.6614334 0.3385666
##   mayores a 5 millones 0.6592920 0.3407080
barplot(prop.table(table(basefil$Ing.rec,basefil$P06),margin = 1),col = rainbow(3),main ='Distribucion de Ingreso por sexo',legend.text = T,beside = T)

Aparentemente el ingreso varia mucho en relacion al sexo de la persona, indicando que al parecer las mujeres tienen un ingreso inferior al de los hombres, tambien podemos ver que en las mujeres hay una mayor porporcion de personas que perciben dos y medio millon de guaranies, mientras que en los hombres la proporcion mayor se encuentra recibiendo mayor a 2.5 millones .En conclusion podemos decir que existe una desigualdad salarial entre hombres y mujeres

Relacion entre en Ingreso y el area de vivienda

barplot(prop.table(table(basefil$Ing.rec,basefil$AREA),margin = 1),col = rainbow(3),main ='Distribucion de Ingreso por sexo',legend.text = T,beside = T)

Existe una gran diferencia en cuestion de salarios por area, es decir, aparentemente en la zona rural se percibe menos en cuestion de salarios