Base de datos Enemdu Desempleo, enero-marzo 2021

#carga de librerias
library(pacman)
pacman::p_load(foreign,tidyverse,dplyr,plotly,flextable,haven)
#carga de la base
bd<- haven::read_spss("enmd_desempleo.sav",
                      col_select = -c('p34','p341','p351','p36','p37','p38','p381','p42','p43','p44f','p47a','p47b','p49','p50','p74a','p74b'))
bd

Variables

## tibble [6,564 x 18] (S3: tbl_df/tbl/data.frame)
##  $ area   : dbl+lbl [1:6564] 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
##    ..@ label        : chr "Area"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Urbana" " Rural"
##  $ p02    : dbl+lbl [1:6564] 1, 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 1,...
##    ..@ label        : chr "Sexo"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Hombre" " Mujer"
##  $ p03    : dbl+lbl [1:6564] 26, 69, 63, 81, 25, 33, 77, 31, 72, 27, 27, 49, 23, 4...
##    ..@ label        : chr "Edad"
##    ..@ format.spss  : chr "F2.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 98 99
##    .. ..- attr(*, "names")= chr [1:2] " 98 y más" " No informa"
##  $ p10a   : dbl+lbl [1:6564] 7, 4, 4, 4, 7, 9, 1, 6, 4, 6, 8, 6, 8, 8, 7, 6, 4, 6,...
##    ..@ label        : chr "Nivel de instrucción"
##    ..@ format.spss  : chr "F2.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:10] 1 2 3 4 5 6 7 8 9 10
##    .. ..- attr(*, "names")= chr [1:10] " Ninguno" " Centro de alfabetización" " Jardín de infantes" " Primaria" ...
##  $ p11    : dbl+lbl [1:6564] NA,  1,  1,  1, NA, NA,  2, NA,  1, NA, NA, NA, NA, N...
##    ..@ label      : chr "Sabe leer y escribir"
##    ..@ format.spss: chr "F1.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p20    : dbl+lbl [1:6564] 1, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 1, 1, 2, 1, 1, 1,...
##    ..@ label        : chr "Trabajó la semana pasada"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p21    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  2,  2, NA, N...
##    ..@ label      : chr "Actividad que realizo para ayudar en su hogar_rec"
##    ..@ format.spss: chr "F8.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] "Si" "No"
##  $ p22    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  2,  2, NA, N...
##    ..@ label        : chr "Tiene trabajo del cual estuvo ausente"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p32    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  1,  2, NA, N...
##    ..@ label      : chr "Busco trabajo el mes anterior_rec"
##    ..@ format.spss: chr "F8.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] "Si" "No"
##  $ p71a   : dbl+lbl [1:6564] 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,...
##    ..@ label        : chr "Recibió ingresos derivados del capital"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p71b   : num [1:6564] NA NA NA NA NA NA NA NA NA NA ...
##   ..- attr(*, "label")= chr "Ingreso recibido por transacciones de capital"
##   ..- attr(*, "format.spss")= chr "F6.0"
##  $ p72a   : dbl+lbl [1:6564] 2, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2,...
##    ..@ label        : chr "Recibe jubilación o pensiones"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p72b   : num [1:6564] NA 140 NA 500 NA NA NA NA 200 NA ...
##   ..- attr(*, "label")= chr "Ingreso por jubilación o pensiones"
##   ..- attr(*, "format.spss")= chr "F6.0"
##  $ fexp   : num [1:6564] 197 149 132 152 181 ...
##   ..- attr(*, "label")= chr "Factor de expansión"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ ingrl  : dbl+lbl [1:6564]  408,   NA,   NA,   NA,   NA,   NA,   NA,  220,   NA,...
##    ..@ label        : chr "Ingreso Laboral"
##    ..@ format.spss  : chr "F8.2"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:2] -1 999999
##    .. ..- attr(*, "names")= chr [1:2] "Gasta mas de lo que gana" "No informa"
##  $ condact: dbl+lbl [1:6564] 1, 9, 8, 9, 9, 9, 9, 2, 9, 1, 7, 9, 2, 2, 9, 1, 1, 1,...
##    ..@ label        : chr "Condición de actividad"
##    ..@ format.spss  : chr "F8.0"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:10] 0 1 2 3 4 5 6 7 8 9
##    .. ..- attr(*, "names")= chr [1:10] "Menores de 15 años" "Empleo Adecuado/Pleno" "Subempleo por insuficiencia de tiempo de trabajo" "Subempleo por insuficiencia de ingresos" ...
##  $ dominio: dbl+lbl [1:6564] 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
##    ..@ label        : chr "Dominios"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 11
##    ..@ labels       : Named num [1:6] 1 2 3 4 5 6
##    .. ..- attr(*, "names")= chr [1:6] "Quito" "Guayaquil" "Cuenca" "Machala" ...
##  $ periodo: dbl+lbl [1:6564] 202103, 202103, 202103, 202103, 202103, 202103, 20210...
##    ..@ label        : chr "Periodo"
##    ..@ format.spss  : chr "F6.0"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:3] 202101 202102 202103
##    .. ..- attr(*, "names")= chr [1:3] "ene-21" "feb-21" "mar-21"

Filtrar la base de la ‘Encuesta Nacional de Empleo, Desempleo y Subempleo’, para trabajar con la variable p71b (Ingreso recibido por transacciones de capital).

data1<- bd%>%filter((p03>=15)&(dominio==1)&(p21==2)&(p71a==1))
data1

Datos atípicos:

Método de imputacion por la mediana, para la variable p71b.

data1%>%filter(p71b!=999999)%>% 
  select(p71b)%>%summarise(mediana=round(median(p71b)))-> ip_01
ip_01  #mediana del ingreso != del registro 999999
data1$p71b[data1$p71b == 999999]<- ip_01 #imputacion por la mediana
data1$p71b<-as.numeric(data1$p71b) #numerico
data1<- data1%>%filter(p71b!=4 & p71b!=21000) #elimino los registros extremos
dim(data1) #dimension del data.frame
## [1] 150  18

Nota: El análisis de datos faltantes es fundamental al momento de analizar los datos, de igual manera el método de imputación que se aplica, ya que de eso depende que tan sesgados están nuestros resultados.

Se puede utilizar en esta base la mediana, sin embargo imputar por la media igual sería un buen método.

1.) Tamaño de muestra para la media

Se obtuvo un promedio en los ingresos por transacciones de capital de: 326.39$.

1.2) Calculo del tamaño de muestra para la media:

\(n\)=\(\frac{z^2*S^2*N} {(N*e^2)+(z^2*S^2)}\)
## [1] "muestra(n):  130"

Interpretacion:

De una población total de 150 personas mayores a 15 años que no realizaron alguna actividad la semana pasada dentro o fuera de su hogar y que residen en el cantón Quito con ‘ingresos percibidos por transacciones de capital’; se pudo determinar con un nivel de confianza del 94% y un error de 19.58$, a través del MAS, un tamaño de muestra de 130 personas.

1.3) Seleccion aleatoria de los datos

variable p72b (Ingreso recibido por jubilaciones o pensiones).

data2<- bd%>%filter((p03>=15)&(dominio==1)&(p21==2)&(p72a==1)&(p72b>=75))
data2

Datos atípicos:

Método de imputacion por la mediana, para la variable p72b.

data2%>%filter(p72b!=999999)%>% #mediana del ingreso != del registro 999999
  select(p72b)%>%summarise(mediana=round(median(p72b)))->ip_02
ip_02
data2$p72b[data2$p72b == 999999]<-ip_02 #imputacion por la mediana
data2$p72b<-as.numeric(data2$p72b) #numerico
dim(data2) #dimension del data.frame
## [1] 699  18

2.) Tamaño de muestra para el total

Se obtuvo un total de ingresos por jubilaciones y pensiones de: 460.265$.

2.2) Calculo del tamaño de muestra para el total:

\(n\)=\(\frac{z^2*N*S^2} {e^2+(z^2*N*S^2)}\)
## [1] "muestra(n):  382"

Interpretacion:

De una población de 699 personas que obtienen ‘ingresos por jubilaciones o pensiones’ y que residen en el cantón Quito, a través del MAS se pudo determinar para el total, un tamaño de muestra de 382 personas, se utilizó un nivel de confianza del 94% y un error de 27.615$.

2.3) Seleccion aleatoria de los datos

variable p32 (Busco trabajo el mes anterior).

data3<-bd%>%filter((p03>=15)&(dominio==1)&(p20==2)&(p21==2)&(p22==2))
data3

3.) Tamaño de muestra para la proporción

3.2) Calculo del tamaño de muestra para la proporción:

\(n\)=\(\frac{z^2*p*q*N}{e^2*(N-1)+(z^2*p*q)}\)
## [1] "muestra(n):  1125"

Interpretacion:

De una población de 3,231 personas que residen en el cantón Quito se obtuvo un tamaño de muestra para la proporción de 1,125, que representan el 85% y el 15%, para personas que no buscaron trabajo y para las que si buscaron trabajo el mes anterior respectivamente, con un nivel de confianza del 98% y un error del 2%.

3.3) Seleccion aleatoria de los datos

GRACIAS¡