Base de datos Enemdu Desempleo, enero-marzo 2021

#carga de librerias
library(pacman)
pacman::p_load(foreign,tidyverse,dplyr,plotly,flextable,haven)
#carga de la base
bd<- haven::read_spss("enmd_desempleo.sav",
                      col_select = -c('p34','p341','p351','p36','p37','p38','p381','p42','p43','p44f','p47a','p47b','p49','p50','p74a','p74b'))
bd

Variables

Tabla Nº 1
Variables	Etiquetas
p03	Edad
p20	Trabajo la semana pasada
p21	Actividad que realizó para ayudar en su hogar_rec
p22	Tiene trabajo del cual estuvo ausente
p32	Buscó trabajo el mes anterior
p71a	Recibió ingresos derivados del capital
p71b	Ingreso recibido por transacciones de capital
p72a	Recibe jubilación o pensiones
p72b	Ingreso por jubilación o pensiones
dominio	Dominios
Elaborado por: Grupo investigador.

## tibble [6,564 x 18] (S3: tbl_df/tbl/data.frame)
##  $ area   : dbl+lbl [1:6564] 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
##    ..@ label        : chr "Area"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Urbana" " Rural"
##  $ p02    : dbl+lbl [1:6564] 1, 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 1,...
##    ..@ label        : chr "Sexo"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Hombre" " Mujer"
##  $ p03    : dbl+lbl [1:6564] 26, 69, 63, 81, 25, 33, 77, 31, 72, 27, 27, 49, 23, 4...
##    ..@ label        : chr "Edad"
##    ..@ format.spss  : chr "F2.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 98 99
##    .. ..- attr(*, "names")= chr [1:2] " 98 y más" " No informa"
##  $ p10a   : dbl+lbl [1:6564] 7, 4, 4, 4, 7, 9, 1, 6, 4, 6, 8, 6, 8, 8, 7, 6, 4, 6,...
##    ..@ label        : chr "Nivel de instrucción"
##    ..@ format.spss  : chr "F2.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:10] 1 2 3 4 5 6 7 8 9 10
##    .. ..- attr(*, "names")= chr [1:10] " Ninguno" " Centro de alfabetización" " Jardín de infantes" " Primaria" ...
##  $ p11    : dbl+lbl [1:6564] NA,  1,  1,  1, NA, NA,  2, NA,  1, NA, NA, NA, NA, N...
##    ..@ label      : chr "Sabe leer y escribir"
##    ..@ format.spss: chr "F1.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p20    : dbl+lbl [1:6564] 1, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 1, 1, 2, 1, 1, 1,...
##    ..@ label        : chr "Trabajó la semana pasada"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p21    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  2,  2, NA, N...
##    ..@ label      : chr "Actividad que realizo para ayudar en su hogar_rec"
##    ..@ format.spss: chr "F8.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] "Si" "No"
##  $ p22    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  2,  2, NA, N...
##    ..@ label        : chr "Tiene trabajo del cual estuvo ausente"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 9
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p32    : dbl+lbl [1:6564] NA,  2,  2,  2,  2,  2,  2, NA,  2, NA,  1,  2, NA, N...
##    ..@ label      : chr "Busco trabajo el mes anterior_rec"
##    ..@ format.spss: chr "F8.0"
##    ..@ labels     : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] "Si" "No"
##  $ p71a   : dbl+lbl [1:6564] 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,...
##    ..@ label        : chr "Recibió ingresos derivados del capital"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p71b   : num [1:6564] NA NA NA NA NA NA NA NA NA NA ...
##   ..- attr(*, "label")= chr "Ingreso recibido por transacciones de capital"
##   ..- attr(*, "format.spss")= chr "F6.0"
##  $ p72a   : dbl+lbl [1:6564] 2, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2,...
##    ..@ label        : chr "Recibe jubilación o pensiones"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 6
##    ..@ labels       : Named num [1:2] 1 2
##    .. ..- attr(*, "names")= chr [1:2] " Si" " No"
##  $ p72b   : num [1:6564] NA 140 NA 500 NA NA NA NA 200 NA ...
##   ..- attr(*, "label")= chr "Ingreso por jubilación o pensiones"
##   ..- attr(*, "format.spss")= chr "F6.0"
##  $ fexp   : num [1:6564] 197 149 132 152 181 ...
##   ..- attr(*, "label")= chr "Factor de expansión"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ ingrl  : dbl+lbl [1:6564]  408,   NA,   NA,   NA,   NA,   NA,   NA,  220,   NA,...
##    ..@ label        : chr "Ingreso Laboral"
##    ..@ format.spss  : chr "F8.2"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:2] -1 999999
##    .. ..- attr(*, "names")= chr [1:2] "Gasta mas de lo que gana" "No informa"
##  $ condact: dbl+lbl [1:6564] 1, 9, 8, 9, 9, 9, 9, 2, 9, 1, 7, 9, 2, 2, 9, 1, 1, 1,...
##    ..@ label        : chr "Condición de actividad"
##    ..@ format.spss  : chr "F8.0"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:10] 0 1 2 3 4 5 6 7 8 9
##    .. ..- attr(*, "names")= chr [1:10] "Menores de 15 años" "Empleo Adecuado/Pleno" "Subempleo por insuficiencia de tiempo de trabajo" "Subempleo por insuficiencia de ingresos" ...
##  $ dominio: dbl+lbl [1:6564] 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...
##    ..@ label        : chr "Dominios"
##    ..@ format.spss  : chr "F1.0"
##    ..@ display_width: int 11
##    ..@ labels       : Named num [1:6] 1 2 3 4 5 6
##    .. ..- attr(*, "names")= chr [1:6] "Quito" "Guayaquil" "Cuenca" "Machala" ...
##  $ periodo: dbl+lbl [1:6564] 202103, 202103, 202103, 202103, 202103, 202103, 20210...
##    ..@ label        : chr "Periodo"
##    ..@ format.spss  : chr "F6.0"
##    ..@ display_width: int 10
##    ..@ labels       : Named num [1:3] 202101 202102 202103
##    .. ..- attr(*, "names")= chr [1:3] "ene-21" "feb-21" "mar-21"

Filtrar la base de la ‘Encuesta Nacional de Empleo, Desempleo y Subempleo’, para trabajar con la variable p71b (Ingreso recibido por transacciones de capital).

data1<- bd%>%filter((p03>=15)&(dominio==1)&(p21==2)&(p71a==1))
data1

Datos atípicos:

Método de imputacion por la mediana, para la variable p71b.

data1%>%filter(p71b!=999999)%>% 
  select(p71b)%>%summarise(mediana=round(median(p71b)))-> ip_01
ip_01  #mediana del ingreso != del registro 999999

data1$p71b[data1$p71b == 999999]<- ip_01 #imputacion por la mediana
data1$p71b<-as.numeric(data1$p71b) #numerico
data1<- data1%>%filter(p71b!=4 & p71b!=21000) #elimino los registros extremos
dim(data1) #dimension del data.frame

## [1] 150  18

Nota: El análisis de datos faltantes es fundamental al momento de analizar los datos, de igual manera el método de imputación que se aplica, ya que de eso depende que tan sesgados están nuestros resultados.

Se puede utilizar en esta base la mediana, sin embargo imputar por la media igual sería un buen método.

1.) Tamaño de muestra para la media

Tabla Nº 2
Variable	media	N	varianza	N.C	alfa	z	error
Ingreso recibido por transacciones de capital	326.39	150	103,756.6	0.94	0.06	1.88	19.58
Elaborado por: Grupo investigador.

Se obtuvo un promedio en los ingresos por transacciones de capital de: 326.39$.

1.2) Calculo del tamaño de muestra para la media:

$n$=$\frac{z^2*S^2*N} {(N*e^2)+(z^2*S^2)}$

## [1] "muestra(n):  130"

Interpretacion:

De una población total de 150 personas mayores a 15 años que no realizaron alguna actividad la semana pasada dentro o fuera de su hogar y que residen en el cantón Quito con ‘ingresos percibidos por transacciones de capital’; se pudo determinar con un nivel de confianza del 94% y un error de 19.58$, a través del MAS, un tamaño de muestra de 130 personas.

1.3) Seleccion aleatoria de los datos

variable p72b (Ingreso recibido por jubilaciones o pensiones).

data2<- bd%>%filter((p03>=15)&(dominio==1)&(p21==2)&(p72a==1)&(p72b>=75))
data2

Datos atípicos:

Método de imputacion por la mediana, para la variable p72b.

data2%>%filter(p72b!=999999)%>% #mediana del ingreso != del registro 999999
  select(p72b)%>%summarise(mediana=round(median(p72b)))->ip_02
ip_02

data2$p72b[data2$p72b == 999999]<-ip_02 #imputacion por la mediana
data2$p72b<-as.numeric(data2$p72b) #numerico
dim(data2) #dimension del data.frame

## [1] 699  18

2.) Tamaño de muestra para el total

Tabla Nº 3
Variable	total	N	varianza	N.C	alfa	z	error
Ingreso recibido por jubilaciones o pensiones	460,265	699	372,489.2	0.94	0.06	1.88	27,615.9
Elaborado por: Grupo investigador.

Se obtuvo un total de ingresos por jubilaciones y pensiones de: 460.265$.

2.2) Calculo del tamaño de muestra para el total:

$n$=$\frac{z^2*N*S^2} {e^2+(z^2*N*S^2)}$

## [1] "muestra(n):  382"

Interpretacion:

De una población de 699 personas que obtienen ‘ingresos por jubilaciones o pensiones’ y que residen en el cantón Quito, a través del MAS se pudo determinar para el total, un tamaño de muestra de 382 personas, se utilizó un nivel de confianza del 94% y un error de 27.615$.

2.3) Seleccion aleatoria de los datos

variable p32 (Busco trabajo el mes anterior).

data3<-bd%>%filter((p03>=15)&(dominio==1)&(p20==2)&(p21==2)&(p22==2))
data3

3.) Tamaño de muestra para la proporción

Tabla Nº 4
Variable	N	p (si)	q (no)	N.C	z	error
Busco trabajo el mes anterior	3,231	0.85	0.15	0.98	2.33	0.02
Elaborado por: Grupo investigador.

3.2) Calculo del tamaño de muestra para la proporción:

$n$=$\frac{z^2*p*q*N}{e^2*(N-1)+(z^2*p*q)}$

## [1] "muestra(n):  1125"

Interpretacion:

De una población de 3,231 personas que residen en el cantón Quito se obtuvo un tamaño de muestra para la proporción de 1,125, que representan el 85% y el 15%, para personas que no buscaron trabajo y para las que si buscaron trabajo el mes anterior respectivamente, con un nivel de confianza del 98% y un error del 2%.

3.3) Seleccion aleatoria de los datos

GRACIAS¡

Muestreo Aleatorio Simple

Muestreo I

Cristhian Sumba

02/09/2021

Base de datos Enemdu Desempleo, enero-marzo 2021

Variables

1.) Tamaño de muestra para la media

1.2) Calculo del tamaño de muestra para la media:

1.3) Seleccion aleatoria de los datos

2.) Tamaño de muestra para el total

2.2) Calculo del tamaño de muestra para el total:

2.3) Seleccion aleatoria de los datos

3.) Tamaño de muestra para la proporción

3.2) Calculo del tamaño de muestra para la proporción:

3.3) Seleccion aleatoria de los datos