ep1

educacion <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/educacion/737-Modulo03/Enaho01A-2020-300.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO",
"P301A","P301B","P301C"))

salud <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/salud/737-Modulo04/Enaho01A-2020-400.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO","P401","P401H1","P401H2","P401H3","P401H4","P401H5","P401H6"))

empleo <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/empleo/737-Modulo05/Enaho01A-2020-500.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO",
"UBIGEO","DOMINIO","ESTRATO","P501","P513A1","P513A2",
"I524E1","I530A","I538E1","I541A","P208A","P207","FAC500A","OCU500"))

1.2

datos <- educacion %>% inner_join(empleo,by=c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO"))
datos <- datos %>% inner_join(salud,by=c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO"))

datos <- datos %>% mutate(C_DPTO=substr(UBIGEO,1,2))
datos <- datos %>% filter(C_DPTO=="07")

1.3

datos <- datos %>% mutate(ING_TRAB = rowSums(datos %>%
select("I524E1","I530A","I538E1","I541A"),na.rm = T))

datos <- datos %>% mutate(ANIO_EXP = datos$P513A1 + datos$P513A2/12)
datos <- datos[datos$ING_TRAB>0,]

1.4

datos <- datos %>%
    mutate(temp=pmax(P301B,P301C,na.rm = T),
        ANIO_EDUC=case_when(P301A == 1 | P301A==2 ~ 0,
                           (P301A == 3 | P301A == 4) ~ temp,
                           (P301A == 5 | P301A == 6) ~ P301B + 6,
                           (P301A >= 7 & P301A <= 10) ~ P301B + 11,
                            P301A == 10 ~ 16,
                            P301A == 11 ~ P301B + 16,
                            TRUE ~ NA_real_)) %>% select(-temp)

1.5

datos <- datos %>%
mutate(discapacidad =ifelse(P401H1==1|P401H2==1|P401H3==1|
                        P401H4==1|P401H5==1|P401H6==1,1,0))

1.6

datos <- datos %>% mutate(Area = case_when(ESTRATO<=6 | (ESTRATO==1 & DOMINIO==8) ~ 1,
                                                                                 TRUE ~ 2),
                            C_DPTO = substr(UBIGEO,1,2),
                            C_DPTO = as.numeric(C_DPTO),
                          dominioA = case_when(DOMINIO==1 & Area==1 ~ 1,
                                               DOMINIO==1 & Area==2 ~ 2,
                                               DOMINIO==2 & Area==1 ~ 3,
                                               DOMINIO==2 & Area==2 ~ 4,
                                               DOMINIO==3 & Area==1 ~ 5,
                                               DOMINIO==3 & Area==2 ~ 6,
                                               DOMINIO==4 & Area==1 ~ 7,
                                               DOMINIO==4 & Area==2 ~ 8,
                                               DOMINIO==5 & Area==1 ~ 9,
                                               DOMINIO==5 & Area==2 ~ 10,
                                               DOMINIO==6 & Area==1 ~ 11,
                                               DOMINIO==6 & Area==2 ~ 12,
                                               DOMINIO==7 & Area==1 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==F ~ 13,
                                               DOMINIO==7 & Area==2 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==F ~ 14,
                                               DOMINIO==7 & Area==1 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==T ~ 15,
                                               DOMINIO==7 & Area==2 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==T ~ 16,
                                               DOMINIO==8 & (Area==1 | Area==2)==T ~ 17))

datos <- datos %>% mutate(Area = factor(Area,
                                      levels = c(1,2),
                                      labels = c("Urbano","Rural")),
                          dominioA = factor(dominioA,
                                      levels = as.character(1:17),
                                      labels = c("Costa norte urbana", "Costa norte rural", "Costa centro urbana", 
                                                 "Costa centro rural", "Costa sur urbana", "Costa sur rural", 
                                                 "Sierra norte urbana", "Sierra norte rural", "Sierra centro urbana",
                                                 "Sierra centro rural", "Sierra sur urbana", "Sierra sur rural",
                                                 "Selva alta urbana", "Selva alta rural",
                                                 "Selva baja urbana", "Selva baja rural", 
                                                 "callao")))
datos$ESTRATO <- factor(datos$ESTRATO,
                        levels = c("1","3","4",
                                   "5","6","7","8"),
                        labels = c("1.De 500 000 a más habitantes.",
                                   "3.De 50 000 a 99 999 habitantes.",
                                   "4.De 20 000 a 49 999 habitantes.",
                                   "5.De 2 000 a 19 999 habitantes.",
                                   "6.De 500 a 1 999 habitantes.",
                                   "7.Área de Empadronamiento Rural (AER) Compuesto.",
                                   "8.Área de Empadronamiento Rural (AER) Simple."))


datos$P401 <- factor(datos$P401,
                  levels = c("1","2"),
                  labels = c("Si","No"))

datos <- datos  %>% mutate(ING_NETO_MENSUAL= ING_TRAB/(12))

svy.datos <- svydesign(ids =~CONGLOME,strata =~ESTRATO,weights =~FAC500A,data =datos)

2.1

mean(datos$ING_NETO_MENSUAL)

## [1] 1197.222

Se observa que de los datos de la muestra, las personas encuestadas tienen un ingreso promedio mensual a precios de lima metropolitana de 1197.222, mientras que los valores expandidos a nivel poblacional para la región de callao es de 1112.

2.2

cor(datos$ANIO_EDUC,datos$ING_NETO_MENSUAL)

## [1] 0.3569861

Con un valor de 0.356 se puede decir que existe una relación positiva entre las dos variables; es decir, cuando la magnitud de una incrementa, la otra también.

2.3

cor.test(datos$ANIO_EXP,datos$ING_NETO_MENSUAL)

## 
##  Pearson's product-moment correlation
## 
## data:  datos$ANIO_EXP and datos$ING_NETO_MENSUAL
## t = 8.2239, df = 832, p-value = 7.543e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2102144 0.3358224
## sample estimates:
##       cor 
## 0.2741874

cor.test(datos$ANIO_EXP,datos$I524E1)

## 
##  Pearson's product-moment correlation
## 
## data:  datos$ANIO_EXP and datos$I524E1
## t = 9.1965, df = 531, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2950213 0.4416898
## sample estimates:
##       cor 
## 0.3706641

4.1

table(datos$P401)

## 
##  Si  No 
## 565 725

table(salud$P401)

## 
##     1     2 
## 43643 76637

svymean(~ING_NETO_MENSUAL,svy.datos,na.rm = T)

##                  mean    SE
## ING_NETO_MENSUAL 1112 35.75

est2 <- svyby(~ING_NETO_MENSUAL,~P401,svy.datos,svymean,na.rm=T); 

est2.1 <- data.frame(est2,row.names = 1); est2.1

cv_est2 <- cv(est2); cv_est2

##         Si         No 
## 0.04480540 0.03824246

conf_est2 <- confint(est2); conf_est2

##       2.5 %   97.5 %
## Si  952.365 1135.736
## No 1072.846 1246.705

est0 <- as.numeric(table(datos$P401))
est3 <- cbind.data.frame(est0,
                         round(est2.1,0),
                         cv_est2*100,
                         round(conf_est2,0)
                         ); est3

r.names <- est2[,1]
rownames(est3) <- r.names

colnames(est3) <- c("Muestra","Estimacion","Error estandar","CV%","2.5%","97.5%")
kable(est3,
      booktabs = T, longtable = T, #format = 'latex',
      linesep = " ",
      caption = "Ingreso Promedio Mensual de callao 2020",
      digits = 2,
      align=rep("c", 5),
      format.args = list(decimal.mark = ".", big.mark = " ")) %>%
  row_spec(c(1:1) - 1) %>%
kable_styling(font_size = 9,
                latex_options = c("repeat_header")) %>%
add_header_above(c(" " = 5, "Intervalo al 95% de confianza" = 2)) %>%
footnote(general = "ENAHO 2020",
     general_title = "Fuente: Microtados INEI ",
footnote_as_chunk = T, title_format = c("italic"),
threeparttable = T)

Ingreso Promedio Mensual de callao 2020
					Intervalo al 95% de confianza
	Muestra	Estimacion	Error estandar	CV%	2.5%	97.5%
Si	565	1 044	47	4.48	952	1 136
No	725	1 160	44	3.82	1 073	1 247
Fuente: Microtados INEI ENAHO 2020

De las muestras tomadas de la region del callo se tiene un nivel de confianza del 95% de los ingresos en promedio si ganan 1044 soles mensuales miestras la otra parte dice que no llega a ganar en promedio 1180 soles.

4.2

cv_est2 <- cv(est2); cv_est2

##         Si         No 
## 0.04480540 0.03824246

conf_est2 <- confint(est2); conf_est2

##       2.5 %   97.5 %
## Si  952.365 1135.736
## No 1072.846 1246.705

est0 <- as.numeric(table(datos$P401))
est3 <- cbind.data.frame(est0,
                         round(est2.1,0),
                         cv_est2*100,
                         round(conf_est2,0)
                         ); est3

r.names <- est2[,1]
rownames(est3) <- r.names

colnames(est3) <- c("Muestra","Estimacion","Error estandar","CV%","2.5%","97.5%")
kable(est3,
      booktabs = T, longtable = T, #format = 'latex',
      linesep = " ",
      caption = "Ingreso Promedio Mensual de Area 2020",
      digits = 2,
      align=rep("c", 5),
      format.args = list(decimal.mark = ".", big.mark = " ")) %>%
  row_spec(c(1:1) - 1) %>%
kable_styling(font_size = 9,
                latex_options = c("repeat_header")) %>%
add_header_above(c(" " = 5, "Intervalo al 95% de confianza" = 2)) %>%
footnote(general = "ENAHO 2020",
     general_title = "Fuente: Micro datos",
footnote_as_chunk = T, title_format = c("italic"),
threeparttable = T)

Ingreso Promedio Mensual de Area 2020
					Intervalo al 95% de confianza
	Muestra	Estimacion	Error estandar	CV%	2.5%	97.5%
Si	565	1 044	47	4.48	952	1 136
No	725	1 160	44	3.82	1 073	1 247
Fuente: Micro datos ENAHO 2020

datos$ING_NETO_MENSUAL_log = log(datos$ING_TRAB/12)

modelo1= lm(ING_NETO_MENSUAL_log ~ ANIO_EDUC + ANIO_EXP + P208A + P207 + discapacidad, data= datos)
summary(modelo1)

## 
## Call:
## lm(formula = ING_NETO_MENSUAL_log ~ ANIO_EDUC + ANIO_EXP + P208A + 
##     P207 + discapacidad, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.5980 -0.3521  0.1284  0.4909  2.0516 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   6.597227   0.169435  38.937  < 2e-16 ***
## ANIO_EDUC     0.075134   0.009007   8.342 3.03e-16 ***
## ANIO_EXP      0.025336   0.003666   6.911 9.59e-12 ***
## P208A        -0.004510   0.002307  -1.955  0.05088 .  
## P207         -0.452108   0.059010  -7.662 5.13e-14 ***
## discapacidad -0.455591   0.176059  -2.588  0.00983 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8424 on 828 degrees of freedom
##   (456 observations deleted due to missingness)
## Multiple R-squared:  0.2033, Adjusted R-squared:  0.1984 
## F-statistic: 42.25 on 5 and 828 DF,  p-value: < 2.2e-16

ep1

raul sandoval

2022-03-27