educacion <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/educacion/737-Modulo03/Enaho01A-2020-300.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO",
"P301A","P301B","P301C"))

salud <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/salud/737-Modulo04/Enaho01A-2020-400.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO","P401","P401H1","P401H2","P401H3","P401H4","P401H5","P401H6"))

empleo <- read_sav("C:/Users/sando/OneDrive/Escritorio/usmp V/econometria B/unidad 1/ep1/empleo/737-Modulo05/Enaho01A-2020-500.sav",
col_select = c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO",
"UBIGEO","DOMINIO","ESTRATO","P501","P513A1","P513A2",
"I524E1","I530A","I538E1","I541A","P208A","P207","FAC500A","OCU500"))

1.2

datos <- educacion %>% inner_join(empleo,by=c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO"))
datos <- datos %>% inner_join(salud,by=c("NCONGLOME","CONGLOME","VIVIENDA","HOGAR","CODPERSO"))

datos <- datos %>% mutate(C_DPTO=substr(UBIGEO,1,2))
datos <- datos %>% filter(C_DPTO=="07")

1.3

datos <- datos %>% mutate(ING_TRAB = rowSums(datos %>%
select("I524E1","I530A","I538E1","I541A"),na.rm = T))

datos <- datos %>% mutate(ANIO_EXP = datos$P513A1 + datos$P513A2/12)
datos <- datos[datos$ING_TRAB>0,]

1.4

datos <- datos %>%
    mutate(temp=pmax(P301B,P301C,na.rm = T),
        ANIO_EDUC=case_when(P301A == 1 | P301A==2 ~ 0,
                           (P301A == 3 | P301A == 4) ~ temp,
                           (P301A == 5 | P301A == 6) ~ P301B + 6,
                           (P301A >= 7 & P301A <= 10) ~ P301B + 11,
                            P301A == 10 ~ 16,
                            P301A == 11 ~ P301B + 16,
                            TRUE ~ NA_real_)) %>% select(-temp)

1.5

datos <- datos %>%
mutate(discapacidad =ifelse(P401H1==1|P401H2==1|P401H3==1|
                        P401H4==1|P401H5==1|P401H6==1,1,0))

1.6

datos <- datos %>% mutate(Area = case_when(ESTRATO<=6 | (ESTRATO==1 & DOMINIO==8) ~ 1,
                                                                                 TRUE ~ 2),
                            C_DPTO = substr(UBIGEO,1,2),
                            C_DPTO = as.numeric(C_DPTO),
                          dominioA = case_when(DOMINIO==1 & Area==1 ~ 1,
                                               DOMINIO==1 & Area==2 ~ 2,
                                               DOMINIO==2 & Area==1 ~ 3,
                                               DOMINIO==2 & Area==2 ~ 4,
                                               DOMINIO==3 & Area==1 ~ 5,
                                               DOMINIO==3 & Area==2 ~ 6,
                                               DOMINIO==4 & Area==1 ~ 7,
                                               DOMINIO==4 & Area==2 ~ 8,
                                               DOMINIO==5 & Area==1 ~ 9,
                                               DOMINIO==5 & Area==2 ~ 10,
                                               DOMINIO==6 & Area==1 ~ 11,
                                               DOMINIO==6 & Area==2 ~ 12,
                                               DOMINIO==7 & Area==1 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==F ~ 13,
                                               DOMINIO==7 & Area==2 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==F ~ 14,
                                               DOMINIO==7 & Area==1 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==T ~ 15,
                                               DOMINIO==7 & Area==2 & (C_DPTO==16 | C_DPTO==17 | C_DPTO==25)==T ~ 16,
                                               DOMINIO==8 & (Area==1 | Area==2)==T ~ 17))

datos <- datos %>% mutate(Area = factor(Area,
                                      levels = c(1,2),
                                      labels = c("Urbano","Rural")),
                          dominioA = factor(dominioA,
                                      levels = as.character(1:17),
                                      labels = c("Costa norte urbana", "Costa norte rural", "Costa centro urbana", 
                                                 "Costa centro rural", "Costa sur urbana", "Costa sur rural", 
                                                 "Sierra norte urbana", "Sierra norte rural", "Sierra centro urbana",
                                                 "Sierra centro rural", "Sierra sur urbana", "Sierra sur rural",
                                                 "Selva alta urbana", "Selva alta rural",
                                                 "Selva baja urbana", "Selva baja rural", 
                                                 "callao")))
datos$ESTRATO <- factor(datos$ESTRATO,
                        levels = c("1","3","4",
                                   "5","6","7","8"),
                        labels = c("1.De 500 000 a más habitantes.",
                                   "3.De 50 000 a 99 999 habitantes.",
                                   "4.De 20 000 a 49 999 habitantes.",
                                   "5.De 2 000 a 19 999 habitantes.",
                                   "6.De 500 a 1 999 habitantes.",
                                   "7.Área de Empadronamiento Rural (AER) Compuesto.",
                                   "8.Área de Empadronamiento Rural (AER) Simple."))


datos$P401 <- factor(datos$P401,
                  levels = c("1","2"),
                  labels = c("Si","No"))

datos <- datos  %>% mutate(ING_NETO_MENSUAL= ING_TRAB/(12))

svy.datos <- svydesign(ids =~CONGLOME,strata =~ESTRATO,weights =~FAC500A,data =datos)

2.1

mean(datos$ING_NETO_MENSUAL)
## [1] 1197.222

Se observa que de los datos de la muestra, las personas encuestadas tienen un ingreso promedio mensual a precios de lima metropolitana de 1197.222, mientras que los valores expandidos a nivel poblacional para la región de callao es de 1112.

2.2

cor(datos$ANIO_EDUC,datos$ING_NETO_MENSUAL)
## [1] 0.3569861

Con un valor de 0.356 se puede decir que existe una relación positiva entre las dos variables; es decir, cuando la magnitud de una incrementa, la otra también.

2.3

cor.test(datos$ANIO_EXP,datos$ING_NETO_MENSUAL)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$ANIO_EXP and datos$ING_NETO_MENSUAL
## t = 8.2239, df = 832, p-value = 7.543e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2102144 0.3358224
## sample estimates:
##       cor 
## 0.2741874
cor.test(datos$ANIO_EXP,datos$I524E1)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$ANIO_EXP and datos$I524E1
## t = 9.1965, df = 531, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2950213 0.4416898
## sample estimates:
##       cor 
## 0.3706641

4.1

table(datos$P401)
## 
##  Si  No 
## 565 725
table(salud$P401)
## 
##     1     2 
## 43643 76637
svymean(~ING_NETO_MENSUAL,svy.datos,na.rm = T)
##                  mean    SE
## ING_NETO_MENSUAL 1112 35.75
est2 <- svyby(~ING_NETO_MENSUAL,~P401,svy.datos,svymean,na.rm=T); 

est2.1 <- data.frame(est2,row.names = 1); est2.1
cv_est2 <- cv(est2); cv_est2
##         Si         No 
## 0.04480540 0.03824246
conf_est2 <- confint(est2); conf_est2
##       2.5 %   97.5 %
## Si  952.365 1135.736
## No 1072.846 1246.705
est0 <- as.numeric(table(datos$P401))
est3 <- cbind.data.frame(est0,
                         round(est2.1,0),
                         cv_est2*100,
                         round(conf_est2,0)
                         ); est3
r.names <- est2[,1]
rownames(est3) <- r.names
colnames(est3) <- c("Muestra","Estimacion","Error estandar","CV%","2.5%","97.5%")
kable(est3,
      booktabs = T, longtable = T, #format = 'latex',
      linesep = " ",
      caption = "Ingreso Promedio Mensual de callao 2020",
      digits = 2,
      align=rep("c", 5),
      format.args = list(decimal.mark = ".", big.mark = " ")) %>%
  row_spec(c(1:1) - 1) %>%
kable_styling(font_size = 9,
                latex_options = c("repeat_header")) %>%
add_header_above(c(" " = 5, "Intervalo al 95% de confianza" = 2)) %>%
footnote(general = "ENAHO 2020",
     general_title = "Fuente: Microtados INEI ",
footnote_as_chunk = T, title_format = c("italic"),
threeparttable = T)
Ingreso Promedio Mensual de callao 2020
Intervalo al 95% de confianza
Muestra Estimacion Error estandar CV% 2.5% 97.5%
Si 565 1 044 47 4.48 952 1 136
No 725 1 160 44 3.82 1 073 1 247
Fuente: Microtados INEI ENAHO 2020

De las muestras tomadas de la region del callo se tiene un nivel de confianza del 95% de los ingresos en promedio si ganan 1044 soles mensuales miestras la otra parte dice que no llega a ganar en promedio 1180 soles.

4.2

cv_est2 <- cv(est2); cv_est2
##         Si         No 
## 0.04480540 0.03824246
conf_est2 <- confint(est2); conf_est2
##       2.5 %   97.5 %
## Si  952.365 1135.736
## No 1072.846 1246.705
est0 <- as.numeric(table(datos$P401))
est3 <- cbind.data.frame(est0,
                         round(est2.1,0),
                         cv_est2*100,
                         round(conf_est2,0)
                         ); est3
r.names <- est2[,1]
rownames(est3) <- r.names
colnames(est3) <- c("Muestra","Estimacion","Error estandar","CV%","2.5%","97.5%")
kable(est3,
      booktabs = T, longtable = T, #format = 'latex',
      linesep = " ",
      caption = "Ingreso Promedio Mensual de Area 2020",
      digits = 2,
      align=rep("c", 5),
      format.args = list(decimal.mark = ".", big.mark = " ")) %>%
  row_spec(c(1:1) - 1) %>%
kable_styling(font_size = 9,
                latex_options = c("repeat_header")) %>%
add_header_above(c(" " = 5, "Intervalo al 95% de confianza" = 2)) %>%
footnote(general = "ENAHO 2020",
     general_title = "Fuente: Micro datos",
footnote_as_chunk = T, title_format = c("italic"),
threeparttable = T)
Ingreso Promedio Mensual de Area 2020
Intervalo al 95% de confianza
Muestra Estimacion Error estandar CV% 2.5% 97.5%
Si 565 1 044 47 4.48 952 1 136
No 725 1 160 44 3.82 1 073 1 247
Fuente: Micro datos ENAHO 2020
datos$ING_NETO_MENSUAL_log = log(datos$ING_TRAB/12)
modelo1= lm(ING_NETO_MENSUAL_log ~ ANIO_EDUC + ANIO_EXP + P208A + P207 + discapacidad, data= datos)
summary(modelo1)
## 
## Call:
## lm(formula = ING_NETO_MENSUAL_log ~ ANIO_EDUC + ANIO_EXP + P208A + 
##     P207 + discapacidad, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.5980 -0.3521  0.1284  0.4909  2.0516 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   6.597227   0.169435  38.937  < 2e-16 ***
## ANIO_EDUC     0.075134   0.009007   8.342 3.03e-16 ***
## ANIO_EXP      0.025336   0.003666   6.911 9.59e-12 ***
## P208A        -0.004510   0.002307  -1.955  0.05088 .  
## P207         -0.452108   0.059010  -7.662 5.13e-14 ***
## discapacidad -0.455591   0.176059  -2.588  0.00983 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8424 on 828 degrees of freedom
##   (456 observations deleted due to missingness)
## Multiple R-squared:  0.2033, Adjusted R-squared:  0.1984 
## F-statistic: 42.25 on 5 and 828 DF,  p-value: < 2.2e-16