Importacion de datos y organizacion de estos
Importamos datos
Salario_recién_egresados <- read_dta("data/Salario recién egresados.dta")
Salario_recién_egresados$Ciudad <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Ciudad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 0.5 0.5 1.0 1.0
Salario_recién_egresados$Estado <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Estado)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 1.0000 0.5449 1.0000 1.0000
Salario_recién_egresados$Genero <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Genero)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.4679 1.0000 1.0000
Salario_recién_egresados$Hombre <- 1 - Salario_recién_egresados$Genero
val_labels(Salario_recién_egresados$Genero) = c(Hombre=0, Mujer=1) #primero va la variable base y luego la no base
val_labels(Salario_recién_egresados$Genero)
## Hombre Mujer
## 0 1
#Variable factor
Salario_recién_egresados$sexo = to_factor(Salario_recién_egresados$Genero)
*renombramos varibles y base de datos
w_egresados <- Salario_recién_egresados
w_egresados$Mujer <- w_egresados$Genero
w_egresados = apply_labels(w_egresados,
salario = "Salario (por dia)",
pga = "Promedio General Acumulado",
Ciudad = "Si vive en la ciudad (urbano)",
Estado = "Estado civil (casado)",
Genero= "Genero de la persona (Mujer)",
sexo= "Segun genero del individuo" ,
Hombre = "1 si es hombre",
Mujer = "1 si es mujer")
count(w_egresados, sexo)
## # A tibble: 2 × 2
## sexo n
## <fct> <int>
## 1 Hombre 83
## 2 Mujer 73
# Modelo 1 (y=B0+D*X+u)
Base_hombre_1 <- summary(lm(salario ~ sexo ,data=w_egresados)) #Base Hombre
Base_hombre_2 <-summary(lm(salario~ Genero,data=w_egresados)) #Base Hombre
Base_hombre_3 <-summary(lm(salario~ Mujer,data=w_egresados)) #Base Hombre
#analisis modelos grupo base (hombre)
m_list_1 <- list(OLS1 = Base_hombre_1, OLS2 = Base_hombre_2, OLS3 = Base_hombre_3)
msummary(m_list_1)
OLS1 | OLS2 | OLS3 | |
---|---|---|---|
(Intercept) | 39246.463 | 39246.463 | 39246.463 |
(1366.923) | (1366.923) | (1366.923) | |
sexoMujer | −652.389 | ||
(2016.603) | |||
Genero | −652.389 | ||
(2016.603) | |||
Mujer | −652.389 | ||
(2016.603) | |||
Num.Obs. | 148 | 148 | 148 |
R2 | 0.001 | 0.001 | 0.001 |
R2 Adj. | −0.006 | −0.006 | −0.006 |
RMSE | 12143.24 | 12143.24 | 12143.24 |
# Modelo 2 cambio de grupo base (mujer)
Base_mujer_5 <- summary(lm(salario~ relevel(sexo,"Mujer") ,data=w_egresados)) #Base Mujer
Base_mujer_6 <- summary(lm(salario~ Hombre ,data=w_egresados)) #Base Mujer
#analisis modelos grupo base (Mujer)
m_list_2 <- list(OLS5 = Base_mujer_5, OLS6 = Base_mujer_6)
msummary(m_list_2)
OLS5 | OLS6 | |
---|---|---|
(Intercept) | 38594.074 | 38594.074 |
(1482.636) | (1482.636) | |
relevel(sexo, “Mujer”)Hombre | 652.389 | |
(2016.603) | ||
Hombre | 652.389 | |
(2016.603) | ||
Num.Obs. | 148 | 148 |
R2 | 0.001 | 0.001 |
R2 Adj. | −0.006 | −0.006 |
RMSE | 12143.24 | 12143.24 |
*modelo 3
# Modelo 3 (y=B0+D*X+B1*x2+B2*X2+B3*X3+u) (modelo de varias variables)
summary(lm(salario ~ sexo + pga + ecaes + costo ,data=w_egresados))
##
## Call:
## lm(formula = salario ~ sexo + pga + ecaes + costo, data = w_egresados)
##
## Residuals:
## LABEL: Salario (por dia)
## VALUES:
## -19749.4, -4249.1, -250.8, 3945.1, 18861.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.731e+05 2.599e+04 -6.659 6.77e-10 ***
## sexoMujer 1.004e+03 1.222e+03 0.821 0.4129
## pga 3.229e+04 5.047e+03 6.398 2.52e-09 ***
## ecaes 6.001e+02 2.391e+02 2.510 0.0133 *
## costo 7.938e-01 1.761e-01 4.509 1.43e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7084 on 132 degrees of freedom
## (19 observations deleted due to missingness)
## Multiple R-squared: 0.6778, Adjusted R-squared: 0.668
## F-statistic: 69.41 on 4 and 132 DF, p-value: < 2.2e-16
#ejemplo 1
#juan es hombre con un pga de 3.5 con un ecaes de 155 con un coso de $10500
salario_estimado_juan_modelo3 <- -176496.5724 + 0*2193.6296 + 3.5*32100.8953 + 155* 624.3642 + 10500*0.7676
salario_estimado_juan_modelo3
## [1] 40692.81
#ejemplo 2
#maria es una mujer que obtuvo 0.5 unidades adicionas en el pga de juan
salario_estimado_maria_modelo3 <- 176496.5724 + 1*2193.6296 + 0.5*32100.8953
salario_estimado_maria_modelo3
## [1] 194740.6
# Modelo 4 (y=B0+D*X+B1*x2+B2*X2+B3*X3+u) (modelo de varias variables con factor)
summary(lm(salario ~ factor(sexo) + pga + ecaes + costo ,data=w_egresados))
##
## Call:
## lm(formula = salario ~ factor(sexo) + pga + ecaes + costo, data = w_egresados)
##
## Residuals:
## LABEL: Salario (por dia)
## VALUES:
## -19749.4, -4249.1, -250.8, 3945.1, 18861.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.731e+05 2.599e+04 -6.659 6.77e-10 ***
## factor(sexo)Mujer 1.004e+03 1.222e+03 0.821 0.4129
## pga 3.229e+04 5.047e+03 6.398 2.52e-09 ***
## ecaes 6.001e+02 2.391e+02 2.510 0.0133 *
## costo 7.938e-01 1.761e-01 4.509 1.43e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7084 on 132 degrees of freedom
## (19 observations deleted due to missingness)
## Multiple R-squared: 0.6778, Adjusted R-squared: 0.668
## F-statistic: 69.41 on 4 and 132 DF, p-value: < 2.2e-16
# Modelo 5 (y=B0+D*X+B1*x1+B2*X2+B3*X2^2+u) #sirve para el analisis de rendiminetos marginales
summary(lm(salario ~ sexo + pga +I(costo^2) + ecaes + I(rank^2),data=w_egresados))
##
## Call:
## lm(formula = salario ~ sexo + pga + I(costo^2) + ecaes + I(rank^2),
## data = w_egresados)
##
## Residuals:
## LABEL: Salario (por dia)
## VALUES:
## -19066.6, -4431.1, -389.6, 3485, 17883.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.029e+05 2.782e+04 -3.700 0.000316 ***
## sexoMujer 9.866e+02 1.125e+03 0.877 0.382251
## pga 2.560e+04 4.750e+03 5.390 3.17e-07 ***
## I(costo^2) 2.951e-05 6.636e-06 4.448 1.84e-05 ***
## ecaes 3.499e+02 2.231e+02 1.568 0.119298
## I(rank^2) -4.027e-01 9.024e-02 -4.463 1.73e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6519 on 131 degrees of freedom
## (19 observations deleted due to missingness)
## Multiple R-squared: 0.7292, Adjusted R-squared: 0.7189
## F-statistic: 70.56 on 5 and 131 DF, p-value: < 2.2e-16
# Modelo 6 (log-nivel)
summary(lm(log(salario)~ sexo*Estado + pga + costo + I(costo^2) + ecaes + I(rank^2),data=w_egresados))
##
## Call:
## lm(formula = log(salario) ~ sexo * Estado + pga + costo + I(costo^2) +
## ecaes + I(rank^2), data = w_egresados)
##
## Residuals:
## LABEL: Salario (por dia)
## VALUES:
## -0.42062, -0.07789, -0.00987, 0.07235, 0.33219
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.036e+00 5.967e-01 13.467 < 2e-16 ***
## sexoMujer 3.077e-02 3.507e-02 0.877 0.381970
## Estado 5.473e-02 3.223e-02 1.698 0.091864 .
## pga 3.532e-01 1.036e-01 3.410 0.000869 ***
## costo -5.018e-05 1.757e-05 -2.855 0.005018 **
## I(costo^2) 2.481e-09 7.031e-10 3.528 0.000581 ***
## ecaes 1.020e-02 4.626e-03 2.206 0.029175 *
## I(rank^2) -1.476e-05 1.914e-06 -7.714 3.01e-12 ***
## sexoMujer:Estado 3.707e-04 4.783e-02 0.008 0.993827
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1311 on 128 degrees of freedom
## (19 observations deleted due to missingness)
## Multiple R-squared: 0.7895, Adjusted R-squared: 0.7763
## F-statistic: 60.01 on 8 and 128 DF, p-value: < 2.2e-16
Beta_variable <- 0.0113795092522
# el porcentaje de cambio de una variable explicatoria para el modelo 6
(((exp(1))^Beta_variable)-1)*100 # porcentual
## [1] 1.14445