Primera parte

Salario_recién_egresados <- read_dta("data/Salario recién egresados.dta")
Salario_recién_egresados$Ciudad <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Ciudad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     0.0     0.5     0.5     1.0     1.0
Salario_recién_egresados$Estado <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Estado)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  1.0000  0.5449  1.0000  1.0000
Salario_recién_egresados$Genero <- round(runif(156, max= 1, min = 0))
summary(Salario_recién_egresados$Genero)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.4679  1.0000  1.0000
Salario_recién_egresados$Hombre <-  1 - Salario_recién_egresados$Genero
val_labels(Salario_recién_egresados$Genero) = c(Hombre=0, Mujer=1) #primero va la variable base y luego la no base
val_labels(Salario_recién_egresados$Genero)
## Hombre  Mujer 
##      0      1
#Variable factor
Salario_recién_egresados$sexo = to_factor(Salario_recién_egresados$Genero)

*renombramos varibles y base de datos

w_egresados <- Salario_recién_egresados
w_egresados$Mujer <- w_egresados$Genero
w_egresados = apply_labels(w_egresados,
                                        salario = "Salario (por dia)",
                                        pga = "Promedio General Acumulado",
                                        Ciudad = "Si vive en la ciudad (urbano)",
                                        Estado = "Estado civil (casado)",
                                        Genero= "Genero de la persona (Mujer)",
                                        sexo= "Segun genero del individuo" ,
                                        Hombre = "1 si es hombre",
                                        Mujer = "1 si es mujer")


count(w_egresados, sexo)
## # A tibble: 2 × 2
##   sexo       n
##   <fct>  <int>
## 1 Hombre    83
## 2 Mujer     73

Segunda parte

Analisis de modelos con varibles dicotomicas

  • modelo 1
# Modelo 1 (y=B0+D*X+u)
Base_hombre_1 <- summary(lm(salario ~ sexo ,data=w_egresados)) #Base Hombre
Base_hombre_2 <-summary(lm(salario~ Genero,data=w_egresados)) #Base Hombre
Base_hombre_3 <-summary(lm(salario~ Mujer,data=w_egresados)) #Base Hombre
#analisis modelos grupo base (hombre)
m_list_1 <- list(OLS1 = Base_hombre_1, OLS2 = Base_hombre_2, OLS3 = Base_hombre_3)
msummary(m_list_1)
OLS1  OLS2  OLS3
(Intercept) 39246.463 39246.463 39246.463
(1366.923) (1366.923) (1366.923)
sexoMujer −652.389
(2016.603)
Genero −652.389
(2016.603)
Mujer −652.389
(2016.603)
Num.Obs. 148 148 148
R2 0.001 0.001 0.001
R2 Adj. −0.006 −0.006 −0.006
RMSE 12143.24 12143.24 12143.24
  • modelo 2
# Modelo 2 cambio de grupo base (mujer)
Base_mujer_5 <- summary(lm(salario~ relevel(sexo,"Mujer") ,data=w_egresados)) #Base Mujer
Base_mujer_6 <- summary(lm(salario~ Hombre ,data=w_egresados)) #Base Mujer

#analisis modelos grupo base (Mujer)
m_list_2 <- list(OLS5 = Base_mujer_5, OLS6 = Base_mujer_6)
msummary(m_list_2)
 OLS5  OLS6
(Intercept) 38594.074 38594.074
(1482.636) (1482.636)
relevel(sexo, “Mujer”)Hombre 652.389
(2016.603)
Hombre 652.389
(2016.603)
Num.Obs. 148 148
R2 0.001 0.001
R2 Adj. −0.006 −0.006
RMSE 12143.24 12143.24

*modelo 3

# Modelo 3 (y=B0+D*X+B1*x2+B2*X2+B3*X3+u) (modelo de varias variables)
summary(lm(salario ~ sexo + pga + ecaes + costo ,data=w_egresados))
## 
## Call:
## lm(formula = salario ~ sexo + pga + ecaes + costo, data = w_egresados)
## 
## Residuals:
## LABEL: Salario (por dia) 
## VALUES:
## -19749.4, -4249.1, -250.8, 3945.1, 18861.7
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.731e+05  2.599e+04  -6.659 6.77e-10 ***
## sexoMujer    1.004e+03  1.222e+03   0.821   0.4129    
## pga          3.229e+04  5.047e+03   6.398 2.52e-09 ***
## ecaes        6.001e+02  2.391e+02   2.510   0.0133 *  
## costo        7.938e-01  1.761e-01   4.509 1.43e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7084 on 132 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.6778, Adjusted R-squared:  0.668 
## F-statistic: 69.41 on 4 and 132 DF,  p-value: < 2.2e-16
#ejemplo 1 
#juan es hombre  con un pga de 3.5 con un ecaes de 155 con un coso de $10500
salario_estimado_juan_modelo3 <- -176496.5724 + 0*2193.6296  + 3.5*32100.8953 + 155* 624.3642 + 10500*0.7676   
salario_estimado_juan_modelo3
## [1] 40692.81
#ejemplo 2
#maria es una mujer que obtuvo 0.5 unidades adicionas en el pga de juan 
salario_estimado_maria_modelo3 <- 176496.5724 + 1*2193.6296  + 0.5*32100.8953 
salario_estimado_maria_modelo3
## [1] 194740.6
  • modelo 4
# Modelo 4 (y=B0+D*X+B1*x2+B2*X2+B3*X3+u) (modelo de varias variables con factor)
summary(lm(salario ~ factor(sexo) + pga + ecaes + costo ,data=w_egresados))
## 
## Call:
## lm(formula = salario ~ factor(sexo) + pga + ecaes + costo, data = w_egresados)
## 
## Residuals:
## LABEL: Salario (por dia) 
## VALUES:
## -19749.4, -4249.1, -250.8, 3945.1, 18861.7
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -1.731e+05  2.599e+04  -6.659 6.77e-10 ***
## factor(sexo)Mujer  1.004e+03  1.222e+03   0.821   0.4129    
## pga                3.229e+04  5.047e+03   6.398 2.52e-09 ***
## ecaes              6.001e+02  2.391e+02   2.510   0.0133 *  
## costo              7.938e-01  1.761e-01   4.509 1.43e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7084 on 132 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.6778, Adjusted R-squared:  0.668 
## F-statistic: 69.41 on 4 and 132 DF,  p-value: < 2.2e-16
  • modelo 5
# Modelo 5 (y=B0+D*X+B1*x1+B2*X2+B3*X2^2+u) #sirve para el analisis de rendiminetos marginales
summary(lm(salario ~ sexo + pga +I(costo^2) + ecaes + I(rank^2),data=w_egresados))
## 
## Call:
## lm(formula = salario ~ sexo + pga + I(costo^2) + ecaes + I(rank^2), 
##     data = w_egresados)
## 
## Residuals:
## LABEL: Salario (por dia) 
## VALUES:
## -19066.6, -4431.1, -389.6, 3485, 17883.9
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.029e+05  2.782e+04  -3.700 0.000316 ***
## sexoMujer    9.866e+02  1.125e+03   0.877 0.382251    
## pga          2.560e+04  4.750e+03   5.390 3.17e-07 ***
## I(costo^2)   2.951e-05  6.636e-06   4.448 1.84e-05 ***
## ecaes        3.499e+02  2.231e+02   1.568 0.119298    
## I(rank^2)   -4.027e-01  9.024e-02  -4.463 1.73e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6519 on 131 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.7292, Adjusted R-squared:  0.7189 
## F-statistic: 70.56 on 5 and 131 DF,  p-value: < 2.2e-16
  • modelo 6
# Modelo 6 (log-nivel)
summary(lm(log(salario)~ sexo*Estado + pga + costo + I(costo^2) + ecaes + I(rank^2),data=w_egresados))
## 
## Call:
## lm(formula = log(salario) ~ sexo * Estado + pga + costo + I(costo^2) + 
##     ecaes + I(rank^2), data = w_egresados)
## 
## Residuals:
## LABEL: Salario (por dia) 
## VALUES:
## -0.42062, -0.07789, -0.00987, 0.07235, 0.33219
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       8.036e+00  5.967e-01  13.467  < 2e-16 ***
## sexoMujer         3.077e-02  3.507e-02   0.877 0.381970    
## Estado            5.473e-02  3.223e-02   1.698 0.091864 .  
## pga               3.532e-01  1.036e-01   3.410 0.000869 ***
## costo            -5.018e-05  1.757e-05  -2.855 0.005018 ** 
## I(costo^2)        2.481e-09  7.031e-10   3.528 0.000581 ***
## ecaes             1.020e-02  4.626e-03   2.206 0.029175 *  
## I(rank^2)        -1.476e-05  1.914e-06  -7.714 3.01e-12 ***
## sexoMujer:Estado  3.707e-04  4.783e-02   0.008 0.993827    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1311 on 128 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.7895, Adjusted R-squared:  0.7763 
## F-statistic: 60.01 on 8 and 128 DF,  p-value: < 2.2e-16
Beta_variable <- 0.0113795092522 

# el porcentaje de cambio de una variable explicatoria para el modelo 6
(((exp(1))^Beta_variable)-1)*100 # porcentual
## [1] 1.14445