Modelo Minceriano: determinantes de los salarios en El Salvador, 2020

UNIVERSIDAD DE EL SALVADOR

FACULTAD DE CIENCIAS ECONÓMICAS

ESCUELA DE ECONOMÍA

ECONOMETRÍA

TEMA DE INVESTIGACIÓN:

“EL MODELO MINCERIANO: DETERMINATES DEL SALARIO EN EL SALVADOR, 2020”.

DOCENTE:

MSF. Carlos Ademir Pérez Alas.

INTEGRANTES:

Pérez Vides, Debee Berenice PV18021.

Solano Tovar, Luis Fernando ST17005.

Umanzor Portillo, Keiry Margarita UP17003.

GRUPO TEÓRICO:

CIUDAD UNIVERSITARIA, 14 DE JUNIO DEL 2022.

INTRODUCCIÓN

Se busca desarrollar un modelo econométrico que permita encontrar los determinantes de los salarios en El Salvador.Este modelo permite comparar la relación entre capital humano e ingresos y luego medir estadísticamente los retornos de la educación. la teórica empírica, apunta que algunas características como el sexo, la edad, la experiencia, la habilidad innata, así como la propia de la persona aptap para el trabajo en su disposición de aprender e innovar pueden ser cruciales para que una persona consiga un trabajo y un excelente salario. Este modelo se caracteriza por explicar la relacion de los salarios de los trabajadores en función de la edad, el género, la localización, la educación, entre otras variables.

OBJETIVO

OBJETIVO GENERAL

Desarrollar un modelo econométrico lineal que permita pronosticar los salarios de las personas en El Salvador para el año dos mil veinte.

OBJETIVO ESPECÍFICO

Definir las variables a estudiar para realizar el modelo econométrico y su incidencia en los salarios.
Registrar los datos en los que se basara el modelo a explicar la proyección de salarios para verificar las relaciones establecidas.
Demostrar los resultados obtenidos por medio del modelo y su impacto en los salarios de las personas salvadoreñas.

1. MARCO TEÓRICO Y REFERENCIAL

Para Mincer, las teorías de capital humano influían en la capacidad de ingreso-edad, dado esto en función de año de escolaridad y experiencia laboral, por medio de la estimación de ingresos a través de Mínimos Cuadrados Ordinarios (MCO), permitiendo el impacto de estimación en años de estudio a sus rentas laborales en los individuos.

Para conocer a cerca del modelo a realizar, estudiaremos la importancia sobre este economista dio un aporte social-económico, siendo este padre de la economía laboral moderna, destacado de la Universidad de Columbia también de la Escuela de Chicago.

Jacob Mincer (Julio 15, 1922 – agosto 20, 2006), desarrollo parte de un trabajo económico que estudiaría los fundamentos empíricos de la teoría de capital humano, junto con el economista Gary Becker (diciembre 2, 1930 – mayo 3,2014). Durante el tiempo en su carrera siendo parte de las enseñanzas de la Universidad de Chicago, tuvo muchos aportes y ensayos hacia la economía y el comportamiento social de las personas, su trabajo más fundamental fue: Escolarización, experiencia y ganancia, publicado en 1974, usando las herramientas por medio de CENSOS para un informe de datos claros para su investigación en los años 1950 a 1960 sobre el cálculo de ganancias anuales de escolaridad.

Siendo una pequeña parte de inversión en las primeras necesidades vitales, como comida y salud, teniendo como prioridad la inversión en la educación, que dado a esto se dará el aumento de nuevas oportunidades y nuevos ingresos en la persona. Los economistas neoclásicos, dan como proceso educativo al elegir la inversión, dan prioridad al aporte económico y su inversión en ella, para poder incrementar la capacidad del personal, de igual manera su productividad, los neoclásicos ven la inversión en la educación y no lo ven como un gasto, y el stock de conocimientos, considerado como un capital.

La teoría de capital humano desarrollado por el economista Becker (1964), su objetivo original era la estimación en el crecimiento de la educación, pero de igual manera se dio cuenta que no existía un marco que explicaría el proceso de inversión sobre las personas.

2. ESPECIFICACIÓN

2.1 PLANTEAMIENTO TEÓRICO DEL FENÓMENO ECONÓMICO

Con la recolección de datos de parte de la Dirección General de Estadísticas y Censos de El Salvador (Digestyc); se pretende determinar un modelo, el cual estime los salarios en los hogares de las familias salvadoreñas, para el propósito de relacionar el capital humano e ingresos y que esto sirva para determinar que variables inciden más en que las personas adquieran un ingreso relativamente alto y, así como ésta es apta para un trabajo en su disposición de aprender e innovar. Es importante destacar, que para el año de estudio que es el 2020, se presenta factores que influyeron en los ingresos de las familias salvadoreñas. Se pretende estimar el modelo, para determinar que variables influyen mas en que una persona obtenga un buen salario para el consumo de el mismo.

2.1.1 VARIABLE ENDÓGENA Y VARIABLES EXÓGENAS

Varible Endógena

Ingreso

El ingreso es la cantidad de recursos monetarios, dinero, que se asigna a cada factor por su contribución al proceso productivo. El ingreso puede tomar la forma de sueldos y salarios, renta, dividendos, regalías, utilidades, honorarios, dependiendo el factor de producción que lo reciba: trabajo, capital, tierra, etc. (htt)

Varibales Exógenas

Sexo

Se refiere a los roles, las características y oportunidades definidos por la sociedad que se consideran apropiados para los hombres, las mujeres, los niños, las niñas y las personas con identidades no binarias.(Salud, s.f.)

Eduación

Es el proceso de facilitar el aprendizaje o la adquisición de conocimientos, habilidades, valores, creencias y hábitos de un grupo de personas que los transfieren a otras personas, a través de la narración de cuentos, la discusión, la enseñanza, el ejemplo, la formación o la investigación. (Educación, s.f.)

Región

Es una zona territorial delimitada por características comunes que pueden ser geográficas, culturales, políticas o económicas

2.1.2 RELACIÓN FUNCIONAL ENTRE LAS VARIABLES

+ Relación entre ingresos y sexo

Existe una relacion inversa entre las dos variables. Dado que los ingresos no dependen del genero de las personas

+ Relación entre ingresos y región

Existe una relacion directa entre las variables, dado que en cada region geografica del pais se necesitan diferentes profecionales que laboren.

+ Relación entre ingresos y eduación

Existe un relacion directa entre las dos variblaes, debido a que, sí la persona esta mayor capacitada, así será el ingreso que éste obtendrá

2.2 ESPECIFICACIÓN DEL MODELO MATEMÁTICO Y MODELO ESTADÍSTICO

2.2.1 ESPECIFICACIÓN DEL MODELO MATEMÁTICO

Para determinar el modelo minceriano en El Salvador, se pretende analizar que variable influye mas a la hora de determinar el ingreso a las familias salvadoreñas, asimismo, las distintas variables que incidencia tienen en la determiancion del salario. Para eso, se tomó a bien, buscar la información para un año, siendo éste el año 2020.

Por tanto el modelo, queda de la siguiente manera:

\(Υ = β_0+ β_1 X_1+ β_2 X_2+ β_3 X_3+ β_4 X_4+ β_5 X_5+ β_6X_6\)

Donde:

\(γ = Ingresos\)

\(X_1 = Región\)

\(X_2 = Sexo\)

\(X_3 = Título que aprobó\)

\(X_4 = Edad\)

\(X_5 = Remesas\)

\(X_6 = Area\)

Por lo tanto:

\(γ= β_0+ β_1(Región)+β_2 (Sexo)+ β_3(Títulos que aprobó)+β_4(Edad)+ β_5(Remesas) + β_6(Area)\)

2.2.1.1 RESTRICCIONES DE LOS PARÁMETROS

2.2.2 ESPECIFICACIÓN DEL MODELO ESTADÍSTICO

\(Υ= β_0+ β_1 X_1+ β_2 X_2+ β_3 X_3+ β_4 X_4+ β_5 X_5+ β_6 X_6 + ε\)

2.3 EVIDENCIA EMPÍRICA DEL FENÓMENO ECONÓMICO (Datos)

Acontinuación se muestra la base de datos a utilizar con la información disponible para el año 2020; siendo éste el año que se planteará el modelo minceriano para determinar los salarios de nuestro país.

Por tanto:

\(γ =\) Ingresos = ingfa

\(X_1 =\) Región = region

\(X_2 =\) Sexo = r104

\(X_3 =\) Títulos que aprobó = r217

\(X_4 =\) Edad = r442a

\(X_5 =\) Remesas = r454_b1

\(X_6 =\) Area = area

load("C:/Users/Keiry/Documents/Eco22/EHPM_2020.Rdata")
EHPM_2020[1:10,1:10]

## # A tibble: 10 x 10
##    edicion  lote       tipo folio        viv  r101 idboleta fac00    area region
##      <dbl> <dbl> <hvn_lbll> <dbl> <hvn_lbll> <dbl>    <dbl> <dbl> <hvn_l> <hvn_>
##  1    2020    20          0    69          0     1   237167  486.       1      1
##  2    2020    20          0    69          0     2   237167  486.       1      1
##  3    2020    20          0    69          0     3   237167  486.       1      1
##  4    2020    20          0    70          0     1   237688  484.       1      1
##  5    2020    20          0    70          0     2   237688  484.       1      1
##  6    2020    20          0    71          0     1   236233  482.       1      1
##  7    2020    20          0    71          0     2   236233  482.       1      1
##  8    2020    20          0    71          0     3   236233  482.       1      1
##  9    2020    20          0    71          0     4   236233  482.       1      1
## 10    2020    20          0    72          0     1   236526  486.       1      1

3. ESTIMACIÓN

modelo_minceriano_2020 <-
  lm(formula = ingfa ~ region + r104 + r217 + r442a + r454_b1 + area,
     data = EHPM_2020)
stargazer(modelo_minceriano_2020, type = "html", title = "Modelo Minceriano El Salvador 2020")

**Modelo Minceriano El Salvador 2020**

	Dependent variable:

	ingfa

region	21.543^***
	(2.363)

r104	-12.836^*
	(6.578)

r217	83.839^***
	(2.413)

r442a	4.641^***
	(0.453)

r454_b1	-143.498^***
	(21.003)

area	216.426^***
	(6.586)

Constant	647.884^***
	(43.637)


Observations	37,030
R²	0.099
Adjusted R²	0.099
Residual Std. Error	619.172 (df = 37023)
F Statistic	678.422^*** (df = 6; 37023)

Note:	p<0.1; p<0.05; p<0.01

Prueba de Normalidad

Jarque-Bera

options(scipen = 9999999)
jb.norm.test(modelo_minceriano_2020$residuals)

## 
##  Jarque-Bera test for normality
## 
## data:  modelo_minceriano_2020$residuals
## JB = 10684416, p-value < 0.00000000000000022

# se puede concluir que se rechaza la hipotesis nula, dado que el p-value es menor a 0.5

Kolmogorov - Smirnov

lillie.test(modelo_minceriano_2020$residuals)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo_minceriano_2020$residuals
## D = 0.15212, p-value < 0.00000000000000022

Shapiro - Wilk

#shapiro.test(modelo_minceriano_2020$residuals)

Multicolinealidad

Indice de condición

X_mat <- model.matrix(modelo_minceriano_2020)
mctest(mod = modelo_minceriano_2020)

## 
## Call:
## omcdiag(mod = mod, Inter = TRUE, detr = detr, red = red, conf = conf, 
##     theil = theil, cn = cn)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.7352         0
## Farrar Chi-Square:     11389.6487         1
## Red Indicator:             0.1386         0
## Sum of Lambda Inverse:     6.6843         0
## Theil's Method:            0.0536         0
## Condition Number:         42.4721         1
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

#Segun los datos presentados, hay evidencia de colinealidad en los supuestos.

Prueba de Farrar-Glaubar

mctest::omcdiag(mod = modelo_minceriano_2020)

## 
## Call:
## mctest::omcdiag(mod = modelo_minceriano_2020)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.7352         0
## Farrar Chi-Square:     11389.6487         1
## Red Indicator:             0.1386         0
## Sum of Lambda Inverse:     6.6843         0
## Theil's Method:            0.0536         0
## Condition Number:         42.4721         1
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

#hay evidencia de colinealidad en los supuestos

Factores Inflacionarios de la Varianza (FIV)

mc.plot(mod = modelo_minceriano_2020, vif = 2)

Heterocedasticidad

#white_lm(modelo_minceriano_2020,interactions = FALSE)

Prueba de Durbin Watson y Multiplicador de Lagrange para verificar la presencia de estructuras de autocorrelación de 1 y segundo orden

#Durbin Watson
dwtest(modelo_minceriano_2020,
       alternative = "two.sided",
       iterations = 1000)

## 
##  Durbin-Watson test
## 
## data:  modelo_minceriano_2020
## DW = 0.54563, p-value < 0.00000000000000022
## alternative hypothesis: true autocorrelation is not 0

#segun los datos, no hay evidencia de autocorrelación
#Multiplicador de Lagrange
#Primer orden
bgtest(modelo_minceriano_2020, order = 1)

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  modelo_minceriano_2020
## LM test = 19992, df = 1, p-value < 0.00000000000000022

#Segundo orden
bgtest(modelo_minceriano_2020, order = 2)

## 
##  Breusch-Godfrey test for serial correlation of order up to 2
## 
## data:  modelo_minceriano_2020
## LM test = 19997, df = 2, p-value < 0.00000000000000022

Estimación Robusta

coeftest(modelo_minceriano_2020)

## 
## t test of coefficients:
## 
##               Estimate Std. Error t value              Pr(>|t|)    
## (Intercept)  647.88413   43.63678 14.8472 < 0.00000000000000022 ***
## region        21.54276    2.36312  9.1162 < 0.00000000000000022 ***
## r104         -12.83606    6.57756 -1.9515               0.05101 .  
## r217          83.83896    2.41331 34.7402 < 0.00000000000000022 ***
## r442a          4.64142    0.45343 10.2362 < 0.00000000000000022 ***
## r454_b1     -143.49831   21.00303 -6.8323     0.000000000008487 ***
## area         216.42641    6.58596 32.8618 < 0.00000000000000022 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Corregido se utilizo HC1, dado que hay evidencia de correlacion de primer orden
estimacion_omega <- vcovHC(modelo_minceriano_2020, type = "HC1")
coeftest(modelo_minceriano_2020, vcov. = estimacion_omega)

## 
## t test of coefficients:
## 
##               Estimate Std. Error t value              Pr(>|t|)    
## (Intercept)  647.88413   41.03322 15.7893 < 0.00000000000000022 ***
## region        21.54276    2.65625  8.1102 0.0000000000000005208 ***
## r104         -12.83606    6.65644 -1.9284               0.05382 .  
## r217          83.83896    3.77128 22.2309 < 0.00000000000000022 ***
## r442a          4.64142    0.49022  9.4680 < 0.00000000000000022 ***
## r454_b1     -143.49831   19.59038 -7.3249 0.0000000000002438728 ***
## area         216.42641    6.24410 34.6610 < 0.00000000000000022 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Estimacion Robusta

modelo_minceriano_robust <-
  lmrob(ingfa ~ region + r104 + r217 + r442a + r454_b1 + area, data = EHPM_2020)
stargazer(
  modelo_minceriano_2020,
  modelo_minceriano_robust,
  type = "html",
  title = "Comparativos"
)

**Comparativos**

	Dependent variable:

	ingfa
	OLS	MM-type
		linear
	(1)	(2)

region	21.543^***	12.431^***
	(2.363)	(1.364)

r104	-12.836^*	-5.433
	(6.578)	(3.719)

r217	83.839^***	54.750^***
	(2.413)	(2.113)

r442a	4.641^***	4.201^***
	(0.453)	(0.281)

r454_b1	-143.498^***	-112.885^***
	(21.003)	(12.822)

area	216.426^***	145.021^***
	(6.586)	(3.697)

Constant	647.884^***	547.604^***
	(43.637)	(26.646)


Observations	37,030	37,030
R²	0.099	0.147
Adjusted R²	0.099	0.147
Residual Std. Error (df = 37023)	619.172	311.229
F Statistic	678.422^*** (df = 6; 37023)

Note:	p<0.1; p<0.05; p<0.01

Pronóstico y Simulación

#Pronóstico
#se trata de pronosticar que, los resultados vayan enfocado a mujeres y que estas tengan un titulo universitario y que sean de la zona oriental del pais.
X_m <-
  data.frame(
    region = 4 ,
    r104 = 2,
    r217 = 7,
    r442a = 14,
    r454_b1 = 1,
    area  = 0
  )

confidense <- c(0.95, 0.90)
predict(
  object = modelo_minceriano_2020,
  newdata = X_m,
  interval = "prediction",
  level = confidense,
  se.fit = TRUE
) -> predicciones
rownames(predicciones$fit) <- as.character(confidense * 100)
colnames(predicciones$fit) <- c("Ym", "Li", "Ls")
stargazer(predicciones$fit,
          title = "Pronostico e intervalos de confianza",
          type = "html")

**Pronostico e intervalos de confianza**

	Ym	Li	Ls

95	1,216.737	2.117	2,431.358
90	1,216.737	197.403	2,236.071

#Lo que se concluye es que, segun los intervalos de confianza, si pueden obtener ingresos medios altos, las mujeres que son de la zona oriental y que estas tengan un titulo universitario.

#simulacion
set.seed(50)
numero_de_muestras <- 5000
muestras <- EHPM_2020$ingfa %>% createDataPartition(p = 0.8,
                                                    times = numero_de_muestras,
                                                    list = TRUE)
Modelos_Entrenamiento <- vector(mode = "list",
                                length = numero_de_muestras)
Pronostico_Prueba <- vector(mode = "list",
                            length = numero_de_muestras)
Resultados_Performance_data_entrenamiento <- vector(mode = "list",
                                                    length = numero_de_muestras)
Resultados_Performance <- vector(mode = "list",
                                 length = numero_de_muestras)
#for(j in 1:numero_de_muestras){
# Datos_Entrenamiento<- EHPM_2020[muestras[[j]], ]
#Datos_Prueba<- EHPM_2020[-muestras[[j]], ]
# Modelos_Entrenamiento[[j]]<-lm(formula =ingfa ~ region + r104 + r217 + r442a + r454_b1 + area, data = EHPM_2020)
# Pronostico_Prueba[[j]]<-Modelos_Entrenamiento[[j]] %>% predict(Datos_Prueba)
# Resultados_Performance_data_entrenamiento[[j]]<-data.frame(
# R2 = R2(Modelos_Entrenamiento[[j]]$fitted.values,
# Datos_Entrenamiento$ingfa),
# RMSE = RMSE(Modelos_Entrenamiento[[j]]$fitted.values,
#  Datos_Entrenamiento$ingfa),
#MAE = MAE(Modelos_Entrenamiento[[j]]$fitted.values,
#   Datos_Entrenamiento$ingfa),
# MAPE= MAPE(Modelos_Entrenamiento[[j]]$fitted.values,
#    Datos_Entrenamiento$ingfa)*100,
#THEIL=TheilU(Modelos_Entrenamiento[[j]]$fitted.values,
# Datos_Entrenamiento$ingfa,type = 1),
#Um=Um(Modelos_Entrenamiento[[j]]$fitted.values,
#    Datos_Entrenamiento$ingfa),
# Us=Us(Modelos_Entrenamiento[[j]]$fitted.values,
#  Datos_Entrenamiento$ingfa),
#Uc=Uc(Modelos_Entrenamiento[[j]]$fitted.values,
#  Datos_Entrenamiento$ingfa)
# )
#Resultados_Performance[[j]]<-data.frame(
# R2 = R2(Pronostico_Prueba[[j]], Datos_Prueba$ingfa),
# RMSE = RMSE(Pronostico_Prueba[[j]], Datos_Prueba$ingfa),
#MAE = MAE(Pronostico_Prueba[[j]], Datos_Prueba$ingfa),
#  MAPE= MAPE(Pronostico_Prueba[[j]], Datos_Prueba$ingfa)*100,
# THEIL=TheilU(Pronostico_Prueba[[j]], Datos_Prueba$ingfa,
#   type = 1), # También se puede usar la función que creamos: THEIL_U
# Um=Um(Pronostico_Prueba[[j]], Datos_Prueba$ingfa),
# Us=Us(Pronostico_Prueba[[j]], Datos_Prueba$ingfa),
# Uc=Uc(Pronostico_Prueba[[j]], Datos_Prueba$ingfa)
#  )
#}

##Resultados
#bind_rows(Resultados_Performance_data_entrenamiento) %>% stargazer(title = "Medidas de Performance Datos del Modelo", type = "text")