28/9/2019

Estudio de la brecha salarial de genero e impacto de los anos de estudio en los salarios

En este análisis se procederá a obtener la base de datos de la encuesta nacional de empleo y subempleo del Ecuador la cual se puede acceder haciendo clic en este enlace https://www.ecuadorencifras.gob.ec/enemdu-2016/ . El motivo de esta investigación es relevante para saber cual es la brecha salarial de genero en el Ecuador para el ano 2016, así mismo entender cual es el impacto de la educación en el salario. El primer paso es depurar la base de datos, quitar valores como \(INF\) o \(NaN\) y \(Na\). Ademas de cambiar los valores de la rama de actividad empresarial de la Enemdu con su respectivo código CIIU, cambiar a factores variables como sexo y rama de actividad económica (\(rama1\)).

Estudio de la brecha salarial de genero e impacto de los anos de estudio en los salarios

En total existen 33 variables con las cuales se va a trabajar y se usaran dichas variables para poder hacer gráficos que hagan mas comprensible el comportamiento de las variables. Después se desarrolla un modelo de regresión lineal (ecuación de Mincer) que no es otra cosa que una ecuación que explica el salario edad otras variables \(x_i\). Como existe un problema de selección maestral, se utilizara el método de heckman, debido a que no siempre las muestras son aleatorias y por ende la base podría estar sesgada y eso se reflejaría en los resultados. Y por ultimo se desarrolla un modelo predictivo de discriminatorio lineal, pero dadas las pruebas de homogeneidad y normalidad multivariante se puede apreciar que el error de los cálculos son altos y no nos permiten discriminar entre el grupo \(sexo\).

Matriz de dispersión

Esta matriz nos permite observar si existe multicolinealidad entre las variables explicativas.

Histograma del logaritmo del ingreso para el grupo sexo

  • Se puede observar que a medida que aumenta porcentual-mente el salario la cima de la distribución salarial esta dominada por hombres, así mismo como en la cola derecha del gráfico.

Grafico

Este gráfico explica que hay una correlación entre el incremento porcentual del salario para hombres y mujeres cuando se trabaja mas numero de horas.

Grafico de barras por estudio

Graficos

La mayoría de la población muestral pertenece a la clase mestizo e indígena.

gráfico de caja y bigotes

Salarios y nivel de educacion

El salario promedio de una persona que tiene mas de 18 años de estudio es de \(1516\).7 dolares, y el de una persona que estudio menos de 7 años es en promedio \(414.7\).

## Warning: package 'data.table' was built under R version 3.6.1
## [1] 1516.672
## [1] 414.7017

Modelo de regresión lineal

El modelo lm o de regresión lineal sirve para poder explicar la relación que existen entre mi variable explicada y mis variables explicativas. Como primera observacional el estadístico F tiene un pvalue menor a 0.05 por lo que el pasa la primera prueba. En segundo lugar el R cuadrado ajustado nos dice que las variables explicativas explican el 47% de la variable explicada (el logaritmo del salario). Tenemos 13.600 observaciones que son mucho menos que las 71725 de nuestra muestra, que se puede explicar por los datos NA y debido a que estamos trabajando solo con la población económicamente activa.

Modelo de regresión lineal

En nuestro modelo dejando todo los demás constante \(ceteris paribus\) en promedio la mujer percibe 17% menos de salario en comparación al hombre controlando por todas las variables y es significativa al 95% de significancia. También las personas que tienen mas de 18 años de estudio manteniendo todo constante, reciben en promedio 95% mas de salario, si se compara con el grupo de primaria. Existen demás variables interesantes como, la edad o la rama de ocupación (que se compara con las personas que trabajan en el sector agrícola), que tienen resultados interesantes.

Modelo de regresión lineal

Sin embargo debido al problema de sesgo de selección, es decir la no toma en cuenta las personas que posiblemente estén buscando trabajo y no hayan publicado un salario, o personas que simplemente no quieren publicar su cifra salarial. Por tal motivo se utilizara el método de heckman que consiste en dos pasos, calcula un modelo probit, en este caso la probabilidad de entrar al mercado laboral dado las variables \(x_i\) y después el segundo paso, dada la probabilidad de que tanto hombres como mujeres tengan la probabilidad de entrar al mercado laboral de calcula un modelo de regresión lineal.

LM

Dependent variable:
lsalario
sexomujer -0.172*** (0.011)
horas_de_trabajo_principal 0.017*** (0.0004)
niveleducsecundaria 0.185*** (0.012)
niveleducuniversidad 0.548*** (0.015)
niveleduc3er y 4to nivel 0.959*** (0.025)
rama1Activ. Servicios sociales y de salud 0.318*** (0.030)
rama1Actividades de alojamientos y servicio 0.118*** (0.032)
rama1Actividades de organizaciones extraterritoriales 0.755* (0.390)
rama1Administ. Publica y defensa; seguridad 0.490*** (0.026)
rama1Agricultura, ganaderia caza y silvicultura y pesca -0.176*** (0.025)
rama1Comercio, reparaciones, vehiculos, y efectos, personales -0.019 (0.026)
rama1Construcción 0.042 (0.029)
rama1Ensenanza 0.249*** (0.029)
rama1Explotación de minas y cantera 0.417*** (0.036)
rama1Hogares privados con servicio domestico -0.114*** (0.031)
rama1Industrias manufactureras 0.076*** (0.026)
rama1Intermediación financiera y de seguros -0.066** (0.028)
rama1Otra activ. Comunit. Sociales y person -0.059 (0.050)
rama1Suministros de electricidad, gas y distribución de agua, alcantarillado 0.395*** (0.043)
rama1Transporte, almacenam y comunicaciones 0.321*** (0.044)
Observations 13,600
R2 0.471
Adjusted R2 0.470
Residual Std. Error 0.550 (df = 13571)
F Statistic 431.408*** (df = 28; 13571)
Note: p<0.1; p<0.05; p<0.01

Correccion de Heckman

Sin embargo debido al problema de sesgo de selección, es decir la no toma en cuenta las personas que posiblemente estén buscando trabajo y no hayan publicado un salario, o personas que simplemente no quieren publicar su cifra salarial. Por tal motivo se utilizara el método de heckman que consiste en dos pasos, calcula un modelo probit, en este caso la probabilidad de entrar al mercado laboral dado las variables \(x_i\) y después el segundo paso, dada la probabilidad de que tanto hombres como mujeres tengan la probabilidad de entrar al mercado laboral de calcula un modelo de regresión lineal.

Correccion de Heckman

-En este caso los resultados cambiaron,ahora la diferencia salarial entre hombres y mujeres es de 7%, teniendo todas las demás variables constantes . el resultado para las personas de 3er y 4to nivel cambio, ahora solo ganan un 93% mas en promedio que las personas en primaria teniendo todas las demás variables constantes.

Heckman

Dependent variable:
lsalario
horas_de_trabajo_principal 0.012*** (0.001)
niveleducsecundaria 0.106*** (0.014)
niveleducuniversidad 0.510*** (0.017)
niveleduc3er y 4to nivel 0.935*** (0.029)
anos_de_experiencia 0.018*** (0.001)
sexomujer -0.073*** (0.015)
rama1Activ. Servicios sociales y de salud 0.155*** (0.036)
rama1Actividades de alojamientos y servicio 0.345*** (0.041)
rama1Actividades de organizaciones extraterritoriales 0.865** (0.423)
rama1Administ. Publica y defensa; seguridad 0.264*** (0.036)
rama1Agricultura, ganaderia caza y silvicultura y pesca -0.117*** (0.029)
rama1Comercio, reparaciones, vehiculos, y efectos, personales 0.127*** (0.033)
rama1Construcción 0.095*** (0.033)
rama1Ensenanza 0.107*** (0.034)
rama1Explotación de minas y cantera 0.193*** (0.047)
rama1Hogares privados con servicio domestico -0.521*** (0.051)
rama1Industrias manufactureras 0.066** (0.029)
rama1Intermediación financiera y de seguros -0.073** (0.031)
rama1Otra activ. Comunit. Sociales y person 0.151*** (0.057)
rama1Suministros de electricidad, gas y distribución de agua, alcantarillado 0.143*** (0.055)
rama1Transporte, almacenam y comunicaciones 0.082 (0.055)
Constant 5.844*** (0.072)
Observations 42,264
rho -0.738
Inverse Mills Ratio -0.510*** (0.046)
Note: p<0.1; p<0.05; p<0.01

Modelos LDA y QDA

-Para probar los modelos de discriminación lineal y discriminación cuadrática primero hay que hacer un test de homogeneidad intra grupo y un test de normalidad multivariante.

Test de homogeneidad intra grupo

-se rechaza la hipótesis nula, las varianzas entre los grupos son distintas, lo cual representa un problema para el modelo

## Analysis of Variance Table
## 
## Response: Distances
##             Df Sum Sq Mean Sq F value    Pr(>F)    
## Groups     784  60751  77.488  1.8449 < 2.2e-16 ***
## Residuals 2002  84088  42.002                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Test de normalidad multivariante

-Rechazamos la Ho de normalidad multivariante

## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.85665, p-value < 2.2e-16
##  [1] "sexo"                            "edad"                           
##  [3] "relacion_de_parentezco"          "casado"                         
##  [5] "asiste_a_clases"                 "nivel_de_instruccion"           
##  [7] "nivel_de_instruccion2"           "titulo_universitario"           
##  [9] "raza"                            "horas_semanales"                
## [11] "disponibilidad_laboral_adiciona" "rama_de_actividad"              
## [13] "grupo_de_ocupacion"              "publico"                        
## [15] "anos_de_experiencia"             "horas_de_trabajo_principal"     
## [17] "ingreso_de_asalariados"          "p67"                            
## [19] "p68b"                            "ingreso_laboral"                
## [21] "ipc"                             "petn"                           
## [23] "salario"                         "rama1"                          
## [25] "mujer"                           "anos_educ"                      
## [27] "log_ingreso_asalariado"          "salario_real"                   
## [29] "lsalario_real"                   "log_ingreso_laboral"            
## [31] "lsalario"                        "niveleduc"                      
## [33] "inlf"

test de multicolinealidad

##                               edad relacion_de_parentezco      casado
## relacion_de_parentezco -0.43070187                                   
## casado                 -0.51003469             0.40303869            
## asiste_a_clases         0.52606345            -0.32985811 -0.39525716
## nivel_de_instruccion   -0.17377671             0.08006046  0.07482390
##                        asiste_a_clases
## relacion_de_parentezco                
## casado                                
## asiste_a_clases                       
## nivel_de_instruccion       -0.13361035

LDA y QDA

## Call:
## lda(inlf ~ edad + niveleduc, data = base)
## 
## Prior probabilities of groups:
##        0        1 
## 0.804582 0.195418 
## 
## Group means:
##       edad niveleducsecundaria niveleducuniversidad
## 0 34.77356            0.360457            0.1599929
## 1 36.38471            0.354502            0.2413083
##   niveleduc3er y 4to nivel
## 0               0.01737035
## 1               0.04689452
## 
## Coefficients of linear discriminants:
##                                 LD1
## edad                     0.02652871
## niveleducsecundaria      0.87555034
## niveleducuniversidad     2.15177054
## niveleduc3er y 4to nivel 4.38696438

Grafico de LDA

## Warning: package 'klaR' was built under R version 3.6.1

Grafico de QDA

- Todos los cálculos obtenidos son objeto de practica, sin embargo al no cumplir con los test no son significativos, ninguno de los gráficos son significativos, ni las estimaciones de discriminación lineal son significativas 2!