Introducción

La base de datos sobre la cuál se hace este estudio representa a los empleados de una compañía y cuenta con variables cuantitativas y cualitativas sobre estos. Particularmente para este estudio, se buscará extraer de esta base de datos información que sirva para estimar el sueldo que debería recibir un empleado de la empresa. Al final, se espera haber desarrollado un modelo de regresión linear múltiple para estimar estos ingresos tan adecuadamente como sea posible.

##   id Ingreso_Mensual Edad Educación Años_Experiencia Antigüedad Horas_Extra
## 1  1         5993000   41         2                8          6          Si
## 2  2         5130000   49         1               10         10          No
## 3  3         2090000   37         2                7          0          Si
## 4  4         2909000   33         4                8          8          Si
## 5  5         3468000   27         1                6          2          No
## 6  6         3068000   32         2                8          7          No
##   Departamento Distancia_Casa Campo_Educación Satisfacción_Ambiental Genero
## 1       Ventas              1        Ciencias                      2      F
## 2          IyD              8        Ciencias                      3      M
## 3          IyD              2            Otra                      4      M
## 4          IyD              3        Ciencias                      4      F
## 5          IyD              2           Salud                      1      M
## 6          IyD              2        Ciencias                      4      M
##                     Cargo Satisfación_Laboral Estado_Civil Trabajos_Anteriores
## 1        Ejecutivo_Ventas                   4      Soltero                   8
## 2 Investigador_Cientifico                   2       Casado                   1
## 3     Tecnico_Laboratorio                   3      Soltero                   6
## 4 Investigador_Cientifico                   3       Casado                   1
## 5     Tecnico_Laboratorio                   2       Casado                   9
## 6     Tecnico_Laboratorio                   4      Soltero                   0
##   Porcentaje_aumento_salarial Rendimiento_Laboral Capacitaciones
## 1                          11                   3              0
## 2                          23                   4              3
## 3                          15                   3              3
## 4                          11                   3              3
## 5                          12                   3              3
## 6                          13                   3              2
##   Equilibrio_Trabajo_Vida Antigüedad_Cargo Años_ultima_promoción
## 1                       1                4                     0
## 2                       3                7                     1
## 3                       3                0                     0
## 4                       3                7                     3
## 5                       3                2                     2
## 6                       2                7                     3
##   Años_acargo_con_mismo_jefe Rotación Viaje.de.Negocios
## 1                          5       Si         Raramente
## 2                          7       No    Frecuentemente
## 3                          0       Si         Raramente
## 4                          0       No    Frecuentemente
## 5                          2       No         Raramente
## 6                          6       No    Frecuentemente

Análisis Descriptivo Individual

variable Max Min Media Mediana Desvest CoefVar Correlación
Ingreso 2e+07 1009000 6502931 4919000 4707957 0.724 1
Edad 60 18 36.92 36 9.135 0.2474 0.5
Experiencia 40 0 11.28 10 7.781 0.6898 0.77
Antigüedad 40 0 7.008 5 6.127 0.8742 0.51
En Cargo 18 0 4.229 3 3.623 0.8567 0.36
Con_Jefe 17 0 0 3 3.568 0.8654 0.34
## 
##    IyD     RH Ventas 
##    961     63    446
## 
##   1   2   3   4   5 
## 170 282 572 398  48
## 
##   F   M 
## 588 882

En las tablas superiores se indica información para la variables cuantitativas y cualitativas utilizadas en el estudio.

Para la variables cuantitativas, se extrajeron estimadores representativos como: media, mediana, mínimos y máximos, y desviación estándar. Es de señalar el elevado coeficiente de variación que tienen la gran mayoría de las variables, sólo la edad está por debajo del 0.6, lo cual nos sugiere que los empleados tienen características muy hetereógeneas .

Para estas variables, también se incluye el coeficiente de correlación que éstas tienen con los ingresos, al ser ésta la variable que vamos a querer estimar a lo largo del estudio. Se encuentra que las variables con mayor relación son la experiencia y la antigüedad. Esta información será más relevantes posteriormente.

En el caso de las variables cualitativas, se encuentra cuál es la mode para las variables Departamento (Investigación y Desarrollo), Nivel de educación (3) y Género (Hombre), ordenadas así en la presentación de las tablas.

Análisis Bivariado

## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'

Con el objetivo de estudiar más a fondo la relación que tienen los ingresos con otras variables, en este caso antigüedad y experiencia, se elaboraron gráficos de dispersión entre estas dos relaciones. Se observa en ambos casos un correlación positiva no directa con los coeficientes de correlación señalados. Esto va a justificar el uso que haremos de estas variables para modelos de regresión más adelante

Modelo de Regresión Linear Simple

## 
## Call:
## lm(formula = Ingreso ~ Años_Experiencia, data = datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -11271297  -1750781    -87495   1398604  11539481 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1227935     137299   8.944   <2e-16 ***
## Años_Experiencia   467658      10021  46.669   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2988000 on 1468 degrees of freedom
## Multiple R-squared:  0.5974, Adjusted R-squared:  0.5971 
## F-statistic:  2178 on 1 and 1468 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ingreso ~ Antigüedad, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -9504365 -2498983 -1188091  1392960 15484522 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3733273     160091   23.32   <2e-16 ***
## Antigüedad    395205      17201   22.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4039000 on 1468 degrees of freedom
## Multiple R-squared:  0.2645, Adjusted R-squared:  0.264 
## F-statistic: 527.9 on 1 and 1468 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ingreso ~ Educación, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -6150646 -3399146 -1625986  1870736 14332429 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5640571     359670  15.683  < 2e-16 ***
## Educación2    586075     455354   1.287 0.198271    
## Educación3    876693     409645   2.140 0.032509 *  
## Educación4   1191831     429672   2.774 0.005611 ** 
## Educación5   2637075     766499   3.440 0.000597 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4690000 on 1465 degrees of freedom
## Multiple R-squared:  0.01052,    Adjusted R-squared:  0.007816 
## F-statistic: 3.893 on 4 and 1465 DF,  p-value: 0.003769
## 
## Call:
## lm(formula = Ingreso ~ Departamento, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -5907173 -3446003 -1621213  1613767 13717747 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         6281253     151643  41.421   <2e-16 ***
## DepartamentoRH       373255     611365   0.611   0.5416    
## DepartamentoVentas   677920     269340   2.517   0.0119 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4701000 on 1467 degrees of freedom
## Multiple R-squared:  0.004346,   Adjusted R-squared:  0.002989 
## F-statistic: 3.202 on 2 and 1467 DF,  p-value: 0.04097

Se elaboran cuatro modelos de regresión linear simples en el cuál se formulan los ingresos como variables dependientes en función de dos variables dependientes cuantitativas (Experiencia y Antigüedad) y dos variables cualitativas (Nivel Educativo y Departamento).

Ambas variables cuantitativas se seleccionaron por su ya comprobada correlación positiva con la variable ingresos y al ser intuitivo que una mayor experiencia laboral y/o antigüedad dentro de una empresa se traducirán en un mayor nivel de ingresos.

La variable del nivel de estudio fue escogida para reflexionar sobre la idea de que una inversión en educación se traducirá en un mayor nivel de ingresos posteriores. Por su parte, también se quiso identificar el departamento en el cuál hubieran los mejores salarios ceteris paribus.

Aunque todos los modelos tienen valores p significativos, los modelos que toman como variables independientes variables cuantitativas los tuvieron mucho más bajos. Con esto, el r-cuadrado del modelo basado en la experiencia (~0.5971) es mucho mayor al basado en la antigüedad (~0.264); es por esto que el primero es el escogido entre modelos de regresión lineal simple.

Modelo de Regresión Linear Múltiple

## 
## Call:
## lm(formula = Ingreso ~ Genero:(Experiencia + Antigüedad), data = datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -10768459  -1760037    -67922   1345402  11311440 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1176128     139231   8.447   <2e-16 ***
## GeneroF:Experiencia   453103      17849  25.386   <2e-16 ***
## GeneroM:Experiencia   447693      16157  27.709   <2e-16 ***
## GeneroF:Antigüedad     18769      25432   0.738    0.461    
## GeneroM:Antigüedad     47951      21074   2.275    0.023 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2985000 on 1465 degrees of freedom
## Multiple R-squared:  0.5992, Adjusted R-squared:  0.5981 
## F-statistic: 547.6 on 4 and 1465 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe), 
##     data = datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -11080360  -1698633    -78458   1300963  11416664 
## 
## Coefficients:
##                                               Estimate Std. Error t value
## (Intercept)                                    1273770     143681   8.865
## DepartamentoIyD:Experiencia                     462732      12893  35.890
## DepartamentoRH:Experiencia                      569951      44568  12.788
## DepartamentoVentas:Experiencia                  475357      19300  24.630
## DepartamentoIyD:Años_acargo_con_mismo_jefe      -27249      29437  -0.926
## DepartamentoRH:Años_acargo_con_mismo_jefe      -239581     138189  -1.734
## DepartamentoVentas:Años_acargo_con_mismo_jefe    18908      44041   0.429
##                                               Pr(>|t|)    
## (Intercept)                                     <2e-16 ***
## DepartamentoIyD:Experiencia                     <2e-16 ***
## DepartamentoRH:Experiencia                      <2e-16 ***
## DepartamentoVentas:Experiencia                  <2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe      0.3548    
## DepartamentoRH:Años_acargo_con_mismo_jefe       0.0832 .  
## DepartamentoVentas:Años_acargo_con_mismo_jefe   0.6678    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2982000 on 1463 degrees of freedom
## Multiple R-squared:  0.6005, Adjusted R-squared:  0.5989 
## F-statistic: 366.6 on 6 and 1463 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = Ingreso ~ Educación:(Experiencia + Capacitaciones), 
##     data = datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -11394550  -1746598    -47543   1367560  11555302 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                1156739     222286   5.204 2.23e-07 ***
## Educación1:Experiencia      502835      28739  17.497  < 2e-16 ***
## Educación2:Experiencia      484093      22187  21.818  < 2e-16 ***
## Educación3:Experiencia      472722      14224  33.234  < 2e-16 ***
## Educación4:Experiencia      452527      16773  26.979  < 2e-16 ***
## Educación5:Experiencia      416520      41522  10.031  < 2e-16 ***
## Educación1:Capacitaciones    19728     114876   0.172    0.864    
## Educación2:Capacitaciones   -33462      96030  -0.348    0.728    
## Educación3:Capacitaciones     2372      77107   0.031    0.975    
## Educación4:Capacitaciones    39430      90058   0.438    0.662    
## Educación5:Capacitaciones   347962     218230   1.594    0.111    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2990000 on 1459 degrees of freedom
## Multiple R-squared:  0.5995, Adjusted R-squared:  0.5967 
## F-statistic: 218.4 on 10 and 1459 DF,  p-value: < 2.2e-16

Se buscaban modelos que explicaran mejor el comportamiento de la variable ingresos, por tanto se optó por explorar modelos de regresión lineal múltiples y se planetaron tres modelos, cada uno con la experiencia (variable con mayor correlación), otra variable cuantitativa y una variable cualitativa como variables independientes. Las variables no mencionadas previamente que se usan en estos modelos son el número de capacitaciones y el número de años a cargo del mismo jefe para evaluar más a fondo si la educación y la estabilidad laboral justifican positivamente el salario.

Comparando todos los modelos según el R-cuadrado, se encuentra que todos los modelos son relativamente similares, pero que hay variables que no son significativas, como las capacitaciones y el género. Así, también se encuentra que el modelo que mejor predice el comportamiento de la variable dependiente es el que involucra experiencia, antigüedad y departamento. Éste sería el mejor modelo entre los planteados.

Para encontrar el mejor modelo posible, se agrega a este modelo la variable de años a cargo bajo el mismo jefe, pues ésta mostró significancia en los modelos previos. El nuevo modelo con todas las variables es el siguiente:

## 
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe + 
##     Antigüedad), data = datos)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -10851337  -1682895   -118288   1269305  11026588 
## 
## Coefficients:
##                                               Estimate Std. Error t value
## (Intercept)                                    1307512     143393   9.118
## DepartamentoIyD:Experiencia                     445323      14706  30.282
## DepartamentoRH:Experiencia                      543408      52095  10.431
## DepartamentoVentas:Experiencia                  439010      22640  19.391
## DepartamentoIyD:Años_acargo_con_mismo_jefe      -96725      41626  -2.324
## DepartamentoRH:Años_acargo_con_mismo_jefe      -340132     172769  -1.969
## DepartamentoVentas:Años_acargo_con_mismo_jefe  -105903      60579  -1.748
## DepartamentoIyD:Antigüedad                       65581      28266   2.320
## DepartamentoRH:Antigüedad                        86521      92248   0.938
## DepartamentoVentas:Antigüedad                   123452      41633   2.965
##                                               Pr(>|t|)    
## (Intercept)                                    < 2e-16 ***
## DepartamentoIyD:Experiencia                    < 2e-16 ***
## DepartamentoRH:Experiencia                     < 2e-16 ***
## DepartamentoVentas:Experiencia                 < 2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe     0.02028 *  
## DepartamentoRH:Años_acargo_con_mismo_jefe      0.04918 *  
## DepartamentoVentas:Años_acargo_con_mismo_jefe  0.08064 .  
## DepartamentoIyD:Antigüedad                     0.02047 *  
## DepartamentoRH:Antigüedad                      0.34844    
## DepartamentoVentas:Antigüedad                  0.00307 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2970000 on 1460 degrees of freedom
## Multiple R-squared:  0.6046, Adjusted R-squared:  0.6022 
## F-statistic:   248 on 9 and 1460 DF,  p-value: < 2.2e-16

Se observa un aumento del R-cuadrado con respecto al anterior modelo. Para hacer una evaluación adicional de este supuesto, se evalúan los AIC’s de los modelos posibles con éstas variables.

## Start:  AIC=43827.47
## Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe + 
##     Antigüedad)
## 
##                                           Df  Sum of Sq        RSS   AIC
## <none>                                                  1.2874e+16 43827
## - Departamento:Años_acargo_con_mismo_jefe  3 1.0467e+14 1.2979e+16 43833
## - Departamento:Antigüedad                  3 1.3247e+14 1.3007e+16 43837
## - Departamento:Experiencia                 3 1.0824e+16 2.3699e+16 44718
## 
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe + 
##     Antigüedad), data = datos)
## 
## Coefficients:
##                                   (Intercept)  
##                                       1307512  
##                   DepartamentoIyD:Experiencia  
##                                        445323  
##                    DepartamentoRH:Experiencia  
##                                        543408  
##                DepartamentoVentas:Experiencia  
##                                        439010  
##    DepartamentoIyD:Años_acargo_con_mismo_jefe  
##                                        -96725  
##     DepartamentoRH:Años_acargo_con_mismo_jefe  
##                                       -340132  
## DepartamentoVentas:Años_acargo_con_mismo_jefe  
##                                       -105903  
##                    DepartamentoIyD:Antigüedad  
##                                         65581  
##                     DepartamentoRH:Antigüedad  
##                                         86521  
##                 DepartamentoVentas:Antigüedad  
##                                        123452

Se encuentra que el modelo con el AIC más bajo (preferible) es áquel que no excluye ninguna de las variables que tomamos actualmente.

Validación de Supuestos

Validando los supuestos de los modelos de regresión lineal múltiples vemos que los residuos están distribuidos con relativa aleatoriedad (cercana a cero) y que no hay valores atípicos que afecten el modelo. Sin embargo, la varianza de los residuos presenta una marcada heterocedasticidad y se observa que las colas de se aleja de una distribución normal.

Por estos desperfectos en el cumplimiento de los supuestos, se tomó la decisión de transformar el modelo aplicando el logaritmo a la variable dependiente.

Transformación

## 
## Call:
## lm(formula = log(Ingreso) ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe + 
##     Antigüedad), data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.42357 -0.30581  0.01935  0.31398  1.34097 
## 
## Coefficients:
##                                                 Estimate Std. Error t value
## (Intercept)                                   14.7337236  0.0213508 690.080
## DepartamentoIyD:Experiencia                    0.0584885  0.0021897  26.711
## DepartamentoRH:Experiencia                     0.0643861  0.0077568   8.301
## DepartamentoVentas:Experiencia                 0.0623241  0.0033710  18.488
## DepartamentoIyD:Años_acargo_con_mismo_jefe     0.0008807  0.0061979   0.142
## DepartamentoRH:Años_acargo_con_mismo_jefe     -0.0274125  0.0257247  -1.066
## DepartamentoVentas:Años_acargo_con_mismo_jefe  0.0113462  0.0090200   1.258
## DepartamentoIyD:Antigüedad                     0.0043478  0.0042087   1.033
## DepartamentoRH:Antigüedad                      0.0104259  0.0137354   0.759
## DepartamentoVentas:Antigüedad                  0.0070052  0.0061991   1.130
##                                               Pr(>|t|)    
## (Intercept)                                    < 2e-16 ***
## DepartamentoIyD:Experiencia                    < 2e-16 ***
## DepartamentoRH:Experiencia                    2.33e-16 ***
## DepartamentoVentas:Experiencia                 < 2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe       0.887    
## DepartamentoRH:Años_acargo_con_mismo_jefe        0.287    
## DepartamentoVentas:Años_acargo_con_mismo_jefe    0.209    
## DepartamentoIyD:Antigüedad                       0.302    
## DepartamentoRH:Antigüedad                        0.448    
## DepartamentoVentas:Antigüedad                    0.259    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4422 on 1460 degrees of freedom
## Multiple R-squared:  0.5599, Adjusted R-squared:  0.5572 
## F-statistic: 206.4 on 9 and 1460 DF,  p-value: < 2.2e-16

El modelo transformado muestra un menor R-cuadrado, sin embargo sigue siendo mayor al 0.50 y con una alta significancia. Pasamos a reevaluar los supuestos.

En relación con el modelo anterior, se ve cómo los residuos siguen más acertadamente una distribución normal. Así mismo, se suaviza la tendencia que se observaba en la varianza de los residuos, quedando más cerca de la homocedasticidad. Se valora el modelo como aceptable.

Conclusión y Utilidad del modelo

Después de este estudio, se encontró un modelo aceptable, que explica la mayor parte del comportamiento de la variable y con alta significancia, que sirve para estimar los ingresos de un empleado dentro de la empresa, dado algunos datos de éste.

Su utilidad es muy amplia, pero la más significativa puede ser servir como punto de partida para la negociación del salario de un empleado en el caso de que éste o la empresa busquen renegociar las condiciones de su contrato.

Pronóstico hipótetico

##       1 
## 4606548

Como ejemplo de la utilidad del modelo, se estima el salario que podría recibir un trabajador dentro de la empresa con 10 años de experiencia, 5 siendo parte de la organización y 3 bajo un mismo superior, miembro del departamento de Investigación y Desarrollo. Según el modelo, su salario rondaría los $4,606,548.