La base de datos sobre la cuál se hace este estudio representa a los empleados de una compañía y cuenta con variables cuantitativas y cualitativas sobre estos. Particularmente para este estudio, se buscará extraer de esta base de datos información que sirva para estimar el sueldo que debería recibir un empleado de la empresa. Al final, se espera haber desarrollado un modelo de regresión linear múltiple para estimar estos ingresos tan adecuadamente como sea posible.
## id Ingreso_Mensual Edad Educación Años_Experiencia Antigüedad Horas_Extra
## 1 1 5993000 41 2 8 6 Si
## 2 2 5130000 49 1 10 10 No
## 3 3 2090000 37 2 7 0 Si
## 4 4 2909000 33 4 8 8 Si
## 5 5 3468000 27 1 6 2 No
## 6 6 3068000 32 2 8 7 No
## Departamento Distancia_Casa Campo_Educación Satisfacción_Ambiental Genero
## 1 Ventas 1 Ciencias 2 F
## 2 IyD 8 Ciencias 3 M
## 3 IyD 2 Otra 4 M
## 4 IyD 3 Ciencias 4 F
## 5 IyD 2 Salud 1 M
## 6 IyD 2 Ciencias 4 M
## Cargo Satisfación_Laboral Estado_Civil Trabajos_Anteriores
## 1 Ejecutivo_Ventas 4 Soltero 8
## 2 Investigador_Cientifico 2 Casado 1
## 3 Tecnico_Laboratorio 3 Soltero 6
## 4 Investigador_Cientifico 3 Casado 1
## 5 Tecnico_Laboratorio 2 Casado 9
## 6 Tecnico_Laboratorio 4 Soltero 0
## Porcentaje_aumento_salarial Rendimiento_Laboral Capacitaciones
## 1 11 3 0
## 2 23 4 3
## 3 15 3 3
## 4 11 3 3
## 5 12 3 3
## 6 13 3 2
## Equilibrio_Trabajo_Vida Antigüedad_Cargo Años_ultima_promoción
## 1 1 4 0
## 2 3 7 1
## 3 3 0 0
## 4 3 7 3
## 5 3 2 2
## 6 2 7 3
## Años_acargo_con_mismo_jefe Rotación Viaje.de.Negocios
## 1 5 Si Raramente
## 2 7 No Frecuentemente
## 3 0 Si Raramente
## 4 0 No Frecuentemente
## 5 2 No Raramente
## 6 6 No Frecuentemente
variable | Max | Min | Media | Mediana | Desvest | CoefVar | Correlación |
---|---|---|---|---|---|---|---|
Ingreso | 2e+07 | 1009000 | 6502931 | 4919000 | 4707957 | 0.724 | 1 |
Edad | 60 | 18 | 36.92 | 36 | 9.135 | 0.2474 | 0.5 |
Experiencia | 40 | 0 | 11.28 | 10 | 7.781 | 0.6898 | 0.77 |
Antigüedad | 40 | 0 | 7.008 | 5 | 6.127 | 0.8742 | 0.51 |
En Cargo | 18 | 0 | 4.229 | 3 | 3.623 | 0.8567 | 0.36 |
Con_Jefe | 17 | 0 | 0 | 3 | 3.568 | 0.8654 | 0.34 |
##
## IyD RH Ventas
## 961 63 446
##
## 1 2 3 4 5
## 170 282 572 398 48
##
## F M
## 588 882
En las tablas superiores se indica información para la variables cuantitativas y cualitativas utilizadas en el estudio.
Para la variables cuantitativas, se extrajeron estimadores representativos como: media, mediana, mínimos y máximos, y desviación estándar. Es de señalar el elevado coeficiente de variación que tienen la gran mayoría de las variables, sólo la edad está por debajo del 0.6, lo cual nos sugiere que los empleados tienen características muy hetereógeneas .
Para estas variables, también se incluye el coeficiente de correlación que éstas tienen con los ingresos, al ser ésta la variable que vamos a querer estimar a lo largo del estudio. Se encuentra que las variables con mayor relación son la experiencia y la antigüedad. Esta información será más relevantes posteriormente.
En el caso de las variables cualitativas, se encuentra cuál es la mode para las variables Departamento (Investigación y Desarrollo), Nivel de educación (3) y Género (Hombre), ordenadas así en la presentación de las tablas.
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
Con el objetivo de estudiar más a fondo la relación que tienen los ingresos con otras variables, en este caso antigüedad y experiencia, se elaboraron gráficos de dispersión entre estas dos relaciones. Se observa en ambos casos un correlación positiva no directa con los coeficientes de correlación señalados. Esto va a justificar el uso que haremos de estas variables para modelos de regresión más adelante
##
## Call:
## lm(formula = Ingreso ~ Años_Experiencia, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11271297 -1750781 -87495 1398604 11539481
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1227935 137299 8.944 <2e-16 ***
## Años_Experiencia 467658 10021 46.669 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2988000 on 1468 degrees of freedom
## Multiple R-squared: 0.5974, Adjusted R-squared: 0.5971
## F-statistic: 2178 on 1 and 1468 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ingreso ~ Antigüedad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9504365 -2498983 -1188091 1392960 15484522
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3733273 160091 23.32 <2e-16 ***
## Antigüedad 395205 17201 22.98 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4039000 on 1468 degrees of freedom
## Multiple R-squared: 0.2645, Adjusted R-squared: 0.264
## F-statistic: 527.9 on 1 and 1468 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ingreso ~ Educación, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6150646 -3399146 -1625986 1870736 14332429
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5640571 359670 15.683 < 2e-16 ***
## Educación2 586075 455354 1.287 0.198271
## Educación3 876693 409645 2.140 0.032509 *
## Educación4 1191831 429672 2.774 0.005611 **
## Educación5 2637075 766499 3.440 0.000597 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4690000 on 1465 degrees of freedom
## Multiple R-squared: 0.01052, Adjusted R-squared: 0.007816
## F-statistic: 3.893 on 4 and 1465 DF, p-value: 0.003769
##
## Call:
## lm(formula = Ingreso ~ Departamento, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5907173 -3446003 -1621213 1613767 13717747
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6281253 151643 41.421 <2e-16 ***
## DepartamentoRH 373255 611365 0.611 0.5416
## DepartamentoVentas 677920 269340 2.517 0.0119 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4701000 on 1467 degrees of freedom
## Multiple R-squared: 0.004346, Adjusted R-squared: 0.002989
## F-statistic: 3.202 on 2 and 1467 DF, p-value: 0.04097
Se elaboran cuatro modelos de regresión linear simples en el cuál se formulan los ingresos como variables dependientes en función de dos variables dependientes cuantitativas (Experiencia y Antigüedad) y dos variables cualitativas (Nivel Educativo y Departamento).
Ambas variables cuantitativas se seleccionaron por su ya comprobada correlación positiva con la variable ingresos y al ser intuitivo que una mayor experiencia laboral y/o antigüedad dentro de una empresa se traducirán en un mayor nivel de ingresos.
La variable del nivel de estudio fue escogida para reflexionar sobre la idea de que una inversión en educación se traducirá en un mayor nivel de ingresos posteriores. Por su parte, también se quiso identificar el departamento en el cuál hubieran los mejores salarios ceteris paribus.
Aunque todos los modelos tienen valores p significativos, los modelos que toman como variables independientes variables cuantitativas los tuvieron mucho más bajos. Con esto, el r-cuadrado del modelo basado en la experiencia (~0.5971) es mucho mayor al basado en la antigüedad (~0.264); es por esto que el primero es el escogido entre modelos de regresión lineal simple.
##
## Call:
## lm(formula = Ingreso ~ Genero:(Experiencia + Antigüedad), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10768459 -1760037 -67922 1345402 11311440
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1176128 139231 8.447 <2e-16 ***
## GeneroF:Experiencia 453103 17849 25.386 <2e-16 ***
## GeneroM:Experiencia 447693 16157 27.709 <2e-16 ***
## GeneroF:Antigüedad 18769 25432 0.738 0.461
## GeneroM:Antigüedad 47951 21074 2.275 0.023 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2985000 on 1465 degrees of freedom
## Multiple R-squared: 0.5992, Adjusted R-squared: 0.5981
## F-statistic: 547.6 on 4 and 1465 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe),
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11080360 -1698633 -78458 1300963 11416664
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 1273770 143681 8.865
## DepartamentoIyD:Experiencia 462732 12893 35.890
## DepartamentoRH:Experiencia 569951 44568 12.788
## DepartamentoVentas:Experiencia 475357 19300 24.630
## DepartamentoIyD:Años_acargo_con_mismo_jefe -27249 29437 -0.926
## DepartamentoRH:Años_acargo_con_mismo_jefe -239581 138189 -1.734
## DepartamentoVentas:Años_acargo_con_mismo_jefe 18908 44041 0.429
## Pr(>|t|)
## (Intercept) <2e-16 ***
## DepartamentoIyD:Experiencia <2e-16 ***
## DepartamentoRH:Experiencia <2e-16 ***
## DepartamentoVentas:Experiencia <2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe 0.3548
## DepartamentoRH:Años_acargo_con_mismo_jefe 0.0832 .
## DepartamentoVentas:Años_acargo_con_mismo_jefe 0.6678
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2982000 on 1463 degrees of freedom
## Multiple R-squared: 0.6005, Adjusted R-squared: 0.5989
## F-statistic: 366.6 on 6 and 1463 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ingreso ~ Educación:(Experiencia + Capacitaciones),
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11394550 -1746598 -47543 1367560 11555302
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1156739 222286 5.204 2.23e-07 ***
## Educación1:Experiencia 502835 28739 17.497 < 2e-16 ***
## Educación2:Experiencia 484093 22187 21.818 < 2e-16 ***
## Educación3:Experiencia 472722 14224 33.234 < 2e-16 ***
## Educación4:Experiencia 452527 16773 26.979 < 2e-16 ***
## Educación5:Experiencia 416520 41522 10.031 < 2e-16 ***
## Educación1:Capacitaciones 19728 114876 0.172 0.864
## Educación2:Capacitaciones -33462 96030 -0.348 0.728
## Educación3:Capacitaciones 2372 77107 0.031 0.975
## Educación4:Capacitaciones 39430 90058 0.438 0.662
## Educación5:Capacitaciones 347962 218230 1.594 0.111
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2990000 on 1459 degrees of freedom
## Multiple R-squared: 0.5995, Adjusted R-squared: 0.5967
## F-statistic: 218.4 on 10 and 1459 DF, p-value: < 2.2e-16
Se buscaban modelos que explicaran mejor el comportamiento de la variable ingresos, por tanto se optó por explorar modelos de regresión lineal múltiples y se planetaron tres modelos, cada uno con la experiencia (variable con mayor correlación), otra variable cuantitativa y una variable cualitativa como variables independientes. Las variables no mencionadas previamente que se usan en estos modelos son el número de capacitaciones y el número de años a cargo del mismo jefe para evaluar más a fondo si la educación y la estabilidad laboral justifican positivamente el salario.
Comparando todos los modelos según el R-cuadrado, se encuentra que todos los modelos son relativamente similares, pero que hay variables que no son significativas, como las capacitaciones y el género. Así, también se encuentra que el modelo que mejor predice el comportamiento de la variable dependiente es el que involucra experiencia, antigüedad y departamento. Éste sería el mejor modelo entre los planteados.
Para encontrar el mejor modelo posible, se agrega a este modelo la variable de años a cargo bajo el mismo jefe, pues ésta mostró significancia en los modelos previos. El nuevo modelo con todas las variables es el siguiente:
##
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe +
## Antigüedad), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10851337 -1682895 -118288 1269305 11026588
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 1307512 143393 9.118
## DepartamentoIyD:Experiencia 445323 14706 30.282
## DepartamentoRH:Experiencia 543408 52095 10.431
## DepartamentoVentas:Experiencia 439010 22640 19.391
## DepartamentoIyD:Años_acargo_con_mismo_jefe -96725 41626 -2.324
## DepartamentoRH:Años_acargo_con_mismo_jefe -340132 172769 -1.969
## DepartamentoVentas:Años_acargo_con_mismo_jefe -105903 60579 -1.748
## DepartamentoIyD:Antigüedad 65581 28266 2.320
## DepartamentoRH:Antigüedad 86521 92248 0.938
## DepartamentoVentas:Antigüedad 123452 41633 2.965
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## DepartamentoIyD:Experiencia < 2e-16 ***
## DepartamentoRH:Experiencia < 2e-16 ***
## DepartamentoVentas:Experiencia < 2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe 0.02028 *
## DepartamentoRH:Años_acargo_con_mismo_jefe 0.04918 *
## DepartamentoVentas:Años_acargo_con_mismo_jefe 0.08064 .
## DepartamentoIyD:Antigüedad 0.02047 *
## DepartamentoRH:Antigüedad 0.34844
## DepartamentoVentas:Antigüedad 0.00307 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2970000 on 1460 degrees of freedom
## Multiple R-squared: 0.6046, Adjusted R-squared: 0.6022
## F-statistic: 248 on 9 and 1460 DF, p-value: < 2.2e-16
Se observa un aumento del R-cuadrado con respecto al anterior modelo. Para hacer una evaluación adicional de este supuesto, se evalúan los AIC’s de los modelos posibles con éstas variables.
## Start: AIC=43827.47
## Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe +
## Antigüedad)
##
## Df Sum of Sq RSS AIC
## <none> 1.2874e+16 43827
## - Departamento:Años_acargo_con_mismo_jefe 3 1.0467e+14 1.2979e+16 43833
## - Departamento:Antigüedad 3 1.3247e+14 1.3007e+16 43837
## - Departamento:Experiencia 3 1.0824e+16 2.3699e+16 44718
##
## Call:
## lm(formula = Ingreso ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe +
## Antigüedad), data = datos)
##
## Coefficients:
## (Intercept)
## 1307512
## DepartamentoIyD:Experiencia
## 445323
## DepartamentoRH:Experiencia
## 543408
## DepartamentoVentas:Experiencia
## 439010
## DepartamentoIyD:Años_acargo_con_mismo_jefe
## -96725
## DepartamentoRH:Años_acargo_con_mismo_jefe
## -340132
## DepartamentoVentas:Años_acargo_con_mismo_jefe
## -105903
## DepartamentoIyD:Antigüedad
## 65581
## DepartamentoRH:Antigüedad
## 86521
## DepartamentoVentas:Antigüedad
## 123452
Se encuentra que el modelo con el AIC más bajo (preferible) es áquel que no excluye ninguna de las variables que tomamos actualmente.
Validando los supuestos de los modelos de regresión lineal múltiples vemos que los residuos están distribuidos con relativa aleatoriedad (cercana a cero) y que no hay valores atípicos que afecten el modelo. Sin embargo, la varianza de los residuos presenta una marcada heterocedasticidad y se observa que las colas de se aleja de una distribución normal.
Por estos desperfectos en el cumplimiento de los supuestos, se tomó la decisión de transformar el modelo aplicando el logaritmo a la variable dependiente.
##
## Call:
## lm(formula = log(Ingreso) ~ Departamento:(Experiencia + Años_acargo_con_mismo_jefe +
## Antigüedad), data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.42357 -0.30581 0.01935 0.31398 1.34097
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 14.7337236 0.0213508 690.080
## DepartamentoIyD:Experiencia 0.0584885 0.0021897 26.711
## DepartamentoRH:Experiencia 0.0643861 0.0077568 8.301
## DepartamentoVentas:Experiencia 0.0623241 0.0033710 18.488
## DepartamentoIyD:Años_acargo_con_mismo_jefe 0.0008807 0.0061979 0.142
## DepartamentoRH:Años_acargo_con_mismo_jefe -0.0274125 0.0257247 -1.066
## DepartamentoVentas:Años_acargo_con_mismo_jefe 0.0113462 0.0090200 1.258
## DepartamentoIyD:Antigüedad 0.0043478 0.0042087 1.033
## DepartamentoRH:Antigüedad 0.0104259 0.0137354 0.759
## DepartamentoVentas:Antigüedad 0.0070052 0.0061991 1.130
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## DepartamentoIyD:Experiencia < 2e-16 ***
## DepartamentoRH:Experiencia 2.33e-16 ***
## DepartamentoVentas:Experiencia < 2e-16 ***
## DepartamentoIyD:Años_acargo_con_mismo_jefe 0.887
## DepartamentoRH:Años_acargo_con_mismo_jefe 0.287
## DepartamentoVentas:Años_acargo_con_mismo_jefe 0.209
## DepartamentoIyD:Antigüedad 0.302
## DepartamentoRH:Antigüedad 0.448
## DepartamentoVentas:Antigüedad 0.259
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4422 on 1460 degrees of freedom
## Multiple R-squared: 0.5599, Adjusted R-squared: 0.5572
## F-statistic: 206.4 on 9 and 1460 DF, p-value: < 2.2e-16
El modelo transformado muestra un menor R-cuadrado, sin embargo sigue siendo mayor al 0.50 y con una alta significancia. Pasamos a reevaluar los supuestos.
En relación con el modelo anterior, se ve cómo los residuos siguen más acertadamente una distribución normal. Así mismo, se suaviza la tendencia que se observaba en la varianza de los residuos, quedando más cerca de la homocedasticidad. Se valora el modelo como aceptable.
Después de este estudio, se encontró un modelo aceptable, que explica la mayor parte del comportamiento de la variable y con alta significancia, que sirve para estimar los ingresos de un empleado dentro de la empresa, dado algunos datos de éste.
Su utilidad es muy amplia, pero la más significativa puede ser servir como punto de partida para la negociación del salario de un empleado en el caso de que éste o la empresa busquen renegociar las condiciones de su contrato.
## 1
## 4606548
Como ejemplo de la utilidad del modelo, se estima el salario que podría recibir un trabajador dentro de la empresa con 10 años de experiencia, 5 siendo parte de la organización y 3 bajo un mismo superior, miembro del departamento de Investigación y Desarrollo. Según el modelo, su salario rondaría los $4,606,548.