En el presente taller se abordará un estudio aplicado de regresión lineal, con el fin de modelar y predecir el Ingreso Mensual de los empleados en una organización, a partir de diversas características personales, profesionales y organizacionales. Este análisis se desarrollará con una base de datos que contiene información de 1.470 empleados y 24 variables, combinando datos cuantitativos y cualitativos.
El enfoque metodológico incluye:
Un análisis exploratorio inicial de las variables.
El desarrollo de modelos de regresión lineal simple, en el cual se evalúa la relación de una sola variable con el ingreso.
Posteriormente, se construirán modelos de regresión lineal múltiple, que combinan varias variables predictoras para mejorar la capacidad explicativa y predictiva del modelo.
Se validarán los modelos mediante pruebas de supuestos y técnicas como la validación cruzada para evaluar su poder predictivo fuera de muestra.
El objetivo central es identificar qué factores influyen significativamente en el salario y hasta qué punto estos pueden ser utilizados para realizar pronósticos. Esta práctica permite fortalecer competencias en análisis de datos, interpretación estadística y toma de decisiones basada en evidencia.
Ingreso Mensual
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1009000 2911000 4919000 6502931 8379000 19999000
## [1] 4707957
Es la variable principal donde vemos que el promedio es 6.502.931 con una desviación de 4.707.957
Años de Experiencia
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 6.00 10.00 11.28 15.00 40.00
## [1] 7.780782
Em promedio los años de experiencia de los empleados de esta empresa son 11.28, con una desviación de 7.78. La experiencia laboral suele estar directamente relacionada con un mayor conocimiento técnico, competencias desarrolladas y antigüedad en el mercado laboral, lo cual justifica mayores niveles salariales.
En otras palabras, esta variable cuantitativa refleja el tiempo total que un empleado ha dedicado al trabajo profesional, independientemente de la empresa en la que se encuentre actualmente. En términos generales, se espera que a mayor experiencia, mayor sea el ingreso, ya que la trayectoria laboral permite acumular habilidades, conocimientos y competencias que suelen valorarse con mejores salarios. Además, la experiencia está ligada a la posibilidad de acceder a puestos de mayor responsabilidad y especialización, los cuales están mejor remunerados.
Edad
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 30.00 36.00 36.92 43.00 60.00
## [1] 9.135373
El promedio de la edad de los empleados es 36.9 años, con una desviación de 9.1 años. Aunque la edad puede asociarse con madurez y trayectoria, en muchos casos su efecto está mediado por la experiencia y el cargo. A partir de cierta edad, el crecimiento salarial puede estabilizarse.
La Edad del empleado también puede influir en su ingreso, aunque de forma más indirecta. A medida que los trabajadores envejecen, suelen acumular tanto experiencia como antigüedad dentro de la organización, lo cual puede darles acceso a mejores condiciones laborales y salariales. Sin embargo, es importante tener en cuenta que la edad por sí sola no garantiza un mayor ingreso; su efecto dependerá de cómo haya sido aprovechado ese tiempo en términos de desarrollo profesional y oportunidades de ascenso.
Años desde la Última Promoción
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 1.000 2.188 3.000 15.000
## [1] 3.22243
En promedio los empleados tienen una promocion cada 2.1 años, con una desviación de 3.22
La variable Años desde la Última Promoción indica cuánto tiempo ha pasado desde que el empleado fue ascendido por última vez. Esta variable puede influir en el ingreso en función de las políticas de compensación de la empresa. Un empleado que fue promovido recientemente probablemente haya recibido un ajuste salarial como parte del ascenso. En cambio, una persona que no ha sido promovida en muchos años podría tener un ingreso más bajo en comparación con otros colegas de nivel similar pero con trayectorias más dinámicas. Esta variable, por tanto, puede ser indicativa del crecimiento profesional reciente y de la política de reconocimiento interno.
Departameto
El Departamento en el cual se desempeña el trabajador. Esta variable cualitativa permite distinguir entre las distintas áreas funcionales dentro de la empresa, como ventas, recursos humanos, tecnología, entre otras. Dependiendo del tipo de actividad, algunos departamentos pueden generar ingresos directamente para la compañía (como ventas), mientras que otros pueden cumplir funciones de soporte. Por ello, es razonable esperar que el ingreso varíe entre departamentos, ya que ciertas áreas pueden ofrecer incentivos adicionales, bonificaciones o comisiones que incrementan el ingreso base.
Horas Extras
La variable Horas Extra hace referencia a si un trabajador ha realizado o no trabajo adicional fuera de su jornada ordinaria. Esta condición puede tener un impacto directo en el ingreso mensual, ya que las horas extra suelen ser remuneradas con un recargo o pueden estar asociadas a mayor carga laboral que, en algunos casos, también implica compensaciones adicionales. Asimismo, trabajar horas extra puede indicar mayor compromiso, responsabilidad o necesidad operativa, lo cual puede estar asociado a un mejor salario, dependiendo de la política interna de la empresa.
Cargo
El Cargo que ocupa el empleado es otra variable cualitativa crítica al momento de analizar los ingresos. Esta variable representa el nivel jerárquico y el tipo de función que el trabajador desempeña dentro de la organización. En la mayoría de las estructuras empresariales, los cargos están asociados a escalas salariales: los empleados en cargos técnicos o de base suelen percibir ingresos más bajos que aquellos en cargos de supervisión, gerencia o dirección. Por tanto, el cargo tiene un peso importante en la determinación del salario y permite segmentar claramente los distintos niveles salariales dentro de la empresa.
Años de Experiencia e Ingreso Mensual
El gráfico muestra una relación positiva entre los años de experiencia y el ingreso mensual. A medida que aumenta la experiencia laboral, tiende a observarse un incremento en los ingresos, lo cual es coherente con las políticas salariales basadas en la antigüedad o en la acumulación de habilidades y competencias a lo largo del tiempo. La tendencia suavizada evidencia que esta relación no es completamente lineal: el crecimiento en ingresos se estabiliza en niveles altos de experiencia, lo que sugiere que, después de cierto punto, los aumentos salariales podrían disminuir o mantenerse constantes.
Edad e Ingreso Mensual
En esta visualización se aprecia una relación más moderada entre la edad del empleado y su ingreso mensual. Si bien en edades tempranas se ve un crecimiento sostenido del ingreso, la curva comienza a aplanarse en edades medias, indicando que los ingresos podrían estancarse a partir de cierto punto. Esto podría deberse a que muchos trabajadores alcanzan su techo salarial en etapas intermedias de su carrera, o porque promociones y aumentos se vuelven menos frecuentes con el paso del tiempo. La dispersión sugiere que hay otros factores (como el cargo o el departamento) que también juegan un papel importante en determinar los ingresos.
Años desde última promoción e Ingreso mensual
Este gráfico evidencia una tendencia ligeramente inversa entre los años transcurridos desde la última promoción y el ingreso mensual. En general, aquellos empleados que han sido promovidos recientemente tienden a tener ingresos más altos. A medida que aumentan los años desde la última promoción, los ingresos tienden a ser más bajos o a no presentar crecimiento, lo que puede interpretarse como una posible estagnación salarial en ausencia de ascensos. Este patrón respalda la importancia de las promociones internas como mecanismo para incrementar los ingresos de los empleados.
Departemento e Ingreso Mensual
El boxplot revela diferencias notables en el ingreso mensual entre departamentos. Algunos departamentos presentan ingresos más altos y menor dispersión, lo cual podría indicar funciones más especializadas o de mayor jerarquía dentro de la organización. Por otro lado, hay departamentos con ingresos medianos más bajos y gran dispersión, lo que podría reflejar una mayor heterogeneidad de cargos o condiciones contractuales. Esta variable categórica parece tener un impacto estructural en la remuneración, posiblemente ligado al tipo de responsabilidades o al valor estratégico del área.
Cargo e Ingreso Mensual
El análisis por cargo muestra una diferenciación clara en los ingresos mensuales. Cargos de mayor nivel o jerarquía suelen concentrarse en los rangos más altos de ingreso, con menor dispersión, lo que sugiere políticas salariales bien definidas para esos puestos. En contraste, cargos operativos o de menor responsabilidad muestran ingresos más bajos y una mayor variabilidad, lo que puede responder a diferencias en experiencia, horas trabajadas o tipo de contrato. Esta variable tiene un peso muy significativo en la explicación del ingreso mensual, ya que el cargo define directamente el nivel salarial.
Horas Extras e Ingreso Mensual
Este gráfico ilustra cómo el hecho de realizar horas extra se relaciona con el ingreso mensual. Los empleados que realizan horas extra tienden a tener ingresos más altos, lo que es consistente con el pago adicional que se recibe por ese tiempo laboral. La diferencia entre los grupos sugiere que esta variable podría ser un buen predictor del ingreso, aunque también puede estar correlacionada con otros factores, como la carga de trabajo o el tipo de cargo. Aun así, no todos los que hacen horas extra tienen ingresos elevados, lo que indica que el efecto varía según el contexto del empleo.
Modelo 1: Ingreso y Edad
##
## Call:
## lm(formula = Ingreso_Mensual ~ Edad, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9990056 -2592657 -677908 1810522 12540805
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2970671 443702 -6.695 3.06e-11 ***
## Edad 256572 11665 21.995 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4084000 on 1468 degrees of freedom
## Multiple R-squared: 0.2479, Adjusted R-squared: 0.2473
## F-statistic: 483.8 on 1 and 1468 DF, p-value: < 2.2e-16
La variable Edad es una muy importante en relación a los ingresos mensuales de la empresa.
Ingreso = -2.970.671 + 256.572(Edad)
Evaluación del Modelo:
R²: 0.2479; el modelo explica aproximadamente 24.79% de la variabilidad de los ingresos, lo cual no es aceptable para explicar todo el modelo
\(B_o\): -2.970.671 -> Esto quiere decir que cuando un empleado es recién nacido su ingreso seria de negativo 2.9 millones
\(B_1\): 256.572 -> Por cada año que el empleado obtiene el salario incrementaría aproximadamente en 256.572 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.
Este modelo muestra que la edad tiene una alta importancia en el ingreso del empleado sin embargo se necesitan más variables para explicar el ingreso
Modelo 2: Ingreso y Años Experiencia
##
## Call:
## lm(formula = Ingreso_Mensual ~ Años_Experiencia, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11271297 -1750781 -87495 1398604 11539481
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1227935 137299 8.944 <2e-16 ***
## Años_Experiencia 467658 10021 46.669 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2988000 on 1468 degrees of freedom
## Multiple R-squared: 0.5974, Adjusted R-squared: 0.5971
## F-statistic: 2178 on 1 and 1468 DF, p-value: < 2.2e-16
La variable Años de experiencia es muy importante y significativa en el modelo.
Ingreso: 1227935 + 467658 (Años_Experiencia)
Evaluación del modelo:
R²: 0.5974; el modelo puede epxlicar en un 59% la variabilidad del ingreso de los empleados de esta compañia.
\(B_o\): 1.227.935 -> Esto quiere decir que cuando un empleado tenga su primer empleo, su ingreso seria de 1.2 millones de pesos
\(B_1\): 467.658 -> Por cada año laboral que el empleado obtiene el salario incrementaría aproximadamente en 467.658 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.
Este modelo se podria aplicar mejor que el anterior, sin embargo todavia deja muchos vacios.
Modelo 3: Ingreso y Años desde la Ultima Promoción
##
## Call:
## lm(formula = Ingreso_Mensual ~ Años_ultima_promoción, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10217442 -3022779 -1294279 1476218 14339721
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5400279 139370 38.75 <2e-16 ***
## Años_ultima_promoción 504011 35791 14.08 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4420000 on 1468 degrees of freedom
## Multiple R-squared: 0.119, Adjusted R-squared: 0.1184
## F-statistic: 198.3 on 1 and 1468 DF, p-value: < 2.2e-16
La variable Años de experiencia es muy importante y significativa en el modelo.
Ingreso: 1227935 + 467658 (Años_Experiencia)
Evaluación del modelo:
R²: 0.119; el modelo puede epxlicar en un 11.9% la variabilidad del ingreso de los empleados de esta compañia, lo que no podria explicar casi nada.
\(B_o\): 5.400.279 -> Esto quiere decir que cuando un empleado tenga su primer cargo, su ingreso seria de 5.4 millones de pesos
\(B_1\): 504.011 -> Por cada año cargo laboral que el empleado obtiene, el salario incrementaría aproximadamente en 504.011 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.
Modelo 4: Variable Dummy (Ingresos y Departamento)
##
## Call:
## lm(formula = Ingreso_Mensual ~ Cargo, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5937676 -1209252 -350986 1165379 6947721
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6924279 112137 61.748 < 2e-16 ***
## CargoInvestigador_Cientifico -3684306 163137 -22.584 < 2e-16 ***
## CargoTecnico_Laboratorio -3687109 168530 -21.878 < 2e-16 ***
## CargoDirector_Manofactura 370859 202105 1.835 0.06671 .
## CargoRepresentante_Salud 604484 209446 2.886 0.00396 **
## CargoGerente 10257397 229706 44.655 < 2e-16 ***
## CargoRepresentante_Ventas -4298279 248927 -17.267 < 2e-16 ***
## CargoDirector_Investigación 9109271 252620 36.059 < 2e-16 ***
## CargoRecursos_Humanos -2688529 302339 -8.892 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2025000 on 1461 degrees of freedom
## Multiple R-squared: 0.8161, Adjusted R-squared: 0.8151
## F-statistic: 810.2 on 8 and 1461 DF, p-value: < 2.2e-16
Un ejecutivo tiene salario de 6.924.279 en promedio de ingreso
Cargo Investigador Cientifico: -3.684.306 ; este cargo gana 3 millones menos que el cargo de ejecutivo, ademas tiene una gran importancia.
Cargo Tecnico Laboratorio: -3.687.109 ; el tecnico de laboratorio tiene un salario 3.6 millones menor que el de los ejecutivos.
Cargo Director Manufactura: 370.859 ; el director de manufactura tiene un salario un poco mayor que el de los ejecutivos.
Cargo Salud: 604.484 ; el representante de la salud gana más de medio millon en salario que los ejecutivos.
Cargo Gerente: 10.257.397 ; el gerente gana 10 millones de pesos más que los ejectivos
Cargo Representante de Venta: -4.298.279 ;los representantes de venta tienen un salario de menos de 4.2 millones de pesos que los ejecutivos.
Cargo Director Investigación: 9.109.271 ; el director de investigación tiene un salario mayor por 9.1 millones de pesos que los ejecutivos.
Cargo Recursos Humanos: -2.688.529 ; el cargo de recursos humanos tiene un salario inferior por 2.6 millones que los ejecutivos
ELECCIÓN DEL MEJOR MODELO
El mejor modelo de regresión lineal simple es el Modelo 4, que utiliza la variable categórica Cargo. Este modelo explica el 81.61% de la variabilidad del ingreso mensual de los empleados, lo cual representa un poder explicativo considerablemente superior al de los demás modelos evaluados.
Además del buen desempeño estadístico, este modelo refleja de forma coherente la realidad organizacional, ya que el cargo desempeñado en la empresa es un determinante directo del salario. Las diferencias entre los niveles salariales se visualizan fácilmente tomando como referencia un cargo base, lo que permite hacer comparaciones claras y útiles para la toma de decisiones en políticas salariales.
## Resultados del Modelo 4 en validación 80/20:
## MAE (Error Absoluto Medio): 1539468
## RMSE (Raíz del Error Cuadrático Medio): 2020244
El valor del MAE indica que, en promedio, el modelo se equivoca en alrededor de $1.54 millones al predecir el ingreso mensual de un empleado. Por otro lado, el valor RMSE refleja el impacto de outliers o errores extremos.
Es decir, el modelo tiene un desempeño aceptable, pero no perfecto: un error de 1.5 millones puede ser considerable dependiendo de la escala de salarios en la empresa.
Con el objetivo de mejorar el modelo para explicar/predecir el salario de los trabajadores de la empresa, se incorporan otras variables predictoras adicionales.
Ingreso, Cargo, Años Experiencia
##
## Call:
## lm(formula = Ingreso_Mensual ~ Cargo + Años_Experiencia, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4833387 -1064715 -77087 990581 5356385
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4724440 123290 38.320 <2e-16 ***
## CargoInvestigador_Cientifico -3013435 136002 -22.157 <2e-16 ***
## CargoTecnico_Laboratorio -3004470 140427 -21.395 <2e-16 ***
## CargoDirector_Manofactura 36960 166070 0.223 0.824
## CargoRepresentante_Salud 16444 173018 0.095 0.924
## CargoGerente 7592558 212938 35.656 <2e-16 ***
## CargoRepresentante_Ventas -3024787 209445 -14.442 <2e-16 ***
## CargoDirector_Investigación 7068447 220595 32.043 <2e-16 ***
## CargoRecursos_Humanos -2108282 248678 -8.478 <2e-16 ***
## Años_Experiencia 198162 7405 26.760 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1659000 on 1460 degrees of freedom
## Multiple R-squared: 0.8766, Adjusted R-squared: 0.8758
## F-statistic: 1152 on 9 and 1460 DF, p-value: < 2.2e-16
El modelo de regresión lineal múltiple que incorpora las variables Cargo y Años de experiencia muestra un alto nivel de ajuste, con un coeficiente de determinación R² de 0.8766, lo que indica que aproximadamente el 87.66% de la variabilidad en el ingreso mensual de los empleados se explica por estas dos variables. Este valor es considerablemente alto, lo cual refleja que el modelo tiene una excelente capacidad explicativa en el contexto laboral.
En cuanto a los coeficientes, se observa que Años de experiencia tiene un impacto positivo y significativo sobre el ingreso mensual: por cada año adicional, el salario aumenta en promedio $198.162, manteniendo constante el cargo del empleado.
Respecto al tipo de cargo, también se identifican diferencias marcadas y estadísticamente significativas frente al cargo de referencia . Por ejemplo, los empleados en cargos como Investigador Científico, Técnico de Laboratorio, Representante de Ventas y Recursos Humanos perciben ingresos significativamente más bajos que los ejecutivos, con reducciones que oscilan entre 2.1 y 3 millones de pesos. En contraste, cargos como Gerente y Director de Investigación tienen un efecto positivo muy alto sobre el ingreso, con aumentos promedio superiores a 7 millones de pesos. Estos efectos también son altamente significativos, lo que respalda que el cargo desempeñado es una variable crítica en la determinación del salario.
En conjunto, la elevada capacidad explicativa del modelo y la solidez estadística de sus coeficientes hacen que este modelo sea confiable y útil para analizar y predecir el ingreso mensual de los empleados en función de su experiencia y cargo.
Ingreso, Edad, Años_ultima_promoción
##
## Call:
## lm(formula = Ingreso_Mensual ~ Edad + Años_ultima_promoción +
## Departamento + Horas_Extra, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10782720 -2437051 -659367 1615677 13097836
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2996151 436648 -6.862 1e-11 ***
## Edad 229986 11462 20.065 < 2e-16 ***
## Años_ultima_promoción 359849 32494 11.074 < 2e-16 ***
## DepartamentoRH 325806 509107 0.640 0.52230
## DepartamentoVentas 715070 224401 3.187 0.00147 **
## Horas_ExtraSi -39102 226687 -0.172 0.86307
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3913000 on 1464 degrees of freedom
## Multiple R-squared: 0.3117, Adjusted R-squared: 0.3093
## F-statistic: 132.6 on 5 and 1464 DF, p-value: < 2.2e-16
El modelo de regresión lineal que utiliza como variables explicativas la Edad, los Años desde la última promoción, el Departamento y si el empleado realiza Horas Extra, muestra un ajuste moderado. El coeficiente de determinación R² es de 0.3117, lo cual indica que aproximadamente el 31.17% de la variación en los ingresos mensuales se explica por este conjunto de variables. Aunque el modelo es estadísticamente significativo en conjunto (p < 2.2e-16), su capacidad explicativa es limitada, lo que sugiere que hay otros factores relevantes que no están siendo considerados.
En cuanto a los coeficientes individuales, la variable Edad muestra una relación positiva y significativa con el ingreso: por cada año adicional de edad, el salario mensual aumenta en promedio 229.986, lo cual es altamente significativo. De manera similar, los Años desde la última promoción también tienen un efecto positivo: por cada año adicional sin promoción, el ingreso aumenta en promedio $359.849, con un nivel de significancia igualmente alto. Esto puede sugerir que los empleados más antiguos o con más permanencia en su cargo tienen salarios más altos.
En contraste, algunas variables no resultan estadísticamente significativas. Por ejemplo, pertenecer al Departamento de Recursos Humanos no tiene un efecto claro sobre el ingreso (p = 0.522), y realizar Horas Extra tampoco parece tener un impacto relevante (p = 0.86). Por otro lado, estar en el Departamento de Ventas sí se asocia a un aumento en el ingreso mensual de aproximadamente $715.070, y esta relación es significativa (p < 0.01).
Ingreso, Años_Experiencia, Edad, Años_ultima_promoción, Departamento, Horas_Extra, Cargo
##
## Call:
## lm(formula = Ingreso_Mensual ~ Edad + Años_ultima_promoción +
## Departamento + Horas_Extra + Cargo + Años_Experiencia, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5018672 -1094580 -77005 972902 5508220
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5440417 416830 13.052 < 2e-16 ***
## Edad -8260 6497 -1.271 0.2038
## Años_ultima_promoción 40004 14838 2.696 0.0071 **
## DepartamentoRH 165944 549031 0.302 0.7625
## DepartamentoVentas -542636 354402 -1.531 0.1260
## Horas_ExtraSi 91999 96084 0.957 0.3385
## CargoInvestigador_Cientifico -3541249 378849 -9.347 < 2e-16 ***
## CargoTecnico_Laboratorio -3521431 380482 -9.255 < 2e-16 ***
## CargoDirector_Manofactura -478398 392465 -1.219 0.2231
## CargoRepresentante_Salud -522380 395078 -1.322 0.1863
## CargoGerente 7212074 306670 23.517 < 2e-16 ***
## CargoRepresentante_Ventas -3018657 209096 -14.437 < 2e-16 ***
## CargoDirector_Investigación 6551466 421663 15.537 < 2e-16 ***
## CargoRecursos_Humanos -2774759 620681 -4.471 8.41e-06 ***
## Años_Experiencia 198651 9577 20.742 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1654000 on 1455 degrees of freedom
## Multiple R-squared: 0.8777, Adjusted R-squared: 0.8766
## F-statistic: 746.1 on 14 and 1455 DF, p-value: < 2.2e-16
En este modelo se utilizan todas las variables que se han seleccionado para el taller, se puede evidenciar distintas variables con una significancia importante, mientras que otras variables no aportan casi nada al modelo.
## Start: AIC=42112.03
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Departamento +
## Horas_Extra + Cargo + Años_Experiencia
##
## Df Sum of Sq RSS AIC
## - Departamento 2 7.9065e+12 3.9887e+15 42111
## - Horas_Extra 1 2.5082e+12 3.9833e+15 42111
## - Edad 1 4.4218e+12 3.9852e+15 42112
## <none> 3.9808e+15 42112
## - Años_ultima_promoción 1 1.9886e+13 4.0007e+15 42117
## - Años_Experiencia 1 1.1771e+15 5.1579e+15 42491
## - Cargo 8 8.8681e+15 1.2849e+16 43819
##
## Step: AIC=42110.95
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Horas_Extra +
## Cargo + Años_Experiencia
##
## Df Sum of Sq RSS AIC
## - Horas_Extra 1 2.5338e+12 3.9912e+15 42110
## - Edad 1 4.3036e+12 3.9930e+15 42111
## <none> 3.9887e+15 42111
## - Años_ultima_promoción 1 2.1317e+13 4.0100e+15 42117
## - Años_Experiencia 1 1.1781e+15 5.1668e+15 42489
## - Cargo 8 9.0405e+15 1.3029e+16 43835
##
## Step: AIC=42109.88
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Cargo + Años_Experiencia
##
## Df Sum of Sq RSS AIC
## - Edad 1 4.1463e+12 3.9954e+15 42109
## <none> 3.9912e+15 42110
## - Años_ultima_promoción 1 2.1069e+13 4.0123e+15 42116
## - Años_Experiencia 1 1.1794e+15 5.1706e+15 42488
## - Cargo 8 9.0382e+15 1.3029e+16 43833
##
## Step: AIC=42109.41
## Ingreso_Mensual ~ Años_ultima_promoción + Cargo + Años_Experiencia
##
## Df Sum of Sq RSS AIC
## <none> 3.9954e+15 42109
## - Años_ultima_promoción 1 2.2957e+13 4.0183e+15 42116
## - Años_Experiencia 1 1.6653e+15 5.6606e+15 42620
## - Cargo 8 9.0745e+15 1.3070e+16 43836
##
## Call:
## lm(formula = Ingreso_Mensual ~ Años_ultima_promoción + Cargo +
## Años_Experiencia, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4576898 -1092336 -77871 977260 5416205
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4694627 123410 38.041 < 2e-16 ***
## Años_ultima_promoción 42660 14734 2.895 0.00384 **
## CargoInvestigador_Cientifico -2994955 135810 -22.053 < 2e-16 ***
## CargoTecnico_Laboratorio -2982729 140275 -21.264 < 2e-16 ***
## CargoDirector_Manofactura 64197 165919 0.387 0.69887
## CargoRepresentante_Salud 16127 172582 0.093 0.92556
## CargoGerente 7584651 212419 35.706 < 2e-16 ***
## CargoRepresentante_Ventas -3008124 208996 -14.393 < 2e-16 ***
## CargoDirector_Investigación 7109140 220488 32.243 < 2e-16 ***
## CargoRecursos_Humanos -2076526 248294 -8.363 < 2e-16 ***
## Años_Experiencia 191299 7758 24.660 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1655000 on 1459 degrees of freedom
## Multiple R-squared: 0.8773, Adjusted R-squared: 0.8765
## F-statistic: 1043 on 10 and 1459 DF, p-value: < 2.2e-16
Las variables que llevan al menor AIC serian:
Años_ultima_promoción
Cargo
Años_Experiencia
Por medio del análisis del valor AIC se elige el modelo que poseea el valor mínimo de AIC, lo cual corresponde a la combinación de las variables anteriores.
R² = 0.8773: El modelo explica aproximadamente el 87.73% de la variabilidad en el ingreso, utilizando estas tres variables.
1. Residuos vs Ajustados (arriba izquierda) El gráfico
de Residuos vs Ajustados muestra una dispersión que no es completamente
aleatoria; se percibe un patrón en forma de banda horizontal irregular y
cierta curvatura, lo cual indica que la relación entre las variables
independientes y la variable dependiente no está siendo completamente
captada por el modelo. Esto sugiere posibles problemas de linealidad o
una mala especificación del modelo, y podría indicar que se requiere una
transformación de alguna variable o la inclusión de términos adicionales
como interacciones o polinomios.
Esto sugiere que el modelo no capta bien la relación funcional entre las variables. Podría haber una no linealidad o variables omitidas.
2. Q-Q Plot (arriba derecha) Aunque muchos puntos se alinean sobre la recta diagonal teórica, hay una desviación significativa en los extremos, lo que indica que los residuos no siguen perfectamente una distribución normal. Esta desviación, aunque no excesiva, podría afectar la validez de las pruebas de hipótesis asociadas al modelo, especialmente si se requiere inferencia precisa sobre los coeficientes.
3. Scale-Location (abajo izquierda) Se observa que la línea roja sigue una tendencia ascendente. Además, los puntos se dispersan con distinta amplitud en diferentes niveles de los valores ajustados. Esto es evidencia clara de heterocedasticidad, es decir, de que los residuos no tienen varianza constante, lo cual es una violación importante del supuesto clásico del modelo de regresión lineal. Esta situación puede llevar a estimaciones ineficientes y errores estándar incorrectos.
Esto sugiere la presencia de heterocedasticidad (varianza no constante). Este es un problema más serio porque afecta la eficiencia de los estimadores y la validez de los errores estándar.
4. Residuos vs Leverage (abajo derecha) Si bien no se observan puntos que superen claramente los umbrales de la distancia de Cook, sí hay observaciones con valores altos de leverage combinados con residuos grandes. Estos puntos deben revisarse, ya que podrían estar ejerciendo una influencia desproporcionada en la estimación de los coeficientes del modelo.
Conclusión general En conclusión, el modelo lineal presenta problemas importantes de heterocedasticidad y posibles desviaciones respecto a la linealidad y normalidad. Aunque las observaciones influyentes no son críticas, se recomienda tomar medidas correctivas.
Se aplica una transformación logarítmica a la variable dependiente debido a su distribución asimétrica y alta varianza.
##
## Call:
## lm(formula = log(Ingreso_Mensual) ~ Cargo + Años_ultima_promoción +
## Años_Experiencia, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.91488 -0.19038 -0.00349 0.19258 0.95634
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.373265 0.020966 733.244 <2e-16 ***
## CargoInvestigador_Cientifico -0.667487 0.023073 -28.930 <2e-16 ***
## CargoTecnico_Laboratorio -0.663888 0.023831 -27.858 <2e-16 ***
## CargoDirector_Manofactura -0.002289 0.028188 -0.081 0.9353
## CargoRepresentante_Salud -0.003648 0.029320 -0.124 0.9010
## CargoGerente 0.563032 0.036088 15.602 <2e-16 ***
## CargoRepresentante_Ventas -0.777855 0.035506 -21.907 <2e-16 ***
## CargoDirector_Investigación 0.585132 0.037459 15.621 <2e-16 ***
## CargoRecursos_Humanos -0.487567 0.042183 -11.558 <2e-16 ***
## Años_ultima_promoción 0.005645 0.002503 2.255 0.0243 *
## Años_Experiencia 0.027929 0.001318 21.191 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2811 on 1459 degrees of freedom
## Multiple R-squared: 0.8222, Adjusted R-squared: 0.821
## F-statistic: 674.7 on 10 and 1459 DF, p-value: < 2.2e-16
Se ha aplicado el logaritmo para verificar los supuestos.
Validación
1. Residuos vs Ajustados (arriba izquierda) El gráfico
de Residuos vs Ajustados muestra que los residuos están distribuidos de
forma más simétrica y centrada alrededor de cero en comparación con el
gráfico anterior. No se observa una tendencia clara o patrón
sistemático, lo cual sugiere que la relación entre las variables
independientes y la variable dependiente es razonablemente lineal.
2. Q-Q Plot (arriba derecha) El Q-Q Plot revela que los residuos están bastante bien alineados con la línea teórica de distribución normal, especialmente en la parte central de la distribución. Solo en los extremos se observan pequeñas desviaciones, lo cual indica que el supuesto de normalidad de los residuos es mayormente válido. Esto mejora la confianza en la validez de los intervalos de confianza y las pruebas de significancia realizadas con el modelo.
3. Scale-Location (abajo izquierda) Los residuos se encuentran distribuidos de manera más uniforme en todo el rango de valores ajustados. La línea roja no muestra una pendiente clara ni una curvatura marcada, lo que indica que la varianza de los residuos es aproximadamente constante (homocedasticidad). Esto es una mejora significativa respecto a la versión anterior del modelo y fortalece la validez de los errores estándar estimados.
4. Residuos vs Leverage (abajo derecha) Finalmente, el gráfico de Residuos vs Leverage permite identificar observaciones influyentes. Aunque se identifican algunos puntos con alta influencia, estos se encuentran por debajo del umbral de preocupación definido por la distancia de Cook. En general, no parece haber observaciones que ejerzan una influencia desproporcionada en el ajuste del modelo, lo que indica robustez ante valores atípicos o influyentes.
Conclusión general En conclusión, el modelo ajustado después de aplicar una transformación logarítmica u otra corrección presenta mejoras notables en los supuestos fundamentales de la regresión lineal. Se observa una relación más lineal, residuos aproximadamente normales, homocedasticidad y ausencia de observaciones altamente influyentes. Esto indica que el modelo es más confiable y adecuado para inferencia estadística y predicción.
Al comparar los modelos “modeloF” y el “modelo_log” se puede determinar cual es el mejor modelo. El modelo original presenta un R² ajustado de 0.8765, mientras que el modelo logarítmico tiene un R² ajustado de 0.821. Esto sugiere que el modelo original explica una mayor proporción de la varianza del ingreso mensual en su escala original. Sin embargo, esta métrica debe interpretarse con precaución, ya que el modelo transformado opera en una escala logarítmica, por lo que las medidas de ajuste no son directamente comparables. A pesar de menor R² ajustado, el modelo logarítmico tiende a tener menor MAE al suavizar el efecto de los outliers y estabilizar la varianza, lo que mejora la precisión predictiva.
En términos de significancia estadística, ambos modelos muestran que la mayoría de los coeficientes son altamente significativos, excepto para los cargos “Director de Manufactura” y “Representante de Salud”, que no son significativos en ninguno de los dos modelos. Esto indica que la transformación no alteró sustancialmente la relevancia estadística de las variables.
Respecto a los errores residuales, el modelo original tiene una desviación estándar residual de 1.655.000, con valores extremos que superan los 5 millones, lo que indica una alta variabilidad y posibles problemas de heterocedasticidad y no normalidad de errores. Por el contrario, el modelo modelo_log tiene una desviación estándar residual de 0.2811 (en escala logarítmica), con residuos más centrados y mejor comportamiento según los gráficos diagnósticos analizados anteriormente. Esto sugiere que la transformación mejoró la homocedasticidad y la normalidad de los errores, cumpliendo mejor los supuestos del modelo lineal clásico.
Se recomienda utilizar el modelo transformado (modelo_log), ya que, aunque el R² ajustado es ligeramente inferior, ofrece un mejor cumplimiento de los supuestos de regresión lineal, reduce la influencia de valores atípicos, y presenta errores más uniformes. Esto proporciona mayor robustez para fines de predicción y análisis inferencial.
Se realizaran tres modelos de predicción hipotéticas:
1. Cargo: Gerente ; Años Última Promoción: 2 ; Años Experiencia: 15
## 1
## 12819975
Según el modelo, un empleado con cargo de Gerente, que fue promovido hace 2 años y tiene 15 años de experiencia, tendría un ingreso mensual estimado de aproximadamente $12.82 millones de pesos. Se refleja que el modelo capta bien la estructura salarial, ya que el coeficiente para “Gerente” en el modelo era positivo y significativo.
2. Cargo: Técnico_Laboratorio ; Años Última Promoción: 5 ; Años Experiencia: 8
## 1
## 3144069
Esta predicción indica que un empleado con cargo de Técnico de Laboratorio, con 5 años desde su última promoción y 8 años de experiencia, tiene un ingreso mensual estimado de aproximadamente $3.14 millones de pesos.
3. Cargo: Representante_Ventas ; Años Última Promoción: 3 ; Años Experiencia: 10
## 1
## 2933274
Este valor indica que un Representante de Ventas con 3 años desde su última promoción y 10 años de experiencia tendría un ingreso mensual estimado de $2.93 millones de pesos. Esta cifra está dentro de lo esperado dado el siguiente contexto del modelo:
El modelo seleccionado tiene una utilidad práctica considerable en el ámbito organizacional, especialmente dentro de áreas de recursos humanos, planeación financiera y consultoría salarial. Su precisión y capacidad para explicar la variación en el ingreso mensual a partir de variables como el cargo, los años de experiencia y el tiempo desde la última promoción lo convierten en una herramienta estratégica de toma de decisiones.
Utilidad Práctica
Recursos Humanos: permite estructurar escalas salariales más objetivas, equitativas y basadas en datos. Con él, los departamentos de RRHH pueden: definir bandas salariales alineadas con la experiencia y posición del empleado, detectar posibles brechas salariales injustificadas, planificar promociones y aumentos de manera más transparente.
Planeación y presupuesto salarial: Las áreas de finanzas corporativas o gerencia general pueden usar el modelo para prever el impacto presupuestal de contrataciones, promociones o ajustes masivos en la nómina.
Consultoría externa y benchmarking: Empresas de consultoría organizacional pueden aplicar el modelo para hacer estudios de mercado internos o comparar salarios con otras empresas del sector, usando criterios homogéneos.
Sectores: el modelo puede ser útil en cualquier modelo de negocio
En resumen, este modelo ofrece una herramienta poderosa para la toma de decisiones basada en datos, mejora la eficiencia administrativa y contribuye a la equidad organizacional, con un enfoque predictivo y preventivo que puede optimizar la gestión del talento humano y los recursos financieros.