Introducción

En el presente taller se abordará un estudio aplicado de regresión lineal, con el fin de modelar y predecir el Ingreso Mensual de los empleados en una organización, a partir de diversas características personales, profesionales y organizacionales. Este análisis se desarrollará con una base de datos que contiene información de 1.470 empleados y 24 variables, combinando datos cuantitativos y cualitativos.

El enfoque metodológico incluye:

Un análisis exploratorio inicial de las variables.
El desarrollo de modelos de regresión lineal simple, en el cual se evalúa la relación de una sola variable con el ingreso.
Posteriormente, se construirán modelos de regresión lineal múltiple, que combinan varias variables predictoras para mejorar la capacidad explicativa y predictiva del modelo.
Se validarán los modelos mediante pruebas de supuestos y técnicas como la validación cruzada para evaluar su poder predictivo fuera de muestra.

El objetivo central es identificar qué factores influyen significativamente en el salario y hasta qué punto estos pueden ser utilizados para realizar pronósticos. Esta práctica permite fortalecer competencias en análisis de datos, interpretación estadística y toma de decisiones basada en evidencia.

Análisis Exploratorio

Ingreso Mensual

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  1009000  2911000  4919000  6502931  8379000 19999000

## [1] 4707957

Es la variable principal donde vemos que el promedio es 6.502.931 con una desviación de 4.707.957

Años de Experiencia

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    6.00   10.00   11.28   15.00   40.00

## [1] 7.780782

Em promedio los años de experiencia de los empleados de esta empresa son 11.28, con una desviación de 7.78. La experiencia laboral suele estar directamente relacionada con un mayor conocimiento técnico, competencias desarrolladas y antigüedad en el mercado laboral, lo cual justifica mayores niveles salariales.

En otras palabras, esta variable cuantitativa refleja el tiempo total que un empleado ha dedicado al trabajo profesional, independientemente de la empresa en la que se encuentre actualmente. En términos generales, se espera que a mayor experiencia, mayor sea el ingreso, ya que la trayectoria laboral permite acumular habilidades, conocimientos y competencias que suelen valorarse con mejores salarios. Además, la experiencia está ligada a la posibilidad de acceder a puestos de mayor responsabilidad y especialización, los cuales están mejor remunerados.

Edad

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   30.00   36.00   36.92   43.00   60.00

## [1] 9.135373

El promedio de la edad de los empleados es 36.9 años, con una desviación de 9.1 años. Aunque la edad puede asociarse con madurez y trayectoria, en muchos casos su efecto está mediado por la experiencia y el cargo. A partir de cierta edad, el crecimiento salarial puede estabilizarse.

La Edad del empleado también puede influir en su ingreso, aunque de forma más indirecta. A medida que los trabajadores envejecen, suelen acumular tanto experiencia como antigüedad dentro de la organización, lo cual puede darles acceso a mejores condiciones laborales y salariales. Sin embargo, es importante tener en cuenta que la edad por sí sola no garantiza un mayor ingreso; su efecto dependerá de cómo haya sido aprovechado ese tiempo en términos de desarrollo profesional y oportunidades de ascenso.

Años desde la Última Promoción

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   1.000   2.188   3.000  15.000

## [1] 3.22243

En promedio los empleados tienen una promocion cada 2.1 años, con una desviación de 3.22

La variable Años desde la Última Promoción indica cuánto tiempo ha pasado desde que el empleado fue ascendido por última vez. Esta variable puede influir en el ingreso en función de las políticas de compensación de la empresa. Un empleado que fue promovido recientemente probablemente haya recibido un ajuste salarial como parte del ascenso. En cambio, una persona que no ha sido promovida en muchos años podría tener un ingreso más bajo en comparación con otros colegas de nivel similar pero con trayectorias más dinámicas. Esta variable, por tanto, puede ser indicativa del crecimiento profesional reciente y de la política de reconocimiento interno.

Departameto

El Departamento en el cual se desempeña el trabajador. Esta variable cualitativa permite distinguir entre las distintas áreas funcionales dentro de la empresa, como ventas, recursos humanos, tecnología, entre otras. Dependiendo del tipo de actividad, algunos departamentos pueden generar ingresos directamente para la compañía (como ventas), mientras que otros pueden cumplir funciones de soporte. Por ello, es razonable esperar que el ingreso varíe entre departamentos, ya que ciertas áreas pueden ofrecer incentivos adicionales, bonificaciones o comisiones que incrementan el ingreso base.

Horas Extras

La variable Horas Extra hace referencia a si un trabajador ha realizado o no trabajo adicional fuera de su jornada ordinaria. Esta condición puede tener un impacto directo en el ingreso mensual, ya que las horas extra suelen ser remuneradas con un recargo o pueden estar asociadas a mayor carga laboral que, en algunos casos, también implica compensaciones adicionales. Asimismo, trabajar horas extra puede indicar mayor compromiso, responsabilidad o necesidad operativa, lo cual puede estar asociado a un mejor salario, dependiendo de la política interna de la empresa.

Cargo

El Cargo que ocupa el empleado es otra variable cualitativa crítica al momento de analizar los ingresos. Esta variable representa el nivel jerárquico y el tipo de función que el trabajador desempeña dentro de la organización. En la mayoría de las estructuras empresariales, los cargos están asociados a escalas salariales: los empleados en cargos técnicos o de base suelen percibir ingresos más bajos que aquellos en cargos de supervisión, gerencia o dirección. Por tanto, el cargo tiene un peso importante en la determinación del salario y permite segmentar claramente los distintos niveles salariales dentro de la empresa.

Regresión Lineal Simple

Análisis Bivariado

Años de Experiencia e Ingreso Mensual

El gráfico muestra una relación positiva entre los años de experiencia y el ingreso mensual. A medida que aumenta la experiencia laboral, tiende a observarse un incremento en los ingresos, lo cual es coherente con las políticas salariales basadas en la antigüedad o en la acumulación de habilidades y competencias a lo largo del tiempo. La tendencia suavizada evidencia que esta relación no es completamente lineal: el crecimiento en ingresos se estabiliza en niveles altos de experiencia, lo que sugiere que, después de cierto punto, los aumentos salariales podrían disminuir o mantenerse constantes.

Edad e Ingreso Mensual

En esta visualización se aprecia una relación más moderada entre la edad del empleado y su ingreso mensual. Si bien en edades tempranas se ve un crecimiento sostenido del ingreso, la curva comienza a aplanarse en edades medias, indicando que los ingresos podrían estancarse a partir de cierto punto. Esto podría deberse a que muchos trabajadores alcanzan su techo salarial en etapas intermedias de su carrera, o porque promociones y aumentos se vuelven menos frecuentes con el paso del tiempo. La dispersión sugiere que hay otros factores (como el cargo o el departamento) que también juegan un papel importante en determinar los ingresos.

Años desde última promoción e Ingreso mensual

Este gráfico evidencia una tendencia ligeramente inversa entre los años transcurridos desde la última promoción y el ingreso mensual. En general, aquellos empleados que han sido promovidos recientemente tienden a tener ingresos más altos. A medida que aumentan los años desde la última promoción, los ingresos tienden a ser más bajos o a no presentar crecimiento, lo que puede interpretarse como una posible estagnación salarial en ausencia de ascensos. Este patrón respalda la importancia de las promociones internas como mecanismo para incrementar los ingresos de los empleados.

Departemento e Ingreso Mensual

El boxplot revela diferencias notables en el ingreso mensual entre departamentos. Algunos departamentos presentan ingresos más altos y menor dispersión, lo cual podría indicar funciones más especializadas o de mayor jerarquía dentro de la organización. Por otro lado, hay departamentos con ingresos medianos más bajos y gran dispersión, lo que podría reflejar una mayor heterogeneidad de cargos o condiciones contractuales. Esta variable categórica parece tener un impacto estructural en la remuneración, posiblemente ligado al tipo de responsabilidades o al valor estratégico del área.

Cargo e Ingreso Mensual

El análisis por cargo muestra una diferenciación clara en los ingresos mensuales. Cargos de mayor nivel o jerarquía suelen concentrarse en los rangos más altos de ingreso, con menor dispersión, lo que sugiere políticas salariales bien definidas para esos puestos. En contraste, cargos operativos o de menor responsabilidad muestran ingresos más bajos y una mayor variabilidad, lo que puede responder a diferencias en experiencia, horas trabajadas o tipo de contrato. Esta variable tiene un peso muy significativo en la explicación del ingreso mensual, ya que el cargo define directamente el nivel salarial.

Horas Extras e Ingreso Mensual

Este gráfico ilustra cómo el hecho de realizar horas extra se relaciona con el ingreso mensual. Los empleados que realizan horas extra tienden a tener ingresos más altos, lo que es consistente con el pago adicional que se recibe por ese tiempo laboral. La diferencia entre los grupos sugiere que esta variable podría ser un buen predictor del ingreso, aunque también puede estar correlacionada con otros factores, como la carga de trabajo o el tipo de cargo. Aun así, no todos los que hacen horas extra tienen ingresos elevados, lo que indica que el efecto varía según el contexto del empleo.

Modelos de Regresión Lineal

Modelo 1: Ingreso y Edad

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Edad, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -9990056 -2592657  -677908  1810522 12540805 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2970671     443702  -6.695 3.06e-11 ***
## Edad          256572      11665  21.995  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4084000 on 1468 degrees of freedom
## Multiple R-squared:  0.2479, Adjusted R-squared:  0.2473 
## F-statistic: 483.8 on 1 and 1468 DF,  p-value: < 2.2e-16

La variable Edad es una muy importante en relación a los ingresos mensuales de la empresa.

Ingreso = -2.970.671 + 256.572(Edad)

Evaluación del Modelo:

R²: 0.2479; el modelo explica aproximadamente 24.79% de la variabilidad de los ingresos, lo cual no es aceptable para explicar todo el modelo
$B_o$: -2.970.671 -> Esto quiere decir que cuando un empleado es recién nacido su ingreso seria de negativo 2.9 millones
$B_1$: 256.572 -> Por cada año que el empleado obtiene el salario incrementaría aproximadamente en 256.572 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.

Este modelo muestra que la edad tiene una alta importancia en el ingreso del empleado sin embargo se necesitan más variables para explicar el ingreso

Modelo 2: Ingreso y Años Experiencia

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Años_Experiencia, data = data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -11271297  -1750781    -87495   1398604  11539481 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1227935     137299   8.944   <2e-16 ***
## Años_Experiencia   467658      10021  46.669   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2988000 on 1468 degrees of freedom
## Multiple R-squared:  0.5974, Adjusted R-squared:  0.5971 
## F-statistic:  2178 on 1 and 1468 DF,  p-value: < 2.2e-16

La variable Años de experiencia es muy importante y significativa en el modelo.

Ingreso: 1227935 + 467658 (Años_Experiencia)

Evaluación del modelo:

R²: 0.5974; el modelo puede epxlicar en un 59% la variabilidad del ingreso de los empleados de esta compañia.
$B_o$: 1.227.935 -> Esto quiere decir que cuando un empleado tenga su primer empleo, su ingreso seria de 1.2 millones de pesos
$B_1$: 467.658 -> Por cada año laboral que el empleado obtiene el salario incrementaría aproximadamente en 467.658 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.

Este modelo se podria aplicar mejor que el anterior, sin embargo todavia deja muchos vacios.

Modelo 3: Ingreso y Años desde la Ultima Promoción

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Años_ultima_promoción, data = data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -10217442  -3022779  -1294279   1476218  14339721 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            5400279     139370   38.75   <2e-16 ***
## Años_ultima_promoción   504011      35791   14.08   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4420000 on 1468 degrees of freedom
## Multiple R-squared:  0.119,  Adjusted R-squared:  0.1184 
## F-statistic: 198.3 on 1 and 1468 DF,  p-value: < 2.2e-16

La variable Años de experiencia es muy importante y significativa en el modelo.

Ingreso: 1227935 + 467658 (Años_Experiencia)

Evaluación del modelo:

R²: 0.119; el modelo puede epxlicar en un 11.9% la variabilidad del ingreso de los empleados de esta compañia, lo que no podria explicar casi nada.
$B_o$: 5.400.279 -> Esto quiere decir que cuando un empleado tenga su primer cargo, su ingreso seria de 5.4 millones de pesos
$B_1$: 504.011 -> Por cada año cargo laboral que el empleado obtiene, el salario incrementaría aproximadamente en 504.011 pesos
p-Value: < 2.2e-16 , el modelo es estadísticamente significativo.

Modelo 4: Variable Dummy (Ingresos y Departamento)

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Cargo, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -5937676 -1209252  -350986  1165379  6947721 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   6924279     112137  61.748  < 2e-16 ***
## CargoInvestigador_Cientifico -3684306     163137 -22.584  < 2e-16 ***
## CargoTecnico_Laboratorio     -3687109     168530 -21.878  < 2e-16 ***
## CargoDirector_Manofactura      370859     202105   1.835  0.06671 .  
## CargoRepresentante_Salud       604484     209446   2.886  0.00396 ** 
## CargoGerente                 10257397     229706  44.655  < 2e-16 ***
## CargoRepresentante_Ventas    -4298279     248927 -17.267  < 2e-16 ***
## CargoDirector_Investigación   9109271     252620  36.059  < 2e-16 ***
## CargoRecursos_Humanos        -2688529     302339  -8.892  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2025000 on 1461 degrees of freedom
## Multiple R-squared:  0.8161, Adjusted R-squared:  0.8151 
## F-statistic: 810.2 on 8 and 1461 DF,  p-value: < 2.2e-16

Un ejecutivo tiene salario de 6.924.279 en promedio de ingreso

Cargo Investigador Cientifico: -3.684.306 ; este cargo gana 3 millones menos que el cargo de ejecutivo, ademas tiene una gran importancia.
Cargo Tecnico Laboratorio: -3.687.109 ; el tecnico de laboratorio tiene un salario 3.6 millones menor que el de los ejecutivos.
Cargo Director Manufactura: 370.859 ; el director de manufactura tiene un salario un poco mayor que el de los ejecutivos.
Cargo Salud: 604.484 ; el representante de la salud gana más de medio millon en salario que los ejecutivos.
Cargo Gerente: 10.257.397 ; el gerente gana 10 millones de pesos más que los ejectivos
Cargo Representante de Venta: -4.298.279 ;los representantes de venta tienen un salario de menos de 4.2 millones de pesos que los ejecutivos.
Cargo Director Investigación: 9.109.271 ; el director de investigación tiene un salario mayor por 9.1 millones de pesos que los ejecutivos.
Cargo Recursos Humanos: -2.688.529 ; el cargo de recursos humanos tiene un salario inferior por 2.6 millones que los ejecutivos

ELECCIÓN DEL MEJOR MODELO

El mejor modelo de regresión lineal simple es el Modelo 4, que utiliza la variable categórica Cargo. Este modelo explica el 81.61% de la variabilidad del ingreso mensual de los empleados, lo cual representa un poder explicativo considerablemente superior al de los demás modelos evaluados.

Además del buen desempeño estadístico, este modelo refleja de forma coherente la realidad organizacional, ya que el cargo desempeñado en la empresa es un determinante directo del salario. Las diferencias entre los niveles salariales se visualizan fácilmente tomando como referencia un cargo base, lo que permite hacer comparaciones claras y útiles para la toma de decisiones en políticas salariales.

## Resultados del Modelo 4 en validación 80/20:

## MAE (Error Absoluto Medio): 1539468

## RMSE (Raíz del Error Cuadrático Medio): 2020244

El valor del MAE indica que, en promedio, el modelo se equivoca en alrededor de $1.54 millones al predecir el ingreso mensual de un empleado. Por otro lado, el valor RMSE refleja el impacto de outliers o errores extremos.

Es decir, el modelo tiene un desempeño aceptable, pero no perfecto: un error de 1.5 millones puede ser considerable dependiendo de la escala de salarios en la empresa.

Regresión Linal Múltiple

Con el objetivo de mejorar el modelo para explicar/predecir el salario de los trabajadores de la empresa, se incorporan otras variables predictoras adicionales.

Ingreso, Cargo, Años Experiencia

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Cargo + Años_Experiencia, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -4833387 -1064715   -77087   990581  5356385 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   4724440     123290  38.320   <2e-16 ***
## CargoInvestigador_Cientifico -3013435     136002 -22.157   <2e-16 ***
## CargoTecnico_Laboratorio     -3004470     140427 -21.395   <2e-16 ***
## CargoDirector_Manofactura       36960     166070   0.223    0.824    
## CargoRepresentante_Salud        16444     173018   0.095    0.924    
## CargoGerente                  7592558     212938  35.656   <2e-16 ***
## CargoRepresentante_Ventas    -3024787     209445 -14.442   <2e-16 ***
## CargoDirector_Investigación   7068447     220595  32.043   <2e-16 ***
## CargoRecursos_Humanos        -2108282     248678  -8.478   <2e-16 ***
## Años_Experiencia               198162       7405  26.760   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1659000 on 1460 degrees of freedom
## Multiple R-squared:  0.8766, Adjusted R-squared:  0.8758 
## F-statistic:  1152 on 9 and 1460 DF,  p-value: < 2.2e-16

El modelo de regresión lineal múltiple que incorpora las variables Cargo y Años de experiencia muestra un alto nivel de ajuste, con un coeficiente de determinación R² de 0.8766, lo que indica que aproximadamente el 87.66% de la variabilidad en el ingreso mensual de los empleados se explica por estas dos variables. Este valor es considerablemente alto, lo cual refleja que el modelo tiene una excelente capacidad explicativa en el contexto laboral.

En cuanto a los coeficientes, se observa que Años de experiencia tiene un impacto positivo y significativo sobre el ingreso mensual: por cada año adicional, el salario aumenta en promedio $198.162, manteniendo constante el cargo del empleado.

Respecto al tipo de cargo, también se identifican diferencias marcadas y estadísticamente significativas frente al cargo de referencia . Por ejemplo, los empleados en cargos como Investigador Científico, Técnico de Laboratorio, Representante de Ventas y Recursos Humanos perciben ingresos significativamente más bajos que los ejecutivos, con reducciones que oscilan entre 2.1 y 3 millones de pesos. En contraste, cargos como Gerente y Director de Investigación tienen un efecto positivo muy alto sobre el ingreso, con aumentos promedio superiores a 7 millones de pesos. Estos efectos también son altamente significativos, lo que respalda que el cargo desempeñado es una variable crítica en la determinación del salario.

En conjunto, la elevada capacidad explicativa del modelo y la solidez estadística de sus coeficientes hacen que este modelo sea confiable y útil para analizar y predecir el ingreso mensual de los empleados en función de su experiencia y cargo.

Ingreso, Edad, Años_ultima_promoción

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Edad + Años_ultima_promoción + 
##     Departamento + Horas_Extra, data = data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -10782720  -2437051   -659367   1615677  13097836 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -2996151     436648  -6.862    1e-11 ***
## Edad                    229986      11462  20.065  < 2e-16 ***
## Años_ultima_promoción   359849      32494  11.074  < 2e-16 ***
## DepartamentoRH          325806     509107   0.640  0.52230    
## DepartamentoVentas      715070     224401   3.187  0.00147 ** 
## Horas_ExtraSi           -39102     226687  -0.172  0.86307    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3913000 on 1464 degrees of freedom
## Multiple R-squared:  0.3117, Adjusted R-squared:  0.3093 
## F-statistic: 132.6 on 5 and 1464 DF,  p-value: < 2.2e-16

El modelo de regresión lineal que utiliza como variables explicativas la Edad, los Años desde la última promoción, el Departamento y si el empleado realiza Horas Extra, muestra un ajuste moderado. El coeficiente de determinación R² es de 0.3117, lo cual indica que aproximadamente el 31.17% de la variación en los ingresos mensuales se explica por este conjunto de variables. Aunque el modelo es estadísticamente significativo en conjunto (p < 2.2e-16), su capacidad explicativa es limitada, lo que sugiere que hay otros factores relevantes que no están siendo considerados.

En cuanto a los coeficientes individuales, la variable Edad muestra una relación positiva y significativa con el ingreso: por cada año adicional de edad, el salario mensual aumenta en promedio 229.986, lo cual es altamente significativo. De manera similar, los Años desde la última promoción también tienen un efecto positivo: por cada año adicional sin promoción, el ingreso aumenta en promedio $359.849, con un nivel de significancia igualmente alto. Esto puede sugerir que los empleados más antiguos o con más permanencia en su cargo tienen salarios más altos.

En contraste, algunas variables no resultan estadísticamente significativas. Por ejemplo, pertenecer al Departamento de Recursos Humanos no tiene un efecto claro sobre el ingreso (p = 0.522), y realizar Horas Extra tampoco parece tener un impacto relevante (p = 0.86). Por otro lado, estar en el Departamento de Ventas sí se asocia a un aumento en el ingreso mensual de aproximadamente $715.070, y esta relación es significativa (p < 0.01).

Ingreso, Años_Experiencia, Edad, Años_ultima_promoción, Departamento, Horas_Extra, Cargo

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Edad + Años_ultima_promoción + 
##     Departamento + Horas_Extra + Cargo + Años_Experiencia, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -5018672 -1094580   -77005   972902  5508220 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   5440417     416830  13.052  < 2e-16 ***
## Edad                            -8260       6497  -1.271   0.2038    
## Años_ultima_promoción           40004      14838   2.696   0.0071 ** 
## DepartamentoRH                 165944     549031   0.302   0.7625    
## DepartamentoVentas            -542636     354402  -1.531   0.1260    
## Horas_ExtraSi                   91999      96084   0.957   0.3385    
## CargoInvestigador_Cientifico -3541249     378849  -9.347  < 2e-16 ***
## CargoTecnico_Laboratorio     -3521431     380482  -9.255  < 2e-16 ***
## CargoDirector_Manofactura     -478398     392465  -1.219   0.2231    
## CargoRepresentante_Salud      -522380     395078  -1.322   0.1863    
## CargoGerente                  7212074     306670  23.517  < 2e-16 ***
## CargoRepresentante_Ventas    -3018657     209096 -14.437  < 2e-16 ***
## CargoDirector_Investigación   6551466     421663  15.537  < 2e-16 ***
## CargoRecursos_Humanos        -2774759     620681  -4.471 8.41e-06 ***
## Años_Experiencia               198651       9577  20.742  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1654000 on 1455 degrees of freedom
## Multiple R-squared:  0.8777, Adjusted R-squared:  0.8766 
## F-statistic: 746.1 on 14 and 1455 DF,  p-value: < 2.2e-16

En este modelo se utilizan todas las variables que se han seleccionado para el taller, se puede evidenciar distintas variables con una significancia importante, mientras que otras variables no aportan casi nada al modelo.

Selección de Variables

## Start:  AIC=42112.03
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Departamento + 
##     Horas_Extra + Cargo + Años_Experiencia
## 
##                         Df  Sum of Sq        RSS   AIC
## - Departamento           2 7.9065e+12 3.9887e+15 42111
## - Horas_Extra            1 2.5082e+12 3.9833e+15 42111
## - Edad                   1 4.4218e+12 3.9852e+15 42112
## <none>                                3.9808e+15 42112
## - Años_ultima_promoción  1 1.9886e+13 4.0007e+15 42117
## - Años_Experiencia       1 1.1771e+15 5.1579e+15 42491
## - Cargo                  8 8.8681e+15 1.2849e+16 43819
## 
## Step:  AIC=42110.95
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Horas_Extra + 
##     Cargo + Años_Experiencia
## 
##                         Df  Sum of Sq        RSS   AIC
## - Horas_Extra            1 2.5338e+12 3.9912e+15 42110
## - Edad                   1 4.3036e+12 3.9930e+15 42111
## <none>                                3.9887e+15 42111
## - Años_ultima_promoción  1 2.1317e+13 4.0100e+15 42117
## - Años_Experiencia       1 1.1781e+15 5.1668e+15 42489
## - Cargo                  8 9.0405e+15 1.3029e+16 43835
## 
## Step:  AIC=42109.88
## Ingreso_Mensual ~ Edad + Años_ultima_promoción + Cargo + Años_Experiencia
## 
##                         Df  Sum of Sq        RSS   AIC
## - Edad                   1 4.1463e+12 3.9954e+15 42109
## <none>                                3.9912e+15 42110
## - Años_ultima_promoción  1 2.1069e+13 4.0123e+15 42116
## - Años_Experiencia       1 1.1794e+15 5.1706e+15 42488
## - Cargo                  8 9.0382e+15 1.3029e+16 43833
## 
## Step:  AIC=42109.41
## Ingreso_Mensual ~ Años_ultima_promoción + Cargo + Años_Experiencia
## 
##                         Df  Sum of Sq        RSS   AIC
## <none>                                3.9954e+15 42109
## - Años_ultima_promoción  1 2.2957e+13 4.0183e+15 42116
## - Años_Experiencia       1 1.6653e+15 5.6606e+15 42620
## - Cargo                  8 9.0745e+15 1.3070e+16 43836

## 
## Call:
## lm(formula = Ingreso_Mensual ~ Años_ultima_promoción + Cargo + 
##     Años_Experiencia, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -4576898 -1092336   -77871   977260  5416205 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   4694627     123410  38.041  < 2e-16 ***
## Años_ultima_promoción           42660      14734   2.895  0.00384 ** 
## CargoInvestigador_Cientifico -2994955     135810 -22.053  < 2e-16 ***
## CargoTecnico_Laboratorio     -2982729     140275 -21.264  < 2e-16 ***
## CargoDirector_Manofactura       64197     165919   0.387  0.69887    
## CargoRepresentante_Salud        16127     172582   0.093  0.92556    
## CargoGerente                  7584651     212419  35.706  < 2e-16 ***
## CargoRepresentante_Ventas    -3008124     208996 -14.393  < 2e-16 ***
## CargoDirector_Investigación   7109140     220488  32.243  < 2e-16 ***
## CargoRecursos_Humanos        -2076526     248294  -8.363  < 2e-16 ***
## Años_Experiencia               191299       7758  24.660  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1655000 on 1459 degrees of freedom
## Multiple R-squared:  0.8773, Adjusted R-squared:  0.8765 
## F-statistic:  1043 on 10 and 1459 DF,  p-value: < 2.2e-16

Las variables que llevan al menor AIC serian:

Años_ultima_promoción
Cargo
Años_Experiencia

Por medio del análisis del valor AIC se elige el modelo que poseea el valor mínimo de AIC, lo cual corresponde a la combinación de las variables anteriores.

R² = 0.8773: El modelo explica aproximadamente el 87.73% de la variabilidad en el ingreso, utilizando estas tres variables.

Validación de Supuestos

1. Residuos vs Ajustados (arriba izquierda) El gráfico de Residuos vs Ajustados muestra una dispersión que no es completamente aleatoria; se percibe un patrón en forma de banda horizontal irregular y cierta curvatura, lo cual indica que la relación entre las variables independientes y la variable dependiente no está siendo completamente captada por el modelo. Esto sugiere posibles problemas de linealidad o una mala especificación del modelo, y podría indicar que se requiere una transformación de alguna variable o la inclusión de términos adicionales como interacciones o polinomios.

Esto sugiere que el modelo no capta bien la relación funcional entre las variables. Podría haber una no linealidad o variables omitidas.

2. Q-Q Plot (arriba derecha) Aunque muchos puntos se alinean sobre la recta diagonal teórica, hay una desviación significativa en los extremos, lo que indica que los residuos no siguen perfectamente una distribución normal. Esta desviación, aunque no excesiva, podría afectar la validez de las pruebas de hipótesis asociadas al modelo, especialmente si se requiere inferencia precisa sobre los coeficientes.

3. Scale-Location (abajo izquierda) Se observa que la línea roja sigue una tendencia ascendente. Además, los puntos se dispersan con distinta amplitud en diferentes niveles de los valores ajustados. Esto es evidencia clara de heterocedasticidad, es decir, de que los residuos no tienen varianza constante, lo cual es una violación importante del supuesto clásico del modelo de regresión lineal. Esta situación puede llevar a estimaciones ineficientes y errores estándar incorrectos.

Esto sugiere la presencia de heterocedasticidad (varianza no constante). Este es un problema más serio porque afecta la eficiencia de los estimadores y la validez de los errores estándar.

4. Residuos vs Leverage (abajo derecha) Si bien no se observan puntos que superen claramente los umbrales de la distancia de Cook, sí hay observaciones con valores altos de leverage combinados con residuos grandes. Estos puntos deben revisarse, ya que podrían estar ejerciendo una influencia desproporcionada en la estimación de los coeficientes del modelo.

Conclusión general En conclusión, el modelo lineal presenta problemas importantes de heterocedasticidad y posibles desviaciones respecto a la linealidad y normalidad. Aunque las observaciones influyentes no son críticas, se recomienda tomar medidas correctivas.

Transformación

Se aplica una transformación logarítmica a la variable dependiente debido a su distribución asimétrica y alta varianza.

## 
## Call:
## lm(formula = log(Ingreso_Mensual) ~ Cargo + Años_ultima_promoción + 
##     Años_Experiencia, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.91488 -0.19038 -0.00349  0.19258  0.95634 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  15.373265   0.020966 733.244   <2e-16 ***
## CargoInvestigador_Cientifico -0.667487   0.023073 -28.930   <2e-16 ***
## CargoTecnico_Laboratorio     -0.663888   0.023831 -27.858   <2e-16 ***
## CargoDirector_Manofactura    -0.002289   0.028188  -0.081   0.9353    
## CargoRepresentante_Salud     -0.003648   0.029320  -0.124   0.9010    
## CargoGerente                  0.563032   0.036088  15.602   <2e-16 ***
## CargoRepresentante_Ventas    -0.777855   0.035506 -21.907   <2e-16 ***
## CargoDirector_Investigación   0.585132   0.037459  15.621   <2e-16 ***
## CargoRecursos_Humanos        -0.487567   0.042183 -11.558   <2e-16 ***
## Años_ultima_promoción         0.005645   0.002503   2.255   0.0243 *  
## Años_Experiencia              0.027929   0.001318  21.191   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2811 on 1459 degrees of freedom
## Multiple R-squared:  0.8222, Adjusted R-squared:  0.821 
## F-statistic: 674.7 on 10 and 1459 DF,  p-value: < 2.2e-16

Se ha aplicado el logaritmo para verificar los supuestos.

Validación

1. Residuos vs Ajustados (arriba izquierda) El gráfico de Residuos vs Ajustados muestra que los residuos están distribuidos de forma más simétrica y centrada alrededor de cero en comparación con el gráfico anterior. No se observa una tendencia clara o patrón sistemático, lo cual sugiere que la relación entre las variables independientes y la variable dependiente es razonablemente lineal.

2. Q-Q Plot (arriba derecha) El Q-Q Plot revela que los residuos están bastante bien alineados con la línea teórica de distribución normal, especialmente en la parte central de la distribución. Solo en los extremos se observan pequeñas desviaciones, lo cual indica que el supuesto de normalidad de los residuos es mayormente válido. Esto mejora la confianza en la validez de los intervalos de confianza y las pruebas de significancia realizadas con el modelo.

3. Scale-Location (abajo izquierda) Los residuos se encuentran distribuidos de manera más uniforme en todo el rango de valores ajustados. La línea roja no muestra una pendiente clara ni una curvatura marcada, lo que indica que la varianza de los residuos es aproximadamente constante (homocedasticidad). Esto es una mejora significativa respecto a la versión anterior del modelo y fortalece la validez de los errores estándar estimados.

4. Residuos vs Leverage (abajo derecha) Finalmente, el gráfico de Residuos vs Leverage permite identificar observaciones influyentes. Aunque se identifican algunos puntos con alta influencia, estos se encuentran por debajo del umbral de preocupación definido por la distancia de Cook. En general, no parece haber observaciones que ejerzan una influencia desproporcionada en el ajuste del modelo, lo que indica robustez ante valores atípicos o influyentes.

Conclusión general En conclusión, el modelo ajustado después de aplicar una transformación logarítmica u otra corrección presenta mejoras notables en los supuestos fundamentales de la regresión lineal. Se observa una relación más lineal, residuos aproximadamente normales, homocedasticidad y ausencia de observaciones altamente influyentes. Esto indica que el modelo es más confiable y adecuado para inferencia estadística y predicción.

Comparación entre los modelos

Al comparar los modelos “modeloF” y el “modelo_log” se puede determinar cual es el mejor modelo. El modelo original presenta un R² ajustado de 0.8765, mientras que el modelo logarítmico tiene un R² ajustado de 0.821. Esto sugiere que el modelo original explica una mayor proporción de la varianza del ingreso mensual en su escala original. Sin embargo, esta métrica debe interpretarse con precaución, ya que el modelo transformado opera en una escala logarítmica, por lo que las medidas de ajuste no son directamente comparables. A pesar de menor R² ajustado, el modelo logarítmico tiende a tener menor MAE al suavizar el efecto de los outliers y estabilizar la varianza, lo que mejora la precisión predictiva.

En términos de significancia estadística, ambos modelos muestran que la mayoría de los coeficientes son altamente significativos, excepto para los cargos “Director de Manufactura” y “Representante de Salud”, que no son significativos en ninguno de los dos modelos. Esto indica que la transformación no alteró sustancialmente la relevancia estadística de las variables.

Respecto a los errores residuales, el modelo original tiene una desviación estándar residual de 1.655.000, con valores extremos que superan los 5 millones, lo que indica una alta variabilidad y posibles problemas de heterocedasticidad y no normalidad de errores. Por el contrario, el modelo modelo_log tiene una desviación estándar residual de 0.2811 (en escala logarítmica), con residuos más centrados y mejor comportamiento según los gráficos diagnósticos analizados anteriormente. Esto sugiere que la transformación mejoró la homocedasticidad y la normalidad de los errores, cumpliendo mejor los supuestos del modelo lineal clásico.

Se recomienda utilizar el modelo transformado (modelo_log), ya que, aunque el R² ajustado es ligeramente inferior, ofrece un mejor cumplimiento de los supuestos de regresión lineal, reduce la influencia de valores atípicos, y presenta errores más uniformes. Esto proporciona mayor robustez para fines de predicción y análisis inferencial.

Predicción del Mejor Modelo

Se realizaran tres modelos de predicción hipotéticas:

1. Cargo: Gerente ; Años Última Promoción: 2 ; Años Experiencia: 15

##        1 
## 12819975

Según el modelo, un empleado con cargo de Gerente, que fue promovido hace 2 años y tiene 15 años de experiencia, tendría un ingreso mensual estimado de aproximadamente $12.82 millones de pesos. Se refleja que el modelo capta bien la estructura salarial, ya que el coeficiente para “Gerente” en el modelo era positivo y significativo.

2. Cargo: Técnico_Laboratorio ; Años Última Promoción: 5 ; Años Experiencia: 8

##       1 
## 3144069

Esta predicción indica que un empleado con cargo de Técnico de Laboratorio, con 5 años desde su última promoción y 8 años de experiencia, tiene un ingreso mensual estimado de aproximadamente $3.14 millones de pesos.

3. Cargo: Representante_Ventas ; Años Última Promoción: 3 ; Años Experiencia: 10

##       1 
## 2933274

Este valor indica que un Representante de Ventas con 3 años desde su última promoción y 10 años de experiencia tendría un ingreso mensual estimado de $2.93 millones de pesos. Esta cifra está dentro de lo esperado dado el siguiente contexto del modelo:

UTILIDAD PRACTICA DEL MODELO

El modelo seleccionado tiene una utilidad práctica considerable en el ámbito organizacional, especialmente dentro de áreas de recursos humanos, planeación financiera y consultoría salarial. Su precisión y capacidad para explicar la variación en el ingreso mensual a partir de variables como el cargo, los años de experiencia y el tiempo desde la última promoción lo convierten en una herramienta estratégica de toma de decisiones.

Utilidad Práctica

Recursos Humanos: permite estructurar escalas salariales más objetivas, equitativas y basadas en datos. Con él, los departamentos de RRHH pueden: definir bandas salariales alineadas con la experiencia y posición del empleado, detectar posibles brechas salariales injustificadas, planificar promociones y aumentos de manera más transparente.
Planeación y presupuesto salarial: Las áreas de finanzas corporativas o gerencia general pueden usar el modelo para prever el impacto presupuestal de contrataciones, promociones o ajustes masivos en la nómina.
Consultoría externa y benchmarking: Empresas de consultoría organizacional pueden aplicar el modelo para hacer estudios de mercado internos o comparar salarios con otras empresas del sector, usando criterios homogéneos.
Sectores: el modelo puede ser útil en cualquier modelo de negocio

En resumen, este modelo ofrece una herramienta poderosa para la toma de decisiones basada en datos, mejora la eficiencia administrativa y contribuye a la equidad organizacional, con un enfoque predictivo y preventivo que puede optimizar la gestión del talento humano y los recursos financieros.

Taller Final

Christian Rodriguez

2025-05-27