Este informe tiene como objetivo desarrollar un modelo de regresión logística binomial para identificar los factores clave que influyen en la decisión de un empleado de rotar de su cargo. Utilizando un conjunto de datos históricos de la empresa, se analizarán variables demográficas, salariales y de satisfacción para construir un modelo predictivo. Los resultados permitirán a la gerencia comprender las causas subyacentes de la rotación y diseñar estrategias de retención proactivas y fundamentadas en datos.
Para construir el modelo, se han seleccionado 3 variables cuantitativas y 3 categóricas que, teóricamente, se espera que tengan una relación con la rotación de personal.
Años_Experiencia):
Distancia_Casa):
Horas_Extra):
Satisfacion_Laboral):
Estado_Civil):
Se realiza una caracterización de la variable respuesta y de las 6 variables seleccionadas.
| Categoría | Frecuencia |
|---|---|
| No | 1233 |
| Si | 237 |
De los 1,470 empleados en la base de datos, 1,233 (83.9%) no rotaron, mientras que 237 (16.1%) sí lo hicieron. Esto indica un desbalance de clases, donde la rotación es el evento minoritario. Este es un punto importante a considerar en la evaluación del modelo.
| Ingreso_Mensual | Años_Experiencia | Distancia_Casa | |
|---|---|---|---|
| Min. : 1009 | Min. : 0.00 | Min. : 1.000 | |
| 1st Qu.: 2911 | 1st Qu.: 6.00 | 1st Qu.: 2.000 | |
| Median : 4919 | Median :10.00 | Median : 7.000 | |
| Mean : 6503 | Mean :11.28 | Mean : 9.193 | |
| 3rd Qu.: 8379 | 3rd Qu.:15.00 | 3rd Qu.:14.000 | |
| Max. :19999 | Max. :40.00 | Max. :29.000 |
Ingreso Mensual: El ingreso mensual de los empleados presenta una considerable dispersión, con un rango que va desde $1,009 hasta $19,999. La media se sitúa en $6,503, mientras que la mediana es de $4,919. La notable diferencia entre la media y la mediana sugiere una distribución asimétrica positiva (sesgada a la derecha). Este sesgo se confirma visualmente en el histograma, donde se observa una alta concentración de empleados en los rangos de ingresos más bajos y una “cola” larga hacia los ingresos más altos. Esto indica que una mayoría de los empleados percibe salarios en la parte inferior de la escala, mientras que un número reducido de individuos acumula los salarios más elevados, lo cual es típico en estructuras organizacionales jerárquicas.
Años de Experiencia: La variable Años_Experiencia muestra un rango de 0 a 40 años, con una media de 11.28 años y una mediana de 10 años. Al igual que con el ingreso, la media es ligeramente superior a la mediana, lo que también insinúa un leve sesgo positivo. El histograma corrobora esta observación, mostrando una mayor frecuencia de empleados con menos de 10 años de experiencia. La distribución sugiere una fuerza laboral relativamente joven o con una tasa de renovación que concentra a la mayoría del personal en las primeras etapas de su carrera profesional. El primer cuartil se encuentra en 6 años, indicando que el 25% de la muestra tiene una experiencia relativamente corta.
Distancia al Hogar: La Distancia_Casa varía entre 1 y 29 kilómetros, con una media de 9.19 km y una mediana de 7 km. La distribución de esta variable también está fuertemente sesgada a la derecha, como se puede apreciar en el histograma. Una gran proporción de los empleados reside cerca del lugar de trabajo (el 75% vive a 14 km o menos), mientras que un pequeño grupo se desplaza desde distancias considerablemente mayores. Esta concentración cercana al lugar de trabajo podría ser un factor protector contra la rotación, hipótesis que será explorada en el análisis bivariado y el modelo logístico.
# Convertir satisfacción laboral a factor para modelado posterior
rotacion <- rotacion %>%
mutate(
Horas_Extra = as.factor(Horas_Extra),
Estado_Civil = as.factor(Estado_Civil)
)
rotacion$Satisfacion_Laboral <- factor(rotacion$Satisfacion_Laboral,
levels = c(1, 2, 3, 4),
labels = c("Muy Insatisfecho", "Insatisfecho", "Satisfecho", "Muy Satisfecho"),
ordered = TRUE)
# Gráficos de barras
p1 <- ggplot(rotacion, aes(x = Horas_Extra, fill = Horas_Extra)) + geom_bar() + theme_minimal() + labs(title = "Horas Extra")
p2 <- ggplot(rotacion, aes(x = Satisfacion_Laboral, fill = Satisfacion_Laboral)) + geom_bar() + theme_minimal() + labs(title = "Satisfacción Laboral") + theme(axis.text.x = element_text(angle = 45, hjust = 1))
p3 <- ggplot(rotacion, aes(x = Estado_Civil, fill = Estado_Civil)) + geom_bar() + theme_minimal() + labs(title = "Estado Civil")
gridExtra::grid.arrange(p1, p2, p3, ncol = 2)Horas Extra Se observa que una mayoría significativa de los empleados (aproximadamente 1,000) no trabaja horas extra, mientras que un grupo considerablemente menor (alrededor de 400 empleados) sí lo hace. Esta proporción de casi 3 a 1 sugiere que, aunque el trabajo fuera del horario regular no es una práctica generalizada, afecta a una porción importante de la plantilla. La existencia de este subgrupo que sí labora tiempo adicional es de alto interés para el estudio, ya que la hipótesis subyacente es que esta carga laboral podría ser un catalizador del agotamiento y, consecuentemente, un predictor de la intención de rotar.
Satisfacción Laboral
La distribución de la Satisfacción_Laboral indica un sentimiento generalmente positivo entre los empleados. Las categorías “Satisfecho” y “Muy Satisfecho” acumulan las frecuencias más altas, superando a las categorías “Insatisfecho” y “Muy Insatisfecho”. Es notable que los niveles de satisfacción no se distribuyen de manera uniforme; la mayor concentración se encuentra en los niveles 3 (Satisfecho) y 4 (Muy Satisfecho). Este hallazgo sugiere que, en general, la moral de la empresa es favorable. Sin embargo, la presencia de un grupo no despreciable de empleados insatisfechos justifica su inclusión en el modelo, ya que es teóricamente esperado que una baja satisfacción laboral sea uno de los principales impulsores de la decisión de abandonar la organización.
Estado Civil El análisis de la variable Estado_Civil muestra una composición diversa en la fuerza laboral. La categoría con la frecuencia más alta es la de “Casado”, seguida de cerca por los empleados “Solteros”. El grupo de “Divorciados” representa la menor proporción. Esta distribución es relevante desde una perspectiva socioeconómica. Teóricamente, el estado civil puede influir en la aversión al riesgo y en la estabilidad laboral deseada por un empleado. Por ejemplo, se podría hipotetizar que los empleados casados, posiblemente con mayores responsabilidades económicas y familiares, podrían ser menos propensos a rotar en comparación con los solteros
Se analiza la relación entre cada variable predictora seleccionada y
la variable de respuesta Rotacion_bin.
Para investigar la relación entre las características cuantitativas de
los empleados y su decisión de rotar, se realizó un análisis bivariado
utilizando diagramas de caja (boxplots). Este análisis compara las
distribuciones del Ingreso Mensual, los Años de Experiencia y la
Distancia al Hogar entre el grupo de empleados que rotó (“Sí”) y el que
no lo hizo (“No”).
Ingreso Mensual vs. Rotación
El análisis revela una diferencia notoria en la distribución del ingreso mensual entre ambos grupos. El grupo de empleados que no rotó presenta una mediana de ingresos significativamente más alta que el grupo que sí lo hizo. Además, la dispersión de los salarios, representada por el rango intercuartílico, es mayor en el grupo que permaneció en la empresa. Por el contrario, los empleados que rotaron tienden a concentrarse en los rangos salariales más bajos. Esta evidencia sugiere una relación inversa: a menor ingreso mensual, mayor parece ser la propensión a la rotación. La presencia de numerosos valores atípicos en el grupo “No” indica que los empleados con salarios excepcionalmente altos tienden a no rotar.
Años de Experiencia vs. Rotación
Los Años de Experiencia muestran una clara diferencia entre los grupos. Los empleados que no rotaron tienen una mediana de experiencia considerablemente mayor. La distribución para este grupo es más amplia, abarcando desde personal junior hasta muy senior. En contraste, el grupo de empleados que sí rotó está compuesto predominantemente por personal con menos años de experiencia. La mediana de este grupo es marcadamente inferior, y su rango intercuartílico es más compacto y se sitúa en la parte baja de la escala. Este patrón sugiere que los empleados en las primeras etapas de su carrera profesional son más propensos a cambiar de cargo.
Distancia de Casa vs. Rotación la Distancia al Hogar no muestra una diferencia tan pronunciada como en las variables anteriores, pero aun así revela una tendencia. La mediana de la distancia para los empleados que rotaron es ligeramente superior a la de aquellos que no lo hicieron. Esto podría indicar que, aunque no es el factor más determinante, una mayor distancia de desplazamiento al trabajo podría contribuir marginalmente a la decisión de un empleado de buscar otras oportunidades. La superposición de los rangos intercuartílicos es considerable, lo que sugiere que esta variable por sí sola podría tener un poder predictivo limitado en comparación con el ingreso o la experiencia.
Hipótesis: A mayor ingreso mensual, menor probabilidad de rotación.
##
## Call:
## glm(formula = Rotacion_bin ~ Ingreso_Mensual, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -9.291e-01 1.292e-01 -7.191 6.43e-13 ***
## Ingreso_Mensual -1.271e-04 2.162e-05 -5.879 4.12e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1253.1 on 1468 degrees of freedom
## AIC: 1257.1
##
## Number of Fisher Scoring iterations: 5
##
## Welch Two Sample t-test
##
## data: Ingreso_Mensual by Rotación
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## 1508.244 2583.050
## sample estimates:
## mean in group No mean in group Si
## 6832.740 4787.093
##
## Wilcoxon rank sum test with continuity correction
##
## data: Ingreso_Mensual by Rotación
## W = 191601, p-value = 2.951e-14
## alternative hypothesis: true location shift is not equal to 0
El coeficiente estimado para Ingreso_Mensual fue negativo y altamente significativo (β=−0.001271, p<0.001). Este hallazgo apoya firmemente la hipótesis, sugiriendo que la compensación económica es un factor protector contra la rotación.
os resultados de las pruebas t de Welch (p<0.001) y Wilcoxon (p<0.001) revelan una diferencia sustancial y estadísticamente significativa en el ingreso medio entre el grupo que rota ($6,832) y ($4,787).
Dada su alta significancia estadística a través de todas las pruebas, la variable Ingreso_Mensual se establece como un predictor crítico y, por tanto, se selecciona para su inclusión en el modelo final.
Hipótesis: A mayor cantidad de años de experiencia, menor probabilidad de rotación.
##
## Call:
## glm(formula = Rotacion_bin ~ Años_Experiencia, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.88306 0.12744 -6.929 4.23e-12 ***
## Años_Experiencia -0.07773 0.01217 -6.387 1.69e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1248.1 on 1468 degrees of freedom
## AIC: 1252.1
##
## Number of Fisher Scoring iterations: 5
##
## Welch Two Sample t-test
##
## data: Años_Experiencia by Rotación
## t = 7.0192, df = 350.88, p-value = 1.16e-11
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## 2.604401 4.632019
## sample estimates:
## mean in group No mean in group Si
## 11.862936 8.244726
##
## Wilcoxon rank sum test with continuity correction
##
## data: Años_Experiencia by Rotación
## W = 191654, p-value = 2.4e-14
## alternative hypothesis: true location shift is not equal to 0
El modelo de regresión logística simple arrojó un coeficiente negativo y estadísticamente significativo para Años_Experiencia (β=−0.0773, p<0.001). Este resultado corrobora la hipótesis direccional, indicando que cada año adicional de experiencia se asocia con una disminución en el logaritmo de la razón de momios (log-odds) de rotar.
Validación por Pruebas de Contraste: Tanto la prueba t de Welch (p<0.001) como la prueba no paramétrica de Wilcoxon (p<0.001) confirman la existencia de una disparidad significativa en la experiencia promedio entre los empleados que rotan (media = 8.24 años) y los que no lo hacen (media = 11.86 años).
La evidencia convergente de los tres análisis estadísticos confirma de manera inequívoca que la antigüedad profesional es un predictor fundamental. Por consiguiente, se ratifica la inclusión de la variable Años_Experiencia en el modelo multivariado.
Hipótesis: A mayor distancia entre el hogar y el trabajo, mayor probabilidad de rotación.
##
## Call:
## glm(formula = Rotacion_bin ~ Distancia_Casa, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.890051 0.111382 -16.969 < 2e-16 ***
## Distancia_Casa 0.024710 0.008312 2.973 0.00295 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1290.0 on 1468 degrees of freedom
## AIC: 1294
##
## Number of Fisher Scoring iterations: 4
##
## Welch Two Sample t-test
##
## data: Distancia_Casa by Rotación
## t = -2.8882, df = 322.72, p-value = 0.004137
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## -2.8870025 -0.5475146
## sample estimates:
## mean in group No mean in group Si
## 8.915653 10.632911
##
## Wilcoxon rank sum test with continuity correction
##
## data: Distancia_Casa by Rotación
## W = 127996, p-value = 0.002387
## alternative hypothesis: true location shift is not equal to 0
El modelo logístico simple produjo un coeficiente positivo y estadísticamente significativo (β=0.0247, p=0.00295). El signo del coeficiente es consistente con la hipótesis, implicando que a mayor distancia, mayor es la propensión a la rotación.
Validación por Pruebas de Contraste: Las pruebas de hipótesis (t de Welch, p=0.0041; Wilcoxon, p=0.0023) ratifican que los empleados que rotan residen, en promedio, a una distancia significativamente mayor (10.63 km) que aquellos que permanecen en la compañía (8.91 km).
A pesar de que la magnitud de su significancia es menor en comparación con las variables de experiencia e ingreso, la Distancia_Casa demuestra ser un predictor estadísticamente relevante. Su contribución al modelo está empíricamente justificada y se procede a su inclusión. ### Variables Categóricas vs. Rotación
Horas Extra:El análisis visualiza una asociación clara y fuerte entre trabajar horas extra y la propensión a la rotación. La proporción de empleados que rotan es notablemente más alta en el grupo que sí trabaja horas extra en comparación con el grupo que no lo hace. Mientras que en el grupo “No”, la rotación es una fracción minoritaria, en el grupo “Sí” esta proporción aumenta a más del doble. Este hallazgo valida la hipótesis inicial de que la carga de trabajo adicional es un factor de riesgo significativo que puede inducir al agotamiento y, en consecuencia, a una mayor probabilidad de abandono del cargo.
Satisfacción Laboral: La relación entre la satisfacción laboral y la rotación es inversa y monotónica, como era teóricamente esperado. La proporción de rotación es máxima en el nivel “Muy Insatisfecho” y disminuye progresivamente a medida que aumenta la satisfacción. En los niveles “Satisfecho” y “Muy Satisfecho”, la tasa de rotación es considerablemente más baja.
Estado Civil: La relación entre el estado civil y la rotación también presenta un patrón interesante. La proporción de rotación es visiblemente más alta entre los empleados “Solteros” en comparación con los “Casados” y “Divorciados”. El grupo de empleados casados, en particular, muestra la tasa de rotación más baja de los tres. Esta observación es consistente con la hipótesis de que los empleados solteros, al tener potencialmente menos ataduras financieras o responsabilidades familiares, pueden exhibir una mayor flexibilidad y disposición para cambiar de empleo. Por el contrario, los empleados casados podrían valorar más la estabilidad laboral, lo que resulta en una menor tasa de rotación.
Hipótesis: Los empleados que trabajan horas extra tienen una mayor probabilidad de rotar.
##
## Call:
## glm(formula = Rotacion_bin ~ Horas_Extra, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.1496 0.1007 -21.338 <2e-16 ***
## Horas_ExtraSi 1.3274 0.1466 9.056 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1217.2 on 1468 degrees of freedom
## AIC: 1221.2
##
## Number of Fisher Scoring iterations: 4
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla_he
## X-squared = 87.564, df = 1, p-value < 2.2e-16
El coeficiente para la categoría Horas_ExtraSi fue positivo y de una significancia estadística abrumadora (β=1.3274,p<0.001). Este es el efecto más fuerte observado hasta ahora, indicando que la práctica de trabajar horas extra incrementa drásticamente la probabilidad de rotación, validando de manera contundente la hipótesis.
La prueba de Chi-cuadrado confirma esta fuerte relación, con un valor p extremadamente bajo (p<0.001), indicando que la independencia entre trabajar horas extra y la rotación es rechazada con el más alto nivel de confianza.
Dada su extraordinaria significancia estadística y la magnitud de su efecto, la variable Horas_Extra se establece como un predictor indispensable y debe ser incluida en el modelo final.
Hipótesis: A menor nivel de satisfacción laboral, mayor probabilidad de rotación.
##
## Call:
## glm(formula = Rotacion_bin ~ Satisfacion_Laboral, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.63053 0.07235 -22.538 < 2e-16 ***
## Satisfacion_Laboral.L -0.56211 0.14393 -3.905 9.41e-05 ***
## Satisfacion_Laboral.Q -0.01403 0.14469 -0.097 0.923
## Satisfacion_Laboral.C -0.19210 0.14545 -1.321 0.187
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1281.2 on 1466 degrees of freedom
## AIC: 1289.2
##
## Number of Fisher Scoring iterations: 4
##
## Pearson's Chi-squared test
##
## data: tabla_sl
## X-squared = 17.505, df = 3, p-value = 0.0005563
El modelo glm trata la Satisfacción_Laboral como un factor ordenado. El resultado más relevante es la alta significancia del componente lineal (Satisfaccion_Laboral.L, p<0.001). Esto indica una tendencia estadísticamente robusta: a medida que el nivel de satisfacción disminuye, la probabilidad de rotación aumenta de manera sistemática, lo cual es consistente con la hipótesis. Los componentes no lineales (cuadrático y cúbico) no resultaron significativos.
La evidencia convergente de una tendencia lineal significativa en el modelo logístico y una fuerte asociación en la prueba de Chi-cuadrado justifica plenamente la inclusión de la variable #### Estado Civil
Hipótesis: Los empleados solteros tienen una mayor probabilidad de rotar que los casados.
##
## Call:
## glm(formula = Rotacion_bin ~ Estado_Civil, family = "binomial",
## data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.9476 0.1166 -16.699 < 2e-16 ***
## Estado_CivilDivorciado -0.2395 0.2175 -1.101 0.271
## Estado_CivilSoltero 0.8772 0.1575 5.571 2.54e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1254.6 on 1467 degrees of freedom
## AIC: 1260.6
##
## Number of Fisher Scoring iterations: 4
##
## Pearson's Chi-squared test
##
## data: tabla_ec
## X-squared = 46.164, df = 2, p-value = 9.456e-11
Tomando “Casado” como categoría de referencia, el coeficiente para Estado_CivilSoltero es positivo y altamente significativo (β=0.8772,p<0.001). Esto indica que ser soltero aumenta sustancialmente las probabilidades (odds) de rotación en comparación con estar casado. El coeficiente para “Divorciado” no fue estadísticamente significativo. La prueba de Chi-cuadrado arrojó un resultado extremadamente significativo , lo que demuestra una fuerte asociación general entre el estado civil y la rotación.
Se ajusta un modelo de regresión logística para predecir la
probabilidad de rotación (Rotacion_bin = 1).
##
## Call:
## glm(formula = Rotacion_bin ~ Ingreso_Mensual + Años_Experiencia +
## Distancia_Casa + Horas_Extra + Satisfacion_Laboral + Estado_Civil,
## family = binomial(link = "logit"), data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.895e+00 2.125e-01 -8.915 < 2e-16 ***
## Ingreso_Mensual -6.512e-05 3.168e-05 -2.056 0.039817 *
## Años_Experiencia -5.615e-02 1.782e-02 -3.150 0.001633 **
## Distancia_Casa 3.168e-02 9.298e-03 3.406 0.000658 ***
## Horas_ExtraSi 1.525e+00 1.592e-01 9.577 < 2e-16 ***
## Satisfacion_Laboral.L -7.413e-01 1.577e-01 -4.700 2.61e-06 ***
## Satisfacion_Laboral.Q -7.658e-02 1.579e-01 -0.485 0.627624
## Satisfacion_Laboral.C -2.232e-01 1.591e-01 -1.402 0.160830
## Estado_CivilDivorciado -3.137e-01 2.302e-01 -1.363 0.172881
## Estado_CivilSoltero 9.264e-01 1.714e-01 5.404 6.51e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1080.8 on 1460 degrees of freedom
## AIC: 1100.8
##
## Number of Fisher Scoring iterations: 5
| Odds Ratio | |
|---|---|
| (Intercept) | 0.1503619 |
| Ingreso_Mensual | 0.9999349 |
| Años_Experiencia | 0.9454016 |
| Distancia_Casa | 1.0321822 |
| Horas_ExtraSi | 4.5949331 |
| Satisfacion_Laboral.L | 0.4765033 |
| Satisfacion_Laboral.Q | 0.9262789 |
| Satisfacion_Laboral.C | 0.7999929 |
| Estado_CivilDivorciado | 0.7307267 |
| Estado_CivilSoltero | 2.5254878 |
Interpretación de Coeficientes y Significancia:
Casi todas las variables incluidas mantienen su significancia estadística en el modelo multivariado. Horas_Extra, Ingreso_Mensual, el componente lineal de Satisfacción_Laboral, y ser Soltero son altamente significativos (p<0.001). La Distancia_Casa y los Años_Experiencia también son significativos, aunque a un nivel ligeramente menor. Esto confirma que estas variables tienen un poder predictivo robusto, incluso controlando por el efecto de las demás.
Interpretación de los Odds Ratios: Los coeficientes exponenciados (Odds Ratios) cuantifican la magnitud del efecto de cada variable:
Horas Extra: El Odds Ratio de 4.59 es el más impactante. Indica que, manteniendo las demás variables constantes, las probabilidades (odds) de que un empleado rote son 4.6 veces mayores si trabaja horas extra en comparación con uno que no lo hace.
Estado Civil: Ser Soltero aumenta las odds de rotar en un 152% (Odds Ratio = 2.52) en comparación con estar casado.
Ingreso Mensual y Experiencia: Los Odds Ratios para Ingreso_Mensual (0.9999) y Años_Experiencia (0.945) son menores a 1, confirmando su rol como factores protectores. Por cada aumento unitario en estas variables, las odds de rotar disminuyen ligeramente.
Satisfacción Laboral: El Odds Ratio del componente lineal (0.47) indica que al aumentar el nivel de satisfacción, las odds de rotar se reducen a menos de la mitad, demostrando un fuerte efecto protector.
Se evalúa la capacidad del modelo para discriminar entre los empleados que rotan y los que no, utilizando la curva ROC y el área bajo la curva (AUC).
El Área Bajo la Curva (AUC) es de 0.779. Este valor indica la capacidad del modelo para distinguir entre las dos clases. Una interpretación común de los valores de AUC es: * 0.5: Sin discriminación (azar). * 0.7 - 0.8: Aceptable. * 0.8 - 0.9: Excelente. * > 0.9: Sobresaliente.
El modelo obtuvo un AUC de 0.779. Este valor indica una capacidad de discriminación aceptable o buena. Un valor de 0.5 representaría un modelo sin capacidad predictiva (azar), mientras que 1.0 sería una clasificación perfecta. Un AUC de 0.779 significa que si se elige al azar un empleado que rotó y uno que no rotó, hay una probabilidad del 77.9% de que el modelo asigne una puntuación de riesgo más alta al empleado que efectivamente rotó.
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 1214 187
## 1 19 50
##
## Accuracy : 0.8599
## 95% CI : (0.8411, 0.8772)
## No Information Rate : 0.8388
## P-Value [Acc > NIR] : 0.01409
##
## Kappa : 0.274
##
## Mcnemar's Test P-Value : < 2e-16
##
## Sensitivity : 0.21097
## Specificity : 0.98459
## Pos Pred Value : 0.72464
## Neg Pred Value : 0.86652
## Prevalence : 0.16122
## Detection Rate : 0.03401
## Detection Prevalence : 0.04694
## Balanced Accuracy : 0.59778
##
## 'Positive' Class : 1
##
La matriz de confusión evalúa el desempeño del modelo al clasificar a los individuos utilizando un punto de corte de probabilidad específico (generalmente 0.5).
Exactitud (Accuracy): El modelo logra una exactitud general del 85.99%, lo cual parece alto a primera vista. Sin embargo, esta métrica puede ser engañosa en contextos con clases desbalanceadas (hay muchos más empleados que no rotan que los que sí lo hacen).
Sensibilidad (Recall) y Especificidad:
La Especificidad es muy alta (98.46%). Esto significa que el modelo es excelente para identificar correctamente a los empleados que NO rotarán.
La Sensibilidad (Recall) es muy baja (21.10%). Este es el hallazgo más crítico. Significa que el modelo solo es capaz de identificar correctamente al 21% de los empleados que SÍ rotarán. La gran mayoría de los empleados en riesgo de irse (79%) son clasificados incorrectamente como no rotadores (Falsos Negativos).
Valor Predictivo Positivo (Precision): De todos los empleados que el modelo predijo que rotarían, el 72.46% realmente lo hizo.
Se creará el perfil de un empleado hipotético para predecir su probabilidad de rotación y decidir si se requiere una intervención.
Perfil del Empleado Hipotético: * Ingreso: $2,500 (bajo, comparado con la mediana). * Experiencia: 3 años (relativamente poca experiencia). * Distancia: 20 km (vive lejos). * Horas Extra: Sí. * Satisfacción Laboral: “Insatisfecho”. * Estado Civil: “Soltero”.
Este perfil combina varios factores de riesgo identificados por el modelo.
# Creación del data frame para el nuevo individuo
empleado_hipotetico <- data.frame(
Ingreso_Mensual = 2500,
Años_Experiencia = 3,
Distancia_Casa = 20,
Horas_Extra = "Si",
Satisfacion_Laboral = factor("Insatisfecho", levels = levels(rotacion$Satisfacion_Laboral)),
Estado_Civil = "Soltero"
)
# Predicción de la probabilidad
prob_rotacion <- predict(modelo_logit, newdata = empleado_hipotetico, type = "response")
cat(paste("La probabilidad de rotación para el empleado hipotético es de:", round(prob_rotacion * 100, 2), "%\n"))## La probabilidad de rotación para el empleado hipotético es de: 71.37 %
# Definición del punto de corte y decisión
punto_corte <- 0.40 # 40%
cat(paste("Punto de corte para intervención:", punto_corte * 100, "%\n"))## Punto de corte para intervención: 40 %
if (prob_rotacion > punto_corte) {
cat("Decisión: INTERVENIR. La probabilidad supera el umbral. Se recomienda incluir a este empleado en un programa de retención.\n")
} else {
cat("Decisión: NO INTERVENIR. La probabilidad está por debajo del umbral.\n")
}## Decisión: INTERVENIR. La probabilidad supera el umbral. Se recomienda incluir a este empleado en un programa de retención.
Se ha definido un punto de corte de 40%. Un corte estándar podría ser 50%, pero en un problema de retención de talento, el costo de perder un empleado (falso negativo) suele ser mayor que el costo de intervenir a un empleado que no iba a irse (falso positivo). Un umbral más bajo (40%) permite ser más proactivo e identificar a más empleados en riesgo, aunque esto pueda incluir a algunos que no hubieran rotado.
Los resultados demuestran de manera concluyente que la rotación de personal no es un fenómeno aleatorio, sino un síntoma predecible de desajustes específicos entre las expectativas del empleado y la realidad organizacional. Se han identificado con alta confianza los factores que erosionan la permanencia del talento, permitiendo a la gerencia pasar de una gestión reactiva a una estrategia de retención proactiva y basada en datos.
Los predictores clave, validados por el modelo, pintan un cuadro claro de las áreas críticas que requieren intervención:
El trabajo en horas extra es el principal acelerador de la rotación (Odds Ratio de 4.6). Es un indicador crítico de agotamiento (burnout) y desbalance.
Implementar una auditoría urgente sobre la distribución de la carga de trabajo. Evaluar si los picos de trabajo son departamentales o estacionales y considerar la contratación de personal de’ apoyo o la reingeniería de procesos para optimizar la eficiencia. El objetivo debe ser reducir la dependencia estructural de las horas extra.
Los empleados solteros tienen una probabilidad significativamente mayor de rotar, lo que sugiere una mayor movilidad y posiblemente una menor aversión al riesgo.
Diseñar programas de retención enfocados en este segmento demográfico. Esto incluye la creación de planes de carrera claros y acelerados, oportunidades de desarrollo profesional (capacitaciones, mentorías) y un sistema de reconocimiento que valore la contribución más allá de la estabilidad a largo plazo.
Una baja satisfacción laboral es un precursor directo y fiable de la intención de abandono.Institucionalizar la medición de la satisfacción a través de “encuestas pulso” regulares y no solo anuales. Más importante aún, los resultados deben ser vinculantes para la evaluación del liderazgo gerencial. Capacitar a los mandos medios en la creación de climas laborales positivos es una inversión directa en la retención.
Si bien de menor impacto individual, el ingreso, la experiencia y la distancia al trabajo son factores que, en conjunto, influyen en la decisión. Los empleados con menor experiencia y salarios más bajos son más vulnerables.
Realizar un análisis de competitividad salarial (benchmarking), especialmente para los roles de nivel de entrada. Considerar políticas de flexibilidad laboral, como el teletrabajo parcial, para mitigar el impacto negativo de las largas distancias de desplazamiento.