MODELOS ESTADISTICOS PARA LA TOMA DE DECISIONES
UNIDAD 3: MODELOS LINEALES GENERALIZADOS
ACTIVIDAD 3: ROTACIÓN DE CARGO
0.1 CLASIFICACION DE VARIABLES
## Variables categóricas nominales:
## [1] "Rotación" "Viaje de Negocios" "Departamento"
## [4] "Campo_Educación" "Genero" "Cargo"
## [7] "Estado_Civil" "Horas_Extra"
##
## Variables categóricas ordinales (numéricas con niveles):
## [1] "Rendimiento_Laboral" "Educación"
## [3] "Satisfacción_Ambiental" "Satisfación_Laboral"
## [5] "Equilibrio_Trabajo_Vida"
##
## Variables numéricas reales:
## [1] "Edad" "Distancia_Casa"
## [3] "Ingreso_Mensual" "Trabajos_Anteriores"
## [5] "Porcentaje_aumento_salarial" "Años_Experiencia"
## [7] "Capacitaciones" "Antigüedad"
## [9] "Antigüedad_Cargo" "Años_ultima_promoción"
## [11] "Años_acargo_con_mismo_jefe"
## Variables categóricas nominales: 8
## Variables categóricas ordinales: 5
## Variables numéricas reales: 11
0.2 DATOS FALTANTES VARIABLES CUANTITATIVAS
## Variable NA_count Completos
## Edad Edad 0 TRUE
## Distancia_Casa Distancia_Casa 0 TRUE
## Ingreso_Mensual Ingreso_Mensual 0 TRUE
## Trabajos_Anteriores Trabajos_Anteriores 0 TRUE
## Porcentaje_aumento_salarial Porcentaje_aumento_salarial 0 TRUE
## Años_Experiencia Años_Experiencia 0 TRUE
## Capacitaciones Capacitaciones 0 TRUE
## Antigüedad Antigüedad 0 TRUE
## Antigüedad_Cargo Antigüedad_Cargo 0 TRUE
## Años_ultima_promoción Años_ultima_promoción 0 TRUE
## Años_acargo_con_mismo_jefe Años_acargo_con_mismo_jefe 0 TRUE
0.3 DATOS FALTANTES VARIABLES CATEGÓRICAS ORDINALES
## Variable NA_count Completos
## Rendimiento_Laboral Rendimiento_Laboral 0 TRUE
## Educación Educación 0 TRUE
## Satisfacción_Ambiental Satisfacción_Ambiental 0 TRUE
## Satisfación_Laboral Satisfación_Laboral 0 TRUE
## Equilibrio_Trabajo_Vida Equilibrio_Trabajo_Vida 0 TRUE
0.4 DATOS FALTANTES VARIABLES CATEGÓRICAS NOMINALES
## Variable Valores_faltantes Completos
## Rotación Rotación 0 TRUE
## Viaje de Negocios Viaje de Negocios 0 TRUE
## Departamento Departamento 0 TRUE
## Campo_Educación Campo_Educación 0 TRUE
## Genero Genero 0 TRUE
## Cargo Cargo 0 TRUE
## Estado_Civil Estado_Civil 0 TRUE
## Horas_Extra Horas_Extra 0 TRUE
1.1 SELECCIÓN VARIABLES CUANTITATIVAS
1.1.1 VARIABLE INGRESO MENSUAL
## Ingreso mensual más bajo: 1009
## Ingreso mensual más alto: 19999
| Rango_Ingreso | Rotación | n |
|---|---|---|
| [1009,2911] | No | 261 |
| [1009,2911] | Si | 108 |
| (2911,4919] | No | 314 |
| (2911,4919] | Si | 52 |
| (4919,8379] | No | 328 |
| (4919,8379] | Si | 39 |
| (8379,19999] | No | 330 |
| (8379,19999] | Si | 38 |
1.1.2 VARIABLE ANTIGUEDAD EN EL CARGO
| Rango_Antiguedad | Rotación | n |
|---|---|---|
| 0-2 | No | 521 |
| 0-2 | Si | 152 |
| 3-5 | No | 243 |
| 3-5 | Si | 32 |
| 6-10 | No | 396 |
| 6-10 | Si | 48 |
| 11+ | No | 73 |
| 11+ | Si | 5 |
| Rango_Antiguedad | n |
|---|---|
| 0-2 | 673 |
| 3-5 | 275 |
| 6-10 | 444 |
| 11+ | 78 |
| Rango_Antiguedad | Rotación | n | porcentaje |
|---|---|---|---|
| 0-2 | No | 521 | 77.4 |
| 0-2 | Si | 152 | 22.6 |
| 3-5 | No | 243 | 88.4 |
| 3-5 | Si | 32 | 11.6 |
| 6-10 | No | 396 | 89.2 |
| 6-10 | Si | 48 | 10.8 |
| 11+ | No | 73 | 93.6 |
| 11+ | Si | 5 | 6.4 |
1.1.3 VARIABLE EDAD
## # A tibble: 8 × 3
## Rango_Edad Rotación n
## <fct> <chr> <int>
## 1 18-30 No 286
## 2 18-30 Si 100
## 3 31-40 No 534
## 4 31-40 Si 85
## 5 41-50 No 288
## 6 41-50 Si 34
## 7 51-60 No 125
## 8 51-60 Si 18
## # A tibble: 4 × 2
## Rango_Edad n
## <fct> <int>
## 1 18-30 386
## 2 31-40 619
## 3 41-50 322
## 4 51-60 143
1.1.4 VARIABLE ANTIGUEDAD EN LA EMPRESA
## # A tibble: 10 × 3
## Rango_Antiguedad Rotación n
## <fct> <chr> <int>
## 1 0-2 No 240
## 2 0-2 Si 102
## 3 3-5 No 374
## 4 3-5 Si 60
## 5 6-10 No 393
## 6 6-10 Si 55
## 7 11-20 No 168
## 8 11-20 Si 12
## 9 21+ No 58
## 10 21+ Si 8
## # A tibble: 10 × 4
## # Groups: Rango_Antiguedad [5]
## Rango_Antiguedad Rotación n porcentaje
## <fct> <chr> <int> <dbl>
## 1 0-2 No 240 70.2
## 2 0-2 Si 102 29.8
## 3 3-5 No 374 86.2
## 4 3-5 Si 60 13.8
## 5 6-10 No 393 87.7
## 6 6-10 Si 55 12.3
## 7 11-20 No 168 93.3
## 8 11-20 Si 12 6.7
## 9 21+ No 58 87.9
## 10 21+ Si 8 12.1
1.1.5 VARIABLE DISTANCIA_CASA
## # A tibble: 8 × 3
## Rango_Distancia Rotación n
## <fct> <chr> <int>
## 1 0-5 km No 545
## 2 0-5 km Si 87
## 3 6-10 km No 337
## 4 6-10 km Si 57
## 5 11-20 km No 192
## 6 11-20 km Si 48
## 7 21-30 km No 159
## 8 21-30 km Si 45
## # A tibble: 8 × 4
## # Groups: Rango_Distancia [4]
## Rango_Distancia Rotación n porcentaje
## <fct> <chr> <int> <dbl>
## 1 0-5 km No 545 86.2
## 2 0-5 km Si 87 13.8
## 3 6-10 km No 337 85.5
## 4 6-10 km Si 57 14.5
## 5 11-20 km No 192 80
## 6 11-20 km Si 48 20
## 7 21-30 km No 159 77.9
## 8 21-30 km Si 45 22.1
1.2 SELECCIÓN VARIABLES CATEGÓRICAS
1.2.1 VARIABLE ESTADO CIVIL
## # A tibble: 6 × 3
## Estado_Civil Rotación n
## <chr> <chr> <int>
## 1 Casado No 589
## 2 Casado Si 84
## 3 Divorciado No 294
## 4 Divorciado Si 33
## 5 Soltero No 350
## 6 Soltero Si 120
## # A tibble: 6 × 4
## # Groups: Estado_Civil [3]
## Estado_Civil Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 Casado No 589 87.5
## 2 Casado Si 84 12.5
## 3 Divorciado No 294 89.9
## 4 Divorciado Si 33 10.1
## 5 Soltero No 350 74.5
## 6 Soltero Si 120 25.5
1.2.2 VARIABLE VIAJE DE NEGOCIO
## # A tibble: 6 × 3
## `Viaje de Negocios` Rotación n
## <chr> <chr> <int>
## 1 Frecuentemente No 208
## 2 Frecuentemente Si 69
## 3 No_Viaja No 138
## 4 No_Viaja Si 12
## 5 Raramente No 887
## 6 Raramente Si 156
## # A tibble: 6 × 4
## # Groups: Viaje de Negocios [3]
## `Viaje de Negocios` Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 Frecuentemente No 208 75.1
## 2 Frecuentemente Si 69 24.9
## 3 No_Viaja No 138 92
## 4 No_Viaja Si 12 8
## 5 Raramente No 887 85
## 6 Raramente Si 156 15
1.2.3 VARIABLE EDUCACIÓN
## # A tibble: 10 × 3
## Nivel_Educacion Rotación n
## <chr> <chr> <int>
## 1 1: Primaria No 139
## 2 1: Primaria Si 31
## 3 2: Secundaria No 238
## 4 2: Secundaria Si 44
## 5 3: Técnico/Tecnólogo No 473
## 6 3: Técnico/Tecnólogo Si 99
## 7 4: Pregrado No 340
## 8 4: Pregrado Si 58
## 9 5: Posgrado No 43
## 10 5: Posgrado Si 5
## # A tibble: 10 × 4
## # Groups: Nivel_Educacion [5]
## Nivel_Educacion Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 1: Primaria No 139 81.8
## 2 1: Primaria Si 31 18.2
## 3 2: Secundaria No 238 84.4
## 4 2: Secundaria Si 44 15.6
## 5 3: Técnico/Tecnólogo No 473 82.7
## 6 3: Técnico/Tecnólogo Si 99 17.3
## 7 4: Pregrado No 340 85.4
## 8 4: Pregrado Si 58 14.6
## 9 5: Posgrado No 43 89.6
## 10 5: Posgrado Si 5 10.4
## # A tibble: 5 × 3
## Nivel_Educacion n porcentaje
## <chr> <int> <dbl>
## 1 1: Primaria 170 11.6
## 2 2: Secundaria 282 19.2
## 3 3: Técnico/Tecnólogo 572 38.9
## 4 4: Pregrado 398 27.1
## 5 5: Posgrado 48 3.3
1.2.4 VARIABLE HORAS EXTRA
## # A tibble: 4 × 3
## Horas_Extra Rotación n
## <chr> <chr> <int>
## 1 No No 944
## 2 No Si 110
## 3 Si No 289
## 4 Si Si 127
## # A tibble: 4 × 4
## # Groups: Horas_Extra [2]
## Horas_Extra Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 No No 944 89.6
## 2 No Si 110 10.4
## 3 Si No 289 69.5
## 4 Si Si 127 30.5
1.2.5 VARIABLE EQUILIBRIO_TRABAJO_VIDA
## # A tibble: 8 × 3
## Equilibrio_Etiqueta Rotación n
## <chr> <chr> <int>
## 1 1: Muy bajo No 55
## 2 1: Muy bajo Si 25
## 3 2: Bajo No 286
## 4 2: Bajo Si 58
## 5 3: Medio No 766
## 6 3: Medio Si 127
## 7 4: Alto No 126
## 8 4: Alto Si 27
## # A tibble: 8 × 4
## # Groups: Equilibrio_Etiqueta [4]
## Equilibrio_Etiqueta Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 1: Muy bajo No 55 68.8
## 2 1: Muy bajo Si 25 31.2
## 3 2: Bajo No 286 83.1
## 4 2: Bajo Si 58 16.9
## 5 3: Medio No 766 85.8
## 6 3: Medio Si 127 14.2
## 7 4: Alto No 126 82.4
## 8 4: Alto Si 27 17.6
1.2.6 VARIABLE CARGO
## # A tibble: 18 × 3
## Cargo Rotación n
## <chr> <chr> <int>
## 1 Director_Investigación No 78
## 2 Director_Investigación Si 2
## 3 Director_Manofactura No 135
## 4 Director_Manofactura Si 10
## 5 Ejecutivo_Ventas No 269
## 6 Ejecutivo_Ventas Si 57
## 7 Gerente No 97
## 8 Gerente Si 5
## 9 Investigador_Cientifico No 245
## 10 Investigador_Cientifico Si 47
## 11 Recursos_Humanos No 40
## 12 Recursos_Humanos Si 12
## 13 Representante_Salud No 122
## 14 Representante_Salud Si 9
## 15 Representante_Ventas No 50
## 16 Representante_Ventas Si 33
## 17 Tecnico_Laboratorio No 197
## 18 Tecnico_Laboratorio Si 62
## # A tibble: 18 × 4
## # Groups: Cargo [9]
## Cargo Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 Director_Investigación No 78 97.5
## 2 Director_Investigación Si 2 2.5
## 3 Director_Manofactura No 135 93.1
## 4 Director_Manofactura Si 10 6.9
## 5 Ejecutivo_Ventas No 269 82.5
## 6 Ejecutivo_Ventas Si 57 17.5
## 7 Gerente No 97 95.1
## 8 Gerente Si 5 4.9
## 9 Investigador_Cientifico No 245 83.9
## 10 Investigador_Cientifico Si 47 16.1
## 11 Recursos_Humanos No 40 76.9
## 12 Recursos_Humanos Si 12 23.1
## 13 Representante_Salud No 122 93.1
## 14 Representante_Salud Si 9 6.9
## 15 Representante_Ventas No 50 60.2
## 16 Representante_Ventas Si 33 39.8
## 17 Tecnico_Laboratorio No 197 76.1
## 18 Tecnico_Laboratorio Si 62 23.9
1.2.7 VARIABLE DEPARTAMENTO
## # A tibble: 6 × 3
## Departamento Rotación n
## <chr> <chr> <int>
## 1 IyD No 828
## 2 IyD Si 133
## 3 RH No 51
## 4 RH Si 12
## 5 Ventas No 354
## 6 Ventas Si 92
## # A tibble: 6 × 4
## # Groups: Departamento [3]
## Departamento Rotación n porcentaje
## <chr> <chr> <int> <dbl>
## 1 IyD No 828 86.2
## 2 IyD Si 133 13.8
## 3 RH No 51 81
## 4 RH Si 12 19
## 5 Ventas No 354 79.4
## 6 Ventas Si 92 20.6
1.2.8 VARIABLE SATISFACCION LABORAL
| Satisfaccion_Etiqueta | Rotación | n |
|---|---|---|
| 1: Muy insatisfecho | No | 223 |
| 1: Muy insatisfecho | Si | 66 |
| 2: Insatisfecho | No | 234 |
| 2: Insatisfecho | Si | 46 |
| 3: Satisfecho | No | 369 |
| 3: Satisfecho | Si | 73 |
| 4: Muy satisfecho | No | 407 |
| 4: Muy satisfecho | Si | 52 |
Basado en el analisis anterior, se seleccionan tres variables categóricas y tres cuantitativas que, según el criterio del analista, pueden estar relacionadas con la rotación de personal. Estas variables serán utilizadas en los análisis posteriores.
Variables Categóricas
Horas_Extra Hipótesis: Las personas que trabajan horas extra están más expuestas al desgaste físico y mental, lo que puede incrementar su intención de rotar.
Relación esperada: Positiva (mayor rotación entre quienes hacen horas extra).
Estado_Civil Hipótesis: Personas solteras pueden tener mayor flexibilidad para cambiar de cargo o buscar nuevas oportunidades, mientras que personas casadas o con responsabilidades familiares podrían preferir la estabilidad.
Relación esperada: Mayor rotación entre personas solteras.
Viaje_de_Negocios Hipótesis: Viajar frecuentemente por trabajo puede afectar el equilibrio vida-trabajo, generando fatiga o insatisfacción que lleve a considerar un cambio de cargo.
Relación esperada: Mayor rotación en quienes viajan con frecuencia.
Variables Cuantitativas
Ingreso_Mensual
Hipótesis: Empleados con menores ingresos pueden sentirse menos valorados o tener mayor incentivo para buscar otro empleo o cargo mejor remunerado.
Relación esperada: Negativa (a menor ingreso, mayor rotación).
Edad Hipótesis: Personas más jóvenes podrían estar en búsqueda de crecimiento o mejores condiciones, mientras que personas mayores pueden valorar más la estabilidad.
Relación esperada: Negativa (mayor rotación en empleados más jóvenes).
Distancia_Casa Hipótesis: Una mayor distancia entre la casa y el lugar de trabajo puede generar cansancio y desmotivación, lo que podría aumentar la intención de cambiar de cargo o empresa.
Relación esperada: Positiva (a mayor distancia, mayor rotación).
2.1 ANÀLISIS UNIVARIADO DE VARIABLES CUANTITATIVAS
2.1.1 VARIABLE INGRESO_MENSUAL
2.1.1.1 ESTADÍSTICA DESCRIPTIVA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1009 2911 4919 6503 8379 19999
-El ingreso promedio (6503) es mayor que la mediana (4919), lo cual indica que la distribución está sesgada a la derecha (hay empleados con ingresos muy altos que elevan el promedio).
-El rango de ingresos es amplio: desde 1009 hasta 19999.
-El 25% más bajo gana menos de 2911, y el 25% más alto gana más de 8379.
El histograma muestra la distribución de los ingresos mensuales de los empleados de la organización. A partir del gráfico, se pueden identificar varios aspectos clave:
Distribución sesgada a la derecha (asimetría positiva): La mayor parte de los empleados tiene ingresos entre los 1000 y 8000, con una fuerte concentración entre los 2000 y 5000, especialmente alrededor de los 3000, donde hay un pico notable.
Empleados con ingresos más altos (outliers): Aunque menos frecuentes, existen empleados con ingresos superiores a 10000 e incluso algunos por encima de 18000. Estos casos son pocos pero elevan el promedio, como se vio en el summary().Esta distribución es consistente con una estructura piramidal típica en las empresas, donde la mayoría de los empleados se ubica en niveles operativos (menor remuneración) y solo un pequeño grupo ocupa cargos directivos con salarios altos.
Ingreso más común: El intervalo más frecuente está alrededor de los 3000 a 3500, donde se concentra la mayor cantidad de empleados.
-Rango amplio: La distribución abarca desde aproximadamente 1000 hasta 20000, lo que indica una importante heterogeneidad salarial dentro de la organización.
El boxplot permite observar visualmente la distribución, la dispersión y
los valores atípicos del ingreso mensual en la empresa. A partir del
gráfico se concluye lo siguiente:
Mediana: La línea dentro de la caja representa la mediana del ingreso mensual, que está aproximadamente en 5000, lo cual coincide con el resumen estadístico previo. Esto indica que el 50% de los empleados gana menos de ese valor y el otro 50% gana más.
Caja (rango intercuartílico): La caja muestra el rango entre el primer cuartil (Q1) y el tercer cuartil (Q3), es decir, entre ~2900 y ~8300. Esto abarca al 50% central de los ingresos.
Sesgo a la derecha: La distancia entre la mediana y el extremo superior de la caja (Q3) es mayor que hacia el inferior (Q1), lo que refuerza que la distribución está sesgada a la derecha.
Valores atípicos (outliers): Los puntos por encima de los bigotes (líneas verticales) representan ingresos considerablemente superiores al promedio del grupo. Son pocos empleados que ganan más de ~15000. Estos valores extremos son coherentes con la existencia de cargos directivos o altamente especializados en la empresa, lo cual es típico en estructuras organizacionales jerárquicas.
2.1.2 VARIABLE EDAD
2.1.2.1 ESTADÍSTICA DESCRIPTIVA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 30.00 36.00 36.92 43.00 60.00
La mayoría de los empleados tiene entre 30 y 43 años, es decir, se concentra en edades laborales medias.
La mediana (36) y la media (36.9) están bastante cercanas, lo que sugiere una distribución simétrica o poco sesgada.
No hay edades extremadamente altas ni bajas, lo que indica que no existen valores atípicos en esta variable.
El rango de edades va de 18 a 60 años, cubriendo desde personas jóvenes iniciando su vida laboral hasta empleados próximos a la jubilación.
2.1.2.2 HISTOGRAMA
El histograma muestra la distribución de edades de los empleados en la empresa. A partir del gráfico, se pueden extraer las siguientes observaciones:
Distribución aproximadamente simétrica: El histograma tiene forma de campana, lo cual indica que la mayoría de los empleados está en edades intermedias, con menos empleados en los extremos (jóvenes o mayores).
Grupo etario predominante: La mayor parte de los empleados se encuentra entre los 30 y 40 años, con picos visibles cerca de los 35 años. Esto coincide con la mediana de 36 años obtenida en el resumen estadístico.
Poca presencia de empleados muy jóvenes o muy mayores: Hay pocos empleados menores de 25 o mayores de 55, lo cual puede reflejar que la empresa cuenta principalmente con personal en etapas laborales más estables o maduras.
Distribución sin sesgo fuerte: Dado que la media y mediana están muy cercanas, y el gráfico es simétrico, podemos decir que no hay una asimetría fuerte en esta variable.
2.1.2.3 BOXPLOT
El boxplot permite visualizar la distribución de edades de los empleados y detectar posibles asimetrías o valores atípicos. A partir del gráfico se observa lo siguiente:
Mediana: La línea dentro de la caja representa la mediana de la edad, ubicada aproximadamente en 36 años. Esto coincide con el resumen estadístico anterior, indicando que la mitad de los empleados tiene 36 años o menos.
Caja (rango intercuartílico): El 50% central de las edades se encuentra entre 30 y 43 años. Esto muestra que la mayoría de los empleados se concentra en una edad laboral intermedia.
Distribución simétrica: La mediana está centrada dentro de la caja, y los bigotes son de tamaño similar hacia arriba y hacia abajo, lo que indica una distribución aproximadamente simétrica.
Sin valores atípicos visibles: No se observan puntos fuera de los bigotes del boxplot, por lo tanto, no hay edades extremas o inusuales que rompan la tendencia general.
2.1.3 VARIABLE DISTANCIA_CASA
2.1.3.1 ESTADÍSTICA DESCRIPTIVA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 7.000 9.193 14.000 29.000
La mayoría de empleados vive relativamente cerca del trabajo. El 75% vive a 14 km o menos, y la mitad a menos de 7 km.
La media es mayor que la mediana, lo que sugiere una distribución ligeramente sesgada a la derecha (algunos empleados viven más lejos y elevan el promedio).
No hay distancias extremadamente grandes (el valor máximo es 29 km), por lo que no parece haber valores atípicos fuertes.
Esto podría indicar que la ubicación de la empresa está estratégicamente bien situada o que el personal prefiere residir cerca del lugar de trabajo.
La variable Distancia_Casa muestra que la mayoría de los empleados reside a una distancia relativamente corta del lugar de trabajo, con el 75% viviendo a menos de 14 km y la mediana ubicada en solo 7 km. Dado este comportamiento, podría considerarse que la distancia no representa un factor determinante en la decisión de rotación, ya que la dispersión es limitada y la mayoría de los empleados se encuentra geográficamente cerca de la empresa.
2.1.3.2 HISTOGRAMA
El histograma muestra cómo se distribuyen las distancias desde la casa hasta el lugar de trabajo para los empleados. A partir del gráfico, se pueden destacar los siguientes puntos:
Alta concentración en distancias cortas: Más de 400 empleados viven a menos de 2 km del lugar de trabajo, lo cual representa una gran parte del total. Esto confirma que la mayoría del personal reside muy cerca de la empresa.
Distribución fuertemente sesgada a la derecha: La frecuencia disminuye rápidamente a medida que la distancia aumenta. Muy pocos empleados viven a más de 20 km de la empresa.
Poca dispersión general: Aunque existen empleados con distancias más largas (hasta 29 km), la gran mayoría vive a menos de 10 km, lo cual limita la variabilidad de esta variable.
Conclusión preliminar: Esta concentración en distancias cortas sugiere que la variable podría tener poca utilidad para explicar la rotación, ya que la mayoría vive cerca y no se observan grupos muy diferenciados por distancia.
2.1.3.3 BOXPLOT
Este boxplot muestra cómo se distribuyen las distancias desde el hogar al lugar de trabajo. A partir del gráfico se interpreta:
Mediana: La línea negra dentro de la caja representa la mediana, ubicada en aproximadamente 7 km, lo que indica que la mitad de los empleados vive a esa distancia o menos de su trabajo.
Rango intercuartílico (IQR): La caja representa el 50% central de los datos, con límites entre 2 km y 14 km, evidenciando que la mayoría de los empleados vive relativamente cerca del lugar de trabajo.
Rango total: La distancia máxima llega a 29 km, pero sin presencia clara de valores atípicos.
Ligera asimetría positiva: La mediana está un poco más cerca del primer cuartil, y el bigote superior es más largo, lo que indica una leve inclinación hacia la derecha, causada por algunos empleados que viven más lejos.
Conclusión: Este comportamiento sugiere que la Distancia_Casa tiene una dispersión limitada, con la mayoría de empleados ubicados en distancias cortas. Por tanto, podría no ser una variable determinante en la rotación, ya que no hay suficientes diferencias geográficas entre los trabajadores para generar impacto.
2.1.4 SELECCIÓN DE VARIABLE ADICIONAL ANTIGUEDAD (REEMPLAZO VARIABLE DISTANCIA_CASA)
2.1.4.1 ESTADÍSTICA DESCRIPTIVA
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 3.000 5.000 7.008 9.000 40.000
La mayoría de los empleados tiene menos de 10 años en la empresa, pero hay algunos casos de muy larga antigüedad.
La media (7) es mayor que la mediana (5), lo que sugiere una distribución asimétrica hacia la derecha: pocos empleados con muchos años elevan el promedio.
El valor máximo (40 años) es un dato extremo, que puede ser considerado un posible outlier y refleja permanencia a largo plazo en algunos casos.
Esto indica que, aunque hay renovación, también existe una base de empleados con experiencia significativa.
2.1.4.2 HISTOGRAMA
Este gráfico muestra la distribución del tiempo (en años) que los empleados llevan trabajando en la empresa. Observamos lo siguiente:
Distribución asimétrica a la derecha: La mayor parte de los empleados tiene baja antigüedad, y la frecuencia disminuye conforme aumenta el número de años. Esto indica una alta rotación o crecimiento reciente del personal.
Alta concentración entre 0 y 10 años: Más del 75% de los empleados lleva menos de 10 años en la empresa, con un pico visible alrededor de los 3 a 5 años.
Cola larga hacia la derecha: Hay empleados con más de 20 años, incluso algunos pocos con hasta 40 años de permanencia. Estos casos son poco frecuentes, pero elevan el promedio y generan una asimetría positiva.
Conclusión preliminar: La distribución sugiere que la empresa ha tenido un alto ingreso de personal en los últimos años, lo cual podría estar relacionado con procesos de expansión, renovación o rotación de cargos. También hay una base sólida de empleados antiguos, aunque son minoría.
2.1.4.3 BOXPLOT
Este boxplot representa gráficamente la dispersión y comportamiento de la antigüedad de los empleados en la empresa (años desde su ingreso). A partir del gráfico, se puede observar:
Mediana: La línea dentro de la caja se sitúa cerca de los 5 años, lo que coincide con el valor del resumen estadístico. La mitad de los empleados lleva 5 años o menos en la organización.
Caja (rango intercuartílico): El 50% de los empleados se encuentra entre 3 y 9 años de antigüedad, mostrando una concentración en la parte baja del rango.
Presencia de valores atípicos: Se observan muchos puntos por encima del bigote superior, lo que indica empleados con más de 18 años de antigüedad. Estos puntos representan casos excepcionales de permanencia prolongada, y son los que generan la asimetría positiva en la distribución.
Rango máximo: Hay al menos un empleado con 40 años de antigüedad, lo cual es un valor extremo dentro del conjunto de datos.
Teniendo en cuenta que al hacer el análisis univariado de la variable Distancia_Casa se encontró que la misma no era relevante para la actividad, se decide reemplazar por esta variable por la variable Antiguedad que aunque tiene tambien una desviación a la derecha, puede ser mas relevante para el análisis.
2.2 ANÀLISIS UNIVARIADO DE VARIABLES CATEGÓRICAS
2.2.1 VARIABLE HORAS_EXTRA
2.2.1.1 FRECUENCIA ABSOLUTA Y RELATIVA
## # A tibble: 2 × 3
## Horas_Extra n porcentaje
## <chr> <int> <dbl>
## 1 No 1054 71.7
## 2 Si 416 28.3
1054 empleados (71.7%) no realizan horas extra.
416 empleados (28.3%) sí realizan horas extra.
Esto nos dice que la mayoría de los trabajadores no está haciendo horas adicionales, lo cual puede interpretarse como que:
La carga laboral está distribuida adecuadamente para la mayoría.
solo una parte del personal (menos del 30%) asume sobrecarga u horas adicionales.
Esta variable puede ser relevante en el análisis de rotación porque:
Los empleados que trabajan horas extra podrían estar más expuestos al agotamiento, estrés o desequilibrio vida-trabajo.
Sin embargo, como se vio anteriormentes, es importante cruzar esta variable con Rotación para saber si realmente influye.
2.2.1.2 GRÁFICO DE BARRAS
Este gráfico muestra la distribución de empleados según si realizan o no horas extra. De él se observa:
La mayoría de empleados no realiza horas extra: aproximadamente 1054 personas (71.7%).
Un grupo menor sí realiza horas extra: aproximadamente 416 personas (28.3%).
La diferencia entre ambos grupos es clara y significativa, lo cual se ve reflejado en las alturas contrastantes de las barras.
2.2.2 VARIABLE ESTADO_CIVIL
2.2.2.1 FRECUENCIA ABSOLUTA Y RELATIVA
## # A tibble: 3 × 3
## Estado_Civil n porcentaje
## <chr> <int> <dbl>
## 1 Casado 673 45.8
## 2 Divorciado 327 22.2
## 3 Soltero 470 32
Casi la mitad de los empleados están casados (45.8%), lo que indica que la mayoría del personal podría tener responsabilidades familiares.
Un 32% son solteros, lo cual representa un grupo importante dentro de la organización, posiblemente con mayor movilidad laboral.
El 22.2% son divorciados, también una proporción relevante, que puede tener implicaciones distintas en cuanto a estabilidad o prioridades laborales.
Conclusión preliminar: La variable Estado_Civil presenta una distribución relativamente equilibrada entre los tres grupos, pero los empleados casados dominan la muestra. Esto podría ser relevante para el análisis de rotación, ya que el estado civil puede influir en la disposición al cambio, la necesidad de estabilidad o la flexibilidad de horario y ubicación.
2.2.2.2 GRÁFICO DE BARRAS
Este gráfico de barras muestra la frecuencia de empleados según su estado civil. Se observan tres grupos bien definidos:
Casados: Representan el grupo más numeroso, con 673 empleados (45.8%), lo que sugiere que gran parte de la plantilla podría tener compromisos familiares.
Solteros: Segundo grupo más común, con 470 empleados (32%). Este grupo suele tener más flexibilidad para cambios laborales, lo que podría estar relacionado con decisiones de rotación.
Divorciados: Representan el 22.2% (327 empleados). Aunque menos numerosos, son una proporción significativa.
Conclusión: La variable Estado_Civil tiene una distribución relativamente equilibrada, pero con un claro predominio del grupo casado. Esto puede tener implicaciones relevantes en el análisis de rotación, ya que el estado civil puede influir en la estabilidad laboral, la disposición a cambiar de cargo, o en la necesidad de horarios más estables.
2.2.3 VARIABLE VIAJE DE NEGOCIOS
2.2.3.1 FRECUENCIA ABSOLUTA Y RELATIVA
## # A tibble: 3 × 3
## `Viaje de Negocios` n porcentaje
## <chr> <int> <dbl>
## 1 Frecuentemente 277 18.8
## 2 No_Viaja 150 10.2
## 3 Raramente 1043 71
La mayoría de los empleados viaja raramente por trabajo (71%), lo que indica que las funciones en la empresa no requieren desplazamientos frecuentes para la mayoría del personal.
Un 18.8% viaja frecuentemente, lo que representa un grupo relevante que podría tener mayores exigencias laborales o menor estabilidad.
El 10.2% no viaja en absoluto, posiblemente por naturaleza del cargo (operativos, administrativos, etc.).
Conclusión preliminar: Esta variable es clave para el análisis de rotación, ya que los viajes frecuentes pueden afectar el equilibrio trabajo-vida y generar desgaste. El hecho de que casi el 30% del personal esté entre quienes no viajan o viajan frecuentemente puede dar lugar a diferencias importantes en el comportamiento de rotación.
2.2.2.2 GRÁFICO DE BARRAS
El gráfico de barras muestra la frecuencia con la que los empleados realizan viajes laborales:
Raramente (71%): La gran mayoría del personal realiza viajes ocasionales o ninguno durante su actividad laboral. Esto indica que la mayoría de los cargos no requiere desplazamiento frecuente.
Frecuentemente (18.8%): Una proporción menor pero significativa viaja con frecuencia, posiblemente por funciones de ventas, gestión o cargos ejecutivos. Este grupo puede estar más expuesto al desgaste o desbalance vida-trabajo.
No viaja (10.2%): Una minoría absoluta no tiene ningún tipo de desplazamiento asociado a su cargo, posiblemente personal técnico o administrativo fijo.
Conclusión: La distribución de esta variable no es homogénea, y la categoría “viaja frecuentemente” podría ser una fuente potencial de rotación, ya que el hecho de viajar implica cambios de rutina, tiempo fuera del hogar y posibles tensiones.
3.1.VARIABLES CUANTITATIVAS vs ROTACIÓN
3.1.1 EDAD vs ROTACIÓN
3.1.1.1 COMPARACIÓN DE MEDIAS EDAD vs ROTACIÓN
## # A tibble: 2 × 3
## Rotacion_etiqueta media_edad sd
## <fct> <dbl> <dbl>
## 1 0 = No 37.6 8.89
## 2 1 = Sí 33.6 9.69
Los empleados que no rotaron tienen en promedio 37.6 años, mientras que los que sí rotaron tienen en promedio 33.6 años.
La diferencia de casi 4 años sugiere que los empleados más jóvenes tienen mayor probabilidad de rotar.
La desviación estándar también indica que en ambos grupos hay dispersión (mayor en quienes rotaron, con 9.7 años de variabilidad).
Conclusión preliminar:Existe una relación negativa entre la edad y la rotación: a menor edad, mayor rotación. Esto podría explicarse por una mayor búsqueda de oportunidades en empleados jóvenes, menor estabilidad o exploración profesional en etapas iniciales de carrera, lo cual es coherente con lño planteado en la hipótesis inicial para esta variable.
3.1.1.2 BOXPLOT EDAD vs ROTACIÓN
- El gráfico Boxplot confirma lo observado en la tabla anterior: los
empleados que rotan tienden a ser más jóvenes.
La mediana del grupo que rotó está más a la izquierda.
La distribución de edad en quienes no rotaron está desplazada hacia edades mayores.
Conclusión: Este gráfico refuerza la hipótesis de que la edad está negativamente relacionada con la rotación. Empleados más jóvenes tienen mayor probabilidad de cambiar de cargo, posiblemente por estar en búsqueda de mejores oportunidades o en etapas menos estables laboralmente.
3.1.1.3 PRUEBA DE HIPÓTESIS EDAD vs ROTACIÓN
##
## Welch Two Sample t-test
##
## data: Edad by Rotacion_binaria
## t = 5.8291, df = 316.94, p-value = 1.371e-08
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 2.619728 5.289170
## sample estimates:
## mean in group 0 mean in group 1
## 37.56204 33.60759
El p-valor < 0.05 indica que la diferencia de edad entre los grupos es estadísticamente significativa.
Podemos afirmar con un 95% de confianza que los empleados que no rotan son, en promedio, entre 2.6 y 5.3 años mayores que quienes sí rotan.
Como la diferencia es positiva (grupo 0 tiene mayor edad), la edad se asocia negativamente con la rotación: a menor edad, mayor probabilidad de rotar.
Conclusión: La prueba t sugiere que la edad tiene un efecto significativo en la rotación de empleados. En promedio, quienes no rotan tienen 3.95 años más que quienes sí rotan, y esta diferencia es estadísticamente significativa (p < 0.001). Esto respalda la hipótesis de que los empleados más jóvenes presentan mayor probabilidad de rotar.
3.1.2 INGRESO MENSUAL vs ROTACIÓN
3.1.1.1 COMPARACIÓN DE MEDIAS INGRESO MENSUAL vs ROTACIÓN
## # A tibble: 2 × 3
## Rotacion_etiqueta media_ingreso sd
## <fct> <dbl> <dbl>
## 1 0 = No 6833. 4818.
## 2 1 = Sí 4787. 3640.
Los empleados que no rotaron ganan en promedio más de $2.000 por encima de los que sí rotaron.
Esto apoya la hipótesis de que un ingreso más bajo se asocia con mayor rotación.
La desviación estándar también es más alta en el grupo que no rotó, indicando una mayor variabilidad en los salarios (posiblemente porque incluye tanto operativos como mandos altos
3.1.1.2 BOXPLOT INGRESO MENSUAL vs ROTACIÓN
-Se confirma lo visto en el resumen numérico: los empleados que rotaron
ganan menos, en promedio.
Hay una brecha clara en la mediana y en la dispersión.
La diferencia es visual y consistente con la hipótesis de que el salario más bajo está asociado con mayor rotación.
Conclusión: El boxplot muestra que los empleados que no rotaron tienen ingresos más altos y más dispersos, lo que puede estar asociado a una mayor proporción de cargos altos. Por su parte, los que rotaron tienen ingresos más bajos y concentrados, lo cual apoya la hipótesis de que los empleados con menores ingresos están más inclinados a cambiar de cargo.
3.1.1.3 PRUEBA DE HIPÓTESIS INGRESO MENSUAL vs ROTACIÓN
##
## Welch Two Sample t-test
##
## data: Ingreso_Mensual by Rotacion_binaria
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 1508.244 2583.050
## sample estimates:
## mean in group 0 mean in group 1
## 6832.740 4787.093
El p-value es muchísimo menor que 0.05, lo que indica que la diferencia de ingresos entre los dos grupos es estadísticamente significativa.
El intervalo de confianza nos dice que, con 95% de seguridad, la diferencia real en los ingresos promedio está entre $1.508 y $2.583 a favor del grupo que no rotó.
En otras palabras, quienes no rotaron ganan significativamente más dinero que quienes sí lo hicieron.
3.1.3 ANTIGUEDAD vs ROTACIÓN
3.1.3.1 COMPARACIÓN DE MEDIAS ANTIGUEDAD vs ROTACIÓN
## # A tibble: 2 × 3
## Rotacion_etiqueta media_antig sd
## <fct> <dbl> <dbl>
## 1 0 = No 7.37 6.10
## 2 1 = Sí 5.13 5.95
En promedio, los empleados que no rotaron llevan más tiempo en la empresa.
La diferencia de más de 2 años sugiere que la antigüedad está asociada negativamente con la rotación: cuanto más tiempo lleva un empleado, menos probable es que rote.
Ambas desviaciones estándar son parecidas, lo que indica una dispersión similar entre grupos.
Conclusión preliminar: Los empleados que permanecen en la empresa tienden a tener mayor antigüedad. Esto respalda la hipótesis de que una menor antigüedad se asocia con mayor rotación, posiblemente porque los nuevos empleados aún están en periodo de ajuste o búsqueda de estabilidad.
3.1.3.2 BOXPLOT ANTIGUEDAD vs ROTACIÓN
- Refuerza la hipótesis de que los empleados con menor antigüedad tienen
mayor probabilidad de rotar.
La diferencia de mediana es evidente y el grupo que no rotó muestra mayor permanencia.
Los outliers altos son pocos, pero visibles (probablemente empleados muy antiguos que no han rotado).
Conclusión: El gráfico muestra una clara diferencia en la antigüedad entre los grupos. Los empleados que no rotaron tienen mayor tiempo en la empresa, mientras que los que rotaron tienden a ser más recientes. Esto sugiere que la antigüedad puede ser un factor protector frente a la rotación.
3.1.3.3 PRUEBA DE HIPÓTESIS ANTIGUEDAD vs ROTACIÓN
##
## Welch Two Sample t-test
##
## data: Antigüedad by Rotacion_binaria
## t = 5.2826, df = 338.21, p-value = 2.286e-07
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 1.404805 3.071629
## sample estimates:
## mean in group 0 mean in group 1
## 7.369019 5.130802
El p-value < 0.001, lo que indica una diferencia estadísticamente significativa entre los dos grupos.
La antigüedad promedio de los que no rotaron es más alta (7.37 años) comparada con los que sí rotaron (5.13 años).
El intervalo de confianza muestra que esta diferencia está entre 1.4 y 3 años, es decir, es real y consistente.
conclusión: La prueba t de Welch indica que hay una diferencia significativa en la antigüedad entre empleados que rotaron y los que no (p < 0.001). En promedio, los empleados que no rotaron llevan entre 1.4 y 3 años más en la empresa. Esto refuerza la hipótesis de que a menor antigüedad, mayor probabilidad de rotación.
3.2 VARIABLES CATEGÓRICAS vs ROTACIÓN
3.2.1 HORAS EXTRA vs ROTACIÓN
3.2.1.1 TABLA CRUZADA HORAS EXTRA vs ROTACIÓN
##
## 0 = No 1 = Sí
## No 944 110
## Si 289 127
Proporcionalmente, los empleados que hacen horas extra tienen una mayor proporción de rotación:
Si hacen horas extra: 127 / (289 + 127) ≈ 30.5% rotan.
Si no hacen horas extra: 110 / (944 + 110) ≈ 10.4% rotan.
Esto apoya la hipótesis de que trabajar horas extra podría estar relacionado con mayor desgaste o insatisfacción, y por tanto con mayor probabilidad de rotar.
3.2.1.2 PRUEBA DE FISHER HORAS EXTRA vs ROTACIÓN
##
## Fisher's Exact Test for Count Data
##
## data: tabla_he
## p-value < 2.2e-16
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 2.799096 5.078460
## sample estimates:
## odds ratio
## 3.767353
El p-value < 0.001 indica que la asociación entre Horas_Extra y Rotación es estadísticamente significativa.
La odds ratio (3.77) indica que las probabilidades de rotar son casi 4 veces mayores para quienes sí hacen horas extra, comparado con quienes no las hacen.
El intervalo de confianza no incluye el 1, esto confirma que el efecto es real y no producto del azar.
Conclusión: La prueba exacta de Fisher muestra que existe una asociación significativa entre la realización de horas extra y la rotación de empleados (p < 0.001). Además, la odds ratio = 3.77 indica que quienes hacen horas extra tienen casi cuatro veces más probabilidad de rotar que quienes no las hacen. Esto respalda fuertemente la hipótesis de que el exceso de trabajo podría ser un factor de riesgo para la rotación.
3.2.2 ESTADO CIVIL vs ROTACIÓN
3.2.2.1 TABLA CRUZADA ESTADO CIVIL vs ROTACIÓN
##
## 0 = No 1 = Sí
## Casado 589 84
## Divorciado 294 33
## Soltero 350 120
El grupo de empleados solteros tiene la mayor proporción de rotación (25.5%).
En contraste, casados y divorciados tienen tasas mucho menores (≈10–12%).
Esto respalda la hipótesis de que los solteros podrían tener más flexibilidad para cambiar de cargo o estar en etapas más inestables laboralmente.
3.2.2.2 PRUEBA DE FISHER ESTADO CIVIL vs ROTACIÓN
##
## Fisher's Exact Test for Count Data
##
## data: tabla_ec
## p-value = 3.024e-10
## alternative hypothesis: two.sided
El p-value es mucho menor que 0.05, por tanto existe una asociación estadísticamente significativa entre el Estado Civil y la Rotación.
Esto confirma que las diferencias observadas entre solteros, casados y divorciados no se deben al azar.
3.2.3 VIAJE DE NEGOCIO vs ROTACIÓN
3.2.3.1 TABLA CRUZADA VIAJE DE NEGOCIO vs ROTACIÓN
##
## 0 = No 1 = Sí
## Frecuentemente 208 69
## No_Viaja 138 12
## Raramente 887 156
Los empleados que viajan frecuentemente tienen la mayor tasa de rotación (≈25%).
En contraste, los que no viajan tienen la menor tasa (8%).
Aquellos que viajan raramente están en un punto medio (15%).
Esto apoya la hipótesis de que viajar con frecuencia podría afectar el equilibrio trabajo-vida, generando más rotación.
3.2.3.2 PRUEBA DE FISHER VIAJE DE NEGOCIO vs ROTACIÓN
##
## Fisher's Exact Test for Count Data with simulated p-value (based on
## 10000 replicates)
##
## data: tabla_vn
## p-value = 9.999e-05
## alternative hypothesis: two.sided
El p-value < 0.001, lo que indica que hay una asociación estadísticamente significativa entre la frecuencia de viajes de negocios y la rotación.
Esto confirma que la diferencia en las tasas de rotación según la frecuencia de viaje no es producto del azar.
Conclusión: La prueba de Fisher indica que existe una asociación significativa entre la frecuencia de viajes de negocios y la rotación de empleados (p < 0.001). En particular, se observa que los empleados que viajan frecuentemente tienen una tasa de rotación considerablemente mayor (25%), en comparación con quienes viajan raramente (15%) o no viajan (8%). Esto respalda la hipótesis de que viajar frecuentemente podría generar desgaste o desequilibrio vida-trabajo, aumentando la probabilidad de rotar.
| Variable | Coeficiente | Error Estándar | Estadístico z | Valor p |
|---|---|---|---|---|
| (Intercept) | -0.2410 | 0.3770 | -0.6393 | 0.5226 |
| Edad | -0.0283 | 0.0101 | -2.8113 | 0.0049 |
| Ingreso_Mensual | -0.0001 | 0.0000 | -2.7622 | 0.0057 |
| Antigüedad | -0.0409 | 0.0185 | -2.2086 | 0.0272 |
| Horas_ExtraSi | 1.4514 | 0.1573 | 9.2244 | 0.0000 |
| Estado_CivilDivorciado | -0.2702 | 0.2286 | -1.1820 | 0.2372 |
| Estado_CivilSoltero | 0.8195 | 0.1706 | 4.8036 | 0.0000 |
Viaje de NegociosNo_Viaja
|
-1.3029 | 0.3508 | -3.7144 | 0.0002 |
Viaje de NegociosRaramente
|
-0.6455 | 0.1804 | -3.5788 | 0.0003 |
Las variables categóricas también muestran patrones claros:
Horas_Extra tiene el efecto más fuerte y significativo en sentido positivo. Los empleados que hacen horas extra tienen mucha más probabilidad de rotar.
Estado_Civil Soltero también es un factor de riesgo significativo para rotación.
Viaje de Negocios muestra una asociación inversa con la rotación: los empleados que no viajan o viajan raramente presentan una menor probabilidad de rotar en comparación con quienes viajan frecuentemente.
Conclusión: El modelo de regresión logística logró identificar varios factores relevantes para predecir la rotación de empleados. Las variables cuantitativas Edad, Ingreso Mensual y Antigüedad presentan una asociación negativa con la rotación: empleados mayores, con mayor tiempo en la empresa y mejores salarios tienden a permanecer en sus cargos.
En cuanto a las variables categóricas, el factor más determinante fue realizar horas extra, lo cual incrementa significativamente la probabilidad de rotación. Además, ser soltero o tener una rutina de viajes frecuentes también se asocian con una mayor probabilidad de rotación.
Este modelo es útil para que la empresa focalice estrategias de retención: ajustar cargas laborales, revisar políticas de movilidad, y ofrecer beneficios que ayuden a fidelizar a perfiles jóvenes, con menor antigüedad o mayor carga de trabajo.
5.1 AREA BAJO LA CURVA (AUC)
## Area under the curve: 0.7704
El área bajo la curva (AUC) obtenida fue de 0.7704, lo que indica que el modelo tiene un buen desempeño discriminativo. Esto significa que el modelo es capaz de diferenciar correctamente, en aproximadamente el 77% de los casos, entre empleados que rotan y los que no. Si se elige al azar un empleado que rotó y uno que no rotó, el modelo asignará una mayor probabilidad de rotación al primero en el 77% de las veces.
5.2 CAPACIDAD DISCRIMINATIVA DEL MODELO DE ROTACION (ROC)
5.3 MATRIZ DE CONFUSIÓN
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 1213 194
## 1 20 43
##
## Accuracy : 0.8544
## 95% CI : (0.8353, 0.8721)
## No Information Rate : 0.8388
## P-Value [Acc > NIR] : 0.05381
##
## Kappa : 0.2349
##
## Mcnemar's Test P-Value : < 2e-16
##
## Sensitivity : 0.18143
## Specificity : 0.98378
## Pos Pred Value : 0.68254
## Neg Pred Value : 0.86212
## Prevalence : 0.16122
## Detection Rate : 0.02925
## Detection Prevalence : 0.04286
## Balanced Accuracy : 0.58261
##
## 'Positive' Class : 1
##
La evaluación del modelo de regresión logística, aplicado a la predicción de rotación de personal, evidencia un desempeño aceptable desde el punto de vista predictivo. El Área Bajo la Curva (AUC) fue de 0.7704, lo cual indica una capacidad discriminativa adecuada. Este valor sugiere que el modelo tiene un 77% de probabilidad de asignar una mayor puntuación de riesgo de rotación a un empleado que efectivamente rotará, en comparación con uno que no lo hará. Desde el análisis gráfico, la curva ROC se desvía de la diagonal de referencia, reforzando visualmente esta capacidad predictiva.
No obstante, al aplicar un punto de corte estándar de 0.5, los resultados de la matriz de confusión revelan importantes aspectos a considerar. La precisión global (accuracy) alcanza un 85.4%, lo que a primera vista podría parecer satisfactorio. Sin embargo, esta métrica está fuertemente influenciada por el desbalance en las clases (la mayoría de empleados no rotan).
Cuando se analizan métricas específicas:
-La sensibilidad (recall), es decir, la capacidad del modelo para identificar correctamente a los empleados que sí rotan, fue apenas del 18.1%, lo que evidencia una alta tasa de falsos negativos.
En contraste, la especificidad fue muy alta (98.4%), lo que indica que el modelo detecta muy bien a quienes no rotan.
El valor predictivo positivo fue de 68.2%, y el negativo de 86.2%, confirmando que el modelo es confiable al predecir la permanencia, pero deficiente al anticipar la rotación.
El índice Kappa de 0.23 refuerza la advertencia de que el desempeño real del modelo es limitado en términos de clasificación balanceada.
En conjunto, estos resultados indican que, si bien el modelo es estadísticamente significativo y muestra una buena discriminación general (AUC), su utilidad práctica para anticipar rotación es limitada bajo el punto de corte convencional. Se recomienda considerar estrategias adicionales como ajuste del umbral de decisión, re-muestreo de clases (undersampling/oversampling) o incluso técnicas de modelado más complejas para mejorar la sensibilidad sin sacrificar demasiada especificidad.
5.4 EVALUACIÓN DE MÉTRICAS PARA DISTINTOS PUNTOS DE CORTE
## Umbral Accuracy Sensibilidad Especificidad
## Accuracy 0.10 0.5653061 0.5166261 0.818565401
## Accuracy1 0.15 0.6877551 0.6796431 0.729957806
## Accuracy2 0.20 0.7557823 0.7761557 0.649789030
## Accuracy3 0.25 0.8122449 0.8605028 0.561181435
## Accuracy4 0.30 0.8401361 0.9148418 0.451476793
## Accuracy5 0.35 0.8530612 0.9480941 0.358649789
## Accuracy6 0.40 0.8503401 0.9610706 0.274261603
## Accuracy7 0.45 0.8496599 0.9716139 0.215189873
## Accuracy8 0.50 0.8544218 0.9837794 0.181434599
## Accuracy9 0.55 0.8517007 0.9894566 0.135021097
## Accuracy10 0.60 0.8448980 0.9918897 0.080168776
## Accuracy11 0.65 0.8455782 0.9967559 0.059071730
## Accuracy12 0.70 0.8442177 0.9983779 0.042194093
## Accuracy13 0.75 0.8435374 1.0000000 0.029535865
## Accuracy14 0.80 0.8394558 1.0000000 0.004219409
## Accuracy15 0.85 0.8387755 1.0000000 0.000000000
## Accuracy16 0.90 0.8387755 1.0000000 0.000000000
Al analizar distintas métricas de desempeño del modelo para varios puntos de corte, se observa que el umbral de 0.35 proporciona un equilibrio adecuado: una alta sensibilidad (94.8%) garantiza que la mayoría de los casos de rotación se detecten correctamente, lo cual es deseable en contextos preventivos de gestión de talento. Aunque la especificidad disminuye, el costo de intervenir a un empleado que no rotaría es generalmente menor que el de perder un empleado clave sin advertencia. Por tanto, se sugiere emplear un umbral de 0.35 para la toma de decisiones sobre intervención.
5.5 GRÁFICO DESEMPEÑO DEL MODELO SEGÚN PUNTO DE CORTE
En este gráfico, se trazan tres métricas clave:
Alta sensibilidad = pocos empleados que rotan son clasificados como si no lo hicieran (bajos falsos negativos).
Especificidad (azul): la capacidad del modelo para identificar correctamente a quienes no rotan (verdaderos negativos).
Alta especificidad = pocos falsos positivos.
La especificidad disminuye al bajar el umbral, porque comienzas a etiquetar como “rotan” a muchos que realmente no lo hacen.
Accuracy (verde): proporción total de predicciones correctas: El accuracy se estabiliza alrededor de 0.85 para umbrales entre 0.3 y 0.5, indicando buen desempeño general.
6.1 CREACIÓN DE UN EMPLEADO HIPOTÉTICO
| Edad | Ingreso_Mensual | Antigüedad | Horas_Extra | Estado_Civil | Viaje de Negocios |
|---|---|---|---|---|---|
| 28 | 3200 | 2 | Si | Soltero | Frecuentemente |
6.2 ESTIMACIÓN DE LA PROBABILIDAD DE ROTACIÓN DEL EMPLEADO HIPOTÉTICO (PUNTO DE CORTE DE 0.35)
## 1
## 0.7151812
## Probabilidad estimada de rotación: 0.7152
## Clasificación del empleado con umbral 0.35: Probable Rotación (1)
El modelo de regresión logística estimó una probabilidad del 71.5% de que el empleado hipotético rote en el siguiente período. Esta probabilidad está muy por encima de umbrales típicos de intervención (como 0.5 o incluso 0.6), lo que sugiere un alto riesgo de salida o cambio de cargo.
El perfil del empleado presenta varias características que, según el modelo, incrementan la probabilidad de rotación:
Edad joven (28 años): el modelo mostró que empleados más jóvenes tienden a rotar más.
Salario moderadamente bajo ($3200): en línea con la hipótesis de que salarios más bajos están asociados a mayor rotación.
Antigüedad corta (2 años): poco tiempo en el cargo puede estar vinculado a incertidumbre o búsqueda de nuevas oportunidades.
Horas extra y viajes frecuentes: ambas variables se relacionaron positivamente con la rotación, posiblemente por desgaste laboral o desbalance vida-trabajo.
Estado civil: soltero: según el análisis, los empleados solteros tienen mayor probabilidad de rotar, quizás por mayor flexibilidad o menor arraigo.
Decisión informada basada en el modelo:
Dado que la probabilidad supera con claridad el umbral de decisión, este caso se clasifica como “alto riesgo de rotación”. Por tanto, es recomendable tomar acciones preventivas para mitigar esta posibilidad.
Recomendaciones estratégicas
PARA EMPLEADOS VINCULADOS:
Revisión de la carga laboral o reducción de horas extra.
Incentivos económicos o bonificaciones por retención.
Ofrecer rutas claras de crecimiento o desarrollo profesional.
Programas de bienestar para empleados que viajan frecuentemente. De acuerdo con el modelo de regresión logística estimado, el empleado hipotético —cuyas características incluyen: 28 años, ingreso mensual de 3.200, solo 2 años de antigüedad en la empresa, trabaja horas extra, es soltero y viaja frecuentemente por negocios— presenta una probabilidad estimada de rotación de 71,5%.
PARA EMPLEADOS A VINCULAR:
Realizar un proceso de selección que contemple estas variables y se haga una previa clasificación del aspirante mediante el modelo, para que sean vinculados a la empresa empleados con menor riego de rotación.
A partir del análisis realizado y la estimación del modelo de regresión logística, se identificaron factores significativos que influyen en la rotación de personal en la empresa. Las variables más relevantes fueron:
Edad (cuantitativa)
Ingreso Mensual (cuantitativa)
Antigüedad (cuantitativa)
Horas Extra (categórica)
Estado Civil: Soltero (categórica)
Viaje de Negocios: Raramente / No Viaja (categórica)
7.1 Principales hallazgos:
Los empleados más jóvenes presentan mayor riesgo de rotación, posiblemente debido a su búsqueda de mejores oportunidades o menor arraigo organizacional.
Los salarios bajos están asociados a mayor rotación, lo que indica la importancia de una política salarial competitiva.
La baja antigüedad también incrementa la probabilidad de rotación, especialmente en los primeros años de vinculación laboral.
Realizar horas extra se relaciona de manera significativa con mayor rotación, lo cual puede estar asociado a sobrecarga de trabajo, desgaste o desequilibrio vida-trabajo.
Ser soltero mostró mayor probabilidad de rotación que estar casado o divorciado, lo cual puede relacionarse con mayor movilidad laboral o menor necesidad de estabilidad.
-Viajar frecuentemente por motivos laborales también está vinculado con una mayor propensión a la rotación.
7.2 Estrategia recomendada para reducir la rotación
Con base en lo anterior, se sugiere implementar una estrategia integral de retención de talento, compuesta por los siguientes ejes:
7.2.1 Gestión del talento joven
Programas de desarrollo profesional acelerado (carreras internas).
Oportunidades de formación continua y participación en proyectos estratégicos.
7.2.2 Compensación justa y competitiva
Revisión y ajuste de escalas salariales, priorizando a los perfiles con mayor riesgo de rotación (bajos ingresos).
Bonos por permanencia o desempeño vinculados a metas.
7.2.3 Estrategias de vinculación temprana
Mentoring o acompañamiento a empleados con baja antigüedad.
Encuentros periódicos de retroalimentación durante los primeros 6 a 12 meses de contrato.
7.2.4 Control y compensación de las horas extra
Monitoreo y redistribución de cargas laborales.
Compensaciones no monetarias como tiempo libre o beneficios adicionales.
7.2.5 Bienestar emocional y conciliación vida-trabajo
Reducción de viajes laborales excesivos.
Flexibilidad horaria o modalidades híbridas cuando sea posible.
Actividades de integración para reforzar sentido de pertenencia.
La rotación del personal no es aleatoria, sino que responde a patrones observables en variables laborales y sociodemográficas. La identificación temprana de perfiles con alto riesgo de rotación, mediante modelos predictivos como el desarrollado en este análisis, permite tomar decisiones basadas en datos y aplicar estrategias específicas para retener el talento clave, reduciendo así los costos y el impacto negativo que la alta rotación genera en la productividad organizacional.