MODELOS ESTADISTICOS PARA LA TOMA DE DECISIONES

UNIDAD 3: MODELOS LINEALES GENERALIZADOS

ACTIVIDAD 3: ROTACIÓN DE CARGO

  1. ENTENDIMIENTO DE LOS DATOS

0.1 CLASIFICACION DE VARIABLES

## Variables categóricas nominales:
## [1] "Rotación"          "Viaje de Negocios" "Departamento"     
## [4] "Campo_Educación"   "Genero"            "Cargo"            
## [7] "Estado_Civil"      "Horas_Extra"
## 
##  Variables categóricas ordinales (numéricas con niveles):
## [1] "Rendimiento_Laboral"     "Educación"              
## [3] "Satisfacción_Ambiental"  "Satisfación_Laboral"    
## [5] "Equilibrio_Trabajo_Vida"
## 
##  Variables numéricas reales:
##  [1] "Edad"                        "Distancia_Casa"             
##  [3] "Ingreso_Mensual"             "Trabajos_Anteriores"        
##  [5] "Porcentaje_aumento_salarial" "Años_Experiencia"           
##  [7] "Capacitaciones"              "Antigüedad"                 
##  [9] "Antigüedad_Cargo"            "Años_ultima_promoción"      
## [11] "Años_acargo_con_mismo_jefe"
## Variables categóricas nominales: 8
## Variables categóricas ordinales: 5
## Variables numéricas reales: 11

0.2 DATOS FALTANTES VARIABLES CUANTITATIVAS

##                                                Variable NA_count Completos
## Edad                                               Edad        0      TRUE
## Distancia_Casa                           Distancia_Casa        0      TRUE
## Ingreso_Mensual                         Ingreso_Mensual        0      TRUE
## Trabajos_Anteriores                 Trabajos_Anteriores        0      TRUE
## Porcentaje_aumento_salarial Porcentaje_aumento_salarial        0      TRUE
## Años_Experiencia                       Años_Experiencia        0      TRUE
## Capacitaciones                           Capacitaciones        0      TRUE
## Antigüedad                                   Antigüedad        0      TRUE
## Antigüedad_Cargo                       Antigüedad_Cargo        0      TRUE
## Años_ultima_promoción             Años_ultima_promoción        0      TRUE
## Años_acargo_con_mismo_jefe   Años_acargo_con_mismo_jefe        0      TRUE

0.3 DATOS FALTANTES VARIABLES CATEGÓRICAS ORDINALES

##                                        Variable NA_count Completos
## Rendimiento_Laboral         Rendimiento_Laboral        0      TRUE
## Educación                             Educación        0      TRUE
## Satisfacción_Ambiental   Satisfacción_Ambiental        0      TRUE
## Satisfación_Laboral         Satisfación_Laboral        0      TRUE
## Equilibrio_Trabajo_Vida Equilibrio_Trabajo_Vida        0      TRUE

0.4 DATOS FALTANTES VARIABLES CATEGÓRICAS NOMINALES

##                            Variable Valores_faltantes Completos
## Rotación                   Rotación                 0      TRUE
## Viaje de Negocios Viaje de Negocios                 0      TRUE
## Departamento           Departamento                 0      TRUE
## Campo_Educación     Campo_Educación                 0      TRUE
## Genero                       Genero                 0      TRUE
## Cargo                         Cargo                 0      TRUE
## Estado_Civil           Estado_Civil                 0      TRUE
## Horas_Extra             Horas_Extra                 0      TRUE
  1. SELECCIÓN DE VARIABLES

1.1 SELECCIÓN VARIABLES CUANTITATIVAS

1.1.1 VARIABLE INGRESO MENSUAL

##  Ingreso mensual más bajo: 1009
##  Ingreso mensual más alto: 19999
Distribución de la rotación según rangos de ingreso mensual
Rango_Ingreso Rotación n
[1009,2911] No 261
[1009,2911] Si 108
(2911,4919] No 314
(2911,4919] Si 52
(4919,8379] No 328
(4919,8379] Si 39
(8379,19999] No 330
(8379,19999] Si 38

1.1.3 VARIABLE ANTIGUEDAD_CARGO

Distribución de la rotación según antigüedad en el cargo
Rango_Antiguedad Rotación n
0-2 No 521
0-2 Si 152
3-5 No 243
3-5 Si 32
6-10 No 396
6-10 Si 48
11+ No 73
11+ Si 5

Número de empleados por rango de antigüedad en el cargo
Rango_Antiguedad n
0-2 673
3-5 275
6-10 444
11+ 78
Porcentaje de rotación según la antigüedad en el cargo
Rango_Antiguedad Rotación n porcentaje
0-2 No 521 77.4
0-2 Si 152 22.6
3-5 No 243 88.4
3-5 Si 32 11.6
6-10 No 396 89.2
6-10 Si 48 10.8
11+ No 73 93.6
11+ Si 5 6.4

1.1.3 VARIABLE EDAD

## # A tibble: 8 × 3
##   Rango_Edad Rotación     n
##   <fct>      <chr>    <int>
## 1 18-30      No         286
## 2 18-30      Si         100
## 3 31-40      No         534
## 4 31-40      Si          85
## 5 41-50      No         288
## 6 41-50      Si          34
## 7 51-60      No         125
## 8 51-60      Si          18

## # A tibble: 4 × 2
##   Rango_Edad     n
##   <fct>      <int>
## 1 18-30        386
## 2 31-40        619
## 3 41-50        322
## 4 51-60        143

1.1.4 VARIABLE ANTIGUEDAD

## # A tibble: 10 × 3
##    Rango_Antiguedad Rotación     n
##    <fct>            <chr>    <int>
##  1 0-2              No         240
##  2 0-2              Si         102
##  3 3-5              No         374
##  4 3-5              Si          60
##  5 6-10             No         393
##  6 6-10             Si          55
##  7 11-20            No         168
##  8 11-20            Si          12
##  9 21+              No          58
## 10 21+              Si           8

## # A tibble: 10 × 4
## # Groups:   Rango_Antiguedad [5]
##    Rango_Antiguedad Rotación     n porcentaje
##    <fct>            <chr>    <int>      <dbl>
##  1 0-2              No         240       70.2
##  2 0-2              Si         102       29.8
##  3 3-5              No         374       86.2
##  4 3-5              Si          60       13.8
##  5 6-10             No         393       87.7
##  6 6-10             Si          55       12.3
##  7 11-20            No         168       93.3
##  8 11-20            Si          12        6.7
##  9 21+              No          58       87.9
## 10 21+              Si           8       12.1

1.1.5 VARIABLE DISTANCIA_CASA

## # A tibble: 8 × 3
##   Rango_Distancia Rotación     n
##   <fct>           <chr>    <int>
## 1 0-5 km          No         545
## 2 0-5 km          Si          87
## 3 6-10 km         No         337
## 4 6-10 km         Si          57
## 5 11-20 km        No         192
## 6 11-20 km        Si          48
## 7 21-30 km        No         159
## 8 21-30 km        Si          45

## # A tibble: 8 × 4
## # Groups:   Rango_Distancia [4]
##   Rango_Distancia Rotación     n porcentaje
##   <fct>           <chr>    <int>      <dbl>
## 1 0-5 km          No         545       86.2
## 2 0-5 km          Si          87       13.8
## 3 6-10 km         No         337       85.5
## 4 6-10 km         Si          57       14.5
## 5 11-20 km        No         192       80  
## 6 11-20 km        Si          48       20  
## 7 21-30 km        No         159       77.9
## 8 21-30 km        Si          45       22.1

1.2 SELECCIÓN VARIABLES CATEGÓRICAS

1.2.1 VARIABLE ESTADO CIVIL

## # A tibble: 6 × 3
##   Estado_Civil Rotación     n
##   <chr>        <chr>    <int>
## 1 Casado       No         589
## 2 Casado       Si          84
## 3 Divorciado   No         294
## 4 Divorciado   Si          33
## 5 Soltero      No         350
## 6 Soltero      Si         120

## # A tibble: 6 × 4
## # Groups:   Estado_Civil [3]
##   Estado_Civil Rotación     n porcentaje
##   <chr>        <chr>    <int>      <dbl>
## 1 Casado       No         589       87.5
## 2 Casado       Si          84       12.5
## 3 Divorciado   No         294       89.9
## 4 Divorciado   Si          33       10.1
## 5 Soltero      No         350       74.5
## 6 Soltero      Si         120       25.5

1.2.2 VARIABLE VIAJE DE NEGOCIO

## # A tibble: 6 × 3
##   `Viaje de Negocios` Rotación     n
##   <chr>               <chr>    <int>
## 1 Frecuentemente      No         208
## 2 Frecuentemente      Si          69
## 3 No_Viaja            No         138
## 4 No_Viaja            Si          12
## 5 Raramente           No         887
## 6 Raramente           Si         156

## # A tibble: 6 × 4
## # Groups:   Viaje de Negocios [3]
##   `Viaje de Negocios` Rotación     n porcentaje
##   <chr>               <chr>    <int>      <dbl>
## 1 Frecuentemente      No         208       75.1
## 2 Frecuentemente      Si          69       24.9
## 3 No_Viaja            No         138       92  
## 4 No_Viaja            Si          12        8  
## 5 Raramente           No         887       85  
## 6 Raramente           Si         156       15

1.2.3 VARIABLE EDUCACION

## # A tibble: 10 × 3
##    Nivel_Educacion      Rotación     n
##    <chr>                <chr>    <int>
##  1 1: Primaria          No         139
##  2 1: Primaria          Si          31
##  3 2: Secundaria        No         238
##  4 2: Secundaria        Si          44
##  5 3: Técnico/Tecnólogo No         473
##  6 3: Técnico/Tecnólogo Si          99
##  7 4: Pregrado          No         340
##  8 4: Pregrado          Si          58
##  9 5: Posgrado          No          43
## 10 5: Posgrado          Si           5

## # A tibble: 10 × 4
## # Groups:   Nivel_Educacion [5]
##    Nivel_Educacion      Rotación     n porcentaje
##    <chr>                <chr>    <int>      <dbl>
##  1 1: Primaria          No         139       81.8
##  2 1: Primaria          Si          31       18.2
##  3 2: Secundaria        No         238       84.4
##  4 2: Secundaria        Si          44       15.6
##  5 3: Técnico/Tecnólogo No         473       82.7
##  6 3: Técnico/Tecnólogo Si          99       17.3
##  7 4: Pregrado          No         340       85.4
##  8 4: Pregrado          Si          58       14.6
##  9 5: Posgrado          No          43       89.6
## 10 5: Posgrado          Si           5       10.4
## # A tibble: 5 × 3
##   Nivel_Educacion          n porcentaje
##   <chr>                <int>      <dbl>
## 1 1: Primaria            170       11.6
## 2 2: Secundaria          282       19.2
## 3 3: Técnico/Tecnólogo   572       38.9
## 4 4: Pregrado            398       27.1
## 5 5: Posgrado             48        3.3

1.2.4 VARIABLE HORAS EXTRA

## # A tibble: 4 × 3
##   Horas_Extra Rotación     n
##   <chr>       <chr>    <int>
## 1 No          No         944
## 2 No          Si         110
## 3 Si          No         289
## 4 Si          Si         127

## # A tibble: 4 × 4
## # Groups:   Horas_Extra [2]
##   Horas_Extra Rotación     n porcentaje
##   <chr>       <chr>    <int>      <dbl>
## 1 No          No         944       89.6
## 2 No          Si         110       10.4
## 3 Si          No         289       69.5
## 4 Si          Si         127       30.5

1.2.5 VARIABLE EQUILIBRIO_TRABAJO_VIDA

## # A tibble: 8 × 3
##   Equilibrio_Etiqueta Rotación     n
##   <chr>               <chr>    <int>
## 1 1: Muy bajo         No          55
## 2 1: Muy bajo         Si          25
## 3 2: Bajo             No         286
## 4 2: Bajo             Si          58
## 5 3: Medio            No         766
## 6 3: Medio            Si         127
## 7 4: Alto             No         126
## 8 4: Alto             Si          27

## # A tibble: 8 × 4
## # Groups:   Equilibrio_Etiqueta [4]
##   Equilibrio_Etiqueta Rotación     n porcentaje
##   <chr>               <chr>    <int>      <dbl>
## 1 1: Muy bajo         No          55       68.8
## 2 1: Muy bajo         Si          25       31.2
## 3 2: Bajo             No         286       83.1
## 4 2: Bajo             Si          58       16.9
## 5 3: Medio            No         766       85.8
## 6 3: Medio            Si         127       14.2
## 7 4: Alto             No         126       82.4
## 8 4: Alto             Si          27       17.6

1.2.6 VARIABLE CARGO

## # A tibble: 18 × 3
##    Cargo                   Rotación     n
##    <chr>                   <chr>    <int>
##  1 Director_Investigación  No          78
##  2 Director_Investigación  Si           2
##  3 Director_Manofactura    No         135
##  4 Director_Manofactura    Si          10
##  5 Ejecutivo_Ventas        No         269
##  6 Ejecutivo_Ventas        Si          57
##  7 Gerente                 No          97
##  8 Gerente                 Si           5
##  9 Investigador_Cientifico No         245
## 10 Investigador_Cientifico Si          47
## 11 Recursos_Humanos        No          40
## 12 Recursos_Humanos        Si          12
## 13 Representante_Salud     No         122
## 14 Representante_Salud     Si           9
## 15 Representante_Ventas    No          50
## 16 Representante_Ventas    Si          33
## 17 Tecnico_Laboratorio     No         197
## 18 Tecnico_Laboratorio     Si          62

## # A tibble: 18 × 4
## # Groups:   Cargo [9]
##    Cargo                   Rotación     n porcentaje
##    <chr>                   <chr>    <int>      <dbl>
##  1 Director_Investigación  No          78       97.5
##  2 Director_Investigación  Si           2        2.5
##  3 Director_Manofactura    No         135       93.1
##  4 Director_Manofactura    Si          10        6.9
##  5 Ejecutivo_Ventas        No         269       82.5
##  6 Ejecutivo_Ventas        Si          57       17.5
##  7 Gerente                 No          97       95.1
##  8 Gerente                 Si           5        4.9
##  9 Investigador_Cientifico No         245       83.9
## 10 Investigador_Cientifico Si          47       16.1
## 11 Recursos_Humanos        No          40       76.9
## 12 Recursos_Humanos        Si          12       23.1
## 13 Representante_Salud     No         122       93.1
## 14 Representante_Salud     Si           9        6.9
## 15 Representante_Ventas    No          50       60.2
## 16 Representante_Ventas    Si          33       39.8
## 17 Tecnico_Laboratorio     No         197       76.1
## 18 Tecnico_Laboratorio     Si          62       23.9

1.2.7 VARIABLE DEPARTAMENTO

## # A tibble: 6 × 3
##   Departamento Rotación     n
##   <chr>        <chr>    <int>
## 1 IyD          No         828
## 2 IyD          Si         133
## 3 RH           No          51
## 4 RH           Si          12
## 5 Ventas       No         354
## 6 Ventas       Si          92

## # A tibble: 6 × 4
## # Groups:   Departamento [3]
##   Departamento Rotación     n porcentaje
##   <chr>        <chr>    <int>      <dbl>
## 1 IyD          No         828       86.2
## 2 IyD          Si         133       13.8
## 3 RH           No          51       81  
## 4 RH           Si          12       19  
## 5 Ventas       No         354       79.4
## 6 Ventas       Si          92       20.6

1.2.8 VARIABLE SATISFACCION LABORAL

Distribución de la rotación según satisfacción laboral
Satisfaccion_Etiqueta Rotación n
1: Muy insatisfecho No 223
1: Muy insatisfecho Si 66
2: Insatisfecho No 234
2: Insatisfecho Si 46
3: Satisfecho No 369
3: Satisfecho Si 73
4: Muy satisfecho No 407
4: Muy satisfecho Si 52

Basado en el analisis anterior, se seleccionan tres variables categóricas y tres cuantitativas que, según el criterio del analista, pueden estar relacionadas con la rotación de personal. Estas variables serán utilizadas en los análisis posteriores.

Variables Categóricas

Horas_Extra Hipótesis: Las personas que trabajan horas extra están más expuestas al desgaste físico y mental, lo que puede incrementar su intención de rotar.

Relación esperada: Positiva (mayor rotación entre quienes hacen horas extra).

Estado_Civil Hipótesis: Personas solteras pueden tener mayor flexibilidad para cambiar de cargo o buscar nuevas oportunidades, mientras que personas casadas o con responsabilidades familiares podrían preferir la estabilidad.

Relación esperada: Mayor rotación entre personas solteras.

Viaje_de_Negocios Hipótesis: Viajar frecuentemente por trabajo puede afectar el equilibrio vida-trabajo, generando fatiga o insatisfacción que lleve a considerar un cambio de cargo.

Relación esperada: Mayor rotación en quienes viajan con frecuencia.

Variables Cuantitativas

Ingreso_Mensual

Hipótesis: Empleados con menores ingresos pueden sentirse menos valorados o tener mayor incentivo para buscar otro empleo o cargo mejor remunerado.

Relación esperada: Negativa (a menor ingreso, mayor rotación).

Edad Hipótesis: Personas más jóvenes podrían estar en búsqueda de crecimiento o mejores condiciones, mientras que personas mayores pueden valorar más la estabilidad.

Relación esperada: Negativa (mayor rotación en empleados más jóvenes).

Distancia_Casa Hipótesis: Una mayor distancia entre la casa y el lugar de trabajo puede generar cansancio y desmotivación, lo que podría aumentar la intención de cambiar de cargo o empresa.

Relación esperada: Positiva (a mayor distancia, mayor rotación).

  1. ANÁLISIS UNIVARIADO

2.1 ANÀLISIS UNIVARIADO DE VARIABLES CUANTITATIVAS

2.1.1 VARIABLE INGRESO_MENSUAL

2.1.1.1 ESTADÍSTICA DESCRIPTIVA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1009    2911    4919    6503    8379   19999

-El ingreso promedio (6503) es mayor que la mediana (4919), lo cual indica que la distribución está sesgada a la derecha (hay empleados con ingresos muy altos que elevan el promedio).

-El rango de ingresos es amplio: desde 1009 hasta 19999.

-El 25% más bajo gana menos de 2911, y el 25% más alto gana más de 8379.

El histograma muestra la distribución de los ingresos mensuales de los empleados de la organización. A partir del gráfico, se pueden identificar varios aspectos clave:

-Rango amplio: La distribución abarca desde aproximadamente 1000 hasta 20000, lo que indica una importante heterogeneidad salarial dentro de la organización.

El boxplot permite observar visualmente la distribución, la dispersión y los valores atípicos del ingreso mensual en la empresa. A partir del gráfico se concluye lo siguiente:

2.1.2 VARIABLE EDAD

2.1.2.1 ESTADÍSTICA DESCRIPTIVA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   30.00   36.00   36.92   43.00   60.00

2.1.2.2 HISTOGRAMA El histograma muestra la distribución de edades de los empleados en la empresa. A partir del gráfico, se pueden extraer las siguientes observaciones:

2.1.2.3 BOXPLOT

El boxplot permite visualizar la distribución de edades de los empleados y detectar posibles asimetrías o valores atípicos. A partir del gráfico se observa lo siguiente:

2.1.3 VARIABLE DISTANCIA_CASA

2.1.3.1 ESTADÍSTICA DESCRIPTIVA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   7.000   9.193  14.000  29.000

2.1.3.2 HISTOGRAMA El histograma muestra cómo se distribuyen las distancias desde la casa hasta el lugar de trabajo para los empleados. A partir del gráfico, se pueden destacar los siguientes puntos:

2.1.3.3 BOXPLOT Este boxplot muestra cómo se distribuyen las distancias desde el hogar al lugar de trabajo. A partir del gráfico se interpreta:

2.1.4 SELECCIÓN DE VARIABLE ADICIONAL ANTIGUEDAD (REEMPLAZO VARIABLE DISTANCIA_CASA)

2.1.4.1 ESTADÍSTICA DESCRIPTIVA

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   3.000   5.000   7.008   9.000  40.000

2.1.43.2 HISTOGRAMA Este gráfico muestra la distribución del tiempo (en años) que los empleados llevan trabajando en la empresa. Observamos lo siguiente:

2.1.3.3 BOXPLOT Este boxplot representa gráficamente la dispersión y comportamiento de la antigüedad de los empleados en la empresa (años desde su ingreso). A partir del gráfico, se puede observar:

2.2 ANÀLISIS UNIVARIADO DE VARIABLES CATEGÓRICAS

2.2.1 VARIABLE HORAS_EXTRA

2.2.1.1 FRECUENCIA ABSOLUTA Y RELATIVA

## # A tibble: 2 × 3
##   Horas_Extra     n porcentaje
##   <chr>       <int>      <dbl>
## 1 No           1054       71.7
## 2 Si            416       28.3

Esto nos dice que la mayoría de los trabajadores no está haciendo horas adicionales, lo cual puede interpretarse como que:

Esta variable puede ser relevante en el análisis de rotación porque:

2.2.1.2 GRÁFICO DE BARRAS Este gráfico muestra la distribución de empleados según si realizan o no horas extra. De él se observa:

La diferencia entre ambos grupos es clara y significativa, lo cual se ve reflejado en las alturas contrastantes de las barras.

2.2.2 VARIABLE ESTADO_CIVIL

2.2.2.1 FRECUENCIA ABSOLUTA Y RELATIVA

## # A tibble: 3 × 3
##   Estado_Civil     n porcentaje
##   <chr>        <int>      <dbl>
## 1 Casado         673       45.8
## 2 Divorciado     327       22.2
## 3 Soltero        470       32

Conclusión preliminar: La variable Estado_Civil presenta una distribución relativamente equilibrada entre los tres grupos, pero los empleados casados dominan la muestra. Esto podría ser relevante para el análisis de rotación, ya que el estado civil puede influir en la disposición al cambio, la necesidad de estabilidad o la flexibilidad de horario y ubicación.

2.2.2.2 GRÁFICO DE BARRAS Este gráfico de barras muestra la frecuencia de empleados según su estado civil. Se observan tres grupos bien definidos:

2.2.3 VARIABLE VIAJE DE NEGOCIOS

2.2.3.1 FRECUENCIA ABSOLUTA Y RELATIVA

## # A tibble: 3 × 3
##   `Viaje de Negocios`     n porcentaje
##   <chr>               <int>      <dbl>
## 1 Frecuentemente        277       18.8
## 2 No_Viaja              150       10.2
## 3 Raramente            1043       71

2.2.2.2 GRÁFICO DE BARRAS El gráfico de barras muestra la frecuencia con la que los empleados realizan viajes laborales:

  1. ANÁLISIS BIVARIADO

3.1.VARIABLES CUANTITATIVAS vs ROTACIÓN

3.1.1 EDAD vs ROTACIÓN

3.1.1.1 COMPARACIÓN DE MEDIAS EDAD vs ROTACIÓN

## # A tibble: 2 × 3
##   Rotacion_etiqueta media_edad    sd
##   <fct>                  <dbl> <dbl>
## 1 0 = No                  37.6  8.89
## 2 1 = Sí                  33.6  9.69

3.1.1.2 BOXPLOT EDAD vs ROTACIÓN - El gráfico Boxplot confirma lo observado en la tabla anterior: los empleados que rotan tienden a ser más jóvenes.

3.1.1.3 PRUEBA DE HIPÓTESIS EDAD vs ROTACIÓN

## 
##  Welch Two Sample t-test
## 
## data:  Edad by Rotacion_binaria
## t = 5.8291, df = 316.94, p-value = 1.371e-08
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  2.619728 5.289170
## sample estimates:
## mean in group 0 mean in group 1 
##        37.56204        33.60759

Conclusión: La prueba t sugiere que la edad tiene un efecto significativo en la rotación de empleados. En promedio, quienes no rotan tienen 3.95 años más que quienes sí rotan, y esta diferencia es estadísticamente significativa (p < 0.001). Esto respalda la hipótesis de que los empleados más jóvenes presentan mayor probabilidad de rotar.

3.1.2 INGRESO MENSUAL vs ROTACIÓN

3.1.1.1 COMPARACIÓN DE MEDIAS INGRESO MENSUAL vs ROTACIÓN

## # A tibble: 2 × 3
##   Rotacion_etiqueta media_ingreso    sd
##   <fct>                     <dbl> <dbl>
## 1 0 = No                    6833. 4818.
## 2 1 = Sí                    4787. 3640.

3.1.1.2 BOXPLOT INGRESO MENSUAL vs ROTACIÓN -Se confirma lo visto en el resumen numérico: los empleados que rotaron ganan menos, en promedio.

3.1.1.3 PRUEBA DE HIPÓTESIS INGRESO MENSUAL vs ROTACIÓN

## 
##  Welch Two Sample t-test
## 
## data:  Ingreso_Mensual by Rotacion_binaria
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  1508.244 2583.050
## sample estimates:
## mean in group 0 mean in group 1 
##        6832.740        4787.093

3.1.3 ANTIGUEDAD vs ROTACIÓN

3.1.3.1 COMPARACIÓN DE MEDIAS ANTIGUEDAD vs ROTACIÓN

## # A tibble: 2 × 3
##   Rotacion_etiqueta media_antig    sd
##   <fct>                   <dbl> <dbl>
## 1 0 = No                   7.37  6.10
## 2 1 = Sí                   5.13  5.95

3.1.3.2 BOXPLOT ANTIGUEDAD vs ROTACIÓN - Refuerza la hipótesis de que los empleados con menor antigüedad tienen mayor probabilidad de rotar.

3.1.3.3 PRUEBA DE HIPÓTESIS ANTIGUEDAD vs ROTACIÓN

## 
##  Welch Two Sample t-test
## 
## data:  Antigüedad by Rotacion_binaria
## t = 5.2826, df = 338.21, p-value = 2.286e-07
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  1.404805 3.071629
## sample estimates:
## mean in group 0 mean in group 1 
##        7.369019        5.130802

conclusión: La prueba t de Welch indica que hay una diferencia significativa en la antigüedad entre empleados que rotaron y los que no (p < 0.001). En promedio, los empleados que no rotaron llevan entre 1.4 y 3 años más en la empresa. Esto refuerza la hipótesis de que a menor antigüedad, mayor probabilidad de rotación.

3.2 VARIABLES CATEGÓRICAS vs ROTACIÓN

3.2.1 HORAS EXTRA vs ROTACIÓN

3.2.1.1 TABLA CRUZADA HORAS EXTRA vs ROTACIÓN

##     
##      0 = No 1 = Sí
##   No    944    110
##   Si    289    127

Proporcionalmente, los empleados que hacen horas extra tienen una mayor proporción de rotación:

Esto apoya la hipótesis de que trabajar horas extra podría estar relacionado con mayor desgaste o insatisfacción, y por tanto con mayor probabilidad de rotar.

3.2.1.2 PRUEBA DE FISHER HORAS EXTRA vs ROTACIÓN

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla_he
## p-value < 2.2e-16
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  2.799096 5.078460
## sample estimates:
## odds ratio 
##   3.767353

Conclusión: La prueba exacta de Fisher muestra que existe una asociación significativa entre la realización de horas extra y la rotación de empleados (p < 0.001). Además, la odds ratio = 3.77 indica que quienes hacen horas extra tienen casi cuatro veces más probabilidad de rotar que quienes no las hacen. Esto respalda fuertemente la hipótesis de que el exceso de trabajo podría ser un factor de riesgo para la rotación.

3.2.2 ESTADO CIVIL vs ROTACIÓN

3.2.2.1 TABLA CRUZADA ESTADO CIVIL vs ROTACIÓN

##             
##              0 = No 1 = Sí
##   Casado        589     84
##   Divorciado    294     33
##   Soltero       350    120

3.2.2.2 PRUEBA DE FISHER ESTADO CIVIL vs ROTACIÓN

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla_ec
## p-value = 3.024e-10
## alternative hypothesis: two.sided

3.2.3 VIAJE DE NEGOCIO vs ROTACIÓN

3.2.3.1 TABLA CRUZADA VIAJE DE NEGOCIO vs ROTACIÓN

##                 
##                  0 = No 1 = Sí
##   Frecuentemente    208     69
##   No_Viaja          138     12
##   Raramente         887    156

3.2.3.2 PRUEBA DE FISHER VIAJE DE NEGOCIO vs ROTACIÓN

## 
##  Fisher's Exact Test for Count Data with simulated p-value (based on
##  10000 replicates)
## 
## data:  tabla_vn
## p-value = 9.999e-05
## alternative hypothesis: two.sided
  1. ESTIMACIÓN DEL MODELO
    Resultados del modelo de regresión logística
    Variable Coeficiente Error Estándar Estadístico z Valor p
    (Intercept) -0.2410 0.3770 -0.6393 0.5226
    Edad -0.0283 0.0101 -2.8113 0.0049
    Ingreso_Mensual -0.0001 0.0000 -2.7622 0.0057
    Antigüedad -0.0409 0.0185 -2.2086 0.0272
    Horas_ExtraSi 1.4514 0.1573 9.2244 0.0000
    Estado_CivilDivorciado -0.2702 0.2286 -1.1820 0.2372
    Estado_CivilSoltero 0.8195 0.1706 4.8036 0.0000
    Viaje de NegociosNo_Viaja -1.3029 0.3508 -3.7144 0.0002
    Viaje de NegociosRaramente -0.6455 0.1804 -3.5788 0.0003

Las variables categóricas también muestran patrones claros:

En cuanto a las variables categóricas, el factor más determinante fue realizar horas extra, lo cual incrementa significativamente la probabilidad de rotación. Además, ser soltero o tener una rutina de viajes frecuentes también se asocian con una mayor probabilidad de rotación.

Este modelo es útil para que la empresa focalice estrategias de retención: ajustar cargas laborales, revisar políticas de movilidad, y ofrecer beneficios que ayuden a fidelizar a perfiles jóvenes, con menor antigüedad o mayor carga de trabajo.

  1. EVALUACION DEL PODER PREDICTIVO DEL MODELO

5.1 AREA BAJO LA CURVA (AUC)

## Area under the curve: 0.7704

El área bajo la curva (AUC) obtenida fue de 0.7704, lo que indica que el modelo tiene un buen desempeño discriminativo. Esto significa que el modelo es capaz de diferenciar correctamente, en aproximadamente el 77% de los casos, entre empleados que rotan y los que no. Si se elige al azar un empleado que rotó y uno que no rotó, el modelo asignará una mayor probabilidad de rotación al primero en el 77% de las veces.

5.2 CAPACIDAD DISCRIMINATIVA DEL MODELO DE ROTACION (ROC) 5.3 MATRIZ DE CONFUSIÓN

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction    0    1
##          0 1213  194
##          1   20   43
##                                           
##                Accuracy : 0.8544          
##                  95% CI : (0.8353, 0.8721)
##     No Information Rate : 0.8388          
##     P-Value [Acc > NIR] : 0.05381         
##                                           
##                   Kappa : 0.2349          
##                                           
##  Mcnemar's Test P-Value : < 2e-16         
##                                           
##             Sensitivity : 0.18143         
##             Specificity : 0.98378         
##          Pos Pred Value : 0.68254         
##          Neg Pred Value : 0.86212         
##              Prevalence : 0.16122         
##          Detection Rate : 0.02925         
##    Detection Prevalence : 0.04286         
##       Balanced Accuracy : 0.58261         
##                                           
##        'Positive' Class : 1               
## 

La evaluación del modelo de regresión logística, aplicado a la predicción de rotación de personal, evidencia un desempeño aceptable desde el punto de vista predictivo. El Área Bajo la Curva (AUC) fue de 0.7704, lo cual indica una capacidad discriminativa adecuada. Este valor sugiere que el modelo tiene un 77% de probabilidad de asignar una mayor puntuación de riesgo de rotación a un empleado que efectivamente rotará, en comparación con uno que no lo hará. Desde el análisis gráfico, la curva ROC se desvía de la diagonal de referencia, reforzando visualmente esta capacidad predictiva.

No obstante, al aplicar un punto de corte estándar de 0.5, los resultados de la matriz de confusión revelan importantes aspectos a considerar. La precisión global (accuracy) alcanza un 85.4%, lo que a primera vista podría parecer satisfactorio. Sin embargo, esta métrica está fuertemente influenciada por el desbalance en las clases (la mayoría de empleados no rotan).

Cuando se analizan métricas específicas:

-La sensibilidad (recall), es decir, la capacidad del modelo para identificar correctamente a los empleados que sí rotan, fue apenas del 18.1%, lo que evidencia una alta tasa de falsos negativos.

En conjunto, estos resultados indican que, si bien el modelo es estadísticamente significativo y muestra una buena discriminación general (AUC), su utilidad práctica para anticipar rotación es limitada bajo el punto de corte convencional. Se recomienda considerar estrategias adicionales como ajuste del umbral de decisión, re-muestreo de clases (undersampling/oversampling) o incluso técnicas de modelado más complejas para mejorar la sensibilidad sin sacrificar demasiada especificidad.

5.4 EVALUACIÓN DE MÉTRICAS PARA DISTINTOS PUNTOS DE CORTE

##            Umbral  Accuracy Sensibilidad Especificidad
## Accuracy     0.10 0.5653061    0.5166261   0.818565401
## Accuracy1    0.15 0.6877551    0.6796431   0.729957806
## Accuracy2    0.20 0.7557823    0.7761557   0.649789030
## Accuracy3    0.25 0.8122449    0.8605028   0.561181435
## Accuracy4    0.30 0.8401361    0.9148418   0.451476793
## Accuracy5    0.35 0.8530612    0.9480941   0.358649789
## Accuracy6    0.40 0.8503401    0.9610706   0.274261603
## Accuracy7    0.45 0.8496599    0.9716139   0.215189873
## Accuracy8    0.50 0.8544218    0.9837794   0.181434599
## Accuracy9    0.55 0.8517007    0.9894566   0.135021097
## Accuracy10   0.60 0.8448980    0.9918897   0.080168776
## Accuracy11   0.65 0.8455782    0.9967559   0.059071730
## Accuracy12   0.70 0.8442177    0.9983779   0.042194093
## Accuracy13   0.75 0.8435374    1.0000000   0.029535865
## Accuracy14   0.80 0.8394558    1.0000000   0.004219409
## Accuracy15   0.85 0.8387755    1.0000000   0.000000000
## Accuracy16   0.90 0.8387755    1.0000000   0.000000000

Al analizar distintas métricas de desempeño del modelo para varios puntos de corte, se observa que el umbral de 0.35 proporciona un equilibrio adecuado: una alta sensibilidad (94.8%) garantiza que la mayoría de los casos de rotación se detecten correctamente, lo cual es deseable en contextos preventivos de gestión de talento. Aunque la especificidad disminuye, el costo de intervenir a un empleado que no rotaría es generalmente menor que el de perder un empleado clave sin advertencia. Por tanto, se sugiere emplear un umbral de 0.35 para la toma de decisiones sobre intervención.

5.5 GRÁFICO DESEMPEÑO DEL MODELO SEGÚN PUNTO DE CORTE En este gráfico, se trazan tres métricas clave:

Alta sensibilidad = pocos empleados que rotan son clasificados como si no lo hicieran (bajos falsos negativos).

Especificidad (azul): la capacidad del modelo para identificar correctamente a quienes no rotan (verdaderos negativos).

Alta especificidad = pocos falsos positivos.

  1. PREDICCIONES

6.1 CREACIÓN DE UN EMPLEADO HIPOTÉTICO

Características del Empleado Hipotético
Edad Ingreso_Mensual Antigüedad Horas_Extra Estado_Civil Viaje de Negocios
28 3200 2 Si Soltero Frecuentemente

6.2 ESTIMACIÓN DE LA PROBABILIDAD DE ROTACIÓN DEL EMPLEADO HIPOTÉTICO (PUNTO DE CORTE DE 0.35)

##         1 
## 0.7151812
## Probabilidad estimada de rotación: 0.7152
## Clasificación del empleado con umbral 0.35: Probable Rotación (1)

El modelo de regresión logística estimó una probabilidad del 71.5% de que el empleado hipotético rote en el siguiente período. Esta probabilidad está muy por encima de umbrales típicos de intervención (como 0.5 o incluso 0.6), lo que sugiere un alto riesgo de salida o cambio de cargo.

El perfil del empleado presenta varias características que, según el modelo, incrementan la probabilidad de rotación:

Decisión informada basada en el modelo:

Dado que la probabilidad supera con claridad el umbral de decisión, este caso se clasifica como “alto riesgo de rotación”. Por tanto, es recomendable tomar acciones preventivas para mitigar esta posibilidad.

Recomendaciones estratégicas

PARA EMPLEADOS VINCULADOS:

PARA EMPLEADOS A VINCULAR:

Realizar un proceso de selección que contemple estas variables y se haga una previa clasificación del aspirante mediante el modelo, para que sean vinculados a la empresa empleados con menor riego de rotación.

  1. CONCLUSIONES

A partir del análisis realizado y la estimación del modelo de regresión logística, se identificaron factores significativos que influyen en la rotación de personal en la empresa. Las variables más relevantes fueron:

7.1 Principales hallazgos:

-Viajar frecuentemente por motivos laborales también está vinculado con una mayor propensión a la rotación.

7.2 Estrategia recomendada para reducir la rotación

Con base en lo anterior, se sugiere implementar una estrategia integral de retención de talento, compuesta por los siguientes ejes:

7.2.1 Gestión del talento joven

7.2.2 Compensación justa y competitiva

7.2.3 Estrategias de vinculación temprana

7.2.4 Control y compensación de las horas extra

7.2.5 Bienestar emocional y conciliación vida-trabajo

La rotación del personal no es aleatoria, sino que responde a patrones observables en variables laborales y sociodemográficas. La identificación temprana de perfiles con alto riesgo de rotación, mediante modelos predictivos como el desarrollado en este análisis, permite tomar decisiones basadas en datos y aplicar estrategias específicas para retener el talento clave, reduciendo así los costos y el impacto negativo que la alta rotación genera en la productividad organizacional.