Informe de Regresión Múltiple

Caso 1:

Con base en los datos de rotación realizar los puntos 1 a 4:

##  [1] "Rotación"                    "Edad"                       
##  [3] "Viaje_de_Negocios"           "Departamento"               
##  [5] "Distancia_Casa"              "Educación"                  
##  [7] "Campo_Educación"             "Satisfacción_Ambiental"     
##  [9] "Genero"                      "Cargo"                      
## [11] "Satisfación_Laboral"         "Estado_Civil"               
## [13] "Ingreso_Mensual"             "Trabajos_Anteriores"        
## [15] "Horas_Extra"                 "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral"         "Años_Experiencia"           
## [19] "Capacitaciones"              "Equilibrio_Trabajo_Vida"    
## [21] "Antigüedad"                  "Antigüedad_Cargo"           
## [23] "Años_ultima_promoción"       "Años_acargo_con_mismo_jefe"
## tibble [1,470 × 24] (S3: tbl_df/tbl/data.frame)
##  $ Rotación                   : chr [1:1470] "Si" "No" "Si" "No" ...
##  $ Edad                       : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
##  $ Viaje_de_Negocios          : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
##  $ Departamento               : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
##  $ Distancia_Casa             : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
##  $ Educación                  : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
##  $ Campo_Educación            : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
##  $ Satisfacción_Ambiental     : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
##  $ Genero                     : chr [1:1470] "F" "M" "M" "F" ...
##  $ Cargo                      : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
##  $ Satisfación_Laboral        : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
##  $ Estado_Civil               : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
##  $ Ingreso_Mensual            : num [1:1470] 5993 5130 2090 2909 3468 ...
##  $ Trabajos_Anteriores        : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
##  $ Horas_Extra                : chr [1:1470] "Si" "No" "Si" "Si" ...
##  $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
##  $ Rendimiento_Laboral        : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
##  $ Años_Experiencia           : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
##  $ Capacitaciones             : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
##  $ Equilibrio_Trabajo_Vida    : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
##  $ Antigüedad                 : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
##  $ Antigüedad_Cargo           : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
##  $ Años_ultima_promoción      : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
##  $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...
##    Rotación              Edad       Viaje_de_Negocios  Departamento      
##  Length:1470        Min.   :18.00   Length:1470        Length:1470       
##  Class :character   1st Qu.:30.00   Class :character   Class :character  
##  Mode  :character   Median :36.00   Mode  :character   Mode  :character  
##                     Mean   :36.92                                        
##                     3rd Qu.:43.00                                        
##                     Max.   :60.00                                        
##  Distancia_Casa     Educación     Campo_Educación    Satisfacción_Ambiental
##  Min.   : 1.000   Min.   :1.000   Length:1470        Min.   :1.000         
##  1st Qu.: 2.000   1st Qu.:2.000   Class :character   1st Qu.:2.000         
##  Median : 7.000   Median :3.000   Mode  :character   Median :3.000         
##  Mean   : 9.193   Mean   :2.913                      Mean   :2.722         
##  3rd Qu.:14.000   3rd Qu.:4.000                      3rd Qu.:4.000         
##  Max.   :29.000   Max.   :5.000                      Max.   :4.000         
##     Genero             Cargo           Satisfación_Laboral Estado_Civil      
##  Length:1470        Length:1470        Min.   :1.000       Length:1470       
##  Class :character   Class :character   1st Qu.:2.000       Class :character  
##  Mode  :character   Mode  :character   Median :3.000       Mode  :character  
##                                        Mean   :2.729                         
##                                        3rd Qu.:4.000                         
##                                        Max.   :4.000                         
##  Ingreso_Mensual Trabajos_Anteriores Horas_Extra       
##  Min.   : 1009   Min.   :0.000       Length:1470       
##  1st Qu.: 2911   1st Qu.:1.000       Class :character  
##  Median : 4919   Median :2.000       Mode  :character  
##  Mean   : 6503   Mean   :2.693                         
##  3rd Qu.: 8379   3rd Qu.:4.000                         
##  Max.   :19999   Max.   :9.000                         
##  Porcentaje_aumento_salarial Rendimiento_Laboral Años_Experiencia
##  Min.   :11.00               Min.   :3.000       Min.   : 0.00   
##  1st Qu.:12.00               1st Qu.:3.000       1st Qu.: 6.00   
##  Median :14.00               Median :3.000       Median :10.00   
##  Mean   :15.21               Mean   :3.154       Mean   :11.28   
##  3rd Qu.:18.00               3rd Qu.:3.000       3rd Qu.:15.00   
##  Max.   :25.00               Max.   :4.000       Max.   :40.00   
##  Capacitaciones  Equilibrio_Trabajo_Vida   Antigüedad     Antigüedad_Cargo
##  Min.   :0.000   Min.   :1.000           Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:2.000   1st Qu.:2.000           1st Qu.: 3.000   1st Qu.: 2.000  
##  Median :3.000   Median :3.000           Median : 5.000   Median : 3.000  
##  Mean   :2.799   Mean   :2.761           Mean   : 7.008   Mean   : 4.229  
##  3rd Qu.:3.000   3rd Qu.:3.000           3rd Qu.: 9.000   3rd Qu.: 7.000  
##  Max.   :6.000   Max.   :4.000           Max.   :40.000   Max.   :18.000  
##  Años_ultima_promoción Años_acargo_con_mismo_jefe
##  Min.   : 0.000        Min.   : 0.000            
##  1st Qu.: 0.000        1st Qu.: 2.000            
##  Median : 1.000        Median : 3.000            
##  Mean   : 2.188        Mean   : 4.123            
##  3rd Qu.: 3.000        3rd Qu.: 7.000            
##  Max.   :15.000        Max.   :17.000

1. Selección de variables - EDA

Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación.

Nota: Justificar por que estas variables están relacionadas y que tipo de relación se espera (Hipótesis).

Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse mas al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serían 6, una por variable).

1.1. Variables categóricas

Cargo:

  • \(H_{0}\) : Se espera que los trabajadores que tengan el cargo “Representante Ventas”, tengan mayor rotación por el esfuerzo que tiene que hacer para el cumplimiento de metas
  • \(H_{1}\) : No se espera que los trabajadores que tengan el cargo “Representante_ventas”, tengan mayor rotación por el esfuerzo que tiene que hacer para el cumplimiento de metas

Estado Civil:

  • \(H_{0}\) : Se espera que los trabajadores con el estado civil “Soltero” tenga mayor rotación, por no tener madurez suficiente y mayores responsabilidades.

  • \(H_{1}\) : No se espera que los trabajadores con el estado civil “Soltero” tenga mayor rotación, por no tener madurez suficiente y mayores responsabilidades.

Satisfacción Ambiental:

  • \(H_{0}\) : Se espera que que los trabajadores con en satisfacción ambiental “bajo” se encuentre mayor rotación.

  • \(H_{1}\) : No Se espera que que los trabajadores con en satisfacción ambiental “bajo” se encuentre mayor rotación.

1.2. Variables Cuantitativas

Trabajos Anteriores:

  • \(H_{0}\) : Se espera que los trabajadores que tengan mayor cantidad de trabajos anteriores tenga mayor rotación.

  • \(H_{1}\) : No se espera que los trabajadores que tengan mayor cantidad de trabajos anteriores tenga mayor rotación.

Viajes de Negocios:

  • \(H_{0}\) : Se espera que los trabajadores que no viajen frecuentemente y lo tengan que hacer, tengan mayor rotación.

  • \(H_{1}\) : No Se espera que los trabajadores que no viajen frecuentemente y lo tengan que hacer, tengan mayor rotación.

Ingreso mensual:

  • \(H_{0}\) : Se espera que los trabajadores que tengan un ingreso mensual por debajo de la media, tienen mayor rotación

  • \(H_{1}\) : No se espera que los trabajadores que tengan un ingreso mensual por debajo de la media, tienen mayor rotación

2. Análisis Univariado:

Realizar un análisis univariado (caracterización). Nota: Los indicadores o gráficos se usan dependiendo del tipo de variables (cuantitativa o cualitativa). Incluir interpretaciones de la rotación.

2.1. Variables cualitativas

2.1.1. Cargo:

Como se puede observar en la gráfica de barras de la variable “Cargo”. El primer lugar lo ocupa el cargo de “Ejecutivo Ventas”, con 326 empleados, representa el 22.18% de la población de empleados. El segundo lugar lo ocupa el cargo “Investigador Científico” con 292 empleados que representan el 19.86%. El tercer lugar lo ocupa el cargo “Técnico Laboratorio” con 259 empleados que representan el 17.62%. Estos tres cargos reunidos suman 877 empleados que representan del total de 1.470 el 59.66% del total de la población.

De esta información podemos inferir que la empresa se encuentran en el sector de la industria farmacéutica, o en el campo de la investigación científica de la salud, ya que los cargos “Investigador Científico” con 292 empleados, “Técnico de laboratorio” 259 empleados, “Director de Manofactura” con 145 empleados, representan 47.35% del total de la población de empleados.

2.1.2. Estado Civil:

De la variable Estado Civil, se puede decir que mayoritariamente los empleados que están casados son 673 empleados que representan el 45.78%, seguida los que están solteros con 470 empleados representando el 31.97%, y en tercer lugar se encuentran los divorciados representando el 22.24% con 327 empleados. Esta última población podría ser objeto de estudio para identificar si las causas de divorcio tienen relación con el cargo y tiempo de vinculación de la empresa.

2.1.3. Satisfacción_Ambiental:

Nivel Categoría
1 Bajo
2 Medio
3 Elevado
4 Muy alto

De la variable Satisfacción Ambiental, se puede observar que las categorías “Elevado” y “Muy Alto” con 899 empleados, representan el 61.16% del total de los empleados. Y las categorías “Bajo” con 284 empleados representando el 19.32% y la categoría “Medio” con 287 empleados representando el 19.52%. Ambas categorías representan el 38.84%. Situación que nos hace inferir una insatisfacción en la variable.

De las anteriores gráficas se observa en el histograma que el ingreso mensual se concentra por debajo de los $5 millones y en el gráfico de barras un gran número de empleados se encuentra casados, seguido de los solteros

2.2. Variables cuatitativas

2.2.1. Trabajos Anteriores:

Con la gráfica anterior se puede observar que el 35.44%, es decir 521 empleados ha tenido un sólo trabajo. Con lo que se puede inferir que la rotación de empleados puede ser de personas con poca experiencia.

2.2.2. Viajes de Negocios:

En el gratifico de barras podemos observar que 1.043 empleados el 70.95% de las personas raramente viajan, y sólo el 18.84% de los empleados viajan frecuentemente, unos 277 empleados. Se podría inferir que en gran mayoría serían los Ejecutivo_venta.

2.2.3. Ingreso mensual:

2.2.3.1. Tabla de frecuencias Ingreso mensual:

De la anterior tabla de frecuencia se puede decir que el 71.29% de los empleados se encuentra en el rango de salarial de 1.009 y 7.340.

3. Análisis de bivariado - variable respuesta rotación

Realizar un análisis de bivariado en donde la variable respuesta sea la rotación codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación), con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con la hipótesis planteada en el punto 2.

3.1. Análisis Cargo vs Rotación

El análisis Bivariado de de la Rotación en referencia al Cargo, se observa que el cargo que más rota es el de Representante_Ventas, con una rotación del 40%, seguido del cargo Tecnico_Laboratorio con el 24%, Recursos_Humanos con el 23%, Ejecutivo_Ventas el 17% y Investigador_Cientifico el 16%. Se podría inferir que los cargos que más rotan son los no Directivos. Y que falta por parte de la dirección de la empresa programas de para la conservación del recurso humano. Pues no es normal que en esta rotación se encuentre precisamente el área de Recursos_Humanos en el tercer lugar de rotación, encargada de la administración del talento humano.

3.2. Análisis Estado_Civil vs Rotación

La gráfica nos muestra que según el Estado_Civil. los que son solteros tienen una mayor rotación con el 26%, doblando la tasa para cada uno de los que son Divorciados (10%) y Casados (12%).

3.3. Análisis Satisfacción_Ambiental vs Rotación

SATISFACCIÓN AMBIENTAL

Nivel Categoría
1 Bajo
2 Medio
3 Elevado
4 Muy alto

Para la variable Satisfacción_Ambiental, los que tienen una Satisfacción_Ambiental baja representan 25% (72 personas). seguida con una satisfacción media con el 15% (43%). Lo que llama la atención es que las personas que tienen un nivel elevado y Muy alto, también rotan de manera importante.Lo que lleva a inferir que la Satisfacción_Ambiental, no es la causa última de la Rotación.

3.4. Análisis Ingreso_Mensual vs Rotación

De acuerdo a la gráfica cajas, se puede observar que los trabajadores que si han rotado, devengan en promedio 3.202, unos 2.002 menos de los que no rotan que en promedio devengan 5.204.

3.5. Análisis Trabajos_Anteriores vs Rotación

##    
##           No       Si
##   5 74.60317 25.39683
##   9 76.92308 23.07692
##   7 77.02703 22.97297
##   6 77.14286 22.85714
##   1 81.19002 18.80998
##   8 87.75510 12.24490
##   4 87.76978 12.23022
##   0 88.32487 11.67513
##   2 89.04110 10.95890
##   3 89.93711 10.06289

De cuerdo a la tabla, se puede decir que los trabajadores que mas empleos han tenido, suelen rotar más.

3.6. Análisis Viaje de Negocios vs Rotación

##                 
##                        No       Si
##   Frecuentemente 75.09025 24.90975
##   Raramente      85.04314 14.95686
##   No_Viaja       92.00000  8.00000

Como se evidencia en la tabla y en la gráfica, los que viajan frecuentemente (24.90%) y raramente (14.96%), son los de más alta rotación. Y en conjunto suman el 39.86% de la variable Viaje de Negocios. Un porcentaje muy alto en la rotación.

3.7. Análisis Rotación - Viaje de Negocio - Estado Civil

g_biv_viaje_neog_vs_rotacion <- ggplot(data = datos, aes(x = Estado_Civil, y = `Viaje_de_Negocios`)) + 
  geom_jitter(aes(color = Rotación), size = 1, alpha = 0.7) +
  xlab("Estado Civil") + 
  ylab("Viaje de Negocios") +
  ggtitle('Rotacion - Viaje de Negocios- Estado Civil') + 
  theme_minimal()

ggplotly(g_biv_viaje_neog_vs_rotacion)

En el cruce de tres variables “Estado Civil”, “Viaje de Negocios” y “Rotación”, se evidencia como los solteros que viajan frecuentemente, y raramente son los que mas rotan.

4. Estimación modelo de regresión logístico

Realizar la estimación de un modelo de regresión logístico en el cual la variable respuesta es rotación (y=1 es si rotación, y=0 es no rotación) y las covariables las 6 seleccionadas. Interprete los coeficientes del modelo y la significancia de los parámetros.

## 
## Call:
## glm(formula = y ~ Cargo + Estado_Civil + Satisfacción_Ambiental + 
##     Trabajos_Anteriores + Viaje_de_Negocios + Ingreso_Mensual, 
##     family = "binomial", data = datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.6417  -0.6054  -0.4174  -0.2317   2.8897  
## 
## Coefficients:
##                                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                  -1.588e+00  1.072e+00  -1.481 0.138630    
## CargoDirector_Manofactura     9.251e-01  8.808e-01   1.050 0.293546    
## CargoEjecutivo_Ventas         1.994e+00  8.332e-01   2.393 0.016711 *  
## CargoGerente                  1.105e+00  8.668e-01   1.274 0.202518    
## CargoInvestigador_Cientifico  1.705e+00  9.159e-01   1.862 0.062670 .  
## CargoRecursos_Humanos         2.397e+00  9.403e-01   2.550 0.010784 *  
## CargoRepresentante_Salud      1.003e+00  8.825e-01   1.136 0.255891    
## CargoRepresentante_Ventas     2.958e+00  9.466e-01   3.125 0.001779 ** 
## CargoTecnico_Laboratorio      2.296e+00  9.145e-01   2.511 0.012049 *  
## Estado_CivilDivorciado       -2.211e-01  2.282e-01  -0.969 0.332686    
## Estado_CivilSoltero           8.514e-01  1.688e-01   5.043 4.59e-07 ***
## Satisfacción_Ambiental       -2.780e-01  6.942e-02  -4.004 6.23e-05 ***
## Trabajos_Anteriores9          6.374e-02  4.790e-01   0.133 0.894138    
## Trabajos_Anteriores7         -2.013e-01  4.384e-01  -0.459 0.646194    
## Trabajos_Anteriores6         -6.158e-02  4.428e-01  -0.139 0.889399    
## Trabajos_Anteriores1         -7.367e-01  3.421e-01  -2.153 0.031294 *  
## Trabajos_Anteriores8         -9.576e-01  5.527e-01  -1.733 0.083174 .  
## Trabajos_Anteriores4         -1.033e+00  4.206e-01  -2.455 0.014079 *  
## Trabajos_Anteriores0         -1.296e+00  3.957e-01  -3.276 0.001054 ** 
## Trabajos_Anteriores2         -9.923e-01  4.204e-01  -2.360 0.018256 *  
## Trabajos_Anteriores3         -1.158e+00  4.241e-01  -2.730 0.006335 ** 
## Viaje_de_NegociosRaramente   -6.135e-01  1.787e-01  -3.432 0.000598 ***
## Viaje_de_NegociosNo_Viaja    -1.372e+00  3.489e-01  -3.932 8.42e-05 ***
## Ingreso_Mensual              -3.408e-05  4.314e-05  -0.790 0.429610    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1109.8  on 1446  degrees of freedom
## AIC: 1157.8
## 
## Number of Fisher Scoring iterations: 6

Al correr el modelo logit, de las 6 variables de estudio, se obtiene que las variables significativas son las siguientes:

VARIABLE Estimate \(Pr(>|z|)\)
Cargo-Ejecutivo_Ventas 1.939e+00 0.019333 *
Cargo-Investigador_Científico 1.700e+00 0.062089 .
Cargo-Recursos_Humanos 2.283e+00 0.014666 *
Cargo-Representante_Ventas 2.926e+00 0.001885 **
Cargo-Técnico_Laboratorio 2.229e+00 0.014207 *
Estado_Civil-Soltero 8.610e-01 2.52e-07 ***
Satisfacción_Ambiental -2.769e-01 5.33e-05 ***
Trabajos_Anteriores 1.007e-01 0.000689 ***
Viaje de Negocios-Raramente -6.203e-01 0.000441 ***
Viaje de Negocios-No_Viaja -1.383e+00 6.79e-05 ***

4.1. ODDs

4.1.1 Cargo

## CargoEjecutivo_Ventas 
##              7.343424
## CargoInvestigador_Cientifico 
##                     5.500867
## CargoRecursos_Humanos 
##              10.99393
## CargoRepresentante_Ventas 
##                  19.26092
## CargoTecnico_Laboratorio 
##                 9.933513
## CargoEjecutivo_Ventas 
##             -6.343424
## CargoInvestigador_Cientifico 
##                    -4.500867
## CargoRecursos_Humanos 
##             -9.993928
## CargoRepresentante_Ventas 
##                 -18.26092
## CargoTecnico_Laboratorio 
##                -8.933513
  • Tener el cargo de Ejecutivo_Ventas, disminuye la probabilidad de no rotar en -5.953498, si rota.

  • Tener el cargo de Investigador_Científico, disminuye la probabilidad de no rotar en -4.472171, si rota

  • Tener el cargo de Recursos_Humanos, disminuye la probabilidad de no rotar en -8.803327, si rota

  • Tener el cargo de Representante_Ventas, disminuye la probabilidad de no rotar en -17.65209, si rota

  • Tener el cargo de Técnico_Laboratorio, disminuye la probabilidad de no rotar en -8.293708, si rota

Los cargos Representante_Ventas y Recursos_Humanos, son los que mayor probabilidad tienen de si rotar. Se evidenció en el EDA. Punto 3.1.

4.1.2 Estado_Civil

## Estado_CivilSoltero 
##            2.343033
## Estado_CivilSoltero 
##           -1.343033
  • Tener estado civil Soltero, disminuye la probabilidad de no rotar en -1.365419, si rota.

4.1.3 Satisfacción_Ambiental

## Satisfacción_Ambiental 
##              0.7573299
## Satisfacción_Ambiental 
##              0.2426701
  • Tener una Satisfacción_Ambiental, baja disminuye la probabilidad de no rotar en 0.2418659, si rota.

4.1.4 Trabajos_Anteriores

## Trabajos_Anteriores9 
##             1.065813
## Trabajos_Anteriores9 
##          -0.06581341
  • Tener un número alto de empleos anteriores, disminuye la probabilidad de no rotar en -0.105965, si rota.

4.1.5 Viaje de Negocios-Raramente

## Trabajos_Anteriores7 
##            0.8176911
## Trabajos_Anteriores7 
##            0.1823089
  • Los empleados que Raramente hacen viajes de negocios, disminuye la probabilidad de rotar en 0.4621938, en referencia a los que viajan Frecuentemente.

4.1.6 Viaje de Negocios-No_Viaja

## Trabajos_Anteriores6 
##            0.9402769
## Trabajos_Anteriores6 
##           0.05972308
  • Los empleados que No_Viaja y hacen viajes de negocios, disminuye la probabilidad de rotar en 0.7491092, en referencia a los que viajan Frecuentemente.

5. Evaluar poder predictivo

Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC.

Matriz de Confusión

##              prediciones
## observaciones   0   1
##             0 947 286
##             1  98 139

## [1] 0.7387755

Curva ROC

En la gráfica anterior, el punto optimo corresponde a un valor de 0.15, se identifica el área bajo la curva con un AUC del 75.3%

6. Predecir la probabilidad

Predecir la probabilidad de que un individuo (hipotético) rote y defina un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).

Al ingresar el perfil de un nuevo empleado con las características antes registradas, se obtiene un probabilidad de rotación del 83.76%

7. Conclusiones

En las conclusiones se discute sobre cuál sería la estrategia para disminuir la rotación en la empresa (con base en las variables que resultaron significativas en el punto 3). Ejemplo: Mejorar el ambiente laboral, los incentivos económicos, distribuir la carga de horas extra (menos turnos y más personal).

Se evidencia una alta rotación en los trabajadores que son solteros, en los que han tenido más de 5 empleos, y en los que se encuentran en áreas administrativas, adicional los ingresos promedio de los que han rotado tiene un variación del 62.52% menos.

Por lo anterior es importante, realizar una análisis en referencia a los empleados que son solteros, que ocupan cargos administrativos, que antes de ingresar hayan tenido más de 5 empleos anteriores y su salario este por debajo del promedio.

Lo anterior obedece a que el promedio de años de antigüedad laboral es de 5, y a no ser que la empresa tenga poco tiempo de iniciar operaciones es un promedio muy bajo para el número de empleados. Lo que puede significar que se tiene poco sentido de pertenencia y que hay pocos incentivos prestacionales y labores que desmotiven el aceptar otras ofertas laborales.Situación que se demuestra con la variable “Satisfacción Ambiental”.

Por lo anterior se aceptan las hipótesis de las variables categóricas “cargo”, “estado civil”. La variable “satisfacción ambiental” aunque se rechaza la hipótesis se debe contemplar en conjunto las categorías “bajo” y “medio”.

En el punto 3.7. Se muestra que los solteros que viajan frecuentemente y raramente son los que mas rotan por lo que todos los esfuerzo y estrategias deben ir para esta población en especial, sin descuidar, los casados y divorciados. Estas estrategias deben estar encaminadas al bienestar laboral y social, mejorando las condiciones laborales, en referencia a disminuir el numero de viajes para que la población de solteros, tengan una mayor vida social, mejorar los incentivos económicos para que no vean la necesidad de buscar un empleo mejor remunerado y crear sentido de pertenencia con la empresa para evitar el costo de las curvas de entrenamiento y aprendizaje.

Caso 2:

Con base en los datos de créditos proponga un modelo de regresión logístico múltiple que permita predecir el riesgo de default en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el AUC y la curva ROC.

library(mfx)
library(pROC)
library(tidyverse)
library(forecast)
library(data.table)
library(caTools)
## [1] "DEFAULT"     "ANTIUEDAD"   "EDAD"        "CUOTA_TOTAL" "INGRESOS"

1. EDA

##     DEFAULT       ANTIUEDAD            EDAD        CUOTA_TOTAL     
##  Min.   :0.00   Min.   : 0.2548   Min.   :26.61   Min.   :    387  
##  1st Qu.:0.00   1st Qu.: 7.3767   1st Qu.:48.18   1st Qu.: 328516  
##  Median :0.00   Median :15.1192   Median :57.92   Median : 694460  
##  Mean   :0.05   Mean   :18.0353   Mean   :56.99   Mean   : 885206  
##  3rd Qu.:0.00   3rd Qu.:30.6637   3rd Qu.:66.19   3rd Qu.:1244126  
##  Max.   :1.00   Max.   :37.3178   Max.   :92.43   Max.   :6664588  
##     INGRESOS       
##  Min.   :  633825  
##  1st Qu.: 3583324  
##  Median : 5038962  
##  Mean   : 5366430  
##  3rd Qu.: 6844098  
##  Max.   :22197021
##             DEFAULT ANTIUEDAD  EDAD CUOTA_TOTAL INGRESOS
## DEFAULT        1.00     -0.07 -0.03        0.10    -0.06
## ANTIUEDAD     -0.07      1.00  0.75        0.27     0.48
## EDAD          -0.03      0.75  1.00        0.15     0.36
## CUOTA_TOTAL    0.10      0.27  0.15        1.00     0.36
## INGRESOS      -0.06      0.48  0.36        0.36     1.00

## [1] "DEFAULT"     "ANTIUEDAD"   "EDAD"        "CUOTA_TOTAL" "INGRESOS"

2. Modelo logit con todas las varibles

## 
## Call:
## glm(formula = DEFAULT ~ ., family = binomial, data = datos2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.9181  -0.3672  -0.2873  -0.1917   3.1332  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -3.193e+00  9.306e-01  -3.431 0.000601 ***
## ANTIUEDAD   -4.616e-02  2.353e-02  -1.961 0.049849 *  
## EDAD         2.229e-02  1.932e-02   1.154 0.248641    
## CUOTA_TOTAL  1.013e-06  2.473e-07   4.098 4.16e-05 ***
## INGRESOS    -2.615e-07  1.057e-07  -2.474 0.013348 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 309.68  on 779  degrees of freedom
## Residual deviance: 287.49  on 775  degrees of freedom
## AIC: 297.49
## 
## Number of Fisher Scoring iterations: 6
##                     2.5 %        97.5 %
## (Intercept) -5.056472e+00 -1.398607e+00
## ANTIUEDAD   -9.250329e-02  3.057391e-04
## EDAD        -1.646352e-02  5.955752e-02
## CUOTA_TOTAL  5.346241e-07  1.515042e-06
## INGRESOS    -4.811408e-07 -6.669857e-08
## 
##   0   1 
## 741  39

3. Selección de variables

Modelo de selección de Variables: STEPWISE, el cual tiene como fin ayudar a seleccionar la mejor combinación de variables para obtener el menor AIC.

## Start:  AIC=297.49
## DEFAULT ~ ANTIUEDAD + EDAD + CUOTA_TOTAL + INGRESOS
## 
##               Df Deviance    AIC
## - EDAD         1   288.79 296.79
## <none>             287.49 297.49
## - ANTIUEDAD    1   291.28 299.28
## - INGRESOS     1   294.76 302.76
## - CUOTA_TOTAL  1   304.34 312.34
## 
## Step:  AIC=296.78
## DEFAULT ~ ANTIUEDAD + CUOTA_TOTAL + INGRESOS
## 
##               Df Deviance    AIC
## <none>             288.79 296.79
## - ANTIUEDAD    1   291.37 297.37
## - INGRESOS     1   295.61 301.61
## - CUOTA_TOTAL  1   304.95 310.95

Capacidad predictiva del modelo

Esta estimación nos da que la mejor combinación de variables con menor AIC(296.78)

3.1. Modelo con variables seleccionadas

## 
## Call:
## glm(formula = DEFAULT ~ ANTIUEDAD + INGRESOS + CUOTA_TOTAL, family = binomial, 
##     data = datos2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.8147  -0.3724  -0.2868  -0.1938   3.1088  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -2.244e+00  3.933e-01  -5.707 1.15e-08 ***
## ANTIUEDAD   -2.817e-02  1.803e-02  -1.562   0.1183    
## INGRESOS    -2.542e-07  1.059e-07  -2.400   0.0164 *  
## CUOTA_TOTAL  9.860e-07  2.456e-07   4.014 5.96e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 309.68  on 779  degrees of freedom
## Residual deviance: 288.78  on 776  degrees of freedom
## AIC: 296.78
## 
## Number of Fisher Scoring iterations: 6

4. Matriz de Confución

##              predicciones
## observaciones   0   1
##             0 417 324
##             1  10  29

## [1] 0.5717949

5. Curva ROC

Curva ROC

## 
## Call:
## glm(formula = DEFAULT ~ ANTIUEDAD + INGRESOS + CUOTA_TOTAL, family = binomial, 
##     data = datos2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.8147  -0.3724  -0.2868  -0.1938   3.1088  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -2.244e+00  3.933e-01  -5.707 1.15e-08 ***
## ANTIUEDAD   -2.817e-02  1.803e-02  -1.562   0.1183    
## INGRESOS    -2.542e-07  1.059e-07  -2.400   0.0164 *  
## CUOTA_TOTAL  9.860e-07  2.456e-07   4.014 5.96e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 309.68  on 779  degrees of freedom
## Residual deviance: 288.78  on 776  degrees of freedom
## AIC: 296.78
## 
## Number of Fisher Scoring iterations: 6

6. Predecir la probabilidad

\(default = -2.244e+00 -2.817e-02*ANTIUEDAD -2.542e-07*INGRESOS + 9.860e-07*CuotaTotal\)

## [1] 3.987309

7. Conclusiones

El modelo después de la reducción de dimensionalidad no tienen un buen poder predictivo. Esto se puede dar por muchas circunstancias como una data simulada, además de un problema evidente de desbalanceo de los datos.

Por que aunque se haga el proceso de partición de los datos en entrenamiento y test, puede suceder que los datos “no pagan” (solo son el 5%) queden mayoritariamente en el test y no en el entrenamiento.

Existen unos procedimientos de balanceo de datos o resampling que modifican la distribución original de la muestra ya sea eliminando datos de la clase mayoritaria conocida cono (undersampling), o replicando o creando nuevas instancias de la clase minoritaria (oversampling). Los mencionados procedimientos podrían mejorar el poder predictivo del modelo.

El informe se presenta en parejas y se envía al correo el enlace con la cuenta de Rpubs que el profesor debe calificar