Regresion Logistica

library(readxl)
library(stats)
library(summarytools)
library(forcats)
require(ggplot2)
## Loading required package: ggplot2
require(ggpubr)
## Loading required package: ggpubr
require(CGPfunctions)
## Loading required package: CGPfunctions
require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(caTools)
library(car)
## Loading required package: carData
library(vcd)
## Loading required package: grid
library(ROCR)
library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:car':
## 
##     recode
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
Datos = read_excel("C:/Users/migue/Desktop/Datos_Rotación.xlsx")
names(Datos)
##  [1] "Rotación"                    "Edad"                       
##  [3] "Viaje de Negocios"           "Departamento"               
##  [5] "Distancia_Casa"              "Educación"                  
##  [7] "Campo_Educación"             "Satisfacción_Ambiental"     
##  [9] "Genero"                      "Cargo"                      
## [11] "Satisfación_Laboral"         "Estado_Civil"               
## [13] "Ingreso_Mensual"             "Trabajos_Anteriores"        
## [15] "Horas_Extra"                 "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral"         "Años_Experiencia"           
## [19] "Capacitaciones"              "Equilibrio_Trabajo_Vida"    
## [21] "Antigüedad"                  "Antigüedad_Cargo"           
## [23] "Años_ultima_promoción"       "Años_acargo_con_mismo_jefe"

Pregunta 1. Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación. Nota: Justificar por que estas variables están relacionadas y que tipo de relación se espera (Hipótesis). Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse mas al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serian 6, una por variable).

Variables Cualitativas Seleccionadas.

  1. Estado Civil: El estado civil puede estar relacionado con la rotación ya que a mayor grado de compromiso mayor necesidad de estabilidad. Por su parte, los empleados divorciados podrían encontrar en el trabajo una excusa para su soledad.

H1: Los empleados solteros son más propensos a rotar que los otros empleados.

TAREA: Justificar las siguientes variables y plantear hipótesis respectivas

  1. Viaje de negocios: los viajes de negocios pueden estar relacionados con la rotacion ya que por lo general los empleados que se les asignan viajes son personas de mayor confianza y que la empresa los visiona como empleados de largo plazo.

H2: los empleados con pocos viajes de negocios son mas propensos a rotar

  1. Departamento: el departamento podria estar relacionado con la rotacion, observando los dos principales departamentos, ventas e I+D, podria suponerse que el area de I+D requiere mayor trayectoria y la experiencia en dicha area es fundamental, mientras que el departamento de ventas es mas flexible y se puede adaptar un empleado mas rapido

H3: los empleados del departamento de ventas son mas propensos a rotar que los de I+D

Variables Cuantitativas Seleccionadas.

  1. Porcentaje de aumento salarial: La variable de porcentaje de aumento salarial puede tener relación con la rotación. Probablemente, un bajo porcentaje de incremento salarial, hace que los empleados opten por otras oportunidades laborales con salarios más competitivos.

H4: Los empleaos con menor porcentaje de aumento salarial son más propensos a rotar que los otros empleados.

TAREA:Terminar de justificar y plantear hipótesis

  1. Años a cargo con el mismo jefe: La variable de años a cargo con el mismo jefe, puede tener relación con la rotación. aunque un indice alto en esta variable podria significar un “estancamiento” en el puesto, tambien significa estabilidad y confianza, por lo que un numero alto de años significaria menos probabilidades de rotar

H5: los empleados con menos años a cargo con el mismo jefe son mas propensos a rotar

  1. Años de experiencia: La variable de años de experiencia, puede tener relación con la rotación del mismo modo que la variable anterior. Mientras mas años mas conocimientos, mayor valor y asi mismo mas confianza demuestra el empleado hacia la empresa y viceversa.

H6: Los empleados con menos años de experiencia son mas propensos a rotar.

variables seleccionadas

cuantitativas

  1. trabajos anteriores: La variable trabajos anteriores, puede tener relación con la rotación. ya que una persona que tenga un alto indice de trabajos anteriores muestra una tendencia la cual es muy posible que se continue dando. mientras mas trabajos anteriores tenga mas posible es que rote.

H1: los empleados con mas trabajos anteriores son mas propensos a rotar.

  1. antiguedad: La variable de antiguedad, puede tener relación con la rotación ya que mientras mas años tenga de antiguedad es mas posible que continue en la empresa por la estabilidad que tiene y las condiciones que han hecho que tenga esa antiguedad le pueden permitir seguir acumulando años en la empresa

H2: los empleados con menos años de antiguedad son mas propensos a rotar.

  1. porcentaje aumento salarial: La variable de porcentaje de aumento salarial puede tener relación con la rotación ya que un porcentaje de aumento grande significa un crecimiento dentro de la empresa, mientras que poco porcentaje de aumento podria ser una motivacion para buscar una mejor oportunidad en otro lugar

H3:Los empleaos con menor porcentaje de aumento salarial son más propensos a rotar.

cualitativas

  1. Viaje de negocios: los viajes de negocios pueden estar relacionados con la rotacion ya que por lo general los empleados que se les asignan viajes son personas de mayor confianza y que la empresa los visiona como empleados de largo plazo.

H4: los empleados que no viajan de negocios son mas propensos a rotar que los demas.

  1. Departamento: el departamento podria estar relacionado con la rotacion, observando los dos principales departamentos, ventas e I+D, podria suponerse que el area de I+D requiere mayor trayectoria y la experiencia en dicha area es fundamental, mientras que el departamento de ventas es mas flexible y se puede adaptar un empleado mas rapido

H5: los empleados del departamento de ventas son mas propensos a rotar que los demas

  1. Estado Civil: El estado civil puede estar relacionado con la rotación ya que una persona soltera probablemente tenga menos responsabilidades y pueda arriesgar mas buscando mejores oportunidades, mientras que alguien casado puede preferir la estabilidad y no poner en riesgo el puesto que tiene.

H6: los empleados solteros son mas propensos a rotar que los demas

Pregunta 2. Realizar un análisis univariado (caracterización). Nota: Los indicadores o gráficos se usan dependiendo del tipo de variable (cuanti o cuali). Incluir interpretaciones de la rotación..

g0 = ggplot(Datos, aes(x = Rotación, color=Rotación)) + geom_bar(alpha=0.5) + theme_bw()+coord_flip()
ggarrange(g0, labels = c("1."), ncol = 1)

Del gráfico 1 podemos decir que de un total de 1.470 empleados en la compañía, 237 empleados presentan rotación (corresponde al 16,1% de los empleados), mientras que 1.233 empleados no presentan rotación corresponde al 83,9% de los empleados .Se considera que el porcentaje de empleados que presenta rotación es considerable, por lo tanto, es pertinente hacer los análisis de las variables anteriormente seleccionadas para ver su relación con la rotación

Análisis Univariado de las variables seleccionadas:

Variables Cualitativas

g1 = ggplot(Datos, aes(x = `Viaje de Negocios`)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))

g2 = ggplot(Datos, aes(x = Departamento)) + geom_bar(fill="#FF8C00") + theme_bw() + theme(axis.text.x = element_text(angle = 90, hjust = 1))

g3 = ggplot(Datos, aes(x = Estado_Civil)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggarrange(g1, g2, g3, labels = c("A", "B", "C"), ncol = 3, nrow = 1)

En la gráfica C se evidencia que el mayor número de empleados está “Casado”, seguido de los “Soltero” y por ultimo los “Divorciado”.Es importante analizar la rotación vs el estado civil para validar la hipótesis H1. Se debe tener presente la población por cada Estado Civil y el porcentaje de ellos que presenta mayor rotación.

TAREA En la gráfica B se evidencia que el mayor numero de empleados esta en el departamento de “IyD”, seguido de “Ventas” y por ultimo “RRHH”.

TAREA En la gráfica A se evidencia que el mayor número de empleados raramente hace viajes de negocios, seguido de una cantidad de empleados que viaja por negocios frecuentemente, mientras que la minoria no viaja.

Variables Cuantitativas

g4 = ggplot(Datos, aes(x = Trabajos_Anteriores)) + geom_histogram(bins = 15,fill="#1fd184") + theme_bw()

g5 = ggplot(Datos, aes(x = Antigüedad)) + geom_histogram(bins = 18,fill="#1fd184") + theme_bw()

g6 = ggplot(Datos, aes(x = Porcentaje_aumento_salarial)) + geom_histogram(bins = 20,fill="#1fd184") + theme_bw()

ggarrange(g4, g5, g6, labels = c("D", "E", "F"), ncol = 3, nrow = 1)

descr(Datos$Porcentaje_aumento_salarial,stats = "common")
## Descriptive Statistics  
## Datos$Porcentaje_aumento_salarial  
## N: 1470  
## 
##                   Porcentaje_aumento_salarial
## --------------- -----------------------------
##            Mean                         15.21
##         Std.Dev                          3.66
##             Min                         11.00
##          Median                         14.00
##             Max                         25.00
##         N.Valid                       1470.00
##       Pct.Valid                        100.00

En la gráfica F y con la estadística descriptiva para el “Porcentaje_aumento_salarial” se evidencia una media de 15.21 y una desviación estándar de 3.66; por su parte la mediana es de 14.00, La mayor concentración de empleados está entre 11.55 y 18.87. Es importante analizar la rotación vs el Porcentaje_aumento_salarial para validar la hipótesis H3.

descr(Datos$Trabajos_Anteriores,stats = "common")
## Descriptive Statistics  
## Datos$Trabajos_Anteriores  
## N: 1470  
## 
##                   Trabajos_Anteriores
## --------------- ---------------------
##            Mean                  2.69
##         Std.Dev                  2.50
##             Min                  0.00
##          Median                  2.00
##             Max                  9.00
##         N.Valid               1470.00
##       Pct.Valid                100.00

TAREA En la gráfica E y con la estadística descriptiva para la “Trabajos_Anteriores” se evidencia una media de 2.69 y una desviacion estandar de 2.5; por su parte la mediana es de 2.

descr(Datos$Antigüedad,stats = "common")
## Descriptive Statistics  
## Datos$Antigüedad  
## N: 1470  
## 
##                   Antigüedad
## --------------- ------------
##            Mean         7.01
##         Std.Dev         6.13
##             Min         0.00
##          Median         5.00
##             Max        40.00
##         N.Valid      1470.00
##       Pct.Valid       100.00

TAREA En la gráfica E y con la estadística descriptiva para la “Antigüedad” se evidencia una media de 7.01 y una desviacion estandar de 6.13; por su parte la mediana es de 5.

Pregunta 3: Realizar un análisis de bivariado en donde la variable respuesta sea la rotación codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación), con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con las hipótesis planteadas en el punto 2.

Estado Civil:

Gb3=PlotXTabs2(Datos,Estado_Civil, Rotación,plottype = "percent",palette = "Set2")+ theme(axis.text.x = element_text(angle = 0, hjust = 1))
Gb3

ctable(x = Datos$Estado_Civil,y = Datos$Rotación,chisq = FALSE,headings = TRUE)
## Cross-Tabulation, Row Proportions  
## Estado_Civil * Rotación  
## Data Frame: Datos  
## 
## -------------- ---------- -------------- ------------- ---------------
##                  Rotación             No            Si           Total
##   Estado_Civil                                                        
##         Casado               589 (87.5%)    84 (12.5%)    673 (100.0%)
##     Divorciado               294 (89.9%)    33 (10.1%)    327 (100.0%)
##        Soltero               350 (74.5%)   120 (25.5%)    470 (100.0%)
##          Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------

De acuerdo con el Estado_civil, el que mayor rotación presenta es el de los “Solteros” (el 26% rotaron), seguido de los “Casados” (el 12% rotaron) y por último los “Divorciado” (el 10% rotaron).

Conclusión para H6: los empleados solteros son mas propensos a rotar que los demas: Válida

Viaje de negocios

Gb3=PlotXTabs2(Datos,`Viaje de Negocios`, Rotación,plottype = "percent",palette = "Set2")+ theme(axis.text.x = element_text(angle = 0, hjust = 1))
Gb3

ctable(x = Datos$`Viaje de Negocios`,y = Datos$Rotación,chisq = FALSE,headings = TRUE)
## Cross-Tabulation, Row Proportions  
## `Viaje de Negocios` * Rotación  
## Data Frame: Datos  
## 
## ------------------- ---------- -------------- ------------- ---------------
##                       Rotación             No            Si           Total
##   Viaje de Negocios                                                        
##      Frecuentemente               208 (75.1%)    69 (24.9%)    277 (100.0%)
##            No_Viaja               138 (92.0%)    12 ( 8.0%)    150 (100.0%)
##           Raramente               887 (85.0%)   156 (15.0%)   1043 (100.0%)
##               Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## ------------------- ---------- -------------- ------------- ---------------

TAREA De acuerdo con el Viaje_de_Negocios, se puede decir que el que mayor rotación presenta es el de los que viajan frecuentemente (el 25% rotaron), seguido de los que viajan raramente (el 15% rotaron) y por último los que no viajan (el 8% rotaron).

Conclusión para H4: los empleados que no viajan de negocios son mas propensos a rotar que los demas: Invalida

Departamento

Gb3=PlotXTabs2(Datos,Departamento, Rotación,plottype = "percent",palette = "Set2")+ theme(axis.text.x = element_text(angle = 0, hjust = 1))
Gb3

ctable(x = Datos$Departamento,y = Datos$Rotación,chisq = FALSE,headings = TRUE)
## Cross-Tabulation, Row Proportions  
## Departamento * Rotación  
## Data Frame: Datos  
## 
## -------------- ---------- -------------- ------------- ---------------
##                  Rotación             No            Si           Total
##   Departamento                                                        
##            IyD               828 (86.2%)   133 (13.8%)    961 (100.0%)
##             RH                51 (81.0%)    12 (19.0%)     63 (100.0%)
##         Ventas               354 (79.4%)    92 (20.6%)    446 (100.0%)
##          Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------

TAREA De acuerdo con el Departamento, se puede decir que el que mayor rotación presenta son los del departamento de “ventas” (el 21% rotaron), seguido de los de “RRHH” (el 19% rotaron) y por último los de “IyD” (el 14% rotaron).

Conclusión para H5: los empleados del departamento de ventas son mas propensos a rotar que los demas: Válida

Cuantitativas:

Trabajos anteriores

Gb4=ggplot(Datos,aes(x=Rotación,y= Trabajos_Anteriores,fill=Rotación))+geom_boxplot()+theme_bw()+stat_summary(fun=mean, geom="point", shape=20, size=1, color="white", fill="Media")
Gb4_2=ggplot(Datos, aes(x = Trabajos_Anteriores, color=Rotación, Fill="white")) + geom_histogram(alpha=0.5, bins = 20, position="identity")

subplot(Gb4, Gb4_2, titleY = TRUE, titleX = TRUE, margin = 0.05 )

De acuerdo con Trabajos_Anteriores, se evidencia que la rotación SI esta relacionada con dicha variable, ya que los empleados con mayor numero de trabajos anteriores, rotan en proporcion más que los que reciben un mayor porcentaje salarial. Por lo tanto es un factor determinante, se puede ver en la gráfica empleados con 5 a 7 trabajos anteiores con mayor porcentaje de rotación que los que apenas han tenido entre 2 y 4 trabajos anteriores.

Conclusión para H1: los empleados con mas trabajos anteriores son mas propensos a rotar: Valida

Antigüedad:

Gb4=ggplot(Datos,aes(x=Rotación,y= Antigüedad,fill=Rotación))+geom_boxplot()+theme_bw()+stat_summary(fun=mean, geom="point", shape=20, size=1, color="white", fill="Media")
Gb4_2=ggplot(Datos, aes(x = Antigüedad, color=Rotación, Fill="white")) + geom_histogram(alpha=0.5, bins = 20, position="identity")

subplot(Gb4, Gb4_2, titleY = TRUE, titleX = TRUE, margin = 0.05 )

De acuerdo con Antiguedad, se evidencia que la rotación SI esta relacionada con dicha variable, ya que los empleados con mayor numero de años de antiguedad, rotan en proporcion menos que los que tienen menos años de antiguedad. Por tal razón, es un factor determinante se puede ver en la gráfica empleados con 0 a 5 años de antiguedad con mayor porcentaje de rotación que los que ya tienenmas de 5 o 10 años de antiguedad.

H2: los empleados con menos años de antiguedad son mas propensos a rotar: Valida

Porcentaje aumento salarial:

Gb4=ggplot(Datos,aes(x=Rotación,y= Porcentaje_aumento_salarial,fill=Rotación))+geom_boxplot()+theme_bw()+stat_summary(fun=mean, geom="point", shape=20, size=1, color="white", fill="Media")
Gb4_2=ggplot(Datos, aes(x = Porcentaje_aumento_salarial, color=Rotación, Fill="white")) + geom_histogram(alpha=0.5, bins = 20, position="identity")

subplot(Gb4, Gb4_2, titleY = TRUE, titleX = TRUE, margin = 0.05 )

De acuerdo con el Porcentaje_aumento_salarial, se evidencia que la rotación NO esta exclusivamente relacionada con un porcentaje especifico, ya que los empleados con un porcentaje de aumento salarial menor, no rotan más que los que reciben un mayor porcentaje salarial. Por tal razón, no es un factor determinante la rotación para los empleados con menor porcentaje de incremento salarial, ya que se puede ver en la gráfica 1D empleados con porcentaje de incremento entre 22% y 24% con igual o mayor porcentaje de rotación que los que apenas le incrementan 11% en su salario.

Conclusión para H3: Los empleaos con menor porcentaje de aumento salarial son más propensos a rotar: No Válida

Pregunta 4. Realizar la estimación de un modelo de regresión logístico en el cual la variable respuesta es rotación (y=1 es si rotación, y=0 es no rotación) y las covariables las 6 seleccionadas. Interprete los coeficientes del modelo y la significancia de los parámetros.

Datos$Rotación=as.numeric(Datos$Rotación=="Si")

modelol=glm(Rotación~`Viaje de Negocios`+Departamento+Estado_Civil+Trabajos_Anteriores+Antigüedad+Porcentaje_aumento_salarial,data = Datos,family = "binomial")

summary(modelol)
## 
## Call:
## glm(formula = Rotación ~ `Viaje de Negocios` + Departamento + 
##     Estado_Civil + Trabajos_Anteriores + Antigüedad + Porcentaje_aumento_salarial, 
##     family = "binomial", data = Datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.4050  -0.6281  -0.4784  -0.3287   3.1231  
## 
## Coefficients:
##                              Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                  -1.11303    0.38818  -2.867 0.004140 ** 
## `Viaje de Negocios`No_Viaja  -1.38258    0.34015  -4.065 4.81e-05 ***
## `Viaje de Negocios`Raramente -0.67535    0.17111  -3.947 7.92e-05 ***
## DepartamentoRH                0.55741    0.34534   1.614 0.106506    
## DepartamentoVentas            0.51731    0.15655   3.304 0.000952 ***
## Estado_CivilDivorciado       -0.22455    0.22181  -1.012 0.311363    
## Estado_CivilSoltero           0.84740    0.16218   5.225 1.74e-07 ***
## Trabajos_Anteriores           0.04524    0.02902   1.559 0.118947    
## Antigüedad                   -0.07601    0.01614  -4.708 2.50e-06 ***
## Porcentaje_aumento_salarial  -0.00714    0.02060  -0.347 0.728896    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1189.5  on 1460  degrees of freedom
## AIC: 1209.5
## 
## Number of Fisher Scoring iterations: 5

De acuerdo con los resultados del modelo, podemos evidenciar que las variables más significativas son: Estado_CivilSoltero, Viaje_de_NegociosNo_Viaja, Viaje_de_NegociosRaramente, Antigüedad y DepartamentoVentas.

Destaca que la variable que más disminuye la probabilidad de rotación, es la de Antigüedad seguida de Viaje_de_NegociosNo_Viaja y Viaje_de_NegociosRaramente. Por el contrario, la variable Estado_CivilSoltero es la que más aumenta la probabilidad de rotación, seguida de Departamento Ventas.

Con ello, concluimos que:

Un empleado soltero tiene mayor posibilidad de rotar que un casado y divorciado Mientras mas años de antiguedad tenga un empleado disminuyen las posibilidades de rotacion

Coeficientes del modelo

exp(modelol$coefficients)
##                  (Intercept)  `Viaje de Negocios`No_Viaja 
##                    0.3285607                    0.2509309 
## `Viaje de Negocios`Raramente               DepartamentoRH 
##                    0.5089785                    1.7461400 
##           DepartamentoVentas       Estado_CivilDivorciado 
##                    1.6775121                    0.7988757 
##          Estado_CivilSoltero          Trabajos_Anteriores 
##                    2.3335593                    1.0462831 
##                   Antigüedad  Porcentaje_aumento_salarial 
##                    0.9268070                    0.9928852

Según los coeficientes del modelo,se puede destacar que los empleados solteros tienen 2,33 veces (o 233%) más probabilidad de rotar que alquien que no está soltero. También, los empleados del departamento de ventas tienen 1,67 veces (o 167%) más probabilidad de rotar que algún otro empleado de otro departamento.

Ahora, con el modelo calculado procedemos a comparar las varianzas entre las medias de los grupos de las variables del modelo. Para ello utilizaremos el análisis ANOVA

anova(modelol, test = "Chisq")
## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Rotación
## 
## Terms added sequentially (first to last)
## 
## 
##                             Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
## NULL                                         1469     1298.6              
## `Viaje de Negocios`          2   23.760      1467     1274.8 6.927e-06 ***
## Departamento                 2   10.830      1465     1264.0   0.00445 ** 
## Estado_Civil                 2   42.767      1463     1221.2 5.166e-10 ***
## Trabajos_Anteriores          1    4.501      1462     1216.7   0.03388 *  
## Antigüedad                   1   27.082      1461     1189.6 1.950e-07 ***
## Porcentaje_aumento_salarial  1    0.121      1460     1189.5   0.72834    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

TAREA: A partir de los resultados de análisis ANOVA, podemos identificar que el test de chi cuadrado da como resultado un p valor significativo para las variables Viaje de Negocios, Estado_Civil y Antigüedad. Hay que tener en cuenta la la hipotesis por defecto de este test es que las variables son independientes y no estan relacionadas. Por lo tanto el p valor indica que se rechaza esta hipotesis inicial y se toma la hipotesis alternativa, la cual indica que existe una relacion entre la variable dependiente y las variables anteriormente mencionadas.

Pregunta 5. Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC.

predict1= predict.glm(modelol, newdata = Datos, type = "response")
result1 = table(Datos$Rotación, ifelse(predict1 >0.2, 1, 0), dnn = c("observaciones", "predicciones"))
result1
##              predicciones
## observaciones   0   1
##             0 932 301
##             1 109 128
mosaic(result1, shade = T, colorize = T,
gp = gpar(fill = matrix(c("Purple", "Orange", "Orange", "Purple"), 2, 2)))

sum(diag(result1)/sum(result1))
## [1] 0.7210884

Conforme a los resultados podemos identificar que de 1233 observaciones identificó 932 observaciones que efectivamente correspondían a la no rotación del personal, mientras que 301 de ellas fueron falsos negativos. Por otra parte, identificó que de las 237 observaciones 109 de ellas eran efectivamente positivas indicando la rotación del personal, pero con 128 falsos positivos.

En general podemos estimar una bondad del ajuste del modelo de regresión logístico de aproximadamente 72.1% entre el conjunto de datos observados.

Ahora, realizaremos un análisis ROC con la finalidad de identificar la proporción de verdaderos positivos frente a la proporción de falsos positivos según varía el umbral de discriminación. Así:

prediccion_rotacion= ROCR::prediction(predict1,Datos$Rotación)
perf= performance(prediction.obj = prediccion_rotacion, "tpr", "fpr")
plot(perf)
abline(a=0, b=1, col="red")
grid()

AUClog= performance(prediccion_rotacion, measure = "auc")@y.values[[1]]
cat("AUC: ", AUClog, "n")
## AUC:  0.7069136 n

Como podemos observar en la gráfica anterior, el punto óptimo más cercano a una sensibilidad igual al 100% y especificidad igual al 100% corresponde a un valor de 0.2. Este, fue el valor que se seleccionó como threshold para evaluar la matriz de confusión en el punto anterior. También es posible identificar que el área debajo de la curva refleja la bondad del test para discriminar el personal que rota o no dentro de la empresa, este valor corresponde a 70.6%

El resultado del AUC (Area Under the Curve) muestra que el modelo tiene la capacidad de predecir resultados para la variable “rotación” con una probabilidad de 70.6%

Pregunta 6. Predecir la probabilidad de que un individuo (hipotético) rote y defina un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).

A partir de todos los análisis anteriormente realizados frente a los resultados del modelo y análisis ROC, evaluaremos un caso en particular con algunas características de un trabajador hipotético. Para tal fin se plantea un trabajador que viaja frecuentemente, Casado, del departamento de ventas, con 4 años dea ntiguedad, un porcentaje de aumento de salario de 10 y con 2 trabajos anteriores.

Trotacion=(predict(modelol,list(`Viaje de Negocios` ="Frecuentemente",Departamento="Ventas",Estado_Civil="Casado",Antigüedad= 4, Porcentaje_aumento_salarial = 10, Trabajos_Anteriores= 2),type = "response"))*100

cat("Tasa Rotación: ", Trotacion,"%")
## Tasa Rotación:  29.30378 %

De acuerdo con estas características, es posible estimar que esta persona tenga una probabilidad de rotación de alrededor de 29.3%. En este caso y dado el tamaño de la compañía la intervención debería ser mínima, quizá reduciendo el nivel de viajes podría reducir su probabilidad de rotación.

Sin embargo valdria la pena invertir esfuerzos en intervenir empleados con tasas de rotacion mas altas segun el modelo.

TAREA: RESOLVER EL PUNTO 7: Pregunta 7. En las conclusiones se discute sobre cual seria la estrategia para disminuir la rotación en la empresa (con base en las variables que resultaron significativas en el punto 3). Ejemplo: Mejorar el ambiente laboral, los incentivos económicos, distribuir la carga de horas extra (menos turnos y mas personal).

Observando las variables mas significativas para el modelo, nos damos cuenta que la empresa directamente solo podria intervenir en la frecuencia de los viajes de negocio. Se podria proponer un sistema de control donde cada empleado segun su cargo pueda realizar un cierto numero maximo de viajes cada trimestre. Esto mantendria controlado el numero de viajes y por lo tanto, segun el modelo, se reduce la probabilidad de que haya rotacion.

Por otro lado, dos variables que se deben considerar son las de antigüedad y departamento_ventas, aunque no se pueda intervenir directamente con la variable, si se deben tener en cuenta las personas que segun estas variables son mas propensos a rotar, hacerles seguimiento y tomar medidas en el momento oportuno para que la probabilidad de rotacion disminuya.