#Problema 1 : Rotación de cargo
Variables
Rotación Edad Viaje de Negocios Departamento
Distancia_Casa Educación Campo_Educación Satisfacción_Ambiental
Genero Cargo Satisfación_Laboral Estado_Civil
Ingreso_Mensual Trabajos_Anteriores Horas_Extra Porcentaje_aumento_salarial
Rendimiento_Laboral Años_Experiencia Capacitaciones Equilibrio_Trabajo_Vida
Antigüedad Antigüedad_Cargo Años_ultima_promoción Años_acargo_con_mismo_jefe

En la base de datos se tienen 24 variables, 16 de ellas cuantitativas y 8 cualitativas. Organizaremos las base de datos para poder realizar de manera más limpia los ejercicios que se realizaran a continuación y para poder conocer de mejor manera los datos con los que se está trabajando.

Seleccione 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que se consideren estén relacionadas con la rotación.

La selección de variables es uno de los puntos más determinantes del planteamiento correcto de una regresión. Para esto se realizará el siguiente algoritmo.

\(*\) Planteamiento de las hipótesis

\(*\) Análisis grafico univariado de las variables tanto cualitativas como cuantitativas.

\(*\) Análisis bivariado de las variables tanto cualitativas como cuantitativas frente a la variable dependiente(rotación).

\(*\) Corroboración de las hipótesis sobre que variables, teniendo en cuenta análisis gráfico, de correlación y estadístico.

\(*\) Con estas variables realizaremos una prueba de selección automática, para refinar la selección de variables. El proceso de selección stepwise selecciona las variables que mejor ajustan al modelo y las elimina gradualmente hasta que solo quedan las variables más importantes, aca veremos si el análisis realizado por medio de las correlaciones fue certero a los ojos de la estructura del modelo.

Se plantea que las siguientes variables categóricas tienen mayor relación:

  1. Estado Civil.
  2. Horas Extra.
  3. Viaje de Negocios

Por el lado de las variables cuantitativas se toman las siguientes:

  1. Ingreso Mensual
  2. Distancia, casa-trabajo.
  3. Cuantos años ha estado con el mismo jefe.

En el análisis que se realizara a continuación, se observaran todas las variables de la base de datos, pero se le prestar mayor importancia aquella planteadas en la hipótesis.

  1. Análisis univariado.

Ahora realizaremos un análisis univariado de las variables cualitativas.

2.Análisis bivariado de los datos: Para esto miraremos primero para las variables cualitativas y posteriormente para las variables cuantitativas:

P-Value
Ingreso Mensual Distancia a casa Años a cargo del mismo jefe
0 0.0041365 0

Ahora lo podemos ver para las variables cualitativas

## Loading required package: CGPfunctions
## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

## 
## [[6]]

## 
## [[7]]

## 
## [[8]]

## 
## [[9]]

Finalmente se realizará una tabla de las variables sobre las cuales descansa las hipótesis para poder observar de una manera más certera los datos exactos.

Si
(N=1233)
No
(N=237)
Overall
(N=1470)
horasextra
No 944 (76.6%) 110 (46.4%) 1054 (71.7%)
Si 289 (23.4%) 127 (53.6%) 416 (28.3%)
viajedenegocios
No_Viaja 208 (16.9%) 69 (29.1%) 277 (18.8%)
Raramente 138 (11.2%) 12 (5.1%) 150 (10.2%)
Frecuentemente 887 (71.9%) 156 (65.8%) 1043 (71.0%)
estadocivil
Casado 589 (47.8%) 84 (35.4%) 673 (45.8%)
Divorciado 294 (23.8%) 33 (13.9%) 327 (22.2%)
Soltero 350 (28.4%) 120 (50.6%) 470 (32.0%)
ingresomensual
Mean (SD) 6830 (4820) 4790 (3640) 6500 (4710)
Median [Min, Max] 5200 [1050, 20000] 3200 [1010, 19900] 4920 [1010, 20000]
distanciacasa
Mean (SD) 8.92 (8.01) 10.6 (8.45) 9.19 (8.11)
Median [Min, Max] 7.00 [1.00, 29.0] 9.00 [1.00, 29.0] 7.00 [1.00, 29.0]
anosacargoconmismojefe
Mean (SD) 4.37 (3.59) 2.85 (3.14) 4.12 (3.57)
Median [Min, Max] 3.00 [0, 17.0] 2.00 [0, 14.0] 3.00 [0, 17.0]
  1. Planteamiento de hipótesis

Variables Cuantitativas:

Hipótesis 1: En la distancia de la casa al trabajo tenemos que se cumple la hipótesis nula que se planteó inicialmente, en la tabla se puede notar que la distancia promedio y mediana de aquellos empleados que no rotaron es de 8.92 y 7.00 respectivamente, mientras que aquellos de si rotaron, tiene una distancia de promedio y mediana mayor, de 10.6 y 9.0 respectivamente. Si bien ambos grupos tiene una alta desviación estándar, siendo mayor la del grupo que si rota, la masa de densidad de aquellos que no rotan está concentrada en valores de baja distancia, mientras que aquellos que, si rotaron, si bien están dispersos, tiene una concentración en valores mayores. Para corroborar esta conclusión gráfica, podemos ver el valor p asociado con el test de Welch Two Sample, es de 0.004, menor al a un nivel de significancia de 0.05, de manera que se rechaza la hipótesis nula de que no existe una diferencia de los promedios de ambos grupos, existiendo evidencia a favor de que si hay una diferencia verdadera entre las medias de los dos grupos considerados: los que rotaron y los que no.

Hipótesis 2: Por el lado de los años bajo el mando del mismo jefe, tanto en la tabla como en el boxplot, se puede notar las medianas de ambos grupos difieren entre ellas, por un lado, del grupo que no ha rotado, se tiene un valor de 3.00 y un promedio de 4.37, mientras que para el grupo que, si roto, tiene una mediana de 2.00 y un promedio de 2.85, ambos grupos tienen respuestas atípicas en altos valores de la pregunta. principalmente en el grupo que no ha rotado, pero, las medidas de tendencia central, si muestran una diferencia, la cual se corrobora con el test de Welch Two Sample con el cual tiene un valor o cercano a 0, que con el cual existe evidencia para rechazar la hipótesis nula, por lo tanto, existe evidencia a favor de que hay una verdadera diferencia entre las medias de ambos grupos.

Hipótesis 3: En términos del ingreso promedio tenemos que se cumple la hipótesis nula que se planteó inicialmente, en la tabla se puede notar que el ingreso promedio y mediano de aquellos empleados que no rotaron es de 6830 y 5200 respectivamente, mientras que aquellos de si rotaron, perciben un ingreso promedio y mediano menor, de 4790 y 3200 respectivamente. Si bien ambos grupos tiene una alta desviación estándar. Se ve que la distribución del ingreso de los empleados que rotaron está fuertemente concentrada en la mediana, es una distribución que cuenta con la cola derecha, pero sin mucha masa de densidad de ella. Por parte de aquellos que no rotaron, se puede notar que la distribución no se encuentra tan concentrada, y que la masa de densidad de la cola derecha (valores positivos del ingreso) es mayor. Para corroborar esta conclusión gráfica, podemos ver el valor p asociado con el test de Welch Two Sample, es cercano a 0, de manera que se rechaza la hipótesis nula de que no existe una diferencia de los promedios de ambos grupos, existiendo evidencia a favor de que si hay una diferencia verdadera entre las medias de los dos grupos considerados: los que rotaron y los que no.

Variables Cualitativas:

Hipótesis 1: El estado civil de una persona es un factor influyente a la hora de ver la rotación laboral. En la tabla podemos observar que solo el 28.4% de las personas que no rotan son solteros, y que de aquellas que si rotan el 50.06% lo es. De manera similar, si comparamos el total de solteros con el total de casados y divorciados, podemos ver un incremento de 13 y 15.4 por ciento en la rotación, respectivamente. mostrando que existe una incidencia del estado civil en el cambio de trabajo, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 46.16 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil. Sin embargo, esta no es una cualidad que la empresa pueda controlar de manera directa, es por eso que para dar soluciones propicias para disminuir este problema de rotación se evalúan otras variables.

Hipótesis 2: En cuanto a los empleados que realizan viajes de negocios, aquellos que viajan raramente, constituyen mayoría, en términos de porcentajes, tanto de los empleados que rotan como los que no rotan, sin embargo, este efecto puede estar contaminado por una simple cuestión de escala, dada la gran proporción de empleados que viajan raramente. Pero si dividimos a los empleados por categorías en la respuesta: Viaje frecuentemente, raramente o no viaja, vemos que los individuos que tienen viajes frecuentes tiene un incremento del 9.9 y 16.9 por ciento en la rotación, con respecto a los que no viajes o lo hacen raramente, mostrando que es un factor a tener en cuenta a la hora de realizar políticas para disminuir este problema, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 24.18.16 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil.

Hipótesis 3: En términos de las horas extra, de aquellos individuos que no rotan, el 76.6% no realiza horas extra, mientras que aquellos que, si rotan, el 53.6% realiza horas extra. De manera similar cuando dividimos a los empleados por categoría de respuesta podemos ver que de aquellos que si hacen horas extra el 30.5% ha rotado, mientras que los que no hacen horas extra, solo el 10.4% lo ha hecho, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 87.56 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil.

Dependent variable:
rotacion
Modelo Step
edad -0.036***
(0.013)
viajedenegociosRaramente -1.749***
(0.397)
viajedenegociosFrecuentemente -0.792***
(0.207)
distanciacasa 0.043***
(0.010)
campoeducacionHumanidades 0.724
(0.749)
campoeducacionMercadeo 0.418
(0.321)
campoeducacionOtra 0.058
(0.405)
campoeducacionSalud -0.086
(0.212)
campoeducacionTecnicos 0.937***
(0.299)
satisfaccionambiental.L -0.976***
(0.177)
satisfaccionambiental.Q 0.433**
(0.177)
satisfaccionambiental.C -0.128
(0.180)
generoM 0.310*
(0.181)
cargoDirector_Manofactura 1.230
(0.880)
cargoEjecutivo_Ventas 2.029**
(0.837)
cargoGerente 1.122
(0.925)
cargoInvestigador_Cientifico 1.549*
(0.844)
cargoRecursos_Humanos 2.315**
(0.970)
cargoRepresentante_Salud 0.947
(0.875)
cargoRepresentante_Ventas 3.045***
(0.884)
cargoTecnico_Laboratorio 2.499***
(0.842)
satisfacionlaboral.L -0.906***
(0.179)
satisfacionlaboral.Q -0.011
(0.177)
satisfacionlaboral.C -0.267
(0.178)
estadocivilDivorciado -0.427*
(0.254)
estadocivilSoltero 1.016***
(0.195)
trabajosanteriores 0.175***
(0.037)
horasextraSi 1.896***
(0.188)
anosexperiencia -0.058**
(0.026)
capacitaciones -0.176**
(0.071)
equilibriotrabajovida -0.371***
(0.121)
antiguedad 0.093**
(0.037)
antiguedadcargo -0.132***
(0.044)
anosultimapromocion 0.183***
(0.041)
anosacargoconmismojefe -0.159***
(0.046)
Constant -1.683
(1.057)
Observations 1,470
Log Likelihood -443.144
Akaike Inf. Crit. 958.287
Note: p<0.1; p<0.05; p<0.01

Ahora realizaremos una selección automática, partiendo del modelo con todas las variables, hasta el modelo mínimo (solo con intercepto). y posteriormente miraremos con las restricciones plantadas cual es el que mejor se ajusta.

En la regresión planteada, se puede observar que por lo menos en una categoría, las variables que se plantearon como hipótesis con significativas, y dado que se tiene una restricción con el número de variables cualitativas y cuantitativas a incluir en el modelo, se tomaran estas.

Dependent variable:
rotacion
Modelo rotacion
horasextraSi 1.435***
(0.158)
viajedenegociosRaramente -1.325***
(0.352)
viajedenegociosFrecuentemente -0.646***
(0.181)
estadocivilDivorciado -0.276
(0.231)
estadocivilSoltero 0.914***
(0.171)
ingresomensual -0.0001***
(0.00002)
distanciacasa 0.033***
(0.009)
anosacargoconmismojefe -0.106***
(0.027)
Constant -1.302***
(0.252)
Observations 1,470
Log Likelihood -539.398
Akaike Inf. Crit. 1,096.796
Note: p<0.1; p<0.05; p<0.01

Podemos ir que las variables del modelo son altamente significativas. En cuanto a la interpretación de los coeficientes debemos transformarlos antes de poderlos interpretar en términos de probabilidades de rotación se debe transformar los coeficientes de la siguiente manera: \(\frac{e^{\beta}}{1+e^{\beta}}\). de esta manera tenemos los siguientes resultados.

\(*\) Se observa que la variable independiente “horasextraSi”, tiene una probabilidad estimada de 0.808 de rotación cuando el empleado trabaja horas extra. Esto significa que, en promedio, el 80.8% de los empleados que trabajan horas extra tienen una probabilidad estimada de rotar.

\(*\) En promedio, el 21% de los empleados que viajan de negocios raramente tienen una probabilidad estimada de rotar.

\(*\) En promedio, el 34.4% de los empleados que viajan de negocios frecuentemente tienen una probabilidad estimada de rotar.

\(*\) En promedio, el 71.4% de los empleados solteros tienen una probabilidad estimada de rotar.

\(*\) La variable independiente “ingresomensual” tiene una probabilidad estimada de 0.49999 de rotación para un aumento de 1 unidad en el ingreso mensual. Esto indica que, en promedio, un aumento de 1 unidad en el ingreso mensual se asocia con una probabilidad estimada muy pequeña de rotación, esto tiene sentido dado que los incrementos del ingreso mensual se realizan en cuantías mayores.

\(*\) La variable independiente “distanciacasa” tiene una probabilidad estimada de 0.5082208 de rotación para un aumento de 1 unidad en la distancia a casa. Esto indica que, en promedio, un aumento de 1 unidad en la distancia a casa se asocia con una probabilidad estimada ligeramente mayor de rotación.

\(*\) La variable independiente “anosacargoconmismojefe” tiene una probabilidad estimada de 0.4734179 de rotación para un aumento de 1 unidad en el número de años a cargo del mismo jefe. Esto indica que, en promedio, un aumento de 1 unidad en el número de años a cargo del mismo jefe se asocia con una probabilidad estimada ligeramente menor de rotación.

Ahora evaluamos el poder predictivo del modelo.

Dependent variable:
rotacion
Modelo credito
horasextraSi 1.197***
(0.256)
viajedenegociosRaramente -2.426***
(0.776)
viajedenegociosFrecuentemente -0.821***
(0.283)
estadocivilDivorciado -0.079
(0.350)
estadocivilSoltero 0.842***
(0.278)
ingresomensual -0.0002***
(0.00004)
distanciacasa 0.028*
(0.015)
anosacargoconmismojefe -0.140***
(0.045)
Constant -0.640
(0.406)
Observations 589
Log Likelihood -210.311
Akaike Inf. Crit. 438.622
Note: p<0.1; p<0.05; p<0.01
predicciones
   0   1

Si 725 14 No 118 24

Aca se puede ver que el valor de 0.76 del AUC, quiere decir que el modelo tiene una probabilidad del 76% de clasificar correctamente una instancia positiva aleatoria por encima de una instancia negativa aleatoria. En términos generales, se considera que un modelo con un AUC superior a 0.5 tiene cierta capacidad predictiva, siendo valores mayores a 0.7 considerados buenos.

Finalmente realizaremos una predicción la probabilidad de que un individuo (hipotético) rote y se definirá un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).

##         1 
## 0.2849518

El valor 0.2849518 indica la probabilidad estimada de que un empleado (presente una rotación en el trabajo) con las siguientes características:

\(*\) Estado civil = “Casado” \(*\) Trabaja horas extra \(*\) viaja frecuentemente por negocios \(*\) Tiene cero años a cargo del mismo jefe \(*\) Tiene un ingreso mensual de 6120 \(*\) vive a una distancia de 10 unidades

Dado que el valor es menor a 0.5, se podría interpretar como que este modelo de regresión binomial predice que es menos probable que el empleado presente rotación en el trabajo, aunque la probabilidad estimada es moderadamente alta, se considera baja para los análisis estadísticos, y la empresa no se debería preocupar inmediatamente por él.

#Problema 2 Con base en los datos de créditos proponga un modelo de regresión logístico múltiple que permita predecir el riesgo de default o de no pago en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el AUC y la curva ROC.

Tabla de variables y tipos de datos
tipo_dato
default numeric
antiguedad numeric
edad numeric
cuota numeric
ingresos numeric

Selección de variables: En el gráfico de correlación se ve una correlación baja con la variable edad, es por esto que realizaremos una técnico de selección automática, para validar si esta característica hace que con estas técnicas la variables no sea significativa en la regresión.

## 
## Call:
## glm(formula = default ~ antiguedad + cuota + ingresos, family = "binomial", 
##     data = creditos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.8147  -0.3724  -0.2868  -0.1938   3.1088  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -2.244e+00  3.933e-01  -5.707 1.15e-08 ***
## antiguedad  -2.817e-02  1.803e-02  -1.562   0.1183    
## cuota        9.860e-07  2.456e-07   4.014 5.96e-05 ***
## ingresos    -2.542e-07  1.059e-07  -2.400   0.0164 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 309.68  on 779  degrees of freedom
## Residual deviance: 288.78  on 776  degrees of freedom
## AIC: 296.78
## 
## Number of Fisher Scoring iterations: 6

Dado que en términos de correlaciones y de selección automática edad no es significativa en el planteamiento del modelo, consideraremos el modelo con esta característica.

Dependent variable:
default
Modelo Credito
ingresos -0.00000**
(0.00000)
antiguedad -0.028
(0.018)
cuota 0.00000***
(0.00000)
Constant -2.244***
(0.393)
Observations 780
Log Likelihood -144.392
Akaike Inf. Crit. 296.785
Note: p<0.1; p<0.05; p<0.01

Interpretación. La probabilidad predicha de tener un valor “default” de 1 cuando ingresos=0, antigüedad=0, cuota=0 es: Probabilidad = \(e^{-2.244} / (1 + e^{-2.244}) = 0.095\) Esto significa que, en promedio, el 9.5% de los clientes con ingresos, antigüedad y cuota iguales a cero tendrán un valor “default” de 1 según el modelo.

La probabilidad predicha de tener un valor “default” de 1 cuando ingresos aumenta en 1 unidad, antigüedad y cuota se mantienen constantes es: Probabilidad = \(e^{-2.244 - 2.542e-07 * 1} / (1 + e^{-2.244 - 2.542e-07 * 1}) = 0.094\)

Esto significa que, en promedio, un aumento de 1 unidad en la variable “ingresos” manteniendo constantes “antigüedad” y “cuota”, disminuye la probabilidad de tener un valor “default” de 1 en un 0.1%.

Validación cruzada.

Dependent variable:
default
Modelo credito-Training data
ingresos -0.00000
(0.00000)
antiguedad -0.006
(0.025)
cuota 0.00000***
(0.00000)
Constant -2.919***
(0.702)
Observations 313
Log Likelihood -58.483
Akaike Inf. Crit. 124.967
Note: p<0.1; p<0.05; p<0.01
        predicciones
           0   1

No_default 443 1 Default 22 1 Confusion Matrix and Statistics

        Reference

Prediction No_default Default No_default 443 22 Default 1 1

           Accuracy : 0.9507         
             95% CI : (0.927, 0.9685)
No Information Rate : 0.9507         
P-Value [Acc > NIR] : 0.5552         
                                     
              Kappa : 0.0727         
                                     

Mcnemar’s Test P-Value : 3.042e-05

        Sensitivity : 0.99775        
        Specificity : 0.04348        
     Pos Pred Value : 0.95269        
     Neg Pred Value : 0.50000        
         Prevalence : 0.95075        
     Detection Rate : 0.94861        

Detection Prevalence : 0.99572
Balanced Accuracy : 0.52061

   'Positive' Class : No_default     
                                     

Con esto se puede ver la probabilidad de que el modelo clasifique correctamente es del 64%, lo cual sigue estando bien. Si hacemos esto en términos de la validación cruzada, podemos observar que el Acurracy es de 0.9507