| Rotación | Edad | Viaje de Negocios | Departamento |
| Distancia_Casa | Educación | Campo_Educación | Satisfacción_Ambiental |
| Genero | Cargo | Satisfación_Laboral | Estado_Civil |
| Ingreso_Mensual | Trabajos_Anteriores | Horas_Extra | Porcentaje_aumento_salarial |
| Rendimiento_Laboral | Años_Experiencia | Capacitaciones | Equilibrio_Trabajo_Vida |
| Antigüedad | Antigüedad_Cargo | Años_ultima_promoción | Años_acargo_con_mismo_jefe |
En la base de datos se tienen 24 variables, 16 de ellas cuantitativas y 8 cualitativas. Organizaremos las base de datos para poder realizar de manera más limpia los ejercicios que se realizaran a continuación y para poder conocer de mejor manera los datos con los que se está trabajando.
Seleccione 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que se consideren estén relacionadas con la rotación.
La selección de variables es uno de los puntos más determinantes del planteamiento correcto de una regresión. Para esto se realizará el siguiente algoritmo.
\(*\) Planteamiento de las hipótesis
\(*\) Análisis grafico univariado de las variables tanto cualitativas como cuantitativas.
\(*\) Análisis bivariado de las variables tanto cualitativas como cuantitativas frente a la variable dependiente(rotación).
\(*\) Corroboración de las hipótesis sobre que variables, teniendo en cuenta análisis gráfico, de correlación y estadístico.
\(*\) Con estas variables realizaremos una prueba de selección automática, para refinar la selección de variables. El proceso de selección stepwise selecciona las variables que mejor ajustan al modelo y las elimina gradualmente hasta que solo quedan las variables más importantes, aca veremos si el análisis realizado por medio de las correlaciones fue certero a los ojos de la estructura del modelo.
Se plantea que las siguientes variables categóricas tienen mayor relación:
- Estado Civil.
- Horas Extra.
- Viaje de Negocios
Por el lado de las variables cuantitativas se toman las siguientes:
- Ingreso Mensual
- Distancia, casa-trabajo.
- Cuantos años ha estado con el mismo jefe.
En el análisis que se realizara a continuación, se observaran todas las variables de la base de datos, pero se le prestar mayor importancia aquella planteadas en la hipótesis.
- Análisis univariado.
Ahora realizaremos un análisis univariado de las variables cualitativas.
2.Análisis bivariado de los datos: Para esto miraremos primero para las variables cualitativas y posteriormente para las variables cuantitativas:
| Ingreso Mensual | Distancia a casa | Años a cargo del mismo jefe |
|---|---|---|
| 0 | 0.0041365 | 0 |
Ahora lo podemos ver para las variables cualitativas
## Loading required package: CGPfunctions
## [[1]]
##
## [[2]]
##
## [[3]]
##
## [[4]]
##
## [[5]]
##
## [[6]]
##
## [[7]]
##
## [[8]]
##
## [[9]]
Finalmente se realizará una tabla de las variables sobre las cuales descansa las hipótesis para poder observar de una manera más certera los datos exactos.
| Si (N=1233) |
No (N=237) |
Overall (N=1470) |
|
|---|---|---|---|
| horasextra | |||
| No | 944 (76.6%) | 110 (46.4%) | 1054 (71.7%) |
| Si | 289 (23.4%) | 127 (53.6%) | 416 (28.3%) |
| viajedenegocios | |||
| No_Viaja | 208 (16.9%) | 69 (29.1%) | 277 (18.8%) |
| Raramente | 138 (11.2%) | 12 (5.1%) | 150 (10.2%) |
| Frecuentemente | 887 (71.9%) | 156 (65.8%) | 1043 (71.0%) |
| estadocivil | |||
| Casado | 589 (47.8%) | 84 (35.4%) | 673 (45.8%) |
| Divorciado | 294 (23.8%) | 33 (13.9%) | 327 (22.2%) |
| Soltero | 350 (28.4%) | 120 (50.6%) | 470 (32.0%) |
| ingresomensual | |||
| Mean (SD) | 6830 (4820) | 4790 (3640) | 6500 (4710) |
| Median [Min, Max] | 5200 [1050, 20000] | 3200 [1010, 19900] | 4920 [1010, 20000] |
| distanciacasa | |||
| Mean (SD) | 8.92 (8.01) | 10.6 (8.45) | 9.19 (8.11) |
| Median [Min, Max] | 7.00 [1.00, 29.0] | 9.00 [1.00, 29.0] | 7.00 [1.00, 29.0] |
| anosacargoconmismojefe | |||
| Mean (SD) | 4.37 (3.59) | 2.85 (3.14) | 4.12 (3.57) |
| Median [Min, Max] | 3.00 [0, 17.0] | 2.00 [0, 14.0] | 3.00 [0, 17.0] |
- Planteamiento de hipótesis
Variables Cuantitativas:
Hipótesis 1: En la distancia de la casa al trabajo tenemos que se cumple la hipótesis nula que se planteó inicialmente, en la tabla se puede notar que la distancia promedio y mediana de aquellos empleados que no rotaron es de 8.92 y 7.00 respectivamente, mientras que aquellos de si rotaron, tiene una distancia de promedio y mediana mayor, de 10.6 y 9.0 respectivamente. Si bien ambos grupos tiene una alta desviación estándar, siendo mayor la del grupo que si rota, la masa de densidad de aquellos que no rotan está concentrada en valores de baja distancia, mientras que aquellos que, si rotaron, si bien están dispersos, tiene una concentración en valores mayores. Para corroborar esta conclusión gráfica, podemos ver el valor p asociado con el test de Welch Two Sample, es de 0.004, menor al a un nivel de significancia de 0.05, de manera que se rechaza la hipótesis nula de que no existe una diferencia de los promedios de ambos grupos, existiendo evidencia a favor de que si hay una diferencia verdadera entre las medias de los dos grupos considerados: los que rotaron y los que no.
Hipótesis 2: Por el lado de los años bajo el mando del mismo jefe, tanto en la tabla como en el boxplot, se puede notar las medianas de ambos grupos difieren entre ellas, por un lado, del grupo que no ha rotado, se tiene un valor de 3.00 y un promedio de 4.37, mientras que para el grupo que, si roto, tiene una mediana de 2.00 y un promedio de 2.85, ambos grupos tienen respuestas atípicas en altos valores de la pregunta. principalmente en el grupo que no ha rotado, pero, las medidas de tendencia central, si muestran una diferencia, la cual se corrobora con el test de Welch Two Sample con el cual tiene un valor o cercano a 0, que con el cual existe evidencia para rechazar la hipótesis nula, por lo tanto, existe evidencia a favor de que hay una verdadera diferencia entre las medias de ambos grupos.
Hipótesis 3: En términos del ingreso promedio tenemos que se cumple la hipótesis nula que se planteó inicialmente, en la tabla se puede notar que el ingreso promedio y mediano de aquellos empleados que no rotaron es de 6830 y 5200 respectivamente, mientras que aquellos de si rotaron, perciben un ingreso promedio y mediano menor, de 4790 y 3200 respectivamente. Si bien ambos grupos tiene una alta desviación estándar. Se ve que la distribución del ingreso de los empleados que rotaron está fuertemente concentrada en la mediana, es una distribución que cuenta con la cola derecha, pero sin mucha masa de densidad de ella. Por parte de aquellos que no rotaron, se puede notar que la distribución no se encuentra tan concentrada, y que la masa de densidad de la cola derecha (valores positivos del ingreso) es mayor. Para corroborar esta conclusión gráfica, podemos ver el valor p asociado con el test de Welch Two Sample, es cercano a 0, de manera que se rechaza la hipótesis nula de que no existe una diferencia de los promedios de ambos grupos, existiendo evidencia a favor de que si hay una diferencia verdadera entre las medias de los dos grupos considerados: los que rotaron y los que no.
Variables Cualitativas:
Hipótesis 1: El estado civil de una persona es un factor influyente a la hora de ver la rotación laboral. En la tabla podemos observar que solo el 28.4% de las personas que no rotan son solteros, y que de aquellas que si rotan el 50.06% lo es. De manera similar, si comparamos el total de solteros con el total de casados y divorciados, podemos ver un incremento de 13 y 15.4 por ciento en la rotación, respectivamente. mostrando que existe una incidencia del estado civil en el cambio de trabajo, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 46.16 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil. Sin embargo, esta no es una cualidad que la empresa pueda controlar de manera directa, es por eso que para dar soluciones propicias para disminuir este problema de rotación se evalúan otras variables.
Hipótesis 2: En cuanto a los empleados que realizan viajes de negocios, aquellos que viajan raramente, constituyen mayoría, en términos de porcentajes, tanto de los empleados que rotan como los que no rotan, sin embargo, este efecto puede estar contaminado por una simple cuestión de escala, dada la gran proporción de empleados que viajan raramente. Pero si dividimos a los empleados por categorías en la respuesta: Viaje frecuentemente, raramente o no viaja, vemos que los individuos que tienen viajes frecuentes tiene un incremento del 9.9 y 16.9 por ciento en la rotación, con respecto a los que no viajes o lo hacen raramente, mostrando que es un factor a tener en cuenta a la hora de realizar políticas para disminuir este problema, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 24.18.16 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil.
Hipótesis 3: En términos de las horas extra, de aquellos individuos que no rotan, el 76.6% no realiza horas extra, mientras que aquellos que, si rotan, el 53.6% realiza horas extra. De manera similar cuando dividimos a los empleados por categoría de respuesta podemos ver que de aquellos que si hacen horas extra el 30.5% ha rotado, mientras que los que no hacen horas extra, solo el 10.4% lo ha hecho, hipótesis que se ve corroborada por los test estadísticos, se tiene un Chi cuadrado de 87.56 y un valor p menor a 0.001, por lo que se puede afirmar con más de 95% de confianza que se rechaza la hipótesis nula de independencia entre las variables, encontrando evidencia a favor de que el nivel de rotación si varía entre las categorías de del estado civil.
| Dependent variable: | |
| rotacion | |
| Modelo Step | |
| edad | -0.036*** |
| (0.013) | |
| viajedenegociosRaramente | -1.749*** |
| (0.397) | |
| viajedenegociosFrecuentemente | -0.792*** |
| (0.207) | |
| distanciacasa | 0.043*** |
| (0.010) | |
| campoeducacionHumanidades | 0.724 |
| (0.749) | |
| campoeducacionMercadeo | 0.418 |
| (0.321) | |
| campoeducacionOtra | 0.058 |
| (0.405) | |
| campoeducacionSalud | -0.086 |
| (0.212) | |
| campoeducacionTecnicos | 0.937*** |
| (0.299) | |
| satisfaccionambiental.L | -0.976*** |
| (0.177) | |
| satisfaccionambiental.Q | 0.433** |
| (0.177) | |
| satisfaccionambiental.C | -0.128 |
| (0.180) | |
| generoM | 0.310* |
| (0.181) | |
| cargoDirector_Manofactura | 1.230 |
| (0.880) | |
| cargoEjecutivo_Ventas | 2.029** |
| (0.837) | |
| cargoGerente | 1.122 |
| (0.925) | |
| cargoInvestigador_Cientifico | 1.549* |
| (0.844) | |
| cargoRecursos_Humanos | 2.315** |
| (0.970) | |
| cargoRepresentante_Salud | 0.947 |
| (0.875) | |
| cargoRepresentante_Ventas | 3.045*** |
| (0.884) | |
| cargoTecnico_Laboratorio | 2.499*** |
| (0.842) | |
| satisfacionlaboral.L | -0.906*** |
| (0.179) | |
| satisfacionlaboral.Q | -0.011 |
| (0.177) | |
| satisfacionlaboral.C | -0.267 |
| (0.178) | |
| estadocivilDivorciado | -0.427* |
| (0.254) | |
| estadocivilSoltero | 1.016*** |
| (0.195) | |
| trabajosanteriores | 0.175*** |
| (0.037) | |
| horasextraSi | 1.896*** |
| (0.188) | |
| anosexperiencia | -0.058** |
| (0.026) | |
| capacitaciones | -0.176** |
| (0.071) | |
| equilibriotrabajovida | -0.371*** |
| (0.121) | |
| antiguedad | 0.093** |
| (0.037) | |
| antiguedadcargo | -0.132*** |
| (0.044) | |
| anosultimapromocion | 0.183*** |
| (0.041) | |
| anosacargoconmismojefe | -0.159*** |
| (0.046) | |
| Constant | -1.683 |
| (1.057) | |
| Observations | 1,470 |
| Log Likelihood | -443.144 |
| Akaike Inf. Crit. | 958.287 |
| Note: | p<0.1; p<0.05; p<0.01 |
Ahora realizaremos una selección automática, partiendo del modelo con todas las variables, hasta el modelo mínimo (solo con intercepto). y posteriormente miraremos con las restricciones plantadas cual es el que mejor se ajusta.
En la regresión planteada, se puede observar que por lo menos en una categoría, las variables que se plantearon como hipótesis con significativas, y dado que se tiene una restricción con el número de variables cualitativas y cuantitativas a incluir en el modelo, se tomaran estas.
| Dependent variable: | |
| rotacion | |
| Modelo rotacion | |
| horasextraSi | 1.435*** |
| (0.158) | |
| viajedenegociosRaramente | -1.325*** |
| (0.352) | |
| viajedenegociosFrecuentemente | -0.646*** |
| (0.181) | |
| estadocivilDivorciado | -0.276 |
| (0.231) | |
| estadocivilSoltero | 0.914*** |
| (0.171) | |
| ingresomensual | -0.0001*** |
| (0.00002) | |
| distanciacasa | 0.033*** |
| (0.009) | |
| anosacargoconmismojefe | -0.106*** |
| (0.027) | |
| Constant | -1.302*** |
| (0.252) | |
| Observations | 1,470 |
| Log Likelihood | -539.398 |
| Akaike Inf. Crit. | 1,096.796 |
| Note: | p<0.1; p<0.05; p<0.01 |
Podemos ir que las variables del modelo son altamente significativas. En cuanto a la interpretación de los coeficientes debemos transformarlos antes de poderlos interpretar en términos de probabilidades de rotación se debe transformar los coeficientes de la siguiente manera: \(\frac{e^{\beta}}{1+e^{\beta}}\). de esta manera tenemos los siguientes resultados.
\(*\) Se observa que la variable independiente “horasextraSi”, tiene una probabilidad estimada de 0.808 de rotación cuando el empleado trabaja horas extra. Esto significa que, en promedio, el 80.8% de los empleados que trabajan horas extra tienen una probabilidad estimada de rotar.
\(*\) En promedio, el 21% de los empleados que viajan de negocios raramente tienen una probabilidad estimada de rotar.
\(*\) En promedio, el 34.4% de los empleados que viajan de negocios frecuentemente tienen una probabilidad estimada de rotar.
\(*\) En promedio, el 71.4% de los empleados solteros tienen una probabilidad estimada de rotar.
\(*\) La variable independiente “ingresomensual” tiene una probabilidad estimada de 0.49999 de rotación para un aumento de 1 unidad en el ingreso mensual. Esto indica que, en promedio, un aumento de 1 unidad en el ingreso mensual se asocia con una probabilidad estimada muy pequeña de rotación, esto tiene sentido dado que los incrementos del ingreso mensual se realizan en cuantías mayores.
\(*\) La variable independiente “distanciacasa” tiene una probabilidad estimada de 0.5082208 de rotación para un aumento de 1 unidad en la distancia a casa. Esto indica que, en promedio, un aumento de 1 unidad en la distancia a casa se asocia con una probabilidad estimada ligeramente mayor de rotación.
\(*\) La variable independiente “anosacargoconmismojefe” tiene una probabilidad estimada de 0.4734179 de rotación para un aumento de 1 unidad en el número de años a cargo del mismo jefe. Esto indica que, en promedio, un aumento de 1 unidad en el número de años a cargo del mismo jefe se asocia con una probabilidad estimada ligeramente menor de rotación.
Ahora evaluamos el poder predictivo del modelo.
| Dependent variable: | |
| rotacion | |
| Modelo credito | |
| horasextraSi | 1.197*** |
| (0.256) | |
| viajedenegociosRaramente | -2.426*** |
| (0.776) | |
| viajedenegociosFrecuentemente | -0.821*** |
| (0.283) | |
| estadocivilDivorciado | -0.079 |
| (0.350) | |
| estadocivilSoltero | 0.842*** |
| (0.278) | |
| ingresomensual | -0.0002*** |
| (0.00004) | |
| distanciacasa | 0.028* |
| (0.015) | |
| anosacargoconmismojefe | -0.140*** |
| (0.045) | |
| Constant | -0.640 |
| (0.406) | |
| Observations | 589 |
| Log Likelihood | -210.311 |
| Akaike Inf. Crit. | 438.622 |
| Note: | p<0.1; p<0.05; p<0.01 |
predicciones
0 1
Si 725 14 No 118 24
Aca se puede ver que el valor de 0.76 del AUC, quiere decir que el modelo tiene una probabilidad del 76% de clasificar correctamente una instancia positiva aleatoria por encima de una instancia negativa aleatoria. En términos generales, se considera que un modelo con un AUC superior a 0.5 tiene cierta capacidad predictiva, siendo valores mayores a 0.7 considerados buenos.
Finalmente realizaremos una predicción la probabilidad de que un individuo (hipotético) rote y se definirá un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).
## 1
## 0.2849518
El valor 0.2849518 indica la probabilidad estimada de que un empleado (presente una rotación en el trabajo) con las siguientes características:
\(*\) Estado civil = “Casado” \(*\) Trabaja horas extra \(*\) viaja frecuentemente por negocios \(*\) Tiene cero años a cargo del mismo jefe \(*\) Tiene un ingreso mensual de 6120 \(*\) vive a una distancia de 10 unidades
Dado que el valor es menor a 0.5, se podría interpretar como que este modelo de regresión binomial predice que es menos probable que el empleado presente rotación en el trabajo, aunque la probabilidad estimada es moderadamente alta, se considera baja para los análisis estadísticos, y la empresa no se debería preocupar inmediatamente por él.
#Problema 2 Con base en los datos de créditos proponga un modelo de regresión logístico múltiple que permita predecir el riesgo de default o de no pago en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el AUC y la curva ROC.
| tipo_dato | |
|---|---|
| default | numeric |
| antiguedad | numeric |
| edad | numeric |
| cuota | numeric |
| ingresos | numeric |
Selección de variables: En el gráfico de correlación se ve una correlación baja con la variable edad, es por esto que realizaremos una técnico de selección automática, para validar si esta característica hace que con estas técnicas la variables no sea significativa en la regresión.
##
## Call:
## glm(formula = default ~ antiguedad + cuota + ingresos, family = "binomial",
## data = creditos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.8147 -0.3724 -0.2868 -0.1938 3.1088
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.244e+00 3.933e-01 -5.707 1.15e-08 ***
## antiguedad -2.817e-02 1.803e-02 -1.562 0.1183
## cuota 9.860e-07 2.456e-07 4.014 5.96e-05 ***
## ingresos -2.542e-07 1.059e-07 -2.400 0.0164 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 309.68 on 779 degrees of freedom
## Residual deviance: 288.78 on 776 degrees of freedom
## AIC: 296.78
##
## Number of Fisher Scoring iterations: 6
Dado que en términos de correlaciones y de selección automática edad no es significativa en el planteamiento del modelo, consideraremos el modelo con esta característica.
| Dependent variable: | |
| default | |
| Modelo Credito | |
| ingresos | -0.00000** |
| (0.00000) | |
| antiguedad | -0.028 |
| (0.018) | |
| cuota | 0.00000*** |
| (0.00000) | |
| Constant | -2.244*** |
| (0.393) | |
| Observations | 780 |
| Log Likelihood | -144.392 |
| Akaike Inf. Crit. | 296.785 |
| Note: | p<0.1; p<0.05; p<0.01 |
Interpretación. La probabilidad predicha de tener un valor “default” de 1 cuando ingresos=0, antigüedad=0, cuota=0 es: Probabilidad = \(e^{-2.244} / (1 + e^{-2.244}) = 0.095\) Esto significa que, en promedio, el 9.5% de los clientes con ingresos, antigüedad y cuota iguales a cero tendrán un valor “default” de 1 según el modelo.
La probabilidad predicha de tener un valor “default” de 1 cuando ingresos aumenta en 1 unidad, antigüedad y cuota se mantienen constantes es: Probabilidad = \(e^{-2.244 - 2.542e-07 * 1} / (1 + e^{-2.244 - 2.542e-07 * 1}) = 0.094\)
Esto significa que, en promedio, un aumento de 1 unidad en la variable “ingresos” manteniendo constantes “antigüedad” y “cuota”, disminuye la probabilidad de tener un valor “default” de 1 en un 0.1%.
Validación cruzada.
| Dependent variable: | |
| default | |
| Modelo credito-Training data | |
| ingresos | -0.00000 |
| (0.00000) | |
| antiguedad | -0.006 |
| (0.025) | |
| cuota | 0.00000*** |
| (0.00000) | |
| Constant | -2.919*** |
| (0.702) | |
| Observations | 313 |
| Log Likelihood | -58.483 |
| Akaike Inf. Crit. | 124.967 |
| Note: | p<0.1; p<0.05; p<0.01 |
predicciones
0 1
No_default 443 1 Default 22 1 Confusion
Matrix and Statistics
Reference
Prediction No_default Default No_default 443 22 Default 1 1
Accuracy : 0.9507
95% CI : (0.927, 0.9685)
No Information Rate : 0.9507
P-Value [Acc > NIR] : 0.5552
Kappa : 0.0727
Mcnemar’s Test P-Value : 3.042e-05
Sensitivity : 0.99775
Specificity : 0.04348
Pos Pred Value : 0.95269
Neg Pred Value : 0.50000
Prevalence : 0.95075
Detection Rate : 0.94861
Detection Prevalence : 0.99572
Balanced Accuracy : 0.52061
'Positive' Class : No_default
Con esto se puede ver la probabilidad de que el modelo clasifique correctamente es del 64%, lo cual sigue estando bien. Si hacemos esto en términos de la validación cruzada, podemos observar que el Acurracy es de 0.9507