Se tienen los datos de una empresa respecto a las salidas de sus empleados, buscamos crear una estrategia para entender y reducir el número de salidas de los empleados de dicha empresa.
La información con la que se cuenta es la de 7749 empleados y 21 de las características se creen son importantes para lograr el objetivo antes descrito.
Como un primer acercamiento a la información analizaremos la correlación entre variables para ver el grado de dependencia entre ellas.
Al ver el gráfico obtenido, podemos notar que la dependencia entre las variables es nula. Muy pocas variables tienen correlación con otras (también muy pocas) aunque tales valores de correlación son negativos, en específico, la variable que mide el tiempo de permanecia en la empresa tiene valores muy pequeños de correlación con las demás variables.
Es posible que no podamos crear una estrategia con el conjunto de variables que contamos, aún así observaremos el modelo de supervivencia respecto a algunas variables.
Primero veremos cuántos de los 7749 empleados siguen trabajando en la empresa y cuántos no. Posteriormente veremos la proporción de hombres y mujeres que ya no trabajan en la empresa respecto a los que aún lo hacen.
Aún hay 5939 empleados trabajando y 1810 ya no trabajan en la empresa. Es decir, aproximadamente el 30% de los empleados ya no trabaja en la empresa.
Vemos que 3047 mujeres siguen en la empresa mientras que 959 no, aproximadamente el 31% del total de mujeres ya no trabaja en la empresa.
En el caso de los hombres, 2892 continúan en la empresa y los 851 restantes ya no, esto significa que aproximadamente el 29% del total de hombres ya no trabaja en la empresa.
La proporción de hombres y mujeres que dejaron de trabajar en la empresa es muy parecida por lo cual podemos concluír que dejar la empresa no es un fenómeno que afecte a los empleados de un género en específico.
En la gráfica se muestra que los empleados hombres con una probabilidad ligeramente mayor permanecen más años en la empresa.
Ahora revisaremos las curvas de supervivencia respecto a diferentes grupos para observar aquellos que afectan más el tiempo de permanencia de los empleados, después reaizaremos el análisis correspondiente para verificar si alguno de los que observemos es de los que principalmente afecta el tiempo de permanencia en la empresa y así planear una estrategia con base en lo que observemos para tratar de evitar que tantos empleados dejen la empresa.
En la gráfica se puede observar que los empleados que recibían un sueldo catalogado como “Bajo” permanecen en la empresa más tiempo que aquellos que recibían un sueldo “Alto” o “Medio”, lo cual creeríamos sería de forma opuesta ya que de tener un mejor salario los empleados tendrían un factor más para decidir permanecer en la empresa más tiempo.
Ordenamos por intervalos las edades de los empleados y concluímos que los empleados que tienen de 52 a 65 años tienen mayor probabilidad de permanecer más tiempo trabajando en la empresa mientras que aquellos empleados que tienen entre 30 y 41 años tienen la menor probabilidad de permanecer un tiempo mayor a 8 años.
Ahora veamos cómo se comporta el modelo de supervivencia combinando estos grupos.
Las anteriores son sólo observaciones a las gráficas, no podemos afirmar que son variables significativas sin antes hacer uso de herramientas como el Modelo de Cox para ver si en efecto las variables son significativas o no.
-¿Podemos usar un modelo Cox para todas la variables de la base de datos? Para responder esto, lo primero que se realizó fue aplicar una prueba Cox, haciendo uso de todas las variables (columnas) de la base:
Nuestros resultados fueron poco satisfactorios, puesto que:
Cada P-value correspondiente a cada variable nos indica que la hipótesis nula se tenía que aceptar; es decir Todos los coeficientes debían ser igual a cero; a excepción de una variable, Salary.
Nota:
Esta variable por sí sola , en un análisis de supervivencia tiene mucho peso, debido a que para un trabajador el que prolongue su estadía en la empresa o el que renuncie depende mucho de los ingresos que tenga para su subsistencia.
Likelihood ratio
Wald test
Score (logrank)
Con lo cual podríamos ver de una manera global (Al menos un coeficiente sea distinto de cero).
Nuestro resultado: Se tuvo que aceptar la hipótesis nula, es decir todos los coeficientes son iguales a cero; con lo que no podemos usar un modelo de Cox.
Nuestro resultado : Nos mostró, que el ajuste de todas las variables era terrible; el valor en sí de la R^2 era muy bajo (insignificante)
Nota:
A pesar de que virtualmente se obtuvo una función hazard con covariables, está no nos es de utilidad puesto que por a), b) y c) sabemos que no se cumple que las supervivencia sean proporcionales; esto lo podemos ver no solo a las pruebas realizadas y el ajuste de R^2 sino también gracias a las gráficas de supervivencia de ciertas variables que a primera vista consideramos tendrían un mayor peso en la solución del problema.
-Uso de distintas variables para el modelo Cox
No solo se trató de hacer el uso del modelo Cox con todas las variables si no que se usaron una, dos o tres variables de la base, para tratar de dar solución a nuestro problema, pero aún así llegamos a resultados parecidos a los del punto anterior. Ahora, el uso de variables que de manera intuitiva nos serían un factor importante a considerar en la solución de nuestro problema. (Véase la gráficas de supervivencia). Siguen llevándonos a resultados poco usables en un modelo Cox.
Como curiosidad; La única variable que nos otorga un p-value pequeño (permitiéndonos aceptar que ese coeficiente si sería parte del modelo) es la variable de Salario, que evidentemente tiene mucho que ver con la solución de nuestro problema. De ahí en fuera, todas las demás variables nos proporcionan los mismos resultados desalentadores obtenidos en la prueba del uso de todas ellas.
-¿Que podemos observar de los resultados anteriores?
P-values que no nos permiten aceptar el uso de coeficientes distintos de cero.
R^2 demasiado cercana a cero; indicándonos un ajuste terrible de los datos.
Así como lo antes mencionado; Mala correlación y gráficas de supervivencia no proporcionales.
Con todo esto llegamos a la conclusión de que, es inútil hacer uso de modelos Cox proporcionales para la solución de nuestro problema.
Con los resultados obtenidos podemos entender que la salida de los empleados puede deberse al salario, el genero o la distancia al trabajo, pero la única variable significativa es la de Salario, las variables restantes de la base de datos no tienen alguna correlación, es difícil proponer una estrategia de retención debido a esto, sin embargo una recomendación general podría hacerse basada en el salario, se podrían disminuir los montos de los salarios para aumentar la probabilidad de permanencia dentro de la empresa. Considerando la nula correlación y la poca utilidad que tiene el modelo Cox proporcional en nuestros datos concluimos que las variables utilizadas no son las adecuadas para plantear una estrategia de retención al área de Recursos Humanos.
.