Planteamiento del problema
Un trabajador feliz es el resultado de una suma de distintos factores y de disposiciones que otorga una empresa, como la remuneración, la flexibilidad, la posibilidad de crecimiento, el ambiente laboral, y los beneficios adicionales, entre otros. Por ello, las compañías buscan lineamientos que interpreten los requerimientos y deseos de los trabajadores para una devolución que sea sinónimo de motivación y compromiso.
Día a día, la cultura de la felicidad es promovida por las compañías con el propósito de afianzar su lazo con sus trabajadores, de este modo los empleados que estén “satisfechos” y/o “contentos” con sus situaciones laborales tenderán a ser mas productivos en sus trabajos diarios, aumentando la rentabilidad de una empresa.
Para el análisis descriptivo utilizaremos información de las bases de datos de empleados de una empresa que pretende certificarse como “Great Place to Work”, para conocer el comportamiento de nuestros datos y así tener una idea general y superficial de la permanencia de los trabajadores. Este análisis constara de histogramas y gráficos de varias variables como su edad, satisfacción del trabajo, satisfacción en el trabajo, # de ascensos , balance entre vida-trabajo, entre otros, con el fin de poder determinar si estas variables brindadas nos proporcionarán una certera justificación de la meta, el poder obtener la certificación, ademas de identificar las variables que determinan las causas por las que un empleado renuncia.
A continuación presentaremos los estadísticos principales de las variables que tenemos, se han convertido una serie de variables numéricas a factores (Education,JobLevel,StockOptionLevel,TrainingTimesLastYear, EnvironmentSatisfaction ,JobSatisfaction, WorkLifeBalance,JobInvolvement ,PerformanceRating) , se han eliminado dos variables que eran constantes (Over18,StandardHours), y se ha transformado la variable Attrition a binaria (0,1).
Además dentro de la encuesta a los empleados, se encontraron algunos NA, los cuales para no perder información se cambiaron a un caso 0 el cuál significa “No respuesta”
## Age Attrition BusinessTravel
## Min. :18.00 No :3699 Non-Travel : 450
## 1st Qu.:30.00 Yes: 711 Travel_Frequently: 831
## Median :36.00 Travel_Rarely :3129
## Mean :36.92
## 3rd Qu.:43.00
## Max. :60.00
##
## Department DistanceFromHome Education
## Human Resources : 189 Min. : 1.000 1: 510
## Research & Development:2883 1st Qu.: 2.000 2: 846
## Sales :1338 Median : 7.000 3:1716
## Mean : 9.193 4:1194
## 3rd Qu.:14.000 5: 144
## Max. :29.000
##
## EducationField EmployeeCount EmployeeID Gender
## Human Resources : 81 Min. :1 Min. : 1 Female:1764
## Life Sciences :1818 1st Qu.:1 1st Qu.:1103 Male :2646
## Marketing : 477 Median :1 Median :2206
## Medical :1392 Mean :1 Mean :2206
## Other : 246 3rd Qu.:1 3rd Qu.:3308
## Technical Degree: 396 Max. :1 Max. :4410
##
## JobLevel JobRole MaritalStatus MonthlyIncome
## 1:1629 Sales Executive :978 Divorced: 981 Min. : 10090
## 2:1602 Research Scientist :876 Married :2019 1st Qu.: 29110
## 3: 654 Laboratory Technician :777 Single :1410 Median : 49190
## 4: 318 Manufacturing Director :435 Mean : 65029
## 5: 207 Healthcare Representative:393 3rd Qu.: 83800
## Manager :306 Max. :199990
## (Other) :645
## NumCompaniesWorked PercentSalaryHike StockOptionLevel TotalWorkingYears
## Min. :0.000 Min. :11.00 0:1893 Min. : 0.00
## 1st Qu.:1.000 1st Qu.:12.00 1:1788 1st Qu.: 6.00
## Median :2.000 Median :14.00 2: 474 Median :10.00
## Mean :2.695 Mean :15.21 3: 255 Mean :11.28
## 3rd Qu.:4.000 3rd Qu.:18.00 3rd Qu.:15.00
## Max. :9.000 Max. :25.00 Max. :40.00
## NA's :19 NA's :9
## TrainingTimesLastYear YearsAtCompany YearsSinceLastPromotion
## 0: 162 Min. : 0.000 Min. : 0.000
## 1: 213 1st Qu.: 3.000 1st Qu.: 0.000
## 2:1641 Median : 5.000 Median : 1.000
## 3:1473 Mean : 7.008 Mean : 2.188
## 4: 369 3rd Qu.: 9.000 3rd Qu.: 3.000
## 5: 357 Max. :40.000 Max. :15.000
## 6: 195
## YearsWithCurrManager BinAtri JobInvolvement PerformanceRating
## Min. : 0.000 Min. :0.0000 1: 249 3:3732
## 1st Qu.: 2.000 1st Qu.:0.0000 2:1125 4: 678
## Median : 3.000 Median :0.0000 3:2604
## Mean : 4.123 Mean :0.1612 4: 432
## 3rd Qu.: 7.000 3rd Qu.:0.0000
## Max. :17.000 Max. :1.0000
##
## EnvironmentSatisfaction JobSatisfaction WorkLifeBalance
## 0: 25 0: 20 0: 38
## 1: 845 1: 860 1: 239
## 2: 856 2: 840 2:1019
## 3:1350 3:1323 3:2660
## 4:1334 4:1367 4: 454
##
##
La correlación es muy importante en el comportamiento de las variables ya que muestra como están relacionadas entre ellas. Afortunadamente tenemos valores númericos en las variables factor que significan que son proporcionales a su número , es decir, un número más alto significa +educación, +nivel de empleo , +satisfacción laboral etc
Utilizaremos esta definición para entender el comportamiento general.
Nota: Prestemos particular atención al campo correspondiente a la variable BinAtri, si es 0 significa que se quedó, si es 1 significa que renunció, por ende si hay una correlación positiva significa que la relación con esa variable en particular puede ser buena para que una persona se vaya, y en caso existir correlación negativa, puede ser que el aumento de esa variable influya en que se quede. En caso de que la correlación sea muy cercana a 0, implica que esa variable no proporciona ninguna tendencia aparente bajo esta interpretación.
Notemos que tan sólo el 16% de los empleados ha rotado, es por ello que la correlación con cualquier variable parece mínima, pero el hecho de que alcance algún valor considerablemente distinto a 0 nos puede dar bastante información.
Las variables que consideramos importantes bajo este análisis son:
Notemos que Age y TotalWorkingYears están tiene una correlación positiva cercana a 1 con YearsatCompany, YearsSinceLastPromotion , YearsWithCurrManager
Ahora analizaremos todas estas variables en conjunto, para ver suáles son mejores para clasificar.
A continuación analizaremos algunos estadísticos en función de las respuestas de las encuestas. Donde N es el número de empleados, P_Edad es la edad promedio, Med_Salario la mediana del salario, Porcentaje es el porcentaje con respecto al total de empleados, P_TWY promedio de los años totales trabajados, P_NCW Promedio de número de companías trabajadas, P_PSH Promedio del porcentaje salarial aumentado.
PerformanceRating | Attrition | N | P_Edad | Med_Salario | Porcentaje | P_TWY | P_PSH | P_NCW |
---|---|---|---|---|---|---|---|---|
3 | No | 3144 | 37.65 | 48805 | 71.29 | 11.813316 | 13.98092 | 2.630671 |
3 | Yes | 588 | 33.66 | 49550 | 13.33 | 8.452218 | 14.12245 | 2.917808 |
4 | No | 555 | 37.04 | 53040 | 12.59 | 12.130199 | 21.82162 | 2.749097 |
4 | Yes | 123 | 33.37 | 40780 | 2.79 | 7.317073 | 21.97561 | 3.024390 |
(Apretar los botones del plot ;) )
Observamos una mayor rotación de personas con Bajo salario y que tienen menor edad
Observemos que 13% total, de los 16 % totales que son, se van porque no tienen buen desempeño propongo capacitación, al parecer mucha gente se está yendo porque no sabe que hacer o no le gusta.
WorkLifeBalance | Attrition | N | P_Edad | Med_Salario | Porcentaje | P_TWY | P_PSH | P_NCW |
---|---|---|---|---|---|---|---|---|
0 | No | 34 | 39.88 | 45610 | 0.77 | 12.393939 | 15.32353 | 2.411765 |
0 | Yes | 4 | 31.25 | 32760 | 0.09 | 8.500000 | 15.25000 | 3.250000 |
1 | No | 164 | 38.38 | 53760 | 3.72 | 11.384146 | 15.68293 | 2.896342 |
1 | Yes | 75 | 34.80 | 44850 | 1.70 | 9.000000 | 15.40000 | 3.540541 |
2 | No | 848 | 37.75 | 49525 | 19.23 | 12.229953 | 15.44929 | 2.643365 |
2 | Yes | 171 | 34.31 | 47680 | 3.88 | 8.187135 | 15.36257 | 2.912281 |
3 | No | 2280 | 37.40 | 49300 | 51.70 | 11.731310 | 15.03158 | 2.591450 |
3 | Yes | 380 | 33.44 | 49080 | 8.62 | 8.166667 | 15.53684 | 2.791005 |
4 | No | 373 | 37.57 | 48760 | 8.46 | 11.973190 | 15.01609 | 2.919571 |
4 | Yes | 81 | 31.93 | 59800 | 1.84 | 8.111111 | 15.55556 | 3.100000 |
Las personas con una calificación media (3) en la nivelación de su vida laboral, social y familiar presentan una mayor rotación, o mienten o realmente esta variable no sirve para clasificar.
Además notamos que en general los porcentajes salariales más pequeños son los correspondientes a las personas que se van de la empresa.
Congrunte con el analisis descriptivo proporcionaremos una separación de las curvas de supervivencia estimadas. -Elaborando un análisis de regresión de la permanencia de la compañía para identificar los factores que influyan y seleccionando nuevas variables para la relacion de permencencia en el epmpleo. -Ajustar un modelo paramétrio a esta supervivencia
MODELOS DE SUPERVIVENCIA
Tenemos los datos de el personal de una empresa, donde buscamos crear una estrategia para entender y obtener la mayor permanencia de los empleados en la empresa. La informacion con que se cuenta es de 4410 empleados y 28 variables que se analizaron en las evaluaciones realizadas a los empleados, de las cuales enfatizaremos en 6, dada su reelevancia y relación en la permanencia de un empleo para los modelos de supervivencia.
Las variables que consideramos importantes para el siguiente análisis son: