Planteamiento del problema

Un trabajador feliz es el resultado de una suma de distintos factores y de disposiciones que otorga una empresa, como la remuneración, la flexibilidad, la posibilidad de crecimiento, el ambiente laboral, y los beneficios adicionales, entre otros. Por ello, las compañías buscan lineamientos que interpreten los requerimientos y deseos de los trabajadores para una devolución que sea sinónimo de motivación y compromiso.

Día a día, la cultura de la felicidad es promovida por las compañías con el propósito de afianzar su lazo con sus trabajadores, de este modo los empleados que estén “satisfechos” y/o “contentos” con sus situaciones laborales tenderán a ser mas productivos en sus trabajos diarios, aumentando la rentabilidad de una empresa.

Para el análisis descriptivo utilizaremos información de las bases de datos de empleados de una empresa que pretende certificarse como “Great Place to Work”, para conocer el comportamiento de nuestros datos y así tener una idea general y superficial de la permanencia de los trabajadores. Este análisis constara de histogramas y gráficos de varias variables como su edad, satisfacción del trabajo, satisfacción en el trabajo, # de ascensos , balance entre vida-trabajo, entre otros, con el fin de poder determinar si estas variables brindadas nos proporcionarán una certera justificación de la meta, el poder obtener la certificación, ademas de identificar las variables que determinan las causas por las que un empleado renuncia.

Resumen de la información

A continuación presentaremos los estadísticos principales de las variables que tenemos, se han convertido una serie de variables numéricas a factores (Education,JobLevel,StockOptionLevel,TrainingTimesLastYear, EnvironmentSatisfaction ,JobSatisfaction, WorkLifeBalance,JobInvolvement ,PerformanceRating) , se han eliminado dos variables que eran constantes (Over18,StandardHours), y se ha transformado la variable Attrition a binaria (0,1).

Además dentro de la encuesta a los empleados, se encontraron algunos NA, los cuales para no perder información se cambiaron a un caso 0 el cuál significa “No respuesta”

##       Age        Attrition            BusinessTravel
##  Min.   :18.00   No :3699   Non-Travel       : 450  
##  1st Qu.:30.00   Yes: 711   Travel_Frequently: 831  
##  Median :36.00              Travel_Rarely    :3129  
##  Mean   :36.92                                      
##  3rd Qu.:43.00                                      
##  Max.   :60.00                                      
##                                                     
##                   Department   DistanceFromHome Education
##  Human Resources       : 189   Min.   : 1.000   1: 510   
##  Research & Development:2883   1st Qu.: 2.000   2: 846   
##  Sales                 :1338   Median : 7.000   3:1716   
##                                Mean   : 9.193   4:1194   
##                                3rd Qu.:14.000   5: 144   
##                                Max.   :29.000            
##                                                          
##           EducationField EmployeeCount   EmployeeID      Gender    
##  Human Resources :  81   Min.   :1     Min.   :   1   Female:1764  
##  Life Sciences   :1818   1st Qu.:1     1st Qu.:1103   Male  :2646  
##  Marketing       : 477   Median :1     Median :2206                
##  Medical         :1392   Mean   :1     Mean   :2206                
##  Other           : 246   3rd Qu.:1     3rd Qu.:3308                
##  Technical Degree: 396   Max.   :1     Max.   :4410                
##                                                                    
##  JobLevel                      JobRole     MaritalStatus  MonthlyIncome   
##  1:1629   Sales Executive          :978   Divorced: 981   Min.   : 10090  
##  2:1602   Research Scientist       :876   Married :2019   1st Qu.: 29110  
##  3: 654   Laboratory Technician    :777   Single  :1410   Median : 49190  
##  4: 318   Manufacturing Director   :435                   Mean   : 65029  
##  5: 207   Healthcare Representative:393                   3rd Qu.: 83800  
##           Manager                  :306                   Max.   :199990  
##           (Other)                  :645                                   
##  NumCompaniesWorked PercentSalaryHike StockOptionLevel TotalWorkingYears
##  Min.   :0.000      Min.   :11.00     0:1893           Min.   : 0.00    
##  1st Qu.:1.000      1st Qu.:12.00     1:1788           1st Qu.: 6.00    
##  Median :2.000      Median :14.00     2: 474           Median :10.00    
##  Mean   :2.695      Mean   :15.21     3: 255           Mean   :11.28    
##  3rd Qu.:4.000      3rd Qu.:18.00                      3rd Qu.:15.00    
##  Max.   :9.000      Max.   :25.00                      Max.   :40.00    
##  NA's   :19                                            NA's   :9        
##  TrainingTimesLastYear YearsAtCompany   YearsSinceLastPromotion
##  0: 162                Min.   : 0.000   Min.   : 0.000         
##  1: 213                1st Qu.: 3.000   1st Qu.: 0.000         
##  2:1641                Median : 5.000   Median : 1.000         
##  3:1473                Mean   : 7.008   Mean   : 2.188         
##  4: 369                3rd Qu.: 9.000   3rd Qu.: 3.000         
##  5: 357                Max.   :40.000   Max.   :15.000         
##  6: 195                                                        
##  YearsWithCurrManager    BinAtri       JobInvolvement PerformanceRating
##  Min.   : 0.000       Min.   :0.0000   1: 249         3:3732           
##  1st Qu.: 2.000       1st Qu.:0.0000   2:1125         4: 678           
##  Median : 3.000       Median :0.0000   3:2604                          
##  Mean   : 4.123       Mean   :0.1612   4: 432                          
##  3rd Qu.: 7.000       3rd Qu.:0.0000                                   
##  Max.   :17.000       Max.   :1.0000                                   
##                                                                        
##  EnvironmentSatisfaction JobSatisfaction WorkLifeBalance
##  0:  25                  0:  20          0:  38         
##  1: 845                  1: 860          1: 239         
##  2: 856                  2: 840          2:1019         
##  3:1350                  3:1323          3:2660         
##  4:1334                  4:1367          4: 454         
##                                                         
## 

Observaciones a partir del summary anterior:

  1. El 16% de los empleados se ha ido (ver BinAtri)
  2. La mayoría de los empleados tiene Maestría o hasta el Bachillerato (Ver Education)
  3. Edad promedio son 36 años y la máxima 60 (ver age)
  4. El área de investigación es muy grande (Ver Departmen)
  5. Más Hombres que mujeres casi 1000 menos (Ver gender)
  6. Más Personas casadas (Ver marital Status)
  7. Los salarios son muy distintos (Ver Monthly Income)
  8. La gran mayoría tiene altos niveles de EnvironmentSatisfaction y JobSatisfaction pero aprox 20% lo considera malo muy aproximado a nuestro 16% de rotación.

Análisis de Correlación:

La correlación es muy importante en el comportamiento de las variables ya que muestra como están relacionadas entre ellas. Afortunadamente tenemos valores númericos en las variables factor que significan que son proporcionales a su número , es decir, un número más alto significa +educación, +nivel de empleo , +satisfacción laboral etc

Utilizaremos esta definición para entender el comportamiento general.

Nota: Prestemos particular atención al campo correspondiente a la variable BinAtri, si es 0 significa que se quedó, si es 1 significa que renunció, por ende si hay una correlación positiva significa que la relación con esa variable en particular puede ser buena para que una persona se vaya, y en caso existir correlación negativa, puede ser que el aumento de esa variable influya en que se quede. En caso de que la correlación sea muy cercana a 0, implica que esa variable no proporciona ninguna tendencia aparente bajo esta interpretación.

Notemos que tan sólo el 16% de los empleados ha rotado, es por ello que la correlación con cualquier variable parece mínima, pero el hecho de que alcance algún valor considerablemente distinto a 0 nos puede dar bastante información.

Las variables que consideramos importantes bajo este análisis son:

  1. Age
  2. TotalWorkingYears
  3. PercentSalaryHike
  4. NumCompaniesWorked
  5. Performancerating
  6. WorkLifeBalance
  7. JobSatisfaction

Notemos que Age y TotalWorkingYears están tiene una correlación positiva cercana a 1 con YearsatCompany, YearsSinceLastPromotion , YearsWithCurrManager

Ahora analizaremos todas estas variables en conjunto, para ver suáles son mejores para clasificar.

Análisis encuestas

A continuación analizaremos algunos estadísticos en función de las respuestas de las encuestas. Donde N es el número de empleados, P_Edad es la edad promedio, Med_Salario la mediana del salario, Porcentaje es el porcentaje con respecto al total de empleados, P_TWY promedio de los años totales trabajados, P_NCW Promedio de número de companías trabajadas, P_PSH Promedio del porcentaje salarial aumentado.

Variable PerformanceRating

PerformanceRating Attrition N P_Edad Med_Salario Porcentaje P_TWY P_PSH P_NCW
3 No 3144 37.65 48805 71.29 11.813316 13.98092 2.630671
3 Yes 588 33.66 49550 13.33 8.452218 14.12245 2.917808
4 No 555 37.04 53040 12.59 12.130199 21.82162 2.749097
4 Yes 123 33.37 40780 2.79 7.317073 21.97561 3.024390

(Apretar los botones del plot ;) )

Observamos una mayor rotación de personas con Bajo salario y que tienen menor edad

Observemos que 13% total, de los 16 % totales que son, se van porque no tienen buen desempeño propongo capacitación, al parecer mucha gente se está yendo porque no sabe que hacer o no le gusta.

Variable WorkLifeBalance
WorkLifeBalance Attrition N P_Edad Med_Salario Porcentaje P_TWY P_PSH P_NCW
0 No 34 39.88 45610 0.77 12.393939 15.32353 2.411765
0 Yes 4 31.25 32760 0.09 8.500000 15.25000 3.250000
1 No 164 38.38 53760 3.72 11.384146 15.68293 2.896342
1 Yes 75 34.80 44850 1.70 9.000000 15.40000 3.540541
2 No 848 37.75 49525 19.23 12.229953 15.44929 2.643365
2 Yes 171 34.31 47680 3.88 8.187135 15.36257 2.912281
3 No 2280 37.40 49300 51.70 11.731310 15.03158 2.591450
3 Yes 380 33.44 49080 8.62 8.166667 15.53684 2.791005
4 No 373 37.57 48760 8.46 11.973190 15.01609 2.919571
4 Yes 81 31.93 59800 1.84 8.111111 15.55556 3.100000

Las personas con una calificación media (3) en la nivelación de su vida laboral, social y familiar presentan una mayor rotación, o mienten o realmente esta variable no sirve para clasificar.

Además notamos que en general los porcentajes salariales más pequeños son los correspondientes a las personas que se van de la empresa.

Congrunte con el analisis descriptivo proporcionaremos una separación de las curvas de supervivencia estimadas. -Elaborando un análisis de regresión de la permanencia de la compañía para identificar los factores que influyan y seleccionando nuevas variables para la relacion de permencencia en el epmpleo. -Ajustar un modelo paramétrio a esta supervivencia

MODELOS DE SUPERVIVENCIA

Tenemos los datos de el personal de una empresa, donde buscamos crear una estrategia para entender y obtener la mayor permanencia de los empleados en la empresa. La informacion con que se cuenta es de 4410 empleados y 28 variables que se analizaron en las evaluaciones realizadas a los empleados, de las cuales enfatizaremos en 6, dada su reelevancia y relación en la permanencia de un empleo para los modelos de supervivencia.

Las variables que consideramos importantes para el siguiente análisis son:

  1. Age (edad)
  2. DistanceFromHome (distancia del hogar al trabajo)
  3. TotalWorkingYears (total de años laborando)
  4. YearsAtCompany (años en la compañia)
  5. YearsWithCurrManager (años con el actual jefe)
  6. YearsSinceLastPromotion (años desde el ultimo ascenso)