ANÁLISIS DE SUPERVIVENCIA

Es una técnica inferencial que tiene como objetivo esencial modelizar el tiempo que se tarda en que ocurra un determinado suceso. Este análisis tiene como objetivo estimar e interpretar las funciones de supervivencia y/o riesgo. Para ajustar un modelo a estas funciones, tenemos técnicas paramétricas y no paramétricas, en este proyecto, analizaremos una base de datos dada y veremos cuál es el que mejor le ajusta.

Análisis Exploratorio

Lo primero que haremos será un análisis descriptivo de la base para ver el comportamiento de nuestros datos, con el fin de generar una idea general y superficial de que esta pasando con nuestro caso de investigación. Este análisis constará de histogramas y gráficos de barras de las variables.

Análisis descriptivo de la Base de Datos (data_p3):

En el caso de la variable de los años que duran en la compañía, se concentra en los primeros 5-10 años y apartir de ahí empieza a decrecer por lo que podemos inferir que los empleados apartir de los 10 años laborando buscan mejorar sus oportundiades laborales.

## MaritalStatus
## Divorced  Married   Single 
##     1649     3847     2504

Notese que en la variable del estado civil, los individuos casados (3847) son los que permanecen mayor tiempo dentro de la compañía debido a que sus responsabilidades son mayores a las de un inidividuo soltero o de una persona divorciada.

## Son
##    0    1    2    3    4 
## 3190 2529 1621  179  413

Se observa que el número de hijos no es una variable que afecte la decisión de dejar o no la compañía, ya que casi el 50% del número de empleados estudiados (8,000) no cuenta con hijos.

## salary
##   high    low medium 
##    680   3914   3406

Deducimos que debido al promedio alto en los salarios bajos y medios, esta variable es un factor importante para que las personas abandonen la compañía.Ya que solo 680 personas de los 8,000 observados cuentan con un salario alto.

## Role
##        Director         Level 1       Level 2-4         Manager 
##             343            1721            3671            1273 
## Senior Director  Senior Manager              VP 
##             188             735              69

Respecto a las dos gráficas anteriores podemos notar, que existe mayor número de empleados en el nivel 1 por lo cual es congruente que exista un elevado número de salarios bajos y medios. Además, notamos que los individuos con un rol alto son minoría como los gerentes, por lo tanto el salario es de la misma forma.

## BusinessTravel
##        Non-Travel Travel_Frequently     Travel_Rarely 
##               790              1521              5689

Dentro de la compañía existen menos viajes, lo cual es proporcional al estado civil de los individuos que trebajan dentro de la compañía, ya que en su mayoría son casados.

## JobSatisfaction
##    1    2    3    4 
## 1540 1543 2426 2462

Notemos que el nivel de satisfacción laboral es gratificante, por lo que creemos que no es una variable que influya en la salida de los empleados.

Una vez concluido el primer análisis exploratorio, procederemos a realizar el análisis no paramétrico mediante la contrucción de las estimaciones para las funciones de riesgo de algunos estratos de interés:

Lo primero será crear el modelo de supervivencia para la variable de interés que es la de permanencia de los empleados en la empresa:

## Call: survfit(formula = D ~ 1, data = data_p3, type = "kaplan-meier", 
##     conf.type = "log-log", conf.int = 0.95)
## 
##  time n.risk n.event survival  std.err lower 95% CI upper 95% CI
##     0   8000      52    0.994 0.000898       0.9915        0.995
##     1   7765     224    0.965 0.002079       0.9605        0.969
##     2   6849     176    0.940 0.002740       0.9344        0.945
##     3   6131     140    0.919 0.003222       0.9120        0.925
##     4   5480     124    0.898 0.003650       0.8904        0.905
##     5   4886     274    0.847 0.004539       0.8383        0.856
##     6   3839      96    0.826 0.004914       0.8164        0.836
##     7   3409     129    0.795 0.005445       0.7841        0.805
##     8   2870     106    0.766 0.005944       0.7537        0.777
##     9   2469      74    0.743 0.006336       0.7300        0.755
##    10   2099     162    0.685 0.007274       0.6709        0.699
##    11   1457      35    0.669 0.007613       0.6537        0.684
##    12   1295      34    0.651 0.007986       0.6354        0.667
##    13   1156      21    0.640 0.008248       0.6231        0.655
##    14   1043      24    0.625 0.008588       0.6077        0.641
##    15    924      32    0.603 0.009102       0.5851        0.621
##    16    812      11    0.595 0.009307       0.5765        0.613
##    17    742      12    0.585 0.009562       0.5664        0.604
##    18    702      20    0.569 0.009990       0.5488        0.588
##    19    616       8    0.561 0.010196       0.5411        0.581
##    20    583      45    0.518 0.011270       0.4956        0.540
##    21    394      14    0.500 0.011895       0.4760        0.523
##    22    333      12    0.482 0.012550       0.4567        0.506
##    23    242       2    0.478 0.012758       0.4524        0.502
##    24    236       8    0.461 0.013549       0.4346        0.488
##    25    193       7    0.445 0.014459       0.4161        0.473
##    26    169       8    0.424 0.015572       0.3929        0.454
##    27    146       2    0.418 0.015890       0.3865        0.449
##    29    133      11    0.383 0.017664       0.3486        0.418
##    31     80       4    0.364 0.019205       0.3265        0.402
##    32     72       2    0.354 0.019958       0.3150        0.393
##    33     51       2    0.340 0.021454       0.2983        0.382
##    34     35       4    0.301 0.026374       0.2505        0.353
##    36     16       1    0.282 0.030719       0.2239        0.344
##    37      9       1    0.251 0.040259       0.1764        0.333
##    40      3       1    0.167 0.073402       0.0555        0.331

En la función de Supervivencia estimada podemos observar que en promedio el tiempo en el que los empleados permanecen en la compañía es de 20 años, después de eso empiezan a abandonarla. Por otro lado, la función de riesgo como sabemos,es una función que mide la probabilidad de que a un individuo le ocurra cierto suceso en a lo largo del tiempo,en este caso, vemos que esta probabilidad es creciente en el tiempo, pero no crece de manera constante. Pensamos que se puede deber a diversas causas cómo la jubilación, nueva oportunidad laboral, renuncias o despidos, entre otras.

Ahora podemos observar dicho fenómeno explicado por algunas de las variables que nos aportarán mayor información de como se comportan la permanencia de los empleados dentro de la compañía.

Comenzaremos comparando con el estado civil de los empleados.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     ME, rho = 0)
## 
##         N Observed Expected (O-E)^2/E (O-E)^2/V
## ME=1 1649      373      392    0.9234     1.213
## ME=2 3847      929      916    0.1712     0.348
## ME=3 2504      576      570    0.0742     0.111
## 
##  Chisq= 1.2  on 2 degrees of freedom, p= 0.5
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     ME, rho = 1)
## 
##         N Observed Expected (O-E)^2/E (O-E)^2/V
## ME=1 1649      307      328    1.2682     1.930
## ME=2 3847      778      765    0.2379     0.558
## ME=3 2504      486      479    0.0994     0.172
## 
##  Chisq= 1.9  on 2 degrees of freedom, p= 0.4

Divorciado(azul),Casado (rojo) y Soltero (verde)

Para esta caso tenemos que la diferencia entre las personas casadas, divorciadas y solteras no es un factor que influya en la permanencia dentro de la compañía, porque como podemos observar en la gráfica se comportan casi igual, aunque a partir de los 30 años la diferencia es notoria entre los divorciados y los casados. Sin embargo, no es un factor relevante, ya que después de 20 años laborales comienzan a abandonar la compañía.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Sal, rho = 0)
## 
##          N Observed Expected (O-E)^2/E (O-E)^2/V
## Sal=1  680      160      155     0.150     0.170
## Sal=2 3914      929      918     0.132     0.269
## Sal=3 3406      789      805     0.312     0.567
## 
##  Chisq= 0.6  on 2 degrees of freedom, p= 0.7
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Sal, rho = 1)
## 
##          N Observed Expected (O-E)^2/E (O-E)^2/V
## Sal=1  680      133      130    0.0588    0.0771
## Sal=2 3914      779      769    0.1222    0.2880
## Sal=3 3406      660      672    0.2310    0.4859
## 
##  Chisq= 0.5  on 2 degrees of freedom, p= 0.8

Salario alto (azul), medio(rojo) y bajo(rosa)

Notamos que de los 0-20 años de labor el salario no es un factor que afecte, pero al cumplir aproximadamente 30 años los trabajadores con salario alto se retiran de la compañía. En cambio, las personas con salario medio y bajo permanecen unos años más, una causa probable es que no cuentan con los ahorros suficientes para el retiro o vejez.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Departamento, rho = 0)
## 
##                   N Observed Expected (O-E)^2/E (O-E)^2/V
## Departamento=1 1291      293      291  0.020418   0.02511
## Departamento=2 1377      325      314  0.371214   0.46304
## Departamento=3 1379      321      328  0.141960   0.17879
## Departamento=4 1240      289      304  0.744650   0.92329
## Departamento=5 1399      327      327  0.000589   0.00074
## Departamento=6 1314      323      315  0.213321   0.26630
## 
##  Chisq= 1.6  on 5 degrees of freedom, p= 0.9
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Departamento, rho = 1)
## 
##                   N Observed Expected (O-E)^2/E (O-E)^2/V
## Departamento=1 1291      244      246   0.02155    0.0305
## Departamento=2 1377      278      264   0.74977    1.0817
## Departamento=3 1379      270      273   0.04222    0.0616
## Departamento=4 1240      239      253   0.81524    1.1736
## Departamento=5 1399      275      273   0.00817    0.0119
## Departamento=6 1314      266      262   0.07775    0.1127
## 
##  Chisq= 2.1  on 5 degrees of freedom, p= 0.8

D. Financiero (azul), Recursos humanos (rojo), Sistemas (rosa), Operaciones (morado), Ventas (amarillo) y Almacen (verde)

Observamos que el departamento no es un factor relevante para dejar la compañía, aunque las personas que trabajan en el departamento de Recursos Humanos son las que permanecen más tiempo en la empresa.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Viajes, rho = 0)
## 
##             N Observed Expected (O-E)^2/E (O-E)^2/V
## Viajes=1  790      195      174     2.538     2.907
## Viajes=2 1521      343      352     0.244     0.312
## Viajes=3 5689     1340     1352     0.102     0.378
## 
##  Chisq= 3  on 2 degrees of freedom, p= 0.2
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Viajes, rho = 1)
## 
##             N Observed Expected (O-E)^2/E (O-E)^2/V
## Viajes=1  790      167      148    2.4259    3.1922
## Viajes=2 1521      290      294    0.0487    0.0721
## Viajes=3 5689     1115     1130    0.2035    0.8703
## 
##  Chisq= 3.2  on 2 degrees of freedom, p= 0.2

No viaja (amarillo), viaja frecuentemente (negro) y rara vez viaja (azul)

En un principio se puede observar que no infuye el viajar o no, pero conforme avanza el tiempo se observa que los empleados que no viajan tienden a dejar la compañía (amarillo) más pronto.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     JobSatisfaction, rho = 0)
## 
## n=7971, 29 observations deleted due to missingness.
## 
##                      N Observed Expected (O-E)^2/E (O-E)^2/V
## JobSatisfaction=1 1540      366      374   0.17170   0.22308
## JobSatisfaction=2 1543      365      366   0.00102   0.00131
## JobSatisfaction=3 2426      584      573   0.22058   0.33009
## JobSatisfaction=4 2462      559      562   0.01219   0.01809
## 
##  Chisq= 0.4  on 3 degrees of freedom, p= 0.9
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     JobSatisfaction, rho = 1)
## 
## n=7971, 29 observations deleted due to missingness.
## 
##                      N Observed Expected (O-E)^2/E (O-E)^2/V
## JobSatisfaction=1 1540      304      310   0.10789   0.16255
## JobSatisfaction=2 1543      304      305   0.00265   0.00396
## JobSatisfaction=3 2426      490      479   0.23046   0.39960
## JobSatisfaction=4 2462      469      473   0.03094   0.05320
## 
##  Chisq= 0.4  on 3 degrees of freedom, p= 0.9

Amarillo (muy insatisfecho), Negro (insatisfecho), Azul (Satisfecho) y Verde (Muy satisfecho)

Observemos que la variable de satisfacción no influye en el abandono de la compañía, ya que no hay cambios notables entre el nivel de satisfacción laboral.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     OverTime, rho = 0)
## 
##                 N Observed Expected (O-E)^2/E (O-E)^2/V
## OverTime=No  5798     1367     1356    0.0835     0.312
## OverTime=Yes 2202      511      522    0.2172     0.312
## 
##  Chisq= 0.3  on 1 degrees of freedom, p= 0.6
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     OverTime, rho = 1)
## 
##                 N Observed Expected (O-E)^2/E (O-E)^2/V
## OverTime=No  5798     1142     1135    0.0438      0.19
## OverTime=Yes 2202      430      437    0.1138      0.19
## 
##  Chisq= 0.2  on 1 degrees of freedom, p= 0.7

Sin horas extras (amarillo) y Con horas extras (azul)

Observemos que el quedarse o no horas extras no influye en el abandono del trabajo.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Son, rho = 0)
## 
## n=7932, 68 observations deleted due to missingness.
## 
##          N Observed Expected (O-E)^2/E (O-E)^2/V
## Son=0 3190      738    754.3    0.3505    0.6137
## Son=1 2529      598    585.5    0.2681    0.4067
## Son=2 1621      383    379.2    0.0390    0.0509
## Son=3  179       39     41.6    0.1640    0.1742
## Son=4  413       99     96.5    0.0647    0.0709
## 
##  Chisq= 0.9  on 4 degrees of freedom, p= 0.9
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Son, rho = 1)
## 
## n=7932, 68 observations deleted due to missingness.
## 
##          N Observed Expected (O-E)^2/E (O-E)^2/V
## Son=0 3190    607.9    629.6    0.7422     1.502
## Son=1 2529    505.7    491.2    0.4260     0.748
## Son=2 1621    323.4    317.9    0.0955     0.144
## Son=3  179     33.1     35.7    0.1822     0.221
## Son=4  413     84.7     80.5    0.2180     0.277
## 
##  Chisq= 2  on 4 degrees of freedom, p= 0.7

No tiene (azul), Un hijo (rosa), Dos hijos (verde), Tres (Rojo), Cuatro (Naranja)

En los primeros años no afecta la cantidad de hijos, pero después de los 20 años las personas que no tienen hijos tienen mayor probabilidad de irse pensamos que es debido a que no tienen responsabilidades con otras terceros, mientras que los que tienen cuatro hijos su responsabilidad es mayor por lo tanto necesitan permanecer dentro de la empresa.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     EnvironmentSatisfaction, rho = 0)
## 
## n=7948, 52 observations deleted due to missingness.
## 
##                              N Observed Expected (O-E)^2/E (O-E)^2/V
## EnvironmentSatisfaction=1 1602      380      381   0.00377   0.00492
## EnvironmentSatisfaction=2 1552      347      365   0.84365   1.08929
## EnvironmentSatisfaction=3 2430      574      562   0.23723   0.35282
## EnvironmentSatisfaction=4 2364      564      557   0.09269   0.13725
## 
##  Chisq= 1.2  on 3 degrees of freedom, p= 0.7
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     EnvironmentSatisfaction, rho = 1)
## 
## n=7948, 52 observations deleted due to missingness.
## 
##                              N Observed Expected (O-E)^2/E (O-E)^2/V
## EnvironmentSatisfaction=1 1602      321      318    0.0285    0.0431
## EnvironmentSatisfaction=2 1552      288      305    0.9262    1.3857
## EnvironmentSatisfaction=3 2430      481      472    0.1632    0.2811
## EnvironmentSatisfaction=4 2364      471      466    0.0539    0.0925
## 
##  Chisq= 1.4  on 3 degrees of freedom, p= 0.7

Malo (azul), regular (rosa), bueno (verde) y muy bueno (rojo)

Esta variable no es significativa, sólo podemos observar que las personas que no cuentan con el mejor ambiente (azul) son las que permanecen más debido a que con una edad avanzada se complica encontrar un nuevo empleo.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     WorkLifeBalance, rho = 0)
## 
## n=7944, 56 observations deleted due to missingness.
## 
##                      N Observed Expected (O-E)^2/E (O-E)^2/V
## WorkLifeBalance=1  410      100     95.6    0.2023    0.2219
## WorkLifeBalance=2 1959      487    456.4    2.0484    2.8155
## WorkLifeBalance=3 4806     1101   1132.9    0.9003    2.3784
## WorkLifeBalance=4  769      179    182.0    0.0507    0.0584
## 
##  Chisq= 3.3  on 3 degrees of freedom, p= 0.3
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     WorkLifeBalance, rho = 1)
## 
## n=7944, 56 observations deleted due to missingness.
## 
##                      N Observed Expected (O-E)^2/E (O-E)^2/V
## WorkLifeBalance=1  410     82.9       80    0.1002    0.1268
## WorkLifeBalance=2 1959    406.4      382    1.5354    2.4446
## WorkLifeBalance=3 4806    922.7      948    0.6566    2.0082
## WorkLifeBalance=4  769    150.2      152    0.0292    0.0391
## 
##  Chisq= 2.8  on 3 degrees of freedom, p= 0.4

Malo (azul), regular (rosa), bueno (verde) y excelente (rojo)

La variable WorkLifeBalance no es significante, lo más notorio es que las personas con un peor balance (azul) es más probable que se vayan, pero sin ser un factor importante.

## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Disciplinary.failure, rho = 0)
## 
## n=7945, 55 observations deleted due to missingness.
## 
##                           N Observed Expected (O-E)^2/E (O-E)^2/V
## Disciplinary.failure=0 7517     1781   1767.5     0.103      2.06
## Disciplinary.failure=1  428       84     97.5     1.876      2.06
## 
##  Chisq= 2.1  on 1 degrees of freedom, p= 0.2
## Call:
## survdiff(formula = Surv(data7.YearsAtCompany, left_Company) ~ 
##     Disciplinary.failure, rho = 1)
## 
## n=7945, 55 observations deleted due to missingness.
## 
##                           N Observed Expected (O-E)^2/E (O-E)^2/V
## Disciplinary.failure=0 7517   1488.4   1478.2    0.0694      1.58
## Disciplinary.failure=1  428     71.9     82.1    1.2505      1.58
## 
##  Chisq= 1.6  on 1 degrees of freedom, p= 0.2

Buen comportamiento(rojo) y mal comportamiento (azul)

Obeservemos que es la única varible que al parecer podría influir en la permanencia del trabajor dentro de la compañía,siendo notable que los empleados con mal comportamiento permanecen menor tiempo en la empresa.

Finalmente con el análisis descriptivo y comparativo podemos notar que la mayoría de las variables no son significativas para la decisión de dejar o no la compañía. Sin embargo, esto lo vamos a reafirmar con el Modelo de Cox.

Modelo de Cox:

En la siguiente parte del proyecto, se resumirá con el fin de analizar como se comporta un modelo de riesgos considerando la mayor cantidad de variables que sean significativas para explicar la permanencia o salida de los empleados. Sin embargo nosotros tomamos la mayoria de la variables de nuestra base y como se pudo observar anteriormente ninguna es significativa para nuestro problema.

Portanto lo retificaremos con los siguientes resultados:

## Call:
## coxph(formula = D ~ Sal + ME + Viajes + Departamento + JobSatisfaction + 
##     EnvironmentSatisfaction + Son + WorkLifeBalance + YearsSinceLastPromotion + 
##     OverTime + Pet + Hit.target + DailyRate + Disciplinary.failure + 
##     Puesto + Sensor_Proximity.1.highest.10.lowest.)
## 
##                                             coef  exp(coef)   se(coef)
## Sal                                   -3.463e-02  9.660e-01  3.764e-02
## ME                                     2.954e-02  1.030e+00  3.334e-02
## Viajes                                -4.265e-02  9.582e-01  3.591e-02
## Departamento                           2.109e-04  1.000e+00  1.402e-02
## JobSatisfaction                        1.013e-02  1.010e+00  2.157e-02
## EnvironmentSatisfaction                1.447e-02  1.015e+00  2.144e-02
## Son                                    1.509e-02  1.015e+00  2.169e-02
## WorkLifeBalance                       -5.365e-02  9.478e-01  3.362e-02
## YearsSinceLastPromotion               -4.850e-03  9.952e-01  7.402e-03
## OverTimeYes                           -2.485e-02  9.755e-01  5.315e-02
## Pet                                   -2.312e-02  9.771e-01  1.796e-02
## Hit.target                             7.597e-04  1.001e+00  6.206e-03
## DailyRate                             -2.257e-05  1.000e+00  5.841e-05
## Disciplinary.failure                  -2.283e-01  7.959e-01  1.176e-01
## Puesto                                 4.347e-03  1.004e+00  1.908e-02
## Sensor_Proximity.1.highest.10.lowest. -3.255e-03  9.968e-01  9.152e-03
##                                            z      p
## Sal                                   -0.920 0.3576
## ME                                     0.886 0.3756
## Viajes                                -1.188 0.2349
## Departamento                           0.015 0.9880
## JobSatisfaction                        0.469 0.6388
## EnvironmentSatisfaction                0.675 0.4998
## Son                                    0.695 0.4868
## WorkLifeBalance                       -1.596 0.1105
## YearsSinceLastPromotion               -0.655 0.5123
## OverTimeYes                           -0.468 0.6401
## Pet                                   -1.287 0.1980
## Hit.target                             0.122 0.9026
## DailyRate                             -0.386 0.6992
## Disciplinary.failure                  -1.941 0.0522
## Puesto                                 0.228 0.8198
## Sensor_Proximity.1.highest.10.lowest. -0.356 0.7221
## 
## Likelihood ratio test=13.1  on 16 df, p=0.6653
## n= 7667, number of events= 1794 
##    (333 observations deleted due to missingness)
##                                   Sal 
##                             0.9659671 
##                                    ME 
##                             1.0299805 
##                                Viajes 
##                             0.9582464 
##                          Departamento 
##                             1.0002109 
##                       JobSatisfaction 
##                             1.0101776 
##               EnvironmentSatisfaction 
##                             1.0145706 
##                                   Son 
##                             1.0151996 
##                       WorkLifeBalance 
##                             0.9477608 
##               YearsSinceLastPromotion 
##                             0.9951613 
##                           OverTimeYes 
##                             0.9754555 
##                                   Pet 
##                             0.9771416 
##                            Hit.target 
##                             1.0007600 
##                             DailyRate 
##                             0.9999774 
##                  Disciplinary.failure 
##                             0.7959170 
##                                Puesto 
##                             1.0043568 
## Sensor_Proximity.1.highest.10.lowest. 
##                             0.9967502
##                                               2.5 %       97.5 %
## Sal                                   -0.1084008357 0.0391497432
## ME                                    -0.0357996703 0.0948793677
## Viajes                                -0.1130275168 0.0277267529
## Departamento                          -0.0272692233 0.0276910447
## JobSatisfaction                       -0.0321523910 0.0524046264
## EnvironmentSatisfaction               -0.0275529932 0.0564839962
## Son                                   -0.0274279770 0.0575984023
## WorkLifeBalance                       -0.1195410156 0.0122348508
## YearsSinceLastPromotion               -0.0193584236 0.0096574995
## OverTimeYes                           -0.1290169702 0.0793155592
## Pet                                   -0.0583297936 0.0120824530
## Hit.target                            -0.0114033032 0.0129226701
## DailyRate                             -0.0001370628 0.0000919189
## Disciplinary.failure                  -0.4587190311 0.0021983360
## Puesto                                -0.0330568064 0.0417514120
## Sensor_Proximity.1.highest.10.lowest. -0.0211920360 0.0146818304

## Call:
## coxph(formula = D ~ Sal + ME + Viajes + Departamento + JobSatisfaction + 
##     EnvironmentSatisfaction + Son + WorkLifeBalance + YearsSinceLastPromotion + 
##     OverTime + Pet + Hit.target + DailyRate + Disciplinary.failure + 
##     Puesto + Sensor_Proximity.1.highest.10.lowest.)
## 
##   n= 7667, number of events= 1794 
##    (333 observations deleted due to missingness)
## 
##                                             coef  exp(coef)   se(coef)
## Sal                                   -3.463e-02  9.660e-01  3.764e-02
## ME                                     2.954e-02  1.030e+00  3.334e-02
## Viajes                                -4.265e-02  9.582e-01  3.591e-02
## Departamento                           2.109e-04  1.000e+00  1.402e-02
## JobSatisfaction                        1.013e-02  1.010e+00  2.157e-02
## EnvironmentSatisfaction                1.447e-02  1.015e+00  2.144e-02
## Son                                    1.509e-02  1.015e+00  2.169e-02
## WorkLifeBalance                       -5.365e-02  9.478e-01  3.362e-02
## YearsSinceLastPromotion               -4.850e-03  9.952e-01  7.402e-03
## OverTimeYes                           -2.485e-02  9.755e-01  5.315e-02
## Pet                                   -2.312e-02  9.771e-01  1.796e-02
## Hit.target                             7.597e-04  1.001e+00  6.206e-03
## DailyRate                             -2.257e-05  1.000e+00  5.841e-05
## Disciplinary.failure                  -2.283e-01  7.959e-01  1.176e-01
## Puesto                                 4.347e-03  1.004e+00  1.908e-02
## Sensor_Proximity.1.highest.10.lowest. -3.255e-03  9.968e-01  9.152e-03
##                                            z Pr(>|z|)  
## Sal                                   -0.920   0.3576  
## ME                                     0.886   0.3756  
## Viajes                                -1.188   0.2349  
## Departamento                           0.015   0.9880  
## JobSatisfaction                        0.469   0.6388  
## EnvironmentSatisfaction                0.675   0.4998  
## Son                                    0.695   0.4868  
## WorkLifeBalance                       -1.596   0.1105  
## YearsSinceLastPromotion               -0.655   0.5123  
## OverTimeYes                           -0.468   0.6401  
## Pet                                   -1.287   0.1980  
## Hit.target                             0.122   0.9026  
## DailyRate                             -0.386   0.6992  
## Disciplinary.failure                  -1.941   0.0522 .
## Puesto                                 0.228   0.8198  
## Sensor_Proximity.1.highest.10.lowest. -0.356   0.7221  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                                       exp(coef) exp(-coef) lower .95
## Sal                                      0.9660     1.0352    0.8973
## ME                                       1.0300     0.9709    0.9648
## Viajes                                   0.9582     1.0436    0.8931
## Departamento                             1.0002     0.9998    0.9731
## JobSatisfaction                          1.0102     0.9899    0.9684
## EnvironmentSatisfaction                  1.0146     0.9856    0.9728
## Son                                      1.0152     0.9850    0.9729
## WorkLifeBalance                          0.9478     1.0551    0.8873
## YearsSinceLastPromotion                  0.9952     1.0049    0.9808
## OverTimeYes                              0.9755     1.0252    0.8790
## Pet                                      0.9771     1.0234    0.9433
## Hit.target                               1.0008     0.9992    0.9887
## DailyRate                                1.0000     1.0000    0.9999
## Disciplinary.failure                     0.7959     1.2564    0.6321
## Puesto                                   1.0044     0.9957    0.9675
## Sensor_Proximity.1.highest.10.lowest.    0.9968     1.0033    0.9790
##                                       upper .95
## Sal                                       1.040
## ME                                        1.100
## Viajes                                    1.028
## Departamento                              1.028
## JobSatisfaction                           1.054
## EnvironmentSatisfaction                   1.058
## Son                                       1.059
## WorkLifeBalance                           1.012
## YearsSinceLastPromotion                   1.010
## OverTimeYes                               1.083
## Pet                                       1.012
## Hit.target                                1.013
## DailyRate                                 1.000
## Disciplinary.failure                      1.002
## Puesto                                    1.043
## Sensor_Proximity.1.highest.10.lowest.     1.015
## 
## Concordance= 0.522  (se = 0.008 )
## Rsquare= 0.002   (max possible= 0.977 )
## Likelihood ratio test= 13.1  on 16 df,   p=0.7
## Wald test            = 12.87  on 16 df,   p=0.7
## Score (logrank) test = 12.88  on 16 df,   p=0.7

CONCLUSIÓN:

Finalmente después de realizar este análisis podemos decir que las variables dentro de nuestra base de datos, no son relevantes para el estudio en la salida de los trabajadores de la empresa, es decir, ninguna de esta variables es factor para que se mantengan laborando en la compañía. En el principio del estudio nosotros considerabamos como variables significantes: - Salario - Departamento - Viajes - Estado Civil - Balance vida-trabajo - Disciplina

Pero al realizar los análisis anteriores, notamos que la única variable que podría ser significante es la Diciplina del empleado, ya que nos arroja un p-value de 0.0522 y es el único que se aproxima al objetivo de que nuestro p-value sea menor a 0.05.

Con los resultados arrojados en el Modelo de Cox y sabiendo que tomaremos como significante a la variable disciplina podemos decir que mientras mejor comportamiento tengan los empleados el riesgo de salir es menor, lo cuál se puede observar desde la gráfica compartiva, siendo esto un 30% mayor la probabilidad de que un empleado salga de la empresa por mal comportamiento, pero no tomaremos está variable para las estrategias, ya que es una variable que es independiente de la empresa, es decir, depende del empleado.

Debido a que nuestros resultados arrojaron que nuestras variables no son significativas, las estrategias que vamos a mencionar son sugerencias con base al análisis compartivo que realizamos. 1. Vemos que el riesgo de que se vayan los empleados que no viajan es más alto, por lo que sugerimos que si se incentivará un poco más los viajes a los empleados este riesgo podría disminuir. 2. En cuanto a las horas extras sugerimos un aumento en el pago de las mismas,para que los empleados tengan un incentivo y las tomen, con esto reduciariamos el riesgo de que abandonen la compañía por este factor. 3. Cabe mencionar que no podemos dar sugerencias sobre las variables estado civil, numero de hijos, satisfacción del trabajo, balance de vida-trabajo y algunas otras, porque estas son cuestiones personales, por ejemplo, no le podemos exigir a un empleado que no se divorcie o que no tenga más hijos, estas medidas sólo se pueden tomar antes de que la persona sea contratada.