Con base en los datos de rotación realizar los puntos 1 a 4:
## [1] "Rotación" "Edad"
## [3] "Viaje_de_Negocios" "Departamento"
## [5] "Distancia_Casa" "Educación"
## [7] "Campo_Educación" "Satisfacción_Ambiental"
## [9] "Genero" "Cargo"
## [11] "Satisfación_Laboral" "Estado_Civil"
## [13] "Ingreso_Mensual" "Trabajos_Anteriores"
## [15] "Horas_Extra" "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral" "Años_Experiencia"
## [19] "Capacitaciones" "Equilibrio_Trabajo_Vida"
## [21] "Antigüedad" "Antigüedad_Cargo"
## [23] "Años_ultima_promoción" "Años_acargo_con_mismo_jefe"
## tibble [1,470 × 24] (S3: tbl_df/tbl/data.frame)
## $ Rotación : chr [1:1470] "Si" "No" "Si" "No" ...
## $ Edad : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
## $ Viaje_de_Negocios : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
## $ Departamento : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
## $ Distancia_Casa : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
## $ Educación : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
## $ Campo_Educación : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
## $ Satisfacción_Ambiental : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
## $ Genero : chr [1:1470] "F" "M" "M" "F" ...
## $ Cargo : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
## $ Satisfación_Laboral : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
## $ Estado_Civil : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
## $ Ingreso_Mensual : num [1:1470] 5993 5130 2090 2909 3468 ...
## $ Trabajos_Anteriores : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
## $ Horas_Extra : chr [1:1470] "Si" "No" "Si" "Si" ...
## $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
## $ Rendimiento_Laboral : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
## $ Años_Experiencia : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
## $ Capacitaciones : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
## $ Equilibrio_Trabajo_Vida : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
## $ Antigüedad : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
## $ Antigüedad_Cargo : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
## $ Años_ultima_promoción : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
## $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...
## Rotación Edad Viaje_de_Negocios Departamento
## Length:1470 Min. :18.00 Length:1470 Length:1470
## Class :character 1st Qu.:30.00 Class :character Class :character
## Mode :character Median :36.00 Mode :character Mode :character
## Mean :36.92
## 3rd Qu.:43.00
## Max. :60.00
## Distancia_Casa Educación Campo_Educación Satisfacción_Ambiental
## Min. : 1.000 Min. :1.000 Length:1470 Min. :1.000
## 1st Qu.: 2.000 1st Qu.:2.000 Class :character 1st Qu.:2.000
## Median : 7.000 Median :3.000 Mode :character Median :3.000
## Mean : 9.193 Mean :2.913 Mean :2.722
## 3rd Qu.:14.000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :29.000 Max. :5.000 Max. :4.000
## Genero Cargo Satisfación_Laboral Estado_Civil
## Length:1470 Length:1470 Min. :1.000 Length:1470
## Class :character Class :character 1st Qu.:2.000 Class :character
## Mode :character Mode :character Median :3.000 Mode :character
## Mean :2.729
## 3rd Qu.:4.000
## Max. :4.000
## Ingreso_Mensual Trabajos_Anteriores Horas_Extra
## Min. : 1009 Min. :0.000 Length:1470
## 1st Qu.: 2911 1st Qu.:1.000 Class :character
## Median : 4919 Median :2.000 Mode :character
## Mean : 6503 Mean :2.693
## 3rd Qu.: 8379 3rd Qu.:4.000
## Max. :19999 Max. :9.000
## Porcentaje_aumento_salarial Rendimiento_Laboral Años_Experiencia
## Min. :11.00 Min. :3.000 Min. : 0.00
## 1st Qu.:12.00 1st Qu.:3.000 1st Qu.: 6.00
## Median :14.00 Median :3.000 Median :10.00
## Mean :15.21 Mean :3.154 Mean :11.28
## 3rd Qu.:18.00 3rd Qu.:3.000 3rd Qu.:15.00
## Max. :25.00 Max. :4.000 Max. :40.00
## Capacitaciones Equilibrio_Trabajo_Vida Antigüedad Antigüedad_Cargo
## Min. :0.000 Min. :1.000 Min. : 0.000 Min. : 0.000
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.: 3.000 1st Qu.: 2.000
## Median :3.000 Median :3.000 Median : 5.000 Median : 3.000
## Mean :2.799 Mean :2.761 Mean : 7.008 Mean : 4.229
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.: 9.000 3rd Qu.: 7.000
## Max. :6.000 Max. :4.000 Max. :40.000 Max. :18.000
## Años_ultima_promoción Años_acargo_con_mismo_jefe
## Min. : 0.000 Min. : 0.000
## 1st Qu.: 0.000 1st Qu.: 2.000
## Median : 1.000 Median : 3.000
## Mean : 2.188 Mean : 4.123
## 3rd Qu.: 3.000 3rd Qu.: 7.000
## Max. :15.000 Max. :17.000
Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación.
Nota: Justificar por que estas variables están relacionadas y que tipo de relación se espera (Hipótesis).
Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse mas al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serían 6, una por variable).
Cargo:
Estado Civil:
\(H_{0}\) : Se espera que los trabajadores con el estado civil “Soltero” tenga mayor rotación, por no tener madurez suficiente y mayores responsabilidades.
\(H_{1}\) : No se espera que los trabajadores con el estado civil “Soltero” tenga mayor rotación, por no tener madurez suficiente y mayores responsabilidades.
Satisfacción Ambiental:
\(H_{0}\) : Se espera que que los trabajadores con en satisfacción ambiental “bajo” se encuentre mayor rotación.
\(H_{1}\) : No Se espera que que los trabajadores con en satisfacción ambiental “bajo” se encuentre mayor rotación.
Trabajos Anteriores:
\(H_{0}\) : Se espera que los trabajadores que tengan mayor cantidad de trabajos anteriores tenga mayor rotación.
\(H_{1}\) : No se espera que los trabajadores que tengan mayor cantidad de trabajos anteriores tenga mayor rotación.
Viajes de Negocios:
\(H_{0}\) : Se espera que los trabajadores que no viajen frecuentemente y lo tengan que hacer, tengan mayor rotación.
\(H_{1}\) : No Se espera que los trabajadores que no viajen frecuentemente y lo tengan que hacer, tengan mayor rotación.
Ingreso mensual:
\(H_{0}\) : Se espera que los trabajadores que tengan un ingreso mensual por debajo de la media, tienen mayor rotación
\(H_{1}\) : No se espera que los trabajadores que tengan un ingreso mensual por debajo de la media, tienen mayor rotación
Realizar un análisis univariado (caracterización). Nota: Los indicadores o gráficos se usan dependiendo del tipo de variables (cuantitativa o cualitativa). Incluir interpretaciones de la rotación.
Como se puede observar en la gráfica de barras de la variable “Cargo”. El primer lugar lo ocupa el cargo de “Ejecutivo Ventas”, con 326 empleados, representa el 22.18% de la población de empleados. El segundo lugar lo ocupa el cargo “Investigador Científico” con 292 empleados que representan el 19.86%. El tercer lugar lo ocupa el cargo “Técnico Laboratorio” con 259 empleados que representan el 17.62%. Estos tres cargos reunidos suman 877 empleados que representan del total de 1.470 el 59.66% del total de la población.
De esta información podemos inferir que la empresa se encuentran en el sector de la industria farmacéutica, o en el campo de la investigación científica de la salud, ya que los cargos “Investigador Científico” con 292 empleados, “Técnico de laboratorio” 259 empleados, “Director de Manofactura” con 145 empleados, representan 47.35% del total de la población de empleados.
De la variable Estado Civil, se puede decir que mayoritariamente los empleados que están casados son 673 empleados que representan el 45.78%, seguida los que están solteros con 470 empleados representando el 31.97%, y en tercer lugar se encuentran los divorciados representando el 22.24% con 327 empleados. Esta última población podría ser objeto de estudio para identificar si las causas de divorcio tienen relación con el cargo y tiempo de vinculación de la empresa.
| Nivel | Categoría |
|---|---|
| 1 | Bajo |
| 2 | Medio |
| 3 | Elevado |
| 4 | Muy alto |
De la variable Satisfacción Ambiental, se puede observar que las categorías “Elevado” y “Muy Alto” con 899 empleados, representan el 61.16% del total de los empleados. Y las categorías “Bajo” con 284 empleados representando el 19.32% y la categoría “Medio” con 287 empleados representando el 19.52%. Ambas categorías representan el 38.84%. Situación que nos hace inferir una insatisfacción en la variable.
De las anteriores gráficas se observa en el histograma que el ingreso mensual se concentra por debajo de los $5 millones y en el gráfico de barras un gran número de empleados se encuentra casados, seguido de los solteros
Con la gráfica anterior se puede observar que el 35.44%, es decir 521 empleados ha tenido un sólo trabajo. Con lo que se puede inferir que la rotación de empleados puede ser de personas con poca experiencia.
En el gratifico de barras podemos observar que 1.043 empleados el 70.95% de las personas raramente viajan, y sólo el 18.84% de los empleados viajan frecuentemente, unos 277 empleados. Se podría inferir que en gran mayoría serían los Ejecutivo_venta.
De la anterior tabla de frecuencia se puede decir que el 71.29% de los empleados se encuentra en el rango de salarial de 1.009 y 7.340.
Realizar un análisis de bivariado en donde la variable respuesta sea la rotación codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación), con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con la hipótesis planteada en el punto 2.
El análisis Bivariado de de la Rotación en referencia al Cargo, se observa que el cargo que más rota es el de Representante_Ventas, con una rotación del 40%, seguido del cargo Tecnico_Laboratorio con el 24%, Recursos_Humanos con el 23%, Ejecutivo_Ventas el 17% y Investigador_Cientifico el 16%. Se podría inferir que los cargos que más rotan son los no Directivos. Y que falta por parte de la dirección de la empresa programas de para la conservación del recurso humano. Pues no es normal que en esta rotación se encuentre precisamente el área de Recursos_Humanos en el tercer lugar de rotación, encargada de la administración del talento humano.
La gráfica nos muestra que según el Estado_Civil. los que son solteros tienen una mayor rotación con el 26%, doblando la tasa para cada uno de los que son Divorciados (10%) y Casados (12%).
SATISFACCIÓN AMBIENTAL
| Nivel | Categoría |
|---|---|
| 1 | Bajo |
| 2 | Medio |
| 3 | Elevado |
| 4 | Muy alto |
Para la variable Satisfacción_Ambiental, los que tienen una Satisfacción_Ambiental baja representan 25% (72 personas). seguida con una satisfacción media con el 15% (43%). Lo que llama la atención es que las personas que tienen un nivel elevado y Muy alto, también rotan de manera importante.Lo que lleva a inferir que la Satisfacción_Ambiental, no es la causa última de la Rotación.
De acuerdo a la gráfica cajas, se puede observar que los trabajadores que si han rotado, devengan en promedio 3.202, unos 2.002 menos de los que no rotan que en promedio devengan 5.204.
##
## No Si
## 5 74.60317 25.39683
## 9 76.92308 23.07692
## 7 77.02703 22.97297
## 6 77.14286 22.85714
## 1 81.19002 18.80998
## 8 87.75510 12.24490
## 4 87.76978 12.23022
## 0 88.32487 11.67513
## 2 89.04110 10.95890
## 3 89.93711 10.06289
De cuerdo a la tabla, se puede decir que los trabajadores que mas empleos han tenido, suelen rotar más.
##
## No Si
## Frecuentemente 75.09025 24.90975
## Raramente 85.04314 14.95686
## No_Viaja 92.00000 8.00000
Como se evidencia en la tabla y en la gráfica, los que viajan frecuentemente (24.90%) y raramente (14.96%), son los de más alta rotación. Y en conjunto suman el 39.86% de la variable Viaje de Negocios. Un porcentaje muy alto en la rotación.
g_biv_viaje_neog_vs_rotacion <- ggplot(data = datos, aes(x = Estado_Civil, y = `Viaje_de_Negocios`)) +
geom_jitter(aes(color = Rotación), size = 1, alpha = 0.7) +
xlab("Estado Civil") +
ylab("Viaje de Negocios") +
ggtitle('Rotacion - Viaje de Negocios- Estado Civil') +
theme_minimal()
ggplotly(g_biv_viaje_neog_vs_rotacion)
En el cruce de tres variables “Estado Civil”, “Viaje de Negocios” y “Rotación”, se evidencia como los solteros que viajan frecuentemente, y raramente son los que mas rotan.
Realizar la estimación de un modelo de regresión logístico en el cual la variable respuesta es rotación (y=1 es si rotación, y=0 es no rotación) y las covariables las 6 seleccionadas. Interprete los coeficientes del modelo y la significancia de los parámetros.
##
## Call:
## glm(formula = y ~ Cargo + Estado_Civil + Satisfacción_Ambiental +
## Trabajos_Anteriores + Viaje_de_Negocios + Ingreso_Mensual,
## family = "binomial", data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.6417 -0.6054 -0.4174 -0.2317 2.8897
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.588e+00 1.072e+00 -1.481 0.138630
## CargoDirector_Manofactura 9.251e-01 8.808e-01 1.050 0.293546
## CargoEjecutivo_Ventas 1.994e+00 8.332e-01 2.393 0.016711 *
## CargoGerente 1.105e+00 8.668e-01 1.274 0.202518
## CargoInvestigador_Cientifico 1.705e+00 9.159e-01 1.862 0.062670 .
## CargoRecursos_Humanos 2.397e+00 9.403e-01 2.550 0.010784 *
## CargoRepresentante_Salud 1.003e+00 8.825e-01 1.136 0.255891
## CargoRepresentante_Ventas 2.958e+00 9.466e-01 3.125 0.001779 **
## CargoTecnico_Laboratorio 2.296e+00 9.145e-01 2.511 0.012049 *
## Estado_CivilDivorciado -2.211e-01 2.282e-01 -0.969 0.332686
## Estado_CivilSoltero 8.514e-01 1.688e-01 5.043 4.59e-07 ***
## Satisfacción_Ambiental -2.780e-01 6.942e-02 -4.004 6.23e-05 ***
## Trabajos_Anteriores9 6.374e-02 4.790e-01 0.133 0.894138
## Trabajos_Anteriores7 -2.013e-01 4.384e-01 -0.459 0.646194
## Trabajos_Anteriores6 -6.158e-02 4.428e-01 -0.139 0.889399
## Trabajos_Anteriores1 -7.367e-01 3.421e-01 -2.153 0.031294 *
## Trabajos_Anteriores8 -9.576e-01 5.527e-01 -1.733 0.083174 .
## Trabajos_Anteriores4 -1.033e+00 4.206e-01 -2.455 0.014079 *
## Trabajos_Anteriores0 -1.296e+00 3.957e-01 -3.276 0.001054 **
## Trabajos_Anteriores2 -9.923e-01 4.204e-01 -2.360 0.018256 *
## Trabajos_Anteriores3 -1.158e+00 4.241e-01 -2.730 0.006335 **
## Viaje_de_NegociosRaramente -6.135e-01 1.787e-01 -3.432 0.000598 ***
## Viaje_de_NegociosNo_Viaja -1.372e+00 3.489e-01 -3.932 8.42e-05 ***
## Ingreso_Mensual -3.408e-05 4.314e-05 -0.790 0.429610
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1109.8 on 1446 degrees of freedom
## AIC: 1157.8
##
## Number of Fisher Scoring iterations: 6
Al correr el modelo logit, de las 6 variables de estudio, se obtiene que las variables significativas son las siguientes:
| VARIABLE | Estimate | \(Pr(>|z|)\) |
|---|---|---|
| Cargo-Ejecutivo_Ventas | 1.939e+00 | 0.019333 * |
| Cargo-Investigador_Científico | 1.700e+00 | 0.062089 . |
| Cargo-Recursos_Humanos | 2.283e+00 | 0.014666 * |
| Cargo-Representante_Ventas | 2.926e+00 | 0.001885 ** |
| Cargo-Técnico_Laboratorio | 2.229e+00 | 0.014207 * |
| Estado_Civil-Soltero | 8.610e-01 | 2.52e-07 *** |
| Satisfacción_Ambiental | -2.769e-01 | 5.33e-05 *** |
| Trabajos_Anteriores | 1.007e-01 | 0.000689 *** |
| Viaje de Negocios-Raramente | -6.203e-01 | 0.000441 *** |
| Viaje de Negocios-No_Viaja | -1.383e+00 | 6.79e-05 *** |
## CargoEjecutivo_Ventas
## 7.343424
## CargoInvestigador_Cientifico
## 5.500867
## CargoRecursos_Humanos
## 10.99393
## CargoRepresentante_Ventas
## 19.26092
## CargoTecnico_Laboratorio
## 9.933513
## CargoEjecutivo_Ventas
## -6.343424
## CargoInvestigador_Cientifico
## -4.500867
## CargoRecursos_Humanos
## -9.993928
## CargoRepresentante_Ventas
## -18.26092
## CargoTecnico_Laboratorio
## -8.933513
Tener el cargo de Ejecutivo_Ventas, disminuye la probabilidad de no rotar en -5.953498, si rota.
Tener el cargo de Investigador_Científico, disminuye la probabilidad de no rotar en -4.472171, si rota
Tener el cargo de Recursos_Humanos, disminuye la probabilidad de no rotar en -8.803327, si rota
Tener el cargo de Representante_Ventas, disminuye la probabilidad de no rotar en -17.65209, si rota
Tener el cargo de Técnico_Laboratorio, disminuye la probabilidad de no rotar en -8.293708, si rota
Los cargos Representante_Ventas y Recursos_Humanos, son los que mayor probabilidad tienen de si rotar. Se evidenció en el EDA. Punto 3.1.
## Estado_CivilSoltero
## 2.343033
## Estado_CivilSoltero
## -1.343033
## Satisfacción_Ambiental
## 0.7573299
## Satisfacción_Ambiental
## 0.2426701
## Trabajos_Anteriores9
## 1.065813
## Trabajos_Anteriores9
## -0.06581341
## Trabajos_Anteriores7
## 0.8176911
## Trabajos_Anteriores7
## 0.1823089
## Trabajos_Anteriores6
## 0.9402769
## Trabajos_Anteriores6
## 0.05972308
Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC.
Matriz de Confusión
## prediciones
## observaciones 0 1
## 0 947 286
## 1 98 139
## [1] 0.7387755
Curva ROC
En la gráfica anterior, el punto optimo corresponde a un valor de 0.15, se identifica el área bajo la curva con un AUC del 75.3%
Predecir la probabilidad de que un individuo (hipotético) rote y defina un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).
Al ingresar el perfil de un nuevo empleado con las características antes registradas, se obtiene un probabilidad de rotación del 83.76%
En las conclusiones se discute sobre cuál sería la estrategia para disminuir la rotación en la empresa (con base en las variables que resultaron significativas en el punto 3). Ejemplo: Mejorar el ambiente laboral, los incentivos económicos, distribuir la carga de horas extra (menos turnos y más personal).
Se evidencia una alta rotación en los trabajadores que son solteros, en los que han tenido más de 5 empleos, y en los que se encuentran en áreas administrativas, adicional los ingresos promedio de los que han rotado tiene un variación del 62.52% menos.
Por lo anterior es importante, realizar una análisis en referencia a los empleados que son solteros, que ocupan cargos administrativos, que antes de ingresar hayan tenido más de 5 empleos anteriores y su salario este por debajo del promedio.
Lo anterior obedece a que el promedio de años de antigüedad laboral es de 5, y a no ser que la empresa tenga poco tiempo de iniciar operaciones es un promedio muy bajo para el número de empleados. Lo que puede significar que se tiene poco sentido de pertenencia y que hay pocos incentivos prestacionales y labores que desmotiven el aceptar otras ofertas laborales.Situación que se demuestra con la variable “Satisfacción Ambiental”.
Por lo anterior se aceptan las hipótesis de las variables categóricas “cargo”, “estado civil”. La variable “satisfacción ambiental” aunque se rechaza la hipótesis se debe contemplar en conjunto las categorías “bajo” y “medio”.
En el punto 3.7. Se muestra que los solteros que viajan frecuentemente y raramente son los que mas rotan por lo que todos los esfuerzo y estrategias deben ir para esta población en especial, sin descuidar, los casados y divorciados. Estas estrategias deben estar encaminadas al bienestar laboral y social, mejorando las condiciones laborales, en referencia a disminuir el numero de viajes para que la población de solteros, tengan una mayor vida social, mejorar los incentivos económicos para que no vean la necesidad de buscar un empleo mejor remunerado y crear sentido de pertenencia con la empresa para evitar el costo de las curvas de entrenamiento y aprendizaje.
Con base en los datos de créditos proponga un modelo de regresión logístico múltiple que permita predecir el riesgo de default en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el AUC y la curva ROC.
library(mfx)
library(pROC)
library(tidyverse)
library(forecast)
library(data.table)
library(caTools)
## [1] "DEFAULT" "ANTIUEDAD" "EDAD" "CUOTA_TOTAL" "INGRESOS"
## DEFAULT ANTIUEDAD EDAD CUOTA_TOTAL
## Min. :0.00 Min. : 0.2548 Min. :26.61 Min. : 387
## 1st Qu.:0.00 1st Qu.: 7.3767 1st Qu.:48.18 1st Qu.: 328516
## Median :0.00 Median :15.1192 Median :57.92 Median : 694460
## Mean :0.05 Mean :18.0353 Mean :56.99 Mean : 885206
## 3rd Qu.:0.00 3rd Qu.:30.6637 3rd Qu.:66.19 3rd Qu.:1244126
## Max. :1.00 Max. :37.3178 Max. :92.43 Max. :6664588
## INGRESOS
## Min. : 633825
## 1st Qu.: 3583324
## Median : 5038962
## Mean : 5366430
## 3rd Qu.: 6844098
## Max. :22197021
## DEFAULT ANTIUEDAD EDAD CUOTA_TOTAL INGRESOS
## DEFAULT 1.00 -0.07 -0.03 0.10 -0.06
## ANTIUEDAD -0.07 1.00 0.75 0.27 0.48
## EDAD -0.03 0.75 1.00 0.15 0.36
## CUOTA_TOTAL 0.10 0.27 0.15 1.00 0.36
## INGRESOS -0.06 0.48 0.36 0.36 1.00
## [1] "DEFAULT" "ANTIUEDAD" "EDAD" "CUOTA_TOTAL" "INGRESOS"
##
## Call:
## glm(formula = DEFAULT ~ ., family = binomial, data = datos2)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.9181 -0.3672 -0.2873 -0.1917 3.1332
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.193e+00 9.306e-01 -3.431 0.000601 ***
## ANTIUEDAD -4.616e-02 2.353e-02 -1.961 0.049849 *
## EDAD 2.229e-02 1.932e-02 1.154 0.248641
## CUOTA_TOTAL 1.013e-06 2.473e-07 4.098 4.16e-05 ***
## INGRESOS -2.615e-07 1.057e-07 -2.474 0.013348 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 309.68 on 779 degrees of freedom
## Residual deviance: 287.49 on 775 degrees of freedom
## AIC: 297.49
##
## Number of Fisher Scoring iterations: 6
## 2.5 % 97.5 %
## (Intercept) -5.056472e+00 -1.398607e+00
## ANTIUEDAD -9.250329e-02 3.057391e-04
## EDAD -1.646352e-02 5.955752e-02
## CUOTA_TOTAL 5.346241e-07 1.515042e-06
## INGRESOS -4.811408e-07 -6.669857e-08
##
## 0 1
## 741 39
Modelo de selección de Variables: STEPWISE, el cual tiene como fin ayudar a seleccionar la mejor combinación de variables para obtener el menor AIC.
## Start: AIC=297.49
## DEFAULT ~ ANTIUEDAD + EDAD + CUOTA_TOTAL + INGRESOS
##
## Df Deviance AIC
## - EDAD 1 288.79 296.79
## <none> 287.49 297.49
## - ANTIUEDAD 1 291.28 299.28
## - INGRESOS 1 294.76 302.76
## - CUOTA_TOTAL 1 304.34 312.34
##
## Step: AIC=296.78
## DEFAULT ~ ANTIUEDAD + CUOTA_TOTAL + INGRESOS
##
## Df Deviance AIC
## <none> 288.79 296.79
## - ANTIUEDAD 1 291.37 297.37
## - INGRESOS 1 295.61 301.61
## - CUOTA_TOTAL 1 304.95 310.95
Capacidad predictiva del modelo
Esta estimación nos da que la mejor combinación de variables con menor AIC(296.78)
##
## Call:
## glm(formula = DEFAULT ~ ANTIUEDAD + INGRESOS + CUOTA_TOTAL, family = binomial,
## data = datos2)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.8147 -0.3724 -0.2868 -0.1938 3.1088
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.244e+00 3.933e-01 -5.707 1.15e-08 ***
## ANTIUEDAD -2.817e-02 1.803e-02 -1.562 0.1183
## INGRESOS -2.542e-07 1.059e-07 -2.400 0.0164 *
## CUOTA_TOTAL 9.860e-07 2.456e-07 4.014 5.96e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 309.68 on 779 degrees of freedom
## Residual deviance: 288.78 on 776 degrees of freedom
## AIC: 296.78
##
## Number of Fisher Scoring iterations: 6
## predicciones
## observaciones 0 1
## 0 417 324
## 1 10 29
## [1] 0.5717949
Curva ROC
##
## Call:
## glm(formula = DEFAULT ~ ANTIUEDAD + INGRESOS + CUOTA_TOTAL, family = binomial,
## data = datos2)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.8147 -0.3724 -0.2868 -0.1938 3.1088
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.244e+00 3.933e-01 -5.707 1.15e-08 ***
## ANTIUEDAD -2.817e-02 1.803e-02 -1.562 0.1183
## INGRESOS -2.542e-07 1.059e-07 -2.400 0.0164 *
## CUOTA_TOTAL 9.860e-07 2.456e-07 4.014 5.96e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 309.68 on 779 degrees of freedom
## Residual deviance: 288.78 on 776 degrees of freedom
## AIC: 296.78
##
## Number of Fisher Scoring iterations: 6
\(default = -2.244e+00 -2.817e-02*ANTIUEDAD -2.542e-07*INGRESOS + 9.860e-07*CuotaTotal\)
## [1] 3.987309
El modelo después de la reducción de dimensionalidad no tienen un buen poder predictivo. Esto se puede dar por muchas circunstancias como una data simulada, además de un problema evidente de desbalanceo de los datos.
Por que aunque se haga el proceso de partición de los datos en entrenamiento y test, puede suceder que los datos “no pagan” (solo son el 5%) queden mayoritariamente en el test y no en el entrenamiento.
Existen unos procedimientos de balanceo de datos o resampling que modifican la distribución original de la muestra ya sea eliminando datos de la clase mayoritaria conocida cono (undersampling), o replicando o creando nuevas instancias de la clase minoritaria (oversampling). Los mencionados procedimientos podrían mejorar el poder predictivo del modelo.
El informe se presenta en parejas y se envía al correo david.arango@javerianacali.edu.co el enlace con la cuenta de Rpubs que el profesor debe calificar