Punto 1.



Introducción.

En este ejercicio se analizará y se evaluará la relación que tiene el precio de un automóvil Mazda 2 respecto a variables como: Transmisión, modelo(año) y kilometraje.


Variables

Se escoge para este ejercicio el precio(y) como respuesta a las variables predictoras Kilometraje(x1), modelo(x2) y transmisión(x3)




y = data$Precio
x1 = data$Kilometraje
x2 = data$Modelo

plot(data[,2:4])



cor(data[,2:4])
##                 Precio Kilometraje     Modelo
## Precio       1.0000000  -0.8308914  0.9589783
## Kilometraje -0.8308914   1.0000000 -0.8622153
## Modelo       0.9589783  -0.8622153  1.0000000



En este caso se observa que no hay problemas de multicolinealidad puesto que las variables predictoras no se encuentran altamente relacionadas.

Además, los datos sugieren que el kilometraje tiene un comportamiento inverso al del precio, lo que tiene sentido, puesto que a medida que aumenta el kilometraje, el precio debe disminuir. El modelo, por el contrario, va directamente relacionada con el precio, lo que significa que entre un Mazda 2 sea más nuevo, más debería valer el carro.

## 
## Call:
## lm(formula = y ~ x1 + x2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -8809983 -3454001  -943854  2553574 19226682 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -7.929e+09  5.401e+08 -14.679   <2e-16 ***
## x1          -6.117e+00  2.473e+01  -0.247    0.805    
## x2           3.961e+06  2.671e+05  14.829   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5168000 on 77 degrees of freedom
## Multiple R-squared:  0.9197, Adjusted R-squared:  0.9176 
## F-statistic:   441 on 2 and 77 DF,  p-value: < 2.2e-16



De esta forma obetenemos los siguientes betas:

## (Intercept)          x1          x2 
## -7928766144          -6     3960814



El análisis de los betas sugiere lo siguiente:

Un Mazda 2 de 0 km del año 0 tendría un valor de -7.928.766.144 pesos
Cuando un Mazda 2 recorre 1 km su precio disminuye en 6 pesos
Cuando un Mazda 2 es un año más nuevo, su valor incrementa en 3.960.814 pesos


par(mfrow = c(2,2))
plot(regremul1)




Varianza: Como se puede observar, la varianza parece ser aleatoria.
Normalidad: Los datos se ajustan relativamente bien a la línea de normalidad del qqplot





Se procederá a incuir las variables categóricas.


Variables categóricas


## 
## Call:
## lm(formula = y ~ x1 + x2 + x3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -8745523 -3259472  -699063  2489920 19559608 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -7.796e+09  5.365e+08 -14.532   <2e-16 ***
## x1          -7.279e+00  2.436e+01  -0.299   0.7659    
## x2           3.896e+06  2.653e+05  14.685   <2e-16 ***
## x3mecanica  -2.337e+06  1.257e+06  -1.859   0.0668 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5088000 on 76 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9202 
## F-statistic: 304.5 on 3 and 76 DF,  p-value: < 2.2e-16
## (Intercept)          x1          x2  x3mecanica 
## -7796334817          -7     3895542    -2337031




Los betas del modelo final sugieren que:

Un Mazda 2 de 0 km del año 0 tiene un precio de -7.796.334.817 pesos
Cuando un Mazda 2 avanza 1 km su valor disminuye en 6 pesos
Cuando un Mazda 2 es un año más nuevo su valor incremente en 3.895.542 pesos
Que un Mazda 2 tenga una caja de transmisión mecánica disminuye su precio en -2.337.031 pesos


Validación del poder predictivo

idmodelar <- sample(1:200, size = 160)
datamodelar <- data[idmodelar, ]
datavalidar <- data[-idmodelar, ]

mod_modelar <- lm(y ~ x1 + x2 + x3, data = datamodelar)

# Crea un nuevo dataframe para la validación con las variables predictoras
datos_validar <- data.frame(x1 = datavalidar$Kilometraje,
                            x2 = datavalidar$Modelo,
                            x3 = datavalidar$Transmisión)

preciopred <- predict(mod_modelar, newdata = datos_validar)

precioreal <- datavalidar$Precio
error <- precioreal - preciopred
sqerror <- sqrt(error ^ 2)  # Calcula el error cuadrado

MAE <- mean(abs(error))
RMSE <- sqrt(mean(sqerror))
MAE
## [1] 3771279
RMSE
## [1] 1941.978



El MAE resultate se considera relativamente alto para el modelo, por lo que se considera como inviable su capacidad predictiva. Sin embargo, en caso de que el modelo fuera válido, sería excelente para calcular el precio de un Mazda 2 en el mercado de Cali. Esto ofrece posibilidades de negocio como por ejemplo el de considerar los precios de retoma; un inversionista podría predecir el precio de un vehículo a partir de sus diferentes características y podría traer ese precio a valor presente usando la tasa de descuento que considere de su interés, lo que le daría como resultado el precio de retoma al que deberá comprar el vehículo.



### Punto 2.



Pregunta 1.

Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación. Nota: Justificar por que estas variables están relacionadas y que tipo de relación se espera (Hipótesis). Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse mas al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serian 6, una por variable).

Variables Cualitativas Seleccionadas.

1. Estado Civil: El estado civil puede estar relacionado con la rotación ya que a mayor grado de compromiso mayor necesidad de estabilidad. Por su parte, los empleados divorciados podrían encontrar en el trabajo una excusa para su soledad.

H1: Los empleados solteros son más propensos a rotar que los otros empleados.

2. Viaje de negocios: Los empleados que hacen más viajes de negocios se alejan durante más tiempo de sus amigos y de sus seres queridos, por lo que pueden ser más propensos a rotar por términos de estabilidad emocional

H2: Los empleados que realizan muchos viajes de negocios son más propensos a rotar que los otros empleados

3. Departamento: El departamento al que pertenecen los empleados puede significar su baja o alta rotación, debido a que muchos departamentos pueden llegar a ser más exigentes que otros y los empleados pueden llegar a no estar conformes con la presión que se maneja, por ejemplo, en el departamento de ventas.

H3: Los empleados del departamento de ventas son más propensos a rotar que los otros empleados

Variables Cuantitativas Seleccionadas.

4. Porcentaje de aumento salarial: La variable de porcentaje de aumento salarial puede tener relación con la rotación. Probablemente, un bajo porcentaje de incremento salarial, hace que los empleados opten por otras oportunidades laborales con salarios más competitivos.

H4: Los empleaos con menor porcentaje de aumento salarial son más propensos a rotar que los otros empleados.

5. Años a cargo con el mismo jefe: Los empleados que llevan muchos años con el mismo jefe pueden haber creado lealtad y pueden sentir que la confianza que existe ya entre los dos es un factor muy grande a tener en cuenta cuando se piensa en una rotación. Pueden llegar a pensar que no va a ser fácil comenzar a trabajar con un nuevo jefe cuando llevan tanto tiempo acostumbrados al mismo

H5: Los empleados que tienen pocos años con el mismo jefe son más propensos a rotar que los otros empleados

6. Años de experiencia: Los empleados que tienen más años de experiencia ya tienen un historial de fondo que soporta sus cualidad y sus cualificaciones. Sin embargo, los que tienen pocos años de experiencia todavía tienen mucho que demostrar y son más propensos a cometer errores, por lo que es más probable que tengan que rotar

H6: Los empleados que tienen menos años de experiencia son más propensos a rotar que los otros empleados

Pregunta 2.

Realizar un análisis univariado (caracterización). Nota: Los indicadores o gráficos se usan dependiendo del tipo de variable (cuanti o cuali). Incluir interpretaciones de la rotación.




Del gráfico 1 podemos decir que de un total de 1.470 empleados en la compañía, 237 empleados presentan rotación (corresponde al 16,1% de los empleados), mientras que 1.233 empleados no presentan rotación corresponde al 83,9% de los empleados .Se considera que el porcentaje de empleados que presenta rotación es considerable, por lo tanto, es pertinente hacer los análisis de las variables anteriormente seleccionadas para ver su relación con la rotación.


Análisis Univariado de las variables seleccionadas:

Variables Cualitativas

g1 = ggplot(Datos, aes(x = Estado_Civil)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))

g2 = ggplot(Datos, aes(x = `Viaje de Negocios`)) + geom_bar(fill="#FF8C00") + theme_bw() + theme(axis.text.x = element_text(angle = 90, hjust = 1))

g3 = ggplot(Datos, aes(x = Departamento)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggarrange(g1, g2, g3, labels = c("A", "B", "C"), ncol = 3, nrow = 1)



En la gráfica A se evidencia que el mayor número de empleados está “Casado”, seguido de los “Soltero” y por ultimo los “Divorciado”.Es importante analizar la rotación vs el estado civil para validar la hipótesis H1. Se debe tener presente la población por cada Estado Civil y el porcentaje de ellos que presenta mayor rotación.

En la gráfica B se evidencia que el mayor número de empleados viaja raramente en un viaje de negocios, seguido de los que frecuentemente viajan y por último, son pocos los que no viajan nunca. Para validar la hipótesis H2 se debe tener presente la población que viaja frecuentemente y los que no.

En la gráfica C se evidencia que la mayoría de empleados pertenecen al departamento de investigación y desarrollo, seguidos del departamento de ventas y por último, con menor cantidad de personas, el departamento de recursos humanos. Es importante tener en cuenta el departamento al que pertenecen los empleados al calcular la rotación para poder comprobar H3.



Variables Cuantitativas

## Descriptive Statistics  
## Datos$Porcentaje_aumento_salarial  
## N: 1470  
## 
##                   Porcentaje_aumento_salarial
## --------------- -----------------------------
##            Mean                         15.21
##         Std.Dev                          3.66
##             Min                         11.00
##          Median                         14.00
##             Max                         25.00
##         N.Valid                       1470.00
##       Pct.Valid                        100.00



En la gráfica D y con la estadística descriptiva para el “Porcentaje_aumento_salarial” se evidencia una media de 15.21 y una desviación estándar de 3.66; por su parte la mediana es de 14.00, La mayor concentración de empleados está entre 11.55 y 18.87. Es importante analizar la rotación vs el Porcentaje_aumento_salarial para validar la hipótesis H4.

## Descriptive Statistics  
## Datos$Años_acargo_con_mismo_jefe  
## N: 1470  
## 
##                   Años_acargo_con_mismo_jefe
## --------------- ----------------------------
##            Mean                         4.12
##         Std.Dev                         3.57
##             Min                         0.00
##          Median                         3.00
##             Max                        17.00
##         N.Valid                      1470.00
##       Pct.Valid                       100.00



En la gráfica E y con la estadística descriptiva para el “Años_acargo_con_mismo_jefe” se evidencia una media de 4.12 y una desviación estándar de 3.57; por su parte la mediana es de 3.00, La mayor concentración de empleados está entre 0 y 5 años y otra porción alrededor de los 7 años. Es importante analizar la rotación vs Años_acargo_con_mismo_jefe para validar la hipótesis H5.

## Descriptive Statistics  
## Datos$Años_Experiencia  
## N: 1470  
## 
##                   Años_Experiencia
## --------------- ------------------
##            Mean              11.28
##         Std.Dev               7.78
##             Min               0.00
##          Median              10.00
##             Max              40.00
##         N.Valid            1470.00
##       Pct.Valid             100.00



En la gráfica F y con la estadística descriptiva para el “Años_Experiencia” se evidencia una media de 11.28 y una desviación estándar de 7.78; por su parte la mediana es de 10.00, La mayor concentración de empleados está entre 6 y 12 años de experiencia. Es importante analizar la rotación vs Años_Experiencia para validar la hipótesis H6.



Pregunta 3: Realizar un análisis de bivariado en donde la variable respuesta sea la rotación codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación), con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con las hipótesis planteadas en el punto 2.

Estado Civil:

## Cross-Tabulation, Row Proportions  
## Estado_Civil * Rotación  
## Data Frame: Datos  
## 
## -------------- ---------- -------------- ------------- ---------------
##                  Rotación             No            Si           Total
##   Estado_Civil                                                        
##         Casado               589 (87.5%)    84 (12.5%)    673 (100.0%)
##     Divorciado               294 (89.9%)    33 (10.1%)    327 (100.0%)
##        Soltero               350 (74.5%)   120 (25.5%)    470 (100.0%)
##          Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------



De acuerdo con el Estado_civil, el que mayor rotación presenta es el de los “Solteros” (el 26% rotaron), seguido de los “Casados” (el 12% rotaron) y por último los “Divorciado” (el 10% rotaron).

Conclusión para H1: Los empleaos solteros son más propensos a rotar que los otros empleados: Válida

Viaje de negocios:

## Cross-Tabulation, Row Proportions  
## `Viaje de Negocios` * Rotación  
## Data Frame: Datos  
## 
## ------------------- ---------- -------------- ------------- ---------------
##                       Rotación             No            Si           Total
##   Viaje de Negocios                                                        
##      Frecuentemente               208 (75.1%)    69 (24.9%)    277 (100.0%)
##            No_Viaja               138 (92.0%)    12 ( 8.0%)    150 (100.0%)
##           Raramente               887 (85.0%)   156 (15.0%)   1043 (100.0%)
##               Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## ------------------- ---------- -------------- ------------- ---------------



De acuerdo con el Viaje_de_Negocios, se puede decir que los que más rotan son aquellos que viajan frecuentemente (24.9%), seguido de los que viajan raramente (15.0%) y por último los que no viajan con el (8% que rotaron).

Conclusión para H2: Los empleaos que viajan con mayor frecuencia son más propensos a rotar que los otros empleados: Válida

Departamento:

## Cross-Tabulation, Row Proportions  
## Departamento * Rotación  
## Data Frame: Datos  
## 
## -------------- ---------- -------------- ------------- ---------------
##                  Rotación             No            Si           Total
##   Departamento                                                        
##            IyD               828 (86.2%)   133 (13.8%)    961 (100.0%)
##             RH                51 (81.0%)    12 (19.0%)     63 (100.0%)
##         Ventas               354 (79.4%)    92 (20.6%)    446 (100.0%)
##          Total              1233 (83.9%)   237 (16.1%)   1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------

De acuerdo con el Departamento, se puede decir que los que más rotan son aquellos que se encuentran en el área de ventas (20.6%), seguidos de los de recursos humanos (19%) y por último los de Investigación y desarrollo (13.8%)

Conclusión para H3: Los empleados de departamentos de Ventas son más propensos a rotar que los empleados de otros departamentos. Válida



Cuantitativas


Ingreso mensual



De acuerdo con el Porcentaje_aumento_salarial, se evidencia que la rotación NO esta exclusivamente relacionada con un porcentaje especifico, ya que los empleados con un porcentaje de aumento salarial menor, no rotan más que los que reciben un mayor porcentaje salarial. Por tal razón, no es un factor determinante la rotación para los empleados con menor porcentaje de incremento salarial, ya que se puede ver en la gráfica 1D empleados con porcentaje de incremento entre 22% y 24% con igual o mayor porcentaje de rotación que los que apenas le incrementan 11% en su salario.

Conclusión para H4: Los empleaos con menor porcentaje de aumento salarial son más propensos a rotar que los otros empleados.. No Válida


Años_acargo_con_mismo_jefe:



De acuerdo con los años a cargo con el mismo jefe, se puede observar como la rotación está relacionada con el tiempo que llevan trabajando con el mismo jefe. Pudiéndose comprobar que entre más tiempo dure una persona trabajando con el mismo jefe, es menos probable que rote.

Conclusión para H5: Los empleados con menos años con el mismo jefe son más propensos a rotar que los otros empleados.. Válida


Años_Experiencia



De acuerdo con los años de experiencia, se puede comprobar en las gráficas como aquellos trabajadores que tienen menos años de experiencia son mucho más propensos a rotar. Aquellos que tienen menos de 10 años de experiencia tienen un índice de rotación muy superior que aquellos con más de 10 años.

Conclusión para H6: Los empleados con menos años de experiencia son más propensos a rotar que los otros empleados.. Válida



Pregunta 4.

## 
## Call:
## glm(formula = Rotación ~ `Viaje de Negocios` + Departamento + 
##     Estado_Civil + Años_acargo_con_mismo_jefe + Años_Experiencia + 
##     Porcentaje_aumento_salarial, family = "binomial", data = Datos)
## 
## Coefficients:
##                               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                  -0.608406   0.385886  -1.577 0.114877    
## `Viaje de Negocios`No_Viaja  -1.377440   0.341205  -4.037 5.41e-05 ***
## `Viaje de Negocios`Raramente -0.657603   0.172920  -3.803 0.000143 ***
## DepartamentoRH                0.515112   0.348524   1.478 0.139413    
## DepartamentoVentas            0.485131   0.158053   3.069 0.002145 ** 
## Estado_CivilDivorciado       -0.203285   0.223122  -0.911 0.362246    
## Estado_CivilSoltero           0.817903   0.164001   4.987 6.13e-07 ***
## Años_acargo_con_mismo_jefe   -0.095802   0.027809  -3.445 0.000571 ***
## Años_Experiencia             -0.049862   0.013135  -3.796 0.000147 ***
## Porcentaje_aumento_salarial  -0.007158   0.020763  -0.345 0.730282    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1166.3  on 1460  degrees of freedom
## AIC: 1186.3
## 
## Number of Fisher Scoring iterations: 5



De acuerdo con los resultados del modelo, podemos evidenciar que las variables más significativas son: Estado_CivilSoltero, Viaje_de_NegociosNo_Viaja, Viaje_de_NegociosRaramente, Años_Experiencia, Años_acargo_con_mismo_jefe y DepartamentoVentas.

Destaca que la variable que más disminuye la probabilidad de rotación, es la de Viaje_de_NegociosNo_Viaja. Por el contrario, la variable Estado_CivilSoltero es la que más aumenta la probabilidad de rotación, seguida de DepartamentoRH (Aunque no es significativa) y Departamento Ventas.

COn ello, concluimos que:

Un empleado soltero tiene mayor posibilidad de rotar que un casado y divorciado

Coeficientes del modelo

exp(modelol$coefficients)
##                  (Intercept)  `Viaje de Negocios`No_Viaja 
##                    0.5442178                    0.2522235 
## `Viaje de Negocios`Raramente               DepartamentoRH 
##                    0.5180917                    1.6738263 
##           DepartamentoVentas       Estado_CivilDivorciado 
##                    1.6243886                    0.8160457 
##          Estado_CivilSoltero   Años_acargo_con_mismo_jefe 
##                    2.2657440                    0.9086441 
##             Años_Experiencia  Porcentaje_aumento_salarial 
##                    0.9513608                    0.9928674



Según los coeficientes del modelo,se puede destacar que los empleados solteros tienen 2,26 veces (o 226%) más probabilidad de rotar que alquien que no está soltero. También, los empleados del departamento de ventas tienen 1,62 veces (o 162%) más probabilidad de rotar que algún otro empleado de otro departamento.

Ahora, con el modelo calculado procedemos a comparar las varianzas entre las medias de los grupos de las variables del modelo. Para ello utilizaremos el análisis ANOVA.

anova(modelol, test = "Chisq")
## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Rotación
## 
## Terms added sequentially (first to last)
## 
## 
##                             Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
## NULL                                         1469     1298.6              
## `Viaje de Negocios`          2   23.760      1467     1274.8 6.927e-06 ***
## Departamento                 2   10.830      1465     1264.0   0.00445 ** 
## Estado_Civil                 2   42.767      1463     1221.2 5.166e-10 ***
## Años_acargo_con_mismo_jefe   1   38.287      1462     1182.9 6.107e-10 ***
## Años_Experiencia             1   16.526      1461     1166.4 4.797e-05 ***
## Porcentaje_aumento_salarial  1    0.119      1460     1166.3   0.72974    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



Pregunta 5.

Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC

## [1] 0.7170068



Conforme a los resultados podemos identificar que de 1233 observaciones identificó 924 observaciones que efectivamente correspondían a la no rotación del personal, mientras que 309 de ellas fueron falsos negativos. Por otra parte, identificó que de las 237 observaciones 107 de ellas eran efectivamente positivas indicando la rotación del personal, pero con 130 falsos positivos.

En general podemos estimar una bondad del ajuste del modelo de regresión logístico de aproximadamente 71.7% entre el conjunto de datos observados.

Ahora, realizaremos un análisis ROC con la finalidad de identificar la proporción de verdaderos positivos frente a la proporción de falsos positivos según varía el umbral de discriminación. Así:


## AUC:  0.7170566 n



Como podemos observar en la gráfica anterior, el punto óptimo más cercano a una sensibilidad igual al 100% y especificidad igual al 100% corresponde a un valor de 0.2. Este, fue el valor que se seleccionó como threshold para evaluar la matriz de confusión en el punto anterior. También es posible identificar que el área debajo de la curva refleja la bondad del test para discriminar el personal que rota o no dentro de la empresa, este valor corresponde a 71.7%, igual al valor calculado anteriormente de 71.7%.

Pregunta 6.

Predecir la probabilidad de que un individuo (hipotético) rote y defina un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).

A partir de todos los análisis anteriormente realizados frente a los resultados del modelo y análisis ROC, evaluaremos un caso en particular con algunas características de un trabajador hipotético. Para tal fin se plantea un trabajador que viaja frecuentemente, Casado, del departamento de ventas, con 3 años con el mismo jefe, un porcentaje de aumento de salario de 10 y con 4 años de experiencia.

## Tasa Rotación:  33.588 %



De acuerdo con estas características, es posible estimar que esta persona tenga una probabilidad de rotación de alrededor de 33.6%. En este caso y dado el tamaño de la compañía la intervención debería ser mínima, quizá reduciendo el nivel de viajes podría reducir su probabilidad de rotación.