Introducción.
En este ejercicio
se analizará y se evaluará la relación que tiene el precio de un
automóvil Mazda 2 respecto a variables como: Transmisión, modelo(año) y
kilometraje.
Variables
Se
escoge para este ejercicio el precio(y) como respuesta a las variables
predictoras Kilometraje(x1), modelo(x2) y transmisión(x3)
y = data$Precio
x1 = data$Kilometraje
x2 = data$Modelo
plot(data[,2:4])
cor(data[,2:4])
## Precio Kilometraje Modelo
## Precio 1.0000000 -0.8308914 0.9589783
## Kilometraje -0.8308914 1.0000000 -0.8622153
## Modelo 0.9589783 -0.8622153 1.0000000
En este caso se observa que no hay problemas de
multicolinealidad puesto que las variables predictoras no se encuentran
altamente relacionadas.
Además, los datos sugieren que el
kilometraje tiene un comportamiento inverso al del precio, lo que tiene
sentido, puesto que a medida que aumenta el kilometraje, el precio debe
disminuir. El modelo, por el contrario, va directamente relacionada con
el precio, lo que significa que entre un Mazda 2 sea más nuevo, más
debería valer el carro.
##
## Call:
## lm(formula = y ~ x1 + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8809983 -3454001 -943854 2553574 19226682
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.929e+09 5.401e+08 -14.679 <2e-16 ***
## x1 -6.117e+00 2.473e+01 -0.247 0.805
## x2 3.961e+06 2.671e+05 14.829 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5168000 on 77 degrees of freedom
## Multiple R-squared: 0.9197, Adjusted R-squared: 0.9176
## F-statistic: 441 on 2 and 77 DF, p-value: < 2.2e-16
De esta forma obetenemos los siguientes betas:
## (Intercept) x1 x2
## -7928766144 -6 3960814
El análisis de los betas sugiere lo siguiente:
Un
Mazda 2 de 0 km del año 0 tendría un valor de -7.928.766.144 pesos
Cuando un Mazda 2 recorre 1 km su precio disminuye en 6 pesos
Cuando un Mazda 2 es un año más nuevo, su valor incrementa en 3.960.814
pesos
par(mfrow = c(2,2))
plot(regremul1)
Varianza: Como se puede observar, la
varianza parece ser aleatoria.
Normalidad: Los
datos se ajustan relativamente bien a la línea de normalidad del qqplot
Se procederá a incuir las variables categóricas.
Variables categóricas
##
## Call:
## lm(formula = y ~ x1 + x2 + x3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8745523 -3259472 -699063 2489920 19559608
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.796e+09 5.365e+08 -14.532 <2e-16 ***
## x1 -7.279e+00 2.436e+01 -0.299 0.7659
## x2 3.896e+06 2.653e+05 14.685 <2e-16 ***
## x3mecanica -2.337e+06 1.257e+06 -1.859 0.0668 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5088000 on 76 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9202
## F-statistic: 304.5 on 3 and 76 DF, p-value: < 2.2e-16
## (Intercept) x1 x2 x3mecanica
## -7796334817 -7 3895542 -2337031
Los betas del modelo final sugieren que:
Un
Mazda 2 de 0 km del año 0 tiene un precio de -7.796.334.817 pesos
Cuando un Mazda 2 avanza 1 km su valor disminuye en 6 pesos
Cuando
un Mazda 2 es un año más nuevo su valor incremente en 3.895.542 pesos
Que un Mazda 2 tenga una caja de transmisión mecánica disminuye su
precio en -2.337.031 pesos
Validación del poder
predictivo
idmodelar <- sample(1:200, size = 160)
datamodelar <- data[idmodelar, ]
datavalidar <- data[-idmodelar, ]
mod_modelar <- lm(y ~ x1 + x2 + x3, data = datamodelar)
# Crea un nuevo dataframe para la validación con las variables predictoras
datos_validar <- data.frame(x1 = datavalidar$Kilometraje,
x2 = datavalidar$Modelo,
x3 = datavalidar$Transmisión)
preciopred <- predict(mod_modelar, newdata = datos_validar)
precioreal <- datavalidar$Precio
error <- precioreal - preciopred
sqerror <- sqrt(error ^ 2) # Calcula el error cuadrado
MAE <- mean(abs(error))
RMSE <- sqrt(mean(sqerror))
MAE
## [1] 3771279
RMSE
## [1] 1941.978
El MAE resultate se considera relativamente alto para el
modelo, por lo que se considera como inviable su capacidad predictiva.
Sin embargo, en caso de que el modelo fuera válido, sería excelente para
calcular el precio de un Mazda 2 en el mercado de Cali. Esto ofrece
posibilidades de negocio como por ejemplo el de considerar los precios
de retoma; un inversionista podría predecir el precio de un vehículo a
partir de sus diferentes características y podría traer ese precio a
valor presente usando la tasa de descuento que considere de su interés,
lo que le daría como resultado el precio de retoma al que deberá comprar
el vehículo.
### Punto 2.
Pregunta 1.
Seleccionar 3
variables categóricas (distintas de rotación) y 3 variables
cuantitativas, que consideren estén relacionadas con la rotación. Nota:
Justificar por que estas variables están relacionadas y que tipo de
relación se espera (Hipótesis). Ejemplo: Se espera que las horas extra
se relacionen con la rotación ya que las personas podrían desgastarse
mas al trabajar horas extra y descuidan aspectos personales. La
hipótesis es que las personas que trabajan horas extra tienen mayor
posibilidad de rotar que las que no trabajan extra. (serian 6, una por
variable).
Variables Cualitativas Seleccionadas.
1. Estado Civil: El estado civil puede estar
relacionado con la rotación ya que a mayor grado de compromiso mayor
necesidad de estabilidad. Por su parte, los empleados divorciados
podrían encontrar en el trabajo una excusa para su soledad.
H1: Los empleados solteros son más propensos a rotar que los otros
empleados.
2. Viaje de negocios: Los
empleados que hacen más viajes de negocios se alejan durante más tiempo
de sus amigos y de sus seres queridos, por lo que pueden ser más
propensos a rotar por términos de estabilidad emocional
H2:
Los empleados que realizan muchos viajes de negocios son más propensos a
rotar que los otros empleados
3.
Departamento: El departamento al que pertenecen los empleados
puede significar su baja o alta rotación, debido a que muchos
departamentos pueden llegar a ser más exigentes que otros y los
empleados pueden llegar a no estar conformes con la presión que se
maneja, por ejemplo, en el departamento de ventas.
H3: Los
empleados del departamento de ventas son más propensos a rotar que los
otros empleados
Variables Cuantitativas Seleccionadas.
4. Porcentaje de aumento salarial: La variable de
porcentaje de aumento salarial puede tener relación con la rotación.
Probablemente, un bajo porcentaje de incremento salarial, hace que los
empleados opten por otras oportunidades laborales con salarios más
competitivos.
H4: Los empleaos con menor porcentaje de aumento
salarial son más propensos a rotar que los otros empleados.
5. Años a cargo con el mismo jefe: Los empleados que
llevan muchos años con el mismo jefe pueden haber creado lealtad y
pueden sentir que la confianza que existe ya entre los dos es un factor
muy grande a tener en cuenta cuando se piensa en una rotación. Pueden
llegar a pensar que no va a ser fácil comenzar a trabajar con un nuevo
jefe cuando llevan tanto tiempo acostumbrados al mismo
H5: Los
empleados que tienen pocos años con el mismo jefe son más propensos a
rotar que los otros empleados
6. Años de
experiencia: Los empleados que tienen más años de experiencia
ya tienen un historial de fondo que soporta sus cualidad y sus
cualificaciones. Sin embargo, los que tienen pocos años de experiencia
todavía tienen mucho que demostrar y son más propensos a cometer
errores, por lo que es más probable que tengan que rotar
H6:
Los empleados que tienen menos años de experiencia son más propensos a
rotar que los otros empleados
Pregunta 2.
Realizar un análisis univariado (caracterización). Nota: Los
indicadores o gráficos se usan dependiendo del tipo de variable (cuanti
o cuali). Incluir interpretaciones de la rotación.
Del gráfico 1 podemos decir que de un total de 1.470 empleados
en la compañía, 237 empleados presentan rotación (corresponde al 16,1%
de los empleados), mientras que 1.233 empleados no presentan rotación
corresponde al 83,9% de los empleados .Se considera que el porcentaje de
empleados que presenta rotación es considerable, por lo tanto, es
pertinente hacer los análisis de las variables anteriormente
seleccionadas para ver su relación con la rotación.
Análisis Univariado de las variables seleccionadas:
Variables Cualitativas
g1 = ggplot(Datos, aes(x = Estado_Civil)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))
g2 = ggplot(Datos, aes(x = `Viaje de Negocios`)) + geom_bar(fill="#FF8C00") + theme_bw() + theme(axis.text.x = element_text(angle = 90, hjust = 1))
g3 = ggplot(Datos, aes(x = Departamento)) + geom_bar(fill="#FF8C00") + theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggarrange(g1, g2, g3, labels = c("A", "B", "C"), ncol = 3, nrow = 1)
En la gráfica A se evidencia que el mayor
número de empleados está “Casado”, seguido de los “Soltero” y por ultimo
los “Divorciado”.Es importante analizar la rotación vs el estado civil
para validar la hipótesis H1. Se debe tener presente la población por
cada Estado Civil y el porcentaje de ellos que presenta mayor rotación.
En la gráfica B se evidencia que el mayor
número de empleados viaja raramente en un viaje de negocios, seguido de
los que frecuentemente viajan y por último, son pocos los que no viajan
nunca. Para validar la hipótesis H2 se debe tener presente la población
que viaja frecuentemente y los que no.
En la gráfica
C se evidencia que la mayoría de empleados pertenecen al
departamento de investigación y desarrollo, seguidos del departamento de
ventas y por último, con menor cantidad de personas, el departamento de
recursos humanos. Es importante tener en cuenta el departamento al que
pertenecen los empleados al calcular la rotación para poder comprobar
H3.
Variables Cuantitativas
## Descriptive Statistics
## Datos$Porcentaje_aumento_salarial
## N: 1470
##
## Porcentaje_aumento_salarial
## --------------- -----------------------------
## Mean 15.21
## Std.Dev 3.66
## Min 11.00
## Median 14.00
## Max 25.00
## N.Valid 1470.00
## Pct.Valid 100.00
En la gráfica D y con la estadística
descriptiva para el “Porcentaje_aumento_salarial” se evidencia una media
de 15.21 y una desviación estándar de 3.66; por su parte la mediana es
de 14.00, La mayor concentración de empleados está entre 11.55 y 18.87.
Es importante analizar la rotación vs el Porcentaje_aumento_salarial
para validar la hipótesis H4.
## Descriptive Statistics
## Datos$Años_acargo_con_mismo_jefe
## N: 1470
##
## Años_acargo_con_mismo_jefe
## --------------- ----------------------------
## Mean 4.12
## Std.Dev 3.57
## Min 0.00
## Median 3.00
## Max 17.00
## N.Valid 1470.00
## Pct.Valid 100.00
En la gráfica E y con la estadística
descriptiva para el “Años_acargo_con_mismo_jefe” se evidencia una media
de 4.12 y una desviación estándar de 3.57; por su parte la mediana es de
3.00, La mayor concentración de empleados está entre 0 y 5 años y otra
porción alrededor de los 7 años. Es importante analizar la rotación vs
Años_acargo_con_mismo_jefe para validar la hipótesis H5.
## Descriptive Statistics
## Datos$Años_Experiencia
## N: 1470
##
## Años_Experiencia
## --------------- ------------------
## Mean 11.28
## Std.Dev 7.78
## Min 0.00
## Median 10.00
## Max 40.00
## N.Valid 1470.00
## Pct.Valid 100.00
En la gráfica F y con la estadística
descriptiva para el “Años_Experiencia” se evidencia una media de 11.28 y
una desviación estándar de 7.78; por su parte la mediana es de 10.00, La
mayor concentración de empleados está entre 6 y 12 años de experiencia.
Es importante analizar la rotación vs Años_Experiencia para validar la
hipótesis H6.
Pregunta 3: Realizar
un análisis de bivariado en donde la variable respuesta sea la rotación
codificada de la siguiente manera (y=1 es si rotación, y=0 es no
rotación), con base en estos resultados identifique cuales son las
variables determinantes de la rotación e interpretar el signo del
coeficiente estimado. Compare estos resultados con las hipótesis
planteadas en el punto 2.
Estado Civil:
## Cross-Tabulation, Row Proportions
## Estado_Civil * Rotación
## Data Frame: Datos
##
## -------------- ---------- -------------- ------------- ---------------
## Rotación No Si Total
## Estado_Civil
## Casado 589 (87.5%) 84 (12.5%) 673 (100.0%)
## Divorciado 294 (89.9%) 33 (10.1%) 327 (100.0%)
## Soltero 350 (74.5%) 120 (25.5%) 470 (100.0%)
## Total 1233 (83.9%) 237 (16.1%) 1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------
De acuerdo con el Estado_civil, el que mayor rotación
presenta es el de los “Solteros” (el 26% rotaron), seguido de los
“Casados” (el 12% rotaron) y por último los “Divorciado” (el 10%
rotaron).
Conclusión para H1: Los empleaos solteros son más
propensos a rotar que los otros empleados: Válida
Viaje de negocios:
## Cross-Tabulation, Row Proportions
## `Viaje de Negocios` * Rotación
## Data Frame: Datos
##
## ------------------- ---------- -------------- ------------- ---------------
## Rotación No Si Total
## Viaje de Negocios
## Frecuentemente 208 (75.1%) 69 (24.9%) 277 (100.0%)
## No_Viaja 138 (92.0%) 12 ( 8.0%) 150 (100.0%)
## Raramente 887 (85.0%) 156 (15.0%) 1043 (100.0%)
## Total 1233 (83.9%) 237 (16.1%) 1470 (100.0%)
## ------------------- ---------- -------------- ------------- ---------------
De acuerdo con el Viaje_de_Negocios, se puede decir que los
que más rotan son aquellos que viajan frecuentemente (24.9%), seguido de
los que viajan raramente (15.0%) y por último los que no viajan con el
(8% que rotaron).
Conclusión para H2: Los empleaos que viajan
con mayor frecuencia son más propensos a rotar que los otros empleados:
Válida
Departamento:
## Cross-Tabulation, Row Proportions
## Departamento * Rotación
## Data Frame: Datos
##
## -------------- ---------- -------------- ------------- ---------------
## Rotación No Si Total
## Departamento
## IyD 828 (86.2%) 133 (13.8%) 961 (100.0%)
## RH 51 (81.0%) 12 (19.0%) 63 (100.0%)
## Ventas 354 (79.4%) 92 (20.6%) 446 (100.0%)
## Total 1233 (83.9%) 237 (16.1%) 1470 (100.0%)
## -------------- ---------- -------------- ------------- ---------------
De acuerdo con el Departamento, se puede decir que los que más rotan
son aquellos que se encuentran en el área de ventas (20.6%), seguidos de
los de recursos humanos (19%) y por último los de Investigación y
desarrollo (13.8%)
Conclusión para H3: Los empleados de
departamentos de Ventas son más propensos a rotar que los empleados de
otros departamentos. Válida
Cuantitativas
Ingreso
mensual
De acuerdo con el Porcentaje_aumento_salarial, se evidencia que la
rotación NO esta exclusivamente relacionada con un porcentaje
especifico, ya que los empleados con un porcentaje de aumento salarial
menor, no rotan más que los que reciben un mayor porcentaje salarial.
Por tal razón, no es un factor determinante la rotación para los
empleados con menor porcentaje de incremento salarial, ya que se puede
ver en la gráfica 1D empleados con porcentaje de incremento entre 22% y
24% con igual o mayor porcentaje de rotación que los que apenas le
incrementan 11% en su salario.
Conclusión para H4: Los
empleaos con menor porcentaje de aumento salarial son más propensos a
rotar que los otros empleados.. No Válida
Años_acargo_con_mismo_jefe:
De acuerdo con los años a cargo con el mismo jefe, se puede
observar como la rotación está relacionada con el tiempo que llevan
trabajando con el mismo jefe. Pudiéndose comprobar que entre más tiempo
dure una persona trabajando con el mismo jefe, es menos probable que
rote.
Conclusión para H5: Los empleados con menos años con el
mismo jefe son más propensos a rotar que los otros empleados.. Válida
Años_Experiencia
De acuerdo con los años de experiencia, se puede comprobar
en las gráficas como aquellos trabajadores que tienen menos años de
experiencia son mucho más propensos a rotar. Aquellos que tienen menos
de 10 años de experiencia tienen un índice de rotación muy superior que
aquellos con más de 10 años.
Conclusión para H6: Los empleados
con menos años de experiencia son más propensos a rotar que los otros
empleados.. Válida
Pregunta 4.
##
## Call:
## glm(formula = Rotación ~ `Viaje de Negocios` + Departamento +
## Estado_Civil + Años_acargo_con_mismo_jefe + Años_Experiencia +
## Porcentaje_aumento_salarial, family = "binomial", data = Datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.608406 0.385886 -1.577 0.114877
## `Viaje de Negocios`No_Viaja -1.377440 0.341205 -4.037 5.41e-05 ***
## `Viaje de Negocios`Raramente -0.657603 0.172920 -3.803 0.000143 ***
## DepartamentoRH 0.515112 0.348524 1.478 0.139413
## DepartamentoVentas 0.485131 0.158053 3.069 0.002145 **
## Estado_CivilDivorciado -0.203285 0.223122 -0.911 0.362246
## Estado_CivilSoltero 0.817903 0.164001 4.987 6.13e-07 ***
## Años_acargo_con_mismo_jefe -0.095802 0.027809 -3.445 0.000571 ***
## Años_Experiencia -0.049862 0.013135 -3.796 0.000147 ***
## Porcentaje_aumento_salarial -0.007158 0.020763 -0.345 0.730282
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1166.3 on 1460 degrees of freedom
## AIC: 1186.3
##
## Number of Fisher Scoring iterations: 5
De acuerdo con los resultados del modelo, podemos evidenciar que las
variables más significativas son: Estado_CivilSoltero,
Viaje_de_NegociosNo_Viaja, Viaje_de_NegociosRaramente, Años_Experiencia,
Años_acargo_con_mismo_jefe y DepartamentoVentas.
Destaca que
la variable que más disminuye la probabilidad de rotación, es la de
Viaje_de_NegociosNo_Viaja. Por el contrario, la variable
Estado_CivilSoltero es la que más aumenta la probabilidad de rotación,
seguida de DepartamentoRH (Aunque no es significativa) y Departamento
Ventas.
COn ello, concluimos que:
Un empleado
soltero tiene mayor posibilidad de rotar que un casado y divorciado
Coeficientes del modelo
exp(modelol$coefficients)
## (Intercept) `Viaje de Negocios`No_Viaja
## 0.5442178 0.2522235
## `Viaje de Negocios`Raramente DepartamentoRH
## 0.5180917 1.6738263
## DepartamentoVentas Estado_CivilDivorciado
## 1.6243886 0.8160457
## Estado_CivilSoltero Años_acargo_con_mismo_jefe
## 2.2657440 0.9086441
## Años_Experiencia Porcentaje_aumento_salarial
## 0.9513608 0.9928674
Según los coeficientes del modelo,se puede destacar que los empleados
solteros tienen 2,26 veces (o 226%) más probabilidad de rotar que
alquien que no está soltero. También, los empleados del departamento de
ventas tienen 1,62 veces (o 162%) más probabilidad de rotar que algún
otro empleado de otro departamento.
Ahora, con el modelo calculado procedemos a comparar las varianzas
entre las medias de los grupos de las variables del modelo. Para ello
utilizaremos el análisis ANOVA.
anova(modelol, test = "Chisq")
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Rotación
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 1469 1298.6
## `Viaje de Negocios` 2 23.760 1467 1274.8 6.927e-06 ***
## Departamento 2 10.830 1465 1264.0 0.00445 **
## Estado_Civil 2 42.767 1463 1221.2 5.166e-10 ***
## Años_acargo_con_mismo_jefe 1 38.287 1462 1182.9 6.107e-10 ***
## Años_Experiencia 1 16.526 1461 1166.4 4.797e-05 ***
## Porcentaje_aumento_salarial 1 0.119 1460 1166.3 0.72974
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pregunta 5.
Evaluar el poder
predictivo del modelo con base en la curva ROC y el AUC
## [1] 0.7170068
Conforme a los resultados podemos identificar que de 1233
observaciones identificó 924 observaciones que efectivamente
correspondían a la no rotación del personal, mientras que 309 de ellas
fueron falsos negativos. Por otra parte, identificó que de las 237
observaciones 107 de ellas eran efectivamente positivas indicando la
rotación del personal, pero con 130 falsos positivos.
En
general podemos estimar una bondad del ajuste del modelo de regresión
logístico de aproximadamente 71.7% entre el conjunto de datos
observados.
Ahora, realizaremos un análisis ROC con la
finalidad de identificar la proporción de verdaderos positivos frente a
la proporción de falsos positivos según varía el umbral de
discriminación. Así:
## AUC: 0.7170566 n
Como podemos observar en la gráfica anterior, el punto
óptimo más cercano a una sensibilidad igual al 100% y especificidad
igual al 100% corresponde a un valor de 0.2. Este, fue el valor que se
seleccionó como threshold para evaluar la matriz de confusión en el
punto anterior. También es posible identificar que el área debajo de la
curva refleja la bondad del test para discriminar el personal que rota o
no dentro de la empresa, este valor corresponde a 71.7%, igual al valor
calculado anteriormente de 71.7%.
Pregunta 6.
Predecir la probabilidad de que un individuo (hipotético) rote
y defina un corte para decidir si se debe intervenir a este empleado o
no (posible estrategia para motivar al empleado).
A partir de
todos los análisis anteriormente realizados frente a los resultados del
modelo y análisis ROC, evaluaremos un caso en particular con algunas
características de un trabajador hipotético. Para tal fin se plantea un
trabajador que viaja frecuentemente, Casado, del departamento de ventas,
con 3 años con el mismo jefe, un porcentaje de aumento de salario de 10
y con 4 años de experiencia.
## Tasa Rotación: 33.588 %
De acuerdo con estas características, es posible estimar que esta
persona tenga una probabilidad de rotación de alrededor de 33.6%. En
este caso y dado el tamaño de la compañía la intervención debería ser
mínima, quizá reduciendo el nivel de viajes podría reducir su
probabilidad de rotación.