En este documento, encontrará el desarrollo del Taller No. 4 del curso MÉTODOS CUANTITATIVOS PARA EL ANÁLISIS DE INFORMACIÓN del Programa Maestría en Analítica e Inteligencia de Negocios. El documento tiene los dos ejercicio propuestos y el inicio de cada ejercicio se identifica con títulos rojos.
Taller No. 4- Regresión Logística.
Predicción desempeño de discos duros SDD y HDD.
Análisis Del Problema
En la gráfica anterior se puede observar los discos HDD de color rojo y los SDD de color azul, se evidencia una relación positiva con una leve diferencia entre las pendiente. Se usa la correlación de Pearson ya que las variables presentan normalidad ya que su P-Value son mayores 0.05, como se puede ver a continuación:
| Test statistic | P value |
|---|---|
| 0.9627 | 0.4703 |
| Test statistic | P value |
|---|---|
| 0.9373 | 0.1282 |
Modelo 1
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.04838 | 0.2632 | 0.1838 | 0.8558 |
| Carga | 0.4921 | 0.04177 | 11.78 | 3.177e-11 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 25 | 0.5837 | 0.8579 | 0.8517 |
En el modelo 1 se evidencia una relación entre la carga y el tiempo de respuesta como se puede ver en la tabla anterior, el coeficiente de correlación muestra que el modelo explica en un 85% la variabilidad de los datos.
En la gráfica anterior se observa un buen ajuste del modelo al ser representado con los datos, la linea naranja representa el modelo construido y los puntos azules y rojos los datos con que se construyó el modelo.
Modelo 2
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -1.375 | 0.209 | -6.581 | 1.62e-06 |
| Carga | 0.7198 | 0.03367 | 21.38 | 9.878e-16 |
| Conf | 2.264 | 0.2652 | 8.536 | 2.865e-08 |
| Carga:Conf | -0.3573 | 0.04227 | -8.454 | 3.364e-08 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 25 | 0.2844 | 0.9692 | 0.9648 |
El nuevo modelo recoge más variabilidad y explica mejor el modelo, el modelo 1 explicaba un 85% mientras que el modelo 2 explica 96% mejorando en 11 puntos porcentuales, se evidencia que el intercepto, la carga, la configuración y la interacción de la carga con la configuración son significativos en el modelo por el valor en Pr(>|t|).
En la gráfica anterior los puntos negros son los datos, los puntos rojos son las predicciones del modelo 2, la línea naranja representa el modelo 1 y la línea verde representa el modelo 2, se puede ver que la diferencia entre los puntos de predicción y los puntos reales no es mucha y también se puede evidenciar que el intercepto y la pendiente del modelo 1 y el modelo 2 son diferentes y que la linea de la regresión tienen pendiente diferente.
Comparación de modelos (ANOVA)
| Res.Df | RSS | Df | Sum of Sq | F | Pr(>F) |
|---|---|---|---|---|---|
| 23 | 7.838 | NA | NA | NA | NA |
| 21 | 1.699 | 2 | 6.139 | 37.94 | 1.067e-07 |
Mediante el test de ANOVA, en la tabla anterior, se compara el análisis de la varianza de los dos modelos y se evidencia mediante la prueba de hipótesis nula (p-valor) que el modelo 2 mejora al modelo 1.
Evaluación modelo 2
En la gráfica anterior encontramos puntos rojos que representan los SDD, puntos azules que representan los HDD, puntos verdes que representan las perdiciones con el modelo 2 y una linea naranja que representa el modelo 2 con los cambios realizados al modelo 1. Se puede observar que los puntos verdes (perdiciones) están cercanos a los valores esperados. En la gráfica siguiente analizamos los residuos y se puede observar que la mayoría de las perdiciones son inferiores a 0,1.
##
## One Sample t-test
##
## data: residuos
## t = -0.14652, df = 24, p-value = 0.8847
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.4994321 0.4332192
## sample estimates:
## mean of x
## -0.03310641
##
## studentized Breusch-Pagan test
##
## data: Model_s2
## BP = 2.6825, df = 3, p-value = 0.4432
##
## Durbin-Watson test
##
## data: Model_s2
## DW = 1.3285, p-value = 0.03421
## alternative hypothesis: true autocorrelation is greater than 0
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.92407, p-value = 0.06348
Conclusión general
Caracterización de la siniestralidad de sus asegurados.
Análisis Del Problema
## Acc Exp Edad Pot Sexo
## No:20 Min. : 1.000 Min. :20 Min. : 70.0 F:21
## Sí:15 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 M:14
## Median : 9.000 Median :29 Median : 95.0
## Mean : 9.543 Mean :31 Mean :101.6
## 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0
## Max. :20.000 Max. :56 Max. :150.0
## [[1]]
## NULL
##
## [[2]]
## NULL
##
## [[3]]
## NULL
En la gráfica anterior se puede observar que el 57% de los registros corresponden a personas no accidentadas y el 43% a personas accidentadas, se puede presumir que la mayoría de los hombres tienen accidentes y las mujeser no, el 11% de las mujeres tiene algún accidente y el 31% de los hombres tienen algún accidente. En la relación de las variables accidentes (Acc) vs experiencia (Exp), es notorio en la gráfica que la experiencia ayuda a que no existan más accidentes. En la gráfica accidentes (Acc) vs edad (Edad) se nota un poco, que entre menor edad, mayor probabilidad de accidentes. En la última gráfica accidentes (Acc) vs potencia del motor (Pot) se puede presumir una relación que entre más potencia del motor, mayor probabilidad de que exista un accidente.
Como se puede ver en la gráfica anterior, no se evidencia una relación entre las dispersiones de las variables edad, experiencia y potencia del motor versus Accidentes.
Modelos
##
## Call:
## glm(formula = Acc ~ Exp, family = "binomial", data = datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.9419 0.9816 1.978 0.0479 *
## Exp -0.2456 0.1044 -2.354 0.0186 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 40.006 on 33 degrees of freedom
## AIC: 44.006
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = "binomial", data = datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8890 1.2252 0.726 0.46808
## Exp -0.2400 0.1176 -2.040 0.04131 *
## SexoM 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
Una comparación rápida de los dos modelos, es visible la mejora del modelo 2 agregando la variable Sexo, eso se puede evidenciar en los valores de la deviance y AIC, en el modelo 1 se tiene una desviance residual de 40.006 y el modelo 2 de 29.249; en el modelo 1 el AIC es de 44.006 y el AIC del modelo 2 es de 35.249.
Recordemos que el AIC se usa para predicción y la idea es que este disminuya a medida que ingresamos variables. Las deviance son métricas para ver el ajuste del modelo, deviance null distancia al modelo ideal, la deviance residual debe ser menor que cada vez más de la deviance null.
En las gráficas anteriores se puede observar la linea naranja que representa el modelo 1 y la línea azul que representa el modelo dos, la línea azul (modelo 2) se ajusta mejor a los datos, ratificando los datos presentados en el resumen anterior. q
Interpretación de los Modelos
## Coef 2.5 % 97.5 %
## (Intercept) 1.941925 0.1848551 4.13862783
## Exp -0.245607 -0.4859059 -0.06601434
## e-beta 2.5 % 97.5 %
## (Intercept) 6.9721601 1.2030441 62.7167043
## Exp 0.7822295 0.6151397 0.9361174
Interpretación de los coeficientes - odds y odds ratio del modelo 1
Modelo 1: B0 + B1 * Exp + u
Modelo 1: 1.94 + (-0.25 * Exp) + u
Términos de odds
Modelo 1: 6.97 + (0.78 * Exp) + u
Podemos decir que B0 (6.97) es mayor que 1 (OR > 1), por lo tanto es un factor de riesgo, el B1 (0.78) es menor que 1 (OR < 1), por lo tanto B1 es factor protector, entre más experiencia menos probabilidad de accidentes.
## Coef 2.5 % 97.5 %
## (Intercept) 0.8890341 -1.3776790 3.64897083
## Exp -0.2399985 -0.5285605 -0.04017264
## SexoM 2.9865699 1.1292126 5.58840807
## e-beta 2.5 % 97.5 %
## (Intercept) 2.432779 0.2521631 38.4350894
## Exp 0.786629 0.5894529 0.9606236
## SexoM 19.817589 3.0932200 267.3097416
Interpretación de los coeficientes - odds y odds ratio del modelo 2
Modelo 2: B0 + B1 * Exp + B2 * Sexo + u
Modelo 2: 0.88 + (-0.24 * Exp) + (2.99 * Exp) + u
Términos de odds
Modelo 2: 2.43 + (0.79 * Exp) + (19.82 * Sexo) + u
Podemos decir que B0 (2.43) es mayor que 1 (OR > 1), por lo tanto es un factor de riesgo, el B1 (0.79) es menor que 1 (OR < 1), por lo tanto B1 es factor protector, entre más experiencia menos probabilidad de accidentes y B2 (19.82) es mayor que 0, por lo tanto si se es hombre, mayor probabilidad de accidentes.
Evaluación de los Modelos
## predicho
## observado No Sí
## No 17 3
## Sí 7 8
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Sí
## No 17 7
## Sí 3 8
##
## Accuracy : 0.7143
## 95% CI : (0.537, 0.8536)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.06008
##
## Kappa : 0.3966
##
## Mcnemar's Test P-Value : 0.34278
##
## Sensitivity : 0.5333
## Specificity : 0.8500
## Pos Pred Value : 0.7273
## Neg Pred Value : 0.7083
## Prevalence : 0.4286
## Detection Rate : 0.2286
## Detection Prevalence : 0.3143
## Balanced Accuracy : 0.6917
##
## 'Positive' Class : Sí
##
## Sensitivity Specificity Pos Pred Value
## 0.5333333 0.8500000 0.7272727
## Neg Pred Value Precision Recall
## 0.7083333 0.7272727 0.5333333
## F1 Prevalence Detection Rate
## 0.6153846 0.4285714 0.2285714
## Detection Prevalence Balanced Accuracy
## 0.3142857 0.6916667
## predicho
## observado No Sí
## No 18 2
## Sí 5 10
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Sí
## No 18 5
## Sí 2 10
##
## Accuracy : 0.8
## 95% CI : (0.6306, 0.9156)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.003999
##
## Kappa : 0.5812
##
## Mcnemar's Test P-Value : 0.449692
##
## Sensitivity : 0.6667
## Specificity : 0.9000
## Pos Pred Value : 0.8333
## Neg Pred Value : 0.7826
## Prevalence : 0.4286
## Detection Rate : 0.2857
## Detection Prevalence : 0.3429
## Balanced Accuracy : 0.7833
##
## 'Positive' Class : Sí
##
## Sensitivity Specificity Pos Pred Value
## 0.6666667 0.9000000 0.8333333
## Neg Pred Value Precision Recall
## 0.7826087 0.8333333 0.6666667
## F1 Prevalence Detection Rate
## 0.7407407 0.4285714 0.2857143
## Detection Prevalence Balanced Accuracy
## 0.3428571 0.7833333
En la matriz de confusión se puede evidenciar que el modelo 2 tiene más aciertos que el modelo 1, el modelo 1 comete 3 errores más que el modelo 2. También se observa la sensibilidad, la especificidad y precisión son mejores los del modelo 2.
En las gráficas anteriores se observan las curvas ROC’s donde se explora los mejores puntos de corte para cada modelo, en el lado izquierdo tenemos el modelo 1 con un AUC de 0.798, del lado derecho tenemos el modelo 2 con un AUC de 0.868 que implica que el modelo 2 tiene un mejor AUC que el modelo 1 .
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Acc
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 34 47.804
## Exp 1 7.7977 33 40.006 0.005231 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Acc
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 34 47.804
## Exp 1 7.7977 33 40.006 0.005231 **
## Sexo 1 10.7571 32 29.249 0.001039 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como se puede observar el modelo 2 explica mejor los datos, sin modelo se tiene una desviación de 47.80, si agregamos años de experiencia la desviación es de 40.00 que corresponde al modelo 1 y cuando agregamos la variable Sexo la desviación es de 29.25 que corresponde al modelo 2.
## AIC deviance R2
## Modelo_RL1 44.00583 40.00583 0.1631205
## AIC deviance R2
## Modelo_RL2 35.24875 29.24875 0.3881471
El AIC muestra que el modelo 2 es mejor que el modelo 1, el AIC del modelo 1 es de 44.01 y el modelo 2 tiene un menor AIC que es de 35.25.
Ajuste del Mejor Modelos
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Sí
## No 20 6
## Sí 0 9
##
## Accuracy : 0.8286
## 95% CI : (0.6635, 0.9344)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.001202
##
## Kappa : 0.6316
##
## Mcnemar's Test P-Value : 0.041227
##
## Sensitivity : 0.6000
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 0.7692
## Prevalence : 0.4286
## Detection Rate : 0.2571
## Detection Prevalence : 0.2571
## Balanced Accuracy : 0.8000
##
## 'Positive' Class : Sí
##
## Sensitivity Specificity Pos Pred Value
## 0.6000000 1.0000000 1.0000000
## Neg Pred Value Precision Recall
## 0.7692308 1.0000000 0.6000000
## F1 Prevalence Detection Rate
## 0.7500000 0.4285714 0.2571429
## Detection Prevalence Balanced Accuracy
## 0.2571429 0.8000000
Como se puede ver en los valores anteriores, el modelo dos se ajusta su pc a 0.845 y los valores nuevos valores de desempeño mejoran, pasamos de un Accuracy de 0.8 a un 0.83 y además el valor kappa pasa de 0.581 a 0.63 el cual da mayor credibilidad al modelo. En la matriz de confusión la sensibilidad pasa de 0.67 a 0.60 pero la especificidad de 0.90 a 1.0 y el número de errores reduce a 1.
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Sí
## No 18 5
## Sí 2 10
##
## Accuracy : 0.8
## 95% CI : (0.6306, 0.9156)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.003999
##
## Kappa : 0.5812
##
## Mcnemar's Test P-Value : 0.449692
##
## Sensitivity : 0.6667
## Specificity : 0.9000
## Pos Pred Value : 0.8333
## Neg Pred Value : 0.7826
## Prevalence : 0.4286
## Detection Rate : 0.2857
## Detection Prevalence : 0.3429
## Balanced Accuracy : 0.7833
##
## 'Positive' Class : Sí
##
## Sensitivity Specificity Pos Pred Value
## 0.6666667 0.9000000 0.8333333
## Neg Pred Value Precision Recall
## 0.7826087 0.8333333 0.6666667
## F1 Prevalence Detection Rate
## 0.7407407 0.4285714 0.2857143
## Detection Prevalence Balanced Accuracy
## 0.3428571 0.7833333
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Acc
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 34 47.804
## Exp 1 7.7977 33 40.006 0.005231 **
## Sexo 1 10.7571 32 29.249 0.001039 **
## Edad 1 0.0082 31 29.241 0.927697
## Pot 1 16.5410 30 12.700 4.761e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## AIC deviance R2
## Modelo_RL1 44.00583 40.00583 0.1631205
## AIC deviance R2
## Modelo_RL2 35.24875 29.24875 0.3881471
## AIC deviance R2
## Modelo_RL3 22.69953 12.69953 0.7343392
Se evidencia una mejora significativa en el AIC, en la deviance y en el R2 una mejora significativa, solo se ve en el valor Kappa una pequeña diferencia, cuando se define el modelo 1, tiene un valor kappa de 0.3966, el valor Kappa del modelo dos es de 0.5812, una vez se ajusta el modelo 2 su valor Kappa mejora a 0.6316, pero cuando se incluyen todas las variables el valor kappa del modelo 3 disminuye a 0.5812.
Conclusiones para la Compañía
Con los datos suministrados por la compañía y el análisis usando regresión logística, se evidencia la relación que existe entre la siniestralidad de sus asegurados en el último año con recepto a las variables observadas. La compañía debe tener en cuenta que los asociados con mayor riesgo de accidentalidad son los hombres, las personas con menos años de experiencia y los asociados con vehículos con una potencia del motor mayor, las personas con menor edad tiene más riesgo que las personas con mayor edad, pero no es un factor muy influyente.
Se le recomienda a la compañía que realicen campañas preventivas a las personas de sexo masculino, personas con menos experiencia en la conducción y personas con mayor potencia en sus vehículos, otra opción es aumentar la prima de estos asegurados.