En este documento, encontrará el desarrollo del Taller No. 4 del curso MÉTODOS CUANTITATIVOS PARA EL ANÁLISIS DE INFORMACIÓN del Programa Maestría en Analítica e Inteligencia de Negocios. El documento tiene los dos ejercicio propuestos y el inicio de cada ejercicio se identifica con títulos rojos.

Taller No. 4- Regresión Logística.

Predicción desempeño de discos duros SDD y HDD.

Análisis Del Problema

  1. Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.

En la gráfica anterior se puede observar los discos HDD de color rojo y los SDD de color azul, se evidencia una relación positiva con una leve diferencia entre las pendiente. Se usa la correlación de Pearson ya que las variables presentan normalidad ya que su P-Value son mayores 0.05, como se puede ver a continuación:

Shapiro-Wilk normality test: Tiempo
Test statistic P value
0.9627 0.4703
Shapiro-Wilk normality test: Carga
Test statistic P value
0.9373 0.1282

Modelo 1

  1. Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.04838 0.2632 0.1838 0.8558
Carga 0.4921 0.04177 11.78 3.177e-11
Fitting linear model: Tiempo ~ Carga
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
25 0.5837 0.8579 0.8517

En el modelo 1 se evidencia una relación entre la carga y el tiempo de respuesta como se puede ver en la tabla anterior, el coeficiente de correlación muestra que el modelo explica en un 85% la variabilidad de los datos.

En la gráfica anterior se observa un buen ajuste del modelo al ser representado con los datos, la linea naranja representa el modelo construido y los puntos azules y rojos los datos con que se construyó el modelo.

Modelo 2

  1. Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2. Recomendación. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.375 0.209 -6.581 1.62e-06
Carga 0.7198 0.03367 21.38 9.878e-16
Conf 2.264 0.2652 8.536 2.865e-08
Carga:Conf -0.3573 0.04227 -8.454 3.364e-08
Fitting linear model: Tiempo ~ Carga + Conf + (Carga * Conf)
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
25 0.2844 0.9692 0.9648

El nuevo modelo recoge más variabilidad y explica mejor el modelo, el modelo 1 explicaba un 85% mientras que el modelo 2 explica 96% mejorando en 11 puntos porcentuales, se evidencia que el intercepto, la carga, la configuración y la interacción de la carga con la configuración son significativos en el modelo por el valor en Pr(>|t|).

En la gráfica anterior los puntos negros son los datos, los puntos rojos son las predicciones del modelo 2, la línea naranja representa el modelo 1 y la línea verde representa el modelo 2, se puede ver que la diferencia entre los puntos de predicción y los puntos reales no es mucha y también se puede evidenciar que el intercepto y la pendiente del modelo 1 y el modelo 2 son diferentes y que la linea de la regresión tienen pendiente diferente.

Comparación de modelos (ANOVA)

  1. Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo.

Analysis of Variance Table
Res.Df RSS Df Sum of Sq F Pr(>F)
23 7.838 NA NA NA NA
21 1.699 2 6.139 37.94 1.067e-07

Mediante el test de ANOVA, en la tabla anterior, se compara el análisis de la varianza de los dos modelos y se evidencia mediante la prueba de hipótesis nula (p-valor) que el modelo 2 mejora al modelo 1.

Evaluación modelo 2

  1. Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.

En la gráfica anterior encontramos puntos rojos que representan los SDD, puntos azules que representan los HDD, puntos verdes que representan las perdiciones con el modelo 2 y una linea naranja que representa el modelo 2 con los cambios realizados al modelo 1. Se puede observar que los puntos verdes (perdiciones) están cercanos a los valores esperados. En la gráfica siguiente analizamos los residuos y se puede observar que la mayoría de las perdiciones son inferiores a 0,1.

## 
##  One Sample t-test
## 
## data:  residuos
## t = -0.14652, df = 24, p-value = 0.8847
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.4994321  0.4332192
## sample estimates:
##   mean of x 
## -0.03310641
## 
##  studentized Breusch-Pagan test
## 
## data:  Model_s2
## BP = 2.6825, df = 3, p-value = 0.4432
## 
##  Durbin-Watson test
## 
## data:  Model_s2
## DW = 1.3285, p-value = 0.03421
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.92407, p-value = 0.06348

Conclusión general

  1. Como conclusión general, la regresión lineal es un método fácil y simple de implementar, nos proporciona explicación de los datos y del modelo, lo que facilita su utilización. En el ejercicio se evidencia que el modelo 2 es mejor que el modelo 1 y se ajusta bien a los datos propuestos.

Caracterización de la siniestralidad de sus asegurados.

Análisis Del Problema

  1. Con herramientas del análisis exploratorio, estudie la asociación entre la siniestralidad y el conjunto de variables predictoras (Edad, Experiencia, Potencia del motor y Sexo).

##  Acc          Exp              Edad         Pot        Sexo  
##  No:20   Min.   : 1.000   Min.   :20   Min.   : 70.0   F:21  
##  Sí:15   1st Qu.: 6.500   1st Qu.:25   1st Qu.: 90.0   M:14  
##          Median : 9.000   Median :29   Median : 95.0         
##          Mean   : 9.543   Mean   :31   Mean   :101.6         
##          3rd Qu.:12.000   3rd Qu.:36   3rd Qu.:110.0         
##          Max.   :20.000   Max.   :56   Max.   :150.0
## [[1]]
## NULL
## 
## [[2]]
## NULL
## 
## [[3]]
## NULL

En la gráfica anterior se puede observar que el 57% de los registros corresponden a personas no accidentadas y el 43% a personas accidentadas, se puede presumir que la mayoría de los hombres tienen accidentes y las mujeser no, el 11% de las mujeres tiene algún accidente y el 31% de los hombres tienen algún accidente. En la relación de las variables accidentes (Acc) vs experiencia (Exp), es notorio en la gráfica que la experiencia ayuda a que no existan más accidentes. En la gráfica accidentes (Acc) vs edad (Edad) se nota un poco, que entre menor edad, mayor probabilidad de accidentes. En la última gráfica accidentes (Acc) vs potencia del motor (Pot) se puede presumir una relación que entre más potencia del motor, mayor probabilidad de que exista un accidente.

Como se puede ver en la gráfica anterior, no se evidencia una relación entre las dispersiones de las variables edad, experiencia y potencia del motor versus Accidentes.

Modelos

  1. Utilice la función glm, del software R, para ajustar los siguientes modelos de regresión logística: Modelo 1: Acc ~ Exp Modelo 2: Acc ~ Exp + genero. Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).

## 
## Call:
## glm(formula = Acc ~ Exp, family = "binomial", data = datos)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   1.9419     0.9816   1.978   0.0479 *
## Exp          -0.2456     0.1044  -2.354   0.0186 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 40.006  on 33  degrees of freedom
## AIC: 44.006
## 
## Number of Fisher Scoring iterations: 4
## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = "binomial", data = datos)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)   0.8890     1.2252   0.726  0.46808   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## SexoM         2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

Una comparación rápida de los dos modelos, es visible la mejora del modelo 2 agregando la variable Sexo, eso se puede evidenciar en los valores de la deviance y AIC, en el modelo 1 se tiene una desviance residual de 40.006 y el modelo 2 de 29.249; en el modelo 1 el AIC es de 44.006 y el AIC del modelo 2 es de 35.249.

Recordemos que el AIC se usa para predicción y la idea es que este disminuya a medida que ingresamos variables. Las deviance son métricas para ver el ajuste del modelo, deviance null distancia al modelo ideal, la deviance residual debe ser menor que cada vez más de la deviance null.

En las gráficas anteriores se puede observar la linea naranja que representa el modelo 1 y la línea azul que representa el modelo dos, la línea azul (modelo 2) se ajusta mejor a los datos, ratificando los datos presentados en el resumen anterior. q

Interpretación de los Modelos

  1. Escriba las ecuaciones de pronóstico asociadas a los 2 modelos.

##                  Coef      2.5 %      97.5 %
## (Intercept)  1.941925  0.1848551  4.13862783
## Exp         -0.245607 -0.4859059 -0.06601434
##                e-beta     2.5 %     97.5 %
## (Intercept) 6.9721601 1.2030441 62.7167043
## Exp         0.7822295 0.6151397  0.9361174

Interpretación de los coeficientes - odds y odds ratio del modelo 1

Modelo 1: B0 + B1 * Exp + u

Modelo 1: 1.94 + (-0.25 * Exp) + u

Términos de odds

Modelo 1: 6.97 + (0.78 * Exp) + u

Podemos decir que B0 (6.97) es mayor que 1 (OR > 1), por lo tanto es un factor de riesgo, el B1 (0.78) es menor que 1 (OR < 1), por lo tanto B1 es factor protector, entre más experiencia menos probabilidad de accidentes.

##                   Coef      2.5 %      97.5 %
## (Intercept)  0.8890341 -1.3776790  3.64897083
## Exp         -0.2399985 -0.5285605 -0.04017264
## SexoM        2.9865699  1.1292126  5.58840807
##                e-beta     2.5 %      97.5 %
## (Intercept)  2.432779 0.2521631  38.4350894
## Exp          0.786629 0.5894529   0.9606236
## SexoM       19.817589 3.0932200 267.3097416

Interpretación de los coeficientes - odds y odds ratio del modelo 2

Modelo 2: B0 + B1 * Exp + B2 * Sexo + u

Modelo 2: 0.88 + (-0.24 * Exp) + (2.99 * Exp) + u

Términos de odds

Modelo 2: 2.43 + (0.79 * Exp) + (19.82 * Sexo) + u

Podemos decir que B0 (2.43) es mayor que 1 (OR > 1), por lo tanto es un factor de riesgo, el B1 (0.79) es menor que 1 (OR < 1), por lo tanto B1 es factor protector, entre más experiencia menos probabilidad de accidentes y B2 (19.82) es mayor que 0, por lo tanto si se es hombre, mayor probabilidad de accidentes.

Evaluación de los Modelos

  1. A través de indicadores de bondad de ajuste (incluyendo Deviance, AIC, la curva ROC, el AUC y los test de razón de verosimilitud correspondientes), evalúe y compare el ajuste de los 2 modelos anteriores.

##          predicho
## observado No Sí
##        No 17  3
##        Sí  7  8
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Sí
##         No 17  7
##         Sí  3  8
##                                          
##                Accuracy : 0.7143         
##                  95% CI : (0.537, 0.8536)
##     No Information Rate : 0.5714         
##     P-Value [Acc > NIR] : 0.06008        
##                                          
##                   Kappa : 0.3966         
##                                          
##  Mcnemar's Test P-Value : 0.34278        
##                                          
##             Sensitivity : 0.5333         
##             Specificity : 0.8500         
##          Pos Pred Value : 0.7273         
##          Neg Pred Value : 0.7083         
##              Prevalence : 0.4286         
##          Detection Rate : 0.2286         
##    Detection Prevalence : 0.3143         
##       Balanced Accuracy : 0.6917         
##                                          
##        'Positive' Class : Sí             
## 
##          Sensitivity          Specificity       Pos Pred Value 
##            0.5333333            0.8500000            0.7272727 
##       Neg Pred Value            Precision               Recall 
##            0.7083333            0.7272727            0.5333333 
##                   F1           Prevalence       Detection Rate 
##            0.6153846            0.4285714            0.2285714 
## Detection Prevalence    Balanced Accuracy 
##            0.3142857            0.6916667
##          predicho
## observado No Sí
##        No 18  2
##        Sí  5 10
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Sí
##         No 18  5
##         Sí  2 10
##                                           
##                Accuracy : 0.8             
##                  95% CI : (0.6306, 0.9156)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.003999        
##                                           
##                   Kappa : 0.5812          
##                                           
##  Mcnemar's Test P-Value : 0.449692        
##                                           
##             Sensitivity : 0.6667          
##             Specificity : 0.9000          
##          Pos Pred Value : 0.8333          
##          Neg Pred Value : 0.7826          
##              Prevalence : 0.4286          
##          Detection Rate : 0.2857          
##    Detection Prevalence : 0.3429          
##       Balanced Accuracy : 0.7833          
##                                           
##        'Positive' Class : Sí              
## 
##          Sensitivity          Specificity       Pos Pred Value 
##            0.6666667            0.9000000            0.8333333 
##       Neg Pred Value            Precision               Recall 
##            0.7826087            0.8333333            0.6666667 
##                   F1           Prevalence       Detection Rate 
##            0.7407407            0.4285714            0.2857143 
## Detection Prevalence    Balanced Accuracy 
##            0.3428571            0.7833333

En la matriz de confusión se puede evidenciar que el modelo 2 tiene más aciertos que el modelo 1, el modelo 1 comete 3 errores más que el modelo 2. También se observa la sensibilidad, la especificidad y precisión son mejores los del modelo 2.

En las gráficas anteriores se observan las curvas ROC’s donde se explora los mejores puntos de corte para cada modelo, en el lado izquierdo tenemos el modelo 1 con un AUC de 0.798, del lado derecho tenemos el modelo 2 con un AUC de 0.868 que implica que el modelo 2 tiene un mejor AUC que el modelo 1 .

  1. Seleccione el mejor de los modelos anteriores, interprete los coeficientes estimados y valide su significancia.

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                    34     47.804            
## Exp   1   7.7977        33     40.006 0.005231 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                    34     47.804            
## Exp   1   7.7977        33     40.006 0.005231 **
## Sexo  1  10.7571        32     29.249 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como se puede observar el modelo 2 explica mejor los datos, sin modelo se tiene una desviación de 47.80, si agregamos años de experiencia la desviación es de 40.00 que corresponde al modelo 1 y cuando agregamos la variable Sexo la desviación es de 29.25 que corresponde al modelo 2.

##                 AIC deviance        R2
## Modelo_RL1 44.00583 40.00583 0.1631205
##                 AIC deviance        R2
## Modelo_RL2 35.24875 29.24875 0.3881471

El AIC muestra que el modelo 2 es mejor que el modelo 1, el AIC del modelo 1 es de 44.01 y el modelo 2 tiene un menor AIC que es de 35.25.

Ajuste del Mejor Modelos

  1. Para el modelo seleccionado en el punto v. evalúe los indicadores de bondad de clasificación (luego de identificar el mejor punto de corte).

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Sí
##         No 20  6
##         Sí  0  9
##                                           
##                Accuracy : 0.8286          
##                  95% CI : (0.6635, 0.9344)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.001202        
##                                           
##                   Kappa : 0.6316          
##                                           
##  Mcnemar's Test P-Value : 0.041227        
##                                           
##             Sensitivity : 0.6000          
##             Specificity : 1.0000          
##          Pos Pred Value : 1.0000          
##          Neg Pred Value : 0.7692          
##              Prevalence : 0.4286          
##          Detection Rate : 0.2571          
##    Detection Prevalence : 0.2571          
##       Balanced Accuracy : 0.8000          
##                                           
##        'Positive' Class : Sí              
## 
##          Sensitivity          Specificity       Pos Pred Value 
##            0.6000000            1.0000000            1.0000000 
##       Neg Pred Value            Precision               Recall 
##            0.7692308            1.0000000            0.6000000 
##                   F1           Prevalence       Detection Rate 
##            0.7500000            0.4285714            0.2571429 
## Detection Prevalence    Balanced Accuracy 
##            0.2571429            0.8000000

Como se puede ver en los valores anteriores, el modelo dos se ajusta su pc a 0.845 y los valores nuevos valores de desempeño mejoran, pasamos de un Accuracy de 0.8 a un 0.83 y además el valor kappa pasa de 0.581 a 0.63 el cual da mayor credibilidad al modelo. En la matriz de confusión la sensibilidad pasa de 0.67 a 0.60 pero la especificidad de 0.90 a 1.0 y el número de errores reduce a 1.

  1. Determine si existe una mejora significativa en el modelo seleccionado, cuando se adicionan las variables edad y potencia del motor.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Sí
##         No 18  5
##         Sí  2 10
##                                           
##                Accuracy : 0.8             
##                  95% CI : (0.6306, 0.9156)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.003999        
##                                           
##                   Kappa : 0.5812          
##                                           
##  Mcnemar's Test P-Value : 0.449692        
##                                           
##             Sensitivity : 0.6667          
##             Specificity : 0.9000          
##          Pos Pred Value : 0.8333          
##          Neg Pred Value : 0.7826          
##              Prevalence : 0.4286          
##          Detection Rate : 0.2857          
##    Detection Prevalence : 0.3429          
##       Balanced Accuracy : 0.7833          
##                                           
##        'Positive' Class : Sí              
## 
##          Sensitivity          Specificity       Pos Pred Value 
##            0.6666667            0.9000000            0.8333333 
##       Neg Pred Value            Precision               Recall 
##            0.7826087            0.8333333            0.6666667 
##                   F1           Prevalence       Detection Rate 
##            0.7407407            0.4285714            0.2857143 
## Detection Prevalence    Balanced Accuracy 
##            0.3428571            0.7833333
## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
## NULL                    34     47.804              
## Exp   1   7.7977        33     40.006  0.005231 ** 
## Sexo  1  10.7571        32     29.249  0.001039 ** 
## Edad  1   0.0082        31     29.241  0.927697    
## Pot   1  16.5410        30     12.700 4.761e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##                 AIC deviance        R2
## Modelo_RL1 44.00583 40.00583 0.1631205
##                 AIC deviance        R2
## Modelo_RL2 35.24875 29.24875 0.3881471
##                 AIC deviance        R2
## Modelo_RL3 22.69953 12.69953 0.7343392

Se evidencia una mejora significativa en el AIC, en la deviance y en el R2 una mejora significativa, solo se ve en el valor Kappa una pequeña diferencia, cuando se define el modelo 1, tiene un valor kappa de 0.3966, el valor Kappa del modelo dos es de 0.5812, una vez se ajusta el modelo 2 su valor Kappa mejora a 0.6316, pero cuando se incluyen todas las variables el valor kappa del modelo 3 disminuye a 0.5812.

Conclusiones para la Compañía

  1. Haciendo uso de sus habilidades de modelación, genera un breve reporte de sus hallazgos en el cual oriente a la compañía sobre los factores que afectan la siniestralidad.

Con los datos suministrados por la compañía y el análisis usando regresión logística, se evidencia la relación que existe entre la siniestralidad de sus asegurados en el último año con recepto a las variables observadas. La compañía debe tener en cuenta que los asociados con mayor riesgo de accidentalidad son los hombres, las personas con menos años de experiencia y los asociados con vehículos con una potencia del motor mayor, las personas con menor edad tiene más riesgo que las personas con mayor edad, pero no es un factor muy influyente.

Se le recomienda a la compañía que realicen campañas preventivas a las personas de sexo masculino, personas con menos experiencia en la conducción y personas con mayor potencia en sus vehículos, otra opción es aumentar la prima de estos asegurados.