Laboratorio

Regresión Líneal.

Con la intención de comparar el desempeño de dos clases de discos duros (0 : SSD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).

Se han realizado múltiples ensayos bajo ambas configuraciones y bajo variación de la carga del sistema. Los resultados se presentan en la tabla Discos_duros.xlsx

Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.
Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.
Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2. Recom. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos
Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo.
Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.
Concluya de forma general.

Regresión Logística.

Una compañía de seguros de automóvil desea caracterizar la siniestralidad de sus asegurados durante el último año. Para ello dispone información de una muestra aleatoria de 35 asegurados con la siguiente información (accidentes.xlsx):

    Acc :  haber tenido algún accidente en el último año (0:no; 1:sí).
    
    Exp :  años de experiencia. 
    
    Edad :  edad del conductor.
    
    Pot :  potencia del motor.
    
    Sexo :  1 (mujer), 2 (hombre).

Con herramientas del análisis exploratorio, estudie la asociación entre la siniestralidad y el conjunto de variables predictoras (Edad, Experiencia, Potencia del motor y Sexo).
Utilice la función glm, del software R, para ajustar los siguientes modelos de regresión logística:
```
Modelo 1: Acc ~ Exp

Modelo 2: Acc ~ Exp + genero 
```

Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).

Escriba las ecuaciones de pronóstico asociadas a los 2 modelos.
A través de indicadores de bondad de ajuste (incluyendo Deviance, AIC, la curva ROC, el AUC y los test de razón de verosimilitud correspondientes), evalúe y compare el ajuste de los 2 modelos anteriores.
Seleccione el mejor de los modelos anteriores, interprete los coeficientes estimados y valide su significancia.
Para el modelo seleccionado en el punto v. evalúe los indicadores de bondad de clasificación (luego de identificar el mejor punto de corte).
Determine si existe una mejora significativa en el modelo seleccionado, cuando se adicionan las variables edad y potencia del motor.
Haciendo uso de sus habilidades de modelación, genera un breve reporte de sus hallazgos en el cual oriente a la compañía sobre los factores que afectan la siniestralidad.

Entregable

Presente sus resultados en un informe sintetico (no más de 10 paginas), desarrollado en Rmarkdown. Este informe debe ser publicado en su cuenta personal del espacio Rpubs.

En el campus virtual ud debe subir dos archivos:

Archivo .txt que contiene un enlace web a su informe escrito, públicamente expuesto en Rpubs.
Script Rmarkdown con el código desarrollado para generar el informe.

Caso Discos Duros.

Estadistica descriptiva

##   Conf        Carga            Tiempo     
##  SSD:12   Min.   : 1.000   Min.   :0.300  
##  HDD:13   1st Qu.: 3.100   1st Qu.:1.500  
##           Median : 5.800   Median :3.200  
##           Mean   : 5.648   Mean   :2.828  
##           3rd Qu.: 8.000   3rd Qu.:3.900  
##           Max.   :10.200   Max.   :5.800

Variable Respuesta y Variable Predictora

## Los datos no tienen una distribución normal, se utiliza como medida de tendencia central la mediana cuyo valor es 3.2

## Los datos no tienen una distribución normal, se utiliza como medida de tendencia central la mediana cuyo valor es 5.8

Análisis de regresión lineal simple - Tiempo ~ Carga

Presentación gráfica de los datos

## 
##  Spearman's rank correlation rho
## 
## data:  Tiempo and Carga
## S = 188.72, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
##       rho 
## 0.9274163

## El test de correlación de Spearman, sugiere una fuerte correlación positiva entre las variables Tiempo y Carga, ρ = 0.93

Se utiliza el test de Spearman dado que los datos no son normales.

El valor p igual a 1 indica que no hay evidencia estadística para rechazar la hipótesis nula. La hipótesis nula es que hay una correlación positiva entre “Tiempo” y “Carga” (𝜌≥0). Dado que el valor p es muy alto, no hay evidencia suficiente para concluir que ρ sea negativo.

Primera aproximación: Formulación del modelo lineal simple

## 
## Call:
## lm(formula = Tiempo ~ Carga, data = DD)
## 
## Coefficients:
## (Intercept)        Carga  
##     0.04838      0.49214

## El modelo 1 es Tiempo = 0.0484 + 0.4921 * Carga

## Analysis of Variance Table
## 
## Response: Tiempo
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## Carga      1 47.313  47.313  138.84 3.177e-11 ***
## Residuals 23  7.838   0.341                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor F es la razón de los cuadrados medios de ‘Carga’ entre los cuadrados medios residuales. El alto valor F indica que la variabilidad explicada por el modelo es mucho mayor que la variabilidad no explicada (residual). Esto refuerza la conclusión de que ‘Carga’ es un predictor muy significativo para ‘Tiempo’.

El valor p asociado con el valor F indica la probabilidad de obtener un valor F tan extremo (o más extremo) si la hipótesis nula es verdadera (es decir, si ‘Carga’ no tiene ningún efecto sobre ‘Tiempo’). Un valor p tan bajo indica que es extremadamente improbable que la variabilidad observada se deba al azar.

El análisis de varianza muestra que la variable ‘Carga’ tiene un impacto significativo y fuerte sobre ‘Tiempo’. El modelo lineal sugiere que la variabilidad en ‘Tiempo’ se explica en gran medida por ‘Carga’, y es extremadamente improbable que esta relación observada sea debida al azar. Por lo tanto, se puede concluir con confianza que ‘Carga’ es un predictor significativo para ‘Tiempo’.

## 
## Call:
## lm(formula = Tiempo ~ Carga, data = DD)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## Carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11

Los coeficientes muestran la relación entre ‘Carga’ y ‘Tiempo’. El intercepto no es significativo (valor p = 0.856), lo que sugiere que el valor esperado de ‘Tiempo’ cuando ‘Carga’ es cero no es significativamente diferente de cero. El coeficiente para ‘Carga’ es altamente significativo (valor p= 3.18e-11), indicando una fuerte relación entre ‘Carga’ y ‘Tiempo’.

El error estándar residual indica la cantidad promedio de desviación de los puntos de datos observados respecto a los valores predichos por el modelo. Un valor de 0.5837 sugiere que las predicciones del modelo están en promedio a 0.5837 unidades del valor real, es decir están generalmente cerca de los valores observados.

El modelo tiene un buen ajuste, como lo indica el R-cuadrado múltiple de 0.8579 y el R-cuadrado ajustado de 0.8517. Esto sugiere que ‘Carga’ explica una gran proporción de la variabilidad de ‘Tiempo’.

El estadístico F y su valor p asociado indican que el modelo en su totalidad es significativo. Un valor F alto = 138.8 y un valor p extremadamente bajo (3.177e-11) sugieren que el modelo explica una cantidad significativa de la variabilidad en ’Tiempo.

Análisis de Residuos modelo 1

## La forma de embudo doble presente en los residuos sugiere que aún hay información relacionada con 'Carga' y que es posible extraer más estructura que complemente el modelo.

Variable Cualitativa - ¿Afecta el análisis considerar el tipo de disco duro?

## La mediana del Tiempo de SSD es 2.85

## La mediana del Tiempo de HDD es 3.3

## la diferencia de las medianas del Tiempo de SSD vs el Tiempo de HDD es de 0.45

## lo que equivale a un 15.79 % de la mediana del Tiempo de SSD

## La curva suavizada sobre los datos facilita la identificación de patrones o relaciones (lineales o no) que pueden estar presentes en los mismos.

Modelo con variable cuantitativa y cualitativa

## 
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = DD)
## 
## Coefficients:
##   (Intercept)          Carga        ConfHDD  Carga:ConfHDD  
##       -1.3755         0.7198         2.2639        -0.3573

## La ecuación del modelo de regresión para SSD es Tiempo = -1.3755 + 0.7198 * Carga

## La ecuación del modelo de regresión para HDD es Tiempo = 0.8884 + 0.3625 * Carga

## Analysis of Variance Table
## 
## Response: Tiempo
##            Df Sum Sq Mean Sq  F value    Pr(>F)    
## Carga       1 47.313  47.313 584.8051 < 2.2e-16 ***
## Conf        1  0.357   0.357   4.4132   0.04791 *  
## Carga:Conf  1  5.782   5.782  71.4618 3.364e-08 ***
## Residuals  21  1.699   0.081                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La variable ‘Carga’ es altamente significativa en el modelo. El valor p extremadamente pequeño (< 2.2e-16) indica que la ‘Carga’ tiene un efecto muy significativo en ‘Tiempo’. La alta F value = 584.8051 refuerza esta conclusión.

La variable ‘Conf’ es significativa en el modelo con un valor p de 0.04791, que es menor que 0.05. Esto indica que hay una diferencia significativa entre las configuraciones SSD y HDD en términos de su efecto en ‘Tiempo’.

La interacción entre ‘Carga’ y ‘Conf’ es altamente significativa. Un valor p de 3.364e-08 y una alta F value = 71.4618 indican que el efecto de ‘Carga’ en ‘Tiempo’ depende significativamente de la configuración (SSD o HDD).

Los residuos representan la variabilidad en ‘Tiempo’ que no puede explicarse por el modelo. La suma de cuadrados residual = 1.699 y la media de cuadrados residual = 0.081 son relativamente bajas, lo que sugiere que el modelo ajusta bien los datos.

Conclusión: Este análisis sugiere que tanto la carga como la configuración del disco (SSD o HDD) son importantes para predecir el tiempo de operación, y que la influencia de la carga en el tiempo varía según el tipo de disco.

## 
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = DD)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68547 -0.11333  0.06881  0.15302  0.41807 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -1.37549    0.20902  -6.581 1.62e-06 ***
## Carga          0.71979    0.03367  21.376 9.88e-16 ***
## ConfHDD        2.26391    0.26520   8.536 2.86e-08 ***
## Carga:ConfHDD -0.35734    0.04227  -8.454 3.36e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared:  0.9692, Adjusted R-squared:  0.9648 
## F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16

Los residuos son las diferencias entre los valores observados y los valores predichos por el modelo. La distribución simétrica alrededor de cero indica que el modelo está adecuadamente especificado, con valores menores y menos dispersos el modelo 2 supera al modelo 1.

Todos los coeficientes resultan significativos para el modelo considerando los resultados obtenidos para el valor p.

El error estándar residual con un valor de 0.2844 sugiere que las predicciones del modelo están en promedio a 0.2844 unidades del valor real, es decir están generalmente muy cerca de los valores observados, se tienen así menores (mejores) valores en el modelo 2 vs el modelo 1.

El modelo tiene un buen ajuste, como lo indica el R-cuadrado múltiple de 0.9692 y el R-cuadrado ajustado de 0.9648. Esto sugiere que ‘Carga’ y ‘Conf’ explican una gran proporción de la variabilidad de ‘Tiempo’, estos valores son mejores en este modelo vs el modelo 1.

El estadístico F y su valor p asociado indican que el modelo en su totalidad es significativo. Un valor F alto mas alto = 220.2 y un valor p extremadamente bajo (5.042e-16) sugieren que el modelo explica una cantidad significativa de la variabilidad en ‘Tiempo’, con esto también el modelo 2 supera al modelo 1.

Comparación de los modelos

## Analysis of Variance Table
## 
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga * Conf
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     23 7.8375                                  
## 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## La Suma de cuadrados residuales RSS, como medida de la cantidad total de variabilidad no explicada por el modelo, señala como mejor el modelo 2.

## El valor p (Pr(>F)) es muy bajo (1.067e-07), lo que indica que la diferencia entre los modelos es estadísticamente significativa.

## Esto sugiere que el Modelo 2 (que incluye la interacción entre 'Carga' y 'Conf') es significativamente mejor para explicar la variabilidad en 'Tiempo' en comparación con el Modelo 1 (que solo incluye 'Carga').

Conclusión: La adición del término de interacción (Conf) tiene un aporte significativo en la estimación del ‘Tiempo’ en comparación con el modelo sin este término.

Análisis de los residuos modelo 2

Grafica Residuos vs Ajustados: Busca Evaluar la linealidad y homocedasticidad. Los puntos deberían estar distribuidos aleatoriamente alrededor de la línea horizontal (y = 0). En este caso, parece haber una ligera tendencia curvilínea y cierta dispersión no uniforme, lo que sugiere que podría haber problemas de no linealidad o heterocedasticidad.

Grafica Q-Q de Normalidad: Busca Evaluar la normalidad de los residuos. Los puntos deberían seguir aproximadamente la línea diagonal. En el gráfico, los puntos en su mayoría siguen la línea diagonal, aunque hay algunas desviaciones, especialmente en los extremos, lo que indica ligeras desviaciones de la normalidad.

Escala-Localización: Busca Evaluar la homocedasticidad (igual varianza) de los residuos. Los puntos deberían estar distribuidos aleatoriamente alrededor de una línea horizontal. En el gráfico, hay una ligera tendencia ascendente, lo que sugiere heterocedasticidad (la varianza de los residuos aumenta con los valores ajustados).

Residuos vs Apalancamiento: Busca Identificar puntos de influencia y valores atípicos. Este gráfico muestra la influencia de cada punto de datos en el ajuste del modelo. Los puntos fuera de las líneas de Cook’s distance son potencialmente influyentes. En el gráfico, el punto etiquetado como ‘250’ parece tener un alto apalancamiento y una gran distancia de Cook, indicando que es un punto influyente que podría estar afectando significativamente el modelo.

## Distancia de Cook: En este gráfico se muestra la distancia de Cook para cada observación en el modelo de regresión. La distancia de Cook es una medida de la influencia de cada observación en los coeficientes del modelo.

## En algunas prácticas, se consideran influyentes las observaciones con una distancia de Cook mayor a 4/n, donde n es el número de observaciones. En este caso con 25 observaciones, el umbral sería aproximadamente 0.16. El gráfico señala que hay al menos dos observaciones (13 y 25) que tienen un impacto significativo en el modelo.

Pruebas sobre los residuos

## 
##  One Sample t-test
## 
## data:  residuos
## t = -0.14652, df = 24, p-value = 0.8847
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.4994321  0.4332192
## sample estimates:
##   mean of x 
## -0.03310641

Prueba t: H0: La media de los residuos es igual a cero. H1: La media de los residuos no es igual a cero.

El valor p es 0.8847. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay una diferencia significativa entre la media de los residuos y cero.

## 
##  studentized Breusch-Pagan test
## 
## data:  Model_s2
## BP = 2.6825, df = 3, p-value = 0.4432

Prueba de Breusch-Pagan: H0: No hay heterocedasticidad en los residuos. H1: Hay heterocedasticidad en los residuos.

El valor p es 0.4432. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay evidencia de heterocedasticidad en los residuos.

## 
##  Durbin-Watson test
## 
## data:  Model_s2
## DW = 1.3285, p-value = 0.03421
## alternative hypothesis: true autocorrelation is greater than 0

Prueba de Durbin-Watson: H0: No hay autocorrelación en los residuos (la autocorrelación es igual a cero). H1: Existe autocorrelación en los residuos.

El valor p es 0.03421. Dado que es menor que 0.05, hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que hay evidencia de autocorrelación positiva en los residuos.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.92407, p-value = 0.06348

Prueba de normalidad de Shapiro-Wilk: H0: Los datos siguen una distribución normal. H1: Los datos no siguen una distribución normal.

El valor p es 0.06348. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que los residuos no se desvían significativamente de una distribución normal.

## Sobre los residuos: Estos cumplen 3 de los cuatro supuestos. Los test 1,2 y 4 favorecen la confiabilidad del modelo, dado que Los residuos parecen no tener un sesgo significativo y están centrados alrededor de cero, no hay evidencia de heterocedasticidad, indicando que la varianza de los residuos es constante y los residuos parecen seguir una distribución aproximadamente normal, aunque hay ligeras desviaciones. El test 3 indica que hay evidencia de autocorrelación positiva, lo que sugiere que los residuos no son independientes y que podrían estar correlacionados. Por lo que podría ser útil revisar el modelo para considerar términos adicionales o utilizar modelos específicos para datos autocorrelacionados.

Conclusión General: Se considera que el modelo 2 es muy robusto para explicar la variable Respuesta (Tiempo) en función de la variable Predictora (Carga) y el término de interacción (Conf).

Caso Siniestralidad.

Análisis Exploratorio

Estadistica descriptiva

##  Acc          Exp              Edad         Pot            Sexo   
##  NO:20   Min.   : 1.000   Min.   :20   Min.   : 70.0   mujer :21  
##  SI:15   1st Qu.: 6.500   1st Qu.:25   1st Qu.: 90.0   hombre:14  
##          Median : 9.000   Median :29   Median : 95.0              
##          Mean   : 9.543   Mean   :31   Mean   :101.6              
##          3rd Qu.:12.000   3rd Qu.:36   3rd Qu.:110.0              
##          Max.   :20.000   Max.   :56   Max.   :150.0

## la mediana de la experiencia de los conductores es 9 años

## la mediana de la edad de los conductores es 29 años

## la mediana de la potencia de los vehiculos es 95 HP

## El 57.14 % de la población objeto de análisis no ha tenido accidentes

## El 40 % de la población objeto de análisis son hombres

Nota: Se utiliza la mediana como indicador de tendencia central, dado que no todos los datos tienen un comportamiento de distribución normal para usar su promedio.

Análisis Bivariado

Los años de Experiencia influyen de manera inversa en menores tasas de accidentalidad, para ambos sexos, pero con mayor fuerza en los hombres.

La Edad tanto de hombres como de mujeres influye de manera inversa en menores tasas de accidentalidad.

La Potencia de los vehiculos influye de manera directa en mayores tasas de accidentalidad, para ambos sexos.

Conclusión: Todas las variables tienen algún tipo de influencia (directa o inversa) en la accidentalidad.

Correlación entre las variables cuantitativas

##             Exp       Edad        Pot
## Exp   1.0000000  0.4005786 -0.3882409
## Edad  0.4005786  1.0000000 -0.2669911
## Pot  -0.3882409 -0.2669911  1.0000000

Conclusión: NO se revela una correlación significativa entre estas variables.

Modelos de Regresión Logística

Accidentalidad Ajuste Regresión Logística Simple (Modelo Acc~Exp)

## 
## Call:
## glm(formula = Acc ~ Exp, family = "binomial", data = ACCID)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   1.9419     0.9816   1.978   0.0479 *
## Exp          -0.2456     0.1044  -2.354   0.0186 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 40.006  on 33  degrees of freedom
## AIC: 44.006
## 
## Number of Fisher Scoring iterations: 4

Tanto el intercepto como el coeficiente de ‘Exp’ son estadísticamente significativos.

La Deviance residual menor que la Deviance nula sugiere que el modelo con el predictor mejora el ajuste.

Conclusión: El modelo indica que la experiencia ‘Exp’ tiene un efecto negativo significativo en la probabilidad de tener un accidente ‘Acc’, es decir a mayor experiencia menor es la probabilidad de tener un accidente.

Interpretación de los coeficientes

##                  Beta      2.5 %      97.5 %
## (Intercept)  1.941925  0.1848551  4.13862783
## Exp         -0.245607 -0.4859059 -0.06601434

##                e^Beta     2.5 %     97.5 %
## (Intercept) 6.9721601 1.2030441 62.7167043
## Exp         0.7822295 0.6151397  0.9361174

## La formulación de pronóstico es p = 1 / (1 + e ^ -(1.94 + -0.25 * Exp )

Frente al intercepto: La razón de probabilidades (odds ratio) de tener un accidente son aproximadamente 6.97 veces cuando la experiencia es cero. El intervalo de confianza (IC) para el odds ratio (1.20 a 62.72) indica que hay un alto grado de incertidumbre en esta estimación, pero es significativamente mayor que 1, lo que sugiere una alta probabilidad de accidente en ausencia de experiencia.

Frente a la Experiencia: Un odds ratio de 0.7822295 indica que con cada unidad adicional de experiencia, las odds de tener un accidente se reducen aproximadamente en un 21.77% (1 - 0.7822295 ≈ 0.2177 o 21.77%).

El intervalo de confianza para este odds ratio (0.62 a 0.94) está por debajo de 1, lo que refuerza la conclusión de que un aumento en la experiencia se asocia con una disminución en las probabilidades de tener un accidente.

Ajuste del Modelo - test razon de verosimilitud

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                    34     47.804            
## Exp   1   7.7977        33     40.006 0.005231 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##                     AIC Deviance     R2 AUC
## Mod_RL1 Acc~Exp 44.0058  40.0058 0.1631  NA

La inclusión de ‘Exp’ en el modelo mejora significativamente el ajuste comparado con el modelo nulo.

El AIC es una medida de la calidad del modelo, donde un valor más bajo indica un mejor ajuste. El valor obtenido señala un ajuste razonablemente bueno.

La deviance residual del modelo ajustado es mejor que la del modelo nulo.

El pseudo R-squared (R²) es una medida de la proporción de variación explicada por el modelo. El valor obtenido sugiere que, aunque no se explica toda la variabilidad en los accidentes, la experiencia sigue siendo un factor importante.

Conclusión: La variable ‘Exp’ proporciona una mejora significativa en el ajuste en comparación con el modelo nulo y la experiencia es un factor relevante para predecir la probabilidad de tener un accidente.

Generación de clasificaciones

##    ACCID.Acc Class_RL1
## 1         NO        NO
## 2         NO        NO
## 3         NO        SI
## 4         SI        SI
## 5         NO        NO
## 6         SI        SI
## 7         NO        NO
## 8         SI        NO
## 9         NO        NO
## 10        SI        SI
## 11        NO        NO
## 12        NO        NO
## 13        SI        NO
## 14        SI        SI
## 15        NO        NO
## 16        NO        NO
## 17        NO        NO
## 18        SI        SI
## 19        NO        NO
## 20        NO        SI
## 21        NO        SI
## 22        NO        NO
## 23        SI        SI
## 24        SI        NO
## 25        NO        NO
## 26        NO        NO
## 27        SI        SI
## 28        SI        NO
## 29        NO        NO
## 30        NO        NO
## 31        SI        NO
## 32        SI        SI
## 33        NO        NO
## 34        SI        NO
## 35        SI        NO

Evaluación de la bondad de clasificación

##          prediccion
## observado NO SI
##        NO 17  3
##        SI  7  8

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 17  7
##         SI  3  8
##                                          
##                Accuracy : 0.7143         
##                  95% CI : (0.537, 0.8536)
##     No Information Rate : 0.5714         
##     P-Value [Acc > NIR] : 0.06008        
##                                          
##                   Kappa : 0.3966         
##                                          
##  Mcnemar's Test P-Value : 0.34278        
##                                          
##             Sensitivity : 0.5333         
##             Specificity : 0.8500         
##          Pos Pred Value : 0.7273         
##          Neg Pred Value : 0.7083         
##              Prevalence : 0.4286         
##          Detection Rate : 0.2286         
##    Detection Prevalence : 0.3143         
##       Balanced Accuracy : 0.6917         
##                                          
##        'Positive' Class : SI             
##

Métricas del modelo:

Precisión general del modelo es la proporción de predicciones correctas sobre el total de predicciones. En este caso el modelo acierta el 71.43% de las veces.

Intervalo de confianza del 95% para la precisión del modelo entre 0.537 y 0.8536.

Tasa de no información es la precisión que se lograría prediciendo siempre la clase más frecuente. Si el modelo predijera siempre “NO” (que es la clase más frecuente), tendría una precisión del 57.14%.

Coeficiente kappa mide la concordancia entre las predicciones del modelo y las observaciones reales, ajustado según la prevalencia y el sesgo en las predicciones. El kappa de 0.3966 indica una concordancia moderada.

Sensibilidad es la proporción de casos positivos reales (SI) que fueron correctamente identificados por el modelo. El modelo identifica correctamente el 53.33% de los casos reales positivos.

Especificidad es la proporción de casos negativos reales (NO) que fueron correctamente identificados por el modelo. El modelo identifica correctamente el 85% de los casos reales negativos.

Valor Predictivo Positivo es la proporción de predicciones positivas (SI) que fueron correctas. El 72.73% de las predicciones positivas del modelo fueron correctas.

Valor Predictivo Negativo es la proporción de predicciones negativas (NO) que fueron correctas. El 70.83% de las predicciones negativas del modelo fueron correctas.

Métricas del modelo de clasificación

##          Sensitivity          Specificity       Pos Pred Value 
##            0.5333333            0.8500000            0.7272727 
##       Neg Pred Value            Precision               Recall 
##            0.7083333            0.7272727            0.5333333 
##                   F1           Prevalence       Detection Rate 
##            0.6153846            0.4285714            0.2285714 
## Detection Prevalence    Balanced Accuracy 
##            0.3142857            0.6916667

Valor Predictivo Positivo (Precision) mide la proporción de casos predichos como positivos que son realmente positivos. El 72.73% de las predicciones positivas son correctas.

Valor Predictivo Negativo mide la proporción de casos predichos como negativos que son realmente negativos. El 70.83% de las predicciones negativas son correctas.

Recuerdo (Recall) o Sensibilidad mide la proporción de verdaderos positivos entre todos los casos positivos reales. El modelo señala el 53,33% de los casos reales positivos

F1 Score: Es la media armónica entre precisión y recuerdo, proporcionando un balance entre ambos. Hay un 61,53% de equilibrio entre precisión y recuerdo.

Prevalencia es la proporción de casos positivos (SI) en el conjunto de datos. El 42.86% de los casos en el conjunto de datos son positivos.

Tasa de detección es la proporción de casos positivos reales (SI) que son identificados correctamente por el modelo. El modelo identifica correctamente el 22.86% de los casos positivos en relación al total de casos.

Prevalencia de detección es la proporción de todas las predicciones realizadas por el modelo que fueron clasificadas como positivas (SI). El modelo predice los casos positivos con una frecuencia del 31.43%.

Precisión balanceada es el promedio de la sensibilidad (recall) y la especificidad. Util cuando se tiene un conjunto de datos desequilibrado. El modelo tiene la capacidad del 69.17% de identificar correctamente tanto los casos positivos como los casos negativos.

Exploración del mejor punto de corte

Observación: Es posible encontrar una probabilidad menor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.

Curva ROC (Receiver Operating Characteristic)

Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)

Actualización de los Indicadores de desempeño

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 14  2
##         SI  6 13
##                                           
##                Accuracy : 0.7714          
##                  95% CI : (0.5986, 0.8958)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.01134         
##                                           
##                   Kappa : 0.5484          
##                                           
##  Mcnemar's Test P-Value : 0.28884         
##                                           
##             Sensitivity : 0.8667          
##             Specificity : 0.7000          
##          Pos Pred Value : 0.6842          
##          Neg Pred Value : 0.8750          
##              Prevalence : 0.4286          
##          Detection Rate : 0.3714          
##    Detection Prevalence : 0.5429          
##       Balanced Accuracy : 0.7833          
##                                           
##        'Positive' Class : SI              
##

##          Sensitivity          Specificity       Pos Pred Value 
##            0.8666667            0.7000000            0.6842105 
##       Neg Pred Value            Precision               Recall 
##            0.8750000            0.6842105            0.8666667 
##                   F1           Prevalence       Detection Rate 
##            0.7647059            0.4285714            0.3714286 
## Detection Prevalence    Balanced Accuracy 
##            0.5428571            0.7833333

##                           AIC Deviance     R2    AUC
## Mod_RL1 Acc~Exp Ajust 44.0058  40.0058 0.1631 0.7983

Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Sensibilidad, Valor Predictivo Negativo, Recall, F1, Tasa de detección, Prevalencia de detección y Precisión balanceada.

Se incluye el AUC como medida complementaria de desempeño del modelo.

Accidentalidad Ajuste por Regresión Logística Multiple (Modelo Acc~Exp+Sexo)

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = "binomial", data = ACCID)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)   0.8890     1.2252   0.726  0.46808   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## Sexohombre    2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

##                           AIC Deviance     R2 AUC
## Mod_RLM2 Acc~Exp+Sexo 35.2487  29.2487 0.3881  NA

Tanto el coeficiente de ‘Exp’ como el de ‘Sexohombre’ son estadísticamente significativos, ya no ocurre lo mismo con el intercepto.

La Deviance residual menor que la Deviance nula y el AIC menor sugiere que el modelo con los dos predictores mejora el ajuste.

Conclusión: Los resultados sugieren que tanto la experiencia como el sexo son predictores significativos de la probabilidad de tener un accidente, con la experiencia disminuyendo esa probabilidad y el ser hombre aumentándola.

Interpretación de los coeficientes

##                   Beta      2.5 %      97.5 %
## (Intercept)  0.8890341 -1.3776790  3.64897083
## Exp         -0.2399985 -0.5285605 -0.04017264
## Sexohombre   2.9865699  1.1292126  5.58840807

##                e^Beta     2.5 %      97.5 %
## (Intercept)  2.432779 0.2521631  38.4350894
## Exp          0.786629 0.5894529   0.9606236
## Sexohombre  19.817589 3.0932200 267.3097416

## La formulación de pronóstico es p = 1 / (1 + e ^ -(0.89 + -0.24 * Exp + 2.99 * Sexo )

Frente al intercepto: Dado que no es significativo, no se puede concluir que haya un efecto significativo en las log-odds de tener un accidente cuando ‘Exp’ sea 0 y ‘Sexo’ sea mujer.

Frente a la Experiencia: Es significativo y tiene un efecto protector contra los accidentes, es decir más experiencia reduce la probabilidad de tener un accidente.

Frente al Sexo: Es significativo y muestra que ser hombre aumenta considerablemente la probabilidad de tener un accidente en comparación con ser mujer.

Conclusión: Los resultados sugieren que la experiencia reduce el riesgo de accidentes, mientras que el sexo masculino lo aumenta significativamente.

Ajuste del Modelo - test razon de verosimilitud

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo - 1, family = "binomial", data = ACCID)
## 
## Coefficients:
##            Estimate Std. Error z value Pr(>|z|)  
## Exp         -0.2400     0.1176  -2.040   0.0413 *
## Sexomujer    0.8890     1.2252   0.726   0.4681  
## Sexohombre   3.8756     1.6936   2.288   0.0221 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 48.520  on 35  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp + Sexo - 1
## Model 2: Acc ~ Exp + Sexo
##   Resid. Df Resid. Dev Df    Deviance Pr(>Chi)
## 1        32     29.249                        
## 2        32     29.249  0 -3.5527e-15

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp + Sexo
## Model 2: Acc ~ Exp
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
## 1        32     29.249                        
## 2        33     40.006 -1  -10.757 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##                                   AIC Deviance     R2 AUC
## Mod_RLM2 Acc~Exp+Sexo -Intcpt 35.2487  29.2487 0.3972  NA

Comparación entre Acc ~ Exp + Sexo - 1 y Acc ~ Exp + Sexo: No hay una diferencia significativa en términos de devianza, por lo que incluir o excluir el intercepto no afecta significativamente el ajuste del modelo.

Comparación entre Acc ~ Exp + Sexo y Acc ~ Exp: Incluir la variable Sexo mejora significativamente el ajuste del modelo, como lo indica la reducción significativa en devianza residual y el valor de p correspondiente.

Conclusión: el modelo Acc ~ Exp + Sexo es significativamente mejor que Acc ~ Exp, y no hay una diferencia significativa entre este primer modelo con y sin intercepto.

Generación de clasificaciones

##    ACCID.Acc Class_RL2
## 1         NO        NO
## 2         NO        NO
## 3         NO        NO
## 4         SI        SI
## 5         NO        NO
## 6         SI        SI
## 7         NO        NO
## 8         SI        NO
## 9         NO        NO
## 10        SI        SI
## 11        NO        NO
## 12        NO        NO
## 13        SI        SI
## 14        SI        SI
## 15        NO        SI
## 16        NO        SI
## 17        NO        NO
## 18        SI        SI
## 19        NO        NO
## 20        NO        NO
## 21        NO        NO
## 22        NO        NO
## 23        SI        SI
## 24        SI        NO
## 25        NO        NO
## 26        NO        NO
## 27        SI        SI
## 28        SI        NO
## 29        NO        NO
## 30        NO        NO
## 31        SI        SI
## 32        SI        SI
## 33        NO        NO
## 34        SI        NO
## 35        SI        NO

Evaluación de la bondad de clasificación

##          prediccion
## observado NO SI
##        NO 18  2
##        SI  5 10

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 18  5
##         SI  2 10
##                                           
##                Accuracy : 0.8             
##                  95% CI : (0.6306, 0.9156)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.003999        
##                                           
##                   Kappa : 0.5812          
##                                           
##  Mcnemar's Test P-Value : 0.449692        
##                                           
##             Sensitivity : 0.6667          
##             Specificity : 0.9000          
##          Pos Pred Value : 0.8333          
##          Neg Pred Value : 0.7826          
##              Prevalence : 0.4286          
##          Detection Rate : 0.2857          
##    Detection Prevalence : 0.3429          
##       Balanced Accuracy : 0.7833          
##                                           
##        'Positive' Class : SI              
##

Métricas del modelo:

Precisión general del modelo mejora al pasar del 71.43% al 80%.

Intervalo de confianza del 95% para la precisión del modelo entre 0.6306 y 0.9156.

Tasa de no información igual 57.14%.

Coeficiente kappa mejora de 0.3966 a 0.58 indicando una mejor concordancia.

Sensibilidad mejora del 53.33% a 66.67%.

Especificidad mejora del 85% al 90%.

Valor Predictivo Positivo mejora del 72.73% al 83.33%.

Valor Predictivo Negativo mejora del 70.83% al 78.26%.

Métricas del modelo de clasificación

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6666667            0.9000000            0.8333333 
##       Neg Pred Value            Precision               Recall 
##            0.7826087            0.8333333            0.6666667 
##                   F1           Prevalence       Detection Rate 
##            0.7407407            0.4285714            0.2857143 
## Detection Prevalence    Balanced Accuracy 
##            0.3428571            0.7833333

F1 Score mejora del 61,53% al 74.07%

Prevalencia igual 42.86%.

Tasa de detección mejora del 22.86% al 28.57%.

Prevalencia de detección mejora del 31.43% al 34.28%.

Precisión balanceada mejora del 69.17% al 78.33%.

Exploración del mejor punto de corte

Observación: Es posible encontrar una probabilidad mayor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.

Curva ROC2 (Receiver Operating Characteristic)

Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)

Actualización de los Indicadores de desempeño

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 20  6
##         SI  0  9
##                                           
##                Accuracy : 0.8286          
##                  95% CI : (0.6635, 0.9344)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.001202        
##                                           
##                   Kappa : 0.6316          
##                                           
##  Mcnemar's Test P-Value : 0.041227        
##                                           
##             Sensitivity : 0.6000          
##             Specificity : 1.0000          
##          Pos Pred Value : 1.0000          
##          Neg Pred Value : 0.7692          
##              Prevalence : 0.4286          
##          Detection Rate : 0.2571          
##    Detection Prevalence : 0.2571          
##       Balanced Accuracy : 0.8000          
##                                           
##        'Positive' Class : SI              
##

##          Sensitivity          Specificity       Pos Pred Value 
##            0.6000000            1.0000000            1.0000000 
##       Neg Pred Value            Precision               Recall 
##            0.7692308            1.0000000            0.6000000 
##                   F1           Prevalence       Detection Rate 
##            0.7500000            0.4285714            0.2571429 
## Detection Prevalence    Balanced Accuracy 
##            0.2571429            0.8000000

##                                 AIC Deviance     R2    AUC
## Mod_RLM2 Acc~Exp+Sexo Ajust 35.2487  29.2487 0.3881 0.8683

Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Valor Predictivo Positivo, F1 y Precisión balanceada.

Se mejora valor obtenido de AUC del 79.83 al 86.83% al comparar el modelo Acc~Exp Ajustado y el modelo Acc~Exp+Sexo Ajustado

Comparación de los modelos

##                                   AIC Deviance     R2    AUC
## Mod_RL1 Acc~Exp               44.0058  40.0058 0.1631     NA
## Mod_RL1 Acc~Exp Ajust         44.0058  40.0058 0.1631 0.7983
## Mod_RLM2 Acc~Exp+Sexo         35.2487  29.2487 0.3881     NA
## Mod_RLM2 Acc~Exp+Sexo -Intcpt 35.2487  29.2487 0.3972     NA
## Mod_RLM2 Acc~Exp+Sexo Ajust   35.2487  29.2487 0.3881 0.8683

Conclusión: El modelo ajustado Acc~Exp+Sexo tiene mejores indicadores y es mejor que el modelo ajustado Acc~Exp, lo que indica que la inclusión de las variables Experiencia y Sexo favorecen el desempeño de este modelo. Este desempeño se ilustra en la matriz de confusión con la tasa favorable en las predicciones SI y NO y un mejor desempeño en la reducción de falsos positivos.

Accidentalidad Ajuste por Regresión Logística Multiple (Modelo Acc~Exp+Sexo+Edad+Pot)

Modelo Acc~Exp+Sexo+Edad+Pot

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = "binomial", 
##     data = ACCID)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -19.97398    9.23723  -2.162   0.0306 *
## Exp          -0.47952    0.33645  -1.425   0.1541  
## Sexohombre    3.04940    2.36426   1.290   0.1971  
## Edad         -0.02585    0.08801  -0.294   0.7689  
## Pot           0.24687    0.10715   2.304   0.0212 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 12.700  on 30  degrees of freedom
## AIC: 22.7
## 
## Number of Fisher Scoring iterations: 8

##                                    AIC Deviance     R2 AUC
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot 22.6995  12.6995 0.7343  NA

Este modelo indica que el intercepto tiene significancia estadística y que de las variables consideradas, Potencia es la única que tiene un efecto significativo sobre la probabilidad de Accidentalidad.

Este resultado parece estar en contravia de los obtenidos en el modelo anterior. Por ello se somete a revisión mediante la prueba de deviance

Coeficientes

##                     Beta        2.5 %      97.5 %
## (Intercept) -19.97398421 -44.55489306 -6.24675673
## Exp          -0.47951530  -1.63951853 -0.03090677
## Sexohombre    3.04939739  -0.80469815 10.01516449
## Edad         -0.02585311  -0.20105427  0.17672312
## Pot           0.24687078   0.08925198  0.52435855

##                   e^Beta        2.5 %       97.5 %
## (Intercept) 2.115480e-09 4.467410e-20 1.936725e-03
## Exp         6.190834e-01 1.940735e-01 9.695660e-01
## Sexohombre  2.110262e+01 4.472229e-01 2.236303e+04
## Edad        9.744782e-01 8.178680e-01 1.193301e+00
## Pot         1.280014e+00 1.093356e+00 1.689375e+00

## La formulación de pronóstico es p = 1 / (1 + e ^ -(-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )

Ajuste del Modelo - test razon de verosimilitud

## 
## Call:
## glm(formula = Acc ~ Pot, family = "binomial", data = ACCID)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) -20.6246     7.2149  -2.859  0.00425 **
## Pot           0.2074     0.0753   2.754  0.00589 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 21.804  on 33  degrees of freedom
## AIC: 25.804
## 
## Number of Fisher Scoring iterations: 7

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Pot
## Model 2: Acc ~ Exp + Sexo + Edad + Pot
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
## 1        33     21.804                       
## 2        30     12.700  3   9.1047  0.02793 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##                      AIC Deviance     R2 AUC
## Mod_RLM4 Acc~Pot 35.2487  29.2487 0.3972  NA

La comparación de los modelos mediante la prueba de devianza muestra que el Modelo 2 (Acc ~ Exp + Sexo + Edad + Pot) proporciona un ajuste significativamente mejor que el Modelo 1 (Acc ~ Pot). Esto se debe a que la diferencia en devianza (9.1047) es estadísticamente significativa (p = 0.02793), lo que sugiere que las variables adicionales Exp, Sexo y Edad mejoran significativamente el modelo.

Conclusión: Incluir Exp, Sexo y Edad junto con Pot, hace que el modelo tenga una mejor capacidad predictiva o explicativa de la variable dependiente Acc en comparación con el modelo que solo incluye Pot.

Generación de clasificaciones

##    ACCID.Acc Class_RLM3
## 1         NO         NO
## 2         NO         NO
## 3         NO         NO
## 4         SI         SI
## 5         NO         NO
## 6         SI         SI
## 7         NO         NO
## 8         SI         SI
## 9         NO         NO
## 10        SI         SI
## 11        NO         NO
## 12        NO         NO
## 13        SI         SI
## 14        SI         SI
## 15        NO         NO
## 16        NO         NO
## 17        NO         NO
## 18        SI         SI
## 19        NO         NO
## 20        NO         NO
## 21        NO         NO
## 22        NO         NO
## 23        SI         SI
## 24        SI         SI
## 25        NO         NO
## 26        NO         SI
## 27        SI         SI
## 28        SI         SI
## 29        NO         NO
## 30        NO         NO
## 31        SI         SI
## 32        SI         SI
## 33        NO         NO
## 34        SI         NO
## 35        SI         NO

Evaluación de la bondad de clasificación

##          prediccion
## observado NO SI
##        NO 19  1
##        SI  2 13

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 19  2
##         SI  1 13
##                                          
##                Accuracy : 0.9143         
##                  95% CI : (0.7694, 0.982)
##     No Information Rate : 0.5714         
##     P-Value [Acc > NIR] : 9.733e-06      
##                                          
##                   Kappa : 0.8235         
##                                          
##  Mcnemar's Test P-Value : 1              
##                                          
##             Sensitivity : 0.8667         
##             Specificity : 0.9500         
##          Pos Pred Value : 0.9286         
##          Neg Pred Value : 0.9048         
##              Prevalence : 0.4286         
##          Detection Rate : 0.3714         
##    Detection Prevalence : 0.4000         
##       Balanced Accuracy : 0.9083         
##                                          
##        'Positive' Class : SI             
##

Métricas del modelo:

Precisión general del modelo mejora al pasar del 80% al 91.43%.

Intervalo de confianza del 95% para la precisión del modelo entre 0.7694 y 0.9820.

Tasa de no información igual 57.14%.

Coeficiente kappa mejora de 0.58 a 0.8235 indicando una mejor concordancia.

Sensibilidad mejora del 66.67% a 86.67%.

Especificidad mejora del 90% al 95%.

Valor Predictivo Positivo mejora del 83.33% al 92.86%.

Valor Predictivo Negativo mejora del 78.26% al 90.48%.

Métricas del modelo de clasificación

##          Sensitivity          Specificity       Pos Pred Value 
##            0.8666667            0.9500000            0.9285714 
##       Neg Pred Value            Precision               Recall 
##            0.9047619            0.9285714            0.8666667 
##                   F1           Prevalence       Detection Rate 
##            0.8965517            0.4285714            0.3714286 
## Detection Prevalence    Balanced Accuracy 
##            0.4000000            0.9083333

F1 Score mejora del 74.07% al 89.65%

Prevalencia igual 42.86%.

Tasa de detección mejora del 28.57% al 37.14%.

Prevalencia de detección mejora del 34.28% al 40%.

Precisión balanceada mejora del 78.33% al 90.83%.

Exploración del mejor punto de corte

Observación: Es posible encontrar una probabilidad menor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.

Curva ROC3 (Receiver Operating Characteristic)

Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)

Actualización de los Indicadores de desempeño

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction NO SI
##         NO 19  1
##         SI  1 14
##                                          
##                Accuracy : 0.9429         
##                  95% CI : (0.8084, 0.993)
##     No Information Rate : 0.5714         
##     P-Value [Acc > NIR] : 1.128e-06      
##                                          
##                   Kappa : 0.8833         
##                                          
##  Mcnemar's Test P-Value : 1              
##                                          
##             Sensitivity : 0.9333         
##             Specificity : 0.9500         
##          Pos Pred Value : 0.9333         
##          Neg Pred Value : 0.9500         
##              Prevalence : 0.4286         
##          Detection Rate : 0.4000         
##    Detection Prevalence : 0.4286         
##       Balanced Accuracy : 0.9417         
##                                          
##        'Positive' Class : SI             
##

##          Sensitivity          Specificity       Pos Pred Value 
##            0.9333333            0.9500000            0.9333333 
##       Neg Pred Value            Precision               Recall 
##            0.9500000            0.9333333            0.9333333 
##                   F1           Prevalence       Detection Rate 
##            0.9333333            0.4285714            0.4000000 
## Detection Prevalence    Balanced Accuracy 
##            0.4285714            0.9416667

##                                          AIC Deviance     R2    AUC
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot Ajust 22.6995  12.6995 0.7343 0.9667

Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Sensitividad, Valor Predictivo Negativo, F1, tasa de detección, detección de prevalencia y Precisión balanceada.

Se mejora valor obtenido de AUC del 86.83 al 96.67% al comparar el modelo Acc~Exp+Sexo Ajustado vs el modelo Acc~Exp+Sexo+Edad+Pot Ajustado

Reporte a la compañía caso Siniestralidad

Mejor modelo Hallado: Acc~Exp+Sexo+Edad+Pot

Formulación

## La Ecuación predictiva es p = 1 / (1 + e ^ -(-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )

## La Ecuación Interpretativa es Odds = p / (1-p) = e ^ (-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )

## La Ecuación Linealizada es ln(Odds) = ln (p / (1-p)) = (-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )

Comparación de todos los modelos

##                                          AIC Deviance     R2    AUC
## Mod_RL1 Acc~Exp                      44.0058  40.0058 0.1631     NA
## Mod_RL1 Acc~Exp Ajust                44.0058  40.0058 0.1631 0.7983
## Mod_RLM2 Acc~Exp+Sexo                35.2487  29.2487 0.3881     NA
## Mod_RLM2 Acc~Exp+Sexo -Intcpt        35.2487  29.2487 0.3972     NA
## Mod_RLM2 Acc~Exp+Sexo Ajust          35.2487  29.2487 0.3881 0.8683
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot       22.6995  12.6995 0.7343     NA
## Mod_RLM4 Acc~Pot                     35.2487  29.2487 0.3972     NA
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot Ajust 22.6995  12.6995 0.7343 0.9667

Matriz de confusión ajustada del modelo Acc~Exp+Sexo+Edad+Pot

##          prediccion
## observado NO SI
##        NO 19  1
##        SI  1 14

Conclusión: El mejor modelo encontrado corresponde al modelo ajustado Acc~Exp+Sexo+Edad+Pot que tiene los mejores indicadores de desempeño y es mejor que el modelo ajustado Acc~Exp+Sexo, lo que indica que la integración de todas las variables (Experiencia, Sexo, Edad y Potencia del vehiculo) favorece su dinámica. Este desempeño se ilustra en la matriz de confusión con la tasa favorable en las predicciones (SI y NO) y mejores resultados en la reducción de falsos positivos.

Métodos Cuantitativos para el Análisis de la Información

Laboratorio No. 4 (Regresión Líneal y Regresión Logística)

Néstor E. Niño Herrera

2024-06-15

Laboratorio

Regresión Líneal.

Regresión Logística.

Entregable

Caso Discos Duros.

Estadistica descriptiva

Variable Respuesta y Variable Predictora

Análisis de regresión lineal simple - Tiempo ~ Carga

Presentación gráfica de los datos

Primera aproximación: Formulación del modelo lineal simple

Análisis de Residuos modelo 1

Variable Cualitativa - ¿Afecta el análisis considerar el tipo de disco duro?

Modelo con variable cuantitativa y cualitativa

Comparación de los modelos

Análisis de los residuos modelo 2

Pruebas sobre los residuos

Caso Siniestralidad.

Análisis Exploratorio

Estadistica descriptiva

Análisis Bivariado

Correlación entre las variables cuantitativas

Modelos de Regresión Logística

Accidentalidad Ajuste Regresión Logística Simple (Modelo Acc~Exp)

Interpretación de los coeficientes

Ajuste del Modelo - test razon de verosimilitud

Generación de clasificaciones

Evaluación de la bondad de clasificación

Métricas del modelo de clasificación

Exploración del mejor punto de corte

Curva ROC (Receiver Operating Characteristic)

Actualización de los Indicadores de desempeño

Accidentalidad Ajuste por Regresión Logística Multiple (Modelo Acc~Exp+Sexo)

Interpretación de los coeficientes

Ajuste del Modelo - test razon de verosimilitud

Generación de clasificaciones

Evaluación de la bondad de clasificación

Métricas del modelo de clasificación

Exploración del mejor punto de corte

Curva ROC2 (Receiver Operating Characteristic)

Actualización de los Indicadores de desempeño

Comparación de los modelos

Accidentalidad Ajuste por Regresión Logística Multiple (Modelo Acc~Exp+Sexo+Edad+Pot)

Modelo Acc~Exp+Sexo+Edad+Pot

Coeficientes

Ajuste del Modelo - test razon de verosimilitud

Generación de clasificaciones

Evaluación de la bondad de clasificación

Métricas del modelo de clasificación

Exploración del mejor punto de corte

Curva ROC3 (Receiver Operating Characteristic)

Actualización de los Indicadores de desempeño

Reporte a la compañía caso Siniestralidad

Mejor modelo Hallado: Acc~Exp+Sexo+Edad+Pot

Formulación

Comparación de todos los modelos

Matriz de confusión ajustada del modelo Acc~Exp+Sexo+Edad+Pot