Con la intención de comparar el desempeño de dos clases de discos duros (0 : SSD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).
Se han realizado múltiples ensayos bajo ambas configuraciones y bajo variación de la carga del sistema. Los resultados se presentan en la tabla Discos_duros.xlsx
Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.
Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.
Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2. Recom. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos
Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo.
Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.
Concluya de forma general.
Una compañía de seguros de automóvil desea caracterizar la siniestralidad de sus asegurados durante el último año. Para ello dispone información de una muestra aleatoria de 35 asegurados con la siguiente información (accidentes.xlsx):
Acc : haber tenido algún accidente en el último año (0:no; 1:sí).
Exp : años de experiencia.
Edad : edad del conductor.
Pot : potencia del motor.
Sexo : 1 (mujer), 2 (hombre).
Con herramientas del análisis exploratorio, estudie la asociación entre la siniestralidad y el conjunto de variables predictoras (Edad, Experiencia, Potencia del motor y Sexo).
Utilice la función glm, del software R, para ajustar los siguientes modelos de regresión logística:
Modelo 1: Acc ~ Exp
Modelo 2: Acc ~ Exp + genero Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).
Escriba las ecuaciones de pronóstico asociadas a los 2 modelos.
A través de indicadores de bondad de ajuste (incluyendo Deviance, AIC, la curva ROC, el AUC y los test de razón de verosimilitud correspondientes), evalúe y compare el ajuste de los 2 modelos anteriores.
Seleccione el mejor de los modelos anteriores, interprete los coeficientes estimados y valide su significancia.
Para el modelo seleccionado en el punto v. evalúe los indicadores de bondad de clasificación (luego de identificar el mejor punto de corte).
Determine si existe una mejora significativa en el modelo seleccionado, cuando se adicionan las variables edad y potencia del motor.
Haciendo uso de sus habilidades de modelación, genera un breve reporte de sus hallazgos en el cual oriente a la compañía sobre los factores que afectan la siniestralidad.
Presente sus resultados en un informe sintetico (no más de 10 paginas), desarrollado en Rmarkdown. Este informe debe ser publicado en su cuenta personal del espacio Rpubs.
En el campus virtual ud debe subir dos archivos:
Archivo .txt que contiene un enlace web a su informe escrito, públicamente expuesto en Rpubs.
Script Rmarkdown con el código desarrollado para generar el informe.
## Conf Carga Tiempo
## SSD:12 Min. : 1.000 Min. :0.300
## HDD:13 1st Qu.: 3.100 1st Qu.:1.500
## Median : 5.800 Median :3.200
## Mean : 5.648 Mean :2.828
## 3rd Qu.: 8.000 3rd Qu.:3.900
## Max. :10.200 Max. :5.800
## Los datos no tienen una distribución normal, se utiliza como medida de tendencia central la mediana cuyo valor es 3.2
## Los datos no tienen una distribución normal, se utiliza como medida de tendencia central la mediana cuyo valor es 5.8
##
## Spearman's rank correlation rho
##
## data: Tiempo and Carga
## S = 188.72, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
## rho
## 0.9274163
## El test de correlación de Spearman, sugiere una fuerte correlación positiva entre las variables Tiempo y Carga, ρ = 0.93
Se utiliza el test de Spearman dado que los datos no son normales.
El valor p igual a 1 indica que no hay evidencia estadística para rechazar la hipótesis nula. La hipótesis nula es que hay una correlación positiva entre “Tiempo” y “Carga” (𝜌≥0). Dado que el valor p es muy alto, no hay evidencia suficiente para concluir que ρ sea negativo.
##
## Call:
## lm(formula = Tiempo ~ Carga, data = DD)
##
## Coefficients:
## (Intercept) Carga
## 0.04838 0.49214
## El modelo 1 es Tiempo = 0.0484 + 0.4921 * Carga
## Analysis of Variance Table
##
## Response: Tiempo
## Df Sum Sq Mean Sq F value Pr(>F)
## Carga 1 47.313 47.313 138.84 3.177e-11 ***
## Residuals 23 7.838 0.341
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor F es la razón de los cuadrados medios de ‘Carga’ entre los cuadrados medios residuales. El alto valor F indica que la variabilidad explicada por el modelo es mucho mayor que la variabilidad no explicada (residual). Esto refuerza la conclusión de que ‘Carga’ es un predictor muy significativo para ‘Tiempo’.
El valor p asociado con el valor F indica la probabilidad de obtener un valor F tan extremo (o más extremo) si la hipótesis nula es verdadera (es decir, si ‘Carga’ no tiene ningún efecto sobre ‘Tiempo’). Un valor p tan bajo indica que es extremadamente improbable que la variabilidad observada se deba al azar.
El análisis de varianza muestra que la variable ‘Carga’ tiene un impacto significativo y fuerte sobre ‘Tiempo’. El modelo lineal sugiere que la variabilidad en ‘Tiempo’ se explica en gran medida por ‘Carga’, y es extremadamente improbable que esta relación observada sea debida al azar. Por lo tanto, se puede concluir con confianza que ‘Carga’ es un predictor significativo para ‘Tiempo’.
##
## Call:
## lm(formula = Tiempo ~ Carga, data = DD)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16824 -0.40281 -0.03945 0.43541 1.07627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04838 0.26321 0.184 0.856
## Carga 0.49214 0.04177 11.783 3.18e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
## F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
Los coeficientes muestran la relación entre ‘Carga’ y ‘Tiempo’. El intercepto no es significativo (valor p = 0.856), lo que sugiere que el valor esperado de ‘Tiempo’ cuando ‘Carga’ es cero no es significativamente diferente de cero. El coeficiente para ‘Carga’ es altamente significativo (valor p= 3.18e-11), indicando una fuerte relación entre ‘Carga’ y ‘Tiempo’.
El error estándar residual indica la cantidad promedio de desviación de los puntos de datos observados respecto a los valores predichos por el modelo. Un valor de 0.5837 sugiere que las predicciones del modelo están en promedio a 0.5837 unidades del valor real, es decir están generalmente cerca de los valores observados.
El modelo tiene un buen ajuste, como lo indica el R-cuadrado múltiple de 0.8579 y el R-cuadrado ajustado de 0.8517. Esto sugiere que ‘Carga’ explica una gran proporción de la variabilidad de ‘Tiempo’.
El estadístico F y su valor p asociado indican que el modelo en su totalidad es significativo. Un valor F alto = 138.8 y un valor p extremadamente bajo (3.177e-11) sugieren que el modelo explica una cantidad significativa de la variabilidad en ’Tiempo.
## La forma de embudo doble presente en los residuos sugiere que aún hay información relacionada con 'Carga' y que es posible extraer más estructura que complemente el modelo.
## La mediana del Tiempo de SSD es 2.85
## La mediana del Tiempo de HDD es 3.3
## la diferencia de las medianas del Tiempo de SSD vs el Tiempo de HDD es de 0.45
## lo que equivale a un 15.79 % de la mediana del Tiempo de SSD
## La curva suavizada sobre los datos facilita la identificación de patrones o relaciones (lineales o no) que pueden estar presentes en los mismos.
##
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = DD)
##
## Coefficients:
## (Intercept) Carga ConfHDD Carga:ConfHDD
## -1.3755 0.7198 2.2639 -0.3573
## La ecuación del modelo de regresión para SSD es Tiempo = -1.3755 + 0.7198 * Carga
## La ecuación del modelo de regresión para HDD es Tiempo = 0.8884 + 0.3625 * Carga
## Analysis of Variance Table
##
## Response: Tiempo
## Df Sum Sq Mean Sq F value Pr(>F)
## Carga 1 47.313 47.313 584.8051 < 2.2e-16 ***
## Conf 1 0.357 0.357 4.4132 0.04791 *
## Carga:Conf 1 5.782 5.782 71.4618 3.364e-08 ***
## Residuals 21 1.699 0.081
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La variable ‘Carga’ es altamente significativa en el modelo. El valor p extremadamente pequeño (< 2.2e-16) indica que la ‘Carga’ tiene un efecto muy significativo en ‘Tiempo’. La alta F value = 584.8051 refuerza esta conclusión.
La variable ‘Conf’ es significativa en el modelo con un valor p de 0.04791, que es menor que 0.05. Esto indica que hay una diferencia significativa entre las configuraciones SSD y HDD en términos de su efecto en ‘Tiempo’.
La interacción entre ‘Carga’ y ‘Conf’ es altamente significativa. Un valor p de 3.364e-08 y una alta F value = 71.4618 indican que el efecto de ‘Carga’ en ‘Tiempo’ depende significativamente de la configuración (SSD o HDD).
Los residuos representan la variabilidad en ‘Tiempo’ que no puede explicarse por el modelo. La suma de cuadrados residual = 1.699 y la media de cuadrados residual = 0.081 son relativamente bajas, lo que sugiere que el modelo ajusta bien los datos.
Conclusión: Este análisis sugiere que tanto la carga como la configuración del disco (SSD o HDD) son importantes para predecir el tiempo de operación, y que la influencia de la carga en el tiempo varía según el tipo de disco.
##
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = DD)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.68547 -0.11333 0.06881 0.15302 0.41807
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.37549 0.20902 -6.581 1.62e-06 ***
## Carga 0.71979 0.03367 21.376 9.88e-16 ***
## ConfHDD 2.26391 0.26520 8.536 2.86e-08 ***
## Carga:ConfHDD -0.35734 0.04227 -8.454 3.36e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared: 0.9692, Adjusted R-squared: 0.9648
## F-statistic: 220.2 on 3 and 21 DF, p-value: 5.042e-16
Los residuos son las diferencias entre los valores observados y los valores predichos por el modelo. La distribución simétrica alrededor de cero indica que el modelo está adecuadamente especificado, con valores menores y menos dispersos el modelo 2 supera al modelo 1.
Todos los coeficientes resultan significativos para el modelo considerando los resultados obtenidos para el valor p.
El error estándar residual con un valor de 0.2844 sugiere que las predicciones del modelo están en promedio a 0.2844 unidades del valor real, es decir están generalmente muy cerca de los valores observados, se tienen así menores (mejores) valores en el modelo 2 vs el modelo 1.
El modelo tiene un buen ajuste, como lo indica el R-cuadrado múltiple de 0.9692 y el R-cuadrado ajustado de 0.9648. Esto sugiere que ‘Carga’ y ‘Conf’ explican una gran proporción de la variabilidad de ‘Tiempo’, estos valores son mejores en este modelo vs el modelo 1.
El estadístico F y su valor p asociado indican que el modelo en su totalidad es significativo. Un valor F alto mas alto = 220.2 y un valor p extremadamente bajo (5.042e-16) sugieren que el modelo explica una cantidad significativa de la variabilidad en ‘Tiempo’, con esto también el modelo 2 supera al modelo 1.
## Analysis of Variance Table
##
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga * Conf
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 23 7.8375
## 2 21 1.6990 2 6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## La Suma de cuadrados residuales RSS, como medida de la cantidad total de variabilidad no explicada por el modelo, señala como mejor el modelo 2.
## El valor p (Pr(>F)) es muy bajo (1.067e-07), lo que indica que la diferencia entre los modelos es estadísticamente significativa.
## Esto sugiere que el Modelo 2 (que incluye la interacción entre 'Carga' y 'Conf') es significativamente mejor para explicar la variabilidad en 'Tiempo' en comparación con el Modelo 1 (que solo incluye 'Carga').
Conclusión: La adición del término de interacción (Conf) tiene un aporte significativo en la estimación del ‘Tiempo’ en comparación con el modelo sin este término.
Grafica Residuos vs Ajustados: Busca Evaluar la linealidad y homocedasticidad. Los puntos deberían estar distribuidos aleatoriamente alrededor de la línea horizontal (y = 0). En este caso, parece haber una ligera tendencia curvilínea y cierta dispersión no uniforme, lo que sugiere que podría haber problemas de no linealidad o heterocedasticidad.
Grafica Q-Q de Normalidad: Busca Evaluar la normalidad de los residuos. Los puntos deberían seguir aproximadamente la línea diagonal. En el gráfico, los puntos en su mayoría siguen la línea diagonal, aunque hay algunas desviaciones, especialmente en los extremos, lo que indica ligeras desviaciones de la normalidad.
Escala-Localización: Busca Evaluar la homocedasticidad (igual varianza) de los residuos. Los puntos deberían estar distribuidos aleatoriamente alrededor de una línea horizontal. En el gráfico, hay una ligera tendencia ascendente, lo que sugiere heterocedasticidad (la varianza de los residuos aumenta con los valores ajustados).
Residuos vs Apalancamiento: Busca Identificar puntos de influencia y valores atípicos. Este gráfico muestra la influencia de cada punto de datos en el ajuste del modelo. Los puntos fuera de las líneas de Cook’s distance son potencialmente influyentes. En el gráfico, el punto etiquetado como ‘250’ parece tener un alto apalancamiento y una gran distancia de Cook, indicando que es un punto influyente que podría estar afectando significativamente el modelo.
## Distancia de Cook: En este gráfico se muestra la distancia de Cook para cada observación en el modelo de regresión. La distancia de Cook es una medida de la influencia de cada observación en los coeficientes del modelo.
## En algunas prácticas, se consideran influyentes las observaciones con una distancia de Cook mayor a 4/n, donde n es el número de observaciones. En este caso con 25 observaciones, el umbral sería aproximadamente 0.16. El gráfico señala que hay al menos dos observaciones (13 y 25) que tienen un impacto significativo en el modelo.
##
## One Sample t-test
##
## data: residuos
## t = -0.14652, df = 24, p-value = 0.8847
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.4994321 0.4332192
## sample estimates:
## mean of x
## -0.03310641
Prueba t: H0: La media de los residuos es igual a cero. H1: La media de los residuos no es igual a cero.
El valor p es 0.8847. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay una diferencia significativa entre la media de los residuos y cero.
##
## studentized Breusch-Pagan test
##
## data: Model_s2
## BP = 2.6825, df = 3, p-value = 0.4432
Prueba de Breusch-Pagan: H0: No hay heterocedasticidad en los residuos. H1: Hay heterocedasticidad en los residuos.
El valor p es 0.4432. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay evidencia de heterocedasticidad en los residuos.
##
## Durbin-Watson test
##
## data: Model_s2
## DW = 1.3285, p-value = 0.03421
## alternative hypothesis: true autocorrelation is greater than 0
Prueba de Durbin-Watson: H0: No hay autocorrelación en los residuos (la autocorrelación es igual a cero). H1: Existe autocorrelación en los residuos.
El valor p es 0.03421. Dado que es menor que 0.05, hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que hay evidencia de autocorrelación positiva en los residuos.
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.92407, p-value = 0.06348
Prueba de normalidad de Shapiro-Wilk: H0: Los datos siguen una distribución normal. H1: Los datos no siguen una distribución normal.
El valor p es 0.06348. Dado que es mayor que 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que los residuos no se desvían significativamente de una distribución normal.
## Sobre los residuos: Estos cumplen 3 de los cuatro supuestos. Los test 1,2 y 4 favorecen la confiabilidad del modelo, dado que Los residuos parecen no tener un sesgo significativo y están centrados alrededor de cero, no hay evidencia de heterocedasticidad, indicando que la varianza de los residuos es constante y los residuos parecen seguir una distribución aproximadamente normal, aunque hay ligeras desviaciones. El test 3 indica que hay evidencia de autocorrelación positiva, lo que sugiere que los residuos no son independientes y que podrían estar correlacionados. Por lo que podría ser útil revisar el modelo para considerar términos adicionales o utilizar modelos específicos para datos autocorrelacionados.
Conclusión General: Se considera que el modelo 2 es muy robusto para explicar la variable Respuesta (Tiempo) en función de la variable Predictora (Carga) y el término de interacción (Conf).
## Acc Exp Edad Pot Sexo
## NO:20 Min. : 1.000 Min. :20 Min. : 70.0 mujer :21
## SI:15 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 hombre:14
## Median : 9.000 Median :29 Median : 95.0
## Mean : 9.543 Mean :31 Mean :101.6
## 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0
## Max. :20.000 Max. :56 Max. :150.0
## la mediana de la experiencia de los conductores es 9 años
## la mediana de la edad de los conductores es 29 años
## la mediana de la potencia de los vehiculos es 95 HP
## El 57.14 % de la población objeto de análisis no ha tenido accidentes
## El 40 % de la población objeto de análisis son hombres
Nota: Se utiliza la mediana como indicador de tendencia central, dado que no todos los datos tienen un comportamiento de distribución normal para usar su promedio.
Los años de Experiencia influyen de manera inversa en menores tasas de accidentalidad, para ambos sexos, pero con mayor fuerza en los hombres.
La Edad tanto de hombres como de mujeres influye de manera inversa en menores tasas de accidentalidad.
La Potencia de los vehiculos influye de manera directa en mayores tasas de accidentalidad, para ambos sexos.
Conclusión: Todas las variables tienen algún tipo de influencia (directa o inversa) en la accidentalidad.
## Exp Edad Pot
## Exp 1.0000000 0.4005786 -0.3882409
## Edad 0.4005786 1.0000000 -0.2669911
## Pot -0.3882409 -0.2669911 1.0000000
Conclusión: NO se revela una correlación significativa entre estas variables.
##
## Call:
## glm(formula = Acc ~ Exp, family = "binomial", data = ACCID)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.9419 0.9816 1.978 0.0479 *
## Exp -0.2456 0.1044 -2.354 0.0186 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 40.006 on 33 degrees of freedom
## AIC: 44.006
##
## Number of Fisher Scoring iterations: 4
Tanto el intercepto como el coeficiente de ‘Exp’ son estadísticamente significativos.
La Deviance residual menor que la Deviance nula sugiere que el modelo con el predictor mejora el ajuste.
Conclusión: El modelo indica que la experiencia ‘Exp’ tiene un efecto negativo significativo en la probabilidad de tener un accidente ‘Acc’, es decir a mayor experiencia menor es la probabilidad de tener un accidente.
## Beta 2.5 % 97.5 %
## (Intercept) 1.941925 0.1848551 4.13862783
## Exp -0.245607 -0.4859059 -0.06601434
## e^Beta 2.5 % 97.5 %
## (Intercept) 6.9721601 1.2030441 62.7167043
## Exp 0.7822295 0.6151397 0.9361174
## La formulación de pronóstico es p = 1 / (1 + e ^ -(1.94 + -0.25 * Exp )
Frente al intercepto: La razón de probabilidades (odds ratio) de tener un accidente son aproximadamente 6.97 veces cuando la experiencia es cero. El intervalo de confianza (IC) para el odds ratio (1.20 a 62.72) indica que hay un alto grado de incertidumbre en esta estimación, pero es significativamente mayor que 1, lo que sugiere una alta probabilidad de accidente en ausencia de experiencia.
Frente a la Experiencia: Un odds ratio de 0.7822295 indica que con cada unidad adicional de experiencia, las odds de tener un accidente se reducen aproximadamente en un 21.77% (1 - 0.7822295 ≈ 0.2177 o 21.77%).
El intervalo de confianza para este odds ratio (0.62 a 0.94) está por debajo de 1, lo que refuerza la conclusión de que un aumento en la experiencia se asocia con una disminución en las probabilidades de tener un accidente.
## Analysis of Deviance Table
##
## Model: binomial, link: logit
##
## Response: Acc
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 34 47.804
## Exp 1 7.7977 33 40.006 0.005231 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## AIC Deviance R2 AUC
## Mod_RL1 Acc~Exp 44.0058 40.0058 0.1631 NA
La inclusión de ‘Exp’ en el modelo mejora significativamente el ajuste comparado con el modelo nulo.
El AIC es una medida de la calidad del modelo, donde un valor más bajo indica un mejor ajuste. El valor obtenido señala un ajuste razonablemente bueno.
La deviance residual del modelo ajustado es mejor que la del modelo nulo.
El pseudo R-squared (R²) es una medida de la proporción de variación explicada por el modelo. El valor obtenido sugiere que, aunque no se explica toda la variabilidad en los accidentes, la experiencia sigue siendo un factor importante.
Conclusión: La variable ‘Exp’ proporciona una mejora significativa en el ajuste en comparación con el modelo nulo y la experiencia es un factor relevante para predecir la probabilidad de tener un accidente.
## ACCID.Acc Class_RL1
## 1 NO NO
## 2 NO NO
## 3 NO SI
## 4 SI SI
## 5 NO NO
## 6 SI SI
## 7 NO NO
## 8 SI NO
## 9 NO NO
## 10 SI SI
## 11 NO NO
## 12 NO NO
## 13 SI NO
## 14 SI SI
## 15 NO NO
## 16 NO NO
## 17 NO NO
## 18 SI SI
## 19 NO NO
## 20 NO SI
## 21 NO SI
## 22 NO NO
## 23 SI SI
## 24 SI NO
## 25 NO NO
## 26 NO NO
## 27 SI SI
## 28 SI NO
## 29 NO NO
## 30 NO NO
## 31 SI NO
## 32 SI SI
## 33 NO NO
## 34 SI NO
## 35 SI NO
## prediccion
## observado NO SI
## NO 17 3
## SI 7 8
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 17 7
## SI 3 8
##
## Accuracy : 0.7143
## 95% CI : (0.537, 0.8536)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.06008
##
## Kappa : 0.3966
##
## Mcnemar's Test P-Value : 0.34278
##
## Sensitivity : 0.5333
## Specificity : 0.8500
## Pos Pred Value : 0.7273
## Neg Pred Value : 0.7083
## Prevalence : 0.4286
## Detection Rate : 0.2286
## Detection Prevalence : 0.3143
## Balanced Accuracy : 0.6917
##
## 'Positive' Class : SI
##
Métricas del modelo:
Precisión general del modelo es la proporción de predicciones correctas sobre el total de predicciones. En este caso el modelo acierta el 71.43% de las veces.
Intervalo de confianza del 95% para la precisión del modelo entre 0.537 y 0.8536.
Tasa de no información es la precisión que se lograría prediciendo siempre la clase más frecuente. Si el modelo predijera siempre “NO” (que es la clase más frecuente), tendría una precisión del 57.14%.
Coeficiente kappa mide la concordancia entre las predicciones del modelo y las observaciones reales, ajustado según la prevalencia y el sesgo en las predicciones. El kappa de 0.3966 indica una concordancia moderada.
Sensibilidad es la proporción de casos positivos reales (SI) que fueron correctamente identificados por el modelo. El modelo identifica correctamente el 53.33% de los casos reales positivos.
Especificidad es la proporción de casos negativos reales (NO) que fueron correctamente identificados por el modelo. El modelo identifica correctamente el 85% de los casos reales negativos.
Valor Predictivo Positivo es la proporción de predicciones positivas (SI) que fueron correctas. El 72.73% de las predicciones positivas del modelo fueron correctas.
Valor Predictivo Negativo es la proporción de predicciones negativas (NO) que fueron correctas. El 70.83% de las predicciones negativas del modelo fueron correctas.
## Sensitivity Specificity Pos Pred Value
## 0.5333333 0.8500000 0.7272727
## Neg Pred Value Precision Recall
## 0.7083333 0.7272727 0.5333333
## F1 Prevalence Detection Rate
## 0.6153846 0.4285714 0.2285714
## Detection Prevalence Balanced Accuracy
## 0.3142857 0.6916667
Valor Predictivo Positivo (Precision) mide la proporción de casos predichos como positivos que son realmente positivos. El 72.73% de las predicciones positivas son correctas.
Valor Predictivo Negativo mide la proporción de casos predichos como negativos que son realmente negativos. El 70.83% de las predicciones negativas son correctas.
Recuerdo (Recall) o Sensibilidad mide la proporción de verdaderos positivos entre todos los casos positivos reales. El modelo señala el 53,33% de los casos reales positivos
F1 Score: Es la media armónica entre precisión y recuerdo, proporcionando un balance entre ambos. Hay un 61,53% de equilibrio entre precisión y recuerdo.
Prevalencia es la proporción de casos positivos (SI) en el conjunto de datos. El 42.86% de los casos en el conjunto de datos son positivos.
Tasa de detección es la proporción de casos positivos reales (SI) que son identificados correctamente por el modelo. El modelo identifica correctamente el 22.86% de los casos positivos en relación al total de casos.
Prevalencia de detección es la proporción de todas las predicciones realizadas por el modelo que fueron clasificadas como positivas (SI). El modelo predice los casos positivos con una frecuencia del 31.43%.
Precisión balanceada es el promedio de la sensibilidad (recall) y la especificidad. Util cuando se tiene un conjunto de datos desequilibrado. El modelo tiene la capacidad del 69.17% de identificar correctamente tanto los casos positivos como los casos negativos.
Observación: Es posible encontrar una probabilidad menor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.
Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 14 2
## SI 6 13
##
## Accuracy : 0.7714
## 95% CI : (0.5986, 0.8958)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.01134
##
## Kappa : 0.5484
##
## Mcnemar's Test P-Value : 0.28884
##
## Sensitivity : 0.8667
## Specificity : 0.7000
## Pos Pred Value : 0.6842
## Neg Pred Value : 0.8750
## Prevalence : 0.4286
## Detection Rate : 0.3714
## Detection Prevalence : 0.5429
## Balanced Accuracy : 0.7833
##
## 'Positive' Class : SI
##
## Sensitivity Specificity Pos Pred Value
## 0.8666667 0.7000000 0.6842105
## Neg Pred Value Precision Recall
## 0.8750000 0.6842105 0.8666667
## F1 Prevalence Detection Rate
## 0.7647059 0.4285714 0.3714286
## Detection Prevalence Balanced Accuracy
## 0.5428571 0.7833333
## AIC Deviance R2 AUC
## Mod_RL1 Acc~Exp Ajust 44.0058 40.0058 0.1631 0.7983
Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Sensibilidad, Valor Predictivo Negativo, Recall, F1, Tasa de detección, Prevalencia de detección y Precisión balanceada.
Se incluye el AUC como medida complementaria de desempeño del modelo.
##
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = "binomial", data = ACCID)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8890 1.2252 0.726 0.46808
## Exp -0.2400 0.1176 -2.040 0.04131 *
## Sexohombre 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
## AIC Deviance R2 AUC
## Mod_RLM2 Acc~Exp+Sexo 35.2487 29.2487 0.3881 NA
Tanto el coeficiente de ‘Exp’ como el de ‘Sexohombre’ son estadísticamente significativos, ya no ocurre lo mismo con el intercepto.
La Deviance residual menor que la Deviance nula y el AIC menor sugiere que el modelo con los dos predictores mejora el ajuste.
Conclusión: Los resultados sugieren que tanto la experiencia como el sexo son predictores significativos de la probabilidad de tener un accidente, con la experiencia disminuyendo esa probabilidad y el ser hombre aumentándola.
## Beta 2.5 % 97.5 %
## (Intercept) 0.8890341 -1.3776790 3.64897083
## Exp -0.2399985 -0.5285605 -0.04017264
## Sexohombre 2.9865699 1.1292126 5.58840807
## e^Beta 2.5 % 97.5 %
## (Intercept) 2.432779 0.2521631 38.4350894
## Exp 0.786629 0.5894529 0.9606236
## Sexohombre 19.817589 3.0932200 267.3097416
## La formulación de pronóstico es p = 1 / (1 + e ^ -(0.89 + -0.24 * Exp + 2.99 * Sexo )
Frente al intercepto: Dado que no es significativo, no se puede concluir que haya un efecto significativo en las log-odds de tener un accidente cuando ‘Exp’ sea 0 y ‘Sexo’ sea mujer.
Frente a la Experiencia: Es significativo y tiene un efecto protector contra los accidentes, es decir más experiencia reduce la probabilidad de tener un accidente.
Frente al Sexo: Es significativo y muestra que ser hombre aumenta considerablemente la probabilidad de tener un accidente en comparación con ser mujer.
Conclusión: Los resultados sugieren que la experiencia reduce el riesgo de accidentes, mientras que el sexo masculino lo aumenta significativamente.
##
## Call:
## glm(formula = Acc ~ Exp + Sexo - 1, family = "binomial", data = ACCID)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## Exp -0.2400 0.1176 -2.040 0.0413 *
## Sexomujer 0.8890 1.2252 0.726 0.4681
## Sexohombre 3.8756 1.6936 2.288 0.0221 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 48.520 on 35 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp + Sexo - 1
## Model 2: Acc ~ Exp + Sexo
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 32 29.249
## 2 32 29.249 0 -3.5527e-15
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp + Sexo
## Model 2: Acc ~ Exp
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 32 29.249
## 2 33 40.006 -1 -10.757 0.001039 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## AIC Deviance R2 AUC
## Mod_RLM2 Acc~Exp+Sexo -Intcpt 35.2487 29.2487 0.3972 NA
Comparación entre Acc ~ Exp + Sexo - 1 y Acc ~ Exp + Sexo: No hay una diferencia significativa en términos de devianza, por lo que incluir o excluir el intercepto no afecta significativamente el ajuste del modelo.
Comparación entre Acc ~ Exp + Sexo y Acc ~ Exp: Incluir la variable Sexo mejora significativamente el ajuste del modelo, como lo indica la reducción significativa en devianza residual y el valor de p correspondiente.
Conclusión: el modelo Acc ~ Exp + Sexo es significativamente mejor que Acc ~ Exp, y no hay una diferencia significativa entre este primer modelo con y sin intercepto.
## ACCID.Acc Class_RL2
## 1 NO NO
## 2 NO NO
## 3 NO NO
## 4 SI SI
## 5 NO NO
## 6 SI SI
## 7 NO NO
## 8 SI NO
## 9 NO NO
## 10 SI SI
## 11 NO NO
## 12 NO NO
## 13 SI SI
## 14 SI SI
## 15 NO SI
## 16 NO SI
## 17 NO NO
## 18 SI SI
## 19 NO NO
## 20 NO NO
## 21 NO NO
## 22 NO NO
## 23 SI SI
## 24 SI NO
## 25 NO NO
## 26 NO NO
## 27 SI SI
## 28 SI NO
## 29 NO NO
## 30 NO NO
## 31 SI SI
## 32 SI SI
## 33 NO NO
## 34 SI NO
## 35 SI NO
## prediccion
## observado NO SI
## NO 18 2
## SI 5 10
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 18 5
## SI 2 10
##
## Accuracy : 0.8
## 95% CI : (0.6306, 0.9156)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.003999
##
## Kappa : 0.5812
##
## Mcnemar's Test P-Value : 0.449692
##
## Sensitivity : 0.6667
## Specificity : 0.9000
## Pos Pred Value : 0.8333
## Neg Pred Value : 0.7826
## Prevalence : 0.4286
## Detection Rate : 0.2857
## Detection Prevalence : 0.3429
## Balanced Accuracy : 0.7833
##
## 'Positive' Class : SI
##
Métricas del modelo:
Precisión general del modelo mejora al pasar del 71.43% al 80%.
Intervalo de confianza del 95% para la precisión del modelo entre 0.6306 y 0.9156.
Tasa de no información igual 57.14%.
Coeficiente kappa mejora de 0.3966 a 0.58 indicando una mejor concordancia.
Sensibilidad mejora del 53.33% a 66.67%.
Especificidad mejora del 85% al 90%.
Valor Predictivo Positivo mejora del 72.73% al 83.33%.
Valor Predictivo Negativo mejora del 70.83% al 78.26%.
## Sensitivity Specificity Pos Pred Value
## 0.6666667 0.9000000 0.8333333
## Neg Pred Value Precision Recall
## 0.7826087 0.8333333 0.6666667
## F1 Prevalence Detection Rate
## 0.7407407 0.4285714 0.2857143
## Detection Prevalence Balanced Accuracy
## 0.3428571 0.7833333
F1 Score mejora del 61,53% al 74.07%
Prevalencia igual 42.86%.
Tasa de detección mejora del 22.86% al 28.57%.
Prevalencia de detección mejora del 31.43% al 34.28%.
Precisión balanceada mejora del 69.17% al 78.33%.
Observación: Es posible encontrar una probabilidad mayor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.
Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 20 6
## SI 0 9
##
## Accuracy : 0.8286
## 95% CI : (0.6635, 0.9344)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.001202
##
## Kappa : 0.6316
##
## Mcnemar's Test P-Value : 0.041227
##
## Sensitivity : 0.6000
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 0.7692
## Prevalence : 0.4286
## Detection Rate : 0.2571
## Detection Prevalence : 0.2571
## Balanced Accuracy : 0.8000
##
## 'Positive' Class : SI
##
## Sensitivity Specificity Pos Pred Value
## 0.6000000 1.0000000 1.0000000
## Neg Pred Value Precision Recall
## 0.7692308 1.0000000 0.6000000
## F1 Prevalence Detection Rate
## 0.7500000 0.4285714 0.2571429
## Detection Prevalence Balanced Accuracy
## 0.2571429 0.8000000
## AIC Deviance R2 AUC
## Mod_RLM2 Acc~Exp+Sexo Ajust 35.2487 29.2487 0.3881 0.8683
Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Valor Predictivo Positivo, F1 y Precisión balanceada.
Se mejora valor obtenido de AUC del 79.83 al 86.83% al comparar el modelo Acc~Exp Ajustado y el modelo Acc~Exp+Sexo Ajustado
## AIC Deviance R2 AUC
## Mod_RL1 Acc~Exp 44.0058 40.0058 0.1631 NA
## Mod_RL1 Acc~Exp Ajust 44.0058 40.0058 0.1631 0.7983
## Mod_RLM2 Acc~Exp+Sexo 35.2487 29.2487 0.3881 NA
## Mod_RLM2 Acc~Exp+Sexo -Intcpt 35.2487 29.2487 0.3972 NA
## Mod_RLM2 Acc~Exp+Sexo Ajust 35.2487 29.2487 0.3881 0.8683
Conclusión: El modelo ajustado Acc~Exp+Sexo tiene mejores indicadores y es mejor que el modelo ajustado Acc~Exp, lo que indica que la inclusión de las variables Experiencia y Sexo favorecen el desempeño de este modelo. Este desempeño se ilustra en la matriz de confusión con la tasa favorable en las predicciones SI y NO y un mejor desempeño en la reducción de falsos positivos.
##
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = "binomial",
## data = ACCID)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -19.97398 9.23723 -2.162 0.0306 *
## Exp -0.47952 0.33645 -1.425 0.1541
## Sexohombre 3.04940 2.36426 1.290 0.1971
## Edad -0.02585 0.08801 -0.294 0.7689
## Pot 0.24687 0.10715 2.304 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 12.700 on 30 degrees of freedom
## AIC: 22.7
##
## Number of Fisher Scoring iterations: 8
## AIC Deviance R2 AUC
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot 22.6995 12.6995 0.7343 NA
Este modelo indica que el intercepto tiene significancia estadística y que de las variables consideradas, Potencia es la única que tiene un efecto significativo sobre la probabilidad de Accidentalidad.
Este resultado parece estar en contravia de los obtenidos en el modelo anterior. Por ello se somete a revisión mediante la prueba de deviance
## Beta 2.5 % 97.5 %
## (Intercept) -19.97398421 -44.55489306 -6.24675673
## Exp -0.47951530 -1.63951853 -0.03090677
## Sexohombre 3.04939739 -0.80469815 10.01516449
## Edad -0.02585311 -0.20105427 0.17672312
## Pot 0.24687078 0.08925198 0.52435855
## e^Beta 2.5 % 97.5 %
## (Intercept) 2.115480e-09 4.467410e-20 1.936725e-03
## Exp 6.190834e-01 1.940735e-01 9.695660e-01
## Sexohombre 2.110262e+01 4.472229e-01 2.236303e+04
## Edad 9.744782e-01 8.178680e-01 1.193301e+00
## Pot 1.280014e+00 1.093356e+00 1.689375e+00
## La formulación de pronóstico es p = 1 / (1 + e ^ -(-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )
##
## Call:
## glm(formula = Acc ~ Pot, family = "binomial", data = ACCID)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -20.6246 7.2149 -2.859 0.00425 **
## Pot 0.2074 0.0753 2.754 0.00589 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 21.804 on 33 degrees of freedom
## AIC: 25.804
##
## Number of Fisher Scoring iterations: 7
## Analysis of Deviance Table
##
## Model 1: Acc ~ Pot
## Model 2: Acc ~ Exp + Sexo + Edad + Pot
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 33 21.804
## 2 30 12.700 3 9.1047 0.02793 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## AIC Deviance R2 AUC
## Mod_RLM4 Acc~Pot 35.2487 29.2487 0.3972 NA
La comparación de los modelos mediante la prueba de devianza muestra que el Modelo 2 (Acc ~ Exp + Sexo + Edad + Pot) proporciona un ajuste significativamente mejor que el Modelo 1 (Acc ~ Pot). Esto se debe a que la diferencia en devianza (9.1047) es estadísticamente significativa (p = 0.02793), lo que sugiere que las variables adicionales Exp, Sexo y Edad mejoran significativamente el modelo.
Conclusión: Incluir Exp, Sexo y Edad junto con Pot, hace que el modelo tenga una mejor capacidad predictiva o explicativa de la variable dependiente Acc en comparación con el modelo que solo incluye Pot.
## ACCID.Acc Class_RLM3
## 1 NO NO
## 2 NO NO
## 3 NO NO
## 4 SI SI
## 5 NO NO
## 6 SI SI
## 7 NO NO
## 8 SI SI
## 9 NO NO
## 10 SI SI
## 11 NO NO
## 12 NO NO
## 13 SI SI
## 14 SI SI
## 15 NO NO
## 16 NO NO
## 17 NO NO
## 18 SI SI
## 19 NO NO
## 20 NO NO
## 21 NO NO
## 22 NO NO
## 23 SI SI
## 24 SI SI
## 25 NO NO
## 26 NO SI
## 27 SI SI
## 28 SI SI
## 29 NO NO
## 30 NO NO
## 31 SI SI
## 32 SI SI
## 33 NO NO
## 34 SI NO
## 35 SI NO
## prediccion
## observado NO SI
## NO 19 1
## SI 2 13
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 19 2
## SI 1 13
##
## Accuracy : 0.9143
## 95% CI : (0.7694, 0.982)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 9.733e-06
##
## Kappa : 0.8235
##
## Mcnemar's Test P-Value : 1
##
## Sensitivity : 0.8667
## Specificity : 0.9500
## Pos Pred Value : 0.9286
## Neg Pred Value : 0.9048
## Prevalence : 0.4286
## Detection Rate : 0.3714
## Detection Prevalence : 0.4000
## Balanced Accuracy : 0.9083
##
## 'Positive' Class : SI
##
Métricas del modelo:
Precisión general del modelo mejora al pasar del 80% al 91.43%.
Intervalo de confianza del 95% para la precisión del modelo entre 0.7694 y 0.9820.
Tasa de no información igual 57.14%.
Coeficiente kappa mejora de 0.58 a 0.8235 indicando una mejor concordancia.
Sensibilidad mejora del 66.67% a 86.67%.
Especificidad mejora del 90% al 95%.
Valor Predictivo Positivo mejora del 83.33% al 92.86%.
Valor Predictivo Negativo mejora del 78.26% al 90.48%.
## Sensitivity Specificity Pos Pred Value
## 0.8666667 0.9500000 0.9285714
## Neg Pred Value Precision Recall
## 0.9047619 0.9285714 0.8666667
## F1 Prevalence Detection Rate
## 0.8965517 0.4285714 0.3714286
## Detection Prevalence Balanced Accuracy
## 0.4000000 0.9083333
F1 Score mejora del 74.07% al 89.65%
Prevalencia igual 42.86%.
Tasa de detección mejora del 28.57% al 37.14%.
Prevalencia de detección mejora del 34.28% al 40%.
Precisión balanceada mejora del 78.33% al 90.83%.
Observación: Es posible encontrar una probabilidad menor al 50% para el SI asociado a Accidentalidad para establecerla como nuevo punto de corte.
Nota: AUC(CI) = Area Bajo la Curva (Intervalo de confianza 95%)
## Confusion Matrix and Statistics
##
## Reference
## Prediction NO SI
## NO 19 1
## SI 1 14
##
## Accuracy : 0.9429
## 95% CI : (0.8084, 0.993)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 1.128e-06
##
## Kappa : 0.8833
##
## Mcnemar's Test P-Value : 1
##
## Sensitivity : 0.9333
## Specificity : 0.9500
## Pos Pred Value : 0.9333
## Neg Pred Value : 0.9500
## Prevalence : 0.4286
## Detection Rate : 0.4000
## Detection Prevalence : 0.4286
## Balanced Accuracy : 0.9417
##
## 'Positive' Class : SI
##
## Sensitivity Specificity Pos Pred Value
## 0.9333333 0.9500000 0.9333333
## Neg Pred Value Precision Recall
## 0.9500000 0.9333333 0.9333333
## F1 Prevalence Detection Rate
## 0.9333333 0.4285714 0.4000000
## Detection Prevalence Balanced Accuracy
## 0.4285714 0.9416667
## AIC Deviance R2 AUC
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot Ajust 22.6995 12.6995 0.7343 0.9667
Con el nuevo punto de corte, se mejoran los indicadores de Precisión general del modelo, Kappa, Sensitividad, Valor Predictivo Negativo, F1, tasa de detección, detección de prevalencia y Precisión balanceada.
Se mejora valor obtenido de AUC del 86.83 al 96.67% al comparar el modelo Acc~Exp+Sexo Ajustado vs el modelo Acc~Exp+Sexo+Edad+Pot Ajustado
## La Ecuación predictiva es p = 1 / (1 + e ^ -(-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )
## La Ecuación Interpretativa es Odds = p / (1-p) = e ^ (-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )
## La Ecuación Linealizada es ln(Odds) = ln (p / (1-p)) = (-19.97 + -0.48 * Exp + 3.05 * Sexo + -0.03 * Edad + 0.25 * Pot )
## AIC Deviance R2 AUC
## Mod_RL1 Acc~Exp 44.0058 40.0058 0.1631 NA
## Mod_RL1 Acc~Exp Ajust 44.0058 40.0058 0.1631 0.7983
## Mod_RLM2 Acc~Exp+Sexo 35.2487 29.2487 0.3881 NA
## Mod_RLM2 Acc~Exp+Sexo -Intcpt 35.2487 29.2487 0.3972 NA
## Mod_RLM2 Acc~Exp+Sexo Ajust 35.2487 29.2487 0.3881 0.8683
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot 22.6995 12.6995 0.7343 NA
## Mod_RLM4 Acc~Pot 35.2487 29.2487 0.3972 NA
## Mod_RLM3 Acc~Exp+Sexo+Edad+Pot Ajust 22.6995 12.6995 0.7343 0.9667
## prediccion
## observado NO SI
## NO 19 1
## SI 1 14
Conclusión: El mejor modelo encontrado corresponde al modelo ajustado Acc~Exp+Sexo+Edad+Pot que tiene los mejores indicadores de desempeño y es mejor que el modelo ajustado Acc~Exp+Sexo, lo que indica que la integración de todas las variables (Experiencia, Sexo, Edad y Potencia del vehiculo) favorece su dinámica. Este desempeño se ilustra en la matriz de confusión con la tasa favorable en las predicciones (SI y NO) y mejores resultados en la reducción de falsos positivos.