Universidad del Valle
Maestría en Analítica e Inteligencia de Negocios
Métodos Cuantitativos para el Análisis de Información
Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos) la cual se relaciona, posiblemente bajo una dependencia no lineal, con X: la carga del sistema (Número de consultas por minuto).
Se han realizado múltiples ensayos bajo ambas configuraciones y bajo variación de la carga del sistema. Los resultados se presentan en la siguiente tabla:
Conf | Carga | Tiempo |
---|---|---|
1 | 1.0 | 0.9 |
0 | 2.0 | 0.3 |
1 | 2.4 | 2.0 |
0 | 3.1 | 0.8 |
1 | 4.0 | 2.7 |
1 | 4.3 | 2.6 |
0 | 5.8 | 2.5 |
0 | 6.6 | 3.2 |
0 | 7.5 | 3.7 |
1 | 8.0 | 3.9 |
0 | 9.0 | 5.3 |
1 | 9.2 | 4.2 |
1 | 10.2 | 3.9 |
1 | 1.8 | 1.1 |
1 | 2.0 | 1.5 |
0 | 2.5 | 0.5 |
0 | 3.9 | 1.5 |
0 | 4.2 | 1.6 |
1 | 5.5 | 3.3 |
0 | 6.4 | 3.3 |
1 | 7.0 | 3.5 |
0 | 8.0 | 4.3 |
1 | 8.2 | 4.0 |
1 | 9.1 | 4.3 |
0 | 9.5 | 5.8 |
## character(0)
## character(0)
## # A tibble: 6 × 3
## Conf Carga Tiempo
## <dbl> <dbl> <dbl>
## 1 1 1 0.9
## 2 0 2 0.3
## 3 1 2.4 2
## 4 0 3.1 0.8
## 5 1 4 2.7
## 6 1 4.3 2.6
## Correlación hdd: 0.9640003
## Correlación ssd: 0.9938293
Se puede observar una alta correlación en ambas gráficas. La relación entre la carga del sistema y el tiempo de respuesta es más fuerte en SSD (correlación de 0.9938) que en HDD (correlación de 0.9640).En SSD, el tiempo de respuesta sigue de manera más exacta el comportamiento esperado según la carga del sistema.
##
## Call:
## lm(formula = TIEMPO ~ CARGA, data = data_discos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16824 -0.40281 -0.03945 0.43541 1.07627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04838 0.26321 0.184 0.856
## CARGA 0.49214 0.04177 11.783 3.18e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
## F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
Análisis de los resultados:
Coeficientes:
Intercepto (Intercept): El valor estimado para el intercepto es 0.04838. Esto representa el valor esperado del tiempo de respuesta cuando la carga del sistema es igual a 0. Si no hay consultas al sistema (carga = 0), el tiempo de respuesta promedio sería 0.04838 segundos.
Pendiente (Carga): El coeficiente para la carga del sistema (carga) es 0.49214. Esto indica que, por cada aumento de una consulta por minuto en la carga del sistema, se espera que el tiempo de respuesta aumente en 0.49214 segundos. Esta relación es positiva, lo que significa que a mayor carga, mayor es el tiempo de respuesta.
Estadísticas t y valores p:
Intercepto: El valor t del intercepto es 0.184 y el valor p es 0.856 que es muy alto, lo que sugiere que el intercepto no es significativamente diferente de 0. Se rechaza la hipotesis nula de que si lo era. Es decir, no es crucial para el modelo, pero debido a la relación con el tiempo cuando la carga es 0,se mantiene en el modelo.
Carga: El valor t para carga es 11.783 y el valor p es 3.18e-11, el cual es mucho menor que 0.05, lo que indica que la variable carga tiene una relación estadísticamente significativa con el tiempo de respuesta. Esto significa que la carga del sistema es un predictor significativo del tiempo de respuesta.
Bondad de ajuste:
Residuos: Los residuos están distribuidos entre valores negativos y positivos, lo que indica que el modelo está relativamente bien ajustado a los datos. El residuo estándar es 0.5837, lo que muestra que las predicciones del modelo tienen un error promedio de alrededor de 0.58 segundos.
R-cuadrado (R²):Multiple R-squared es 0.8579. Esto significa que aproximadamente el 85.79% de la variabilidad en el tiempo de respuesta se explica por la carga del sistema. Este es un valor alto, lo que sugiere que el modelo se ajusta bien a los datos.
R-cuadrado ajustado (Adjusted R-squared): El Adjusted R-squared es 0.8517. Este valor ajustado tiene en cuenta el número de predictores en el modelo (en este caso solo uno) y es ligeramente más bajo que el R-cuadrado, pero aún indica que el modelo es muy bueno para explicar la variabilidad en los datos.
Estadística-F y valor p: El F-statistic es 138.8 con un valor p de 3.177e-11. Este valor p es muy pequeño, lo que sugiere que el modelo es significativamente mejor que un modelo sin predictores.Es decir, un modelo donde el tiempo de respuesta es constante. Este análisis indica que la carga del sistema tiene una fuerte influencia en el tiempo de respuesta, y este modelo simple puede ser útil para predecir el tiempo de respuesta en función de la carga del sistema.
Recomendación: Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos.
##
## Call:
## lm(formula = TIEMPO ~ CARGA * DISCO, data = data_discos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.68547 -0.11333 0.06881 0.15302 0.41807
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.88842 0.16323 5.443 2.12e-05 ***
## CARGA 0.36246 0.02555 14.185 3.14e-12 ***
## DISCOSSD -2.26391 0.26520 -8.536 2.86e-08 ***
## CARGA:DISCOSSD 0.35734 0.04227 8.454 3.36e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared: 0.9692, Adjusted R-squared: 0.9648
## F-statistic: 220.2 on 3 and 21 DF, p-value: 5.042e-16
Análisis de los resultados:
Coeficientes:
Intercepto (0.88842): Este implica que cuando la carga es 0 y el disco es SSD (por defecto, DISCOSSD = 0), el tiempo de respuesta es 0.88842 segundos. El valor p asociado a este coeficiente es muy pequeño (2.12e-05), lo que indica que el intercepto es significativamente diferente de cero.
Carga (0.36246): Significa que, en promedio, por cada incremento de una unidad en la carga, el tiempo de respuesta aumenta en 0.36246 segundos. Este coeficiente tiene un valor t de 14.185, y un valor p extremadamente bajo (3.14e-12), lo que indica que la carga es un predictor altamente significativo del tiempo de respuesta.
Disco SSD (-2.26391): Significa que, cuando el disco es SSD (en comparación con HDD), el tiempo de respuesta es, en promedio, 2.26391 segundos menor. Este coeficiente tiene un valor t de -8.536, y un valor p muy bajo (2.86e-08), lo que indica que la diferencia entre SSD y HDD es estadísticamente significativa.
Carga:DiscoSSD (0.35734): Indica que la relación entre la carga y el tiempo de respuesta es diferente para SSD que para HDD, con un valor p muy bajo (3.36e-08) que indica que esta interacción es estadísticamente significativa, lo que sugiere que la pendiente de la relación entre carga y tiempo de respuesta es mayor para los discos SSD que para los HDD.
Bondad de ajuste:
R-cuadrado (0.9692): Significa que el modelo explica el 96.92% de la variabilidad total del tiempo de respuesta. Esto sugiere que el modelo tiene un ajuste muy bueno.
R-cuadrado ajustado (0.9648): Es ligeramente inferior al R-cuadrado, pero sigue siendo alto. El R-cuadrado ajustado es útil cuando se tienen múltiples variables en el modelo, ya que penaliza el sobreajuste. Un valor cercano a 1 indica un buen ajuste del modelo.
Residuos: Los residuos tienen una distribución bastante simétrica (la mediana está cerca de cero) y no parecen mostrar sesgo. La dispersión de los residuos también es razonablemente pequeña, con un máximo de 0.41807 y un mínimo de -0.68547. El modelo está bastante cerca de los valores observados.
F-statistic (220.2): El F-statistic de 220.2 y su valor p de 5.042e-16 indican que el modelo es globalmente significativo. Al menos una de las variables predictoras (carga, tipo de disco o la interacción entre ambos) tiene un efecto significativo en el tiempo de respuesta.
En resumen, este modelo es muy robusto y proporciona una buena descripción de la relación entre la carga del sistema, el tipo de disco y el tiempo de respuesta.
## Analysis of Variance Table
##
## Model 1: TIEMPO ~ CARGA
## Model 2: TIEMPO ~ CARGA * DISCO
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 23 7.8375
## 2 21 1.6990 2 6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis de resultados:
Un valor Pr(>F) muy bajo indicaría que la inclusión de la variable cualitativa configuración del disco (DISCO) y su interacción con la carga (CARGA) mejora significativamente el ajuste del modelo. El modelo con la interacción es estadísticamente mejor que el modelo sin ella.
Si el valor p (Pr(>F)) del test ANOVA es muy bajo (generalmente menor que 0.05), puede concluirse que la inclusión de la variable cualitativa DISCO y su interacción con CARGA mejora significativamente el ajuste del modelo.
Por lo tanto, el valor de la estadística F de 37.938 es bastante alto, lo que sugiere que la inclusión de DISCO y su interacción con CARGA mejora el ajuste del modelo. Adicionalmente, el valor p es 1.067e-07, que es muy pequeño y está por debajo del umbral de 0.05, valida la mejora en el ajuste del modelo.
Análisis de resultados:
Gráfico de ajuste del Modelo 2: Este gráfico muestra cómo se distribuyen los puntos de datos de CARGA y TIEMPO y cómo el modelo ajusta las líneas de regresión para cada tipo de disco (SSD y HDD). Las líneas de ajuste permiten visualizar cómo la relación entre CARGA y TIEMPO cambia según el tipo de disco. Se puede decir, en este caso, que la mayor pendiente para SSD significa un aumento más pronunciado en el tiempo de respuesta conforme aumenta la carga, lo que puede sugerir un punto de saturación rápido a mayor carga. Por su parte, el cruce de las líneas indica que, a ciertas cargas, el HDD tiene un rendimiento superior en términos de tiempo de respuesta comparado con el SSD.
Graficos de residuos:
Residuals vs Fitted: Los residuos deben distribuirse aleatoriamente alrededor de cero y no mostrar patrones sistemáticos. Si los residuos se dispersan aleatoriamente, indica que no hay problemas de especificación del modelo y que el modelo está bien ajustado. En este caso, se observa un ajuste adecuado alrededor de cero.
Q-Q Plot de los residuos: Si los residuos siguen una distribución normal, los puntos deben alinearse aproximadamente sobre una línea recta. Si los puntos se desvían significativamente de la línea, indica que los residuos no siguen una distribución normal y se podría cuestionar la validez de los supuestos de normalidad. En este caso, los puntos están alineados sobre una línea recta, es decir, siguen una distribución normal.
Scale-Location: Este gráfico muestra si la varianza de los residuos es constante a lo largo del rango de valores ajustados (homocedasticidad). Si los residuos se dispersan de manera uniforme, no hay problema de heterocedasticidad. Sin embargo, si la dispersión aumenta o disminuye a medida que los valores ajustados aumentan, es indicativo de heterocedasticidad. En este caso, los errores se distribuyen equitativamente alrededor de la línea, por lo tanto se asume que no hay problemas de heterocedasticidad.
Residuals vs Leverage: Este gráfico identifica las observaciones con alta influencia sobre el modelo. Si algún punto se aleja de la mayoría de los puntos y se encuentra lejos de la línea central tiene un valor de leverage alto, podría indicar que esa observación tiene una influencia desproporcionada en los resultados del modelo. En este caso, se observa un modelo muy equilibrado.
Se puede decir que tanto en los discos HDD como en SSD, existe una ralacion proporcional entre la carga y el tiempo de respuesta, con una relación lineal que puede ser predecible. Sin embargo, a medida que los niveles de carga incrementan, el DISCO SSD tiene mejor desempeño, hasta un punto de INTERCEPTO, donde el DISCO HDD muestra menores tiempos de respuesta.
Por otra parte, se puede decir que el MODELO 2 tiene un mejor desempeño, debido a que la inclusión del tipo de disco y su interacción con la carga mejora sustancialmente la capacidad predictiva del tiempo de respuesta frente al nivel de carga.
Una compañía de seguros de automóvil desea caracterizar la siniestralidad de sus asegurados durante el último año. Para ello dispone información de una muestra aleatoria de 35 asegurados con la siguiente información (accidentes.xlsx):
## tibble [35 × 5] (S3: tbl_df/tbl/data.frame)
## $ Acc : num [1:35] 0 0 0 1 0 1 0 1 0 1 ...
## $ Exp : num [1:35] 10 15 7 1 10 2 8 20 18 4 ...
## $ Edad: num [1:35] 30 40 25 21 29 20 40 25 43 23 ...
## $ Pot : num [1:35] 90 85 95 145 70 120 95 135 85 110 ...
## $ Sexo: num [1:35] 1 1 1 2 1 2 1 2 1 2 ...
Asociación entre Acc
y Sexo
(variable categórica)
##
## 1 2
## 0 17 3
## 1 4 11
Prueba de independencia Chi-cuadrado
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table_sexo
## X-squared = 9.8438, df = 1, p-value = 0.001704
## Acc Exp Edad Pot Sexo
## Min. :0.0000 Min. : 1.000 Min. :20 Min. : 70.0 Min. :1.0
## 1st Qu.:0.0000 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 1st Qu.:1.0
## Median :0.0000 Median : 9.000 Median :29 Median : 95.0 Median :1.0
## Mean :0.4286 Mean : 9.543 Mean :31 Mean :101.6 Mean :1.4
## 3rd Qu.:1.0000 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0 3rd Qu.:2.0
## Max. :1.0000 Max. :20.000 Max. :56 Max. :150.0 Max. :2.0
Análisis de los histogramas:
Edad:
La distribución de la edad parece ser bastante uniforme, con un rango de valores que va desde los 20 hasta los 60 años, pero con un mayor concentrado en los conductores de entre 20 y 40 años.
En términos generales, parece que la mayoría de los conductores en esta muestra son relativamente jóvenes (en el rango de 20 a 40 años), lo que puede ser relevante a la hora de interpretar el impacto de la edad en la probabilidad de tener un accidente.
Experiencia (Exp):
La distribución de la experiencia muestra una alta concentración en valores bajos de experiencia (entre 0 y 10 años). Esto puede sugerir que la muestra está compuesta principalmente por conductores relativamente inexpertos, lo que podría estar asociado a un mayor riesgo de accidentes.
La distribución tiene una ligera asimetría positiva, indicando que un número significativo de conductores tiene poca experiencia (o recién comienzan a conducir).
El rango de experiencia no parece estar muy extendido, con la mayoría de los conductores teniendo entre 1 y 20 años de experiencia.
Potencia del Motor (Pot):
La distribución de la potencia del motor muestra un rango que varía entre los 70 y los 150 caballos de fuerza (HP), lo que es típico para vehículos de uso personal.
No hay una tendencia clara de concentración en valores bajos o altos, lo que sugiere que los vehículos en esta muestra están relativamente equilibrados en cuanto a potencia.
Sin embargo, la mayoría de los vehículos tienen potencias entre 80 y 120 HP, lo que podría implicar que los autos de gama media son los más comunes en la muestra.
Sexo:
El sexo está representado en forma de valores binarios (1 = Mujer, 2 = Hombre).
La muestra presenta una ligera asimetría hacia las mujeres, ya que el número de mujeres (21) es un poco mayor que el de hombres (14). Sin embargo, ambos géneros están representados, lo que es importante para evaluar la influencia del género en la siniestralidad.
Dado que hay solo dos categorías para el sexo, la distribución no es tan compleja de analizar, pero es relevante tener en cuenta la posible influencia de este factor en los modelos de regresión logística.
## # A tibble: 2 × 16
## Acc Edad_1p Edad_25p Edad_50p Edad_75p Edad_99p Exp_1p Exp_25p Exp_50p
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0 25 27 30.5 37.2 45.4 6.19 8.75 10
## 2 1 20.1 23 24 30 54.5 1.14 4 5
## # ℹ 7 more variables: Exp_75p <dbl>, Exp_99p <dbl>, Pot_1p <dbl>,
## # Pot_25p <dbl>, Pot_50p <dbl>, Pot_75p <dbl>, Pot_99p <dbl>
Análisis de los boxplots:
Grupo sin accidente (Acc = 0):
Distribución de Edad: Los conductores sin accidente muestran una distribución más concentrada en un rango de edades más amplias, pero especialmente en un rango de 25 a 37 años.
La mediana de edad para los conductores sin accidente es de 30.5 años. Esto sugiere que los conductores que no tuvieron accidente están en un rango de edad relativamente más alto. En este sentido, la mayor edad y experiencia están asociadas con un menor riesgo de accidentes.
La variabilidad dentro de este grupo es moderada, con algunos valores más altos y bajos, pero sin una diferencia extrema.
Grupo con accidente (Acc = 1):
Distribución de Edad: Los conductores con accidente muestran una distribución más dispersa, especialmente con una mayor concentración de valores hacia edades más jóvenes (23-30 años).
La mediana de edad para los conductores con accidente es de 24 años. Esto indica que los conductores que tuvieron un accidente son, en promedio, más jóvenes.Esto es consistente con la idea de que los conductores novatos, que suelen ser más jóvenes, pueden tener menos experiencia o ser más impulsivos al volante.
Es posible observar que hay algunos valores extremos dentro de este grupo, lo que indica que algunos conductores más jóvenes han tenido accidentes, pero también hay presencia de conductores mayores en el grupo.
Grupo sin accidente (Acc = 0):
Distribución de Experiencia: Los conductores sin accidente tienen una mayor experiencia en comparación con los conductores con accidente. Esta experiencia tiende a estar más concentrada en el rango de 9 a 14 años.
La mediana de experiencia para los conductores sin accidente es de 10 años. Esto sugiere que los conductores sin accidente tienden a tener más experiencia. De tal manera que la experiencia juega un papel importante en la prevención de accidentes. Los conductores más experimentados tienen una mayor capacidad para manejar diversas situaciones en la carretera.
La variabilidad dentro de este grupo parece ser moderada, con algunos valores atípicos que indican conductores con más experiencia, pero no son muy frecuentes.
Grupo con accidente (Acc = 1):
Distribución de Experiencia: Los conductores con accidente tienen una distribución más dispersa de experiencia. La experiencia en este grupo varía considerablemente, pero es más probable encontrar conductores con menos experiencia (1-5 años), aunque también existen conductores con más experiencia.
La mediana de experiencia para los conductores con accidente es de 5 años. Esto indica que los conductores con accidentes tienen menos experiencia en comparación con los conductores sin accidente. Esto es coherente con la intuición de que los conductores menos experimentados pueden cometer más errores en la conducción.
A pesar de que los conductores más jóvenes son los que tienen más accidentes, también hay conductores con mayor experiencia involucrados en accidentes.
Grupo sin accidente (Acc = 0):
Los vehículos de potencia baja (menor a 100 HP) son más comunes en los conductores sin accidentes.
La mediana de potencia del motor para los conductores sin accidente es de 90.
Los conductores de vehículos con potencias entre 90 y 105 HP rara vez están involucrados en accidentes. De hecho, los vehículos con motores de menos de 90 HP no presentan accidentes asociados. Por lo tanto, los conductores de este tipo de vehículos podrían tener un menor riesgo de involucrarse en accidentes.
Grupo con accidente (Acc = 1)
La mediana de potencia del motor para los conductores con accidente es de 110. Esto indica que los conductores con accidente tienen una mediana de potencia del motor más alta en comparación con los conductores sin accidente.
Los conductores que han tenido accidentes suelen conducir vehículos con potencias entre 105 y 132 HP. De hecho, todos los conductores de vehículos con potencias iguales o superiores a 105 HP han estado involucrados en accidentes.
Los conductores con autos más potentes parecen estar más involucrados en accidentes que los conductores con autos de potencia más baja. Este hallazgo podría estar relacionado con conductores más jóvenes o con menos experiencia que optan por vehículos con motores más potentes, lo que podría contribuir a una conducción más arriesgada y, por lo tanto, a una mayor probabilidad de accidentes.
##
## 0 1
## 1 17 4
## 2 3 11
##
## 0 1
## 1 0.8500000 0.2666667
## 2 0.1500000 0.7333333
Análisis:
A. Distribución de Sexo en el Grupo sin Accidente (Acc = 0):
B. Distribución de Sexo en el Grupo con Accidente (Acc = 1):
A partir de estos resultados, se puede observar que los hombres tienen una mayor tasa de siniestralidad (es decir, mayor proporción de hombres han tenido accidentes) en comparación con las mujeres en el conjunto de datos.
## [1] "Prueba t para Edad"
##
## Welch Two Sample t-test
##
## data: data[[var]] by data$Acc
## t = 0.9692, df = 21.284, p-value = 0.3433
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## -3.470011 9.536678
## sample estimates:
## mean in group 0 mean in group 1
## 32.30000 29.26667
##
## [1] "Prueba t para Exp"
##
## Welch Two Sample t-test
##
## data: data[[var]] by data$Acc
## t = 2.7239, df = 25.04, p-value = 0.01159
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 1.028682 7.404651
## sample estimates:
## mean in group 0 mean in group 1
## 11.350000 7.133333
##
## [1] "Prueba t para Pot"
##
## Welch Two Sample t-test
##
## data: data[[var]] by data$Acc
## t = -5.096, df = 16.496, p-value = 9.829e-05
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## -39.85533 -16.47800
## sample estimates:
## mean in group 0 mean in group 1
## 89.5000 117.6667
## [1] 0.3016585
## [1] -0.1546259
## [1] -0.2995256
Análisis de los resultados de las tres pruebas t realizadas para comparar las medias de las variables Edad, Experiencia (Exp) y Potencia del Motor (Pot) entre los dos grupos de siniestralidad (Acc = 0, sin accidente y Acc = 1, con accidente):
Hipótesis nula: La diferencia en las medias de Edad entre los conductores con y sin accidentes es igual a cero (no hay diferencia significativa).
El valor t es 0.9692, lo que indica que no hay una diferencia grande en las medias de Edad entre los dos grupos.
El valor p es 0.3433, que es mayor que el umbral común de significancia (0.05), lo que sugiere que no hay suficiente evidencia para rechazar la hipótesis nula.
El intervalo de confianza para la diferencia de medias va de -3.47 a 9.54, lo que incluye el valor 0, confirmando que no hay una diferencia estadísticamente significativa en las edades entre los dos grupos.
No hay una diferencia significativa en la Edad entre los conductores con y sin accidentes.
El valor t es 2.7239, lo que sugiere una diferencia moderada en las medias de Experiencia entre los dos grupos.
El valor p es 0.01159, que es menor que 0.05, lo que significa que hay suficiente evidencia para rechazar la hipótesis nula y concluir que existe una diferencia significativa en la Experiencia entre los conductores con y sin accidentes.
El intervalo de confianza para la diferencia de medias va de 1.03 a 7.40, lo que indica que la diferencia en las medias es positiva, es decir, los conductores sin accidentes tienen más experiencia en promedio que los conductores con accidentes.
Existe una diferencia significativa en la experiencia entre los conductores con y sin accidentes, y los conductores sin accidentes tienen más experiencia.
El valor t es -5.096, lo que sugiere una gran diferencia en las medias de Potencia del Motor entre los dos grupos.
El valor p es 9.829e-05 (es decir, muy pequeño), lo que indica que rechazamos la hipótesis nula con un alto nivel de confianza. Esto significa que hay una diferencia significativa en la potencia del motor entre los conductores con y sin accidentes.
El intervalo de confianza para la diferencia de medias va de -39.86 a -16.48, lo que indica que los conductores con accidentes tienen, en promedio, vehículos con más potencia que los conductores sin accidentes.
Existe una diferencia significativa en la potencia del motor entre los conductores con y sin accidentes, y los conductores con accidentes tienen, en promedio, vehículos con mayor potencia.
Modelo 1: Acc ~ Exp Modelo 2: Acc ~ Exp + genero
Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).
Observaciones del modelo 1:
Datos Observados: Los puntos rojos indican conductores que sufrieron un accidente, mientras que los puntos cian indican conductores que no sufrieron un accidente. Se observa que para experiencias inferiores a aproximadamente 5 años, todos los conductores tuvieron accidentes. A partir de esa experiencia, los conductores sin accidentes comienzan a aparecer en el gráfico.
Predicción del Modelo: La curva representa la probabilidad predicha por el modelo de regresión logística de tener un accidente en función de los años de experiencia. La curva muestra una clara tendencia decreciente: a medida que aumenta la experiencia de conducción, la probabilidad predicha de un accidente disminuye. Esto es intuitivamente lógico, ya que se espera que los conductores con más experiencia tengan menos accidentes.
Ajuste del Modelo: El ajuste del modelo parece razonablemente bueno para los datos con poca experiencia. Sin embargo, para los conductores con más experiencia la predicción se desvía algo de los datos observados, dando una probabilidad mayor de accidentes de lo que los datos indican. Es decir, el modelo sobreestima la probabilidad de accidentes para conductores con más experiencia. Esto podría indicar que otros factores no considerados en el modelo (como el sexo, la edad y la potencia del motor) influyen en la probabilidad de accidentes para conductores con mucha experiencia.
Observaciones del modelo 2:
Datos Observados: Similar al Modelo 1, los puntos rojos indican accidentes y los puntos cian indican ausencia de accidentes. Se observa una separación por sexo, lo que permite visualizar si hay diferencias en la relación entre experiencia y accidentes entre hombres y mujeres.
Predicción del Modelo: Dos curvas púrpuras representan las probabilidades predichas por el modelo para hombres y mujeres. Ambas muestran una tendencia decreciente de la probabilidad de accidente con el aumento de la experiencia. Esto refuerza la conclusión del Modelo 1 de que la experiencia reduce la probabilidad de accidentes.
Diferencias entre Sexos: Parece existir una diferencia notable entre hombres y mujeres. Para una misma experiencia, la curva para hombres sugiere una probabilidad de accidente consistentemente mayor que para mujeres. Esto indica que, incluso controlando por la experiencia, el sexo es un factor significativo en la predicción de accidentes. Podríamos esperar que el coeficiente del sexo en el modelo de regresión logística sea significativo y positivo para los hombres (mayor probabilidad) comparado con la categoría de referencia (mujeres).
Ajuste del Modelo: Como en el Modelo 1, el ajuste del modelo para conductores con mayor experiencia no parece perfecto. En ambos grupos (hombres y mujeres), existe una sobreestimación de la probabilidad de accidentes a medida que la experiencia aumenta. Esto sugiere que factores no incluidos en el modelo (potencia del motor, edad, interacciones entre variables) podrían ser importantes para una predicción más precisa.
##
## Call:
## glm(formula = Acc ~ Exp, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.9419 0.9816 1.978 0.0479 *
## Exp -0.2456 0.1044 -2.354 0.0186 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 40.006 on 33 degrees of freedom
## AIC: 44.006
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Acc ~ Exp + factor(Sexo), family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8890 1.2252 0.726 0.46808
## Exp -0.2400 0.1176 -2.040 0.04131 *
## factor(Sexo)2 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
Ecuación General de la Regresión Logística
La ecuación general para un modelo de regresión logística es la siguiente:
\[ \text{logit}(P(\text{Acc} = 1)) = \beta_0 + \beta_1 \cdot \text{Exp} + \beta_2 \cdot \text{Sexo} + \cdots + \beta_n \cdot X_n \]
Donde: - \(\beta_0\) es el intercepto. - \(\beta_1, \beta_2, \dots, \beta_n\) son los coeficientes de las variables explicativas (como Exp, Sexo, etc.). - \(X_1, X_2, \dots, X_n\) son las variables predictoras (en este caso, Exp, Sexo, etc.).
La probabilidad de que ocurra un accidente (siniestralidad) se obtiene de la siguiente fórmula:
\[ P(\text{Acc} = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot \text{Exp} + \beta_2 \cdot \text{Sexo} + \cdots)}} \]
1. Ecuación General:
\[ \text{logit}(P(\text{Acc} = 1)) = \beta_0 + \beta_1 \cdot \text{Exp} \]
2. Sustituyendo los valores del Modelo 1:
\[ \text{logit}(P(\text{Acc} = 1)) = 1.9419 - 0.2456 \cdot \text{Exp} \]
3. Calcular la probabilidad de accidente (Ecuación General):
\[ P(\text{Acc} = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot \text{Exp})}} \]
4. Calcular la probabilidad de accidente (Ecuación Final para el Modelo 1):
\[ P(\text{Acc} = 1) = \frac{1}{1 + e^{-(1.9419 - 0.2456 \cdot \text{Exp})}} \]
1. Ecuación General:
\[ \text{logit}(P(\text{Acc} = 1)) = \beta_0 + \beta_1 \cdot \text{Exp} + \beta_2 \cdot \text{Sexo} \]
2. Sustituyendo los valores del Modelo 2:
\[ \text{logit}(P(\text{Acc} = 1)) = 0.8890 - 0.2400 \cdot \text{Exp} + 2.9866 \cdot \text{Sexo} \]
3. Calcular la probabilidad de accidente (Ecuación General):
\[ P(\text{Acc} = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot \text{Exp} + \beta_2 \cdot \text{Sexo})}} \]
4. Calcular la probabilidad de accidente (Ecuación Final para el Modelo 2):
\[ P(\text{Acc} = 1) = \frac{1}{1 + e^{-(0.8890 - 0.2400 \cdot \text{Exp} + 2.9866 \cdot \text{Sexo})}} \]
A continuación, se presentan las métricas utilizadas para comparar los dos modelos:
La deviance es una medida de la bondad de ajuste de un modelo de regresión logística. Se define como el doble de la diferencia entre el logaritmo de la verosimilitud del modelo nulo (sin predictores) y el logaritmo de la verosimilitud del modelo ajustado (con los predictores):
\[ \text{Deviance} = -2 \cdot \left( \text{Log-likelihood del modelo ajustado} - \text{Log-likelihood del modelo nulo} \right) \]
## Modelo 1:
##
## Call:
## glm(formula = Acc ~ Exp, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.9419 0.9816 1.978 0.0479 *
## Exp -0.2456 0.1044 -2.354 0.0186 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 40.006 on 33 degrees of freedom
## AIC: 44.006
##
## Number of Fisher Scoring iterations: 4
## Modelo 2:
##
## Call:
## glm(formula = Acc ~ Exp + factor(Sexo), family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8890 1.2252 0.726 0.46808
## Exp -0.2400 0.1176 -2.040 0.04131 *
## factor(Sexo)2 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
Resultados del deviance:
Modelo 1: Acc ~ Exp
Modelo 2: Acc ~ Exp + Sexo
Comparación y análisis:
Null Deviance:
Residual Deviance:
El residual deviance de ambos modelos muestra el ajuste del modelo con los predictores.
El Modelo 1 (Acc ~ Exp) tiene una residual deviance de 40.006, mientras que el Modelo 2 (Acc ~ Exp + Sexo) tiene una residual deviance de 29.249.
Dado que el valor de la residual deviance del Modelo 2 es más bajo que el del Modelo 1, podemos decir que el Modelo 2 ajusta mejor los datos que el Modelo 1.
Interpretación:
Significado de la mejora:
En resumen:
El AIC (Criterio de Información de Akaike) es una medida que se utiliza para comparar modelos estadísticos. Se basa en la verosimilitud del modelo y penaliza por el número de parámetros incluidos en el modelo. La fórmula general es:
\[ AIC = -2 \cdot \ln(\text{Likelihood}) + 2 \cdot k \]
Donde:
El AIC permite seleccionar entre modelos: el modelo con el AIC más bajo es considerado el mejor modelo, ya que tiene un buen ajuste a los datos sin sobreajustarse.
## Modelo 1 AIC:
## [1] 44.00583
## Modelo 2 AIC:
## [1] 35.24875
Resultados del AIC:
Modelo 1: Acc ~ Exp
Modelo 2: Acc ~ Exp + Sexo
Comparación y Análisis:
Interpretación del AIC:
El Modelo 2 (Acc ~ Exp + Sexo) tiene un AIC más bajo (35.24875) en comparación con el Modelo 1 (Acc ~ Exp), que tiene un AIC de 44.00583.
Un AIC más bajo indica que el modelo tiene un mejor balance entre el ajuste a los datos y la complejidad del modelo (número de parámetros). En este caso, el Modelo 2, al incluir la variable “Sexo”, mejora el ajuste sin introducir demasiada complejidad adicional.
Significado de la diferencia en AIC:
En resumen:
La Curva ROC (Receiver Operating Characteristic) es una gráfica que evalúa el desempeño de un modelo de clasificación en función de sus tasas de verdaderos positivos (Sensibilidad) y falsos positivos (1 - Especificidad) a distintos puntos de corte. En otras palabras, muestra cómo cambia el rendimiento del modelo a medida que se ajustan los umbrales de clasificación.
El AUC (Área bajo la curva) es un valor numérico que mide la calidad de la curva ROC. El AUC tiene un rango de 0 a 1:
Un AUC de 1 indica un modelo perfecto.
Un AUC de 0.5 indica que el modelo no tiene capacidad de discriminación (equivalente a una clasificación aleatoria).
Un AUC cercano a 1 indica que el modelo tiene una buena capacidad de discriminación entre las clases.
## [1] "AUC del Modelo 1 (Acc ~ Exp): 0.8"
## [1] "AUC del Modelo 2 (Acc ~ Exp + Sexo): 0.87"
Resultados de la Curva ROC y AUC
Modelo 1: Acc ~ Exp
-
AUC: 0.8
Modelo 2: Acc ~ Exp + Sexo
-
AUC: 0.87
Comparación y Análisis:
AUC del Modelo 1:
AUC del Modelo 2:
En resumen:
El Test de Razón de Verosimilitud es una prueba estadística que se utiliza para comparar dos modelos de regresión y determinar si la adición de variables explicativas mejora significativamente el ajuste del modelo. En este contexto, el test compara un modelo reducido (con menos variables) y un modelo ampliado (con más variables). La hipótesis nula es que el modelo ampliado no mejora significativamente el ajuste en comparación con el modelo reducido.
Resid. Df: Grados de libertad residuales del modelo.
Resid. Dev: Devianza residual (una medida del ajuste del modelo).
Deviance: Diferencia entre las devianzas de los dos modelos comparados.
Pr(>Chi): Valor p asociado a la diferencia de devianzas.
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + factor(Sexo)
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 33 40.006
## 2 32 29.249 1 10.757 0.001039 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Resultados del Test de Razón de Verosimilitud
Modelo | Resid. Df | Resid. Dev | Df | Deviance | Pr(>Chi) |
---|---|---|---|---|---|
1 | 33 | 40.006 | |||
2 | 32 | 29.249 | 1 | 10.757 | 0.001039 ** |
Análisis y comparación:
En resumen:
El valor p obtenido en el test de razón de verosimilitud es 0.001039, lo que es significativamente menor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que el Modelo 2, que incluye la variable “Sexo”, mejora significativamente el ajuste en comparación con el Modelo 1 (solo con “Exp”).
En otras palabras, la inclusión de “Sexo” como variable predictora reduce la devianza y mejora la capacidad de predicción del modelo. Esto proporciona evidencia estadística para rechazar la hipótesis nula de que la inclusión de “Sexo” no mejora el modelo.
Selección del mejor modelo
Con base en las comparaciones previas, seleccionamos el Modelo 2 (Acc ~ Exp + Sexo) debido a los siguientes factores:
Deviance: El Modelo 2 tiene una residual deviance más baja (29.249) en comparación con el Modelo 1 (40.006), indicando un mejor ajuste del modelo.
AIC: El Modelo 2 presenta un AIC más bajo (35.24875) que el Modelo 1 (44.00583), lo que sugiere que el Modelo 2 es más eficiente al ajustar los datos con menos complejidad.
AUC: El Modelo 2 tiene un AUC de 0.87, superior al Modelo 1 (0.80), lo que implica una mejor capacidad discriminatoria.
En conjunto, el Modelo 2 tiene un mejor desempeño y ajuste que el Modelo 1, por lo que es el modelo seleccionado.
Ecuación del Modelo Seleccionado
El Modelo 2 tiene la siguiente ecuación de regresión logística:
\[ \log\left(\frac{P(Acc=1)}{1-P(Acc=1)}\right) = 0.8890 - 0.2400 \cdot \text{Exp} + 2.9866 \cdot \text{Sexo} \]
Donde:
Interpretación de los Coeficientes
1. Coeficiente de Intercepto (β₀ = 0.8890): - El intercepto representa la log-odds de un accidente cuando tanto Exp como Sexo son cero. - El valor positivo sugiere que, en ausencia de experiencia y con el sexo en la categoría base, la probabilidad de tener un accidente es mayor que la de no tenerlo.
2. Coeficiente de la Experiencia (β₁ = -0.2400): - El coeficiente negativo para Exp indica que, a medida que la experiencia aumenta, la probabilidad de tener un accidente disminuye. - Significancia: El valor p de 0.04131 es menor que 0.05, por lo que Exp es estadísticamente significativa. Esto confirma que la experiencia es una variable importante para predecir la probabilidad de accidente.
3. Coeficiente de Sexo (β₂ = 2.9866): - El coeficiente para Sexo es positivo, lo que sugiere que las mujeres tienen una probabilidad significativamente mayor de tener un accidente en comparación con los hombres. - Significancia: El valor p de 0.00518 es menor que 0.01, por lo que Sexo es altamente significativo en el modelo. Esto resalta la relevancia del sexo en la probabilidad de ocurrir un accidente.
Ahora, vamos a abordar el siguiente paso que es evaluar los indicadores de bondad de clasificación del Modelo 2 (que es el mejor modelo seleccionado en el punto anterior). Para hacer esto, vamos a:
1. Determinar el Mejor Punto de Corte
El punto de corte (o threshold) es el valor que usamos para convertir las probabilidades predichas en clases binarias (0 o 1). Elegir el punto de corte adecuado es crucial para balancear las métricas de desempeño como la sensibilidad y la especificidad.
Una forma común de elegir el mejor punto de corte es utilizando la curva ROC y el índice de Youden. El índice de Youden se calcula como:
\[ \text{Índice de Youden} = \text{Sensibilidad} + \text{Especificidad} - 1 \]
Queremos elegir el punto de corte donde el índice de Youden es máximo.
2. Calcular la Curva ROC y el Índice de Youden
Usaremos la función roc() de la librería pROC para calcular la curva ROC y luego determinar el mejor punto de corte.
## El mejor punto de corte es: 0.845
El mejor punto de corte es 0.845.
3. Clasificación en 0 y 1 Usando el Mejor Punto de Corte
Ahora, vamos a utilizar este punto de corte para convertir las probabilidades en predicciones binarias (0 o 1):
4. Calcular las Métricas de Desempeño
Ahora que tenemos las predicciones binarias, podemos calcular las siguientes métricas:
4.1. Matriz de Confusión
La matriz de confusión compara las predicciones con los valores reales.
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 20 6
## 1 0 9
##
## Accuracy : 0.8286
## 95% CI : (0.6635, 0.9344)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.001202
##
## Kappa : 0.6316
##
## Mcnemar's Test P-Value : 0.041227
##
## Sensitivity : 1.0000
## Specificity : 0.6000
## Pos Pred Value : 0.7692
## Neg Pred Value : 1.0000
## Prevalence : 0.5714
## Detection Rate : 0.5714
## Detection Prevalence : 0.7429
## Balanced Accuracy : 0.8000
##
## 'Positive' Class : 0
##
La matriz de confusión muestra los siguientes resultados:
Con base en estos valores, se puede observar que el modelo tiene un buen desempeño, dado que tiene pocos falsos negativos (FN = 0), lo que indica que no ha pasado por alto siniestros. Sin embargo, la presencia de falsos positivos (FP = 6) sugiere que el modelo podría estar sobreestimando la ocurrencia de accidentes en algunos casos.
Este comportamiento se refleja en la precisión y las métricas relacionadas como la sensibilidad y la especificidad, que pueden ser útiles para evaluar aún más el rendimiento del modelo.
4.2. Tasa General de Correcta Clasificación (Accuracy) La accuracy mide la proporción de clasificaciones correctas.
## Tasa General de Correcta Clasificación (Accuracy): 0.8285714
La tasa general de correcta clasificación del modelo es de 0.8286 (82.86%). Esto indica que el modelo tiene un buen desempeño general, ya que es capaz de clasificar correctamente un 82.86% de los casos, tanto siniestrales como no siniestrales.
4.3. Índice Kappa de Concordancia El índice Kappa mide la concordancia entre las predicciones y las observaciones reales, ajustado por azar.
## Índice Kappa de Concordancia: 0.6315789
El Índice Kappa de Concordancia es de 0.6316. Este valor sugiere una concordancia moderada entre las predicciones del modelo y los valores reales. Un valor de Kappa mayor a 0.6 indica una buena concordancia, lo que significa que el modelo está realizando clasificaciones correctas de manera razonablemente consistente.
4.4. Sensibilidad (Recall) La sensibilidad (o recall) mide la proporción de verdaderos positivos que el modelo ha identificado correctamente.
## Sensibilidad: 1
La Sensibilidad es 1, lo que indica que el modelo tiene una capacidad perfecta para identificar correctamente los casos positivos (Acc = 1). En otras palabras, no hay falsos negativos, lo que significa que todos los casos de accidente son correctamente clasificados como positivos.
4.5. Especificidad La especificidad mide la proporción de verdaderos negativos que el modelo ha identificado correctamente.
## Especificidad: 0.6
La Especificidad es 0.6, lo que significa que el modelo correctamente identifica el 60% de los casos negativos (Acc = 0). En otras palabras, el 40% restante de los casos negativos se clasifican erróneamente como positivos (falsos positivos).
4.6. F-Measure (F1 Score) El F1 Score es la media armónica entre la precisión y la sensibilidad.
## F-Measure (F1 Score): 0.8695652
El F-Measure es 0.8695652, lo que indica un buen balance entre la precisión y la sensibilidad del modelo. Un valor cercano a 1 sugiere que el modelo tiene un rendimiento sólido al clasificar correctamente tanto los casos positivos como los negativos, minimizando los errores tanto de falsos positivos como de falsos negativos.
1. Ajustar el nuevo modelo
Vamos a crear el nuevo modelo que incluye las variables edad y potencia del motor (Modelo 3: Acc ~ Exp + Sexo + Edad + Pot).
##
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -23.02338 9.90262 -2.325 0.0201 *
## Exp -0.47952 0.33645 -1.425 0.1541
## Sexo 3.04940 2.36426 1.290 0.1971
## Edad -0.02585 0.08801 -0.294 0.7689
## Pot 0.24687 0.10715 2.304 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 12.700 on 30 degrees of freedom
## AIC: 22.7
##
## Number of Fisher Scoring iterations: 8
2. Comparar los modelos Para comparar el Modelo 2 y el Modelo 3, utilizamos el test de razón de verosimilitud (likelihood ratio test). Este test compara la “bondad de ajuste” entre dos modelos de regresión y determina si el modelo con más variables explica significativamente mejor los datos.
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp + factor(Sexo)
## Model 2: Acc ~ Exp + Sexo + Edad + Pot
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 32 29.249
## 2 30 12.700 2 16.549 0.0002549 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis de los Resultados
En esta sección, hemos comparado el Modelo 2 (Acc ~ Exp + Sexo) con el Modelo 3 (Acc ~ Exp + Sexo + Edad + Pot), que incorpora las variables adicionales de Edad y Potencia del Motor para evaluar si estas variables mejoran significativamente el ajuste del modelo.
Comparación de la Devianza Residual
El Modelo 3 presenta una Devianza Residual de 12.700 con 30 grados de libertad, mientras que el Modelo 2 tiene una Devianza Residual de 29.249 con 32 grados de libertad.
Esta diferencia en la devianza sugiere una mejora significativa en el ajuste del modelo al añadir las nuevas variables.
El valor Pr(>Chi) = 0.0002549 obtenido en la prueba de razón de verosimilitud respalda esta mejora. Un valor de p tan bajo indica que la inclusión de Edad y Potencia del Motor mejora significativamente la capacidad predictiva del modelo.
Comparación del AIC
El AIC (Criterio de Información de Akaike) también muestra una mejora significativa al incorporar las variables adicionales.
El Modelo 3 tiene un AIC de 22.7, que es considerablemente más bajo que el AIC del Modelo 2 (35.249).
Un AIC más bajo sugiere que el Modelo 3 es más parsimonioso y proporciona un mejor ajuste a los datos, penalizando más fuertemente los modelos complejos si no mejoran el ajuste.
Interpretación de los Resultados
La mejora en la devianza y la reducción en el AIC indican que las variables Edad y Potencia del Motor aportan información adicional relevante para predecir la siniestralidad.
Sin embargo, es importante destacar que, aunque la variable Edad no es significativa en el Modelo 3 (p-value = 0.7689), la variable Potencia del Motor muestra un valor p de 0.0212, lo que indica que tiene una relación estadísticamente significativa con la probabilidad de sufrir un accidente.
Objetivo
Identificar los factores que influyen en la siniestralidad de los conductores utilizando modelos de regresión logística.
Hallazgos Clave
Experiencia: La experiencia muestra una relación significativa y negativa con la siniestralidad. A mayor experiencia, menor es la probabilidad de sufrir accidentes. Esto sugiere que los conductores con más tiempo de conducción tienden a ser más prudentes o experimentados en la gestión de situaciones de riesgo.
Sexo: El sexo tiene un impacto significativo, con las mujeres mostrando una mayor probabilidad de accidentes. Esto podría estar relacionado con diferencias en los patrones de conducción, aunque se recomienda un análisis más detallado para explorar las causas subyacentes.
Edad: La edad no resultó significativa en este análisis, lo que sugiere que, en este contexto específico, la edad no tiene un impacto directo sobre la siniestralidad. Sin embargo, esto puede variar dependiendo de otros factores no considerados en este modelo.
Potencia del Motor: La potencia del motor es un factor significativo y positivo. Los vehículos con motores más potentes presentan una mayor probabilidad de estar involucrados en accidentes, lo que podría deberse a una mayor velocidad o una conducción más agresiva asociada con estos vehículos.
Comparación de Modelos
El Modelo 3 (Acc ~ Exp + Sexo + Edad + Pot) es el más adecuado, con una Devianza Residual de 12.700 y un AIC de 22.7, lo que indica una mejora significativa en el ajuste del modelo respecto al Modelo 2 (Acc ~ Exp + Sexo). La diferencia en la Devianza es significativa (Pr(>Chi) = 0.0002549), lo que demuestra que la adición de las variables Edad y Potencia del Motor mejora considerablemente la capacidad predictiva del modelo.
El AUC del Modelo 3 es 0.87, lo que indica un buen rendimiento en términos de discriminación entre los conductores que sufren accidentes y los que no. Este valor es superior al AUC del Modelo 2 (0.80), lo que resalta la mejora en la capacidad del modelo para clasificar correctamente los casos de siniestralidad.
Conclusión
El Modelo 3 es el modelo más robusto y adecuado para predecir la siniestralidad, ya que incluye las variables Experiencia, Sexo, Edad y Potencia del Motor, logrando una mejor capacidad predictiva y un ajuste superior al Modelo 2. Los factores más influyentes en la siniestralidad son la Experiencia (con una relación negativa) y la Potencia del Motor (con una relación positiva).
A pesar de que la Edad no mostró un impacto significativo, la inclusión de esta variable y la Potencia del Motor permiten una mejor clasificación de los conductores en cuanto a su probabilidad de estar involucrados en accidentes. Se recomienda que la compañía considere estos factores al momento de diseñar estrategias de prevención y gestión de riesgos, con especial énfasis en los conductores con menor experiencia y aquellos que conducen vehículos con alta potencia.