En este estudio, se analizan datos sobre el tiempo de respuesta de dos tipos de discos duros (SSD y HDD) bajo diferentes niveles de carga del sistema. Inicialmente, se realizó un vistazo a los datos para identificar posibles valores faltantes que podrían afectar la calidad del modelo. Afortunadamente, no se encontraron datos faltantes. Además, se llevó a cabo un análisis descriptivo general para comprender mejor las características principales de las variables.
## Conf Carga Tiempo
## 1 HDD 1.0 0.9
## 2 SSD 2.0 0.3
## 3 HDD 2.4 2.0
## 4 SSD 3.1 0.8
## 5 HDD 4.0 2.7
## 6 HDD 4.3 2.6
## 7 SSD 5.8 2.5
## 8 SSD 6.6 3.2
## 9 SSD 7.5 3.7
## 10 HDD 8.0 3.9
Se exploró la relación entre la carga del sistema y el tiempo de respuesta para ambos tipos de discos mediante un diagrama de dispersión. Los resultados mostraron una fuerte correlación positiva entre estas variables.
## Tipo correlacion
## 1 SSD 0.9938293
## 2 HDD 0.9640003
Los coeficientes de correlación, calculados por separado para SSD y HDD, confirmaron esta observación:
SSD: 0.9938293
HDD: 0.9640003
Estas correlaciones indican una relación lineal significativa, lo que justifica el ajuste de un modelo de regresión lineal.
Se ajustó un modelo de regresión lineal simple (Modelo 1) que relaciona el tiempo de respuesta con la carga, sin considerar el tipo de disco.
##
## Call:
## lm(formula = Tiempo ~ Carga, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16824 -0.40281 -0.03945 0.43541 1.07627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04838 0.26321 0.184 0.856
## Carga 0.49214 0.04177 11.783 3.18e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
## F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
Donde, en promedio, por cada unidad adicional en la carga, el tiempo de respuesta del disco aumenta en 0.49214 segundos.
Resultados clave: p-valor: Muy pequeño, indicando que el modelo es estadísticamente significativo. R-cuadrado ajustado: 0.8517, lo que sugiere que el 85% de la variabilidad en el tiempo de respuesta está explicada por la carga.
En conclusión, el Modelo 1 es adecuado para describir la relación general entre la carga y el tiempo de respuesta.
En el Modelo 2, se incluyó la variable cualitativa “tipo de disco” y su interacción con la carga, lo que permite diferenciar las relaciones entre las variables para SSD y HDD.
##
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.68547 -0.11333 0.06881 0.15302 0.41807
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.37549 0.20902 -6.581 1.62e-06 ***
## Carga 0.71979 0.03367 21.376 9.88e-16 ***
## ConfHDD 2.26391 0.26520 8.536 2.86e-08 ***
## Carga:ConfHDD -0.35734 0.04227 -8.454 3.36e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared: 0.9692, Adjusted R-squared: 0.9648
## F-statistic: 220.2 on 3 and 21 DF, p-value: 5.042e-16
El Modelo 2 es superior debido a su R-cuadrado ajustado de 0.9648, lo que indica un mejor ajuste. Además, los resultados muestran que los SSD presentan mejor velocidad, ya que su pendiente es negativa (-0.35), lo que significa que su tiempo de respuesta mejora bajo mayor carga. En cambio, los HDD tienen una pendiente de 2.26, lo que indica que su tiempo de respuesta empeora con la carga.
Se realizó un test ANOVA para evaluar la variable cualitativa “Conf” como afecta el modelo, lo que resultó en una mejora significativa en el modelo (p < 0.001). El p-valor extremadamente bajo demuestra que existe una diferencia significativa entre los modelos. En consecuencia, se concluye que el Modelo 2, que incluye la interacción entre la carga y la configuración del disco, es estadísticamente superior al Modelo 1, que solo considera la carga del sistema.
## Analysis of Variance Table
##
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga * Conf
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 23 7.8375
## 2 21 1.6990 2 6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El Modelo 2, que incluye la interacción entre la carga del sistema y el tipo de disco, mejora significativamente la explicación de los resultados en comparación con el Modelo 1, con una mejora aproximada del 11% en el ajuste, como lo refleja el R-cuadrado ajustado. Este modelo proporciona una descripción más precisa de cómo varía el tiempo de respuesta según el tipo de disco (SSD o HDD). Los resultados muestran que un disco SSD presenta un mejor rendimiento en términos de tiempo de respuesta frente a un HDD, ya que su tiempo de respuesta es considerablemente mejor frente a un disco HDD bajo las mismas condiciones.
En este análisis exploratorio, se estudia la asociación entre la
siniestralidad (variable Acc) y el conjunto de variables
predictoras: Exp (años de experiencia), Edad
(edad del conductor), Pot (potencia del motor) y
Sexo (género del conductor).
## # A tibble: 6 × 5
## Acc Exp Edad Pot Sexo
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0 10 30 90 1
## 2 0 15 40 85 1
## 3 0 7 25 95 1
## 4 1 1 21 145 2
## 5 0 10 29 70 1
## 6 1 2 20 120 2
## Acc Exp Edad Pot Sexo
## Min. :0.0000 Min. : 1.000 Min. :20 Min. : 70.0 Min. :1.0
## 1st Qu.:0.0000 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 1st Qu.:1.0
## Median :0.0000 Median : 9.000 Median :29 Median : 95.0 Median :1.0
## Mean :0.4286 Mean : 9.543 Mean :31 Mean :101.6 Mean :1.4
## 3rd Qu.:1.0000 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0 3rd Qu.:2.0
## Max. :1.0000 Max. :20.000 Max. :56 Max. :150.0 Max. :2.0
Se observa que:
##
## Call:
## glm(formula = Acc ~ Exp, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.9419 0.9816 1.978 0.0479 *
## Exp -0.2456 0.1044 -2.354 0.0186 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 40.006 on 33 degrees of freedom
## AIC: 44.006
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.0975 1.5546 -1.349 0.17725
## Exp -0.2400 0.1176 -2.040 0.04131 *
## Sexo 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
## Ecuación Modelo 1: Logit(Acc) = 1.941925 + -0.245607 * Exp
## Ecuación Modelo 2: Logit(Acc) = -2.097536 + -0.2399985 * Exp + 2.98657 * Sexo
## Deviance Modelo 1: 40.00583
## Deviance Modelo 2: 29.24875
## AIC Modelo 1: 44.00583
## AIC Modelo 2: 35.24875
## AUC Modelo 1: 0.7983333
## AUC Modelo 2: 0.8683333
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + Sexo
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 33 40.006
## 2 32 29.249 1 10.757 0.001039 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Con base en los resultados:
Por lo tanto, se concluye que incluir la variable Sexo
mejora el ajuste del modelo de siniestralidad.
##
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.0975 1.5546 -1.349 0.17725
## Exp -0.2400 0.1176 -2.040 0.04131 *
## Sexo 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
## Coeficientes del Modelo 2:
## (Intercept) Exp Sexo
## -2.0975357 -0.2399985 2.9865699
## El intercepto representa la probabilidad base de un accidente cuando la experiencia y el género están en su valor de referencia.
## El coeficiente de Exp indica que, a medida que aumentan los años de experiencia, la probabilidad de accidente disminuye.
## El coeficiente de Sexo (hombre vs mujer) sugiere que los hombres tienen una mayor probabilidad de accidente en comparación con las mujeres, manteniendo constante la experiencia.
El Modelo 2, que incluye la variable Sexo, es el mejor
modelo basado en AIC y AUC. Los coeficientes indican que:
Exp), menor probabilidad de
accidente.Sexo) tiene un efecto significativo,
sugiriendo que hay diferencias de riesgo asociadas al género.## Punto de corte óptimo: 0.8449838
## Matriz de confusión:
## Predicho
## Real 0 1
## 0 20 0
## 1 6 9
## Precisión: 0.8285714
## Sensibilidad: 0.6
## Especificidad: 1
El modelo tiene un buen desempeño clasificatorio, con valores elevados de precisión, sensibilidad y especificidad. Esto valida su utilidad para predecir siniestralidad basada en las variables consideradas.
##
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -23.02338 9.90262 -2.325 0.0201 *
## Exp -0.47952 0.33645 -1.425 0.1541
## Sexo 3.04940 2.36426 1.290 0.1971
## Edad -0.02585 0.08801 -0.294 0.7689
## Pot 0.24687 0.10715 2.304 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 12.700 on 30 degrees of freedom
## AIC: 22.7
##
## Number of Fisher Scoring iterations: 8
## Deviance Modelo 2: 29.24875
## Deviance Modelo 3: 12.69953
## AIC Modelo 2: 35.24875
## AIC Modelo 3: 22.69953
## Comparación ANOVA entre Modelo 2 y Modelo 3:
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp + Sexo
## Model 2: Acc ~ Exp + Sexo + Edad + Pot
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 32 29.249
## 2 30 12.700 2 16.549 0.0002549 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## AUC Modelo 2: 0.8683333
## AUC Modelo 3: 0.9666667
##
## Análisis de los coeficientes del Modelo 3:
##
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = binomial,
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -23.02338 9.90262 -2.325 0.0201 *
## Exp -0.47952 0.33645 -1.425 0.1541
## Sexo 3.04940 2.36426 1.290 0.1971
## Edad -0.02585 0.08801 -0.294 0.7689
## Pot 0.24687 0.10715 2.304 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 12.700 on 30 degrees of freedom
## AIC: 22.7
##
## Number of Fisher Scoring iterations: 8
La inclusión de las variables Edad y Pot
mejora significativamente el ajuste del modelo, como se observa en el
test de razón de verosimilitud.
ANOVA muestra una mejora estadísticamente significativa al incluir Edad y Pot. Reducción en AIC y Deviance. AUC del Modelo 3 es mayor, indicando mejor capacidad predictiva.
Exp: A mayor experiencia, menor probabilidad de accidente. Sexo: Los hombres tienen mayor probabilidad de accidentes. Edad: Conductores más jóvenes tienen mayor probabilidad de accidentes. Pot: Vehículos más potentes se asocian con mayor siniestralidad.
Las curvas ROC y los gráficos de ajuste evidencian que el Modelo 3 representa mejor los datos.
Con base en los análisis realizados, se concluye que:
Recomendaciones para la Compañía de Seguros:
Años de Experiencia: Diseñar estrategias para mitigar el riesgo en conductores con poca experiencia, como cursos obligatorios de manejo defensivo.
Género: Considerar los riesgos diferenciados entre hombres y mujeres al evaluar las primas de seguro, sin incurrir en sesgos.
Edad: Ofrecer programas educativos y seguros especializados para conductores jóvenes, quienes presentan mayor siniestralidad.
Potencia del Motor: Implementar primas diferenciadas según la potencia del vehículo, ya que esta se asocia a un mayor riesgo.
Conclusión General:
El Modelo 3 proporciona una herramienta robusta para identificar los factores más significativos asociados a la siniestralidad y predecir con precisión el riesgo de accidentes. La compañía puede utilizar este modelo para ajustar primas, diseñar políticas de prevención y priorizar clientes según el riesgo estimado.