Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).
Coeficiente de Correlacion HDD
## [1] 0.9640003
Coeficiente de Correlacion SSD
## [1] 0.9938293
Las gráficas muestran una dispersión de puntos que sugiere una relación positiva entre la carga del sistema y el tiempo de respuesta. La mayoría de los puntos parecen seguir una tendencia ascendente, indicando que a medida que la carga del sistema aumenta, el tiempo de respuesta también tiende a aumentar.
Al validar los coeficientes de correlacion, se indica una correlación extremadamente alta y positiva entre la carga del sistema y el tiempo de respuesta. Esta alta correlación sugiere que el tiempo de respuesta de los SDD y HDD aumenta casi linealmente con el aumento de la carga del sistema.
##
## Call:
## lm(formula = tiempo ~ carga, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16824 -0.40281 -0.03945 0.43541 1.07627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04838 0.26321 0.184 0.856
## carga 0.49214 0.04177 11.783 3.18e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
## F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
## `geom_smooth()` using formula = 'y ~ x'
Bondad de Ajuste:
R-squared: Indica la proporción de la variabilidad en la variable respuesta (tiempo de respuesta) que puede ser explicada por la variable predictora (carga del sistema). Un valor más alto indica un mejor ajuste del modelo.
P-value del modelo: Evalúa la significancia estadística del modelo. Un valor p bajo (generalmente < 0.05) sugiere que el modelo es estadísticamente significativo.
Interpretación de los Resultados:
Coeficiente de la Carga: Indica cuánto cambia el tiempo de respuesta por cada unidad adicional de carga del sistema. Si el coeficiente es positivo, sugiere que el tiempo de respuesta aumenta con la carga del sistema.
Intercepto: Valor del tiempo de respuesta cuando la carga del sistema es cero.
y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2.
##
## Call:
## lm(formula = tiempo ~ carga * conf, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.68547 -0.11333 0.06881 0.15302 0.41807
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.37549 0.20902 -6.581 1.62e-06 ***
## carga 0.71979 0.03367 21.376 9.88e-16 ***
## conf 2.26391 0.26520 8.536 2.86e-08 ***
## carga:conf -0.35734 0.04227 -8.454 3.36e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared: 0.9692, Adjusted R-squared: 0.9648
## F-statistic: 220.2 on 3 and 21 DF, p-value: 5.042e-16
## `geom_smooth()` using formula = 'y ~ x'
Bondad de Ajuste:
R-squared: ver el R2 del modelo para evaluar qué proporción de la variabilidad en el tiempo de respuesta puede ser explicada por el modelo. P-value del modelo: Evaluar la significancia estadística del modelo y de cada coeficiente.
Interpretación de los Coeficientes:
Intercepto: Tiempo de respuesta para SDD cuando la carga es cero.
Carga: Cambio en el tiempo de respuesta por unidad adicional de carga para SDD.
Conf (HDD): Diferencia en el tiempo de respuesta entre HDD y SDD cuando la carga es cero.
Interacción Carga * Conf: Diferencia en el cambio del tiempo de respuesta por unidad adicional de carga entre HDD y SDD.
## Analysis of Variance Table
##
## Model 1: tiempo ~ carga
## Model 2: tiempo ~ carga * conf
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 23 7.8375
## 2 21 1.6990 2 6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El resultado del test ANOVA proporciona información sobre si el modelo más complejo (Modelo 2) mejora significativamente el ajuste en comparación con el modelo más simple (Modelo 1). Teniendo en cuenta que el valor p es mucho menor que 0.05, la inclusión de la variable conf y su interacción con carga mejora significativamente el ajuste del modelo.
## [1] "Prueba de Shapiro-Wilk para normalidad: p-valor = 0.332297093388436"
## [1] "Prueba de Breusch-Pagan para homocedasticidad: p-valor = 0.443205932310226"
## [1] "Prueba de Durbin-Watson para independencia: p-valor = 0.0342127297210409"
## there are higher-order terms (interactions) in this model
## consider setting type = 'predictor'; see ?vif
## [1] "Factores de Inflación de Varianza (VIF):"
## carga conf carga:conf
## 2.737837 5.424736 7.046725
En resumen, ambos tipos de discos duros experimentan un aumento en el tiempo de respuesta a medida que aumenta la carga del sistema, pero los SDD tienden a tener una relación más lineal y predecible, mientras que los HDD muestran más variabilidad. Esto podría ser un factor importante a considerar al elegir el tipo de disco para sistemas que manejan altas cargas de trabajo. Teniendo en cuenta que el R² ha aumentado significativamente, los coeficientes son estadísticamente significativos, y los gráficos de diagnóstico se ven bien, podemos concluir que el Modelo 2 es superior al Modelo 1. Esto indicaría que incluir el tipo de disco y su interacción con la carga mejora significativamente nuestra capacidad de predecir el tiempo de respuesta.
Una compañía de seguros de automóvil desea caracterizar la siniestralidad de sus asegurados durante el último año. Para ello dispone información de una muestra aleatoria de 35 asegurados con la siguiente información (accidentes.xlsx).
Aqui el resumen de los datos cargados:
## Acc Exp Edad Pot Sexo
## Min. :0.0000 Min. : 1.000 Min. :20 Min. : 70.0 Min. :1.0
## 1st Qu.:0.0000 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 1st Qu.:1.0
## Median :0.0000 Median : 9.000 Median :29 Median : 95.0 Median :1.0
## Mean :0.4286 Mean : 9.543 Mean :31 Mean :101.6 Mean :1.4
## 3rd Qu.:1.0000 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0 3rd Qu.:2.0
## Max. :1.0000 Max. :20.000 Max. :56 Max. :150.0 Max. :2.0
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
Modelo 1: Acc ~ Exp Modelo 2: Acc ~ Exp + genero
Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
Coeficientes del Modelo 1
## (Intercept) Exp
## 1.941925 -0.245607
Coeficientes del Modelo 2
## (Intercept) Exp factor(Sexo)2
## 0.8890341 -0.2399985 2.9865699
Ecuaciones
## Modelo 1: logit(P) = 1.941925 + -0.245607 * Exp
## Modelo 2: logit(P) = 0.8890341 + -0.2399985 * Exp + 2.98657 * factor(Sexo)2
## Modelo 1: Deviance = 40.00583 , AIC = 44.00583
## Modelo 2: Deviance = 29.24875 , AIC = 35.24875
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## Modelo 1: AUC = 0.7983333
## Modelo 2: AUC = 0.8683333
## Analysis of Deviance Table
##
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + factor(Sexo)
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 33 40.006
## 2 32 29.249 1 10.757 0.001039 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
De estos resultados, observamos que el Modelo 2 tiene menor Deviance y AIC, y un mayor AUC, lo cual sugiere que el Modelo 2 proporciona un mejor ajuste.
Coeficientes Modelo 2
##
## Call:
## glm(formula = Acc ~ Exp + factor(Sexo), family = binomial, data = datos)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.8890 1.2252 0.726 0.46808
## Exp -0.2400 0.1176 -2.040 0.04131 *
## factor(Sexo)2 2.9866 1.0683 2.796 0.00518 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 47.804 on 34 degrees of freedom
## Residual deviance: 29.249 on 32 degrees of freedom
## AIC: 35.249
##
## Number of Fisher Scoring iterations: 5
Interpretación de los coeficientes:
Intercepto (0.8890): El logaritmo de las odds de tener un accidente para un conductor mujer (Sexo = 1) con 0 años de experiencia es -0.8890.
Experiencia (-0.2400): Por cada año adicional de experiencia, el logaritmo de las odds de tener un accidente aumenta en -0.2400, lo que significa que la probabilidad de tener un accidente disminuye con la experiencia.
Sexo (2.9866): Ser hombre (Sexo = 2) en lugar de mujer aumenta el logaritmo de las odds de tener un accidente en 2.9866, lo que indica que los hombres tienen una mayor probabilidad de tener un accidente en comparación con las mujeres, manteniendo constantes las demás variables.
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## Mejor punto de corte: 0.8449838
## Longitud de predicciones: 35
## Longitud de datos$Acc: 35
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 20 6
## 1 0 9
##
## Accuracy : 0.8286
## 95% CI : (0.6635, 0.9344)
## No Information Rate : 0.5714
## P-Value [Acc > NIR] : 0.001202
##
## Kappa : 0.6316
##
## Mcnemar's Test P-Value : 0.041227
##
## Sensitivity : 1.0000
## Specificity : 0.6000
## Pos Pred Value : 0.7692
## Neg Pred Value : 1.0000
## Prevalence : 0.5714
## Detection Rate : 0.5714
## Detection Prevalence : 0.7429
## Balanced Accuracy : 0.8000
##
## 'Positive' Class : 0
##
## Precisión: 0.8285714
## Sensibilidad: 1
## Especificidad: 0.6
## Valor Predictivo Positivo (PPV): 0.7692308
## Valor Predictivo Negativo (NPV): 1
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## Min. :30.0 Min. :12.70 Min. :2 Min. :16.55 Min. :0.0002549
## 1st Qu.:30.5 1st Qu.:16.84 1st Qu.:2 1st Qu.:16.55 1st Qu.:0.0002549
## Median :31.0 Median :20.97 Median :2 Median :16.55 Median :0.0002549
## Mean :31.0 Mean :20.97 Mean :2 Mean :16.55 Mean :0.0002549
## 3rd Qu.:31.5 3rd Qu.:25.11 3rd Qu.:2 3rd Qu.:16.55 3rd Qu.:0.0002549
## Max. :32.0 Max. :29.25 Max. :2 Max. :16.55 Max. :0.0002549
## NA's :1 NA's :1 NA's :1
Teniendo en cuenta que el p-valor es menor que el nivel de significancia (usualmente 0.05), tenemos evidencia suficiente para decir que el modelo2 extendido tiene una mejor bondad de ajuste que el modelo2 simple, y por lo tanto, las variables adicionadas mejoran significativamente el modelo.
Hemos realizado un análisis exploratorio y de modelación estadística para identificar los factores que afectan la siniestralidad en una muestra de 35 asegurados. El análisis incluyó la construcción de modelos de regresión logística para evaluar la relación entre la siniestralidad (Acc) y las variables de experiencia (Exp), sexo (Sexo), edad (Edad) y potencia del motor (Pot).
Hallazgos Clave:
La experiencia y el sexo del asegurado son predictores significativos de la siniestralidad. Los modelos indican que a mayor experiencia, aumenta la probabilidad de siniestralidad, y ser mujer está asociado con una menor probabilidad de siniestralidad en comparación con ser hombre. Al añadir las variables de edad y potencia del motor al modelo, se observó una mejora significativa en la bondad de ajuste, lo que sugiere que estas variables también influyen en la siniestralidad. El análisis estadístico proporciona una base sólida para la toma de decisiones estratégicas en la gestión de riesgos y la definición de políticas de seguros.
Universidad del Valle - Junio 15 de 2024