Caso 1: Discos Duros HDD y SDD

Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).

1 - Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.

Coeficiente de Correlacion HDD

## [1] 0.9640003

Coeficiente de Correlacion SSD

## [1] 0.9938293

Las gráficas muestran una dispersión de puntos que sugiere una relación positiva entre la carga del sistema y el tiempo de respuesta. La mayoría de los puntos parecen seguir una tendencia ascendente, indicando que a medida que la carga del sistema aumenta, el tiempo de respuesta también tiende a aumentar.

Al validar los coeficientes de correlacion, se indica una correlación extremadamente alta y positiva entre la carga del sistema y el tiempo de respuesta. Esta alta correlación sugiere que el tiempo de respuesta de los SDD y HDD aumenta casi linealmente con el aumento de la carga del sistema.

2 - Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.

## 
## Call:
## lm(formula = tiempo ~ carga, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11

## `geom_smooth()` using formula = 'y ~ x'

Bondad de Ajuste:

R-squared: Indica la proporción de la variabilidad en la variable respuesta (tiempo de respuesta) que puede ser explicada por la variable predictora (carga del sistema). Un valor más alto indica un mejor ajuste del modelo.

P-value del modelo: Evalúa la significancia estadística del modelo. Un valor p bajo (generalmente < 0.05) sugiere que el modelo es estadísticamente significativo.

Interpretación de los Resultados:

Coeficiente de la Carga: Indica cuánto cambia el tiempo de respuesta por cada unidad adicional de carga del sistema. Si el coeficiente es positivo, sugiere que el tiempo de respuesta aumenta con la carga del sistema.

Intercepto: Valor del tiempo de respuesta cuando la carga del sistema es cero.

3 - Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy)

y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2.

## 
## Call:
## lm(formula = tiempo ~ carga * conf, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68547 -0.11333  0.06881  0.15302  0.41807 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.37549    0.20902  -6.581 1.62e-06 ***
## carga        0.71979    0.03367  21.376 9.88e-16 ***
## conf         2.26391    0.26520   8.536 2.86e-08 ***
## carga:conf  -0.35734    0.04227  -8.454 3.36e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared:  0.9692, Adjusted R-squared:  0.9648 
## F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16

## `geom_smooth()` using formula = 'y ~ x'

Bondad de Ajuste:

R-squared: ver el R2 del modelo para evaluar qué proporción de la variabilidad en el tiempo de respuesta puede ser explicada por el modelo. P-value del modelo: Evaluar la significancia estadística del modelo y de cada coeficiente.

Interpretación de los Coeficientes:

Intercepto: Tiempo de respuesta para SDD cuando la carga es cero.

Carga: Cambio en el tiempo de respuesta por unidad adicional de carga para SDD.

Conf (HDD): Diferencia en el tiempo de respuesta entre HDD y SDD cuando la carga es cero.

Interacción Carga * Conf: Diferencia en el cambio del tiempo de respuesta por unidad adicional de carga entre HDD y SDD.

4 - Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo.

## Analysis of Variance Table
## 
## Model 1: tiempo ~ carga
## Model 2: tiempo ~ carga * conf
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     23 7.8375                                  
## 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El resultado del test ANOVA proporciona información sobre si el modelo más complejo (Modelo 2) mejora significativamente el ajuste en comparación con el modelo más simple (Modelo 1). Teniendo en cuenta que el valor p es mucho menor que 0.05, la inclusión de la variable conf y su interacción con carga mejora significativamente el ajuste del modelo.

5 - Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.

## [1] "Prueba de Shapiro-Wilk para normalidad: p-valor = 0.332297093388436"

## [1] "Prueba de Breusch-Pagan para homocedasticidad: p-valor = 0.443205932310226"

## [1] "Prueba de Durbin-Watson para independencia: p-valor = 0.0342127297210409"

## there are higher-order terms (interactions) in this model
## consider setting type = 'predictor'; see ?vif

## [1] "Factores de Inflación de Varianza (VIF):"

##      carga       conf carga:conf 
##   2.737837   5.424736   7.046725

6 - Conclusion General.

En resumen, ambos tipos de discos duros experimentan un aumento en el tiempo de respuesta a medida que aumenta la carga del sistema, pero los SDD tienden a tener una relación más lineal y predecible, mientras que los HDD muestran más variabilidad. Esto podría ser un factor importante a considerar al elegir el tipo de disco para sistemas que manejan altas cargas de trabajo. Teniendo en cuenta que el R² ha aumentado significativamente, los coeficientes son estadísticamente significativos, y los gráficos de diagnóstico se ven bien, podemos concluir que el Modelo 2 es superior al Modelo 1. Esto indicaría que incluir el tipo de disco y su interacción con la carga mejora significativamente nuestra capacidad de predecir el tiempo de respuesta.

Caso 2: Caracterización de Siniestros

Una compañía de seguros de automóvil desea caracterizar la siniestralidad de sus asegurados durante el último año. Para ello dispone información de una muestra aleatoria de 35 asegurados con la siguiente información (accidentes.xlsx).

Aqui el resumen de los datos cargados:

##       Acc              Exp              Edad         Pot             Sexo    
##  Min.   :0.0000   Min.   : 1.000   Min.   :20   Min.   : 70.0   Min.   :1.0  
##  1st Qu.:0.0000   1st Qu.: 6.500   1st Qu.:25   1st Qu.: 90.0   1st Qu.:1.0  
##  Median :0.0000   Median : 9.000   Median :29   Median : 95.0   Median :1.0  
##  Mean   :0.4286   Mean   : 9.543   Mean   :31   Mean   :101.6   Mean   :1.4  
##  3rd Qu.:1.0000   3rd Qu.:12.000   3rd Qu.:36   3rd Qu.:110.0   3rd Qu.:2.0  
##  Max.   :1.0000   Max.   :20.000   Max.   :56   Max.   :150.0   Max.   :2.0

1 - Con herramientas del análisis exploratorio, estudie la asociación entre la siniestralidad y el conjunto de variables predictoras (Edad, Experiencia, Potencia del motor y Sexo).

## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero
## Warning in cor(x, y): the standard deviation is zero

2 - Utilice la función glm, del software R, para ajustar los siguientes modelos de regresión logística:

Modelo 1: Acc ~ Exp Modelo 2: Acc ~ Exp + genero

Represente gráficamente el ajuste de los 2 modelos (observados vs predichos).

## `geom_smooth()` using formula = 'y ~ x'

## `geom_smooth()` using formula = 'y ~ x'

3 - Escriba las ecuaciones de pronóstico asociadas a los 2 modelos.

Coeficientes del Modelo 1

## (Intercept)         Exp 
##    1.941925   -0.245607

Coeficientes del Modelo 2

##   (Intercept)           Exp factor(Sexo)2 
##     0.8890341    -0.2399985     2.9865699

Ecuaciones

## Modelo 1: logit(P) =  1.941925  +  -0.245607  * Exp

## Modelo 2: logit(P) =  0.8890341  +  -0.2399985  * Exp +  2.98657  * factor(Sexo)2

4 - A través de indicadores de bondad de ajuste (incluyendo Deviance, AIC, la curva ROC, el AUC y los test de razón de verosimilitud correspondientes), evalúe y compare el ajuste de los 2 modelos anteriores.

## Modelo 1: Deviance = 40.00583 , AIC = 44.00583

## Modelo 2: Deviance = 29.24875 , AIC = 35.24875

## Setting levels: control = 0, case = 1

## Setting direction: controls < cases

## Setting levels: control = 0, case = 1

## Setting direction: controls < cases

## Modelo 1: AUC = 0.7983333

## Modelo 2: AUC = 0.8683333

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + factor(Sexo)
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
## 1        33     40.006                        
## 2        32     29.249  1   10.757 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5 - Seleccione el mejor de los modelos anteriores, interprete los coeficientes estimados y valide su significancia.

De estos resultados, observamos que el Modelo 2 tiene menor Deviance y AIC, y un mayor AUC, lo cual sugiere que el Modelo 2 proporciona un mejor ajuste.

Coeficientes Modelo 2

## 
## Call:
## glm(formula = Acc ~ Exp + factor(Sexo), family = binomial, data = datos)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)   
## (Intercept)     0.8890     1.2252   0.726  0.46808   
## Exp            -0.2400     0.1176  -2.040  0.04131 * 
## factor(Sexo)2   2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

Interpretación de los coeficientes:

Intercepto (0.8890): El logaritmo de las odds de tener un accidente para un conductor mujer (Sexo = 1) con 0 años de experiencia es -0.8890.

Experiencia (-0.2400): Por cada año adicional de experiencia, el logaritmo de las odds de tener un accidente aumenta en -0.2400, lo que significa que la probabilidad de tener un accidente disminuye con la experiencia.

Sexo (2.9866): Ser hombre (Sexo = 2) en lugar de mujer aumenta el logaritmo de las odds de tener un accidente en 2.9866, lo que indica que los hombres tienen una mayor probabilidad de tener un accidente en comparación con las mujeres, manteniendo constantes las demás variables.

6 - Para el modelo seleccionado en el punto v. evalúe los indicadores de bondad de clasificación (luego de identificar el mejor punto de corte).

## Setting levels: control = 0, case = 1

## Setting direction: controls < cases

## Mejor punto de corte: 0.8449838

## Longitud de predicciones: 35

## Longitud de datos$Acc: 35

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction  0  1
##          0 20  6
##          1  0  9
##                                           
##                Accuracy : 0.8286          
##                  95% CI : (0.6635, 0.9344)
##     No Information Rate : 0.5714          
##     P-Value [Acc > NIR] : 0.001202        
##                                           
##                   Kappa : 0.6316          
##                                           
##  Mcnemar's Test P-Value : 0.041227        
##                                           
##             Sensitivity : 1.0000          
##             Specificity : 0.6000          
##          Pos Pred Value : 0.7692          
##          Neg Pred Value : 1.0000          
##              Prevalence : 0.5714          
##          Detection Rate : 0.5714          
##    Detection Prevalence : 0.7429          
##       Balanced Accuracy : 0.8000          
##                                           
##        'Positive' Class : 0               
##

## Precisión: 0.8285714

## Sensibilidad: 1

## Especificidad: 0.6

## Valor Predictivo Positivo (PPV): 0.7692308

## Valor Predictivo Negativo (NPV): 1

7 - Determine si existe una mejora significativa en el modelo seleccionado, cuando se adicionan las variables edad y potencia del motor.

##    Resid. Df      Resid. Dev          Df       Deviance        Pr(>Chi)        
##  Min.   :30.0   Min.   :12.70   Min.   :2   Min.   :16.55   Min.   :0.0002549  
##  1st Qu.:30.5   1st Qu.:16.84   1st Qu.:2   1st Qu.:16.55   1st Qu.:0.0002549  
##  Median :31.0   Median :20.97   Median :2   Median :16.55   Median :0.0002549  
##  Mean   :31.0   Mean   :20.97   Mean   :2   Mean   :16.55   Mean   :0.0002549  
##  3rd Qu.:31.5   3rd Qu.:25.11   3rd Qu.:2   3rd Qu.:16.55   3rd Qu.:0.0002549  
##  Max.   :32.0   Max.   :29.25   Max.   :2   Max.   :16.55   Max.   :0.0002549  
##                                 NA's   :1   NA's   :1       NA's   :1

Teniendo en cuenta que el p-valor es menor que el nivel de significancia (usualmente 0.05), tenemos evidencia suficiente para decir que el modelo2 extendido tiene una mejor bondad de ajuste que el modelo2 simple, y por lo tanto, las variables adicionadas mejoran significativamente el modelo.

8 - Haciendo uso de sus habilidades de modelación, genera un breve reporte de sus hallazgos en el cual oriente a la compañía sobre los factores que afectan la siniestralidad.

Hemos realizado un análisis exploratorio y de modelación estadística para identificar los factores que afectan la siniestralidad en una muestra de 35 asegurados. El análisis incluyó la construcción de modelos de regresión logística para evaluar la relación entre la siniestralidad (Acc) y las variables de experiencia (Exp), sexo (Sexo), edad (Edad) y potencia del motor (Pot).

Hallazgos Clave:

La experiencia y el sexo del asegurado son predictores significativos de la siniestralidad. Los modelos indican que a mayor experiencia, aumenta la probabilidad de siniestralidad, y ser mujer está asociado con una menor probabilidad de siniestralidad en comparación con ser hombre. Al añadir las variables de edad y potencia del motor al modelo, se observó una mejora significativa en la bondad de ajuste, lo que sugiere que estas variables también influyen en la siniestralidad. El análisis estadístico proporciona una base sólida para la toma de decisiones estratégicas en la gestión de riesgos y la definición de políticas de seguros.

Universidad del Valle - Junio 15 de 2024

Laboratorio 4 - Regresión Lineal

Víctor Vasquez y Felipe Portocarrero

2024-06-15