Punto 1: Análisis del Desempeño de Discos SSD y HDD

Introducción a los Datos

En este estudio, se analizan datos sobre el tiempo de respuesta de dos tipos de discos duros (SSD y HDD) bajo diferentes niveles de carga del sistema. Inicialmente, se realizó un vistazo a los datos para identificar posibles valores faltantes que podrían afectar la calidad del modelo. Afortunadamente, no se encontraron datos faltantes. Además, se llevó a cabo un análisis descriptivo general para comprender mejor las características principales de las variables.

##    Conf Carga Tiempo
## 1   HDD   1.0    0.9
## 2   SSD   2.0    0.3
## 3   HDD   2.4    2.0
## 4   SSD   3.1    0.8
## 5   HDD   4.0    2.7
## 6   HDD   4.3    2.6
## 7   SSD   5.8    2.5
## 8   SSD   6.6    3.2
## 9   SSD   7.5    3.7
## 10  HDD   8.0    3.9

1.1 Relación entre las Variables

Se exploró la relación entre la carga del sistema y el tiempo de respuesta para ambos tipos de discos mediante un diagrama de dispersión. Los resultados mostraron una fuerte correlación positiva entre estas variables.

##   Tipo correlacion
## 1  SSD   0.9938293
## 2  HDD   0.9640003

Los coeficientes de correlación, calculados por separado para SSD y HDD, confirmaron esta observación:

SSD: 0.9938293
HDD: 0.9640003

Estas correlaciones indican una relación lineal significativa, lo que justifica el ajuste de un modelo de regresión lineal.

1.2 Modelo de Regresión Lineal: Modelo 1

Se ajustó un modelo de regresión lineal simple (Modelo 1) que relaciona el tiempo de respuesta con la carga, sin considerar el tipo de disco.

## 
## Call:
## lm(formula = Tiempo ~ Carga, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## Carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11

Donde, en promedio, por cada unidad adicional en la carga, el tiempo de respuesta del disco aumenta en 0.49214 segundos.

Resultados clave: p-valor: Muy pequeño, indicando que el modelo es estadísticamente significativo. R-cuadrado ajustado: 0.8517, lo que sugiere que el 85% de la variabilidad en el tiempo de respuesta está explicada por la carga.

En conclusión, el Modelo 1 es adecuado para describir la relación general entre la carga y el tiempo de respuesta.

1.3 Modelo de Regresión Lineal: Modelo 2

En el Modelo 2, se incluyó la variable cualitativa “tipo de disco” y su interacción con la carga, lo que permite diferenciar las relaciones entre las variables para SSD y HDD.

## 
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68547 -0.11333  0.06881  0.15302  0.41807 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -1.37549    0.20902  -6.581 1.62e-06 ***
## Carga          0.71979    0.03367  21.376 9.88e-16 ***
## ConfHDD        2.26391    0.26520   8.536 2.86e-08 ***
## Carga:ConfHDD -0.35734    0.04227  -8.454 3.36e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared:  0.9692, Adjusted R-squared:  0.9648 
## F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16

El Modelo 2 es superior debido a su R-cuadrado ajustado de 0.9648, lo que indica un mejor ajuste. Además, los resultados muestran que los SSD presentan mejor velocidad, ya que su pendiente es negativa (-0.35), lo que significa que su tiempo de respuesta mejora bajo mayor carga. En cambio, los HDD tienen una pendiente de 2.26, lo que indica que su tiempo de respuesta empeora con la carga.

1.4 Análisis de Varianza (ANOVA)

Se realizó un test ANOVA para evaluar la variable cualitativa “Conf” como afecta el modelo, lo que resultó en una mejora significativa en el modelo (p < 0.001). El p-valor extremadamente bajo demuestra que existe una diferencia significativa entre los modelos. En consecuencia, se concluye que el Modelo 2, que incluye la interacción entre la carga y la configuración del disco, es estadísticamente superior al Modelo 1, que solo considera la carga del sistema.

## Analysis of Variance Table
## 
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga * Conf
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     23 7.8375                                  
## 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

1.5 Ajuste Modelo 2

1.6 Conclusión General

El Modelo 2, que incluye la interacción entre la carga del sistema y el tipo de disco, mejora significativamente la explicación de los resultados en comparación con el Modelo 1, con una mejora aproximada del 11% en el ajuste, como lo refleja el R-cuadrado ajustado. Este modelo proporciona una descripción más precisa de cómo varía el tiempo de respuesta según el tipo de disco (SSD o HDD). Los resultados muestran que un disco SSD presenta un mejor rendimiento en términos de tiempo de respuesta frente a un HDD, ya que su tiempo de respuesta es considerablemente mejor frente a un disco HDD bajo las mismas condiciones.

Punto 2 Siniestralidad

En este análisis exploratorio, se estudia la asociación entre la siniestralidad (variable Acc) y el conjunto de variables predictoras: Exp (años de experiencia), Edad (edad del conductor), Pot (potencia del motor) y Sexo (género del conductor).

Cargar los datos

## # A tibble: 6 × 5
##     Acc   Exp  Edad   Pot  Sexo
##   <dbl> <dbl> <dbl> <dbl> <dbl>
## 1     0    10    30    90     1
## 2     0    15    40    85     1
## 3     0     7    25    95     1
## 4     1     1    21   145     2
## 5     0    10    29    70     1
## 6     1     2    20   120     2

##       Acc              Exp              Edad         Pot             Sexo    
##  Min.   :0.0000   Min.   : 1.000   Min.   :20   Min.   : 70.0   Min.   :1.0  
##  1st Qu.:0.0000   1st Qu.: 6.500   1st Qu.:25   1st Qu.: 90.0   1st Qu.:1.0  
##  Median :0.0000   Median : 9.000   Median :29   Median : 95.0   Median :1.0  
##  Mean   :0.4286   Mean   : 9.543   Mean   :31   Mean   :101.6   Mean   :1.4  
##  3rd Qu.:1.0000   3rd Qu.:12.000   3rd Qu.:36   3rd Qu.:110.0   3rd Qu.:2.0  
##  Max.   :1.0000   Max.   :20.000   Max.   :56   Max.   :150.0   Max.   :2.0

2.1 Análisis Exploratorio

Asociación entre Siniestralidad y Años de Experiencia

Asociación entre Siniestralidad y Edad

Asociación entre Siniestralidad y Potencia del Motor

Asociación entre Siniestralidad y Género

Conclusión

Se observa que:

Años de experiencia: Una menor experiencia parece estar asociada con un mayor número de accidentes.
Edad: Conductores más jóvenes tienden a tener una mayor proporción de accidentes.
Potencia del motor: Potencias más altas podrían estar asociadas con una mayor siniestralidad.
Género: Existen diferencias entre hombres y mujeres en la proporción de accidentes, presentando una mayor siniestralidad cuando el conducto es hombre.

2.2: Ajuste de Modelos de Regresión Logística

Modelo 1: Siniestralidad vs Años de Experiencia

## 
## Call:
## glm(formula = Acc ~ Exp, family = binomial, data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   1.9419     0.9816   1.978   0.0479 *
## Exp          -0.2456     0.1044  -2.354   0.0186 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 40.006  on 33  degrees of freedom
## AIC: 44.006
## 
## Number of Fisher Scoring iterations: 4

Modelo 2: Siniestralidad vs Años de Experiencia + Género

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -2.0975     1.5546  -1.349  0.17725   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## Sexo          2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

2.3 Ecuaciones de Pronóstico

## Ecuación Modelo 1: Logit(Acc) = 1.941925 + -0.245607 * Exp

## Ecuación Modelo 2: Logit(Acc) = -2.097536 + -0.2399985 * Exp + 2.98657 * Sexo

2.4 Evaluación de los Modelos

## Deviance Modelo 1: 40.00583

## Deviance Modelo 2: 29.24875

## AIC Modelo 1: 44.00583

## AIC Modelo 2: 35.24875

## AUC Modelo 1: 0.7983333

## AUC Modelo 2: 0.8683333

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + Sexo
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
## 1        33     40.006                        
## 2        32     29.249  1   10.757 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión del Punto 2.4

Con base en los resultados:

Deviance: El Modelo 2 presenta una menor deviance, indicando un mejor ajuste.
AIC: El AIC del Modelo 2 es inferior al del Modelo 1, lo que sugiere que el Modelo 2 es preferible.
AUC: El AUC del Modelo 2 también es mayor, lo que refleja una mejor capacidad de discriminación.
Test de razón de verosimilitud: La comparación entre modelos muestra que el Modelo 2 mejora significativamente respecto al Modelo 1.

Por lo tanto, se concluye que incluir la variable Sexo mejora el ajuste del modelo de siniestralidad.

2.5 Selección del Mejor Modelo e Interpretación

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -2.0975     1.5546  -1.349  0.17725   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## Sexo          2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

## Coeficientes del Modelo 2:

## (Intercept)         Exp        Sexo 
##  -2.0975357  -0.2399985   2.9865699

## El intercepto representa la probabilidad base de un accidente cuando la experiencia y el género están en su valor de referencia.

## El coeficiente de Exp indica que, a medida que aumentan los años de experiencia, la probabilidad de accidente disminuye.

## El coeficiente de Sexo (hombre vs mujer) sugiere que los hombres tienen una mayor probabilidad de accidente en comparación con las mujeres, manteniendo constante la experiencia.

Conclusión del Punto 2.5

El Modelo 2, que incluye la variable Sexo, es el mejor modelo basado en AIC y AUC. Los coeficientes indican que:

A mayor experiencia (Exp), menor probabilidad de accidente.
El género (Sexo) tiene un efecto significativo, sugiriendo que hay diferencias de riesgo asociadas al género.

2.6 Bondad de Clasificación

## Punto de corte óptimo: 0.8449838

## Matriz de confusión:

##     Predicho
## Real  0  1
##    0 20  0
##    1  6  9

## Precisión: 0.8285714

## Sensibilidad: 0.6

## Especificidad: 1

Conclusión del Punto 2.6

El modelo tiene un buen desempeño clasificatorio, con valores elevados de precisión, sensibilidad y especificidad. Esto valida su utilidad para predecir siniestralidad basada en las variables consideradas.

2.7 Evaluación de Mejora con Variables Adicionales

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = binomial, 
##     data = data)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -23.02338    9.90262  -2.325   0.0201 *
## Exp          -0.47952    0.33645  -1.425   0.1541  
## Sexo          3.04940    2.36426   1.290   0.1971  
## Edad         -0.02585    0.08801  -0.294   0.7689  
## Pot           0.24687    0.10715   2.304   0.0212 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 12.700  on 30  degrees of freedom
## AIC: 22.7
## 
## Number of Fisher Scoring iterations: 8

## Deviance Modelo 2: 29.24875

## Deviance Modelo 3: 12.69953

## AIC Modelo 2: 35.24875

## AIC Modelo 3: 22.69953

## Comparación ANOVA entre Modelo 2 y Modelo 3:

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp + Sexo
## Model 2: Acc ~ Exp + Sexo + Edad + Pot
##   Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
## 1        32     29.249                          
## 2        30     12.700  2   16.549 0.0002549 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## AUC Modelo 2: 0.8683333

## AUC Modelo 3: 0.9666667

## 
## Análisis de los coeficientes del Modelo 3:

## 
## Call:
## glm(formula = Acc ~ Exp + Sexo + Edad + Pot, family = binomial, 
##     data = data)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -23.02338    9.90262  -2.325   0.0201 *
## Exp          -0.47952    0.33645  -1.425   0.1541  
## Sexo          3.04940    2.36426   1.290   0.1971  
## Edad         -0.02585    0.08801  -0.294   0.7689  
## Pot           0.24687    0.10715   2.304   0.0212 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 12.700  on 30  degrees of freedom
## AIC: 22.7
## 
## Number of Fisher Scoring iterations: 8

Conclusión del Punto 2.7

La inclusión de las variables Edad y Pot mejora significativamente el ajuste del modelo, como se observa en el test de razón de verosimilitud.

1. Mejora significativa del Modelo 3:

ANOVA muestra una mejora estadísticamente significativa al incluir Edad y Pot. Reducción en AIC y Deviance. AUC del Modelo 3 es mayor, indicando mejor capacidad predictiva.

2. Interpretación de coeficientes:

Exp: A mayor experiencia, menor probabilidad de accidente. Sexo: Los hombres tienen mayor probabilidad de accidentes. Edad: Conductores más jóvenes tienen mayor probabilidad de accidentes. Pot: Vehículos más potentes se asocian con mayor siniestralidad.

3. Visualización:

Las curvas ROC y los gráficos de ajuste evidencian que el Modelo 3 representa mejor los datos.

2.8 Conclusión

Con base en los análisis realizados, se concluye que:

Recomendaciones para la Compañía de Seguros:

Años de Experiencia: Diseñar estrategias para mitigar el riesgo en conductores con poca experiencia, como cursos obligatorios de manejo defensivo.

Género: Considerar los riesgos diferenciados entre hombres y mujeres al evaluar las primas de seguro, sin incurrir en sesgos.

Edad: Ofrecer programas educativos y seguros especializados para conductores jóvenes, quienes presentan mayor siniestralidad.

Potencia del Motor: Implementar primas diferenciadas según la potencia del vehículo, ya que esta se asocia a un mayor riesgo.

Conclusión General:

El Modelo 3 proporciona una herramienta robusta para identificar los factores más significativos asociados a la siniestralidad y predecir con precisión el riesgo de accidentes. La compañía puede utilizar este modelo para ajustar primas, diseñar políticas de prevención y priorizar clientes según el riesgo estimado.

Laboratorio 4

Alejandro Orozco y Yesid Restrepo