1. Regresión lineal

1.2. Análisis exploratorio

Análisis univariado

Conf Carga Tiempo
SDD:12 Min. : 1.000 Min. :0.300
HDD:13 1st Qu.: 3.100 1st Qu.:1.500
NA Median : 5.800 Median :3.200
NA Mean : 5.648 Mean :2.828
NA 3rd Qu.: 8.000 3rd Qu.:3.900
NA Max. :10.200 Max. :5.800

Con base en la información anterior, los discos duros analizados tienen proporciones similares. Además, los datos no presentan outliers.

Análisis bivariado

Con base en la información anterior, los discos duros analizados tienen proporciones similares. Además, los datos analizados no presentan outliers.

Análisis de correlación

Con base en los gráficos anteriores y en los coeficientes de correlación, se puede decir que, sin dividir por disco duro, se presenta una relación lineal entre la Carga y el Tiempo. Sin embargo, si lo dividimos por disco duro, la relación entre la Carga y el Tiempo en discos tipo HDD es logarítmiica, mientras que para los SDD es lineal.

1.3. Modelo 1

## 
## Call:
## lm(formula = Tiempo ~ Carga, data = disco_duro)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## Carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11
## Analysis of Variance Table
## 
## Response: Tiempo
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## Carga      1 47.313  47.313  138.84 3.177e-11 ***
## Residuals 23  7.838   0.341                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con base en los resultados obtenidos para el modelo 1 y el test de ANOVA, la Carga es un predictor significativo para predecir el Tiempo de procesamiento de los disco duros. Además, con base en el R2, este modelo simple es capaz de explicar el 85.17% de la variabilidad del Tiempo de respuesta. Por otro lado, el indicador de bondad de ajuste tiene un p-value menor a 0.05, por lo tanto, el modelo sí es significativo. En cuanto a la carga se puede decir que cada unidad de Carga, aumenta el tiempo de procesamiento de los discos en 0.49214.

1.4. Modelo 2

## 
## Call:
## lm(formula = Tiempo ~ Carga + Conf + (Conf * Carga), data = disco_duro)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68547 -0.11333  0.06881  0.15302  0.41807 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -1.37549    0.20902  -6.581 1.62e-06 ***
## Carga          0.71979    0.03367  21.376 9.88e-16 ***
## ConfHDD        2.26391    0.26520   8.536 2.86e-08 ***
## Carga:ConfHDD -0.35734    0.04227  -8.454 3.36e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared:  0.9692, Adjusted R-squared:  0.9648 
## F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16
## Analysis of Variance Table
## 
## Response: Tiempo
##            Df Sum Sq Mean Sq  F value    Pr(>F)    
## Carga       1 47.313  47.313 584.8051 < 2.2e-16 ***
## Conf        1  0.357   0.357   4.4132   0.04791 *  
## Carga:Conf  1  5.782   5.782  71.4618 3.364e-08 ***
## Residuals  21  1.699   0.081                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con base en los resultados obtenidos para el modelo 2, al agregar el tipo de disco duro como predictor, el modelo mejora, logrando un R2 ajustado del 96.48%. Además, el indicador de bondad de ajuste tienen un p-value menor a 0.05, por lo tanto, el modelo sí es significativo. Adicionalmente, las variables analizadas son significativas, con base en los test. Por otro lado, analizando los coeficientes, se puede decir que:

  • Carga: cuando Conf sea SDD, cada unidad de carga, el tiempo de procesamiento aumenta en 0.71979 unidades.
  • Conf: Si Carga es cero, si el disco duro es HDD, el tiempo de procesamiento aumenta en 2.26391 unidades.
  • Carga*Conf: en cuanto a la interacción entre Carga y Tipo de disco duro, su efecto es reducir el tiempo de procesamiento en -0.35734 por cada unidad de carga, siempre y cuando el disco duro sea HDD.

1.5. Test ANOVA

## Analysis of Variance Table
## 
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga + Conf + (Conf * Carga)
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     23 7.8375                                  
## 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De acuerdo con el resultado del test de ANOVA, el nuevo modelo (incluyendo tipo de disco duro y su interacción con la carga) mejora significativamente el ajuste del modelo, ya que el p-value es muy pequeño (menor a 0.05), por ende, se selecciona el modelo 2.

1.6. Gráfico del nuevo modelo y supuestos sobre el error

Gráfico del nuevo modelo

Supuestos del error

Media_Cero Heterocedasticidad Independencia Normalidad
p-value 0.884731 0.4432059 0.0342127 0.0634754

Con base en los gráficos y los test estadísticos para los supuestos del error, se puede decir que:

  1. Media igual a 0: en cuanto al test de media cero, el p-value es 0.8847, mayor a 0.05, por lo tanto se puede decir que la media del error es 0. También se evidencia en el gráfico Residuals vs Fitted, en el cual el error tiende a ser constante en 0.
  2. Homogeneidad de la varianza: de acuerdo con el test de heterocedasticidad, el p-value es 0.4432 (mayor a 0.05), por lo tanto, la varianza de los errores del modelo es constante. Sin embargo, con base en el gráfico “Scale-Location”, se presenta cierta tendencia creciente para valores mayores a 4.
  3. Independencia: con base en el test de independencia, el p-value es menor a 0.05, en este caso rechazamos la hipótesis nula de que los residuos no están autocorrelacionados, lo cual no se cumple el supuesto.
  4. Normalidad de los residuos: teniendo en cuenta un nivel de significancia del 95%, el test Shapiro-Wilk nos dice que se acepta normalidad en los residuos. Sin embargo es importante notar que en los valores bajos, la normalidad se pierde (Ver gráfico Q-Q Residuals).

1.7. Conclusiones

  1. La Carga, medida en número de consultas por minuto, tiende a ser mayor en discos SDD que en HDD. En cuanto al Tiempo de procesamiento tiende a ser menor en discos SDD que en HDD.
  2. Hay una relación lineal fuerte entre la Carga y el Tiempo. Sin embargo, el comportamiento entre estas dos variables para los discos HDD y SDD son diferentes: los tipos HDD presentan una relación logarítmica mientras que los SDD tiende a ser lineal.
  3. Por lo anterior, al involucrar el tipo de configuración de disco duro, el modelo logra capturar mayor varianza: 96.48% vs 85.17% del modelo lineal simple
  4. El modelo que incluye el tipo de configuración, no logra cumplir todos los supuestos del error, fallando en el supuesto de independencia. Lo cual, sugiere que hay una parte del tiempo de procesamiento que el modelo no logra predecir (error aleatorio).

2. Regresión logística

2.2. Análisis exploratorio

Análisis univariado

Acc Exp Edad Pot Sexo
No:20 Min. : 1.000 Min. :20 Min. : 70.0 Mujer :21
Si:15 1st Qu.: 6.500 1st Qu.:25 1st Qu.: 90.0 Hombre:14
NA Median : 9.000 Median :29 Median : 95.0 NA
NA Mean : 9.543 Mean :31 Mean :101.6 NA
NA 3rd Qu.:12.000 3rd Qu.:36 3rd Qu.:110.0 NA
NA Max. :20.000 Max. :56 Max. :150.0 NA

  • La proporción de personas que no sufrieron accidentes es un poco mayor a las que sí sufrieron
  • Hay una mayor proporción de mujer que hombres en los datos a analizar.
  • Se presentan posibles outliers en edad del conductor y potencia del motor, pero no son tan grandes, por lo que no se excluirán del análisis.

Análisis bivariado vs Accidentes

  • En cuanto al atributo Sexo, hay una mayor proporción de hombres que han sufrido accidentes que de mujeres.
  • Con respecto a años de experiencia, las personas con mayor años de experiencia tienden a accidentarse menos.
  • En cuanto a edad, las personas con una mayor edad tienden a tener menos accidentes. Sin embargo cambia un poco cuando las personas tienen más de 45 años.
  • En cuanto a la potencia del motor, los carros con mayor potencia tienden a tener más accidentes.

Análisis de correlación

## Warning in corrplot::corrplot(AQ.cor, method = "ellipse", addCoef.col =
## "black", : p.mat and corr may be not paired, their rownames and colnames are
## not totally same!

No hay relaciones significativas entre las variables años de experiencia, edad y potencia del motor.

Análisis bivariado con Accidentes

  • En cuanto a la relacion años de experiencia vs edad, separándolo por accidente, las personas con baja edad y pocos años de experiencia tienden a accidentarse más
  • En cuanto a experiencia y potencia del motor, las personas con una poca experiencia y que conducen carros potentes, tienden a accidentarse más.
  • Por último, edad vs potencia de motor, las personas con edades bajas y potencia de motor alto tienden a accidentarse más.

2.3. Modelos

Modelo 1

Ecuación del modelo 1: \[ Modelo 1 = \frac{1}{1+e^{-(1.9419 - 0.2456Exp)}} \] Representación gráfica del modelo 1

Test razón de verosimilitud modelo 1

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                    34     47.804            
## Exp   1   7.7977        33     40.006 0.005231 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Modelo 2

Ecuación del modelo 2: \[ Modelo 2 = \frac{1}{1+e^{-(0.8890 - 0.2400Exp + 2.9866Sexo)}} \] Representación gráfica del modelo 2

Test razón de verosimilitud modelo 2

## Analysis of Deviance Table
## 
## Model: binomial, link: logit
## 
## Response: Acc
## 
## Terms added sequentially (first to last)
## 
## 
##      Df Deviance Resid. Df Resid. Dev Pr(>Chi)   
## NULL                    34     47.804            
## Exp   1   7.7977        33     40.006 0.005231 **
## Sexo  1  10.7571        32     29.249 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

2.4. Comparación de los modelos y Test ANOVA

AIC deviance AUC
Modelo_RL1 44.00583 40.00583 0.7983333
Modelo_RL2 35.24875 29.24875 0.8683333
## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + Sexo
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
## 1        33     40.006                        
## 2        32     29.249  1   10.757 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con base en los resultados obtenidos en la tabla de bondad de ajuste, y haciendo el test ANOVA para comparar los dos modelos, podemos decir que el modelo 2 es el que mejor se ajusta, ya que tanto los indicadores de AIC y deviance del el modelo 2 tienen menores valores que el modelo 1, y comparando el área bajo la curva, el modelo dos tiene una métrica de 0.868 vs. 0.798 del modelo 1. Además, el p-value en el test de comparación es de 0.001039, menor al nivel de significancia de 0.05, lo cual nos dice que el modelo 2 es mejor que el modelo 1.

2.5. Interpretación de los coeficientes del modelo seleccionado

Coef 2.5 % 97.5 %
(Intercept) 0.8890341 -1.3776790 3.6489708
Exp -0.2399985 -0.5285605 -0.0401726
SexoHombre 2.9865699 1.1292126 5.5884081
e-beta 2.5 % 97.5 %
(Intercept) 2.432779 0.2521631 38.4350894
Exp 0.786629 0.5894529 0.9606236
SexoHombre 19.817589 3.0932200 267.3097416

Con base en las tablas anteriores, se puede decir que

  1. Intercepto: si todas las variables predictoras son cero, sería el caso de los odds de que ocurra un accidente para una mujer que baja experiencia es 2.43 de los odds de que no ocurra accidente (aproximadamente 2.5 a 1).
  2. Años de experiencia: ya que el valor es menor a 1, los odds de que ocurra un accidente incrementando un año de experiencia (manteniendo constante el sexo) tiende a disminuir en un 21.34%.
  3. Sexo: para este caso, el valor es mucho mayor a 1, por lo tanto, los odds de que ocurra un accidente para un hombre (manteniendo todo lo demás constante) es aprox. 19.82 veces los odds de que ocurra un accidente para una mujer. Por ende, la probabilidad de que ocurra un accidente tiende a aumentar, siendo hombre.

Punto de corte para el modelo seleccionado

Con base en la curva ROC, el mejor punto de corte para el modelo seleccionado es de 0.845.

Indicadores de bondad de clasificación

## [1] "Matriz de confusión"
##          predicho
## observado No Si
##        No 20  0
##        Si  6  9
x
Sensitivity 0.6000000
Specificity 1.0000000
Pos Pred Value 1.0000000
Neg Pred Value 0.7692308
Precision 1.0000000
Recall 0.6000000
F1 0.7500000
Prevalence 0.4285714
Detection Rate 0.2571429
Detection Prevalence 0.2571429
Balanced Accuracy 0.8000000

Con base en los indicadores de bondad de clasificación, se puede decir que:

  1. El modelo es capaz de predecir acertadamente el 100% de los casos negativos (no accidente).
  2. El accuracy balanceado es del 80%, lo que sugiere que en general, el modelo es capaz de predecir acertadamente el 80% de las veces.
  3. Sin embargo, hay oportunidades de mejora en cuanto a la predicción de los accidentes, pues la sensibilidad del modelo es del 60% (es decir, de cada 100 predicciones, el modelo es capaz de acertar la clase positiva 60 veces).

2.7. Modelo 3: agregando Edad y potencia del motor

AIC deviance AUC
Modelo_RL1 44.00583 40.00583 0.7983333
Modelo_RL2 35.24875 29.24875 0.8683333
Modelo_RL3 22.69953 12.69953 0.9666667
## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp + Sexo
## Model 2: Acc ~ Exp + Edad + Pot + Sexo
##   Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
## 1        32     29.249                          
## 2        30     12.700  2   16.549 0.0002549 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con base en los resultados de indicadores de bondad de ajuste y realizando el test de ANOVA para comprar el modelo seleccionado y el modelo 3, se puede decir que el nuevo modelo que involucra todas las variables es mejor que el anterior (modelo con solo años de experiencia y género), ya que presenta mejores indicadores en cuanto a AIC, deviance y AUC, y el p-value es menor a 0.05. A continuación se presentará la interpretación de los coeficientes para el nuevo modelo.

## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
Coef 2.5 % 97.5 %
(Intercept) -19.9739842 -44.5548931 -6.2467567
Exp -0.4795153 -1.6395185 -0.0309068
Edad -0.0258531 -0.2010543 0.1767231
Pot 0.2468708 0.0892520 0.5243585
SexoHombre 3.0493974 -0.8046982 10.0151645
e-beta 2.5 % 97.5 %
(Intercept) 0.0000000 0.0000000 1.936700e-03
Exp 0.6190834 0.1940735 9.695660e-01
Edad 0.9744782 0.8178680 1.193301e+00
Pot 1.2800137 1.0933561 1.689375e+00
SexoHombre 21.1026240 0.4472229 2.236303e+04

Con base en lo anterior, se puede decir que:

  1. Intercepto: este nos indica que, si todas las variables tienden a cero, y la persona es mujer, la probabilidad de que ocurra un accidente es aproximadamente 0.
  2. Años de experiencia: por cada año de experiencia adicional (manteniendo las otras variables constantes), la probabilidad de que ocurra un accidente tiende a bajar, es decir, los odds de que ocurra un accidente disminuye en un 38.09%.
  3. Edad: por cada aumento en la edad, y manteniendo las otras variables constantes, los odds de que ocurra un accidente aumentando la edad es de 0.974. Significa, que la probabilidad de que ocurra accidente tiende a bajar un poco (2.55%) por cada año de edad.
  4. Potencia del motor: para este caso, los odds de que ocurra un accidente, por cada unidad de potencia adicional del motor es de 1.28 veces. lo que indica que, la probabilidad de ocurrencia de un accidente cuando la potencia del motor es grande, tiende a aumentar (en un 28% aproximadamente)
  5. Sexo: el valor es mucho mayor a 1, por lo tanto, los odds de que ocurra un accidente para un hombre (manteniendo todo lo demás constante) es aprox. 21.10 veces los odds de que ocurra un accidente para una mujer. Por ende, la probabilidad de que ocurra un accidente tiende a aumentar, siendo hombre.

2.8. Conclusiones

  1. Los años de experiencia y la edad de los conductores son tienen efecto protector en cuánto a la ocurrencia de los accidentes. Por lo tanto, se puede sugerir que conductores con un buen número de años de experiencia y de edad medianamente avanzada (adultos), son factores que disminuyen la siniestralidad, por lo que el seguro puede ser menor para esta población.
  2. El sexo y la potencia del motor son factores de siniestralidad. Si es hombre, la probabilidad de que ocurra accidentes es mayor a si es mujer. Por otra parte, entre mayor potencia de motor, mayor riesgo de siniestralidad. Se recomendaría que para esta población, cobrar seguros más altos.