Introducción punto 1 ———

Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).

A continuación se dará respuesta a cada uno de los puntos:

  1. Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.

## [1] "Cor para SDD: 0.964000347335441"
## [1] "Cor para HDD: 0.993829309737283"

Con base en lo anterior, se puede denotar que para el disco SDD Y HDD exsite una gran correlacion entre las variables estudiadas.

  1. Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.
## 
## Call:
## lm(formula = Tiempo ~ Carga, data = Discos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## Carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11
## 
##  One Sample t-test
## 
## data:  residuos
## t = -0.015598, df = 24, p-value = 0.9877
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.4445302  0.4378615
## sample estimates:
##    mean of x 
## -0.003334343
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 0.43435, df = 1, p-value = 0.5099
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 2.365, p-value = 0.7755
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99022, p-value = 0.9961

Significancia del Modelo: El modelo es altamente significativo, como lo indica el valor p muy bajo (3.177e-11)

Ajuste del Modelo: Con un R cuadrado ajustado de 0.8517, el modelo tiene un ajuste Adecuado, explicando más del 85% de la variabilidad en el tiempo de respuesta.

Coeficiente de la Carga: El coeficiente de carga es significativo y positivo, indicando una alta relación entre la carga de trabajo y el tiempo de respuesta.

El modelo de regresión simple sugiere que la carga de trabajo es un predictor fuerte y significativo del tiempo de respuesta, explicando la mayor parte de la variabilidad en los datos. Los coeficientes de regresión indican que a medida que la carga de trabajo aumenta, el tiempo de respuesta también aumenta de manera significativa.

  1. Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, einterprete los coeficientes del Modelo 2.
## 
## Call:
## lm(formula = Tiempo ~ Carga * Conf, data = Discos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.68547 -0.11333  0.06881  0.15302  0.41807 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.37549    0.20902  -6.581 1.62e-06 ***
## Carga        0.71979    0.03367  21.376 9.88e-16 ***
## Conf         2.26391    0.26520   8.536 2.86e-08 ***
## Carga:Conf  -0.35734    0.04227  -8.454 3.36e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2844 on 21 degrees of freedom
## Multiple R-squared:  0.9692, Adjusted R-squared:  0.9648 
## F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16
## 
##  One Sample t-test
## 
## data:  residuos
## t = -0.14652, df = 24, p-value = 0.8847
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.4994321  0.4332192
## sample estimates:
##   mean of x 
## -0.03310641
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 2.6825, df = 3, p-value = 0.4432
## 
##  Durbin-Watson test
## 
## data:  modelo2
## DW = 1.3285, p-value = 0.03421
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.92407, p-value = 0.06348

Significancia del Modelo: El modelo es altamente significativo, como lo indica el valor p muy bajo (5.042e-16).

Ajuste del Modelo: Con un R cuadrado ajustado de 0.9648, el modelo tiene un buen ajuste, explicando más del 96% de la variabilidad en el tiempo de respuesta.

Coeficientes de Carga y Conf: Todos los coeficientes son altamente significativos y proporcionan información valiosa sobre cómo la carga de trabajo y el tipo de disco (y su interacción) afectan el tiempo de respuesta.

Para el Modelo 1, la prueba t mostró un valor p de 0,8847, lo que da a entender que la media de los residuos es muy cercana a cero. La prueba de Breusch-Pagan arrojó un valor de p de 0,5099, lo nos dice que existe homocedasticidad, es decir, la varianza de los errores permanece constante. La prueba de Durbin-Watson nos dio resultado de 2,365 y un valor de p de 0,7755, esto nos dice que no hay autocorrelación en los residuos. la prueba de Shapiro-Wilk para la normalidad de los residuos arrojó un valor p de 0,06348, lo que indica que los residuos se ajustan a una distribución normal.

Para el modelo 2 la prueba t dio como resultado que la media de los residuos es cercana a cero con un valor de p de 0,8847 lo que nos indica que no hay evidencia para rechazar la hipótesis nula. La prueba de Breusch-Pagan arrojó un valor de p de 0,4432, lo que nos dice la presencia de homocedasticidad. la prueba de Durbin-Watson mostró un valor de 1,3285 y un valor de p de 0,03421, lo que indica la presencia de autocorrelación en los residuos. La prueba de Shapiro-Wilk dio como resultado un p de 0,06348, dando a entender que los residuos se distribuyeron normalmente. ambos modelos cumplen con la mayoría de los supuestos de regresión. Sin embargo, el Modelo 2 muestra autocorrelación de los residuos y es importante considerar esto al analizar los resultados

El modelo de regresión con sugiere que tanto la carga de trabajo como el tipo de disco (y su interacción) son predictores fuertes y significativos del tiempo de respuesta. El ajuste del modelo es significativamente mejor que el del modelo de regresión simple, explicando una mayor proporción de la variabilidad en los datos y con menores errores residuales.

  1. Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo
## Analysis of Variance Table
## 
## Model 1: Tiempo ~ Carga
## Model 2: Tiempo ~ Carga * Conf
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     23 7.8375                                  
## 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se evidencia que la inclusión de la variable cualitativa Conf (configuración del disco) y su interacción con la carga de trabajo (Carga) mejora significativamente el ajuste del modelo. El p-valor muy bajo (1.067e-07) indica que esta mejora es altamente significativa, lo que sugiere que Conf y su interacción con Carga son predictores importantes del tiempo de respuesta y deben ser incluidos en el modelo.

  1. Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.

#CONCLUSION

La configuración del disco y su interacción con la carga de trabajo son factores cruciales con el cual se puede predecir el tiempo de respuesta, y su inclusión en el modelo proporciona un ajuste significativamente mejor. Esto es consistente con la expectativa de que diferentes tipos de discos duros responderán de manera diferente bajo diversas cargas de trabajo.

Introducción punto 2 ———

## Type 'citation("pROC")' for a citation.
## 
## Attaching package: 'pROC'
## The following objects are masked from 'package:stats':
## 
##     cov, smooth, var
  1. Con herramientas del análisis exploratorio, estudie la asociación entre la siniestralidad y el conjunto de variables predictoras (Edad, Experiencia, Potencia del motor y Sexo). Donde

El análisis exploratorio de los datos, se observó que en general, hay más personas que no han tenido accidentes. Donde 0 es no accidentados y 1 es si accidentados

  1. Utilice la función glm, del software R, para ajustar los siguientes modelos de regresión logística:
## 
## Call:
## glm(formula = Acc ~ Exp, family = binomial, data = accidentes)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   1.9419     0.9816   1.978   0.0479 *
## Exp          -0.2456     0.1044  -2.354   0.0186 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 40.006  on 33  degrees of freedom
## AIC: 44.006
## 
## Number of Fisher Scoring iterations: 4
## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = accidentes)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -2.0975     1.5546  -1.349  0.17725   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## Sexo          2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5

  1. Escriba las ecuaciones de pronóstico asociadas a los 2 modelos.

\[ \log\left(\frac{1 - p}{p}\right) = \beta_0 + \beta_1 \cdot \text{Exp}\]

\[ \log\left(\frac{1 - p}{p}\right) = \beta_0 + \beta_1 \cdot \text{Exp} + \beta_2 \cdot \text{Sexo}\]

  1. A través de indicadores de bondad de ajuste (incluyendo Deviance, AIC, la curva ROC, el AUC y los test de razón de verosimilitud correspondientes), evalúe y compare el ajuste de los 2 modelos anteriores.
# Devianza y AIC del Modelo 1
deviance_m1 <- deviance(modelo1)
aic_m1 <- AIC(modelo1)

# Devianza y AIC del Modelo 2
deviance_m2 <- deviance(modelo2)
aic_m2 <- AIC(modelo2)
## Deviance del Modelo 1: 40.00583
## AIC del Modelo 1: 44.00583
## Deviance del Modelo 2: 29.24875
## AIC del Modelo 2: 35.24875
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
## AUC del Modelo 1: 0.7983333
## AUC del Modelo 2: 0.8683333

Devianza: El Modelo 2 tiene una deviance menor que el Modelo 1, lo cual indica un mejor ajuste del Modelo 2 a los datos. AIC: El Modelo 2 tiene un AIC más bajo que el Modelo 1, lo cual sugiere que el Modelo 2 proporciona un mejor equilibrio entre la bondad de ajuste y la complejidad del modelo. Estos resultados indican que el Modelo 2 (Acc ~ Exp + Sexo) es preferible al Modelo 1 (Acc ~ Exp) en términos de ajuste a los datos y complejidad del modelo, según las medidas de devianza y AIC.

Modelo 2 tiene un AUC superior (0.868) en comparación con el Modelo 1 (0.798). Esto sugiere que el Modelo 2 tiene una mejor capacidad para discriminar entre casos positivos y negativos en comparación con el Modelo 1.

## Analysis of Deviance Table
## 
## Model 1: Acc ~ Exp
## Model 2: Acc ~ Exp + Sexo
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
## 1        33     40.006                        
## 2        32     29.249  1   10.757 0.001039 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Call:
## glm(formula = Acc ~ Exp + Sexo, family = binomial, data = accidentes)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -2.0975     1.5546  -1.349  0.17725   
## Exp          -0.2400     0.1176  -2.040  0.04131 * 
## Sexo          2.9866     1.0683   2.796  0.00518 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 47.804  on 34  degrees of freedom
## Residual deviance: 29.249  on 32  degrees of freedom
## AIC: 35.249
## 
## Number of Fisher Scoring iterations: 5
##               Estimate Std. Error   z value    Pr(>|z|)
## (Intercept) -2.0975357  1.5545671 -1.349273 0.177249227
## Exp         -0.2399985  0.1176225 -2.040413 0.041309249
## Sexo         2.9865699  1.0682727  2.795700 0.005178748

ntercepto:p = 0.177 lo que indica que cuando Exp (Experiencia) y Sexo son cero, la probabilidad de accidente no difiere significativamente Experiencia (Exp): El valor p (p < 0.05) indica que la variable Exp es significativa; es decir, la experiencia tiene un efecto estadísticamente significativo en la probabilidad de accidente. Sexo: El valor p (p < 0.01) indica que esta diferencia es estadísticamente significativa. Devianza nula : 47.804, lo cual indica cuánto peor es el modelo nulo en comparación con el modelo ajustado Desvianza recidual: 29.249, lo que sugiere que el modelo ajustado (con Exp y Sexo) mejora la capacidad de predicción en comparación con el modelo nulo. AIC: 35.249 lo que nos dice que nuestro modelo actual proporciona un buen ajuste