Laboratorio 2

Con la intención de comparar el desempeño de dos clases de discos duros (0: SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).

##  Factor w/ 2 levels "0","1": 2 1 2 1 2 2 1 1 1 2 ...

Realizaremos la relación entre el tiempo de respuesta y la carga de trabajo para ambos discos duros.

Podemos observar que la disperción de los datos no es tan grande, y que se podria estimar normalmente con un modelo lineal, dado que tienen una relación directa, sin embargo, estamos tomando ambos tipos de discos para este anÔlisis.

Analicemos pues los discos por separados; # Relacion tipo de respuestas y carga para el disco duro SSD

FALSE 
FALSE Attaching package: 'dplyr'
FALSE The following objects are masked from 'package:stats':
FALSE 
FALSE     filter, lag
FALSE The following objects are masked from 'package:base':
FALSE 
FALSE     intersect, setdiff, setequal, union

Observemos que el para el disco SSD tambien parece ser un modelo lineal, asi pues comprobaremos la correlacion para este disco con los metodos de sprearman y pearson

## 
##  Pearson's product-moment correlation
## 
## data:  data1$Carga and data1$Tiempo
## t = 28.334, df = 10, p-value = 1
## alternative hypothesis: true correlation is less than 0
## 95 percent confidence interval:
##  -1.0000000  0.9979347
## sample estimates:
##       cor 
## 0.9938293
## 
##  Spearman's rank correlation rho
## 
## data:  data1$Carga and data1$Tiempo
## S = 2, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
##      rho 
## 0.993007

Tanto en spearman y pearson la correlacion del modelo es bastante alta, la que nos indica las observaciones estan estrechamente relacionadas y podiran ajustarse muy bien al modelo para el disco SSD

# Relacion tipo de respuestas y carga para el disco duro HD

En el caso del disco duro (HDD) a simple viste es mas dificil determinar si un modelo lineal, sin embargo este tambien se podria adaptar, veamos pues con los diferentes metodos la correlación de los datos.

## 
##  Pearson's product-moment correlation
## 
## data:  data2$Carga and data2$Tiempo
## t = 12.024, df = 11, p-value = 1
## alternative hypothesis: true correlation is less than 0
## 95 percent confidence interval:
##  -1.0000000  0.9871297
## sample estimates:
##       cor 
## 0.9640003
## Warning in cor.test.default(x = data2$Carga, y = data2$Tiempo, alternative =
## "less", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  data2$Carga and data2$Tiempo
## S = 19.526, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
##       rho 
## 0.9463558

Para este datos la correlacion mostrada sigue siendo bastante fuerte, donde las variables siguen estando relacionadas, aunque la correlacion del disco HDD es inferior a la del disco SSD.

Modelo de regresion

Veamos entonces los modelos para ambos tipos de disco; primeramente estimar el modelo general abarcando ambos discos

## 
## Call:
## lm(formula = Tiempo ~ Carga, data = Laboratorio2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.16824 -0.40281 -0.03945  0.43541  1.07627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.04838    0.26321   0.184    0.856    
## Carga        0.49214    0.04177  11.783 3.18e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared:  0.8579, Adjusted R-squared:  0.8517 
## F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11

veamos que para ambos discos con un modelo lineal seria (0.04838 + 0.49214x) , ademas de que, podemos comprobar que al tener un p valor tan pequeƱo nuestro modelo sera significativo, adicionalmente nuestro r^2 y nuestro r^2 ajustados son muy identicos lo que nos despreocupa de errores con una falsa confianza.

Modelo de regresión para cada disco

## 
## Call:
## lm(formula = Tiempo ~ Carga + Conf, data = Laboratorio2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.28711 -0.34478  0.02705  0.35573  1.19726 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.08105    0.29168  -0.278    0.784    
## Carga        0.49303    0.04173  11.815 5.36e-11 ***
## Conf1        0.23926    0.23348   1.025    0.317    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5831 on 22 degrees of freedom
## Multiple R-squared:  0.8644, Adjusted R-squared:  0.852 
## F-statistic:  70.1 on 2 and 22 DF,  p-value: 2.859e-10

Para la comporación de cada disco podemos observar que el modelo no es tan interpretativo para la configuración a diferencia de la carga ya que las pruebas se hacen individualmente para cda variable nueva, ademas tenemos que el modelo nuevo sera (-0.08105 + 0.49303x1 + 0.23926x2 )

Comparación de coeficientes

FALSE Loading required package: carData
FALSE 
FALSE Attaching package: 'car'
FALSE The following object is masked from 'package:dplyr':
FALSE 
FALSE     recode
FALSE Calls:
FALSE 1: lm(formula = Tiempo ~ Carga, data = Laboratorio2)
FALSE 2: lm(formula = Tiempo ~ Carga + Conf, data = Laboratorio2)
FALSE 
FALSE             Model 1 Model 2
FALSE (Intercept)  0.0484 -0.0810
FALSE SE           0.2632  0.2917
FALSE                            
FALSE Carga        0.4921  0.4930
FALSE SE           0.0418  0.0417
FALSE                            
FALSE Conf1                 0.239
FALSE SE                    0.233
FALSE 
FALSE Analysis of Variance Table
FALSE 
FALSE Model 1: Tiempo ~ Carga
FALSE Model 2: Tiempo ~ Carga + Conf
FALSE   Res.Df    RSS Df Sum of Sq      F Pr(>F)
FALSE 1     23 7.8375                           
FALSE 2     22 7.4805  1   0.35704 1.0501 0.3166

con estos datos podemos concluir que ambos modelos tienen ajustes similares

Diagnostico de los residuos

Podemos observar que ambos residuales si distribuyen casi de manera normal, asi pues vemos que el modelo 1 que tiene en cuenta la variable categorica es mejor como modelo relación.