Con la intención de comparar el desempeño de dos clases de discos duros (0: SDD, 1: HDD). Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco (segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).
## Factor w/ 2 levels "0","1": 2 1 2 1 2 2 1 1 1 2 ...
Realizaremos la relación entre el tiempo de respuesta y la carga de trabajo para ambos discos duros.
Podemos observar que la disperción de los datos no es tan grande, y que se podria estimar normalmente con un modelo lineal, dado que tienen una relación directa, sin embargo, estamos tomando ambos tipos de discos para este anÔlisis.
Analicemos pues los discos por separados; # Relacion tipo de respuestas y carga para el disco duro SSD
FALSE
FALSE Attaching package: 'dplyr'
FALSE The following objects are masked from 'package:stats':
FALSE
FALSE filter, lag
FALSE The following objects are masked from 'package:base':
FALSE
FALSE intersect, setdiff, setequal, union
Observemos que el para el disco SSD tambien parece ser un modelo lineal, asi pues comprobaremos la correlacion para este disco con los metodos de sprearman y pearson
##
## Pearson's product-moment correlation
##
## data: data1$Carga and data1$Tiempo
## t = 28.334, df = 10, p-value = 1
## alternative hypothesis: true correlation is less than 0
## 95 percent confidence interval:
## -1.0000000 0.9979347
## sample estimates:
## cor
## 0.9938293
##
## Spearman's rank correlation rho
##
## data: data1$Carga and data1$Tiempo
## S = 2, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
## rho
## 0.993007
Tanto en spearman y pearson la correlacion del modelo es bastante alta, la que nos indica las observaciones estan estrechamente relacionadas y podiran ajustarse muy bien al modelo para el disco SSD
# Relacion tipo de respuestas y carga para el disco duro HD
En el caso del disco duro (HDD) a simple viste es mas dificil determinar si un modelo lineal, sin embargo este tambien se podria adaptar, veamos pues con los diferentes metodos la correlación de los datos.
##
## Pearson's product-moment correlation
##
## data: data2$Carga and data2$Tiempo
## t = 12.024, df = 11, p-value = 1
## alternative hypothesis: true correlation is less than 0
## 95 percent confidence interval:
## -1.0000000 0.9871297
## sample estimates:
## cor
## 0.9640003
## Warning in cor.test.default(x = data2$Carga, y = data2$Tiempo, alternative =
## "less", : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: data2$Carga and data2$Tiempo
## S = 19.526, p-value = 1
## alternative hypothesis: true rho is less than 0
## sample estimates:
## rho
## 0.9463558
Para este datos la correlacion mostrada sigue siendo bastante fuerte, donde las variables siguen estando relacionadas, aunque la correlacion del disco HDD es inferior a la del disco SSD.
Veamos entonces los modelos para ambos tipos de disco; primeramente estimar el modelo general abarcando ambos discos
##
## Call:
## lm(formula = Tiempo ~ Carga, data = Laboratorio2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16824 -0.40281 -0.03945 0.43541 1.07627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.04838 0.26321 0.184 0.856
## Carga 0.49214 0.04177 11.783 3.18e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5837 on 23 degrees of freedom
## Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
## F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
veamos que para ambos discos con un modelo lineal seria (0.04838 + 0.49214x) , ademas de que, podemos comprobar que al tener un p valor tan pequeƱo nuestro modelo sera significativo, adicionalmente nuestro r^2 y nuestro r^2 ajustados son muy identicos lo que nos despreocupa de errores con una falsa confianza.
##
## Call:
## lm(formula = Tiempo ~ Carga + Conf, data = Laboratorio2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.28711 -0.34478 0.02705 0.35573 1.19726
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.08105 0.29168 -0.278 0.784
## Carga 0.49303 0.04173 11.815 5.36e-11 ***
## Conf1 0.23926 0.23348 1.025 0.317
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5831 on 22 degrees of freedom
## Multiple R-squared: 0.8644, Adjusted R-squared: 0.852
## F-statistic: 70.1 on 2 and 22 DF, p-value: 2.859e-10
Para la comporación de cada disco podemos observar que el modelo no es tan interpretativo para la configuración a diferencia de la carga ya que las pruebas se hacen individualmente para cda variable nueva, ademas tenemos que el modelo nuevo sera (-0.08105 + 0.49303x1 + 0.23926x2 )
FALSE Loading required package: carData
FALSE
FALSE Attaching package: 'car'
FALSE The following object is masked from 'package:dplyr':
FALSE
FALSE recode
FALSE Calls:
FALSE 1: lm(formula = Tiempo ~ Carga, data = Laboratorio2)
FALSE 2: lm(formula = Tiempo ~ Carga + Conf, data = Laboratorio2)
FALSE
FALSE Model 1 Model 2
FALSE (Intercept) 0.0484 -0.0810
FALSE SE 0.2632 0.2917
FALSE
FALSE Carga 0.4921 0.4930
FALSE SE 0.0418 0.0417
FALSE
FALSE Conf1 0.239
FALSE SE 0.233
FALSE
FALSE Analysis of Variance Table
FALSE
FALSE Model 1: Tiempo ~ Carga
FALSE Model 2: Tiempo ~ Carga + Conf
FALSE Res.Df RSS Df Sum of Sq F Pr(>F)
FALSE 1 23 7.8375
FALSE 2 22 7.4805 1 0.35704 1.0501 0.3166
con estos datos podemos concluir que ambos modelos tienen ajustes similares
Podemos observar que ambos residuales si distribuyen casi de manera normal, asi pues vemos que el modelo 1 que tiene en cuenta la variable categorica es mejor como modelo relación.