Comparación Del Desempeño De Los Discos Duros SDD Y HDD: Un Análisis De Tiempo Y Carga

1. INTRODUCCIÓN

En el presente informe, se presenta un análisis del desempeño de dos clases de discos duros: SDD (Solid State Drive) y HDD (Hard Disk Drive).

Gráfico 1. Discos duros: estado sólido (SDD) y estado mecánico (HDD)

Fuente: https://www.muycanal.com/2014/05/06/hdd-a-ssd-almacenamiento

Aquel desempeño es medido a través de dos variables: (1) el tiempo de respuesta del disco y (2) la carga del sistema; las dos variables están expresadas en segundos y número de consultas por minuto respectivamente. En este estudio se realizaron 25 ensayos que corresponden a la muestra; en la siguiente tabla (ver Tabla 1), se presentan las características y resultados de cada ensayo:

Tabla 1. Muestra: 25 datos

Fuente: laboratorio 2, curso PADESR

La configuración puede ser SDD o HDD, que corresponden a 0 y 1 respectivamente. La muestra total comprende información sobre el número de consultas por minuto y el tiempo de respuesta en segundo de 25 datos, de los cuales 12 corresponden a discos en estado sólido(SDD) y 13 a discos en estado mecánico (HDD). En este estudio, la variable predictora es Carga y la variable respuesta es Tiempo.

Ahora bien, como es indispensable verificar la consistencia de los datos antes de someterlos a un análisis posterior, se ejecuta una evaluación de la variable respuesta:

2. ANÁLISIS DE LA VARIABLE RESPUESTA, TIEMPO: VISUALIZACIÓN

La variable Tiempo es evaluada de forma individual.

2.1. Histograma

Se presenta el histograma de la variable Tiempo y representa la densidad (ver Gráfico 2), es decir, la concentración de los diferentes valores de la variable de acuerdo al conjunto de datos.

Gráfico 2. Histograma de la variable respuesta: Tiempo

Fuente: elaboración propia en R

2.2. Diagrama de Cajas

Con el objetivo de cerciorar la ausencia de datos atípicos, se realiza un diagrama de caja (o box plot), que también es útil para conocer de manera oportuna la tendencia de distirbución de los datos (ver Gráfico 3).

Dada la gráfica y sus bigotes, se puede evidenciar que la varianza esperada está entre desde 0,3 hasta el percentil 25 y del percentil 75 hasta 5,8 y no hay ningún dato ubicado encima/debajo de estos extremos; entonces, es debido afirmar que NO existen datos atípicos, lo que permite continuar con el análisis sin hacerle ningún tratamiento y/o modificación especial a los datos.

Teniendo en cuenta que la línea central indica la mediana de los datos, se puede observar entonces que, la mitad de los datos se encuentran por debajo de 3,2 y el otro 50% se encuentra por encima de este valor, que corresponde al tiempo de respuesta (en segundos) del disco duro (en términos generales). Hasta este punto, aún no se ha explorado el tipo de disco duro.

Gráfico 3. Box plot de la variable respuesta: Tiempo

Fuente: elaboración propia en R

2.3. Diagrama de Puntos

Aquí se plantea una alternativa del histograma (ver Gráfico 4) para mostrar datos continuos.

Gráfico 4. Dot plot de la variable respuesta: Tiempo

Fuente: elaboración propia en R

2.4. Gráfica Q-Q

Ahora, se presenta el gráfico de probabilidad Q-Q o cuantil-cuantil normal (ver Gráfico 5), de la variable “Tiempo”, útil para evaluar la relación o similitud entre la distribución de la variable numérica “Tiempo” (eje y) y una distribución normal. Se trazan los cuantiles de la variable Tiempo con respecto a los cuantiles de una distribución normal. Se puede observar, cómo los puntos se acercan a la línea diagonal, lo que significa que las distribuciones comparadas tienen a ser similares.

Gráfico 5. Q-Q de la variable respuesta: Tiempo Fuente: elaboración propia en R

I

3. RELACIÓN ENTRE LA CARGA DEL SISTEMA Y EL TIEMPO DE RESPUESTA: MODELO DE REGRESIÓN LINEAL SIMPLE

3.1.Diagrama de Dispersión: Variables Carga y Tiempo

Una vez efectuado el análisis univariado anterior, se procede con el análisis de regresión, donde se evalúa la relación entre la variable predictora (Carga)y la variable respuesta (Tiempo), es decir se realiza un análisis conjunto de las dos variables en cuestión. El primer análisis comprende un diagrama de dispersión (ver Gráfico 6) del cual se podría deducir que, con el aumento de la carga del sistema, el tiempo de respuesta tiende a aumentar. De acuerdo a lo anterior, es preciso afirmar que las dos variables tienen una relación directa.

Gráfico 6. Diagrama de dispersión: Carga y Tiempo

Fuente: elaboración propia en R

3.2. Test de Shapiro-Wilk

Para revelar si la distribución de las variables es o no normal, se realizó el test de Shapiro-Wilk dado la pequeña cantidad de datos (25); la hipótesis nula (Ho) establece que la población está distribuida de forma normal y, por ende, en la hipótesis 1 (H1), la distribución de la población no es normal, así:

Fórmula 1

Fuente: elaboración propia

Para llegar al resultado, se toma en consideración al nivel de significancia, alfa = 0,05, entonces, si el p-valor es menor al alfa, se rechaza la hipótesis nula y, en el caso contrario, si el p-valor es mayor a alfa, NO se rechaza la hipótesis nula y este último escenario se presenta precisamente en este caso:

Resultado R:1

Fuente: elaboración propia en R

Vemos que, en ambos casos, el p-valor es mucho mayor a alfa, por lo que no se rechaza la hipótesis nula, concluyendo así que las dos variables, Carga y Tiempo, están distribuidas de forma normal. Esta prueba es fundamental para seleccionar el método adecuado para la comparación de coeficientes y ese método es Pearson.

3.3. Comparación de Coeficientes: Método Pearson

El método Pearson es el más adecuado en este estudio dado que la distribución de las variables analizadas es normal, es decir, tanto la variable Carga con la variable Tiempo, son normales. Se acepta la normalidad. Ahora, para comparar las varibles se tiene en consideración el test de hipótesis sobre el coeficiente de correlación, que establece que:

Fórmula 2

Fuente: elaboración propia

La hipótesis nula establece que el p valor es igual a 0 (inexistencia de relación)o diferente de 0 (relación negativa o positiva). Es decir:

Fórmula 3

Fuente: elaboración propia

En este estudio, el p valor es 1 (p-value=1), lo que significa que entre las variables Carga y Tiempo existe una correlación positiva perfecta (ver Gráfico XX), por lo que se rechaza la hipótesis nula (Ho) y conservamos la hipótesis 1 (H1).

Resultado R:2

Fuente: elaboración propia en R

Gráfico 7. Tipo de correlación entre variables

Fuente: material de clase curso PADESR

II

4. MODELO 1: RELACIÓN ENTRE CARGA Y TIEMPO

El objetivo es construir un primer modelo que permita explicar el Tiempo de respuesta promedio (en segundos) en función de la Carga del sistema, sin incluir la configuración del disco. El resultado es:

Resultado R:3

Fuente: elaboración propia en R

Dados estos resultados en R, la ecuación de la recta corresponde a:

Fórmula 4

Fuente: elaboración propia

Y de ella puede interpretarse que, cuando la Carga es 0, el Tiempo medio es 0,048 y, por cada unidad adicional de carga, el tiempo va a aumentar en 0,49. La covariable X (Carga) es significativa en la explicación de la variable respuesta (Tiempo); también es sustancial declarar que, tanto el intercepto como la pendiente, son significativas en el modelo.

4.1. Ajuste del Modelo 1

La línea roja corresponde al ajuste del modelo.

Gráfico 8. Diagrama de dispersión: ajuste del modelo 1

Fuente: elaboración propia en R

4.2. Bondad de ajuste: Modelo 1

R^2: Si se analiza el indicador R^2 o coeficiente de determinación, se puede indicar que la variable Carga explica a la variable Tiempo en un 85,79% y, aunque el modelo es bueno, aún existe un 14,4% de variabilidad no explicada, es decir, existen otras variables que no se han tenido en cuenta dentro del estudio para explicar a la variable respuesta Tiempo.

4.3. Inspección de los residuos: Modelo 1

Estudiar el comportamiento de los residuos es de vital importancia para el análisis de regresión, por ello, se efectúa este análisis con ayuda de un plot correspondiente al modelo 1. En la primer gráfica, se puede evidenciar una leve curvatura dado que los datos no se encuentran de manera uniforme alrededor de 0, lo que significa la ausencia de un término en el ajuste del modelo; la gráfica 2, es posible observar la normalidad de los datos.

Gráfico 9. Inspección de los residuos: modelo 1

Fuente: elaboración propia en R

III

5. MODELO 2: INTERACCIÓN ENTRE LA CONFIGURACIÓN DEL DISCO Y CARGA DEL SISTEMA (REGRESIÓN CON PREDICTORES CUALITATIVOS)

5.1. Visualización de Interacción

5.1.1.Diagrama de cajas: carga y configuración

Gráfico 10. Box plot de Carga y Configuración

Fuente: elaboración propia en R

5.1.2. Tendencia suavizada: carga y configuración

Gráfico 11. Interacción entre Carga y Tiempo según la Configuración

Fuente: elaboración propia en R

5.1.3. Carga y Tiempo según la Configuración

Gráfico 11.1 Interacción entre Carga y Tiempo según la Configuración

Fuente: elaboración propia en R

5.2. Modelo 2

En este nuevo modelo, se tuvo en cuenta la configuración del disco (SDD o HDD)y su interacción con la carga del sistema, es decir, se agrega el término dicotómico Conf, el cual sólo puede obtener los valores de 0 y 1 (SDD y HDD respectivamente). Teniendo en cuenta que lo que se busca es conocer el efecto de la variable Carga, en presencia de la variable bicotómica Conf, se identificó que existen una interacción significativa.

De acuerdo a lo obtenido en modelo 2, expuesto en R:4, se puede interpretar que, por cada consulta adicional (Carga), el tiempo de respuesta del disco (en términos generales) aumentará en 71,97%. Ahora, como es debido, se tiene en cuenta la configuración del disco, con lo que se puede interpretar que el HDD tardará en responder 2,26 segundos más en promedio que el SDD. También, se logra deducir que, por cada consulta adicional en el tipo de disco HDD, el tiempo de respuesta medio disminuirá en 0,35 segundos.

Resultado R:4

Fuente: elaboración propia en R

5.3. Bondad de ajuste: Modelo 2

  1. R^2: Para este análisis, se tiene en cuenta el R^2 ajustado y este indica que las variables numérica y dicotómica (Carga y Conf respectivamente), explican a la variable respuesta (Tiempo) en un 96,48%.

5.4. Inspección de los residuos: Modelo 2

distancia de cokcs no hay datos por fuera

Gráfico 12. Inspección de los residuos: modelo 2

Fuente: elaboración propia en R

IV

6. ECUACIÓN DEL MODELO 2

La ecuación del modelo 2 es la siguiente:

Fórmula 5

Fuente: elaboración propia

6.1. Representación Gráfica

En el gráfico 13, se evidencia que NO hay Paralelismo, es decir que existe entre las variables cuantitativas (Carga y Tiempo) y la cualitativa (Conf), por lo que estas tres variables, deben ser evaluadas de forma conjunta para un resultado correcto.

Gráfico 13. Representación gráfica del modelo 2

Fuente: elaboración propia en R

V

7. TEST ANOVA: Modelo 1 vs Modelo 2

Casi finalizando este estudio, es adecuado comparar 2 modelos con el objetivo de valorar si transformación (de la propuesta 1 a la propuesta 2) es significativa o no. Así bien, se establece una prueba de hipótesis donde se valora el modelo inicial y el saturado, así:

Fórmula 6

Fuente: elaboración propia

El test de anova o análisis de la varianza entre los modelos 1 y 2, arrojó el siguiente resultado:

Resultado R:5

Fuente: elaboración propia en R El test determina que el modelo 2 tiene mayor significancia sobre la variable respuesta. De acuerdo a lo anterior, se rechaza la hipótesis nula (Ho), por lo cual, se conserva la hipótesis 1 declarando así que el modelo más complejo (modelo 2), tiene mejor ajuste que el modelo más sencillo (modelo 1). En el resultado R:5 es posible observar que, considerar la variale dicotómica (Conf), es significatvo en el ajuste del modelo.

VI

8. CUMPLIMIENTO DE LOS SUPUESTOS: TÉRMINO ERROR

La última parte de este estudio, comprende el análisis de residuos de ambos modelos, es decir, la diferencia entre los valores observados y los que predice el modelo.

Gráfico 14. Cumplimiento de supuestos: modelo 1 vs modelo 2

Fuente: elaboración propia en R

VII

9. DISCUSIÓN Y CONCLUSIONES

El modelo 1 es un buen modelo porque explica el 85,7% de la variable respuesta (Tiempo), lo cual representa un valor bastante significativo a pesar de que sólo se trate de 1 variable; sin embargo, el modelo 2, explica a la variable en un 96,48%, es decir, 10,78 más que el modelo 1. Este fenómeno puede ser explicado por la mayor complejidad del modelo 2 en contraste con el modelo 1, al considerar otra variable (Conf). Dicho lo anterior, los dos modelos son significativos, siendo superior el 2.

REFERENCIAS

Bermúdez, I. (2022).Introducción al Análisis de Regresión Lineal Simple y Múltiple. Curso PADESR.

R Markdown from R Studio. Recuperado de https://rmarkdown.rstudio.com

Irizarry, R. (2021). Introducción a la ciencia de datos. Capítulo 7. ggplot. Recuperado de https://rafalab.github.io/dslibro/ggplot2.html