PRIMER PUNTO
- Interpretacion:
- Resultado de test correlacion pearson:
SEGUNDO PUNTO
- Salida del modelo planteado
- Interpretacion salida del modelo
TERCER PUNTO
- Interpretacion salida modelo 2
CUARTO PUNTO
QUINTO PUNTO
- Interpretacion de los interceptos:
- Interpretacion Resultados Anova:
SEXTO PUNTO
- Analisis de supuestos
SEPTIMO PUNTO
- Conclusion

PRIMER PUNTO

Represente gráficamente la relación entre el tiempo de respuesta y la carga de trabajo diferenciando los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco realizando los test correspondientes test de correlación en cada caso

Grafico de dispersion - correlacion

Aquí es importante denotar que existe una relación positiva con respecto al tiempo de respuesta de los discos duros y la carga del sistema (que se encuentra dada en numero de consultas por minuto), podemos afirmar que esta relación es positiva de manera gráfica, ya que la dispersión de puntos nos dice que ante una posible variación en los tiempos de respuesta del disco duro la respuesta por parte de la carga del sistema es en igual o mayor proporción que en la del tiempo de respuesta.

Boxplot analisis de fuerza de relacion

Interpretacion:

Es importante denotar que para la variable cuantitativa 0 es asignado el tipo de disco duro SDD y para la variable cuantitativa 1 es asignado el tipo de disco duro HDD. Partiendo desde esta aclaración entonces comenzaremos con el Box plot que analiza la fuerza de relación Tipo – Tiempo de respuesta, Lo que logramos percibir es que la mediana del tipo de disco duro HDD es mayor que la mediana del tipo de disco duro SDD. El límite inferior para la variable SDD (0) es mayor que el limite inferior para disco duro tipo HDD (1). Además de esto hay que denotar que el rango de valores que toma la variable SDD (0) es superior al rango de valores que toma la variable HDD (1) y que al mismo tiempo esta variable SDD posee una densidad casi del doble que la variable HDD (1). Este grafico se encuentra exento de casos extremos que son valores que se encuentran por fuera de los intervalos apreciados por el boxplot.

Posteriormente, teniendo en cuenta los nombres asignados a las variables 0 y 1 partiremos con el análisis para el boxplot del análisis de la fuerza de relación Tipo- carga del sistema. En este boxplot podemos ver que como respuesta al caso anterior poseemos una concentración de datos superior en la variable 1(HDD) que con respecto a la variable 0(SDD). Asi mismo podemos decir que la mediana del disco duro tipo SDD (0) es un valor superior a la mediana del disco duro tipo HDD (1). Los intervalos de apreciación de los datos son más amplios para el tipo de disco duro HDD (1) y gráficamente con respecto a la caja podemos ver de que existe una cantidad de datos mucho mayor en los discos duro tipo HDD en su relación con la carga del sistema. En este caso como en el anterior tampoco poseemos datos que se encuentren dentro de los parámetros de casos extremos; Es decir que se encuentren por fuera de los intervalos apreciados por el diseño de nuestro boxplot.

Resultado de test correlacion pearson:

Resultados Test de correlacion pearson

Para simplificar el análisis de estos test de correlación, diremos que en el primer resultado lo calculamos con el tiempo de respuesta del disco duro y el tipo de disco duro, como resultado para este análisis obtuvimos un P- value de 0.6144 lo que al ser positivo nos indica una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos. De esta forma podemos concluir además tambien que mediante lo que logramos observar en la muestra existe de manera estadística una tendencia de crecimiento de ambas partes de las variables a analizar.

Por otra parte, como resultado al análisis de las variables carga del sistema y el tipo de disco duro tambien obtuvimos un p-value positivo; lo que nos indica una correlación positiva que es un poco más débil que la del anterior, es decir que el crecimiento de estas 2 variables (Carga y tipo) esta dado en menor medida que el de las variables (Tiempo y tipo).

SEGUNDO PUNTO

Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.

Salida del modelo planteado

Resultados salida del modelo 1

Interpretacion salida del modelo

Como resultado obtuvimos unos residuales con una media cercana a 0, lo que podría darnos a entender que quizás el supuesto de normalidad en los errores se cumple y que a su vez quizás gráficamente lo podríamos corroborar. Sin embargo, cuando analizamos los valores Max y min logramos percibir que estos tambien son muy similares, entonces quizás podríamos afirmar que nos encontramos en una situación que presenta normalidad en los errores. Ahora bien, Para nuestro intercepto que es en otras palabras (Tiempo de carga) nos encontramos que este no posee una significancia estadística por si solo, sin embargo, como resultado obtuvimos un valor 0.04838 con un error estándar de 0.26321 que en otras palabras es el valor de los errores típicos de los estimadores de los parámetros, un t value de 0.184, este es el valor obtenido del cociente entre cada estimador y su error típico y es el que facilita el contraste de las hipótesis.

Por otra parte, la variable de carga del sistema nos permite decir que dejando todo lo demás constante y con una significancia estadística del 99% se estima que ante una variación de 0.49214 en la variable carga del sistema tenemos como respuesta un 0.04838 en la variable explicada (Tipo de disco duro).El estimador de la desviación típica de los errores él es residual estándar error y este nos da un valor de 0.5837

El multiple R-squared nos dice que la bondad de ajuste de la recta a los datos. A partir de la salida de este modelo es de 0.8579. el ajuste del R-squared(R^2) nos da un valor de 0.8517, lo que nos quiere decir que en su conjunto nuestra modelo es estadísticamente significativo.

Finalmente tenemos un P-value de 3.177e-11 que al ser menor que 0.05 entonces nos permite rechazar la Ho de que las variables en su conjunto no son significativas para explicar la variable independiente; por lo tanto, este modelo en su conjunto si tiene significancia.

TERCER PUNTO

Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco y su interacción con la carga del equipo. Analicé los resultados y evalué la bondad de ajuste del nuevo modelo. (Recom. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos)

Resultado del modelo planteado

Resultados salida del modelo 2

Interpretacion salida modelo 2

Del modelo 2 la media de los residuales es cercana a 0, en este caso al igual que en el modelo 1 se podría entender que el supuesto de normalidad en los errores se cumple, también al igual que en el primer modelo los valores del max y el min son similares por tanto se podría firmar que nos encontramos en una situación donde se presenta normalidad en los errores.

Por otro lado, el intercepto que en este caso es el tiempo de respuesta se puede evidenciar que este es significativo al 99%, también se puede apreciar que se obtuvo un valor de -1.37549, el error estándar es de 0.20902 lo cual cabe recordar que es el valor de los errores típicos de los estimadores de los parámetros, un t-value de -6.581 este es el valor obtenido del cociente entre cada estimador y su error típico y es el que facilita el contraste de las hipótesis.

Ahora bien, la variable de carga del sistema, al igual que la del tipo de disco duro que cabe recordar que es una variable Dummy son significativas al 99% por lo tanto es una buena idea tenerlas en cuenta en el modelo porque si pueden explicarlo.

El multiple R-squared nos dice la bondad de ajuste de la recta a los datos. A partir de la salida de este modelo es de 0.9692 y el ajuste del R-squared(R^2) nos da un valor de 0.9648, lo que nos quiere decir que en su conjunto nuestro modelo es estadísticamente significativo.

Finalmente tenemos un P-value de 5.042e-16 que al ser menor que 0.05 entonces nos permite rechazar la Ho de que las variables en su conjunto no son significativas para explicar la variable independiente así que este modelo en su conjunto si tiene significancia.

CUARTO PUNTO

Representacion grafica del modelo 2 y posteriormente ecuacion del modelo

Comportamiento de los datos del modelo 2

Interpretacion del grafico de datos del modelo 2

La relación es positiva, esto nos dice que entonces a medida que aumenta la carga del sistema el tiempo de respuesta de los discos duros aumenta en igual o mayor medida. en pocas palabras a mayor carga, mayor tiempo de respuesta del disco duro.

Ecuacion del modelo 2

                                        Y=-1.375+0.719C+2.263T+(-0.35C*T)
                           
                                            Teniendo en cuenta que:
                            
                                              C= carga del sistema
                                              T= Tipo de disco duro
                                        C*T = Producto entre carga y tipo

QUINTO PUNTO

Comparacion coeficientes

Interpretacion de los interceptos:

Como resultado obtuvimos que en todos los casos los interceptos de los parametros seleccionados son el valor predeterminado, es decir que muestra los errores estandar, asi como las estimaciones consideradas “True”.

Resultado Anova

Interpretacion Resultados Anova:

como el p-valor es menor que alpha se podria decir que el modelo 2 tiene mejor ajuste que el modelo 1, por lo tanto el modelo numero 2 es significativo.Comparando el cumplimiento de los supuestos entre los dos modelos Ajuste del modelo: No se logra ver nubes de puntos muy uniformes, por lo que el ajuste de los modelos no es perfecto.

SEXTO PUNTO

Analisis de supuestos

Normalidad: No se ve mucha variación entre el modelo 1 y el 2

Homogeneidad de varianza: Mejora notablemente en el modelo 2 Distancia de Cooks: Se siguen viendo varios datos atípicos en ambos modelos.

Normalidad en los errores: Existe un mejor comportamiento en la distribucion de los residuales en el modelo 1 con respecto al modelo 2, esto es posible decirlo ya que por medio del grafico de los histogramas de los residuales del los modelos logramos verlo.

SEPTIMO PUNTO

Conclusion

Partimos desde la suposicion del hecho de que ambos modelos tienen una variable cualitativa, esta variable cualitativa se encuentra dentro de nuestra base de datos representada por medio de 2 valores numericos, estos valores numericos estan dados por: 0 y 1; respectivamente para las condiciones de disco duro tipo SDD y HDD.

Posteriormente a esto logramos plantear nuestros 2 modelos en los cuales logramos ver que tanto el modelo 1 como el modelo 2 poseian caracteristicas propias de modelos que son estadisticamente significativos, dado que estos modelos presentaban en una o ambas ocasiones las condiciones de significancia estadistica conjunta tanto para el intercepto del modelo como para las variables explicativas del modelo

De esta forma y en ayuda sobre el coeficiente Multiple R-squared pudimos notar que entre el modelo 1 y modelo 2,a pesar de que ambos son estadisticamente significativos, el modelo 2 presenta un coeficiente de R-squared mucho mayor que el modelo 1; esto quizas pueda estar dado por la cantidad de variables explicativas que son apreciadas a la hora de correr nuestro modelo de regresion y quizas tambien por ampliar la cantidad de datos por agregar una variable como el producto de las variables explicativas( lo que denotariamos como una variable dummy).

Por tanto en terminos de significancia colectiva es mas optimo el trabajar bajo los parametros del modelo 2

Por medio del test de la prueba anova logramos contrastar la hipotesis de que en efecto el modelo 2, representa estadisticamente una significancia conjunta mayor que los suministrados por el modelo 1, sin embargo esto puede estar dado por la integracion de otras variables al modelo 2.

INFORME TALLER 2 - ANALISIS MODELOS REGRESION

Andres Felipe jimenez - Daniela Galindo - Paula Bastidas