Caso de investigacion - Discos Duros SDD Y HDD

Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD).Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco(segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).

Se han realizado múltiples ensayos bajo ambas configuraciones y bajo variación de la carga del sistema.

i. Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.

#Cargamos Base de Datos de discos duros
library(readxl)
Datosdiscos <- read_excel("~/Archivos R/BD _Discos Duros.xlsx")
View(Datosdiscos)

Revisamos la estructura de los datos para ver su comportamiento

str(Datosdiscos)
FALSE tibble [25 × 3] (S3: tbl_df/tbl/data.frame)
FALSE  $ Conf  : num [1:25] 1 0 1 0 1 1 0 0 0 1 ...
FALSE  $ Carga : num [1:25] 1 2 2.4 3.1 4 4.3 5.8 6.6 7.5 8 ...
FALSE  $ Tiempo: num [1:25] 0.9 0.3 2 0.8 2.7 2.6 2.5 3.2 3.7 3.9 ...

Encontramos que la variable “Conf” la cual nos habla del tipo de disco se encuentra numerica, por lo tanto debemos convertirla a factor de la siguiente Manera

Datosdiscos=transform(Datosdiscos,
                      Conf=factor(Conf, levels=0:1, labels =c("SDD","HDD")))

summary(Datosdiscos)
FALSE   Conf        Carga            Tiempo     
FALSE  SDD:12   Min.   : 1.000   Min.   :0.300  
FALSE  HDD:13   1st Qu.: 3.100   1st Qu.:1.500  
FALSE           Median : 5.800   Median :3.200  
FALSE           Mean   : 5.648   Mean   :2.828  
FALSE           3rd Qu.: 8.000   3rd Qu.:3.900  
FALSE           Max.   :10.200   Max.   :5.800

Summary nos permite evidenciar la actualización de numerica a factor para la variable en asunto,por lo anterior podemos proceder con la grafica inicial, pero antes de eso revisaremos si presentamos datos faltantes, para efectos de la regresion es importante saber cuales registros no haran parte del analisis.

esto lo haremos a través del paquete visdat con la funcion vis miss - visualizar datos faltantes

visdat::vis_miss(Datosdiscos) 

Como no presentamos datos faltantes y previamente validamos y actualizamos a nivel de categoria, procedemos a graficar.

library(ggplot2)

ggplot(data = Datosdiscos, aes(x = Carga, y = Tiempo, col = Conf)) +
  geom_point() +
  ggtitle("Relacion entre las variables tiempo y carga en funcion del tipo de disco duro")

Al representar gráficamente la relación entre el tiempo de respuesta del disco y la carga del sistema en función del tipo de disco duro, y bajo la hipótesis de que el nivel de carga por unidad representa 10% de carga del sistema, es decir 1=10%. podemos observar que el disco duro tipo HDD a niveles de carga cercanos al 55%, el tiempo de respuesta es evidentemente mayor en relación al comportamiento paralelo inferior del disco SDD con los mismos niveles de carga, es decir parece mejor el SDD en dichos niveles; posterior al 75% en nivel de carga, el tipo de disco HDD se mantiene casi constante en relación tiempo de respuesta , el tipo de disco duro SDD pierde protagonismo al disminuir su desempeño, pareciendo que a mayor nivel de carga del sistema peor rendimiento de este tipo de disco con un patrón creciente definido, teniendo presente la relación creciente de rendimiento/carga constante del tipo HDD hasta niveles aproximados del 75%, es decir su rendimiento disminuye a mayor carga del sistema hasta dicho nivel, comenzando a disminuir su inclinación con respecto a carga del sistema. Dentro del comportamiento particular de los discos no se encuentran datos atípicos o influyentes por evaluar, por lo anterior podríamos decir que el tipo de disco HDD presenta mejor rendimiento ya que presenta mejor tiempo de respuesta en altos niveles de carga del sistema.

Ejecutaremos prueba de Hipotesis para evidenciar la normalidad de las variables a través del test de Shapiro-Wilks, el cual plantea la hipótesis nula que una muestra proviene de una distribución normal.

H0: La variable presenta normalidad ; H1: La variable no presenta normalidad

shapiro.test(Datosdiscos$Carga)
FALSE 
FALSE   Shapiro-Wilk normality test
FALSE 
FALSE data:  Datosdiscos$Carga
FALSE W = 0.9373, p-value = 0.1282

Para la variable carga se evidencia normalidad, no podemos rechazar hipotesis nula ya que el p valor elegido es mayor a 0,05.

shapiro.test(Datosdiscos$Tiempo)
FALSE 
FALSE   Shapiro-Wilk normality test
FALSE 
FALSE data:  Datosdiscos$Tiempo
FALSE W = 0.96267, p-value = 0.4703

Para la variable tiempo se evidencia normalidad, no podemos rechazar hipotesis nula ya que el p valor elegido es mayor a 0,05.

Ejecutamos un grafico de dispersión para ver la correlacion visualmente y posterior aplicamos Test de Pearson

attach(Datosdiscos)
plot(Tiempo~Carga, pch=20, ylab="Tiempo", cex.lab=1.4)

detach(Datosdiscos)

Deacuerdo al grafico de dispersion pareciera que la correlación de las 2 variables es positiva.

Test de correlación entre Carga y Tiempo antes de revisarlo por separado

cor.test(x=Datosdiscos$Carga, y=Datosdiscos$Tiempo, alternative = "greater", method = "pearson")
FALSE 
FALSE   Pearson's product-moment correlation
FALSE 
FALSE data:  Datosdiscos$Carga and Datosdiscos$Tiempo
FALSE t = 11.783, df = 23, p-value = 1.589e-11
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE  0.8566038 1.0000000
FALSE sample estimates:
FALSE       cor 
FALSE 0.9262224

La correlacion es alta 0,92 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.

library(dplyr)

SetSDD<- Datosdiscos %>% filter(Conf == "SDD")
SetHDD<- Datosdiscos %>% filter(Conf == "HDD")

Pearson para Tipo de disco SDD

cor.test(x=SetSDD$Carga, y=SetSDD$Tiempo, alternative = "greater", method = "pearson")
FALSE 
FALSE   Pearson's product-moment correlation
FALSE 
FALSE data:  SetSDD$Carga and SetSDD$Tiempo
FALSE t = 28.334, df = 10, p-value = 3.487e-11
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE  0.9816387 1.0000000
FALSE sample estimates:
FALSE       cor 
FALSE 0.9938293

La correlacion es alta 0,99 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.

Pearson para Tipo de disco HDD

cor.test(x=SetHDD$Carga, y=SetHDD$Tiempo, alternative = "greater", method = "pearson")
FALSE 
FALSE   Pearson's product-moment correlation
FALSE 
FALSE data:  SetHDD$Carga and SetHDD$Tiempo
FALSE t = 12.024, df = 11, p-value = 5.698e-08
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE  0.9013679 1.0000000
FALSE sample estimates:
FALSE       cor 
FALSE 0.9640003

La correlacion es alta 0,96 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.

ii. Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.

Regresion sin categoria de disco

Modelo_s1 = lm(Tiempo~Carga, data= Datosdiscos)
anova(Modelo_s1)
FALSE Analysis of Variance Table
FALSE 
FALSE Response: Tiempo
FALSE           Df Sum Sq Mean Sq F value    Pr(>F)    
FALSE Carga      1 47.313  47.313  138.84 3.177e-11 ***
FALSE Residuals 23  7.838   0.341                      
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(Modelo_s1)
FALSE 
FALSE Call:
FALSE lm(formula = Tiempo ~ Carga, data = Datosdiscos)
FALSE 
FALSE Residuals:
FALSE      Min       1Q   Median       3Q      Max 
FALSE -1.16824 -0.40281 -0.03945  0.43541  1.07627 
FALSE 
FALSE Coefficients:
FALSE             Estimate Std. Error t value Pr(>|t|)    
FALSE (Intercept)  0.04838    0.26321   0.184    0.856    
FALSE Carga        0.49214    0.04177  11.783 3.18e-11 ***
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
FALSE 
FALSE Residual standard error: 0.5837 on 23 degrees of freedom
FALSE Multiple R-squared:  0.8579,  Adjusted R-squared:  0.8517 
FALSE F-statistic: 138.8 on 1 and 23 DF,  p-value: 3.177e-11
attach(Datosdiscos)
plot(Tiempo~Carga,pch=20,ylab="Tiempo",cex.lab=1.4)
abline(Modelo_s1, col="red", lty=2, lwd=2)
r = cor(Tiempo,Carga,method = c("pearson"),use="pairwise.complete.obs")
text(30,40, paste("r = ", round(r,2) ), cex=1.4)

Este modelo de regresión lineal simple S1 presenta si existe una relación de dependencia entre el tiempo de respuesta del disco sin discriminación y la carga del sistema, la estimación de acuerdo a la muestra en asunto nos presenta la relación entre la variable dependiente o explicativa (carga) y la dependiente (Tiempo), donde el intercepto estima que si la variable carga tomara un valor de cero, el tiempo de respuesta del disco sin discriminar sería 0,0484. De la misma forma, si la carga del sistema aumentara en una unidad, el tiempo de respuesta del disco sin discriminar aumentaría en promedio 0,492 unidades.

dentro del analisis de varianza, revisando que tambien ajusta el modelo respecto a la media, el p valor es menor a cero, p>0 , por lo cual rechaza la hipotesis nula de que el modelo es tan bueno como la media, aceptando la alterna de que nuestro modelo es mejor.

la carga como variable es significativa dentro del modelo ya que su valor p <0,05

El modelo cuenta con un coeficiente r cuadrado ajustado de 0.8579, por lo que podemos decir que el modelo de tiempo de respuesta del sistema, es explicado en un 85,79% por la carga del sistema.

par(mfrow=c(2,2))
plot(Modelo_s1)

debemos verificar que la distribucion de los datos sea normal para que los analisis basados en los test F y P bajo distribucion normal nos sean validos.

Analizando graficamente las relaciones entre los datos podemos observar el ajuste de los residuos en un margen de varianza prudencial o rango aceptable dentro de la escala, lo cual determina que mi nivel de incertidumbre para cualquier pronostico lo cual nos genera mucha mas confianza, los residuos atipicos no superan el 5%, por lo cual son parte de la frecuencia esperada de datos, no presentamos zonas con preferencias de variabilidad, donde la mayoria se centran en cero, lo cual es favorable y nos permite pensar que los datos presentan distribucion normal.

iii. Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2.Recom. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos

Modelo_s2 <- lm(Tiempo~Carga + Conf + (Carga*Conf), data= Datosdiscos)
anova(Modelo_s2)
FALSE Analysis of Variance Table
FALSE 
FALSE Response: Tiempo
FALSE            Df Sum Sq Mean Sq  F value    Pr(>F)    
FALSE Carga       1 47.313  47.313 584.8051 < 2.2e-16 ***
FALSE Conf        1  0.357   0.357   4.4132   0.04791 *  
FALSE Carga:Conf  1  5.782   5.782  71.4618 3.364e-08 ***
FALSE Residuals  21  1.699   0.081                       
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(Modelo_s2)
FALSE 
FALSE Call:
FALSE lm(formula = Tiempo ~ Carga + Conf + (Carga * Conf), data = Datosdiscos)
FALSE 
FALSE Residuals:
FALSE      Min       1Q   Median       3Q      Max 
FALSE -0.68547 -0.11333  0.06881  0.15302  0.41807 
FALSE 
FALSE Coefficients:
FALSE               Estimate Std. Error t value Pr(>|t|)    
FALSE (Intercept)   -1.37549    0.20902  -6.581 1.62e-06 ***
FALSE Carga          0.71979    0.03367  21.376 9.88e-16 ***
FALSE ConfHDD        2.26391    0.26520   8.536 2.86e-08 ***
FALSE Carga:ConfHDD -0.35734    0.04227  -8.454 3.36e-08 ***
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
FALSE 
FALSE Residual standard error: 0.2844 on 21 degrees of freedom
FALSE Multiple R-squared:  0.9692,  Adjusted R-squared:  0.9648 
FALSE F-statistic: 220.2 on 3 and 21 DF,  p-value: 5.042e-16

Este modelo de regresión lineal Multiple Modelo_S2 presenta si existe una relación de dependencia entre el tiempo de respuesta del disco , el tipo de disco, la carga del sistema y la interaccion entre el tipo de disco y la carga del sistema, donde el intercepto estima que si las variables carga, config y la interaccion entre carga y config tomaran un valor de cero, el tiempo de respuesta del disco sería negativo -1,375(lo cual no es una buena inferencia dado el caso de estudio). por otro lado,si la carga del sistema aumentara en una unidad, el tiempo de respuesta del disco aumentaría en promedio 0,719 unidades. Ceteris Paribus

interpretando la variable dummy, encontramos que los discos HDD son 2.26 segundo mas lentos en responder que los SDD, ceteris paribus

dentro del analisis de varianza, revisando que tambien ajusta el modelo respecto a la media, el p valor es menor a cero, p>0 , por lo cual rechaza la hipotesis nula de que el modelo es tan bueno como la media, aceptando la alterna de que nuestro modelo es mejor.

Beta 0 Intercepto - Sin interpretación (No tiene sentido rendimientos en tiempo negativos del disco)

Beta 1 Carga - la carga como variable es significativa dentro del modelo ya que su valor p <0,05

Beta 2 conf - como variable dummy es significativa dentro del modelo ya que su valor p <0,05

Beta 3 CargaXConfi - Como variable interaccion no tiene interpretación

El modelo cuenta con un coeficiente r cuadrado ajustado de 0.9692, por lo que podemos decir que el modelo de tiempo de respuesta del sistema, es explicado en un 96,92% por las variables independientes.

Dado lo anterior podemos decir que el 2 modelo ajusta mejor que el Modelo 1 para efectos del tiempo de respuesta de los discos duros.

par(mfrow=c(2,2))
plot(Modelo_s1)

y por ultimo analizando graficamente las relaciones entre los datos podemos observar el ajuste de los residuos en un margen de varianza prudencial o rango aceptable dentro de la escala, lo cual determina que mi nivel de incertidumbre para cualquier pronostico lo cual nos genera mucha mas confianza, los residuos atipicos no superan el 5%, por lo cual son parte de la frecuencia esperada de datos, no presentamos zonas con preferencias de variabilidad, donde la mayoria se centran en cero, lo cual es favorable y nos permite pensar que los datos presentan distribucion normal.

Confirmamos que el 2 modelo ajusta mejor que el Modelo 1 para efectos del tiempo de respuesta de los discos duros.

IV. Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo

Aplicación test ANOVA Modelo 1 vs Modelo 2

anova(Modelo_s1,Modelo_s2)
FALSE Analysis of Variance Table
FALSE 
FALSE Model 1: Tiempo ~ Carga
FALSE Model 2: Tiempo ~ Carga + Conf + (Carga * Conf)
FALSE   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
FALSE 1     23 7.8375                                  
FALSE 2     21 1.6990  2    6.1386 37.938 1.067e-07 ***
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Podemos evidenciar que de acuerdo al valor P<0,05 donde se rechaza la hipotesis nula de que el modelo 1 presenta mejor ajuste que el segundo modelo, por lo anterior se confirma que incluyendo el tipo de disco duro y su interaccion con la carga del sistema mejoran significativamente el ajuste del modelo sin incluirle ruido innecesario.

V. Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.

library(ggplot2)
library(ggThemeAssist)


ggplot(data= Datosdiscos) +
  geom_point(aes(x= Carga, y= Tiempo))+
  geom_line(aes(x= Carga, y= predict(Modelo_s1)),
            col="red") + 
  geom_line(aes(x= Carga, y= predict(Modelo_s2)),
            col="purple")

par(mfrow=c(2,2))
plot(Modelo_s2)

en relacion visual es claro que el modelo 2 se ajusta mucho mejor que el modelo 1

Cumplimiento de Supuestos Sobre el error

Residuos Normales

HO=Residuos con Distribucion Normal H1= Residuos con Distribución No Normal

shapiro.test(Modelo_s2$residuals)
FALSE 
FALSE   Shapiro-Wilk normality test
FALSE 
FALSE data:  Modelo_s2$residuals
FALSE W = 0.95551, p-value = 0.3323

Teniendo en cuenta el valor P, no se rechaza HO, por tanto se asume normalidad en los residuos del modelo.

Varianza Constante -homocedasticidad a traves de prueba de White

HO= Homocedasticidad H1= Heterocedasticidad

library(lmtest)
prueba_white<-bptest(Modelo_s2)
print(prueba_white)
FALSE 
FALSE   studentized Breusch-Pagan test
FALSE 
FALSE data:  Modelo_s2
FALSE BP = 2.6825, df = 3, p-value = 0.4432

Teniendo en cuenta el valor P, no se rechaza HO, por tanto se asume Homocedasticidad o varianza constante

Media de los residuos tendiente o igual a cero

Media_residuals<-mean(residuals(Modelo_s2))
Media_residuals
FALSE [1] -3.192108e-17

teniendo en cuenta una media teniende a cero, se valida el supuesto

Autocorrelacion del modelo

HO= No Autocorrelación H1= Autocorrelación

dwtest(Modelo_s2, alternative = "two.sided", iterations = 1000)
FALSE 
FALSE   Durbin-Watson test
FALSE 
FALSE data:  Modelo_s2
FALSE DW = 1.3285, p-value = 0.06843
FALSE alternative hypothesis: true autocorrelation is not 0
library(car)
durbinWatsonTest(Modelo_s2,simulate = TRUE,reps = 1000)
FALSE  lag Autocorrelation D-W Statistic p-value
FALSE    1       0.2660196      1.328472   0.058
FALSE  Alternative hypothesis: rho != 0

En ambos Test , se puede rechazar la presencia de autocorrelación (No se rechaza la Ho), ya que el valor p es >0.05

Se cumplen los supuestos requeridos en relacion a los residuos , generando validez en los resultados e inferencia estadistica.

VI. CONCLUSIONES

Podemos concluir de acuerdo al análisis exploratorio, posterior regresión lineal y regresión múltiple, que el modelo 2 es el mejor, el cual incluye información sobre el tipo de disco duro , carga del sistema y comportamiento en función de la interacción entre carga del sistema y tipo de disco duro, es el mejor modelo posible de acuerdo a la información suministrada, teniendo en cuenta su ajuste en r cuadrado el cual fue del 96,92%,superando al primer modelo en mas de 10%, revisando el r cuadrado ajustado no presenta variación importante en relación al r cuadrado habitual , ubicándose el ajustado en 96,42% , esto implica que la inclusion de variables no castiga su ajuste, por el contrario lo aumenta, adicional a estola significancia de sus variables explicatorias y como se comporta en relación a sus residuos nos permite definirlo como un muy buen modelo , que al compararlo con el primer modelo, se obtiene que este segundo se ajusta mucho mejor.

Teniendo en cuenta la aprobación de los supuestos de normalidad, homocedasticidad, ausencia de correlación y media tendiente a cero, podemos ejecutar inferencia estadística para efectos de interpretación con fines de predicción.

Ejercicio 2

1 .Realizar un análisis descriptivo completo sobre la relación entre todas las variables del data frame.

R// se cuentan con un conjunto de 10 variables de entrada y una variable de salida que representa la progresión de la enfermedad diabetes en 442 registros.

knitr::opts_chunk$set(echo = FALSE, warning = FALSE, message = FALSE,comment = NA) 

windows(height=20,width=25)
M=matrix(c(1,1,1,1,1,1,2,2,2),byrow=T,ncol=3)
layout(M)
with(datos,{
  hist(Y, col="Gray",freq=F,breaks=25,xlim=range(Y),main = " Progresion de diabetes en pacientes.",xlab = "Cantidad", ylab = "Densidad")  
  lines(density(Y))
  boxplot(Y,horizontal=T, col="#3585A6",ylim=range(Y))  
})

Se puede observar una tendencia decreciente en cuanto al comportamiento general del nivel de progresión de la enfermedad dentro de los registros, además no se presetan datos atípicos dentro de la variable respuesta y su comportamiento es asimetrico positivo.

Podemos observar algunos valores atípicos para S1,S2,S3,S4,S5 y S6 (alreddor del 7% de los registros) y una distribución del 53% y 47% de los registros catalogados como Masculino y Femenino y en general distribuciones de datos mas o menos equilibradas con respecto a su mediana.

Con respecto a la relacion entre todas las variables podemos obsevar una fuerte asociacion entre S1 y s6 con coeficiente de correlacion de 0,9 asi como la asociaciones mas fuertes con respecto a la variable salida que tienen un coefcientente de correlacion de 0,59 y 0,57 para BMI y S5 respectivamente. Finalmente con respecto a la variable s3 todas las demas variables presentan un corrleacion negativa.

2 .Ajuste un modelo saturado para Y, con todas las variables predictoras, y analice la presencia de multicolinealidad en este modelo:

R//El modelo Saturado es el siguiente :

  Estimate Std. Error t value Pr(>|t|)
(Intercept) -357.4 67.06 -5.33 1.586e-07
AGE -0.03636 0.217 -0.1675 0.867
SEXF -22.86 5.836 -3.917 0.0001042
BMI 5.603 0.7171 7.813 4.296e-14
BP 1.117 0.2252 4.958 1.024e-06
S1 -1.09 0.5733 -1.901 0.05795
S2 0.7465 0.5308 1.406 0.1604
S3 0.372 0.7825 0.4754 0.6347
S4 6.534 5.959 1.097 0.2735
S5 68.48 15.67 4.37 1.556e-05
S6 0.2801 0.2733 1.025 0.306
Fitting linear model: formula_sat
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
442 54.15 0.5177 0.5066

El modelo saturado nos da una explicacion del alrederodel 50.1% y nos da indicios sobre las variables que nos son significativas :(AGE,S1,S2,S3,S4 Y S6). ademas se puede observar que si las variables independientes tomaran un valor de cero, la progresión de la diabetes sería de -357.4.

Multicolinealidad:

Las varibles S1,S2,S3,S5,y s4 presentan niveles altos de colinealidad.

3. Ejecute el procedimiento de selección de variables “paso a paso” y seleccione un modelo reducido para este problema

R // Ejecutando la rutina paso a paso para reduccion de varaibles se obtiene lo siguiente :


Call:
lm(formula = Y ~ SEX + BMI + BP + S1 + S2 + S5, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-158.275  -39.476   -2.065   37.219  148.690 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -335.3576    25.3234 -13.243  < 2e-16 ***
SEXF         -21.5910     5.7056  -3.784 0.000176 ***
BMI            5.7111     0.7073   8.075 6.69e-15 ***
BP             1.1266     0.2158   5.219 2.79e-07 ***
S1            -1.0429     0.2208  -4.724 3.12e-06 ***
S2             0.8433     0.2298   3.670 0.000272 ***
S5            73.3065     7.3083  10.031  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 54.06 on 435 degrees of freedom
Multiple R-squared:  0.5149,    Adjusted R-squared:  0.5082 
F-statistic: 76.95 on 6 and 435 DF,  p-value: < 2.2e-16

Call:
lm(formula = Y ~ 1, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-127.13  -65.13  -11.63   59.37  193.87 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  152.133      3.667   41.49   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 77.09 on 441 degrees of freedom

Call:
lm(formula = Y ~ 1, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-127.13  -65.13  -11.63   59.37  193.87 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  152.133      3.667   41.49   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 77.09 on 441 degrees of freedom

En donde el modelo reducido resultante es compuesto por las variables SEX , BMI , BP , S1 , S2 , S5 el cual es un poco mejor con respecto al modelo saturado( 50.82 vs 50.66 de R^2) con la imensa ventaja de usar solo 6 variables.

4.Interpretar el modelo anterior, verificando la significación de sus parámetros y evaluando el cumplimiento de los supuestos sobre el error.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) -335.4 25.32 -13.24 7.154e-34
SEXF -21.59 5.706 -3.784 0.0001758
BMI 5.711 0.7073 8.075 6.687e-15
BP 1.127 0.2158 5.219 2.787e-07
S1 -1.043 0.2208 -4.724 3.123e-06
S2 0.8433 0.2298 3.67 0.0002723
S5 73.31 7.308 10.03 1.939e-21
Fitting linear model: Y ~ SEX + BMI + BP + S1 + S2 + S5
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
442 54.06 0.5149 0.5082

En terminos de interpretacion del modelo podemos agregar el intercepto paso de -357 del modelo saturado A -335 con el modelo del paso a paso, intuyendo que en caso de todas las variables ser cero , el nivel de progresión de la diabetes seria más alto.Tambien podemos ver que el intercepto o variable respuesta está realmente relacionado con las demás variables debido a su nivel de significancia. finalmente con respecto a las significacia de las demas variables del modelo , los valores P son realmente cercanos a cero de lo que se puede deducir su aporte a la explicacion del fenómeno.

Con respecto a comportamiento de los datos y específicamente de los residuos del modelo obetidos a partir del paso a paso podemos obervar indicios de normalidad sin embargo se debe constrastar la informacion visual versus los test de supuestos.

Supuestos

Promedio Cero :

[1] 2.062731e-16

Media del residuo con un valor muy cercano a cero.

Normalidad del residuo

H0: La variable presenta normalidad

H1: La variable no presenta normalidad


    Shapiro-Wilk normality test

data:  residuos
W = 0.99731, p-value = 0.6936

Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.

Independencia:

H0: Ausencia de independencia

H1: independencia


    Durbin-Watson test

data:  Model_bw
DW = 2.0432, p-value = 0.6773
alternative hypothesis: true autocorrelation is greater than 0

Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.

Varianza constante

H0: Homocedasticidad

H1: Heterocedasticidad


    studentized Breusch-Pagan test

data:  Model_bw
BP = 21.908, df = 6, p-value = 0.001258

Para este concepto no se cumple la hipótesis nula, por lo que se debería redefinir los criterios de construcción y validación empleados en el modelo.

5.Conclusión:

Como se puede evidenciar en el modelo del paso a paso el fenómeno se puede explicar a traves de un número reducido de variables, en este caso abarcando el 50.82% de variabilidad frente 49,18% restante asociado al error aleatorio del fenómeno o ante alguna imposibilidad del modelo por calibración. finalmente se debería revisar detalladamente el ¿por qué? del incumplimiento del test de varianza constante que en el caso del presente estudio fue el criterio que no se cumplió con respecto a los supuestos.