Con la intención de comparar el desempeño de dos clases de discos duros (0 : SDD, 1: HDD).Este desempeño es medido a través de la variable Y: tiempo de respuesta del disco(segundos), la cual se relaciona, posiblemente bajo una dependencia no lineal, de X: la carga del sistema (Número de consultas por minuto).
Se han realizado múltiples ensayos bajo ambas configuraciones y bajo variación de la carga del sistema.
i. Represente gráficamente la relación observada entre el tiempo de respuesta y la carga de trabajo, para los dos tipos de disco duro. ¿Se evidencia una relación lineal? Mida la fuerza de esta relación para ambos tipos de disco a través de los coeficientes de correlación.
#Cargamos Base de Datos de discos duros
library(readxl)
Datosdiscos <- read_excel("~/Archivos R/BD _Discos Duros.xlsx")
View(Datosdiscos)
Revisamos la estructura de los datos para ver su comportamiento
str(Datosdiscos)
FALSE tibble [25 × 3] (S3: tbl_df/tbl/data.frame)
FALSE $ Conf : num [1:25] 1 0 1 0 1 1 0 0 0 1 ...
FALSE $ Carga : num [1:25] 1 2 2.4 3.1 4 4.3 5.8 6.6 7.5 8 ...
FALSE $ Tiempo: num [1:25] 0.9 0.3 2 0.8 2.7 2.6 2.5 3.2 3.7 3.9 ...
Encontramos que la variable “Conf” la cual nos habla del tipo de disco se encuentra numerica, por lo tanto debemos convertirla a factor de la siguiente Manera
Datosdiscos=transform(Datosdiscos,
Conf=factor(Conf, levels=0:1, labels =c("SDD","HDD")))
summary(Datosdiscos)
FALSE Conf Carga Tiempo
FALSE SDD:12 Min. : 1.000 Min. :0.300
FALSE HDD:13 1st Qu.: 3.100 1st Qu.:1.500
FALSE Median : 5.800 Median :3.200
FALSE Mean : 5.648 Mean :2.828
FALSE 3rd Qu.: 8.000 3rd Qu.:3.900
FALSE Max. :10.200 Max. :5.800
Summary nos permite evidenciar la actualización de numerica a factor para la variable en asunto,por lo anterior podemos proceder con la grafica inicial, pero antes de eso revisaremos si presentamos datos faltantes, para efectos de la regresion es importante saber cuales registros no haran parte del analisis.
esto lo haremos a través del paquete visdat con la funcion vis miss - visualizar datos faltantes
visdat::vis_miss(Datosdiscos)
Como no presentamos datos faltantes y previamente validamos y
actualizamos a nivel de categoria, procedemos a graficar.
library(ggplot2)
ggplot(data = Datosdiscos, aes(x = Carga, y = Tiempo, col = Conf)) +
geom_point() +
ggtitle("Relacion entre las variables tiempo y carga en funcion del tipo de disco duro")
Al representar gráficamente la relación entre el tiempo de respuesta del disco y la carga del sistema en función del tipo de disco duro, y bajo la hipótesis de que el nivel de carga por unidad representa 10% de carga del sistema, es decir 1=10%. podemos observar que el disco duro tipo HDD a niveles de carga cercanos al 55%, el tiempo de respuesta es evidentemente mayor en relación al comportamiento paralelo inferior del disco SDD con los mismos niveles de carga, es decir parece mejor el SDD en dichos niveles; posterior al 75% en nivel de carga, el tipo de disco HDD se mantiene casi constante en relación tiempo de respuesta , el tipo de disco duro SDD pierde protagonismo al disminuir su desempeño, pareciendo que a mayor nivel de carga del sistema peor rendimiento de este tipo de disco con un patrón creciente definido, teniendo presente la relación creciente de rendimiento/carga constante del tipo HDD hasta niveles aproximados del 75%, es decir su rendimiento disminuye a mayor carga del sistema hasta dicho nivel, comenzando a disminuir su inclinación con respecto a carga del sistema. Dentro del comportamiento particular de los discos no se encuentran datos atípicos o influyentes por evaluar, por lo anterior podríamos decir que el tipo de disco HDD presenta mejor rendimiento ya que presenta mejor tiempo de respuesta en altos niveles de carga del sistema.
Ejecutaremos prueba de Hipotesis para evidenciar la normalidad de las variables a través del test de Shapiro-Wilks, el cual plantea la hipótesis nula que una muestra proviene de una distribución normal.
H0: La variable presenta normalidad ; H1: La variable no presenta normalidad
shapiro.test(Datosdiscos$Carga)
FALSE
FALSE Shapiro-Wilk normality test
FALSE
FALSE data: Datosdiscos$Carga
FALSE W = 0.9373, p-value = 0.1282
Para la variable carga se evidencia normalidad, no podemos rechazar hipotesis nula ya que el p valor elegido es mayor a 0,05.
shapiro.test(Datosdiscos$Tiempo)
FALSE
FALSE Shapiro-Wilk normality test
FALSE
FALSE data: Datosdiscos$Tiempo
FALSE W = 0.96267, p-value = 0.4703
Para la variable tiempo se evidencia normalidad, no podemos rechazar hipotesis nula ya que el p valor elegido es mayor a 0,05.
Ejecutamos un grafico de dispersión para ver la correlacion visualmente y posterior aplicamos Test de Pearson
attach(Datosdiscos)
plot(Tiempo~Carga, pch=20, ylab="Tiempo", cex.lab=1.4)
detach(Datosdiscos)
Deacuerdo al grafico de dispersion pareciera que la correlación de las 2 variables es positiva.
Test de correlación entre Carga y Tiempo antes de revisarlo por separado
cor.test(x=Datosdiscos$Carga, y=Datosdiscos$Tiempo, alternative = "greater", method = "pearson")
FALSE
FALSE Pearson's product-moment correlation
FALSE
FALSE data: Datosdiscos$Carga and Datosdiscos$Tiempo
FALSE t = 11.783, df = 23, p-value = 1.589e-11
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE 0.8566038 1.0000000
FALSE sample estimates:
FALSE cor
FALSE 0.9262224
La correlacion es alta 0,92 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.
library(dplyr)
SetSDD<- Datosdiscos %>% filter(Conf == "SDD")
SetHDD<- Datosdiscos %>% filter(Conf == "HDD")
Pearson para Tipo de disco SDD
cor.test(x=SetSDD$Carga, y=SetSDD$Tiempo, alternative = "greater", method = "pearson")
FALSE
FALSE Pearson's product-moment correlation
FALSE
FALSE data: SetSDD$Carga and SetSDD$Tiempo
FALSE t = 28.334, df = 10, p-value = 3.487e-11
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE 0.9816387 1.0000000
FALSE sample estimates:
FALSE cor
FALSE 0.9938293
La correlacion es alta 0,99 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.
Pearson para Tipo de disco HDD
cor.test(x=SetHDD$Carga, y=SetHDD$Tiempo, alternative = "greater", method = "pearson")
FALSE
FALSE Pearson's product-moment correlation
FALSE
FALSE data: SetHDD$Carga and SetHDD$Tiempo
FALSE t = 12.024, df = 11, p-value = 5.698e-08
FALSE alternative hypothesis: true correlation is greater than 0
FALSE 95 percent confidence interval:
FALSE 0.9013679 1.0000000
FALSE sample estimates:
FALSE cor
FALSE 0.9640003
La correlacion es alta 0,96 , significativa estadisticamente hablando de acuerdo al valor p <0,05 , por tanto y de acuerdo al muestreo evaluado existe relacion estadistica significativa entre las variables.
ii. Ajuste un primer modelo de regresión simple (Modelo 1) que reproduzca la relación entre la carga y el tiempo de respuesta, sin incluir la configuración del disco duro. Evalúe la bondad de ajuste de este modelo e interprete los resultados obtenidos.
Regresion sin categoria de disco
Modelo_s1 = lm(Tiempo~Carga, data= Datosdiscos)
anova(Modelo_s1)
FALSE Analysis of Variance Table
FALSE
FALSE Response: Tiempo
FALSE Df Sum Sq Mean Sq F value Pr(>F)
FALSE Carga 1 47.313 47.313 138.84 3.177e-11 ***
FALSE Residuals 23 7.838 0.341
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(Modelo_s1)
FALSE
FALSE Call:
FALSE lm(formula = Tiempo ~ Carga, data = Datosdiscos)
FALSE
FALSE Residuals:
FALSE Min 1Q Median 3Q Max
FALSE -1.16824 -0.40281 -0.03945 0.43541 1.07627
FALSE
FALSE Coefficients:
FALSE Estimate Std. Error t value Pr(>|t|)
FALSE (Intercept) 0.04838 0.26321 0.184 0.856
FALSE Carga 0.49214 0.04177 11.783 3.18e-11 ***
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
FALSE
FALSE Residual standard error: 0.5837 on 23 degrees of freedom
FALSE Multiple R-squared: 0.8579, Adjusted R-squared: 0.8517
FALSE F-statistic: 138.8 on 1 and 23 DF, p-value: 3.177e-11
attach(Datosdiscos)
plot(Tiempo~Carga,pch=20,ylab="Tiempo",cex.lab=1.4)
abline(Modelo_s1, col="red", lty=2, lwd=2)
r = cor(Tiempo,Carga,method = c("pearson"),use="pairwise.complete.obs")
text(30,40, paste("r = ", round(r,2) ), cex=1.4)
Este modelo de regresión lineal simple S1 presenta si existe una
relación de dependencia entre el tiempo de respuesta del disco sin
discriminación y la carga del sistema, la estimación de acuerdo a la
muestra en asunto nos presenta la relación entre la variable dependiente
o explicativa (carga) y la dependiente (Tiempo), donde el intercepto
estima que si la variable carga tomara un valor de cero, el tiempo de
respuesta del disco sin discriminar sería 0,0484. De la misma forma, si
la carga del sistema aumentara en una unidad, el tiempo de respuesta del
disco sin discriminar aumentaría en promedio 0,492 unidades.
dentro del analisis de varianza, revisando que tambien ajusta el modelo respecto a la media, el p valor es menor a cero, p>0 , por lo cual rechaza la hipotesis nula de que el modelo es tan bueno como la media, aceptando la alterna de que nuestro modelo es mejor.
la carga como variable es significativa dentro del modelo ya que su valor p <0,05
El modelo cuenta con un coeficiente r cuadrado ajustado de 0.8579, por lo que podemos decir que el modelo de tiempo de respuesta del sistema, es explicado en un 85,79% por la carga del sistema.
par(mfrow=c(2,2))
plot(Modelo_s1)
debemos verificar que la distribucion de los datos sea normal para que
los analisis basados en los test F y P bajo distribucion normal nos sean
validos.
Analizando graficamente las relaciones entre los datos podemos observar el ajuste de los residuos en un margen de varianza prudencial o rango aceptable dentro de la escala, lo cual determina que mi nivel de incertidumbre para cualquier pronostico lo cual nos genera mucha mas confianza, los residuos atipicos no superan el 5%, por lo cual son parte de la frecuencia esperada de datos, no presentamos zonas con preferencias de variabilidad, donde la mayoria se centran en cero, lo cual es favorable y nos permite pensar que los datos presentan distribucion normal.
iii. Obtenga un nuevo modelo (Modelo 2) en el que incluya el tipo de disco (Variable Dummy) y su interacción con la carga del equipo. Evalué la bondad de ajuste del nuevo modelo, e interprete los coeficientes del Modelo 2.Recom. Note que la pendiente y el intercepto no son los mismos para los dos tipos de discos
Modelo_s2 <- lm(Tiempo~Carga + Conf + (Carga*Conf), data= Datosdiscos)
anova(Modelo_s2)
FALSE Analysis of Variance Table
FALSE
FALSE Response: Tiempo
FALSE Df Sum Sq Mean Sq F value Pr(>F)
FALSE Carga 1 47.313 47.313 584.8051 < 2.2e-16 ***
FALSE Conf 1 0.357 0.357 4.4132 0.04791 *
FALSE Carga:Conf 1 5.782 5.782 71.4618 3.364e-08 ***
FALSE Residuals 21 1.699 0.081
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(Modelo_s2)
FALSE
FALSE Call:
FALSE lm(formula = Tiempo ~ Carga + Conf + (Carga * Conf), data = Datosdiscos)
FALSE
FALSE Residuals:
FALSE Min 1Q Median 3Q Max
FALSE -0.68547 -0.11333 0.06881 0.15302 0.41807
FALSE
FALSE Coefficients:
FALSE Estimate Std. Error t value Pr(>|t|)
FALSE (Intercept) -1.37549 0.20902 -6.581 1.62e-06 ***
FALSE Carga 0.71979 0.03367 21.376 9.88e-16 ***
FALSE ConfHDD 2.26391 0.26520 8.536 2.86e-08 ***
FALSE Carga:ConfHDD -0.35734 0.04227 -8.454 3.36e-08 ***
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
FALSE
FALSE Residual standard error: 0.2844 on 21 degrees of freedom
FALSE Multiple R-squared: 0.9692, Adjusted R-squared: 0.9648
FALSE F-statistic: 220.2 on 3 and 21 DF, p-value: 5.042e-16
Este modelo de regresión lineal Multiple Modelo_S2 presenta si existe una relación de dependencia entre el tiempo de respuesta del disco , el tipo de disco, la carga del sistema y la interaccion entre el tipo de disco y la carga del sistema, donde el intercepto estima que si las variables carga, config y la interaccion entre carga y config tomaran un valor de cero, el tiempo de respuesta del disco sería negativo -1,375(lo cual no es una buena inferencia dado el caso de estudio). por otro lado,si la carga del sistema aumentara en una unidad, el tiempo de respuesta del disco aumentaría en promedio 0,719 unidades. Ceteris Paribus
interpretando la variable dummy, encontramos que los discos HDD son 2.26 segundo mas lentos en responder que los SDD, ceteris paribus
dentro del analisis de varianza, revisando que tambien ajusta el modelo respecto a la media, el p valor es menor a cero, p>0 , por lo cual rechaza la hipotesis nula de que el modelo es tan bueno como la media, aceptando la alterna de que nuestro modelo es mejor.
Beta 0 Intercepto - Sin interpretación (No tiene sentido rendimientos en tiempo negativos del disco)
Beta 1 Carga - la carga como variable es significativa dentro del modelo ya que su valor p <0,05
Beta 2 conf - como variable dummy es significativa dentro del modelo ya que su valor p <0,05
Beta 3 CargaXConfi - Como variable interaccion no tiene interpretación
El modelo cuenta con un coeficiente r cuadrado ajustado de 0.9692, por lo que podemos decir que el modelo de tiempo de respuesta del sistema, es explicado en un 96,92% por las variables independientes.
Dado lo anterior podemos decir que el 2 modelo ajusta mejor que el Modelo 1 para efectos del tiempo de respuesta de los discos duros.
par(mfrow=c(2,2))
plot(Modelo_s1)
y por ultimo analizando graficamente las relaciones entre los datos podemos observar el ajuste de los residuos en un margen de varianza prudencial o rango aceptable dentro de la escala, lo cual determina que mi nivel de incertidumbre para cualquier pronostico lo cual nos genera mucha mas confianza, los residuos atipicos no superan el 5%, por lo cual son parte de la frecuencia esperada de datos, no presentamos zonas con preferencias de variabilidad, donde la mayoria se centran en cero, lo cual es favorable y nos permite pensar que los datos presentan distribucion normal.
Confirmamos que el 2 modelo ajusta mejor que el Modelo 1 para efectos del tiempo de respuesta de los discos duros.
IV. Mediante el test ANOVA correspondiente, pruebe que la inclusión de la variable cualitativa configuración del disco y su interacción con la carga mejora significativamente el ajuste del modelo
anova(Modelo_s1,Modelo_s2)
FALSE Analysis of Variance Table
FALSE
FALSE Model 1: Tiempo ~ Carga
FALSE Model 2: Tiempo ~ Carga + Conf + (Carga * Conf)
FALSE Res.Df RSS Df Sum of Sq F Pr(>F)
FALSE 1 23 7.8375
FALSE 2 21 1.6990 2 6.1386 37.938 1.067e-07 ***
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Podemos evidenciar que de acuerdo al valor P<0,05 donde se rechaza la hipotesis nula de que el modelo 1 presenta mejor ajuste que el segundo modelo, por lo anterior se confirma que incluyendo el tipo de disco duro y su interaccion con la carga del sistema mejoran significativamente el ajuste del modelo sin incluirle ruido innecesario.
V. Represente gráficamente el ajuste del Modelo 2 y evalúe el cumplimiento de los supuestos sobre el termino error.
library(ggplot2)
library(ggThemeAssist)
ggplot(data= Datosdiscos) +
geom_point(aes(x= Carga, y= Tiempo))+
geom_line(aes(x= Carga, y= predict(Modelo_s1)),
col="red") +
geom_line(aes(x= Carga, y= predict(Modelo_s2)),
col="purple")
par(mfrow=c(2,2))
plot(Modelo_s2)
en relacion visual es claro que el modelo 2 se ajusta mucho mejor que el
modelo 1
HO=Residuos con Distribucion Normal H1= Residuos con Distribución No Normal
shapiro.test(Modelo_s2$residuals)
FALSE
FALSE Shapiro-Wilk normality test
FALSE
FALSE data: Modelo_s2$residuals
FALSE W = 0.95551, p-value = 0.3323
Teniendo en cuenta el valor P, no se rechaza HO, por tanto se asume normalidad en los residuos del modelo.
HO= Homocedasticidad H1= Heterocedasticidad
library(lmtest)
prueba_white<-bptest(Modelo_s2)
print(prueba_white)
FALSE
FALSE studentized Breusch-Pagan test
FALSE
FALSE data: Modelo_s2
FALSE BP = 2.6825, df = 3, p-value = 0.4432
Teniendo en cuenta el valor P, no se rechaza HO, por tanto se asume Homocedasticidad o varianza constante
Media_residuals<-mean(residuals(Modelo_s2))
Media_residuals
FALSE [1] -3.192108e-17
teniendo en cuenta una media teniende a cero, se valida el supuesto
HO= No Autocorrelación H1= Autocorrelación
dwtest(Modelo_s2, alternative = "two.sided", iterations = 1000)
FALSE
FALSE Durbin-Watson test
FALSE
FALSE data: Modelo_s2
FALSE DW = 1.3285, p-value = 0.06843
FALSE alternative hypothesis: true autocorrelation is not 0
library(car)
durbinWatsonTest(Modelo_s2,simulate = TRUE,reps = 1000)
FALSE lag Autocorrelation D-W Statistic p-value
FALSE 1 0.2660196 1.328472 0.058
FALSE Alternative hypothesis: rho != 0
En ambos Test , se puede rechazar la presencia de autocorrelación (No se rechaza la Ho), ya que el valor p es >0.05
Se cumplen los supuestos requeridos en relacion a los residuos , generando validez en los resultados e inferencia estadistica.
Podemos concluir de acuerdo al análisis exploratorio, posterior regresión lineal y regresión múltiple, que el modelo 2 es el mejor, el cual incluye información sobre el tipo de disco duro , carga del sistema y comportamiento en función de la interacción entre carga del sistema y tipo de disco duro, es el mejor modelo posible de acuerdo a la información suministrada, teniendo en cuenta su ajuste en r cuadrado el cual fue del 96,92%,superando al primer modelo en mas de 10%, revisando el r cuadrado ajustado no presenta variación importante en relación al r cuadrado habitual , ubicándose el ajustado en 96,42% , esto implica que la inclusion de variables no castiga su ajuste, por el contrario lo aumenta, adicional a estola significancia de sus variables explicatorias y como se comporta en relación a sus residuos nos permite definirlo como un muy buen modelo , que al compararlo con el primer modelo, se obtiene que este segundo se ajusta mucho mejor.
Teniendo en cuenta la aprobación de los supuestos de normalidad, homocedasticidad, ausencia de correlación y media tendiente a cero, podemos ejecutar inferencia estadística para efectos de interpretación con fines de predicción.
1 .Realizar un análisis descriptivo completo sobre la relación entre todas las variables del data frame.
R// se cuentan con un conjunto de 10 variables de entrada y una variable de salida que representa la progresión de la enfermedad diabetes en 442 registros.
knitr::opts_chunk$set(echo = FALSE, warning = FALSE, message = FALSE,comment = NA)
windows(height=20,width=25)
M=matrix(c(1,1,1,1,1,1,2,2,2),byrow=T,ncol=3)
layout(M)
with(datos,{
hist(Y, col="Gray",freq=F,breaks=25,xlim=range(Y),main = " Progresion de diabetes en pacientes.",xlab = "Cantidad", ylab = "Densidad")
lines(density(Y))
boxplot(Y,horizontal=T, col="#3585A6",ylim=range(Y))
})
Se puede observar una tendencia decreciente en cuanto al comportamiento general del nivel de progresión de la enfermedad dentro de los registros, además no se presetan datos atípicos dentro de la variable respuesta y su comportamiento es asimetrico positivo.
Podemos observar algunos valores atípicos para S1,S2,S3,S4,S5 y S6
(alreddor del 7% de los registros) y una distribución del 53% y 47% de
los registros catalogados como Masculino y Femenino y en general
distribuciones de datos mas o menos equilibradas con respecto a su
mediana.
Con respecto a la relacion entre todas las variables podemos obsevar una fuerte asociacion entre S1 y s6 con coeficiente de correlacion de 0,9 asi como la asociaciones mas fuertes con respecto a la variable salida que tienen un coefcientente de correlacion de 0,59 y 0,57 para BMI y S5 respectivamente. Finalmente con respecto a la variable s3 todas las demas variables presentan un corrleacion negativa.
2 .Ajuste un modelo saturado para Y, con todas las variables predictoras, y analice la presencia de multicolinealidad en este modelo:
R//El modelo Saturado es el siguiente :
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -357.4 | 67.06 | -5.33 | 1.586e-07 |
| AGE | -0.03636 | 0.217 | -0.1675 | 0.867 |
| SEXF | -22.86 | 5.836 | -3.917 | 0.0001042 |
| BMI | 5.603 | 0.7171 | 7.813 | 4.296e-14 |
| BP | 1.117 | 0.2252 | 4.958 | 1.024e-06 |
| S1 | -1.09 | 0.5733 | -1.901 | 0.05795 |
| S2 | 0.7465 | 0.5308 | 1.406 | 0.1604 |
| S3 | 0.372 | 0.7825 | 0.4754 | 0.6347 |
| S4 | 6.534 | 5.959 | 1.097 | 0.2735 |
| S5 | 68.48 | 15.67 | 4.37 | 1.556e-05 |
| S6 | 0.2801 | 0.2733 | 1.025 | 0.306 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 442 | 54.15 | 0.5177 | 0.5066 |
El modelo saturado nos da una explicacion del alrederodel 50.1% y nos da indicios sobre las variables que nos son significativas :(AGE,S1,S2,S3,S4 Y S6). ademas se puede observar que si las variables independientes tomaran un valor de cero, la progresión de la diabetes sería de -357.4.
Multicolinealidad:
Las varibles S1,S2,S3,S5,y s4 presentan niveles altos de colinealidad.
3. Ejecute el procedimiento de selección de variables “paso a paso” y seleccione un modelo reducido para este problema
R // Ejecutando la rutina paso a paso para reduccion de varaibles se obtiene lo siguiente :
Call:
lm(formula = Y ~ SEX + BMI + BP + S1 + S2 + S5, data = datos)
Residuals:
Min 1Q Median 3Q Max
-158.275 -39.476 -2.065 37.219 148.690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -335.3576 25.3234 -13.243 < 2e-16 ***
SEXF -21.5910 5.7056 -3.784 0.000176 ***
BMI 5.7111 0.7073 8.075 6.69e-15 ***
BP 1.1266 0.2158 5.219 2.79e-07 ***
S1 -1.0429 0.2208 -4.724 3.12e-06 ***
S2 0.8433 0.2298 3.670 0.000272 ***
S5 73.3065 7.3083 10.031 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 54.06 on 435 degrees of freedom
Multiple R-squared: 0.5149, Adjusted R-squared: 0.5082
F-statistic: 76.95 on 6 and 435 DF, p-value: < 2.2e-16
Call:
lm(formula = Y ~ 1, data = datos)
Residuals:
Min 1Q Median 3Q Max
-127.13 -65.13 -11.63 59.37 193.87
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 152.133 3.667 41.49 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.09 on 441 degrees of freedom
Call:
lm(formula = Y ~ 1, data = datos)
Residuals:
Min 1Q Median 3Q Max
-127.13 -65.13 -11.63 59.37 193.87
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 152.133 3.667 41.49 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.09 on 441 degrees of freedom
En donde el modelo reducido resultante es compuesto por las variables SEX , BMI , BP , S1 , S2 , S5 el cual es un poco mejor con respecto al modelo saturado( 50.82 vs 50.66 de R^2) con la imensa ventaja de usar solo 6 variables.
4.Interpretar el modelo anterior, verificando la significación de sus parámetros y evaluando el cumplimiento de los supuestos sobre el error.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -335.4 | 25.32 | -13.24 | 7.154e-34 |
| SEXF | -21.59 | 5.706 | -3.784 | 0.0001758 |
| BMI | 5.711 | 0.7073 | 8.075 | 6.687e-15 |
| BP | 1.127 | 0.2158 | 5.219 | 2.787e-07 |
| S1 | -1.043 | 0.2208 | -4.724 | 3.123e-06 |
| S2 | 0.8433 | 0.2298 | 3.67 | 0.0002723 |
| S5 | 73.31 | 7.308 | 10.03 | 1.939e-21 |
| Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
|---|---|---|---|
| 442 | 54.06 | 0.5149 | 0.5082 |
En terminos de interpretacion del modelo podemos agregar el intercepto paso de -357 del modelo saturado A -335 con el modelo del paso a paso, intuyendo que en caso de todas las variables ser cero , el nivel de progresión de la diabetes seria más alto.Tambien podemos ver que el intercepto o variable respuesta está realmente relacionado con las demás variables debido a su nivel de significancia. finalmente con respecto a las significacia de las demas variables del modelo , los valores P son realmente cercanos a cero de lo que se puede deducir su aporte a la explicacion del fenómeno.
Con respecto a comportamiento de los datos y específicamente de los residuos del modelo obetidos a partir del paso a paso podemos obervar indicios de normalidad sin embargo se debe constrastar la informacion visual versus los test de supuestos.
Supuestos
Promedio Cero :
[1] 2.062731e-16
Media del residuo con un valor muy cercano a cero.
Normalidad del residuo
H0: La variable presenta normalidad
H1: La variable no presenta normalidad
Shapiro-Wilk normality test
data: residuos
W = 0.99731, p-value = 0.6936
Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.
Independencia:
H0: Ausencia de independencia
H1: independencia
Durbin-Watson test
data: Model_bw
DW = 2.0432, p-value = 0.6773
alternative hypothesis: true autocorrelation is greater than 0
Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.
Varianza constante
H0: Homocedasticidad
H1: Heterocedasticidad
studentized Breusch-Pagan test
data: Model_bw
BP = 21.908, df = 6, p-value = 0.001258
Para este concepto no se cumple la hipótesis nula, por lo que se debería redefinir los criterios de construcción y validación empleados en el modelo.
5.Conclusión:
Como se puede evidenciar en el modelo del paso a paso el fenómeno se puede explicar a traves de un número reducido de variables, en este caso abarcando el 50.82% de variabilidad frente 49,18% restante asociado al error aleatorio del fenómeno o ante alguna imposibilidad del modelo por calibración. finalmente se debería revisar detalladamente el ¿por qué? del incumplimiento del test de varianza constante que en el caso del presente estudio fue el criterio que no se cumplió con respecto a los supuestos.