Ejercicio 2

1 .Realizar un análisis descriptivo completo sobre la relación entre todas las variables del data frame.

R// se cuentan con un conjunto de 10 variables de entrada y una variable de salida que representa la progresión de la enfermedad diabetes en 442 registros.

Se puede observar una tendencia decreciente en cuanto al comportamiento general del nivel de progresión de la enfermedad dentro de los registros, además no se presetan datos atípicos dentro de la variable respuesta y su comportamiento es asimetrico positivo.

Podemos observar algunos valores atípicos para S1,S2,S3,S4,S5 y S6 (alreddor del 7% de los registros) y una distribución del 53% y 47% de los registros catalogados como Masculino y Femenino y en general distribuciones de datos mas o menos equilibradas con respecto a su mediana.

Con respecto a la relacion entre todas las variables podemos obsevar una fuerte asociacion entre S1 y s6 con coeficiente de correlacion de 0,9 asi como la asociaciones mas fuertes con respecto a la variable salida que tienen un coefcientente de correlacion de 0,59 y 0,57 para BMI y S5 respectivamente. Finalmente con respecto a la variable s3 todas las demas variables presentan un corrleacion negativa.

2 .Ajuste un modelo saturado para Y, con todas las variables predictoras, y analice la presencia de multicolinealidad en este modelo:

R//El modelo Saturado es el siguiente :

  Estimate Std. Error t value Pr(>|t|)
(Intercept) -357.4 67.06 -5.33 1.586e-07
AGE -0.03636 0.217 -0.1675 0.867
SEXF -22.86 5.836 -3.917 0.0001042
BMI 5.603 0.7171 7.813 4.296e-14
BP 1.117 0.2252 4.958 1.024e-06
S1 -1.09 0.5733 -1.901 0.05795
S2 0.7465 0.5308 1.406 0.1604
S3 0.372 0.7825 0.4754 0.6347
S4 6.534 5.959 1.097 0.2735
S5 68.48 15.67 4.37 1.556e-05
S6 0.2801 0.2733 1.025 0.306
Fitting linear model: formula_sat
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
442 54.15 0.5177 0.5066

El modelo saturado nos da una explicacion del alrederodel 50.1% y nos da indicios sobre las variables que nos son significativas :(AGE,S1,S2,S3,S4 Y S6). ademas se puede observar que si las variables independientes tomaran un valor de cero, la progresión de la diabetes sería de -357.4.

Multicolinealidad:

Las varibles S1,S2,S3,S5,y s4 presentan niveles altos de colinealidad.

3. Ejecute el procedimiento de selección de variables “paso a paso” y seleccione un modelo reducido para este problema

R // Ejecutando la rutina paso a paso para reduccion de varaibles se obtiene lo siguiente :


Call:
lm(formula = Y ~ SEX + BMI + BP + S1 + S2 + S5, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-158.275  -39.476   -2.065   37.219  148.690 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -335.3576    25.3234 -13.243  < 2e-16 ***
SEXF         -21.5910     5.7056  -3.784 0.000176 ***
BMI            5.7111     0.7073   8.075 6.69e-15 ***
BP             1.1266     0.2158   5.219 2.79e-07 ***
S1            -1.0429     0.2208  -4.724 3.12e-06 ***
S2             0.8433     0.2298   3.670 0.000272 ***
S5            73.3065     7.3083  10.031  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 54.06 on 435 degrees of freedom
Multiple R-squared:  0.5149,    Adjusted R-squared:  0.5082 
F-statistic: 76.95 on 6 and 435 DF,  p-value: < 2.2e-16

Call:
lm(formula = Y ~ 1, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-127.13  -65.13  -11.63   59.37  193.87 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  152.133      3.667   41.49   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 77.09 on 441 degrees of freedom

Call:
lm(formula = Y ~ 1, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-127.13  -65.13  -11.63   59.37  193.87 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  152.133      3.667   41.49   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 77.09 on 441 degrees of freedom

En donde el modelo reducido resultante es compuesto por las variables SEX , BMI , BP , S1 , S2 , S5 el cual es un poco mejor con respecto al modelo saturado( 50.82 vs 50.66 de R^2) con la imensa ventaja de usar solo 6 variables.

4.Interpretar el modelo anterior, verificando la significación de sus parámetros y evaluando el cumplimiento de los supuestos sobre el error.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) -335.4 25.32 -13.24 7.154e-34
SEXF -21.59 5.706 -3.784 0.0001758
BMI 5.711 0.7073 8.075 6.687e-15
BP 1.127 0.2158 5.219 2.787e-07
S1 -1.043 0.2208 -4.724 3.123e-06
S2 0.8433 0.2298 3.67 0.0002723
S5 73.31 7.308 10.03 1.939e-21
Fitting linear model: Y ~ SEX + BMI + BP + S1 + S2 + S5
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
442 54.06 0.5149 0.5082

En terminos de interpretacion del modelo podemos agregar el intercepto paso de -357 del modelo saturado A -335 con el modelo del paso a paso, intuyendo que en caso de todas las variables ser cero , el nivel de progresión de la diabetes seria más alto.Tambien podemos ver que el intercepto o variable respuesta está realmente relacionado con las demás variables debido a su nivel de significancia. finalmente con respecto a las significacia de las demas variables del modelo , los valores P son realmente cercanos a cero de lo que se puede deducir su aporte a la explicacion del fenómeno.

Con respecto a comportamiento de los datos y específicamente de los residuos del modelo obetidos a partir del paso a paso podemos obervar indicios de normalidad sin embargo se debe constrastar la informacion visual versus los test de supuestos.

Supuestos

Promedio Cero :

[1] 2.062731e-16

Media del residuo con un valor muy cercano a cero.

Normalidad del residuo

H0: La variable presenta normalidad

H1: La variable no presenta normalidad


    Shapiro-Wilk normality test

data:  residuos
W = 0.99731, p-value = 0.6936

Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.

Independencia:

H0: Ausencia de independencia

H1: independencia


    Durbin-Watson test

data:  Model_bw
DW = 2.0432, p-value = 0.6773
alternative hypothesis: true autocorrelation is greater than 0

Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.

Varianza constante

H0: Homocedasticidad

H1: Heterocedasticidad


    studentized Breusch-Pagan test

data:  Model_bw
BP = 21.908, df = 6, p-value = 0.001258

Para este concepto no se cumple la hipótesis nula, por lo que se debería redefinir los criterios de construcción y validación empleados en el modelo.

5.Conclusión:

Como se puede evidenciar en el modelo del paso a paso el fenómeno se puede explicar a traves de un número reducido de variables, en este caso abarcando el 50.82% de variabilidad frente 49,18% restante asociado al error aleatorio del fenómeno o ante alguna imposibilidad del modelo por calibración. finalmente se debería revisar detalladamente el ¿por qué? del incumplimiento del test de varianza constante que en el caso del presente estudio fue el criterio que no se cumplió con respecto a los supuestos.