1 .Realizar un análisis descriptivo completo sobre la relación entre todas las variables del data frame.
R// se cuentan con un conjunto de 10 variables de entrada y una variable de salida que representa la progresión de la enfermedad diabetes en 442 registros.
Se puede observar una tendencia decreciente en cuanto al comportamiento general del nivel de progresión de la enfermedad dentro de los registros, además no se presetan datos atípicos dentro de la variable respuesta y su comportamiento es asimetrico positivo.
Podemos observar algunos valores atípicos para S1,S2,S3,S4,S5 y S6
(alreddor del 7% de los registros) y una distribución del 53% y 47% de
los registros catalogados como Masculino y Femenino y en general
distribuciones de datos mas o menos equilibradas con respecto a su
mediana.
Con respecto a la relacion entre todas las variables podemos obsevar una fuerte asociacion entre S1 y s6 con coeficiente de correlacion de 0,9 asi como la asociaciones mas fuertes con respecto a la variable salida que tienen un coefcientente de correlacion de 0,59 y 0,57 para BMI y S5 respectivamente. Finalmente con respecto a la variable s3 todas las demas variables presentan un corrleacion negativa.
2 .Ajuste un modelo saturado para Y, con todas las variables predictoras, y analice la presencia de multicolinealidad en este modelo:
R//El modelo Saturado es el siguiente :
Estimate | Std. Error | t value | Pr(>|t|) | |
---|---|---|---|---|
(Intercept) | -357.4 | 67.06 | -5.33 | 1.586e-07 |
AGE | -0.03636 | 0.217 | -0.1675 | 0.867 |
SEXF | -22.86 | 5.836 | -3.917 | 0.0001042 |
BMI | 5.603 | 0.7171 | 7.813 | 4.296e-14 |
BP | 1.117 | 0.2252 | 4.958 | 1.024e-06 |
S1 | -1.09 | 0.5733 | -1.901 | 0.05795 |
S2 | 0.7465 | 0.5308 | 1.406 | 0.1604 |
S3 | 0.372 | 0.7825 | 0.4754 | 0.6347 |
S4 | 6.534 | 5.959 | 1.097 | 0.2735 |
S5 | 68.48 | 15.67 | 4.37 | 1.556e-05 |
S6 | 0.2801 | 0.2733 | 1.025 | 0.306 |
Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
---|---|---|---|
442 | 54.15 | 0.5177 | 0.5066 |
El modelo saturado nos da una explicacion del alrederodel 50.1% y nos da indicios sobre las variables que nos son significativas :(AGE,S1,S2,S3,S4 Y S6). ademas se puede observar que si las variables independientes tomaran un valor de cero, la progresión de la diabetes sería de -357.4.
Multicolinealidad:
Las varibles S1,S2,S3,S5,y s4 presentan niveles altos de colinealidad.
3. Ejecute el procedimiento de selección de variables “paso a paso” y seleccione un modelo reducido para este problema
R // Ejecutando la rutina paso a paso para reduccion de varaibles se obtiene lo siguiente :
Call:
lm(formula = Y ~ SEX + BMI + BP + S1 + S2 + S5, data = datos)
Residuals:
Min 1Q Median 3Q Max
-158.275 -39.476 -2.065 37.219 148.690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -335.3576 25.3234 -13.243 < 2e-16 ***
SEXF -21.5910 5.7056 -3.784 0.000176 ***
BMI 5.7111 0.7073 8.075 6.69e-15 ***
BP 1.1266 0.2158 5.219 2.79e-07 ***
S1 -1.0429 0.2208 -4.724 3.12e-06 ***
S2 0.8433 0.2298 3.670 0.000272 ***
S5 73.3065 7.3083 10.031 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 54.06 on 435 degrees of freedom
Multiple R-squared: 0.5149, Adjusted R-squared: 0.5082
F-statistic: 76.95 on 6 and 435 DF, p-value: < 2.2e-16
Call:
lm(formula = Y ~ 1, data = datos)
Residuals:
Min 1Q Median 3Q Max
-127.13 -65.13 -11.63 59.37 193.87
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 152.133 3.667 41.49 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.09 on 441 degrees of freedom
Call:
lm(formula = Y ~ 1, data = datos)
Residuals:
Min 1Q Median 3Q Max
-127.13 -65.13 -11.63 59.37 193.87
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 152.133 3.667 41.49 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.09 on 441 degrees of freedom
En donde el modelo reducido resultante es compuesto por las variables SEX , BMI , BP , S1 , S2 , S5 el cual es un poco mejor con respecto al modelo saturado( 50.82 vs 50.66 de R^2) con la imensa ventaja de usar solo 6 variables.
4.Interpretar el modelo anterior, verificando la significación de sus parámetros y evaluando el cumplimiento de los supuestos sobre el error.
Estimate | Std. Error | t value | Pr(>|t|) | |
---|---|---|---|---|
(Intercept) | -335.4 | 25.32 | -13.24 | 7.154e-34 |
SEXF | -21.59 | 5.706 | -3.784 | 0.0001758 |
BMI | 5.711 | 0.7073 | 8.075 | 6.687e-15 |
BP | 1.127 | 0.2158 | 5.219 | 2.787e-07 |
S1 | -1.043 | 0.2208 | -4.724 | 3.123e-06 |
S2 | 0.8433 | 0.2298 | 3.67 | 0.0002723 |
S5 | 73.31 | 7.308 | 10.03 | 1.939e-21 |
Observations | Residual Std. Error | \(R^2\) | Adjusted \(R^2\) |
---|---|---|---|
442 | 54.06 | 0.5149 | 0.5082 |
En terminos de interpretacion del modelo podemos agregar el intercepto paso de -357 del modelo saturado A -335 con el modelo del paso a paso, intuyendo que en caso de todas las variables ser cero , el nivel de progresión de la diabetes seria más alto.Tambien podemos ver que el intercepto o variable respuesta está realmente relacionado con las demás variables debido a su nivel de significancia. finalmente con respecto a las significacia de las demas variables del modelo , los valores P son realmente cercanos a cero de lo que se puede deducir su aporte a la explicacion del fenómeno.
Con respecto a comportamiento de los datos y específicamente de los residuos del modelo obetidos a partir del paso a paso podemos obervar indicios de normalidad sin embargo se debe constrastar la informacion visual versus los test de supuestos.
Supuestos
Promedio Cero :
[1] 2.062731e-16
Media del residuo con un valor muy cercano a cero.
Normalidad del residuo
H0: La variable presenta normalidad
H1: La variable no presenta normalidad
Shapiro-Wilk normality test
data: residuos
W = 0.99731, p-value = 0.6936
Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.
Independencia:
H0: Ausencia de independencia
H1: independencia
Durbin-Watson test
data: Model_bw
DW = 2.0432, p-value = 0.6773
alternative hypothesis: true autocorrelation is greater than 0
Dado que el valor P es mayor que el 5% no hay suficiente evidencia para rechazar la hipótesis nula.
Varianza constante
H0: Homocedasticidad
H1: Heterocedasticidad
studentized Breusch-Pagan test
data: Model_bw
BP = 21.908, df = 6, p-value = 0.001258
Para este concepto no se cumple la hipótesis nula, por lo que se debería redefinir los criterios de construcción y validación empleados en el modelo.
5.Conclusión:
Como se puede evidenciar en el modelo del paso a paso el fenómeno se puede explicar a traves de un número reducido de variables, en este caso abarcando el 50.82% de variabilidad frente 49,18% restante asociado al error aleatorio del fenómeno o ante alguna imposibilidad del modelo por calibración. finalmente se debería revisar detalladamente el ¿por qué? del incumplimiento del test de varianza constante que en el caso del presente estudio fue el criterio que no se cumplió con respecto a los supuestos.