Taller evaluativo parte III.

Objetivo del taller: Evaluación de supuestos en el modelo de regresión.

Problema de estudio

Consideremos los datos del estudio “Heart and Estrogen / Progestin Study (HERS), un ensayo clínico de la terapia hormonal para la prevención de ataques cardíacos recurrentes y muertes entre 2.763 mujeres posmenopáusicas con enfermedad coronaria existente Grady et al. (1998).

Los investigadores desean conocer el efecto de diferentes factores sobre los niveles colesterol total (tchol1) al año de seguimiento. Los factores a analizar son: edad (age), raza (raceth:1=blanca, 2=Afroamericana, 3=otra raza), indice de masa corporal (BMI), puntaje subjetivo de autoreporte de salud (globrat: escala de 1 a 5, donde 5 indica un estado de salud “ideal”), (tabaquismo (smoking), actividad física (physact: escala de 1 a 5, desde sedentario a actividad vigorosa), antecedente medico o enfermedad (medcond), diabetes (diabetes), colesterol basal (tchol), glucosa en sangre basal (glucose), uso de estatinas (statins), niveles basales de LDL y HDL y trigliceridos (TG), presión arterial sistólica (SBP) y diastolica (DBP).

Cuadro de Variables

Variable Nombre Descripción Códigos/Valores
1 tchol1 Colesterol total al año de tratamiento mg/dL
2 age Edad Años
3 raceth Raza 1=blanca, 2=Afroamericana, 3=otra raza
4 BMI Índice de masa corporal kg/m^2
5 globrat Puntaje subjetivo de autoreporte de salud 1=Pésimo estado de salud, 2=Mal estado de salud, 3=regular estado de salud, 4=buen estado de salud, 5=indica un estado de salud ideal
6 smoking Tabaquismo 0=No, 1=Si
7 physact Actividad física 1=Sedentario, 2=Actividad ocasional, 3=Actividad regular, 4=Actividad frecuente, 5=Actividad vigorosa
8 medcond Autorreporte enfermedad 0=No, 1=Si
9 diabetes Diabetes 0=No, 1=Si
10 tchol Colesterol total basal mg/dL
11 glucose Glucosa en sangre basal mg/dL
12 statins Uso de estatinas 0=No, 1=Si
13 LDL Niveles basales de LDL mg/dL
14 LDL1 Niveles de LDL al año mg/dL
15 HDL Niveles basales de HDL mg/dL
16 HDL1 Niveles de HDL al año mg/dL
17 TG Trigliceridos basales mg/dL
18 TG1 Trigliceridos al año de tratamiento mg/dL
19 SBP Presión arterial sistólica mmHg
20 DBP Presión arterial diastólica mmHg

La base de datos original tenía 2763 registros de 37 variables. Para propósitos académicos se eliminaron los registros con datos perdidos, quedando una base con 2571 registros en 37 variables (6.95% de registros eliminados).

Data Frame Summary

mydata

Dimensions: 2571 x 37
Duplicates: 0
No Variable Label Stats / Values Freqs (% of Valid) Graph Missing
1 HT [haven_labelled, vctrs_vctr, double] random assignment to hormone therapy
Min : 0
Mean : 0.5
Max : 1
0:1303(50.7%)
1:1268(49.3%)
0 (0.0%)
2 age [numeric] age in years
Mean (sd) : 66.6 (6.6)
min ≤ med ≤ max:
44 ≤ 67 ≤ 79
IQR (CV) : 10 (0.1)
36 distinct values 0 (0.0%)
3 raceth [factor]
1. Blanca
2. Afroamericana
3. Otra raza
2299(89.4%)
184(7.2%)
88(3.4%)
0 (0.0%)
4 nonwhite [haven_labelled, vctrs_vctr, double] nonwhite race/ethnicity
Min : 0
Mean : 0.1
Max : 1
0:2299(89.4%)
1:272(10.6%)
0 (0.0%)
5 smoking [factor]
1. No
2. Si
2243(87.2%)
328(12.8%)
0 (0.0%)
6 drinkany [haven_labelled, vctrs_vctr, double] any current alcohol consumption
Min : 0
Mean : 0.4
Max : 1
0:1551(60.3%)
1:1020(39.7%)
0 (0.0%)
7 exercise [haven_labelled, vctrs_vctr, double] exercise at least 3 times per week
Min : 0
Mean : 0.4
Max : 1
0:1559(60.6%)
1:1012(39.4%)
0 (0.0%)
8 physact [factor]
1. actividad vigorosa
2. activida frecuente
3. actividad regular
4. actividad ocasional
5. sedentario
294(11.4%)
794(30.9%)
854(33.2%)
459(17.9%)
170(6.6%)
0 (0.0%)
9 globrat [factor]
1. estado de salud ideal
2. buen estado de salud
3. regular estado de salud
4. mal estado de salud
5. pésimo estado de salud
112(4.4%)
648(25.2%)
1229(47.8%)
536(20.8%)
46(1.8%)
0 (0.0%)
10 poorfair [haven_labelled, vctrs_vctr, double] poor/fair self-reported health
Min : 0
Mean : 0.2
Max : 1
0:1989(77.4%)
1:582(22.6%)
0 (0.0%)
11 medcond [factor]
1. No
2. Si
1624(63.2%)
947(36.8%)
0 (0.0%)
12 htnmeds [haven_labelled, vctrs_vctr, double] anti-hypertensive use
Min : 0
Mean : 0.8
Max : 1
0:464(18.0%)
1:2107(82.0%)
0 (0.0%)
13 statins [factor]
1. No
2. Si
1620(63.0%)
951(37.0%)
0 (0.0%)
14 diabetes [factor]
1. No
2. Si
1909(74.3%)
662(25.7%)
0 (0.0%)
15 dmpills [haven_labelled, vctrs_vctr, double] oral DM medication by self-report
Min : 0
Mean : 0.1
Max : 1
0:2325(90.4%)
1:246(9.6%)
0 (0.0%)
16 insulin [haven_labelled, vctrs_vctr, double] insulin use by self-report
Min : 0
Mean : 0.1
Max : 1
0:2327(90.5%)
1:244(9.5%)
0 (0.0%)
17 weight [numeric] weight (kg)
Mean (sd) : 72.7 (14.6)
min ≤ med ≤ max:
37.6 ≤ 70.9 ≤ 132
IQR (CV) : 19 (0.2)
541 distinct values 0 (0.0%)
18 BMI [numeric] BMI (kg/m^2)
Mean (sd) : 28.5 (5.4)
min ≤ med ≤ max:
15.5 ≤ 27.8 ≤ 54.1
IQR (CV) : 7 (0.2)
1400 distinct values 0 (0.0%)
19 waist [numeric] waist (cm)
Mean (sd) : 91.6 (13.5)
min ≤ med ≤ max:
56.9 ≤ 90.5 ≤ 170
IQR (CV) : 18 (0.1)
484 distinct values 0 (0.0%)
20 WHR [numeric] waist/hip ratio
Mean (sd) : 0.9 (0.1)
min ≤ med ≤ max:
0.6 ≤ 0.9 ≤ 1.2
IQR (CV) : 0.1 (0.1)
378 distinct values 0 (0.0%)
21 glucose [numeric] fasting glucose (mg/dl)
Mean (sd) : 111.7 (36.2)
min ≤ med ≤ max:
29 ≤ 99 ≤ 298
IQR (CV) : 23 (0.3)
198 distinct values 0 (0.0%)
22 weight1 [numeric] year 1 weight (kg)
Mean (sd) : 71.9 (14.9)
min ≤ med ≤ max:
37.7 ≤ 70.3 ≤ 142
IQR (CV) : 19.7 (0.2)
539 distinct values 0 (0.0%)
23 BMI1 [numeric] year 1 BMI (kg/m^2)
Mean (sd) : 28.3 (5.5)
min ≤ med ≤ max:
14.7 ≤ 27.5 ≤ 54
IQR (CV) : 7.2 (0.2)
1434 distinct values 0 (0.0%)
24 waist1 [numeric] year 1 waist (cm)
Mean (sd) : 91 (13.5)
min ≤ med ≤ max:
59 ≤ 90 ≤ 142
IQR (CV) : 19 (0.1)
488 distinct values 0 (0.0%)
25 WHR1 [numeric] year 1 waist/hip ratio
Mean (sd) : 0.9 (0.1)
min ≤ med ≤ max:
0.6 ≤ 0.9 ≤ 1.1
IQR (CV) : 0.1 (0.1)
366 distinct values 0 (0.0%)
26 glucose1 [numeric] year 1 fasting glucose (mg/dl)
Mean (sd) : 114.3 (44)
min ≤ med ≤ max:
42 ≤ 100 ≤ 440
IQR (CV) : 25 (0.4)
228 distinct values 0 (0.0%)
27 tchol [numeric] total cholesterol (mg/dl)
Mean (sd) : 228.2 (40.9)
min ≤ med ≤ max:
110 ≤ 224 ≤ 465
IQR (CV) : 51.5 (0.2)
222 distinct values 0 (0.0%)
28 LDL [numeric] LDL cholesterol (mg/dl)
Mean (sd) : 144.8 (37.8)
min ≤ med ≤ max:
36.8 ≤ 141 ≤ 393.4
IQR (CV) : 46.1 (0.3)
743 distinct values 0 (0.0%)
29 HDL [numeric] HDL cholesterol (mg/dl)
Mean (sd) : 50.3 (13.1)
min ≤ med ≤ max:
14 ≤ 49 ≤ 130
IQR (CV) : 16 (0.3)
84 distinct values 0 (0.0%)
30 TG [numeric] triglycerides (mg/dl)
Mean (sd) : 165.3 (63.1)
min ≤ med ≤ max:
31 ≤ 157 ≤ 476
IQR (CV) : 92 (0.4)
282 distinct values 0 (0.0%)
31 tchol1 [numeric] year 1 total cholesterol (mg/dl)
Mean (sd) : 219.2 (41.1)
min ≤ med ≤ max:
92 ≤ 214 ≤ 535
IQR (CV) : 49 (0.2)
229 distinct values 0 (0.0%)
32 LDL1 [numeric] year 1 LDL cholesterol (mg/dl)
Mean (sd) : 132.4 (39.1)
min ≤ med ≤ max:
-20 ≤ 128.8 ≤ 450.2
IQR (CV) : 47.6 (0.3)
751 distinct values 0 (0.0%)
33 HDL1 [numeric] year 1 HDL cholesterol (mg/dl)
Mean (sd) : 51.8 (13.9)
min ≤ med ≤ max:
14 ≤ 50 ≤ 124
IQR (CV) : 17 (0.3)
88 distinct values 0 (0.0%)
34 TG1 [numeric] year 1 triglycerides (mg/dl)
Mean (sd) : 175.2 (82.4)
min ≤ med ≤ max:
31 ≤ 157 ≤ 1010
IQR (CV) : 94 (0.5)
362 distinct values 0 (0.0%)
35 SBP [numeric] systolic blood pressure
Mean (sd) : 134.8 (19)
min ≤ med ≤ max:
83 ≤ 134 ≤ 224
IQR (CV) : 25 (0.1)
109 distinct values 0 (0.0%)
36 DBP [numeric] diastolic blood pressure
Mean (sd) : 73.1 (9.6)
min ≤ med ≤ max:
45 ≤ 72 ≤ 102
IQR (CV) : 13 (0.1)
58 distinct values 0 (0.0%)
37 age10 [numeric] age (per 10 years)
Mean (sd) : 6.7 (0.7)
min ≤ med ≤ max:
4.4 ≤ 6.7 ≤ 7.9
IQR (CV) : 1 (0.1)
36 distinct values 0 (0.0%)

Generated by summarytools 1.0.0 (R version 4.1.1)
2022-02-28

Correlaciones y gráficos de dispersión

Matriz de correlaciones

Interpretación

Según nuestro grafico de correlación hay alta correlación entre valor de colesterol total basal y colesterol total al año de tratamiento de 0.61. Desde el punto de vista medico no considero que haya una relación directa, incluso si se considera que es debido a la terapia hormonal, pues se espera que con la intervención haya disminución del valor basal.

El resto de los indices de correlación entre las demás variables y los niveles de colesterol a un año son menores de 0.6, lo que indica una correlación moderada a lo sumo.

Correlograma.

Otra presentación gráfica para la fuerza de asociación entre variables

Gráficos de dispersión para el desenlace

Colesterol total al año e indice de masa corporal (BMI)

Interpretación : En el diagrama de dispersión podemos observar que los datos son dispersos y que la pendiente es casi cercana a 0, indicando que la regresión lineal entre el BMI y los niveles de colesterol al año no es significativa, es decir el aumento en el BMI no afecta los niveles de colesterol al año.

Colesterol total al año y edad

Interpretación : En el diagrama de dispersión podemos observar que los datos son dispersos y que la pendiente es casi cercana a 0, indicando que la regresión lineal entre la edad y los niveles de colesterol al año no es significativa, es decir el aumento en la edad no afecta los niveles de colesterol al año.

Colesterol total al año y peso

Interpretación : En el diagrama de dispersión podemos observar que los datos son dispersos y que la pendiente es casi cercana a 0, es decir el aumento en el peso no afecta los niveles de colesterol al año.

Colesterol total al año y glucosa sanguínea

Interpretación : La nube de puntos se encuentra bastante dispersa alrededor de una recta de regresión lineal que se muestra casi horizontal, y concentrada en los menores valores de glucemia, con pendiente alrededor de 0, indicando que la regresión lineal entre este par de variables no es significativa.

Colesterol total al año y LDL

Interpretación : En el diagrama de dispersión podemos observar que hay una relación positiva en los niveles de colesterol LDL basal y los niveles de colesterol total al año con una pendiente positiva que indica que a mayor colesterol LDL basal, mayor serán los niveles de colesterol al año, esto dado porque para el cálculo del colesterol total se requiere tener en cuenta el colesterol LDL. Por tanto se hace la misma anotación al respecto: desde el punto de plausibilidad no es clara la relación descrita.

Colesterol total al año y colesterol HDL basal

Interpretación : En el diagrama de dispersión podemos observar que la relación lineal entre los niveles de HDL basales y los niveles de colesterol al año no es significativa. Biológicamente HDL no tiene relación directa con el Colesterol total.

Colesterol total al año y TG

Interpretación : En el diagrama de dispersión podemos observar que la relación lineal entre los niveles de TG basales y los niveles de colesterol al año no es significativa.

Colesterol total al año y Presión sistólica

Interpretación : En el diagrama de dispersión podemos observar que los datos son dispersos, con pendiente es casi cercana a 0, indicando que la relación lineal entre SBP y los niveles de colesterol al año no es significativa..

Colesterol total al año y Presión arterial diastólica

Interpretación : En el diagrama de dispersión podemos observar que los datos son dispersos, con pendiente es casi cercana a 0, indicando que la relación lineal entre DBP y los niveles de colesterol al año no es significativa.

Colesterol total al año y raza

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre la raza y el de colesterol total al año.

Colesterol total al año y estado de salud autorreportado

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre el auotorreporte de salud y el de colesterol total al año.

Colesterol total al año y tabaquismo

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre el tabquismo y los niveles de colesterol total al año.

Colesterol total al año y actividad física

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre los niveles de actividad física y los niveles de colesterol total al año.

Colesterol total al año y el autorreporte de condición médica seria

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre el autorreporte de enfermedad y el de colesterol total al año.

Colesterol total al año y diabetes

Interpretación : Los datos en esta gráfico de dispersión no muestra relación entre la presencia de diabetes y el de colesterol total al año.

RESOLUCIÓN DE TALLER

1. Según los resultados anteriores, evalué:

1.1 ¿Se puede asumir relación lineal entre cada predictor cuantitativo y el desenlace? Explique.

  year 1 total cholesterol
(mg/dl)
Predictors Estimates std. Error CI Statistic p
(Intercept) 226.24 8.18 210.21 – 242.27 27.67 <0.001
age in years -0.11 0.12 -0.34 – 0.13 -0.86 0.388
Observations 2571
R2 / R2 adjusted 0.000 / -0.000

Para contestar esta pregunta se tuvieron en cuenta tres criterios: * Gráfico de dispersión * Significancia de la regresión lineal simple, hallada a través de la tabla ANOVA * Significancia de la pendiente de la recta de regresión, hallada a través de las pruebas de hipótesis de los coeficientes.

Los resultados de la linealidad se muestran en la tabla 1.

Tabla de resumen de corrrelación y dispersió de variables cuantitatias

1.2. ¿Se puede asumir homogeneidad de varianza entre cada predictor cuantitativo y el desenlace?

Teniendo en cuenta el gráfico de dispersión no se aprecian cambios ni formas definidas (parlante o embudo) ni tampoco hay mucha simetria con respecto a la línea de regresión.

Los resultados de la homocedasticidad se muestran en la tabla 1.

Pruebas de hipótesis con las que es posible evaluar este supuesto: Bartlett, Levene, entre otras.

1.3. ¿Se puede evidenciar algún problema de multicolinealidad?

Multicolinealidad

age vs BMI: corr 0.15, muy baja age vs weight: corr 0.21, muy baja bmi vs weight: corr 0.92, muy alta porque el peso interviene en el cálculo del BMI tchol vs ldl: corr 0.94, muy alta porque ldl es componente del colestearol total sbp vs dbp: corr 0.53, correlación meédica, que sucede porque casi siempre varian proporcionalmente hdl y TG: corr 0.4, entre hdl y TG. Sucede porque se relacionan metabólicamente

En necesario tener en cuenta esta multicolinealidad, porque en el anáisis de los datos si hay dos variables correlacionadas se debe usar solo una de las dos.

2. Analice los coeficientes del modelo anterior. ¿Qué supuesto/problema en el modelamiento puede no cumplirse dado dichos resultados?

  Modelo 1: tchol1 ~ age+BMI+weight+tchol+LDL+HDL+TG
Predictors Estimates std. Error CI Statistic p
(Intercept) 87.33 9.00 69.69 – 104.98 9.70 <0.001
age in years -0.13 0.10 -0.32 – 0.07 -1.28 0.201
BMI (kg/m^2) 0.58 0.30 -0.01 – 1.18 1.92 0.055
weight (kg) -0.25 0.11 -0.47 – -0.02 -2.15 0.032
total cholesterol (mg/dl) 55252.47 167529.11 -273253.68 – 383758.62 0.33 0.742
LDL cholesterol (mg/dl) -55251.85 167529.11 -383758.00 – 273254.30 -0.33 0.742
HDL cholesterol (mg/dl) -55251.79 167529.11 -383757.95 – 273254.36 -0.33 0.742
triglycerides (mg/dl) -11050.38 33505.82 -76751.61 – 54650.85 -0.33 0.742
Observations 2571
R2 / R2 adjusted 0.376 / 0.374

Tan sólo un coeficiente resultó significativo (weight), los demás no! Además, se presentan IC con amplitud demasiado amplia.

Lo anterior sucede porque no se cumple el supuesto de homocedasticidad para algunas variables (TAL, PASCUAL, …), y que existe multicolinealidad entre pares de otras (TAL con CUAL, PEDRO con PABLO, …)

Segúl el modelo 1, el unico coeficiente significativo fue en la variable weight, además de pueden ver en la tabla amplios intervalos de confianza en varias variables. Esto último debido probablemente a que no se cumple el supuesto de homocedasticidad para algunas variables. Una estratagia para mejorar esto con amplios rangos y ocasionalmente cambiar el estado de significancia es realizando la transformación de los datos de la variable a logaritmos o raíz.

3. Analice el factor de inflación de la varianza para el modelo anterior.

        age         BMI      weight       tchol         LDL         HDL 
1.11124e+00 6.80509e+00 6.82268e+00 1.16181e+14 9.89176e+13 1.17367e+13 
         TG 
1.08460e+13 

3.1 ¿Qué variables podrían sugerir problemas de multicolinealidad?

El factor de inflación de la varianza (VIF por sus sigla en ingles de variance inflation factor), cuantifica la intensidad de la multicolinealidad en un análisis de regresión normal de mínimos cuadrados. Proporciona un índice que mide hasta qué punto la varianza (el cuadrado de la desviación estándar estimada) de un coeficiente de regresión estimado se incrementa a causa de la colinealidad.

Criterio: Si VIF>10 la multicolinealidad es alta.

Según esto y la tabla de los VIF de las variables, se evidencia que las variables tchol, LDL, HDL y TG tienen problemas de multicolinealidad, lo que ya habíamos mostrado en el numeral 1.3 usando las correlaciones.

3.2 ¿Qué modelo o modelos alternativos sugeriría para evitar dicho problema? Plantee al menos dos modelos, con la selección de predictores que minimicen dicho problema para el desenlace coleterol total.

Se debe replantear al modelo y suprimir las varialbes que tienen problemas de colinealidad.

El modelo es el que sigue:

Modelo 1.1: tchol1 ~ age+weight+tchol+HDL

  Modelo 1: tchol1 ~ age+BMI+weight+tchol+LDL+HDL+TG
Predictors Estimates std. Error CI Statistic p
(Intercept) 86.88 8.92 69.38 – 104.38 9.74 <0.001
age in years -0.11 0.10 -0.30 – 0.08 -1.11 0.267
weight (kg) -0.05 0.05 -0.14 – 0.04 -1.03 0.305
total cholesterol (mg/dl) 0.61 0.02 0.58 – 0.64 38.18 <0.001
HDL cholesterol (mg/dl) 0.07 0.05 -0.03 – 0.17 1.43 0.153
Observations 2571
R2 / R2 adjusted 0.375 / 0.374
    age  weight   tchol     HDL 
1.05541 1.08640 1.03994 1.08609 

Al replantear el modelo sin dichas variables podemos observar que todas las VIF son > 10, lo que supera el problema de colinealidad, sin embargo solo la variable tchol fue singnificativa, convirtiendose en un modelo lineal simple. El R^2 se conserva.

tchol1 ~ tchol.

Modelo 1.2: tchol1 ~ tchol1~age+BMI+weight+tchol

  Modelo 1: tchol1 ~ age+BMI+weight+tchol+LDL+HDL+TG
Predictors Estimates std. Error CI Statistic p
(Intercept) 82.76 8.75 65.59 – 99.92 9.45 <0.001
age in years -0.09 0.10 -0.29 – 0.10 -0.94 0.346
BMI (kg/m^2) -0.02 0.12 -0.26 – 0.22 -0.19 0.852
total cholesterol (mg/dl) 0.61 0.02 0.58 – 0.64 38.07 <0.001
HDL cholesterol (mg/dl) 0.08 0.05 -0.02 – 0.18 1.58 0.114
Observations 2571
R2 / R2 adjusted 0.375 / 0.374
    age     BMI   tchol     HDL 
1.03337 1.06444 1.04235 1.08783 

En el modelo 1.2 se incluye a BMI y se elimina el peso por su relación directa con este ultimo, tambien hay VIF > 10 lo que indica que se resuelve la colinealidad, y al igual que el modelo 1.1 tchol fue la unica varible que tuvo p < 0.05 y se mantiene el R^2.

tchol1 ~ tchol.

3.3. Evalúe el problema de multicolinealidad para el siguiente modelo:

  Modelo 2
Predictors Estimates std. Error CI Statistic p
(Intercept) 83.49 8.83 66.17 – 100.80 9.46 <0.001
age in years -0.09 0.10 -0.28 – 0.11 -0.89 0.371
BMI (kg/m^2) -0.02 0.12 -0.25 – 0.22 -0.12 0.902
LDL cholesterol (mg/dl) 0.61 0.02 0.58 – 0.65 35.98 <0.001
HDL cholesterol (mg/dl) 0.68 0.05 0.57 – 0.78 12.46 <0.001
triglycerides (mg/dl) 0.12 0.01 0.09 – 0.14 10.23 <0.001
Observations 2571
R2 / R2 adjusted 0.375 / 0.374
    age     BMI     LDL     HDL      TG 
1.03891 1.07478 1.00909 1.23445 1.22348 

En todas las variables hay VIF < 10 indicando que no hay multicolinealidad. Probablemente porque este modelo no incluyó a tchol que tenia colinealidad plausible con los demás (TG, LDL, HDL), además el indice de correlación entre HDL y TG era moderado (corr=0.41).

En este modelo R^2 y mantiene y las variables con p < 0.05 son LDL, HDL, TG y el intercepto:

tchol1 ~ LDL+HDL+TG

\[ \operatorname{tchol1} = \alpha + \beta_{1}(\operatorname{age}) + \beta_{2}(\operatorname{BMI}) + \beta_{3}(\operatorname{LDL}) + \beta_{4}(\operatorname{HDL}) + \beta_{5}(\operatorname{TG}) + \epsilon \] \[ \begin{aligned} \operatorname{\widehat{tchol1}} &= 83.49 - 0.09(\operatorname{age}) - 0.02(\operatorname{BMI}) + 0.61(\operatorname{LDL})\ + \\ &\quad 0.68(\operatorname{HDL}) + 0.12(\operatorname{TG}) \end{aligned} \]

4. Evalué el supuesto de normalidad en los residuales para el modelo 2.

Calculo los residuales del Modelo 2

Para verificar el supuesto de normalidad en los residuales graficamente, observo su histograma y su qq-plot:

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -36.03   -1.74    7.45    8.93   18.05  101.08 

[1] 1743 2508

De acuerdo al histograma, en el modelo 2 la distribución de los rediduales se observa “casi” centrada en cero, muy simétrica respecto a este, salvo por una cola superior que afecta la simetría y que corresponde a algunos residuales mayores de 50.

En el qq-plot se observa como los puntos en el centro concuerdan sobre la recta de igualdad de residuales pero desviándose en los extremos, sobre todo en el extremo superior.

Gráficamente no se puede aceptar que el supuesto de normalidad de los residuales se cumple para el modelo 2.

Prueba de hipótesis: Shapiro-Wilks

Las hipótesis estadísticas son las siguientes:

H0: La variable presenta una distribución normal H1: La variable presenta una distribución no normal


    Shapiro-Wilk normality test

data:  mydata$residual
W = 0.9696, p-value <2e-16

La prueba SW muestra que no hay normalidad probablemente por las colas. Existen otras pruebas para evaluar normalidad como Kolmogorov Smirnov

5. Evalúe el supuesto de homogeneidad de varianza con los valores predichos y con al menos tres predictores

5.1 Gráfico de residuales vs predichos

solo se busca la primera gráfica de un grupo de 4, que es resiudales vs predichos.

Este gráfico se observa homogeneidad en la distribucion de los datos con respecto a la linea central, no hay patrones ni estrcuturas definidas. De esta manera gráficamente podriamos que se cumple el supuesto de varianza constante. Igual haría falta una prueba de hipótesis para comprobar o rechazar esto.

5.2 Gráfico de residuales vs edad y otros predictores

Al igual que en la gráfica de los residuales y predichos, en estas se observa que se cumple el supuesto de varianza constante dado que no hay patrones ni estrcuturas predominantes.

6. Plantee en su área de interés, un modelo de regresión lineal indicando el desenlace interés y los predictores candidatos.

Se busca evaluar la mortalidad de los pacientes con cáncer de próstata en relación al tiempo de diagnóstico y tratamiento. Como variable dependiente tenemos el porcentaje de mortalidad y como variables independientes tenemos el tiempo desde el diagnóstico, el tiempo desde tratamiento, tratamiento recibido, necesidad de terapia de deprivación androgénica, cumplimiento del tratamiento, edad al diagnóstico, enfermedad cardiovascular, antecedentes familiares de CaP, muerte temprana familiar, TNM del diagnóstico, recaida, grado histologico del CaP.

7. Indique al menos un ejemplo entre que par de predictores, se pudiera presentar el problema de multicolinealidad.

Dentro del estudio podemos encontrarnos con colinealidad entre las comorbilidades, especificamente aquellas cardiovasculares y la necesidad de terapia de deprivación androgénica, ya que es ampliamente demostrado que esta ultima puede generar enfermedad cardiovascular y muerte por las mismas. Por lo que es necesario tener en cuenta la correlación entre ambas en el modelo.

8. Investigue. De que se trata el supuesto de que los errores (residuos) no se encuentran correlacionados? Ver estádistico Durbin-Watson. Qué sugieren los siguientes resultados (Ver D-W Statistic):

Aparentemente se cumple el supuesto de independencia, es decir, el supuesto de que los errores (residuos) no se encuentran correlacionados.

Se realiza verificación con el test de Durbin-Watson: H0: rho=0 (la autocorrelación es cero, no correl, independ) H1: rho!=0 (la autocorrelación es dist a cero, si correl, no indep)

Error aleatorio es una estimación estadística de los residuales.

 lag Autocorrelation D-W Statistic p-value
   1     -0.00562945       2.01068   0.868
 Alternative hypothesis: rho != 0

Como valor - p>>0.05 concluimos que si se cumple el supuesto.