Análisis de la dinámica del comportamiento de linfocitos T CD4 y carga viral para pacientes con VIH.

Juan Pablo Acuña González. Maestría en Métodos Estadísticos Aplicados.

Tabla 1. Indicadores clínicos de infección por VIH.
ID VL CD
1 4.30 145
2 3.60 224
3 3.20 1017
998 4.10 369
999 3.37 127
1000 4.97 570

kaggle.com/competitions/hivprogression/data

Figura 1. Gráfica de la carga viral (log-10) vs CD4.

Tabla 2. Estimación por MMCO.
term estimate std.error statistic p.value
(Intercept) 782.5457 35.245157 22.20293 0
VL -117.0312 8.093842 -14.45929 0
  • Modelo: Modelo de Regresión Lineal Simple (MRLS)
  • Error estándar del modelo: \(180.3\)
  • Grados de libertad: \(998\)
  • R: \(-0.4161\)
  • R²: \(0.1732\)

Diagnóstico

Supuestos del MRLS

  • La relación entre la \(Y\) y la \(X\) es lineal
  • El término del error \(u\) tiene media cero
  • Los errores se distribuyen normal
  • Residuales: \(Y_i-\widehat{Y}_i\), con \(i=1,2,…,n\).
  • Varianza del modelo: \(s^2=\widehat{\sigma}_{\widehat{u}^2} = \frac{\sum_{i=1}^n(Y_i-\widehat{Y}_i)^2}{n-k}\).

Análisis de residuales

  • La función de regresión es no lineal
  • El modelo ajusta todo, pero existen observaciones atípicas
  • Los términos de error no se distribuyen normal
  • Una o más variables predictoras importantes han sido omitidas del modelo
  • Gráfica de residuales vs variable regresora
  • Gráfica de los residuales vs valores ajustados
  • Diagrama de caja de residuales
  • Gráfica de probabilidad normal de residuales

Criterios para observaciones atípicas

Residuos reescalados

  • Detectar observaciones raras o extremas

  • Estadística: \(D_i = \frac{\widehat{u}_i}{\sqrt{\widehat{\sigma}_{\widehat{u}^2}}}\)

  • Región crítica: \(|D_i|> 3\)

  • \(12\) observaciones atípicas

Tabla 3. Residuales reescalados.
ID VL CD rr
752 5.45 1589 8.010486
373 5.60 1031 5.012974
447 3.60 1219 4.757495
340 3.90 1120 4.403133
588 5.90 851 4.209356
352 4.00 1040 4.024333

Tabla 3. Residuales reescalados (cont.).
ID VL CD rr
480 4.7 943 3.940704
3 3.2 1017 3.377488
316 5.2 780 3.361195
330 3.7 949 3.324884
433 3.7 938 3.263873
574 5.8 657 3.068450

Residuos estudentizados

  • Cada \(u_i\) es dividido por la desviación estándar de todos salvo el i-ésimo

  • Estadística: \(s_i=\frac{\widehat{u}_i}{s\sqrt{1-h_{ii}}}\)

  • \(h_{ii}=\frac{1}{n}+\frac{(x_i-\overline{x})^2}{\sum_{i=1}^n(x_i-\overline{x})^2}\)

  • Región crítica: \(|s_i|>\sqrt{n-1}\)

  • No detecta observaciones atípicas

Tabla 4. Residuales estudentizados.
ID VL CD rs
752 5.45 1589 8.025258
373 5.60 1031 5.024091
447 3.60 1219 4.762211
340 3.90 1120 4.406038
588 5.90 851 4.222418
352 4.00 1040 4.026706

Residuos externamente estudentizados

  • Estadística: \(\frac{\widehat{u}_i}{s(i)\sqrt{1-h_{ii}}}\),

  • \(s(i)=\frac{(n-2)s²-\widehat{u}_i^2/(1-h_{ii})}{n-3}\)

  • Región crítica: \(|t_i|>2\).

  • \(38\) observaciones atípicas

Tabla 5. Residuales externamente estudentizados.
ID VL CD rext
752 5.45 1589 8.293298
373 5.60 1031 5.086307
447 3.60 1219 4.814845
340 3.90 1120 4.447297
588 5.90 851 4.258511
352 4.00 1040 4.057786

Tabla 5. Residuales externamente estudentizados(cont.)
ID VL CD rext
480 4.7 943 3.972414
3 3.2 1017 3.401154
316 5.2 780 3.383213
330 3.7 949 3.344685
433 3.7 938 3.282642
574 5.8 657 3.090153

Tabla 5. Residuales externamente estudentizados(cont.)
ID VL CD rext
596 3.7 878 2.944868
646 4.6 742 2.771845
162 3.3 875 2.666939
732 4.0 790 2.647227
860 4.3 742 2.574759
894 4.4 726 2.550718

Gráficas de Residuales

Figura 2. Gráfica de distribución normal de residuales.

Figura 3. Diagrama de caja de residuales.

Figura 4. Variable independiente vs residuales.

Figura 5. Gráficas de diagnóstico.