Este trabajo se centra en utilizar los dos indicadores clĆnicos comunes para determinar la āsalud generalā de una persona infectada por el VIH-1, la carga viral y el recuento de cĆ©lulas CD4+, para predecir la progresión del paciente a corto plazo. El conteo de cĆ©lulas CD4+ es una estimación de la cantidad de glóbulos blancos en 1 ml de sangre, mientras que la carga viral es la cantidad de partĆculas virales en ese mismo ml. En este conjunto de datos, la carga viral se representa en una escala log-10. Cuanto mayor sea el nĆŗmero, mĆ”s āactivoā serĆ” el sistema inmunológico. Paradójicamente, los recuentos de CD4 mĆ”s altos implican tanto un individuo mĆ”s saludable como una mayor cantidad de reproducción viral (el virus se replica principalmente en las cĆ©lulas CD4). Se encuentra que los indicadores funcionan bien a largo plazo, pero se propone ampliar la muestra dee estudio o ir considerando mĆ”s variables de coinfección (modelo CD4-carga viral-conifección) para el corto plazo.
La nube de datos con la que se trabaja representa la carga viral en partĆculas por ml en escala log-10 en el eje \(x\) y al recuento de CD4 en el eje \(y\).
Se trabaja un modelo lineal para estimar el valor de cĆ©luas CD4 en un sistema sin carga viral, asĆ como el cambio marginal en el recuento de CD4+ (\(CMC+\)) debido al incremento en una unidad (escala log-10) de partĆculas de carga viral. AsĆ mismo, se concluye esta parte sobre el anĆ”lisis del VIH proponiendo un modelo que mejor se ajuste a los datos, como lo muestra la tendencia en la nube de puntos.
Se plantea un modelo para expresar la āpendienteā, es decir, el cambio promedio en el recuento de cĆ©lulas CD4 debido al aumento en una unidad de partĆculas virales (en escala log-10). AsĆ, la forma del modelo toma a la carga viral como una variable explicativa para el recuento de cĆ©lulas CD4, expresada en la Ecuación (1).
\[\begin{equation} \begin{aligned} CD = f(VL) + u_i, \end{aligned} \tag{1} \end{equation}\]donde,
\(Y= CD_i\) representa el recuento de cƩlulas CD4+ para cada paciente \(i\).
\(X = VL_i\) representa la carga viral para cada paciente \(i\).
\(u_i\) es la variable estocƔstica o variable de los residuales (errores)
La función de regresión muestral para este modelo es
\[\begin{equation} \begin{aligned} \widehat{CD}_i = \widehat{\beta}_1 + \widehat{\beta}_2 VL_i + \widehat{u}_i, \end{aligned} \tag{2} \end{equation}\]Los parƔmetros del modelo son \(\beta_1\) y \(\beta_2\) donde:
\(\beta_1\) es la ordenada al origen o intercepto.
\(\beta_2\) es la pendiente del modelo (recta).
Para el modelo lineal, la estimación de cada parĆ”metro por la metodologĆa de MĆnimos Cuadrados Ordianrios (MMCO) se obtiene como en las Ecuaciones (3) y (4).
\[\begin{equation} \begin{aligned} \widehat{\beta}_1 = \overline{Y} - \widehat{\beta}_2 \overline{X}; \end{aligned} \tag{3} \end{equation}\] \[\begin{equation} \begin{aligned} \widehat{\beta}_2 = \frac{SC_{xy}}{SC_x}, \end{aligned} \tag{4} \end{equation}\]donde:
\(SC_{xy} = \sum_{i=1}^n Y_iX_i - \frac{(\sum_{i=1}^n Y_i)(\sum_{i=1}^n X_i)}{n}\).
\(SC_x = \sum_{i=1}^n X_i^2 - \frac{(\sum_{i=1}^n X_i)^2}{n}\).
En promedio, conforme \(VL\) incrementa \(CD\) cae y la pendiente o el cambio en el recuento de CD4 por unidad de carga viral cumple \(CMC+=-117\), lo que significa una contribución negativa al cambio en CD4 conforme un incremento en carga viral. La Tabla 1 muestra la información resumen de la estimación por MMCO.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 782.5457 | 35.245157 | 22.20293 | 0 |
| VL | -117.0312 | 8.093842 | -14.45929 | 0 |
El modelo o recta de mejor ajuste serĆa:
\[\begin{equation} \begin{aligned} 782.5457 - 117.0312 VL_i = CD4_i. \end{aligned} \tag{5} \end{equation}\]Este modelo bĆ”sico se extiende con la agregación de mĆ”s variables clĆnicas para poder dar un diagnóstico mĆ”s confiable de la progresipon de pacientes. AsĆ mismo se puede incrementar el tamaƱo de muestra para asemejar lo mĆ”s posible la información empĆrica con la teorĆa. Con distintas propuestas de conjuntos de variables se generan escenarios para poder seleccionar al mejor modelo.
Interpretación de los coeficientes estimados del modelo
\(\widehat{\beta}_1 = E(Y_i | X_i = 0) = 782.5457\) representa el valor promedio del recuento en CD4 cuando no se tiene carga viral. Este valor se encuentra en un rango admisible para caracterizar a una āpersona sanaā, como lo muestra la Tabla 2.
| Cuenta CD4+ | Interpretación |
|---|---|
| 500ā1,600 cells/mm3 | La mayorĆa de personas sin VIH tienen este nivel. |
| 250ā500 cells/mm3 | Sistema inmune comprometido. Una causa puede ser VIH. |
| Menor a 200 cels/mm3 | Ćrea mĆ©dica dignosticarĆ” SIDA |
\(\widehat{\beta}_2= \frac{\Delta Y_i}{\Delta X_i}\) representa que un aumento unitario en la varibale explicaiva conlleva a un aumento de \(\widehat{\beta}_2\) unidades en la variable endógena. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre el valor esperado de \(Y_i\).
Del modelo (5), se encuentra por ejemplo que \(\widehat{Y}_1 = 782.5457ā117.0312(4.3)\). AsĆ \(X_1=4.3\), \(\widehat{Y}_1= 279.3115\). Para encontrar la varianza del modelo se toma la suma de estos residuales al cuadrado como lo muestra la Ecuación (6).
\[\begin{equation} \begin{aligned} s^2=\widehat{\sigma}_u^2 &= \frac{SCR}{n-k} \\ &= \frac{\sum_{i=1}^n\widehat{u}_i^2}{n-k} \\ &= \frac{\sum_{i=1}^n(Y_i-\widehat{Y}_i)_i^2}{n-k}, \end{aligned} \tag{6} \end{equation}\]A mayor varianza, mayor heterogeneidad en las datos/modelo, por lo que suelen transformar las variables explicativas. Asà con una varianza pequeña la desviación estÔndar es pequeña tal como los errores, por lo que el modelo no falla.
Para evaluar la desviación estÔndar de las estimaciones se toman las fórmulas en las Ecuaciones (7) y (8).
La precisión de la estimación de los coeficientes aumenta con el nĆŗmero de observaciones (n) y con la disminución de la desviación estĆ”ndar del regresor, y disminuye cuando decrece el error tĆpico del modelo. Los valores obtenidos se corroboran con los valores del error estĆ”ndar en la Tabla 1.
\[\begin{equation} \begin{aligned} s_{\widehat{\beta}_1} = \sqrt{\frac{ s^2\sum_{i=1}^n X_i^2}{n\sum_{i=1}^n (X_i - \overline{X})^2}}=35.24516, \end{aligned} \tag{7} \end{equation}\] \[\begin{equation} \begin{aligned} s_{\widehat{\beta}_2} = \sqrt{\frac{ s^2}{\sum_{i=1}^n (X_i - \overline{X})^2}}=8.093842. \end{aligned} \tag{8} \end{equation}\]Las bandas de confianza para los parƔmetros se muestran al \(95\%\) en la Tabla 3.
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 713.3826 | 851.7088 |
| VL | -132.9141 | -101.1483 |
Por lo tanto, podemos afirmar con un nivel de confianza del \(95\%\) que ante un aumento de la carga viral en una partĆcula viral el recuento de cĆ©lulas CD4 cae de entre 132 a 101 cĆ©lulas.
La importancia de la precisión del modelo recae en su aplicación para la toma de decisiones. A mayor error (desv. est.) menor presición del modelo.
Prueba de hipótesis relativa a \(\beta_2\) (la pendiente del modelo).
Planteamiento de las hipótesis. Se toma como hipóteisis nula, \(H_0: \beta_2=0\), donde \(X\) no es relevante para explicar \(Y\) vs la alternatica, \(H_1=\beta_2 \neq 0\), donde \(X\) si resulta relevante para explicar \(Y\).
Obtener la estadĆstica de prueba o \(t_{Cal}=T_{Cal}=\frac{\widehat{\beta}_1-0}{\widehat{\sigma}_{\beta_1}}=\frac{-117.0312}{8.094}=-14.45901\).
Obtener los grados de libertad y determinar la regla de decisión. \(\text{g. de l.} =n-k= 1000-2=998\).
La \(H_0\) se rechaza si \(T_{Cal} > T_{Teo}\) o \(-T_{Cal} < -T_{Teo}\). Esto implica que \(-14.45901 < -t_{.05/2,998} = -1.962344\), donde \(t_{.05/2,998} = -1.962344\) es el cuantil al \(97.5\%\) para una prueba \(t\) de dos colas con \(1000-2=998\) g. de l. Por lo que \(X\) es relevante para explicar \(Y\) y se rechaza \(H_0\) al nivel de significancia del \(5\%\). La carga viral explica con un nivel de confiabilidad del \(95\%\) el recuento de cĆ©lulas CD4. Dado que la estadĆstica de pruebva resultó ser mĆ”s grande al valor crĆtico, rechazamos la hipótesis nula a un nivel de significancia del \(5\%\). En otras palabras, se puede decir que la carga viral es relevante para explicar el comportamiento o variación en el recuento de cĆ©lulas CD4.
Sin embargo su relación no es lineal, ya que este modelo cuenta con un coeficiente de determinación del \(0.1732\). El recuento de células CD4 es explicado en menos del \(20\%\) por la carga viral en alrededor del \(95\%\). Debido a que la naturaleza de la correlación lineal es baja se construyen indicadores de la progresión de pacientes de la forma:
\[\begin{equation} \begin{aligned} I_{VIH} = f(CD,LV) + u_i. \end{aligned} \tag{9} \end{equation}\]La alta significancia con baja correlación tambiĆ©n puede corregirse a travĆ©s de una muestra mĆ”s grande, sin embargo, en el sector salud tambiĆ©n puede implicar mĆ”s recursos. AsĆ se propone ir arreglando el modelo con la adición de distintas variables clĆnicas (que puedan obtenerse de una prueba de sangre) para explicar la progresión de cada paciente a travĆ©s de una variable Ćndice.
AnƔlisis de Residuales
Con la pendiente del modelo sifnificativa, se conduce un anÔlisis mÔs profundo de residuales. La motivación principal de este anÔlisis no tiene tanto peso en la interpretación si no en la fundamentación en las hipótesis sobre los residuales que dan soporte al modelo y a predicciones mpas confiables.
Las propiedades bƔsicas del modelo son:
Los residuales se definen como \(u_i = y_i - \widehat{y_i}\), donde \(y_i\) es la i-esima observación y \(\widehat{y}_i\) es la correspondiente observación ajustada por el modelo.
La importancia de los residuales recae en su contribución para calcular la varianza del modelo de la Ecuación (5).
TambiĆ©n se tratan las observaciones aberrantes o atĆpicas y las observaciones influyentes. De la nube de puntos se cuenta con una observación atĆpica con alta carga viral y alto recuento de CD4. Sin embargo estas observaciones son poco frecuentes clĆnicamente, por lo que se puede eliminar del estudio. Se continuarĆ” extendiendo el modelo (9), agregando covariables de coinfección, para no hacer omisión de variables significativas.
El supuesto de normalidad es el mÔs importante. Es la base de la modelación, por lo que si no se cumple las estimaciones se vuelven mÔs alejadas de la realidad.
La forma funcional del modelo es una regresión simple sin embargo la variable explacativa se encuentra en base log-10. AdemÔs se considera la regresión simple \(CD = f(VL)\) como la principal aproximación a un indicador, \(I_{VIH}\), de la progresión de pacientes del VIH.
Primero se observa la dispersión de residuales contra carga viral.
Las observaciones atĆpicas se muestran como recuentos altos lejanos a la nube de puntos (en la literatura mĆ©dica existen casos conocidos como pacientes āgoldenā). Las pruebas estandarizadas proveen de criterios para tratar estas observaciones aberrantes.
La prueba de residuos estandarizados considera la estadĆstica \(D_i = \frac{\widehat{u}_i}{\sqrt{\widehat{\sigma}_{\widehat{u}^2}}}\) y con región crĆtica \(|D_i|> 3\) para considerar el dato como aberrante. La prueba de residuos studentizados considera la estadĆstica \(s_i=\frac{\widehat{u}_i}{s\sqrt{1-h_{ii}}}\) y región crĆtica \(|s_i|>\sqrt{n-1}\).
De acuerdo a los criterios de residuos estandarizados y residuos studentizados, se puede decir que los datos mĆ”s atĆpicos o aberrantes de la relación y repecto a la variable \(X\) son las observaciones con id de pacientes \(752\), con un recuento de \(1589\) y carga viral log-10 de \(5.6\). La observación con id \(373\), recuento de \(1031\) y carga viral \(5.6\), y la observación con valores \(447\), \(1219\) y \(3.6\) respectivamente.
La prueba de residuos externamente estudentizados considera \(\frac{\widehat{u}_i}{s(i)\sqrt{1-h_{ii}}}\), con \(s(i)=\frac{(n-2)s²-\widehat{u}_i^2/(1-h_{ii})}{n-3}\) y clasificando la observación atĆpica con \(|t_i|>2\). Bajo esta prueba se detectan \(38\) observaciones atĆpicas.
Para evaluar la normalidad en la distribución de residuales, se observa del grĆ”fico de probabilidad que los datos ajustan muy bien en la parte central pero las observaciones atĆpicas y el tamaƱo de muestra influyen en el ajuste en las colas.
Al observar la distribución, el histograma muestra normalidad con una media alrededor del \(0\) y las observaciones atĆpicas sobre la cola derecha. Del diagrama de caja la distribución normal tambiĆ©n se muestra con media \(0\) y con las observaciones atĆpicas como pacientes fuera del rango intercuartil.
Otras grƔficas de residuales