1 AnƔlisis exploratorio

La nube de datos con la que se trabaja representa la carga viral en partĆ­culas por ml en escala log-10 en el eje \(x\) y al recuento de CD4 en el eje \(y\).

Se trabaja un modelo lineal para estimar el valor de cƩluas CD4 en un sistema sin carga viral, asƭ como el cambio marginal en el recuento de CD4+ (\(CMC+\)) debido al incremento en una unidad (escala log-10) de partƭculas de carga viral. Asƭ mismo, se concluye esta parte sobre el anƔlisis del VIH proponiendo un modelo que mejor se ajuste a los datos, como lo muestra la tendencia en la nube de puntos.

2 Especificación del modelo

Se plantea un modelo para expresar la ā€œpendienteā€, es decir, el cambio promedio en el recuento de cĆ©lulas CD4 debido al aumento en una unidad de partĆ­culas virales (en escala log-10). AsĆ­, la forma del modelo toma a la carga viral como una variable explicativa para el recuento de cĆ©lulas CD4, expresada en la Ecuación (1).

\[\begin{equation} \begin{aligned} CD = f(VL) + u_i, \end{aligned} \tag{1} \end{equation}\]

donde,

\(Y= CD_i\) representa el recuento de cƩlulas CD4+ para cada paciente \(i\).

\(X = VL_i\) representa la carga viral para cada paciente \(i\).

\(u_i\) es la variable estocƔstica o variable de los residuales (errores)

La función de regresión muestral para este modelo es

\[\begin{equation} \begin{aligned} \widehat{CD}_i = \widehat{\beta}_1 + \widehat{\beta}_2 VL_i + \widehat{u}_i, \end{aligned} \tag{2} \end{equation}\]

Los parƔmetros del modelo son \(\beta_1\) y \(\beta_2\) donde:

\(\beta_1\) es la ordenada al origen o intercepto.

\(\beta_2\) es la pendiente del modelo (recta).

3 Estimación de los parÔmetros del modelo

Para el modelo lineal, la estimación de cada parÔmetro por la metodología de Mínimos Cuadrados Ordianrios (MMCO) se obtiene como en las Ecuaciones (3) y (4).

\[\begin{equation} \begin{aligned} \widehat{\beta}_1 = \overline{Y} - \widehat{\beta}_2 \overline{X}; \end{aligned} \tag{3} \end{equation}\] \[\begin{equation} \begin{aligned} \widehat{\beta}_2 = \frac{SC_{xy}}{SC_x}, \end{aligned} \tag{4} \end{equation}\]

donde:

\(SC_{xy} = \sum_{i=1}^n Y_iX_i - \frac{(\sum_{i=1}^n Y_i)(\sum_{i=1}^n X_i)}{n}\).

\(SC_x = \sum_{i=1}^n X_i^2 - \frac{(\sum_{i=1}^n X_i)^2}{n}\).

En promedio, conforme \(VL\) incrementa \(CD\) cae y la pendiente o el cambio en el recuento de CD4 por unidad de carga viral cumple \(CMC+=-117\), lo que significa una contribución negativa al cambio en CD4 conforme un incremento en carga viral. La Tabla 1 muestra la información resumen de la estimación por MMCO.

Table 1: Estimación por MMCO.
term estimate std.error statistic p.value
(Intercept) 782.5457 35.245157 22.20293 0
VL -117.0312 8.093842 -14.45929 0

El modelo o recta de mejor ajuste serĆ­a:

\[\begin{equation} \begin{aligned} 782.5457 - 117.0312 VL_i = CD4_i. \end{aligned} \tag{5} \end{equation}\]

Este modelo bÔsico se extiende con la agregación de mÔs variables clínicas para poder dar un diagnóstico mÔs confiable de la progresipon de pacientes. Así mismo se puede incrementar el tamaño de muestra para asemejar lo mÔs posible la información empírica con la teoría. Con distintas propuestas de conjuntos de variables se generan escenarios para poder seleccionar al mejor modelo.

Interpretación de los coeficientes estimados del modelo

\(\widehat{\beta}_1 = E(Y_i | X_i = 0) = 782.5457\) representa el valor promedio del recuento en CD4 cuando no se tiene carga viral. Este valor se encuentra en un rango admisible para caracterizar a una ā€œpersona sanaā€, como lo muestra la Tabla 2.

Table 2: Cuadro resumen del rango de recuentos CD4+.
Cuenta CD4+ Interpretación
500–1,600 cells/mm3 La mayorĆ­a de personas sin VIH tienen este nivel.
250–500 cells/mm3 Sistema inmune comprometido. Una causa puede ser VIH.
Menor a 200 cels/mm3 Ɓrea mƩdica dignosticarƔ SIDA

\(\widehat{\beta}_2= \frac{\Delta Y_i}{\Delta X_i}\) representa que un aumento unitario en la varibale explicaiva conlleva a un aumento de \(\widehat{\beta}_2\) unidades en la variable endógena. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre el valor esperado de \(Y_i\).

4 Validación y verificación del modelo

Del modelo (5), se encuentra por ejemplo que \(\widehat{Y}_1 = 782.5457āˆ’117.0312(4.3)\). AsĆ­ \(X_1=4.3\), \(\widehat{Y}_1= 279.3115\). Para encontrar la varianza del modelo se toma la suma de estos residuales al cuadrado como lo muestra la Ecuación (6).

\[\begin{equation} \begin{aligned} s^2=\widehat{\sigma}_u^2 &= \frac{SCR}{n-k} \\ &= \frac{\sum_{i=1}^n\widehat{u}_i^2}{n-k} \\ &= \frac{\sum_{i=1}^n(Y_i-\widehat{Y}_i)_i^2}{n-k}, \end{aligned} \tag{6} \end{equation}\]

A mayor varianza, mayor heterogeneidad en las datos/modelo, por lo que suelen transformar las variables explicativas. Así con una varianza pequeña la desviación estÔndar es pequeña tal como los errores, por lo que el modelo no falla.

Para evaluar la desviación estÔndar de las estimaciones se toman las fórmulas en las Ecuaciones (7) y (8).

La precisión de la estimación de los coeficientes aumenta con el número de observaciones (n) y con la disminución de la desviación estÔndar del regresor, y disminuye cuando decrece el error típico del modelo. Los valores obtenidos se corroboran con los valores del error estÔndar en la Tabla 1.

\[\begin{equation} \begin{aligned} s_{\widehat{\beta}_1} = \sqrt{\frac{ s^2\sum_{i=1}^n X_i^2}{n\sum_{i=1}^n (X_i - \overline{X})^2}}=35.24516, \end{aligned} \tag{7} \end{equation}\] \[\begin{equation} \begin{aligned} s_{\widehat{\beta}_2} = \sqrt{\frac{ s^2}{\sum_{i=1}^n (X_i - \overline{X})^2}}=8.093842. \end{aligned} \tag{8} \end{equation}\]

Las bandas de confianza para los parƔmetros se muestran al \(95\%\) en la Tabla 3.

Table 3: Bandas de confianza al 95%
2.5 % 97.5 %
(Intercept) 713.3826 851.7088
VL -132.9141 -101.1483

Por lo tanto, podemos afirmar con un nivel de confianza del \(95\%\) que ante un aumento de la carga viral en una partƭcula viral el recuento de cƩlulas CD4 cae de entre 132 a 101 cƩlulas.

La importancia de la precisión del modelo recae en su aplicación para la toma de decisiones. A mayor error (desv. est.) menor presición del modelo.

Prueba de hipótesis relativa a \(\beta_2\) (la pendiente del modelo).

  • Planteamiento de las hipótesis. Se toma como hipóteisis nula, \(H_0: \beta_2=0\), donde \(X\) no es relevante para explicar \(Y\) vs la alternatica, \(H_1=\beta_2 \neq 0\), donde \(X\) si resulta relevante para explicar \(Y\).

  • Obtener la estadĆ­stica de prueba o \(t_{Cal}=T_{Cal}=\frac{\widehat{\beta}_1-0}{\widehat{\sigma}_{\beta_1}}=\frac{-117.0312}{8.094}=-14.45901\).

  • Obtener los grados de libertad y determinar la regla de decisión. \(\text{g. de l.} =n-k= 1000-2=998\).

La \(H_0\) se rechaza si \(T_{Cal} > T_{Teo}\) o \(-T_{Cal} < -T_{Teo}\). Esto implica que \(-14.45901 < -t_{.05/2,998} = -1.962344\), donde \(t_{.05/2,998} = -1.962344\) es el cuantil al \(97.5\%\) para una prueba \(t\) de dos colas con \(1000-2=998\) g. de l. Por lo que \(X\) es relevante para explicar \(Y\) y se rechaza \(H_0\) al nivel de significancia del \(5\%\). La carga viral explica con un nivel de confiabilidad del \(95\%\) el recuento de células CD4. Dado que la estadística de pruebva resultó ser mÔs grande al valor crítico, rechazamos la hipótesis nula a un nivel de significancia del \(5\%\). En otras palabras, se puede decir que la carga viral es relevante para explicar el comportamiento o variación en el recuento de células CD4.

Sin embargo su relación no es lineal, ya que este modelo cuenta con un coeficiente de determinación del \(0.1732\). El recuento de células CD4 es explicado en menos del \(20\%\) por la carga viral en alrededor del \(95\%\). Debido a que la naturaleza de la correlación lineal es baja se construyen indicadores de la progresión de pacientes de la forma:

\[\begin{equation} \begin{aligned} I_{VIH} = f(CD,LV) + u_i. \end{aligned} \tag{9} \end{equation}\]

La alta significancia con baja correlación también puede corregirse a través de una muestra mÔs grande, sin embargo, en el sector salud también puede implicar mÔs recursos. Así se propone ir arreglando el modelo con la adición de distintas variables clínicas (que puedan obtenerse de una prueba de sangre) para explicar la progresión de cada paciente a través de una variable índice.

AnƔlisis de Residuales

Con la pendiente del modelo sifnificativa, se conduce un anÔlisis mÔs profundo de residuales. La motivación principal de este anÔlisis no tiene tanto peso en la interpretación si no en la fundamentación en las hipótesis sobre los residuales que dan soporte al modelo y a predicciones mpas confiables.

Las propiedades bƔsicas del modelo son:

  • Media cero
  • Normaildad
  • Homocedasticidad
  • Autocorrelación

Los residuales se definen como \(u_i = y_i - \widehat{y_i}\), donde \(y_i\) es la i-esima observación y \(\widehat{y}_i\) es la correspondiente observación ajustada por el modelo.

La importancia de los residuales recae en su contribución para calcular la varianza del modelo de la Ecuación (5).

También se tratan las observaciones aberrantes o atípicas y las observaciones influyentes. De la nube de puntos se cuenta con una observación atípica con alta carga viral y alto recuento de CD4. Sin embargo estas observaciones son poco frecuentes clínicamente, por lo que se puede eliminar del estudio. Se continuarÔ extendiendo el modelo (9), agregando covariables de coinfección, para no hacer omisión de variables significativas.

El supuesto de normalidad es el mÔs importante. Es la base de la modelación, por lo que si no se cumple las estimaciones se vuelven mÔs alejadas de la realidad.

La forma funcional del modelo es una regresión simple sin embargo la variable explacativa se encuentra en base log-10. AdemÔs se considera la regresión simple \(CD = f(VL)\) como la principal aproximación a un indicador, \(I_{VIH}\), de la progresión de pacientes del VIH.

Primero se observa la dispersión de residuales contra carga viral.

Las observaciones atĆ­picas se muestran como recuentos altos lejanos a la nube de puntos (en la literatura mĆ©dica existen casos conocidos como pacientes ā€œgoldenā€). Las pruebas estandarizadas proveen de criterios para tratar estas observaciones aberrantes.

La prueba de residuos estandarizados considera la estadística \(D_i = \frac{\widehat{u}_i}{\sqrt{\widehat{\sigma}_{\widehat{u}^2}}}\) y con región crítica \(|D_i|> 3\) para considerar el dato como aberrante. La prueba de residuos studentizados considera la estadística \(s_i=\frac{\widehat{u}_i}{s\sqrt{1-h_{ii}}}\) y región crítica \(|s_i|>\sqrt{n-1}\).

De acuerdo a los criterios de residuos estandarizados y residuos studentizados, se puede decir que los datos mÔs atípicos o aberrantes de la relación y repecto a la variable \(X\) son las observaciones con id de pacientes \(752\), con un recuento de \(1589\) y carga viral log-10 de \(5.6\). La observación con id \(373\), recuento de \(1031\) y carga viral \(5.6\), y la observación con valores \(447\), \(1219\) y \(3.6\) respectivamente.

La prueba de residuos externamente estudentizados considera \(\frac{\widehat{u}_i}{s(i)\sqrt{1-h_{ii}}}\), con \(s(i)=\frac{(n-2)s²-\widehat{u}_i^2/(1-h_{ii})}{n-3}\) y clasificando la observación atípica con \(|t_i|>2\). Bajo esta prueba se detectan \(38\) observaciones atípicas.

Para evaluar la normalidad en la distribución de residuales, se observa del grÔfico de probabilidad que los datos ajustan muy bien en la parte central pero las observaciones atípicas y el tamaño de muestra influyen en el ajuste en las colas.

Al observar la distribución, el histograma muestra normalidad con una media alrededor del \(0\) y las observaciones atípicas sobre la cola derecha. Del diagrama de caja la distribución normal también se muestra con media \(0\) y con las observaciones atípicas como pacientes fuera del rango intercuartil.

Otras grƔficas de residuales