Maestría en Métodos Estadísticos Aplicados. Universidad Autónoma de Guerrero.
Resumen
Se plantea un modelo de regresión lineal simple para explicar el comportamiento de las variables clínicas del recuento de linfocitos T CD4 y la carga viral en personas que viven con el VIH en Guerrero durante el 2021. Se encuentra que a medida que aumenta la carga viral, tiende a disminuir el recuento de linfocitos T CD4. En otras palabras, existe una asociación inversa entre ambas variables. Por último se contrastó un modelo lineal y uno log-lineal, de donde resulta que un modelo log-lineal presenta un mejor ajuste a los datos.
Introducción
El aumento indiscriminado en la incidencia de infección por el virus de la inmunodeficiencia humana (VIH), la conversión a enfermedad crónica, el número de defunciones por complicaciones y retardo en el diagnóstico, el número de exámenes en el seguimiento del paciente ha conllevado a utilizar herramientas que nos permitan tomar decisiones en masas poblacionales vulnerables.
El uso de los diferentes software han contribuido a minimizar tiempo, recursos y cuando se trata de contribuir al sistema de salud, es aún mejor, sobre todo por tratarse de una población vulnerable, en donde la desigualdad social y discriminación es cuestionable.
Pretendemos probar, respaldados en las ciencias exactas, la predicción de los valores de CD4 provenientes de los pacientes que viven con VIH (virus de la inmunodeficiencia humana), a partir de teorías.
Marco Teórico
Las estadísticas mundiales nos informan existen 38.4 millones de personas infectadas, a pesar de haber trascurrido 40 años no se ha logrado controlar el número de nuevos infectados. El análisis de los datos, en particular la bioestadística, y matemáticas son herramientas que contribuyen a interpretar mejor los resultados, al ser más especifica la información. Hemos trabajado en los últimos 5 años en el análisis de los linfocitos t CD4, contribuyendo a la medicina traslacional.
Planteamiento
En numerosas ocasiones atendemos a un paciente que vive con VIH con análisis clínicos incompletos, los CD4 son de importancia para identificar la inmunidad del paciente y prescripción de la profilaxis, mientras que la carga viral da pauta a interpretar la adherencia al tratamiento antirretroviral y/o resistencia al manejo. Si alguno de los dos valores está ausente en el momento de realizar la valoración clínica del paciente no nos permite suponer, por lo que la implementación del presente modelo si podría estimar con un margen pequeño de error el valor faltante, dicho de otra manera, es de verdadera utilidad para el clínico siempre y cuando el valor estimado se acerque al real.
¿Es útil la aplicación del software libre R para el análisis de la dinámica del comportamiento de linfocitos T CD4 y carga viral en el paciente que vive con VIH?
Justificación
Herramientas como machine learning (aprendizaje automático) han generado ahorro de tiempo, recursos económicos y permiten tomar decisiones en el área de la salud pública y la finalidad es contribuir al médico tratante del paciente que vive con VIH.
En nuestro medio no hemos realizado un análisis dinámico de los linfocitos T CD4 aunado a la carga viral de los pacientes que viven con el VIH. Tenemos la convicción de generar con el presente trabajo un ahorro al sistema de salud (Utilizando un software libre).
Finalmente todo médico debe tener el compromiso de contribuir y beneficiar a la sociedad, la mayor herencia es el conocimiento, este último debe cuestionarse, analizarse y mejorarse. El presente modelo genera una “calculadora” que podría ser útil en consulta.
Objetivos
Objetivo General
Analizar la dinámica del comportamiento de linfocitos T CD4 y carga viral mediante el uso del software libre R.
Objetivos específicos
-Análisis de la dinámica del comportamiento numérico de los linfocitos T CD4 en el paciente que vive con VIH durante el periodo 2018-2022.
-A través de un software probar utilidad para la predicción de linfocitos T CD4.
Hipótesis
¿El análisis mostrará la dinámica de linfocitos T CD4 a la mejoría y estabilidad en un 90% de los números en la cohorte de pacientes?
Material y Métodos
Análisis exploratorio
Esta primera sección se centra en utilizar los dos indicadores clínicos comunes para determinar la salud general de una persona que viven con el VIH, la carga viral y el recuento de linfocitos T CD4, para predecir la progresión de pacientes a corto plazo. El conteo de células T CD4 es una estimación de la cantidad de glóbulos blancos en 1 ml de sangre, mientras que la carga viral es la cantidad de partículas virales en ese mismo ml. Cuanto mayor sea el número, más activo será el sistema inmunológico. Paradójicamente, los recuentos de T CD4 más altos implican tanto un individuo más saludable como una mayor cantidad de reproducción viral (el virus se replica principalmente en los linfocitos T CD4).
El análisis es llevado acabo en R(R Core Team 2022) y RStudio(Posit team 2023) para garantizar la reproducibilidad de resultados. El reporte emplea knitr(Xie 2023) y Quarto(s. f.) para generarse.
Las tablas son creadas con la librería gt(Iannone et al. 2023). El flujo de trabajo utiliza la metodología del tidyverse(Wickham et al. 2019) para el manejo de datos y broom(Robinson, Hayes, y Couch 2023) para presentar los resultados de forma estructurada. La metodología se apega al modelo de regresión desarrollado en James et al. (2022) e implementado en Hvitfeldt (2022) y Dunn (2022). Las definiciones de econometría se apegan a los trabajos de Gujarati y Porter (2011), Marquina-Benítez (2015) y Marquina-Benítez, Juárez-Romero, y Castells-Gil (2016).
Los datos corresponden a los valores del sistema de laboratorio de pacientes en el estado de Guerrero, mostrando la carga viral entre rangos de 992 partículas y 109 partículas, y el recuento correspondiente a los linfocitos T CD4 encontrándose entre los rangos de 14 y 3 en escala log10.
Los datos de la Tabla 1 corresponden a datos de corte transversal ya que son muchas personas, pero con descripción en comportamiento de linfocitos T CD4 y carga viral en el año 2021.
La nube de datos con la que se trabaja representa la carga viral en partículas por ml en el eje x y al recuento de linfocitos T CD4 en el eje y para pacientes que viven con el VIH en Guerrero durante 2021, se muestra en la Figura 1.
training_data |>ggplot() +aes(x = CV, y = CD4) +geom_point()
Figura 1: Carga viral vs T CD4. La gráfica de dispersión muestra una nube de datos principal con recuentos entre 1000 y 200 linfocitos T CD4. Observaciones atípicas se muestran como puntos tanto de valores altos en CD4 como en carga vira. Las observaciones con altos recuentos autónomos de CD4 pueden ser influenciales en el modelo.
Variable de recuento de linfocitos T CD4
La Figura 2 muestra la distribución de la variable del recuento de linfocitos T CD4 en la base de datos de pacientes.
ggplot(training_data,aes(x = CD4)) +geom_histogram(aes(y =after_stat(density)), bins =40) +labs(x ="Recuento de linfocitos T CD4", y ="Frec relativa")
Figura 2: Distribución de variable linfocitos T CD4. La distribución muestra un comportamiento central alcanzando un pico en el recuento de linfocitos T CD4 alrededor de 500. Se cuenta con observaciones atípicas en la parte derecha de la distribución.
Los datos del recuento de linfocitos T CD4 con mayor frecuencia relativa son los que se encuentran en rangos de 250 a 500 aprox., seguido de los recuentos menores a 250 y mayores 500 pero menores a 750, y por el otro lado se puede observar que los recuentos con menor frecuencia relativa son sobre los 750 aprox.
Variable de carga viral
La Figura 3 muestra la distribución de la variable de carga viral en la base de datos.
Figura 3: Distribución de la variable de carga viral. La distribución muestra un pico alrededor del valor 2 con observaciones distribuidas en la parte derecha de la gráfica y observaciones atípicas superiores al valor 6.
Los datos de carga viral según el gráfico de frecuencias relativas indica que la mayoría de pacientes tienen una valor cercano a 2 en escala log10, además se puede observar que existe una parte distribuida de frecuencias con respecto a las cargas virales en los valores de 3 a 6 en escala log10 por paciente. Las observacione atípicas superan el valor de carga viral de 6 en escala log10.
Estadísticas de resumen
La Tabla 2 muestra las principales cantidades que describen la distribución del comportamiento de linfocitos T CD4 y de carga viral en la base de datos de pacientes a través de la librería pastecs(Grosjean y Ibanez 2018).
Estadísticas de resumen para indicadores clínicos de infección por
VIH.
CD4
CV
nbr.val
2.700000e+01
27.0000000
nbr.null
0.000000e+00
0.0000000
nbr.na
0.000000e+00
0.0000000
min
1.090000e+02
1.6627578
max
9.920000e+02
5.7132174
range
8.830000e+02
4.0504596
sum
1.198000e+04
75.9617609
median
4.290000e+02
2.1003705
mean
4.437037e+02
2.8133986
SE.mean
4.046070e+01
0.2292888
CI.mean.0.95
8.316815e+01
0.4713099
var
4.420083e+04
1.4194806
std.dev
2.102399e+02
1.1914196
coef.var
4.738296e-01
0.4234806
Se tiene que el promedio de recuentos de linfocitos T CD4 es de 443.7 y que el promedio de carga viral es de 2.81 en escala log10, encontrando como valores mínimos 109 y 1.66 células respectivamente y los valores máximos de ambas variables son 992 para el recuento de linfocitos y de 5.71 para la carga viral de pacientes. Para el caso de la mediana el recuento de linfocitos T CD4 representa el valor de 429 y la carga de 2.10, esto quiere decir que son los valores centrales de las 27 observaciones analizadas. La desviación estándar por su parte nos indica que tan dispersos está el grupo de 27 observaciones y podemos observar que el recuento de linfocitos T CD4 tiene una desviación de 210.23 lo que es elevado, lo cual no ocurre tanto como la desviación estándar de la carga viral que es de 1.19 en escala log10.
Correlación
Para explorar los valores exactos de las estadísticas de la distribución de cada variable en la base de datos se considera la Tabla 3 donde la correlación se implementa a través de la librería corr(Kuhn, Jackson, y Cimentada 2022).
Correlaciones entre dos indicadores clínicos para la infección por
VIH.
term
CD4
CV
CD4
—
—
CV
-.34
—
Usando las observaciones 1 a la 27 y tomando al recuento de linfocitos T CD4 como la variable dependiente, se puede observar que las variables tienen una correlación del 34 % lo que nos dice que la variable carga viral no se adapta completamente al modelo de recuentosde linfocitos T CD4.
Análisis gráfico
Se trabaja un modelo lineal para estimar el valor de linfocitos T CD4 en un sistema sin carga viral, así como el cambio marginal en el recuento de linfocitos T CD4 ( CMC+ ) debido al incremento en una unidad de partículas de carga viral. Así mismo, se concluye esta parte sobre el análisis del VIH proponiendo una modelación que mejor se ajuste a los datos, como lo muestra la tendencia en la nube de puntos de la Figura 4.
Figura 4: Regresión de CD4 sobre carga viral. El modelo lineal inicial muestra una relación inversa entre las variables del recuento de linfocitos T CD4 y la carga viral en una cohorte para personas que viven con el VIH. En general se encuentra una buena aproximación con significancia estadística puesto que las bandas de confianza de la recta de regresión se encuentran cerca del valor esperado.
Especificación del modelo
Se plantea un modelo para expresar la “pendiente”, es decir, el cambio promedio en el recuento de células CD4 debido al aumento en una unidad de partículas virales. Así, la forma del modelo toma a la carga viral como una variable explicativa para el recuento de células CD4, expresada en la Ecuación 1.
CD = f(VL) + u_i,
\tag{1}
donde,
Y= CD_i representa el recuento de células CD4+ para cada paciente i.
X = VL_i representa la carga viral para cada paciente i.
u_i es la variable estocástica o variable de los residuales (errores)
La función de regresión muestral para este modelo es
Los parámetros del modelo son \beta_1 y \beta_2 donde:
\beta_1 es la ordenada al origen o intercepto.
\beta_2 es la pendiente del modelo (recta).
Estimación de los parámetros del modelo
Para el modelo lineal, la estimación de cada parámetro por la metodología de Mínimos Cuadrados Ordianrios (MCO) se obtiene como en Ecuación 3 y Ecuación 4.
En promedio, conforme VL incrementa CD cae y la pendiente o el cambio en el recuento de CD4 por unidad de carga viral cumple CMC+=-59.5010, lo que significa una contribución negativa al cambio en CD4 conforme un incremento en carga viral. La Tabla 4 muestra la información resumen de la estimación por MCO.
library(broom)fit<-lm(CD4 ~1+ CV, data = training_data)tidy(fit) |>gt()
Tabla 4:
Estimación por MCO.
term
estimate
std.error
statistic
p.value
(Intercept)
611.10385
101.22673
6.036981
2.628795e-06
CV
-59.50104
33.22551
-1.790824
8.543893e-02
El modelo o recta de mejor ajuste sería:
611.1038 - 59.5010 VL_i = CD4_i.
\tag{5}
Este modelo básico se extiende con la agregación de más variables clínicas para poder dar un diagnóstico más confiable de la progresión de pacientes. Así mismo se puede incrementar el tamaño de muestra para asemejar lo más posible la información empírica con la teoría. Con distintas propuestas de conjuntos de variables se generan escenarios para poder seleccionar al mejor modelo.
Interpretación de los coeficientes estimados del modelo
\widehat{\beta}_1 = E(Y_i | X_i = 0) = 611.1038 representa el valor promedio del recuento en CD4 cuando no se tiene carga viral. Este valor se encuentra en un rango admisible para caracterizar a una “persona sana”, como lo muestra la Tabla 5.
d <-cbind( CD =c("500–1,600 cells/mm3", "250–500 cells/mm3", "Menor a 200 cels/mm3"), Interpre =c("La mayoría de personas sin VIH tienen este nivel.","Sistema inmune comprometido. Una causa puede ser VIH.","Área médica dignosticará SIDA"))colnames(d) <-c("Cuenta T CD4", "Interpretación")as.data.frame(d) |>gt()
Tabla 5:
Cuadro resumen del rango de recuentos T CD4.
Cuenta T CD4
Interpretación
500–1,600 cells/mm3
La mayoría de personas sin VIH tienen este nivel.
250–500 cells/mm3
Sistema inmune comprometido. Una causa puede ser VIH.
Menor a 200 cels/mm3
Área médica dignosticará SIDA
\widehat{\beta}_2= \frac{\Delta Y_i}{\Delta X_i} representa que un aumento unitario en la varibale explicaiva conlleva a un aumento de \widehat{\beta}_2 unidades en la variable endógena. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre el valor esperado de Y_i.
Validación y verificación del modelo
Del modelo de la Ecuación 5, se encuentra por ejemplo que \widehat{Y}_1 = 611.1038 − 25.8409(4.38). Así X_1=4.38, \widehat{Y}_1= 497.9207. Para encontrar la varianza del modelo se toma la suma de estos residuales al cuadrado como lo muestra la Ecuación 6.
A mayor varianza, mayor heterogeneidad en las datos/modelo, por lo que suelen transformar las variables explicativas. Así con una varianza pequeña la desviación estándar es pequeña tal como los errores, por lo que el modelo no falla.
Para evaluar la desviación estándar de las estimaciones se toman las fórmulas en Ecuación 7 y Ecuación 8.
La precisión de la estimación de los coeficientes aumenta con el número de observaciones (n) y con la disminución de la desviación estándar del regresor, y disminuye cuando decrece el error típico del modelo. Los valores obtenidos se corroboran con los valores del error estándar en la Tabla 4.
Las bandas de confianza para los parámetros se muestran al 95 % en la Tabla 6.
confint(fit) |>as.data.frame() |>gt()
Tabla 6:
Bandas de confianza al 95%.
2.5 %
97.5 %
402.6235
819.584203
-127.9303
8.928175
Por lo tanto, podemos afirmar con un nivel de confianza del 95 % que ante un aumento de la carga viral en una partícula viral el recuento de células CD4 cae en menos de 56 células.
La importancia de la precisión del modelo recae en su aplicación para la toma de decisiones. A mayor error (desv. est.) menor presición del modelo.
Prueba de hipótesis relativa a \beta_2 (la pendiente del modelo)
- Planteamiento de las hipótesis. Se toma como hipóteisis nula, H_0: \beta_2=0, donde X no es relevante para explicar Y vs la alternativa, H_1=\beta_2 \neq 0, donde X si resulta relevante para explicar Y.
- Obtener la estadística de prueba o t_{Cal}=T_{Cal}=\frac{\widehat{\beta}_2-0}{\widehat{\sigma}_{\beta_2}}=\frac{-59.5010}{33.2255}=-1.790823.
- Obtener los grados de libertad y determinar la regla de decisión. g. de l. = n-k = 27-2 = 25.
La H_0 se rechaza si T_{Cal} > T_{Teo} o -T_{Cal} < -T_{Teo}. Esto implica que -1.790823 < -t_{.1/25} = -1.708141, donde t_{.1/2,25} = -1.708141 es el cuantil al 95 % para una prueba t de dos colas con 27-2 = 25 g. de l. Por lo que X es relevante para explicar Y y se rechaza H_0 al nivel de significancia del 10 %. La carga viral explica con un nivel de confiabilidad del 90 % el recuento de células CD4. Dado que la estadística de pruebva resultó ser más grande al valor crítico, rechazamos la hipótesis nula a un nivel de significancia del 10 %. En otras palabras, se puede decir que la carga viral es relevante para explicar el comportamiento o variación en el recuento de células CD4.
Sin embargo su relación no es lineal, ya que este modelo cuenta con un coeficiente de determinación del 0.1137. El recuento de células CD4 es explicado en menos del 20 % por la carga viral en alrededor del 90 % de las veces. Debido a que la naturaleza de la correlación lineal es baja se construyen indicadores de la progresión de pacientes de la forma:
I_{VIH} = f(CD,VL) + u_i.
\tag{9}
La alta significancia con baja correlación también puede corregirse a través de una muestra más grande, sin embargo, en el sector salud también puede implicar más recursos. Así se propone ir arreglando el modelo con la adición de distintas variables clínicas (que puedan obtenerse de una prueba de sangre) para explicar la progresión de cada paciente a través de una variable índice.
Análisis de Residuales
Con la pendiente del modelo sifnificativa, se conduce un análisis más profundo de residuales. La motivación principal de este análisis no tiene tanto peso en la interpretación si no en la fundamentación en las hipótesis sobre los residuales que dan soporte al modelo y a predicciones más confiables.
Las propiedades básicas del modelo son:
- Media cero
- Normaildad
- Homocedasticidad
- Autocorrelación
Los residuales se definen como u_i = y_i - \widehat{y_i}, donde y_i es la i-esima observación y \widehat{y}_i es la correspondiente observación ajustada por el modelo.
La importancia de los residuales recae en su contribución para calcular la varianza del modelo de la Ecuación 5.
También se tratan las observaciones aberrantes o atípicas y las observaciones influyentes. De la nube de puntos se cuenta con una observación atípica con alta carga viral y alto recuento de CD4. Sin embargo estas observaciones son poco frecuentes clínicamente, por lo que se puede eliminar del estudio. Se puede continuar extendiendo el modelo Ecuación 5 agregando por ejemplo, covariables de coinfección, variables biológicas u otros indicadores clínicos, para no hacer omisión de variables significativas.
El supuesto de normalidad es el más importante. Es la base de la modelación, por lo que si no se cumple las estimaciones se vuelven más alejadas de la realidad.
La forma funcional del modelo es una regresión simple sin embargo la variable explacativa se encuentra en base log10. Además se considera la regresión simple CD = f(VL) como la principal aproximación a un indicador, I_{VIH}, de la progresión de pacientes del VIH.
A continuación se muestran distintas visualizaciones de diagnóstico para evaluar la modelación. Se emplea la librería olsrr(Hebbali 2020) para manipular funcionalidades adicionales de estas gráficas.
Primero se observa la dispersión de residuales contra los valores ajustados en la Figura 5.
library(olsrr)ols_plot_resid_fit(fit)
Figura 5: Residuales vs valores ajustados. Se muestra una señal aleatoria al inicio de la nube de puntos con una tendencia creciente para valores de carga viral alta.
Las observaciones atípicas se muestran como recuentos altos lejanos a la nube de puntos (en la literatura médica existen casos conocidos como pacientes “golden”). Las pruebas estandarizadas proveen de criterios para tratar estas observaciones aberrantes.
La prueba de residuos estandarizados (Belsley, Kuh, y Welsch 1980) considera la estadística D_i = \frac{\widehat{u}_i}{\sqrt{\widehat{\sigma}_{\widehat{u}^2}}} y con región crítica |D_i|> 2 para considerar el dato como aberrante. La prueba de residuos studentizados (Chambers 1992) considera la estadística s_i=\frac{\widehat{u}_i}{s\sqrt{1-h_{ii}}} y región crítica |s_i|>\sqrt{n-1}.
De acuerdo a los criterios de residuos estandarizados y residuos studentizados, se puede decir que el dato más atípico o aberrante de la relación y repecto a la variable X es la observación con un recuento de 992 linfocitos T CD4 y carga viral log10 de 1.93.
Figura 7: Residuos estudentizados. La gráfica de residuos estudentizados no arroja observaciones atípicas o influyentes.
La prueba de residuos externamente estudentizados (Venables y Ripley 2002) de la librería MASS considera \frac{\widehat{u}_i}{s(i)\sqrt{1-h_{ii}}}, con s(i)=\frac{(n-2)s²-\widehat{u}_i^2/(1-h_{ii})}{n-3} y clasificando la observación atípica con |t_i|>2. Bajo esta prueba se detecta una observación atípica.
Para evaluar la normalidad en la distribución de residuales, se observa del gráfico de probabilidad que los datos ajustan muy bien en la parte central pero las observaciones atípicas y el tamaño de muestra influyen en el ajuste en las colas.
Al observar la distribución de la Figura 8, el histograma muestra normalidad con una media alrededor del 0 y las observaciones atípicas sobre la cola derecha. Del diagrama de caja Figura 9 la distribución normal también se muestra con media 0 y con las observaciones atípicas como pacientes fuera del rango intercuartil. La Figura 10 muestra otra visualización de diagnóstico de normalidad de los residuales.
ols_plot_resid_hist(fit)
Figura 8: Ajuste a la distribución normal. La distribución empírica contra la distribución normal teórica muestra falta de información en la cola inferior de la curva, por lo que ampliar la base de datos puede ayudar a cumplir con la normalidad del modelo. Las observaciones atípicas se muestran como valores aislados en los extremos de la cola superior.
ols_plot_resid_box(fit)
Figura 9: Diagrama de caja. Se aprecia una aproximación a la distribución normal teórica esperada. Las observaciones atípicas y las que se encuentran fuera del rango intercuartil forman una cohorte de valores altas tanto de CD4 como de carga viral.
ols_plot_resid_qq(fit)
Figura 10: Gráfica de cuantiles normales. Se muestra un comportamiento similar a la distribución normal teórica para la media y la parte central en la base de datos del comportamiento de linfoctiso T CD4. Sin embargo se cuenta con observaciones atípicas con valores altos en carga viral y recuento de linfocitos T CD4.
Medidas de influencia
Es posible que una sola observación tenga mucha influencia en los resultados de un análisis de regresión. Por esta razón es importante indentificar estas observaciones para tomarlas en consideración al momento de realizar las interpretaciones de resultados.
En la Figura 11 se muestra la gráfica de barra para la distancia de Cook (Cook y Weisberg 1982), la cual detecta observaciones que tienen mucha influencia en los valores ajustados del modelo. Se emplea para detectar información influencial pues depende tanto del residual como de la palanca, i.e., toma en cuenta tanto el valor de la variable independiente como de la dependiente de la observación.
Pasos para calcular la distancia de Cook: 1. Eliminar observaciones una a la vez.
2. Reajustar el modelo en las restantes (n-1) observaciones.
3. Examinar que tanto todos los valores ajustados cambiaron cuando la i-ésima observación es eliminada.
Un punto con una distancia de Cook alta indica la presencia de mucha influencia en los valores ajustados.
Figura 11: La distancia de Cook detecta dos observaciones atípicas correspondientes a pacientes con recuento de linfocitos T CD4 o carga viral altos.
La gráfica DFFITS (Welsch y Kuh 1977) de la Figura 12 es la diferencia reescalada entre el i-ésimo valor ajustado obtenido de la base de datos completa y el i-ésimo valor ajustado obtenido de eliminar la i-ésima observación. La diferencia en ajsutes se usa para identificar datos influenciales. Cuantifica el número de desviaciones estándar por las que cambia el valor ajustado cuando la i-ésima observación es omitida.
Figura 12: La medida DFFITS detecta dos observaciones atípicas equivalentes al método por la distancia de Cook.
Pasos para calcular DFFITS:
Eliminar observaciones una a la vez.
Reajustar el modelo de regresión con las observaciones restantes.
Observar que tanto todos los valores ajustados cambian cuando la i-ésima observación es eliminada.
Una observación es considerada influencial si el valor absoluto de su valor DFFITS es mayor a 2\frac{\sqrt{p+1}}{n-p-1}. Aquí n es el número de observaciones y p el número de predictores incluyendo el intercepto.
Prueba MWD
La prueba MacKinnon-White-Davidson (MacKinnon, White, y Davidson 1983) se emplea para comparar modelos lineales contra modelos log-lineales en las especificaciones en una regreión lineal. La prueba compara dos modelos donde uno tiene una especificación lineal odel tipo y ~ x1 + x2 y el otro modelo tiene una especificación log-lineal del tipo log(y) ~ z1 + z2. Comunmente, los regresores en el último modelo son logs de los regresores en el primer modelo, i.e., z1 es log(x1) etc.
Se considerará el recuento de linfocitos T CD4 como función solamente de la carga viral y se estiman los parámetros del modelo lineal. Los resultados se muestran en la Tabla 12.
El modelo estimado correspondiente es: \widehat{Y}=450.15-0.00026 CV. \tag{10}
Este modelo presenta una R² de 1.53%, lo cual indica que la variable independiente no explicaría en buen grado el comportamiento del número de linfocitos T CD4. Para un nivel de significancia del 5% la única variable significativa dentro del modelo es el recuento autónomo de linfocitos T CD4 o intercepto de la regresión, pues la carga viral no es etadísticamente significativa.
Contrastando con el modelo log-lineal, la Ecuación 5 representa un mejor modelo puesto que su R² es de 11.37% y con la variable de carga viral significativa a un nivel de confianza del 10%.
A priori, se espera que si el valor de la carga viral aumenta para las observaciones de pacientes, el recuento de linfocitos T CD4 se vea disminuida (relación inversa perfeta teórica) y por tanto se espera que esta elasticidad sea negativa.
Se encuentra que efectivamente se cumplen las expectativas del comportamiento de las elasticidades, es decir se refleja el efecto de disminución en términos porcentuales de la variable respuesta frente al comportamiento de la variable explicativa incluida en el modelo.
Para el modelo lineal la elasticidad puede calcularse mediante la relación en la
donde \overline{X} y \overline{Y} denotan las medias de las variables independiente y dependiente respectivamente.
Para el caso del modelo lineal, el valor de la R² indica la proporción de la variación en la variable dependiente explicada por las variables explicativas mientras que en el modelo log lineal, esta misma medida indica la proporción de la variación en la variable dependiente explicada por el logaritmo de la variable explicativa y por tanto no son variables que puedan asumirse iguales. Es necesario hacer un cálculo adicional que las haga comparables, para ello se calcula el valor de la R² entre log(CV) y CD4 obteniendo un valor de 0.8509% el cual ya es comparable con la R² del modelo log lineal de 11.37%. Como este valor es inferior, bajo este criterio se escoge el modelo log lineal para modelar el comportamiento del recuento de linfocitos T CD4 ya que este modelo explica en mayor proporción la variabilidad de la carga viral (teniendo en cuenta que la única variable significativa dentro de éste modelo corresponde a la elasticidad de la carga viral).
Los resultados de la prueba MWD se muestran en la Tabla 13 a continuación, donde el modelo log lineal (M1) muestra la mayor significancia. Se emplea la librería lmtest(Zeileis y Hothorn 2002) para conducir las pruebas de hipótesis.
library(lmtest)usm_log <-lm(log(CV) ~1+ CD4, data = training_data2)usm_lin <-lm(CV ~1+ CD4, data = training_data2)petest(usm_log, usm_lin) |>gt()
Tabla 13:
Prueba MWD.
Estimate
Std. Error
t value
Pr(>|t|)
-9.681350e-04
1.604065e-03
-0.6035510
0.5518045
2.287055e+04
1.215350e+05
0.1881807
0.8523854
Sin embargo la prueba MWD también muestra que se puede mejorar aún la modelación del comportamiento de linfocitos T CD4 y carga viral agregando variables u observaciones a la modelación original.
Resultados
Se encuentra que existe una correlación de -0.34 entre la variable explicativa de la carga viral y la variable explicada del recuento de linfocitos T CD4. Tiene el signo negativo, lo que indica que a medida que aumenta la carga viral, tiende a disminuir el recuento de linfocitos T CD4. En otras palabras, existe una asociación inversa entre ambas variables. Esto es consistente con la idea de que una carga viral alta puede afectar negativamente al sistema inmunológico, lo que se refleja en una disminución de los linfocitos T CD4. Se considera una correlación moderada. Esto implica que la relación entre los recuentos de linfocitos T CD4 y la carga viral no es extremadamente fuerte, pero aún existe una asociación significativa entre ambas variables.
Es importante tener en cuenta que la correlación no implica una relación de causa y efecto. En este caso, la correlación indica una asociación entre los recuentos de linfocitos T CD4 y la carga viral, pero no permite determinar la dirección causal y se necesitaría una investigación adicional para comprender mejor la naturaleza de la asociación y su implicación clínica.
Al estimar un modelo con la metodología de MCO se llega a que en promedio, conforme la carga viral incrementa el recuento de T CD4 cae y la pendiente o el cambio en el recuento de CD4 por unidad de carga viral cumple CMC+=-59.50, lo que significa una contribución negativa al cambio en CD4 conforme un incremento en carga viral.
Además la precisión del modelo es buena, pues los errores de estimación no son grandes. Por lo tanto, podemos afirmar con un nivel de confianza del 95 % que ante un aumento de la carga viral en una partícula viral el recuento de células CD4 cae en menos de 56 células.
La carga viral explica con un nivel de confiabilidad del 90 % el recuento de células CD4. En otras palabras, se puede decir que la carga viral es relevante para explicar el comportamiento o variación en el recuento de células CD4.
Se compararon dos modelos donde uno tiene una especificación lineal odel tipo y ~ x1 + x2 y el otro modelo tiene una especificación log-lineal del tipo log(y) ~ z1 + z2, con z1 = log(x1) y z2 = log(x2). El modelo log-lineal representa un mejor modelo puesto que su coeficiente de determinación es de 11.37% y cuenta con la variable de carga viral significativa a un nivel de confianza del 10%.
Sin embargo se puede mejorar aún la modelación del comportamiento de linfocitos T CD4 y carga viral agregando variables u observaciones a la modelación original, como lo son las observaciones completas en años distintos de las variables de carga viral y linfocitos T CD4.
El modelo propuesto puede implementarse como una calculadora de riesgo para predecir y hacer inferencia sobre el estado de salud de personas que viven con el VIH, tomando en cuenta que se dispone de las mediciones del recuento de linfocitos T CD4 y de la carga viral.
MacKinnon, J., H. White, y R. Davidson. 1983. «Tests for Model Specification in the Presence of Alternative Hypotheses: Some Further Results». Journal of Econometrics 21: 53-70.
Marquina-Benítez, Santiago. 2015. «Notas metodológicas de la Unidad de Aprendizaje de Introducción a la Econometría».
Marquina-Benítez, Santiago, Octaviano Juárez-Romero, y Ernestina Castells-Gil. 2016. «INTRODUCCIÓN A LA ECONOMETRÍA CON SOFTWARE LIBRE».
Posit team. 2023. RStudio: Integrated Development Environment for R. Boston, MA: Posit Software, PBC. http://www.posit.co/.
R Core Team. 2022. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse». Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.
Xie, Yihui. 2023. knitr: A General-Purpose Package for Dynamic Report Generation in R. https://yihui.org/knitr/.
Zeileis, Achim, y Torsten Hothorn. 2002. «Diagnostic Checking in Regression Relationships». R News 2 (3): 7-10. https://CRAN.R-project.org/doc/Rnews/.