El dengue, una enfermedad viral transmitida por el mosquito Aedes aegypti, constituye un desafío importante para la salud pública en más de 100 países, especialmente en regiones tropicales y subtropicales. Esta situación plantea una problemática significativa, destacando la necesidad urgente de herramientas de diagnóstico efectivas. La detección temprana y precisa del dengue no solo mejora la atención clínica, sino que también contribuye a la reducción de la mortalidad y los costos asociados.
Investigaciones previas, como las realizadas por Tanner et al. (2008), Fathima y Manimegalai (2012), y Li et al. (2020), han explorado modelos de aprendizaje automático, tales como árboles de decisión, máquinas de soporte vectorial y naive bayes. Estos enfoques han demostrado elevadas sensibilidades y especificidades en sus respectivos contextos, brindando resultados óptimos en la clasificación de enfermedades similares.
Los algoritmos derivados de metodologías estadísticas que puedan contribuir al correcto diagnóstico de casos positivos y negativos en situaciones donde hay pocos registros confirmados de personas enfermas, representan una herramienta valiosa que amplía las posibilidades de investigación frente a este problema clínico. Además, ofrecen una alternativa práctica para el diagnóstico en diversas zonas rurales donde el acceso a las pruebas médicas más comunes, como la PCR y MAC-ELISA, puede ser limitado o difícil.
¿Qué algoritmo, al incorporar tanto signos y síntomas como los resultados de un hemograma, demuestra un rendimiento superior en la clasificación de individuos con diagnóstico de dengue?
¿Proporcionan los algoritmos de clasificación, implementados en pacientes con dengue mediante metodologías estadísticas y de aprendizaje automático, datos que respalden un buen desempeño como procedimiento para el diagnóstico clínico?
Proponer una metodología para construir algoritmos de clasificación mediante técnicas de minería de datos.
Clasificar pacientes con dengue a través del uso de algoritmos que contemplen el uso de signos y síntomas reportados en consulta.
Clasificar pacientes con dengue a través del uso de algoritmos que contemplen el uso de signos y síntomas reportados en consulta después de agregar variables relacionadas con un hemograma.
Determinar las métricas de desempeño de los algoritmos.
El dengue es una infección vírica sistémica aguda y un problema de salud
pública en las regiones tropicales del mundo. Mejorar el diagnóstico y
tratamiento del dengue es fundamental para reducir su mortalidad a nivel
mundial, un objetivo clave establecido por la Organización Mundial de la
Salud (OMS). Entre las complicaciones más comunes y potencialmente
mortales del dengue se encuentra el síndrome de shock por dengue (SSD),
que suele manifestarse dentro de los primeros días de la enfermedad.
La detección temprana del dengue conlleva una serie de beneficios importantes, como el respaldo a las intervenciones de salud pública, la mejora en los parámetros de desempeño de los sistemas de vigilancia de casos y una mejor estimación de la carga de morbilidad. Además, existe una ventana terapéutica estrecha para el uso eficaz de fármacos antivirales contra el dengue, que generalmente se encuentra en las primeras 48 a 72 horas desde el inicio de la enfermedad. Es importante destacar que hasta el momento ningún estudio prospectivo se ha centrado exclusivamente en casos de fiebre pediátrica que se presentan en centros de atención primaria con un historial de enfermedad breve, una situación muy común en entornos endémicos de dengue.
El objetivo de este estudio fue diseñar prospectivamente un algoritmo de diagnóstico del dengue utilizando los hallazgos clínicos y de laboratorio recopilados rutinariamente en pacientes pediátricos con menos de 72 horas de historia de la enfermedad, y compararlo con el rendimiento diagnóstico de una prueba rápida (NS1).
Para la inscripcion de los pacientes se realizó un protocolo de inclusión, el cual debía cumplir con cada uno de estos lineamientos:
Fiebre en el momento de la presentación y menos de 72 horas de evolución de los síntomas.
Posible diagnóstico del dengue a criterio del medico que lo atendia.
1-15 años de edad.
Consentimiento informado escrito de los padres o tutores, y que estos contaran con teléfono móvil.
Una vez inscritos se tomó información sobre variables sociodemográficas y se les tomaban muestras de sangre para realizarles un hemograma y pruebas rápidas de NS1. De igual manera para obtener diagnóstico de referencia (Gold Standar) positivo debía cumplir con los siguientes lineamientos:
Positivo en la RT-PCR
Positivo en ELISA NS1
Presenta seroconversión IgM en muestreas de plasma emparejadas
Si el paciente cumplía con estos, se tomaba como diagnóstico de dengue positivo, por el contrario si en alguna de ellas daba negativo, se clasificó como “no dengue”.
Para el desarrollo del algoritmo diagnóstico se utilizó la regresión logística a la cual se le evaluaron el supuesto de linealidad y aditividad del modelo. Se incluyó en el modelo completo todos los predictores (variables cociodemográficas y hemograma) y términos de interacción significativos. Luego se simplificó el modelo mediante un proceso de seleccion de variables a partir de la regresión lasso.
Finalmente el rendimiento del modelo se evaluo mediante el análisis de la curva ROC, seleccionando como punto de corte 0.33 que describe que el coste de pasar por alto un falso negativo es dos veces mayor que el coste de un falso positivo.
Por ultimo se realizó validación cruzada para todo el procreso de desarrollo del modelo, es decir la selección de variables (Lasso) y la estimación de los parametros de desempeño para imitar la validación externa.
Finalmente se conto con una población de estudio de 5729 niños con fiebre de menos de 72 horas, del cual 1692 participantes tenían dengue confirmado por laboratorio y se evidenciaba que los casos de dengue tenian más edad que los de no dengue.
Dentro del análisis descriptivo se evidencia que los cambios mas bruscos entre poblaciones de casos de dengue y no dengue se encuentra en los resultados de laboratorio, especificamente en WBC (Recuento de leucocitos), PLT (Recuento de plaquetas), junto con la edad.
Por último el EDC (Early Diagnostic Classifier) que es el modelo con predictores (Edad, WBC, PLT) presento una sensibilidad del 74,8% (IC 95%: 73-76,8%) y una especificidad del 76,3% (IC 95%: 75,2-77,6%) para el diagnóstico de dengue.
El estudio permite evaluar que era viable desarrollar un algoritmo sencillo basado en pruebas para el diagnóstico temprano, que aunque no presenta un rendimiento tan sobresaliente para generalizarlo o cambiar la practica de los clinicos experimentados, ofrece una guíaen pruebas que probablemente puedan mejorar en la precisión diagnóstica de la mayoría de los médicos vietnamitas que trabajan en atención primaria y que no poseen una amplia experiencia del tratamiento del dengue. # Replicación del artículo La base de datos utilizada en esta replicación fue obtenida de la Secretaría del Distrito de Santiago de Cali, haciendo uso de los casos reportados por el Sistema de Vigilancia en Salud Pública (SIVIGILA) de dengue durante el período del 1 de enero al 7 de diciembre de 2023. Esta base de datos contiene un conjunto de variables demográficas y clínicas de los pacientes, así como información sobre la complejidad del virus, la cual se define según los criterios establecidos por el Instituto Nacional de Salud (INS).
Previo al análisis a realizar se definen el conjuntos de variables de interés para el caso aplicado de estudio.
| Variable | Definición |
|---|---|
| Caracteríticas demográficas | |
| Edad | Edad del paciente al momento del diagnóstico en años |
| Sexo | Sexo del paciente puede ser masculino o femenino |
| Signos y síntomas | |
| Cefalea | Dolor de cabeza |
| Dolor retrocular | Dolor en los ojos |
| Mialgias | Dolor muscular. |
| Artralgias | Dolor de las articulaciones. |
| Erupción | Visualmente, se parece a una “quemadura solar con piel de gallina” y se siente como papel de lija |
| Clasificación | |
| Dengue con signos de alarma | Dengue sin signos de alarma |
Con la finalidad de la replicación del artículo previamente descrito se definen el conjunto de métodos y modelos estadísticos empleados para la realización del mismo.
Se realizó el reporte de la media e intervalo de confianza al 95 % para las variables cuantitativas. Para el reporte de las variables cualitativas se reporta el total y porcentaje representado referente a la presencia o ausencia del signo o síntomas.
Se empleo el ajuste de un modelo de regresión con enlace logístico el cuál cuenta con la siguiente estructura:
La densidad de \(y_i\) está definida como: \[ f(y_i;\pi_i) = \pi_i^{y_i} (1-\pi_i)^{(1-y_i)} \] donde \(y_i = 1\) si el \(i\)-ésimo paciente presenta dengue con signos de alarma y \(y_i = 0\) si el \(i\)-ésimo presenta dengue sin signos de alarma. La función de enlace es: \[ \log \left( \frac{\pi_i}{1-\pi_i} \right) = \beta_0 + \beta_1 \text{Edad}_i + \beta_2 \text{Sexo}_i + \beta_3 \text{Cefalea}_i + \beta_4 \text{Dolor retrocular}_i\\ +\beta_5 \text{Mialgias}_i+\beta_6 \text{Artralgias}_i+\beta_7 \text{Erupción}_i. \]
Aquí:
Es pertinente aclarar que se realizó la regresión por cada covariable de interés una a una y en conjunto.Para el reporte de las interpretaciones se realizó la implementación gráfica de los odds ratio.
Cómo método para la selección de variables se empleó el método de penalización de lasso el cuál tiene como función objetivo de estimación: \[\min_{\beta} \left\{ -\sum_{i=1}^{N} \left[ y_i \log(\hat{\pi}_i) + (1 - y_i) \log(1 - \hat{\pi}_i) \right] + \lambda \sum_{j=1}^{p} |\beta_j| \right\}\] Aquí:
Se realizó la matriz de confusión de los casos y se calcularon las respectivas métricas de desempeño definidas así:
| Predicción Positiva | Predicción Negativa | |
|---|---|---|
| Real Positivo | TP | FP |
| Real Negativo | FN | TN |
La sensibilidad se calcula como: \[ \text{Sensibilidad} = \frac{TP}{TP + FN} \]
La especificidad se calcula como: \[ \text{Especificidad} = \frac{TN}{TN + FP} \]
Aquí:
| Dengue con signos de alarma (n=3764) | Dengue sin signos de alarma (n=5736) | |
| Característica demográficas | ||
| Edad años (IC 95 %) | 24.8 (5.2-44.4) | 23.4 (4.7-42.2) |
| Sexo (Masculino) n (%) | 51.2 (1928) | 50 (2870) |
| Signos y síntomas | ||
| Cefalea n (%) | 81.1 (3052) | 84.4 (4840) |
| Dolor retro ocular n (%) | 37.6 (1417) | 43.2 (2477) |
| Mialgias (%) n | 85.1 (3204) | 82.9 (4755) |
| Artralgias n (%) | 68.3 (2572) | 64.6 (3703) |
| Erupción n (%) | 31.4 (1181) | 33.3 (1911) |
En la Tabla 1 se observa la distribución de las características demográficas respecto a la complejidad del dengue, se cuenta con una mayor cantidad de casos en el distrito de Santiago de Cali de dengue sin signos de alarma.
Exploratoriamente no se observan diferencias entre los grupos de edades, y la distribución por género es proporcionada, este caso es análogo con los signos y síntomas, presentando una distribución similar en ambas complejidades, siendo mialgias y cefalea los mas presentes en los individuos con el virus.
| Análisis univariado | Análisis multivariado | ||||||||
| Modelo con todas las variables | Modelo con selección de variables | ||||||||
| OR | 95% IC | p | OR | 95% IC | p | OR | 95% IC | p | |
| Características demográficas | |||||||||
| Edad (años) | 1 | 1-1.01 | 0.001 | 1 | 1-1.01 | 0.004 | |||
| Sexo (Masculino) | 1.05 | 0.97-1.14 | 0.258 | 1.06 | 0.98-1.15 | 0.154 | |||
| Signos y síntomas | |||||||||
| Cefalea | 0.79 | 0.71-0.88 | < 0.001 | 0.86 | 0.76-0.96 | 0.006 | 0.96 | 0.94-0.99 | 0.008 |
| Dolor retro ocular | 0.79 | 0.73-0.86 | < 0.001 | 0.8 | 0.73-0.87 | < 0.001 | 0.95 | 0.93-0.97 | < 0.001 |
| Mialgias | 1.18 | 1.05-1.32 | 0.004 | 1.06 | 0.94-1.2 | 0.329 | |||
| Artralgias | 1.18 | 1.09-1.29 | < 0.001 | 1.15 | 1.05-1.26 | 0.004 | 1.04 | 1.02-1.06 | < 0.001 |
| Erupción | 0.92 | 0.84-1 | 0.048 | 0.95 | 0.87-1.04 | 0.292 |
El valor óptimo del logaritmo de es aproximadamente -6.5. Respecto al ajuste del modelo a nivel univariado todas las variables son significativas a expcepción del género. La edad, Mialgias y Artralgia son factores de riesgo, es decir aumentan la probabilidad de obtener dengue con signos de alarma.
Al incluir todas las variables las Mialgias y el sexo en conjunto no presentan un aporte significativo en el modelo, a diferencia de los otros signos y síntomas junto con la Edad.Las variables seleccionadas a través del proceso de la regresión de Lasso fueron la Cefalea, Dolor retro ocular y Artralgias.
En la Figura 1 se observan los factores de protección y de riesgo del modelo con todas las variables la Edad y Artralgias presentan un aporte significativo en el modelo siendo adiccionalmente variables que contribuyen a un aumento en la probabilidad de presentar dengue con signos de alarma. La Erupción, Cefalea y Dolor retrocular son factores de protección disminuyendo la probabilidad de obtener el evento de interés.
| Métrica | Valor |
| Sensitivity | 0.649 |
| Specificity | 0.423 |
| Pos Pred Value | 0.632 |
| Neg Pred Value | 0.442 |
| Precision | 0.632 |
| Recall | 0.649 |
| F1 | 0.64 |
| Prevalence | 0.604 |
| Detection Rate | 0.392 |
| Detection Prevalence | 0.621 |
| Balanced Accuracy | 0.536 |
Respecto al desempeño del modelo en general se observa que no es tan óptimo al nivel de clasificación, teniendo como mejor párametro de desempeño la sensibilidad con un valor de de 64.7 % (Tabla 5 ) que se podría interpretar que aproximadamente 65 de cada 100 pacientes que presenten dengues con signos de alarma serán clasificados correctamente por el modelo de regresión logística. Lo anterior sugiere la implementación de otras metodologías estadísticas si el interés radica en clasificar individuos.
A pesar de no obtener un rendimiento esperado por parte del modelo se obtiene una enorme cantidad de interpretabilidad en esta problemática obteniendo el conjunto de signos y síntomas que en el curso clínico del paciente presentan una mayor o menor probabilidad de adquirir dengue con signos de alarma.