Trabajo de grado : Propuesta de desarrollo de algoritmos clasificadores clínicos para pacientes con dengue a través del uso de minería de datos

Introducción

El dengue, una enfermedad viral transmitida por el mosquito Aedes aegypti, constituye un desafío importante para la salud pública en más de 100 países, especialmente en regiones tropicales y subtropicales. Esta situación plantea una problemática significativa, destacando la necesidad urgente de herramientas de diagnóstico efectivas. La detección temprana y precisa del dengue no solo mejora la atención clínica, sino que también contribuye a la reducción de la mortalidad y los costos asociados.

Investigaciones previas, como las realizadas por Tanner et al. (2008), Fathima y Manimegalai (2012), y Li et al. (2020), han explorado modelos de aprendizaje automático, tales como árboles de decisión, máquinas de soporte vectorial y naive bayes. Estos enfoques han demostrado elevadas sensibilidades y especificidades en sus respectivos contextos, brindando resultados óptimos en la clasificación de enfermedades similares.

Los algoritmos derivados de metodologías estadísticas que puedan contribuir al correcto diagnóstico de casos positivos y negativos en situaciones donde hay pocos registros confirmados de personas enfermas, representan una herramienta valiosa que amplía las posibilidades de investigación frente a este problema clínico. Además, ofrecen una alternativa práctica para el diagnóstico en diversas zonas rurales donde el acceso a las pruebas médicas más comunes, como la PCR y MAC-ELISA, puede ser limitado o difícil.

Preguntas de investigación

  • ¿Qué algoritmo, al incorporar tanto signos y síntomas como los resultados de un hemograma, demuestra un rendimiento superior en la clasificación de individuos con diagnóstico de dengue?

  • ¿Proporcionan los algoritmos de clasificación, implementados en pacientes con dengue mediante metodologías estadísticas y de aprendizaje automático, datos que respalden un buen desempeño como procedimiento para el diagnóstico clínico?

Objetivos

Objetivo General

Proponer una metodología para construir algoritmos de clasificación mediante técnicas de minería de datos.

Objetivos Específicos

  • Clasificar pacientes con dengue a través del uso de algoritmos que contemplen el uso de signos y síntomas reportados en consulta.

  • Clasificar pacientes con dengue a través del uso de algoritmos que contemplen el uso de signos y síntomas reportados en consulta después de agregar variables relacionadas con un hemograma.

  • Determinar las métricas de desempeño de los algoritmos.

Metodologia

Metodología del trabajo de grado
Metodología del trabajo de grado

Artículo: Sensitivity and Specificity of a Novel Classifier for the Early Diagnosis of Dengue

Introducción


El dengue es una infección vírica sistémica aguda y un problema de salud pública en las regiones tropicales del mundo. Mejorar el diagnóstico y tratamiento del dengue es fundamental para reducir su mortalidad a nivel mundial, un objetivo clave establecido por la Organización Mundial de la Salud (OMS). Entre las complicaciones más comunes y potencialmente mortales del dengue se encuentra el síndrome de shock por dengue (SSD), que suele manifestarse dentro de los primeros días de la enfermedad.

La detección temprana del dengue conlleva una serie de beneficios importantes, como el respaldo a las intervenciones de salud pública, la mejora en los parámetros de desempeño de los sistemas de vigilancia de casos y una mejor estimación de la carga de morbilidad. Además, existe una ventana terapéutica estrecha para el uso eficaz de fármacos antivirales contra el dengue, que generalmente se encuentra en las primeras 48 a 72 horas desde el inicio de la enfermedad. Es importante destacar que hasta el momento ningún estudio prospectivo se ha centrado exclusivamente en casos de fiebre pediátrica que se presentan en centros de atención primaria con un historial de enfermedad breve, una situación muy común en entornos endémicos de dengue.

El objetivo de este estudio fue diseñar prospectivamente un algoritmo de diagnóstico del dengue utilizando los hallazgos clínicos y de laboratorio recopilados rutinariamente en pacientes pediátricos con menos de 72 horas de historia de la enfermedad, y compararlo con el rendimiento diagnóstico de una prueba rápida (NS1).

Materiales y métodos

Para la inscripcion de los pacientes se realizó un protocolo de inclusión, el cual debía cumplir con cada uno de estos lineamientos:

  • Fiebre en el momento de la presentación y menos de 72 horas de evolución de los síntomas.

  • Posible diagnóstico del dengue a criterio del medico que lo atendia.

  • 1-15 años de edad.

  • Consentimiento informado escrito de los padres o tutores, y que estos contaran con teléfono móvil.

Una vez inscritos se tomó información sobre variables sociodemográficas y se les tomaban muestras de sangre para realizarles un hemograma y pruebas rápidas de NS1. De igual manera para obtener diagnóstico de referencia (Gold Standar) positivo debía cumplir con los siguientes lineamientos:

  • Positivo en la RT-PCR

  • Positivo en ELISA NS1

  • Presenta seroconversión IgM en muestreas de plasma emparejadas

Si el paciente cumplía con estos, se tomaba como diagnóstico de dengue positivo, por el contrario si en alguna de ellas daba negativo, se clasificó como “no dengue”.

Métodos estadísticos

Para el desarrollo del algoritmo diagnóstico se utilizó la regresión logística a la cual se le evaluaron el supuesto de linealidad y aditividad del modelo. Se incluyó en el modelo completo todos los predictores (variables cociodemográficas y hemograma) y términos de interacción significativos. Luego se simplificó el modelo mediante un proceso de seleccion de variables a partir de la regresión lasso.

Finalmente el rendimiento del modelo se evaluo mediante el análisis de la curva ROC, seleccionando como punto de corte 0.33 que describe que el coste de pasar por alto un falso negativo es dos veces mayor que el coste de un falso positivo.

Por ultimo se realizó validación cruzada para todo el procreso de desarrollo del modelo, es decir la selección de variables (Lasso) y la estimación de los parametros de desempeño para imitar la validación externa.

Resultados

Finalmente se conto con una población de estudio de 5729 niños con fiebre de menos de 72 horas, del cual 1692 participantes tenían dengue confirmado por laboratorio y se evidenciaba que los casos de dengue tenian más edad que los de no dengue.

Dentro del análisis descriptivo se evidencia que los cambios mas bruscos entre poblaciones de casos de dengue y no dengue se encuentra en los resultados de laboratorio, especificamente en WBC (Recuento de leucocitos), PLT (Recuento de plaquetas), junto con la edad.

Por último el EDC (Early Diagnostic Classifier) que es el modelo con predictores (Edad, WBC, PLT) presento una sensibilidad del 74,8% (IC 95%: 73-76,8%) y una especificidad del 76,3% (IC 95%: 75,2-77,6%) para el diagnóstico de dengue.

Conclusiones

El estudio permite evaluar que era viable desarrollar un algoritmo sencillo basado en pruebas para el diagnóstico temprano, que aunque no presenta un rendimiento tan sobresaliente para generalizarlo o cambiar la practica de los clinicos experimentados, ofrece una guíaen pruebas que probablemente puedan mejorar en la precisión diagnóstica de la mayoría de los médicos vietnamitas que trabajan en atención primaria y que no poseen una amplia experiencia del tratamiento del dengue. # Replicación del artículo La base de datos utilizada en esta replicación fue obtenida de la Secretaría del Distrito de Santiago de Cali, haciendo uso de los casos reportados por el Sistema de Vigilancia en Salud Pública (SIVIGILA) de dengue durante el período del 1 de enero al 7 de diciembre de 2023. Esta base de datos contiene un conjunto de variables demográficas y clínicas de los pacientes, así como información sobre la complejidad del virus, la cual se define según los criterios establecidos por el Instituto Nacional de Salud (INS).

Previo al análisis a realizar se definen el conjuntos de variables de interés para el caso aplicado de estudio.

Tabla 1: Definición de variables
Variable Definición
Caracteríticas demográficas
Edad Edad del paciente al momento del diagnóstico en años
Sexo Sexo del paciente puede ser masculino o femenino
Signos y síntomas
Cefalea Dolor de cabeza
Dolor retrocular Dolor en los ojos
Mialgias Dolor muscular.
Artralgias Dolor de las articulaciones.
Erupción Visualmente, se parece a una “quemadura solar con piel de gallina” y se siente como papel de lija
Clasificación
Dengue con signos de alarma Dengue sin signos de alarma

Con la finalidad de la replicación del artículo previamente descrito se definen el conjunto de métodos y modelos estadísticos empleados para la realización del mismo.

Análisis exploratorio

Se realizó el reporte de la media e intervalo de confianza al 95 % para las variables cuantitativas. Para el reporte de las variables cualitativas se reporta el total y porcentaje representado referente a la presencia o ausencia del signo o síntomas.

Modelo estadístico:

Se empleo el ajuste de un modelo de regresión con enlace logístico el cuál cuenta con la siguiente estructura:

La densidad de \(y_i\) está definida como: \[ f(y_i;\pi_i) = \pi_i^{y_i} (1-\pi_i)^{(1-y_i)} \] donde \(y_i = 1\) si el \(i\)-ésimo paciente presenta dengue con signos de alarma y \(y_i = 0\) si el \(i\)-ésimo presenta dengue sin signos de alarma. La función de enlace es: \[ \log \left( \frac{\pi_i}{1-\pi_i} \right) = \beta_0 + \beta_1 \text{Edad}_i + \beta_2 \text{Sexo}_i + \beta_3 \text{Cefalea}_i + \beta_4 \text{Dolor retrocular}_i\\ +\beta_5 \text{Mialgias}_i+\beta_6 \text{Artralgias}_i+\beta_7 \text{Erupción}_i. \]

Aquí:

  • \(\pi_i\) es la probabilidad de que el \(i\)-ésimo paciente presente dengue con signos de alarma.
  • \(\pi \in (0,1)\)
  • \(\beta_{i} \in (-\infty ,\infty)\)

Es pertinente aclarar que se realizó la regresión por cada covariable de interés una a una y en conjunto.Para el reporte de las interpretaciones se realizó la implementación gráfica de los odds ratio.

Selección de variables:

Cómo método para la selección de variables se empleó el método de penalización de lasso el cuál tiene como función objetivo de estimación: \[\min_{\beta} \left\{ -\sum_{i=1}^{N} \left[ y_i \log(\hat{\pi}_i) + (1 - y_i) \log(1 - \hat{\pi}_i) \right] + \lambda \sum_{j=1}^{p} |\beta_j| \right\}\] Aquí:

  • \(\lambda > 0\)
  • Este parámetro \(\lambda\) se puede calibrar a través de la aplicación del método de validación cruzada y de esta manera obtener un valor óptimo, para este caso se utilizó la alternativa k-folds con k=10.

Rendimiento del modelo:

Se realizó la matriz de confusión de los casos y se calcularon las respectivas métricas de desempeño definidas así:

Tabla 2: Matriz de confusión
Predicción Positiva Predicción Negativa
Real Positivo TP FP
Real Negativo FN TN

La sensibilidad se calcula como: \[ \text{Sensibilidad} = \frac{TP}{TP + FN} \]

La especificidad se calcula como: \[ \text{Especificidad} = \frac{TN}{TN + FP} \]

Aquí:

  • \(TP\) es el número de verdaderos positivos.
  • \(FN\) es el número de falsos negativos.
  • \(FP\) es el número de falsos positivos.
  • \(TN\) es el número de verdaderos negativos.

Resultados

Tabla 3: Caracterización del dengue por complejidad
Dengue con signos de alarma (n=3764) Dengue sin signos de alarma (n=5736)
Característica demográficas
Edad años (IC 95 %) 24.8 (5.2-44.4) 23.4 (4.7-42.2)
Sexo (Masculino) n (%) 51.2 (1928) 50 (2870)
Signos y síntomas
Cefalea n (%) 81.1 (3052) 84.4 (4840)
Dolor retro ocular n (%) 37.6 (1417) 43.2 (2477)
Mialgias (%) n 85.1 (3204) 82.9 (4755)
Artralgias n (%) 68.3 (2572) 64.6 (3703)
Erupción n (%) 31.4 (1181) 33.3 (1911)

En la Tabla 1 se observa la distribución de las características demográficas respecto a la complejidad del dengue, se cuenta con una mayor cantidad de casos en el distrito de Santiago de Cali de dengue sin signos de alarma.

Exploratoriamente no se observan diferencias entre los grupos de edades, y la distribución por género es proporcionada, este caso es análogo con los signos y síntomas, presentando una distribución similar en ambas complejidades, siendo mialgias y cefalea los mas presentes en los individuos con el virus.

Tabla 4: Resultados de regresión
Análisis univariado Análisis multivariado
Modelo con todas las variables Modelo con selección de variables
OR 95% IC p OR 95% IC p OR 95% IC p
Características demográficas
Edad (años) 1 1-1.01 0.001 1 1-1.01 0.004
Sexo (Masculino) 1.05 0.97-1.14 0.258 1.06 0.98-1.15 0.154
Signos y síntomas
Cefalea 0.79 0.71-0.88 < 0.001 0.86 0.76-0.96 0.006 0.96 0.94-0.99 0.008
Dolor retro ocular 0.79 0.73-0.86 < 0.001 0.8 0.73-0.87 < 0.001 0.95 0.93-0.97 < 0.001
Mialgias 1.18 1.05-1.32 0.004 1.06 0.94-1.2 0.329
Artralgias 1.18 1.09-1.29 < 0.001 1.15 1.05-1.26 0.004 1.04 1.02-1.06 < 0.001
Erupción 0.92 0.84-1 0.048 0.95 0.87-1.04 0.292

El valor óptimo del logaritmo de es aproximadamente -6.5. Respecto al ajuste del modelo a nivel univariado todas las variables son significativas a expcepción del género. La edad, Mialgias y Artralgia son factores de riesgo, es decir aumentan la probabilidad de obtener dengue con signos de alarma.

Al incluir todas las variables las Mialgias y el sexo en conjunto no presentan un aporte significativo en el modelo, a diferencia de los otros signos y síntomas junto con la Edad.Las variables seleccionadas a través del proceso de la regresión de Lasso fueron la Cefalea, Dolor retro ocular y Artralgias.

En la Figura 1 se observan los factores de protección y de riesgo del modelo con todas las variables la Edad y Artralgias presentan un aporte significativo en el modelo siendo adiccionalmente variables que contribuyen a un aumento en la probabilidad de presentar dengue con signos de alarma. La Erupción, Cefalea y Dolor retrocular son factores de protección disminuyendo la probabilidad de obtener el evento de interés.

Tabla 5: Métricas de Desempeño
Métrica Valor
Sensitivity 0.649
Specificity 0.423
Pos Pred Value 0.632
Neg Pred Value 0.442
Precision 0.632
Recall 0.649
F1 0.64
Prevalence 0.604
Detection Rate 0.392
Detection Prevalence 0.621
Balanced Accuracy 0.536

Respecto al desempeño del modelo en general se observa que no es tan óptimo al nivel de clasificación, teniendo como mejor párametro de desempeño la sensibilidad con un valor de de 64.7 % (Tabla 5 ) que se podría interpretar que aproximadamente 65 de cada 100 pacientes que presenten dengues con signos de alarma serán clasificados correctamente por el modelo de regresión logística. Lo anterior sugiere la implementación de otras metodologías estadísticas si el interés radica en clasificar individuos.

A pesar de no obtener un rendimiento esperado por parte del modelo se obtiene una enorme cantidad de interpretabilidad en esta problemática obteniendo el conjunto de signos y síntomas que en el curso clínico del paciente presentan una mayor o menor probabilidad de adquirir dengue con signos de alarma.