Clasificación de Medicamentos Usando Árboles de Decisión

Un Enfoque Basado en Aprendizaje Automático

Neyder Giraldo Blandon, Jossie Esteban Molina P, Juan Diego Pulido Rendón

2024-10-31

Objetivos del Estudio

Objetivo General

Objetivos Específicos

Justificación del Proyecto

Metodología y Descripción de los Datos

Características de los Datos

Preprocesamiento de Datos

Análisis Estadístico Descriptivo

En la Figura @fig:pairplot se presenta un análisis estadístico descriptivo de las relaciones entre las diferentes variables del conjunto de datos. Este tipo de visualización permite identificar posibles patrones o correlaciones entre las variables que podrían ser útiles para la clasificación.

Análisis Estadístico Descriptivo mediante Pairplot
Análisis Estadístico Descriptivo mediante Pairplot

De este análisis, se observa que existen relaciones destacables entre la edad y la presión arterial, así como entre el índice de masa corporal (BMI) y la relación sodio/potasio (Na/K). Estas correlaciones sugieren que ciertas variables tienen un impacto significativo en la elección del medicamento, lo cual justifica su inclusión en el modelo predictivo. Además, se pueden ver patrones específicos donde ciertos medicamentos se asocian más comúnmente con ciertos grupos de características, lo cual respalda la idea de usar un árbol de decisión para esta clasificación.

Modelo de Árbol de Decisión

Entrenamiento del Modelo

El modelo de árbol de decisión se entrenó utilizando el criterio de Gini como medida de impureza. Además, se limitó la profundidad del árbol a 6 niveles para evitar sobreajuste y mejorar la capacidad de generalización.

Árbol de Decisión para Clasificación de Medicamentos
Árbol de Decisión para Clasificación de Medicamentos

El criterio de Gini permite medir la calidad de las particiones generadas en cada nodo del árbol. La limitación de la profundidad del árbol asegura que el modelo no se ajuste demasiado a los datos de entrenamiento, lo cual permite que sea capaz de generalizar mejor a datos nuevos.

Validación del Modelo

Para evaluar el rendimiento del modelo, se utilizó validación cruzada con 10 particiones (10-fold cross-validation). Esta técnica permitió obtener una estimación precisa de la capacidad del modelo para generalizar a nuevos datos, minimizando la posibilidad de sobreajuste.

Métricas de Evaluación

Resultados y Discusión

Matriz de Confusión y Métricas de Rendimiento

La matriz de confusión se presenta en la Figura. La matriz muestra que el modelo tiene una alta capacidad para clasificar correctamente los medicamentos, aunque algunos tipos fueron confundidos en ocasiones, especialmente aquellos con características similares.

Matriz de Confusión del Modelo de Árbol de Decisión
Matriz de Confusión del Modelo de Árbol de Decisión

La Tabla presenta las métricas de rendimiento del modelo en términos de precisión, recall y F1-score para cada clase. Los resultados muestran que la clase “Drug B” tuvo el mejor rendimiento en cuanto a precisión, con un valor de 95%, mientras que “Drug X” presentó algunas dificultades debido a su solapamiento con otras clases.

Tabla de las métricas de rendimiento del modelo en términos de precisión
Tabla de las métricas de rendimiento del modelo en términos de precisión

Importancia de las Características

El modelo identificó que la relación Na/K y la presión arterial son las características más importantes para determinar el medicamento adecuado, con una contribución porcentual del 45% y 30%, respectivamente. Esto coincide con la literatura clínica, que destaca la relevancia de estos factores para el tratamiento de diversas patologías.

Importancia de las Características en la Clasificación de Medicamentos
Importancia de las Características en la Clasificación de Medicamentos

Análisis Cuantitativo de los Resultados

El modelo alcanzó una precisión del 92% en el conjunto de prueba, lo cual es indicativo de un buen rendimiento general. La Figura muestra la curva ROC para cada clase, con un valor promedio del AUC de 0.92. Este valor sugiere una alta capacidad discriminativa del modelo, aunque algunas clases, como “Drug X”, presentan dificultades debido al solapamiento con otras características.

Curvas ROC para cada Clase de Medicamento
Curvas ROC para cada Clase de Medicamento

Discusión

Los resultados muestran que el modelo de árbol de decisión logra una precisión del 92%, lo cual indica una buena capacidad para clasificar correctamente los medicamentos. Sin embargo, ciertas clases, como “Drug X”, mostraron un rendimiento inferior, probablemente debido al solapamiento de características o a la falta de representatividad en los datos. Para mejorar el rendimiento en futuras investigaciones, se recomienda recopilar más datos y utilizar técnicas de balanceo de clases.

Además, técnicas de ensamble como bosques aleatorios o boosting podrían mejorar la precisión del modelo al combinar múltiples árboles de decisión, reduciendo así el sobreajuste y mejorando la capacidad de generalización.

Por último, el modelo debe ser validado en un entorno clínico antes de ser implementado, para asegurar su efectividad en la práctica y medir su impacto en la precisión de la prescripción y la satisfacción de los pacientes.

Conclusiones

En este estudio se implementó un modelo de árbol de decisión para la clasificación de medicamentos en función de las características clínicas y demográficas de los pacientes. Los resultados obtenidos muestran una precisión del 92% en el conjunto de prueba, lo cual indica la efectividad del modelo para apoyar la toma de decisiones en la prescripción de medicamentos.

Para lograr una aplicación clínica exitosa, se recomienda ampliar el conjunto de datos y explorar técnicas adicionales de aprendizaje automático, como ensambles, que podrían mejorar aún más la precisión y la capacidad de generalización del modelo. Este trabajo sienta las bases para el desarrollo de sistemas de apoyo a la decisión clínica, con el potencial de mejorar la calidad de los tratamientos médicos y la vida de los pacientes.

\end{document}