Antecedentes

Análisis Multicapa de datos de Ámbito Médico y Biomédico

La realidad multicapa de datos de ámbito médico y biomédico de acuerdo a Topol (2014).


La reducción de dimensionalidad es un proceso clave en la minería de datos, el ámbito médico y biomédico se caracterizan por la multidimensionalidad y complejidad de los datos, derivado de éste argumento se decide plantear el problema en éstos términos.

Planteamiento del Problema

Prupuesta de Título

  • Magnitud del Efecto de los Algoritmos de Reducción de Dimensionalidad en la Pertinencia de la Información Generada para Ámbitos Médico y Biomédico.

Pregunta de Investigación

  • ¿Cuál es la magnitud del efecto en la pertinencia de la información generada a partir de datos del ámbito medico al usar algoritmos de reducción de dimensionalidad, durante el proceso de extracción de características?

Hipótesis

  • Usar algoritmos de reducción de dimensionalidad, durante el proceso de extracción de características de datos de ámbito médico y biomédico la pertinencia de la información permite el incremento en la detección de eventos de interés.

Objetivo General

  • Medir el efecto de los algoritmos para reducción de dimensionalidad mas relevantes en el estado del arte, en la pertinencia de la información generada en el contexto médico y biomédico.

Objetivos Específicos

  1. Determinar los algoritmos de reducción de dimensionalidad de mayor uso para análisis de datos en los ámbitos médico y biomédico.
  2. Analizar los algoritmos de reducción de dimensionalidad, seleccionados de la literatura, y métricas para cuantificar el efecto en la pertinencia de la información.
  3. Aplicar los algoritmos seleccionados de reducción de dimensionalidad a datos en los ámbitos médico y biomédico para la extracción de características.
  4. Medir la magnitud del efecto en la pertinencia de la información en datos médicos y biomédicos mediante un estudio piloto enfocado en análisis de datos.

Reporte de Avances

Estructuración de Queries y Resultados Preliminares


  • Se obtuvo un total de 152 publicaciones:
    • 86 Artículos originales.
    • 25 Tesis doctorales.
    • 6 Libros.
    • 12 Capítulos de libros.
    • 1 Papel de conferencia.
    • 3 Posters de conferencia.
    • 3 Tesis de Maestría.
    • 5 Memorias de congresos.
    • 2 Revisiones bigliográficas.
    • 5 Surveys
    • 4 publicaciones de otras categorías.

Análisis Preliminares de Resultados

##                         Titulo Conteo
## 4                          PCA     91
## 2                          ANN     72
## 9                          SVM     38
## 5                         CART     29
## 6                          FDA     29
## 13                         LDA     23
## 8                          SOM     21
## 12                         CCA     18
## 10                  S Learning     14
## 17                         MDS     13
## 15                  U Learning     10
## 19                         SVD     10
## 21                         ICA     10
## 24                         LLE      8
## 25                      Isomap      3
## 26           Hessian Eigenmaps      3
## 27         Laplacian Eigenmaps      2
## 30 Latent Dirichlet Allocation      2
## 31                        HLLE      1

Visualizaciones Iniciales

Mención de los Algoritmos en Publicaciones seleccionadas de 2007-2017

Tendencia por Algoritmo

Principal Components Analysis (PCA)

Éste algoritmo busca explicar la estructura de correlación de un conjunto de variables predictoras utilizando un conjunto más pequeño de combinaciones lineales de las variables originales, a éstos se les llama componentes (eigenvectores), los cuales contienen casi tanta información como las variables originales.

Pros y Contras (Larose 2006)

  • Pros:
    • Reduce dimensionalidad de los datos.
    • Permite estimaciones de probablidad en datos multidimensionales.
    • Entrega un conjunto de componentnes que no correlacionados.
  • Contras:
    • Costo computacional alto.
    • No ideal para trabajar con características de fina granularidad.

Self Organizing Maps (SOM)

Generalidades de los Mapas Autoorganizados (SOM):

  • Pertenecen a la Familia de Redes Neuronales Artificiales que realizan aprendizaje no sueprvisado.
  • Utilizan una estrategia de aprendizaje competitivo (winner takes all).
  • Se les considera una implementación no linear de PCA (Principal Components Analysis).
  • Descritos por vez primera por Teuvo Kohonen (Kohonen 1995).
  • Los datos dados al algoritmo deben ser continuos.
  • El algoritmo tendrá un mejor rendimiento cuando se le entrega datos de alta dimensionalidad.

Pros y Contras

  • Pros:
    • Relativamente fácil de entender y aplicar.
    • Son consistentes y funcionan bien para lo que están diseñados.
    • Facilidad de interpretación visual.
  • Contras:
    • No funciona con datos faltantes.
    • Cada SOM es distinto.
    • Costo computacional alto.

Ejemplo


Se realiza un Mapa Autoorganizable con las siguientes características:

  • Cantidad de datos a utilizar: 2241.
  • Utilizando 16 neuronas en un arreglo hexagonal.
  • Se realizan 6000 iteraciones del algoritmo.
Visualizaciones de calidad del SOM:

Analizando los Patrones

Graficación de clusters

Canonical Correlation Analsysis (CCA)

Es un algoritmo que busca el coeficiente lineal para cada variable para maximizar la superposición en sus distribuciones. El objetivo principal es maximizar la correlación y no la varianza como en otras técnicas. CCA nos ayuda a contestar la pregunta ¿cuál combinación lineal de las variables \(u\) del conjunto \(X\) y las variables \(t\) del conjunto \(Y\) maximizarían la correlación entre los conjuntos?

Algunas consideraciones al utilizar CCA:

  • Muestras pequeñas podrían tener efectos adversos en los resultados.
    • El tamaño de muestra mínimo usualmente = 10 * Número de valores.
  • Al seleccionar las variables a incluir para el análisis:
    • La inclusión de variables irrelevantes o la exclusión de aquellas relevantes puede afectar todo el resultado del algoritmo.
    • Todas las variables independientes deben estar relacionadas entre ellas, así como todas las variables dependientes.

Limitaciones de CCA:

  • El resultado refleja únicamente la varianza compartida entre los componentes lineares, no la varianza extraída de las variables.
  • Los pesos canónicos pueden ser muy inestables, especialmente cuando hay multicolinariedad.
  • La interpretación del resultado es difícil y no siempre clara.
  • No se han desarrollado aún estadísticos precisos para interpretar resultados de CCA.

Aproximación Bayesiana al Análisis de Datos

La estadística clásica tiene desafíos aceptando la idea que información a priori sobre la probabilidad de la verdad es necesaria. Desde su punto de vista la verdad no es estocástica y, por lo tanto tratan de definir procedimientos con buenas propiedades para cada Verdad.

Desde los ojos bayesianos ésto es imposible, en lo general.

La aproximación bayesiana considera a la información previa o priors como grados de convicción subjetivos. En algunos problemas éstos priors son muy importantes, pero van perdiendo su relevancia a medida que la cantidad de datos aumenta.

Al hacer análisis de datos desde la perspectiva bayesiana, uno siempre debe tener en cuenta las 3 fases clave del proceso:

  1. Generar un modelo de probabilidad completo.
  2. Condicionar en función a los datos observados.
    • Generación de una distribución posterior dados los “datos observados” que se alimentan al modelo.
    • Ésta será una distribución de probabilidad condicional de datos no observados, dado los datos observados.
  3. Evaluar el ajuste del modelo y las implicaciones de la distribución posterior que resulte.

La idea central de la inferencia bayesiana es la cuantificación de la incertidumbre.

La base de ésta aproximación es el teorema de Bayes.

\[p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)}\]

Donde:

  • Letras griegas para parámetros.
  • Letras romanas minúsculas para escalares o vectores observadas u observables.
  • Letras romanas mayúsculas para matrices observadas u observables.

Trabajo Futuro

Clases Tomadas

Competencias Adquiridas Fuera de Clase

Referencias

Kohonen, Teuvo. 1995. Self-Organizing Maps, Volume 30 of Springer Series in Information Sciences. Springer, Berlin, Heidelberg.

Larose, Daniel T. 2006. Data Mining Methods & Models. John Wiley & Sons.

Topol, Eric J. 2014. “Individualized Medicine from Prewomb to Tomb.” Cell 157 (1). Elsevier: 241–53.