La realidad multicapa de datos de ámbito médico y biomédico de acuerdo a Topol (2014).
La reducción de dimensionalidad es un proceso clave en la minería de datos, el ámbito médico y biomédico se caracterizan por la multidimensionalidad y complejidad de los datos, derivado de éste argumento se decide plantear el problema en éstos términos.
## Titulo Conteo
## 4 PCA 91
## 2 ANN 72
## 9 SVM 38
## 5 CART 29
## 6 FDA 29
## 13 LDA 23
## 8 SOM 21
## 12 CCA 18
## 10 S Learning 14
## 17 MDS 13
## 15 U Learning 10
## 19 SVD 10
## 21 ICA 10
## 24 LLE 8
## 25 Isomap 3
## 26 Hessian Eigenmaps 3
## 27 Laplacian Eigenmaps 2
## 30 Latent Dirichlet Allocation 2
## 31 HLLE 1
Éste algoritmo busca explicar la estructura de correlación de un conjunto de variables predictoras utilizando un conjunto más pequeño de combinaciones lineales de las variables originales, a éstos se les llama componentes (eigenvectores), los cuales contienen casi tanta información como las variables originales.
Se realiza un Mapa Autoorganizable con las siguientes características:
Es un algoritmo que busca el coeficiente lineal para cada variable para maximizar la superposición en sus distribuciones. El objetivo principal es maximizar la correlación y no la varianza como en otras técnicas. CCA nos ayuda a contestar la pregunta ¿cuál combinación lineal de las variables \(u\) del conjunto \(X\) y las variables \(t\) del conjunto \(Y\) maximizarían la correlación entre los conjuntos?
Algunas consideraciones al utilizar CCA:
Limitaciones de CCA:
La estadística clásica tiene desafíos aceptando la idea que información a priori sobre la probabilidad de la verdad es necesaria. Desde su punto de vista la verdad no es estocástica y, por lo tanto tratan de definir procedimientos con buenas propiedades para cada Verdad.
Desde los ojos bayesianos ésto es imposible, en lo general.
La aproximación bayesiana considera a la información previa o priors como grados de convicción subjetivos. En algunos problemas éstos priors son muy importantes, pero van perdiendo su relevancia a medida que la cantidad de datos aumenta.
Al hacer análisis de datos desde la perspectiva bayesiana, uno siempre debe tener en cuenta las 3 fases clave del proceso:
La idea central de la inferencia bayesiana es la cuantificación de la incertidumbre.
La base de ésta aproximación es el teorema de Bayes.
\[p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)}\]
Donde:
Kohonen, Teuvo. 1995. Self-Organizing Maps, Volume 30 of Springer Series in Information Sciences. Springer, Berlin, Heidelberg.
Larose, Daniel T. 2006. Data Mining Methods & Models. John Wiley & Sons.
Topol, Eric J. 2014. “Individualized Medicine from Prewomb to Tomb.” Cell 157 (1). Elsevier: 241–53.