Random Forest es un algoritmo que trabaja con una combinación de árboles predictores que dependen cada uno de valores dentro de un vector aleatorio probado independientemente. Es uno de los algoritmos más poderosos para hacer Machine Learning en tareas de regresión y clasificación.
En que consiste - Los ‘Random Forest’ como su nombre lo implica, consiste en un numero grande de individual decision trees’ que operan como un conjunto o ensemble
Ventajas 1. Se puede utilizar para tareas de regresión y clasificación. 2. Su clasificador mantiene un control de los valores faltantes y mantiene exactitud para los datos faltantes. 3. Tiene el poder de manejar grandes cantidades de datos con una dimensionalidad mas larga
Desventajas 1. Hace un mejor trabajo en clasificación que en regresión 2. Poco control de lo que el modelo hace
Proceso
formula1
K Means es un algoritmo de clustering o agrupamiento que consiste en agrupar cantidades grandes de datos para clasificarlos con base a características similares, así los grupos tienen algo en común.
El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.
El algoritmo consta de tres pasos:
Se repiten los pasos 2 y 3 hasta que los centroides no se mueven, o se mueven por debajo de una distancia umbral en cada paso.
El algoritmo k-means resuelve un problema de optimización, siendo la función a optimizar (minimizar) la suma de las distancias cuadráticas de cada objeto al centroide de su cluster.
Los objetos se representan con vectores reales de d dimensiones (x1,x2,…,xn) y el algoritmo k-means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada grupo S={S1,S2,…,Sk} , a su centroide. El problema se puede formular de la siguiente forma:
formula1
donde S es el conjunto de datos cuyos elementos son los objetos xj representados por vectores, donde cada uno de sus elementos representa una característica o atributo. Tendremos k grupos o clusters con su correspondiente centroide μi .
En cada actualización de los centroides, desde el punto de vista matemático, imponemos la condición necesaria de extremo a la función E(μi) que, para la función cuadrática (1) es
formula2
y se toma el promedio de los elementos de cada grupo como nuevo centroide.
Las principales ventajas del método k-means son que es un método sencillo y rápido. Pero es necesario decidir el valor de k y el resultado final depende de la inicialización de los centroides. En principio no converge al mínimo global sino a un mínimo local.