Random Forest & K-Means Clustering


Random Forest

Consiste en grandes números de árboles de decisión que operan como un conjunto. Cada árbol en el “bosque” entrega una predicción y la predicción con mayor número de votos es la que se convierte en la predicción del modelo.

Características de Random Forest:


K-Means Clustering

Es un método de cuantización (vectorial), popular para el análisis de clusters en la minería de datos. El objetivo de K-Means es particionar n observaciones en k clusters, en los cuales cada obervación pertenece al cluster con la media más cercana, siriviendo como prototipo del cluster.

“El objetivo de K-means es simple: agrupar puntos de datos similares y descubrir patrones subyacentes” -Andrey Bulezyuk

Un cluster se refiere a una colección de puntos de datos agregados juntos debido a ciertas similaridades.

Se define un número k, el cual se refiere al número de centroids que se necesitan en el dataset. Un centroid es la ubicación real o imaginaria que represnta el centro del cluster.

En otras palabras, el algoritmo de K-means identifica u número k de centroids y despues asigna cada punto de dato al cluster más cercano, manteniendo el centroid lo más pequeño posible. El “means” en K-Means se refiere a promediar los datos, es decir, encontrar el centroid.

El algoritmo deja de crear y optimizar clusters cuando:
Convergence of K-Means

Convergence of K-Means