Consiste en grandes números de árboles de decisión que operan como un conjunto. Cada árbol en el “bosque” entrega una predicción y la predicción con mayor número de votos es la que se convierte en la predicción del modelo.
Es un método de cuantización (vectorial), popular para el análisis de clusters en la minería de datos. El objetivo de K-Means es particionar n observaciones en k clusters, en los cuales cada obervación pertenece al cluster con la media más cercana, siriviendo como prototipo del cluster.
“El objetivo de K-means es simple: agrupar puntos de datos similares y descubrir patrones subyacentes” -Andrey Bulezyuk
Un cluster se refiere a una colección de puntos de datos agregados juntos debido a ciertas similaridades.
Se define un número k, el cual se refiere al número de centroids que se necesitan en el dataset. Un centroid es la ubicación real o imaginaria que represnta el centro del cluster.
En otras palabras, el algoritmo de K-means identifica u número k de centroids y despues asigna cada punto de dato al cluster más cercano, manteniendo el centroid lo más pequeño posible. El “means” en K-Means se refiere a promediar los datos, es decir, encontrar el centroid.
El algoritmo deja de crear y optimizar clusters cuando:
Convergence of K-Means