K-means y Random forest

#K-means

es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.

###El algoritmo consta de tres pasos:

Inicialización: una vez escogido el número de grupos, k, se establecen k centroides en el espacio de los datos, por ejemplo, escogiéndolos aleatoriamente.

Asignación objetos a los centroides: cada objeto de los datos es asignado a su centroide más cercano.

Actualización centroides: se actualiza la posición del centroide de cada grupo tomando como nuevo centroide la posición del promedio de los objetos pertenecientes a dicho grupo. alt txt

Los objetos se representan con vectores reales de d dimensiones (x1,x2,…,xn) y el algoritmo k-means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada grupo S={S1,S2,…,Sk}, a su centroide. El problema se puede formular de la siguiente forma:

alt txt

donde S es el conjunto de datos cuyos elementos son los objetos xj representados por vectores, donde cada uno de sus elementos representa una característica o atributo. Tendremos k grupos o clusters con su correspondiente centroide μi.

En cada actualización de los centroides, desde el punto de vista matemático, imponemos la condición necesaria de extremo a la función E(μi) que, para la función cuadrática (1) es alt txt

#Random Forests

es una técnica de agregación desarrollada por Leo Breiman, que mejora la precisión en la clasificación mediante la incorporación de aleatoriedad en la construcción de cada clasificador individual. Esta aleatorización puede introducirse en la partición del espacio (construcción del árbol), así como en la muestra de entrenamiento.

#Características

No es superable en la precisión, de entre los algoritmos actuales. Funciona de manera eficiente en grandes bases de datos.

Puede manejar miles de variables de entrada sin borrado de variables.

Aporta estimaciones de qué variables son importantes en la clasificación.

Se genera una estimación objetiva interna de la generalización de error a medida que avanza la construcción del bosque.

Tiene un método eficaz para la estimación de los datos faltantes y mantiene la precisión cuando una gran parte de los datos que faltan.

###Algoritmo:

Así es como se formó este sistema, para un número determinado de árboles T: Muestra N casos al azar con el reemplazo para crear un subconjunto de los datos. El subconjunto debe ser aproximadamente 66% del conjunto total.

En cada nodo:

Para un número m, las variables predictoras m son seleccionados al azar entre todas las variables predictoras.

La variable de predicción que proporciona la mejor división, de acuerdo con una función objetiva, se utiliza para hacer una división binaria en ese nodo.

En el siguiente nodo, elije otras m variables al azar entre todas las variables predictoras y hace lo mismo.

Dependiendo del valor de m, hay tres sistemas ligeramente diferentes: Selección aleatoria divisor: m = 1

Empaquetadores de Breiman: m = número total de variables de predictor Random forest: m << número de variables predictoras. Brieman sugiere tres posibles valores de m: ½ m √, √ m y 2 m √

alt txt

K-means y Random forest

Victor Manuel Gutierrez

24/2/2020