Planteamiento del problema

El algoritmo de [K-Means]es una técnica de aprendizaje no supervisado altamente eficiente para agrupar observaciones dentro de un conjunto de datos, donde se pretende minimizar la distancia entre miembros de cada grupo y maximizar la distancia entre k grupos. Uno de los retos principales de esta técnica es determinar la estabilidad de sus centroides al inicializar el cómputo en k puntos aleatorios para determinar la suma de los errores al cuadrado de cada componente con respecto al centroide y, posteriormente, categorizar las observaciones.

Objetivo

Entender cómo la correlación entre las variables numéricas puede afectar la estabilidad de los centroides en el algoritmo de K-Medias, es indispensable para obtener resultados replicables

Descripción de la metodología

1. Simular tres distribuciones normales bivariadas independientes pero con traslape

2.Encontrar los centroides con K Means fijando el método de inicialización, encontrar los centroides para n inicializaciones aleatorias

##         [,1]      [,2]
## 1  0.7224413 2.0832016
## 2 -1.1308438 1.9479148
## 3 -1.7025218 0.5084869

Realizamos una grafica con los resultados para obtener una interpretacion visual.

3.Crear \(x_3\) como \(x_1 + \epsilon\), cuál es la varianza de \(x_3\), cuál es la covarianza entre \(x_1\) y \(x_3\), al agregar la variable K-Means sigue detectando los centroides, que pasa con la estabilidad de los centroides cuando la varianza del error aumenta.

Luego de añadir \(x_3\) le calculamos la varianza y la covarianza entre \(x_3\) y \(x_1\)

  • Varianza \(x_3\)
## [1] 3.729265
  • Covarianza entre \(x_3\) y \(x_1\)
## [1] 1.511472
  • Matrix de Correlacion
##           X1        X2        X3
## X1 1.0000000 0.4294149 0.6213713
## X2 0.4294149 1.0000000 0.2676201
## X3 0.6213713 0.2676201 1.0000000

Aplicamos Kmeans a los datos y obtenemos los siguientes centroides.

##           X1       X2         X3
## 1  0.5990955 2.055686  1.4749095
## 2 -1.9953231 1.175163 -3.2093624
## 3 -0.7922589 1.413261 -0.8113345

Se creo una funcion para iterar de forma ascendente la varianza de la variable \(\epsilon\), la cual junto con \(x_1\) son quienes le dan origen a la variable \(x_3\), de esta forma podremos observar como cambian los centroides a medida que aumenta la varianza en \(\epsilon\).

Al ejecutar la funcion, obtenemos las 5 graficas siguientes en donde podremos observar visualmente la posicion de cada centroide durante cada iteracion

Adicionalmente enseñamos la poscion de cada centroide durante cada iteracion como resultado de la funcion, como se puede observar a continuacion esta ubicacion ahora se encuentra en un plano de 3 dimensiones

##           X1        X2         X3
## 1 -0.8640922 1.5550424 -0.8640922
## 2  0.7918572 2.1364324  0.7918572
## 3 -2.0997497 0.8121294 -2.0997497
## 1 -2.0497933 0.9845274 -2.2296979
## 2  0.8843986 2.0897033  0.9631194
## 3 -0.7778401 1.5509816 -0.6819342
## 1 -2.0873271 0.9768679 -2.4068759
## 2  0.8600731 2.0816085  0.9893742
## 3 -0.8268242 1.5246071 -0.6854506
## 1 -2.0636698 1.0247868 -2.5090070
## 2  0.8659755 2.1057580  1.0398294
## 3 -0.8227808 1.4880029 -0.6290150
## 1 -2.0521301 1.0126296 -2.6160471
## 2  0.8297253 2.1153497  1.0672164
## 3 -0.8422183 1.4744848 -0.6245810

Se puede notar que la naturaleza del problema al contemplar una nueva variable permite que los clusters se agrupen de maneras nuevas, no solo se alteran los centroides. También se puede notar que se clasifican algunos puntos de grupos diferentes dentro de las grandes nubes de puntos de un grupo, son distinciones que con solo dos dimensiones no podrían hacerse, aún cuando los datos simulados no contengan mucha información hacen que el problema se vuelva más complejo, se pudo observar también que el efecto de la nueva variable incremento el número de datos que se clasificaban dentro del grupo 1, al aumentar la varianza la diferencia se hacía cada vez más significativa y se imposibilitaba hacer una agrupación de los datos, resultando en centroides casi indistinguibles(visualizando las variables originales).

4.Crear \(x_4\) y \(x_6\) a partir de \(x_2\) igual que en el punto anterior, crear \(x_5\) a partir de \(x_3\)(que ya fue generada a partir de \(x_1\)), al agregar estas variables K-Means sigue detectando correctamente los centroides? qué pasa con la estabilidad cuando la varianza de los centroides aumenta

##           X1        X2        X3       X4        X5       X6
## 1 -0.7048364 1.8248603 -1.078411 2.223969 -1.559490 2.220853
## 2  0.1455744 1.7309769  1.053924 1.820842  1.932586 1.547343
## 3 -1.7915618 0.8395908 -2.706232 0.247897 -3.007205 0.188303

##            X1       X2         X3        X4         X5        X6
## 1 -0.50099597 1.603079 -0.1600395 3.9147142  0.2263848 -2.985386
## 2 -0.02309122 1.755715  0.5090225 1.9026320  3.7507739  4.588116
## 3 -1.16707203 1.376043 -1.7786633 0.2020612 -3.8266751  1.495501

##           X1       X2         X3       X4          X5        X6
## 1 -0.7865257 1.571329 -0.6036473 2.853814 -0.08598064 -4.475846
## 2 -0.1405984 1.700846  0.2691432 1.059110  5.96494942  5.759569
## 3 -0.8805844 1.420549 -1.4060281 1.124005 -5.39221747  3.353000

En la medida en que se agregan variables el problema se hace más complejo, tanto de entender como de ejecutar, las agrupaciones que empiezan a verse se hacen cada vez menos reconocibles(por que estamos visualizando solo las 2 dimensiones principales). El efecto del incremento de la varianza sobre los centroides se hace mucho mayor, observándose movimientos mucho más bruscos que lo que podíamos notar al analizar menos variables, la influencia que tienen las variables derivadas de \(x_2\) (\(x_4\) y \(x_6\)) es distinguible, pero la variable que mayor problemas representa es \(x_5\), ya que le está adicionando error a otra variable que es resultado del mismo proceso con la original(\(x_1\)), se puede observar que la correlación de x5 con el resto de variables disminuye con respecto a la correlación con las demás variables que tienen \(x_3\) y más aún \(x_1\)

Resultados

5.A partir de los resultados de los experimentos que se puede decir del efecto de la correlación entre variables y la estabilidad de los centroides en K medias?

A partir de los resultados obtenidos en el experimento se puede entender como el número de variables a utilizar dentro de K means representa un gran desafío, en este caso se realizaron simulaciones para agregar ruido al modelo mediante nuevas variables, con estas nuevas variables y sus respectivas modificaciones de varianza se pudo identificar cambios directos en las correlaciones de las mismas con el resto, entre más error se estaba introduciendo (caso \(x_5\) sobre \(x_3\) sobre \(x_1\)), menos correlación había entre el resto. Agregar una variable de tipo \(x_5\) en un modelo puede ser desastroso porque en realidad no aporta nada a la clasificación, lo que se debe buscar en los ejercicios tipo K Means en específico es encontrar variables que no tengan correlación entre ellas, por eso es posible resaltar la importancia de utilizar técnicas como Análisis de componentes principales para reducir la dimensionalidad o elegir solo las variables que mejor permiten construir distinciones entre los datos, debemos evitar utilizar información redundante.

Bibliografía