Os métodos de clusterização são métodos não supervisionados utilizados para agrupar objetos ou dados em clusters, onde objetos semelhantes são colocados juntos em um mesmo grupo. Esses métodos são amplamente utilizados em diversas áreas, como mineração de dados, aprendizado de máquina, análise de dados, reconhecimento de padrões, entre outros.
Existem diferentes métodos de clusters, cada um com suas características e abordagens específicas. Por exemplo, os dois apresentados a seguir.
K-means: O algoritmo K-means é um método de clusterização particional. Ele agrupa os dados em \(K\) clusters, onde \(K\) é um valor definido previamente. O algoritmo inicialmente seleciona \(K\) centroides aleatórios e atribui cada objeto ao centróide mais próximo. Em seguida, recalcula os centróides para encontrar o melhor ajuste e repete o processo até que a convergência seja alcançada.
Hierárquico: Os métodos de clusterização hierárquicos constroem uma estrutura de árvore que representa a relação entre os clusters. Existem duas abordagens principais: aglomerativa e divisiva. A abordagem aglomerativa começa com cada objeto como um cluster separado e, em seguida, une gradualmente os clusters mais próximos, formando uma estrutura hierárquica. A abordagem divisiva começa com um cluster único contendo todos os objetos e divide-o em clusters menores até que cada objeto esteja em seu próprio cluster.
Os mapas auto-organizáveis (Self-Organizing Maps - SOM) são redes neurais artificiais, para dados não supervisionados, que possuem a capacidade de organizar dados de forma topologicamente ordenada. Esses mapas foram propostos por Teuvo Kohonen (Kohonen 1982) e são amplamente utilizados para visualização e análise exploratória de dados.
A rede neural artificial SOM consiste em um mapa bidimensional (ou tridimensional) de neurônios, também chamados de unidades ou células (Figura 1). Cada neurônio no mapa representa um vetor de pesos multidimensionais que são ajustados durante o processo de treinamento.
O objetivo do SOM é mapear e organizar os dados de entrada em uma representação topologicamente ordenada. Isso significa que os neurônios vizinhos no mapa têm características semelhantes, enquanto neurônios distantes têm características mais diferentes. O mapa resultante é uma representação comprimida dos dados originais, permitindo uma melhor compreensão e visualização das relações entre eles.
O treinamento do SOM ocorre em duas fases principais: inicialização e atualização.
Durante a inicialização, os vetores de pesos dos neurônios são definidos aleatoriamente ou por algum método de inicialização específico.
Na Figura 4à diretira estão a arquitetura bidimensional dos Neurônios e à esquerda o subespaço de dimensão \(p\), sendo \(p\) o número de covariáveis. À direita cada bolinha colorida é um neurônio e o vetor de pesos de cada neurônio representa um ponto no subespaço de dimensão \(p\), que está representado por triângulos com as cores dos respectivos nerônios. À esquerda cada ponto preto representa uma observação (instância) da base de dados.
Na fase de atualização, os dados de entrada são apresentados à rede. Para cada dado (observação) é definido o neurônio vencedor como aquele mais perto (no subespaço de dimensão \(p\)) do dado de entrada em questão.
Na Figura 6 o ponto de entrada “da vez” é
aquele marcado com um X
e um círculo. O neurônio vencedor é
o amarelo, representado no gráfico da esquerda pela cor amarela, que
aparece em maior tamanho, e no gráfico à direita por um triângulo dentro
de um quadrado.
A atualização dos pesos dos neurônios é realizada por meio de um processo iterativo. Serão atualizados os pesos dos neurônios vizinhos do neurônio vencedor, vizinhos no mapa bidimensional, aquele à direita. Ainda na Figura 6 , os vizinhos ao neurônio em amarelo estão em dentro dos círculos amarelos.
Quando mais perto um neurônio está do neurônio vencedor, maior será a atualização dos seus pesos. Essa atualização é feita no sentido de movimentar cada neurônio em direção ao dado “da vez”. Essa movimentação é feita no subespaço de dimensão \(p\), como mostra a Figura 7.
À medida que o treinamento progride, o ajuste dos pesos dos neurônios fica cada vez menor. Isto é, o “passo” de cada neurônio representado por seu peso no subespaço de dimensção \(p\) diminui conforme as iterações avançam. A ideia deste processo é não perder o aprendizado ocorrido no início das iterações, permitindo que o mapa se ajuste à distribuição dos dados e revele agrupamentos ou padrões intrínsecos.