MDS e t-SNE
Análise Multivariada 2021.2
Introdução
O presente trabalho tem como objetivo a aplicação dos métodos MDS e t-SNE nos conjuntos de dados “USArrests” e “USAirpollution”. Esses datasets já foram trabalhados anteriormente na disciplina, onde foram realizadas análises também relacionadas com redução de dimensionalidade (como o PCA). Por esse motivo, maiores detalhes sobre eles foram omitidos no trabalho atual. Em resumo, o USArrests possui dados sobre práticas de crimes como assaltos, assassinatos e estupros, enquanto o USAirpollution possui dados sobre a poluição do ar por SO2 com base em variáveis socioambientais. Ambos se referem ao estados dos USA.
A seguir, conheceremos brevemente os dois métodos, e depois partiremos para as análises.
Método MDS
O MDS, ou Multidimensional Scaling - Escalonamento Multidimensional é uma das técnicas mais antigas de redução de dimensionalidade. Ou seja, uma forma de representar com um número menor de dimensões (ou features) um conjunto de dados original com muitas dimensões.
É uma forma de sumarizar o espaço p-dimensional original na forma de um espaço k-dimensional, com k<p; assim, mantém-se uma representação ainda útil dos dados, porém mais resumida e mais fácil de se interpretar e representar em espaços menores (como 2d ou 3d, quando possível).
O MDS é baseado na dissimilaridade entre os pares de observações (dois a dois), por vezes também referida como dissemelhança. Em outras palavras, a dissimilaridade é uma representação da distância entre essas observações, seja ela a própria distância Euclidiana ou de algum outro tipo. Ou seja, ela irá representar o quanto as observações estão próximas ou esparsas em determinado conjunto de dados.
Na prática, ao aplicar o MDS, busca-se que as distâncias calculadas no espaço de representação sejam as mais próximas possíveis da matriz de dissimilaridade original (no nosso caso, a matriz de distâncias Euclidianas).
Método t-SNE
O t-SNE cai em uma categoria de algoritmos de visualização de dados com grande dimensionalidade. Pelo mesmo problema que sempre nos acompanha: a visualização de conjuntos de dados com muitas variáveis é muito mais difícil, por isso buscamos representá-los em espaços mais simplificados.
No caso do t-SNE, essencialmente estamos buscando uma visualização que possa ser feita em 1D, 2D ou 3D, a depender das características do conjunto de dados original.
Cabe ressaltar que o t-SNE é uma adaptação do método SNE, que se diferencia pela utilização da distribuição t-Student para a representação probabilística dos dados mapeados. A sigla significa t-Distributed Stochastic Neighbor Embedding, algo como “Incorporação Estocástica dos Vizinhos via distribuição t”.
Também é importante destacar que o t-SNE pode não ser a visualização mais fiel dos dados em altas dimensões. O que ele faz é tentar fazer essa representação da melhor forma possível, permitindo a identificação de padrões ou de “vizinhos” em dimensões 2d ou 3d (clusters baseados em similaridades).
Vimos na disciplina um método que é parecido com o t-SNE, o PCA. No entanto, eles diferem pois o t-SNE preserva apenas as menores distâncias dois a dois (ou similaridades locais), enquanto o PCA se preocupa em preservar as grandes distâncias e com a variância. Nesse ponto, o t-SNE é mais eficiente, visto que não manterá as estruturas dos dados que não forem de fato representativas em similaridade.
Leitura do dados
Aplicação do MDS
USArrests
Primeiro, façamos a aplicação do método MDS para o conjunto de dados USArrests.
Como vimos, o MDS se baseia em uma medida de dissimilaridade que, no nosso caso, será a distância euclidiana entre os pontos. Vamos computar essa distância para as obvservações e em seguida visualizá-la.
Há no gráfico uma predominância de distâncias euclidianas com valores mais baixos, ou seja, refletindo uma dissimilaridade pequena nos dados. Isso nos dá a ideia de que os valores para boa parte das variáveis, quando comparados entre estados, podem ser semelhantes.
Apesar disso, há regiões do gráfico em que a dissimilaridade é maior, com cores mais fortes. Estas representam aqueles estados em que há grande discrepância no comportamento de uma ou mais variáveis conjuntamente.
MDS USArrests
Agora que analisamos as dissimilaridades, vamos à aplicação do método MDS:
[1] 3.435446e+05 9.897626e+03 2.063520e+03 3.020481e+02 4.785629e-11
[6] 2.826848e-11 2.526349e-11 2.521733e-11 2.299334e-11 1.925028e-11
[11] 1.654503e-11 6.063470e-12 4.907074e-12 3.434998e-12 2.602462e-12
[16] 2.511517e-12 1.930623e-12 1.778830e-12 1.681795e-12 1.680652e-12
[21] 1.466784e-12 1.379503e-12 1.371622e-12 1.129469e-12 9.231508e-13
[26] 2.893666e-13 -1.659880e-13 -6.483396e-13 -1.488994e-12 -1.643950e-12
[31] -1.843690e-12 -2.081518e-12 -2.341067e-12 -2.670322e-12 -3.032390e-12
[36] -3.368751e-12 -4.588914e-12 -4.808080e-12 -4.881879e-12 -5.706364e-12
[41] -5.759495e-12 -6.611016e-12 -6.946744e-12 -7.490958e-12 -8.592006e-12
[46] -9.143739e-12 -9.586254e-12 -1.108575e-11 -1.761360e-11 -2.840324e-11
[1] 1
Todos os autovalores após a posição 4 são zero, e a PM considerando os autovalores de 1 a 4 é igual a 1. Com isso, as 4 primeiras colunas são as responsáveis por representar toda a dissimilaridade do conjunto de dados com base na distância euclidiana.
Portanto, com 4 dimensões, temos a totalidade da matriz de distâncias recuperada.
USAirpollution
Agora vamos à aplicação do método MDS para o conjunto de dados USAirpollution.
Computando a matriz de distância euclidiana e observando o gráfico:
Para este conjunto de dados, a visualização da matriz de distâncias euclidianas é um pouco diferente. Conseguimos perceber que a maior parte das dissimilaridades se distribui em valores melhores, exceto no caso da cidade de Chicago. Quando fizemos as análises na outra atividade, percebemos que Chicago era um outlier, então pode ser esse o motivo.
Excetuando esse caso, apenas na Philadelphia observamos dissimilaridades levemente maiores, porém sem grandes diferenças.
Portanto, as cidades possuem, em geral, características semelhantes para todas as variáveis.
MDS USAirpollution
Agora que analisamos as dissimilaridades, vamos à aplicação do método MDS:
[1] 2.553888e+07 5.924815e+05 2.807840e+04 8.200078e+03 4.668187e+03
[6] 4.822820e+02 5.794818e+01 3.763834e-09 1.596007e-09 1.399051e-09
[11] 1.324586e-09 5.861437e-10 5.175729e-10 5.021226e-10 4.566356e-10
[16] 4.345553e-10 2.576518e-10 1.508776e-10 1.201975e-10 1.056608e-10
[21] 9.252721e-11 7.970608e-11 7.815993e-11 7.684663e-11 7.554583e-11
[26] 4.242223e-11 3.086646e-11 2.343013e-11 -4.365201e-11 -1.404087e-10
[31] -1.455848e-10 -2.148913e-10 -2.215944e-10 -4.238897e-10 -4.603783e-10
[36] -5.029273e-10 -5.383370e-10 -5.789440e-10 -8.727187e-10 -8.798691e-10
[41] -1.077705e-09
[1] 1
Todos os autovalores após a posição 7 são zero, e a PM considerando os autovalores de 1 a 7 é igual a 1. Com isso, as 7 primeiras colunas são as responsáveis por representar toda a dissimilaridade do conjunto de dados com base na distância euclidiana.
Portanto, com 7 dimensões, temos a totalidade da matriz de distâncias recuperada.
Aplicação do t-SNE
No caso do método t-SNE, foram utilizadas duas bases de dados auxiliares para que as análises pudessem fazer mais sentido no contexto.
t-SNE para o USArrests
Primeiro, vamos aplicar o método da forma como os dados chegaram. Cabe ressaltar que a visualização do t-SNE fica mais facilitada quando temos dados classificados segundo algum critério. Por exemplo, se no dataset atual nós tivéssemos a informação de quais estados pertencem a cada região dos USA, muito provavelmente os clusters ficariam evidenciados a partir dessa divisão por regiões administrativas (ou não, vamos verificar!).
Poderia-se esperar um agrupamento mais explícito de acordo com as regiões dos estados. No entanto, como observado no gráfico acima, não necessariamente esse agrupamento ocorre.
Isso dá-se devido ao fato de que, mesmo dentro de uma mesma região, os estados podem apresentar características completamente diferentes no que diz respeito aos padrões de criminalidade. Uma análise mais aprofundada do ponto de vista socioeconômico seria necessária para tentar explicar tal fenômeno.
t-SNE para o USAirpollution
Primeiro, o t-SNE com os dados originais:
Assim como no outro conjunto de dados, não foi possível identificar diretamente a presença de clusters para as cidades. Por isso, outro dataset auxiliar será utilizado, que retorna os estados de cada cidade.
O objetivo é verificar se clusters serão formados quando os estados das cidades forem considerados, com agrupamentos para cada um dos estados.
Novamente, não houve presença de clusters bem definidos, ao contrário do que era esperado.
Cidades de um mesmo estado se mostraram afastadas no plot e não se agruparam com base em seus estados.
Conclusão
O MDS e o t-SNE são métodos utilizados no contexto da redução de dimensionalidade. Nos ajudam a entender de que forma os dados com alta dimensionalidade podem ser representados em dimensões menores, para fins de visualização e exploração de características.
Nesse trabalho, o método MDS se mostrou interessante para resumir as dissimilaridades entre as observações, além de permitir que as dissimilaridades fossem bem representadas em uma matriz com dimensão menor.
Já para o t-SNE, a vantagem principal da aplicação seria a obtenção/visualização de clusters em dimensões menores do que a original. No entanto, nos conjuntos de dados do trabalho, a aplicação do t-SNE não alcançou esse objetivo de forma muito efetiva, talvez por características específicas desses dados ou mesmo por relações atípicas entre as variáveis.