1 Introdução

A análise de agrupamento consiste em agrupar objetos semelhantes segundo suas características, levando em consideração a similaridade ou dissimilaridade (distâncias).

Existem três técnicas que quantifica o quanto dois objetos são parecidos, sendo elas:

  • Dissimilaridade (tipos de distâncias): para variáveis quantitativas;

  • Medida de similaridade: Para variáveis qualitativas;

  • Associação: para agrupamentos das variáveis.

Portanto o intuito principal é dividir as observações em grupos homogêneos, cuja os elementos entre grupos sejam heterogêneos.

2 Objetivos

Essa análise se resume os seguintes objetivos:

  • Verificar se existe qualquer agrupamento óbvio de taças similares e se existem taças que sejam particularmente incomuns;

  • Realizar uma análise estatística que auxilie a compreensão das variáveis de forma geral ou em grupos.

3 Metodologia

3.1 Métodos

A análise Multivariada de Agrupamento foi realizada pelo método Complete Linkage.Como os dados em questão, as variáveis são todas quantitativas, a técnica utilizada será a dissimilaridade (distâncias), onde busca-se realizar uma divisão entre as taças para assim analisar os grupos formados por objetos com características semelhantes.

Também utilizou-se as estatísticas descritivas tanto para os dados gerais como para os grupos formados, e as caras de Chernoff para compreender a semelhanças ou diferenças entre as taças.

4 Aplicação

Neste trabalho vamos realizar uma análise Multivariada de Agrupamento (Cluster) pelo método Complete Linkage. O banco de dados utilizado se refere a seis medidas(cm) sobre cada uma das 25 taças de cerâmica escavadas de lugares pré-históricos na Tailândia. E desejamos avaliar a similaridade e diferenças entre as taças.

Segue as Variáveis do banco de dados e o que elas significam:

Variáveis

  • \(X_1:\) Diâmetro da borda;

  • \(X_2:\) Diâmetro do bojo;

  • \(X_3:\) Altura do bojo;

  • \(X_4:\) Diâmetro da base;

  • \(X_5:\) Diâmetro da haste;

  • \(X_6:\) Altura da haste.

4.1 Carregando pacotes necessários

pacotes <- c("readxl", "FactoMineR","cluster","psych","TeachingDemos")
if(sum(as.numeric(!pacotes %in% installed.packages())) != 0){
  instalador <- pacotes[!pacotes %in% installed.packages()]
  for(i in 1:length(instalador)) {
    install.packages(instalador, dependencies = T)
    break()}
  sapply(pacotes, require, character = T) 
} else {
  sapply(pacotes, require, character = T) 
}
##        readxl    FactoMineR       cluster         psych TeachingDemos 
##          TRUE          TRUE          TRUE          TRUE          TRUE

4.2 Visualização do banco de dados

library(rmarkdown)
 paged_table(tacas)

5 Filtrando as variáveis númericas

tacas1<- tacas[,2:7]

6 Análise exploratória

6.1 Para dados faltantes

any(is.na(tacas))
## [1] FALSE

6.2 Nomes de variáveis

names(tacas)
## [1] "Taças" "X1"    "X2"    "X3"    "X4"    "X5"    "X6"

6.3 Análise Descritiva

summary(tacas[,2:7])
##        X1              X2              X3              X4             X5       
##  Min.   : 8.00   Min.   : 8.00   Min.   : 7.00   Min.   : 4.0   Min.   : 2.00  
##  1st Qu.:12.00   1st Qu.:15.00   1st Qu.:16.00   1st Qu.:14.0   1st Qu.: 5.00  
##  Median :13.00   Median :20.00   Median :23.00   Median :16.0   Median : 6.00  
##  Mean   :13.28   Mean   :17.84   Mean   :20.44   Mean   :14.6   Mean   : 6.36  
##  3rd Qu.:14.00   3rd Qu.:21.00   3rd Qu.:25.00   3rd Qu.:17.0   3rd Qu.: 7.00  
##  Max.   :19.00   Max.   :23.00   Max.   :27.00   Max.   :20.0   Max.   :11.00  
##        X6       
##  Min.   : 2.00  
##  1st Qu.: 7.00  
##  Median : 9.00  
##  Mean   : 8.12  
##  3rd Qu.:10.00  
##  Max.   :14.00

6.4 Padronizando as variáveis

tacas1=scale(tacas1)

7 Caras de Chernoff

Trata-se de um dispositivo gráfico que representa dados multivariados para a comunicação de informações multidimensionais na forma de rostos caricaturados e seu objetivo é representar dados multivariados por meio do mapeamento de suas variaveis em características do rosto humano. A ideia é possibilitar, no nosso caso, uma melhor visualização das taças que são semelhantes.

7.1 Caras de Chernoff para as 25 taças

faces(tacas1)

Através das carinhas podemos concluir:

  • Que as taças mais parecidas são 1,6,7,8,11,14,15,16,19 e 21;

  • As taças 22, 23 e 24 apresentam semelhança;

  • As taças 4,5,17 e 18 apresentam características coincidentes.

Possivelmente as taças que apresentam características parecidas faram parte de um mesmo grupo.

8 Dendograma

O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de observações em cada passo e em seus níveis de semelhança.

Matriz.dist<-dist(tacas1, method = "euclidian")
Grupos_complete <- hclust(Matriz.dist, method="complete")
plot(Grupos_complete, hang=-1, main="Dendrograma", sub="", xlab="taças", ylab="")
abline(4,0,col=2)

8.1 Definindo os grupos

8.1.1 Obtendo os agrupamentos

g_complete=cutree(Grupos_complete, k=3) 

9 Número de elementos em cada grupo

table(g_complete) 
## g_complete
##  1  2  3 
## 15  4  6

Optou-se por três grupos formados para a análise.

Taças que constitui cada grupo:

  • grupo 1: 1,2,3,6,7,8,11,12,14,15,16,19,20,21 e 25;

  • grupo 2: 4,5,17 e 18;

  • grupo 3: 9,10,13,22,23 e 24.

9.1 Análise Descritiva para o grupo 1

summary(g1_complete)
##        X1                 X2                X3                 X4         
##  Min.   :-0.42564   Min.   :-0.8855   Min.   :-0.07241   Min.   :-0.1448  
##  1st Qu.:-0.42564   1st Qu.: 0.3828   1st Qu.: 0.50358   1st Qu.: 0.2172  
##  Median :-0.09311   Median : 0.4981   Median : 0.75044   Median : 0.5793  
##  Mean   : 0.06207   Mean   : 0.5288   Mean   : 0.68461   Mean   : 0.5310  
##  3rd Qu.: 0.23942   3rd Qu.: 0.8440   3rd Qu.: 0.91501   3rd Qu.: 0.8206  
##  Max.   : 1.90209   Max.   : 1.1899   Max.   : 1.07958   Max.   : 1.3033  
##        X5                 X6         
##  Min.   :-0.63023   Min.   :-0.3567  
##  1st Qu.:-0.39853   1st Qu.: 0.2802  
##  Median :-0.16683   Median : 0.5987  
##  Mean   :-0.04325   Mean   : 0.5775  
##  3rd Qu.: 0.29658   3rd Qu.: 0.9172  
##  Max.   : 1.22339   Max.   : 1.8726

10 Correlação de Spearman

Os dados não segue normalidade, por isso a correlação calculada será a de Spearman.

library(corrgram)
library(GGally)
ggcorr(g1_complete, label=T,method = c("pairwise","spearman"))

11 Correlação de Spearman

Para o grupo 1, temos:

Correlação inversa, quando uma aumenta a outra diminui

  • \(X_4\) e \(X_5\)

  • \(X_5\) e \(X_6\)

Correlação positiva, quando uma cresce a outra também aumenta.

  • \(X_4\) e \(X_6\)

  • \(X_2\) e \(X_5\)

12 Análise Descritiva do grupo 2

summary(g2_complete)
##        X1              X2                X3                 X4         
##  Min.   :0.572   Min.   :-0.4243   Min.   :-0.89526   Min.   :0.09654  
##  1st Qu.:1.071   1st Qu.:-0.0784   1st Qu.:-0.77183   1st Qu.:0.27756  
##  Median :1.570   Median : 0.2675   Median :-0.73069   Median :0.33790  
##  Mean   :1.403   Mean   : 0.2098   Mean   :-0.60726   Mean   :0.27756  
##  3rd Qu.:1.902   3rd Qu.: 0.5557   3rd Qu.:-0.56612   3rd Qu.:0.33790  
##  Max.   :1.902   Max.   : 0.7287   Max.   :-0.07241   Max.   :0.33790  
##        X5              X6          
##  Min.   :1.223   Min.   :-0.35668  
##  1st Qu.:1.223   1st Qu.:-0.35668  
##  Median :1.455   Median :-0.19745  
##  Mean   :1.571   Mean   :-0.03822  
##  3rd Qu.:1.803   3rd Qu.: 0.12102  
##  Max.   :2.150   Max.   : 0.59871

13 Correlação de Spearman

A correlação linear é desprezível para as variáveis

  • \(X_1\) e \(X_5\)

  • \(X_2\) e \(X_5\)

  • \(X_3\) e \(X_5\)

  • \(X_5\) e \(X_6\)

Correlação positiva forte, quando uma cresce a outra também aumenta.

  • \(X_1\), \(X_2\),\(X_3\) e \(X_4\)

  • \(X_3\) e \(X_5\)

Correlação positiva moderada

  • \(X_4\) e \(X_5\)

  • \(X_4\) e \(X_6\)

  • \(X_2\) e \(X_6\)

14 Análise Descritiva para o grupo 3

##        X1                X2                X3                X4         
##  Min.   :-1.7558   Min.   :-2.2690   Min.   :-2.2118   Min.   :-2.5584  
##  1st Qu.:-1.4232   1st Qu.:-2.0384   1st Qu.:-1.9650   1st Qu.:-2.1963  
##  Median :-1.0907   Median :-1.5772   Median :-1.3890   Median :-1.3516  
##  Mean   :-1.0907   Mean   :-1.4620   Mean   :-1.3067   Mean   :-1.5125  
##  3rd Qu.:-0.7582   3rd Qu.:-0.7702   3rd Qu.:-0.6895   3rd Qu.:-0.8689  
##  Max.   :-0.4256   Max.   :-0.6549   Max.   :-0.2370   Max.   :-0.6275  
##        X5                X6         
##  Min.   :-2.0205   Min.   :-1.9490  
##  1st Qu.:-1.7888   1st Qu.:-1.8694  
##  Median :-0.8619   Median :-1.4713  
##  Mean   :-0.9392   Mean   :-1.4182  
##  3rd Qu.:-0.2827   3rd Qu.:-1.0732  
##  Max.   : 0.2966   Max.   :-0.6751

15 Correlação de Spearman

Para o grupo 3 todas as variáveis possuem correlação positiva muito forte, de tal forma que existem atributos perfeitamente correlacionados (igual a 1), ou seja, traz a mesma informação.

Correlação perfeita

  • \(X_1\), \(X_2\) e \(X_3\)

  • \(X_3\) e \(X_6\)

  • \(X_4\) e \(X_6\)

16 Comparando as médias dos grupos para cada variável

  • \(X_1:\) Para esta variável a maior média é do grupo 2, em seguida o grupo 1 presenta média próxima de zero, e a menor média é para o grupo 3;

  • \(X_2:\) A maior média é do grupo 1, porém a média do grupo 2 é próximo deste valor. O grupo 3 tem a menor média;

  • \(X_3:\) A maior média é do grupo 1, em seguida do grupo 2 e a menor média do grupo 3;

  • \(X_4:\) A maior média é do grupo 1, porém a média do grupo 2 é próximo deste valor. O grupo 3 tem a menor média;

  • \(X_5:\) Para esta variável a maior média é do grupo 2, em seguida o grupo 1 presenta média próxima de zero, e a menor média é para o grupo 3;

  • \(X_6:\) A maior média é do grupo 1, em seguida do grupo 2 e a menor média do grupo 3.

OBS: Nota-se que em todas as variáveis o grupo 3 apresenta a menor média. E as médias dos grupos se comportam de maneira semelhantes para variáveis \(X_1\) e \(X_5\) e \(X_2\) e \(X_4\)

17 Conclusão

Portanto, a análise de agrupamento consiste em uma técnica classificatória multivariada que pode ser utilizada quando se deseja explorar as semelhanças entre variáveis definindo em grupos, conclui-se que, o grupo 3 apresenta a menor média para todas os atributos. E as médias dos grupos se comportam de maneira semelhantes para variáveis X1 e X5 e X2 e X4. Além do mais, ficou constatado, através das caras de Chernoff que existem agrupamentos óbvios.

18 Referências

PINTO, Wilza da Silveira et al. Uso de análise multivariada no agrupamento de comunidades rurais. Disponível em:https://ajaes.ufra.edu.br/index.php/ajaes/article/view/1280/478. Acesso em: 12 dez. 2022.

Capítulo 13 Análise multivariada. Disponível em:https://tiagoolivoto.github.io/e-bookr/multivariate.html. Acesso em: 12 dez. 2022.

RIBEIRO, Camila. O que é Análise de Cluster?. Disponível em:https://statplace.com.br/blog/analise-de-cluster/. Acesso em: 12 dez. 2022.

CLOTILDE, Fernanda. Análise Multivariada. Análise de Agrupamento (Clusters). 2022.