A análise de agrupamento consiste em agrupar objetos semelhantes segundo suas características, levando em consideração a similaridade ou dissimilaridade (distâncias).
Existem três técnicas que quantifica o quanto dois objetos são parecidos, sendo elas:
Dissimilaridade (tipos de distâncias): para variáveis quantitativas;
Medida de similaridade: Para variáveis qualitativas;
Associação: para agrupamentos das variáveis.
Portanto o intuito principal é dividir as observações em grupos homogêneos, cuja os elementos entre grupos sejam heterogêneos.
Essa análise se resume os seguintes objetivos:
Verificar se existe qualquer agrupamento óbvio de taças similares e se existem taças que sejam particularmente incomuns;
Realizar uma análise estatística que auxilie a compreensão das variáveis de forma geral ou em grupos.
A análise Multivariada de Agrupamento foi realizada pelo método Complete Linkage.Como os dados em questão, as variáveis são todas quantitativas, a técnica utilizada será a dissimilaridade (distâncias), onde busca-se realizar uma divisão entre as taças para assim analisar os grupos formados por objetos com características semelhantes.
Também utilizou-se as estatísticas descritivas tanto para os dados gerais como para os grupos formados, e as caras de Chernoff para compreender a semelhanças ou diferenças entre as taças.
Neste trabalho vamos realizar uma análise Multivariada de Agrupamento (Cluster) pelo método Complete Linkage. O banco de dados utilizado se refere a seis medidas(cm) sobre cada uma das 25 taças de cerâmica escavadas de lugares pré-históricos na Tailândia. E desejamos avaliar a similaridade e diferenças entre as taças.
Segue as Variáveis do banco de dados e o que elas significam:
Variáveis
\(X_1:\) Diâmetro da borda;
\(X_2:\) Diâmetro do bojo;
\(X_3:\) Altura do bojo;
\(X_4:\) Diâmetro da base;
\(X_5:\) Diâmetro da haste;
\(X_6:\) Altura da haste.
pacotes <- c("readxl", "FactoMineR","cluster","psych","TeachingDemos")
if(sum(as.numeric(!pacotes %in% installed.packages())) != 0){
instalador <- pacotes[!pacotes %in% installed.packages()]
for(i in 1:length(instalador)) {
install.packages(instalador, dependencies = T)
break()}
sapply(pacotes, require, character = T)
} else {
sapply(pacotes, require, character = T)
}
## readxl FactoMineR cluster psych TeachingDemos
## TRUE TRUE TRUE TRUE TRUE
library(rmarkdown)
paged_table(tacas)
tacas1<- tacas[,2:7]
any(is.na(tacas))
## [1] FALSE
names(tacas)
## [1] "Taças" "X1" "X2" "X3" "X4" "X5" "X6"
summary(tacas[,2:7])
## X1 X2 X3 X4 X5
## Min. : 8.00 Min. : 8.00 Min. : 7.00 Min. : 4.0 Min. : 2.00
## 1st Qu.:12.00 1st Qu.:15.00 1st Qu.:16.00 1st Qu.:14.0 1st Qu.: 5.00
## Median :13.00 Median :20.00 Median :23.00 Median :16.0 Median : 6.00
## Mean :13.28 Mean :17.84 Mean :20.44 Mean :14.6 Mean : 6.36
## 3rd Qu.:14.00 3rd Qu.:21.00 3rd Qu.:25.00 3rd Qu.:17.0 3rd Qu.: 7.00
## Max. :19.00 Max. :23.00 Max. :27.00 Max. :20.0 Max. :11.00
## X6
## Min. : 2.00
## 1st Qu.: 7.00
## Median : 9.00
## Mean : 8.12
## 3rd Qu.:10.00
## Max. :14.00
tacas1=scale(tacas1)
Trata-se de um dispositivo gráfico que representa dados multivariados para a comunicação de informações multidimensionais na forma de rostos caricaturados e seu objetivo é representar dados multivariados por meio do mapeamento de suas variaveis em características do rosto humano. A ideia é possibilitar, no nosso caso, uma melhor visualização das taças que são semelhantes.
faces(tacas1)
Através das carinhas podemos concluir:
Que as taças mais parecidas são 1,6,7,8,11,14,15,16,19 e 21;
As taças 22, 23 e 24 apresentam semelhança;
As taças 4,5,17 e 18 apresentam características coincidentes.
Possivelmente as taças que apresentam características parecidas faram parte de um mesmo grupo.
O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de observações em cada passo e em seus níveis de semelhança.
Matriz.dist<-dist(tacas1, method = "euclidian")
Grupos_complete <- hclust(Matriz.dist, method="complete")
plot(Grupos_complete, hang=-1, main="Dendrograma", sub="", xlab="taças", ylab="")
abline(4,0,col=2)
g_complete=cutree(Grupos_complete, k=3)
table(g_complete)
## g_complete
## 1 2 3
## 15 4 6
Optou-se por três grupos formados para a análise.
Taças que constitui cada grupo:
grupo 1: 1,2,3,6,7,8,11,12,14,15,16,19,20,21 e 25;
grupo 2: 4,5,17 e 18;
grupo 3: 9,10,13,22,23 e 24.
summary(g1_complete)
## X1 X2 X3 X4
## Min. :-0.42564 Min. :-0.8855 Min. :-0.07241 Min. :-0.1448
## 1st Qu.:-0.42564 1st Qu.: 0.3828 1st Qu.: 0.50358 1st Qu.: 0.2172
## Median :-0.09311 Median : 0.4981 Median : 0.75044 Median : 0.5793
## Mean : 0.06207 Mean : 0.5288 Mean : 0.68461 Mean : 0.5310
## 3rd Qu.: 0.23942 3rd Qu.: 0.8440 3rd Qu.: 0.91501 3rd Qu.: 0.8206
## Max. : 1.90209 Max. : 1.1899 Max. : 1.07958 Max. : 1.3033
## X5 X6
## Min. :-0.63023 Min. :-0.3567
## 1st Qu.:-0.39853 1st Qu.: 0.2802
## Median :-0.16683 Median : 0.5987
## Mean :-0.04325 Mean : 0.5775
## 3rd Qu.: 0.29658 3rd Qu.: 0.9172
## Max. : 1.22339 Max. : 1.8726
Os dados não segue normalidade, por isso a correlação calculada será a de Spearman.
library(corrgram)
library(GGally)
ggcorr(g1_complete, label=T,method = c("pairwise","spearman"))
Para o grupo 1, temos:
Correlação inversa, quando uma aumenta a outra diminui
\(X_4\) e \(X_5\)
\(X_5\) e \(X_6\)
Correlação positiva, quando uma cresce a outra também aumenta.
\(X_4\) e \(X_6\)
\(X_2\) e \(X_5\)
summary(g2_complete)
## X1 X2 X3 X4
## Min. :0.572 Min. :-0.4243 Min. :-0.89526 Min. :0.09654
## 1st Qu.:1.071 1st Qu.:-0.0784 1st Qu.:-0.77183 1st Qu.:0.27756
## Median :1.570 Median : 0.2675 Median :-0.73069 Median :0.33790
## Mean :1.403 Mean : 0.2098 Mean :-0.60726 Mean :0.27756
## 3rd Qu.:1.902 3rd Qu.: 0.5557 3rd Qu.:-0.56612 3rd Qu.:0.33790
## Max. :1.902 Max. : 0.7287 Max. :-0.07241 Max. :0.33790
## X5 X6
## Min. :1.223 Min. :-0.35668
## 1st Qu.:1.223 1st Qu.:-0.35668
## Median :1.455 Median :-0.19745
## Mean :1.571 Mean :-0.03822
## 3rd Qu.:1.803 3rd Qu.: 0.12102
## Max. :2.150 Max. : 0.59871
A correlação linear é desprezível para as variáveis
\(X_1\) e \(X_5\)
\(X_2\) e \(X_5\)
\(X_3\) e \(X_5\)
\(X_5\) e \(X_6\)
Correlação positiva forte, quando uma cresce a outra também aumenta.
\(X_1\), \(X_2\),\(X_3\) e \(X_4\)
\(X_3\) e \(X_5\)
Correlação positiva moderada
\(X_4\) e \(X_5\)
\(X_4\) e \(X_6\)
\(X_2\) e \(X_6\)
## X1 X2 X3 X4
## Min. :-1.7558 Min. :-2.2690 Min. :-2.2118 Min. :-2.5584
## 1st Qu.:-1.4232 1st Qu.:-2.0384 1st Qu.:-1.9650 1st Qu.:-2.1963
## Median :-1.0907 Median :-1.5772 Median :-1.3890 Median :-1.3516
## Mean :-1.0907 Mean :-1.4620 Mean :-1.3067 Mean :-1.5125
## 3rd Qu.:-0.7582 3rd Qu.:-0.7702 3rd Qu.:-0.6895 3rd Qu.:-0.8689
## Max. :-0.4256 Max. :-0.6549 Max. :-0.2370 Max. :-0.6275
## X5 X6
## Min. :-2.0205 Min. :-1.9490
## 1st Qu.:-1.7888 1st Qu.:-1.8694
## Median :-0.8619 Median :-1.4713
## Mean :-0.9392 Mean :-1.4182
## 3rd Qu.:-0.2827 3rd Qu.:-1.0732
## Max. : 0.2966 Max. :-0.6751
Para o grupo 3 todas as variáveis possuem correlação positiva muito forte, de tal forma que existem atributos perfeitamente correlacionados (igual a 1), ou seja, traz a mesma informação.
Correlação perfeita
\(X_1\), \(X_2\) e \(X_3\)
\(X_3\) e \(X_6\)
\(X_4\) e \(X_6\)
\(X_1:\) Para esta variável a maior média é do grupo 2, em seguida o grupo 1 presenta média próxima de zero, e a menor média é para o grupo 3;
\(X_2:\) A maior média é do grupo 1, porém a média do grupo 2 é próximo deste valor. O grupo 3 tem a menor média;
\(X_3:\) A maior média é do grupo 1, em seguida do grupo 2 e a menor média do grupo 3;
\(X_4:\) A maior média é do grupo 1, porém a média do grupo 2 é próximo deste valor. O grupo 3 tem a menor média;
\(X_5:\) Para esta variável a maior média é do grupo 2, em seguida o grupo 1 presenta média próxima de zero, e a menor média é para o grupo 3;
\(X_6:\) A maior média é do grupo 1, em seguida do grupo 2 e a menor média do grupo 3.
OBS: Nota-se que em todas as variáveis o grupo 3 apresenta a menor média. E as médias dos grupos se comportam de maneira semelhantes para variáveis \(X_1\) e \(X_5\) e \(X_2\) e \(X_4\)
Portanto, a análise de agrupamento consiste em uma técnica classificatória multivariada que pode ser utilizada quando se deseja explorar as semelhanças entre variáveis definindo em grupos, conclui-se que, o grupo 3 apresenta a menor média para todas os atributos. E as médias dos grupos se comportam de maneira semelhantes para variáveis X1 e X5 e X2 e X4. Além do mais, ficou constatado, através das caras de Chernoff que existem agrupamentos óbvios.
PINTO, Wilza da Silveira et al. Uso de análise multivariada no agrupamento de comunidades rurais. Disponível em:https://ajaes.ufra.edu.br/index.php/ajaes/article/view/1280/478. Acesso em: 12 dez. 2022.
Capítulo 13 Análise multivariada. Disponível em:https://tiagoolivoto.github.io/e-bookr/multivariate.html. Acesso em: 12 dez. 2022.
RIBEIRO, Camila. O que é Análise de Cluster?. Disponível em:https://statplace.com.br/blog/analise-de-cluster/. Acesso em: 12 dez. 2022.
CLOTILDE, Fernanda. Análise Multivariada. Análise de Agrupamento (Clusters). 2022.