Agrupar objetos em clusters é uma tarefa frequentemente empregada na análise de dados. Esta atividade apresenta uma aplicação da técnica de análise de conglomerados (cluster analisys) para agrupar estados brasileiros. Usaremos agrupamento hierárquico para agrupar estados brasileiros com base na latitude e longitude. Certifique-se de que está familiarizado com as seguintes funções: dist, hlcust, cutree, rect.hclust
Antes de começar… O procedimento aqui é meramente ilustrativo. Há somente a intenção de aplicar o método com base na latitude e longitude.
Antes de iniciar o exercício execute o código a seguir para obter as localizações dos estados brasileiros (observe que você precisará ter a biblioteca ggmap instalada):
library(ggmap)
estados <- c(
"Brazil, Rondonia",
"Brazil, Acre",
"Brazil, Amazonas",
"Brazil, Roraima",
"Brazil, Para",
"Brazil, Amapa",
"Brazil, Tocantins",
"Brazil, Maranhao",
"Brazil, Piaui",
"Brazil, Ceara",
"Brazil, Rio Grande do Norte",
"Brazil, Paraiba",
"Brazil, Pernambuco",
"Brazil, Alagoas",
"Brazil, Sergipe",
"Brazil, Bahia",
"Brazil, Minas Gerais",
"Brazil, Espirito Santo",
"Brazil, Rio de Janeiro",
"Brazil, Sao Paulo",
"Brazil, Parana",
"Brazil, Santa Catarina",
"Brazil, Rio Grande do Sul",
"Brazil, Mato Grosso do Sul",
"Brazil, Mato Grosso",
"Brazil, Goias",
"Brazil, Distrito Federal")
theData <- geocode(estados)
siglas <- c('RO','AC','AM','RR','PA','AP',
'TO','MA','PI','CE','RN','PB','PE','AL',
'SE','BA','MG','ES','RJ','SP','PR','SC',
'RS','MS','MT','GO','DF')
rownames(theData) <- siglas
theData
Exercício 1
Calcule as distâncias euclidianas de latitude / longitude entre todos os pares de capitais.
distances <- dist(theData)
Exercício 2
Use as distâncias obtidas para produzir o objeto de dendrograma de agrupamento hierárquico. Use todos os parâmetros padrão. NOTA: Por padrão, os clusters serão unidos usando a máxima distância possível entre todos os pares de seus elementos (este fato será útil mais tarde).
dendrogram <- hclust(distances)
Exercício 3
Visualize o dendrograma de agrupamento hierárquico obtido.
plot(dendrogram)

Exercício 4
No passo anterior as folhas de nosso dendrograma foram colocadas em diferentes alturas. Vamos refazer de modo que todos os estados sejam escritos no mesmo nível.
plot(dendrogram, hang=-1)

Exercício 5
O procedimento hierárquico de cluster cria uma hierarquia de clusters. Uma vantagem deste método é que podemos usar o mesmo dendrograma para obter números diferentes de grupos. Agrupar os estados brasileiros em 5 grupos.
cutree(dendrogram, k=5)
RO AC AM RR PA AP TO MA PI CE RN PB PE AL SE BA MG ES RJ SP PR SC RS MS MT GO DF
1 1 2 2 2 2 3 4 4 4 4 4 4 4 4 3 3 3 5 5 5 5 5 5 1 3 3
Exercício 6
Em vez de especificar o número de grupos desejados, podemos selecionar a altura do dendrograma onde a árvore será dividida em grupos. Uma vez que usamos a função de ligação máxima (padrão no exercício 2), esta altura tem uma interpretação útil - garante que todos os elementos dentro de um cluster não sejam mais do que a distância selecionada. A) Agrupe os estados brasileiros cortando a árvore em altura = 20. B) Traçar o dendrograma e visualizar a altura em que a árvore foi cortada em grupos usando uma linha.
cutree(dendrogram, h=20)
RO AC AM RR PA AP TO MA PI CE RN PB PE AL SE BA MG ES RJ SP PR SC RS MS MT GO DF
1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 1 3 3
plot(dendrogram, hang=-1)
abline(h=20, col="red", lty=2)

Exercício 7
Agora visualize a solução de agrupamento obtida no 5º exercício. Isso deve ser feito desenhando um retângulo em torno de todas os estados brasileiros que pertencem ao mesmo grupo. Use cores diferentes para grupos diferentes.
plot(dendrogram, hang=-1)
rect.hclust(dendrogram, k=5, border=1:3)

Exercício 8
Visualize o dendrograma novamente, mas desta vez apresente as duas versões de cluster obtidas no exercício 5 e exercício 6 na mesma parcela. Use a cor vermelha para representar clusters do exercício 5 e azul para representar clusters do exercício 6.
plot(dendrogram, hang=-1)
rect.hclust(dendrogram, k=5, border="red")
rect.hclust(dendrogram, h=20, border="blue")

Exercício 9
A função hclust apresenta métodos de ligação diferentes (métodos usados para mesclar dois clusters ao construir o dendrograma). Produza um dendrograma, com 5 grupos e vizualize usando retângulos de cores diferentes. Repita este procedimento para todos os métodos de ligação disponíveis na função hclust.
# ward.D
plot(hclust(distances, method="ward.D"), main="ward.D", hang=-1)
rect.hclust(hclust(distances, method="ward.D"), k=5, border=1:5)

# ward.D2
plot(hclust(distances, method="ward.D2"), main="ward.D2", hang=-1)
rect.hclust(hclust(distances, method="ward.D2"), k=5, border=1:5)

# single
plot(hclust(distances, method="single"), main="single", hang=-1)
rect.hclust(hclust(distances, method="single"), k=5, border=1:5)

# complete
plot(hclust(distances, method="complete"), main="complete", hang=-1)
rect.hclust(hclust(distances, method="complete"), k=5, border=1:5)

# average
plot(hclust(distances, method="average"), main="average", hang=-1)
rect.hclust(hclust(distances, method="average"), k=5, border=1:5)

# mcquitty
plot(hclust(distances, method="mcquitty"), main="mcquitty", hang=-1)
rect.hclust(hclust(distances, method="mcquitty"), k=5, border=1:5)

# median
plot(hclust(distances, method="median"), main="median", hang=-1)
rect.hclust(hclust(distances, method="median"), k=5, border=1:5)

# centroid
plot(hclust(distances, method="centroid"), main="centroid", hang=-1)
rect.hclust(hclust(distances, method="centroid"), k=5, border=1:5)

Exercício 10
Crie sua própria solução de cluster com base no que aprendeu neste exercício e visualize-a como um mapa. Traçar coordenadas dos estados brasileiros com longitude no eixo x e latitude no eixo y e colori-las com base nos grupos obtidos usando sua versão hierárquica de cluster.
library(maps)
library(mapproj)
par(mar=c(1,1,1,1))
m <- map("world","Brazil", fill=T, col="grey95")
map.axes()
map.scale(ratio=F, cex=0.7)
abline(h=0, lty = 2)
map.grid(m, nx = 5, ny = 5, col="grey50", font=1, cex=0.7 , pretty = T)#library(mapproj)
myVersion <- hclust(distances, method="complete")
groups <- cutree(myVersion, 5)
par(new=TRUE)
plot(theData, cex=6, xlim=c(-80,-30),axes=F, ann=T)
text(theData, rownames(theData), cex=1.5, col=groups)

#axis(4)
