ANÁLISE DE CLUSTER
Bibliotecas necessárias para a análise
## Warning: package 'readxl' was built under R version 4.3.3
## Warning: package 'factoextra' was built under R version 4.3.3
## Carregando pacotes exigidos: ggplot2
## Warning: package 'ggplot2' was built under R version 4.3.3
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Chamando as bases de dados que irá ser utilizada para realização da análise
## The following objects are masked from dados:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados2:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from CLUSTER1:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados2:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from CLUSTER2:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from CLUSTER1:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados2:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
## The following objects are masked from dados:
##
## Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017
Sobre a base de dados
Para esta análise, utilizamos a base de dados fornecida pelo Kaggle, uma plataforma online que disponibiliza conjuntos de dados para análise e aprendizado de máquina. A base de dados contém observações de cada estado brasileiro e do Distrito Federal, abrangendo os anos de 1991, 2000, 2010 e 2017, com foco na análise de cluster do Índice de Desenvolvimento Humano (IDH).
Objetivo do estudo
O objetivo desta análise é identificar padrões regionais de desenvolvimento e propor políticas públicas direcionadas que visem reduzir as desigualdades socioeconômicas entre os estados brasileiros.
Fazendo modificações necessárias na base
O código remove as linhas com valores ausentes do dataframe dados e define os nomes das linhas com os valores da coluna Estado. Em seguida, cria o dataframe dados1, que é igual a dados, mas sem a primeira coluna.
## Warning: Setting row names on a tibble is deprecated.
Descritiva inicial
Medidas de posição
## Estado IDH 1991 IDH 2000 IDH 2010
## Length:27 Min. :0.3570 Min. :0.4710 Min. :0.6310
## Class :character 1st Qu.:0.4035 1st Qu.:0.5175 1st Qu.:0.6640
## Mode :character Median :0.4400 Median :0.5520 Median :0.6990
## Mean :0.4541 Mean :0.5764 Mean :0.7045
## 3rd Qu.:0.4965 3rd Qu.:0.6320 3rd Qu.:0.7375
## Max. :0.6160 Max. :0.7250 Max. :0.8240
## IDH 2017
## Min. :0.6830
## 1st Qu.:0.7205
## Median :0.7400
## Mean :0.7494
## 3rd Qu.:0.7805
## Max. :0.8500
Box plot
## # A tibble: 27 × 4
## `IDH 1991` `IDH 2000` `IDH 2010` `IDH 2017`
## <dbl> <dbl> <dbl> <dbl>
## 1 0.402 0.517 0.663 0.719
## 2 0.37 0.471 0.631 0.683
## 3 0.43 0.515 0.674 0.733
## 4 0.472 0.577 0.708 0.74
## 5 0.386 0.512 0.66 0.714
## 6 0.405 0.541 0.682 0.735
## 7 0.616 0.725 0.824 0.85
## 8 0.505 0.64 0.74 0.772
## 9 0.487 0.615 0.735 0.769
## 10 0.357 0.476 0.639 0.687
## # ℹ 17 more rows
## NULL
O boxplot mostra a evolução do IDH entre 1991 a 2017. Em 1991, o IDH era baixo, com a mediana em 0,45 e variando entre 0,35 e 0,6. Em 2000, o IDH subiu para 0,55, com valores entre 0,45 e 0,7. Em 2010, a mediana foi para 0,7, com valores entre 0,6 e 0,8, e em 2017 o IDH alcançou 0,75, variando entre 0,7 e 0,85. A tendência é de melhora constante ao longo dos anos, com um aumento geral no desenvolvimento humano.
Matriz de similaridade
Matriz de distâncias entre as observações usando a métrica de distância Manhattan.
A imagem mostra um mapa de calor das similaridades entre os estados brasileiros com base no Índice de Desenvolvimento Humano (IDH). Tons de azul representam estados com IDH mais semelhantes entre si, enquanto tons de vermelho indicam maior diferença no IDH entre os estados. Por exemplo, São Paulo e o Distrito Federal apresentam alta similaridade de IDH (tons azul escuro), enquanto estados do Norte e Nordeste mostram menor similaridade com os estados do Sul e Sudeste (tons vermelhos).
Utilização do método single linkage
Single Linkage, ou ligação simples, é um método de agrupamento hierárquico que define a distância entre dois clusters como a menor distância entre qualquer membro de um cluster e qualquer membro do outro cluster.
##
## Call:
## hclust(d = dist.euclidiana, method = "single")
##
## Cluster method : single
## Distance : manhattan
## Number of objects: 27
Número Otimo de Clusters
Para identificar o número ideal de clusters, utilizou-se o método wss. O gráfico gerado pela função fviznbclust mostra a soma dos quadrados dentro dos clusters para diferentes números de clusters. A linha vertical no ponto 3 indica o número ideal de clusters sugerido pela análise.
Dendograma
A análise de cluster hierárquico foi realizada utilizando o método de ligação simples. Por meio da função fvizdend do pacote factoextra cria-se uma visualização gráfica do dendrograma.
## Acre Alagoas Amazonas Amapá
## 1 1 1 2
## Bahia Ceará Distrito Federal Espírito Santo
## 1 1 3 2
## Goiás Maranhão Minas Gerais Mato Grosso Do Sul
## 2 1 2 2
## Mato Grosso Pará Paraíba Pernanbuco
## 2 1 1 1
## Piauí Paraná Rio De Janeiro Rio Grande Do Norte
## 1 2 2 1
## Rondônia Roraima Rio Grande Do sul Santa Catarina
## 1 2 2 2
## Sergipe São Paulo Tocantis
## 1 2 1
## grupos
## 1 2 3
## 14 12 1
## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_rect()`).
O dendrograma de agrupamento hierárquico, organiza os estados em grupos de acordo com o IDH. O Distrito Federal forma um grupo separado (em roxo) devido ao seu alto IDH. Os estados do Norte e Nordeste estão agrupados em azul, indicando que possuem IDH semelhantes entre si, mas diferentes dos demais estados. Já os estados do Sul, Sudeste e Centro-Oeste estão agrupados em vermelho, indicando que compartilham um nível de IDH mais elevado. Isso revela uma clara divisão regional no desenvolvimento humano do Brasil.
Gráfico de polignos
Visualização dos clusters nos dados utilizando polígonos convexos.
Os estados brasileiros foram agrupados em três grupos distintos. Se utilizarmos o IDH (Índice de Desenvolvimento Humano) como classificações de análise, é possível identificar padrões regionais e socioeconômicos.
O Cluster 1 , representado em azul, agrupa principalmente os estados das regiões Norte e Nordeste, como Alagoas, Maranhão, Amazonas e Piauí, que apresentam os menores índices de IDH do Brasil, refletindo fragilidades em saúde, educação e renda.
O Cluster 2 , em vermelho, reúne estados como São Paulo, Santa Catarina, Rio Grande do Sul, Minas Gerais e Paraná, predominando as regiões Sul, Sudeste e parte do Centro-Oeste. Esses estados apresentam os mais altos IDHs do país, com melhores condições de vida, infraestrutura, renda per capita e acesso à educação. São Paulo e Santa Catarina, por exemplo, frequentemente figuram entre os estados mais desenvolvidos.
Por fim, o Cluster 3 , em roxo, destaca o Distrito Federal como único representante. O DF possui o maior IDH do Brasil, impulsionado por uma economia forte, alta renda média e maior acesso a serviços públicos de qualidade.
No geral, a Dimensão 1 do gráfico parece separar os estados de acordo com o nível de desenvolvimento, posicionando aqueles com baixo IDH à esquerda e os mais desenvolvidos à direita. Essa separação evidencia as desigualdades regionais no Brasil, onde os estados do Norte e Nordeste, com menores indicadores socioeconômicos, formam um cluster distinto dos estados do Sul, Sudeste e Centro-Oeste, que apresentam melhores condições de vida.
Comparação entre os Cluster
Para o Cluster 1
## IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs 14.000 14.000 14.000 14.000
## NAs 0.000 0.000 0.000 0.000
## Minimum 0.357 0.471 0.631 0.683
## Maximum 0.440 0.552 0.699 0.743
## 1. Quartile 0.373 0.507 0.649 0.699
## 3. Quartile 0.413 0.534 0.680 0.730
## Mean 0.397 0.515 0.665 0.715
## Median 0.404 0.517 0.664 0.721
## Sum 5.564 7.216 9.310 10.016
## SE Mean 0.007 0.007 0.005 0.005
## LCL Mean 0.382 0.501 0.653 0.704
## UCL Mean 0.413 0.530 0.677 0.726
## Variance 0.001 0.001 0.000 0.000
## Stdev 0.027 0.025 0.020 0.019
## Skewness -0.038 -0.379 -0.028 -0.322
## Kurtosis -1.465 -1.036 -1.216 -1.385
Para o Cluster 2
## IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs 12.000 12.000 12.000 12.000
## NAs 0.000 0.000 0.000 0.000
## Minimum 0.449 0.577 0.707 0.740
## Maximum 0.578 0.702 0.783 0.826
## 1. Quartile 0.476 0.610 0.728 0.768
## 3. Quartile 0.542 0.664 0.752 0.793
## Mean 0.507 0.635 0.741 0.781
## Median 0.496 0.632 0.738 0.780
## Sum 6.081 7.622 8.888 9.369
## SE Mean 0.012 0.011 0.007 0.007
## LCL Mean 0.479 0.612 0.726 0.766
## UCL Mean 0.534 0.658 0.756 0.796
## Variance 0.002 0.001 0.001 0.001
## Stdev 0.043 0.037 0.024 0.024
## Skewness 0.378 0.168 0.270 0.132
## Kurtosis -1.378 -1.223 -1.081 -0.809
Para o Cluster 3
## IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs 1.000 1.000 1.000 1.00
## NAs 0.000 0.000 0.000 0.00
## Minimum 0.616 0.725 0.824 0.85
## Maximum 0.616 0.725 0.824 0.85
## 1. Quartile 0.616 0.725 0.824 0.85
## 3. Quartile 0.616 0.725 0.824 0.85
## Mean 0.616 0.725 0.824 0.85
## Median 0.616 0.725 0.824 0.85
## Sum 0.616 0.725 0.824 0.85
## SE Mean NA NA NA NA
## LCL Mean NA NA NA NA
## UCL Mean NA NA NA NA
## Variance NA NA NA NA
## Stdev NA NA NA NA
## Skewness NA NA NA NA
## Kurtosis NA NA NA NA
Box plot comparativos
Conclusão
A análise de cluster baseada em estados brasileiros revelou padrões distintos de desenvolvimento humano, provavelmente associados a desigualdades regionais nas décadas de 1991, 2000, 2010 e 2017. Identificamos três grupos principais: o primeiro, composto principalmente por estados das regiões Norte e Nordeste, caracterizando-se por níveis de desenvolvimento mais baixos; o segundo agrupamento de estados das regiões Sul, Sudeste e parte do Centro-Oeste, com indicadores mais elevados de desenvolvimento socioeconômico; e o terceiro, representado exclusivamente pelo Distrito Federal, destaca-se com os melhores resultados.
Essas diferenças refletem as disparidades socioeconômicas e estruturais entre as regiões brasileiras, evidenciando um cenário de desigualdade que persiste ao longo do tempo. A compreensão desses grupos ajuda a visualizar melhor as particularidades regionais do desenvolvimento no país.