ANÁLISE DE CLUSTER

Bibliotecas necessárias para a análise

## Warning: package 'readxl' was built under R version 4.3.3

## Warning: package 'factoextra' was built under R version 4.3.3

## Carregando pacotes exigidos: ggplot2

## Warning: package 'ggplot2' was built under R version 4.3.3

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

## Warning: package 'dplyr' was built under R version 4.3.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Chamando as bases de dados que irá ser utilizada para realização da análise

## The following objects are masked from dados:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados2:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from CLUSTER1:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados2:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from CLUSTER2:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from CLUSTER1:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados2:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

## The following objects are masked from dados:
## 
##     Estado, IDH 1991, IDH 2000, IDH 2010, IDH 2017

Sobre a base de dados

Para esta análise, utilizamos a base de dados fornecida pelo Kaggle, uma plataforma online que disponibiliza conjuntos de dados para análise e aprendizado de máquina. A base de dados contém observações de cada estado brasileiro e do Distrito Federal, abrangendo os anos de 1991, 2000, 2010 e 2017, com foco na análise de cluster do Índice de Desenvolvimento Humano (IDH).

Objetivo do estudo

O objetivo desta análise é identificar padrões regionais de desenvolvimento e propor políticas públicas direcionadas que visem reduzir as desigualdades socioeconômicas entre os estados brasileiros.

Fazendo modificações necessárias na base

O código remove as linhas com valores ausentes do dataframe dados e define os nomes das linhas com os valores da coluna Estado. Em seguida, cria o dataframe dados1, que é igual a dados, mas sem a primeira coluna.

## Warning: Setting row names on a tibble is deprecated.

Descritiva inicial

Medidas de posição

##     Estado             IDH 1991         IDH 2000         IDH 2010     
##  Length:27          Min.   :0.3570   Min.   :0.4710   Min.   :0.6310  
##  Class :character   1st Qu.:0.4035   1st Qu.:0.5175   1st Qu.:0.6640  
##  Mode  :character   Median :0.4400   Median :0.5520   Median :0.6990  
##                     Mean   :0.4541   Mean   :0.5764   Mean   :0.7045  
##                     3rd Qu.:0.4965   3rd Qu.:0.6320   3rd Qu.:0.7375  
##                     Max.   :0.6160   Max.   :0.7250   Max.   :0.8240  
##     IDH 2017     
##  Min.   :0.6830  
##  1st Qu.:0.7205  
##  Median :0.7400  
##  Mean   :0.7494  
##  3rd Qu.:0.7805  
##  Max.   :0.8500

Box plot

## # A tibble: 27 × 4
##    `IDH 1991` `IDH 2000` `IDH 2010` `IDH 2017`
##         <dbl>      <dbl>      <dbl>      <dbl>
##  1      0.402      0.517      0.663      0.719
##  2      0.37       0.471      0.631      0.683
##  3      0.43       0.515      0.674      0.733
##  4      0.472      0.577      0.708      0.74 
##  5      0.386      0.512      0.66       0.714
##  6      0.405      0.541      0.682      0.735
##  7      0.616      0.725      0.824      0.85 
##  8      0.505      0.64       0.74       0.772
##  9      0.487      0.615      0.735      0.769
## 10      0.357      0.476      0.639      0.687
## # ℹ 17 more rows

## NULL

O boxplot mostra a evolução do IDH entre 1991 a 2017. Em 1991, o IDH era baixo, com a mediana em 0,45 e variando entre 0,35 e 0,6. Em 2000, o IDH subiu para 0,55, com valores entre 0,45 e 0,7. Em 2010, a mediana foi para 0,7, com valores entre 0,6 e 0,8, e em 2017 o IDH alcançou 0,75, variando entre 0,7 e 0,85. A tendência é de melhora constante ao longo dos anos, com um aumento geral no desenvolvimento humano.

Calculando a distância de manhattan

dist.euclidiana <- round(dist(dados, method = "manhattan"), 2)

## Warning in dist(dados, method = "manhattan"): NAs introduzidos por coerção

Matriz de similaridade

Matriz de distâncias entre as observações usando a métrica de distância Manhattan.

A imagem mostra um mapa de calor das similaridades entre os estados brasileiros com base no Índice de Desenvolvimento Humano (IDH). Tons de azul representam estados com IDH mais semelhantes entre si, enquanto tons de vermelho indicam maior diferença no IDH entre os estados. Por exemplo, São Paulo e o Distrito Federal apresentam alta similaridade de IDH (tons azul escuro), enquanto estados do Norte e Nordeste mostram menor similaridade com os estados do Sul e Sudeste (tons vermelhos).

Utilização do método single linkage

Single Linkage, ou ligação simples, é um método de agrupamento hierárquico que define a distância entre dois clusters como a menor distância entre qualquer membro de um cluster e qualquer membro do outro cluster.

## 
## Call:
## hclust(d = dist.euclidiana, method = "single")
## 
## Cluster method   : single 
## Distance         : manhattan 
## Number of objects: 27

Número Otimo de Clusters

Para identificar o número ideal de clusters, utilizou-se o método wss. O gráfico gerado pela função fviznbclust mostra a soma dos quadrados dentro dos clusters para diferentes números de clusters. A linha vertical no ponto 3 indica o número ideal de clusters sugerido pela análise.

Dendograma

A análise de cluster hierárquico foi realizada utilizando o método de ligação simples. Por meio da função fvizdend do pacote factoextra cria-se uma visualização gráfica do dendrograma.

##                Acre             Alagoas            Amazonas               Amapá 
##                   1                   1                   1                   2 
##               Bahia               Ceará    Distrito Federal      Espírito Santo 
##                   1                   1                   3                   2 
##               Goiás            Maranhão        Minas Gerais  Mato Grosso Do Sul 
##                   2                   1                   2                   2 
##         Mato Grosso                Pará             Paraíba          Pernanbuco 
##                   2                   1                   1                   1 
##               Piauí              Paraná      Rio De Janeiro Rio Grande Do Norte 
##                   1                   2                   2                   1 
##            Rondônia             Roraima   Rio Grande Do sul      Santa Catarina 
##                   1                   2                   2                   2 
##             Sergipe           São Paulo            Tocantis 
##                   1                   2                   1

## grupos
##  1  2  3 
## 14 12  1

## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_rect()`).

O dendrograma de agrupamento hierárquico, organiza os estados em grupos de acordo com o IDH. O Distrito Federal forma um grupo separado (em roxo) devido ao seu alto IDH. Os estados do Norte e Nordeste estão agrupados em azul, indicando que possuem IDH semelhantes entre si, mas diferentes dos demais estados. Já os estados do Sul, Sudeste e Centro-Oeste estão agrupados em vermelho, indicando que compartilham um nível de IDH mais elevado. Isso revela uma clara divisão regional no desenvolvimento humano do Brasil.

Gráfico de polignos

Visualização dos clusters nos dados utilizando polígonos convexos.

Os estados brasileiros foram agrupados em três grupos distintos. Se utilizarmos o IDH (Índice de Desenvolvimento Humano) como classificações de análise, é possível identificar padrões regionais e socioeconômicos.

O Cluster 1 , representado em azul, agrupa principalmente os estados das regiões Norte e Nordeste, como Alagoas, Maranhão, Amazonas e Piauí, que apresentam os menores índices de IDH do Brasil, refletindo fragilidades em saúde, educação e renda.

O Cluster 2 , em vermelho, reúne estados como São Paulo, Santa Catarina, Rio Grande do Sul, Minas Gerais e Paraná, predominando as regiões Sul, Sudeste e parte do Centro-Oeste. Esses estados apresentam os mais altos IDHs do país, com melhores condições de vida, infraestrutura, renda per capita e acesso à educação. São Paulo e Santa Catarina, por exemplo, frequentemente figuram entre os estados mais desenvolvidos.

Por fim, o Cluster 3 , em roxo, destaca o Distrito Federal como único representante. O DF possui o maior IDH do Brasil, impulsionado por uma economia forte, alta renda média e maior acesso a serviços públicos de qualidade.

No geral, a Dimensão 1 do gráfico parece separar os estados de acordo com o nível de desenvolvimento, posicionando aqueles com baixo IDH à esquerda e os mais desenvolvidos à direita. Essa separação evidencia as desigualdades regionais no Brasil, onde os estados do Norte e Nordeste, com menores indicadores socioeconômicos, formam um cluster distinto dos estados do Sul, Sudeste e Centro-Oeste, que apresentam melhores condições de vida.

Comparação entre os Cluster

Para o Cluster 1

##             IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs          14.000   14.000   14.000   14.000
## NAs            0.000    0.000    0.000    0.000
## Minimum        0.357    0.471    0.631    0.683
## Maximum        0.440    0.552    0.699    0.743
## 1. Quartile    0.373    0.507    0.649    0.699
## 3. Quartile    0.413    0.534    0.680    0.730
## Mean           0.397    0.515    0.665    0.715
## Median         0.404    0.517    0.664    0.721
## Sum            5.564    7.216    9.310   10.016
## SE Mean        0.007    0.007    0.005    0.005
## LCL Mean       0.382    0.501    0.653    0.704
## UCL Mean       0.413    0.530    0.677    0.726
## Variance       0.001    0.001    0.000    0.000
## Stdev          0.027    0.025    0.020    0.019
## Skewness      -0.038   -0.379   -0.028   -0.322
## Kurtosis      -1.465   -1.036   -1.216   -1.385

Para o Cluster 2

##             IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs          12.000   12.000   12.000   12.000
## NAs            0.000    0.000    0.000    0.000
## Minimum        0.449    0.577    0.707    0.740
## Maximum        0.578    0.702    0.783    0.826
## 1. Quartile    0.476    0.610    0.728    0.768
## 3. Quartile    0.542    0.664    0.752    0.793
## Mean           0.507    0.635    0.741    0.781
## Median         0.496    0.632    0.738    0.780
## Sum            6.081    7.622    8.888    9.369
## SE Mean        0.012    0.011    0.007    0.007
## LCL Mean       0.479    0.612    0.726    0.766
## UCL Mean       0.534    0.658    0.756    0.796
## Variance       0.002    0.001    0.001    0.001
## Stdev          0.043    0.037    0.024    0.024
## Skewness       0.378    0.168    0.270    0.132
## Kurtosis      -1.378   -1.223   -1.081   -0.809

Para o Cluster 3

##             IDH.1991 IDH.2000 IDH.2010 IDH.2017
## nobs           1.000    1.000    1.000     1.00
## NAs            0.000    0.000    0.000     0.00
## Minimum        0.616    0.725    0.824     0.85
## Maximum        0.616    0.725    0.824     0.85
## 1. Quartile    0.616    0.725    0.824     0.85
## 3. Quartile    0.616    0.725    0.824     0.85
## Mean           0.616    0.725    0.824     0.85
## Median         0.616    0.725    0.824     0.85
## Sum            0.616    0.725    0.824     0.85
## SE Mean           NA       NA       NA       NA
## LCL Mean          NA       NA       NA       NA
## UCL Mean          NA       NA       NA       NA
## Variance          NA       NA       NA       NA
## Stdev             NA       NA       NA       NA
## Skewness          NA       NA       NA       NA
## Kurtosis          NA       NA       NA       NA

Box plot comparativos

Conclusão

A análise de cluster baseada em estados brasileiros revelou padrões distintos de desenvolvimento humano, provavelmente associados a desigualdades regionais nas décadas de 1991, 2000, 2010 e 2017. Identificamos três grupos principais: o primeiro, composto principalmente por estados das regiões Norte e Nordeste, caracterizando-se por níveis de desenvolvimento mais baixos; o segundo agrupamento de estados das regiões Sul, Sudeste e parte do Centro-Oeste, com indicadores mais elevados de desenvolvimento socioeconômico; e o terceiro, representado exclusivamente pelo Distrito Federal, destaca-se com os melhores resultados.

Essas diferenças refletem as disparidades socioeconômicas e estruturais entre as regiões brasileiras, evidenciando um cenário de desigualdade que persiste ao longo do tempo. A compreensão desses grupos ajuda a visualizar melhor as particularidades regionais do desenvolvimento no país.