Análise de Componentes Princiapis

A análise de componentes principais (ACP) é uma técnica estatística amplamente utilizada para redução de dimensionalidade e extração de informações relevantes de conjuntos de dados multivariados. O objetivo principal da PCA é transformar um conjunto de variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais. Cada componente principal é uma combinação linear das variáveis originais e é ordenado de acordo com a quantidade de variação que ele captura. Isso permite a identificação dos padrões mais significativos dos dados, facilitando a interpretação e visualização.

Estes são alguns exemplos de aplicações:

1. Estudos de qualidade de vida: Através da ACP, é possível identificar dimensões principais que influenciam a qualidade de vida em uma determinada região, permitindo que políticas públicas sejam direcionadas de forma mais eficaz.

2. Análise de desigualdade social: A ACP pode ser aplicada em indicadores sociais e econômicos para compreender os principais fatores que contribuem para a desigualdade entre grupos populacionais.

3. Análise de dados de saúde: A ACP é útil para identificar padrões em grandes conjuntos de dados de saúde, como fatores de risco e grupos de doenças.

4. Estudos de mercado: A ACP é aplicada em pesquisas de mercado para identificar segmentos de clientes com características semelhantes, ajudando as empresas a direcionar suas estratégias de marketing.

5. Análise de indicadores econômicos: Através da ACP, é possível reduzir um grande número de indicadores econômicos em poucos componentes principais, facilitando a compreensão das principais tendências e correlações na economia.

6. Previsão econômica: A ACP pode ser usada para reduzir a dimensionalidade de séries temporais econômicas e melhorar a precisão das previsões de indicadores macroeconômicos.

Como calcular ACP no R

Antes de iniciar o processo de ACP, é necessário carregar as bibliotecas necessárias.

#Carregar pacotes
library(sidrar)
library(factoextra)
library(tidyverse)
library(readxl)
library(FactoMineR)
library(missMDA)
library("factoextra")

1. Importação dos dados: Os dados utilizados para a análise de componentes principais são apenas um exemplo, a base comtém informações sobre o PIB, Número de óbitos, Despesas com saúde e número de beneficiários do bolsa família. Para calcular ACP os dados devem conter as variáveis numéricas.

# Importar dados 
df_acp <- read_excel("df_acp.xlsx")

Podemos usar o comando head(dados) para visualizar as primeiras linhas dos dados após a importação. Isso ajuda a garantir que os dados foram carregados corretamente antes de prosseguir com a análise.

head(df_acp)
## # A tibble: 6 × 13
##     ano sigla_uf id_municipio numero_obitos desp_saude populacao_atendida_agua
##   <dbl> <chr>    <chr>                <dbl>      <dbl>                   <dbl>
## 1  2019 MG       3100104                 48   5088031.                    3997
## 2  2019 MG       3100203                169  15933256.                   19540
## 3  2019 MG       3100302                 86   8937634.                    9356
## 4  2019 MG       3100401                 36   3325094.                    3982
## 5  2019 MG       3100500                 76   4597114.                    3263
## 6  2019 MG       3100609                 77   6838791.                    6488
## # ℹ 7 more variables: populacao_atentida_esgoto <dbl>,
## #   familias_beneficiarias_pbf <dbl>, pessoas_pbf <dbl>, valor_pago_pbf <dbl>,
## #   familias_cadastradas_cu <dbl>, pessoas_cadastradas_cu <dbl>, pib <dbl>

Antes de proceder com ACP vamos selecionar algumas variaveis

dados<- df_acp %>% select(pib, numero_obitos, desp_saude, pessoas_pbf)

Cálculo da ACP:

A ACP é realizada usando o pacote “FactoMineR”. Nesse exemplo, o cálculo é feito com o seguinte comando, onde “dados” é o dataframe que contém as variáveis a serem analisadas:

acp <- PCA(dados, graph=F)

Visualização da qualidade no mapa de fatores: Para visualizar a qualidade das variáveis no mapa de fatores, usa-se a função `fviz_pca_var()`

O gráfico que exibe a qualidade (cos²) de cada variável em relação aos componentes principais é uma representação visual da contribuição de cada variável para a formação desses componentes. O “cos²” é a proporção da variância da variável original que é explicada pelo componente principal específico.

Quando realizamos a Análise de Componentes Principais (ACP), estamos buscando encontrar novas variáveis (os componentes principais) que sejam combinações lineares das variáveis originais, de modo que eles capturem a maior quantidade possível de variação dos dados. Cada componente principal é uma combinação ponderada das variáveis originais, e a quantidade de variação explicada por cada componente é medida pelos autovalores associados a eles.

O gráfico de qualidade das variáveis em relação aos componentes principais ajuda a identificar quais variáveis têm uma forte influência na definição de cada componente principal e quais têm uma influência mais fraca. Essa informação é útil para entender quais variáveis são mais importantes para explicar a estrutura dos dados e quais têm menos impacto.

#_____ Visualização por valores de cos2: qualidade no mapa de fatores

fviz_pca_var(acp, col.var = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE # Avoid text overlapping 
             )

Visualização da comunaliade explicada por cada componente: A função fviz_eig é utilizada para exibir a inércia explicada por cada componente principal. Ela mostra o quanto de variação dos dados é explicada por cada componente:

fviz_eig(acp, addlabels=TRUE, ylim = c(0,50))

Sumarização dos resultados: A função facto_summarize é usada para resumir as informações sobre as variáveis e os componentes principais obtidos a partir da ACP. No exemplo, a sumarização é feita para os dois primeiros componentes principais (axes = 1:2):

facto_summarize(acp, "var", axes = 1:2)
##                        name     Dim.1        Dim.2     coord      cos2  contrib
## pib                     pib 0.1710860  0.984893502 0.9992856 0.9992856 26.16030
## numero_obitos numero_obitos 0.9857684 -0.062278615 0.9756180 0.9756180 25.54070
## desp_saude       desp_saude 0.9717458 -0.105023373 0.9553198 0.9553198 25.00931
## pessoas_pbf     pessoas_pbf 0.9431881 -0.005357553 0.8896325 0.8896325 23.28969

Analisando as coordenadas das variáveis nos dois componentes principais:

  1. A variável despesas com saude tem uma forte relação positiva com o primeiro componente principal (Dim.1), mas uma relação negativa muito pequena com o segundo componente principal (Dim.2). Isso sugere que essa variável tem um papel dominante na definição do primeiro componente principal, enquanto sua influência no segundo componente é praticamente insignificante.

  2. A variável populacao_atendida_agua também possui uma relação muito forte e positiva com o primeiro componente principal (Dim.1), mas uma relação negativa muito pequena com o segundo componente principal (Dim.2). Isso indica que essa variável também é um importante contribuinte para a definição do primeiro componente principal.

  3. Assim como as duas variáveis anteriores, a “populacao_atentida_esgoto” tem uma relação positiva forte com o primeiro componente principal (Dim.1) e uma relação negativa pequena com o segundo componente principal (Dim.2). Isso sugere que essa variável é relevante para o primeiro componente principal.

  4. A variável pessoas_beneficiarias_pbf tem uma relação positiva relativamente alta com o primeiro componente principal (Dim.1) e uma relação positiva menor com o segundo componente principal (Dim.2). Isso indica que essa variável contribui significativamente para ambos os componentes principais, mas tem uma importância maior no primeiro.

  5. Por fim, o PIB tem uma relação positiva muito alta com o segundo componente principal (Dim.2) e uma relação positiva menor com o primeiro componente principal (Dim.1). Isso sugere que essa variável é essencialmente representada pelo segundo componente principal e tem uma importância menor no primeiro.

Referências

Manly, Bryan F. J.: Multivariate Statistical Methods: A Primer. Chapman and Hall, London – New York 1986.