A análise de componentes principais (ACP) é uma técnica estatística amplamente utilizada para redução de dimensionalidade e extração de informações relevantes de conjuntos de dados multivariados. O objetivo principal da PCA é transformar um conjunto de variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais. Cada componente principal é uma combinação linear das variáveis originais e é ordenado de acordo com a quantidade de variação que ele captura. Isso permite a identificação dos padrões mais significativos dos dados, facilitando a interpretação e visualização.
Estes são alguns exemplos de aplicações:
1. Estudos de qualidade de vida: Através da ACP, é possível identificar dimensões principais que influenciam a qualidade de vida em uma determinada região, permitindo que políticas públicas sejam direcionadas de forma mais eficaz.
2. Análise de desigualdade social: A ACP pode ser aplicada em indicadores sociais e econômicos para compreender os principais fatores que contribuem para a desigualdade entre grupos populacionais.
3. Análise de dados de saúde: A ACP é útil para identificar padrões em grandes conjuntos de dados de saúde, como fatores de risco e grupos de doenças.
4. Estudos de mercado: A ACP é aplicada em pesquisas de mercado para identificar segmentos de clientes com características semelhantes, ajudando as empresas a direcionar suas estratégias de marketing.
5. Análise de indicadores econômicos: Através da ACP, é possível reduzir um grande número de indicadores econômicos em poucos componentes principais, facilitando a compreensão das principais tendências e correlações na economia.
6. Previsão econômica: A ACP pode ser usada para reduzir a dimensionalidade de séries temporais econômicas e melhorar a precisão das previsões de indicadores macroeconômicos.
Antes de iniciar o processo de ACP, é necessário carregar as bibliotecas necessárias.
#Carregar pacotes
library(sidrar)
library(factoextra)
library(tidyverse)
library(readxl)
library(FactoMineR)
library(missMDA)
library("factoextra")
1. Importação dos dados: Os dados utilizados para a análise de componentes principais são apenas um exemplo, a base comtém informações sobre o PIB, Número de óbitos, Despesas com saúde e número de beneficiários do bolsa família. Para calcular ACP os dados devem conter as variáveis numéricas.
# Importar dados
df_acp <- read_excel("df_acp.xlsx")
Podemos usar o comando head(dados) para visualizar as
primeiras linhas dos dados após a importação. Isso ajuda a garantir que
os dados foram carregados corretamente antes de prosseguir com a
análise.
head(df_acp)
## # A tibble: 6 × 13
## ano sigla_uf id_municipio numero_obitos desp_saude populacao_atendida_agua
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 2019 MG 3100104 48 5088031. 3997
## 2 2019 MG 3100203 169 15933256. 19540
## 3 2019 MG 3100302 86 8937634. 9356
## 4 2019 MG 3100401 36 3325094. 3982
## 5 2019 MG 3100500 76 4597114. 3263
## 6 2019 MG 3100609 77 6838791. 6488
## # ℹ 7 more variables: populacao_atentida_esgoto <dbl>,
## # familias_beneficiarias_pbf <dbl>, pessoas_pbf <dbl>, valor_pago_pbf <dbl>,
## # familias_cadastradas_cu <dbl>, pessoas_cadastradas_cu <dbl>, pib <dbl>
Antes de proceder com ACP vamos selecionar algumas variaveis
dados<- df_acp %>% select(pib, numero_obitos, desp_saude, pessoas_pbf)
Cálculo da ACP:
A ACP é realizada usando o pacote “FactoMineR”. Nesse exemplo, o cálculo é feito com o seguinte comando, onde “dados” é o dataframe que contém as variáveis a serem analisadas:
acp <- PCA(dados, graph=F)
Visualização da qualidade no mapa de fatores: Para visualizar a qualidade das variáveis no mapa de fatores, usa-se a função `fviz_pca_var()`
O gráfico que exibe a qualidade (cos²) de cada variável em relação aos componentes principais é uma representação visual da contribuição de cada variável para a formação desses componentes. O “cos²” é a proporção da variância da variável original que é explicada pelo componente principal específico.
Quando realizamos a Análise de Componentes Principais (ACP), estamos buscando encontrar novas variáveis (os componentes principais) que sejam combinações lineares das variáveis originais, de modo que eles capturem a maior quantidade possível de variação dos dados. Cada componente principal é uma combinação ponderada das variáveis originais, e a quantidade de variação explicada por cada componente é medida pelos autovalores associados a eles.
O gráfico de qualidade das variáveis em relação aos componentes principais ajuda a identificar quais variáveis têm uma forte influência na definição de cada componente principal e quais têm uma influência mais fraca. Essa informação é útil para entender quais variáveis são mais importantes para explicar a estrutura dos dados e quais têm menos impacto.
#_____ Visualização por valores de cos2: qualidade no mapa de fatores
fviz_pca_var(acp, col.var = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE # Avoid text overlapping
)
Visualização da comunaliade explicada por cada
componente: A função fviz_eig é utilizada para
exibir a inércia explicada por cada componente principal. Ela mostra o
quanto de variação dos dados é explicada por cada componente:
fviz_eig(acp, addlabels=TRUE, ylim = c(0,50))
Sumarização dos resultados: A função
facto_summarize é usada para resumir as informações sobre
as variáveis e os componentes principais obtidos a partir da ACP. No
exemplo, a sumarização é feita para os dois primeiros componentes
principais (axes = 1:2):
facto_summarize(acp, "var", axes = 1:2)
## name Dim.1 Dim.2 coord cos2 contrib
## pib pib 0.1710860 0.984893502 0.9992856 0.9992856 26.16030
## numero_obitos numero_obitos 0.9857684 -0.062278615 0.9756180 0.9756180 25.54070
## desp_saude desp_saude 0.9717458 -0.105023373 0.9553198 0.9553198 25.00931
## pessoas_pbf pessoas_pbf 0.9431881 -0.005357553 0.8896325 0.8896325 23.28969
Analisando as coordenadas das variáveis nos dois componentes principais:
A variável despesas com saude tem uma forte relação positiva com o primeiro componente principal (Dim.1), mas uma relação negativa muito pequena com o segundo componente principal (Dim.2). Isso sugere que essa variável tem um papel dominante na definição do primeiro componente principal, enquanto sua influência no segundo componente é praticamente insignificante.
A variável populacao_atendida_agua também possui uma relação muito forte e positiva com o primeiro componente principal (Dim.1), mas uma relação negativa muito pequena com o segundo componente principal (Dim.2). Isso indica que essa variável também é um importante contribuinte para a definição do primeiro componente principal.
Assim como as duas variáveis anteriores, a “populacao_atentida_esgoto” tem uma relação positiva forte com o primeiro componente principal (Dim.1) e uma relação negativa pequena com o segundo componente principal (Dim.2). Isso sugere que essa variável é relevante para o primeiro componente principal.
A variável pessoas_beneficiarias_pbf tem uma relação positiva relativamente alta com o primeiro componente principal (Dim.1) e uma relação positiva menor com o segundo componente principal (Dim.2). Isso indica que essa variável contribui significativamente para ambos os componentes principais, mas tem uma importância maior no primeiro.
Por fim, o PIB tem uma relação positiva muito alta com o segundo componente principal (Dim.2) e uma relação positiva menor com o primeiro componente principal (Dim.1). Isso sugere que essa variável é essencialmente representada pelo segundo componente principal e tem uma importância menor no primeiro.
Manly, Bryan F. J.: Multivariate Statistical Methods: A Primer. Chapman and Hall, London – New York 1986.