EST582 - Estatística Multivariada Computacional
UFMG – Especialização em Estatística Computacional Aplicada - Prof. Uriel Moreira Silva
Introdução
O relatório apresentado a seguir foi produzido para fins acadêmicos. Trata-se do trabalho prático final da disciplina de Estatística Multivariada Computacional. O objetivo é aplicar os conceitos vistos em sala de aula referentes à análise de componentes principais e à análise fatorial exploratória.
Dados
A fonte dos dados é o Censo Demográfico de 2010, realizado pelo Instituto Brasileiro de Geografia e Estatística (IBGE)1. A base com os indicadores desagregados por áreas de ponderação foi disponibilizada pelo professor. As variáveis estão divididas em 4 dimensões: Educação, Emprego, Moradia e Saneamento. Toda a análise foi realizada usando a linguagem R (v. 4.3.1).2
Para o trabalho, foi escolhido o município de Manaus (AM). O município possui 33 áreas de ponderação em 2010. Algumas características de Manaus:3
População residente: 2.063.689 pessoas; (2022)
Área territorial: 11.401,092 km²; (2022)
Densidade demográfica: 181,01 hab/km²; (2022)
PIB per capita: R$ 41.345,11. (2020)
Educação
P_ENSFUND- Proporção da população com 25 anos ou mais com o Ensino Fundamental completo;P_ENSMED- Proporção da população com 25 anos ou mais com o Ensino Médio completo;P_ENSSUP- Proporção da população com 25 anos ou mais com o Ensino Superior completo;P_FREQESCOLA- Proporção da população entre 15 e 17 anos frequentando a escola.
| Mínimo | 1º Quartil | Mediana | Média | 3º Quartil | Máximo | |
|---|---|---|---|---|---|---|
| P_ENSFUND | 45,25 | 53,64 | 66,58 | 64,56 | 74,34 | 86,89 |
| P_ENSMED | 27,50 | 37,56 | 50,91 | 49,40 | 60,63 | 72,72 |
| P_ENSSUP | 1,86 | 3,59 | 9,01 | 11,19 | 12,50 | 35,96 |
| P_FREQESCOLA | 73,09 | 80,91 | 84,25 | 84,20 | 86,63 | 96,96 |
| P_ENSFUND | P_ENSMED | P_ENSSUP | P_FREQESCOLA | |
|---|---|---|---|---|
| P_ENSFUND | 1,000 | 0,989 | 0,858 | 0,559 |
| P_ENSMED | 0,989 | 1,000 | 0,891 | 0,583 |
| P_ENSSUP | 0,858 | 0,891 | 1,000 | 0,543 |
| P_FREQESCOLA | 0,559 | 0,583 | 0,543 | 1,000 |
De forma geral, a população frequenta a escola. Entretanto, quanto maior o nível escolar, menor a proporção da população que conclui seus estudos. E todas as variáveis de estão altamente correlacionadas entre si.
Emprego
P_DESEMP- Taxa de desemprego entre a população com 15 anos de idade ou mais;P_FORTRAB- Participação da força de trabalho entre a população com 15 anos de idade ou mais.
| Mínimo | 1º Quartil | Mediana | Média | 3º Quartil | Máximo | |
|---|---|---|---|---|---|---|
| P_DESEMP | 5,01 | 8,95 | 10,86 | 10,67 | 12,66 | 16,72 |
| P_FORTRAB | 55,61 | 62,16 | 64,47 | 64,14 | 66,22 | 70,03 |
| P_DESEMP | P_FORTRAB | |
|---|---|---|
| P_DESEMP | 1,000 | 0,058 |
| P_FORTRAB | 0,058 | 1,000 |
Em média, a taxa de desemprego entre a população pode ser considerada alta, dado que os 10,67% está acima da média brasileira no mesmo período. Em se tratando da dimensão Emprego, as variáveis escolhidas não estão linearmente correlacionadas.
Moradia
P_MATPAREDES- Proporção de domicílios com paredes externas feitas em sua maioria de cimento, pedra, concreto e/ou materiais similares (materiais “duráveis”);P_OVERCROWDING- Overcrowding/superlotação/adensamento: proporção de domicílios com mais de 3 moradores por quarto/dormitório.
| Mínimo | 1º Quartil | Mediana | Média | 3º Quartil | Máximo | |
|---|---|---|---|---|---|---|
| P_MATPAREDES | 63,80 | 82,80 | 88,28 | 86,95 | 90,92 | 97,61 |
| P_OVERCROWDING | 5,18 | 11,82 | 15,19 | 16,40 | 22,36 | 25,91 |
| P_MATPAREDES | P_OVERCROWDING | |
|---|---|---|
| P_MATPAREDES | 1,000 | -0,771 |
| P_OVERCROWDING | -0,771 | 1,000 |
Os domicílios do município de Manaus são em sua grande maioria construídos com materias considerados duráveis. No entanto, 16,4% desses domicílios apresentam um alto adensamento.
As variáveis P_MATPAREDES e P_OVERCROWDING estão inversamente correlacionadas. Ou seja, quanto maior a taxa de domicílios construídos com materias duráveis, menor a taxa de adensamento.
Saneamento
P_AGUAENC- Proporção de domicílios com acesso à água encanada;P_AGUAENCDENTRO- Proporção de domicílios com acesso à água encanada dentro do domicílio;P_AGUAREDE- Proporção de domicílios com acesso à água de uma rede pública;P_ESGOTOPUB- Proporção de domicílios conectados à rede pública de esgoto;P_ESGOTOQUAL- Proporção de domicílios conectados à algum tipo de sistema de esgoto.
| Mínimo | 1º Quartil | Mediana | Média | 3º Quartil | Máximo | |
|---|---|---|---|---|---|---|
| P_AGUAENC | 57,60 | 87,86 | 98,11 | 92,81 | 99,36 | 100,00 |
| P_AGUAENCDENTRO | 48,19 | 81,83 | 92,48 | 86,91 | 95,92 | 98,15 |
| P_AGUAREDE | 12,61 | 56,12 | 85,08 | 74,56 | 91,55 | 98,10 |
| P_ESGOTOPUB | 9,13 | 21,87 | 39,02 | 40,31 | 55,23 | 73,09 |
| P_ESGOTOQUAL | 36,00 | 47,42 | 64,94 | 63,04 | 76,23 | 88,59 |
| P_AGUAENC | P_AGUAENCDENTRO | P_AGUAREDE | P_ESGOTOPUB | P_ESGOTOQUAL | |
|---|---|---|---|---|---|
| P_AGUAENC | 1,000 | 0,970 | 0,893 | 0,762 | 0,696 |
| P_AGUAENCDENTRO | 0,970 | 1,000 | 0,860 | 0,766 | 0,707 |
| P_AGUAREDE | 0,893 | 0,860 | 1,000 | 0,777 | 0,607 |
| P_ESGOTOPUB | 0,762 | 0,766 | 0,777 | 1,000 | 0,900 |
| P_ESGOTOQUAL | 0,696 | 0,707 | 0,607 | 0,900 | 1,000 |
Em se tratando de acesso a água, os indicadores para o município de Manaus mostram uma cobertura alta, com algumas áreas possuindo 100% de cobertura. Fica a desejar o acesso à rede pública de esgoto, onde a média é de apenas 40,31%.
Análise de componentes principais (PCA)
A Análise de Componentes Principais (PCA, do inglês Principal Component Analysis) é uma técnica estatística utilizada para simplificar e resumir a complexidade em conjuntos de dados de alta dimensionalidade. Seu principal objetivo é identificar os principais padrões e relações entre as variáveis, transformando as variáveis originais em um novo conjunto de variáveis não correlacionadas chamadas de componentes principais.
Esses componentes principais capturam a maior parte da variabilidade presente nos dados, permitindo uma compreensão mais eficiente e uma representação mais compacta do conjunto de dados original.
Educação
Code
### Cálculo
educ_pca <- princomp(scale(dados[, educ_var]))Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.7746155 0.7495594 0.39957964 0.089579117
Proportion of Variance 0.8119187 0.1448492 0.04116335 0.002068795
Cumulative Proportion 0.8119187 0.9567679 0.99793120 1.000000000
Comp.1 Comp.2 Comp.3 Comp.4
P_ENSFUND 0.5334154 0.2428907 0.481918851 0.65132658
P_ENSMED 0.5415554 0.2170361 0.307264509 -0.75179891
P_ENSSUP 0.5142663 0.2280706 -0.820566246 0.10092105
P_FREQESCOLA 0.3971347 -0.9175420 -0.003712014 0.01967305
O primeiro componente, Comp. 1, parece estar mais ligado ao nível de instrução, devido aos maiores pesos nas variáveis P_ENSFUND, P_ENSMED e P_ENSSU. Comp. 2 está relacionado à frequência escolar, dado a carga negativa de P_FREQESCOLA. Comp. 3 está fortemente relacionado ao ensino superior (P_ENSSUP) enquanto que Comp. 4, aos níveis fundamental e médio (P_ENSFUND e P_ENSMED).
Emprego
Code
### Cálculo
emp_pca <- princomp(scale(dados[, emp_var]))Importance of components:
Comp.1 Comp.2
Standard deviation 1.012741 0.9559024
Proportion of Variance 0.528848 0.4711520
Cumulative Proportion 0.528848 1.0000000
Comp.1 Comp.2
P_DESEMP 0.7071068 0.7071068
P_FORTRAB -0.7071068 0.7071068
P_DESEMP possui carga positiva enquanto que P_FORTRAB possui carga negativa em Comp.1. Em Comp. 2, ambas possuem cargas positivas e compartilham exatamente os mesmos pesos. Isso se deve à forma como a PCA é calculada quando há apenas duas variáveis.
Moradia
Code
### Cálculo
mor_pca <- princomp(scale(dados[, mor_var]))Importance of components:
Comp.1 Comp.2
Standard deviation 1.3104583 0.4712675
Proportion of Variance 0.8854833 0.1145167
Cumulative Proportion 0.8854833 1.0000000
Comp.1 Comp.2
P_MATPAREDES 0.7071068 0.7071068
P_OVERCROWDING 0.7071068 -0.7071068
O mesmo comportamento visto na dimensão Emprego pode ser visto na dimensão Moradia. Ambas dimensões possuem apenas duas variáveis, o que pode ser considerado um número insuficiente para qualquer tipo de análise.
Saneamento
Code
### Cálculo
san_pca <- princomp(scale(dados[, san_var]))Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Standard deviation 2.0134388 0.7317491 0.4295035 0.22464802 0.15540976
Proportion of Variance 0.8361243 0.1104380 0.0380476 0.01040876 0.00498139
Cumulative Proportion 0.8361243 0.9465622 0.9846098 0.99501861 1.00000000
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
P_AGUAENC 0.4640059 0.3445345 0.3259833 0.08629736 0.7431569
P_AGUAENCDENTRO 0.4620180 0.3036781 0.4665495 -0.35386051 -0.5928180
P_AGUAREDE 0.4440308 0.3896186 -0.6552202 0.41691110 -0.2188736
P_ESGOTOPUB 0.4485504 -0.4335619 -0.4179723 -0.63592141 0.1781284
P_ESGOTOQUAL 0.4157850 -0.6702962 0.2684251 0.53770308 -0.1290319
O Comp. 1 não está bem definido em termos de peso. Comp. 2 demonstra estar mais relacionado às variáves de esgoto e Comp. 3 às variáveis de água. Para finalizar, Comp. 4 mostra uma carga negativa do esgoto público (P_ESGOTOPUB) e Comp. 5 carga positiva em água encanada (P_AGUAENC).
Análise fatorial exploratória (EFA)
A Análise Fatorial Exploratória (EFA, do inglês Exploratory Factor Analysis) é uma técnica estatística utilizada para identificar padrões subjacentes em conjuntos de dados complexos, especialmente quando se trata de variáveis correlacionadas. Ao contrário da PCA, a EFA visa identificar fatores latentes ou não observáveis que podem estar contribuindo para a covariância entre as variáveis observadas. Esses fatores representam construtos teóricos subjacentes que não são diretamente observáveis, mas que podem explicar a estrutura de covariância nos dados.
Durante o processo de EFA, busca-se entender como as variáveis originais estão relacionadas e como podem ser agrupadas em fatores comuns. Os fatores são interpretados com base nas relações entre as variáveis e na teoria subjacente ao domínio do problema.
Educação
Code
### Cálculo (m = 1)
educ_efa <- factanal(dados[, educ_var], factors = 1, scores = "regression")
Loadings:
Factor1
P_ENSFUND 0.991
P_ENSMED 0.998
P_ENSSUP 0.888
P_FREQESCOLA 0.580
Factor1
SS loadings 3.102
Proportion Var 0.775
Escolhendo \(m = 1\), o maior número possível nesse caso, o resultado é bastante similar à PCA [ver Análise de componentes principais (PCA)].
Emprego
Como a análise fatorial exige ao menos três variáveis, não é possível realizar a análise para a dimensão Emprego.
Moradia
Como a análise fatorial exige ao menos três variáveis, não é possível realizar a análise para a dimensão Moradia.
Saneamento
Code
### Cálculo (m = 2)
san_efa <- factanal(dados[, san_var], factors = 2, scores = "regression")
Loadings:
Factor1 Factor2
P_AGUAENC 0.908 0.414
P_AGUAENCDENTRO 0.870 0.436
P_AGUAREDE 0.754 0.500
P_ESGOTOPUB 0.429 0.900
P_ESGOTOQUAL 0.396 0.811
Factor1 Factor2
SS loadings 2.491 2.079
Proportion Var 0.498 0.416
Cumulative Var 0.498 0.914
Na dimensão Saneamento, escolhendo \(m = 2\), fica claro que Factor1 está mais relacionado às variáveis de água ao passo que Factor2 está ligado às variáveis de esgoto.
Índice de status socioeconômico
A partir da análise feita usando PCA, as variáveis P_ENSMED, P_DESEMP, P_OVERCROWDING e P_AGUAENC foram selecionadas para compor o “Índice de status socioeconômico”, um índice sintético criado para fins acadêmicos.
Esta é uma tentativa grosseira de sumarizar os dados em um índice. As variáveis foram normalizadas entre 0 e 1 e ponderadas pelos loadings relativos de uma EFA. Para que todos os pesos sejam positivos, os valores das variáveis P_DESEMP e P_OVERCROWDING foram invertidos (pois, nesses dois casos, quanto maior o valor pior).
Code
## EFA
iss_efa <- factanal(dados_indice, factors = 1, scores = "regression")
Loadings:
Factor1
P_ENSMED 0.994
P_DESEMP 0.633
P_OVERCROWDING 0.953
P_AGUAENC 0.710
Factor1
SS loadings 2.8
Proportion Var 0.7
| area_ponderacao | iss | iss_cat |
|---|---|---|
| 1302603005013 | 0,969 | Muito alto |
| 1302603005007 | 0,915 | Muito alto |
| 1302603005026 | 0,889 | Alto |
| 1302603005020 | 0,825 | Alto |
| 1302603005021 | 0,821 | Alto |
| 1302603005022 | 0,814 | Alto |
| 1302603005027 | 0,786 | Alto |
| 1302603005010 | 0,763 | Alto |
| 1302603005030 | 0,708 | Alto |
| 1302603005011 | 0,685 | Médio |
| 1302603005032 | 0,679 | Médio |
| 1302603005024 | 0,674 | Médio |
| 1302603005006 | 0,670 | Médio |
| 1302603005008 | 0,666 | Médio |
| 1302603005028 | 0,643 | Médio |
| 1302603005023 | 0,640 | Médio |
| 1302603005029 | 0,608 | Médio |
| 1302603005025 | 0,606 | Médio |
| 1302603005031 | 0,560 | Médio |
| 1302603005004 | 0,510 | Médio |
| 1302603005016 | 0,499 | Baixo |
| 1302603005003 | 0,461 | Baixo |
| 1302603005015 | 0,437 | Baixo |
| 1302603005009 | 0,356 | Baixo |
| 1302603005012 | 0,339 | Baixo |
| 1302603005005 | 0,336 | Baixo |
| 1302603005001 | 0,295 | Muito baixo |
| 1302603005018 | 0,251 | Muito baixo |
| 1302603005019 | 0,249 | Muito baixo |
| 1302603005002 | 0,241 | Muito baixo |
| 1302603005033 | 0,213 | Muito baixo |
| 1302603005014 | 0,181 | Muito baixo |
| 1302603005017 | 0,120 | Muito baixo |
Para melhor visualização dos resultados, o índice foi transformado em categorias, onde:
Menor ou igual a 0,300 → Muito baixo;
Entre 0,301 e 0,500 → Baixo;
Entre 0,501 e 0,700 → Médio;
Entre 0,701 e 0,900 → Alto;
Maior ou igual a 0,901 → Muito alto.
O índice conseguiu categorizar razoavelmente bem as áreas de Manaus, “guiado” por P_ENSMED e P_OVERCROWDING, as variáveis com maiores pesos (ver loadings da EFA). Ou seja, quanto maior a proporção da população com 25 anos ou mais com o Ensino Médio completo e menor o adensamento, melhor a situação da área no índice final geral.
Footnotes
Instituto Brasileiro de Geografia e Estatística. Censo Demográfico 2010. Disponível em: https://censo2010.ibge.gov.br. Acesso em: 26/11/2023.↩︎
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/↩︎
Instituto Brasileiro de Geografia e Estatística. Cidades e Estados. Disponível em: https://www.ibge.gov.br/cidades-e-estados/am/manaus.html. Acesso em: 02/12/2023.↩︎