EST582 - Estatística Multivariada Computacional

UFMG – Especialização em Estatística Computacional Aplicada - Prof. Uriel Moreira Silva

Author

Igor Souza

Published

02/12/2023

Introdução

O relatório apresentado a seguir foi produzido para fins acadêmicos. Trata-se do trabalho prático final da disciplina de Estatística Multivariada Computacional. O objetivo é aplicar os conceitos vistos em sala de aula referentes à análise de componentes principais e à análise fatorial exploratória.

Dados

A fonte dos dados é o Censo Demográfico de 2010, realizado pelo Instituto Brasileiro de Geografia e Estatística (IBGE)1. A base com os indicadores desagregados por áreas de ponderação foi disponibilizada pelo professor. As variáveis estão divididas em 4 dimensões: Educação, Emprego, Moradia e Saneamento. Toda a análise foi realizada usando a linguagem R (v. 4.3.1).2

Para o trabalho, foi escolhido o município de Manaus (AM). O município possui 33 áreas de ponderação em 2010. Algumas características de Manaus:3

  • População residente: 2.063.689 pessoas; (2022)

  • Área territorial: 11.401,092 km²; (2022)

  • Densidade demográfica: 181,01 hab/km²; (2022)

  • PIB per capita: R$ 41.345,11. (2020)


Educação

  • P_ENSFUND - Proporção da população com 25 anos ou mais com o Ensino Fundamental completo;

  • P_ENSMED - Proporção da população com 25 anos ou mais com o Ensino Médio completo;

  • P_ENSSUP - Proporção da população com 25 anos ou mais com o Ensino Superior completo;

  • P_FREQESCOLA - Proporção da população entre 15 e 17 anos frequentando a escola.

Tabela 2 - Análise descritiva das variáveis da dimensão Educação
Mínimo 1º Quartil Mediana Média 3º Quartil Máximo
P_ENSFUND 45,25 53,64 66,58 64,56 74,34 86,89
P_ENSMED 27,50 37,56 50,91 49,40 60,63 72,72
P_ENSSUP 1,86 3,59 9,01 11,19 12,50 35,96
P_FREQESCOLA 73,09 80,91 84,25 84,20 86,63 96,96
Tabela 3 - Matriz de correlação das variáveis da dimensão Educação
P_ENSFUND P_ENSMED P_ENSSUP P_FREQESCOLA
P_ENSFUND 1,000 0,989 0,858 0,559
P_ENSMED 0,989 1,000 0,891 0,583
P_ENSSUP 0,858 0,891 1,000 0,543
P_FREQESCOLA 0,559 0,583 0,543 1,000

De forma geral, a população frequenta a escola. Entretanto, quanto maior o nível escolar, menor a proporção da população que conclui seus estudos. E todas as variáveis de estão altamente correlacionadas entre si.

Emprego

  • P_DESEMP - Taxa de desemprego entre a população com 15 anos de idade ou mais;

  • P_FORTRAB - Participação da força de trabalho entre a população com 15 anos de idade ou mais.

Tabela 4 - Análise descritiva das variáveis da dimensão Emprego
Mínimo 1º Quartil Mediana Média 3º Quartil Máximo
P_DESEMP 5,01 8,95 10,86 10,67 12,66 16,72
P_FORTRAB 55,61 62,16 64,47 64,14 66,22 70,03
Tabela 5 - Matriz de correlação das variáveis da dimensão Emprego
P_DESEMP P_FORTRAB
P_DESEMP 1,000 0,058
P_FORTRAB 0,058 1,000

Em média, a taxa de desemprego entre a população pode ser considerada alta, dado que os 10,67% está acima da média brasileira no mesmo período. Em se tratando da dimensão Emprego, as variáveis escolhidas não estão linearmente correlacionadas.

Moradia

  • P_MATPAREDES - Proporção de domicílios com paredes externas feitas em sua maioria de cimento, pedra, concreto e/ou materiais similares (materiais “duráveis”);

  • P_OVERCROWDING - Overcrowding/superlotação/adensamento: proporção de domicílios com mais de 3 moradores por quarto/dormitório.

Tabela 6 - Análise descritiva das variáveis da dimensão Moradia
Mínimo 1º Quartil Mediana Média 3º Quartil Máximo
P_MATPAREDES 63,80 82,80 88,28 86,95 90,92 97,61
P_OVERCROWDING 5,18 11,82 15,19 16,40 22,36 25,91
Tabela 7 - Matriz de correlação das variáveis da dimensão Moradia
P_MATPAREDES P_OVERCROWDING
P_MATPAREDES 1,000 -0,771
P_OVERCROWDING -0,771 1,000

Os domicílios do município de Manaus são em sua grande maioria construídos com materias considerados duráveis. No entanto, 16,4% desses domicílios apresentam um alto adensamento.

As variáveis P_MATPAREDES e P_OVERCROWDING estão inversamente correlacionadas. Ou seja, quanto maior a taxa de domicílios construídos com materias duráveis, menor a taxa de adensamento.

Saneamento

  • P_AGUAENC - Proporção de domicílios com acesso à água encanada;

  • P_AGUAENCDENTRO - Proporção de domicílios com acesso à água encanada dentro do domicílio;

  • P_AGUAREDE - Proporção de domicílios com acesso à água de uma rede pública;

  • P_ESGOTOPUB - Proporção de domicílios conectados à rede pública de esgoto;

  • P_ESGOTOQUAL - Proporção de domicílios conectados à algum tipo de sistema de esgoto.

Tabela 8 - Análise descritiva das variáveis da dimensão Saneamento
Mínimo 1º Quartil Mediana Média 3º Quartil Máximo
P_AGUAENC 57,60 87,86 98,11 92,81 99,36 100,00
P_AGUAENCDENTRO 48,19 81,83 92,48 86,91 95,92 98,15
P_AGUAREDE 12,61 56,12 85,08 74,56 91,55 98,10
P_ESGOTOPUB 9,13 21,87 39,02 40,31 55,23 73,09
P_ESGOTOQUAL 36,00 47,42 64,94 63,04 76,23 88,59
Tabela 9 - Matriz de correlação das variáveis da dimensão Saneamento
P_AGUAENC P_AGUAENCDENTRO P_AGUAREDE P_ESGOTOPUB P_ESGOTOQUAL
P_AGUAENC 1,000 0,970 0,893 0,762 0,696
P_AGUAENCDENTRO 0,970 1,000 0,860 0,766 0,707
P_AGUAREDE 0,893 0,860 1,000 0,777 0,607
P_ESGOTOPUB 0,762 0,766 0,777 1,000 0,900
P_ESGOTOQUAL 0,696 0,707 0,607 0,900 1,000

Em se tratando de acesso a água, os indicadores para o município de Manaus mostram uma cobertura alta, com algumas áreas possuindo 100% de cobertura. Fica a desejar o acesso à rede pública de esgoto, onde a média é de apenas 40,31%.

Análise de componentes principais (PCA)

A Análise de Componentes Principais (PCA, do inglês Principal Component Analysis) é uma técnica estatística utilizada para simplificar e resumir a complexidade em conjuntos de dados de alta dimensionalidade. Seu principal objetivo é identificar os principais padrões e relações entre as variáveis, transformando as variáveis originais em um novo conjunto de variáveis não correlacionadas chamadas de componentes principais.

Esses componentes principais capturam a maior parte da variabilidade presente nos dados, permitindo uma compreensão mais eficiente e uma representação mais compacta do conjunto de dados original.

Educação

Code
### Cálculo
educ_pca <- princomp(scale(dados[, educ_var]))
Importance of components:
                          Comp.1    Comp.2     Comp.3      Comp.4
Standard deviation     1.7746155 0.7495594 0.39957964 0.089579117
Proportion of Variance 0.8119187 0.1448492 0.04116335 0.002068795
Cumulative Proportion  0.8119187 0.9567679 0.99793120 1.000000000
                Comp.1     Comp.2       Comp.3      Comp.4
P_ENSFUND    0.5334154  0.2428907  0.481918851  0.65132658
P_ENSMED     0.5415554  0.2170361  0.307264509 -0.75179891
P_ENSSUP     0.5142663  0.2280706 -0.820566246  0.10092105
P_FREQESCOLA 0.3971347 -0.9175420 -0.003712014  0.01967305


O primeiro componente, Comp. 1, parece estar mais ligado ao nível de instrução, devido aos maiores pesos nas variáveis P_ENSFUND, P_ENSMED e P_ENSSU. Comp. 2 está relacionado à frequência escolar, dado a carga negativa de P_FREQESCOLA. Comp. 3 está fortemente relacionado ao ensino superior (P_ENSSUP) enquanto que Comp. 4, aos níveis fundamental e médio (P_ENSFUND e P_ENSMED).

Emprego

Code
### Cálculo
emp_pca <- princomp(scale(dados[, emp_var]))

Para a análise, P_DESEMP foi invertida. Isso foi feito para que quanto maior o valor melhor.

Importance of components:
                         Comp.1    Comp.2
Standard deviation     1.012741 0.9559024
Proportion of Variance 0.528848 0.4711520
Cumulative Proportion  0.528848 1.0000000
              Comp.1    Comp.2
P_DESEMP   0.7071068 0.7071068
P_FORTRAB -0.7071068 0.7071068


P_DESEMP possui carga positiva enquanto que P_FORTRAB possui carga negativa em Comp.1. Em Comp. 2, ambas possuem cargas positivas e compartilham exatamente os mesmos pesos. Isso se deve à forma como a PCA é calculada quando há apenas duas variáveis.

Moradia

Code
### Cálculo
mor_pca <- princomp(scale(dados[, mor_var]))

Assim como P_DESEMP, P_OVERCROWDING também foi invertida.

Importance of components:
                          Comp.1    Comp.2
Standard deviation     1.3104583 0.4712675
Proportion of Variance 0.8854833 0.1145167
Cumulative Proportion  0.8854833 1.0000000
                  Comp.1     Comp.2
P_MATPAREDES   0.7071068  0.7071068
P_OVERCROWDING 0.7071068 -0.7071068


O mesmo comportamento visto na dimensão Emprego pode ser visto na dimensão Moradia. Ambas dimensões possuem apenas duas variáveis, o que pode ser considerado um número insuficiente para qualquer tipo de análise.

Saneamento

Code
### Cálculo
san_pca <- princomp(scale(dados[, san_var]))
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
Standard deviation     2.0134388 0.7317491 0.4295035 0.22464802 0.15540976
Proportion of Variance 0.8361243 0.1104380 0.0380476 0.01040876 0.00498139
Cumulative Proportion  0.8361243 0.9465622 0.9846098 0.99501861 1.00000000
                   Comp.1     Comp.2     Comp.3      Comp.4     Comp.5
P_AGUAENC       0.4640059  0.3445345  0.3259833  0.08629736  0.7431569
P_AGUAENCDENTRO 0.4620180  0.3036781  0.4665495 -0.35386051 -0.5928180
P_AGUAREDE      0.4440308  0.3896186 -0.6552202  0.41691110 -0.2188736
P_ESGOTOPUB     0.4485504 -0.4335619 -0.4179723 -0.63592141  0.1781284
P_ESGOTOQUAL    0.4157850 -0.6702962  0.2684251  0.53770308 -0.1290319


O Comp. 1 não está bem definido em termos de peso. Comp. 2 demonstra estar mais relacionado às variáves de esgoto e Comp. 3 às variáveis de água. Para finalizar, Comp. 4 mostra uma carga negativa do esgoto público (P_ESGOTOPUB) e Comp. 5 carga positiva em água encanada (P_AGUAENC).

Análise fatorial exploratória (EFA)

A Análise Fatorial Exploratória (EFA, do inglês Exploratory Factor Analysis) é uma técnica estatística utilizada para identificar padrões subjacentes em conjuntos de dados complexos, especialmente quando se trata de variáveis correlacionadas. Ao contrário da PCA, a EFA visa identificar fatores latentes ou não observáveis que podem estar contribuindo para a covariância entre as variáveis observadas. Esses fatores representam construtos teóricos subjacentes que não são diretamente observáveis, mas que podem explicar a estrutura de covariância nos dados.

Durante o processo de EFA, busca-se entender como as variáveis originais estão relacionadas e como podem ser agrupadas em fatores comuns. Os fatores são interpretados com base nas relações entre as variáveis e na teoria subjacente ao domínio do problema.

Educação

Code
### Cálculo (m = 1)
educ_efa <- factanal(dados[, educ_var], factors = 1, scores = "regression")

Loadings:
             Factor1
P_ENSFUND    0.991  
P_ENSMED     0.998  
P_ENSSUP     0.888  
P_FREQESCOLA 0.580  

               Factor1
SS loadings      3.102
Proportion Var   0.775

Escolhendo \(m = 1\), o maior número possível nesse caso, o resultado é bastante similar à PCA [ver Análise de componentes principais (PCA)].

Emprego

Como a análise fatorial exige ao menos três variáveis, não é possível realizar a análise para a dimensão Emprego.

Moradia

Como a análise fatorial exige ao menos três variáveis, não é possível realizar a análise para a dimensão Moradia.

Saneamento

Code
### Cálculo (m = 2)
san_efa <- factanal(dados[, san_var], factors = 2, scores = "regression")

Loadings:
                Factor1 Factor2
P_AGUAENC       0.908   0.414  
P_AGUAENCDENTRO 0.870   0.436  
P_AGUAREDE      0.754   0.500  
P_ESGOTOPUB     0.429   0.900  
P_ESGOTOQUAL    0.396   0.811  

               Factor1 Factor2
SS loadings      2.491   2.079
Proportion Var   0.498   0.416
Cumulative Var   0.498   0.914

Na dimensão Saneamento, escolhendo \(m = 2\), fica claro que Factor1 está mais relacionado às variáveis de água ao passo que Factor2 está ligado às variáveis de esgoto.

Índice de status socioeconômico

A partir da análise feita usando PCA, as variáveis P_ENSMED, P_DESEMP, P_OVERCROWDING e P_AGUAENC foram selecionadas para compor o “Índice de status socioeconômico”, um índice sintético criado para fins acadêmicos.

Esta é uma tentativa grosseira de sumarizar os dados em um índice. As variáveis foram normalizadas entre 0 e 1 e ponderadas pelos loadings relativos de uma EFA. Para que todos os pesos sejam positivos, os valores das variáveis P_DESEMP e P_OVERCROWDING foram invertidos (pois, nesses dois casos, quanto maior o valor pior).

Code
## EFA
iss_efa <- factanal(dados_indice, factors = 1, scores = "regression")

Loadings:
               Factor1
P_ENSMED       0.994  
P_DESEMP       0.633  
P_OVERCROWDING 0.953  
P_AGUAENC      0.710  

               Factor1
SS loadings        2.8
Proportion Var     0.7
Tabela 10 - Índice de status socioeconômico
area_ponderacao iss iss_cat
1302603005013 0,969 Muito alto
1302603005007 0,915 Muito alto
1302603005026 0,889 Alto
1302603005020 0,825 Alto
1302603005021 0,821 Alto
1302603005022 0,814 Alto
1302603005027 0,786 Alto
1302603005010 0,763 Alto
1302603005030 0,708 Alto
1302603005011 0,685 Médio
1302603005032 0,679 Médio
1302603005024 0,674 Médio
1302603005006 0,670 Médio
1302603005008 0,666 Médio
1302603005028 0,643 Médio
1302603005023 0,640 Médio
1302603005029 0,608 Médio
1302603005025 0,606 Médio
1302603005031 0,560 Médio
1302603005004 0,510 Médio
1302603005016 0,499 Baixo
1302603005003 0,461 Baixo
1302603005015 0,437 Baixo
1302603005009 0,356 Baixo
1302603005012 0,339 Baixo
1302603005005 0,336 Baixo
1302603005001 0,295 Muito baixo
1302603005018 0,251 Muito baixo
1302603005019 0,249 Muito baixo
1302603005002 0,241 Muito baixo
1302603005033 0,213 Muito baixo
1302603005014 0,181 Muito baixo
1302603005017 0,120 Muito baixo


Para melhor visualização dos resultados, o índice foi transformado em categorias, onde:

  • Menor ou igual a 0,300 → Muito baixo;

  • Entre 0,301 e 0,500 → Baixo;

  • Entre 0,501 e 0,700 → Médio;

  • Entre 0,701 e 0,900 → Alto;

  • Maior ou igual a 0,901 → Muito alto.

O índice conseguiu categorizar razoavelmente bem as áreas de Manaus, “guiado” por P_ENSMED e P_OVERCROWDING, as variáveis com maiores pesos (ver loadings da EFA). Ou seja, quanto maior a proporção da população com 25 anos ou mais com o Ensino Médio completo e menor o adensamento, melhor a situação da área no índice final geral.

Footnotes

  1. Instituto Brasileiro de Geografia e Estatística. Censo Demográfico 2010. Disponível em: https://censo2010.ibge.gov.br. Acesso em: 26/11/2023.↩︎

  2. R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/↩︎

  3. Instituto Brasileiro de Geografia e Estatística. Cidades e Estados. Disponível em: https://www.ibge.gov.br/cidades-e-estados/am/manaus.html. Acesso em: 02/12/2023.↩︎