Alunos:

Ana Vitória
Ester Rosa
Francieli Almeida
Mateus Elias

Dados:

Banco de dados

O conjunto de dados foi retirado da Tabela 5938 do SIDRA IBGE

Produto interno bruto a preços correntes, impostos, líquidos de subsídios, sobre produtos a preços correntes e valor adicionado bruto a preços correntes total e por atividade econômica, e respectivas participações - Referência 2010

As variáveis escolhidas foram:

Produto Interno Bruto a preços correntes (Mil Reais);
Impostos, líquidos de subsídios, sobre produtos a preços correntes (Mil Reais);
Valor adicionado bruto a preços correntes da agropecuária (Mil Reais);
Valor adicionado bruto a preços correntes da indústria (Mil Reais);
Valor adicionado bruto a preços correntes dos serviços, exclusive administração, defesa, educação e saúde públicas e seguridade social (Mil Reais);
Valor adicionado bruto a preços correntes da administração, defesa, educação e saúde públicas e seguridade social (Mil Reais).

Técnicas Utilizadas

Análise descritiva;
Análise fatorial;
Análise de componentes principais.

Análise descritiva

VAB: Valor adicionado bruto

Análise fatorial

A análise fatorial clássica exige que alguns pressupostos sejam satisfeitos, quais sejam (MALHOTRA, 2001):

Normalidade dos dados: apesar deste pressuposto não ser crítico quando a estimação é realizada por mínimos quadrados ordinários, a exigência de normalidade auxilia na análise, evitando possíveis assimetrias e a presença de outliers.

Variáveis quantitativas medidas em escala Intervalar ou de Razão. Esse pressuposto é crítico, pois a análise deve ser realizada com variáveis quantitatias e, frequentemente, alguns estudos são realizados utilizando variáveis ordinais (as quaiss são qualitativas) na análise fatorial clássica (o que é errado de muitas maneiras).

Como diretriz inicial deve haver ao menos quatro a cinco vezes mais observações do que variáveis.

Em geral, as estatísticas utilizadas no processo de análise fatorial são (AAKER-KUMARDAY, 2001):

Teste de esfericidade de Bartlett: estatística de teste usada para examinar a hipótese de que as variáveis não sejam correlacionadas na população, ou seja, a matriz de correlação da população é uma matriz identidade onde cada variável se correlaciona perfeitamente com ela própria (r=1), mas não apresenta correlação com as outras variáveis (r=0).

Matriz de correlação: o triângulo inferior da matriz exibe as correlações simples, r, entre todos os pares possíveis de variáveis incluídas na análise, enquanto os elementos da diagonal, que são todos iguais a 1, em geral são omitidos.

Comunalidade: porção da variância que uma variável compartilha com todas as outras variáveis consideradas, sendo também a proporção de variância explicada pelos fatores comuns.

Autovalor: representa a variância total explicada por cada fator.

Cargas fatoriais: correlação simples entre as variáveis e os fatores.

Gráfico das cargas dos fatores: gráfico das variáveis originais utilizando as cargas fatoriais como ordenadas.

Matriz de fatores ou matriz principal: contém as cargas fatoriais de todos as variáveis em todos os fatores extraídos.

Escores fatoriais: escores compostos estimados para cada entrevistado nos fatores derivados.

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO): é o índice usado para avaliar a adequacidade da análise fatorial. Valores altos (entre 0,5 e 1,0) indicam que a análise fatorial é apropriada. Valores abaixo de 0,5 indicam que a análise fatorial pode ser inadequada.

Percentagem de variância: percentagem da variância total atribuída a cada fator.

Resíduos: diferenças entre as correlações observadas, dadas na matriz de correlação de entrada (input) e as correlações reproduzidas, conforme estimadas pela matriz de fatores.

Scree plot: gráfico dos autovalores versus número de fatores por ordem de extração.

Dados

Descrição dos dados

##                   vars    n      mean         sd   median   trimmed      mad
## Município*           1 5570   2785.50    1608.06  2785.50   2785.50  2064.52
## Impostos             2 5570 185358.53 2268785.86 10933.98  24800.93 13051.88
## VAB Agropecuária     3 5570  55783.48  101866.43 25638.79  35236.08 28259.72
## VAB Indústria        4 5570 248797.85 1429430.02 13302.83  44454.49 16460.17
## VAB Serviços         5 5570 638074.51 8067962.25 54864.29 109412.10 61123.32
## VAB Administração    6 5570 198580.07 1791013.71 55491.51  75272.17 47480.24
##                       min       max     range  skew kurtosis        se
## Município*           1.00      5570      5569  0.00    -1.20     21.55
## Impostos           347.55 132477939 132477591 45.32  2402.57  30399.46
## VAB Agropecuária     0.00   1575333   1575333  6.24    58.23   1364.91
## VAB Indústria      449.30  57359868  57359419 19.96   601.38  19152.93
## VAB Serviços      2318.06 528380119 528377801 53.38  3342.75 108102.63
## VAB Administração 9046.43 107219249 107210202 46.27  2503.70  23997.79

Teste de esfericidade de Bartlett.

Matriz de Correlação

##                    Impostos VAB Agropecuária VAB Indústria VAB Serviços
## Impostos          1.0000000       0.04779250    0.79015752   0.97000128
## VAB Agropecuária  0.0477925       1.00000000    0.07846073   0.04809209
## VAB Indústria     0.7901575       0.07846073    1.00000000   0.75555057
## VAB Serviços      0.9700013       0.04809209    0.75555057   1.00000000
## VAB Administração 0.6848765       0.13165144    0.53620406   0.66281438
##                   VAB Administração
## Impostos                  0.6848765
## VAB Agropecuária          0.1316514
## VAB Indústria             0.5362041
## VAB Serviços              0.6628144
## VAB Administração         1.0000000

Teste de esferecidade

## $chisq
## [1] 24894.36
## 
## $p.value
## [1] 0
## 
## $df
## [1] 10

O nível de significância foi pequeno o suficiente para o R falar que é 0.

Assumindo que valores menores que 0,05 indicam que uma análise fatorial pode ser útil para nossos dados, nossos dados se mostraram adequados para este indicador.

Teste de adequação de dados Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO)

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = PIB2)
## Overall MSA =  0.76
## MSA for each item = 
##          Impostos  VAB Agropecuária     VAB Indústria      VAB Serviços 
##              0.67              0.52              0.92              0.70 
## VAB Administração 
##              0.95

O valor do KMO geral deu 0,76.valores próximos de 1,0 geralmente indicam que a análise fatorial pode ser útil para nossos dados. Assim, prosseguiremos com a Análise Fatorial Exploratória.

Matriz de correlação mostrando apenas a diagonal inferior

fa.parallel(PIB2,fm="pa", fa="fa",  main = "Scree Plots da Análise Paralela", n.iter=1000,show.legend = TRUE)

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.

## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully

## Parallel analysis suggests that the number of factors =  2  and the number of components =  NA

fm = método de extração; o principal axis factoring (pa)

fa = “fa” estamos falando que queremos uma factor analysis, ou seja, uma análise fatorial.

n.iter = número de iterações que queremos realizar.

Conclusão: Ela nos fala quantos fatores são sugeridos por meio da Análise Paralela. o número de fatores recomendados é 2.

fit <- fa(PIB2, nfactors = 2, n.obs = 5570 , rotate = "oblimin", residuals = TRUE, fm = "pa")

## maximum iteration exceeded

## Loading required namespace: GPArotation

## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : I
## am sorry, to do these rotations requires the GPArotation package to be installed

## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.

## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully

print(fit, sort = TRUE)

## Factor Analysis using method =  pa
## Call: fa(r = PIB2, nfactors = 2, n.obs = 5570, rotate = "oblimin", 
##     residuals = TRUE, fm = "pa")
## Standardized loadings (pattern matrix) based upon correlation matrix
##                   item  PA1   PA2   h2     u2 com
## Impostos             1 1.00 -0.09 1.02 -0.016 1.0
## VAB Serviços         4 0.96 -0.07 0.93  0.065 1.0
## VAB Indústria        3 0.78  0.01 0.61  0.386 1.0
## VAB Administração    5 0.69  0.16 0.51  0.495 1.1
## VAB Agropecuária     2 0.09  0.45 0.21  0.792 1.1
## 
##                        PA1  PA2
## SS loadings           3.04 0.24
## Proportion Var        0.61 0.05
## Cumulative Var        0.61 0.66
## Proportion Explained  0.93 0.07
## Cumulative Proportion 0.93 1.00
## 
## Mean item complexity =  1
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  4.47 with Chi Square of  24894.36
## The degrees of freedom for the model are 1  and the objective function was  0.02 
## 
## The root mean square of the residuals (RMSR) is  0 
## The df corrected root mean square of the residuals is  0.01 
## 
## The harmonic number of observations is  5570 with the empirical chi square  2.14  with prob <  0.14 
## The total number of observations was  5570  with Likelihood Chi Square =  108.92  with prob <  1.7e-25 
## 
## Tucker Lewis Index of factoring reliability =  0.957
## RMSEA index =  0.139  and the 90 % confidence intervals are  0.118 0.162
## BIC =  100.3
## Fit based upon off diagonal values = 1

nfactors = número de fatores

n.obs = tamanho amostral

rotate = método de rotação (uma rotação oblíqua, permite que os fatores se correlacionem)

residuals = se devemos pedir para sair os resíduos

fm = método de extração usado; “pa” = principal axis factoring.

h2 representa a comunalidade e u2 representa a singularidade dos itens.

Visualização gráfica do modelo e suas cargas fatoriais

plot dos escores fatoriais comos pontos e cargas fatoriais como vetores direcionais

A análise fatorial exploratória mostrou que os dados eram adequados para a análise KMO = 0,76; Teste de esfericidade de Bartlett, χ²(10; N = 5.570)= 24.894, p < 0,001. A análise paralela sugeriu a extração de dois fatores.

Análise de componentes principais

Criação de Componentes

pca=PCA(PIB2, graph=TRUE)

pca

## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 5570 individuals, described by 5 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"

pca$var$contrib

##                        Dim.1      Dim.2     Dim.3      Dim.4        Dim.5
## Impostos          28.9529042  0.6605415  1.306223 13.9661014 55.114229898
## VAB Agropecuária   0.4355799 97.7176952  1.321049  0.5216675  0.004008691
## VAB Indústria     22.9739602  0.1425690 25.269741 51.1384115  0.475317968
## VAB Serviços      28.0737464  0.6670085  1.368044 25.5873143 44.303887283
## VAB Administração 19.5638093  0.8121859 70.734943  8.7865054  0.102556161

A variância retida em cada um dos compomentes é medida pelos “autovalores” (eigenvalues), que podem ser extraídos utilizando a função get_eigenvalue()

autovalores=get_eigenvalue(pca)
autovalores

##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.22786142       64.5572285                    64.55723
## Dim.2 1.00110274       20.0220547                    84.57928
## Dim.3 0.47627295        9.5254590                    94.10474
## Dim.4 0.26696186        5.3392371                    99.44398
## Dim.5 0.02780103        0.5560207                   100.00000

Autovaloes superiores a 1 indicam que a variância do componente é superior ao que representaria a variância dos dados originais, sendo possível utilizar inclusive como ponto de corte para decidir quantos componentes utilizar.

Observa-se que no exemplo acima, foram criados 5 componentes principais, dos quais os dois primeiros explicam 84,57% da variação.

fviz_eig(pca, addlabels=TRUE, ylim = c(0,70))

variaveis=get_pca_var(pca)
head(variaveis$coord)

##                       Dim.1       Dim.2       Dim.3       Dim.4        Dim.5
## Impostos          0.9667262 -0.08131850  0.07887450 -0.19309108 -0.123783380
## VAB Agropecuária  0.1185745  0.98906750  0.07932086 -0.03731827 -0.001055679
## VAB Indústria     0.8611432 -0.03777913  0.34691922  0.36948620  0.011495360
## VAB Serviços      0.9519357 -0.08171560  0.08071940 -0.26135870  0.110981702
## VAB Administração 0.7946651  0.09017103 -0.58042347  0.15315554  0.005339632

Estatística Multivariada II

Composição do PIB

05 fevereiro, 2022

Banco de dados

Análise descritiva

Análise fatorial

Teste de esfericidade de Bartlett.

Análise de componentes principais