Alunos:

  • Ana Vitória

  • Ester Rosa

  • Francieli Almeida

  • Mateus Elias

Dados:

Banco de dados

O conjunto de dados foi retirado da Tabela 5938 do SIDRA IBGE

Produto interno bruto a preços correntes, impostos, líquidos de subsídios, sobre produtos a preços correntes e valor adicionado bruto a preços correntes total e por atividade econômica, e respectivas participações - Referência 2010

As variáveis escolhidas foram:

  • Produto Interno Bruto a preços correntes (Mil Reais);

  • Impostos, líquidos de subsídios, sobre produtos a preços correntes (Mil Reais);

  • Valor adicionado bruto a preços correntes da agropecuária (Mil Reais);

  • Valor adicionado bruto a preços correntes da indústria (Mil Reais);

  • Valor adicionado bruto a preços correntes dos serviços, exclusive administração, defesa, educação e saúde públicas e seguridade social (Mil Reais);

  • Valor adicionado bruto a preços correntes da administração, defesa, educação e saúde públicas e seguridade social (Mil Reais).

Técnicas Utilizadas

  • Análise descritiva;

  • Análise fatorial;

  • Análise de componentes principais.

Análise descritiva

VAB: Valor adicionado bruto

Análise fatorial

A análise fatorial clássica exige que alguns pressupostos sejam satisfeitos, quais sejam (MALHOTRA, 2001):

Normalidade dos dados: apesar deste pressuposto não ser crítico quando a estimação é realizada por mínimos quadrados ordinários, a exigência de normalidade auxilia na análise, evitando possíveis assimetrias e a presença de outliers.

Variáveis quantitativas medidas em escala Intervalar ou de Razão. Esse pressuposto é crítico, pois a análise deve ser realizada com variáveis quantitatias e, frequentemente, alguns estudos são realizados utilizando variáveis ordinais (as quaiss são qualitativas) na análise fatorial clássica (o que é errado de muitas maneiras).

Como diretriz inicial deve haver ao menos quatro a cinco vezes mais observações do que variáveis.

Em geral, as estatísticas utilizadas no processo de análise fatorial são (AAKER-KUMARDAY, 2001):

Teste de esfericidade de Bartlett: estatística de teste usada para examinar a hipótese de que as variáveis não sejam correlacionadas na população, ou seja, a matriz de correlação da população é uma matriz identidade onde cada variável se correlaciona perfeitamente com ela própria (r=1), mas não apresenta correlação com as outras variáveis (r=0).

Matriz de correlação: o triângulo inferior da matriz exibe as correlações simples, r, entre todos os pares possíveis de variáveis incluídas na análise, enquanto os elementos da diagonal, que são todos iguais a 1, em geral são omitidos.

Comunalidade: porção da variância que uma variável compartilha com todas as outras variáveis consideradas, sendo também a proporção de variância explicada pelos fatores comuns.

Autovalor: representa a variância total explicada por cada fator.

Cargas fatoriais: correlação simples entre as variáveis e os fatores.

Gráfico das cargas dos fatores: gráfico das variáveis originais utilizando as cargas fatoriais como ordenadas.

Matriz de fatores ou matriz principal: contém as cargas fatoriais de todos as variáveis em todos os fatores extraídos.

Escores fatoriais: escores compostos estimados para cada entrevistado nos fatores derivados.

Medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO): é o índice usado para avaliar a adequacidade da análise fatorial. Valores altos (entre 0,5 e 1,0) indicam que a análise fatorial é apropriada. Valores abaixo de 0,5 indicam que a análise fatorial pode ser inadequada.

Percentagem de variância: percentagem da variância total atribuída a cada fator.

Resíduos: diferenças entre as correlações observadas, dadas na matriz de correlação de entrada (input) e as correlações reproduzidas, conforme estimadas pela matriz de fatores.

Scree plot: gráfico dos autovalores versus número de fatores por ordem de extração.

Dados
Descrição dos dados
##                   vars    n      mean         sd   median   trimmed      mad
## Município*           1 5570   2785.50    1608.06  2785.50   2785.50  2064.52
## Impostos             2 5570 185358.53 2268785.86 10933.98  24800.93 13051.88
## VAB Agropecuária     3 5570  55783.48  101866.43 25638.79  35236.08 28259.72
## VAB Indústria        4 5570 248797.85 1429430.02 13302.83  44454.49 16460.17
## VAB Serviços         5 5570 638074.51 8067962.25 54864.29 109412.10 61123.32
## VAB Administração    6 5570 198580.07 1791013.71 55491.51  75272.17 47480.24
##                       min       max     range  skew kurtosis        se
## Município*           1.00      5570      5569  0.00    -1.20     21.55
## Impostos           347.55 132477939 132477591 45.32  2402.57  30399.46
## VAB Agropecuária     0.00   1575333   1575333  6.24    58.23   1364.91
## VAB Indústria      449.30  57359868  57359419 19.96   601.38  19152.93
## VAB Serviços      2318.06 528380119 528377801 53.38  3342.75 108102.63
## VAB Administração 9046.43 107219249 107210202 46.27  2503.70  23997.79

Teste de esfericidade de Bartlett.

  • Matriz de Correlação
##                    Impostos VAB Agropecuária VAB Indústria VAB Serviços
## Impostos          1.0000000       0.04779250    0.79015752   0.97000128
## VAB Agropecuária  0.0477925       1.00000000    0.07846073   0.04809209
## VAB Indústria     0.7901575       0.07846073    1.00000000   0.75555057
## VAB Serviços      0.9700013       0.04809209    0.75555057   1.00000000
## VAB Administração 0.6848765       0.13165144    0.53620406   0.66281438
##                   VAB Administração
## Impostos                  0.6848765
## VAB Agropecuária          0.1316514
## VAB Indústria             0.5362041
## VAB Serviços              0.6628144
## VAB Administração         1.0000000
  • Teste de esferecidade
## $chisq
## [1] 24894.36
## 
## $p.value
## [1] 0
## 
## $df
## [1] 10

O nível de significância foi pequeno o suficiente para o R falar que é 0.

Assumindo que valores menores que 0,05 indicam que uma análise fatorial pode ser útil para nossos dados, nossos dados se mostraram adequados para este indicador.

  • Teste de adequação de dados Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = PIB2)
## Overall MSA =  0.76
## MSA for each item = 
##          Impostos  VAB Agropecuária     VAB Indústria      VAB Serviços 
##              0.67              0.52              0.92              0.70 
## VAB Administração 
##              0.95

O valor do KMO geral deu 0,76.valores próximos de 1,0 geralmente indicam que a análise fatorial pode ser útil para nossos dados. Assim, prosseguiremos com a Análise Fatorial Exploratória.

  • Matriz de correlação mostrando apenas a diagonal inferior
fa.parallel(PIB2,fm="pa", fa="fa",  main = "Scree Plots da Análise Paralela", n.iter=1000,show.legend = TRUE)
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully

## Parallel analysis suggests that the number of factors =  2  and the number of components =  NA

fm = método de extração; o principal axis factoring (pa)

fa = “fa” estamos falando que queremos uma factor analysis, ou seja, uma análise fatorial.

n.iter = número de iterações que queremos realizar.

Conclusão: Ela nos fala quantos fatores são sugeridos por meio da Análise Paralela. o número de fatores recomendados é 2.

fit <- fa(PIB2, nfactors = 2, n.obs = 5570 , rotate = "oblimin", residuals = TRUE, fm = "pa")
## maximum iteration exceeded
## Loading required namespace: GPArotation
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : I
## am sorry, to do these rotations requires the GPArotation package to be installed
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
print(fit, sort = TRUE)
## Factor Analysis using method =  pa
## Call: fa(r = PIB2, nfactors = 2, n.obs = 5570, rotate = "oblimin", 
##     residuals = TRUE, fm = "pa")
## Standardized loadings (pattern matrix) based upon correlation matrix
##                   item  PA1   PA2   h2     u2 com
## Impostos             1 1.00 -0.09 1.02 -0.016 1.0
## VAB Serviços         4 0.96 -0.07 0.93  0.065 1.0
## VAB Indústria        3 0.78  0.01 0.61  0.386 1.0
## VAB Administração    5 0.69  0.16 0.51  0.495 1.1
## VAB Agropecuária     2 0.09  0.45 0.21  0.792 1.1
## 
##                        PA1  PA2
## SS loadings           3.04 0.24
## Proportion Var        0.61 0.05
## Cumulative Var        0.61 0.66
## Proportion Explained  0.93 0.07
## Cumulative Proportion 0.93 1.00
## 
## Mean item complexity =  1
## Test of the hypothesis that 2 factors are sufficient.
## 
## The degrees of freedom for the null model are  10  and the objective function was  4.47 with Chi Square of  24894.36
## The degrees of freedom for the model are 1  and the objective function was  0.02 
## 
## The root mean square of the residuals (RMSR) is  0 
## The df corrected root mean square of the residuals is  0.01 
## 
## The harmonic number of observations is  5570 with the empirical chi square  2.14  with prob <  0.14 
## The total number of observations was  5570  with Likelihood Chi Square =  108.92  with prob <  1.7e-25 
## 
## Tucker Lewis Index of factoring reliability =  0.957
## RMSEA index =  0.139  and the 90 % confidence intervals are  0.118 0.162
## BIC =  100.3
## Fit based upon off diagonal values = 1

nfactors = número de fatores

n.obs = tamanho amostral

rotate = método de rotação (uma rotação oblíqua, permite que os fatores se correlacionem)

residuals = se devemos pedir para sair os resíduos

fm = método de extração usado; “pa” = principal axis factoring.

h2 representa a comunalidade e u2 representa a singularidade dos itens.

  • Visualização gráfica do modelo e suas cargas fatoriais

  • plot dos escores fatoriais comos pontos e cargas fatoriais como vetores direcionais

A análise fatorial exploratória mostrou que os dados eram adequados para a análise KMO = 0,76; Teste de esfericidade de Bartlett, χ²(10; N = 5.570)= 24.894, p < 0,001. A análise paralela sugeriu a extração de dois fatores.

Análise de componentes principais

  • Criação de Componentes
pca=PCA(PIB2, graph=TRUE)

pca
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 5570 individuals, described by 5 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"
pca$var$contrib
##                        Dim.1      Dim.2     Dim.3      Dim.4        Dim.5
## Impostos          28.9529042  0.6605415  1.306223 13.9661014 55.114229898
## VAB Agropecuária   0.4355799 97.7176952  1.321049  0.5216675  0.004008691
## VAB Indústria     22.9739602  0.1425690 25.269741 51.1384115  0.475317968
## VAB Serviços      28.0737464  0.6670085  1.368044 25.5873143 44.303887283
## VAB Administração 19.5638093  0.8121859 70.734943  8.7865054  0.102556161

A variância retida em cada um dos compomentes é medida pelos “autovalores” (eigenvalues), que podem ser extraídos utilizando a função get_eigenvalue()

autovalores=get_eigenvalue(pca)
autovalores
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.22786142       64.5572285                    64.55723
## Dim.2 1.00110274       20.0220547                    84.57928
## Dim.3 0.47627295        9.5254590                    94.10474
## Dim.4 0.26696186        5.3392371                    99.44398
## Dim.5 0.02780103        0.5560207                   100.00000

Autovaloes superiores a 1 indicam que a variância do componente é superior ao que representaria a variância dos dados originais, sendo possível utilizar inclusive como ponto de corte para decidir quantos componentes utilizar.

Observa-se que no exemplo acima, foram criados 5 componentes principais, dos quais os dois primeiros explicam 84,57% da variação.

fviz_eig(pca, addlabels=TRUE, ylim = c(0,70))

variaveis=get_pca_var(pca)
head(variaveis$coord)
##                       Dim.1       Dim.2       Dim.3       Dim.4        Dim.5
## Impostos          0.9667262 -0.08131850  0.07887450 -0.19309108 -0.123783380
## VAB Agropecuária  0.1185745  0.98906750  0.07932086 -0.03731827 -0.001055679
## VAB Indústria     0.8611432 -0.03777913  0.34691922  0.36948620  0.011495360
## VAB Serviços      0.9519357 -0.08171560  0.08071940 -0.26135870  0.110981702
## VAB Administração 0.7946651  0.09017103 -0.58042347  0.15315554  0.005339632