Alunos:
Ana Vitória
Ester Rosa
Francieli Almeida
Mateus Elias
Dados:
O conjunto de dados foi retirado da Tabela 5938 do SIDRA IBGE
Produto interno bruto a preços correntes, impostos, líquidos de subsídios, sobre produtos a preços correntes e valor adicionado bruto a preços correntes total e por atividade econômica, e respectivas participações - Referência 2010
As variáveis escolhidas foram:
Produto Interno Bruto a preços correntes (Mil Reais);
Impostos, líquidos de subsídios, sobre produtos a preços correntes (Mil Reais);
Valor adicionado bruto a preços correntes da agropecuária (Mil Reais);
Valor adicionado bruto a preços correntes da indústria (Mil Reais);
Valor adicionado bruto a preços correntes dos serviços, exclusive administração, defesa, educação e saúde públicas e seguridade social (Mil Reais);
Valor adicionado bruto a preços correntes da administração, defesa, educação e saúde públicas e seguridade social (Mil Reais).
Técnicas Utilizadas
Análise descritiva;
Análise fatorial;
Análise de componentes principais.
VAB: Valor adicionado bruto
A análise fatorial clássica exige que alguns pressupostos sejam satisfeitos, quais sejam (MALHOTRA, 2001):
Normalidade dos dados: apesar deste pressuposto não ser crítico quando a estimação é realizada por mínimos quadrados ordinários, a exigência de normalidade auxilia na análise, evitando possíveis assimetrias e a presença de outliers.
Variáveis quantitativas medidas em escala Intervalar ou de Razão. Esse pressuposto é crítico, pois a análise deve ser realizada com variáveis quantitatias e, frequentemente, alguns estudos são realizados utilizando variáveis ordinais (as quaiss são qualitativas) na análise fatorial clássica (o que é errado de muitas maneiras).
Como diretriz inicial deve haver ao menos quatro a cinco vezes mais observações do que variáveis.
| Em geral, as estatísticas utilizadas no processo de análise fatorial são (AAKER-KUMARDAY, 2001): |
Teste de esfericidade de Bartlett: estatística de teste usada para examinar a hipótese de que as variáveis não sejam correlacionadas na população, ou seja, a matriz de correlação da população é uma matriz identidade onde cada variável se correlaciona perfeitamente com ela própria (r=1), mas não apresenta correlação com as outras variáveis (r=0).
Matriz de correlação: o triângulo inferior da matriz exibe as correlações simples, r, entre todos os pares possíveis de variáveis incluídas na análise, enquanto os elementos da diagonal, que são todos iguais a 1, em geral são omitidos.
Comunalidade: porção da variância que uma variável compartilha com todas as outras variáveis consideradas, sendo também a proporção de variância explicada pelos fatores comuns.
Autovalor: representa a variância total explicada por cada fator.
Cargas fatoriais: correlação simples entre as variáveis e os fatores.
Gráfico das cargas dos fatores: gráfico das variáveis originais utilizando as cargas fatoriais como ordenadas.
Matriz de fatores ou matriz principal: contém as cargas fatoriais de todos as variáveis em todos os fatores extraídos.
Escores fatoriais: escores compostos estimados para cada entrevistado nos fatores derivados.
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin (KMO): é o índice usado para avaliar a adequacidade da análise fatorial. Valores altos (entre 0,5 e 1,0) indicam que a análise fatorial é apropriada. Valores abaixo de 0,5 indicam que a análise fatorial pode ser inadequada.
Percentagem de variância: percentagem da variância total atribuída a cada fator.
Resíduos: diferenças entre as correlações observadas, dadas na matriz de correlação de entrada (input) e as correlações reproduzidas, conforme estimadas pela matriz de fatores.
Scree plot: gráfico dos autovalores versus número de fatores por ordem de extração.
| Dados |
| Descrição dos dados |
## vars n mean sd median trimmed mad
## Município* 1 5570 2785.50 1608.06 2785.50 2785.50 2064.52
## Impostos 2 5570 185358.53 2268785.86 10933.98 24800.93 13051.88
## VAB Agropecuária 3 5570 55783.48 101866.43 25638.79 35236.08 28259.72
## VAB Indústria 4 5570 248797.85 1429430.02 13302.83 44454.49 16460.17
## VAB Serviços 5 5570 638074.51 8067962.25 54864.29 109412.10 61123.32
## VAB Administração 6 5570 198580.07 1791013.71 55491.51 75272.17 47480.24
## min max range skew kurtosis se
## Município* 1.00 5570 5569 0.00 -1.20 21.55
## Impostos 347.55 132477939 132477591 45.32 2402.57 30399.46
## VAB Agropecuária 0.00 1575333 1575333 6.24 58.23 1364.91
## VAB Indústria 449.30 57359868 57359419 19.96 601.38 19152.93
## VAB Serviços 2318.06 528380119 528377801 53.38 3342.75 108102.63
## VAB Administração 9046.43 107219249 107210202 46.27 2503.70 23997.79
## Impostos VAB Agropecuária VAB Indústria VAB Serviços
## Impostos 1.0000000 0.04779250 0.79015752 0.97000128
## VAB Agropecuária 0.0477925 1.00000000 0.07846073 0.04809209
## VAB Indústria 0.7901575 0.07846073 1.00000000 0.75555057
## VAB Serviços 0.9700013 0.04809209 0.75555057 1.00000000
## VAB Administração 0.6848765 0.13165144 0.53620406 0.66281438
## VAB Administração
## Impostos 0.6848765
## VAB Agropecuária 0.1316514
## VAB Indústria 0.5362041
## VAB Serviços 0.6628144
## VAB Administração 1.0000000
## $chisq
## [1] 24894.36
##
## $p.value
## [1] 0
##
## $df
## [1] 10
O nível de significância foi pequeno o suficiente para o R falar que é 0.
Assumindo que valores menores que 0,05 indicam que uma análise fatorial pode ser útil para nossos dados, nossos dados se mostraram adequados para este indicador.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = PIB2)
## Overall MSA = 0.76
## MSA for each item =
## Impostos VAB Agropecuária VAB Indústria VAB Serviços
## 0.67 0.52 0.92 0.70
## VAB Administração
## 0.95
O valor do KMO geral deu 0,76.valores próximos de 1,0 geralmente indicam que a análise fatorial pode ser útil para nossos dados. Assim, prosseguiremos com a Análise Fatorial Exploratória.
fa.parallel(PIB2,fm="pa", fa="fa", main = "Scree Plots da Análise Paralela", n.iter=1000,show.legend = TRUE)
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
fm = método de extração; o principal axis factoring (pa)
fa = “fa” estamos falando que queremos uma factor analysis, ou seja, uma análise fatorial.
n.iter = número de iterações que queremos realizar.
Conclusão: Ela nos fala quantos fatores são sugeridos por meio da Análise Paralela. o número de fatores recomendados é 2.
fit <- fa(PIB2, nfactors = 2, n.obs = 5570 , rotate = "oblimin", residuals = TRUE, fm = "pa")
## maximum iteration exceeded
## Loading required namespace: GPArotation
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : I
## am sorry, to do these rotations requires the GPArotation package to be installed
## Warning in fa.stats(r = r, f = f, phi = phi, n.obs = n.obs, np.obs = np.obs, :
## The estimated weights for the factor scores are probably incorrect. Try a
## different factor score estimation method.
## Warning in fac(r = r, nfactors = nfactors, n.obs = n.obs, rotate = rotate, : An
## ultra-Heywood case was detected. Examine the results carefully
print(fit, sort = TRUE)
## Factor Analysis using method = pa
## Call: fa(r = PIB2, nfactors = 2, n.obs = 5570, rotate = "oblimin",
## residuals = TRUE, fm = "pa")
## Standardized loadings (pattern matrix) based upon correlation matrix
## item PA1 PA2 h2 u2 com
## Impostos 1 1.00 -0.09 1.02 -0.016 1.0
## VAB Serviços 4 0.96 -0.07 0.93 0.065 1.0
## VAB Indústria 3 0.78 0.01 0.61 0.386 1.0
## VAB Administração 5 0.69 0.16 0.51 0.495 1.1
## VAB Agropecuária 2 0.09 0.45 0.21 0.792 1.1
##
## PA1 PA2
## SS loadings 3.04 0.24
## Proportion Var 0.61 0.05
## Cumulative Var 0.61 0.66
## Proportion Explained 0.93 0.07
## Cumulative Proportion 0.93 1.00
##
## Mean item complexity = 1
## Test of the hypothesis that 2 factors are sufficient.
##
## The degrees of freedom for the null model are 10 and the objective function was 4.47 with Chi Square of 24894.36
## The degrees of freedom for the model are 1 and the objective function was 0.02
##
## The root mean square of the residuals (RMSR) is 0
## The df corrected root mean square of the residuals is 0.01
##
## The harmonic number of observations is 5570 with the empirical chi square 2.14 with prob < 0.14
## The total number of observations was 5570 with Likelihood Chi Square = 108.92 with prob < 1.7e-25
##
## Tucker Lewis Index of factoring reliability = 0.957
## RMSEA index = 0.139 and the 90 % confidence intervals are 0.118 0.162
## BIC = 100.3
## Fit based upon off diagonal values = 1
nfactors = número de fatores
n.obs = tamanho amostral
rotate = método de rotação (uma rotação oblíqua, permite que os fatores se correlacionem)
residuals = se devemos pedir para sair os resíduos
fm = método de extração usado; “pa” = principal axis factoring.
h2 representa a comunalidade e u2 representa a singularidade dos itens.
A análise fatorial exploratória mostrou que os dados eram adequados para a análise KMO = 0,76; Teste de esfericidade de Bartlett, χ²(10; N = 5.570)= 24.894, p < 0,001. A análise paralela sugeriu a extração de dois fatores.
pca=PCA(PIB2, graph=TRUE)
pca
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 5570 individuals, described by 5 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
pca$var$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Impostos 28.9529042 0.6605415 1.306223 13.9661014 55.114229898
## VAB Agropecuária 0.4355799 97.7176952 1.321049 0.5216675 0.004008691
## VAB Indústria 22.9739602 0.1425690 25.269741 51.1384115 0.475317968
## VAB Serviços 28.0737464 0.6670085 1.368044 25.5873143 44.303887283
## VAB Administração 19.5638093 0.8121859 70.734943 8.7865054 0.102556161
A variância retida em cada um dos compomentes é medida pelos “autovalores” (eigenvalues), que podem ser extraídos utilizando a função get_eigenvalue()
autovalores=get_eigenvalue(pca)
autovalores
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 3.22786142 64.5572285 64.55723
## Dim.2 1.00110274 20.0220547 84.57928
## Dim.3 0.47627295 9.5254590 94.10474
## Dim.4 0.26696186 5.3392371 99.44398
## Dim.5 0.02780103 0.5560207 100.00000
Autovaloes superiores a 1 indicam que a variância do componente é superior ao que representaria a variância dos dados originais, sendo possível utilizar inclusive como ponto de corte para decidir quantos componentes utilizar.
Observa-se que no exemplo acima, foram criados 5 componentes principais, dos quais os dois primeiros explicam 84,57% da variação.
fviz_eig(pca, addlabels=TRUE, ylim = c(0,70))
variaveis=get_pca_var(pca)
head(variaveis$coord)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Impostos 0.9667262 -0.08131850 0.07887450 -0.19309108 -0.123783380
## VAB Agropecuária 0.1185745 0.98906750 0.07932086 -0.03731827 -0.001055679
## VAB Indústria 0.8611432 -0.03777913 0.34691922 0.36948620 0.011495360
## VAB Serviços 0.9519357 -0.08171560 0.08071940 -0.26135870 0.110981702
## VAB Administração 0.7946651 0.09017103 -0.58042347 0.15315554 0.005339632