Introdução
De inicio tomou-se como base para realizar uma Análise Fatorial o banco de dados chamado “bfi” que encontra-se disponível no software Rstudio. Avaliando os dados foi possível observar há presença de informações faltantes, desta forma foi necessário ser feita uma realocação dos dados por meio de uma função ja previamente implementada no Rstudio para seguir com a análise.
Pacotes precisos para análise
Será preciso a instalação do comando: install.packages(“Nome do pacote”), caso não se tenha previamente istalado na máquina, como tambem carregar o pacote atravéz do comando: library(Nome do pacote).
if(!require(psych)){install.packages("psych")}
## Loading required package: psych
## Warning: package 'psych' was built under R version 3.4.4
if(!require(fBasics)){install.packages("fBasics")}
## Loading required package: fBasics
## Warning: package 'fBasics' was built under R version 3.4.4
## Loading required package: timeDate
## Warning: package 'timeDate' was built under R version 3.4.4
## Loading required package: timeSeries
## Warning: package 'timeSeries' was built under R version 3.4.4
##
## Attaching package: 'timeSeries'
## The following object is masked from 'package:psych':
##
## outlier
##
## Attaching package: 'fBasics'
## The following object is masked from 'package:psych':
##
## tr
if(!require(corrgram)){install.packages("corrgram")}
## Loading required package: corrgram
## Warning: package 'corrgram' was built under R version 3.4.4
if(!require(car)){install.packages("car")}
## Loading required package: car
## Warning: package 'car' was built under R version 3.4.4
## Loading required package: carData
## Warning: package 'carData' was built under R version 3.4.4
##
## Attaching package: 'car'
## The following object is masked from 'package:fBasics':
##
## densityPlot
## The following object is masked from 'package:psych':
##
## logit
Sobre os Dados
Para ter acesso ao banco de dados no Rstudio utiliza-se o comando abaixo,onde observou-se que tinha 2800 observações e 28 variáveis.
data("bfi")
Definindo o diretório de localização dos dados
setwd("F:/Multivariada 2")
Os dados do “bfi” contém 28 variavéis, destas, 25 são quantitativas e 3 qualitativas, desta forma para análise será utilizada apenas as 25 qualitativas, para isso foi reformulado o o banco de dados e nomeado de “BFI”.
dados <- read.table("BFI.txt", head=T); dados
## A1 A2 A3 A4 A5 C1 C2 C3 C4 C5 E1 E2 E3 E4 E5 N1 N2 N3 N4 N5 O1 O2 O3
## 61617 2 4 3 4 4 2 3 3 4 4 3 3 3 4 4 3 4 2 2 3 3 6 3
## 61618 2 4 5 2 5 5 4 4 3 4 1 1 6 4 3 3 3 3 5 5 4 2 4
## 61620 5 4 5 4 4 4 5 4 2 5 2 4 4 4 5 4 5 4 2 3 4 2 5
## 61621 4 4 6 5 5 4 4 3 5 5 5 3 4 4 4 2 5 2 4 1 3 3 4
## 61622 2 3 3 4 5 4 4 5 3 2 2 2 5 4 5 2 3 4 4 3 3 3 4
## 61623 6 6 5 6 5 6 6 6 1 3 2 1 6 5 6 3 5 2 2 3 4 3 5
## 61624 2 5 5 3 5 5 4 4 2 3 4 3 4 5 5 1 2 2 1 1 5 2 5
## 61629 4 3 1 5 1 3 2 4 2 4 3 6 4 2 1 6 3 2 6 4 3 2 4
## 61630 4 3 6 3 3 6 6 3 4 5 5 3 NA 4 3 5 5 2 3 3 6 6 6
## 61633 2 5 6 6 5 6 5 6 2 1 2 2 4 5 5 5 5 5 2 4 5 1 5
## 61634 4 4 5 6 5 4 3 5 3 2 1 3 2 5 4 3 3 4 2 3 5 3 5
## 61636 2 5 5 5 5 5 4 5 4 5 3 3 4 5 4 4 5 3 2 NA 4 6 4
## 61637 5 5 5 6 4 5 4 3 2 2 3 3 3 2 4 1 2 2 2 2 4 2 4
## 61639 5 5 5 6 6 4 4 4 2 1 2 2 4 6 5 1 1 1 2 1 5 3 4
## 61640 4 5 2 2 1 5 5 5 2 2 3 4 3 6 5 2 4 2 2 3 5 2 5
## 61643 4 3 6 6 3 5 5 5 3 5 1 1 6 6 4 4 5 4 5 5 6 6 6
## 61650 4 6 6 2 5 4 4 4 4 4 1 2 5 5 5 4 4 4 4 5 5 1 5
## 61651 5 5 5 4 5 5 5 5 4 3 2 2 4 6 6 6 5 5 4 4 5 1 4
## 61653 4 4 5 4 3 5 4 5 4 6 1 2 4 5 5 5 6 5 5 2 4 2 2
## 61654 4 4 6 5 5 1 1 1 5 6 1 1 4 5 6 5 5 5 1 1 4 1 5
## 61656 5 4 2 1 2 4 6 5 5 4 3 3 5 5 4 1 3 3 2 1 6 1 3
## 61659 1 6 6 1 5 5 4 4 2 3 1 2 4 3 4 2 5 5 4 6 5 1 6
## 61661 1 5 6 5 6 4 3 2 4 5 2 1 2 5 2 2 2 2 2 2 6 1 5
## 61664 2 6 5 6 5 3 5 6 3 6 2 2 4 6 6 4 4 4 6 6 6 1 5
## 61667 4 5 5 6 5 5 5 4 1 1 3 2 5 5 6 2 3 3 1 1 6 2 5
## 61668 1 6 6 1 6 5 2 5 1 1 1 1 6 6 6 2 3 1 2 1 6 4 5
## 61669 2 4 4 4 3 6 5 6 1 1 2 4 4 2 6 3 3 5 3 2 5 2 6
## 61670 2 5 6 6 6 4 5 4 3 4 1 2 6 6 6 4 4 5 2 3 6 1 6
## 61672 2 5 1 3 5 5 4 5 2 5 1 2 6 5 4 1 4 2 2 5 2 4 5
## 61673 4 5 6 5 5 5 5 3 5 4 1 2 6 5 5 5 4 4 3 1 4 4 6
## 61678 1 6 5 6 3 5 5 5 4 3 2 5 1 5 3 5 5 5 6 6 4 3 3
## 61679 2 5 6 6 6 5 5 5 2 4 1 2 4 5 5 3 2 4 1 2 5 2 5
## 61682 1 5 6 5 4 1 5 6 4 6 6 6 2 1 1 1 2 1 3 6 6 6 5
## 61683 2 4 5 6 5 4 6 4 2 4 2 2 3 5 3 2 2 4 1 3 5 5 5
## 61684 4 4 4 4 4 4 3 3 3 4 2 3 4 2 3 NA 2 1 2 2 4 3 5
## O4 O5
## 61617 4 3
## 61618 3 3
## 61620 5 2
## 61621 3 5
## 61622 3 3
## 61623 6 1
## 61624 6 1
## 61629 5 3
## 61630 6 1
## 61633 5 2
## 61634 6 3
## 61636 5 4
## 61637 5 2
## 61639 4 4
## 61640 5 5
## 61643 3 2
## 61650 6 3
## 61651 5 4
## 61653 4 2
## 61654 3 2
## 61656 2 4
## 61659 6 2
## 61661 5 2
## 61664 6 1
## 61667 6 2
## 61668 5 3
## 61669 6 1
## 61670 4 3
## 61672 4 1
## 61673 5 1
## 61678 6 5
## 61679 5 2
## 61682 6 1
## 61683 4 2
## 61684 5 3
Ao ser feita uma observação nos dados encontrou-se há presença de dados faltantes (NA) trazendo problemas durante a análise, por esse motivo o comando abaixo que já está instalado no software R, reorganiza os dados e faz a retirada desses NA.
dados<-dados[complete.cases(dados),]
Definição das variáveis do banco de dados
Um quadro de dados com 2800 observações nas 28 variáveis seguintes. (Os números são os números de itens SAPA).
Sou indiferente aos sentimentos dos outros.
Informe-se sobre o bem-estar dos outros.
Saiba como consolar os outros.
Amar as crianças.
Faça as pessoas se sentirem à vontade.
Estou exigindo no meu trabalho.
Continue até que tudo esteja perfeito.
Faça as coisas de acordo com um plano.
Faça as coisas a meio caminho.
Desperdiçar meu tempo.
Não fale muito.
Acha difícil abordar os outros.
Saiba como cativar as pessoas.
Faz amigos facilmente.
Tome conta.
Ficar bravo facilmente.
Fique irritado facilmente.
Tenha alterações de humor frequentes.
Muitas vezes, sinto-me triste.
Pânico facilmente.
Estou cheio de ideias.
Evite material de leitura difícil.
Leve a conversa para um nível mais alto.
Gastar tempo refletindo sobre as coisas.
Não vai investigar profundamente em um assunto.
Variáveis retiradas da Análise
Machos = 1, Fêmeas = 2
1 = HS, 2 = terminado HS, 3 = alguma faculdade, 4 = pós-graduação 5 = pós-graduação
idade em anos
Análise descritiva dos dados
nobs |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
NAs |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
Minimum |
1.00 |
3.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
Maximum |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
5.00 |
6.00 |
1. Quartile |
2.00 |
4.00 |
5.00 |
3.75 |
4.00 |
4.00 |
4.00 |
4.00 |
2.00 |
2.00 |
3. Quartile |
4.00 |
5.00 |
6.00 |
6.00 |
5.00 |
5.00 |
5.00 |
5.00 |
4.00 |
5.00 |
Mean |
3.06 |
4.69 |
4.78 |
4.41 |
4.44 |
4.31 |
4.28 |
4.38 |
2.88 |
3.53 |
Median |
3.00 |
5.00 |
5.00 |
5.00 |
5.00 |
5.00 |
4.50 |
4.50 |
3.00 |
4.00 |
Sum |
98.00 |
150.00 |
153.00 |
141.00 |
142.00 |
138.00 |
137.00 |
140.00 |
92.00 |
113.00 |
SE Mean |
0.27 |
0.16 |
0.26 |
0.30 |
0.24 |
0.22 |
0.21 |
0.21 |
0.22 |
0.28 |
LCL Mean |
2.52 |
4.36 |
4.24 |
3.79 |
3.95 |
3.87 |
3.86 |
3.95 |
2.42 |
2.95 |
UCL Mean |
3.60 |
5.01 |
5.32 |
5.02 |
4.92 |
4.76 |
4.70 |
4.80 |
3.33 |
4.11 |
Variance |
2.25 |
0.80 |
2.24 |
2.89 |
1.80 |
1.51 |
1.37 |
1.40 |
1.60 |
2.58 |
Stdev |
1.50 |
0.90 |
1.50 |
1.70 |
1.34 |
1.23 |
1.17 |
1.18 |
1.26 |
1.61 |
Skewness |
0.12 |
-0.16 |
-1.31 |
-0.74 |
-1.11 |
-1.19 |
-0.89 |
-0.73 |
0.23 |
-0.15 |
Kurtosis |
-1.42 |
-0.84 |
0.58 |
-0.80 |
0.49 |
1.14 |
0.46 |
0.37 |
-1.18 |
-1.12 |
nobs |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
NAs |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
Mínimo |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
1.00 |
Máximo |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
6.00 |
5.00 |
6.00 |
6.00 |
1. Quartil |
1.00 |
2.00 |
3.75 |
4.00 |
4.00 |
2.00 |
3.00 |
2.00 |
2.00 |
1.75 |
3. Quartil |
3.00 |
3.00 |
5.00 |
5.00 |
5.25 |
4.00 |
5.00 |
4.25 |
4.00 |
4.25 |
Média |
2.09 |
2.53 |
4.16 |
4.59 |
4.47 |
3.03 |
3.62 |
3.31 |
2.91 |
3.06 |
Mediana |
2.00 |
2.00 |
4.00 |
5.00 |
5.00 |
3.00 |
4.00 |
4.00 |
2.00 |
3.00 |
Sum |
67.00 |
81.00 |
133.00 |
147.00 |
143.00 |
97.00 |
116.00 |
106.00 |
93.00 |
98.00 |
SE Mean |
0.22 |
0.24 |
0.24 |
0.23 |
0.25 |
0.27 |
0.22 |
0.24 |
0.28 |
0.30 |
LCL Mean |
1.65 |
2.05 |
3.67 |
4.12 |
3.97 |
2.47 |
3.17 |
2.82 |
2.34 |
2.44 |
UCL Mean |
2.54 |
3.02 |
4.64 |
5.07 |
4.97 |
3.59 |
4.08 |
3.81 |
3.47 |
3.68 |
Variance |
1.51 |
1.81 |
1.81 |
1.73 |
1.93 |
2.42 |
1.60 |
1.90 |
2.47 |
2.96 |
Stdev |
1.23 |
1.34 |
1.35 |
1.32 |
1.39 |
1.56 |
1.26 |
1.38 |
1.57 |
1.72 |
Skewness |
1.35 |
1.09 |
-0.27 |
-1.14 |
-0.91 |
0.30 |
-0.13 |
-0.19 |
0.63 |
0.35 |
curtose |
1.66 |
0.60 |
-0.58 |
0.51 |
0.22 |
-1.15 |
-1.10 |
-1.45 |
-0.89 |
-1.19 |
nobs |
32.00 |
32.00 |
32.00 |
32.00 |
32.00 |
NAs |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
Minimum |
2.00 |
1.00 |
2.00 |
2.00 |
1.00 |
Maximum |
6.00 |
6.00 |
6.00 |
6.00 |
5.00 |
1. Quartile |
4.00 |
1.00 |
4.00 |
4.00 |
2.00 |
3. Quartile |
5.25 |
3.00 |
5.00 |
6.00 |
3.00 |
Mean |
4.66 |
2.56 |
4.66 |
4.72 |
2.50 |
Median |
5.00 |
2.00 |
5.00 |
5.00 |
2.00 |
Sum |
149.00 |
82.00 |
149.00 |
151.00 |
80.00 |
SE Mean |
0.19 |
0.27 |
0.17 |
0.21 |
0.22 |
LCL Mean |
4.26 |
2.01 |
4.31 |
4.30 |
2.06 |
UCL Mean |
5.05 |
3.12 |
5.01 |
5.14 |
2.94 |
Variance |
1.20 |
2.38 |
0.94 |
1.37 |
1.48 |
Stdev |
1.10 |
1.54 |
0.97 |
1.17 |
1.22 |
Skewness |
-0.46 |
0.93 |
-0.74 |
-0.52 |
0.57 |
Kurtosis |
-0.67 |
-0.13 |
0.17 |
-0.89 |
-0.60 |
Os dados Não apresentam distribuição normal,desta forma é preciso que se use artifícios estatísticos para transformar em dados com normalidade. Para isso utilizamos a padronização por meio do comando abaixo.
z = scale(dados)
Todas as correlações amostrais destes dados variam de -0.5234165 a 1, podendo ser calculadas com a função “cor”.
r = cor(z)
Valor Minimo e Máximo respectivamente da matriz de correlação.
min(r)
## [1] -0.6336968
max(r)
## [1] 1
corrgram(r, type = "cor", lower.panel = panel.conf, upper.panel = panel.pie)

Observando a figura, as correlações que estão em azul, Refere-se a positividade, com tons mais fortes remete correlações mais altas.
Testes da Análise Fatorial
Para avaliar os dados com a técnica de análise fatorial, foram utilizados o teste de esfericidade de Bartlett e a estatistica de KMO.
Tem como Hipotese nula(H0) de que a matriz de correlação é uma matriz identidade, isto é, os componentes fora da diagonal principal são zero. Se a matriz de correlações for igual a matriz identidade, isso significa que não devemos utilizar a análise fatorial.
bartlett.sphericity.test<-dget("bartlett.sphericity.test.R")
bartlett.sphericity.test(dados)
##
## Teste de esfericidade de Bartlett
##
## data: dados
## X-squared = 488.71, df = 300, p-value = 3.267e-11
Com base no teste de esfericidade de Bartlett, obtivemos os segunites resultados espostos na tabela abaixo.
TABELA 1: Tabela com os resultados do teste de Bartlett.
X-quadrado |
488.71 |
df |
300 |
p-valor |
3.267e-11 |
como o p-valor obtido mostrou-se menor que 0.05, ou seja, rejeitamos a hipótese (H0), confirmando a possibilidade de seguir com o método de análise fatorial para esses dados, havendo indicios de que existem algumas relações entre as variáveis.
Teste KMO (Kaiser-Meyer-Olkin)-avalia a adequação do tamanho amostra, Variando entre 0 e 1, onde: zero indica inadequação para análise fatorial, já se for maior que 0.5 indica aceitação para seguir com a análise fatorial.
kmo<-dget("kmo.R")
kmo(dados)
## $KMO
## [1] 0.3605373
##
## $MSA
## A1 A2 A3 A4 A5 C1 C2
## 0.1767478 0.2884690 0.3250910 0.2066085 0.3941659 0.3444366 0.2256571
## C3 C4 C5 E1 E2 E3 E4
## 0.4508991 0.4371075 0.3386223 0.3751417 0.5529709 0.3673681 0.4616448
## E5 N1 N2 N3 N4 N5 O1
## 0.5056579 0.5221533 0.4424742 0.3189831 0.4073085 0.3926149 0.2631159
## O2 O3 O4 O5
## 0.1638857 0.4570519 0.3518354 0.2873750
Com base na estatística KMO, obteve-se os seguintes resultados:
Como KMO < 0.5 não ha adequação amostral, ou seja, é impossivel seguir com a análise.