A análise fatorial é uma técnica de interdependência, cujo propósito principal é definir a estrutura inerente entre as variáveis na análise.
À medida que empregamos técnicas multivariadas, por sua própria natureza, o número de variáveis aumenta. E à medida que o número de variáveis aumenta, cada vez mais a sobreposição (ou seja, correlação) acontece entre as mesmas.
Quando variáveis se tornam correlacionadas, o pesquisador precisa de caminhos para gerenciá-las – agrupando variáveis altamente correlacionadas, rotulando ou nomeando os grupos, e talvez até mesmo criando uma nova medida composta que possa representar cada grupo de variáveis.
A análise fatorial fornece ferramentas para analisar a estrutura das inter-relações (correlações) em um grande número de variáveis, definindo conjuntos de variáveis que são fortemente inter-relacionadas, conhecidos como fatores. Esses grupos de variáveis (fatores) são considerados como representantes de dimensões dentro dos dados.
Se estamos preocupados apenas com a redução do número de variáveis, então as dimensões podem orientar a criação de novas medidas compostas.
Por outro lado, se temos uma base conceitual para compreender as relações entre variáveis, então as dimensões podem corresponder a conceitos que não podem ser adequadamente descritos por uma única medida (p. ex., a atmosfera de uma loja é definida por muitos componentes sensoriais que devem ser medidos separadamente mas são todos relacionados entre si).
Existe um debate contínuo sobre o papel apropriado da análise fatorial.
Muitos pesquisadores consideram-na apenas exploratória, útil na busca da estrutura em um conjunto de variáveis ou como um método de redução de dados. Para muitas – talvez a maioria – das aplicações, esse uso da análise fatorial é adequado.
No entanto, em outras situações, o pesquisador tem idéias preconcebidas sobre a real estrutura dos dados, baseado em suporte teórico ou em pesquisas anteriores. Ele pode desejar testar hipóteses envolvendo questões sobre, por exemplo, quais variáveis deveriam ser agrupadas em um fator, ou o número exato de fatores. Nesses casos, o pesquisador espera que a análise fatorial desempenhe um papel confirmatório – ou seja, avalie o grau em que os dados satisfazem a estrutura esperada.
Veremos técnicas analíticas fatoriais principalmente de um ponto de vista exploratório ou não-confirmatório.
O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar (resumir) a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas (fatores) com uma perda mínima de informação.
Ao atingir seus objetivos, a análise fatorial é ajustada com quatro questões:
O pesquisador deve primeiramente selecionar a unidade de análise para a análise fatorial: variáveis ou respondentes.
Se o objetivo da pesquisa fosse resumir as características, a análise fatorial seria aplicada a uma matriz de correlação das variáveis. Esse é o tipo mais comum de análise fatorial e é chamado de análise fatorial R, que analisa um conjunto de variáveis para identificar as dimensões latentes (que não são fáceis de observar).
A análise fatorial também pode ser aplicada a uma matriz de correlação dos respondentes individuais baseada nas características dos mesmos. Chamado de análise fatorial Q, este método combina ou condensa grandes números de pessoas em diferentes grupos de uma população maior. A análise fatorial Q não é utilizada muito freqüentemente por causa das dificuldades computacionais.
A análise fatorial fornece ao pesquisador duas saídas distintas mas relacionadas: resumo de dados e redução de dados.
No resumo de dados, a análise fatorial obtém dimensões inerentes que, quando interpretadas e compreendidas, descrevem os dados em um número muito menor de conceitos do que as variáveis individuais originais. A meta do resumo de dados é atingida definindo-se um pequeno número de fatores (composições lineares de variáveis) que adequadamente representam o conjunto original de variáveis.
A redução de dados estende esse processo derivando um valor empírico (escore fatorial) para cada dimensão (fator) e então substituindo o valor original por esse novo valor. O propósito é manter a natureza e o caráter das variáveis originais, mas reduzir seu número para simplificar a análise multivariada a ser empregada a seguir. A redução de dados usa como base cargas fatoriais para identificar variáveis para análises posteriores com outras técnicas ou para fazer estimativas dos próprios fatores (escores fatoriais ou escalas múltiplas), as quais substituem as variáveis originais em análises subseqüentes
Seja a análise fatorial usada para redução e/ou resumo de dados, o pesquisador deve sempre considerar as bases conceituais das variáveis e julgar quanto à adequação das variáveis para a análise fatorial.
Em ambos os usos da análise fatorial, o pesquisador implicitamente especifica as dimensões potenciais que podem ser identificadas por meio do caráter e da natureza das variáveis submetidas à análise fatorial.
O pesquisador deve também lembrar que análise fatorial sempre produzirá fatores. Assim, a análise fatorial é sempre um candidato potencial para o fenômeno “lixo dentro, lixo fora”: a qualidade e o significado dos fatores obtidos reflete as bases conceituais das variáveis incluídas na análise.
A análise fatorial, por fornecer uma visão muito direta das inter-relações entre variáveis e a estrutura subjacente dos dados, é um excelente ponto de partida para muitas outras técnicas multivariadas.
Da perspectiva do resumo de dados, a análise fatorial fornece ao pesquisador uma clara compreensão sobre quais variáveis podem atuar juntas e quantas variáveis podem realmente ser consideradas como tendo impacto na análise.
Da perspectiva da redução de dados, a análise fatorial fornece a base para a criação de um novo conjunto de variáveis que incorporam o caráter e a natureza das variáveis originais em um número muito menor de novas variáveis, usando variáveis representativas, escores fatoriais ou escalas múltiplas. Dessa maneira, problemas associados com grandes números de variáveis ou altas intercorrelações entre variáveis podem ser substancialmente reduzidos pela substituição das novas variáveis.
O planejamento de uma análise fatorial envolve três decisões básicas:
Cálculo dos dados de entrada (uma matriz de correlação) para atender os objetivos especificados de agrupamento de variáveis ou respondentes;
Planejamento do estudo em termos de número de variáveis, propriedades de medida das variáveis e tipos de variáveis admissíveis;
O tamanho necessário para a amostra em termos absolutos e como função do número de variáveis na análise.
Tanto a análise fatorial do tipo R quanto a do tipo Q utiliza uma matriz de correlação como o dado de entrada básico.
Com a análise fatorial do tipo R, o pesquisador usaria uma matriz tradicional de correlação (correlações entre variáveis) como entrada.
Já com a análise fatorial do tipo Q, o pesquisador obteria a matriz de correlação a partir das correlações entre os respondentes individuais. Nessa análise fatorial de tipo Q, os resultados seriam uma matriz fatorial que identificaria indivíduos semelhantes. Dessa forma, poderíamos identificar grupos ou agrupamentos de indivíduos que demonstrassem um padrão parecido nas variáveis incluídas na análise.
A diferença entre a análise fatorial Q e a análise de agrupamentos é que a análise fatorial Q é baseada nas intercorrelações entre os respondentes, enquanto a análise de agrupamentos forma grupos com base em uma medida de similaridade dada em termos de distância entre os escores dos respondentes para as variáveis que são analisadas.
Quais tipos de variáveis podem ser usadas em análise fatorial? Deve-se optar pelo uso de variáveis métricas, pois são facilmente medidas por vários tipos de correlações. Apesar de alguns métodos especializados calcularem correlações entre variáveis não-métricas, a abordagem mais prudente é evitá-las. Se uma variável não-métrica deve ser incluída, um método é definir variáveis dicotômicas (codificadas como 0 e 1) para representarem categorias de variáveis não-métricas. Se todas as variáveis são dicotômicas, então formas especializadas de análise fatorial, como análise fatorial booleana, são mais adequadas.
Quantas variáveis devem ser incluídas? Deve-se tentar minimizar o número de variáveis incluídas, mas manter um número razoável de variáveis por fator. Se um estudo está sendo planejado para avaliar uma estrutura proposta, o pesquisador deve certificar-se de incluir diversas variáveis (5+) que possam representar cada fator proposto. A força da análise fatorial reside em encontrar padrões entre grupos de variáveis, e é de pouco uso na identificação de fatores compostos por uma única variável. Finalmente, quando se planeja um estudo para ser analisado por fatores, o pesquisador deve, se possível, identificar diversas variáveis chave (algumas vezes chamadas de indicadores-chave ou variáveis de marcação) que intimamente reflitam os fatores latentes que foram previstos hipoteticamente. Isso ajudará na validação dos fatores determinados e na avaliação da significância prática dos resultados.
No que se refere à questão do tamanho da amostra, o pesquisador dificilmente realiza uma análise fatorial com uma amostra com menos de 50 observações, e de preferência o tamanho da amostra deve ser maior ou igual a 100.
Regra geral: o mínimo é ter pelo menos cinco vezes mais observações do que o número de variáveis a serem analisadas, e o tamanho mais aceitável teria uma proporção de dez para um.
O pesquisador sempre deve tentar obter a maior proporção de casos por variável para minimizar as chances de superajustar os dados (ou seja, determinar fatores específicos da amostra, com pouca generalidade).
Suposição básica da análise fatorial: existe alguma estrutura subjacente no conjunto de variáveis escolhidas.
A presença de variáveis correlacionadas e a subseqüente definição de fatores não garantem relevância, mesmo que elas satisfaçam as exigências estatísticas.
É responsabilidade do pesquisador garantir que os padrões observados sejam conceitualmente válidos e adequados para se estudar com análise fatorial, pois a técnica não dispõe de meios para determinar adequação além das correlações entre variáveis. Por exemplo, misturar variáveis dependentes e independentes em uma análise fatorial e então usar os fatores obtidos para apoiar relações de dependência é inadequado.
O pesquisador deve também garantir que a amostra é homogênea com relação à estrutura fatorial inerente. Sempre que grupos diferentes são esperados na amostra, análises fatoriais separadas devem ser executadas, e os resultados devem ser comparados para identificar diferenças não refletidas nos resultados da amostra combinada.
Assumindo que o pesquisador atende as exigências conceituais para as variáveis incluídas na análise, o próximo passo é garantir que as variáveis são suficientemente correlacionadas umas com as outras para produzir fatores representativos.
Se a inspeção visual não revela um número substancial de correlações maiores que 0.30, então a análise fatorial provavelmente é inapropriada.
Correlações parciais entre variáveis: uma correlação parcial é aquela que não é explicada quando os efeitos de outras variáveis são levados em consideração. Se existem fatores “verdadeiros” nos dados, a correlação parcial deverá ser pequena, pois a variável pode ser explicada pelas variáveis que compõem os fatores. Se as correlações parciais são altas, indicando ausência de fatores inerentes, então a análise fatorial é inadequada. O pesquisador está procurando um padrão de altas correlações parciais, denotando uma variável não correlacionada com um grande número de outras variáveis na análise.A única exceção referente a elevadas correlações como indicativas de uma matriz de correlação pobre acontece quando duas variáveis estão altamente correlacionadas e têm cargas substancialmente maiores do que outras variáveis naquele fator. Logo, a correlação parcial delas pode ser elevada porque elas não são explicadas em grande parte pelas outras variáveis, mas explicam umas a outras. Essa exceção espera-se também quando um fator tem somente duas variáveis com cargas elevadas.Uma elevada correlação parcial é aquela com significância prática e estatística, e uma regra prática seria considerar correlações parciais acima de 0.7 como elevadas.
Teste de esfericidade de Bartlett: teste estatístico para a presença de correlações entre as variáveis. Ele fornece a significância estatística de que a matriz de correlação tem correlações significantes entre pelo menos algumas das variáveis. O pesquisador deve perceber, porém, que aumentar o tamanho da amostra faz com que o teste Bartlett se torne mais sensível na detecção de correlações entre as variáveis. Um teste de esfericidade de Bartlett estatisticamente significante (sign. < 0,05) indica que correlações suf cientes existem entre as variáveis para se continuar a análise.
Medida de Adequação da Amostra (MSA): um índice que varia de 0 a 1, alcançando 1 quando cada variável é perfeitamente prevista sem erro pelas outras variáveis. A medida pode ser interpretada com as seguintes orientações: 0.80 ou acima, admirável; maior ou igual a 0.70 e abaixo de 0.80, mediano; maior ou igual a 0.60 e abaixo de 0.70, medíocre; maior ou igual a 0.50 e abaixo de 0.60, ruim; e abaixo de 0.50, inaceitável. O MSA aumenta quando (1) o tamanho da amostra aumenta, (2) as correlações médias aumentam, (3) o número de variáveis aumenta, ou (4) o número de fatores diminui. Medidas de valores de adequação da amostra (MSA) devem exceder 0.50 tanto para o teste geral quanto para cada variável individual; variáveis com valores inferiores a 0.50 devem ser omitidas da análise fatorial uma por vez, sendo aquela com menor valor eliminada a cada vez.
Antes de discutirmos sobre os dois métodos disponíveis para extração de fatores, apresentamos uma breve introdução à partição da variância de uma variável.
Partição da variância de uma variável: A variância total de qualquer variável pode ser dividida (particionada) em três tipos de variância:
O pesquisador pode escolher a partir de dois métodos para definir (extrair) os fatores que representem a estrutura das variáveis na análise: análise de componentes e análise de fatores comuns.
Análise de componentes: é usada quando o objetivo é resumir a maior parte da informação original (variância) a um número mínimo de fatores para fins de previsão. Também conhecida como análise de componentes principais, considera a variância total e deriva fatores que contêm pequenas proporções de variância única e, em alguns casos, variância de erro. Não obstante, os primeiro poucos fatores não contêm variância de erro ou única o suficiente para distorcer a estrutura fatorial geral. Especificamente, com análise de componentes, unidades (valores de 1,0) são inseridas na diagonal da matriz de correlação, de modo que a variância completa é trazida à matriz fatorial. A análise fatorial de componentes é a mais adequada quando redução de dados é uma preocupação prioritária, focando o número mínimo de fatores necessários para explicar a porção máxima da variância total representada no conjunto original de variáveis, e conhecimento anterior sugere que variância específica e de erro representam uma proporção relativamente pequena da variância total.
Análise de fatores comuns: é usada prioritariamente para identificar fatores ou dimensões latentes que refletem o que as variáveis têm em comum. Considera apenas variância em comum ou compartilhada, assumindo que tanto a variância de erro quanto a única não são de interesse na definição da estrutura das variáveis. Para empregar apenas variância comum na estimação dos fatores, comunalidades (ao invés de unidades) são inseridas na diagonal. Assim, fatores resultantes da análise de fator comum se baseiam somente na variância comum. A análise de fator comum exclui uma porção da variância incluída em uma análise de componentes e é mais apropriada quando o objetivo prioritário é identificar as dimensões ou construtos latentes representados nas variáveis originais, e o pesquisador tem pouco conhecimento sobre a quantia de variância específica e de erro, e, portanto, deseja eliminar essa variância.
Problemas da análise de fatores comuns: sofre de indeterminância fatorial, o que significa que para qualquer respondente individual, diversos escores fatoriais diferentes podem ser calculados a partir dos resultados de um único modelo fatorial. Não há solução única, como ocorre em análise de componentes, mas na maioria dos casos as diferenças não são substanciais. A segunda questão envolve o cálculo de comunalidades estimadas usadas para representar a variância compartilhada. Às vezes as comunalidades não são estimáveis ou podem ser inválidas (p.ex., valores maiores que 1 ou menores que 0), exigindo a eliminação da variável da análise.
Ambos os métodos de análise fatorial (análise de componentes e análise de fatores comuns) estão interessados na melhor combinação linear de variáveis - melhor no sentido de que a combinação particular de variáveis originais explica a maior parte da variância nos dados como um todo comparada a qualquer outra combinação linear de variáveis.
Logo, o primeiro fator pode ser visto como o melhor resumo de relações lineares exibidas nos dados, o segundo fator como a segunda melhor combinação linear das variáveis, sujeita à restrição de que é ortogonal ao primeiro fator, e assim em diante.
Para ser ortogonal ao primeiro fator, o segundo fator deve ser obtido da variância remanescente depois que o primeiro fator foi extraído. Assim, o segundo fator pode ser definido como a combinação linear de variáveis que explica a maior parte da variância que ainda é inexplicada após o efeito da remoção do primeiro fator dos dados.
O processo continua extraindo fatores que explicam quantias cada vez menores de variância até que toda a variância seja explicada. Por exemplo, o método de componentes realmente extrai n fatores, onde n é o número de variáveis na análise.
Alguns dos primeiros fatores podem explicar uma porção substancial da variância total ao longo de todas as variáveis. Espera-se que o pesquisador possa reter ou usar apenas um pequeno número de variáveis e ainda representar adequadamente o conjunto inteiro de variáveis. Assim, a questão-chave é: quantos fatores devem ser extraídos ou retidos?
Os seguintes critérios de parada para a fatoração têm sido utilizados: raiz latente, a priori, percentagem de variância, teste scree e heterogeneidade dos respondentes.
Critério da raiz latente: O raciocínio para o critério da raiz latente é que qualquer fator individual deve explicar a variância de pelo menos uma variável se o mesmo há de ser mantido para interpretação. Com a análise de componentes, cada variável contribui com um valor 1 do autovalor total. Logo, apenas os fatores que têm raízes latentes ou autovalores maiores que 1 são considerados significantes; todos os fatores com raízes latentes menores que 1 são considerados insignificantes e são descartados. Usar o autovalor para estabelecer um corte é mais confiável quando o número de variáveis está entre 20 e 50. Se o número de variáveis é menor que 20, há uma tendência para que esse método extraia um número conservador (muito pouco) de fatores; ao passo que, quando mais de 50 variáveis estão envolvidas, não é raro que muitos fatores sejam extraídos.
Critério a priori: quando aplicado, o pesquisador já sabe quantos fatores extrair antes de empreender a análise fatorial. O pesquisador simplesmente instrui o computador a parar a análise quando o número desejado de fatores tiver sido extraído. Este tratamento é útil quando se testa uma teoria ou hipótese sobre o número de fatores a serem extraídos. Também pode ser justificado na tentativa de repetir o trabalho de outro pesquisador e extrair o mesmo número de fatores anteriormente encontrado.
Critério de percentagem de variância: abordagem baseada na conquista de um percentual cumulativo especificado da variância total extraída por fatores sucessivos. O objetivo é garantir significância prática para os fatores determinados, garantindo que expliquem pelo menos um montante especificado de variância. Nenhuma base absoluta foi adotada para todas as aplicações. No entanto, em ciências naturais, o procedimento de obtenção de fatores geralmente não deveria ser parado até os fatores extraídos
Critério do teste scree: na análise de componentes, os últimos fatores extraídos contêm tanto a variância comum quanto a única. Apesar de todos os fatores conterem pelo menos alguma variância única, a proporção de variância única é substancialmente maior nos últimos fatores. O teste scree é usado para identificar o número ótimo de fatores que podem ser extraídos antes que a quantia de variância única comece a dominar a estrutura de variância comum. O teste scree é determinado fazendo-se o gráfico das raízes latentes em relação ao número de fatores em sua ordem de extração, e a forma da curva resultante é usada para avaliar o ponto de corte.
Heterogeneidade dos respondentes: a variância compartilhada entre variáveis é a base para ambos os modelos fatoriais, de fator comum e de componentes. Uma suposição inerente é que a variância compartilhada se estende ao longo de toda a amostra. Se esta é heterogênea em relação a pelo menos um subconjunto das variáveis, então os primeiros fatores representam aquelas variáveis mais homogêneas em toda a amostra. As variáveis que são melhores discriminadoras entre os subgrupos da amostra carregam nos últimos fatores, muitas vezes aqueles não selecionados pelos critérios recém discutidos.
Estimativa da matriz fatorial: primeiro, a matriz fatorial inicial não-rotacionada é computada, contendo as cargas fatoriais para cada variável sobre cada fator. Cargas fatoriais são a correlação de cada variável com o fator. Cargas indicam o grau de correspondência entre a variável e o fator, com cargas maiores tornando a variável representativa do fator. Cargas fatoriais são o meio de interpretar o papel que cada variável tem na defi nição de cada fator.
Rotação de fatores: soluções fatoriais não-rotacionadas atingem a meta de redução de dados, mas o pesquisador deve perguntar se a solução fatorial não-rotacionada fornecerá informação que oferece interpretação a mais adequada das variáveis sob exame. Na maioria dos casos, a resposta a essa questão é negativa, pois rotação fatorial deve simplificar a estrutura fatorial. Portanto, o pesquisador a seguir emprega um método rotacional para conseguir soluções mais simples e teoricamente mais significativas. Na maioria das vezes, a rotação de fatores melhora a interpretação pela redução de algumas das ambigüidades que freqüentemente acompanham as soluções fatoriais não-rotacionadas.
Interpretação e reespecificação de fatores: como um processo final, o pesquisador avalia as cargas fatoriais (rotacionadas) para cada variável a fim de determinar o papel da mesma e sua contribuição na determinação da estrutura fatorial. No curso deste processo de avaliação, pode surgir a necessidade de reespecifi car o modelo fatorial devido
As soluções de fatores não-rotacionados extraem fatores na ordem de sua variância extraída. O primeiro fator tende a ser um fator geral com quase toda variável com carga significante, e explica a quantia maior de variância. O segundo fator e os seguintes são então baseados na quantia residual de variância. Cada fator explica porções sucessivamente menores de variância.
O efeito final de rotacionar a matriz fatorial é redistribuir a variância dos primeiros fatores para os últimos com o objetivo de atingir um padrão fatorial mais simples e teoricamente mais significativo.
O caso mais simples de rotação é uma rotação ortogonal, na qual os eixos são mantidos a 90 graus. Esse procedimento significa que os fatores são matematicamente independentes.
Quando não há a restrição de ser ortogonal, o procedimento de rotação se chama rotação oblíqua. O método de rotação oblíqua é mais realista, porque as dimensões inerentes que são teoricamente importantes não são supostas sem correlações entre si. Note que a rotação fatorial oblíqua representa o agrupamento de variáveis com maior precisão. Essa precisão é um resultado do fato de que cada eixo fatorial rotacionado agora está mais próximo do respectivo grupo de variáveis. Além disso, a solução oblíqua fornece informações sobre o grau em que os fatores realmente estão correlacionados um com o outro.
Na maioria dos casos, a rotação melhora a interpretação reduzindo algumas das ambiguidades que freqüentemente acompanham a análise preliminar. A principal opção disponível é escolher um método de rotação ortogonal ou oblíqua. A meta final de qualquer rotação é obter alguns fatores teoricamente significativos e, se possível, a estrutura fatorial mais simples.
As rotações ortogonais são mais amplamente usadas, devido a fácil disponibilidade em pacotes computacionais e porque os procedimentos analíticos para rotações oblíquas não são tão bem desenvolvidos e ainda estão sujeitos a considerável controvérsia.
O objetivo de todos os métodos de rotação é simplificar as linhas e colunas da matriz fatorial para facilitar a interpretação. Em uma matriz fatorial, as colunas representam fatores, e cada linha corresponde às cargas de uma variável ao longo dos fatores. Por simplificação das linhas, queremos dizer tornar o máximo de valores em cada linha tão próximos de zero quanto possível (isto é, maximizar a carga de uma variável em um único fator). Simplificação das colunas significa tornar o máximo de valores em cada coluna tão próximos de zero quanto possível (ou seja, tornar o número de cargas “elevadas” o menor possível).
Três abordagens ortogonais principais foram desenvolvidas:
Abordagem QUARTIMAX: sua meta final é simplificar as linhas de uma matriz fatorial; ou seja, QUARTIMAX se concentra em rotacionar o fator inicial de modo que uma variável tenha carga alta em um fator e cargas tão baixas quanto possível em todos os outros fatores. Nessas rotações, muitas variáveis podem ter carga alta no mesmo fator, pois a técnica se concentra em simplificar as linhas. O método QUARTIMAX não tem se mostrado bem-sucedido na produção de estruturas mais simples. Sua dificuldade é que ele tende a produzir um fator geral como o primeiro fator, no qual a maioria das variáveis, se não todas, tem cargas altas. Independentemente de qualquer conceito do que é uma estrutura “mais simples”, ela inevitavelmente envolve lidar com agrupamentos de variáveis; um método que tende a criar um grande fator geral (isto é, QUARTIMAX) não está de acordo com os propósitos de rotação.
Abordagem VARIMAX: Diferentemente de QUARTIMAX, o critério VARIMAX se concentra na simplificação das colunas da matriz fatorial. Com a abordagem rotacional VARIMAX, a simplificação máxima possível é conseguida se houver apenas 1s e 0s em uma coluna. Ou seja, o método VARIMAX maximiza a soma de variâncias de cargas exigidas da matriz fatorial. Lembre-se que, nas abordagens QUARTIMAX, muitas variáveis podem ter cargas altas ou próximas de altas no mesmo fator, pois a técnica se concentra em simplificar as linhas. Com a abordagem rotacional VARIMAX, há uma tendência para algumas cargas altas (isto é, próximas de –1 ou +1) e algumas cargas próximas de 0 em cada coluna da matriz. A lógica é que a interpretação é mais fácil quando as correlações variável-fator são (1) próximas de +1 ou –1, indicando assim uma clara associação positiva ou negativa entre a variável e o fator; ou (2) próximas de 0, apontando para uma clara falta de associação.
Abordagem EQUIMAX: é uma espécie de meio-termo entre QUARTIMAX e VARIMAX. Em vez de se concentrar na simplificação de linhas ou de colunas, ele tenta atingir um pouco de cada. EQUIMAX não tem obtido ampla aceitação e é pouco usado.
Ao interpretar fatores, é preciso tomar uma decisão sobre quais cargas fatoriais vale a pena considerar.
Garantia de significância prática: Como uma carga fatorial é a correlação da variável e do fator, a carga ao quadrado é a quantia de variância total da variável explicada pelo fator. Assim, uma carga de 0.30 reflete aproximadamente 10% de explicação, e uma carga de 0.50 denota que 25% da variância é explicada pelo fator. A carga deve exceder 0.70 para que o fator explique 50% da variância de uma variável. Logo, quanto maior o valor absoluto da carga fatorial, mais importante a carga na interpretação da matriz fatorial. Usando significância prática como critério, podemos avaliar as cargas como se segue:
ATENÇÃO: Essas orientações são aplicáveis quando o tamanho da amostra é de 100 ou maior e onde a ênfase é a significância prática, e não estatística.
library(kableExtra)
library(knitr)
<-data.frame(`Carga fatorial` = seq(0.3,0.75,0.05), `Tamanho da amostra necessário para significância`= c(350,250,200,150,120,100,85,70,60,50))
tabela
::kable(tabela)%>% kable_styling(position = "center") knitr
Carga.fatorial | Tamanho.da.amostra.necessário.para.significância |
---|---|
0.30 | 350 |
0.35 | 250 |
0.40 | 200 |
0.45 | 150 |
0.50 | 120 |
0.55 | 100 |
0.60 | 85 |
0.65 | 70 |
0.70 | 60 |
0.75 | 50 |
Ajustes baseados no número de variáveis: À medida que o número de variáveis em análise aumenta, o nível aceitável para considerar uma carga significante diminui. O ajuste para o número de variáveis é cada vez mais importante à medida que se vai do primeiro fator extraído para fatores posteriores.
Interpretação de uma matriz fatorial:
Etapa 1 - Examine a matriz fatorial de cargas: A matriz de cargas fatoriais contém a carga fatorial de cada variável em cada fator. Elas podem ser cargas rotacionadas ou nãorotacionadas, mas, como anteriormente discutido, cargas rotacionadas são geralmente empregadas na interpretação fatorial a menos que a redução de dados seja o único objetivo. Tipicamente, os fatores são dispostos como colunas; assim, cada coluna de números representa as cargas de um único fator.
Etapa 2 - Identifique a(s) carga(s) significante(s) para cada variável: A interpretação deve começar com a primeira variável no primeiro fator e se mover horizontalmente da esquerda para a direita, procurando a carga mais alta para aquela variável em qualquer fator. Quando a maior carga (em valor absoluto) é identifi cada, deve ser sublinhada se for signifi cante como determinado pelos critérios anteriormente discutidos. Esse procedimento deve continuar para cada variável até que todas as variáveis tenham sido revistas quanto às suas maiores cargas em um fator. No entanto, o pesquisador pode descobrir que uma ou mais variáveis tem cargas de tamanho moderado sobre diversos fatores, todas significantes, e o trabalho de interpretar fatores torna-se muito mais difícil. Quando uma variável demonstra ter mais de uma carga significante, ela é chamada de carga cruzada.
Etapa 3 - Avalie as comunalidades das variáveis: Uma vez que todas as cargas significantes tenham sido identificadas, o pesquisador deve procurar por variáveis que não sejam adequadamente explicadas pela solução fatorial. Uma abordagem simples é identificar variáveis nas quais faltam pelo menos uma carga significante. Outro método é examinar a comunalidade de cada variável, representando a quantia de variância explicada pela solução fatorial para cada variável, para avaliar se as variáveis atendem níveis aceitáveis de explicação.
Etapa 4 - Reespecifique o modelo fatorial se necessário: Uma vez que todas as cargas significantes tenham sido identificadas e as comunalidades, podemos encontrar diversos problemas: (a) uma variável não tem cargas significantes; (b) mesmo com uma carga significante, a comunalidade de uma variável é considerada muito baixa, ou (c) uma variável tem uma carga cruzada. Nesta situação, podemos executar qualquer combinação das seguintes ações corretivas: Ignorar variáveis problemáticas; avaliar cada uma daquelas variáveis para possível eliminação, dependendo da contribuição geral da variável para a pesquisa, bem como de seu índice de comunalidade; empregar um método alternativo de rotação, particularmente um método oblíquo, caso apenas métodos ortogonais tenham sido usados; diminuir/aumentar o número de fatores mantidos para ver se uma estrutura fatorial menor/maior representará aquelas variáveis problemáticas; modificar o tipo de modelo fatorial usado (componentes versus fatores comuns) para avaliar se mudanças do tipo de variância considerada afetam a estrutura fatorial.
Uso de uma perspectiva confirmatória: O método mais direto para validar os resultados é partir para uma perspectiva confirmatória e avaliar a repetitividade dos resultados, seja com uma amostra particionada no conjunto de dados originais, seja com uma amostra separada.
Avaliação da estabilidade da estrutura fatorial: A estabilidade fatorial depende principalmente do tamanho da amostra e do número de casos por variável. O pesquisador sempre é encorajado a obter a maior amostra possível e a desenvolver modelos parcimoniosos para aumentar a proporção casos-por-variáveis. Se o tamanho da amostra permite, o pesquisador pode querer particionar aleatoriamente a amostra em dois subconjuntos e estimar modelos fatoriais para cada um. A comparação das duas matrizes fatoriais resultantes fornecerá uma avaliação da robustez da solução ao longo das amostras.
Detecção de observações influentes: O pesquisador é encorajado a estimar o modelo com e sem observações identifi cadas como atípicas para avaliar seu impacto nos resultados. Se a omissão das observações atípicas é justificada, os resultados deveriam ter maior generalidade.
Se o objetivo da análise fatorial é identificar variáveis apropriadas para a aplicação subseqüente em outras técnicas estatísticas, então alguma forma de redução de dados será empregada.
Seleção de variáveis substitutas para análise subseqüente: Selecionar a variável com a maior carga fatorial como uma representativa substituta para uma dimensão fatorial particular. O método de selecionar uma única variável substituta como representativa do fator – apesar de ser simples e manter a variável original – tem várias desvantagens potenciais: não aborda a questão do erro de medida e corre-se o risco de resultados potencialmente enganadores pela seleção de somente uma variável para representar um resultado que talvez seja mais complexo.
Criação de escalas múltiplas: Todas as variáveis com cargas elevadas em um fator são combinadas, e o total – ou, mais comumente, o escore médio das variáveis – é usado como uma variável de substituição. Uma escala múltipla é apenas tão boa quanto os itens usados para representar o construto; ainda que possa passar em todos os testes empíricos, é inútil sem justificativa teórica. Nunca crie uma escala múltipla sem primeiro avaliar sua unidimensionalidade com análise fatorial exploratória ou confirmatória. Uma vez que uma escala é considerada unidimensional, seu escore de confiabilidade, medido pelo alfa de Cronbach:
Cálculo de escores fatoriais: Escores fatoriais também são medidas compostas de cada fator computadas para cada indivíduo. Conceitualmente, o escore fatorial representa o grau em que cada indivíduo tem escore elevado no grupo de itens que têm cargas elevadas em um fator. Assim, valores mais altos nas variáveis com cargas elevadas em um fator resultam em um escore fatorial superior. A característica-chave que diferencia um escore fatorial de uma escala múltipla é que o escore fatorial é computado com base nas cargas fatoriais de todas as variáveis no fator, enquanto a escala múltipla é calculada combinando-se apenas variáveis selecionadas.
Seleção entre os três métodos: Se dados são usados somente na amostra original ou se ortogonalidade deve ser mantida, escores fatoriais são adequados. Se generalidade ou capacidade de transferência são desejáveis, então escalas múltiplas ou variáveis substitutas são mais apropriadas. Se a escala múltipla é um instrumento bem construído, válido e confiável, então é provavelmente a melhor alternativa. Se a escala múltipla não é testada e é exploratória, com pouca ou nenhuma evidência de confiabilidade ou validade, variáveis substitutas deverão ser consideradas caso uma análise adicional não seja possível para melhorar a escala múltipla.
library(corrplot)
library(ggcorrplot)
library(ggplot2)
library(GGally)
library(dplyr)
library(factoextra)
library(viridis)
library(pacman)
library(rstatix)
library(e1071)
library(RColorBrewer)
::p_load(knitr, captioner, bundesligR, stringr)
pacman
<- read.csv2("E:/Multivariada/Atividade 02/food.csv", header= TRUE)
food rownames(food)=food$X
<- food[,-1] food
o dataset food é composto por medidas relacionadas a características de uma classe de alimentos conhecida como pastry. Vamos chamar pastries de massas, para facilitar.
A Tabela 1 contém algumas características básicas do dataset, quais sejam:
Tabela 1: Características básicas do dataset food
<- data.frame(NAs = sum(is.na(food)), Observações = nrow(food), Variáveis = ncol(food), Duplicidades = anyDuplicated.data.frame(food))
basic1_charact
::kable(basic1_charact)%>% kable_styling(position = "center") knitr
NAs | Observações | Variáveis | Duplicidades |
---|---|---|---|
0 | 50 | 5 | 0 |
De acordo com a Tabela 1:
Em seguida, a Tabela 2 contém os tipos e descrições das 5 variáveis de food:
Tabela 2: Tipos e descrições das variáveis do dataset food
<- NULL
tipos for(i in 1:ncol(food)){
<- rbind(tipos,(typeof(food[,i])))
tipos
}
<- data.frame(Variável = colnames(food),
basic2_charact Tipo = tipos,
= c("Porcentagem de óleo na massa",
Descrição "Densidade do produto: quanto maior o número, mais denso o produto",
"Medida de crocância em uma escala de 7 a 15, sendo 15 o mais crocante",
"Ângulo, em graus, através do qual a massa pode ser dobrada lentamente antes de se partir",
"Quantidade de força necessária antes que a massa seja cortada, medida com uma ponta afiada"))
::kable(basic2_charact)%>% kable_styling(position = "center") knitr
Variável | Tipo | Descrição |
---|---|---|
Oil | double | Porcentagem de óleo na massa |
Density | integer | Densidade do produto: quanto maior o número, mais denso o produto |
Crispy | integer | Medida de crocância em uma escala de 7 a 15, sendo 15 o mais crocante |
Fracture | integer | Ângulo, em graus, através do qual a massa pode ser dobrada lentamente antes de se partir |
Hardness | integer | Quantidade de força necessária antes que a massa seja cortada, medida com uma ponta afiada |
De acordo com a Tabela 2, o dataset possui:
Tabela 3: Estatísticas resumo para as variáveis de usairpollution
::kable(get_summary_stats(food)[,-c(2,8,9,12,13)])%>% kable_styling(position = "center") knitr
variable | min | max | median | q1 | q3 | mean | sd |
---|---|---|---|---|---|---|---|
Crispy | 7.0 | 15.0 | 12.0 | 10.00 | 13.00 | 11.520 | 1.776 |
Density | 2570.0 | 3125.0 | 2867.5 | 2772.50 | 2945.00 | 2857.600 | 124.500 |
Fracture | 9.0 | 33.0 | 21.0 | 17.00 | 25.00 | 20.860 | 5.466 |
Hardness | 63.0 | 192.0 | 126.0 | 107.25 | 143.75 | 128.180 | 31.128 |
Oil | 13.7 | 21.2 | 16.9 | 16.30 | 18.10 | 17.202 | 1.592 |
A Tabela 4 contém os coeficientes de assimetria para as variáveis quantitativas do dataset.
A assimetria negativa indica que a média dos dados é menor que a mediana e, portanto, que a distribuição dos dados é assimétrica à esquerda. Já a assimetria positiva indica que a média dos dados é maior que a mediana e, portanto, que a distribuição dos dados é assimétrica à direita.
Tabela 4: Coeficiente de assimetria para as variáveis de food
::kable(apply(food,2,skewness),col.names = "Coeficiente de assimetria")%>% kable_styling(position = "center") knitr
Coeficiente de assimetria | |
---|---|
Oil | 0.4146099 |
Density | -0.1799098 |
Crispy | -0.2787515 |
Fracture | -0.1077640 |
Hardness | 0.0066265 |
De acordo com a Tabela 4, temos que:
Os gráficos abaixo são relativos aos boxplots das variáveis quantitativas do dataset usairpollution. Através deles é possível visualizar a distribuição dos dados, assimetria, quartis e outliers. A única variável com Outlier é Oil.
par(mfrow=c(3,2))
<- brewer.pal(n = 5, name = "Set1")
cores
<-ggplot(data = food, aes (y = Oil))+
ageom_boxplot(fill=cores[1], color="black") +
labs(title = "Distribuição da variável Oil \n",
y = " Porcentagem de óleo na massa \n")+
scale_y_continuous(breaks = seq(0,100,by=10), limits= c(0,100))+
scale_x_continuous(labels=NULL)+
theme_classic()
a
<- ggplot(data = food, aes (y = Density))+
bgeom_boxplot(fill=cores[2], color="black") +
labs(title = "Distribuição da variável Density \n",
y = "Densidade da massa\n")+
scale_y_continuous(breaks = seq(2500,3200,by=100), limits= c(2500,3200))+
scale_x_continuous(labels=NULL)+
theme_classic()
b<- ggplot(data = food, aes (y = Crispy))+
cgeom_boxplot(fill=cores[3], color="black") +
labs(title = "Distribuição da variável Crispy \n",
y = " Crocância da massa \n")+
scale_y_continuous(breaks = seq(7,15,by=1), limits= c(7,15))+
scale_x_continuous(labels=NULL)+
theme_classic()
c
<- ggplot(data = food, aes (y = Fracture))+
dgeom_boxplot(fill=cores[4], color="black") +
labs(title = "Distribuição da variável Fracture \n",
y = " Ângulo (°) através do qual a massa pode ser dobrada lentamente antes de se partir \n")+
scale_y_continuous(breaks = seq(8,34,by=1), limits= c(8,34))+
scale_x_continuous(labels=NULL)+
theme_classic()
d
<-ggplot(data = food, aes (y = Hardness))+
egeom_boxplot(fill=cores[5], color="black") +
labs(title = "Distribuição da variável Hardness \n",
y = " Dureza da massa \n")+
scale_y_continuous(breaks = seq(60,200,by=10), limits= c(60,200))+
scale_x_continuous(labels=NULL)+
theme_classic()
e
O correlograma abaixo mostra os coeficientes de correlação de Pearson para todas as variáveis do dataset.
<- cor(food) #Matriz de correlação
corr ggcorrplot(corr,outline.color = "white",type = "lower",lab = TRUE)
- Possuem altas correlações as variáveis:
A análise fatorial será realizada com o auxílio da função factanal(), do pacote stats. Como essa função requer uma estimativa do número de fatores e o número de variáveis do dataset é pequeno, vamos iniciar nossa análise testando se o uso de 1 ou 2 fatores é mais adequado.
A definição do número máximo de fatores como 2 advém da mensagem de erro ao rodar a função com 3 ou mais fatores:
Error in factanal(food, factors = f, method = “mle”) : 3 factors are too many for 5 variables
Tabela 5: Escolha de um ou dois fatores para a análise
<- data.frame(sapply(1:2, function(f){factanal(food, factors = f, method ="mle")$PVAL}))
tabela5colnames(tabela5)<-c("p-valor")
rownames(tabela5)<-c("1 Fator","2 Fatores")
::kable(t(tabela5))%>% kable_styling(position = "center") knitr
1 Fator | 2 Fatores | |
---|---|---|
p-valor | 2e-07 | 0.6027324 |
Então, aplicamos a função factanal() com o parâmetro factors igual a 2. Por padrão, esta função já faz o método rotacional ortogonal VARIMAX. O dataset foi padronizado previamente.
= apply(food,2,function(x){(x-mean(x))/sd(x)})
food =factanal(food, factors = 2, method ="mle")
fa fa
##
## Call:
## factanal(x = food, factors = 2, method = "mle")
##
## Uniquenesses:
## Oil Density Crispy Fracture Hardness
## 0.334 0.156 0.042 0.256 0.407
##
## Loadings:
## Factor1 Factor2
## Oil -0.816
## Density 0.919
## Crispy -0.745 0.635
## Fracture 0.645 -0.573
## Hardness 0.764
##
## Factor1 Factor2
## SS loadings 2.490 1.316
## Proportion Var 0.498 0.263
## Cumulative Var 0.498 0.761
##
## Test of the hypothesis that 2 factors are sufficient.
## The chi square statistic is 0.27 on 1 degree of freedom.
## The p-value is 0.603
\(\hat{\sum}= \hat{\Lambda}\hat{\Lambda}^{T} + \hat{\Psi}\)
Tabela 6: Uniqueness
<- data.frame(fa$uniquenesses)
tabela6colnames(tabela6)<-c("Uniqueness")
::kable(t(tabela6))%>% kable_styling(position = "center") knitr
Oil | Density | Crispy | Fracture | Hardness | |
---|---|---|---|---|---|
Uniqueness | 0.3338599 | 0.1555255 | 0.0422238 | 0.2560235 | 0.4069459 |
Tabela 7: Comunalidade
<- data.frame(apply(fa$loadings^2,1,sum))
tabela7colnames(tabela7)<-c("Comunalidade")
::kable(t(tabela7))%>% kable_styling(position = "center") knitr
Oil | Density | Crispy | Fracture | Hardness | |
---|---|---|---|---|---|
Comunalidade | 0.6661398 | 0.8444745 | 0.9577762 | 0.7439766 | 0.5930539 |
Tabela 8: SS loadings
<- data.frame(`SS_loadings` = c(2.490,1.316))
tabela8rownames(tabela8)<-c("Fator 1", "Fator 2")
::kable(t(tabela8))%>% kable_styling(position = "center") knitr
Fator 1 | Fator 2 | |
---|---|---|
SS_loadings | 2.49 | 1.316 |
Tabela 9: Proportion var
<- data.frame(`Proportion_var` = c(0.498,0.263))
tabela9rownames(tabela9)<-c("Fator 1", "Fator 2")
::kable(t(tabela9))%>% kable_styling(position = "center") knitr
Fator 1 | Fator 2 | |
---|---|---|
Proportion_var | 0.498 | 0.263 |
Tabela 10: Cumulative var
<- data.frame(`Cumulative_var` = c(0.498,0.761))
tabela10rownames(tabela10)<-c("Fator 1", "Fator 2")
::kable(t(tabela10))%>% kable_styling(position = "center") knitr
Fator 1 | Fator 2 | |
---|---|---|
Cumulative_var | 0.498 | 0.761 |
\(\hat{\sum}= \hat{\Lambda}\hat{\Lambda}^{T} + \hat{\Psi}\)
Matriz Residual
<- fa$loadings
Lambda <- diag(fa$uniquenesses)
Psi <- fa$correlation
S <- Lambda %*% t(Lambda) + Psi
Sigma ::kable(round(S - Sigma, 6))%>% kable_styling(position = "center") knitr
Oil | Density | Crispy | Fracture | Hardness | |
---|---|---|---|---|---|
Oil | 0.000000 | 0.000001 | -0.002613 | -0.018220 | -0.000776 |
Density | 0.000001 | 0.000000 | -0.001081 | -0.007539 | -0.000320 |
Crispy | -0.002613 | -0.001081 | 0.000000 | 0.000000 | 0.000005 |
Fracture | -0.018220 | -0.007539 | 0.000000 | 0.000000 | 0.000033 |
Hardness | -0.000776 | -0.000320 | 0.000005 | 0.000033 | 0.000000 |
plot(fa$loadings[,1],
$loadings[,2],
faxlab = "Fator 1",
ylab = "Fator 2",
ylim = c(-1,1),
xlim = c(-1,1),
main = "Variáveis e suas cargas nos fatores")
text(fa$loadings[,1]-0.08,
$loadings[,2]+0.08,
facolnames(food),
col="red")
abline(h = 0, v = 0)
- Se duas variáveis possuem cargas altas para o mesmo fator, sabemos que
possuem algo em comum. De acordo com o gráfico acima:
library(psy)
::scree.plot(fa$correlation) psy
= factanal(food, factors = 2, method = "mle",scores = "regression")$scores
scores = data.frame(scores)
dtggplot(dt, aes(x=Factor1, y=Factor2)) +
geom_text(alpha=.9, size=3, aes(label=rownames(dt)))+
labs(title="Escores",
x="Fator 1",
y="Fator 2")+
theme(plot.title=element_text(hjust=0.5))+
theme_light()
A ordenação ao longo do Fator 1 reflete a variação das massas consideradas macias, variando da observação considerada menos macia (B758) até a mais macia (B694).
A ordenação ao longo do Fator 2 reflete a variação das massas consideradas duras, variando da observação considerada menos dura (B575) até a mais dura (B437).