A instalação é simples, bastando clicar em “avançar” e aguardar a
conclusão do processo. Após concluído basta abrir o programa.
Dica:
O caminho padrão de instalação do R no Windows seria: "C:/Program Files/R/R-4.4.1/bin"
Se as configurações de instalação foram a padrão e seu sistema for
Windows, o local é: C:Files.1. (Substitua o 4.4.1 pela sua versão se
necessário).
Se ocorrerem erros do tipo CA ou none none none, estes podem ser
relativos a falhas de comunicação entre Iramuteq e o R. A nova versão
(0.8 a7) já vem com melhorias, mas se aparecerem erros na ferramenta, em
muitos casos é necessário verificar o caminho que está inserido o R em
editar no Iramuteq.
Para verificar se a instalação foi bem sucedida, abre o Iramuteq, vá em:
edição →preferência →verifique instalação (Mahema, 2022).
2.PREPARAÇÃO DO CORPUS TEXTUAL
Antes de um texto ser analisado pelo Iramuteq, é necessário primeiro
que ele seja preparado de modo que o software possa compreendê-lo. Isso
envolve implementar no texto uma série de regras e padrões. Essa
preparação do corpus textual é essencial para a qualidade, precisão e
funcionamento correto do Iramuteq.
2.1.Conceitos de texto para o Iramuteq
Ao analisar um texto, o Iramuteq o separa em 3 grupos principais: o
corpus textual, o texto e o segmento de texto:
Corpus Textual:Um corpus textual é definido como o conjunto
completo de textos a serem analisados, representando o arquivo principal
de análise (Mahema, 2022). Este pode ser composto por diversas fontes,
como entrevistas, artigos científicos, livros, jornais ou transcrições
de pesquisa de opinião (Oliveira, 2015; Mahema, 2022). A totalidade do
material a ser estudado deve ser reunida em um único arquivo para
processamento no Iramuteq.
Texto: Um “texto” é uma subdivisão dentro do corpus,
funcionando como uma unidade individual de análise. Ele representa um
conjunto de segmentos de texto e é geralmente definido pelo pesquisador
conforme a natureza de sua pesquisa (Mahema, 2022). Por exemplo, em uma
pesquisa com entrevistas, cada entrevista individual pode ser
considerada um texto. É fundamental que cada texto inicie com quatro
asteriscos consecutivos (****) e contenha pelo menos uma variável
associada (Mahema, 2022; Loubère; Ratinaud, 2013). A separação entre
dois textos dentro do mesmo arquivo é realizada por uma linha em branco
(Mahema, 2022).
Segmentos de Texto (ST): Os segmentos de texto (ST) são as
unidades básicas de análise lexical no Iramuteq. Eles consistem em
conjuntos de palavras, com um tamanho aproximado de três linhas de
texto, que são delimitados automaticamente pelo software, ou podem ser
definidos pelo pesquisador, dependendo do tamanho do corpus (Mahema,
2022). O software realiza a separação do corpus textual em STs para
permitir uma análise fracionada e a identificação de ambientes léxicos
(Oliveira, 2015). A construção dos STs é baseada em critérios de tamanho
e pontuação, buscando homogeneidade e respeitando a estrutura
linguística do material (Loubère; Ratinaud, 2013).
2.2.Preparação do corpus textual para análise
Para a preparação do corpus textual é necessário se atentar a uma série
de regras de formatação e codificação para garantir que o software
interprete os dados de maneira eficaz.
Formato e codificação do arquivo: Todo o conteúdo
textual deve ser salvo em um arquivo de texto sem formatação (.txt),
preferencialmente com a codificação UTF-8 (Silva, 2021; Oliveira, 2015;
Loubère; Ratinaud, 2013). A escolha da codificação é crucial, pois, como
alerta Loubère e Ratinaud (2013), alguns processadores de texto podem
causar erros de formatação que comprometem a análise. Recomenda-se a
utilização de editores de texto como o Bloco de Notas ou LibreOffice
Writer para salvar o arquivo no formato .txt com a codificação UTF-8
(Oliveira, 2015; Loubère; Ratinaud, 2013). A Figura 12 mostra como fazer
isso a partir do salvamento de um arquivo do Windows.
Figura 12 – Botão de Download
Iramuteq
É uma boa prática nomear o arquivo utilizando apenas letras (a-z,
A-Z) e/ou números (0-9). Caso seja necessário usar espaços no nome do
arquivo, eles devem ser substituídos por underline (corpus_textual1.txt)
para evitar problemas de compatibilidade. O Iramuteq cria
automaticamente uma pasta na mesma localização do arquivo do corpus para
armazenar os resultados das análises, identificada com o nome do corpus
seguido de “_X” (NomeDoCorpus_X). Esta funcionalidade simplifica a
organização dos outputs do software (Loubère; Ratinaud, 2013).
Regras de Formatação do Conteúdo:A respeito da
organização e formatação do conteúdo textual, deve-se respeitar os
seguintes critérios:
Unificação do Conteúdo: Todo o material textual
destinado à análise deve ser consolidado em um único arquivo .txt. Isso
inclui a junção de todas as entrevistas, respostas a questionários ou
quaisquer outras fontes de dados que compõem o corpus.
Limpeza e Revisão: O arquivo deve ser cuidadosamente
revisado e corrigido. Isso implica na eliminação de erros de digitação,
símbolos inadequados e caracteres que não são parte do vocabulário a ser
analisado. Por padrão, o Iramuteq considera apenas caracteres
alfanuméricos e acentuados, mas possui opções de limpeza que podem ser
configuradas (Mahema, 2022).
Caracteres Especiais e Pontuação: Embora o Iramuteq
ofereça opções para lidar com pontuações e caracteres especiais durante
a importação, é geralmente recomendado evitar o uso de caracteres como
ponto e vírgula (;) dentro do corpus se a pontuação for mantida
(Loubère; Ratinaud, 2013). O software também oferece funções para
substituir apóstrofos (’) e hífens (-) por espaços, o que pode ser
ativado na aba de limpeza (Mahema, 2022; Oliveira, 2015.; Loubère;
Ratinaud, 2013).
Palavras Compostas: Expressões compostas ou palavras
com hífen que devem ser tratadas como uma única unidade lexical precisam
ser unidas por um underline (_). Por exemplo, “guarda-chuva” deve ser
escrito como guarda_chuva, e “ensino fundamental” como
ensino_fundamental (Mahema, 2022; Loubère; Ratinaud, 2013). Isso permite
que o Iramuteq as reconheça como um único termo através do “dicionário
de expressões”.
Números: Recomenda-se manter os números em sua forma
algorítmica (ex: 2025, 15, 3.14) para consistência nos dados.
Formatação Visual: O Iramuteq processa texto puro (sem
formatação). Portanto, não se deve utilizar formatações visuais como
itálico, negrito ou qualquer outro tipo de destaque gráfico no arquivo
.txt.
Estruturação de textos e variáveis: A organização do
corpus em textos com atribuição de variáveis são elementos essenciais
para análises aprofundadas. Eles permitem ao pesquisador explorar a
fundo as relações entre o conteúdo textual e características específicas
dos participantes ou contextos da pesquisa.
Identificação de Textos: Conforme mencionado, cada
“texto” no corpus deve ser introduzido por quatro asteriscos (****).
Essa marcação sinaliza ao Iramuteq o início de uma nova unidade textual
para análise. Além dos quatro asteriscos, cada texto deve
obrigatoriamente conter pelo menos uma variável associada, introduzida
por um único asterisco (*) (Mahema, 2022; Loubère; Ratinaud, 2013). A
separação clara entre textos é feita por uma linha em branco (Mahema,
2022). A Figura 13 contém um exemplo de configuração de texto:
Figura 13 – Exemplo de
configuração
Uso de Variáveis: As variáveis, também chamadas de
categorias ou modalidades, são identificadores que enriquecem a análise,
permitindo cruzar os dados textuais com informações contextuais sobre o
produtor do texto (Mahema, 2022). Elas devem ser introduzidas após os
quatro asteriscos que iniciam o texto, cada uma precedida por um
asterisco e separada por um espaço. Exemplos de Inserção de Variáveis:
● Para um corpus sem temática específica, onde cada
texto é uma unidade independente com suas variáveis:
**** *var1_modalidade1 *var2_modalidade2 Texto do participante X... **** *var1_modalidade3 *var2_modalidade4 Texto do participante Y...
● Ou, conforme um exemplo prático:
**** *resp_1 *id_44 *sex_fem (o conteúdo textual da resposta 1, do participante 44, do sexo feminino).
Corpus Temático: O Iramuteq também permite a criação
de um “corpus temático”, onde variáveis específicas podem ser
introduzidas dentro do corpo do texto para demarcar seções ou tópicos.
Nesses casos, a variável temática deve começar com um traço seguido de
asterisco (Mahema, 2022; Loubère; Ratinaud, 2013). É crucial que, em um
corpus temático, não haja segmentos de texto entre a inicialização do
texto (**** variavel) e a declaração da temática (-tematica), e
todos os parágrafos de um texto devem pertencer à mesma temática
(Mahema, 2022; Loubère; Ratinaud, 2013).
Exemplo de Corpus Temático: **** *var1_modalidade1 -*introducao Conteúdo textual da introdução… -*desenvolvimento Conteúdo textual do desenvolvimento…
A correta aplicação dessas regras garante que o Iramuteq reconheça e
processe a estrutura do corpus, permitindo a exploração de suas nuances
textuais e contextuais.
3.INSERÇÃO DO CORPUS NO SOFTWARE IRAMUTEQ
Após a rigorosa preparação do arquivo do corpus textual, o próximo
passo é importá-lo para o Iramuteq. Este processo envolve a seleção do
arquivo e a configuração de parâmetros essenciais que guiarão a
análise.
3.1.Como importar um arquivo
Com o arquivo do corpus “.txt” devidamente salvo, inicie o software
Iramuteq. A importação é realizada através do menu principal, seguindo o
caminho: Fichier (Arquivo) > Ouvrir un corpus texte (Abrir um corpus
de texto) (Silva, 2021; Oliveira, 2015; Loubère; Ratinaud, 2013). Ao
selecionar o arquivo .txt desejado, uma janela de parâmetros de
importação será exibida, apresentando duas abas principais: Geral e
Limpeza.
3.2.Configurações de Importação (Aba Geral)
A aba Geral permite definir as características globais de como o
Iramuteq deve processar o corpus. É fundamental que estas configurações
estejam alinhadas com a preparação do seu arquivo:
-
Codificação: Selecione UTF-8 para garantir a compatibilidade com a
codificação recomendada e evitar problemas de caracteres especiais
(Oliveira, 2015; Loubère; Ratinaud, 2013). O Iramuteq sugere UTF-8 por
padrão em sistemas Mac OS X e Linux, e CP 1252 no Windows, mas a atenção
do usuário é essencial para que esta configuração corresponda àquela
utilizada ao salvar o corpus (Loubère; Ratinaud, 2013).
-
Idioma: É necessário selecionar o idioma do texto a ser analisado
(Oliveira, 2015). O Iramuteq não é capaz de analisar múltiplas línguas
dentro do mesmo corpus (Loubère; Ratinaud, 2013).
-
Dicionário: Recomenda-se deixar esta opção como “padrão”, permitindo que
o Iramuteq utilize o dicionário lexical embutido para o idioma
selecionado (Oliveira,2015).
-
Usar dicionário de expressões: Mantenha esta opção selecionada. Ela
permite que o software trate palavras compostas, unidas por underline,
como uma única forma lexical, evitando a sua divisão (Loubère; Ratinaud,
2013).
-
Criar segmentos de texto: Esta opção deve estar selecionada. Ela ativa o
processo de segmentação do corpus, dividindo-o em unidades menores para
análise (Oliveira, 2015; Loubère; Ratinaud, 2013).
-
Método de construção de segmentos: Selecione “occurrences”
(ocorrências). Este método determina o tamanho dos segmentos de texto
com base no número de ocorrências (palavras) que contêm, sendo o padrão
recomendado para a segmentação de corpora (Oliveira, 2015; Loubère;
Ratinaud, 2013).
-
Tamanho dos segmentos de texto: O valor padrão é 40. Este número define
a quantidade de ocorrências (palavras) por segmento de texto. É possível
ajustar este valor para adequar a granularidade da análise ao seu
corpus: números maiores resultam em segmentos mais longos, e menores em
segmentos mais curtos (Oliveira, 2015).
-
Diretório de saída: Por padrão, o Iramuteq cria uma pasta de resultados
no mesmo diretório do arquivo importado. No entanto, esta opção permite
ao usuário especificar um diretório diferente para salvar os outputs da
análise (Loubère; Ratinaud, 2013). A Figura 14 mostra a configuração
dessa aba.
Figura 14 – Janela de
Definições
3.3.Configurações de Limpeza (Aba Limpeza)
A aba Limpeza oferece opções para pré-processar o texto, como
converter para minúsculas, remover caracteres indesejados, ou substituir
pontuações. Embora seja uma seção importante, a recomendação geral,
especialmente para iniciantes ou quando o corpus já foi previamente
limpo, é não alterar as configurações padrão, a menos que haja uma
necessidade específica e compreendida para tal modificação. As
principais opções de limpeza incluem (Mahema, 2022; Loubère; Ratinaud,
2013; Oliveira 2015):
-
Colocar letras em minúscula: Converte todas as palavras para minúsculas,
padronizando as formas e evitando que “Caneta” e “caneta” sejam tratadas
como palavras distintas.
-
Remover caracteres fora desta lista: Por padrão, mantém apenas
caracteres alfanuméricos e acentuados, mas pode ser ajustado para
incluir ou remover outros caracteres.
-
Substituir apóstrofos por espaços: Substitui apóstrofos por espaços.
-
Substituir traços por espaços: Substitui hífens por espaços.
-
Conservar a pontuação: Permite manter a pontuação no texto. Caso esta
opção seja selecionada, é importante evitar o uso de ponto e vírgula (;)
no corpus.
-
Sem espaço entre duas formas: Se ativada, o Iramuteq não usará o espaço
como delimitador de formas.
Após configurar os parâmetros e clicar em “OK”, o Iramuteq realizará
uma pré-análise do corpus.A Figura 15 representa a tela de configuração
com as opções:
Figura 15 – Configurações de
limpeza
3.4.Descrição Inicial do Corpus
Concluída a importação, o Iramuteq exibirá uma aba com a descrição
completa do corpus, apresentando estatísticas essenciais que oferecem um
panorama inicial dos dados textuais (Silva, 2021). Essa descrição é
crucial para o pesquisador verificar a integridade e as características
gerais do material que será analisado em profundidade. As informações
destacadas incluem:
-
Número de textos: Indica a quantidade total de unidades textuais
identificadas no corpus, conforme as linhas de comando iniciadas por
**** (Loubère; Ratinaud, 2013).
-
Número de Segmentos de Textos: Refere-se à quantidade de recortes ou
porções do texto que o Iramuteq conseguiu definir após o processo de
segmentação (Loubère; Ratinaud, 2013; Lima et al., 2021).
-
Número de Ocorrências: Representa o número total de palavras (formas)
contidas em todo o corpus. Este valor pode variar dependendo se o corpus
foi lematizado ou não (Loubère; Ratinaud, 2013).
-
Número de Formas: Indica o número de palavras distintas (formas únicas)
presentes no corpus, também podendo diferir se a lematização foi
aplicada (Loubère; Ratinaud, 2013).
-
Hapax: Corresponde às palavras que aparecem somente uma única vez em
todo o corpus (Mahema, 2022; Loubère; Ratinaud, 2013). O coeficiente de
Hapax é um indicador da saturação do corpus, sendo que um percentual
mais alto pode sugerir a presença de mais termos únicos ou variações
discursivas (Lima et al., 2021). A Figura 16 mostra essa tela com as
definições iniciais do corpus:
Figura 16 – Análise
inicial
4.ANÁLISES SOBRE CORPUS TEXTUAIS POSSÍVEIS NO IRAMUTEQ
O Iramuteq funciona a partir do corpus textual e de matrizes. No
corpus, é possível realizar diferentes análises, como Análise
Estatística, Análise de Labbé, Classificação Hierárquica Descendente,
Análise de Similitude e Nuvem de Palavras, que serão detalhadas nas
seções seguintes.
4.1.Análise Estatística
Também chamada de análise lexicográfica, a Análise Estatística
segmenta o texto em unidades chamadas segmentos de texto (ST), calcula a
frequência das formas (palavras) e dos hapax, aplica a lematização
(redução das palavras à sua forma base) e apresenta tabelas com as
formas ativas, suplementares e hapax (Mahema, 2022).
Figura 17 – Análise
Estatística, Aba ResumoAnálise Estatística, Aba Resumo
O gráfico de Zipf apresentado pelo Iramuteq mostra a relação entre a
frequência das palavras e sua posição no ranking de ocorrência dentro do
corpus analisado. Conforme a lei de Zipf , poucas palavras
aparecem muitas vezes, enquanto a maioria ocorre raramente. Isso se
observa na curva do gráfico: as primeiras posições concentram palavras
de alta frequência, seguidas por uma queda acentuada e uma longa cauda
de termos pouco recorrentes, muitos deles hapax (palavras que surgem
apenas uma vez). Esse padrão confirma a distribuição linguística típica
de textos naturais e indica que o corpus possui regularidade lexical
adequada para análises estatísticas posteriores.
Para abrir uma análise estatística textual, poderá escolher em clicar
sobre o ícone da análise Estatísticas (Figura 18) ou ir em “Análise de
texto” e escolher Estatísticas (Figura 19), de qualquer forma escolhida,
deverá aparecer uma janela de “Definições”.
Figura 18 – Análise
estatística
Figura 19 – Análise de
textos
Na janela de Definições, configure:
Lematização: considere semanticamente equivalentes palavras que
compartilham a mesma raiz, como “trabalho” e “trabalhar” (opção padrão:
sim).
Propriedades-chave: clique em “propriedades” e defina as classes
gramaticais (0 – eliminadas, 1 – ativas, 2 – suplementares) conforme o
objetivo da análise.
Dicionário: mantenha a opção “indexação”.
A janela chamada “Propriedades chave”, contém as classes gramaticais
que podem ser colocadas como: 0 – eliminadas, 1 – ativas e 2 –
suplementares. Recomenda-se observar os objetivos e o contexto da
análise antes de fazer essas definições. Essa janela pode ser observada
na Figura 20:
Figura 20 – Propriedades
chave
Ao pressionar a tecla “OK” da janela de Clés d’analyse (Chaves de
análise, numa tradução direta), voltaremos a tela de Definições, esta,
ao clicar em “OK” novamente, será feita a análise. Essa análise
fornecerá as estatísticas de frequência dos termos (palavras, vocábulos)
do texto, abrindo uma aba com o resumo, trazendo estatísticas textuais
acompanhado do Diagrama de Zipf, conforme a Figura 21.
Figura 21 – Diagrama de Zipf e
resumo estatístico
As abas adicionais exibem tabelas que mostram a relação entre as
formas e suas frequências no corpus: uma tabela geral, uma de formas
ativas, outra de formas suplementares e uma de hapax (palavras que
aparecem apenas uma vez). Os hapax podem indicar termos específicos,
erros de digitação ou variações pouco frequentes do vocabulário.
Clicando duas vezes com o botão direito sobre uma palavra em qualquer
tabela, é possível visualizar Lematizações, as quais são palavras
associadas à mesma raiz, por exemplo, “quero” e “querer” e Concordância:
segmentos de texto em que a palavra aparece. Essa visualização é
demonstrada na Figura 22.
Figura 22 – Lematizações
Clicando duas vezes com o botão direito sobre a forma “in”, é aberta
a janela “Concordância - in”, que mostra os segmentos de texto em que a
palavra foi utilizada no corpus. Como “in” aparece apenas uma vez, não é
possível realizar a lematização. Vale ressaltar que todas as tabelas
geradas pela análise “Estatísticas” são salvas automaticamente na pasta
de destino definida, com o nome , podendo ser
reutilizadas para diferentes fins.
Com a análise estatística concluída, o próximo passo é explorar a
Distância de Labbé, que permite avaliar a proximidade entre variáveis ou
modalidades presentes no corpus. Essa análise gera uma matriz de
distâncias, classificações hierárquicas e representações gráficas que
ajudam a identificar padrões e agrupamentos no texto, servindo como base
para interpretações mais detalhadas.
4.2.Distância de Labbé
A Análise de Labbé é uma ferramenta recente do Iramuteq que calcula a
distância léxica entre as variáveis estudadas. Com base nessa métrica, o
software gera uma matriz de distâncias, que pode ser visualizada tanto
em forma de gráfico quanto em tabela (na janela List do Iramuteq). Essa
abordagem permite explorar as proximidades e similaridades entre os
elementos do corpus de maneira intuitiva e detalhada. A partir desses
cálculos, são produzidas representações como a Figura 24 - Um heatmap
(mapa de calor), que ilustra a proximidade entre as escolhas lexicais
por meio de uma matriz de cores.
Figura 23 – Tabela de
distâncias e heatmap
A partir desses cálculos, são geradas representações como a
classificação de Ward (Figura 24) - Na análise de Labbé realizada pelo
IRaMuTeQ, a classificação de Ward é um método de agrupamento hierárquico
que, a partir da matriz de distâncias intertextuais calculada pelo
índice de Labbé (baseado nas frequências lexicais), organiza as unidades
textuais em clusters que minimizam a variância interna de cada grupo;
dessa forma, produz um dendrograma que evidencia a proximidade temática
entre segmentos de texto, permitindo identificar classes de sentido mais
amplas e consistentes dentro do corpus.
Figura 24 – Classificação de
ward
4.3.Especificidades e Análise Fatorial Confirmatória (AFC)
A Análise Fatorial Confirmatória (AFC) é uma técnica estatística
aplicada em análise de conteúdo que utiliza as formas ativas e as
variáveis do corpus para construir uma tabela de contingência. Essa
tabela representa a frequência de ocorrência das palavras em relação aos
grupos ou categorias pré-definidos, permitindo a identificação de
padrões de uso e diferenças significativas nos discursos analisados
(Camargo; Justo, 2013).
A partir dessa tabela, é possível aplicar diferentes abordagens
estatísticas para avaliar a significância das associações observadas. A
mais comum é a correlação baseada na distribuição qui-quadrado (χ²), que
verifica se a presença de determinadas palavras difere
significativamente entre os grupos. Além disso, a distribuição
hipergeométrica também pode ser utilizada, especialmente quando se
deseja analisar a probabilidade de ocorrência de uma palavra em um grupo
específico considerando o total de ocorrências no corpus, sem depender
da suposição de independência entre categorias.
Ambas as abordagens permitem identificar palavras características ou
específicas de cada grupo, ou seja, termos que aparecem de maneira
diferenciada e contribuem para a distinção entre os discursos
analisados, como apresentado na Figura 25, que mostra como é a
distribuição das modalidades de um corpus textual.
Figura 25 – Distribuição
hipergeométrica de textos
Segundo Camargo e Justo (2013), a AFC oferece vantagens importantes na
análise textual:
Identificação de padrões de linguagem: Avaliando a associação entre
palavras e grupos, a análise revela como certos termos se concentram em
categorias específicas, evidenciando temas ou tópicos recorrentes.
Diferenciação entre grupos: A aplicação do teste qui-quadrado ou da
distribuição hipergeométrica permite identificar palavras cuja
frequência difere significativamente entre grupos, apontando
características distintivas do discurso.
Complementaridade com outras análises: A AFC pode ser utilizada em
conjunto com análises hierárquicas ou de similitude para enriquecer a
interpretação do corpus, fornecendo uma visão estatisticamente validada
das relações entre palavras e grupos.
O processo típico de aplicação da AFC no Iramuteq envolve os
seguintes passos: 1. Seleção das formas ativas e das variáveis
relevantes do corpus. 2. Construção da tabela de contingência, cruzando
palavras e grupos. 3. Cálculo do qui-quadrado ou avaliação pela
distribuição hipergeométrica para cada forma, determinando a
significância das diferenças entre grupos. 4. Interpretação dos
resultados, destacando as palavras com valores mais significativos, que
podem ser consideradas marcadoras ou específicas de cada grupo. Dessa
forma, a AFC não apenas evidencia palavras e conceitos relevantes em
cada grupo, mas também fornece base estatística robusta para apoiar a
interpretação qualitativa do corpus, tornando a análise mais confiável e
rigorosa (Camargo; Justo, 2013).
4.4.Método de Reinert
Também chamada de Classificação Hierárquica Descendente (CHD), essa
análise identifica temas comuns nos textos e organiza as palavras em
classes, utilizando a lista de formas reduzidas e o dicionário embutido.
Os resultados são apresentados por meio de dendrogramas como o da Figura
26, que representam a hierarquia das classes (Mahema, 2022).
Figura 26 – Método de Reinert,
Dendrograma Horizontal
O método de Reinert também é conhecido na literatura como Classificação
Hierárquica Descendente (CHD) ou, simplesmente, Classificação
Descendente. Nessa análise, os segmentos de texto e seus vocabulários
são correlacionados, formando um esquema hierárquico de classes e
termos. A partir dele, os pesquisadores podem inferir sobre o conteúdo
do corpus, nomear classes e compreender grupos de ideias e discussões.
Além disso, é possível deduzir formas e suas localizações nos esquemas
hierárquicos por meio da análise de perfil e antiperfil (Rostirola,
2024).
Esse processo ajuda a identificar padrões e estruturar os resultados da
análise textual. A técnica divide o texto em segmentos menores e agrupa
trechos que apresentam vocabulário semelhante entre si, mas distinto das
demais classes. Em outras palavras, palavras que aparecem em contextos
semelhantes são categorizadas juntas. O Iramuteq busca, assim, obter
classes e suas associações, diferenciando temas dentro do texto e
organizando-os em dendrogramas, utilizando o teste de qui-quadrado (X²)
para validar essas associações (Salviati, 2017).
Por exemplo, ao analisar entrevistas de várias pessoas sobre um mesmo
tema, o método de Reinert pode identificar subconjuntos de discursos que
expressam opiniões semelhantes — ou seja, temas comuns abordados pelos
participantes.
Para aplicar o método, assim como em outras análises textuais, é
possível clicar diretamente sobre o ícone do Método de Reinert (Figura
27) ou acessar “Análise de texto”, depois “Classificação” e escolher o
Método de Reinert (Figuras 27 e 28). De qualquer forma escolhida, uma
janela de “Definições” será exibida.
Figura 27 – Método de
Reinert
Figura 28 – Janela de
definições para Reinert
Na janela de “Definições”, mantenha o padrão para definições,
selecione o dicionário indexado e ajuste as propriedades de acordo com o
seu interesse na análise do corpus textual. Ao clicar em “OK”, será
exibida uma segunda tela de “Definições” (Figura 29). Observe alguns
itens nessa figura que precisam ser compreendidos:
Figura 29 – Definições para
Classificação Hierárquica Descendente
Nesta janela de “Definições”, é importante destacar alguns parâmetros
essenciais:
Classificação: depende da organização do seu texto.
Segundo Rocha (2022), “dupla sobre RST” geralmente não é utilizada, pois
apresenta baixo aproveitamento do corpus e realiza uma análise dupla
sobre o reagrupamento de textos; “simples sobre ST” analisa os segmentos
de texto (padrão ou pré-determinados) e é recomendado para corpora com
textos longos; “simples sobre textos” é indicado para corpora com textos
curtos.
Tamanho de RST1: define o tamanho do segmento textual;
recomendado alterar apenas quando o corpus contiver textos curtos.
Tamanho de RST2: define outro parâmetro de tamanho de
segmento textual; também recomendado alterar somente para textos curtos.
Número de classes terminais na fase 1: indica o número
máximo de classes; ajustar apenas se os textos do corpus forem curtos.
Número máximo de formas analisadas: altere somente em
corpora com textos curtos.
Demais opções: recomenda-se manter os valores padrão
para não comprometer a categorização do corpus.
Ao clicar em “OK”, a análise será gerada. Na aba CHD, o Iramuteq
destaca as principais informações: número de textos, segmentos de texto,
formas, ocorrências, lemas, formas ativas, formas suplementares, número
de classes, tempo de execução da análise e os dendrogramas, conforme
ilustrado na Figura 30, que traz a janela principal da CHD.
Figura 30 – Janela De
resultados de CHD
Vale destacar que, se a análise apresentar uma taxa de retenção inferior
a 75% (valor indicado entre parênteses), isso pode inviabilizá-la,
devido às grandes variações que prejudicam a Classificação Hierárquica
Descendente. Nesse caso, é necessário alterar o valor da opção “Número
de classes terminais” na fase 1, escolhendo um valor diferente do padrão
(10). Se a taxa continuar abaixo de 75%, recomenda-se não utilizar o
Método de Reinert (Camargo; Justo, 2018). É possível alterar a
visualização do dendrograma escolhendo uma das três opções laterais. Ao
fazê-lo, será exibida a tela de “Dendrograma”, na qual podem ser
definidas as seguintes configurações:
Tamanho da imagem: permite ajustar a altura e a largura
do dendrograma.
Tipo de dendrograma: opções disponíveis incluem radial,
sem raiz/meio (unrooted), fan/circular, cladograma (cladogram) e
filograma (phylogram). Cada tipo oferece uma forma diferente de
visualizar as relações entre as classes.
Formato da imagem: escolha entre SVG ou PNG, formatos
para salvar o gráfico no computador.
Extra – Colorido ou preto e branco: define se o
dendrograma será colorido ou em preto e branco.
Extra – Adicionar tamanho de classe: opção a critério
do pesquisador ou, se preferir, mantenha o padrão pré-selecionado. Ao
lado direito dessa escolha, é possível optar entre diagrama circular ou
barra, apenas definindo a aparência do dendrograma.
As definições acima estão representadas na Figura 31.
Figura 31 – Método de Reinert,
Dendrograma Horizontal.
Na Figura 32, é possível visualizar, ao lado da aba CHD, as demais
abas disponíveis, assim como as três opções verticais para alterar a
visualização do gráfico. No centro, encontra-se o dendrograma gerado: um
filograma (phylogram) em diagrama circular, colorido e com a opção
“Adicionar tamanho da classe” selecionada, resultando na visualização
apresentada a seguir:
Figura 32 – Abas, Opções e
Dendrograma Demonstrativo.
O Método de Reinert segundo (Camargo; Justo, 2013), utiliza-se de
matrizes, onde se cruzam segmentos de textos e palavras em repetidos
testes de qui-quadrado (X²), assim é gerado a tabela da aba “Perfis”.
Nela teremos informações separadas a cada classe de palavras, a primeira
é o quanto ela representa em relação ao total de segmentos de texto
identificados pelo Iramuteq. Segundo a explicação de (Rocha, 2022),
estas são as definições de cada campo da tabela, presente
individualmente para cada classe de palavras:
n.: representa os números que ordenam as palavras na
tabela (em sequência).
eff. s.t.: representa os números de segmentos de texto
(ST) que contém a palavra na classe.
eff. total: representa o número de ST no corpus que
contém, ao menos uma vez, a palavra.
pourcentage: representa a porcentagem de ocorrência dos
ST que contém a palavra nessa classe, em relação a sua ocorrência no
corpus.
chi2: contém o qui-quadrado da associação dos ST que
contém a palavra com a classe.
Type: classe gramatical da palavra presente no ST,
identificada no dicionário de formas.
forme: identifica a palavra.
p:identifica o nível de significância da associação do
ST contendo a palavra com a classe.
A aba “Perfis” e os campos das tabelas mencionados podem ser
visualizados na Figura 33.
Figura 33 – Perfis ou
categorias.
A cor cinza representa as formas ativas das palavras, a cor azul
claro indica as formas suplementares, e as variáveis
ilustrativas/metadados aparecem em rosa. As classes são definidas por
associações significativas, considerando p-valor < 0,05, estatística
do teste < 3,80 e graus de liberdade igual a 1. Ao clicar em qualquer
palavra com o botão direito do mouse, são exibidas opções para explorar
a presença dessa palavra nos segmentos de texto da classe selecionada,
conforme ilustrado na Figura 34.
Figura 34 – Análise
particularizada.
Nessa nova aba, cada opção representa uma funcionalidade atrelada aquela
palavra selecionada em:
Formas associadas: nesta opção de palavras / formas
associadas nos mostrará a frequência de cada forma que originou o lema
indicado no perfil da classe.
Qui-quadrado por classe: fornece um gráfico que exibe a
associação da forma/palavra a cada classe.
Qui-quadrado por classe no dendrograma: fornece um
gráfico equivalente ao Qui-quadrado por classe, mas diferente do mesmo.
Qui-quadrado das modalidades de variável /metadado:
fornece um gráfico da associação das suas modalidades com cada uma das
classes.
Visão cronológica: oferece as opções Qui-quadrado e
Proporção, porém só funcionando com formas modalidade_variável.
Gráfico de palavras/formas: oferece um gráfico de
similitude representando as ligações entre a forma escolhida e as outras
formas da classe.
Concordância: mostra os segmentos de texto onde a
forma/palavra ocorre, com as opções de ser em função da classe, de todas
as classes do dendrograma ou da totalidade do corpus.
Fazer Tgen: são construídos reagrupamentos de
formas/lemas que serão considerados como conjunto ou um todo.
Ferramentas do CNRTL: conecta com a base de dados do
Centro Nacional de Recursos Textuais e Lexicais, para que funcione, é
necessário conexão com a internet e somente para corpus em francês.
Gráfico da classe: mostrando um gráfico de similitude
representando as ligações entre as formas da classe, conforme Figura 35.
Figura 35 – Similitude por
classe.
Segmentos repetidos: mostra os segmentos mais
frequentes da classe.
Segmentos de texto típicos: mostra por ordem
decrescente do valor do qui-quadrado de associação com a classe.
Nuvem de palavras da classe: mostra uma nuvem de
palavras customizável criada a partir da classe, conforme Figura 36.
Figura 36 – Nuvem de
classe.
Exportar: os ST da classe escolhida são colocados num
arquivo “.txt”, podendo ser um corpus para novas análises.
Exportar para Tropes e Exportar para Owledge: é
possível exportar para os aplicativos respectivos.
Na terceira e última aba, chamada de “AFC”, fornece representações de
planos fatoriais, sendo outra forma de visualizar os conteúdos e
relações entre as classes (Camargo; Justo, 2018). Ao clicar em AFC,
serão exibidas três sub-abas.
Na primeira sub-aba (AFC), o primeiro resultado apresentado corresponde
à distribuição das formas e variáveis ativas presentes nas classes. Elas
são organizadas no plano fatorial, diferenciadas por cores e pela
intensidade de interação entre si. Quanto mais próximo um elemento
estiver do ponto de cruzamento entre os eixos X e Y, maior será a
interação observada.
Em seguida, é possível visualizar as formas e variáveis suplementares,
que complementam a análise anterior e permitem identificar relações
adicionais entre os elementos do corpus. O terceiro plano fatorial
apresenta as variáveis criadas diretamente pelo pesquisador na linha de
comando do corpus textual. Essas variáveis também são distribuídas
conforme a interação observada e recebem a cor correspondente à classe
de palavras a que pertencem.
Por fim, o quarto plano fatorial mostra as classes espalhadas ao longo
dos eixos, destacando o grau de proximidade ou de afastamento entre
elas. Esse resultado contribui para compreender a estrutura geral do
corpus e a relação entre as diferentes classes formadas.
É possível melhorar a visualização clicando no ícone abaixo da
sub-aba AFC, permitindo alterar parâmetros como tamanho da imagem e
ajustes para evitar sobreposição de elementos. Na aba “Fator” estão os 5
fatores identificados pelo Iramuteq que corresponde ao número de classes
-1, conforme Figura 37.
Figura 37 – Fatores
identificados no texto.
4.4.1.Análise de perfis
Após a etapa de classificação hierárquica descendente, uma análise que
pode ser feita é a de perfil e antiperfil lexical, que permite
identificar os termos mais característicos de uma classe (perfil) e
aqueles que são significativamente menos presentes ou representativos
(anti perfil), em comparação com as demais. Ela se baseia no cálculo do
Qui-quadrado para cada forma ativa e sua associação com as classes.
Perfil Lexical: Refere-se aos termos que possuem uma
associação estatisticamente significativa e positiva com determinada
classe. São as palavras que caracterizam de forma mais proeminente e
distintiva aquela classe, contribuindo para a sua identidade semântica
singular. Um alto valor positivo de X² indica que a ocorrência de um
termo em uma classe é significativamente maior do que o esperado por
acaso, dada a sua frequência no corpus total.
AntiPerfil Lexical: Corresponde aos termos que, embora
presentes no corpus geral, apresentam uma associação estatisticamente
significativa e negativa com uma classe específica. Isso significa que
tais palavras são sub-representadas ou menos características dessa
classe em comparação com sua ocorrência em outras classes. Um valor
negativo de X² indica que a ocorrência de um termo em uma classe é
significativamente menor do que o esperado por acaso, sugerindo que esse
termo contribui para a não-identidade ou distinção negativa da classe em
relação às outras.
Conforme explica Rostirola (2024), a análise de perfil e antiperfil
permite refinar a compreensão das particularidades de cada agrupamento
lexical, revelando não apenas o que define uma classe, mas também o que
a distingue das demais. Essa abordagem aprofunda a interpretação do
universo lexical, ultrapassando a mera listagem de palavras e
quantificando sua relevância para cada domínio semântico.
Tomemos como exemplo a CHD abaixo (Figura 38). A partir de seus
dados, podemos gerar um Gráfico de Perfil e Antiperfil Lexical por
Classe (Figura 39), que ilustra a intensidade da associação (X²) de um
conjunto de termos selecionados com cada uma das cinco classes obtidas
na CHD (Rostirola, 2024)
Figura 38 – Exemplo CHD para
análise de Perfil e Antiperfil.
Figura 39 – Exemplo CHD para
análise de Perfil e Antiperfil de uma classe.
Conforme mostra a imagem 34, para cada palavra, são apresentadas barras
correspondentes às suas intensidades de X² em relação a cada classe.
Perfil da Classe 1:Focando nas barras positivas sob
“Classe 1”, notamos que os termos “matemática”, “área”, “querer”,
“gostar”, “curso”, “licenciatura”, “ensino” e “educação” apresentam os
maiores valores de X². Isso significa que esses termos são os mais
representativos e característicos da Classe 1, atuando como seu perfil
lexical. Eles são os pilares semânticos que definem este agrupamento.
Anti Perfil da Classe 1 (em relação a outros
termos/classes): Embora a imagem seja focada na “Classe 1 em
relação a X^2”, a visualização cruzada de cada termo nas diversas
classes oferece a perspectiva de antiperfil. Analisando o termo
“matemática”, por exemplo, enquanto ele é um forte perfil para a Classe
1, observa-se que ele apresenta valores negativos de X² para as Classes
2, 3, 4 e 5. Isso indica que a palavra “matemática” é um anti perfil
para essas outras classes, isto é, ela é significativamente menos
característica delas do que da Classe 1. Sua ocorrência é suprimida ou
muito baixa nessas classes em comparação com sua média no corpus geral.
Em suma, a análise de perfil e antiperfil no Iramuteq é uma
ferramenta analítica robusta que transcende a simples lista de palavras
por classe. Ao visualizar a força da associação (ou dissociação) dos
termos através do Qui-quadrado, o pesquisador obtém uma compreensão
aprofundada das especificidades lexicais de cada agrupamento,
facilitando a construção de interpretações mais ricas e fundamentadas
sobre a estrutura semântica do corpus textual. A próxima seção aborda a
análise de similitude.
4.5.Análise de Similitude
A Análise de Similitude no Iramuteq utiliza a teoria dos grafos, que
possibilita mapear a ocorrência simultânea entre palavras, indicando a
conexão entre elas e auxiliando na identificação da estrutura
representada (Camargo; Justo, 2013). Essa análise destaca as palavras e
suas proximidades no corpus. Trata-se de uma funcionalidade voltada à
visualização das conexões entre palavras presentes em um corpus textual
(Oliveira, 2015; Mahema, 2022). O resultado é apresentado na forma de um
grafo, no qual as palavras (formas) são representadas como nós
(vértices), e suas relações de coocorrência são denotadas por arestas
(Loubère; Ratinaud, 2013; Mahema, 2022).
O objetivo principal é permitir que o pesquisador infira a estrutura de
construção do texto, identificando temas relevantes a partir da
frequência com que certas palavras aparecem juntas (coocorrência)
(Oliveira, 2015; Mahema, 2022). A análise auxilia na distinção entre
partes comuns e especificidades do corpus, além de possibilitar a
verificação dessas distinções em função de variáveis descritivas
previamente definidas (Mahema, 2022). Dessa forma, a Análise de
Similitude fornece insights sobre a organização lexical e semântica do
material, revelando os “mundos léxicos” que compõem o discurso.
Fundamentalmente baseada na teoria dos grafos — um ramo da matemática
que estuda relações entre objetos de um conjunto, representados como
vértices interligados por arestas — a análise no Iramuteq constrói
grafos formais G(V, E), onde V é o conjunto não vazio de vértices
(palavras ou formas) e E é o conjunto de arestas que as conectam
(Mahema, 2022).
O software gera essa representação a partir de uma tabela de
presença/ausência de palavras e calcula a matriz de semelhança entre
elas, utilizando índices específicos, a maioria disponível na biblioteca
‘igraph’ do R (Loubère; Ratinaud, 2013). A força da conexão (peso) entre
palavras é determinada pela sua coocorrência: quanto maior a frequência
com que aparecem juntas, mais forte é a ligação e mais próximas as
palavras aparecem no grafo. Essa representação visual permite
identificar redes de palavras e aglomerados que formam os temas centrais
do corpus.
Considerando que o corpus textual já foi devidamente importado e
processado no Iramuteq, siga os passos abaixo para executar a Análise de
Similitude Considerando que o corpus textual já foi devidamente
importado e processado no Iramuteq, siga os passos abaixo para executar
a Análise de Similitude.
Acesso à análise:
No menu principal do Iramuteq, clique em Análise de texto.
Selecione a opção Análise de semelhança.
Uma janela de parâmetros da análise será exibida, conforme mostra a
Figura 40.
Figura 40 – Tela de
configurações Análise de Similitude
Configuração dos Parâmetros da Análise de Similitude (Loubère
& Ratinaud, 2013)
Lista de Formas: No quadro à esquerda, é exibida a lista das formas
(palavras) e suas frequências. Por padrão, todas estão selecionadas, mas
você pode desmarcar as que não deseja incluir na análise.
Parâmetros do Grafo (Aba “Configurações gráficas”:
Escore: Permite escolher o tipo de índice de cálculo da semelhança
(por exemplo, “coocorrência” é o padrão).
Apresentação: Define o algoritmo de visualização dos dados, determinando
como os nós e arestas serão dispostos no grafo. As opções incluem
“random” (aleatório), “cercle” (círculo), “Fruchterman Reingold”,
“Kamada-Kawai”, “graphot”, entre outros.
Tipo de grafos: Escolha o formato de saída do grafo (Oliveira, 2015):
Estático: Produz uma imagem nos formatos .png ou .svg. Dinâmico: Utiliza
a interface tk do gráfico, permitindo interação. 3D: Gera um gráfico
tridimensional em uma janela gl.
Formato da Imagem: Caso selecione gráfico estático, defina o formato de
salvamento (.png ou .svg).
Árvore máxima: Define se o grafo terá ou não estrutura de árvore e
ramificações (Oliveira, 2015).
Bordas limítrofes: Permite eliminar arestas cujo valor do índice seja
inferior ou igual a um limite definido.
Texto sobre os vértices: Exibe o texto das palavras nos nós do grafo.
Escore nas bordas: Exibe o valor do índice (força da ligação) nas
arestas. Tamanho do texto: Ajusta o tamanho do texto nos nós.
Comunidades: Calcula e visualiza grupos de palavras, representados com
um halo de cor se a opção “halo” estiver selecionada.
Selecionar uma variável: Restringe a análise a variáveis específicas do
corpus (Oliveira, 2015).
Tamanho do gráfico: Define as dimensões da imagem em pixels.
Tamanho do vértice proporcional à frequência: Ajusta o tamanho dos nós
de acordo com a frequência das palavras ou valor do χ² (Loubère &
Ratinaud, 2013).
Bordas com largura proporcional ao Escore: Ajusta a largura das arestas
conforme a força do índice de semelhança.
Escala cinza de texto proporcional à frequência: Aplica tons de cinza ao
texto dos nós com base na frequência ou χ².
Cor do vértice e Cor das bordas: Permite definir a cor dos nós ou das
arestas.
Parâmetros Gráficos (Aba “Ajustes gráficos”):
Tamanho do gráfico: Define as dimensões da imagem em pixels.
Tamanho do vértice proporcional à frequência: Ajusta o tamanho dos nós
de acordo com a frequência das palavras ou valor do χ² (Loubère &
Ratinaud, 2013).
Bordas com largura proporcional ao Escore: Ajusta a largura das arestas
conforme a força do índice de semelhança.
Escala cinza de texto proporcional à frequência: Aplica tons de cinza ao
texto dos nós com base na frequência ou χ².
Cor do vértice / Cor das bordas: Permite definir a cor dos nós e/ou das
arestas.
Transparência das esferas: Ajusta a transparência em gráficos 3D.
Execução da Análise: Após configurar todos os parâmetros desejados,
clique em OK para gerar o grafo de similitude.
Os resultados serão exibidos em uma nova aba, conforme a Figura 40.
O Iramuteq permite exportar o grafo para imagens (.png ou .svg) e para
arquivos de rede (.graphml), que podem ser abertos e analisados em
softwares especializados, como Gephi ou Visone (Loubère & Ratinaud,
2013).
Figura 41 – Exemplo análise de
similitude.
A próxima seção traz uma análise léxica frequencial conhecida como
nuvem de palavras.
4.6.Nuvem de palavras
Segundo Camargo e Justo (2013), essa análise agrupa as palavras e as
organiza graficamente em função de sua frequência, destacando os termos
de maior relevância.
A Nuvem de Palavras é uma das visualizações mais populares e intuitivas
para análise de texto, oferecida pelo Iramuteq (Silva, 2021). Essa
funcionalidade apresenta as palavras do corpus em uma disposição visual
semelhante a uma nuvem, em que o tamanho de cada palavra é proporcional
à sua frequência ou importância estatística dentro do texto (Oliveira,
2015; Mahema, 2022).
O propósito principal da Nuvem de Palavras é fornecer uma visão rápida e
imediata dos termos mais proeminentes e recorrentes no corpus textual.
Ela permite ao pesquisador identificar visualmente os conceitos e temas
que se destacam, servindo como ponto de partida para análises mais
aprofundadas ou para validar primeiras impressões sobre o conteúdo do
material. É uma ferramenta eficaz para resumir visualmente a essência de
um texto ou conjunto de textos, facilitando a comunicação dos resultados
a um público mais amplo.
A fundamentação teórica da Nuvem de Palavras no Iramuteq baseia-se na
análise de frequência dos termos, uma das estatísticas textuais mais
básicas e fundamentais. O software calcula a ocorrência de cada forma
(palavra) no corpus e, com base nessa frequência, atribui um peso ou
tamanho visual à palavra (Oliveira, 2015; Mahema, 2022). Palavras com
maior frequência ou maior indicador de importância estatística são
apresentadas com tamanhos maiores, enquanto palavras menos frequentes
aparecem menores.
Embora o princípio básico seja a frequência, o Iramuteq, como software
de análise estatística, pode incorporar outros processos estatísticos
para determinar a importância de uma palavra além da contagem simples de
ocorrências (Oliveira, 2015; Mahema, 2022). Por meio da lematização, por
exemplo, o software agrupa palavras com a mesma raiz para uma contagem
mais precisa de conceitos, garantindo que a nuvem represente não apenas
as palavras mais utilizadas, mas também os conceitos mais presentes no
discurso.
Acesso à Análise: Considerando que o corpus já está
carregado e processado no Iramuteq, o primeiro passo para gerar uma
Nuvem de Palavras consiste em acessar o menu principal do software e
clicar em Análise de texto. Em seguida, deve-se selecionar a opção Nuvem
de palavras. Nesse momento, o programa exibirá uma janela com os
parâmetros que podem ser configurados para a criação da nuvem.
Configuração dos Parâmetros da Nuvem de Palavras: Entre
os parâmetros disponíveis, encontra-se a opção Altura/Largura, que
define as dimensões da imagem em pixels. Também é possível configurar o
Formato da imagem, escolhendo a extensão do arquivo a ser salvo, como
.png ou .svg. Outro ajuste importante é o Número máximo de formas, que
determina o total de palavras exibidas na nuvem. Números menores
resultam em representações mais concisas, enquanto valores maiores
ampliam o conjunto de termos incluídos (Loubère; Ratinaud, 2013). O
parâmetro Formas utilizadas permite ao usuário decidir se a nuvem será
composta por “formas ativas”, “suplementares” ou ambas, de acordo com os
objetivos da análise (Loubère; Ratinaud, 2013). Já em Tamanho do texto,
são definidos os limites superiores e inferiores das fontes que
aparecerão na nuvem. Por fim, há a opção Cor do texto/fundo, que
possibilita a personalização das cores utilizadas tanto para as palavras
quanto para o plano de fundo da imagem.
Seleção Final de Palavras (Opcional): Após a
configuração inicial dos parâmetros, o software apresenta uma tabela
listando as palavras identificadas e suas respectivas frequências. Por
padrão, todas as palavras estão selecionadas para compor a nuvem.
Entretanto, o usuário pode desmarcar manualmente aquelas que não deseja
incluir. Também é possível selecionar múltiplos termos ao mesmo tempo,
mantendo a tecla Ctrl pressionada durante a escolha.
Execução da Análise: Com os parâmetros ajustados e a
seleção de palavras definida, basta clicar em OK para que o software
gere a Nuvem de Palavras.
Visualização e Exportação: A nuvem resultante será
exibida em uma nova aba do Iramuteq. Caso seja necessário, a imagem pode
ser exportada no formato previamente selecionado, como .png ou .svg,
garantindo que o resultado possa ser utilizado em relatórios,
apresentações ou publicações.
Figura 42 – Exemplo de Nuvem de
Palavra.
Este manual explora as diversas análises possíveis em corpora
textuais. Além das abordagens já apresentadas, destaca-se a análise em
Matriz, que permite a aplicação da técnica de associação livre entre
palavras (TALP) aliada à teoria das representações sociais. Por meio
dessa abordagem, é possível examinar a frequência de variáveis
categóricas, identificar similitudes e conduzir análises prototípicas,
as quais serão abordadas em estudos futuros.
5.CONSIDERAÇÕES FINAIS
O Iramuteq é uma ferramenta computacional valiosa para a análise
textual, oferecendo métodos estatísticos e multidimensionais para
explorar grandes volumes de dados qualitativos. Permite identificar
estruturas, associações e diferenças lexicais através de análises como
estatística, Classificação Hierárquica Descendente e Análise de
Similitude.
Este manual apresenta uma visão das capacidades e procedimentos do
software em sua versão atual, servindo como um guia fundamental.
Contudo, é importante notar que, como um software em desenvolvimento,
futuras atualizações podem alterar funcionalidades e exigir revisão
deste material.
Acima de tudo, o Iramuteq deve ser compreendido como um auxiliar
poderoso, mas não um substituto para o pesquisador. Como ressaltado por
Oliveira (2015), a interpretação dos resultados gerados, a identificação
de significado nas classes e relações apresentadas e a integração desses
achados ao quadro teórico dependem intrinsecamente do olhar crítico e da
expertise do investigador. O software processa dados; o pesquisador, com
sua capacidade de análise e inferência, constrói o conhecimento.
REFERÊNCIAS
CAMARGO, B. V.; JUSTO, A. M. Iramuteq: um software gratuito para
análise de dados textuais. Temas em Psicologia, v. 21,
n. 2, p. 513-518, 2013.
CAMARGO, B.V. Alceste: Um programa informático de análise
quantitativa de dados textuais. In: Moreira, A.S.P., Camargo,
B.V., Jesuíno, J.C. and Nóbrega, S.M., Org., Perspectivas
teórico-metodológicas em representacoes sociais, UFPB/Editora
Universitária, Joao Pessoa, 511-539, 2005.
CAMARGO, B.V. Tutorial para uso do software de análise
textual Iramuteq. 2013. Disponível em: https://d1wqtxts1xzle7.cloudfront.net/53221555/Tutorial_Iramuteq_2013_portugues-libre.pdf.
Acesso em: 17 ago. 2025.
FERNANDES, I.A.T. Iramuteq: um software para análises
estatísticas qualitativas em corpus textuais. Trabalho de
Conclusão de Curso, Universidade Federal do Rio Grande do Norte, 2019.
GOMES, T.B.D. Leis bibliométricas de Zipf e ponto de transição de
Goffman: reflexões com estudos pioneiros. In: Encontro
Brasileiro de Bibliometria e Cientometria, v. 9, p. 1-7, 2024.
LIMA, V. M. R.; AMARAL-ROSA, M. P.; RAMOS, M. G. Análise textual
discursiva apoiada por software: Iramuteq e a análise de subcorpus.
Investigação Qualitativa em Educação: Avanços e
Desafios, v. 7, p. 1-9, 2021.
LOUBÈRE, L.; RATINAUD, P. Documentation Iramuteq. 2013. Disponível
em: documentation_19_02_2014.pdf. Acesso em: 17 ago. 2025.
MAHEMA, K.M.Análise de dados textuais em pesquisas de
mobilidade urbana e transporte com Iramuteq. Brasília: UnB,
2022.
OLIVEIRA, L.F. R. de. Tutorial Básico de utilização do
Iramuteq.Goiânia: Universidade Federal de Goiás, 2015.
Disponível em: https://files.cercomp.ufg.br/weby/up/771/o/Tutorial_-_Revis%C3%A3o.pdf.
Acesso em: 12 abr. 2022.
RATINAUD, P. MARCHAND, P. Application de la méthode ALCESTE à de
“gros” corpus et stabilité des “mondes lexicaux”: analyse du “CableGate”
avec Iramuteq. Actes des 11ème Journées internationales
d’Analyse statistique des Données Textuelles, v. 3, p. 835-844,
2012.
ROCHA, W. Método de Reinert ou Classificação no
IRAMUTEQ. Vídeo, 12min41s. Publicado em 22 jul. 2022.
Disponível em: https://www.youtube.com/watch?v=7F0fJ4qQiXI. Acesso em:
19 jun. 2025.
ROCHA, W. Tutorial atualizado de instalação do R + IRAMUTEQ e
correção de problemas. Vídeo, 14min39s. Publicado em 3 jun.
2022. Disponível em: https://www.youtube.com/watch?v=Yb0FxZmYM60. Acesso em:
19 jun. 2025.
ROSTIROLA, S.C.M.Saberes estatísticos do(a) professor(a) de
matemática: um estudo a partir da formação inicial. 2024.