INTRODUÇÃO

O Iramuteq (Interface de R pour l’Analyse Multidimensionnelle de Textes et de Questionnaires) é um software livre de origem francesa, desenvolvido por Pierre Ratinaud em 2009 no Laboratório de Estudos e Pesquisas Aplicadas em Ciências Sociais da Universidade de Toulouse. Baseado na linguagem de programação R, o Iramuteq permite a análise estatística e multidimensional de textos e questionários, revelando estruturas e conexões inerentes ao texto (Mahema, 2022; Ratinaud; Marchand, 2012). Este software é amplamente utilizado em pesquisas qualitativas por sua capacidade de explorar grandes volumes de dados textuais de forma eficiente.

Figura 01 - Interface do Iramuteq 0.8
Figura 01 - Interface do Iramuteq 0.8


O Iramuteq é distribuído sob licença livre (GNU GPL v2) e possui código aberto. Ele se fundamenta no método de classificação de Max Reinert, ampliando as análises anteriormente realizadas pelo software Alceste. O Iramuteq permite a análise, categorização, identificação de associações e o estudo de termos convergentes e similares em um corpus textual. Seu funcionamento baseia-se na inserção de textos em seu banco de dados, obedecendo a regras específicas. Também é possível utilizar planilhas ou matrizes para realizar análises, como a chamada análise prototípica.

A elaboração deste manual tem como propósito fundamental guiar o usuário na instalação completa do software Iramuteq, seus pré-requisitos essenciais, mostrar como preparar um dado texto para a análise dentro da ferramenta assim como mostrar as diferentes formas de análise textual dentro do sistema.

1.INSTALAÇÃO DE SISTEMA E INSTALAÇÃO DE PRÉ-REQUISITOS

O principal pré-requisito para o funcionamento correto do Iramuteq, é possuir no computador o software estatístico R. Isso ocorre porque o Iramuteq estabelece uma interface direta com o R para o processamento das análises textuais (Fernandes, 2019). Dessa forma é necessário realizar a instalação do R antes do Iramuteq. Por conta de serem sistemas desenvolvidos separadamente, o Iramuteq não é compatível com as versões mais recentes do R (Mahema, 2022). Por isso é necessário ir ao site do Iramuteq (http://www.iramuteq.org/) e conferir qual é a versão do R mais recente compatível:

Figura 02 - Versão R compatível com Iramuteq
Figura 02 - Versão R compatível com Iramuteq

1.1.Download e instalação do Software R e seus pacotes

Para baixar o software R acesse o site: https://cran.r-project.org/mirrors.html e escolha o espelho CRAN. O espelho CRAN (Comprehensive R Archive Network) é um meio de distribuição gratuita e segura da linguagem R. A principal diferença entre os espelhos consiste em suas localizações, como justificativa de estar mais perto da localização do usuário no qual fará o download do software. No Brasil, existem atualmente 3 espelhos CRAN da linguagem R, distribuídos pelas Universidade de São Paulo, de Piracicaba e a Federal do Paraná.

Figura 03 – Distribuição de CRAN no Brasil
Figura 03 – Distribuição de CRAN no Brasil


Após a escolha da distribuição CRAN, escolha o instalador R compatível com o Sistema Operacional de sua máquina:

Figura 04 – Instalador R por Sistema Operacional
Figura 04 – Instalador R por Sistema Operacional


Em seguida clique em “install R for de first time”.

Atenção: Para verificar a versão do Iramuteq compatível do Iramuteq em relação ao Software R clique então em ‘previous releases’ como mostra a imagem abaixo (Wagner, 2023).

Figura 05 – Link de download R
Figura 05 – Link de download R


Depois clique na versão que conferiu ser compatível:

Figura 06 – Escolhendo versão compatível do R
Figura 06 – Escolhendo versão compatível do R


Por fim, clique no arquivo com final ‘.exe’ para fazer o download do instalador:

Figura 07 – Download Instalador R
Figura 07 – Download Instalador R


Após o download do instalador, execute-o. A instalação é geralmente simples, bastando clicar em “avançar” e optar pelas configurações recomendadas (Oliveira, 2015). Recomendamos que deixe marcada a opção de criar atalho na área de trabalho de seu computador. A instalação contém a seguinte mensagem após concluída:

Figura 08 – Mensagem de conclusão de instalação do R
Figura 08 – Mensagem de conclusão de instalação do R


Após a instalação, é necessário atualizar os pacotes do R. Para isso abra o arquivo R gerado (deve estar na sua área de trabalho). Então clique em instalar pacotes, como mostrado na imagem abaixo:

Figura 09 – Instalação de Pacotes (iniciando)
Figura 09 – Instalação de Pacotes (iniciando)


Depois, selecione o CRAN da fonte que você escolheu ao baixar o software R. Em nosso exemplo foi a da Universidade do Paraná, portanto o CRAN escolhido deve ser Brasil (PR), como mostra a imagem abaixo:

Figura 10 – Instalação de Pacotes
Figura 10 – Instalação de Pacotes


Para finalizar a instalação:
  1. Clique em “OK”.
  2. Em seguida, aparecerá uma nova janela chamada “Packages”. Clique em “OK” novamente.
  3. Quando for fechar a aplicação (clicando no “X” no canto superior direito), o programa perguntará se deseja “Salvar imagem da área de trabalho”. Clique em “Sim”.
  4. Depois disso, pode fechar a janela.A instalação do R e de seus pacotes estará concluída.

Observações por Sistema Operacional conforme Mahema (2022):

  • GNU/Linux (Ex: Linux Mint): É necessário instalar o pacote r-base-dev via terminal, utilizando o comando sudo apt-get install r-base-dev. As bibliotecas R (rlg, ape, gee, igraph, proxy, rgl) que eram exigidas em versões anteriores do Iramuteq não são mais indispensáveis, embora o pacote rgl possa ocasionalmente falhar na instalação automática. Contudo, o rgl é utilizado apenas para visualizações 3D e sua ausência não compromete as funcionalidades básicas do software.
  • Mac OS X: Além de baixar e instalar o software R, é necessário baixar e instalar o xquartz. Em alguns casos, pode ser preciso baixar o arquivo Rgraph e substituir o arquivo existente na pasta de scripts do Iramuteq (aplicação – Iramuteq (clique direto) - mostrar o conteúdo do pacote - Rscripts). Se o Iramuteq não abrir por ser reconhecido como uma aplicação de fonte desconhecida, o usuário pode tentar abri-lo via terminal com os comandos: cd /Applications/Iramuteq .app, seguido de ls, e então ./Iramuteq.
  • 1.2.Download e Instalação do Iramuteq

    O instalador do Iramuteq pode ser obtido por meio do site de distribuição disponível em: https://sourceforge.net/projects/Iramuteq/, indicado oficialmente pelo próprio site do Iramuteq . Para acesso à documentação e a outras informações relevantes, recomenda-se consultar o site oficial: http://www.iramuteq.org/. Ao acessar o site de distribuição, clique no botão Download. Após, clique em salvar.

    Figura 11 – Botão de Download Iramuteq
    Figura 11 – Botão de Download Iramuteq


    Após o download, execute o instalador. A instalação é tipicamente simples, exigindo apenas que o usuário clique em “avançar” e aguarde a conclusão do processo (Oliveira, 2015; Silva, 2021). É possível que ao executar o instalador algum software de segurança do sistema operacional identifique ele como uma ameaça por se tratar de um aplicativo desconhecido. Por exemplo, no sistema da Microsoft pode surgir uma mensagem contendo ‘O Windows protegeu o computador’. Para resolver, basta clicar em ‘Mais informações’ e ‘Executar assim mesmo’.
    A instalação é simples, bastando clicar em “avançar” e aguardar a conclusão do processo. Após concluído basta abrir o programa.

    Observações: Pode acontecer de o Iramuteq não localizar automaticamente a pasta de execução do R (Wagner, 2023). Para corrigir esse problema, na página inicial do Iramuteq siga o caminho:

  • Edição
  • Preferências
  • No campo “Atalho R”, indique o local onde o arquivo executável do R está instalado.
  • Dica:

    O caminho padrão de instalação do R no Windows seria: "C:/Program Files/R/R-4.4.1/bin"
  • Se as configurações de instalação foram a padrão e seu sistema for Windows, o local é: C:Files.1. (Substitua o 4.4.1 pela sua versão se necessário).
  • Se ocorrerem erros do tipo CA ou none none none, estes podem ser relativos a falhas de comunicação entre Iramuteq e o R. A nova versão (0.8 a7) já vem com melhorias, mas se aparecerem erros na ferramenta, em muitos casos é necessário verificar o caminho que está inserido o R em editar no Iramuteq.
  • Para verificar se a instalação foi bem sucedida, abre o Iramuteq, vá em: edição →preferência →verifique instalação (Mahema, 2022).
  • 2.PREPARAÇÃO DO CORPUS TEXTUAL

    Antes de um texto ser analisado pelo Iramuteq, é necessário primeiro que ele seja preparado de modo que o software possa compreendê-lo. Isso envolve implementar no texto uma série de regras e padrões. Essa preparação do corpus textual é essencial para a qualidade, precisão e funcionamento correto do Iramuteq.

    2.1.Conceitos de texto para o Iramuteq

    Ao analisar um texto, o Iramuteq o separa em 3 grupos principais: o corpus textual, o texto e o segmento de texto:
  • Corpus Textual:Um corpus textual é definido como o conjunto completo de textos a serem analisados, representando o arquivo principal de análise (Mahema, 2022). Este pode ser composto por diversas fontes, como entrevistas, artigos científicos, livros, jornais ou transcrições de pesquisa de opinião (Oliveira, 2015; Mahema, 2022). A totalidade do material a ser estudado deve ser reunida em um único arquivo para processamento no Iramuteq.
  • Texto: Um “texto” é uma subdivisão dentro do corpus, funcionando como uma unidade individual de análise. Ele representa um conjunto de segmentos de texto e é geralmente definido pelo pesquisador conforme a natureza de sua pesquisa (Mahema, 2022). Por exemplo, em uma pesquisa com entrevistas, cada entrevista individual pode ser considerada um texto. É fundamental que cada texto inicie com quatro asteriscos consecutivos (****) e contenha pelo menos uma variável associada (Mahema, 2022; Loubère; Ratinaud, 2013). A separação entre dois textos dentro do mesmo arquivo é realizada por uma linha em branco (Mahema, 2022).
  • Segmentos de Texto (ST): Os segmentos de texto (ST) são as unidades básicas de análise lexical no Iramuteq. Eles consistem em conjuntos de palavras, com um tamanho aproximado de três linhas de texto, que são delimitados automaticamente pelo software, ou podem ser definidos pelo pesquisador, dependendo do tamanho do corpus (Mahema, 2022). O software realiza a separação do corpus textual em STs para permitir uma análise fracionada e a identificação de ambientes léxicos (Oliveira, 2015). A construção dos STs é baseada em critérios de tamanho e pontuação, buscando homogeneidade e respeitando a estrutura linguística do material (Loubère; Ratinaud, 2013).
  • 2.2.Preparação do corpus textual para análise

    Para a preparação do corpus textual é necessário se atentar a uma série de regras de formatação e codificação para garantir que o software interprete os dados de maneira eficaz.
  • Formato e codificação do arquivo: Todo o conteúdo textual deve ser salvo em um arquivo de texto sem formatação (.txt), preferencialmente com a codificação UTF-8 (Silva, 2021; Oliveira, 2015; Loubère; Ratinaud, 2013). A escolha da codificação é crucial, pois, como alerta Loubère e Ratinaud (2013), alguns processadores de texto podem causar erros de formatação que comprometem a análise. Recomenda-se a utilização de editores de texto como o Bloco de Notas ou LibreOffice Writer para salvar o arquivo no formato .txt com a codificação UTF-8 (Oliveira, 2015; Loubère; Ratinaud, 2013). A Figura 12 mostra como fazer isso a partir do salvamento de um arquivo do Windows.

  • Figura 12 – Botão de Download Iramuteq
    Figura 12 – Botão de Download Iramuteq


    É uma boa prática nomear o arquivo utilizando apenas letras (a-z, A-Z) e/ou números (0-9). Caso seja necessário usar espaços no nome do arquivo, eles devem ser substituídos por underline (corpus_textual1.txt) para evitar problemas de compatibilidade. O Iramuteq cria automaticamente uma pasta na mesma localização do arquivo do corpus para armazenar os resultados das análises, identificada com o nome do corpus seguido de “_X” (NomeDoCorpus_X). Esta funcionalidade simplifica a organização dos outputs do software (Loubère; Ratinaud, 2013).

  • Regras de Formatação do Conteúdo:A respeito da organização e formatação do conteúdo textual, deve-se respeitar os seguintes critérios:

      Unificação do Conteúdo: Todo o material textual destinado à análise deve ser consolidado em um único arquivo .txt. Isso inclui a junção de todas as entrevistas, respostas a questionários ou quaisquer outras fontes de dados que compõem o corpus.

      Limpeza e Revisão: O arquivo deve ser cuidadosamente revisado e corrigido. Isso implica na eliminação de erros de digitação, símbolos inadequados e caracteres que não são parte do vocabulário a ser analisado. Por padrão, o Iramuteq considera apenas caracteres alfanuméricos e acentuados, mas possui opções de limpeza que podem ser configuradas (Mahema, 2022).

      Caracteres Especiais e Pontuação: Embora o Iramuteq ofereça opções para lidar com pontuações e caracteres especiais durante a importação, é geralmente recomendado evitar o uso de caracteres como ponto e vírgula (;) dentro do corpus se a pontuação for mantida (Loubère; Ratinaud, 2013). O software também oferece funções para substituir apóstrofos (’) e hífens (-) por espaços, o que pode ser ativado na aba de limpeza (Mahema, 2022; Oliveira, 2015.; Loubère; Ratinaud, 2013).

      Palavras Compostas: Expressões compostas ou palavras com hífen que devem ser tratadas como uma única unidade lexical precisam ser unidas por um underline (_). Por exemplo, “guarda-chuva” deve ser escrito como guarda_chuva, e “ensino fundamental” como ensino_fundamental (Mahema, 2022; Loubère; Ratinaud, 2013). Isso permite que o Iramuteq as reconheça como um único termo através do “dicionário de expressões”.

      Números: Recomenda-se manter os números em sua forma algorítmica (ex: 2025, 15, 3.14) para consistência nos dados.

      Formatação Visual: O Iramuteq processa texto puro (sem formatação). Portanto, não se deve utilizar formatações visuais como itálico, negrito ou qualquer outro tipo de destaque gráfico no arquivo .txt.
  • Estruturação de textos e variáveis: A organização do corpus em textos com atribuição de variáveis são elementos essenciais para análises aprofundadas. Eles permitem ao pesquisador explorar a fundo as relações entre o conteúdo textual e características específicas dos participantes ou contextos da pesquisa.
      Identificação de Textos: Conforme mencionado, cada “texto” no corpus deve ser introduzido por quatro asteriscos (****). Essa marcação sinaliza ao Iramuteq o início de uma nova unidade textual para análise. Além dos quatro asteriscos, cada texto deve obrigatoriamente conter pelo menos uma variável associada, introduzida por um único asterisco (*) (Mahema, 2022; Loubère; Ratinaud, 2013). A separação clara entre textos é feita por uma linha em branco (Mahema, 2022). A Figura 13 contém um exemplo de configuração de texto:
  • Figura 13 – Exemplo de configuração
    Figura 13 – Exemplo de configuração


      Uso de Variáveis: As variáveis, também chamadas de categorias ou modalidades, são identificadores que enriquecem a análise, permitindo cruzar os dados textuais com informações contextuais sobre o produtor do texto (Mahema, 2022). Elas devem ser introduzidas após os quatro asteriscos que iniciam o texto, cada uma precedida por um asterisco e separada por um espaço. Exemplos de Inserção de Variáveis:
      ● Para um corpus sem temática específica, onde cada 
      texto é uma unidade independente com suas variáveis: 
      
      **** *var1_modalidade1 *var2_modalidade2 Texto do participante X... **** *var1_modalidade3 *var2_modalidade4 Texto do participante Y...
      
      ● Ou, conforme um exemplo prático: 
      **** *resp_1 *id_44 *sex_fem (o conteúdo textual da resposta 1, do participante 44, do sexo feminino).

      Corpus Temático: O Iramuteq também permite a criação de um “corpus temático”, onde variáveis específicas podem ser introduzidas dentro do corpo do texto para demarcar seções ou tópicos. Nesses casos, a variável temática deve começar com um traço seguido de asterisco (Mahema, 2022; Loubère; Ratinaud, 2013). É crucial que, em um corpus temático, não haja segmentos de texto entre a inicialização do texto (**** variavel) e a declaração da temática (-tematica), e todos os parágrafos de um texto devem pertencer à mesma temática (Mahema, 2022; Loubère; Ratinaud, 2013).

      Exemplo de Corpus Temático: **** *var1_modalidade1 -*introducao Conteúdo textual da introdução… -*desenvolvimento Conteúdo textual do desenvolvimento…

      A correta aplicação dessas regras garante que o Iramuteq reconheça e processe a estrutura do corpus, permitindo a exploração de suas nuances textuais e contextuais.

      3.INSERÇÃO DO CORPUS NO SOFTWARE IRAMUTEQ

      Após a rigorosa preparação do arquivo do corpus textual, o próximo passo é importá-lo para o Iramuteq. Este processo envolve a seleção do arquivo e a configuração de parâmetros essenciais que guiarão a análise.

      3.1.Como importar um arquivo

      Com o arquivo do corpus “.txt” devidamente salvo, inicie o software Iramuteq. A importação é realizada através do menu principal, seguindo o caminho: Fichier (Arquivo) > Ouvrir un corpus texte (Abrir um corpus de texto) (Silva, 2021; Oliveira, 2015; Loubère; Ratinaud, 2013). Ao selecionar o arquivo .txt desejado, uma janela de parâmetros de importação será exibida, apresentando duas abas principais: Geral e Limpeza.

      3.2.Configurações de Importação (Aba Geral)

      A aba Geral permite definir as características globais de como o Iramuteq deve processar o corpus. É fundamental que estas configurações estejam alinhadas com a preparação do seu arquivo:

    • Codificação: Selecione UTF-8 para garantir a compatibilidade com a codificação recomendada e evitar problemas de caracteres especiais (Oliveira, 2015; Loubère; Ratinaud, 2013). O Iramuteq sugere UTF-8 por padrão em sistemas Mac OS X e Linux, e CP 1252 no Windows, mas a atenção do usuário é essencial para que esta configuração corresponda àquela utilizada ao salvar o corpus (Loubère; Ratinaud, 2013).
    • Idioma: É necessário selecionar o idioma do texto a ser analisado (Oliveira, 2015). O Iramuteq não é capaz de analisar múltiplas línguas dentro do mesmo corpus (Loubère; Ratinaud, 2013).
    • Dicionário: Recomenda-se deixar esta opção como “padrão”, permitindo que o Iramuteq utilize o dicionário lexical embutido para o idioma selecionado (Oliveira,2015).
    • Usar dicionário de expressões: Mantenha esta opção selecionada. Ela permite que o software trate palavras compostas, unidas por underline, como uma única forma lexical, evitando a sua divisão (Loubère; Ratinaud, 2013).
    • Criar segmentos de texto: Esta opção deve estar selecionada. Ela ativa o processo de segmentação do corpus, dividindo-o em unidades menores para análise (Oliveira, 2015; Loubère; Ratinaud, 2013).
    • Método de construção de segmentos: Selecione “occurrences” (ocorrências). Este método determina o tamanho dos segmentos de texto com base no número de ocorrências (palavras) que contêm, sendo o padrão recomendado para a segmentação de corpora (Oliveira, 2015; Loubère; Ratinaud, 2013).
    • Tamanho dos segmentos de texto: O valor padrão é 40. Este número define a quantidade de ocorrências (palavras) por segmento de texto. É possível ajustar este valor para adequar a granularidade da análise ao seu corpus: números maiores resultam em segmentos mais longos, e menores em segmentos mais curtos (Oliveira, 2015).
    • Diretório de saída: Por padrão, o Iramuteq cria uma pasta de resultados no mesmo diretório do arquivo importado. No entanto, esta opção permite ao usuário especificar um diretório diferente para salvar os outputs da análise (Loubère; Ratinaud, 2013). A Figura 14 mostra a configuração dessa aba.

    • Figura 14 – Janela de Definições
      Figura 14 – Janela de Definições


      3.3.Configurações de Limpeza (Aba Limpeza)

      A aba Limpeza oferece opções para pré-processar o texto, como converter para minúsculas, remover caracteres indesejados, ou substituir pontuações. Embora seja uma seção importante, a recomendação geral, especialmente para iniciantes ou quando o corpus já foi previamente limpo, é não alterar as configurações padrão, a menos que haja uma necessidade específica e compreendida para tal modificação. As principais opções de limpeza incluem (Mahema, 2022; Loubère; Ratinaud, 2013; Oliveira 2015):

    • Colocar letras em minúscula: Converte todas as palavras para minúsculas, padronizando as formas e evitando que “Caneta” e “caneta” sejam tratadas como palavras distintas.
    • Remover caracteres fora desta lista: Por padrão, mantém apenas caracteres alfanuméricos e acentuados, mas pode ser ajustado para incluir ou remover outros caracteres.
    • Substituir apóstrofos por espaços: Substitui apóstrofos por espaços.
    • Substituir traços por espaços: Substitui hífens por espaços.
    • Conservar a pontuação: Permite manter a pontuação no texto. Caso esta opção seja selecionada, é importante evitar o uso de ponto e vírgula (;) no corpus.
    • Sem espaço entre duas formas: Se ativada, o Iramuteq não usará o espaço como delimitador de formas.
    • Após configurar os parâmetros e clicar em “OK”, o Iramuteq realizará uma pré-análise do corpus.A Figura 15 representa a tela de configuração com as opções:

      Figura 15 – Configurações de limpeza
      Figura 15 – Configurações de limpeza


      3.4.Descrição Inicial do Corpus

      Concluída a importação, o Iramuteq exibirá uma aba com a descrição completa do corpus, apresentando estatísticas essenciais que oferecem um panorama inicial dos dados textuais (Silva, 2021). Essa descrição é crucial para o pesquisador verificar a integridade e as características gerais do material que será analisado em profundidade. As informações destacadas incluem:

    • Número de textos: Indica a quantidade total de unidades textuais identificadas no corpus, conforme as linhas de comando iniciadas por **** (Loubère; Ratinaud, 2013).
    • Número de Segmentos de Textos: Refere-se à quantidade de recortes ou porções do texto que o Iramuteq conseguiu definir após o processo de segmentação (Loubère; Ratinaud, 2013; Lima et al., 2021).
    • Número de Ocorrências: Representa o número total de palavras (formas) contidas em todo o corpus. Este valor pode variar dependendo se o corpus foi lematizado ou não (Loubère; Ratinaud, 2013).
    • Número de Formas: Indica o número de palavras distintas (formas únicas) presentes no corpus, também podendo diferir se a lematização foi aplicada (Loubère; Ratinaud, 2013).
    • Hapax: Corresponde às palavras que aparecem somente uma única vez em todo o corpus (Mahema, 2022; Loubère; Ratinaud, 2013). O coeficiente de Hapax é um indicador da saturação do corpus, sendo que um percentual mais alto pode sugerir a presença de mais termos únicos ou variações discursivas (Lima et al., 2021). A Figura 16 mostra essa tela com as definições iniciais do corpus:

    • Figura 16 – Análise inicial
      Figura 16 – Análise inicial


      4.ANÁLISES SOBRE CORPUS TEXTUAIS POSSÍVEIS NO IRAMUTEQ

      O Iramuteq funciona a partir do corpus textual e de matrizes. No corpus, é possível realizar diferentes análises, como Análise Estatística, Análise de Labbé, Classificação Hierárquica Descendente, Análise de Similitude e Nuvem de Palavras, que serão detalhadas nas seções seguintes.

    4.1.Análise Estatística

    Também chamada de análise lexicográfica, a Análise Estatística segmenta o texto em unidades chamadas segmentos de texto (ST), calcula a frequência das formas (palavras) e dos hapax, aplica a lematização (redução das palavras à sua forma base) e apresenta tabelas com as formas ativas, suplementares e hapax (Mahema, 2022).

    Figura 17 – Análise Estatística, Aba ResumoAnálise Estatística, Aba Resumo
    Figura 17 – Análise Estatística, Aba ResumoAnálise Estatística, Aba Resumo


    O gráfico de Zipf apresentado pelo Iramuteq mostra a relação entre a frequência das palavras e sua posição no ranking de ocorrência dentro do corpus analisado. Conforme a lei de Zipf1 , poucas palavras aparecem muitas vezes, enquanto a maioria ocorre raramente. Isso se observa na curva do gráfico: as primeiras posições concentram palavras de alta frequência, seguidas por uma queda acentuada e uma longa cauda de termos pouco recorrentes, muitos deles hapax (palavras que surgem apenas uma vez). Esse padrão confirma a distribuição linguística típica de textos naturais e indica que o corpus possui regularidade lexical adequada para análises estatísticas posteriores.

    Para abrir uma análise estatística textual, poderá escolher em clicar sobre o ícone da análise Estatísticas (Figura 18) ou ir em “Análise de texto” e escolher Estatísticas (Figura 19), de qualquer forma escolhida, deverá aparecer uma janela de “Definições”.

    Figura 18 – Análise estatística
    Figura 18 – Análise estatística


    Figura 19 – Análise de textos
    Figura 19 – Análise de textos


    Na janela de Definições, configure:
  • Lematização: considere semanticamente equivalentes palavras que compartilham a mesma raiz, como “trabalho” e “trabalhar” (opção padrão: sim).
  • Propriedades-chave: clique em “propriedades” e defina as classes gramaticais (0 – eliminadas, 1 – ativas, 2 – suplementares) conforme o objetivo da análise.
  • Dicionário: mantenha a opção “indexação”.
  • A janela chamada “Propriedades chave”, contém as classes gramaticais que podem ser colocadas como: 0 – eliminadas, 1 – ativas e 2 – suplementares. Recomenda-se observar os objetivos e o contexto da análise antes de fazer essas definições. Essa janela pode ser observada na Figura 20:

    Figura 20 – Propriedades chave
    Figura 20 – Propriedades chave


    Ao pressionar a tecla “OK” da janela de Clés d’analyse (Chaves de análise, numa tradução direta), voltaremos a tela de Definições, esta, ao clicar em “OK” novamente, será feita a análise. Essa análise fornecerá as estatísticas de frequência dos termos (palavras, vocábulos) do texto, abrindo uma aba com o resumo, trazendo estatísticas textuais acompanhado do Diagrama de Zipf, conforme a Figura 21.

    Figura 21 – Diagrama de Zipf e resumo estatístico
    Figura 21 – Diagrama de Zipf e resumo estatístico


    As abas adicionais exibem tabelas que mostram a relação entre as formas e suas frequências no corpus: uma tabela geral, uma de formas ativas, outra de formas suplementares e uma de hapax (palavras que aparecem apenas uma vez). Os hapax podem indicar termos específicos, erros de digitação ou variações pouco frequentes do vocabulário.

    Clicando duas vezes com o botão direito sobre uma palavra em qualquer tabela, é possível visualizar Lematizações, as quais são palavras associadas à mesma raiz, por exemplo, “quero” e “querer” e Concordância: segmentos de texto em que a palavra aparece. Essa visualização é demonstrada na Figura 22.

    Figura 22 – Lematizações
    Figura 22 – Lematizações


    Clicando duas vezes com o botão direito sobre a forma “in”, é aberta a janela “Concordância - in”, que mostra os segmentos de texto em que a palavra foi utilizada no corpus. Como “in” aparece apenas uma vez, não é possível realizar a lematização. Vale ressaltar que todas as tabelas geradas pela análise “Estatísticas” são salvas automaticamente na pasta de destino definida, com o nome , podendo ser reutilizadas para diferentes fins.

    Com a análise estatística concluída, o próximo passo é explorar a Distância de Labbé, que permite avaliar a proximidade entre variáveis ou modalidades presentes no corpus. Essa análise gera uma matriz de distâncias, classificações hierárquicas e representações gráficas que ajudam a identificar padrões e agrupamentos no texto, servindo como base para interpretações mais detalhadas.

    4.2.Distância de Labbé

    A Análise de Labbé é uma ferramenta recente do Iramuteq que calcula a distância léxica entre as variáveis estudadas. Com base nessa métrica, o software gera uma matriz de distâncias, que pode ser visualizada tanto em forma de gráfico quanto em tabela (na janela List do Iramuteq). Essa abordagem permite explorar as proximidades e similaridades entre os elementos do corpus de maneira intuitiva e detalhada. A partir desses cálculos, são produzidas representações como a Figura 24 - Um heatmap (mapa de calor), que ilustra a proximidade entre as escolhas lexicais por meio de uma matriz de cores.

    Figura 23 – Tabela de distâncias e heatmap
    Figura 23 – Tabela de distâncias e heatmap


    A partir desses cálculos, são geradas representações como a classificação de Ward (Figura 24) - Na análise de Labbé realizada pelo IRaMuTeQ, a classificação de Ward é um método de agrupamento hierárquico que, a partir da matriz de distâncias intertextuais calculada pelo índice de Labbé (baseado nas frequências lexicais), organiza as unidades textuais em clusters que minimizam a variância interna de cada grupo; dessa forma, produz um dendrograma que evidencia a proximidade temática entre segmentos de texto, permitindo identificar classes de sentido mais amplas e consistentes dentro do corpus.

    Figura 24 – Classificação de ward
    Figura 24 – Classificação de ward


    4.3.Especificidades e Análise Fatorial Confirmatória (AFC)

    A Análise Fatorial Confirmatória (AFC) é uma técnica estatística aplicada em análise de conteúdo que utiliza as formas ativas e as variáveis do corpus para construir uma tabela de contingência. Essa tabela representa a frequência de ocorrência das palavras em relação aos grupos ou categorias pré-definidos, permitindo a identificação de padrões de uso e diferenças significativas nos discursos analisados (Camargo; Justo, 2013).
    A partir dessa tabela, é possível aplicar diferentes abordagens estatísticas para avaliar a significância das associações observadas. A mais comum é a correlação baseada na distribuição qui-quadrado (χ²), que verifica se a presença de determinadas palavras difere significativamente entre os grupos. Além disso, a distribuição hipergeométrica também pode ser utilizada, especialmente quando se deseja analisar a probabilidade de ocorrência de uma palavra em um grupo específico considerando o total de ocorrências no corpus, sem depender da suposição de independência entre categorias.

    Ambas as abordagens permitem identificar palavras características ou específicas de cada grupo, ou seja, termos que aparecem de maneira diferenciada e contribuem para a distinção entre os discursos analisados, como apresentado na Figura 25, que mostra como é a distribuição das modalidades de um corpus textual.

    Figura 25 – Distribuição hipergeométrica de textos
    Figura 25 – Distribuição hipergeométrica de textos


    Segundo Camargo e Justo (2013), a AFC oferece vantagens importantes na análise textual:
  • Identificação de padrões de linguagem: Avaliando a associação entre palavras e grupos, a análise revela como certos termos se concentram em categorias específicas, evidenciando temas ou tópicos recorrentes.
  • Diferenciação entre grupos: A aplicação do teste qui-quadrado ou da distribuição hipergeométrica permite identificar palavras cuja frequência difere significativamente entre grupos, apontando características distintivas do discurso.
  • Complementaridade com outras análises: A AFC pode ser utilizada em conjunto com análises hierárquicas ou de similitude para enriquecer a interpretação do corpus, fornecendo uma visão estatisticamente validada das relações entre palavras e grupos.
  • O processo típico de aplicação da AFC no Iramuteq envolve os seguintes passos: 1. Seleção das formas ativas e das variáveis relevantes do corpus. 2. Construção da tabela de contingência, cruzando palavras e grupos. 3. Cálculo do qui-quadrado ou avaliação pela distribuição hipergeométrica para cada forma, determinando a significância das diferenças entre grupos. 4. Interpretação dos resultados, destacando as palavras com valores mais significativos, que podem ser consideradas marcadoras ou específicas de cada grupo. Dessa forma, a AFC não apenas evidencia palavras e conceitos relevantes em cada grupo, mas também fornece base estatística robusta para apoiar a interpretação qualitativa do corpus, tornando a análise mais confiável e rigorosa (Camargo; Justo, 2013).

    4.4.Método de Reinert

    Também chamada de Classificação Hierárquica Descendente (CHD), essa análise identifica temas comuns nos textos e organiza as palavras em classes, utilizando a lista de formas reduzidas e o dicionário embutido. Os resultados são apresentados por meio de dendrogramas como o da Figura 26, que representam a hierarquia das classes (Mahema, 2022).2


    Figura 26 – Método de Reinert, Dendrograma Horizontal
    Figura 26 – Método de Reinert, Dendrograma Horizontal


    O método de Reinert também é conhecido na literatura como Classificação Hierárquica Descendente (CHD) ou, simplesmente, Classificação Descendente. Nessa análise, os segmentos de texto e seus vocabulários são correlacionados, formando um esquema hierárquico de classes e termos. A partir dele, os pesquisadores podem inferir sobre o conteúdo do corpus, nomear classes e compreender grupos de ideias e discussões. Além disso, é possível deduzir formas e suas localizações nos esquemas hierárquicos por meio da análise de perfil e antiperfil (Rostirola, 2024).
    Esse processo ajuda a identificar padrões e estruturar os resultados da análise textual. A técnica divide o texto em segmentos menores e agrupa trechos que apresentam vocabulário semelhante entre si, mas distinto das demais classes. Em outras palavras, palavras que aparecem em contextos semelhantes são categorizadas juntas. O Iramuteq busca, assim, obter classes e suas associações, diferenciando temas dentro do texto e organizando-os em dendrogramas, utilizando o teste de qui-quadrado (X²) para validar essas associações (Salviati, 2017).
    Por exemplo, ao analisar entrevistas de várias pessoas sobre um mesmo tema, o método de Reinert pode identificar subconjuntos de discursos que expressam opiniões semelhantes — ou seja, temas comuns abordados pelos participantes.

    Para aplicar o método, assim como em outras análises textuais, é possível clicar diretamente sobre o ícone do Método de Reinert (Figura 27) ou acessar “Análise de texto”, depois “Classificação” e escolher o Método de Reinert (Figuras 27 e 28). De qualquer forma escolhida, uma janela de “Definições” será exibida.

    Figura 27 – Método de Reinert
    Figura 27 – Método de Reinert


    Figura 28 – Janela de definições para Reinert
    Figura 28 – Janela de definições para Reinert


    Na janela de “Definições”, mantenha o padrão para definições, selecione o dicionário indexado e ajuste as propriedades de acordo com o seu interesse na análise do corpus textual. Ao clicar em “OK”, será exibida uma segunda tela de “Definições” (Figura 29). Observe alguns itens nessa figura que precisam ser compreendidos:

    Figura 29 – Definições para Classificação Hierárquica Descendente
    Figura 29 – Definições para Classificação Hierárquica Descendente


    Nesta janela de “Definições”, é importante destacar alguns parâmetros essenciais:
  • Classificação: depende da organização do seu texto. Segundo Rocha (2022), “dupla sobre RST” geralmente não é utilizada, pois apresenta baixo aproveitamento do corpus e realiza uma análise dupla sobre o reagrupamento de textos; “simples sobre ST” analisa os segmentos de texto (padrão ou pré-determinados) e é recomendado para corpora com textos longos; “simples sobre textos” é indicado para corpora com textos curtos.
  • Tamanho de RST1: define o tamanho do segmento textual; recomendado alterar apenas quando o corpus contiver textos curtos.
  • Tamanho de RST2: define outro parâmetro de tamanho de segmento textual; também recomendado alterar somente para textos curtos.
  • Número de classes terminais na fase 1: indica o número máximo de classes; ajustar apenas se os textos do corpus forem curtos.
  • Número máximo de formas analisadas: altere somente em corpora com textos curtos.
  • Demais opções: recomenda-se manter os valores padrão para não comprometer a categorização do corpus.
  • Ao clicar em “OK”, a análise será gerada. Na aba CHD, o Iramuteq destaca as principais informações: número de textos, segmentos de texto, formas, ocorrências, lemas, formas ativas, formas suplementares, número de classes, tempo de execução da análise e os dendrogramas, conforme ilustrado na Figura 30, que traz a janela principal da CHD.

    Figura 30 – Janela De resultados de CHD
    Figura 30 – Janela De resultados de CHD


    Vale destacar que, se a análise apresentar uma taxa de retenção inferior a 75% (valor indicado entre parênteses), isso pode inviabilizá-la, devido às grandes variações que prejudicam a Classificação Hierárquica Descendente. Nesse caso, é necessário alterar o valor da opção “Número de classes terminais” na fase 1, escolhendo um valor diferente do padrão (10). Se a taxa continuar abaixo de 75%, recomenda-se não utilizar o Método de Reinert (Camargo; Justo, 2018). É possível alterar a visualização do dendrograma escolhendo uma das três opções laterais. Ao fazê-lo, será exibida a tela de “Dendrograma”, na qual podem ser definidas as seguintes configurações:
  • Tamanho da imagem: permite ajustar a altura e a largura do dendrograma.
  • Tipo de dendrograma: opções disponíveis incluem radial, sem raiz/meio (unrooted), fan/circular, cladograma (cladogram) e filograma (phylogram). Cada tipo oferece uma forma diferente de visualizar as relações entre as classes.
  • Formato da imagem: escolha entre SVG ou PNG, formatos para salvar o gráfico no computador.
  • Extra – Colorido ou preto e branco: define se o dendrograma será colorido ou em preto e branco.
  • Extra – Adicionar tamanho de classe: opção a critério do pesquisador ou, se preferir, mantenha o padrão pré-selecionado. Ao lado direito dessa escolha, é possível optar entre diagrama circular ou barra, apenas definindo a aparência do dendrograma.
  • As definições acima estão representadas na Figura 31.

    Figura 31 – Método de Reinert, Dendrograma Horizontal.
    Figura 31 – Método de Reinert, Dendrograma Horizontal.


    Na Figura 32, é possível visualizar, ao lado da aba CHD, as demais abas disponíveis, assim como as três opções verticais para alterar a visualização do gráfico. No centro, encontra-se o dendrograma gerado: um filograma (phylogram) em diagrama circular, colorido e com a opção “Adicionar tamanho da classe” selecionada, resultando na visualização apresentada a seguir:

    Figura 32 – Abas, Opções e Dendrograma Demonstrativo.
    Figura 32 – Abas, Opções e Dendrograma Demonstrativo.


    O Método de Reinert segundo (Camargo; Justo, 2013), utiliza-se de matrizes, onde se cruzam segmentos de textos e palavras em repetidos testes de qui-quadrado (X²), assim é gerado a tabela da aba “Perfis”. Nela teremos informações separadas a cada classe de palavras, a primeira é o quanto ela representa em relação ao total de segmentos de texto identificados pelo Iramuteq. Segundo a explicação de (Rocha, 2022), estas são as definições de cada campo da tabela, presente individualmente para cada classe de palavras:
  • n.: representa os números que ordenam as palavras na tabela (em sequência).
  • eff. s.t.: representa os números de segmentos de texto (ST) que contém a palavra na classe.
  • eff. total: representa o número de ST no corpus que contém, ao menos uma vez, a palavra.
  • pourcentage: representa a porcentagem de ocorrência dos ST que contém a palavra nessa classe, em relação a sua ocorrência no corpus.
  • chi2: contém o qui-quadrado da associação dos ST que contém a palavra com a classe.
  • Type: classe gramatical da palavra presente no ST, identificada no dicionário de formas.
  • forme: identifica a palavra.
  • p:identifica o nível de significância da associação do ST contendo a palavra com a classe.
  • A aba “Perfis” e os campos das tabelas mencionados podem ser visualizados na Figura 33.

    Figura 33 – Perfis ou categorias.
    Figura 33 – Perfis ou categorias.


    A cor cinza representa as formas ativas das palavras, a cor azul claro indica as formas suplementares, e as variáveis ilustrativas/metadados aparecem em rosa. As classes são definidas por associações significativas, considerando p-valor < 0,05, estatística do teste < 3,80 e graus de liberdade igual a 1. Ao clicar em qualquer palavra com o botão direito do mouse, são exibidas opções para explorar a presença dessa palavra nos segmentos de texto da classe selecionada, conforme ilustrado na Figura 34.

    Figura 34 – Análise particularizada.
    Figura 34 – Análise particularizada.


    Nessa nova aba, cada opção representa uma funcionalidade atrelada aquela palavra selecionada em:
  • Formas associadas: nesta opção de palavras / formas associadas nos mostrará a frequência de cada forma que originou o lema indicado no perfil da classe.
  • Qui-quadrado por classe: fornece um gráfico que exibe a associação da forma/palavra a cada classe.
  • Qui-quadrado por classe no dendrograma: fornece um gráfico equivalente ao Qui-quadrado por classe, mas diferente do mesmo.
  • Qui-quadrado das modalidades de variável /metadado: fornece um gráfico da associação das suas modalidades com cada uma das classes.
  • Visão cronológica: oferece as opções Qui-quadrado e Proporção, porém só funcionando com formas modalidade_variável.
  • Gráfico de palavras/formas: oferece um gráfico de similitude representando as ligações entre a forma escolhida e as outras formas da classe.
  • Concordância: mostra os segmentos de texto onde a forma/palavra ocorre, com as opções de ser em função da classe, de todas as classes do dendrograma ou da totalidade do corpus.
  • Fazer Tgen: são construídos reagrupamentos de formas/lemas que serão considerados como conjunto ou um todo.
  • Ferramentas do CNRTL: conecta com a base de dados do Centro Nacional de Recursos Textuais e Lexicais, para que funcione, é necessário conexão com a internet e somente para corpus em francês.
  • Gráfico da classe: mostrando um gráfico de similitude representando as ligações entre as formas da classe, conforme Figura 35.

  • Figura 35 – Similitude por classe.
    Figura 35 – Similitude por classe.


  • Segmentos repetidos: mostra os segmentos mais frequentes da classe.
  • Segmentos de texto típicos: mostra por ordem decrescente do valor do qui-quadrado de associação com a classe.
  • Nuvem de palavras da classe: mostra uma nuvem de palavras customizável criada a partir da classe, conforme Figura 36.
  • Figura 36 – Nuvem de classe.
    Figura 36 – Nuvem de classe.


  • Exportar: os ST da classe escolhida são colocados num arquivo “.txt”, podendo ser um corpus para novas análises.
  • Exportar para Tropes e Exportar para Owledge: é possível exportar para os aplicativos respectivos.
  • Na terceira e última aba, chamada de “AFC”, fornece representações de planos fatoriais, sendo outra forma de visualizar os conteúdos e relações entre as classes (Camargo; Justo, 2018). Ao clicar em AFC, serão exibidas três sub-abas.
    Na primeira sub-aba (AFC), o primeiro resultado apresentado corresponde à distribuição das formas e variáveis ativas presentes nas classes. Elas são organizadas no plano fatorial, diferenciadas por cores e pela intensidade de interação entre si. Quanto mais próximo um elemento estiver do ponto de cruzamento entre os eixos X e Y, maior será a interação observada.
    Em seguida, é possível visualizar as formas e variáveis suplementares, que complementam a análise anterior e permitem identificar relações adicionais entre os elementos do corpus. O terceiro plano fatorial apresenta as variáveis criadas diretamente pelo pesquisador na linha de comando do corpus textual. Essas variáveis também são distribuídas conforme a interação observada e recebem a cor correspondente à classe de palavras a que pertencem.
    Por fim, o quarto plano fatorial mostra as classes espalhadas ao longo dos eixos, destacando o grau de proximidade ou de afastamento entre elas. Esse resultado contribui para compreender a estrutura geral do corpus e a relação entre as diferentes classes formadas.

    É possível melhorar a visualização clicando no ícone abaixo da sub-aba AFC, permitindo alterar parâmetros como tamanho da imagem e ajustes para evitar sobreposição de elementos. Na aba “Fator” estão os 5 fatores identificados pelo Iramuteq que corresponde ao número de classes -1, conforme Figura 37.

    Figura 37 – Fatores identificados no texto.
    Figura 37 – Fatores identificados no texto.


    4.4.1.Análise de perfis

    Após a etapa de classificação hierárquica descendente, uma análise que pode ser feita é a de perfil e antiperfil lexical, que permite identificar os termos mais característicos de uma classe (perfil) e aqueles que são significativamente menos presentes ou representativos (anti perfil), em comparação com as demais. Ela se baseia no cálculo do Qui-quadrado para cada forma ativa e sua associação com as classes.
  • Perfil Lexical: Refere-se aos termos que possuem uma associação estatisticamente significativa e positiva com determinada classe. São as palavras que caracterizam de forma mais proeminente e distintiva aquela classe, contribuindo para a sua identidade semântica singular. Um alto valor positivo de X² indica que a ocorrência de um termo em uma classe é significativamente maior do que o esperado por acaso, dada a sua frequência no corpus total.
  • AntiPerfil Lexical: Corresponde aos termos que, embora presentes no corpus geral, apresentam uma associação estatisticamente significativa e negativa com uma classe específica. Isso significa que tais palavras são sub-representadas ou menos características dessa classe em comparação com sua ocorrência em outras classes. Um valor negativo de X² indica que a ocorrência de um termo em uma classe é significativamente menor do que o esperado por acaso, sugerindo que esse termo contribui para a não-identidade ou distinção negativa da classe em relação às outras.
  • Conforme explica Rostirola (2024), a análise de perfil e antiperfil permite refinar a compreensão das particularidades de cada agrupamento lexical, revelando não apenas o que define uma classe, mas também o que a distingue das demais. Essa abordagem aprofunda a interpretação do universo lexical, ultrapassando a mera listagem de palavras e quantificando sua relevância para cada domínio semântico.

    Tomemos como exemplo a CHD abaixo (Figura 38). A partir de seus dados, podemos gerar um Gráfico de Perfil e Antiperfil Lexical por Classe (Figura 39), que ilustra a intensidade da associação (X²) de um conjunto de termos selecionados com cada uma das cinco classes obtidas na CHD (Rostirola, 2024)

    Figura 38 – Exemplo CHD para análise de Perfil e Antiperfil.
    Figura 38 – Exemplo CHD para análise de Perfil e Antiperfil.


    Figura 39 – Exemplo CHD para análise de Perfil e Antiperfil de uma classe.
    Figura 39 – Exemplo CHD para análise de Perfil e Antiperfil de uma classe.


    Conforme mostra a imagem 34, para cada palavra, são apresentadas barras correspondentes às suas intensidades de X² em relação a cada classe.
  • Perfil da Classe 1:Focando nas barras positivas sob “Classe 1”, notamos que os termos “matemática”, “área”, “querer”, “gostar”, “curso”, “licenciatura”, “ensino” e “educação” apresentam os maiores valores de X². Isso significa que esses termos são os mais representativos e característicos da Classe 1, atuando como seu perfil lexical. Eles são os pilares semânticos que definem este agrupamento.
  • Anti Perfil da Classe 1 (em relação a outros termos/classes): Embora a imagem seja focada na “Classe 1 em relação a X^2”, a visualização cruzada de cada termo nas diversas classes oferece a perspectiva de antiperfil. Analisando o termo “matemática”, por exemplo, enquanto ele é um forte perfil para a Classe 1, observa-se que ele apresenta valores negativos de X² para as Classes 2, 3, 4 e 5. Isso indica que a palavra “matemática” é um anti perfil para essas outras classes, isto é, ela é significativamente menos característica delas do que da Classe 1. Sua ocorrência é suprimida ou muito baixa nessas classes em comparação com sua média no corpus geral.
  • Em suma, a análise de perfil e antiperfil no Iramuteq é uma ferramenta analítica robusta que transcende a simples lista de palavras por classe. Ao visualizar a força da associação (ou dissociação) dos termos através do Qui-quadrado, o pesquisador obtém uma compreensão aprofundada das especificidades lexicais de cada agrupamento, facilitando a construção de interpretações mais ricas e fundamentadas sobre a estrutura semântica do corpus textual. A próxima seção aborda a análise de similitude.

    4.5.Análise de Similitude

    A Análise de Similitude no Iramuteq utiliza a teoria dos grafos, que possibilita mapear a ocorrência simultânea entre palavras, indicando a conexão entre elas e auxiliando na identificação da estrutura representada (Camargo; Justo, 2013). Essa análise destaca as palavras e suas proximidades no corpus. Trata-se de uma funcionalidade voltada à visualização das conexões entre palavras presentes em um corpus textual (Oliveira, 2015; Mahema, 2022). O resultado é apresentado na forma de um grafo, no qual as palavras (formas) são representadas como nós (vértices), e suas relações de coocorrência são denotadas por arestas (Loubère; Ratinaud, 2013; Mahema, 2022).
    O objetivo principal é permitir que o pesquisador infira a estrutura de construção do texto, identificando temas relevantes a partir da frequência com que certas palavras aparecem juntas (coocorrência) (Oliveira, 2015; Mahema, 2022). A análise auxilia na distinção entre partes comuns e especificidades do corpus, além de possibilitar a verificação dessas distinções em função de variáveis descritivas previamente definidas (Mahema, 2022). Dessa forma, a Análise de Similitude fornece insights sobre a organização lexical e semântica do material, revelando os “mundos léxicos” que compõem o discurso.
    Fundamentalmente baseada na teoria dos grafos — um ramo da matemática que estuda relações entre objetos de um conjunto, representados como vértices interligados por arestas — a análise no Iramuteq constrói grafos formais G(V, E), onde V é o conjunto não vazio de vértices (palavras ou formas) e E é o conjunto de arestas que as conectam (Mahema, 2022).
    O software gera essa representação a partir de uma tabela de presença/ausência de palavras e calcula a matriz de semelhança entre elas, utilizando índices específicos, a maioria disponível na biblioteca ‘igraph’ do R (Loubère; Ratinaud, 2013). A força da conexão (peso) entre palavras é determinada pela sua coocorrência: quanto maior a frequência com que aparecem juntas, mais forte é a ligação e mais próximas as palavras aparecem no grafo. Essa representação visual permite identificar redes de palavras e aglomerados que formam os temas centrais do corpus.
    Considerando que o corpus textual já foi devidamente importado e processado no Iramuteq, siga os passos abaixo para executar a Análise de Similitude Considerando que o corpus textual já foi devidamente importado e processado no Iramuteq, siga os passos abaixo para executar a Análise de Similitude.
    Acesso à análise:
  • No menu principal do Iramuteq, clique em Análise de texto.
  • Selecione a opção Análise de semelhança.
  • Uma janela de parâmetros da análise será exibida, conforme mostra a Figura 40.

  • Figura 40 – Tela de configurações Análise de Similitude
    Figura 40 – Tela de configurações Análise de Similitude


    Configuração dos Parâmetros da Análise de Similitude (Loubère & Ratinaud, 2013)
  • Lista de Formas: No quadro à esquerda, é exibida a lista das formas (palavras) e suas frequências. Por padrão, todas estão selecionadas, mas você pode desmarcar as que não deseja incluir na análise.
  • Parâmetros do Grafo (Aba “Configurações gráficas”:

      Escore: Permite escolher o tipo de índice de cálculo da semelhança (por exemplo, “coocorrência” é o padrão).

      Apresentação: Define o algoritmo de visualização dos dados, determinando como os nós e arestas serão dispostos no grafo. As opções incluem “random” (aleatório), “cercle” (círculo), “Fruchterman Reingold”, “Kamada-Kawai”, “graphot”, entre outros.
  • Tipo de grafos: Escolha o formato de saída do grafo (Oliveira, 2015):
    Estático: Produz uma imagem nos formatos .png ou .svg. Dinâmico: Utiliza a interface tk do gráfico, permitindo interação. 3D: Gera um gráfico tridimensional em uma janela gl.
  • Formato da Imagem: Caso selecione gráfico estático, defina o formato de salvamento (.png ou .svg).
  • Árvore máxima: Define se o grafo terá ou não estrutura de árvore e ramificações (Oliveira, 2015).
  • Bordas limítrofes: Permite eliminar arestas cujo valor do índice seja inferior ou igual a um limite definido.
  • Texto sobre os vértices: Exibe o texto das palavras nos nós do grafo.
  • Escore nas bordas: Exibe o valor do índice (força da ligação) nas arestas. Tamanho do texto: Ajusta o tamanho do texto nos nós.
  • Comunidades: Calcula e visualiza grupos de palavras, representados com um halo de cor se a opção “halo” estiver selecionada.
  • Selecionar uma variável: Restringe a análise a variáveis específicas do corpus (Oliveira, 2015).
  • Tamanho do gráfico: Define as dimensões da imagem em pixels.
  • Tamanho do vértice proporcional à frequência: Ajusta o tamanho dos nós de acordo com a frequência das palavras ou valor do χ² (Loubère & Ratinaud, 2013).
  • Bordas com largura proporcional ao Escore: Ajusta a largura das arestas conforme a força do índice de semelhança.
  • Escala cinza de texto proporcional à frequência: Aplica tons de cinza ao texto dos nós com base na frequência ou χ².
  • Cor do vértice e Cor das bordas: Permite definir a cor dos nós ou das arestas.
  • Parâmetros Gráficos (Aba “Ajustes gráficos”):
  • Tamanho do gráfico: Define as dimensões da imagem em pixels.
  • Tamanho do vértice proporcional à frequência: Ajusta o tamanho dos nós de acordo com a frequência das palavras ou valor do χ² (Loubère & Ratinaud, 2013).
  • Bordas com largura proporcional ao Escore: Ajusta a largura das arestas conforme a força do índice de semelhança.
  • Escala cinza de texto proporcional à frequência: Aplica tons de cinza ao texto dos nós com base na frequência ou χ².
  • Cor do vértice / Cor das bordas: Permite definir a cor dos nós e/ou das arestas.
  • Transparência das esferas: Ajusta a transparência em gráficos 3D.
  • Execução da Análise: Após configurar todos os parâmetros desejados, clique em OK para gerar o grafo de similitude.
  • Os resultados serão exibidos em uma nova aba, conforme a Figura 40.
  • O Iramuteq permite exportar o grafo para imagens (.png ou .svg) e para arquivos de rede (.graphml), que podem ser abertos e analisados em softwares especializados, como Gephi ou Visone (Loubère & Ratinaud, 2013).

  • Figura 41 – Exemplo análise de similitude.
    Figura 41 – Exemplo análise de similitude.


    A próxima seção traz uma análise léxica frequencial conhecida como nuvem de palavras.

    4.6.Nuvem de palavras

    Segundo Camargo e Justo (2013), essa análise agrupa as palavras e as organiza graficamente em função de sua frequência, destacando os termos de maior relevância.
    A Nuvem de Palavras é uma das visualizações mais populares e intuitivas para análise de texto, oferecida pelo Iramuteq (Silva, 2021). Essa funcionalidade apresenta as palavras do corpus em uma disposição visual semelhante a uma nuvem, em que o tamanho de cada palavra é proporcional à sua frequência ou importância estatística dentro do texto (Oliveira, 2015; Mahema, 2022).
    O propósito principal da Nuvem de Palavras é fornecer uma visão rápida e imediata dos termos mais proeminentes e recorrentes no corpus textual. Ela permite ao pesquisador identificar visualmente os conceitos e temas que se destacam, servindo como ponto de partida para análises mais aprofundadas ou para validar primeiras impressões sobre o conteúdo do material. É uma ferramenta eficaz para resumir visualmente a essência de um texto ou conjunto de textos, facilitando a comunicação dos resultados a um público mais amplo.
    A fundamentação teórica da Nuvem de Palavras no Iramuteq baseia-se na análise de frequência dos termos, uma das estatísticas textuais mais básicas e fundamentais. O software calcula a ocorrência de cada forma (palavra) no corpus e, com base nessa frequência, atribui um peso ou tamanho visual à palavra (Oliveira, 2015; Mahema, 2022). Palavras com maior frequência ou maior indicador de importância estatística são apresentadas com tamanhos maiores, enquanto palavras menos frequentes aparecem menores.
    Embora o princípio básico seja a frequência, o Iramuteq, como software de análise estatística, pode incorporar outros processos estatísticos para determinar a importância de uma palavra além da contagem simples de ocorrências (Oliveira, 2015; Mahema, 2022). Por meio da lematização, por exemplo, o software agrupa palavras com a mesma raiz para uma contagem mais precisa de conceitos, garantindo que a nuvem represente não apenas as palavras mais utilizadas, mas também os conceitos mais presentes no discurso.
    Acesso à Análise: Considerando que o corpus já está carregado e processado no Iramuteq, o primeiro passo para gerar uma Nuvem de Palavras consiste em acessar o menu principal do software e clicar em Análise de texto. Em seguida, deve-se selecionar a opção Nuvem de palavras. Nesse momento, o programa exibirá uma janela com os parâmetros que podem ser configurados para a criação da nuvem.
    Configuração dos Parâmetros da Nuvem de Palavras: Entre os parâmetros disponíveis, encontra-se a opção Altura/Largura, que define as dimensões da imagem em pixels. Também é possível configurar o Formato da imagem, escolhendo a extensão do arquivo a ser salvo, como .png ou .svg. Outro ajuste importante é o Número máximo de formas, que determina o total de palavras exibidas na nuvem. Números menores resultam em representações mais concisas, enquanto valores maiores ampliam o conjunto de termos incluídos (Loubère; Ratinaud, 2013). O parâmetro Formas utilizadas permite ao usuário decidir se a nuvem será composta por “formas ativas”, “suplementares” ou ambas, de acordo com os objetivos da análise (Loubère; Ratinaud, 2013). Já em Tamanho do texto, são definidos os limites superiores e inferiores das fontes que aparecerão na nuvem. Por fim, há a opção Cor do texto/fundo, que possibilita a personalização das cores utilizadas tanto para as palavras quanto para o plano de fundo da imagem.
    Seleção Final de Palavras (Opcional): Após a configuração inicial dos parâmetros, o software apresenta uma tabela listando as palavras identificadas e suas respectivas frequências. Por padrão, todas as palavras estão selecionadas para compor a nuvem. Entretanto, o usuário pode desmarcar manualmente aquelas que não deseja incluir. Também é possível selecionar múltiplos termos ao mesmo tempo, mantendo a tecla Ctrl pressionada durante a escolha.
    Execução da Análise: Com os parâmetros ajustados e a seleção de palavras definida, basta clicar em OK para que o software gere a Nuvem de Palavras.

    Visualização e Exportação: A nuvem resultante será exibida em uma nova aba do Iramuteq. Caso seja necessário, a imagem pode ser exportada no formato previamente selecionado, como .png ou .svg, garantindo que o resultado possa ser utilizado em relatórios, apresentações ou publicações.

    Figura 42 – Exemplo de Nuvem de Palavra.
    Figura 42 – Exemplo de Nuvem de Palavra.


    Este manual explora as diversas análises possíveis em corpora textuais. Além das abordagens já apresentadas, destaca-se a análise em Matriz, que permite a aplicação da técnica de associação livre entre palavras (TALP) aliada à teoria das representações sociais. Por meio dessa abordagem, é possível examinar a frequência de variáveis categóricas, identificar similitudes e conduzir análises prototípicas, as quais serão abordadas em estudos futuros.

    5.CONSIDERAÇÕES FINAIS

    O Iramuteq é uma ferramenta computacional valiosa para a análise textual, oferecendo métodos estatísticos e multidimensionais para explorar grandes volumes de dados qualitativos. Permite identificar estruturas, associações e diferenças lexicais através de análises como estatística, Classificação Hierárquica Descendente e Análise de Similitude.
    Este manual apresenta uma visão das capacidades e procedimentos do software em sua versão atual, servindo como um guia fundamental. Contudo, é importante notar que, como um software em desenvolvimento, futuras atualizações podem alterar funcionalidades e exigir revisão deste material.

    Acima de tudo, o Iramuteq deve ser compreendido como um auxiliar poderoso, mas não um substituto para o pesquisador. Como ressaltado por Oliveira (2015), a interpretação dos resultados gerados, a identificação de significado nas classes e relações apresentadas e a integração desses achados ao quadro teórico dependem intrinsecamente do olhar crítico e da expertise do investigador. O software processa dados; o pesquisador, com sua capacidade de análise e inferência, constrói o conhecimento.

    REFERÊNCIAS

    CAMARGO, B. V.; JUSTO, A. M. Iramuteq: um software gratuito para análise de dados textuais. Temas em Psicologia, v. 21, n. 2, p. 513-518, 2013.

    CAMARGO, B.V. Alceste: Um programa informático de análise quantitativa de dados textuais. In: Moreira, A.S.P., Camargo, B.V., Jesuíno, J.C. and Nóbrega, S.M., Org., Perspectivas teórico-metodológicas em representacoes sociais, UFPB/Editora Universitária, Joao Pessoa, 511-539, 2005.

    CAMARGO, B.V. Tutorial para uso do software de análise textual Iramuteq. 2013. Disponível em: https://d1wqtxts1xzle7.cloudfront.net/53221555/Tutorial_Iramuteq_2013_portugues-libre.pdf. Acesso em: 17 ago. 2025.

    FERNANDES, I.A.T. Iramuteq: um software para análises estatísticas qualitativas em corpus textuais. Trabalho de Conclusão de Curso, Universidade Federal do Rio Grande do Norte, 2019.

    GOMES, T.B.D. Leis bibliométricas de Zipf e ponto de transição de Goffman: reflexões com estudos pioneiros. In: Encontro Brasileiro de Bibliometria e Cientometria, v. 9, p. 1-7, 2024.

    LIMA, V. M. R.; AMARAL-ROSA, M. P.; RAMOS, M. G. Análise textual discursiva apoiada por software: Iramuteq e a análise de subcorpus. Investigação Qualitativa em Educação: Avanços e Desafios, v. 7, p. 1-9, 2021.

    LOUBÈRE, L.; RATINAUD, P. Documentation Iramuteq. 2013. Disponível em: documentation_19_02_2014.pdf. Acesso em: 17 ago. 2025.

    MAHEMA, K.M.Análise de dados textuais em pesquisas de mobilidade urbana e transporte com Iramuteq. Brasília: UnB, 2022.

    OLIVEIRA, L.F. R. de. Tutorial Básico de utilização do Iramuteq.Goiânia: Universidade Federal de Goiás, 2015. Disponível em: https://files.cercomp.ufg.br/weby/up/771/o/Tutorial_-_Revis%C3%A3o.pdf. Acesso em: 12 abr. 2022.

    RATINAUD, P. MARCHAND, P. Application de la méthode ALCESTE à de “gros” corpus et stabilité des “mondes lexicaux”: analyse du “CableGate” avec Iramuteq. Actes des 11ème Journées internationales d’Analyse statistique des Données Textuelles, v. 3, p. 835-844, 2012.

    ROCHA, W. Método de Reinert ou Classificação no IRAMUTEQ. Vídeo, 12min41s. Publicado em 22 jul. 2022. Disponível em: https://www.youtube.com/watch?v=7F0fJ4qQiXI. Acesso em: 19 jun. 2025.

    ROCHA, W. Tutorial atualizado de instalação do R + IRAMUTEQ e correção de problemas. Vídeo, 14min39s. Publicado em 3 jun. 2022. Disponível em: https://www.youtube.com/watch?v=Yb0FxZmYM60. Acesso em: 19 jun. 2025.

    ROSTIROLA, S.C.M.Saberes estatísticos do(a) professor(a) de matemática: um estudo a partir da formação inicial. 2024.

    SALVIATI, M. Manual do aplicativo Iramuteq. Planaltina, 2017. Disponível em: http://www.Iramuteq.org/documentation/fichiers/manual-do-aplicativo-Iramuteq-par-maria-elisabeth-salviati. Acesso em: 17 ago. 2025.

    SILVA, S. da. Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, 2021.


    1. A lei de Zipf descreve a distribuição de frequências das palavras em um texto. Segundo ela, a palavra mais frequente tende a aparecer aproximadamente o dobro de vezes que a segunda mais frequente, o triplo da terceira e assim sucessivamente, formando uma curva característica em que poucas palavras são muito usadas e a maioria aparece raramente (Gomes, 2024).↩︎

    2. Dendrograma, diagrama de árvore ou ramificação e suas variações. Mostram a relação hierárquica entre as classes/ramos, mostrando características que esses têm em comum, sendo organizados em clusters, esses são representados por alturas diferentes no software Iramuteq. Um Cluster é definido quando um grupo de objetos possui alguma característica entre si. O processo de organização dos clusters é chamado de clusterização.↩︎