Sobre o texto

Este documento é um resumo do texto “All you need to know about text preprocessing for NLP and Machine Learning” de Kavita Ganesan. Este documento não tem o proposito de ferir nenhum direito autoral e o autor deste documento explicita que todo e qualquer conhecimento que se encontra nesse texto se refere ao texto produzido por Kavita Ganesan.

IMPORTANTE: Este resumo não deve ser usado como fonte bibliográfica em hipotese alguma.

Introdução

Motivação

O texto começa descrevendo a motivação de sua escrita: a displicencia sobre o pre-processamento de um texto quando se trata de aplicações de processamento de linguagem natural (NLP)

Ele também enfatiza que muitos resultados são modificados apenas por mudar a forma que um texto é pre-processado. Além disso, ele ainda destaca que muitas aplicações de NLP não apresentam resultados bons por falta desse pre-processamento ou pelo emprego de tecnicas erradas.

O que é pre-processamento textual?

Definição

Nesse tópico, a autora busca definir o conceito de pré-processamento textual: Transformar um texto de seu estado normal para um estado em que ele possa ser facilmente analisado de forma previsivel para a realização de uma tarefa.

O que é uma tarefa?

Uma tarefa é a junção de um dominio e de como aquele dominio vai ser abordado. Assim, a partir da mudança do dominio ou da abordagem, uma tarefa muda totalmente, e, com isso, a forma que se deve pre-processar o texto também muda.

Tipos de tecnicas de pre-processamento textual

1. Lowercasing

Como funciona

Técnica que consiste em transformar todas as letras de um texto em letras minúsculas.

Utilidade

Esse processo é util para dar uma mesma forma a palavras que tem o emprego de maiusculas e minusculas em locais diferentes mas que semanticamente significam a mesma coisa.

Exemplo

  • Palavras cruas: Epol, ePol e EPOL
  • Após o tratamento: Todas viram epol

2. Stemming

Como funciona

Técnica que consiste em retirar as inflexões de palavra transformando-as em sua forma raiz ou forma canonica a partir da retirada de letras adicionais.

Utilidade

Esse processo é util para dar uma mesma forma a palavras que tem uma mesma raiz mas por conta de uma inflexão se tornam palavras diferentes, ou seja, é util para definir um tema a partir da raiz das palavras.

Exemplo

  • Palavras cruas: programador, programação, programar
  • Após o tratamento: programa

3. Lemmatization

Como funciona

Técnica que consiste em retirar as inflexões de palavra transformando-as em sua forma raiz ou forma canonica a partir do sentido da palavra.

Utilidade

Esse processo é util para dar uma mesma forma a palavras que tem uma mesma raiz mas por conta de uma inflexão se tornam palavras diferentes, ou seja, é util para definir um tema a partir da raiz das palavras (O mesmo uso do Lemmatization).

Exemplo

  • Palavras cruas: melhor, melhorar, bem
  • Após o tratamento: bom

4. Stopword Removal - Remoção de stopwords

Como funciona

Técnica que consiste em retirar as palavras que mais aparecem no corpus (Conjunto de textos analisado) de um texto.

Utilidade

Esse processo é util para restringir o lexico de palavras usadas em um texto e enfatizar as palavras que realmente dão sentido aquele texto.

Exemplo

  • Texto cru: Ele foi muito eficiente pois estudou muito.
  • Após o tratamento: * foi * eficiente * estudou *.

5. Normalization - Normalização

Como funciona

Técnica que consiste em transformar palavras que possuem desvios de escrita devido a informalidade ou por estarem abreviadas, em sua forma canonica.

Utilidade

Esse processo é util para identificar palavras que apesar de possuirem escritas diferentes possuem sentidos exatamente iguais, ou seja, é util para diminuir os lexico de palavras.

Exemplo

  • Palavras cruas: vc, vosmicê, c, cê, voç.
  • Após o tratamento: você.

6. Noise Removal - Remoção de ruido

Como funciona

Técnica que consiste em remover caracteres que atrapalham a interpretação do texto como um todo.

Utilidade

Esse processo é util para diminuir o ruido do texto, ou seja, remover partes desnecessárias de uma palavra sem alterar o sentido da palavra.

Exemplo

  • Palavras cruas: <a>oi</a>, oi…, oi<, 1.oi, oi!.
  • Após o tratamento: oi.

7. Text Enrichment / Augmentation - Enriquecimento de texto

Como funciona

Técnica que consiste em enriquecer as informações do texto com informações que antes não estavam contidas nele.

Utilidade

Esse processo é util para adicionar palavras que estão relacionadas com o texto e com isso, facilitar possiveis buscas ou relações entre textos.

Exemplo

  • Palavras cruas: processamento, texto.
  • Após o tratamento: processamento, texto, NLP, linguagem natural, pré-processamento.

Quais técnicas se deve usar?

  • Sempre usar: Noise removal e Lowercasing
  • Deve usar: Normalização simples
  • Dependente da tarefa: Normalização avançada, remoção de stopwords, stemming/lemmatization e enriquecimento de texto

Regra geral

O nivel de pre-processamento de texto necessário é diretamente proporcional a quantidade de ruido dos textos e o quão amplos os temas dos textos são. Isso quer dizer que quanto mais amplos os temas, mais pre-processamento você vai precisar. Do mesmo modo, quanto mais ruido o texto tiver (mais “mal-escrito”), mais pre-processamento você vai precisar.