Este documento é um resumo do texto “All you need to know about text preprocessing for NLP and Machine Learning” de Kavita Ganesan. Este documento não tem o proposito de ferir nenhum direito autoral e o autor deste documento explicita que todo e qualquer conhecimento que se encontra nesse texto se refere ao texto produzido por Kavita Ganesan.
IMPORTANTE: Este resumo não deve ser usado como fonte bibliográfica em hipotese alguma.
O texto começa descrevendo a motivação de sua escrita: a displicencia sobre o pre-processamento de um texto quando se trata de aplicações de processamento de linguagem natural (NLP)
Ele também enfatiza que muitos resultados são modificados apenas por mudar a forma que um texto é pre-processado. Além disso, ele ainda destaca que muitas aplicações de NLP não apresentam resultados bons por falta desse pre-processamento ou pelo emprego de tecnicas erradas.
Nesse tópico, a autora busca definir o conceito de pré-processamento textual: Transformar um texto de seu estado normal para um estado em que ele possa ser facilmente analisado de forma previsivel para a realização de uma tarefa.
Uma tarefa é a junção de um dominio e de como aquele dominio vai ser abordado. Assim, a partir da mudança do dominio ou da abordagem, uma tarefa muda totalmente, e, com isso, a forma que se deve pre-processar o texto também muda.
Técnica que consiste em transformar todas as letras de um texto em letras minúsculas.
Esse processo é util para dar uma mesma forma a palavras que tem o emprego de maiusculas e minusculas em locais diferentes mas que semanticamente significam a mesma coisa.
Técnica que consiste em retirar as inflexões de palavra transformando-as em sua forma raiz ou forma canonica a partir da retirada de letras adicionais.
Esse processo é util para dar uma mesma forma a palavras que tem uma mesma raiz mas por conta de uma inflexão se tornam palavras diferentes, ou seja, é util para definir um tema a partir da raiz das palavras.
Técnica que consiste em retirar as inflexões de palavra transformando-as em sua forma raiz ou forma canonica a partir do sentido da palavra.
Esse processo é util para dar uma mesma forma a palavras que tem uma mesma raiz mas por conta de uma inflexão se tornam palavras diferentes, ou seja, é util para definir um tema a partir da raiz das palavras (O mesmo uso do Lemmatization).
Técnica que consiste em retirar as palavras que mais aparecem no corpus (Conjunto de textos analisado) de um texto.
Esse processo é util para restringir o lexico de palavras usadas em um texto e enfatizar as palavras que realmente dão sentido aquele texto.
Técnica que consiste em transformar palavras que possuem desvios de escrita devido a informalidade ou por estarem abreviadas, em sua forma canonica.
Esse processo é util para identificar palavras que apesar de possuirem escritas diferentes possuem sentidos exatamente iguais, ou seja, é util para diminuir os lexico de palavras.
Técnica que consiste em remover caracteres que atrapalham a interpretação do texto como um todo.
Esse processo é util para diminuir o ruido do texto, ou seja, remover partes desnecessárias de uma palavra sem alterar o sentido da palavra.
Técnica que consiste em enriquecer as informações do texto com informações que antes não estavam contidas nele.
Esse processo é util para adicionar palavras que estão relacionadas com o texto e com isso, facilitar possiveis buscas ou relações entre textos.
O nivel de pre-processamento de texto necessário é diretamente proporcional a quantidade de ruido dos textos e o quão amplos os temas dos textos são. Isso quer dizer que quanto mais amplos os temas, mais pre-processamento você vai precisar. Do mesmo modo, quanto mais ruido o texto tiver (mais “mal-escrito”), mais pre-processamento você vai precisar.