Prof. Letícia Raposo
UNIRIO
Objetivo: transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (NLP) e de métodos analíticos.
Aplicações:
Algumas etapas de limpeza podem tornar os dados mais adequados à modelagem:
Algumas etapas de limpeza podem tornar os dados mais adequados à modelagem:
Olá, meu nome é Letícia e eu aaaamo um chocolatinho. :)
ola meu nome e leticia e eu amo um chocolatinho
ola meu nome e leticia e eu amo um chocolatinho
Tipos de erros que devem ser observados e controlados durante a execução do stemming:
ola nome leticia amo chocolatinho
Exemplo: “ola nome leticia amo chocolatinho”.
Vamos imaginar que temos essas três frases:
Determinar o vocabulário: the, cat, sat, in, the, hat, and with.
Contagem
Calculamos o valor TF-IDF de um termo como = TF * IDF
TF(‘beautiful’, Documento 1) = 2/10, IDF(‘beautiful’) = log(2/2) = 0
TF(‘day’, Documento 1) = 5/10, IDF(‘day’) = log(2/1) = 0.30
TF-IDF(‘beautiful’, Documento 1) = (2/10)*0 = 0
TF-IDF(‘day’, Documento 1) = (5/10)*0.30 = 0.15
A ideia seria definir as palavras por meio de escalas representando alguma informação sobre elas.
O modo mais popular de aprendizado é treinando redes neurais, como é o caso do famoso Word2vec.
Este modelo é utilizado para descobrir a palavra central de uma sentença, baseado nas palavras que a cercam. Vamos imaginar que temos a frase: A dog is chasing a person e queremos descobrir a palavra chasing.
Para este exemplo, utilizaremos uma janela de contexto de tamanho 2 para criar o conjunto de treinamento, o que significa que “olharemos” apenas para duas palavras anteriores e duas após a palavra alvo.
Com estes dados, pretendemos “ensinar” ao modelo a predizer uma palavra central, baseada em palavras de contexto.
Supondo d = 3:
Cada w representa um peso que será obtido a partir do treinamento da rede neural.
Este é o segundo modelo utilizado no word2vec, porém aqui ao invés de tentarmos descobrir a palavra central, faremos o processo inverso; da palavra central, tentaremos descobrir as palavras de contexto.
Dada a palavra chasing, qual a probabilidade das palavras a, dog, e person ocorrerem ao redor?
leticia.raposo@uniriotec.br