1 ANÁLISE DE SENTIMENTO EM REVIEWS DE PRODUTOS DO SITE AMAZON

1.1 Introdução

1.1.1 Introdução e Definição do Problema

O projeto visa realizar uma Análise Exploratória de Dados avançada, focada em dados não estruturados (texto), com o objetivo de contar uma narrativa coerente sobre a satisfação do consumidor.

Pergunta Central da Análise:
A partir do conteúdo textual das avaliações, quais são os principais aspectos que influenciam a experiência do cliente, e como a percepção do produto evolui ao longo do tempo?

Esta abordagem exige o uso de técnicas de Text Mining e Processamento de Linguagem Natural (NLP), satisfazendo os requisitos de complexidade do projeto.

1.2 Dataset e Estrutura

1.2.1 Escolha do Dataset e Estrutura

Fonte: Dataset de Reviews da Amazon (versão pública, como Kaggle ou UCSD). Tipo: dado não estruturado primariamente (o texto).

Justificativa Técnica (Requisitos do Projeto):

  • O conjunto de dados contém vários tipos de dados (texto não estruturado, notas numéricas, IDs de caractere e datas Unix).
  • O campo reviewText (o corpo do review) é inerentemente não normalizado, contendo variações de caixa, erros gramaticais e pontuações inconsistentes, o que exige a etapa de limpeza de dados.

1.3 Metodologia

1.3.1 Pré-Processamento e Engenharia de Features

Esta etapa é crucial para transformar o texto bruto em dados quantificáveis, atendendo diretamente aos requisitos de limpeza e criação de variáveis.

3.1. Limpeza e Organização dos Dados

  • Filtro: A base será filtrada para focar em uma única categoria de produto (ex.: Eletroeletrônicos), tornando a análise específica e a história mais concisa.
  • Limpeza de Texto: Remoção de pontuação, caracteres especiais e stopwords (palavras irrelevantes como “o”, “a”, “de”).
  • Tokenização: Quebra do texto em palavras ou grupos de palavras (bigramas/trigramas) para contagem de frequência e análise contextual.

3.2. Criação de Variáveis (Engenharia de Features)

Para ir além das variáveis originais, serão criadas variáveis que sustentam a análise:

  • Polaridade de Sentimento: Utilizando léxicos de sentimento (ex.: AFINN, Bing, NRC), será atribuída uma classificação (“Positivo”, “Negativo” ou “Neutro”) para cada review de texto, criando uma variável categórica nova.
  • Tendência Temporal: A partir do timestamp original do review (unixReviewTime), será extraído o Mês e o Ano para permitir a análise da evolução do sentimento ao longo do tempo.

3.3. Pacotes Requeridos

Os principais pacotes utilizados neste projeto são:

  • tidyverse: manipulação e visualização de dados.
  • lubridate: tratamento de datas.
  • janitor: limpeza e padronização de nomes de colunas.
  • knitr / DT: produção de tabelas estilizadas e interativas no relatório.
library(tidyverse)
library(lubridate)
library(janitor)
library(knitr)
library(DT)

3.4. Fonte dos Dados

Os dados utilizados neste trabalho foram coletados em uma plataforma pública de dados chamada Kaggle, que reúne datasets de diversas áreas com fins educacionais e de pesquisa.

1.4 Análises

1.4.1 Análise Exploratória e Visualizações

A análise será focada em gerar insights que “contem a história” do produto, indo além de estatísticas descritivas simples e buscando padrões relevantes na experiência dos clientes.

4.1. Visualizações Chave e Gráficos Propostos

  1. Gráfico de Linha (Tendência Temporal)
    Mostrar o Sentimento Médio (ou a proporção de reviews negativos) por mês/ano.
    Insight: revela picos de insatisfação (por exemplo, após uma atualização de firmware ou um novo lote de produção).

  2. Gráfico de Barras (Contagem de Aspectos)
    Geração de uma nuvem de palavras ou gráfico de barras mostrando as palavras mais frequentes, filtrando apenas os reviews negativos.
    Insight: identifica os pontos exatos de falha (ex.: “bateria”, “aquecimento”, “suporte”).

  3. Comparação Cruzada (Nota x Sentimento)
    Gráfico de barras que compara a nota numérica original com a polaridade de sentimento calculada pelo algoritmo.
    Exemplo: “Quantos reviews com nota 3 foram classificados como Negativos?”

1.5 Conclusão

1.5.1 Conclusão e Próximos Passos

Conclusão da História
O projeto não apenas relatará estatísticas, mas fornecerá uma narração sobre os aspectos de maior impacto na satisfação do consumidor da categoria analisada.

Limitações e Desafios
Serão discutidas as limitações do modelo de sentimento (por exemplo, dificuldade em capturar sarcasmo ou ironia) e os desafios da limpeza de texto, que pode influenciar diretamente a qualidade das métricas.

Inovação
A utilização de técnicas avançadas de NLP (tokenização, análise de sentimento léxica) representa o uso de métodos não abordados integralmente em sala de aula, adicionando valor à proposta e alinhando o trabalho com práticas contemporâneas de análise de dados em ambientes reais.