O projeto visa realizar uma Análise Exploratória de Dados avançada, focada em dados não estruturados (texto), com o objetivo de contar uma narrativa coerente sobre a satisfação do consumidor.
Pergunta Central da Análise:
A partir do conteúdo textual das avaliações, quais são os principais
aspectos que influenciam a experiência do cliente, e como a percepção do
produto evolui ao longo do tempo?
Esta abordagem exige o uso de técnicas de Text Mining e Processamento de Linguagem Natural (NLP), satisfazendo os requisitos de complexidade do projeto.
Fonte: Dataset de Reviews da Amazon (versão pública, como Kaggle ou UCSD). Tipo: dado não estruturado primariamente (o texto).
Justificativa Técnica (Requisitos do Projeto):
Esta etapa é crucial para transformar o texto bruto em dados quantificáveis, atendendo diretamente aos requisitos de limpeza e criação de variáveis.
3.1. Limpeza e Organização dos Dados
3.2. Criação de Variáveis (Engenharia de Features)
Para ir além das variáveis originais, serão criadas variáveis que sustentam a análise:
unixReviewTime), será extraído o
Mês e o Ano para permitir a análise da
evolução do sentimento ao longo do tempo.3.3. Pacotes Requeridos
Os principais pacotes utilizados neste projeto são:
tidyverse: manipulação e visualização de dados.lubridate: tratamento de datas.janitor: limpeza e padronização de nomes de
colunas.knitr / DT: produção de tabelas
estilizadas e interativas no relatório.library(tidyverse)
library(lubridate)
library(janitor)
library(knitr)
library(DT)
3.4. Fonte dos Dados
Os dados utilizados neste trabalho foram coletados em uma plataforma pública de dados chamada Kaggle, que reúne datasets de diversas áreas com fins educacionais e de pesquisa.
A análise será focada em gerar insights que “contem a história” do produto, indo além de estatísticas descritivas simples e buscando padrões relevantes na experiência dos clientes.
4.1. Visualizações Chave e Gráficos Propostos
Gráfico de Linha (Tendência Temporal)
Mostrar o Sentimento Médio (ou a proporção de reviews
negativos) por mês/ano.
Insight: revela picos de insatisfação (por exemplo, após uma
atualização de firmware ou um novo lote de produção).
Gráfico de Barras (Contagem de Aspectos)
Geração de uma nuvem de palavras ou gráfico de barras
mostrando as palavras mais frequentes, filtrando apenas os reviews
negativos.
Insight: identifica os pontos exatos de falha (ex.: “bateria”,
“aquecimento”, “suporte”).
Comparação Cruzada (Nota x Sentimento)
Gráfico de barras que compara a nota numérica original
com a polaridade de sentimento calculada pelo
algoritmo.
Exemplo: “Quantos reviews com nota 3 foram classificados como
Negativos?”
Conclusão da História
O projeto não apenas relatará estatísticas, mas fornecerá uma
narração sobre os aspectos de maior impacto na
satisfação do consumidor da categoria analisada.
Limitações e Desafios
Serão discutidas as limitações do modelo de sentimento (por exemplo,
dificuldade em capturar sarcasmo ou
ironia) e os desafios da limpeza de texto, que pode
influenciar diretamente a qualidade das métricas.
Inovação
A utilização de técnicas avançadas de NLP (tokenização,
análise de sentimento léxica) representa o uso de métodos não abordados
integralmente em sala de aula, adicionando valor à proposta e alinhando
o trabalho com práticas contemporâneas de análise de dados em ambientes
reais.