Este projeto utiliza uma base de dados do Internet Movie Database (IMDb) contendo informações sobre filmes, séries, atores, diretores e avaliações da comunidade. O dataset foi obtido no Kaggle (https://www.kaggle.com/datasets/ashirwadsangwan/imdb-dataset) e totaliza mais de 5GB de dados.
A base de dados contém 12.083.771 títulos únicos no total, dos quais 1.603.100 possuem avaliações registradas pela comunidade do IMDb.
Diante dessa vasta quantidade de informações sobre a indústria cinematográfica e televisiva, este projeto se propõe a realizar uma análise exploratória profunda desses dados, buscando extrair insights relevantes sobre padrões de produção, preferências do público e fatores que influenciam o sucesso de títulos audiovisuais.
O projeto trabalha com 5 tabelas principais do IMDb:
Além disso, há dados detalhados sobre: - Elenco completo com personagens interpretados - Múltiplos idiomas e países de origem - Avaliações quantitativas da comunidade global do IMDb
Este projeto visa realizar uma análise exploratória profunda dos dados cinematográficos do IMDb. Devido ao grande volume de dados (mais de 12 milhões de títulos), o estudo será limitado aos conteúdos produzidos a partir de 2020, permitindo um foco em produções recentes e tendências contemporâneas.
Esta delimitação temporal implicará na remoção de dados das demais tabelas que se tornarão desnecessários, como informações de atores, diretores e avaliações relacionadas exclusivamente a títulos anteriores a 2020. Durante o processo de preparação dos dados, as 5 tabelas originais serão unificadas em uma única estrutura integrada, facilitando a análise e reduzindo significativamente o volume de dados a ser processado.
Com essa estratégia de filtragem e consolidação, os objetivos específicos da análise são:
Análise Temporal e de Tendências:
Análise de Sucesso e Avaliações:
Análise de Mercado e Distribuição:
Análise de Profissionais:
# pacotes necessários
As tabelas utilizadas neste projeto possuem a seguinte estrutura:
Contém informações sobre pessoas (atores, diretores, roteiristas):
Contém informações básicas sobre títulos (filmes, séries, episódios):
Contém o elenco/equipe principal dos títulos:
Contém as avaliações e votos do IMDb para os títulos:
Contém títulos alternativos e traduções:
Observações:
Nesta etapa, realizaremos a importação das 5 tabelas do IMDb para o ambiente R. O processo de carregamento inclui:
.tsv estão armazenadosread.delim() com os parâmetros adequados:
sep = "\t": Define o separador como tabulação (formato
TSV)na.strings = "\\N": Converte os valores “\N” em NA
(valores ausentes)quote = "": Evita problemas com aspas nos dadosstartYear >= 2020Este processo garantirá que trabalhemos apenas com os dados relevantes para nossa análise, reduzindo significativamente o volume de informações a ser processado.
# dados
Análises exploratórias e visualizações
# análise