1. Introdução e Objetivos

1.1 Contexto

Este projeto utiliza uma base de dados do Internet Movie Database (IMDb) contendo informações sobre filmes, séries, atores, diretores e avaliações da comunidade. O dataset foi obtido no Kaggle (https://www.kaggle.com/datasets/ashirwadsangwan/imdb-dataset) e totaliza mais de 5GB de dados.

A base de dados contém 12.083.771 títulos únicos no total, dos quais 1.603.100 possuem avaliações registradas pela comunidade do IMDb.

Diante dessa vasta quantidade de informações sobre a indústria cinematográfica e televisiva, este projeto se propõe a realizar uma análise exploratória profunda desses dados, buscando extrair insights relevantes sobre padrões de produção, preferências do público e fatores que influenciam o sucesso de títulos audiovisuais.

1.2 Base de Dados

O projeto trabalha com 5 tabelas principais do IMDb:

  1. name.basics.tsv: Informações sobre pessoas (atores, diretores, roteiristas), incluindo nome, ano de nascimento, profissões e títulos conhecidos
  2. title.basics.tsv: Informações básicas sobre títulos (filmes/séries), incluindo título original, ano de lançamento, duração, gêneros e tipo de produção
  3. title.principals.tsv: Equipe principal de cada produção, relacionando pessoas (name) aos títulos (title), suas funções e personagens interpretados
  4. title.ratings.tsv: Notas médias atribuídas pela comunidade e número total de votos para cada título
  5. title.akas.tsv: Títulos alternativos e traduções em diferentes idiomas e regiões

Além disso, há dados detalhados sobre: - Elenco completo com personagens interpretados - Múltiplos idiomas e países de origem - Avaliações quantitativas da comunidade global do IMDb

1.3 Objetivos

Este projeto visa realizar uma análise exploratória profunda dos dados cinematográficos do IMDb. Devido ao grande volume de dados (mais de 12 milhões de títulos), o estudo será limitado aos conteúdos produzidos a partir de 2020, permitindo um foco em produções recentes e tendências contemporâneas.

Esta delimitação temporal implicará na remoção de dados das demais tabelas que se tornarão desnecessários, como informações de atores, diretores e avaliações relacionadas exclusivamente a títulos anteriores a 2020. Durante o processo de preparação dos dados, as 5 tabelas originais serão unificadas em uma única estrutura integrada, facilitando a análise e reduzindo significativamente o volume de dados a ser processado.

Com essa estratégia de filtragem e consolidação, os objetivos específicos da análise são:

Análise Temporal e de Tendências:

  • Identificar padrões e tendências na produção audiovisual recente (2020 em diante)
  • Observar mudanças nas preferências de gêneros cinematográficos ao longo do tempo
  • Analisar a evolução da duração média das produções

Análise de Sucesso e Avaliações:

  • Identificar características comuns em produções bem avaliadas
  • Analisar a relação entre características dos filmes (gênero, duração, elenco) e suas avaliações
  • Investigar fatores que contribuem para o sucesso de uma produção junto ao público
  • Descobrir correlações entre variáveis como duração, gênero, ano de lançamento e nota média

Análise de Mercado e Distribuição:

  • Explorar a distribuição de produções por região e idioma
  • Compreender a distribuição geográfica e linguística das produções
  • Analisar a presença de títulos em múltiplos mercados através de traduções

Análise de Profissionais:

  • Avaliar o impacto de diretores, atores e equipe técnica nas avaliações dos títulos
  • Identificar padrões de colaboração entre profissionais em produções bem-sucedidas

2. Pacotes Requeridos

# pacotes necessários

3. Preparação dos Dados

3.1 Descrição das Tabelas

As tabelas utilizadas neste projeto possuem a seguinte estrutura:

3.1.1 name.basics.tsv

Contém informações sobre pessoas (atores, diretores, roteiristas):

  • nconst (string): Identificador alfanumérico único da pessoa
  • primaryName (string): Nome pelo qual a pessoa é mais frequentemente creditada
  • birthYear (YYYY): Ano de nascimento
  • deathYear (YYYY): Ano de falecimento, se aplicável
  • primaryProfession (array): As 3 principais profissões da pessoa
  • knownForTitles (array de tconsts): Títulos pelos quais a pessoa é conhecida

3.1.2 title.basics.tsv

Contém informações básicas sobre títulos (filmes, séries, episódios):

  • tconst (string): Identificador alfanumérico único do título
  • titleType (string): Tipo/formato do título (movie, short, tvSeries, tvEpisode, video, etc.)
  • primaryTitle (string): Título mais popular / título usado pelos cineastas em materiais promocionais no lançamento
  • originalTitle (string): Título original, no idioma original
  • isAdult (boolean): 0 = título não adulto; 1 = título adulto
  • startYear (YYYY): Ano de lançamento do título. Para séries de TV, é o ano de início da série
  • endYear (YYYY): Ano de término para séries de TV; vazio para outros tipos de título
  • runtimeMinutes (integer): Duração principal do título, em minutos
  • genres (array): Até três gêneros associados ao título

3.1.3 title.principals.tsv

Contém o elenco/equipe principal dos títulos:

  • tconst (string): Identificador alfanumérico único do título
  • ordering (integer): Número para identificar exclusivamente linhas para um dado titleId
  • nconst (string): Identificador alfanumérico único da pessoa
  • category (string): Categoria de trabalho que a pessoa desempenhou (actor, actress, director, writer, producer, etc.)
  • job (string): Título específico do trabalho, se aplicável
  • characters (string): Nome do personagem interpretado, se aplicável

3.1.4 title.ratings.tsv

Contém as avaliações e votos do IMDb para os títulos:

  • tconst (string): Identificador alfanumérico único do título
  • averageRating (float): Média ponderada de todas as avaliações individuais dos usuários
  • numVotes (integer): Número de votos que o título recebeu

3.1.5 title.akas.tsv

Contém títulos alternativos e traduções:

  • titleId (string): Um tconst, identificador alfanumérico único do título
  • ordering (integer): Número para identificar exclusivamente linhas para um dado titleId
  • title (string): Título localizado
  • region (string): Região para esta versão do título
  • language (string): Idioma do título
  • types (array): Conjunto de atributos para este título alternativo (“alternative”, “dvd”, “festival”, “tv”, “video”, “working”, “original”, “imdbDisplay”)
  • attributes (array): Termos adicionais para descrever este título alternativo
  • isOriginalTitle (boolean): 0 = não é título original; 1 = título original

Observações:

  • Valores ausentes são representados por “\N” nos arquivos originais
  • Os identificadores (nconst, tconst) permitem relacionar as tabelas entre si
  • As datas são representadas apenas por ano (formato YYYY)
  • Os arquivos originais estão em formato compactado (.gz)

3.2 Carregamento e Importação dos Dados

Nesta etapa, realizaremos a importação das 5 tabelas do IMDb para o ambiente R. O processo de carregamento inclui:

  1. Definição dos caminhos: Especificar o diretório onde os arquivos .tsv estão armazenados
  2. Verificação de existência: Confirmar que os arquivos estão disponíveis no caminho especificado
  3. Importação: Utilizar a função read.delim() com os parâmetros adequados:
    • sep = "\t": Define o separador como tabulação (formato TSV)
    • na.strings = "\\N": Converte os valores “\N” em NA (valores ausentes)
    • quote = "": Evita problemas com aspas nos dados
  4. Aplicação do filtro temporal: Selecionar apenas os títulos com startYear >= 2020
  5. Filtragem de dados relacionados: Remover registros de outras tabelas que não se relacionam com os títulos filtrados

Este processo garantirá que trabalhemos apenas com os dados relevantes para nossa análise, reduzindo significativamente o volume de informações a ser processado.

# dados

4. Análise Exploratória

Análises exploratórias e visualizações

# análise

5. Conclusão