Projeto Final

1. Introdução e Objetivos

1.1 Contexto

Este projeto utiliza uma base de dados do Internet Movie Database (IMDb) contendo informações sobre filmes, séries, atores, diretores e avaliações da comunidade. O dataset foi obtido no Kaggle (https://www.kaggle.com/datasets/ashirwadsangwan/imdb-dataset) e totaliza mais de 5GB de dados.

A base de dados contém 12.083.771 títulos únicos no total, dos quais 1.603.100 possuem avaliações registradas pela comunidade do IMDb.

Diante dessa vasta quantidade de informações sobre a indústria cinematográfica e televisiva, este projeto se propõe a realizar uma análise exploratória profunda desses dados, buscando extrair insights relevantes sobre padrões de produção, preferências do público e fatores que influenciam o sucesso de títulos audiovisuais.

1.2 Base de Dados

O projeto trabalha com 5 tabelas principais do IMDb:

name.basics.tsv: Informações sobre pessoas (atores, diretores, roteiristas), incluindo nome, ano de nascimento, profissões e títulos conhecidos
title.basics.tsv: Informações básicas sobre títulos (filmes/séries), incluindo título original, ano de lançamento, duração, gêneros e tipo de produção
title.principals.tsv: Equipe principal de cada produção, relacionando pessoas (name) aos títulos (title), suas funções e personagens interpretados
title.ratings.tsv: Notas médias atribuídas pela comunidade e número total de votos para cada título
title.akas.tsv: Títulos alternativos e traduções em diferentes idiomas e regiões

Além disso, há dados detalhados sobre: - Elenco completo com personagens interpretados - Múltiplos idiomas e países de origem - Avaliações quantitativas da comunidade global do IMDb

1.3 Objetivos

Este projeto visa realizar uma análise exploratória profunda dos dados cinematográficos do IMDb. Devido ao grande volume de dados (mais de 12 milhões de títulos), o estudo será limitado aos conteúdos produzidos a partir de 2020, permitindo um foco em produções recentes e tendências contemporâneas.

Esta delimitação temporal implicará na remoção de dados das demais tabelas que se tornarão desnecessários, como informações de atores, diretores e avaliações relacionadas exclusivamente a títulos anteriores a 2020. Durante o processo de preparação dos dados, as 5 tabelas originais serão unificadas em uma única estrutura integrada, facilitando a análise e reduzindo significativamente o volume de dados a ser processado.

Com essa estratégia de filtragem e consolidação, os objetivos específicos da análise são:

Análise Temporal e de Tendências:

Identificar padrões e tendências na produção audiovisual recente (2020 em diante)
Observar mudanças nas preferências de gêneros cinematográficos ao longo do tempo
Analisar a evolução da duração média das produções

Análise de Sucesso e Avaliações:

Identificar características comuns em produções bem avaliadas
Analisar a relação entre características dos filmes (gênero, duração, elenco) e suas avaliações
Investigar fatores que contribuem para o sucesso de uma produção junto ao público
Descobrir correlações entre variáveis como duração, gênero, ano de lançamento e nota média

Análise de Mercado e Distribuição:

Explorar a distribuição de produções por região e idioma
Compreender a distribuição geográfica e linguística das produções
Analisar a presença de títulos em múltiplos mercados através de traduções

Análise de Profissionais:

Avaliar o impacto de diretores, atores e equipe técnica nas avaliações dos títulos
Identificar padrões de colaboração entre profissionais em produções bem-sucedidas

2. Pacotes Requeridos

# pacotes necessários

3. Preparação dos Dados

3.1 Descrição das Tabelas

As tabelas utilizadas neste projeto possuem a seguinte estrutura:

3.1.1 name.basics.tsv

Contém informações sobre pessoas (atores, diretores, roteiristas):

nconst (string): Identificador alfanumérico único da pessoa
primaryName (string): Nome pelo qual a pessoa é mais frequentemente creditada
birthYear (YYYY): Ano de nascimento
deathYear (YYYY): Ano de falecimento, se aplicável
primaryProfession (array): As 3 principais profissões da pessoa
knownForTitles (array de tconsts): Títulos pelos quais a pessoa é conhecida

3.1.2 title.basics.tsv

Contém informações básicas sobre títulos (filmes, séries, episódios):

tconst (string): Identificador alfanumérico único do título
titleType (string): Tipo/formato do título (movie, short, tvSeries, tvEpisode, video, etc.)
primaryTitle (string): Título mais popular / título usado pelos cineastas em materiais promocionais no lançamento
originalTitle (string): Título original, no idioma original
isAdult (boolean): 0 = título não adulto; 1 = título adulto
startYear (YYYY): Ano de lançamento do título. Para séries de TV, é o ano de início da série
endYear (YYYY): Ano de término para séries de TV; vazio para outros tipos de título
runtimeMinutes (integer): Duração principal do título, em minutos
genres (array): Até três gêneros associados ao título

3.1.3 title.principals.tsv

Contém o elenco/equipe principal dos títulos:

tconst (string): Identificador alfanumérico único do título
ordering (integer): Número para identificar exclusivamente linhas para um dado titleId
nconst (string): Identificador alfanumérico único da pessoa
category (string): Categoria de trabalho que a pessoa desempenhou (actor, actress, director, writer, producer, etc.)
job (string): Título específico do trabalho, se aplicável
characters (string): Nome do personagem interpretado, se aplicável

3.1.4 title.ratings.tsv

Contém as avaliações e votos do IMDb para os títulos:

tconst (string): Identificador alfanumérico único do título
averageRating (float): Média ponderada de todas as avaliações individuais dos usuários
numVotes (integer): Número de votos que o título recebeu

3.1.5 title.akas.tsv

Contém títulos alternativos e traduções:

titleId (string): Um tconst, identificador alfanumérico único do título
ordering (integer): Número para identificar exclusivamente linhas para um dado titleId
title (string): Título localizado
region (string): Região para esta versão do título
language (string): Idioma do título
types (array): Conjunto de atributos para este título alternativo (“alternative”, “dvd”, “festival”, “tv”, “video”, “working”, “original”, “imdbDisplay”)
attributes (array): Termos adicionais para descrever este título alternativo
isOriginalTitle (boolean): 0 = não é título original; 1 = título original

Observações:

Valores ausentes são representados por “\N” nos arquivos originais
Os identificadores (nconst, tconst) permitem relacionar as tabelas entre si
As datas são representadas apenas por ano (formato YYYY)
Os arquivos originais estão em formato compactado (.gz)

3.2 Carregamento e Importação dos Dados

Nesta etapa, realizaremos a importação das 5 tabelas do IMDb para o ambiente R. O processo de carregamento inclui:

Definição dos caminhos: Especificar o diretório onde os arquivos .tsv estão armazenados
Verificação de existência: Confirmar que os arquivos estão disponíveis no caminho especificado
Importação: Utilizar a função read.delim() com os parâmetros adequados:
- sep = "\t": Define o separador como tabulação (formato TSV)
- na.strings = "\\N": Converte os valores “\N” em NA (valores ausentes)
- quote = "": Evita problemas com aspas nos dados
Aplicação do filtro temporal: Selecionar apenas os títulos com startYear >= 2020
Filtragem de dados relacionados: Remover registros de outras tabelas que não se relacionam com os títulos filtrados

Este processo garantirá que trabalhemos apenas com os dados relevantes para nossa análise, reduzindo significativamente o volume de informações a ser processado.

# dados

4. Análise Exploratória

Análises exploratórias e visualizações

# análise