1. Introdução

1.1. Declaração do Problema

A Netflix é uma das maiores plataformas de streaming do mundo, oferecendo milhares de títulos de diferentes países e gêneros. Este projeto visa explorar o catálogo da Netflix para entender padrões de lançamentos, distribuição de gêneros, tendências temporais e características dos filmes e séries disponíveis.

1.2. Objetivo

O objetivo é analisar o dataset “Netflix Movies and TV Shows” disponível no Kaggle, realizando limpeza e transformação dos dados para extrair insights úteis.

1.3. Metodologia

Utilizaremos o R para manipulação dos dados, visualizações e análise exploratória. Técnicas como limpeza, criação de novas variáveis e agrupamento de dados serão aplicadas para obter informações valiosas.

1.4. Benefícios da Análise

Esta análise pode ajudar pesquisadores, analistas de mídia e profissionais de entretenimento a entender melhor o catálogo da Netflix, suas tendências e padrões de lançamento.


2. Pacotes Necessários

Pacotes para manipulação e análise dos dados

library(tidyverse) # Manipulação de dados e visualização library(lubridate) # Manipulação de datas library(DT) # Tabelas interativas library(ggplot2) # Visualizações

3. Carregamento e Preparação dos Dados

3.1 Importação do Dataset

file_path <- “C:/Users/Esdras/Documents/projeto 2va/netflix_titles.csv” # Definir o caminho do arquivo

netflix_data <- read.csv(file_path, stringsAsFactors = FALSE) # Carregar os dados

head(netflix_data) # Exibir as primeiras linhas

3.2 Estrutura e Limpeza dos Dados

str(netflix_data) # Verificar estrutura do dataset

colSums(is.na(netflix_data)) # Contar valores ausentes

netflix_data <- netflix_data %>% mutate( release_year = as.numeric(release_year), date_added = mdy(date_added) ) %>% drop_na() # Corrigir formatos de data e remover valores ausentes

netflix_data <- netflix_data %>% separate(listed_in, into = c(“genre1”, “genre2”, “genre3”), sep = “,”, fill = “right”) # Separar gêneros em colunas distintas

4.Análise Exploratória

4.1 Quantidade de Filmes e Séries

ggplot(netflix_data, aes(x = type, fill = type)) + geom_bar() + labs(title = “Distribuição de Filmes e Séries na Netflix”)

4.2 Lançamentos ao Longo do Tempo

ggplot(netflix_data, aes(x = release_year)) + geom_histogram(binwidth = 5, fill = “steelblue”, color = “black”) + labs(title = “Lançamentos por Ano”, x = “Ano”, y = “Quantidade”) ## 4.3 Países com Mais Títulos top_countries <- netflix_data %>% count(country, sort = TRUE) %>% top_n(10)

ggplot(top_countries, aes(x = reorder(country, n), y = n, fill = country)) + geom_col() + coord_flip() + labs(title = “Top 10 Países com Mais Títulos”, x = “País”, y = “Quantidade”) ## 4.4 Gêneros Mais Populares top_genres <- netflix_data %>% count(genre1, sort = TRUE) %>% top_n(10)

ggplot(top_genres, aes(x = reorder(genre1, n), y = n)) + geom_col(fill = “cyan”) + coord_flip() + labs(title = “Top 10 Gêneros Mais Frequentes na Netflix”, x = “Gênero”, y = “Número de Títulos”) ## 4.5 Tempo Médio de Adição à Netflix

netflix_data <- netflix_data %>% mutate(time_to_add = year(date_added) - release_year) # Criar variável de tempo até ser adicionado

time_country <- netflix_data %>% group_by(country) %>% summarise(avg_time = mean(time_to_add, na.rm = TRUE)) %>% arrange(desc(avg_time)) # Média de tempo de adição por país

head(time_country, 10) # Exibir os 10 países com maior tempo médio