A Netflix é uma das maiores plataformas de streaming do mundo, oferecendo milhares de títulos de diferentes países e gêneros. Este projeto visa explorar o catálogo da Netflix para entender padrões de lançamentos, distribuição de gêneros, tendências temporais e características dos filmes e séries disponíveis.
O objetivo é analisar o dataset “Netflix Movies and TV Shows” disponível no Kaggle, realizando limpeza e transformação dos dados para extrair insights úteis.
Utilizaremos o R para manipulação dos dados, visualizações e análise exploratória. Técnicas como limpeza, criação de novas variáveis e agrupamento de dados serão aplicadas para obter informações valiosas.
Esta análise pode ajudar pesquisadores, analistas de mídia e profissionais de entretenimento a entender melhor o catálogo da Netflix, suas tendências e padrões de lançamento.
library(tidyverse) # Manipulação de dados e visualização library(lubridate) # Manipulação de datas library(DT) # Tabelas interativas library(ggplot2) # Visualizações
file_path <- “C:/Users/Esdras/Documents/projeto 2va/netflix_titles.csv” # Definir o caminho do arquivo
netflix_data <- read.csv(file_path, stringsAsFactors = FALSE) # Carregar os dados
head(netflix_data) # Exibir as primeiras linhas
str(netflix_data) # Verificar estrutura do dataset
colSums(is.na(netflix_data)) # Contar valores ausentes
netflix_data <- netflix_data %>% mutate( release_year = as.numeric(release_year), date_added = mdy(date_added) ) %>% drop_na() # Corrigir formatos de data e remover valores ausentes
netflix_data <- netflix_data %>% separate(listed_in, into = c(“genre1”, “genre2”, “genre3”), sep = “,”, fill = “right”) # Separar gêneros em colunas distintas
ggplot(netflix_data, aes(x = type, fill = type)) + geom_bar() + labs(title = “Distribuição de Filmes e Séries na Netflix”)
ggplot(netflix_data, aes(x = release_year)) + geom_histogram(binwidth = 5, fill = “steelblue”, color = “black”) + labs(title = “Lançamentos por Ano”, x = “Ano”, y = “Quantidade”) ## 4.3 Países com Mais Títulos top_countries <- netflix_data %>% count(country, sort = TRUE) %>% top_n(10)
ggplot(top_countries, aes(x = reorder(country, n), y = n, fill = country)) + geom_col() + coord_flip() + labs(title = “Top 10 Países com Mais Títulos”, x = “País”, y = “Quantidade”) ## 4.4 Gêneros Mais Populares top_genres <- netflix_data %>% count(genre1, sort = TRUE) %>% top_n(10)
ggplot(top_genres, aes(x = reorder(genre1, n), y = n)) + geom_col(fill = “cyan”) + coord_flip() + labs(title = “Top 10 Gêneros Mais Frequentes na Netflix”, x = “Gênero”, y = “Número de Títulos”) ## 4.5 Tempo Médio de Adição à Netflix
netflix_data <- netflix_data %>% mutate(time_to_add = year(date_added) - release_year) # Criar variável de tempo até ser adicionado
time_country <- netflix_data %>% group_by(country) %>% summarise(avg_time = mean(time_to_add, na.rm = TRUE)) %>% arrange(desc(avg_time)) # Média de tempo de adição por país
head(time_country, 10) # Exibir os 10 países com maior tempo médio