Analytics of Amazon Prime Video
Case Study (Web Scraping)
1 Dataset
2 3 Tren / Poin Penting dari Data
library(tidyverse)
library(lubridate)
# 1. Tren jumlah konten berdasarkan 'type' (Movie vs TV Show)
type_trend <- data %>%
count(type) %>%
arrange(desc(n))
print(type_trend)## # A tibble: 2 × 2
## type n
## <chr> <int>
## 1 Movie 7814
## 2 TV Show 1854
# 2. Jumlah konten berdasarkan tahun rilis (release_year)
year_trend <- data %>%
count(release_year) %>%
arrange(desc(n))
print(year_trend)## # A tibble: 100 × 2
## release_year n
## <dbl> <int>
## 1 2021 1442
## 2 2020 962
## 3 2019 929
## 4 2018 623
## 5 2017 562
## 6 2016 521
## 7 2014 391
## 8 2015 378
## 9 2013 289
## 10 2011 252
## # ℹ 90 more rows
# 3. Top 5 negara dengan jumlah konten terbanyak (country)
country_trend <- data %>%
separate_rows(country, sep = ", ") %>%
count(country, sort = TRUE) %>%
top_n(5, n)
print(country_trend)## # A tibble: 5 × 2
## country n
## <chr> <int>
## 1 <NA> 8996
## 2 United States 334
## 3 India 246
## 4 United Kingdom 67
## 5 Canada 35
2.1 Interpretasi
2.1.1 1. Distribusi berdasarkan type (Movie vs TV Show):
- Movie: Terdapat 7.814 konten berupa film.
- TV Show: Terdapat 1.854 konten berupa acara TV.
Jumlah film (Movie) jauh lebih banyak dibandingkan dengan acara TV (TV Show). Ini menunjukkan bahwa platform (atau dataset) ini lebih banyak menyediakan film daripada serial atau acara TV.
2.1.2 2. Distribusi berdasarkan release_year (tahun rilis):
- Tahun dengan jumlah konten terbanyak adalah 2021 dengan 1.442 judul.
- Tahun 2020 dan 2019 juga menunjukkan jumlah yang cukup besar, masing-masing 962 dan 929 judul.
- Setelah itu, jumlah konten menurun secara bertahap ke tahun-tahun sebelumnya.
Tren menunjukkan peningkatan jumlah konten yang dirilis dalam beberapa tahun terakhir, khususnya di tahun 2020 dan 2021. Hal ini bisa mengindikasikan pertumbuhan produksi konten yang cukup pesat di platform tersebut.
2.1.3 3. Distribusi berdasarkan country (negara produksi):
- Banyak data country yang tidak terisi (NA) sebanyak 8.996, ini menunjukkan data negara produksi banyak yang kosong atau tidak tersedia.
- Dari data yang terisi, United States menjadi negara dengan jumlah konten terbanyak yaitu 334 judul.
- Diikuti oleh India (246), United Kingdom (67), dan Canada (35).
Meski banyak data yang kosong, terlihat bahwa sebagian besar konten berasal dari Amerika Serikat, India, dan Inggris. Ini mengindikasikan dominasi konten dari negara-negara tersebut di platform. Namun, banyak data yang tidak lengkap perlu diperhatikan untuk analisis lebih akurat.
3 Membersihkan dan Menyiapkan Data
library(DT)
data_clean <- data %>%
distinct() %>% # Hapus duplikat
drop_na(show_id, type, title, release_year) %>% # Hapus baris dengan NA di kolom penting
mutate(
date_added = mdy(date_added), # Ubah date_added ke format tanggal
type = as.factor(type), # Ubah ke faktor jika perlu
country = if_else(is.na(country), "Unknown", country), # Isi NA country dengan "Unknown"
duration_num = as.numeric(str_extract(duration, "\\d+")), # Ekstrak angka dari duration (misal "90 min" jadi 90)
release_year = as.integer(release_year)
) %>%
filter(!is.na(duration_num)) # Hapus baris yang gagal ekstrak duration
# Tampilkan tabel interaktif
datatable(data_clean,
options = list(pageLength = 5, # jumlah baris per halaman
autoWidth = TRUE),
rownames = FALSE)4 Visualisasi Data
library(tidyverse)
library(plotly)
# 1. Visualisasi jumlah konten berdasarkan 'type'
type_count <- data_clean %>%
count(type)
plot_type <- plot_ly(type_count, labels = ~type, values = ~n, type = 'pie') %>%
layout(title = 'Distribusi Tipe Konten',
legend = list(x = 0.1, y = 0.9))
plot_type# 2. Visualisasi jumlah konten berdasarkan 'release_year' (top 10 tahun terbesar)
top_years <- data_clean %>%
count(release_year) %>%
arrange(desc(n)) %>%
slice_max(n, n = 10) %>%
mutate(release_year = as.factor(release_year))
plot_year <- plot_ly(top_years, x = ~release_year, y = ~n, type = 'bar',
marker = list(color = 'royalblue')) %>%
layout(title = "Top 10 Tahun Rilis Terbanyak",
xaxis = list(title = "Tahun Rilis"),
yaxis = list(title = "Jumlah Konten"))
plot_year# 3. Visualisasi negara dengan jumlah konten terbanyak (top 10)
top_countries <- data_clean %>%
count(country) %>%
arrange(desc(n)) %>%
slice_max(n, n = 10) %>%
mutate(country = factor(country, levels = rev(unique(country))))
plot_country <- plot_ly(top_countries, x = ~n, y = ~country, type = 'bar', orientation = 'h',
marker = list(color = 'darkgreen')) %>%
layout(title = "Top 10 Negara Dengan Konten Terbanyak",
xaxis = list(title = "Jumlah Konten"),
yaxis = list(title = "Negara"))
plot_country4.1 Interpretasi
4.1.1 1. Distribusi Tipe Konten (Pie Chart)
- Insight: Sebagian besar konten yang tersedia adalah Movie (80.8%), sementara TV Show hanya 19.2%.
- Makna: Ini menunjukkan bahwa platform lebih fokus menyediakan konten dalam format film dibanding serial TV.
- Manfaat untuk stakeholder: Jika ingin memperluas pasar serial, maka perlu meningkatkan jumlah TV Show agar lebih seimbang.
4.1.2 2. Top 10 Tahun Rilis Terbanyak (Bar Chart)
- Insight: Terdapat tren peningkatan jumlah konten setiap tahun, terutama dari 2016 hingga puncaknya di 2021.
- Makna: Bisa jadi disebabkan oleh peningkatan produksi digital atau strategi platform untuk menambah konten baru secara agresif.
- Manfaat untuk stakeholder: Penting untuk mempertahankan tren positif ini dengan terus merilis konten baru secara konsisten setiap tahun.
4.1.3 3. Top 10 Negara dengan Konten Terbanyak (Horizontal Bar Chart)
- Insight: Sebagian besar data negara bertuliskan Unknown (tidak diketahui), namun dari data yang tersedia, United States, India, dan United Kingdom mendominasi.
- Makna: Ketidaktahuan asal negara bisa jadi disebabkan oleh data yang tidak lengkap. Sementara dominasi negara tertentu bisa menunjukkan preferensi produksi.
- Manfaat untuk stakeholder: Perlu perbaikan dalam pengisian metadata negara asal. Selain itu, bisa jadi peluang untuk meningkatkan konten dari negara lain agar lebih beragam.
