Data Exploration
Exercises ~ Week 4
1 PENDAHULUAN
TUJUAN
Tujuan dari praktikum ini adalah untuk memahami dan menerapkan berbagai jenis visualisasi data dasar menggunakan bahasa pemrograman R. Melalui tugas ini, kami diharapkan mampu menampilkan data dalam bentuk grafik yang informatif dan menarik.
DESKRIPSI DATASET
Dataset yang digunakan dalam praktikum ini berisi informasi mengenai aktivitas pengguna media sosial, seperti jumlah posting, jumlah likes, serta tingkat engagement dari beberapa pengguna dalam periode waktu tertentu. Data disimulasikan untuk merepresentasikan perilaku pengguna di platform media sosial, misalnya Instagram, WhatsApp atau Twitter. Variabel-variabel utama dalam dataset ini meliputi:
User_ID : Nama yang diggunakan pengguna di sosial media
Jumlah_Posting : jumlah posting yang diunggah sejak akun tersebut dibuat
Jumlah_Likes : total likes yang diterima pengguna saat mengunggah postingan
Engagement_Rate : Engagement rate adalh presentase data yang memperlihatkan seberapa besar keterlibatan atau engagement audiens terhadap sebuah konten, serta bagaimana hubungan antara audiens dan akun bisnis terbentuk.
Platform : jenis media sosial yang digunakan (misalnya Instagram, Youtube, TikTok)
Timestamp : Keterangan waktu pengguna media sosial menunggah postingan pertamanya
KONTEKS KASUS
Media sosial menjadi salah satu sarana utama dalam berinteraksi dan berbagi informasi di era digital. Aktivitas pengguna seperti membuat postingan, memberikan likes, dan berinteraksi melalui komentar mencerminkan tingkat partisipasi serta popularitas akun. Dengan menganalisis data aktivitas media sosial, kita dapat memahami pola perilaku pengguna, menentukan waktu posting yang efektif, serta mengidentifikasi faktor-faktor yang memengaruhi engagement. Visualisasi data membantu menyajikan temuan ini dengan cara yang mudah dipahami dan komunikatif.
2 PERSIAPAN DATA
TUJUAN
Bagian ini bertujuan untuk menyiapkan dataset yang akan digunakan dalam proses analisis dan visualisasi. Tahapan ini meliputi pembuatan dataset simulasi, pemeriksaan struktur data, serta memastikan bahwa variabel yang digunakan sudah sesuai dengan kebutuhan analisis. Selain itu, data akan disusun agar mudah diolah dalam format yang dikenali oleh R.
DESKRIPSI DATASET
Dataset ini berisi informasi mengenai aktivitas pengguna media sosial, dengan beberapa variabel utama berikut:
User_ID : Nama yang digunakan pengguna di sosial media
Platform : jenis media sosial yang digunakan (Instagram, Youtube, dan TikTok)
Jumlah_Posting : jumlah posting yang diunggah selama akun tersebut beroperasi
Jumlah_Likes : total likes yang diterima pengguna saat mengunggah postingan
Engagement_Rate : Engagement rate adalah tolak ukur memperlihatkan seberapa besar keterlibatan atau engagement audiens terhadap sebuah konten, serta bagaimana hubungan antara audiens dan akun bisnis terbentuk.
Data ini merupakan data simulasi yang dibuat untuk merepresentasikan aktivitas pengguna media sosial secara umum. Nilai-nilai pada dataset dihasilkan secara acak agar tetap realistis namun sederhana untuk dianalisis.
KONTEKS KASUS
Media sosial saat ini menjadi platform utama dalam berinteraksi dan berbagi informasi. Aktivitas pengguna seperti jumlah posting, likes, dan tingkat engagement dapat memberikan gambaran tentang seberapa aktif dan populer seorang pengguna. Dengan menganalisis data tersebut, kita dapat memahami pola perilaku pengguna, membandingkan performa antar platform, dan melihat faktor yang mempengaruhi tingkat engagement. Bagian ini bertujuan untuk menyiapkan dataset yang akan digunakan dalam proses analisis dan visualisasi. Tahapan ini meliputi pembuatan dataset simulasi, pemeriksaan struktur data, serta memastikan bahwa variabel yang digunakan sudah sesuai dengan kebutuhan analisis. Selain itu, data akan disusun agar mudah diolah dalam format yang dikenali oleh R
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
# Data influencer
data_media <- data.frame(
User_ID = c(
"arianagrande", "sza", "thv",
"MrBeast", "Windah Basudara", "Nessie Judge",
"Vilmei", "Shasa Zhania", "Gracia Jessica Jane", "Khaby Lame"
),
Timestamp = c(
2011, # arianagrande
2010, # sza
2021, # thv
2012, # MrBeast
2019, # Windah Basudara
2013, # Nessie Judge
2020, # Vilmei
2020, # Shasa Zhania
2019, # Gracia Jessica Jane
2020 # Khaby Lame
),
Platform = c(
"Instagram", "Instagram", "Instagram",
"Youtube", "Youtube", "Youtube",
"Tiktok", "Tiktok", "Tiktok", "Tiktok"
),
Followers_Juta = c(
373, 23.3, 69.5,
445, 17.7, 11.5,
63.6, 1, 12, 162
),
Posts = c(
413, 491, 140,
909, 5700, 2300,
4500, 802, 547, 2200
),
Avg_Likes = c(
931700, 904000, 8766600,
1800000, 1300000, 19800,
460700, 833900, 718000, 1000000
),
ER = c(
0.0075, 0.0056, 0.3784,
0.0035, 0.0019, 0.0018,
0.0073, 0.8339, 0.0598,
0.0062)
)
# Menambahkan kolom ER dalam format persen (karakter)
data_media <- data_media %>%
mutate(ER_percent = paste0(round(ER * 100, 2), "%"))
# Menampilkan tabel
kable(data_media, caption = "Tabel Data Influencer Media Sosial")
User_ID | Timestamp | Platform | Followers_Juta | Posts | Avg_Likes | ER | ER_percent |
---|---|---|---|---|---|---|---|
arianagrande | 2011 | 373.0 | 413 | 931700 | 0.0075 | 0.75% | |
sza | 2010 | 23.3 | 491 | 904000 | 0.0056 | 0.56% | |
thv | 2021 | 69.5 | 140 | 8766600 | 0.3784 | 37.84% | |
MrBeast | 2012 | Youtube | 445.0 | 909 | 1800000 | 0.0035 | 0.35% |
Windah Basudara | 2019 | Youtube | 17.7 | 5700 | 1300000 | 0.0019 | 0.19% |
Nessie Judge | 2013 | Youtube | 11.5 | 2300 | 19800 | 0.0018 | 0.18% |
Vilmei | 2020 | Tiktok | 63.6 | 4500 | 460700 | 0.0073 | 0.73% |
Shasa Zhania | 2020 | Tiktok | 1.0 | 802 | 833900 | 0.8339 | 83.39% |
Gracia Jessica Jane | 2019 | Tiktok | 12.0 | 547 | 718000 | 0.0598 | 5.98% |
Khaby Lame | 2020 | Tiktok | 162.0 | 2200 | 1000000 | 0.0062 | 0.62% |
3 VISUALISASI
🎯 Tujuan Visualisasi Data di RStudio & Rpubs
Menyajikan data secara menarik dan mudah dipahami Visualisasi membantu mengubah data mentah menjadi bentuk grafik, agar informasi lebih cepat dipahami dibanding tabel angka.
Menemukan pola, tren, dan hubungan antarvariabel Dengan grafik, kita bisa melihat tren naik/turun, perbandingan antar kategori, serta hubungan antar variabel.
Mendukung analisis dan pengambilan keputusan Visualisasi mempermudah peneliti, mahasiswa, atau pembuat laporan untuk menarik kesimpulan yang logis dari data.
Meningkatkan kredibilitas laporan atau riset Dalam RStudio, visualisasi bisa dikombinasikan dengan kode dan hasil analisis. Saat dipublikasikan ke RPubs, hasilnya tampil rapi dan profesional.
Komunikasi hasil penelitian secara efektif Dengan RPub (hasil knit dari R Markdown), visualisasi bisa dibagikan online agar pembaca memahami hasil analisis tanpa harus membuka file RStudio.
🧾 Keterangan Singkat
RStudio → digunakan untuk membuat, mengedit, dan menjalankan kode analisis data serta membuat visualisasi.
Rpubs → digunakan untuk menampilkan hasil laporan dari RStudio secara online (berisi teks, kode, dan grafik interaktif).
3.1 Bar Chart
PENGERTIAN BAR CHART
Barchart, atau bagan batang, adalah jenis grafik yang menggunakan batang (vertikal atau horizontal) untuk membandingkan data antar kategori secara visual. Setiap batang menunjukkan nilai atau frekuensi dari suatu kategori, di mana panjang atau tingginya batang mewakili besaran nilai tersebut.
🧠 Singkatnya:
Barchart menunjukkan frekuensi data dalam bentuk batang yang berdekatan dengan jarak antar batang.
ATURAN PENGGUNAAN BAR CHART
Data yang ingin tampilkan bertipe kategori (contoh: jenis produk, nama orang, negara, dll).
Jika ingin membandingkan nilai antar kategori.
Jumlah kategori tidak terlalu banyak supaya mudah dibaca.
📌 Aturan tambahan:
Gunakan warna berbeda untuk kategori agar mudah dibedakan.
Gunakan label sumbu (axis) dan judul yang jelas.
Jangan gunakan bar chart untuk data kontinu (misalnya suhu, waktu, jarak).
KELEBIHAN PENGGUNAAN BAR CHART
✅ Mudah dipahami – cocok untuk pemula atau pembaca non-teknis.
✅ Visualisasi perbandingan yang jelas antar kategori.
✅ Dapat digunakan untuk data nominal atau ordinal.
KEKURANGAN PENGGUNAAN BARCHART
❌ Kurang efisien jika kategori terlalu banyak
❌ Tidak cocok untuk menunjukkan perubahan waktu
❌ Sulit melihat pola tren jika datanya banyak atau kompleks.
# Memuat paket
library(ggplot2)
# Visualisasi jumlah followers influencer
ggplot(data_media, aes(x = reorder(User_ID, -Followers_Juta),
y = Followers_Juta,
fill = Platform)) +
geom_bar(stat = "identity", color = "black", alpha = 0.8) +
geom_text(aes(label = Followers_Juta),
vjust = -0.3, size = 3, fontface = "bold") +
scale_fill_manual(values = c(
"Instagram" = "#800080",
"Youtube" = "#FF0000",
"Tiktok" = "#69C9D0"
)) +
labs(
title = "Jumlah Followers Influencer (dalam Juta)",
x = "Influencer",
y = "Followers (Juta)"
) +
theme_minimal() +
theme(
plot.title = element_text(face = "bold", size = 13, hjust = 0.5),
axis.text.x = element_text(angle = 45, hjust = 1, size = 9),
legend.title = element_blank()
)
Bar chart di atas menunjukkan perbandingan jumlah followers dari beberapa influencer di berbagai platform media sosial.Dari grafik terlihat bahwa MrBeast memiliki jumlah followers terbanyak di antara semua influencer, diikuti oleh Ariana Grande dan Khaby Lame.Sementara itu, beberapa kreator TikTok dan YouTube lain memiliki jumlah pengikut yang lebih sedikit tetapi mungkin memiliki Engagement Rate yang lebih tinggi.
3.2 Histogram
PENGERTIAN HISTOGRAM
Histogram adalah grafik yang digunakan untuk menampilkan sebaran (distribusi) data numerik (angka). Berbeda dengan bar chart yang dipakai untuk data kategori, histogram menunjukkan berapa banyak data yang masuk ke dalam interval tertentu (kelompok nilai).
🧠 Singkatnya:
Histogram menunjukkan frekuensi data dalam bentuk batang yang berdekatan tanpa jarak antar batang.
ATURAN PENGGUNAAN HISTOGRAM
- Data yang akan di visualisasikan adalah data yang berbentuk kuantitatif, sebab histogram menunjukkan frekuensi pada rentang angka tertentu.
- Histogram digunakan saat kita ingin mengetahu pola distribusi. Data tersebut memiliki beberapa jenis yaitu berbentuk simetris, memiliki kemiringan ke kanan maupun ke kiri.
- Histogram digunakan ketika data berjumlah besar karena dapat meringkasnya dalam bentuk visual yang mudah dipahami.
- Histogram mampu menunjukkan seberapa besar frekuensi nilai dalam interval tertentu, contohnya menentukan modus, melihat skala sebaran data, serta mampu mengidentifikasi adanya kecenderungan tertentu dalam data.
KELEBIHAN PENGGUNAAN HISTOGRAM
✅ Menyederhanakan data besar menjadi bentuk grafis yang mudah dipahami
✅ Mempermudah melihat perbandingan antar kelompok atau interval data, sehingga pola perbedaan dalam distribusi dapat terlihat dengan jelas.
✅ Mempermudah untuk analisis statistic yang menjadi dasar untuk memahami tren data.
KEKURANGAN PENGGUNAAN HISTOGRAM
❌ Histogram tidak dapat menampilkan data individual
❌Memberikan gambaran umum, bukan detail sehingga ke Valid an data terkadang dipertanyakan
❌ Kurang efektif untuk membandingkan beberapa data kelompok sekaligus
# Histogram jumlah postingan influencer
ggplot(data_media, aes(x = Posts, fill = Platform)) +
geom_histogram(
bins = 5,
color = "black",
alpha = 0.75,
linewidth = 0.3
) +
scale_fill_manual(values = c(
"Instagram" = "purple",
"Youtube" = "red",
"Tiktok" = "#69C9D0"
)) +
labs(
title = "Distribusi Jumlah Postingan Influencer",
x = "Jumlah Postingan",
y = "Frekuensi"
) +
theme_minimal(base_size = 11) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
legend.title = element_blank(),
axis.text = element_text(color = "gray25")
)
Histogram di atas memperlihatkan bagaimana distribusi jumlah postingan dari para influencer di berbagai platform media sosial. Grafik ini membantu kita melihat apakah ada influencer yang sangat aktif (banyak postingan) atau justru jarang mengunggah konten. Dari hasil visualisasi, terlihat bahwa YouTube dan TikTok cenderung memiliki jumlah postingan yang jauh lebih tinggi dibandingkan pengguna Instagram.
3.3 Boxplot
PENGERTIAN BOXPLOT
Boxplot (atau diagram kotak) adalah jenis grafik yang menampilkan sebaran data numerik berdasarkan lima ukuran utama statistik:
1️⃣ Minimum
2️⃣ Kuartil 1 (Q1)
3️⃣ Median (Q2)
4️⃣ Kuartil 3 (Q3)
5️⃣ Maksimum
🧠 Dengan boxplot, kita bisa melihat persebaran data, mendeteksi outlier, dan membandingkan beberapa kelompok data sekaligus.
ATURAN PENGGUNAAN BOXPLOT
Data harus berupa angka (kuantitatif), karena boxplot menggambarkan ukuran pemusatan dan penyebaran data.
Data memiliki skala pengukuran yang kontinu (interval atau rasio) agar nilai median dan kuartil dapat dihitung secara valid.
Jumlah data mencukupi untuk menunjukkan pola distribusi sehingga bentuk boxplot dapat merepresentasikan karakter data dengan jelas.
KELEBIHAN MENGGUNAKAN BOXPLOT
✅ Mampu menampilkan ringkasan data secara sederhana namun informatif
✅ Dapat mendeteksi pencilan atau outlier
✅ Efektif untuk membandingkan distribusi antar kelompok data
KEKURANGAN MENGGUNAKAN BOXPLOT
❌ Tidak menampilkan detail nilai individu.
❌ Sulit dipahami oleh orang yang belum terbiasa membaca boxplot.
❌ Tidak menunjukkan bentuk distribusi secara halus (tidak seperti histogram).
ggplot(data_media, aes(x = Platform, y = Avg_Likes, fill = Platform)) +
geom_boxplot() +
scale_fill_manual(
values = c(
"Instagram" = "purple", # ungu
"Youtube" = "red", # merah
"Tiktok" = "skyblue" # baby blue
)
) +
labs(
title = "Penyebaran Rata-rata Likes per Platform",
x = "Platform",
y = "Rata-rata Likes"
) +
theme_minimal()
Instagram (ungu)
Instagram terlihat memiliki penyebaran nilai likes yang cukup lebar, dengan satu nilai yang sangat tinggi (outlier) yaitu dari akun @thv. Ini menandakan bahwa meskipun sebagian besar akun Instagram memiliki rata-rata likes yang mirip, ada satu akun dengan interaksi luar biasa tinggi.
YouTube (merah)
YouTube memiliki median likes yang cukup tinggi namun lebih stabil, artinya rata-rata likes antar akun YouTube tidak terlalu jauh berbeda.
TikTok (baby blue)
TikTok memiliki penyebaran yang cukup variatif, menunjukkan bahwa ada beberapa akun dengan likes tinggi dan ada juga yang rendah, tetapi tidak se-ekstrem Instagram.
3.4 Pie Chart
PENGERTIAN PIE CHART
Pie chart atau diagram lingkaran adalah jenis grafik yang menampilkan proporsi atau persentase data dalam bentuk potongan lingkaran. Setiap potongan mewakili kategori data, dan ukuran potongan menunjukkan besarnya kontribusi tiap kategori terhadap total keseluruhan.
ATURAN PENGGUNAAN PIE CHART
✅ Gunakan data kategorikal (bukan angka berkelanjutan). Contoh: jenis platform media sosial, gender, preferensi produk.
Jumlah kategori sebaiknya tidak lebih dari 5–7 agar grafik tetap mudah dipahami.
Pastikan total data bernilai 100% (karena pie chart menggambarkan bagian dari keseluruhan).
Gunakan warna berbeda dan kontras untuk tiap potongan.
⚠️ Hindari menampilkan data dengan nilai yang terlalu kecil karena sulit dibaca di pie chart
KELEBIHAN PENGGUNAAN PIE CHART
✅ Mudah dipahami — menampilkan perbandingan antar bagian secara visual.
✅ Cocok untuk menunjukkan proporsi — misalnya, persentase pengguna tiap platform.
✅ Mudah dibuat di RStudio dengan fungsi sederhana.
KEKURANGAN PENGGUNAAN PIE CHART
❌ Kurang akurat untuk perbandingan detail — sulit membedakan potongan dengan ukuran mirip.
❌ Tidak cocok untuk banyak kategori — grafik jadi padat dan sulit dibaca.
❌ Tidak menunjukkan tren waktu — hanya menggambarkan satu momen data.
ggplot(data_media, aes(x = "", fill = Platform)) +
geom_bar(width = 1, color = "white") +
coord_polar("y") +
scale_fill_manual(values = c("Instagram" = "purple", "Youtube" = "red", "Tiktok" = "skyblue")) +
labs(title = "Proporsi Influencer Berdasarkan Platform") +
theme_void()
Pie chart ini memperlihatkan proporsi jumlah influencer dari masing-masing platform. Platform TikTok memiliki jumlah influencer terbanyak (4 orang). YouTube dan Instagram masing-masing memiliki 3 influencer.
3.5 Scatter plot
PENGEERTIAN SCATTER PLOT
Scatter plot (diagram sebar) adalah jenis grafik yang menampilkan hubungan antara dua variabel numerik (misalnya tinggi dan berat, likes dan engagement). Setiap titik pada grafik mewakili satu observasi/data, dengan:
Sumbu X (horizontal) mewakili satu variabel,
Sumbu Y (vertikal) mewakili variabel lainnya.
ATURAN PENGGUNAAN SCATTER PLOT
Gunakan dua variable numerik
Setiap titik mewakili satu pasang data (x,y)
Variable bebas di sumbu X dan variable terkaitu sumbu Y
⚠️ Hindari terlalu banyak titik (data besar) tanpa transparansi, bisa menumpuk dan sulit dibaca.
KELEBIHAN PENGGUNAAN SCATTER PLOT
✅ Menunjukkan pola hubungan (positif, negatif, atau tidak ada hubungan) dengan jelas.
✅ Dapat mendeteksi outlier atau data yang menyimpang dari pola umum.
✅ Sederhana, mudah dibuat, dan cepat memberikan gambaran awal hubungan antar variabel.
KEKURANGAN PENGGUNAAN SCATTER PLOT
❌ Tidak menunjukkan kekuatan hubungan secara pasti (perlu analisis korelasi lanjutan).
❌ Sulit dibaca jika jumlah titik terlalu banyak dan saling menumpuk.
❌ Tidak cocok untuk data kategorikal atau data dengan jumlah kecil.
ggplot(data_media, aes(x = Followers_Juta, y = Avg_Likes, color = Platform)) +
geom_point(size = 4) +
scale_color_manual(values = c("Instagram" = "purple", "Youtube" = "red", "Tiktok" = "skyblue")) +
labs(title = "Hubungan Followers dan Likes", x = "Followers (juta)", y = "Rata-rata Likes") +
theme_minimal()
Penjelasan Hasil:
Scatter plot ini menunjukkan hubungan antara jumlah followers dan rata-rata likes. Secara umum, semakin banyak followers, semakin besar jumlah likes yang diterima. Namun, ada beberapa pengecualian seperti user THV (followers sedang tapi likes sangat tinggi).
3.6 Line plot
PENGERTIAN LINE PLOT
Line plot atau diagram garis adalah jenis grafik yang digunakan untuk menampilkan perubahan data dari waktu ke waktu (tren) atau hubungan antara dua variabel numerik yang terhubung secara berurutan. Data ditampilkan dalam bentuk titik-titik yang dihubungkan dengan garis — sehingga pola atau arah perubahan bisa terlihat dengan jelas.
ATURAN PENGGUNAAN LINE PLOT
Gunakan data numerik yang berurutan — misalnya waktu, tanggal, bulan, atau urutan peristiwa.
Pastikan urutan sumbu X logis dan konsisten (misalnya Januari ke Desember, bukan acak).
Beri label dan judul yang jelas pada sumbu X dan Y.
Gunakan warna berbeda jika menampilkan lebih dari satu garis.
⚠️ Hindari terlalu banyak garis karena grafik bisa terlihat berantakan.
KELEBIHAN PENGGUNAAN LINE PLOT
✅ Menunjukkan tren/perubahan dari waktu ke waktu dengan jelas.
✅ Mudah membaca pola naik-turun (fluktuasi) suatu data.
✅ Sederhana dan mudah dibuat di RStudio.
KEKURANGAN PENGGUNAAN LINE PLOT
❌ Hanya cocok untuk data berurutan (time series) — tidak bisa untuk kategori acak.
❌ Sulit dibaca jika terlalu banyak garis atau titik data.
❌ Kurang efektif untuk menunjukkan proporsi atau perbandingan total.
library(ggplot2)
ggplot(data_media, aes(
x = reorder(User_ID, Timestamp),
y = Timestamp,
group = User_ID,
color = User_ID
)) +
geom_line(size = 1.2) +
geom_point(size = 3) +
geom_text(aes(label = Timestamp),
vjust = -0.8, size = 3.5, fontface = "bold") +
scale_color_manual(values = c(
"arianagrande" = "#FF4B5C", # merah muda terang
"sza" = "#FF6B6B", # merah pastel
"thv" = "#C92A2A", # merah tua elegan
"MrBeast" = "#007BFF", # biru cerah
"Windah Basudara" = "#4C9AFF", # biru langit
"Nessie Judge" = "#003366", # biru gelap
"Vilmei" = "#69C9D0", # biru tiktok khas
"Shasa Zhania" = "#3399CC", # biru medium
"Gracia Jessica Jane" = "#FF8C8C", # merah lembut
"Khaby Lame" = "#1E90FF" # biru klasik
)) +
labs(
title = "Timeline Tahun Pertama Aktivitas Influencer di Media Sosial",
x = "Influencer (Urut Berdasarkan Tahun Pertama Posting)",
y = "Tahun Pertama Posting"
) +
theme_minimal() +
theme(
axis.text.x = element_text(angle = 45, hjust = 1),
legend.title = element_blank(),
plot.title = element_text(face = "bold", size = 13)
)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
Penjelasan Hasil:
Line plot menunjukkan bahwa aktivitas influencer dimulai dari tahun 2010 hingga 2021. Influencer lama seperti SZA, Ariana Grande, dan MrBeast muncul lebih awal di YouTube dan Instagram, sedangkan Khaby Lame, Vilmei, dan lainnya mulai aktif di era TikTok (2019–2020). Secara keseluruhan, terlihat adanya pergeseran tren platform dan munculnya generasi baru influencer seiring waktu.
3.7 Density plot
PENGERTIAN DENSITY PLOT
Density plot atau diagram kepadatan adalah grafik yang menunjukkan distribusi data numerik secara halus menggunakan kurva kepadatan (density curve). Berbeda dari histogram yang menampilkan batang, density plot menggambarkan pola sebaran data dengan garis lengkung — sehingga kita bisa melihat di mana data paling banyak terkonsentrasi.
ATURAN PENGGUNAAN DENSITY PLOT
Gunakan data numerik kontinu (misalnya nilai, penghasilan, tinggi, likes, engagement).
Gunakan jumlah data yang cukup banyak agar kurva terlihat halus dan akurat.
Dapat dibandingkan antar kelompok (dengan warna berbeda) jika ingin melihat perbedaan distribusi.
Gunakan label sumbu dan judul yang jelas.
⚠️ Hindari penggunaan pada data kategorikal atau data yang sedikit (hasilnya tidak bermakna).
KELEBIHAN PENGGUNAAN DENSITY PLOT
✅ Lebih halus dari histogram — menampilkan pola distribusi tanpa batasan bin (batang).
✅ Memudahkan perbandingan antar kelompok data dengan menumpuk beberapa kurva.
✅ Cocok untuk analisis statistik seperti melihat sebaran nilai ER, likes, atau skor.
Kekurangan
❌ Sulit dipahami bagi pemula karena tidak langsung menunjukkan frekuensi absolut.
❌ Kurang cocok untuk data sedikit (kurva bisa tidak akurat).
❌ Bisa menyesatkan jika bandwidth (parameter penghalus) tidak diatur dengan tepat.
ggplot(data_media, aes(x = ER, fill = Platform)) +
geom_density(alpha = 0.6) +
scale_fill_manual(values = c("Instagram" = "purple", "Youtube" = "red", "Tiktok" = "skyblue")) +
xlim(0, 0.05) +
labs(
title = "Distribusi Engagement Rate (ER)",
x = "Engagement Rate",
y = "Kepadatan"
) +
theme_minimal()
## Warning: Removed 3 rows containing non-finite outside the scale range
## (`stat_density()`).
Penjelasan Hasil: Density plot ini memperlihatkan persebaran nilai Engagement Rate (ER) di setiap platform. Sebagian besar akun memiliki ER rendah (<0.01). Namun, ada beberapa akun di TikTok dan Instagram dengan ER sangat tinggi seperti Shasa Zhania dan THV.
3.8 Ridgeline plot
Pengertian
Ridgeline plot (kadang disebut juga joyplot) adalah jenis grafik yang menampilkan beberapa distribusi data (density plot) dari berbagai kelompok atau kategori secara bertumpuk dan sejajar.
Tujuannya adalah untuk membandingkan bentuk distribusi antar kelompok dengan cara yang visual dan menarik. Setiap “lapisan” (ridge) mewakili satu kategori, seperti platform, tahun, atau jenis pengguna.
Aturan Penggunaan
Gunakan data numerik kontinu (misalnya likes, engagement, durasi).
Data harus memiliki kategori pengelompok (faktor), seperti platform atau tahun.
Gunakan warna lembut atau transparan (alpha) agar lapisan tidak menutupi satu sama lain.
Urutkan kategori secara logis (misalnya dari tahun lama ke terbaru, atau dari platform populer ke kurang populer).
⚠️ Hindari terlalu banyak kategori karena bisa membuat grafik penuh dan sulit dibaca.
Kelebihan
✅ Kombinasi antara density plot dan kategori, jadi lebih informatif.
✅ Cocok untuk data media sosial, riset perilaku, atau tren waktu.
✅ Menunjukkan perbedaan bentuk distribusi (rata-rata, sebaran, kemiringan) dengan jelas.
Kekurangan
❌ Sulit dibaca jika terlalu banyak kategori (grafik jadi padat).
❌ Tidak cocok untuk data sedikit — kurva bisa tidak akurat.
❌ Membutuhkan paket tambahan (ggridges), tidak tersedia di fungsi dasar R.
library(ggridges)
ggplot(data_media, aes(x = ER, y = Platform, fill = Platform)) +
geom_density_ridges(alpha = 0.7) +
scale_fill_manual(values = c(
"Instagram" = "purple",
"Youtube" = "red",
"Tiktok" = "skyblue"
)) +
labs(
title = "Perbandingan Distribusi ER antar Platform",
x = "Engagement Rate",
y = "Platform"
) +
theme_minimal()
## Picking joint bandwidth of 0.0754
Penjelasan Hasil:
Ridgeline plot ini membandingkan bentuk distribusi ER (engagement Rate) antar platform. TikTok memiliki puncak distribusi yang lebih tinggi, menandakan lebih banyak akun dengan (Engagemeent Rate) tinggi. Instagram menunjukkan satu puncak ekstrem karena adanya akun THV dengan ER (Engagement Rate) sangat besar. YouTube memiliki distribusi yang datar, artinya tingkat engagement di sana lebih rendah dan stabil.
4 KESIMPULAN
Berdasarkan seluruh data yang telah kami dapatkan dan merubah data tersebut menjadi berbagai bentuk visualisasi data, kami memperoleh gambaran mengenai seperti likes, dan engagement rate dari tiga platform yang berbeda, yaitu Youtube, Instagram dan TikTok. Setiap hasil visualisasi dapat saling melengkapi penjelasan bagaimana platform tersebut mampu mempengaruhi popularitas, dan tingkat keterlibatan followers atau subscriber dari masing masing creator yang kerap kita tahu sebagai engagement rate.
Melalui Bar Chart dapat terlihat bahwa @Mr. Beast mampu menempati posisi teratas dalam jumlah pengikut sebanyak 445 juta lalu disusul oleh @Ariana grande dan @khaby lame. Hasil ini menunjukkan bahwa dominasi pengikut masih dipegang oleh creator platform seperti Youtube serta Instagram dengan audiens yang stabil, namun TikTok berpotensi berkembang pesat di sisi jumlah creator. Visualisasi histogram menampilkan hasil bahwa jumlah postingan menunjukkan bahwa pengguna TikTok dan Youtube memiliki frekuensi postingan lebih tinggi, yang diperkuat oleh boxplot bahwa like di TikTok terlihat lebih besar, yang berarti frekuensi postingan yang sering belum tentu berbanding lurus dengan ER yang diterima. Lalu pada Scatter Plot menunjukkan bahwa adanya hubungan antara jumlah pengikut dan jumlah like rata rata tidak sepenuhnya linier. Hal ini diperkuat dengan visualisasi boxplot yang memperlihatkan akun @THV sebagai outlier, yang menandakan pengaruh kuat dari followers dan konten terhadap ER. Selanjutnya masuk di Line plot menunjukkan bahwa @SZA, @arianagrande, dan @Mr.Beast adalah influencer yang mengawali karirnya di dunia medsos, meskipun begitu @Khabby Lame, dan @Vilmei menunjukkan perkembangan yang pesat di platform tiktok yang dipengaruhi oleh algoritma berbasis trend. Dan dua Visualisasi terakhir yaitu Density Plot, serta Ridgline Plot memperlihatkan bahwa Engagement rate di platform Tiktok lebih merata disbanding Youtube dan Instagram, dan di platform TikTok followers atau audience memiliki sifat aktif dan juga intens.
Secara Keseluruhan, delapan hasil visualisasi Chart ini menunjukkan adanya keterkaitan yang mencerminkan perubahan pada influencer. Platform lama seperti Youtube dan Instagram masih menjadi platform bagi creator dengan pengikut banyak dan loyal, sementara platform TikTok menjadi ruang bagi rata rata creator baru dengan kemampuan audience yang sangat aktif dan intens yang membuat ER juga naik dengan waktu singkat. Hal ini membuktikan bahwa pencapaian yang baik seorang Influencer tidak bergantung pada banyaknya jumlah followers namun juga dipengaruhi oleh intensitas komunikasi terharap followers yang akan menaikkan tingkat Engagement Ratenya.