Visualisasi data merupakan salah satu cara penting untuk menyajikan informasi secara ringkas dan mudah dipahami, terutama bagi audiens awam. Visualisasi data ini bisa untuk tipe data diskrit dan data kategorik. Namun, apa itu data diskrit dan data kategorik? Data diskrit adalah data numerik yang merepresentasikan hasil penghitungan, di mana nilai-nilainya tidak kontinu, contoh: Jumlah mahasiswa prodi Statistika. Sedangkan, data kategorik adalah data yang merepresentasikan kategori atau kelas digunakan untuk membandingkan proporsi atau jumlah antar kategori, contoh: warna (merah, kuning, biru, dll) atau jenis kelamin (laki-laki dan perempuan).
Studi kasus yang akan dibahas kali ini berfokus pada analisis data berlian untuk memahami distribusi harga dan kualitas potongan berlian berdasarkan warna. Dengan menggunakan dataset diamonds, kita mengeksplorasi bagaimana harga berlian tersebar, dan bagaimana kualitas potongan (cut) tersebar di tiap warna berlian. Analisis dilakukan menggunakan berbagai jenis visualisasi, termasuk histogram untuk melihat sebaran harga, stacked bar chart untuk membandingkan jumlah berlian per kualitas potongan di setiap warna, dan proportion bar chart untuk memahami proporsi relatif tiap kualitas potongan.
Tujuan dari visualisasi data ini yaitu untuk membantu pembaca awam maupun profesional untuk menyimpulkan karakteristik berlian secara cepat dan tepat, memahami pola distribusi harga, dan membandingkan kualitas potongan antar warna berlian secara interaktif.
p1 <- ggplot(diamonds, aes(x = price)) +
geom_histogram(
binwidth = 1000,
boundary = 0,
fill = "steelblue",
color = "black"
) +
labs(
title = "Histogram Harga Berlian",
x = "Harga Berlian (USD)",
y = "Frekuensi"
) +
theme_minimal(base_size = 14)
ggplotly(p1)
Grafik ini menunjukkan sebaran harga berlian berdasarkan frekuensi kemunculannya. Sebagian besar berlian berada pada kisaran harga rendah, sementara jumlah berlian semakin berkurang seiring dengan meningkatnya harga.
Harga berlian yang sangat tinggi hanya muncul dalam jumlah sedikit, sehingga dapat disimpulkan bahwa berlian mahal tergolong jarang dibandingkan berlian dengan harga yang lebih terjangkau.
p2 <- ggplot(diamonds, aes(x = color, fill = cut)) +
geom_bar() +
scale_fill_brewer(palette = "Dark2") +
labs(
title = "Komposisi Kualitas Cut pada Setiap Warna Berlian",
x = "Warna Berlian",
y = "Jumlah Berlian",
fill = "Cut"
) +
theme_minimal(base_size = 14)
ggplotly(p2)
Grafik ini menunjukkan jumlah berlian pada setiap warna, sekaligus
memperlihatkan komposisi kualitas potongan (cut) di dalam
masing-masing warna tersebut. Terlihat bahwa warna G memiliki jumlah
berlian paling banyak, diikuti oleh warna E dan F. Sebaliknya, warna J
memiliki jumlah berlian paling sedikit dibandingkan warna lainnya.
Pada setiap warna berlian, kualitas potongan Ideal dan Premium merupakan yang paling dominan, sedangkan potongan Fair dan Good jumlahnya relatif sedikit. Pola ini menunjukkan bahwa berlian dengan kualitas potongan yang baik hingga sangat baik lebih banyak tersedia di pasaran, terlepas dari perbedaan warna berlian.
p3 <- ggplot(diamonds, aes(x = color, fill = cut)) +
geom_bar(position = "fill") +
scale_fill_brewer(palette = "Dark2") +
labs(
title = "Proporsi Kualitas Cut pada Setiap Warna Berlian",
x = "Warna Berlian",
y = "Proporsi",
fill = "Cut"
) +
theme_minimal()
ggplotly(p3)
Grafik ini menunjukkan perbandingan proporsi kualitas potongan berlian pada setiap warna berlian. Setiap batang mewakili satu warna berlian, dan warna-warna di dalam batang menunjukkan jenis kualitas potongannya. Secara umum, kualitas potongan Ideal dan Premium mendominasi hampir semua warna berlian. Artinya, sebagian besar berlian apa pun warnanya memiliki potongan yang baik hingga sangat baik.
Perbedaan warna berlian tidak terlalu memengaruhi komposisi kualitas potongannya. Meskipun ada sedikit variasi antar warna, pola proporsi kualitas potongan terlihat relatif serupa dari warna D hingga J. Kualitas potongan Fair dan Good hanya menyumbang bagian kecil pada setiap warna berlian, yang menunjukkan bahwa berlian dengan potongan kualitas rendah jumlahnya jauh lebih sedikit dibandingkan berlian dengan potongan kualitas tinggi.
Berdasarkan visualisasi yang telah dibuat, dapat disimpulkan bahwa harga berlian didominasi oleh nilai yang relatif rendah hingga menengah, sedangkan berlian dengan harga sangat tinggi hanya muncul dalam jumlah yang terbatas. Hal ini menunjukkan bahwa berlian dengan harga terjangkau lebih umum ditemukan dibandingkan berlian berharga mahal. Dari segi kualitas potongan, berlian dengan potongan baik hingga sangat baik mendominasi hampir semua warna, sedangkan potongan rendah jarang ditemui.
Setiap grafik memberikan informasi berbeda: 1. Histogram menunjukkan sebaran harga berlian sehingga kita bisa melihat berapa banyak berlian berada di kisaran harga tertentu. 2. Stacked Bar Chart menampilkan jumlah berlian untuk setiap jenis potongan pada tiap warna, sekaligus menunjukkan perbandingan jumlah antar potongan. 3. Proportion Bar Chart memperlihatkan proporsi atau persentase masing-masing kualitas potongan di setiap warna, sehingga mudah membandingkan komposisi relatif tanpa memperhatikan jumlah total.
Dengan versi interaktif, pembaca bisa langsung mengarahkan kursor untuk melihat angka pasti tiap kategori atau proporsi, sehingga informasi lebih jelas dan mudah dipahami oleh siapa saja. Secara keseluruhan, visualisasi ini membantu menyampaikan informasi mengenai distribusi harga dan karakteristik kualitas berlian secara sederhana dan mudah dipahami oleh pembaca umum.