Visualisasi data adalah salah satu langkah penting dalam analisis data eksploratif. Melalui visualisasi data hubungan antar variabel dapat kita dipahami dengan lebih mudah, terutama oleh masyarakat umum.
Pada laporan kali ini saya menggunakan dataset diamonds
yang tersedia pada paket ggplot2. Fokus analisis adalah
hubungan antara dua variabel kontinu (bivariat) untuk
melihat pola dan kecenderungan yang muncul pada data berlian.
Dalam kehidupan sehari-hari kita sering mendengar bahwa berlian dinilai dari “berat” dan “harga”. Namun ternyata di balik adanya penilaian tersebut sebenarnya terdapat banyak aspek teknis yang tidak selalu terlihat oleh mata kita. Dataset diamonds yang digunakan dalam analisis ini berisi puluhan ribu data berlian dengan karakteristik yang sangat beragam. Setiap baris data merepresentasikan satu berlian dengan ukuran, proporsi, dan harga yang berbeda.
Melalui visualisasi data ini saya akan mencoba menyederhanakan informasi yang kompleks agar dapat dipahami oleh masyarakat umum. Grafik yang dihasilkan bukan sekadar hiasan visual, melainkan alat bantu untuk melihat pola, kecenderungan, dan hubungan antar karakteristik berlian. Dengan visualisasi data ini, kita akan dapat memahami bagaimana suatu faktor berkaitan dengan faktor lainnya tanpa harus membaca deretan angka yang rumit.
Visualisasi berikut berfokus pada hubungan antara dua variabel kontinu (bivariat). Visualisasi pertama yang akan kita lakukan bertujuan untuk menjawab pertanyaan yang paling sering muncul di dalam masyarakat: “Apakah berlian yang lebih berat pasti lebih mahal?”
Secara logika, berat berlian sering diasosiasikan dengan nilai yang lebih tinggi. Dengan adanya asumsi ini kita ingin membuktikannya menggunakan data nyata. Dengan menampilkan grafik hubungan antara berat berlian dan harga, kita dapat melihat apakah kenaikan berat selalu diikuti oleh kenaikan harga, atau justru terdapat variasi yang cukup besar di dalamnya.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(alpha = 0.4, color = "lightblue") +
labs(
title = "Hubungan Berat Berlian dan Harga",
x = "Berat Berlian (Carat)",
y = "Harga (USD)"
) +
theme_minimal()
Grafik pertama memperlihatkan hubungan antara berat berlian (carat) dan
harga. Terlihat pola korelasi positif yang kuat: semakin besar berat
berlian, semakin tinggi harganya. Kenaikan harga juga tampak semakin
tajam pada carat yang lebih besar, menunjukkan bahwa harga tidak
meningkat secara linear melainkan cenderung eksponensial. Variasi harga
juga semakin lebar pada berlian dengan carat besar, yang mengindikasikan
adanya pengaruh faktor lain seperti kualitas potongan, warna, dan
kejernihan.
Selanjutnya kita akan membuat visualisasi yang kedua dimana perhatian kita akan diarahkan pada kualitas potongan berlian dan hubungannya dengan harga. Kualitas potongan (cut) dibagi ke dalam beberapa kategori, mulai dari Fair hingga Ideal. Karena variabel ini bersifat kategorik dan harga bersifat numerik, maka digunakan boxplot untuk melihat bagaimana distribusi harga pada setiap kategori potongan.
Visualisasi ini membantu masyarakat awam memahami bahwa kategori kualitas tidak hanya menunjukkan perbedaan nama, tetapi juga berkaitan dengan variasi harga di pasar.
ggplot(diamonds, aes(x = cut, y = price)) +
geom_boxplot(fill = "steelblue", alpha = 0.7) +
labs(
title = "Distribusi Harga Berlian Berdasarkan Kualitas Potongan",
x = "Kualitas Potongan (Cut)",
y = "Harga (USD)"
) +
theme_minimal()
Grafik kedua menunjukkan distribusi harga berlian berdasarkan kualitas
potongan (cut). Terlihat bahwa semua kategori potongan baik itu Fair,
Good, Very Good, Premium, hingga Ideal memiliki rentang harga yang cukup
luas dengan banyak outlier pada harga tinggi. Median harga pada kategori
Premium dan Ideal cenderung lebih tinggi dibandingkan Fair dan Good,
namun perbedaannya tidak terlalu drastis karena distribusi antar
kategori saling tumpang tindih. Hal ini menunjukkan bahwa kualitas
potongan memang berpengaruh terhadap harga, tetapi bukan satu-satunya
faktor utama yang menentukan nilai berlian.
Pada visualisasi ini, analisis difokuskan pada hubungan antara kualitas potongan berlian dan warna berlian. Kualitas potongan menggambarkan seberapa baik berlian dipotong, sedangkan warna menunjukkan tingkat kejernihan warna berlian dari yang paling bening hingga yang lebih berwarna. Kedua karakteristik ini bersifat kategorik, artinya masing-masing berlian dikelompokkan ke dalam kategori tertentu, bukan diukur dengan angka yang bersifat kontinu.
Karena kedua variabel tersebut berupa kategori, tujuan utama visualisasi ini bukan untuk melihat nilai rata-rata atau hubungan naik-turun, melainkan untuk memahami pola distribusi dan komposisi berlian dalam setiap kombinasi kategori. Dengan menggunakan grafik batang bertumpuk, masyarakat awam dapat dengan mudah melihat kategori mana yang paling sering muncul serta bagaimana warna berlian tersebar pada setiap tingkat kualitas potongan.
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar() +
labs(
title = "Distribusi Berlian Berdasarkan Kualitas Potongan dan Warna",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Warna Berlian"
) +
theme_minimal()
Grafik ketiga menampilkan distribusi jumlah berlian berdasarkan kualitas
potongan dan warna. Kategori Ideal memiliki jumlah berlian terbanyak,
diikuti oleh Premium dan Very Good, sedangkan Fair memiliki jumlah
paling sedikit. Untuk setiap kategori potongan, warna dengan kualitas
menengah seperti G, H, dan I tampak lebih dominan dibanding warna
terbaik (D, E) maupun terendah (J). Hal ini menunjukkan bahwa pasar
lebih banyak menyediakan berlian dengan kombinasi kualitas potongan baik
dan warna menengah, kemungkinan karena keseimbangan antara kualitas dan
harga yang lebih terjangkau.]