VISUALISASI KONTINU BIVARIAT DENGAN DATASET DIAMONDS
26 Februari 2026
AI: Halo! Saya siap membantu. Tanyakan apa saja tentang data 😊
Dalam era pengambilan keputusan berbasis data, kemampuan untuk memahami pola dan hubungan antarvariabel menjadi fondasi penting dalam analisis statistik modern. Visualisasi data tidak lagi sekadar alat ilustratif, melainkan instrumen analitis yang mampu mengungkap struktur tersembunyi, kecenderungan, serta dinamika hubungan antarvariabel secara lebih intuitif dan komprehensif. Khususnya pada data bertipe kontinu, pendekatan visual yang tepat memungkinkan peneliti menangkap kekuatan, arah, serta karakteristik hubungan yang mungkin tidak langsung terlihat melalui statistik deskriptif semata.
Laporan ini menyajikan analisis visualisasi kontinu bivariat menggunakan dataset Diamonds, yang pertama kali dipopulerkan melalui paket ggplot2 karya Hadley Wickham dalam lingkungan pemrograman R. Dataset ini berisi puluhan ribu observasi berlian dengan berbagai atribut numerik seperti carat, depth, table, serta dimensi fisik (x, y, z), dan variabel harga (price). Karakteristik data yang kaya dan berskala kontinu menjadikan dataset ini sangat ideal untuk mengeksplorasi hubungan bivariat, khususnya antara ukuran fisik dan nilai ekonomis sebuah berlian.
Fokus utama analisis ini adalah mengkaji hubungan antara dua variabel kontinu secara simultan melalui pendekatan visual, seperti scatter plot, smoothing line, dan transformasi skala bila diperlukan. Pendekatan tersebut memungkinkan identifikasi pola linear maupun non-linear, deteksi outlier, serta pengamatan heteroskedastisitas yang berpotensi memengaruhi interpretasi model statistik lanjutan. Dengan demikian, visualisasi tidak hanya berfungsi sebagai alat eksplorasi awal, tetapi juga sebagai dasar argumentatif dalam pengambilan keputusan analitis.
Melalui laporan ini, diharapkan pembaca memperoleh pemahaman yang mendalam mengenai bagaimana visualisasi kontinu bivariat dapat dimanfaatkan untuk menginterpretasikan hubungan antarvariabel secara lebih elegan, sistematis, dan bermakna. Analisis yang disajikan tidak hanya menekankan aspek teknis, tetapi juga menempatkan visualisasi sebagai medium komunikasi ilmiah yang mampu menjembatani kompleksitas data dengan kejelasan interpretasi.
Dataset Diamonds adalah dataset yang berasal dari package R yang berisi data tentang ribuan berlian dengan total sekitar 53.940 data.
data("diamonds")
diamonds
## # A tibble: 53,940 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
## 7 0.24 Very Good I VVS1 62.3 57 336 3.95 3.98 2.47
## 8 0.26 Very Good H SI1 61.9 55 337 4.07 4.11 2.53
## 9 0.22 Fair E VS2 65.1 61 337 3.87 3.78 2.49
## 10 0.23 Very Good H VS1 59.4 61 338 4 4.05 2.39
## # ℹ 53,930 more rows
Disini dapat dilihat, bahwa terdapat banyak data yang dimiliki oleh dataset diamonds. Nah, pada kesempatan kali ini, saya akan melakukan analisis visualisasi bivariat dengan menggunakan dataset diamonds
ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
geom_boxplot(alpha = 0.7) +
theme_minimal(base_size = 14) +
labs(
title = "Distribusi Harga Berdasarkan Cut",
x = "Kualitas Cut",
y = "Harga"
) +
theme(legend.position = "none")
Berdasarkan grafik tersebut, semua kategori memiliki outlier tinggi. Artinya, pada setiap kualitas potongan terdapat berlian dengan harga yang sangat mahal.
Median harga pada kategori Premium terlihat lebih tinggi dibandingkan kategori lain. Ini menunjukkan bahwa berlian dengan potongan Premium umumnya memiliki harga lebih mahal.
Meskipun Ideal merupakan kualitas potongan terbaik, median harganya tidak paling tinggi. Ini menunjukkan bahwa harga berlian tidak hanya dipengaruhi oleh cut saja.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(alpha = 0.5, color = "#2a9d8f") +
geom_smooth(method = "lm", formula = y ~ x, se = TRUE) +
labs(
title = "Hubungan Carat Diamond Dengan Harga",
x = "Carat",
y = "Harga"
) +
theme_minimal()
Grafik scatter plot menunjukkan hubungan antara Carat pada sumbu X dan Harga pada sumbu Y. Titik-titik pada grafik merepresentasikan data penyewaan sepeda pada berbagai kondisi suhu, sedangkan garis biru menunjukkan garis tren (regresi).
Dari grafik terlihat adanya hubungan positif antara Carat dan Harga. Artinya, semakin tinggi carat, maka harga semaikin meningkat. Hal ini ditunjukkan oleh pola titik yang naik dari kiri ke kanan serta garis tren yang memiliki kemiringan positif.
Namun, penyebaran titik juga cukup lebar, terutama pada harga menengah hingga tinggi. Ini menunjukkan bahwa meskipun carat berpengaruh terhadap harga, tidak semua variasi harga dijelaskan oleh carat saja. Ada faktor lain seperti yang juga memengaruhi harga.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_hex(bins = 30) +
scale_fill_gradient(low = "lightgreen", high = "purple") +
labs(title = "Hexbin Plot Carat vs Price",
x = "Carat",
y = "Price",
fill = "Jumlah Data") +
theme_minimal()
Berdasarkan grafik hexbin, terlihat bahwa terdapat hubungan positif antara carat dan price. Artinya, semakin besar ukuran berlian (carat), maka harganya cenderung semakin mahal.
Warna yang lebih gelap menunjukkan jumlah data yang lebih banyak. Data paling banyak berada pada carat kecil (sekitar 0.3–1) dengan harga yang relatif lebih rendah. Sedangkan berlian dengan carat besar jumlahnya lebih sedikit dan harganya lebih tinggi.
Kesimpulannya, ukuran berlian berpengaruh terhadap harga, dan mayoritas data didominasi oleh berlian berukuran kecil hingga sedang.
Berdasarkan hasil visualisasi yang sudah dibuat, bisa disimpulkan kalau carat punya pengaruh yang cukup besar terhadap harga berlian. Dari scatter plot dan hexbin plot terlihat jelas pola naik dari kiri ke kanan, yang artinya semakin besar ukuran carat, maka harga berlian juga cenderung semakin mahal.
Tapi walaupun begitu, penyebaran titiknya cukup lebar. Ini menunjukkan kalau harga berlian tidak cuma dipengaruhi oleh carat saja, tapi juga ada faktor lain seperti cut dan karakteristik lainnya yang ikut berperan.
Dari box plot juga terlihat bahwa setiap kategori cut punya outlier dengan harga tinggi. Artinya, di semua kualitas potongan tetap ada berlian yang harganya sangat mahal. Menariknya, kualitas Ideal tidak selalu punya median harga paling tinggi. Ini menandakan bahwa kualitas potongan bukan satu-satunya penentu harga.
Secara keseluruhan, visualisasi yang dibuat membantu kita melihat pola hubungan antarvariabel dengan lebih jelas dan mudah dipahami. Jadi sebelum masuk ke analisis yang lebih lanjut, visualisasi seperti ini penting banget untuk memahami gambaran umum datanya terlebih dahulu.