Visualisasi Kontinu Bivariat Dengan Dataset Diamonds

VISUALISASI KONTINU BIVARIAT DENGAN DATASET DIAMONDS

Muhammad Abdurrahman Rais

26 Februari 2026


🤖 Rassy AI

AI: Halo! Saya siap membantu. Tanyakan apa saja tentang data 😊


Pendahuluan

Dalam era pengambilan keputusan berbasis data, kemampuan untuk memahami pola dan hubungan antarvariabel menjadi fondasi penting dalam analisis statistik modern. Visualisasi data tidak lagi sekadar alat ilustratif, melainkan instrumen analitis yang mampu mengungkap struktur tersembunyi, kecenderungan, serta dinamika hubungan antarvariabel secara lebih intuitif dan komprehensif. Khususnya pada data bertipe kontinu, pendekatan visual yang tepat memungkinkan peneliti menangkap kekuatan, arah, serta karakteristik hubungan yang mungkin tidak langsung terlihat melalui statistik deskriptif semata.

Laporan ini menyajikan analisis visualisasi kontinu bivariat menggunakan dataset Diamonds, yang pertama kali dipopulerkan melalui paket ggplot2 karya Hadley Wickham dalam lingkungan pemrograman R. Dataset ini berisi puluhan ribu observasi berlian dengan berbagai atribut numerik seperti carat, depth, table, serta dimensi fisik (x, y, z), dan variabel harga (price). Karakteristik data yang kaya dan berskala kontinu menjadikan dataset ini sangat ideal untuk mengeksplorasi hubungan bivariat, khususnya antara ukuran fisik dan nilai ekonomis sebuah berlian.

Fokus utama analisis ini adalah mengkaji hubungan antara dua variabel kontinu secara simultan melalui pendekatan visual, seperti scatter plot, smoothing line, dan transformasi skala bila diperlukan. Pendekatan tersebut memungkinkan identifikasi pola linear maupun non-linear, deteksi outlier, serta pengamatan heteroskedastisitas yang berpotensi memengaruhi interpretasi model statistik lanjutan. Dengan demikian, visualisasi tidak hanya berfungsi sebagai alat eksplorasi awal, tetapi juga sebagai dasar argumentatif dalam pengambilan keputusan analitis.

Melalui laporan ini, diharapkan pembaca memperoleh pemahaman yang mendalam mengenai bagaimana visualisasi kontinu bivariat dapat dimanfaatkan untuk menginterpretasikan hubungan antarvariabel secara lebih elegan, sistematis, dan bermakna. Analisis yang disajikan tidak hanya menekankan aspek teknis, tetapi juga menempatkan visualisasi sebagai medium komunikasi ilmiah yang mampu menjembatani kompleksitas data dengan kejelasan interpretasi.


Dataset Diamonds

Dataset Diamonds adalah dataset yang berasal dari package R yang berisi data tentang ribuan berlian dengan total sekitar 53.940 data.

data("diamonds")
diamonds
## # A tibble: 53,940 × 10
##    carat cut       color clarity depth table price     x     y     z
##    <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
##  1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
##  2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
##  3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
##  4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
##  5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
##  6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
##  7  0.24 Very Good I     VVS1     62.3    57   336  3.95  3.98  2.47
##  8  0.26 Very Good H     SI1      61.9    55   337  4.07  4.11  2.53
##  9  0.22 Fair      E     VS2      65.1    61   337  3.87  3.78  2.49
## 10  0.23 Very Good H     VS1      59.4    61   338  4     4.05  2.39
## # ℹ 53,930 more rows

Disini dapat dilihat, bahwa terdapat banyak data yang dimiliki oleh dataset diamonds. Nah, pada kesempatan kali ini, saya akan melakukan analisis visualisasi bivariat dengan menggunakan dataset diamonds


Box Plot

ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
  geom_boxplot(alpha = 0.7) +
  theme_minimal(base_size = 14) +
  labs(
    title = "Distribusi Harga Berdasarkan Cut",
    x = "Kualitas Cut",
    y = "Harga"
  ) +
  theme(legend.position = "none")

Berdasarkan grafik tersebut, semua kategori memiliki outlier tinggi. Artinya, pada setiap kualitas potongan terdapat berlian dengan harga yang sangat mahal.

Median harga pada kategori Premium terlihat lebih tinggi dibandingkan kategori lain. Ini menunjukkan bahwa berlian dengan potongan Premium umumnya memiliki harga lebih mahal.

Meskipun Ideal merupakan kualitas potongan terbaik, median harganya tidak paling tinggi. Ini menunjukkan bahwa harga berlian tidak hanya dipengaruhi oleh cut saja.


Scatter Plot

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.5, color = "#2a9d8f") +
  geom_smooth(method = "lm", formula = y ~ x, se = TRUE) +
  labs(
    title = "Hubungan Carat Diamond Dengan Harga",
    x = "Carat",
    y = "Harga"
  ) +
  theme_minimal()

Grafik scatter plot menunjukkan hubungan antara Carat pada sumbu X dan Harga pada sumbu Y. Titik-titik pada grafik merepresentasikan data penyewaan sepeda pada berbagai kondisi suhu, sedangkan garis biru menunjukkan garis tren (regresi).

Dari grafik terlihat adanya hubungan positif antara Carat dan Harga. Artinya, semakin tinggi carat, maka harga semaikin meningkat. Hal ini ditunjukkan oleh pola titik yang naik dari kiri ke kanan serta garis tren yang memiliki kemiringan positif.

Namun, penyebaran titik juga cukup lebar, terutama pada harga menengah hingga tinggi. Ini menunjukkan bahwa meskipun carat berpengaruh terhadap harga, tidak semua variasi harga dijelaskan oleh carat saja. Ada faktor lain seperti yang juga memengaruhi harga.


Hexbin Plot

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_hex(bins = 30) +
  scale_fill_gradient(low = "lightgreen", high = "purple") +
  labs(title = "Hexbin Plot Carat vs Price",
       x = "Carat",
       y = "Price",
       fill = "Jumlah Data") +
  theme_minimal()

Berdasarkan grafik hexbin, terlihat bahwa terdapat hubungan positif antara carat dan price. Artinya, semakin besar ukuran berlian (carat), maka harganya cenderung semakin mahal.

Warna yang lebih gelap menunjukkan jumlah data yang lebih banyak. Data paling banyak berada pada carat kecil (sekitar 0.3–1) dengan harga yang relatif lebih rendah. Sedangkan berlian dengan carat besar jumlahnya lebih sedikit dan harganya lebih tinggi.

Kesimpulannya, ukuran berlian berpengaruh terhadap harga, dan mayoritas data didominasi oleh berlian berukuran kecil hingga sedang.

Kesimpulan

Berdasarkan hasil visualisasi yang sudah dibuat, bisa disimpulkan kalau carat punya pengaruh yang cukup besar terhadap harga berlian. Dari scatter plot dan hexbin plot terlihat jelas pola naik dari kiri ke kanan, yang artinya semakin besar ukuran carat, maka harga berlian juga cenderung semakin mahal.

Tapi walaupun begitu, penyebaran titiknya cukup lebar. Ini menunjukkan kalau harga berlian tidak cuma dipengaruhi oleh carat saja, tapi juga ada faktor lain seperti cut dan karakteristik lainnya yang ikut berperan.

Dari box plot juga terlihat bahwa setiap kategori cut punya outlier dengan harga tinggi. Artinya, di semua kualitas potongan tetap ada berlian yang harganya sangat mahal. Menariknya, kualitas Ideal tidak selalu punya median harga paling tinggi. Ini menandakan bahwa kualitas potongan bukan satu-satunya penentu harga.

Secara keseluruhan, visualisasi yang dibuat membantu kita melihat pola hubungan antarvariabel dengan lebih jelas dan mudah dipahami. Jadi sebelum masuk ke analisis yang lebih lanjut, visualisasi seperti ini penting banget untuk memahami gambaran umum datanya terlebih dahulu.