VISUALISASI DATA PADA PASAR BERLIAN

DIMAS DWI SAPUTRA

2026-02-11

PENDAHULUAN

Visualisasi data adalah teknik untuk menyajikan data dalam bentuk grafis atau visual, sehingga memudahkan pemahaman dan analisis informasi. Dengan visualisasi, data yang kompleks dapat disajikan dengan cara yang lebih sederhana dan intuitif, memungkinkan pengambilan keputusan yang lebih baik

Perkembangan teknologi informasi mendorong kebutuhan akan penyajian data yang lebih efektif dan komunikatif. Visualisasi data merupakan salah satu teknik penting dalam analisis statistik karena mampu menyajikan informasi kompleks dalam bentuk grafik atau tampilan visual yang lebih mudah dipahami. Melalui visualisasi, pola, tren, serta hubungan antar variabel dapat diidentifikasi dengan lebih cepat sehingga membantu proses interpretasi dan pengambilan keputusan.

Dalam konteks analisis data, dataset diamonds yang tersedia pada perangkat lunak R menjadi salah satu contoh dataset yang sering digunakan untuk pembelajaran statistika dan eksplorasi data. Dataset ini memuat berbagai karakteristik berlian seperti carat, cut, color, clarity, depth, table, dan price. Variabel-variabel tersebut dapat dianalisis untuk melihat distribusi, proporsi, serta perbandingan antar kategori yang memengaruhi nilai jual berlian di pasar.

Visualisasi Data Diskrit

library(ggplot2)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "steelblue", color = "black") +
  labs(
    title = "Bar Chart Kualitas Cut Berlian",
    x = "Kualitas Cut",
    y = "Jumlah Berlian"
  ) +
  theme_minimal()

Berdasarkan diagram batang kualitas cut berlian, terlihat bahwa kategori Ideal memiliki jumlah berlian paling banyak dibandingkan kategori lainnya. Kategori Premium dan Very Good juga menunjukkan jumlah yang cukup besar, sedangkan kategori Good memiliki jumlah yang lebih sedikit. Sementara itu, kategori Fair merupakan yang paling sedikit jumlahnya. Hal ini menunjukkan bahwa dalam dataset tersebut, berlian dengan kualitas potongan yang lebih baik cenderung lebih banyak ditemukan dibandingkan dengan berlian dengan kualitas potongan yang lebih rendah.

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "fill", color = "black") +
  scale_fill_brewer(palette = "Blues") +
  scale_y_continuous(labels = scales::percent) +
  labs(
    title = "Proporsi Clarity pada Setiap Kategori Cut",
    x = "Kualitas Cut",
    y = "Proporsi",
    fill = "Clarity"
  ) +
  theme_minimal()

Diagram batang proporsi tersebut menunjukkan bahwa tingkat kejernihan berlian (clarity) bervariasi pada setiap kualitas potongan (cut). Pada semua kategori cut, proporsi terbesar umumnya berada pada tingkat kejernihan SI1 dan VS2. Kualitas potongan yang lebih tinggi seperti Ideal dan Very Good cenderung memiliki proporsi clarity yang lebih baik (VVS dan IF) dibandingkan Fair dan Good. Sementara itu, kategori Fair memiliki proporsi kejernihan rendah (seperti SI2 dan I1) yang relatif lebih besar.

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Blues") +
  labs(
    title = "Grouped Bar Chart Cut dan Clarity Berlian",
    x = "Kualitas Cut",
    y = "Jumlah Berlian",
    fill = "Clarity"
  ) +
  theme_minimal()

Grafik grouped bar chart tersebut menunjukkan jumlah berlian berdasarkan kombinasi kualitas potongan (cut) dan tingkat kejernihan (clarity). Terlihat bahwa kategori Ideal memiliki jumlah berlian paling banyak pada hampir semua tingkat kejernihan, terutama pada SI1 dan VS2. Kategori Premium dan Very Good juga memiliki jumlah yang cukup besar, sedangkan Fair memiliki jumlah paling sedikit di semua tingkat kejernihan.

Secara umum, distribusi kejernihan yang paling sering muncul pada setiap kualitas potongan adalah SI1, VS2, dan SI2, sementara kejernihan sangat tinggi seperti VVS1, VVS2, dan IF jumlahnya relatif lebih sedikit. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset berada pada kejernihan menengah dengan kualitas potongan yang baik hingga sangat baik.

Visualisasi Data Kontinu

ggplot(diamonds, aes(x = price)) +
  geom_histogram(fill = "skyblue", color = "white", bins = 30) +
  labs(
    title = "Harga Berlian",
    x = "Harga (USD)",
    y = "Frekuensi"
  ) +
  theme_minimal()

Berdasarkan histogram harga berlian tersebut, dapat dilihat bahwa distribusi harga cenderung miring ke kanan. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki harga pada kategori rendah hingga menengah, sementara hanya sedikit berlian yang memiliki harga sangat tinggi. Frekuensi paling banyak terkonsentrasi pada rentang harga di bawah sekitar 5.000 USD. Selain itu, terlihat adanya ekor panjang di sisi kanan grafik yang menandakan keberadaan beberapa berlian dengan harga yang jauh lebih mahal dibandingkan mayoritas data. Secara umum, dapat disimpulkan bahwa harga berlian dalam dataset ini tidak berdistribusi normal dan lebih banyak didominasi oleh berlian dengan harga relatif terjangkau.

ggplot(diamonds, aes(x = x, y = price)) +
  geom_point(color = "#2E86C1", alpha = 0.5) +
  labs(
    title = "Scatter Plot Hubungan Panjang Berlian (x) dan Harga (Price)",
    x = "Panjang Berlian (mm)",
    y = "Harga (USD)"
  ) +
  theme_minimal()

Berdasarkan scatter plot tersebut, terlihat adanya hubungan positif antara panjang berlian dan harga berlian. Artinya, semakin besar ukuran panjang berlian dalam satuan milimeter, maka harga berlian cenderung meningkat. Titik-titik data membentuk pola naik dari kiri bawah ke kanan atas, yang menunjukkan bahwa ukuran fisik berlian berpengaruh terhadap nilai jualnya.

Selain itu, terlihat bahwa pada panjang berlian yang lebih besar, variasi harga juga semakin lebar. Hal ini menunjukkan bahwa untuk berlian berukuran besar, harga tidak hanya dipengaruhi oleh panjang saja, tetapi juga oleh faktor lain seperti carat, cut, color, dan clarity. Terdapat juga beberapa titik ekstrem (outlier), misalnya pada panjang mendekati nol atau harga yang sangat tinggi, yang kemungkinan merupakan data tidak umum atau kesalahan pengukuran.

ggplot(diamonds, aes(x = cut_width(x, 5), y = price, fill = cut_width(x, 5))) +
  geom_boxplot(color = "black") +
  scale_fill_brewer(palette = "Set3") +
  labs(
    title = "Distribusi Harga Berdasarkan Panjang Berlian (x)",
    x = "Kelompok Panjang Berlian (mm)",
    y = "Harga (USD)",
    fill = "Kelompok Panjang"
  ) +
  theme_minimal()

Berdasarkan boxplot tersebut, terlihat bahwa harga berlian berbeda cukup signifikan berdasarkan kelompok panjangnya. Pada kelompok panjang paling kecil (sekitar -2,5 sampai 2,5 mm), median harga berada pada kisaran menengah dengan variasi yang cukup besar. Kelompok panjang sedang (2,5–7,5 mm) memiliki median harga yang relatif lebih rendah, tetapi terdapat cukup banyak outlier dengan harga tinggi. Sementara itu, kelompok panjang terbesar (7,5–12,5 mm) menunjukkan median harga paling tinggi, yang menandakan bahwa semakin panjang berlian, harga cenderung semakin mahal.

Namun, perlu diperhatikan bahwa batas interval -2,5 sampai 2,5 mm bukan berarti ada panjang berlian yang negatif. Angka negatif tersebut muncul karena proses pengelompokan (binning) otomatis saat pembuatan interval di R, yang membuat batas kelas sedikit melewati nol agar pembagian data lebih seimbang. Secara nyata, panjang berlian tidak mungkin bernilai negatif.