Visualisasi data merupakan salah satu pendekatan penting dalam analisis data karena mampu menyampaikan informasi kompleks secara ringkas, sistematis, dan mudah dipahami oleh berbagai kalangan, termasuk audiens non-teknis. Melalui visualisasi, pola, kecenderungan, dan perbedaan antar kelompok data dapat diidentifikasi dengan lebih cepat dibandingkan melalui tabel angka semata. Dalam konteks pengambilan keputusan berbasis data, visualisasi berperan sebagai jembatan antara hasil analisis statistik dan pemahaman praktis. cK Pada laporan ini digunakan dataset diamonds dari paket ggplot2 untuk mengeksplorasi karakteristik kualitas berlian melalui variabel kategorik. Fokus utama analisis adalah menyajikan distribusi dan perbandingan antar kategori menggunakan grafik batang dalam berbagai bentuk, sehingga hasil analisis dapat dikomunikasikan secara informatif, komunikatif, dan bermakna bagi audiens umum.
Dataset diamonds terdiri dari 53.940 observasi berlian yang merepresentasikan karakteristik fisik, kualitas visual, dan nilai ekonomi setiap batu permata. Dataset ini mencakup variabel numerik utama seperti carat sebagai indikator ukuran dan massa berlian, depth dan table yang merefleksikan proporsi geometris potongan, serta price sebagai representasi nilai pasar. Selain itu, dimensi fisik berlian direkam melalui variabel x, y, dan z dalam satuan milimeter, yang memungkinkan analisis lanjutan terhadap hubungan antara ukuran geometris dan kualitas visual.
Dataset ini juga memuat variabel kategorik penting, yaitu cut, color, dan clarity, yang secara langsung merepresentasikan dimensi kualitas berlian yang umum digunakan dalam industri perhiasan. Ketiga variabel ini memungkinkan eksplorasi distribusi kualitas, perbandingan antar kelompok, serta identifikasi pola keterkaitan antara karakteristik fisik dan atribut kualitas. Dengan struktur data yang lengkap dan berimbang antara variabel numerik dan kategorik, dataset diamonds sangat sesuai untuk analisis eksploratif, pemodelan deskriptif, serta pengembangan visualisasi yang informatif untuk mendukung pengambilan keputusan berbasis data.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Dalam analisis ini, variabel kategorik yang digunakan adalah cut dan color, karena keduanya merupakan indikator utama kualitas berlian dan memiliki kategori yang jelas serta berurutan sehingga mudah divisualisasikan dan diinterpretasikan.
ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "steelblue") +
labs(
title = "Distribusi Kualitas Potongan Berlian",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian"
) +
theme_minimal()
Interpretasi:
Grafik ini menunjukkan distribusi jumlah berlian berdasarkan kualitas potongan. Terlihat bahwa kategori Ideal merupakan jenis potongan yang paling dominan dalam dataset, diikuti oleh Premium dan Very Good. Sebaliknya, kategori Fair memiliki jumlah paling sedikit. Pola ini mengindikasikan bahwa pasar berlian cenderung lebih banyak menyediakan berlian dengan kualitas potongan tinggi, karena potongan yang baik mampu meningkatkan kilau dan daya tarik visual berlian secara signifikan. Dari sudut pandang konsumen, temuan ini juga menunjukkan bahwa sebagian besar pembeli kemungkinan lebih memilih berlian dengan potongan optimal dibandingkan potongan dengan kualitas rendah, meskipun harga mungkin lebih tinggi.
4.2 Grouped Bar Chart (Cut berdasarkan Color)
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set1") +
labs(
title = "Distribusi Cut Berdasarkan Warna Berlian",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Warna Berlian"
) +
theme_minimal(base_size = 12)
Interpretasi:
Grafik ini menunjukkan bahwa pada seluruh kategori warna berlian, kualitas potongan Ideal memiliki jumlah paling tinggi dibandingkan kategori potongan lainnya, yang mengindikasikan bahwa berlian dengan potongan terbaik lebih dominan di pasar. Selain itu, warna E, F, dan G tampak paling sering muncul pada hampir semua kategori cut, terutama pada potongan Very Good, Premium, dan Ideal, sementara warna I dan J memiliki jumlah relatif lebih sedikit. Pola ini menunjukkan bahwa berlian dengan kualitas warna menengah hingga baik lebih banyak tersedia dalam berbagai tingkat kualitas potongan, sedangkan berlian dengan kualitas warna rendah cenderung lebih jarang ditemukan, khususnya pada potongan berkualitas tinggi.
4.3 Proportion Bar Chart (Proporsi Color dalam Setiap Cut)
ggplot(diamonds, aes(x = color, fill = cut)) +
geom_bar(position = "fill", width = 0.8, alpha = 0.9) +
scale_y_continuous(labels = scales::percent_format()) +
labs(
title = "Komposisi Kualitas Potongan pada Setiap Warna Berlian",
x = "Tingkat Warna Berlian",
y = "Persentase",
fill = "Kualitas Potongan"
) +
theme_light(base_size = 12)
Interpretasi:
Grafik ini menunjukkan bahwa pada seluruh tingkat warna berlian, potongan Ideal memiliki proporsi terbesar dibandingkan kategori potongan lainnya, yang menandakan bahwa berlian dengan kualitas potongan terbaik mendominasi di setiap kelompok warna. Potongan Premium dan Very Good juga memiliki kontribusi yang cukup besar, sementara potongan Good dan terutama Fair memiliki proporsi paling kecil. Pola distribusi yang relatif seragam antar warna dari D hingga J menunjukkan bahwa komposisi kualitas potongan berlian cenderung konsisten, sehingga perbedaan warna tidak banyak memengaruhi distribusi kualitas potongan yang tersedia di pasar.
Berdasarkan ketiga visualisasi yang disajikan, terlihat konsistensi pola distribusi kualitas berlian dalam dataset diamonds. Grafik batang pertama menunjukkan bahwa kategori Ideal mendominasi jumlah berlian secara keseluruhan, diikuti oleh Premium dan Very Good, sedangkan Fair memiliki frekuensi paling rendah. Grafik kedua memperluas temuan ini dengan memperlihatkan bahwa dominasi potongan Ideal terjadi pada seluruh tingkat warna berlian, terutama pada warna E, F, dan G, yang merupakan kelompok warna paling umum dalam dataset. Sementara itu, grafik ketiga menegaskan bahwa secara proporsional, komposisi kualitas potongan relatif seragam di setiap kategori warna, dengan potongan Ideal tetap menjadi kontributor terbesar.
Perbandingan ketiga grafik tersebut menunjukkan bahwa baik dari sisi jumlah absolut maupun proporsi relatif, kualitas potongan merupakan karakteristik yang paling konsisten dan dominan dalam dataset, sementara variasi warna lebih berperan dalam membedakan volume distribusi daripada mengubah struktur komposisi kualitas potongan. Hal ini mengindikasikan bahwa pasar berlian cenderung menekankan kualitas potongan tinggi secara merata di berbagai tingkat warna.