Visualisasi data merupakan cara yang efektif untuk menyampaikan informasi secara ringkas, jelas dan mudah dipahami terutama oleh kalangan awan. Melalui visualisasi, penyebaran dan perbandingan data dapat diamati dengan lebih mudah dibandingkan penyajian dalam bentuk tabel. Selain untuk mempermudah pemahaman, visualisasi data juga mempercepat proses pengambilan keputusan berdasarkan informasi yang dihasilkan.
Studi kasus ini berfokus pada analisis data berlian untuk melihat hubungan antara warna berlian dan kualitas potongannya. Dengan memanfaatkan dataset dari R, dilakukan eksplorasi untuk mengetahui bagaimana distribusi kualitas potongan (cut) pada masing-masing kategori warna (color). Proses analisis dilakukan melalui beberapa bentuk visualisasi, yaitu bar chart untuk menampilkan jumlah setiap kategori kualitas potongan, grouped bar chart untuk membandingkan kombinasi warna dan kualitas potongan, serta proportion bar chart untuk melihat perbandingan proporsi kualitas potongan dalam setiap warna berlian.
Visualisasi ini bertujuan untuk mempermudah pembaca dalam memahami karakteristik berlian secara lebih cepat. Melalui grafik yang disajikan, pembaca bisa mengidentifikasi kategori potongan yang paling dominan serta melihat variasi komposisi kualitas potongan pada warna berlian secara lebih jelas dan mudah.
Dataset diamonds merupakan dataset bawaan dari package R yang berisi informasi karakteristik berlian. Variabel yang digunakan dalam analisis ini adalah:
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "pink", color = "black") +
labs(
title = "Frekuensi Berlian Berdasarkan Kualitas Potongan",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian"
) +
theme_bw()
Grafik tersebut menunjukkan bahwa jumlah berlian berbeda-beda berdasarkan kualitas potongannya. Berlian dengan kualitas potongan Ideal memiliki jumlah paling banyak, sehingga dapat dikatakan paling dominan dalam data. Selanjutnya disusul oleh potongan Premium dan Very Good yang juga jumlahnya cukup besar, namun masih lebih sedikit dibandingkan Ideal. Sementara itu, berlian dengan potongan Good jumlahnya relatif lebih sedikit. Adapun potongan Fair merupakan yang paling jarang ditemukan karena memiliki jumlah paling rendah. Secara umum, dapat disimpulkan bahwa semakin baik kualitas potongan berlian, semakin besar jumlah berlian yang terdapat dalam data tersebut.
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "dodge", color = "black") +
labs(
title = "Distribusi Kualitas Potongan Berlian Berdasarkan Warna",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Warna"
) +
scale_fill_brewer(palette = "Set2") +
theme_bw()
Grafik menunjukkan bahwa kualitas potongan Ideal memiliki jumlah berlian paling banyak pada hampir semua kategori warna. Sebaliknya, kualitas potongan Fair memiliki jumlah paling sedikit. Secara umum, semakin baik kualitas potongan (dari Fair ke Ideal), jumlah berlian cenderung semakin meningkat. Selain itu, pada setiap tingkat potongan, warna tertentu memiliki jumlah yang lebih dominan dibanding warna lainnya, namun pola utamanya tetap menunjukkan bahwa potongan Ideal dan Premium lebih banyak dibanding kategori lainnya.
ggplot(diamonds, aes(x = color, fill = cut)) +
geom_bar(position = "fill", color = "black") +
labs(
title = "Proporsi Kualitas Potongan pada Setiap Warna Berlian",
x = "Warna Berlian (Color)",
y = "Proporsi",
fill = "Kualitas Potongan"
) +
scale_fill_brewer(palette = "Set2") +
theme_bw()
Grafik tersebut memperlihatkan proporsi kualitas potongan berlian pada setiap kategori warna (D sampai J). Terlihat pada semua warna, kualitas Ideal memiliki proporsi paling besar dibandingkan kualitas lainnya. Hal ini menunjukkan bahwa sebagian besar berlia memiliki potongan dengan kualitas terbaik. Kategori Premium dan Very Good juga memiliki proporsi yang cukup besar dan cenderung stabil di setiap warna. Artinya, selain kualitas Ideal, dua kategori ini juga cukup dominan dalam data. Sementara itu, kualitas Good memiliki proporsi yang lebih kecil, dan Fair menjadi yang paling sedikit di hampir semua warna. Secara keseluruhan, pola distribusi kualitas potongan relatif mirip pada setiap warna berlian, tanpa perbedaan yang terlalu mencolok antar warna.
Dari seluruh visualisasi, terlihat bahwa kualitas potongan Ideal dan Premium mendominasi jumlah berlian pada hampir semua kategori warna. Sementara itu, potongan Fair memiliki jumlah paling sedikit di setiap warna. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik. Jika dilihat dari perbandingan antar warna, setiap warna berlian memiliki pola distribusi yang relatif mirip, di mana potongan Ideal cenderung menjadi yang paling banyak. Tetapi, jumlah total berlian berbeda-beda pada tiap warna, sehingga grafik jumlah (grouped bar chart) membantu melihat perbedaan kuantitas secara langsung.
Melalui bar chart, kita dapat melihat total distribusi kualitas potongan secara umum. Grouped bar chart memperlihatkan perbandingan jumlah potongan pada masing-masing warna berlian. Sedangkan proportion bar chart menunjukkan komposisi atau persentase kualitas potongan di setiap warna, sehingga memudahkan pembaca membandingkan struktur distribusi tanpa dipengaruhi oleh perbedaan jumlah total berlian pada tiap warna.