Dalam era digital saat ini, data menjadi salah satu sumber informasi penting dalam pengambilan keputusan. Oleh karena itu, penyajian data yang baik melalui visualisasi sangat diperlukan agar informasi dapat dipahami dengan mudah oleh berbagai kalangan.
Visualisasi ini bertujuan untuk menyajikan analisis visualisasi data kategorik menggunakan dataset diamonds pada R. Visualisasi dilakukan dengan memanfaatkan paket ggplot2 untuk menampilkan distribusi kualitas potongan dan warna berlian.
Melalui penggunaan bar chart, grouped bar chart, dan proportion bar chart, diharapkan pembaca dapat memahami karakteristik data secara lebih jelas, sistematis, dan komunikatif, khususnya bagi audiens non-teknis.
Dataset diamonds merupakan data yang berisi informasi mengenai
karakteristik berlian dan harga jualnya. Data ini terdiri dari 53.940
baris data dan 10 variabel, di mana setiap baris mewakili satu buah
berlian. Dengan data ini, kita dapat mengetahui bagaimana karakteristik
fisik dan kualitas berlian memengaruhi harga jualnya. Dalam
visualisasiini digunakan variabel cutyaitu Kualitas
potongan berlian dan coloryaitu Warna berlian.
Untuk mengetahui jenis potongan berlian yang paling banyak dalam dataset.
Grafik ini menunjukkan jumlah berlian berdasarkan kualitas potongan. Terlihat bahwa kategori Ideal memiliki jumlah tertinggi, diikuti oleh Premium dan Very Good. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik. Sebaliknya, kategori Fair memiliki jumlah paling sedikit, sehingga menunjukkan bahwa berlian dengan kualitas potongan rendah relatif jarang ditemukan.
Untuk membandingkan distribusi warna berlian pada setiap kategori potongan.
Selanjutnya grafik kedua, pada grafik ini menunjukkan distribusi warna berlian pada setiap kategori kualitas potongan. Terlihat bahwa pada semua jenis cut, khususnya pada kategori Ideal dan Premium, jumlah berlian dengan warna G, E, dan F lebih dominan dibandingkan warna lainnya terutama pada warna G yang ditunjukkan dengan warna orange tua yang lebih menonjol dibanding yang lain. Hal ini mengindikasikan bahwa berlian dengan kualitas potongan tinggi cenderung memiliki variasi warna yang lebih banyak dan jumlah yang lebih besar. Sebaliknya, pada kategori Fair dan Good, jumlah berlian relatif lebih sedikit pada semua warna, sehingga menunjukkan bahwa potongan dengan kualitas rendah tidak terlalu banyak ditemukan dalam dataset.
Untuk mengetahui proporsi warna berlian pada masing-masing kategori cut.
Terakhir, grafik ketiga ini menunjukkan proporsi warna berlian pada setiap kategori kualitas potongan. Terlihat bahwa komposisi warna pada berbagai jenis cut relatif seimbang, dengan warna G, F, dan E terutama pada warna G yang ditunjukkan dengan warna orange yang lebih gelap menjadi bagian terbesar pada hampir semua kategori. Hal ini menunjukkan bahwa meskipun jumlah berlian berbeda pada setiap jenis potongan, distribusi warna cenderung serupa. Selain itu, warna I dan J memiliki proporsi paling kecil, sehingga menunjukkan bahwa berlian dengan kualitas warna rendah relatif lebih sedikit ditemukan pada semua kategori cut.
Dari hasil visualisasi yang telah dilakukan, dapat disimpulkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang tinggi, terutama pada kategori Ideal, Premium, dan Very Good. Sementara itu, kategori Fair memiliki jumlah yang paling sedikit.
Distribusi warna berlian pada setiap jenis potongan menunjukkan pola yang relatif konsisten, dengan warna G, F, dan E sebagai kategori yang paling dominan. Selain itu, komposisi warna pada setiap cut tidak menunjukkan perbedaan yang terlalu mencolok.
Melalui penggunaan visualisasi bar chart, grouped bar chart, dan proportion bar chart, data dapat disajikan secara lebih jelas dan mudah dipahami oleh audiens non-teknis. Visualisasi ini membantu untuk mengidentifikasi pola, perbandingan, serta komposisi data secara efektif.