Dataset yang digunakan dalam laporan analisis ini adalah dataset diamonds (berlian), yang berisi informasi mengenai atribut fisik dari puluhan ribu butir berlian. Laporan analisis ini berfokus pada tiga variabel kategorik, yaitu: kualitas potongan (cut), warna (color), dan tingkat kejernihan (clarity).
Tujuan dari analisis ini adalah untuk melihat bagaimana distribusi atau persebaran ketersediaan berlian berdasarkan kategori-kategori tersebut. Kita akan melihat secara langsung kategori mana yang paling sering muncul dan bagaimana komposisi kejernihan serta warna di setiap jenis potongan berlian. Melalui bantuan visualisasi, data yang tadinya berupa label-label tulisan akan diubah menjadi grafik agar kita bisa melihat dengan jelas kelompok mana yang paling dominan di dalam dataset ini.
Berikut adalah kategori yang digunakan/diukur dalam laporan ini:
Kualitas potongan atau Cut adalah tentang kualitas pengerjaannya, yakni seberapa baik pengrajin memotong batu berlian agar berlian tersebut memantulkan cahaya. Urutan kategori ini adalah: Fair (Biasa saja), Good, Very Good, Premium, Ideal (Paling berkilau/paling bagus).
Jika berbicara tentang berlian, maka berlian yang paling mahal justru yang tidak berwarna atau seperti air bening. Urutan kategori ini adalah: J (Warna kekuningan/kurang bagus), I, H, G, F, E, D (Warna sangat bening/paling bagus).
Clarity dalam konteks berlian adalah tentang kebersihan/kejernihan di dalam batu berliannya. Apakah ada bercak atau retakan kecil di dalamnya atau bersih, jernih tanpa ada noda sedikit pun. Urutan kategori ini adalah: I1 (Banyak bercak/terburuk), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (Sangat bersih/terbaik).
Visualisasi ini menggunakan Grouped Bar Chart untuk membandingkan jumlah frekuensi warna di setiap tingkat kualitas potongan.
Penjelasan: Sumbu X menunjukkan tingkatan kualitas potongan, sedangkan batang-batang yang berdampingan menunjukkan kategori warna dari J hingga D. Tinggi batang mewakili jumlah unit berlian yang tersedia.
Interpretasi: Bisa kita lihat langsung pada tumpukan batang di sumbu X, kategori Ideal memiliki barisan batang yang paling tinggi dan paling banyak jumlahnya dibanding kategori lainnya. Sebaliknya, kategori Fair adalah yang barisannya paling rendah. Di setiap kategori potongan, warna G (Pink Kemerahan) dan warna E (Oranye Muda) hampir selalu menjadi batang yang paling tinggi, yang artinya kedua warna tersebut paling sering muncul di setiap jenis potongan berlian.
Visualisasi ini menggunakan Stacked Bar Chart untuk menunjukkan total stok sekaligus pembagian tingkat kejernihan di dalamnya.
Penjelasan: Grafik ini menumpuk kategori kejernihan di dalam setiap batang warna. Tinggi total batang menunjukkan jumlah keseluruhan stok untuk warna tersebut.
Interpretasi: Jika kita lihat total tinggi batang, warna G adalah yang paling tinggi secara keseluruhan, artinya, warna G memiliki stok terbanyak. Lalu, di dalam setiap batang, bagian yang berwarna magenta (SI1) dan merah tua (VS2) memiliki area yang paling luas dibandingkan warna lainnya. Hal ini menunjukkan bahwa mayoritas berlian di pasar, apapun warnanya, paling banyak memiliki tingkat kejernihan di dua kategori tersebut.
Visualisasi ini menggunakan Proportional Bar Chart dengan skala 0 hingga 1 untuk membandingkan persentase distribusi secara adil.
Penjelasan: Sumbu Y menunjukkan proporsi dari 0 hingga 1 (mewakili 0% hingga 100%). Semua batang memiliki tinggi yang sama agar kita bisa fokus membandingkan persentase isi di dalamnya.
Interpretasi: Pada grafik ini, semua batang tingginya dibuat sama untuk melihat persentase. Dapat kita lihat warna ungu tua (kategori I1) yang ada di bagian paling atas setiap batang. Area ungu tua ini terlihat paling lebar pada kategori Fair dan kemudian menjadi sangat tipis pada kategori Ideal. Artinya, semakin buruk kualitas potongannya, semakin besar kemungkinan kita menemukan kotoran (I1) di dalamnya
Visualisasi ini menggunakan Lollipop Chart untuk mempertegas perbedaan jumlah unit di setiap kategori potongan.
Penjelasan: Sumbu X menunjukkan kategori potongan dan sumbu Y menunjukkan jumlah unitnya. Titik merah menunjukkan nilai frekuensi akhir untuk masing-masing kategori.
Interpretasi: Grafik ini menunjukkan perbedaan yang sangat mencolok antar kategori. Titik untuk kategori Ideal berada di posisi yang paling kanan, melebihi angka 20.000. Sementara itu, titik untuk kategori Fair berada di posisi paling kiri, yaitu di bawah angka 5.000. Ini secara langsung memperlihatkan bahwa jumlah berlian dengan potongan Ideal berkali lipat lebih banyak daripada yang potongan Fair.
Keseluruhan visualisasi menunjukkan bahwa ketersediaan berlian di pasar sangat didominasi oleh kualitas potongan ideal. Walaupun jumlah tiap berlian berbeda jauh, mayoritas berlian di setiap kelompok cenderung memiliki tingkat kejernihan menengah (SI1 dan VS2). Terdapat pula suatu pola di mana berlian dengan kualitas potongan rendah memiliki proporsi kotoran fisik yang lebih tinggi dibandingkan berlian berkualitas tinggi.