Pendahuluan

Dataset diamonds merupakan salah satu dataset yang sering digunakan untuk memperkenalkan analisis data karena memuat berbagai karakteristik berlian, baik dalam bentuk numerik maupun kategorik. Pada analisis ini, fokus diarahkan pada variabel kategorik dan diskrit, yaitu cut, color, dan clarity, yang merepresentasikan kualitas potongan, warna, dan kejernihan berlian.

Tujuan dari analisis ini adalah untuk menyajikan informasi secara visual agar mudah dipahami oleh audiens non-teknis, seperti calon pembeli, pelaku industri perhiasan, atau pengambil keputusan yang tidak memiliki latar belakang statistik. Oleh karena itu, visualisasi yang digunakan difokuskan pada bar chart dan variasinya, karena jenis grafik ini paling efektif untuk membandingkan jumlah, melihat komposisi, serta memahami proporsi antar kategori.

Melalui tiga visualisasi yang disajikan—bar chart frekuensi, stacked bar chart, dan proportion bar chart—analisis ini diharapkan dapat memberikan gambaran yang jelas mengenai pola distribusi dan hubungan antar variabel kategorik dalam dataset berlian.

Visualisasi 1

Bar Chart Frekuensi

Interpretasi

Dari Grafik ini dapat dilihat bahwa berlian dengan kualitas menengah, yaitu SI1 dan VS2 memiliki jumlah yang dominan paling banyak dibandingkan dengan berlian dengan kualitas yang lain, hal ini dapat dibuktikan dengan distribusi warna pada grafik yang menandakan bahwa semakin gelap warna maka jumlah berlian akan semakin banyak.

Visualisasi 2

Stacked Bar Chart

Interpretasi

Dari Grafik tersebut dapat dilihat bahwa kualitas potongan berlian mempengaruhi jumlah berlian, artinya semakin tinggi kualitas potongannya maka jumlah berlian akan semakin meningkat, kemudian warna berlian juga berpengaruh dalam jumlah berlian tersebut, dapat dilihat bahwa warna di level menengah yaitu E, F, G memiliki jumlah yang cenderung lebih banyak dibandingkan berlian warna lain.

Visualisasi 3

Proportion Bar Chart

Interpretasi

Dari grafik tersebut dapat dilihat bahwa Distribusi warna berlian pada tiap tiap kualitas potongan cenderung berbeda beda, warna F, G, H cenderung mendominasi distribusi proporsi tersebut, kemudian dapat dilihat bahwa warna berlian paling tinggi dan paling rendah secara bersama sama memiliki proporsi yang cenderung paling sedikit.

Kesimpulan

Berdasarkan hasil visualisasi, dapat disimpulkan bahwa berlian dengan kualitas potongan Ideal dan Premium merupakan yang paling banyak tersedia dalam dataset, sementara variasi warna tersebar relatif merata pada setiap kualitas potongan. Analisis komposisi dan proporsi menunjukkan bahwa tidak ada satu warna tertentu yang secara signifikan mendominasi kualitas potongan tertentu, sehingga perbedaan kualitas potongan tidak berkaitan langsung dengan perbedaan distribusi warna. Secara keseluruhan, penggunaan bar chart, stacked bar chart, dan proportion bar chart efektif dalam menyajikan informasi data kategorik secara jelas dan mudah dipahami oleh audiens non-teknis.