Pendahuluan

Dataset diamonds merupakan salah satu dataset bawaan dalam paket ggplot2 pada bahasa pemrograman R yang berisi informasi mengenai karakteristik berlian. Data diamonds mencakup ribuan observasi berlian dengan berbagai atribut seperti kualitas potongan (cut), warna (color), tingkat kejernihan (clarity), ukuran karat (carat), dan harga (price). Di sini, dataset diamonds tersebut akan digunakan untuk visualisasi data.

Menurut penilaian standar dari Gemological Institute of America (GIA), variabel color bukan warna seperti merah/biru/hijau, melainkan tingkat kejernihan warna (color grade) pada berlian putih. Tingkat kualitas (skala) warna berlian sebenarnya dari D sampai Z, tetapi dalam dataset hanya dari D hingga J. Di mana D menunjukkan kualitas warna terbaik (paling tinggi) dan jika berlian semakin mendekati D, maka semakin tidak berwarna. Sementara J termasuk kualitas warna yang menengah, tetapi semakin ke arah J, maka mulai ada sedikit warna kekuningan pada berlian. Tak hanya itu, masih menurut standar GIA, variabel clarity ini mengukur seberapa banyak dan seberapa besar cacat (inclusion) di dalam berlian atau noda di permukaan. Semakin sedikit cacat pada berlian, maka semakin tinggi clarity (tingkat kejernihan) berlian dan biasanya juga semakin mahal. Skala atau tingkat kejernihan berlian tertinggi dalam dataset dimulai dari I1 hingga IF. Di mana pada tingkat IF ialah tingkat tertinggi (tanpa cacat internal) dan terendah pada I1 (cacat dapat terlihat jelas).

Tujuan dari visualisasi data diamonds tersebut untuk menggambarkan pola distribusi dan hubungan antara karakteristik berlian, khususnya kualitas potongan, warna, dan tingkat kejernihan. Kemudian, melalui visualisasi juga kita diharapkan dapat memahami lebih mudah mengenai bagaimana karakteristik tersebut tersebar dalam dataset. Kemudian juga, membantu kita memahami penyebaran berat berlian, apakah lebih banyak yang kecil atau besar, dan membantu melihat keragaman harga berlian.

Visualisasi Data Diskrit & Kategorik

Hasil visualisasi tersebut terlihat bahwa jumlah berlian berdasarkan tingkat kejernihan (clarity) pada dataset diamonds. Berlian dengan kejernihan SI1 dan VS2 memiliki jumlah paling banyak, yang berarti sebagian besar berlian dalam dataset berada pada tingkat kejernihan menengah. Kemudian, berlian yang jumlahnya paling sedikit berada pada tingkat kejernihan IF dan I1. Hal ini menunjukkan bahwa berlian dengan tingkat kejernihan menengah lebih umum ditemui dibandingkan dengan berlian yang tingkat kejernihan tertinggi atau terendah.

Berdasarkan dataset, grafik ini menunjukkan warna yang terbanyak atau dominan di setiap kategori kualitas potongan berlian ialah warna E, F, G.Dari grafik tersebut, dapat kita lihat bahwa semakin baik kualitas potongan berlian, maka semakin banyak pula jumlah berlian yang ada dalam kategori tersebut. Terlihat jelas bahwa kategori Ideal memiliki jumlah paling banyak dan kategori Fair paling sedikit. Jika dilihat dari warnanya, warna G cenderung paling banyak muncul, terutama pada potongan Premium dan Ideal. Jadi secara sederhana, grafik ini menunjukkan bahwa berlian dengan potongan yang lebih bagus, jumlahnya memang lebih banyak dalam data, dan di antara warna E, F, dan G, warna G paling sering muncul, khususnya pada potongan berkualitas tinggi seperti Ideal.

Grafik ini menunjukkan perbandingan persentase warna berlian pada setiap tingkat kualitas potongan, dari Fair hingga Ideal. Kita dapat melihat komposisi warna di dalam masing-masing kategori potongan. Secara umum, komposisi warnanya cukup mirip di semua kategori, tidak ada perbedaan yang sangat drastis. Namun, terlihat bahwa warna G cenderung memiliki persentase paling besar, terutama pada potongan yang Premium dan Ideal. Sebaliknya, warna J memiliki persentase paling kecil di semua kategori, dan semakin kecil lagi persentasenya pada potongan Ideal. Artinya, pada potongan yang lebih baik, proporsi warna yang lebih rendah kualitasnya itu cenderung lebih sedikit. Secara keseluruhan, meskipun kualitas potongan berbeda, susunan warna berlian di tiap kategori tetap relatif seimbang. Dengan sedikit kecenderungan warna yang lebih baik sering muncul pada potongan berlian yang kualitasnya lebih baik juga.

Visualisasi Data Kontinu

Histogram ini menunjukkan sebaran berat berlian dalam satuan karat. Dari grafik terlihat bahwa sebagian besar berlian memiliki berat yang relatif kecil, terutama di bawah 1 karat. Di mana batang grafik yang paling tinggi berada di kisaran lebih dari 0 sampai 1 karat, yang berarti berat tersebut paling sering muncul dalam data. Sedangkan berlian dengan berat di atas 2 karat, terlihat sangat sedikit jumlahnya. Artinya, semakin besar berat berlian, jumlahnya semakin sedikit. Pola sebarannya juga menunjukkan bahwa data tidak simetris, lebih banyak berlian ringan dan hanya sedikit yang sangat berat. Maka dapat disimpulkan bahwa dalam data ini, berlian yang beratnya ringan jauh lebih umum dibandingkan dengan berlian yang beratnya besar.

Hasil grafik ini menunjukkan pola penyebaran berat berlian dalam bentuk kurva yang lebih halus dibandingkan histogram. Kita dapat melihat bahwa sebagian besar berlian memiliki berat yang kecil, terutama di bawah 1 karat. Puncak tertingginya berada di sekitar berat kurang dari 0,5 karat, yang berarti berat tersebut paling umum. Seiring bertambahnya berat berlian, jumlahnya semakin berkurang. Kurva menurun cukup tajam setelah melewati 1 karat dan hanya sedikit berlian yang memiliki berat di atas 2 karat. Hal ini juga menunjukkan bahwa sebaran tidak merata, yang artinya lebih banyak berlian yang ringan dibandingkan yang berat.

Berdasarkan boxplot ini, terlihat gambaran umum tentang sebaran dari harga berlian. Garis di dalam kotak menunjukkan harga tengahnya (median), yang berada di kisaran sekitar dua hingga tiga ribu. Artinya, setengah berlian yang ada dalam data memiliki harga di bawah nilai tersebut dan setengahnya lagi di atasnya. Kotak yang cukup tinggi menunjukkan bahwa perbedaan harga cukup besar. Di mana harga berlian tidak terkumpul di satu angka saja, tetapi tersebar cukup lebar. Selain itu juga, terlihat banyak titik di bagian atas kotak yang menandakan ada cukup banyak berlian yang harganya jauh lebih mahal dari rata-rata (nilai yang menyimpang). Intinya, sebagian besar berlian ini memiliki harga di kisaran yang menengah, tapi ada sejumlah berlian yang harganya jauh lebih mahal, sehingga membuat sebaran harga menjadi tidak merata.

Grafik ini menunjukkan bagaimana sebaran harga berlian berbeda pada setiap tingkat kualitas potongan (cut). Lebarnya bentuk di setiap bagian menunjukkan di rentang harga mana berlian paling banyak ditemukan. Kita dapat melihat bahwa pada semua kategori cut, harga berlian paling banyakitu berada di kisaran harga rendah hingga menengah. Sementara berlian dengan harga sangat tinggi, jumlahnya jauh lebih sedikit (terlihat dari bagian atas grafik yang makin menyempit). Meskipun kualitas potongan berbeda-beda, pola sebaran harganya cukup mirip dan saling tumpang tindih. Artinya, berlian dengan kualitas potongan yang lebih baik seperti Premium atau Ideal tidak selalu memiliki harga yang jauh lebih tinggi dibanding kualitas potongan lainnya. Ini menunjukkan bahwa harga berlian kemungkinan tidak hanya dipengaruhi oleh kualitas potongan saja, tetapi juga faktor lain seperti ukuran atau karakteristik lainnya.

Kesimpulan

Berdasarkan seluruh visualisasi yang telah dibuat, dapat kita simpulkan bahwa sebagian besar berlian dalam dataset memiliki kualitas yang cukup baik. Kategori potongan yang paling banyak adalah Ideal dan Premium, yang menunjukkan bahwa mayoritas berlian memiliki potongan yang bagus. Dari segi warna, yang paling sering muncul adalah warna E, F, dan G. Lalu untuk tingkat kejernihan berlian, kategori yang paling dominan adalah SI1 dan VS2, yang termasuk dalam kualitas menengah hingga baik.

Dari distribusi berat berlian, terlihat bahwa kebanyakan berlian itu ringan (di bawah 1 karat), dan hanya sedikit yang berat atau berukuran besar. Harga berlian juga bervariasi cukup besar, dengan sebagian besar berada pada kisaran menengah, tetapi juga ada beberapa berlian dengan harga sangat tinggi sehingga sebaran harga tidak merata.

Jadi secara umum, data diamonds menunjukkan bahwa mayoritas berlian dalam dataset memiliki karakteristik kualitas menengah hingga tinggi, dengan ukuran yang relatif kecil atau ringan dan harga yang beragam. Berlian dengan kualitas sangat tinggi maupun sangat rendah memang ada, tetapi jumlahnya tidak sebanyak kategori menengah.