Visualisasi data merupakan salah satu cara penting untuk memahami pola dan karakteristik suatu dataset. Dengan bantuan grafik, informasi yang awalnya berupa angka dan kategori dapat ditampilkan secara lebih jelas dan mudah dipahami.
Nah di sini saya menggunakan dataset diamonds yang bisa diakses pada package ggplot2. Dataset diamonds berisi informasi mengenai karakteristik berlian, yang dimana akan saya visualisasikan melalui beberapa jenis grafik. Variabel yang digunakan dalam analisis ini adalah variabel kategorik seperti cut, color, dan clarity, karena variabel tersebut dapat menunjukkan perbedaan kualitas dan karakteristik berlian secara lebih spesifik.
Melalui visualisasi ini, saya ingin melihat bagaimana distribusi masing-masing kategori serta bagaimana perbandingan antar variabel tersebut. Dengan menggunakan bar chart, grouped bar chart, stacked bar chart, dan proportion bar chart, diharapkan hasil yang diperoleh dapat memberikan gambaran yang lebih jelas mengenai komposisi dan sebaran data pada dataset diamonds.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "steelblue") +
labs(
title = "Jumlah Berlian Berdasarkan Kualitas Potongan",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian"
)
Berdasarkan grafik jumlah berlian berdasarkan kualitas potongan (cut), terlihat bahwa kategori Ideal memiliki frekuensi tertinggi, diikuti oleh kategori Premium dan Very Good. Sementara itu, kategori Fair memiliki jumlah paling sedikit. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik. Distribusi ini tidak merata karena terdapat perbedaan jumlah yang cukup signifikan antar kategori potongan.
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "dodge") +
labs(
title = "Jumlah Berlian Berdasarkan Cut dan Color",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Color"
)
Berdasarkan grafik, terlihat bahwa jumlah berlian berbeda-beda untuk setiap kombinasi kualitas potongan dan warna. Beberapa warna seperti G, H, dan I terlihat lebih banyak muncul di hampir semua jenis potongan.
Selain itu, potongan Ideal dan Premium juga memiliki jumlah yang lebih banyak dibandingkan kategori lainnya. Jadi bisa dilihat bahwa jumlah berlian tidak hanya tergantung pada satu faktor saja, tetapi juga dipengaruhi oleh kombinasi antara potongan dan warna.Secara umum, grafik ini menunjukkan bahwa ada perbedaan jumlah berlian jika dilihat dari dua variabel sekaligus, yaitu cut dan color.
ggplot(diamonds, aes(x = cut, fill = clarity)) +
geom_bar(position = "stack") +
labs(
title = "Komposisi Clarity pada Setiap Kategori Cut",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Clarity"
)
Dari grafik ini bisa dilihat bahwa setiap jenis potongan punya tingkat kejernihan yang berbeda-beda. Tapi kalau diperhatikan, kategori seperti SI1 dan VS2 terlihat lebih sering muncul dibanding yang lain di hampir semua jenis potongan.
Selain itu, potongan Ideal dan Premium jumlahnya memang lebih banyak, jadi batangnya kelihatan lebih tinggi. Secara umum, kejernihan berlian ada di semua jenis potongan, hanya saja ada beberapa kategori yang lebih dominan.
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "fill") +
labs(
title = "Proporsi Warna pada Setiap Kategori Cut",
x = "Kualitas Potongan (Cut)",
y = "Proporsi",
fill = "Color"
)
Dari grafik ini terlihat bahwa setiap jenis potongan memiliki komposisi warna yang berbeda-beda jika dilihat dalam bentuk proporsi. Karena grafik ini menunjukkan persentase, tinggi setiap batang sama, jadi yang terlihat adalah perbandingan warna di dalam masing-masing kategori potongan.
Secara umum, beberapa warna seperti G, H, dan I terlihat cukup sering muncul di hampir semua jenis potongan. Walaupun ada sedikit perbedaan, komposisi warnanya tidak terlalu jauh berbeda antar kategori cut.
Berdasarkan visualisasi yang telah dibuat, dapat dilihat bahwa distribusi berlian dalam dataset diamonds tidak merata pada setiap kategori. Beberapa kategori seperti cut Ideal dan Very Good memiliki jumlah yang lebih banyak dibandingkan kategori lainnya. Hal ini menunjukkan bahwa kualitas potongan tertentu lebih dominan dalam dataset.
Selain itu, dari grafik grouped dan proportion bar chart terlihat bahwa warna dan kejernihan berlian tersebar di setiap kategori cut dengan komposisi yang relatif mirip, meskipun tetap ada beberapa kategori yang lebih mendominasi. Secara keseluruhan, visualisasi ini membantu memahami pola distribusi dan komposisi data secara lebih jelas dibandingkan hanya melihat tabel angka saja.