Frekuensi kategori cut diamond
ggplot(data = diamonds, aes(x = cut)) +
geom_bar(fill = "pink", color = "skyblue") +
labs(
title = "Frekuensi Kategori Cut Diamond",
x = "Cut",
y = "Jumlah"
) +
theme_minimal()
Grafik visualisasi 1 yang kita buat menunjukkan bahwa kategori Ideal memiliki jumlah berlian paling banyak dibanding kategori lainnya, sedangkan kategori Fair memiliki jumlah paling sedikit. Hal ini menandakan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang tinggi, sehingga distribusi data tidak merata dan lebih terkonsentrasi pada kualitas cut terbaik.
Membandingkan cut berdasarkan color
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Pastel2") +
labs(
title = "Distribusi Cut berdasarkan Color",
x = "Kategori Cut",
y = "Jumlah Diamond",
fill = "Color"
) +
theme_minimal()
Grafik memunjukkan bahwa pada setiap kategori cut memiliki variasi warna berlian. Namun umumnya, warna G, E, dan F muncul lebih sering dibanding warna lainnya. Selain itu, kategori cut Ideal tetap memiliki jumlah tertinggi pada hampir semua warna, menunjukkan bahwa cut yang lebih baik cenderung lebih dominan dalam dataset.
Menampilkan Proporsi Color pada tiap Cut
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "fill") +
scale_fill_brewer(palette = "Pastel1") +
labs(
title = "Proporsi Color pada tiap Cut",
x = "Cut",
y = "Proporsi",
fill = "Color"
) +
theme_minimal()
Grafik proporsi menunjukkan bahwa komposisi warna berlian pada tiap kategori cut relatif mirip yang berarti distribusi warna tidak terlalu dipengaruhi oleh kualitas potongan berlian atau baik cut rendah maupun tinggi memiliki pola proporsi warna yang hampir sama.
Dari 3 grafik dapat kita simpulkan bahwa kualitas potongan berlian lebih memengaruhi jumlah data dibandingkan variasi warna, karena distribusi warna terlihat relatif konsisten di semua kategori cut.