Visualisasi data merupakan proses penyajian data dalam bentuk grafis untuk mempermudah pemahaman informasi. Melalui visualisasi data, pola, perbandingan dan distribusi data dapat diamati dengan cepat dan jelas. Visualisasi data banyak digunakan untuk menganalisis data dan statistikan dalam pengambilan keputusan secara efektif. Pada analisis ini menggunakan dataset diamonds dari package ggplot2. Dataset tersebut digunakan untuk menganalisis cut, color, dan clarity menggunakan ggplot2 sehingga pada grafik hasil distribusi, perbandingan jumlah dan proporsi antar kategori dapat ditampilkan secara jelas untuk mempermudah memberikan pemahaman analisis
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
data("diamonds")
A1 <- ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "darkturquoise") +
labs(
title = "Jumlah Berlian Berdasarkan Kualitas Potongan ",
x = "Potongan Berlian",
y = "Jumlah Berlian"
) +
theme_minimal()
A1
Distribusi tersebut menunjukkan bahwa jumlah berlian dalam dataset
diamonds berbeda pada setiap kategori kualitas potongan (cut). Kualitas
potongan Ideal memiliki jumlah berlian paling banyak, diikuti dengan
Premium dan Very Good. Sebaliknya, jumlah berlian dengan kualitas
potongan Good dan Fair relatif lebih sedikit. Hal ini menunjukkan bahwa
sebagian besar berlian dalam dataset memiliki kualitas potongan yang
baik hingga sangat baik, sehingga distribusi data lebih banyak
terkonsentrasi pada kategori Ideal dan Premium.
A2 <- ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "dodge", width = 0.8) +
labs(
title = "Perbandingan Jumlah Berlian pada Setiap Kualitas Potongan",
x = "Kualitas Potongan",
y = "Jumlah Berlian",
fill = "Color"
) +
theme_minimal(base_size = 10) +
theme(
plot.title = element_text(face = "bold", size = 11, hjust = 0.5),
axis.title = element_text(face = "bold"),
legend.title = element_text(face = "bold")
)
A2
Distribusi tersebut menunjukkan perbandingan jumlah berlian berdasarkan
kualitas potongan (cut) dan warna (color). Secara umum, pada setiap
kategori kualitas potongan, pada warna G dan F cenderung memiliki jumlah
berlian yang lebih tinggi dibandingkan warna lainnya. Selain itu,
kualitas potongan Ideal dan Premium menampilkan jumlah berlian paling
banyak hampir di semua kategori warna, sedangkan kualitas potongan Fair
memiliki jumlah berlian paling sedikit. Pola ini menunjukkan bahwa
berlian dengan kualitas potongan yang lebih tinggi lebih banyak
ditemukan dalam berbagai variasi warna, sementara berlian dengan
kualitas potongan rendah relatif jarang dalam dataset.
A3 <- ggplot(diamonds, aes(x = clarity, fill = color)) +
geom_bar(position = "fill") +
scale_fill_manual(values = c(
"#4E79A7","#F28E2B","#E15759","#76B7B2","#59A14F",
"#EDC948","#B07AA1"))+
scale_y_continuous(labels = scales::percent) +
labs(
title = "Proporsi Warna Berlian Berdasarkan Tingkat Kejernihan",
x = "Tingkat Kejernihan",
y = "Proporsi",
fill = "Color"
) +
theme_minimal()
A3
Distribusi proporsi tersebut menunjukkan bahwa relatif warna berlian
pada setiap tingkat kejernihan (clarity). Secara umum, warna G dan F
mendominasi proporsi berlian di hampir seluruh tingkat kejernihan,
terutama pada kategori kejernihan menengah hingga tinggi seperti VS1,
VVS2, dan IF. Sementara itu, warna dengan kualitas lebih rendah seperti
I dan J memiliki proporsi yang relatif kecil pada semua tingkat
kejernihan. Hal ini menunjukkan bahwa berlian dengan tingkat kejernihan
yang lebih tinggi cenderung didominasi oleh warna yang lebih baik,
sedangkan warna yang kurang baik semakin jarang ditemukan pada tingkat
kejernihan tinggi.
Dapat disimpulkan bahwa data berlian dalam dataset diamonds tidak tersebar secara merata pada setiap kategori, melainkan cenderung terkonsentrasi pada karakteristik dengan kualitas yang lebih baik. Sebagian besar berlian memiliki kualitas potongan tinggi, disertai dengan dominasi warna pada kategori menengah hingga baik, serta tingkat kejernihan yang relatif tinggi. Pola ini menunjukkan bahwa berlian dengan mutu yang lebih baik lebih banyak ditemukan dalam dataset, sehingga visualisasi yang digunakan berhasil menggambarkan karakteristik utama data secara jelas dan mudah dipahami.