Visualisasi data merupakan komponen penting dalam analisis data karena membantu menyajikan informasi secara lebih ringkas dan mudah dipahami. Melalui visualisasi, pola distribusi, kecenderungan, serta perbedaan antar kategori dapat terlihat dengan lebih jelas dibandingkan hanya menggunakan data numerik.
#Visualisasi 1 HISTOGRAM
ggplot(diamonds, aes(x = price)) +
geom_histogram(
binwidth = 2000,
fill = "purple",
color = "black"
) +
labs(
title = "Harga Berlian",
x = "USD",
y = "Jumlah Berlian",
caption = "Sumber: Dataset diamonds"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
Berdasarkan histogram, terlihat bahwa sebagian besar berlian berada pada kategori harga rendah hingga menengah. Jumlah berlian cenderung menurun seiring dengan meningkatnya harga. Kondisi ini menunjukkan bahwa pasar lebih banyak didominasi oleh berlian dengan harga yang relatif terjangkau. Pola distribusi data yang miring ke kanan mengindikasikan bahwa hanya sebagian kecil berlian yang memiliki harga sangat tinggi.
#Visualisasi 2 DENSITY PLOT
ggplot(diamonds, aes(x = carat)) +
geom_density(
fill = "red",
alpha = 0.6,
color = "white",
linewidth = 1
) +
labs(
title = "Berat Berlian (Carat)",
x = "Berat (Carat)",
y = "Kepadatan",
caption = "Sumber: Dataset diamonds") +
theme_minimal() + theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
Berdasarkan grafik density plot, terlihat bahwa kepadatan tertinggi
berada pada rentang berat berlian yang relatif kecil. Seiring
meningkatnya nilai carat, tingkat kepadatan semakin menurun secara
signifikan. Hal ini menunjukkan bahwa berlian dengan ukuran besar
jumlahnya jauh lebih sedikit dibandingkan berlian berukuran kecil. Pola
sebaran ini mengindikasikan distribusi yang condong ke kanan.
ggplot(diamonds, aes(y = price)) +
geom_boxplot(fill = "black") +
labs(
title = "Boxplot Harga Berlian",
y = " Harga (USD)",
caption = "Sumber: Dataset diamonds"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold")
)
Berdasarkan boxplot, terlihat bahwa nilai median harga berlian berada pada kisaran harga menengah. Sebagian besar data terkonsentrasi pada rentang harga bawah hingga menengah, sementara terdapat sejumlah pencilan (outlier) pada harga yang lebih tinggi.
#violin plot
ggplot(diamonds, aes(x = "", y = price)) +
geom_violin(fill = "purple", alpha = 0.6) +
labs(
title = "Violin Plot Harga Diamond",
x = "",
y = "Harga (USD)"
) +
theme_minimal()
Violin plot menunjukkan bahwa sebagian besar harga diamond terkonsentrasi pada rentang harga rendah hingga menengah, terlihat dari bagian violin yang paling lebar di bawah. Ketika harga meningkat, bentuk violin semakin menyempit, menandakan bahwa jumlah diamond dengan harga tinggi relatif sedikit. Distribusi ini tidak simetris dan condong ke kanan (right-skewed), yang berarti terdapat beberapa diamond berharga sangat mahal tetapi jumlahnya jauh lebih sedikit dibandingkan diamond dengan harga murah.