Laporan ini bertujuan untuk memahami karakteristik utama dari dataset diamonds, khususnya pada variabel kontinu yang meliputi harga (price) dan berat berlian (carat). Analisis dilakukan menggunakan pendekatan visualisasi data univariat, yaitu analisis terhadap satu variabel secara independen untuk mengidentifikasi pola distribusinya. Untuk memberikan gambaran yang komprehensif, digunakan tiga jenis visualisasi. Histogram digunakan untuk melihat bentuk distribusi dan konsentrasi data harga berlian pada rentang tertentu. Density plot digunakan untuk menggambarkan pola distribusi berat berlian (carat) secara lebih halus sehingga kecenderungan dan bentuk sebarannya dapat diamati dengan jelas. Sementara itu, boxplot digunakan untuk menyajikan ringkasan statistik penting dari harga berlian, seperti median, rentang kuartil, serta mendeteksi keberadaan nilai ekstrem atau pencilan (outlier). Melalui ketiga pendekatan ini, diharapkan diperoleh pemahaman yang lebih menyeluruh mengenai karakteristik distribusi variabel kontinu dalam dataset.
library(ggplot2)
library(dplyr)
Pada tahap ini dilakukan pemanggilan library ggplot2 dan dplyr untuk mendukung proses analisis. Paket ggplot2 digunakan untuk membuat visualisasi data seperti histogram, density plot, dan boxplot, sedangkan dplyr digunakan untuk membantu pengolahan dan manipulasi data jika diperlukan. Dataset diamonds yang tersedia dalam ggplot2 kemudian siap digunakan untuk analisis lebih lanjut.
Histogram membantu kita melihat frekuensi kemunculan data dalam interval tertentu. Grafik ini menjawab pertanyaan: “Di kisaran harga berapa sebagian besar berlian berada?”
#Membuat Histogram
ggplot(diamonds, aes(x = price)) +
geom_histogram(bins = 50, fill = "steelblue", color = "white", alpha = 0.8) +
labs(
title = "Distribusi Harga Berlian",
x = "Harga (USD)",
y = "Jumlah Berlian"
) +
theme_minimal()
Berdasarkan histogram distribusi harga (price) pada dataset diamonds yang terdiri dari 53.940 observasi, terlihat bahwa harga berlian berkisar antara sekitar 326 USD hingga 18.823 USD. Nilai rata-rata harga berada di kisaran 3.900 USD, sedangkan median sekitar 2.400 USD, yang menunjukkan bahwa sebagian besar berlian memiliki harga di bawah rata-rata. Frekuensi tertinggi terkonsentrasi pada rentang harga rendah (sekitar 500–2.000 USD), kemudian jumlahnya menurun secara bertahap seiring meningkatnya harga. Pola ini membentuk distribusi yang menceng ke kanan (right-skewed), ditandai dengan adanya sejumlah kecil berlian berharga sangat tinggi yang membentuk ekor panjang di sisi kanan grafik. Secara umum, hal ini menunjukkan bahwa pasar berlian didominasi oleh produk dengan harga relatif terjangkau, sementara berlian premium dengan harga sangat tinggi jumlahnya jauh lebih sedikit.
Density plot adalah versi halus dari histogram. Ia memperkirakan probabilitas kemunculan suatu nilai. Grafik ini membantu kita melihat pola distribusi dengan lebih mulus tanpa terpengaruh oleh jumlah bin.
# Density Plot untuk Distribusi Berat Berlian (Carat)
ggplot(diamonds, aes(x = carat)) +
geom_density(fill = "skyblue", # Warna isian biru muda
alpha = 0.6, # Transparansi
color = "navy", # Warna garis biru tua
adjust = 1.5) + # Kurva halus
labs(
title = "Density Plot Distribusi Berat Berlian",
subtitle = "Sebaran berat berlian dalam satuan carat",
x = "Berat Berlian (Carat)",
y = "Kepadatan"
) +
scale_x_continuous(breaks = seq(0, 5, 1)) + # Sumbu X: 0,1,2,3,4,5
scale_y_continuous(breaks = seq(0, 1.5, 0.5)) + # Sumbu Y: 0.0,0.5,1.0,1.5
coord_cartesian(xlim = c(0, 5), ylim = c(0, 1.5)) + # Batas sumbu sesuai gambar
theme_minimal() +
theme(
plot.title = element_text(size = 14, face = "bold"),
plot.subtitle = element_text(size = 10, color = "gray40"),
axis.title = element_text(size = 11),
axis.text = element_text(size = 9),
panel.grid.minor = element_blank() # Menghilangkan grid minor agar lebih bersih
)
Berdasarkan density plot distribusi berat berlian (carat) pada dataset yang terdiri dari 53.940 observasi, terlihat bahwa berat berlian berkisar antara sekitar 0,2 carat hingga 5 carat, dengan rata-rata sekitar 0,80 carat dan median sekitar 0,70 carat. Kurva menunjukkan puncak kepadatan tertinggi berada pada rentang berat kecil, terutama di bawah 1 carat, yang menandakan bahwa sebagian besar berlian dalam dataset memiliki ukuran relatif kecil. Seiring bertambahnya berat berlian, tingkat kepadatannya menurun secara signifikan, sehingga berlian dengan berat di atas 2 carat jumlahnya jauh lebih sedikit. Pola ini membentuk distribusi yang menceng ke kanan (right-skewed), yang berarti hanya sebagian kecil berlian berukuran besar dibandingkan dengan mayoritas berlian berukuran kecil. Secara umum, hasil ini menunjukkan bahwa pasar berlian lebih banyak didominasi oleh berlian berukuran kecil hingga menengah.
Boxplot (atau box-and-whisker plot) sangat berguna untuk meringkas data melalui kuartilnya. Ia menunjukkan median (nilai tengah), sebaran 50% data di tengah (IQR), dan secara eksplisit menunjukkan outlier (pencilan).
# Boxplot Vertikal untuk Distribusi Harga Berlian
ggplot(diamonds, aes(y = price)) +
geom_boxplot(
fill = "skyblue",
color = "darkred",
outlier.color = "navy",
outlier.shape = 16,
outlier.size = 1.5,
outlier.alpha = 0.4
) +
labs(
title = "Boxplot Distribusi Harga Berlian",
subtitle = "Ringkasan statistik harga berlian dalam USD",
x = "",
y = "Harga (USD)"
) +
scale_y_continuous(
breaks = seq(0, 20000, 2500),
labels = scales::dollar_format()
) +
theme_minimal() +
theme(
plot.title = element_text(size = 14, face = "bold"),
plot.subtitle = element_text(size = 10, color = "gray40"),
axis.title = element_text(size = 11),
axis.text = element_text(size = 9)
)
Berdasarkan boxplot distribusi harga berlian, terlihat bahwa median harga berada di sekitar 2.400 USD, yang berarti setengah dari total 53.940 berlian memiliki harga di bawah nilai tersebut. Rentang kuartil (Q1 hingga Q3) berada kurang lebih antara 1.000 USD hingga 5.300 USD, menunjukkan bahwa sebagian besar harga berlian terkonsentrasi pada kisaran tersebut. Whisker bagian atas memanjang cukup jauh dan terdapat banyak titik di atasnya yang merupakan outlier, dengan harga mendekati 19.000 USD. Hal ini menegaskan bahwa distribusi harga bersifat menceng ke kanan (right-skewed), di mana hanya sebagian kecil berlian yang memiliki harga sangat tinggi dibandingkan mayoritas berlian dengan harga lebih terjangkau. Secara umum, boxplot ini menunjukkan bahwa pasar berlian didominasi oleh harga menengah ke bawah, dengan sejumlah kecil produk premium berharga sangat tinggi.
Berdasarkan ketiga visualisasi, yaitu histogram harga, density plot berat (carat), dan boxplot harga berlian, dapat disimpulkan bahwa distribusi variabel kontinu dalam dataset diamonds cenderung tidak simetris dan menceng ke kanan (right-skewed). Sebagian besar berlian memiliki harga relatif rendah hingga menengah dengan median sekitar 2.400 USD dan rata-rata yang lebih tinggi akibat adanya sejumlah kecil berlian berharga sangat mahal hingga mendekati 19.000 USD. Dari sisi berat, mayoritas berlian memiliki ukuran di bawah 1 carat dengan rata-rata sekitar 0,80 carat, sementara berlian berukuran besar jumlahnya jauh lebih sedikit. Boxplot juga menunjukkan adanya banyak outlier pada harga tinggi, yang menandakan keberadaan segmen premium dalam pasar. Secara keseluruhan, pasar berlian dalam dataset ini didominasi oleh produk berukuran kecil hingga menengah dengan harga terjangkau, sedangkan berlian berukuran besar dan berharga tinggi hanya mewakili sebagian kecil dari keseluruhan populasi.