Visualisasi data dilakukan sebagai tahap eksplorasi untuk memahami pola dan hubungan antar variabel dalam dataset diamonds. Melalui visualisasi, hubungan antara karakteristik berlian dan harga dapat dilihat secara lebih mudah dan intuitif sebelum dilakukan analisis lebih lanjut.
Pada Visualisasi ini digunakan tiga jenis visualisasi bivariate,
yaitu scatter plot, jitter plot, dan boxplot. Scatter plot dipilih untuk
menganalisis hubungan antara dua variabel numerik, yaitu
carat dan price, karena mampu menunjukkan pola
hubungan dan kecenderungan data. Jitter plot digunakan untuk melihat
sebaran variabel numerik terhadap variabel kategorik, yaitu
cut terhadap price, serta mengatasi penumpukan
titik pada data yang besar. Sementara itu, boxplot digunakan untuk
membandingkan distribusi harga pada setiap kategori color,
karena dapat menampilkan median, sebaran, dan potensi pencilan secara
ringkas.
Melalui visualisasi ini, beberapa pertanyaan analitis yang dapat dijawab antara lain:
(carat) berhubungan dengan harga
(price)?
(cut)?
(color)?
Visualisasi ini membantu memberikan gambaran awal mengenai pola hubungan dan perbedaan antar variabel dalam dataset.
carat dan price:library(ggplot2)
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(
color = "#1565C0", alpha = 0.3
) +
labs(
title = "Hubungan Ukuran Berlian dan Harga",
x = "Carat",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Berdasarkan scatter plot antara carat dan
price, terlihat bahwa titik-titik membentuk pola yang naik
dari kiri bawah ke kanan atas. Pola ini menunjukkan bahwa semakin besar
ukuran berlian, harga cenderung semakin tinggi. Warna titik yang cukup
kontras dan transparansi yang digunakan juga memperlihatkan bahwa pada
ukuran yang sama masih terdapat banyak titik yang menyebar ke atas dan
ke bawah. Artinya, meskipun ukuran sangat berpengaruh terhadap harga,
masih ada faktor lain yang ikut memengaruhi.
Cut vs Price:library(ggplot2)
ggplot(diamonds, aes(x = cut, y = price)) +
geom_jitter(
color = "#2E7D32",alpha = 0.4,
width = 0.2
) +
labs(
title = "Sebaran Harga Berdasarkan Kualitas Cut",
x = "Cut",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Pada jitter plot antara cut dan price,
titik-titik pada setiap kategori terlihat tersebar secara vertikal
dengan warna yang sama dan posisi yang sedikit menyebar ke samping.
Bentuk sebaran ini membantu melihat bahwa kategori dengan kualitas cut
yang lebih baik cenderung memiliki lebih banyak titik pada harga yang
tinggi. Namun, karena sebaran antar kategori masih saling tumpang
tindih, terlihat bahwa perbedaan harga antar cut tidak terlalu kuat. Hal
ini menunjukkan bahwa pengaruh cut terhadap harga ada, tetapi tidak
sekuat pengaruh ukuran berlian.
Color vs Price:library(ggplot2)
ggplot(diamonds, aes(x = color, y = price)) +
geom_boxplot(fill = "#B0BEC5") +
labs(
title = "Perbandingan Harga Berdasarkan Warna Berlian",
x = "Color",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Selanjutnya, pada boxplot berdasarkan color, bentuk
kotak dan garis median menunjukkan adanya perbedaan nilai tengah harga
antar kategori. Beberapa kategori memiliki posisi kotak yang lebih
tinggi, yang menandakan harga cenderung lebih mahal. Selain itu, panjang
kotak dan banyaknya titik di luar kotak (outlier) menunjukkan bahwa
variasi harga dalam setiap kategori cukup besar. Pola ini kembali
memperlihatkan bahwa warna berpengaruh terhadap harga, tetapi variasinya
masih lebar dan saling beririsan.
Berdasarkan hasil visualisasi yang telah dibuat, dapat disimpulkan
bahwa harga berlian dipengaruhi oleh beberapa faktor. Faktor yang paling
terlihat pengaruhnya adalah ukuran berlian (carat). Semakin
besar ukuran berlian, harganya cenderung semakin mahal. Hubungan ini
terlihat paling jelas dibandingkan variabel lainnya.
Selain ukuran, kualitas potongan (cut) dan warna
(color) juga berpengaruh terhadap harga. Berlian dengan
kualitas yang lebih baik umumnya memiliki harga yang lebih tinggi.
Namun, perbedaan harganya tidak terlalu jauh karena masih banyak variasi
harga di dalam setiap kategori.
Secara keseluruhan, bisa disimpulkan bahwa ukuran berlian adalah
faktor utama yang menentukan harga, sedangkan cut dan
color menjadi faktor tambahan yang ikut memengaruhi.
Visualisasi ini membantu kita memahami pola hubungan antar variabel
dengan lebih jelas sebelum masuk ke analisis yang lebih mendalam.