Visualisasi data merupakan tahap penting dalam proses analisis karena membantu menyajikan informasi kompleks menjadi bentuk yang lebih mudah dipahami secara visual. Dengan menggunakan visualisasi, pola, tren, hubungan, serta distribusi data dapat diidentifikasi dengan lebih cepat dibandingkan hanya melihat tabel angka. Oleh karena itu, visualisasi berperan besar dalam mendukung proses eksplorasi data serta pengambilan keputusan berbasis data.
Pada analisis ini digunakan dataset diamonds yang tersedia di RStudio, yang berisi informasi mengenai karakteristik berlian seperti berat (carat), harga (price), kedalaman (depth), ukuran meja (table), warna, kejernihan, dan kualitas potongan. Dataset ini sering digunakan sebagai contoh eksplorasi data karena memiliki banyak variabel numerik dan kategorik yang memungkinkan berbagai jenis visualisasi.
Untuk memahami pola dalam data secara lebih komprehensif, dibuat beberapa jenis grafik yaitu hexbin plot, 2D density plot, line plot, dan bubble plot. Masing-masing visualisasi dipilih karena memiliki fungsi analitis yang berbeda: hexbin dan density plot untuk melihat kepadatan distribusi data, line plot untuk menampilkan pola tren berdasarkan ringkasan data, serta bubble plot untuk memperlihatkan hubungan tiga variabel sekaligus. Melalui visualisasi-visualisasi ini, diharapkan dapat diperoleh gambaran yang lebih jelas mengenai karakteristik dan hubungan antar variabel pada dataset diamonds.
suppressPackageStartupMessages(library(dplyr))
library(ggplot2)
library(hexbin)
ggplot(diamonds, aes(x = carat, y = price)) +
geom_hex() +
labs(
title = "Hubungan Berat Berlian dan Harga",
x = "Carat",
y = "Price"
) +
theme_minimal()
##
Interpretasi Berdasarkan visualisasi tersebut, terlihat bahwa terdapat
hubungan positif antara berat berlian (carat) dan harga (price), di mana
semakin besar nilai carat maka harga berlian cenderung semakin tinggi.
Sebagian besar berlian berada pada kisaran 0,5 hingga 1,5 carat dengan
harga sekitar 1.000 hingga 10.000, yang ditunjukkan oleh area dengan
warna lebih terang karena jumlahnya lebih banyak. Untuk berlian dengan
carat di atas 3, jumlahnya lebih sedikit namun harganya jauh lebih
tinggi dan memiliki variasi yang lebih besar. Pola kenaikan harga juga
tidak sepenuhnya linear karena pada carat yang lebih besar harga
meningkat lebih tajam dan penyebarannya semakin lebar, sehingga dapat
disimpulkan bahwa berat berlian sangat memengaruhi harga, meskipun
kemungkinan ada faktor lain yang turut berperan.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_density_2d_filled() +
labs(
title = "2D Density Plot: Carat vs Price",
x = "Carat",
y = "Price"
) +
theme_minimal()
##
Interpretasi Plot kepadatan 2D Carat vs Price menunjukkan bahwa
mayoritas observasi terkonsentrasi pada berlian dengan ukuran karat
kecil (sekitar <1 karat) dan harga relatif rendah, yang ditandai oleh
area berwarna lebih terang dengan kepadatan tertinggi. Terlihat pola
hubungan positif antara carat dan price, di mana harga cenderung
meningkat seiring bertambahnya ukuran karat, meskipun kepadatannya
semakin menurun pada nilai karat dan harga yang lebih tinggi. Hal ini
mengindikasikan bahwa berlian berukuran besar dan berharga tinggi
relatif jarang dibandingkan berlian berukuran kecil, serta variasi harga
menjadi semakin lebar seiring meningkatnya carat.
avg_price <- diamonds %>%
group_by(cut) %>%
summarise(mean_price = mean(price))
ggplot(avg_price, aes(x = cut, y = mean_price, group = 1)) +
geom_line(color = "darkgreen") +
geom_point(size = 3, color = "darkgreen") +
labs(
title = "Rata-rata Harga Berdasarkan Kualitas Potongan",
x = "Cut",
y = "Mean Price"
) +
theme_minimal()
##
Interpretasi Berdasarkan grafik tersebut, terlihat bahwa rata-rata harga
berlian berbeda pada setiap kualitas potongan (cut). Berlian dengan
kualitas Premium memiliki rata-rata harga tertinggi,
diikuti oleh Fair, kemudian Very Good
dan Good yang memiliki nilai rata-rata yang tidak
terlalu jauh berbeda. Sementara itu, kualitas Ideal
justru memiliki rata-rata harga paling rendah dibandingkan kategori
lainnya. Hal ini menunjukkan bahwa harga berlian tidak selalu meningkat
seiring dengan kualitas potongan, sehingga kemungkinan terdapat faktor
lain seperti berat (carat), warna, atau kejernihan yang juga memengaruhi
rata-rata harga pada tiap kategori potongan.
ggplot(diamonds, aes(x = carat, y = price, size = depth)) +
geom_point(alpha = 0.5, color = "steelblue") +
labs(
title = "Bubble Plot: Hubungan Carat dan Price",
x = "Carat",
y = "Price",
size = "Depth"
) +
theme_minimal()
##
Interpretasi Berdasarkan bubble plot tersebut, terlihat adanya hubungan
positif antara carat dan price, di mana semakin besar berat berlian maka
harganya cenderung semakin tinggi. Titik-titik membentuk pola naik dari
kiri bawah ke kanan atas, menunjukkan bahwa carat merupakan faktor yang
sangat memengaruhi harga. Ukuran gelembung merepresentasikan nilai
depth, dan terlihat bahwa variasi depth tersebar di berbagai tingkat
carat dan harga tanpa pola yang terlalu mencolok. Hal ini menunjukkan
bahwa meskipun depth bervariasi, pengaruhnya terhadap harga tidak sekuat
pengaruh carat. Secara keseluruhan, grafik ini menegaskan bahwa berat
berlian memiliki hubungan yang lebih dominan terhadap harga dibandingkan
depth.
Berdasarkan hasil interpretasi dari hexbin plot, density plot, line plot, dan bubble plot, dapat disimpulkan bahwa terdapat hubungan positif yang kuat antara berat berlian (carat) dan harga (price), di mana peningkatan carat cenderung diikuti oleh kenaikan harga. Mayoritas berlian terkonsentrasi pada ukuran karat kecil hingga menengah dengan harga relatif rendah hingga sedang, sedangkan berlian berukuran besar jumlahnya jauh lebih sedikit namun memiliki harga yang jauh lebih tinggi dan variasi harga yang lebih lebar. Pola kenaikan harga tidak bersifat linear sempurna karena pada carat yang lebih besar, harga meningkat lebih tajam dan penyebarannya semakin besar. Secara keseluruhan, carat merupakan faktor utama yang memengaruhi harga berlian, meskipun variasi yang muncul mengindikasikan adanya pengaruh faktor lain di luar berat berlian.