Visualisasi data dilakukan sebagai tahap eksplorasi untuk memahami pola dan hubungan antar variabel dalam dataset diamonds. Melalui visualisasi, hubungan antara karakteristik berlian dan harga dapat dilihat secara lebih mudah dan intuitif sebelum dilakukan analisis lebih lanjut.

Pada Visualisasi ini digunakan tiga jenis visualisasi bivariate, yaitu scatter plot, jitter plot, dan boxplot. Scatter plot dipilih untuk menganalisis hubungan antara dua variabel numerik, yaitu carat dan price, karena mampu menunjukkan pola hubungan dan kecenderungan data. Jitter plot digunakan untuk melihat sebaran variabel numerik terhadap variabel kategorik, yaitu cut terhadap price, serta mengatasi penumpukan titik pada data yang besar. Sementara itu, boxplot digunakan untuk membandingkan distribusi harga pada setiap kategori color, karena dapat menampilkan median, sebaran, dan potensi pencilan secara ringkas.

Melalui visualisasi ini, beberapa pertanyaan analitis yang dapat dijawab antara lain:

  1. Apakah ukuran berlian (carat) berhubungan dengan harga (price)?
  2. Bagaimana sebaran harga pada setiap kategori kualitas potongan (cut)?
  3. Apakah terdapat perbedaan distribusi harga antar kategori warna berlian (color)?
  4. Kategori mana yang memiliki variasi harga paling besar?

Visualisasi ini membantu memberikan gambaran awal mengenai pola hubungan dan perbedaan antar variabel dalam dataset.

Scatter Plot

Berikut contoh kode untuk membuat visualisasi scatter plot antara carat dan price:

library(ggplot2)
ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(
    color = "#1565C0", alpha = 0.3
  ) +
  labs(
    title = "Hubungan Ukuran Berlian dan Harga",
    x = "Carat",
    y = "Price",
    caption = "Sumber: Dataset diamonds (ggplot2)"
  ) +
  theme_minimal()

Berdasarkan scatter plot antara carat dan price, terlihat bahwa titik-titik membentuk pola yang naik dari kiri bawah ke kanan atas. Pola ini menunjukkan bahwa semakin besar ukuran berlian, harga cenderung semakin tinggi. Warna titik yang cukup kontras dan transparansi yang digunakan juga memperlihatkan bahwa pada ukuran yang sama masih terdapat banyak titik yang menyebar ke atas dan ke bawah. Artinya, meskipun ukuran sangat berpengaruh terhadap harga, masih ada faktor lain yang ikut memengaruhi.

Jitter Plot

Berikut contoh kode untuk membuat visualisasi jitter plot antara Cut vs Price:

library(ggplot2)
ggplot(diamonds, aes(x = cut, y = price)) +
  geom_jitter(
    color = "#2E7D32",alpha = 0.4,
    width = 0.2
  ) +
  labs(
    title = "Sebaran Harga Berdasarkan Kualitas Cut",
    x = "Cut",
    y = "Price",
    caption = "Sumber: Dataset diamonds (ggplot2)"
  ) +
  theme_minimal()

Pada jitter plot antara cut dan price, titik-titik pada setiap kategori terlihat tersebar secara vertikal dengan warna yang sama dan posisi yang sedikit menyebar ke samping. Bentuk sebaran ini membantu melihat bahwa kategori dengan kualitas cut yang lebih baik cenderung memiliki lebih banyak titik pada harga yang tinggi. Namun, karena sebaran antar kategori masih saling tumpang tindih, terlihat bahwa perbedaan harga antar cut tidak terlalu kuat. Hal ini menunjukkan bahwa pengaruh cut terhadap harga ada, tetapi tidak sekuat pengaruh ukuran berlian.

Boxplot

Berikut contoh kode untuk membuat visualisasi boxplot antara Color vs Price:

library(ggplot2)
ggplot(diamonds, aes(x = color, y = price)) +
  geom_boxplot(fill = "#B0BEC5") +
  labs(
    title = "Perbandingan Harga Berdasarkan Warna Berlian",
    x = "Color",
    y = "Price",
    caption = "Sumber: Dataset diamonds (ggplot2)"
  ) +
  theme_minimal()

Selanjutnya, pada boxplot berdasarkan color, bentuk kotak dan garis median menunjukkan adanya perbedaan nilai tengah harga antar kategori. Beberapa kategori memiliki posisi kotak yang lebih tinggi, yang menandakan harga cenderung lebih mahal. Selain itu, panjang kotak dan banyaknya titik di luar kotak (outlier) menunjukkan bahwa variasi harga dalam setiap kategori cukup besar. Pola ini kembali memperlihatkan bahwa warna berpengaruh terhadap harga, tetapi variasinya masih lebar dan saling beririsan.

Kesimpulan

Berdasarkan hasil visualisasi yang telah dibuat, dapat disimpulkan bahwa harga berlian dipengaruhi oleh beberapa faktor. Faktor yang paling terlihat pengaruhnya adalah ukuran berlian (carat). Semakin besar ukuran berlian, harganya cenderung semakin mahal. Hubungan ini terlihat paling jelas dibandingkan variabel lainnya.

Selain ukuran, kualitas potongan (cut) dan warna (color) juga berpengaruh terhadap harga. Berlian dengan kualitas yang lebih baik umumnya memiliki harga yang lebih tinggi. Namun, perbedaan harganya tidak terlalu jauh karena masih banyak variasi harga di dalam setiap kategori.

Secara keseluruhan, bisa disimpulkan bahwa ukuran berlian adalah faktor utama yang menentukan harga, sedangkan cut dan color menjadi faktor tambahan yang ikut memengaruhi. Visualisasi ini membantu kita memahami pola hubungan antar variabel dengan lebih jelas sebelum masuk ke analisis yang lebih mendalam.