Pendahuluan

Visualisasi data merupakan tahap awal dalam analisis data yang bertujuan untuk memahami karakteristik suatu variabel sebelum dilakukan analisis lebih lanjut. Melalui visualisasi, peneliti dapat melihat pola distribusi, penyebaran data, serta mendeteksi kemungkinan adanya nilai ekstrem (outlier).

Pada laporan ini digunakan dataset diamonds yang merupakan dataset bawaan dari package ggplot2. Dataset ini berisi informasi mengenai 53.940 berlian dengan beberapa variabel numerik kontinu, yaitu price (harga berlian), carat (berat berlian), depth (kedalaman), table (lebar permukaan atas berlian), serta x, y, dan z (ukuran fisik berlian dalam milimeter).Karena variabel-variabel tersebut berupa data numerik kontinu, maka metode visualisasi yang sesuai adalah histogram, density plot, boxplot, dan violin plot.

Analisis ini memfokuskan pada dua variabel, yaitu price (harga berlian) sebagai data numerik kontinu dan cut (kualitas potongan berlian) sebagai data kategorik. Hasil visualisasi diharapkan dapat memberikan gambaran awal mengenai pola distribusi harga berlian dan apakah kualitas potongan berlian berkaitan dengan tinggi rendahnya harga.

Histogram Harga Berlian

ggplot(diamonds, aes(x = price)) +
  geom_histogram(aes(y = ..density..),
                 binwidth = 500,
                 fill = "skyblue",
                 color = "black") +
  labs(title = "Histogram Harga Berlian",
       x = "Harga (USD)", y = "Density") +
  theme_minimal()

Histogram menunjukkan bahwa sebagian besar berlian memiliki harga pada kisaran rendah (sekitar di bawah ±5.000 USD). Semakin tinggi harga, jumlah berlian semakin sedikit. Grafik membentuk ekor panjang di sisi kanan, sehingga distribusi harga tidak simetris dan cenderung miring ke kanan. Ini menandakan hanya sedikit berlian yang sangat mahal dibandingkan mayoritas data.


Density Plot Harga Berlian

ggplot(diamonds, aes(x = price)) +
  geom_density(fill = "skyblue", alpha = 0.5) +
  labs(title = "Density Plot Harga Berlian",
       x = "Harga (USD)", y = "Density") +
  theme_minimal()

Density plot menunjukkan kepadatan data terbesar berada pada harga rendah. Semakin tinggi harga berlian, kepadatan semakin menurun. Kurva memiliki ekor panjang di sisi kanan, sehingga distribusi harga tidak normal dan hanya sedikit berlian yang berharga sangat tinggi.


Boxplot Harga Berdasarkan Cut

ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
  geom_boxplot() +
  labs(title = "Boxplot Harga Berdasarkan Cut",
       x = "Cut", y = "Harga (USD)") +
  theme_minimal() +
  theme(legend.position = "none")

Grafik boxplot ini membandingkan harga berlian (price) pada tiap kualitas potongan (cut). Terlihat bahwa harga berlian pada semua kategori sangat bervariasi. Secara umum, Premium dan Fair memiliki harga tengah (median) yang lebih tinggi, sedangkan Ideal cenderung memiliki harga tengah paling rendah.

Banyaknya titik di atas kotak menunjukkan ada beberapa berlian yang harganya sangat mahal pada setiap kategori.Artinya, kualitas potongan memang berpengaruh ke harga, tetapi tidak mutlak (bukan satu-satunya faktor). Karena, Berlian dengan cut (potongan) bagus belum tentu selalu paling mahal, karena harga juga dipengaruhi faktor lain (misalnya seperti ukuran/berat berlian).


Violin Plot

ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
  geom_violin(trim = FALSE, alpha = 0.5) +
  geom_boxplot(width = 0.1, fill = "white") +
  labs(title = "Violin Plot Harga Berdasarkan Cut",
       x = "Cut", y = "Harga (USD)") +
  theme_minimal() +
  theme(legend.position = "none")

Violin plot menunjukkan sebaran harga berlian pada tiap jenis cut. Bagian bawah yang lebar artinya kebanyakan berlian harganya tidak terlalu mahal, sedangkan bagian atas yang runcing artinya hanya sedikit berlian yang sangat mahal. Secara umum, Ideal cenderung lebih murah, sementara Premium dan Fair lebih sering memiliki harga lebih tinggi, tetapi semua jenis cut tetap punya harga yang beragam.


Kesimpulan

Secara keseluruhan, visualisasi menunjukkan bahwa harga berlian (price) tidak tersebar merata. Sebagian besar berlian memiliki harga rendah hingga menengah, sedangkan berlian dengan harga sangat mahal jumlahnya hanya sedikit. Hal ini terlihat dari histogram dan density plot yang condong ke kanan (right skewed).

Ketika dilihat berdasarkan jenis potongan (cut), setiap kategori cut memiliki pola yang mirip, yaitu mayoritas harga berada di kisaran rendah–menengah dan tetap terdapat beberapa berlian yang sangat mahal (outlier). Namun, terdapat sedikit perbedaan kecenderungan: kategori Premium dan Fair lebih sering memiliki harga lebih tinggi, sedangkan Ideal cenderung berada pada harga lebih rendah.

Jadi dapat disimpulkan bahwa harga berlian lebih dipengaruhi oleh penyebaran data yang sangat lebar (banyak variasi harga), dan meskipun kualitas potongan (cut) membedakan karakteristik harga, perbedaannya tidak terlalu ekstrem karena setiap jenis cut tetap memiliki berlian murah maupun mahal.