Diamonds Dataset
Atiqah Adawiyah Sholihah
Berlian merupakan komoditas bernilai tinggi yang harganya ditentukan oleh berbagai karakteristik fisik dan kualitasnya. Penentuan harga tidak hanya dipengaruhi oleh ukuran, tetapi juga oleh faktor lain seperti warna, proporsi, dan dimensi.
Dataset diamonds menyediakan data observasi dalam jumlah besar yang memungkinkan analisis empiris terhadap hubungan antara atribut tersebut dan harga. Analisis ini menggunakan visualisasi bivariat untuk mengidentifikasi pola hubungan serta faktor yang paling berpengaruh terhadap variasi harga berlian.
Analisis ini bertujuan untuk:
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(alpha = 0.15, color = "steelblue") +
labs(
title = "Hubungan Berat dan Harga Berlian",
x = "Carat",
y = "Harga (USD)"
) +
theme_minimal(base_size = 14)
Ukuran berlian menunjukkan hubungan positif yang sangat kuat dengan harga. Berlian dengan carat lebih besar cenderung memiliki harga yang jauh lebih tinggi dibandingkan berlian kecil. Namun, hubungan ini tidak linear. Pada ukuran besar, harga meningkat secara tajam akibat efek kelangkaan. Berlian berukuran besar jauh lebih jarang ditemukan di alam, sehingga memiliki nilai ekonomi yang meningkat secara eksponensial. Selain itu, variasi harga pada carat tinggi terlihat semakin lebar, menunjukkan bahwa faktor kualitas mulai berperan lebih besar pada berlian berukuran besar.
ggplot(diamonds, aes(x = cut, y = price)) +
geom_jitter(width = 0.2, alpha = 0.15, color = "darkblue", size = 1) +
stat_summary(fun = median, geom = "point", color = "red", size = 3) +
labs(
title = "Distribusi Harga Berlian Berdasarkan Kualitas Potongan",
x = "Cut",
y = "Harga (USD)"
) +
theme_minimal(base_size = 14)
Kualitas potongan berpengaruh terhadap nilai berlian karena menentukan kemampuan memantulkan cahaya. Median harga cenderung meningkat pada kategori cut yang lebih baik, menunjukkan adanya premium price untuk kualitas superior.
Namun, distribusi harga dalam setiap kategori sangat luas dan saling tumpang tindih. Hal ini menunjukkan bahwa cut bukan faktor tunggal dalam penentuan harga. Berlian dengan cut sedang dapat memiliki harga tinggi apabila memiliki ukuran atau karakteristik lain yang unggul.
ggplot(diamonds, aes(x = color, y = price, fill = color)) +
geom_boxplot(alpha = 0.9) +
scale_fill_brewer(palette = "Blues") +
labs(
title = "Distribusi Harga Berdasarkan Warna Berlian",
x = "Kategori Warna",
y = "Harga (USD)"
) +
theme_minimal(base_size = 14) +
theme(legend.position = "none")
Harga berlian cenderung meningkat pada kategori warna yang lebih baik (D–F), yang menunjukkan tingkat ketidakberwarnaan lebih tinggi dan kelangkaan yang lebih besar. Sebaliknya, kategori warna lebih rendah (I–J) umumnya memiliki harga lebih rendah karena kualitas warna yang kurang optimal.
Sebaran harga pada tiap kategori cukup lebar dan saling tumpang tindih, menandakan bahwa warna bukan faktor dominan tunggal dalam menentukan harga. Faktor lain seperti carat, clarity, dan cut tetap memberikan pengaruh besar.
Gradasi biru pada boxplot hanya berfungsi sebagai pembeda kategori warna dan tidak merepresentasikan warna fisik berlian.
ggplot(diamonds, aes(x = x, y = price)) +
geom_point(alpha = 0.12, color = "steelblue") +
labs(
title = "Hubungan Panjang Berlian dan Harga",
x = "Panjang (mm)",
y = "Harga (USD)"
) +
theme_minimal(base_size = 14)
Dimensi fisik berlian memiliki korelasi positif dengan harga, namun tidak sekuat carat. Panjang hanya merepresentasikan ukuran linear dan tidak mencerminkan volume keseluruhan. Variasi harga yang luas pada panjang yang sama menunjukkan bahwa dua berlian dengan dimensi serupa dapat memiliki nilai yang sangat berbeda akibat perbedaan proporsi dan kualitas lainnya.
Dari keseluruhan analisis dapat disimpulkan bahwa struktur harga berlian terutama dipengaruhi oleh ukuran, sementara faktor kualitas memberikan pengaruh tambahan namun tidak dominan.
Faktor penentu harga (dari paling kuat):
Berdasarkan analisis visual terhadap dataset berlian, dapat disimpulkan bahwa harga berlian terutama ditentukan oleh ukuran fisik, khususnya berat (carat), yang menunjukkan hubungan positif sangat kuat dan bersifat non-linear terhadap harga. Berlian berukuran besar memiliki nilai jauh lebih tinggi karena kelangkaannya.
Faktor kualitas seperti cut dan color juga memengaruhi harga, terlihat dari perbedaan distribusi dan median antar kategori. Namun, pengaruhnya tidak sekuat ukuran, karena variasi harga dalam setiap kategori masih sangat besar dan saling tumpang tindih.
Dimensi fisik seperti panjang berlian berkorelasi dengan harga, tetapi kurang konsisten dibandingkan carat karena tidak sepenuhnya merepresentasikan volume atau massa berlian.
Secara keseluruhan, pembentukan harga berlian dalam dataset ini bersifat multidimensional, tetapi didominasi oleh faktor ukuran, sementara kualitas berperan sebagai faktor pendukung yang memperkuat nilai.