Analisis data merupakan tahapan penting dalam memahami pola dan hubungan antar variabel dalam suatu dataset. Pada eksplorasi sebelumnya, pembahasan difokuskan pada analisis univariat. Selanjutnya, analisis diperluas ke pendekatan bivariat untuk mengevaluasi hubungan antara harga dengan berbagai atribut kualitas berlian. Secara teoritis, harga berlian ditentukan oleh kombinasi karakteristik utama seperti berat (carat), kualitas potongan (cut), dan warna (color). Oleh karena itu, visualisasi digunakan sebagai bagian dari exploratory data analysis untuk mengidentifikasi pola hubungan, kecenderungan asosiasi, serta kemungkinan interaksi antar variabel sebelum dilakukan pemodelan statistik yang lebih formal.
Dataset yang digunakan merupakan dataset diamonds dengan 53.940 catatan transaksi/unit berlian.
library(ggplot2)
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
yang memuat informasi karakteristik fisik dan kualitas berlian beserta harganya. Variabel yang dianalisis dalam studi ini meliputi atribut numerik dan kategorik sebagai berikut:
| No | Variabel | Keterangan |
|---|---|---|
| 1 | carat | Berat berlian dalam satuan karat yang merepresentasikan ukuran fisik berlian. |
| 2 | price | Harga berlian dalam satuan dolar Amerika Serikat (USD). |
| 3 | cut | Kualitas potongan berlian (Fair, Good, Very Good, Premium, Ideal). |
| 4 | color | Tingkat kejernihan warna berlian dari D (paling jernih) hingga J (kurang jernih). |
| 5 | clarity | Tingkat kejernihan internal berlian berdasarkan inklusi atau cacat alami. |
Berdasarkan karakteristik variabel tersebut, analisis diawali dengan mengevaluasi hubungan antara ukuran fisik berlian dan harga. Secara teori ekonomi dan prinsip kelangkaan, berat berlian (carat) merupakan determinan utama harga karena berlian berukuran besar relatif lebih langka dan memiliki nilai material yang lebih tinggi. Oleh karena itu, penting untuk mengidentifikasi bagaimana pola hubungan antara carat dan price terbentuk dalam data empiris, apakah bersifat linier, nonlinier, atau menunjukkan pola tertentu.
Analisis hubungan antar variabel dimulai dari melihat hubungan antara ukuran berlian dan harganya. Secara logika sederhana, semakin besar ukuran berlian, biasanya harganya juga semakin mahal karena ukurannya lebih langka dan terlihat lebih menonjol. Untuk memastikan apakah pola tersebut benar-benar terlihat di data, digunakan scatter plot yang menampilkan hubungan antara carat dan price. Setiap titik pada grafik mewakili satu berlian, sehingga kita bisa langsung melihat pola kenaikan harga berdasarkan ukurannya.
library(ggplot2)
ggplot(diamonds, aes(x = cut, y = price)) +
geom_jitter(
color = "#E36A6A",alpha = 0.4,
width = 0.2
) +
labs(
title = "Sebaran Harga Berdasarkan Kualitas Cut",
x = "Cut",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Dari grafik tersebut terlihat jelas bahwa semakin besar carat, harga cenderung meningkat. Namun kenaikannya tidak berbentuk garis lurus, melainkan semakin tajam pada ukuran yang lebih besar. Artinya, sedikit kenaikan ukuran pada berlian besar bisa membuat harganya melonjak cukup tinggi. Selain itu, pada ukuran besar harga juga terlihat semakin bervariasi. Ini menunjukkan bahwa meskipun ukuran sangat berpengaruh, tetap ada faktor lain yang ikut menentukan harga berlian.
Setelah melihat pengaruh ukuran, analisis dilanjutkan pada kualitas potongan (cut). Secara konsep, potongan memengaruhi keindahan berlian karena berkaitan dengan bagaimana cahaya dipantulkan. Karena cut berbentuk kategori dan price berbentuk angka, digunakan jitter plot agar sebaran harga pada tiap kategori bisa terlihat jelas tanpa titik-titiknya saling menumpuk.
library(ggplot2)
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(
color = "#537D96", alpha = 0.3
) +
labs(
title = "Hubungan Ukuran Berlian dan Harga",
x = "Carat",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Dari grafik ini terlihat bahwa harga pada setiap kategori cut memiliki rentang yang cukup luas dan banyak yang saling tumpang tindih. Walaupun secara umum potongan dengan kualitas lebih baik cenderung memiliki harga lebih tinggi, perbedaannya tidak terlalu tegas. Misalnya, kategori Premium tidak selalu lebih mahal dibandingkan Ideal. Hal ini menunjukkan bahwa kualitas potongan memang berpengaruh, tetapi tidak bisa menjelaskan harga secara sendiri tanpa mempertimbangkan ukuran berlian.
Selanjutnya, analisis dilanjutkan pada atribut warna (color). Secara teori, warna yang lebih jernih seperti D–F seharusnya memiliki nilai lebih tinggi dibandingkan warna yang lebih rendah seperti I–J. Untuk melihat perbandingan harga antar kategori warna, digunakan boxplot karena grafik ini bisa menunjukkan median harga, sebaran data, dan nilai pencilan secara ringkas.
library(ggplot2)
ggplot(diamonds, aes(x = color, y = price)) +
geom_boxplot(fill = "#FA5C5C") +
labs(
title = "Perbandingan Harga Berdasarkan Warna Berlian",
x = "Color",
y = "Price",
caption = "Sumber: Dataset diamonds (ggplot2)"
) +
theme_minimal()
Hasilnya menunjukkan bahwa warna terbaik tidak selalu memiliki harga median paling tinggi. Bahkan, beberapa warna yang secara teori kurang jernih justru memiliki harga tengah yang cukup tinggi. Hal ini bisa dijelaskan karena berlian dengan warna biasa saja tetap bisa mahal jika ukurannya besar. Banyaknya pencilan pada setiap kategori juga menunjukkan bahwa harga berlian sangat bervariasi.
Secara keseluruhan, dari ketiga visualisasi ini dapat disimpulkan bahwa ukuran adalah faktor yang paling kuat memengaruhi harga. Namun, kualitas potongan dan warna tetap memiliki peran, hanya saja pengaruhnya saling berkaitan. Jadi, harga berlian tidak ditentukan oleh satu faktor saja, melainkan kombinasi dari beberapa atribut kualitas sekaligus.
Berdasarkan hasil visualisasi yang telah dilakukan, dapat disimpulkan bahwa ukuran berlian (carat) merupakan faktor yang paling kuat memengaruhi harga. Semakin besar ukuran berlian, harga cenderung meningkat secara signifikan, bahkan dengan pola kenaikan yang semakin tajam pada ukuran besar. Hal ini menunjukkan bahwa ukuran memiliki peran utama dalam menentukan nilai berlian.
Meskipun demikian, atribut kualitas lain seperti cut dan color juga tetap berkontribusi terhadap harga, namun pengaruhnya tidak berdiri sendiri. Distribusi harga pada setiap kategori potongan saling tumpang tindih, sehingga kualitas potongan tidak selalu menjamin harga lebih tinggi. Demikian pula dengan warna, di mana kategori dengan tingkat kejernihan terbaik tidak selalu memiliki median harga tertinggi. Kondisi ini menunjukkan bahwa faktor-faktor tersebut saling berinteraksi dengan ukuran dalam membentuk harga akhir.
Secara keseluruhan, harga berlian ditentukan oleh kombinasi beberapa karakteristik sekaligus, bukan hanya satu atribut tunggal. Ukuran menjadi penentu utama, sementara kualitas potongan dan warna berperan sebagai faktor pendukung yang memperkuat atau menyesuaikan nilai berlian di pasar.