Studi Kasus

Dataset Diamonds berisi informasi mengenai berlian sebanyak 50.000 lebih dengan berbagai karakterstik seperti berat(carat), harga(price), kualitas potongan(cut), warna(color), dan kejernihan(clarity). Setelah memahami bagaimana masing-masing variabel numerik berdistribusi secara individu, langkah selanjutnya adalah melihat hubungan antar variabel.

Dalam praktik bisnis perhiasan, harga berlian tidak ditentukan oleh satu faktor saja. Penjual dan pembeli biasanya mempertimbangkan kombinasi berat, kualitas potongan, warna, dan kejernihan sebelum menentukan nilai jual. Pada tahap ini analis mulai bertanya :

Apakah semakin berat berlian berarti semakin mahal? Seberapa kuat hubungan antara berat(carat) dan harga(price)? Apakah kualitas potongan(cut) memengaruhi hubungan tersebut?

Untuk menjawab pertanyaan tersebut digunakan visualisasi bivariat, yaitu visualisasi yang melibatkan dua variabel dalam satu grafik. Analisis bivariat membantu kita :

1. Mengidentifikasi hubungan antara vaiabel
2. Melihat pola tertentu dalam data
3. Mendeteksi kelompok atau perbedaan antar kategori
4. Memahami apakah satu variabel memengaruhi variabel lainnya

Memuat Data dan Menjelajahi Struktur Data

Karena dataset diamonds sudah tersedia dalam paket ggplot2, kita tidak perlu mengimpor file CSV. Dataset dapat langsung digunakan setelah memanggil library yang diperlukan.

Berdasarkan output eksplorasi struktur data, dataset diamonds memiliki 10 variabel yang terdiri dari variabel numerik dan kategorik. Variabel numerik dalam dataset ini meliputi carat, depth, table, price, x, y, dan z. Variabel-variabel ini memberikan informasi kuantitatif mengenai berat berlian, proporsi dimensi, serta harga berlian. Sementara itu, variabel kategorik dalam dataset ini adalah cut, color, dan clarity, yang menggambarkan kualitas potongan, warna, dan tingkat kejernihan berlian.

Berikut adalah deskripsi dari variabel-variabel numerik dalam dataset:

Visualisasi Data Kontinu (Bivariat)

Visualisasi bivariate digunakan untuk melihat hubungan antara dua variabel, misalnya bagaimana harga berlian (price) dipengaruhi oleh faktor lain seperti berat berlian (carat), kualitas potongan (cut), warna (color), atau kejernihan (clarity).

Pendekatan ini memungkinkan analis tidak hanya memahami bagaimana data tersebar, tetapi juga mulai mengeksplorasi faktor-faktor yang berasosiasi dengan perubahan harga berlian. Dalam konteks industri perhiasan, harga berlian sangat jarang ditentukan oleh satu karakteristik saja. Oleh karena itu, analisis hubungan antarvariabel menjadi penting untuk memahami pola penentuan harga secara lebih mendalam.

Scatter Plot

Digunakan untuk melihat hubungan antara dua variabel numerik, misalnya carat dan price. Visualisasi ini membantu mengidentifikasi pola hubungan (linear atau non-linear), kekuatan hubungan, serta kemungkinan adanya outlier.

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.3, color = "steelblue") +
  labs(
    title = "Hubungan Berat Berlian (Carat) dan Harga",
    x = "Berat (Carat)",
    y = "Harga (USD)"
  )

Terlihat bahwa semakin besar berat berlian (carat), maka semakin tinggi pula harganya. Kenaikan harga tidak berlangsung secara perlahan, melainkan cenderung melonjak terutama pada berlian dengan ukuran yang lebih besar. Hal ini menunjukkan bahwa berat merupakan faktor utama yang sangat memengaruhi harga berlian. Berlian berukuran kecil memiliki harga yang relatif lebih rendah, sedangkan berlian yang lebih besar dapat mengalami peningkatan harga yang sangat signifikan.

Boxplot

Digunakan untuk membandingkan distribusi harga (price) berdasarkan kategori seperti cut, color, atau clarity. Visualisasi ini membantu melihat perbedaan median, sebaran data, dan variasi harga antar kelompok.

ggplot(diamonds, aes(x = color, y = price)) +
  geom_boxplot(fill = "salmon") +
  labs(
    title = "Distribusi Harga Berdasarkan Warna Berlian",
    x = "Warna",
    y = "Harga (USD)"
  )

Terlihat bahwa warna berlian juga berpengaruh terhadap harga. Setiap kategori warna memiliki rentang harga yang berbeda-beda, dengan beberapa warna menunjukkan nilai tengah (median) yang lebih tinggi dibandingkan warna lainnya. Namun, dalam setiap kategori warna tetap terdapat variasi harga yang cukup besar, mulai dari harga rendah hingga sangat tinggi. Hal ini menunjukkan bahwa meskipun warna berpengaruh terhadap harga, faktor lain seperti berat berlian tetap memiliki peranan yang lebih dominan.

Stacked Bar

Stacked bar chart dapat digunakan untuk melihat bagaimana distribusi warna berlian (color) berbeda pada setiap kategori kualitas potongan (cut), atau bagaimana tingkat kejernihan (clarity) tersebar dalam masing-masing kategori warna.

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "stack") +
  labs(
    title = "Distribusi Warna Berlian Berdasarkan Kualitas Potongan",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Warna"
  ) +
  theme_minimal()

Grafik ketiga menunjukkan distribusi warna berlian berdasarkan kualitas potongan. Terlihat bahwa kategori potongan seperti Ideal dan Premium memiliki jumlah berlian yang lebih banyak dibandingkan kategori lainnya. Setiap kualitas potongan juga terdiri dari berbagai macam warna, sehingga tidak ada satu warna yang hanya muncul pada satu jenis potongan tertentu. Hal ini menunjukkan bahwa kualitas potongan dan warna berlian saling berkaitan, namun keduanya memiliki variasi yang cukup luas dalam dataset.

Kesimpulan

Secara keseluruhan dapat disimpulkan bahwa semakin besar berat berlian (carat), semakin mahal harganya, dan hubungan ini sangat kuat. Selain itu, kualitas potongan juga memengaruhi harga, di mana potongan yang lebih baik cenderung memiliki harga lebih tinggi pada berat yang sama. Dengan demikian, berat menjadi faktor utama penentu harga, sementara kualitas potongan memberikan pengaruh tambahan terhadap nilai berlian.

Dengan demikian, faktor karakteristik fisik dan kualitas berlian berperan penting dalam membentuk harga. Berat menjadi faktor utama yang paling menentukan, sementara warna dan kualitas potongan memberikan pengaruh tambahan dalam menentukan nilai jual berlian secara keseluruhan.