Dalam tahap Exploratory Data Analysis (EDA), visualisasi bivariat digunakan untuk memahami bagaimana dua variabel berinteraksi. Dataset diamonds berisi informasi tentang harga dan karakteristik fisik berlian seperti carat (berat), depth (kedalaman), dimensi (x, y, z), serta kualitas potongan (cut), warna (color), dan kejernihan (clarity).
Pada laporan ini, saya memposisikan diri sebagai seorang data analyst yang bertugas menjelaskan pola hubungan antar variabel secara informatif dan komunikatif. Tiga visualisasi bivariat akan digunakan untuk menjawab pertanyaan analitis berikut:
Apakah berat berlian (carat) memengaruhi harga berlian (price)?
Di bagian mana konsentrasi terbesar hubungan antara clarity dan price terjadi? Bagaimana hubungan antara kualitas potongan (cut) dan harga (price)?
Ketiga pertanyaan ini akan dijawab secara berurutan menggunakan scatter plot, jitter plot, dan box plot.
Scatter plot adalah grafik yang digunakan untuk melihat hubungan antara dua data angka. Setiap titik pada grafik mewakili satu berlian. Posisi titik menunjukkan ukuran (carat) dan harganya (price). Grafik ini membantu kita melihat pola, apakah ada hubungan antara keduanya.
Berdasarkan scatter plot antara carat (sumbu X) dan price (sumbu Y), dapat ,menjawab pertanyaan Apakah berat berlian (carat) memengaruhi harga berlian (price)?
YA, sangat berpengaruh. Dari grafik scatter plot antara carat dan price, terlihat jelas bahwa:
Makin berat berlian, makin mahal harganya. Titik-titik pada grafik bergerak naik dari kiri bawah ke kanan atas. Ini tanda hubungan positif.
Kenaikan harga tidak lurus, tapi melengkung. Pada berlian kecil (di bawah 1 carat), kenaikan ukuran sedikit tidak terlalu melonjakkan harga. Tapi pada berlian besar (di atas 1,5 carat), kenaikan ukuran sedikit bisa membuat harga melompat jauh lebih tinggi.
Ukuran sama, harga bisa beda. Terutama pada berlian ukuran sedang (0,5–1,5 carat), ada banyak titik dengan ukuran mirip tapi harga berbeda. Ini bukti bahwa carat bukan satu-satunya penentu harga. Faktor lain seperti potongan (cut), warna (color), dan kejernihan (clarity) juga ikut menentukan mahal tidaknya sebuah berlian.
Jitter plot adalah versi khusus dari scatter plot yang digunakan ketika salah satu variabel bersifat kategorik (kelompok). Karena titik-titik data dalam satu kategori bisa sangat banyak dan saling tindih, teknik jitter memberikan sedikit goyangan acak pada posisi titik agar tidak bertumpuk. Dengan begitu, kita bisa melihat sebaran data di setiap kategori dengan lebih jelas.
Berdasarkan Jitter plot antara Clarity (sumbu X) dan price (sumbu Y), dapat ,menjawab pertanyaan Di bagian mana konsentrasi terbesar hubungan antara clarity dan price terjadi?
Dari jitter plot antara clarity (sumbu X, dari kiri ke kanan: I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF) dan price (sumbu Y), dapat dilihat bahwa:
Pola umum: Semakin tinggi tingkat kejernihan (dari I1 ke IF), harga berlian cenderung semakin tinggi. Namun, hubungan ini tidak sekencang dan sekonsisten hubungan pada carat.
Konsentrasi terbesar justru terjadi di kelas menengah. Jika kita perhatikan, titik-titik paling padat (konsentrasi data tertinggi) berada pada kategori SI1, VS2, dan VS1 (kejernihan menengah). Di sinilah sebagian besar data berlian berada, dengan rentang harga yang lebar, dari yang murah hingga cukup mahal.
Di kelas tinggi justru lebih jarang. Pada kategori kejernihan tertinggi (VVS2, VVS1, IF), jumlah titik justru lebih sedikit. Ini berarti berlian dengan kejernihan sempurna lebih jarang ditemukan di dataset. Harganya pun cenderung tinggi, tapi variasinya tidak selebar di kelas menengah.
Di kelas rendah juga sedikit. Kategori I1 (kejernihan terendah) juga memiliki sedikit titik, dengan harga yang cenderung murah.
Box plot (atau diagram kotak garis) adalah grafik yang digunakan untuk membandingkan distribusi data angka (dalam hal ini harga) antar beberapa kelompok kategori (dalam hal ini kualitas potongan). Box plot menampilkan ringkasan statistik seperti median (nilai tengah), kuartil (sebaran data), serta outlier (pencilan) dalam setiap kelompok. Visualisasi ini sangat efektif untuk melihat perbedaan pola sebaran harga berdasarkan kualitas potongan secara cepat.
Berdasarkan Box plot antara Cut (sumbu X) dan price (sumbu Y), dapat ,menjawab pertanyaan Bagaimana hubungan antara kualitas potongan (cut) dan harga (price)?
Dari box plot antara kualitas potongan (cut) pada sumbu X (dari kiri ke kanan: Fair, Good, Very Good, Premium, Ideal) dan harga (price) pada sumbu Y, dapat dilihat bahwa:
Hubungannya tidak sederhana dan cenderung terbalik. Berbeda dengan ekspektasi umum bahwa potongan terbaik (Ideal) seharusnya paling mahal, box plot justru menunjukkan bahwa median harga tertinggi justru ada pada kategori Fair dan Premium, bukan Ideal.
Fair dan Premium mendominasi harga tinggi. Kategori Fair (kualitas terendah) dan Premium memiliki median harga yang lebih tinggi dibanding Very Good dan Ideal. Bahkan, rentang atas (kuartil atas) dari Fair dan Premium juga menjangkau harga yang sangat tinggi.
Ideal (potongan terbaik) justru punya median harga lebih rendah. Meskipun Ideal adalah kualitas potongan terbaik, distribusi harganya cenderung lebih banyak di kisaran menengah. Ini kemungkinan karena berlian dengan potongan Ideal banyak diproduksi dalam ukuran kecil hingga sedang, sehingga harganya tidak setinggi berlian besar dengan potongan Fair atau Premium.
Rentang harga sangat lebar di semua kategori. Semua kategori menunjukkan box plot yang panjang (rentang antar kuartil lebar) dan banyak outlier di atas. Ini menandakan bahwa dalam setiap kualitas potongan, harga bisa sangat bervariasi—dari yang murah hingga sangat mahal. Faktor lain seperti carat (ukuran) dan clarity (kejernihan) jelas masih sangat berpengaruh.
Berdasarkan ketiga visualisasi bivariat yang telah dilakukan, diperoleh temuan berikut:
Pengaruh Berat (Carat) terhadap Harga Scatter plot membuktikan bahwa berat berlian (carat) sangat memengaruhi harga. Semakin besar carat, semakin mahal harganya dengan pola kenaikan yang semakin tajam pada berlian besar. Namun, variasi harga pada ukuran yang sama menunjukkan bahwa faktor lain juga berperan.
Konsentrasi Hubungan Clarity dan Price Jitter plot mengungkap bahwa konsentrasi data terbesar berada di kelas kejernihan menengah (SI1, VS2, VS1) . Di sinilah sebagian besar transaksi berlian terjadi dengan variasi harga paling lebar. Berlian dengan kejernihan tinggi (VVS2 ke atas) jumlahnya terbatas meski cenderung mahal.
Hubungan Cut dan Price Box plot menunjukkan bahwa hubungan kualitas potongan dengan harga tidak linear. Potongan Fair dan Premium justru memiliki median harga lebih tinggi dibanding Ideal (potongan terbaik). Hal ini mengindikasikan bahwa faktor ukuran (carat) lebih dominan daripada kualitas potongan dalam menentukan harga.
Kesimpulan Akhir: Harga berlian tidak ditentukan oleh satu faktor tunggal, melainkan merupakan hasil kombinasi berbagai karakteristik fisik. Carat menjadi faktor paling dominan, sementara clarity dan cut berperan sebagai faktor pendukung yang polanya lebih kompleks. Visualisasi bivariat terbukti efektif mengungkap pola hubungan antar variabel secara intuitif sebelum dilakukan analisis statistik lebih lanjut.