📌 Latar Belakang

Dalam laporan ini, saya bertindak sebagai data analyst yang bertugas mengidentifikasi variabel numerik paling berpengaruh terhadap harga berlian untuk kebutuhan pemodelan harga. Seorang data analyst tidak hanya dituntut mampu membuat grafik, tetapi juga mampu memilih variabel yang tepat serta menyajikan analisis secara jelas, sistematis, dan komunikatif. Visualisasi yang baik harus mampu memperlihatkan pola hubungan antar variabel tanpa menimbulkan interpretasi yang menyesatkan.

Dataset diamonds dalam R berisi lebih dari 50.000 observasi berlian dengan berbagai karakteristik numerik seperti berat karat (carat), kedalaman berlian (depth), ukuran table, dan harga (price). Dengan jumlah observasi yang besar, dataset ini sangat cocok untuk analisis bivariat kontinu, yaitu analisis hubungan antara dua variabel numerik.

Fokus utama dalam laporan ini adalah menjawab pertanyaan berikut:

Variabel numerik mana yang memiliki hubungan paling kuat terhadap harga berlian?

Pendekatan yang digunakan adalah visualisasi scatter plot dengan garis regresi linear untuk melihat kecenderungan hubungan antar variabel.

📋 Tampilan Data Diamonds

library(knitr)
library(dplyr)
library(scales)

diamonds %>%
  mutate(price = dollar(price)) %>%
  head(10) %>%
  kable(caption = "10 Observasi Pertama Dataset Diamonds")
10 Observasi Pertama Dataset Diamonds
carat cut color clarity depth table price x y z
0.23 Ideal E SI2 61.5 55 $326 3.95 3.98 2.43
0.21 Premium E SI1 59.8 61 $326 3.89 3.84 2.31
0.23 Good E VS1 56.9 65 $327 4.05 4.07 2.31
0.29 Premium I VS2 62.4 58 $334 4.20 4.23 2.63
0.31 Good J SI2 63.3 58 $335 4.34 4.35 2.75
0.24 Very Good J VVS2 62.8 57 $336 3.94 3.96 2.48
0.24 Very Good I VVS1 62.3 57 $336 3.95 3.98 2.47
0.26 Very Good H SI1 61.9 55 $337 4.07 4.11 2.53
0.22 Fair E VS2 65.1 61 $337 3.87 3.78 2.49
0.23 Very Good H VS1 59.4 61 $338 4.00 4.05 2.39

📊 1. Hubungan Carat dan Price

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.15, color = "#AD1457") +
  geom_smooth(method = "lm", se = FALSE, color = "#880E4F") +
  labs(
    title = "Hubungan Carat dan Harga Berlian",
    x = "Carat (Berat Berlian)",
    y = "Price (Harga)"
  ) +
  theme_minimal()

Insight

Grafik menunjukkan hubungan positif yang sangat kuat antara carat dan price. Titik-titik data membentuk pola menaik yang jelas, di mana semakin besar berat berlian, semakin tinggi harga yang terbentuk. Kepadatan titik paling besar berada pada kisaran carat kecil dengan harga rendah, menunjukkan bahwa mayoritas berlian di pasar berukuran kecil.

Pada nilai carat yang lebih tinggi, kenaikan harga terlihat semakin tajam. Hal ini menunjukkan adanya kecenderungan non-linear, di mana setiap peningkatan kecil pada karat besar dapat menghasilkan lonjakan harga yang signifikan.

Interpretasi

Berat karat merupakan faktor numerik paling dominan dalam menentukan harga berlian. Berlian besar memiliki tingkat kelangkaan yang jauh lebih tinggi dibandingkan berlian kecil, sehingga harga meningkat secara drastis. Dalam konteks bisnis, carat menjadi variabel utama yang harus dipertimbangkan dalam model estimasi harga.


📊 2. Hubungan Depth dan Price

ggplot(diamonds, aes(x = depth, y = price)) +
  geom_point(alpha = 0.15, color = "#F48FB1") +
  geom_smooth(method = "lm", se = FALSE, color = "#AD1457") +
  labs(
    title = "Hubungan Depth dan Harga Berlian",
    x = "Depth (Kedalaman)",
    y = "Price (Harga)"
  ) +
  theme_minimal()

Insight

Berbeda dengan carat, hubungan antara depth dan price terlihat lemah. Titik-titik data menyebar tanpa pola yang jelas, dan garis regresi cenderung mendatar. Variasi harga sangat besar meskipun nilai depth berada dalam rentang yang relatif sempit.

Hal ini menunjukkan bahwa perubahan kecil pada nilai depth tidak diikuti oleh perubahan harga yang konsisten. Bahkan pada nilai depth yang hampir sama, harga berlian dapat berbeda sangat jauh. Secara visual, tidak tampak adanya pola linear yang kuat seperti pada hubungan carat terhadap price. Nilai koefisien kemiringan garis regresi pun relatif kecil, sehingga peningkatan depth tidak secara signifikan meningkatkan maupun menurunkan harga.

Interpretasi

Kedalaman berlian bukan merupakan faktor utama dalam pembentukan harga. Meskipun depth berpengaruh terhadap proporsi dan estetika, variabel ini tidak menunjukkan hubungan kuat terhadap harga jika dianalisis secara langsung dan terpisah.

Hal ini mengindikasikan bahwa pengaruh depth kemungkinan bersifat tidak langsung atau dipengaruhi oleh variabel lain, seperti carat, cut, atau clarity. Dalam analisis bivariat sederhana, depth tidak memiliki daya prediksi yang kuat terhadap harga berlian. Oleh karena itu, untuk memahami perannya secara lebih komprehensif, diperlukan analisis multivariat agar dapat melihat apakah depth memiliki kontribusi signifikan ketika dikombinasikan dengan variabel lainnya.


📊 3. Hubungan Table dan Price

ggplot(diamonds, aes(x = table, y = price)) +
  geom_point(alpha = 0.15, color = "#EC407A") +
  geom_smooth(method = "lm", se = FALSE, color = "#880E4F") +
  labs(
    title = "Hubungan Table dan Harga Berlian",
    x = "Table (Ukuran Permukaan Atas)",
    y = "Price (Harga)"
  ) +
  theme_minimal()

Insight

Hubungan antara table dan price juga terlihat relatif lemah. Sebaran titik tidak membentuk pola yang konsisten, dan garis regresi hampir horizontal. Hal ini menunjukkan bahwa perubahan nilai table tidak diikuti perubahan harga yang signifikan.

Selain itu, mayoritas nilai table berada pada rentang yang cukup sempit, sehingga variasinya terbatas dibandingkan variasi harga yang sangat lebar. Pada nilai table yang sama, harga berlian dapat berbeda drastis. Kondisi ini mengindikasikan bahwa secara visual tidak terdapat kecenderungan peningkatan atau penurunan harga yang jelas seiring bertambahnya ukuran table. Kemiringan garis regresi yang sangat kecil semakin memperkuat bahwa hubungan linear antara kedua variabel ini sangat lemah.

Interpretasi

Ukuran table lebih berkaitan dengan aspek teknis pemotongan dan tampilan visual berlian. Namun, dalam konteks pembentukan harga, variabel ini tidak memiliki pengaruh sebesar berat karat.

Hal ini menunjukkan bahwa table bukanlah variabel utama yang dipertimbangkan dalam menentukan harga pasar berlian secara langsung. Pengaruhnya kemungkinan bersifat tidak dominan atau bergantung pada kombinasi dengan faktor lain seperti cut, clarity, dan color. Oleh karena itu, dalam analisis bivariat sederhana, table tidak dapat dijadikan prediktor kuat terhadap harga, dan diperlukan pendekatan analisis multivariat untuk melihat apakah variabel ini memiliki kontribusi signifikan ketika dianalisis bersama variabel lainnya.


📌 Kesimpulan

Berdasarkan analisis bivariat kontinu yang dilakukan:

  1. Variabel carat memiliki hubungan paling kuat dan signifikan terhadap harga.
  2. Variabel depth dan table menunjukkan hubungan yang jauh lebih lemah.
  3. Berat karat dapat dianggap sebagai prediktor utama dalam pembentukan harga berlian.

Analisis ini menunjukkan pentingnya pemilihan variabel dalam pemodelan harga. Tidak semua variabel numerik memiliki kontribusi yang sama, dan identifikasi faktor dominan menjadi kunci dalam analisis profesional.


🎯 Penutup

Visualisasi bivariat kontinu memungkinkan pola hubungan antar variabel numerik terlihat secara jelas dan komunikatif. Dengan pendekatan yang sistematis, data tidak hanya menjadi angka, tetapi menjadi dasar pengambilan keputusan yang rasional dan berbasis bukti.