Pendahuluan

Analisis ini bertujuan untuk mengeksplorasi hubungan antara dua variabel numerik (data kontinu) dalam dataset diamonds. Visualisasi dilakukan menggunakan scatterplot dengan garis regresi linear untuk melihat kecenderungan hubungan antar variabel.

1. Hubungan Carat dan Price

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.3, color = "hotpink") +
  geom_smooth(method = "lm", color = "deeppink", se = FALSE) +
  labs(
    title = "Hubungan Berat Carat dan Harga Berlian",
    x = "Carat",
    y = "Price (USD)"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Interpretasi

Berdasarkan scatterplot terlihat pola hubungan yang cenderung meningkat dari kiri ke kanan, yang menunjukkan adanya hubungan positif antara variabel carat dan price. Semakin besar berat karat berlian, maka harga cenderung semakin tinggi. Garis regresi linear memperkuat adanya kecenderungan hubungan linear positif yang cukup kuat. Selain itu, nilai korelasi yang tinggi mengindikasikan bahwa carat merupakan variabel yang memiliki pengaruh signifikan terhadap variasi harga berlian.

2. Hubungan Depth dan Price

ggplot(diamonds, aes(x = cut(depth, breaks = 5), y = price)) +
  geom_boxplot(fill = "lightpink", color = "deeppink4") +
  labs(
    title = "Perbandingan Harga Berlian Berdasarkan Kelompok Depth",
    x = "Kelompok Depth",
    y = "Price (USD)"
  ) +
  theme_minimal()

Interpretasi

Berdasarkan boxplot yang ditampilkan, terlihat bahwa distribusi harga berlian berbeda pada setiap kelompok depth. Secara umum, median harga pada masing-masing kelompok depth tidak menunjukkan perbedaan yang terlalu signifikan, namun terdapat variasi harga yang cukup besar dalam setiap interval. Hal ini terlihat dari panjang box dan whisker yang relatif lebar serta adanya beberapa pencilan (outlier) dengan harga yang sangat tinggi. Pola tersebut mengindikasikan bahwa variabel depth tidak memiliki pengaruh yang kuat secara langsung terhadap harga berlian, karena pada hampir setiap kelompok depth terdapat rentang harga yang luas. Dengan demikian, dapat disimpulkan bahwa depth bukan merupakan faktor utama dalam menentukan harga berlian dan kemungkinan terdapat variabel lain seperti carat, cut, atau clarity yang lebih dominan memengaruhi variasi harga.

3. Hubungan Table dan Price

library(ggplot2)

ggplot(diamonds, aes(x = table, y = price)) +
  geom_point(color = "deeppink3", alpha = 0.3) +
  geom_smooth(method = "lm", color = "magenta4", se = FALSE) +
  labs(
    title = "Hubungan Table dan Harga Berlian",
    x = "Table",
    y = "Price (USD)"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Interpretasi

Berdasarkan scatter plot yang ditampilkan, terlihat bahwa hubungan antara variabel table dan price tidak menunjukkan pola linear yang kuat. Titik-titik data tersebar cukup luas dan tidak membentuk kecenderungan peningkatan atau penurunan yang konsisten. Garis regresi linear yang ditambahkan juga tampak relatif datar, yang mengindikasikan bahwa perubahan nilai table tidak secara signifikan diikuti oleh perubahan harga berlian. Selain itu, terdapat beberapa pencilan dengan harga sangat tinggi pada berbagai nilai table, yang menunjukkan bahwa harga lebih dipengaruhi oleh faktor lain. Dengan demikian, dapat disimpulkan bahwa variabel table bukan merupakan determinan utama dalam menentukan harga berlian dibandingkan dengan variabel lain seperti carat atau clarity.

Kesimpulan

Berdasarkan analisis bivariat data kontinu pada dataset diamonds, variabel carat menunjukkan hubungan positif yang kuat terhadap price, sedangkan depth dan table memiliki hubungan yang relatif lemah. Dengan demikian, berat karat dapat dianggap sebagai faktor utama yang berkaitan dengan peningkatan harga berlian dalam dataset ini.