Pendahuluan

Analisis bivariat merupakan metode analisis statistik yang digunakan untuk mengetahui hubungan antara dua variabel. Analisis ini bertujuan untuk melihat apakah terdapat keterkaitan atau pola tertentu antara satu variabel dengan variabel lainnya. Dengan melakukan analisis bivariat, peneliti dapat memperoleh gambaran awal mengenai hubungan antar variabel dalam suatu dataset sebelum dilakukan analisis yang lebih lanjut.

Dataset yang digunakan adalah diamonds dataset. Dataset ini berisi informasi mengenai karakteristik berlian seperti price (harga), carat (berat berlian), cut (kualitas potongan), color (warna), dan clarity (kejernihan). Variabel-variabel tersebut dapat dianalisis untuk mengetahui hubungan yang mungkin terjadi di antara dua variabel.

Scatter Plot

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(color = "darkblue", alpha = 0.5) +
  labs(
    title = "Scatter Plot Carat vs Price Berlian",
    x = "Carat Berlian",
    y = "Price (Harga)"
  ) +
  theme_minimal()

Scatter Plot ini menunjukkan adanya hubungan positif antara variabel carat dan price. Hal ini terlihat dari pola titik yang cenderung meningkat dari kiri bawah ke kanan atas, yang berarti semakin besar carat berlian, maka harga berlian juga cenderung semakin tinggi. Selain itu, pada nilai carat yang lebih besar terlihat penyebaran harga yang semakin luas, yang menunjukkan bahwa harga berlian tidak hanya dipengaruhi oleh beratnya saja, tetapi juga dapat dipengaruhi oleh faktor lain seperti kualitas potongan, warna, dan kejernihan berlian.

Boxplot

ggplot(diamonds, aes(x = cut, y = price))+
  geom_boxplot(fill = "lightblue") +
  labs(
    title = "Box Plot Harga Berlian Berdasarkan Potongan",
    x = "Potongan Berlian",
    y = "Harga Berlian"
  )+
  theme_minimal()

Box plot ini menunjukkan distribusi harga berlian(price) berdasarkan kualitas potongan berlian (cut). Terlihat bahwa setiap kategori potongan seperti Fair, Good, Very Good, Premium, dan Ideal memiliki penyebaran harga yang cukup luas. Kategori Premium cenderung memiliki median harga yang lebih tinggi dibandingkan kategori lainnya, sedangkan Ideal memiliki median yang relatif lebih rendah. Selain itu, pada semua kategori terlihat banyak titik di atas kotak yang menunjukkan adanya outlier, yaitu berlian dengan harga jauh lebih tinggi dibandingkan sebagian besar data. Hal ini menunjukkan bahwa harga berlian tidak hanya dipengaruhi oleh kualitas potongan, tetapi juga kemungkinan dipengaruhi oleh faktor lain.

Stacked Bar

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "stack", color = "black")+
  labs(
    title = "Stacked Bar Chart Cut Berdasarkan Color",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Color"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.title = element_text(face = "bold")
  )

Stacked bar ini menunjukkan jumlah berlian berdasarkan Potongan (cut) dan Warna (color). Terlihat bahwa kategori potongan Ideal memiliki jumlah berlian paling banyak dibandingkan kategori lainnya, diikuti oleh Premium, Very Good, Good, dan Fair. Setiap batang terdiri dari beberapa warna yang mempresentasikan tingkat warna berlian dari D hingga J. Secara umum, distribusi warna berlian tersebar pada setiap kategori potongan, namun jumlahnya berbeda-beda. Hal ini menunjukkan bahwa kualitas potongan berlian memiliki variasi jumlah pada setiap kategori warna, dengan potongan Ideal mendominasi jumlah berlian.