Analisis bivariat merupakan metode analisis statistik yang digunakan untuk mengetahui hubungan antara dua variabel. Analisis ini bertujuan untuk melihat apakah terdapat keterkaitan atau pola tertentu antara satu variabel dengan variabel lainnya. Dengan melakukan analisis bivariat, peneliti dapat memperoleh gambaran awal mengenai hubungan antar variabel dalam suatu dataset sebelum dilakukan analisis yang lebih lanjut.
Dataset yang digunakan adalah diamonds dataset. Dataset ini berisi informasi mengenai karakteristik berlian seperti price (harga), carat (berat berlian), cut (kualitas potongan), color (warna), dan clarity (kejernihan). Variabel-variabel tersebut dapat dianalisis untuk mengetahui hubungan yang mungkin terjadi di antara dua variabel.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(color = "darkblue", alpha = 0.5) +
labs(
title = "Scatter Plot Carat vs Price Berlian",
x = "Carat Berlian",
y = "Price (Harga)"
) +
theme_minimal()
Scatter Plot ini menunjukkan adanya hubungan positif antara variabel
carat dan price. Hal ini terlihat dari pola
titik yang cenderung meningkat dari kiri bawah ke kanan atas, yang
berarti semakin besar carat berlian, maka harga berlian juga cenderung
semakin tinggi. Selain itu, pada nilai carat yang lebih besar terlihat
penyebaran harga yang semakin luas, yang menunjukkan bahwa harga berlian
tidak hanya dipengaruhi oleh beratnya saja, tetapi juga dapat
dipengaruhi oleh faktor lain seperti kualitas potongan, warna, dan
kejernihan berlian.
ggplot(diamonds, aes(x = cut, y = price))+
geom_boxplot(fill = "lightblue") +
labs(
title = "Box Plot Harga Berlian Berdasarkan Potongan",
x = "Potongan Berlian",
y = "Harga Berlian"
)+
theme_minimal()
Box plot ini menunjukkan distribusi harga berlian(price) berdasarkan kualitas potongan berlian (cut). Terlihat bahwa setiap kategori potongan seperti Fair, Good, Very Good, Premium, dan Ideal memiliki penyebaran harga yang cukup luas. Kategori Premium cenderung memiliki median harga yang lebih tinggi dibandingkan kategori lainnya, sedangkan Ideal memiliki median yang relatif lebih rendah. Selain itu, pada semua kategori terlihat banyak titik di atas kotak yang menunjukkan adanya outlier, yaitu berlian dengan harga jauh lebih tinggi dibandingkan sebagian besar data. Hal ini menunjukkan bahwa harga berlian tidak hanya dipengaruhi oleh kualitas potongan, tetapi juga kemungkinan dipengaruhi oleh faktor lain.
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar(position = "stack", color = "black")+
labs(
title = "Stacked Bar Chart Cut Berdasarkan Color",
x = "Kualitas Potongan (Cut)",
y = "Jumlah Berlian",
fill = "Color"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold"),
axis.title = element_text(face = "bold")
)
Stacked bar ini menunjukkan jumlah berlian berdasarkan Potongan (cut) dan Warna (color). Terlihat bahwa kategori potongan Ideal memiliki jumlah berlian paling banyak dibandingkan kategori lainnya, diikuti oleh Premium, Very Good, Good, dan Fair. Setiap batang terdiri dari beberapa warna yang mempresentasikan tingkat warna berlian dari D hingga J. Secara umum, distribusi warna berlian tersebar pada setiap kategori potongan, namun jumlahnya berbeda-beda. Hal ini menunjukkan bahwa kualitas potongan berlian memiliki variasi jumlah pada setiap kategori warna, dengan potongan Ideal mendominasi jumlah berlian.