PENDAHULUAN

Visualisasi data merupakan proses penyajian data dalam bentuk grafis untuk mempermudah pemahaman informasi. Melalui visualisasi data, pola, perbandingan dan distribusi data dapat diamati dengan cepat dan jelas. Visualisasi data banyak digunakan untuk menganalisis data dan statistikan dalam pengambilan keputusan secara efektif. Pada analisis ini menggunakan dataset diamonds dari package ggplot2. Dataset tersebut digunakan untuk menganalisis cut, color, dan clarity menggunakan ggplot2 sehingga pada grafik hasil distribusi, perbandingan jumlah dan proporsi antar kategori dapat ditampilkan secara jelas untuk mempermudah memberikan pemahaman analisis

Visualisasi 1: BAR CHART

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
data("diamonds")

A1 <- ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "darkturquoise") +
  labs(
    title = "Jumlah Berlian Berdasarkan Kualitas Potongan ",
    x = "Potongan Berlian",
    y = "Jumlah Berlian"
  ) +
  theme_minimal()
A1

Distribusi tersebut menunjukkan bahwa jumlah berlian dalam dataset diamonds berbeda pada setiap kategori kualitas potongan (cut). Kualitas potongan Ideal memiliki jumlah berlian paling banyak, diikuti dengan Premium dan Very Good. Sebaliknya, jumlah berlian dengan kualitas potongan Good dan Fair relatif lebih sedikit. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik, sehingga distribusi data lebih banyak terkonsentrasi pada kategori Ideal dan Premium.

Visualisasi 2: GROUPED BAR CHART

A2 <- ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "dodge", width = 0.8) +
  labs(
    title = "Perbandingan Jumlah Berlian pada Setiap Kualitas Potongan",
    x = "Kualitas Potongan",
    y = "Jumlah Berlian",
    fill = "Color" 
  ) +
  theme_minimal(base_size = 10) +
  theme(
    plot.title = element_text(face = "bold", size = 11, hjust = 0.5),
    axis.title = element_text(face = "bold"), 
    legend.title = element_text(face = "bold")
  )
A2

Distribusi tersebut menunjukkan perbandingan jumlah berlian berdasarkan kualitas potongan (cut) dan warna (color). Secara umum, pada setiap kategori kualitas potongan, pada warna G dan F cenderung memiliki jumlah berlian yang lebih tinggi dibandingkan warna lainnya. Selain itu, kualitas potongan Ideal dan Premium menampilkan jumlah berlian paling banyak hampir di semua kategori warna, sedangkan kualitas potongan Fair memiliki jumlah berlian paling sedikit. Pola ini menunjukkan bahwa berlian dengan kualitas potongan yang lebih tinggi lebih banyak ditemukan dalam berbagai variasi warna, sementara berlian dengan kualitas potongan rendah relatif jarang dalam dataset.

Visualisasi 3: PROPORTION BAR CHART

A3 <- ggplot(diamonds, aes(x = clarity, fill = color)) +
  geom_bar(position = "fill") +
  scale_fill_manual(values = c(
    "#4E79A7","#F28E2B","#E15759","#76B7B2","#59A14F",
    "#EDC948","#B07AA1"))+
  scale_y_continuous(labels = scales::percent) +
  labs(
    title = "Proporsi Warna Berlian Berdasarkan Tingkat Kejernihan",
    x = "Tingkat Kejernihan",
    y = "Proporsi",
    fill = "Color"
  ) +
  theme_minimal()
A3

Distribusi proporsi tersebut menunjukkan bahwa relatif warna berlian pada setiap tingkat kejernihan (clarity). Secara umum, warna G dan F mendominasi proporsi berlian di hampir seluruh tingkat kejernihan, terutama pada kategori kejernihan menengah hingga tinggi seperti VS1, VVS2, dan IF. Sementara itu, warna dengan kualitas lebih rendah seperti I dan J memiliki proporsi yang relatif kecil pada semua tingkat kejernihan. Hal ini menunjukkan bahwa berlian dengan tingkat kejernihan yang lebih tinggi cenderung didominasi oleh warna yang lebih baik, sedangkan warna yang kurang baik semakin jarang ditemukan pada tingkat kejernihan tinggi.

KESIMPULAN

Dapat disimpulkan bahwa data berlian dalam dataset diamonds tidak tersebar secara merata pada setiap kategori, melainkan cenderung terkonsentrasi pada karakteristik dengan kualitas yang lebih baik. Sebagian besar berlian memiliki kualitas potongan tinggi, disertai dengan dominasi warna pada kategori menengah hingga baik, serta tingkat kejernihan yang relatif tinggi. Pola ini menunjukkan bahwa berlian dengan mutu yang lebih baik lebih banyak ditemukan dalam dataset, sehingga visualisasi yang digunakan berhasil menggambarkan karakteristik utama data secara jelas dan mudah dipahami.