Analisis Visual Distribusi Potongan dan Kejernihan Berlian pada Dataset Diamonds

Ham Ramadhan

2026-02-10

Pendahuluan

Dataset diamonds dari package ggplot2 merupakan salah satu dataset populer yang berisi informasi mengenai karakteristik dan harga berlian. Dalam laporan ini, analisis difokuskan pada variabel kategorik/diskrit untuk memahami distribusi dan komposisi kualitas berlian.

Tujuan analisis ini adalah:

  1. Memvisualisasikan distribusi frekuensi variabel kategorik.

  2. Mengamati hubungan antar dua variabel kategorik.

  3. Membandingkan proporsi kategori dalam masing-masing kelompok.

Variabel yang digunakan dalam analisis diantara lain adalah:

-Cut (kualitas potongan berlian)

-Clarity (tingkat kejernihan berlian)

Data dan Metodologi

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(scales)
## Warning: package 'scales' was built under R version 4.4.3
data(diamonds)

diamonds <- diamonds %>%
  mutate(
    cut = factor(cut,
                 levels = c("Fair", "Good", "Very Good", "Premium", "Ideal"),
                 ordered = TRUE),
    clarity = factor(clarity,
                     levels = c("I1","SI2","SI1","VS2","VS1","VVS2","VVS1","IF"),
                     ordered = TRUE)
  )
diamonds
## # A tibble: 53,940 × 10
##    carat cut       color clarity depth table price     x     y     z
##    <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
##  1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
##  2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
##  3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
##  4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
##  5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
##  6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
##  7  0.24 Very Good I     VVS1     62.3    57   336  3.95  3.98  2.47
##  8  0.26 Very Good H     SI1      61.9    55   337  4.07  4.11  2.53
##  9  0.22 Fair      E     VS2      65.1    61   337  3.87  3.78  2.49
## 10  0.23 Very Good H     VS1      59.4    61   338  4     4.05  2.39
## # ℹ 53,930 more rows

Visualisasi

Distribusi Frekuensi Variabel Cut

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "steelblue") +
  labs(title = "Frekuensi Kategori Cut",
       x = "Kategori Cut",
       y = "Jumlah Berlian") +
  theme_minimal()

Berdasarkan grafik frekuensi di atas, terlihat bahwa distribusi kategori cut pada dataset diamonds tidak merata. Kategori Ideal memiliki jumlah observasi paling besar dibandingkan kategori lainnya. Setelah itu disusul oleh Premium dan Very Good. Sementara itu, kategori Good jumlahnya lebih sedikit, dan Fair menjadi kategori dengan frekuensi paling rendah.

Dominasi kategori Ideal menunjukkan bahwa sebagian besar berlian dalam dataset ini memiliki kualitas potongan yang tinggi. Hal ini mengindikasikan bahwa data lebih banyak merepresentasikan berlian dengan kualitas menengah hingga atas dibandingkan kualitas rendah.

Distribusi Clarity pada Setiap Cut

Stacked Bar Chart

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "stack") +
  scale_fill_viridis_d(option = "mako") +
  labs(title = "Distribusi Clarity pada Setiap Cut (Stacked)",
       x = "Cut",
       y = "Jumlah Berlian",
       fill = "Clarity") +
  theme_light(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    panel.grid.major.x = element_blank()
  )

Pads grafik komposisi menunjukkan perbedaan yang jelas dalam distribusi clarity antar-kategori cut. Kategori Ideal tidak hanya memiliki jumlah observasi terbesar tetapi juga menampilkan proporsi relatif yang lebih besar pada tingkat kejernihan menengah-tinggi (mis. VS2, VS1). Sebaliknya, kategori Fair dan Good menunjukkan proporsi yang lebih tinggi pada tingkat kejernihan rendah (I1, SI2).

Grouped Bar Chart

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "dodge") +
  scale_fill_viridis_d(option = "rocket") +
  labs(title = "Distribusi Clarity pada Setiap Cut (Grouped)",
       x = "Cut",
       y = "Jumlah Berlian",
       fill = "Clarity") +
  theme_light(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    panel.grid.major.x = element_blank()
  )

Pada grafik grouped memperlihatkan berapa banyak berlian pada setiap tingkat clarity di tiap kategori cut. Kita lihat bahwa hampir semua tingkat kejernihan (mis. SI1, VS2, VS1) jumlahnya naik ketika cut membaik paling banyak terlihat pada kategori Ideal. Tingkat kejernihan ekstrem seperti IF dan I1 relatif jarang.

Proporsi Clarity pada Setiap Cut

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "fill") +
  scale_y_continuous(labels = scales::percent_format()) +
  scale_fill_brewer(palette = "Set2") +
  labs(title = "Proporsi Clarity dalam Setiap Cut",
       x = "Cut",
       y = "Proporsi (%)",
       fill = "Clarity") +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    panel.grid.major.x = element_blank()
  )

Pada grafik proporsi memperlihatkan bagaimana tingkat kejernihan (clarity) tersebar relatif dalam setiap kategori potongan (cut). Pada umumnya, sebagian besar berlian berada pada tingkat kejernihan menengah (mis. SI1, VS2, VS1). Potongan yang lebih baik (seperti Ideal dan Premium) cenderung memiliki porsi kejernihan tinggi sedikit lebih besar dibanding potongan rendah (Fair), sedangkan potongan rendah menunjukkan porsi yang lebih besar untuk kejernihan rendah. Dengan kata lain, selain perbedaan jumlah, ada kecenderungan bahwa kualitas potongan berasosiasi dengan komposisi kejernihan.

Kesimpulan

Berdasarkan analisis visual yang telah dilakukan, dapat disimpulkan bahwa: Distribusi kategori cut tidak merata dan didominasi oleh kategori Ideal dan Premium, Setiap kategori cut memiliki komposisi clarity yang berbeda, Penggunaan berbagai jenis bar chart memberikan perspektif berbeda: jumlah absolut, perbandingan antar kategori, dan komposisi proporsional.