Visualisasi Data Diskrit dan Kategorik

Pendahuluan

Visualisasi data merupakan cara yang efektif untuk menyampaikan informasi secara ringkas, jelas dan mudah dipahami terutama oleh kalangan awan. Melalui visualisasi, penyebaran dan perbandingan data dapat diamati dengan lebih mudah dibandingkan penyajian dalam bentuk tabel. Selain untuk mempermudah pemahaman, visualisasi data juga mempercepat proses pengambilan keputusan berdasarkan informasi yang dihasilkan.

Studi Kasus

Studi kasus ini berfokus pada analisis data berlian untuk melihat hubungan antara warna berlian dan kualitas potongannya. Dengan memanfaatkan dataset dari R, dilakukan eksplorasi untuk mengetahui bagaimana distribusi kualitas potongan (cut) pada masing-masing kategori warna (color). Proses analisis dilakukan melalui beberapa bentuk visualisasi, yaitu bar chart untuk menampilkan jumlah setiap kategori kualitas potongan, grouped bar chart untuk membandingkan kombinasi warna dan kualitas potongan, serta proportion bar chart untuk melihat perbandingan proporsi kualitas potongan dalam setiap warna berlian.

Tujuan Visualisasi

Visualisasi ini bertujuan untuk mempermudah pembaca dalam memahami karakteristik berlian secara lebih cepat. Melalui grafik yang disajikan, pembaca bisa mengidentifikasi kategori potongan yang paling dominan serta melihat variasi komposisi kualitas potongan pada warna berlian secara lebih jelas dan mudah.

Deskripsi Data dan Variabel yang digunakan

Dataset diamonds merupakan dataset bawaan dari package R yang berisi informasi karakteristik berlian. Variabel yang digunakan dalam analisis ini adalah:

  • cut (kualitas potongan)
  • color (warna berlian)

Persiapan Data

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Visualisasi Data

Visualisasi 1: Bar Chart

Frekuensi Berlian Berdasarkan Kualitas Potongan (Cut)

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "pink", color = "black") +
  labs(
    title = "Frekuensi Berlian Berdasarkan Kualitas Potongan",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian"
  ) +
  theme_bw()

Interpretasi:

Grafik tersebut menunjukkan bahwa jumlah berlian berbeda-beda berdasarkan kualitas potongannya. Berlian dengan kualitas potongan Ideal memiliki jumlah paling banyak, sehingga dapat dikatakan paling dominan dalam data. Selanjutnya disusul oleh potongan Premium dan Very Good yang juga jumlahnya cukup besar, namun masih lebih sedikit dibandingkan Ideal. Sementara itu, berlian dengan potongan Good jumlahnya relatif lebih sedikit. Adapun potongan Fair merupakan yang paling jarang ditemukan karena memiliki jumlah paling rendah. Secara umum, dapat disimpulkan bahwa semakin baik kualitas potongan berlian, semakin besar jumlah berlian yang terdapat dalam data tersebut.

Visualisasi 2: Group Bar Chart

Distribusi Kualitas Potongan Berlian Berdasarkan Warna

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "dodge", color = "black") +
  labs(
    title = "Distribusi Kualitas Potongan Berlian Berdasarkan Warna",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Warna"
  ) +
  scale_fill_brewer(palette = "Set2") +
  theme_bw()

Interpretasi

Grafik menunjukkan bahwa kualitas potongan Ideal memiliki jumlah berlian paling banyak pada hampir semua kategori warna. Sebaliknya, kualitas potongan Fair memiliki jumlah paling sedikit. Secara umum, semakin baik kualitas potongan (dari Fair ke Ideal), jumlah berlian cenderung semakin meningkat. Selain itu, pada setiap tingkat potongan, warna tertentu memiliki jumlah yang lebih dominan dibanding warna lainnya, namun pola utamanya tetap menunjukkan bahwa potongan Ideal dan Premium lebih banyak dibanding kategori lainnya.

Visualisasi 3: Proportion Bar Chart

Proporsi Kualitas Potongan pada Setiap Warna Berlian

ggplot(diamonds, aes(x = color, fill = cut)) +
  geom_bar(position = "fill", color = "black") +
  labs(
    title = "Proporsi Kualitas Potongan pada Setiap Warna Berlian",
    x = "Warna Berlian (Color)",
    y = "Proporsi",
    fill = "Kualitas Potongan"
  ) +
  scale_fill_brewer(palette = "Set2") +
  theme_bw()

Interpretasi

Grafik tersebut memperlihatkan proporsi kualitas potongan berlian pada setiap kategori warna (D sampai J). Terlihat pada semua warna, kualitas Ideal memiliki proporsi paling besar dibandingkan kualitas lainnya. Hal ini menunjukkan bahwa sebagian besar berlia memiliki potongan dengan kualitas terbaik. Kategori Premium dan Very Good juga memiliki proporsi yang cukup besar dan cenderung stabil di setiap warna. Artinya, selain kualitas Ideal, dua kategori ini juga cukup dominan dalam data. Sementara itu, kualitas Good memiliki proporsi yang lebih kecil, dan Fair menjadi yang paling sedikit di hampir semua warna. Secara keseluruhan, pola distribusi kualitas potongan relatif mirip pada setiap warna berlian, tanpa perbedaan yang terlalu mencolok antar warna.

Kesimpulan

Dari seluruh visualisasi, terlihat bahwa kualitas potongan Ideal dan Premium mendominasi jumlah berlian pada hampir semua kategori warna. Sementara itu, potongan Fair memiliki jumlah paling sedikit di setiap warna. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik. Jika dilihat dari perbandingan antar warna, setiap warna berlian memiliki pola distribusi yang relatif mirip, di mana potongan Ideal cenderung menjadi yang paling banyak. Tetapi, jumlah total berlian berbeda-beda pada tiap warna, sehingga grafik jumlah (grouped bar chart) membantu melihat perbedaan kuantitas secara langsung.

Melalui bar chart, kita dapat melihat total distribusi kualitas potongan secara umum. Grouped bar chart memperlihatkan perbandingan jumlah potongan pada masing-masing warna berlian. Sedangkan proportion bar chart menunjukkan komposisi atau persentase kualitas potongan di setiap warna, sehingga memudahkan pembaca membandingkan struktur distribusi tanpa dipengaruhi oleh perbedaan jumlah total berlian pada tiap warna.