Pendahuluan

Visualisasi data merupakan salah satu cara penting untuk memahami pola dan karakteristik suatu dataset. Dengan bantuan grafik, informasi yang awalnya berupa angka dan kategori dapat ditampilkan secara lebih jelas dan mudah dipahami.

Nah di sini saya menggunakan dataset diamonds yang bisa diakses pada package ggplot2. Dataset diamonds berisi informasi mengenai karakteristik berlian, yang dimana akan saya visualisasikan melalui beberapa jenis grafik. Variabel yang digunakan dalam analisis ini adalah variabel kategorik seperti cut, color, dan clarity, karena variabel tersebut dapat menunjukkan perbedaan kualitas dan karakteristik berlian secara lebih spesifik.

Melalui visualisasi ini, saya ingin melihat bagaimana distribusi masing-masing kategori serta bagaimana perbandingan antar variabel tersebut. Dengan menggunakan bar chart, grouped bar chart, stacked bar chart, dan proportion bar chart, diharapkan hasil yang diperoleh dapat memberikan gambaran yang lebih jelas mengenai komposisi dan sebaran data pada dataset diamonds.

Visualisasi Data

Memanggil Package dan Dataset

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Visualisasi Bar Chart

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "steelblue") +
  labs(
    title = "Jumlah Berlian Berdasarkan Kualitas Potongan",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian"
  )

Interpretasi

Berdasarkan grafik jumlah berlian berdasarkan kualitas potongan (cut), terlihat bahwa kategori Ideal memiliki frekuensi tertinggi, diikuti oleh kategori Premium dan Very Good. Sementara itu, kategori Fair memiliki jumlah paling sedikit. Hal ini menunjukkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik. Distribusi ini tidak merata karena terdapat perbedaan jumlah yang cukup signifikan antar kategori potongan.

Visualisasi Grouped Bar Chart

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "dodge") +
  labs(
    title = "Jumlah Berlian Berdasarkan Cut dan Color",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Color"
  )

Interpretasi

Berdasarkan grafik, terlihat bahwa jumlah berlian berbeda-beda untuk setiap kombinasi kualitas potongan dan warna. Beberapa warna seperti G, H, dan I terlihat lebih banyak muncul di hampir semua jenis potongan.

Selain itu, potongan Ideal dan Premium juga memiliki jumlah yang lebih banyak dibandingkan kategori lainnya. Jadi bisa dilihat bahwa jumlah berlian tidak hanya tergantung pada satu faktor saja, tetapi juga dipengaruhi oleh kombinasi antara potongan dan warna.Secara umum, grafik ini menunjukkan bahwa ada perbedaan jumlah berlian jika dilihat dari dua variabel sekaligus, yaitu cut dan color.

Visualisasi Stacked Bar Chart

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "stack") +
  labs(
    title = "Komposisi Clarity pada Setiap Kategori Cut",
    x = "Kualitas Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Clarity"
  )

Interpretasi

Dari grafik ini bisa dilihat bahwa setiap jenis potongan punya tingkat kejernihan yang berbeda-beda. Tapi kalau diperhatikan, kategori seperti SI1 dan VS2 terlihat lebih sering muncul dibanding yang lain di hampir semua jenis potongan.

Selain itu, potongan Ideal dan Premium jumlahnya memang lebih banyak, jadi batangnya kelihatan lebih tinggi. Secara umum, kejernihan berlian ada di semua jenis potongan, hanya saja ada beberapa kategori yang lebih dominan.

Visualisasi Proportion Bar Chart

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "fill") +
  labs(
    title = "Proporsi Warna pada Setiap Kategori Cut",
    x = "Kualitas Potongan (Cut)",
    y = "Proporsi",
    fill = "Color"
  )

Interpretasi

Dari grafik ini terlihat bahwa setiap jenis potongan memiliki komposisi warna yang berbeda-beda jika dilihat dalam bentuk proporsi. Karena grafik ini menunjukkan persentase, tinggi setiap batang sama, jadi yang terlihat adalah perbandingan warna di dalam masing-masing kategori potongan.

Secara umum, beberapa warna seperti G, H, dan I terlihat cukup sering muncul di hampir semua jenis potongan. Walaupun ada sedikit perbedaan, komposisi warnanya tidak terlalu jauh berbeda antar kategori cut.

Kesimpulan

Berdasarkan visualisasi yang telah dibuat, dapat dilihat bahwa distribusi berlian dalam dataset diamonds tidak merata pada setiap kategori. Beberapa kategori seperti cut Ideal dan Very Good memiliki jumlah yang lebih banyak dibandingkan kategori lainnya. Hal ini menunjukkan bahwa kualitas potongan tertentu lebih dominan dalam dataset.

Selain itu, dari grafik grouped dan proportion bar chart terlihat bahwa warna dan kejernihan berlian tersebar di setiap kategori cut dengan komposisi yang relatif mirip, meskipun tetap ada beberapa kategori yang lebih mendominasi. Secara keseluruhan, visualisasi ini membantu memahami pola distribusi dan komposisi data secara lebih jelas dibandingkan hanya melihat tabel angka saja.