Sebagai seorang data analyst, langkah pertama yang saya lakukan dalam analisis data yaitu memahami struktur dan karakteristik dataset yang akan saya gunakan. Pada kali ini saya menggunakan dataset diamonds, yaitu dataset bawaan dari package ggplot2 yang berisi informasi mengenai atribut berlian seperti harga, berat karat, warna, kejernihan, dan kualitas potongan. Pada analisis kali ini saya memfokuskan pada eksplorasi variabel numerik guna menemukan pola distribusi serta hubungan antar variabel melalui visualisasi data. Untuk memperoleh pemahaman yang lebih mendalam saya menggunakan beberapa jenis grafik pada kali ini, yaitu bar chart, grouped bar chart, dan proportion bar chart, yang masing-masing memiliki fungsi analitis yang berbeda. Variabel numerik yang saya gunakan dalam analisis ini adalah carat (berat berlian) dan price (harga berlian), saya memilih variabel carat dan price dengan tujuan untuk melihat bagaimana distribusi berat berlian tersebar dalam dataset serta bagaimana keterkaitannya dengan variasi harga.

Bar chart saya gunakan untuk menampilkan distribusi frekuensi suatu variabel sehingga dapat terlihat kategori atau rentang nilai yang paling dominan dalam dataset. Lalu penggunaan grouped bar chart saya gunakan untuk membandingkan distribusi satu variabel terhadap variabel lainnya secara berdampingan, sehingga memudahkan identifikasi pola hubungan atau perbedaan karakteristik antar kelompok data. Dan yang terakhir proportion bar chart saya gunakan untuk menunjukkan komposisi persentase dalam setiap kategori, sehingga analisis tidak hanya berfokus pada jumlah absolut tetapi juga proporsi relatif antar kelompok.

Dengan mengombinasikan ketiga jenis visualisasi tersebut, proses analisis menjadi lebih informatif karena mampu menampilkan gambaran distribusi data, perbandingan antar kategori, serta komposisi proporsional secara simultan. Pendekatan ini memungkinkan penarikan insight yang lebih tajam dan mendukung pengambilan keputusan berbasis data secara lebih akurat dan sistematis. Baiklah kita masuk pada visualisasi pertama kita, disini kita ingin memahami bagaimana distribusi berat berlian (carat) dalam dataset. Bar chart ini digunakan untuk menampilkan frekuensi setiap kelompok carat, sehingga kita dapat melihat rentang nilai yang paling banyak muncul.

ggplot(diamonds, aes(x = cut_width(carat, 1))) +
  geom_bar(fill = "skyblue") +
  labs(
    title = "Frekuensi Kelompok Carat",
    x = "Kelompok Carat",
    y = "Jumlah"
  ) +
  theme_minimal()

Dari grafik terlihat bahwa sebagian besar berlian berada pada kelompok carat rendah hingga sedang, sementara berlian dengan berat besar relatif jarang. Distribusi menunjukkan pola right-skewed yang di mana sebagian besar observasi terkonsentrasi pada carat rendah dan frekuensi menurun seiring meningkatnya berat berlian. Hal ini mengindikasikan bahwa berlian kecil lebih umum dalam dataset dibandingkan berlian berukuran besar. Setelahnya kita akan melihat hubungan antara berat (carat) dan harga (price) dengan menggunakan grouped bar chart. Grafik ini menampilkan perbandingan jumlah berlian berdasarkan kategori carat dan kategori harga. Dengan cara ini, kita dapat mengamati pola distribusi harga pada setiap kelompok berat berlian.

ggplot(diamonds, aes(x = cut_width(carat, 1),
                     fill = cut_width(price, 2000))) +
  geom_bar(position = "dodge") +
  labs(title = "Distribusi Carat Berdasarkan Kategori Harga",
       x = "Kelompok Carat",
       y = "Jumlah",
       fill = "Kategori Harga") +
  theme_minimal()+
  scale_fill_brewer(palette = "Set3")

Dari grafik diatas kita dapat melihat bahwa berlian dengan berat kecil hingga sedang didominasi oleh harga rendah hingga menengah. Sementara berlian berat cenderung memiliki harga tinggi. Hal ini mengindikasikan hubungan positif antara berat dan harga berlian, yang dapat menjadi dasar untuk analisis lebih lanjut dalam pemodelan prediksi harga berlian. Selanjutnya kita akan melihat komposisi proporsional harga dalam setiap kelompok berat berlian dengan menggunakan proportion bar chart.

ggplot(diamonds, aes(x = cut_width(carat, 1),
                     fill = cut_width(price, 2000))) +
  geom_bar(position = "fill") +
  labs(title = "Proporsi Harga pada Setiap Kelompok Carat",
       x = "Kelompok Carat",
       y = "Proporsi",
       fill = "Kategori Harga") +
  theme_minimal()+
  scale_fill_brewer(palette = "Set3")

Grafik yang kita hasilkan menunjukkan bahwa walaupun jumlah absolut berlian lebih banyak di kelompok carat rendah, proporsi harga tinggi lebih terlihat pada kelompok carat besar. Artinya, proporsi harga tinggi meningkat seiring bertambahnya berat berlian.

Berdasarkan analisis yang telah dilakukan terhadap variabel numerik carat dan price pada dataset diamonds, dapat kita simpulkan bahwa sebagian besar berlian berada pada kelompok berat rendah hingga sedang, sementara berlian dengan berat besar relatif jarang. Hal ini menunjukkan bahwa distribusi data tidak merata, dengan dominasi berlian berukuran kecil hingga sedang. Analisis hubungan antara carat dan price menunjukkan pola yang jelas bahwa harga berlian meningkat seiring bertambahnya berat, dimana berlian berat cenderung memiliki harga yang lebih tinggi, sedangkan berlian ringan lebih banyak berada pada harga rendah hingga menengah. pada analisis proporsi menunjukkan bahwa proporsi harga tinggi meningkat seiring bertambahnya kelompok carat, sehingga memberikan gambaran yang lebih lengkap mengenai nilai ekonomi berlian dalam setiap kategori berat. Secara keseluruhan, kombinasi visualisasi bar chart, grouped bar chart, dan proportion bar chart memungkinkan pemahaman yang komprehensif atau mendalam terhadap distribusi dan hubungan antar variabel numerik, serta memberikan insight yang relevan untuk pengambilan keputusan berbasis data.