Visualisasi Data pada dataset Diamonds

Pendahuluan
Visualisasi 1: Bar Chart
Visualisasi 2: Grouped Bar Chart
Visualisasi 3: Stacked Bar Chart
Visualisasi 4: Proportion Bar Chart
Penutup

Pendahuluan

Visualisasi data merupakan bagian penting dalam proses analisis, terutama pada tahap eksplorasi awal. Melalui visualisasi, pola distribusi, perbandingan antar kategori, serta kecenderungan tertentu dalam data dapat dipahami secara lebih jelas dibandingkan hanya melihat angka dalam bentuk tabel. Grafik membantu menyederhanakan informasi sehingga lebih mudah diinterpretasikan, baik oleh pembaca teknis maupun non-teknis.

Dalam laporan ini, analisis difokuskan pada variabel kategorik dalam dataset diamonds dari package ggplot2. Variabel yang dianalisis meliputi cut, color, dan clarity, yang masing-masing merepresentasikan karakteristik kualitas berlian dalam bentuk kategori. Karena variabel tersebut tidak memiliki makna numerik secara langsung, pendekatan visualisasi yang digunakan bertujuan untuk melihat distribusi frekuensi, perbandingan antar kategori, serta komposisi relatifnya.

Tujuan dari visualisasi ini bukan hanya untuk menampilkan jumlah data, tetapi juga untuk memahami bagaimana pola distribusi antar kategori terbentuk dan apakah terdapat kecenderungan tertentu yang dapat diidentifikasi dari hubungan antar variabel tersebut.

Visualisasi 1: Bar Chart

Bar chart digunakan untuk menampilkan distribusi frekuensi dari satu variabel kategorik. Pada grafik ini dianalisis distribusi jumlah berlian berdasarkan cut atau tingkat kualitas potongan. Analisis ini penting untuk mengetahui bagaimana penyebaran kualitas potongan dalam dataset.

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = green_mid) +
  labs(
    title = "Distribusi Jumlah Berlian Berdasarkan Kualitas Cut",
    x = "Kualitas Cut",
    y = "Jumlah Berlian"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, color = green_main)
  )

Distribusi menunjukkan bahwa kategori Ideal memiliki jumlah observasi paling besar dibandingkan kategori lainnya, dengan selisih yang cukup signifikan. Hal ini mengindikasikan bahwa dataset tidak memiliki distribusi yang seimbang antar kategori potongan. Dominasi kategori Ideal membuat karakteristik kelompok ini berpotensi lebih memengaruhi gambaran umum dataset secara keseluruhan.

Ketidakseimbangan ini penting untuk dicatat karena dalam analisis lanjutan, kategori dengan jumlah besar cenderung lebih “menentukan arah” hasil analisis. Dengan kata lain, jika dilakukan eksplorasi hubungan antara cut dengan variabel lain seperti clarity atau price, pola yang muncul bisa sangat dipengaruhi oleh kategori mayoritas tersebut. Oleh karena itu, pemahaman awal mengenai distribusi frekuensi ini menjadi dasar penting sebelum melakukan analisis yang lebih kompleks.

Visualisasi 2: Grouped Bar Chart

Grouped bar chart digunakan untuk membandingkan dua variabel kategorik secara bersamaan. Grafik ini menganalisis distribusi warna (color) dalam setiap kategori potongan (cut). Tujuannya adalah untuk melihat apakah terdapat kecenderungan warna tertentu pada tingkat potongan tertentu.

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "dodge") +
  scale_fill_brewer(palette = "Greens") +
  labs(
    title = "Distribusi Warna Berlian pada Setiap Kategori Cut",
    x = "Kualitas Cut",
    y = "Jumlah Berlian",
    fill = "Warna"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, color = green_main)
  )

Grafik ini memperlihatkan distribusi warna dalam masing-masing kategori cut. Secara umum, warna seperti E, F, dan G tampak cukup dominan di hampir semua kategori potongan. Tidak terlihat adanya pola ekstrem yang menunjukkan bahwa warna tertentu hanya terkonsentrasi pada jenis potongan tertentu.

Pola ini menunjukkan bahwa dalam dataset ini, kualitas potongan dan warna tidak memperlihatkan keterkaitan distribusi yang sangat kuat. Jika terdapat hubungan yang kuat, seharusnya kita melihat perbedaan komposisi warna yang jelas antar kategori cut. Namun karena distribusinya relatif mirip, dapat dikatakan bahwa variasi warna tersebar cukup merata pada berbagai tingkat potongan. Hal ini memberi gambaran bahwa kedua variabel tersebut cenderung berdiri cukup independen dalam konteks distribusi frekuensi.

Visualisasi 3: Stacked Bar Chart

Stacked bar chart membantu kita melihat bagaimana suatu kategori tersusun dari beberapa bagian. Tinggi batang menunjukkan jumlah total, sementara warna-warna di dalamnya menunjukkan kontribusi tiap kategori penyusunnya. Grafik ini digunakan untuk melihat komposisi warna dalam setiap kategori cut berdasarkan jumlah total. Berbeda dengan grouped bar chart yang fokus pada perbandingan berdampingan, stacked chart lebih menekankan pada total dan struktur penyusunnya.

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "stack") +
  scale_fill_brewer(palette = "Greens") +
  labs(
    title = "Komposisi Warna Berlian pada Setiap Kategori Cut",
    x = "Kualitas Cut",
    y = "Jumlah Berlian",
    fill = "Warna"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, color = green_main)
  )

Melalui stacked bar chart, terlihat bahwa kategori Ideal memiliki total jumlah yang paling tinggi, sehingga seluruh warna pada kategori tersebut juga tampak lebih besar secara absolut. Namun perlu ditekankan bahwa dominasi ini lebih mencerminkan besarnya jumlah total observasi pada kategori tersebut, bukan karena warna tertentu secara proporsional lebih dominan.

Grafik ini membantu mempertegas bahwa dataset secara umum didominasi oleh potongan berkualitas tinggi. Namun untuk membandingkan struktur komposisi secara lebih adil antar kategori, diperlukan pendekatan proporsional. Dengan demikian, stacked bar chart lebih tepat digunakan untuk memahami volume data dan kontribusi absolut masing-masing kategori.

Visualisasi 4: Proportion Bar Chart

Proportion bar chart digunakan untuk menampilkan komposisi kategori dalam bentuk proporsi. Setiap batang dinormalisasi menjadi 100%, sehingga fokus analisis bukan lagi pada jumlah, melainkan pada perbandingan relatif. Grafik ini menganalisis proporsi tingkat kejernihan (clarity) dalam setiap kategori cut. Tujuannya adalah untuk melihat apakah struktur kejernihan berbeda secara relatif antar tingkat potongan.

ggplot(diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "fill") +
  scale_y_continuous(labels = scales::percent_format()) +
  scale_fill_brewer(palette = "Greens") +
  labs(
    title = "Proporsi Clarity pada Setiap Kategori Cut",
    x = "Kualitas Cut",
    y = "Proporsi",
    fill = "Clarity"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, color = green_main)
  )

Ketika komposisi clarity ditampilkan dalam bentuk proporsi, terlihat bahwa pola distribusinya relatif serupa di berbagai kategori cut. Tidak tampak adanya perbedaan proporsi yang sangat mencolok antar kelompok potongan.

Hal ini mengindikasikan bahwa tingkat kejernihan dalam dataset ini tidak terlalu dipengaruhi oleh kualitas potongan secara distribusi relatif. Jika terdapat hubungan yang kuat antara cut dan clarity, seharusnya terlihat perbedaan komposisi yang signifikan pada grafik proporsi. Namun karena distribusinya cenderung stabil, dapat disimpulkan bahwa dalam konteks dataset ini, kedua variabel tersebut tidak menunjukkan keterkaitan yang dominan secara visual.

Penutup

Berdasarkan hasil visualisasi yang dilakukan, terlihat bahwa data berlian dalam dataset ini paling banyak berada pada kategori potongan Ideal, dengan jumlah yang cukup jauh dibandingkan kategori potongan lainnya. Kondisi ini menunjukkan bahwa penyebaran data pada variabel cut tidak merata. Perbedaan jumlah ini penting untuk diperhatikan karena bisa memengaruhi cara kita memahami hasil analisis selanjutnya.

Sementara itu, jika dilihat dari color dan clarity pada setiap kategori cut, polanya terlihat cukup mirip dan tidak menunjukkan perbedaan yang terlalu mencolok jika dibandingkan secara proporsional. Artinya, meskipun jumlah total pada tiap kategori berbeda, susunan warna dan kejernihannya relatif serupa. Hal ini menunjukkan bahwa dalam dataset ini, cut, color, dan clarity tidak memperlihatkan hubungan yang terlalu kuat jika dilihat dari penyebaran datanya.

Secara umum, visualisasi ini membantu memberikan gambaran awal mengenai karakteristik data berlian yang dianalisis. Pemahaman tentang bagaimana data tersebar dan tersusun dalam setiap kategori menjadi langkah awal yang penting sebelum melakukan analisis yang lebih lanjut.