Pendahuluan

Laporan ini menyajikan analisis visualisasi data diskrit dan kategorik menggunakan dataset diamonds dari paket ggplot2 di R. Dataset ini berisi informasi tentang berlian, termasuk variabel kategorik seperti cut (kualitas potong: Fair, Good, Very Good, Premium, Ideal), color (warna: D hingga J, di mana D adalah yang terbaik), dan clarity (kejelasan: I1 hingga VVS1).

Saya memilih tiga variabel kategorik: cut, color, dan clarity. Analisis ini bertujuan untuk membangun portofolio sebagai data analyst, dengan fokus pada perbandingan frekuensi, komposisi, dan proporsi antar kategori. Pertama, kita muat paket dan dataset yang diperlukan.

library(rlang)
## Warning: package 'rlang' was built under R version 4.4.3
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Visualisasi 1: Bar Chart

Visualisasi ini menunjukkan frekuensi kemunculan setiap kategori pada variabel cut.

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "brown") +
  labs(title = "Frekuensi Kualitas Potong Berlian",
       x = "Kualitas Potong",
       y = "Jumlah Berlian") +
  theme_minimal()

Grafik ini menunjukkan bahwa berlian dengan kualitas potong “Ideal” adalah yang paling umum, dengan jumlah lebih dari 20.000, sementara “Fair” adalah yang paling sedikit. Ini membantu kita melihat distribusi kualitas berlian di pasar, di mana kualitas terbaik mendominasi.

Visualisasi 2: Grouped Bar Chart

Visualisasi ini menunjukkan perbandingan jumlah berlian berdasarkan color yang dikelompokkan oleh cut menggunakan grouped bar chart.

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "dodge") +
  labs(title = "Perbandingan Jumlah Berlian Berdasarkan Warna dan Kualitas Potong",
       x = "Kualitas Potong",
       y = "Jumlah",
       fill = "Warna") +
  theme_minimal() +
  scale_fill_brewer(palette = "YlOrRd") 

Grafik ini memungkinkan perbandingan side-by-side jumlah berlian untuk setiap warna dalam masing-masing kualitas potong. Kita dapat melihat bahwa untuk kualitas “Ideal”, warna “G” memiliki jumlah tertinggi, sementara pola serupa terlihat di kategori lain. Ini membantu dalam membandingkan ketersediaan warna spesifik antar kualitas potong.

Visualisasi 3: Stacked Bar Chart

Visualisasi ini menunjukkan komposisi color dalam setiap kategori cut menggunakan stacked bar chart. Saya menyimpulkan bahwa warna D adalah yang terbaik dan J adalah yang terburuk berdasarkan skala penilaian warna berlian standar dari Gemological Institute of America (GIA), yang merupakan standar industri global untuk menilai kualitas berlian. Skala ini dikenal sebagai D-to-Z, di mana:

D mewakili berlian yang benar-benar tidak berwarna (colorless), yang paling langka dan bernilai tinggi karena tampak paling bening dan berkilau. Semakin mendekati J, berlian mulai menunjukkan sedikit warna kuning atau cokelat (near colorless), yang menurunkan nilainya dibandingkan D, meskipun masih dianggap berkualitas baik untuk mata telanjang. Dalam rentang D hingga J (seperti yang ada di dataset diamonds), J adalah yang paling rendah kualitas warnanya dibandingkan D.

Skala ini dimulai dari D untuk menghindari kebingungan dengan sistem penilaian lama, dan semakin ke Z, warna semakin terlihat (light yellow atau brown), yang semakin murah. Penjelasan ini juga konsisten dengan dokumentasi dataset diamonds di paket ggplot2 R, di mana variabel color menggunakan skala GIA ini untuk mengklasifikasikan berlian

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "stack") +
  labs(title = "Komposisi Warna Berlian Berdasarkan Kualitas Potong",
       x = "Kualitas Potong",
       y = "Jumlah Berlian",
       fill = "Warna") +
  theme_minimal() +
  scale_fill_brewer(palette = "YlOrRd") 

Grafik ini mengilustrasikan bagaimana warna berlian tersebar di setiap tingkat kualitas potong. Misalnya, pada “Ideal”, warna G dan E mendominasi, menunjukkan bahwa berlian berkualitas tinggi cenderung memiliki warna yang lebih baik. Ini berguna untuk memahami hubungan antara kualitas potong dan warna dalam inventaris berlian.

Visualisasi 4: Proportion Bar Chart

Visualisasi ini menunjukkan proporsi relatif color dalam setiap cut menggunakan bar chart dengan pengisian proporsional.

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "fill") +
  labs(title = "Proporsi Warna Berlian Berdasarkan Kualitas Potong",
       x = "Kualitas Potong",
       y = "Proporsi",
       fill = "Warna") +
  theme_minimal() +
  scale_y_continuous(labels = scales::percent) +
  scale_fill_brewer(palette = "YlOrRd")  # ← Mengatur palet warna

Grafik ini memperlihatkan persentase warna dalam setiap kualitas potong. Kita bisa melihat bahwa proporsi warna D (terbaik) meningkat seiring dengan kualitas potong yang lebih baik, seperti dari “Fair” ke “Ideal”. Ini menandakan bahwa berlian berkualitas tinggi lebih mungkin memiliki warna yang superior, membantu dalam pengambilan keputusan pembelian atau analisis pasar.

Visualisasi 5: Lollipop Chart

Visualisasi ini menggunakan lollipop chart untuk variabel diskrit lain yaitu color (warna berlian: D hingga J). Ini menunjukkan frekuensi kemunculan setiap kategori warna.

Pertama, kita hitung frekuensi untuk variabel color.

color_freq <- diamonds %>%
  count(color) %>%
  arrange(desc(n))  # Urutkan berdasarkan frekuensi descending

Sekarang, buat lolipop chart.

ggplot(color_freq, aes(x = reorder(color, n), y = n)) +
  geom_segment(aes(x = reorder(color, n), xend = reorder(color, n), y = 0, yend = n), color = "grey", size = 1) +
  geom_point(size = 5, color = "darkgreen", fill = alpha("lightgreen", 0.6), shape = 21, stroke = 2) +
  labs(title = "Frekuensi Warna Berlian (Lollipop Chart)",
       x = "Warna Berlian (D = terbaik, J = terburuk)",
       y = "Jumlah Berlian") +
  theme_minimal() +
  coord_flip()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Grafik lollipop ini menunjukkan bahwa warna G paling banyak muncul, disusul oleh warna E dan F. Sebaliknya, warna D (paling baik) dan J (paling rendah) jumlahnya paling sedikit. Hal ini berarti sebagian besar berlian dalam data berada pada warna menengah, sedangkan berlian dengan kualitas warna sangat tinggi atau sangat rendah relatif jarang. Kondisi ini bisa menunjukkan bahwa berlian warna D lebih langka dan berpotensi lebih bernilai, sementara warna menengah lebih umum ditemukan di pasaran. Visualisasi ini memudahkan kita melihat perbedaan jumlah tiap warna tanpa harus membaca angka satu per satu.

Visualisasi 6: Dot Plot (clarity)

Visualisasi ini adalah alternatif visualisasi kategorik menggunakan dot plot untuk variabel clarity (kejelasan berlian: I1 hingga VVS1). Dot plot menampilkan setiap kategori dengan satu titik, fokus pada posisi nilai, dan lebih ringan secara visual dibandingkan bar chart.

Clarity dalam konteks berlian mengacu pada tingkat kebersihan atau kejelasan berlian dari inklusi (cacat internal) dan blemishes (cacat eksternal). Semakin tinggi clarity, semakin sedikit cacat yang terlihat, yang membuat berlian lebih berkilau dan bernilai tinggi. Skala ini ditentukan oleh Gemological Institute of America (GIA), yang merupakan standar global.

Skala clarity GIA dari terbaik ke terburuk adalah sebagai berikut: FL (Flawless): Tidak ada inklusi atau blemishes sama sekali, bahkan di bawah pembesaran 10x. Sangat langka. IF (Internally Flawless): Tidak ada inklusi internal, hanya blemishes minor di permukaan. VVS1 dan VVS2 (Very, Very Slightly Included): Inklusi sangat kecil, sulit dilihat bahkan oleh ahli di bawah 10x magnification. VS1 dan VS2 (Very Slightly Included): Inklusi kecil, bisa dilihat dengan usaha tapi dianggap minor. SI1 dan SI2 (Slightly Included): Inklusi terlihat di bawah 10x, tapi biasanya tidak mempengaruhi tampilan mata telanjang. I1, I2, I3 (Included): Inklusi jelas terlihat, bahkan dengan mata telanjang, dan bisa mempengaruhi keindahan serta daya tahan berlian.

Dalam dataset diamonds di R, level clarity yang tersedia adalah IF (terbaik), VVS1, VVS2, VS1, VS2, SI1, SI2, dan I1 (terburuk). Clarity ini adalah salah satu dari “4C” (Cut, Color, Clarity, Carat) yang menentukan kualitas berlian secara keseluruhan Pertama, kita hitung frekuensi untuk variabel clarity.

clarity_freq <- diamonds %>%
  count(clarity) %>%
  arrange(desc(n))  # Urutkan berdasarkan frekuensi descending

Sekarang, buat dot plot.

ggplot(clarity_freq, aes(x = reorder(clarity, n), y = n)) +
  geom_point(size = 5, color = "red", fill = alpha("pink", 0.6), shape = 21, stroke = 2) +
  labs(title = "Frekuensi Kejelasan Berlian (Dot Plot)",
       x = "Kejelasan Berlian (I1 = terburuk, IF = terbaik)",
       y = "Jumlah Berlian") +
  theme_minimal() +
  coord_flip()  # Flip untuk horizontal agar lebih mudah dibaca

Berdasarkan dot plot frekuensi kejelasan berlian, terlihat bahwa kategori SI1 dan VS2 mendominasi dengan jumlah berlian tertinggi, menunjukkan bahwa pasar didominasi oleh berlian dengan kejelasan sedang. Sementara itu, kategori terbaik (IF) dan terburuk (I1) justru paling jarang ditemukan, mengindikasikan bahwa berlian dengan kejelasan sempurna atau cacat berat relatif langka. Visualisasi ini memudahkan pembacaan perbandingan antar kategori tanpa gangguan visual berlebih, sekaligus menegaskan bahwa konsumen lebih sering menemukan berlian dengan kejelasan menengah daripada kualitas ekstrem.

Kesimpulan

Analisis visualisasi data diskrit dan kategorik pada dataset diamonds ini telah berhasil menyoroti distribusi serta hubungan antar variabel kategorik utama, yaitu kualitas potong (cut), warna (color), dan kejelasan (clarity). Melalui berbagai jenis visualisasi yang digunakan, mulai dari bar chart frekuensi sederhana, grouped bar chart, stacked bar chart, proportion bar chart, hingga alternatif seperti lollipop chart dan dot plot, kita dapat memahami pola data dengan lebih jelas dan mendalam. Secara keseluruhan, analisis menunjukkan bahwa berlian dengan kualitas potong “Ideal” mendominasi dataset, dengan distribusi warna yang relatif seragam di seluruh kategori potong, di mana warna “G” dan “E” paling umum. Proporsi warna juga menunjukkan keseragaman, meskipun warna premium seperti “D” memiliki persentase lebih rendah, dan terdapat peningkatan proporsi warna terbaik seiring dengan kualitas potong yang lebih tinggi. Selain itu, untuk kejelasan, kategori “SI1” dan “VS2” paling dominan, sementara yang terbaik seperti “IF” sangat langka.

Visualisasi-visualisasi ini tidak hanya memenuhi tujuan analisis untuk membandingkan frekuensi, komposisi, dan proporsi antar kategori, tetapi juga mendemonstrasikan prinsip desain visual yang baik, seperti penggunaan warna yang kontras, label yang informatif, urutan kategori yang bermakna, dan pemilihan grafik sesuai dengan pertanyaan analisis. Alternatif visualisasi seperti lollipop dan dot plot menunjukkan fleksibilitas dalam menyajikan data kategorik, terutama ketika jumlah kategori banyak atau untuk tampilan yang lebih ringan secara visual. Dalam konteks bisnis atau industri berlian, insights ini dapat mendukung keputusan strategis, seperti pengadaan stok berlian yang lebih tepat sasaran berdasarkan ketersediaan warna dan kejelasan, penetapan harga yang mempertimbangkan distribusi kualitas, atau strategi pemasaran yang menekankan pada varian paling populer seperti “Ideal” dengan warna “G”. Analisis ini menggarisbawahi pentingnya visualisasi data sebagai alat untuk mengubah data mentah menjadi informasi yang actionable dan mudah dipahami oleh audiens non-teknis, seperti manajer penjualan atau pembeli berlian. Dengan memposisikan diri sebagai data analyst, laporan ini menjadi bagian dari portofolio profesional yang menunjukkan kemampuan dalam menganalisis dan menyajikan data secara efektif.