library(ggplot2)
library(dplyr)
library(scales)
library(tidyr)
library(RColorBrewer)

# panggil dataset
data("diamonds")

Pendahuluan

Visualisasi data merupakan salah satu cara paling efektif untuk memahami informasi dalam jumlah besar. Dengan grafik, seseorang dapat dengan cepat melihat pola, perbandingan, dan kecenderungan data tanpa harus membaca tabel angka yang panjang.

Pada laporan ini digunakan dataset diamonds dari package ggplot2 di R. Dataset ini berisi lebih dari 50.000 data berlian yang memiliki beberapa karakteristik, seperti kualitas potongan, warna, dan kejernihan.

Analisis difokuskan pada variabel kategorik: cut (kualitas potongan), color (warna berlian), dan clarity (kejernihan berlian). Tujuan analisis adalah mengetahui karakteristik berlian yang paling sering muncul berdasarkan data.

Deskripsi Data

nrow(diamonds)
## [1] 53940
ncol(diamonds)
## [1] 10
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

Visualisasi 1: Bar Chart Kualitas Potongan

ggplot(diamonds, aes(x=cut))+
  geom_bar(fill="steelblue")+
  labs(title="Jumlah Berlian Berdasarkan Kualitas Potongan",
       x="Kualitas Potongan",
       y="Jumlah")+
  theme_minimal()

Interpretasi:

Grafik menunjukkan jumlah berlian berdasarkan kualitas potongan. Terlihat bahwa kategori Ideal merupakan yang paling banyak, sedangkan Fair paling sedikit. Artinya sebagian besar berlian pada data memiliki kualitas potongan yang baik. Hal ini menunjukkan bahwa berlian dengan potongan bagus lebih banyak tersedia dan lebih diminati dibanding kualitas rendah.

Visualisasi 2: Grouped Bar Chart Cut dan Color

ggplot(diamonds, aes(x=cut, fill=color))+
  geom_bar(position="dodge")+
  labs(title="Distribusi Warna pada Setiap Kualitas Potongan",
       x="Kualitas Potongan",
       y="Jumlah",
       fill="Warna")+
  theme_minimal()

Interpretasi:

Grafik memperlihatkan distribusi warna berlian dari D sampai J. Kategori G memiliki jumlah terbanyak, sedangkan kategori warna terbaik seperti D lebih sedikit. Ini berarti sebagian besar berlian memiliki kualitas warna menengah. Berlian dengan warna sangat jernih relatif lebih jarang karena biasanya lebih mahal.

Visualisasi 3: Proportion Bar Chart Clarity

ggplot(diamonds, aes(x=cut, fill=clarity))+
  geom_bar(position="fill")+
  scale_y_continuous(labels=scales::percent)+
  labs(title="Proporsi Kejernihan pada Setiap Kualitas Potongan",
       x="Kualitas Potongan",
       y="Proporsi",
       fill="Clarity")+
  theme_minimal()

Interpretasi:

Grafik menunjukkan tingkat kejernihan berlian. Kategori SI1 dan VS2 paling banyak ditemukan, sedangkan IF paling sedikit. Hal ini menunjukkan bahwa mayoritas berlian memiliki kejernihan sedang. Berlian yang benar-benar tanpa cacat jumlahnya sangat sedikit karena termasuk kategori langka dan bernilai tinggi.

Kesimpulan

Berdasarkan ketiga visualisasi pada dataset diamonds, dapat dipahami bahwa sebagian besar berlian yang ada di data memiliki kualitas potongan yang baik, terutama pada kategori potongan yang paling rapi. Artinya, di pasaran lebih mudah menemukan berlian dengan potongan yang bagus dibandingkan potongan yang kurang baik.

Dari sisi warna dan kejernihan, mayoritas berlian berada pada kualitas menengah. Berlian dengan kualitas yang sangat sempurna memang ada, tetapi jumlahnya sedikit sehingga termasuk lebih langka. Hal ini wajar karena semakin tinggi kualitas berlian, semakin sulit ditemukan.

Secara sederhana, data ini menunjukkan bahwa berlian yang umum dijual di pasaran bukanlah berlian kualitas paling rendah dan juga bukan yang paling sempurna, melainkan kualitas standar yang masih bagus. Jadi, kebanyakan konsumen sebenarnya membeli berlian dengan kualitas yang sudah cukup baik, tetapi tidak harus yang paling mahal atau paling langka.