Pendahuluan

Visualisasi data merupakan alat penting dalam statistika untuk memahami pola, distribusi, serta hubungan antar variabel. Pada laporan ini digunakan dataset diamonds yang tersedia pada paket ggplot2 untuk menganalisis data diskrit dan kategorik melalui berbagai bentuk visualisasi.

Dataset diamonds memuat informasi mengenai karakteristik berlian, seperti berat (carat), kualitas potongan (cut), warna (color), kejernihan (clarity), serta harga (price). Analisis ini disusun dengan pendekatan eksploratif untuk membantu pembaca memahami karakteristik pasar berlian melalui visualisasi data.

Deskripsi Dataset

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
data(diamonds)
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
summary(diamonds)
##      carat               cut        color        clarity          depth      
##  Min.   :0.2000   Fair     : 1610   D: 6775   SI1    :13065   Min.   :43.00  
##  1st Qu.:0.4000   Good     : 4906   E: 9797   VS2    :12258   1st Qu.:61.00  
##  Median :0.7000   Very Good:12082   F: 9542   SI2    : 9194   Median :61.80  
##  Mean   :0.7979   Premium  :13791   G:11292   VS1    : 8171   Mean   :61.75  
##  3rd Qu.:1.0400   Ideal    :21551   H: 8304   VVS2   : 5066   3rd Qu.:62.50  
##  Max.   :5.0100                     I: 5422   VVS1   : 3655   Max.   :79.00  
##                                     J: 2808   (Other): 2531                  
##      table           price             x                y         
##  Min.   :43.00   Min.   :  326   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:56.00   1st Qu.:  950   1st Qu.: 4.710   1st Qu.: 4.720  
##  Median :57.00   Median : 2401   Median : 5.700   Median : 5.710  
##  Mean   :57.46   Mean   : 3933   Mean   : 5.731   Mean   : 5.735  
##  3rd Qu.:59.00   3rd Qu.: 5324   3rd Qu.: 6.540   3rd Qu.: 6.540  
##  Max.   :95.00   Max.   :18823   Max.   :10.740   Max.   :58.900  
##                                                                   
##        z         
##  Min.   : 0.000  
##  1st Qu.: 2.910  
##  Median : 3.530  
##  Mean   : 3.539  
##  3rd Qu.: 4.040  
##  Max.   :31.800  
## 

Dataset ini terdiri dari 53.940 observasi dan 10 variabel, yang mencakup variabel numerik, diskrit, dan kategorik.

Identifikasi Jenis Data

1. Data Kategorik

Variabel kategorik dalam dataset diamonds meliputi:

  • cut (Fair, Good, Very Good, Premium, Ideal)
  • color (D sampai J)
  • clarity (I1 sampai IF)

2. Data Diskrit / Numerik

Variabel numerik yang digunakan dalam analisis:

  • price
  • carat

Visualisasi Data Kategorik

Bar chart

Distribusi Kualitas Potongan Berlian (Cut)

ggplot(diamonds, aes(x = cut)) +
  geom_bar() +
  labs(
    title = "Distribusi Kualitas Potongan Berlian",
    x = "Jenis Potongan (Cut)",
    y = "Jumlah Berlian"
  )

Interpretasi: Grafik menunjukkan bahwa jenis potongan Ideal memiliki jumlah terbanyak, sedangkan Fair merupakan yang paling sedikit.

Distribusi Warna Berlian (Color)

ggplot(diamonds, aes(x = color)) +
  geom_bar() +
  labs(
    title = "Distribusi Warna Berlian",
    x = "Warna Berlian",
    y = "Jumlah Berlian"
  )

Interpretasi: Warna G dan E mendominasi dataset, menunjukkan preferensi pasar terhadap warna tertentu.

Grouped / Stacked Bar Chart

Distribusi Kualitas Potongan Berdasarkan Warna Berlian

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar() +
  labs(
    title = "Distribusi Kualitas Potongan Berlian Berdasarkan Warna",
    x = "Jenis Potongan (Cut)",
    y = "Jumlah Berlian",
    fill = "Warna Berlian"
  )

Interpretasi : Grafik ini menunjukkan bahwa setiap jenis potongan berlian terdiri dari berbagai warna. Terlihat bahwa warna tertentu, seperti G dan H, muncul dominan pada hampir semua jenis potongan.

Proportion Bar Chart

Proporsi Warna Berlian pada Setiap Jenis Potongan

ggplot(diamonds, aes(x = cut, fill = color)) +
  geom_bar(position = "fill") +
  labs(
    title = "Proporsi Warna Berlian pada Setiap Jenis Potongan",
    x = "Jenis Potongan (Cut)",
    y = "Proporsi",
    fill = "Warna Berlian"
  )

Interpretasi: Grafik ini menunjukkan bahwa proporsi warna berlian relatif konsisten di setiap jenis potongan, menandakan bahwa variasi warna tidak terlalu dipengaruhi oleh kualitas potongan.

Visualisasi Data Diskrit / Numerik

Distribusi Harga Berlian

ggplot(diamonds, aes(x = price)) +
  geom_histogram(bins = 30) +
  labs(
    title = "Distribusi Harga Berlian",
    x = "Harga",
    y = "Frekuensi"
  )

Interpretasi: Distribusi harga berlian bersifat miring ke kanan (right-skewed), yang menandakan sebagian besar berlian berada pada harga rendah hingga menengah.

Hubungan Berat Berlian dan Harga

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.3) +
  labs(
    title = "Hubungan Berat Berlian (Carat) dan Harga",
    x = "Carat",
    y = "Harga"
  )

Interpretasi: Terdapat hubungan positif antara berat berlian dan harga, di mana semakin besar berat berlian maka harga cenderung meningkat.

Visualisasi Gabungan Data Kategorik dan Diskrit

Harga Berlian Berdasarkan Kualitas Potongan

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot() +
  labs(
    title = "Harga Berlian Berdasarkan Kualitas Potongan",
    x = "Jenis Potongan",
    y = "Harga"
  )

Interpretasi: Meskipun potongan Ideal banyak jumlahnya, harga median tertinggi justru terlihat pada potongan Premium.

Kesimpulan

Berdasarkan visualisasi yang dilakukan, dapat disimpulkan bahwa:

Dataset diamonds mengandung kombinasi data kategorik dan diskrit yang cocok untuk analisis visual.

Variabel cut, color, dan clarity menunjukkan distribusi frekuensi yang tidak merata.

Harga berlian memiliki distribusi tidak simetris dan sangat dipengaruhi oleh berat (carat).

Visualisasi membantu memperjelas pola yang sulit dipahami hanya melalui tabel atau angka.

Visualisasi data terbukti efektif dalam mendukung analisis eksploratif dan pengambilan kesimpulan statistik.