Pendahuluan

Dataset diamonds merupakan dataset bawaan dari package ggplot2 yang berisi informasi mengenai karakteristik fisik dan kualitas berlian, seperti berat (carat), kualitas potongan (cut), warna (color), tingkat kejernihan (clarity), serta harga (price). Analisis ini bertujuan untuk mengeksplorasi struktur dataset, mengevaluasi kualitas data, serta memahami hubungan antara karakteristik berlian dan harga melalui visualisasi data.

Deskripsi Variabel

Variabel Tipe Data Deskripsi
carat Numerik Berat berlian
cut Kategorik Kualitas potongan
color Kategorik Warna berlian
clarity Kategorik Tingkat kejernihan
depth Numerik Persentase kedalaman
table Numerik Lebar meja berlian
price Numerik Harga berlian

Metodologi Analisis

Analisis dilakukan secara eksploratif menggunakan bahasa pemrograman R dengan bantuan package ggplot2. Tahapan analisis meliputi eksplorasi struktur data, ringkasan statistik, pengecekan kualitas data, serta visualisasi data.

#Load Package
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
#Memanggil Dataset
data(diamonds)

# Menampilkan 6 data pertama
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
# EKSPLORASI DATA 
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
summary(diamonds)
##      carat               cut        color        clarity          depth      
##  Min.   :0.2000   Fair     : 1610   D: 6775   SI1    :13065   Min.   :43.00  
##  1st Qu.:0.4000   Good     : 4906   E: 9797   VS2    :12258   1st Qu.:61.00  
##  Median :0.7000   Very Good:12082   F: 9542   SI2    : 9194   Median :61.80  
##  Mean   :0.7979   Premium  :13791   G:11292   VS1    : 8171   Mean   :61.75  
##  3rd Qu.:1.0400   Ideal    :21551   H: 8304   VVS2   : 5066   3rd Qu.:62.50  
##  Max.   :5.0100                     I: 5422   VVS1   : 3655   Max.   :79.00  
##                                     J: 2808   (Other): 2531                  
##      table           price             x                y         
##  Min.   :43.00   Min.   :  326   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:56.00   1st Qu.:  950   1st Qu.: 4.710   1st Qu.: 4.720  
##  Median :57.00   Median : 2401   Median : 5.700   Median : 5.710  
##  Mean   :57.46   Mean   : 3933   Mean   : 5.731   Mean   : 5.735  
##  3rd Qu.:59.00   3rd Qu.: 5324   3rd Qu.: 6.540   3rd Qu.: 6.540  
##  Max.   :95.00   Max.   :18823   Max.   :10.740   Max.   :58.900  
##                                                                   
##        z         
##  Min.   : 0.000  
##  1st Qu.: 2.910  
##  Median : 3.530  
##  Mean   : 3.539  
##  3rd Qu.: 4.040  
##  Max.   :31.800  
## 
# PENGECEKAN KUALITAS DATA 
# Cek missing value
sum(is.na(diamonds))
## [1] 0
# Dimensi data
dim(diamonds)
## [1] 53940    10
# Level variabel kategorik
levels(diamonds$cut)
## [1] "Fair"      "Good"      "Very Good" "Premium"   "Ideal"
levels(diamonds$color)
## [1] "D" "E" "F" "G" "H" "I" "J"
levels(diamonds$clarity)
## [1] "I1"   "SI2"  "SI1"  "VS2"  "VS1"  "VVS2" "VVS1" "IF"

Visualisasi Data

# distribusi harga berlian 
ggplot(diamonds, aes(x = price)) +
  geom_histogram(bins = 50) +
  labs(
    title = "Distribusi Harga Berlian",
    x = "Harga",
    y = "Frekuensi"
  )

# hubungan berat (carat) dan harga
ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.3) +
  labs(
    title = "Hubungan Carat dan Harga Berlian",
    x = "Carat",
    y = "Harga"
  )

# hubungan carat dan depth
ggplot(diamonds, aes(x = carat, y = depth)) +
  geom_point(alpha = 0.3) +
  labs(
    title = "Hubungan Carat dan Depth Berlian",
    x = "Carat",
    y = "Depth"
  )

Interpretasi Hasil

Distribusi harga berlian cenderung right-skewed, yang menunjukkan bahwa sebagian besar berlian memiliki harga rendah, sementara hanya sebagian kecil yang berharga sangat tinggi. Hubungan antara carat dan harga menunjukkan pola positif, di mana semakin besar berat berlian maka harga cenderung meningkat.

Kesimpulan

Dataset diamonds memiliki kualitas data yang baik karena tidak mengandung nilai hilang dan memiliki struktur variabel yang jelas. Hubungan antara berat berlian dan harga terlihat signifikan sehingga dataset ini sangat sesuai untuk analisis statistik dan visualisasi data.

Keterbatasan Analisis

Analisis ini masih bersifat deskriptif dan belum mencakup analisis inferensial atau pemodelan statistik lanjutan.

Reproducibility Statement

Seluruh analisis dilakukan menggunakan R Markdown sehingga dapat direproduksi dan dijalankan kembali oleh pengguna lain.