Dataset diamonds merupakan dataset populer yang sering digunakan dalam analisis eksploratif data karena memiliki kombinasi variabel numerik dan kategorik yang lengkap. Penelitian ini bertujuan untuk mengeksplorasi struktur data, mengevaluasi kualitas data, serta menganalisis distribusi dan hubungan antar variabel menggunakan pendekatan visualisasi data. Metode yang digunakan bersifat deskriptif dengan memanfaatkan grafik batang dan grafik batang bertumpuk (stacked bar chart).

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

#mengeksplorasi data diamonds
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
summary(diamonds)
##      carat               cut        color        clarity          depth      
##  Min.   :0.2000   Fair     : 1610   D: 6775   SI1    :13065   Min.   :43.00  
##  1st Qu.:0.4000   Good     : 4906   E: 9797   VS2    :12258   1st Qu.:61.00  
##  Median :0.7000   Very Good:12082   F: 9542   SI2    : 9194   Median :61.80  
##  Mean   :0.7979   Premium  :13791   G:11292   VS1    : 8171   Mean   :61.75  
##  3rd Qu.:1.0400   Ideal    :21551   H: 8304   VVS2   : 5066   3rd Qu.:62.50  
##  Max.   :5.0100                     I: 5422   VVS1   : 3655   Max.   :79.00  
##                                     J: 2808   (Other): 2531                  
##      table           price             x                y         
##  Min.   :43.00   Min.   :  326   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:56.00   1st Qu.:  950   1st Qu.: 4.710   1st Qu.: 4.720  
##  Median :57.00   Median : 2401   Median : 5.700   Median : 5.710  
##  Mean   :57.46   Mean   : 3933   Mean   : 5.731   Mean   : 5.735  
##  3rd Qu.:59.00   3rd Qu.: 5324   3rd Qu.: 6.540   3rd Qu.: 6.540  
##  Max.   :95.00   Max.   :18823   Max.   :10.740   Max.   :58.900  
##                                                                   
##        z         
##  Min.   : 0.000  
##  1st Qu.: 2.910  
##  Median : 3.530  
##  Mean   : 3.539  
##  3rd Qu.: 4.040  
##  Max.   :31.800  
## 
# Cek missing value
sum(is.na(diamonds))
## [1] 0
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

#Penjelasan Visualisasi Data Berlian (Diamonds)

Pada analisis ini, kita menggunakan beberapa grafik untuk membantu memahami data berlian dengan cara yang lebih mudah dilihat dan dimengerti.

Including Plots

You can also embed plots, for example:

Grafik Batang: Jumlah Berlian Berdasarkan Tingkat Kejernihan

Grafik pertama menunjukkan berapa banyak berlian pada setiap tingkat kejernihan. Kejernihan (clarity) menggambarkan seberapa bersih atau bebas cacat sebuah berlian. Semakin tinggi tingkat kejernihan, biasanya semakin mahal dan semakin langka. Dari grafik terlihat bahwa: Berlian dengan kejernihan menengah jumlahnya paling banyak. Berlian dengan kejernihan sangat tinggi jumlahnya lebih sedikit.

Artinya, berlian yang sangat bening dan hampir tanpa cacat memang lebih jarang ditemukan dibandingkan berlian dengan kualitas biasa. Ini sesuai dengan logika umum: semakin bagus kualitasnya, biasanya semakin langka.

Grafik Batang Bertumpuk: Kejernihan Berdasarkan Kualitas Potongan

Grafik kedua menunjukkan hubungan antara: Kualitas potongan (cut) → seberapa baik berlian dipotong Kejernihan (clarity) → seberapa bersih berlian tersebut Setiap batang mewakili satu jenis kualitas potongan. Warna-warna di dalam batang menunjukkan tingkat kejernihan. Dari grafik ini kita bisa melihat: Potongan Ideal dan Premium memiliki jumlah berlian paling banyak. Namun, di semua jenis potongan, berlian dengan kejernihan menengah tetap paling dominan. Berlian yang sangat bening tetap jumlahnya sedikit di semua kategori potongan. Artinya, walaupun potongannya sangat bagus, belum tentu kejernihannya juga paling tinggi.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.