Dataset diamonds merupakan dataset populer yang sering digunakan dalam analisis eksploratif data karena memiliki kombinasi variabel numerik dan kategorik yang lengkap. Penelitian ini bertujuan untuk mengeksplorasi struktur data, mengevaluasi kualitas data, serta menganalisis distribusi dan hubungan antar variabel menggunakan pendekatan visualisasi data. Metode yang digunakan bersifat deskriptif dengan memanfaatkan grafik batang dan grafik batang bertumpuk (stacked bar chart).
This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
#mengeksplorasi data diamonds
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
summary(diamonds)
## carat cut color clarity depth
## Min. :0.2000 Fair : 1610 D: 6775 SI1 :13065 Min. :43.00
## 1st Qu.:0.4000 Good : 4906 E: 9797 VS2 :12258 1st Qu.:61.00
## Median :0.7000 Very Good:12082 F: 9542 SI2 : 9194 Median :61.80
## Mean :0.7979 Premium :13791 G:11292 VS1 : 8171 Mean :61.75
## 3rd Qu.:1.0400 Ideal :21551 H: 8304 VVS2 : 5066 3rd Qu.:62.50
## Max. :5.0100 I: 5422 VVS1 : 3655 Max. :79.00
## J: 2808 (Other): 2531
## table price x y
## Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000
## 1st Qu.:56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720
## Median :57.00 Median : 2401 Median : 5.700 Median : 5.710
## Mean :57.46 Mean : 3933 Mean : 5.731 Mean : 5.735
## 3rd Qu.:59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540
## Max. :95.00 Max. :18823 Max. :10.740 Max. :58.900
##
## z
## Min. : 0.000
## 1st Qu.: 2.910
## Median : 3.530
## Mean : 3.539
## 3rd Qu.: 4.040
## Max. :31.800
##
# Cek missing value
sum(is.na(diamonds))
## [1] 0
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
#Penjelasan Visualisasi Data Berlian (Diamonds)
Pada analisis ini, kita menggunakan beberapa grafik untuk membantu memahami data berlian dengan cara yang lebih mudah dilihat dan dimengerti.
You can also embed plots, for example:
Grafik pertama menunjukkan berapa banyak berlian pada setiap tingkat kejernihan. Kejernihan (clarity) menggambarkan seberapa bersih atau bebas cacat sebuah berlian. Semakin tinggi tingkat kejernihan, biasanya semakin mahal dan semakin langka. Dari grafik terlihat bahwa: Berlian dengan kejernihan menengah jumlahnya paling banyak. Berlian dengan kejernihan sangat tinggi jumlahnya lebih sedikit.
Artinya, berlian yang sangat bening dan hampir tanpa cacat memang lebih jarang ditemukan dibandingkan berlian dengan kualitas biasa. Ini sesuai dengan logika umum: semakin bagus kualitasnya, biasanya semakin langka.
Grafik kedua menunjukkan hubungan antara: Kualitas potongan (cut) → seberapa baik berlian dipotong Kejernihan (clarity) → seberapa bersih berlian tersebut Setiap batang mewakili satu jenis kualitas potongan. Warna-warna di dalam batang menunjukkan tingkat kejernihan. Dari grafik ini kita bisa melihat: Potongan Ideal dan Premium memiliki jumlah berlian paling banyak. Namun, di semua jenis potongan, berlian dengan kejernihan menengah tetap paling dominan. Berlian yang sangat bening tetap jumlahnya sedikit di semua kategori potongan. Artinya, walaupun potongannya sangat bagus, belum tentu kejernihannya juga paling tinggi.
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.