R Markdown

Pendahuluan

Data set diamonds digunakan untuk menganalisis dua variabel kategorik yaitu cut dan clarity.

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

Visualisasi Variabel Cut

ggplot(diamonds, aes(x = cut)) +
  geom_bar(fill = "skyblue") +
  labs(title = "Frekuensi Kategori Cut",
       x = "Cut",
       y = "Frekuensi")

Penjelasan Grafik

Grafik frekuensi pada kategori cut menunjukkan jumlah berlian berdasarkan kualitas potongannya, yaitu Fair, Good, Very Good, Premium, dan Ideal. Pada grafik terlihat bahwa kategori Ideal memiliki frekuensi tertinggi, yang berarti sebagian besar berlian dalam data memiliki kualitas potongan terbaik (ideal). Selanjutnya, kategori Premium dan Very Good juga memiliki jumlah yang cukup besar, meskipun masih lebih rendah dibandingkan Ideal. Sementara itu, kategori Good memiliki jumlah sedang, dan kategori Fair merupakan yang paling sedikit. Hal ini menunjukkan bahwa data didominasi oleh berlian dengan kualitas potongan berlian yang ideal, sehingga dapat disimpulkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik.

Visualisasi Variabel Clarity

ggplot(diamonds, aes(x = clarity)) +
  geom_bar(fill = "orange") +
  labs(title = "Frekuensi Kategori Clarity",
       x = "Clarity",
       y = "Frekuensi")

Penjelasan Grafik

Grafik frekuensi kategori clarity menunjukkan jumlah berlian berdasarkan tingkat kejernihannya, yaitu I1, SI2, SI1, VS2, VS1, VVS2, VVS1, dan IF. Dari grafik terlihat bahwa kategori SI1 memiliki frekuensi tertinggi, diikuti oleh VS2 dan SI2, yang berarti sebagian besar berlian dalam data memiliki tingkat kejernihan menengah. Selanjutnya, kategori VS1 dan VVS2 memiliki jumlah yang lebih sedikit, sedangkan kategori VVS1 dan IF tergolong rendah. kemudian Kategori I1 merupakan yang katgeori yang paling sedikit, menunjukkan bahwa hanya sedikit berlian dengan tingkat kejernihan terendah. Secara keseluruhan, grafik ini menunjukkan bahwa data didominasi oleh berlian dengan kejernihan sedang hingga baik, sementara berlian dengan kejernihan sangat tinggi maupun sangat rendah jumlahnya cukup sedikit.