Data set diamonds digunakan untuk menganalisis dua variabel kategorik yaitu cut dan clarity.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
data(diamonds)
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "skyblue") +
labs(title = "Frekuensi Kategori Cut",
x = "Cut",
y = "Frekuensi")
Grafik frekuensi pada kategori cut menunjukkan jumlah berlian berdasarkan kualitas potongannya, yaitu Fair, Good, Very Good, Premium, dan Ideal. Pada grafik terlihat bahwa kategori Ideal memiliki frekuensi tertinggi, yang berarti sebagian besar berlian dalam data memiliki kualitas potongan terbaik (ideal). Selanjutnya, kategori Premium dan Very Good juga memiliki jumlah yang cukup besar, meskipun masih lebih rendah dibandingkan Ideal. Sementara itu, kategori Good memiliki jumlah sedang, dan kategori Fair merupakan yang paling sedikit. Hal ini menunjukkan bahwa data didominasi oleh berlian dengan kualitas potongan berlian yang ideal, sehingga dapat disimpulkan bahwa sebagian besar berlian dalam dataset memiliki kualitas potongan yang baik hingga sangat baik.
ggplot(diamonds, aes(x = clarity)) +
geom_bar(fill = "orange") +
labs(title = "Frekuensi Kategori Clarity",
x = "Clarity",
y = "Frekuensi")
Grafik frekuensi kategori clarity menunjukkan jumlah berlian berdasarkan tingkat kejernihannya, yaitu I1, SI2, SI1, VS2, VS1, VVS2, VVS1, dan IF. Dari grafik terlihat bahwa kategori SI1 memiliki frekuensi tertinggi, diikuti oleh VS2 dan SI2, yang berarti sebagian besar berlian dalam data memiliki tingkat kejernihan menengah. Selanjutnya, kategori VS1 dan VVS2 memiliki jumlah yang lebih sedikit, sedangkan kategori VVS1 dan IF tergolong rendah. kemudian Kategori I1 merupakan yang katgeori yang paling sedikit, menunjukkan bahwa hanya sedikit berlian dengan tingkat kejernihan terendah. Secara keseluruhan, grafik ini menunjukkan bahwa data didominasi oleh berlian dengan kejernihan sedang hingga baik, sementara berlian dengan kejernihan sangat tinggi maupun sangat rendah jumlahnya cukup sedikit.