Visualisasi Data yang Melanggar Prinsip ACCENT
Tugas Kelompok 1 STA581 Sains Data
Klik disini untuk ke halaman rpubs.
Pendahuluan
Dalam membuat visualisasi data/grafik, perlu diperhatikan 6 prinsip dari desain (disingkat ACCENT):
- Apprehension (Pemahaman)
Menyangkut kemampuan untuk melihat hubungan di antara data dengan benar. Melihat subtansi data bukan oleh desain artistik atau lainnya.
- Clarity (Kejelasan)
Menyangkut kemampuan untuk membedakan elemen-elemen grafik secara visual, sehingga perbedaan setiap level jelas.
- Consistency (Konsistensi)
Menyangkut kemampuan menafsirkan grafik berdasarkan keterpaparan pada grafik serupa di masa lalu atau standar universal yang wajar.
- Efficiency (Efisiensi)
Menyangkut kemampuan grafik untuk menggambarkan data dengan cara sesederhana mungkin.
- Necessity (Kebutuhan)
Berkaitan dengan kebutuhan grafik atau elemen tertentu.
- Truthfulness (Keadaan sebenarnya)
Menyangkut apakah data diplot dengan benar dalam sistem koordinat yang ditentukan dengan baik.
Library
Library yang digunakan untuk membuat plot adalah tidyverse, ggridges, TSstudio, scales.
library(tidyverse)
library(ggridges)
library(TSstudio) # reformat data time series
library(scales)Data
Data yang digunakan adalah data ldeaths yang berada di dalam dasasets R.
Monthly Deaths from Lung Diseases in the UK. Three time series giving the monthly deaths from bronchitis, emphysema and asthma in the UK, 1974-1979, both sexes (ldeaths), males (mdeaths) and females (fdeaths).
ldeaths Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512
1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837
1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823
1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293
1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491
1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915
Untuk dapat menggunakan data time series tersebut ke dalam ggplot2, maka data tersebut akan ditransformasi menjadi data frame terlebih dahulu.
a<-ts_reshape(ldeaths, type = "long", frequency = NULL) #reformat data time series menjadi df dengan format long
a<-a %>%
mutate(year=as.factor(year)) %>%
filter(year != 1977) # menampilkan selain data 1977Grafik
Grafik banyaknya kematian karena Lung Diseases di UK tahun 1974 sampai dengan tahun 1979:
ggplot(a, # data yang digunakan
aes(x=year,
y=value,
fill=year))+
geom_bar(stat = "identity", width = 0.6, show.legend = FALSE)+ # membuat bar chart per tahun
scale_fill_manual(values = c("#8d8741","#659dbd","#daad86","#bc986a","#fbeec1"))+
scale_y_continuous(limits=c(5000,25000),oob = rescale_none)+ # mengatur scale sumbu y
geom_label(data = . %>% group_by(year) %>% summarise(m=sum(value)), # agregat data
aes(label = paste0(m), x = year, y=m), # label pada bar
vjust = +1.5, # posisi label
show.legend = FALSE)+ # tidak menggunakan legend
theme(plot.title = element_text(size=14, face="bold.italic", margin=margin(0,0,15,0)))+ # pengaturan font judul plot
ggtitle("Deaths from Lung Disesase")+ # judul plot
labs(x="Year", y=NULL) # mengatur judul sumbu x dan yPelanggaran
Daftar pelanggaran 6 prinsip desain:
| Prinsip | Deskripsi Pelanggaran |
|---|---|
| Apprehension (Pemahaman) | Data time series ldeath yang berisi data per bulan di-plot menggunakan summary data per tahun sehingga tidak dapat terlihat fluktuasi data per bulan sepanjang tahun 1974 - 1979 secara tepat. Selain itu, pemilihan tipe grafik (bar chart) yang kurang tepat untuk data time series membuat hubungan di antara data menjadi tidak mudah untuk dipahami. |
| Clarity (Kejelasan) | Penggunaan bar chart untuk memetakan data time series membuat perbedaan level data menjadi tidak jelas. Tidak adanya penjelasan (label) pada sumbu Y juga membuat data menjadi kurang jelas. |
| Consistency (Konsistensi) | Grafik ini menjadi tidak konsisten karena kesalahan dalam memilih tipe grafik untuk menampilkan data, karena data time series selalu ditampilkan dalam plot garis. Selain itu, data tahun 1977 yang tidak ditampilkan membuat interpretasi perbandingan jumlah kasus kematian karena lung diseases di UK dari tahun 1974 s.d. 1979 dari grafik tersebut menjadi kurang konsisten, untuk menampilkan data time series kurun waktu harus lengkap tanpa ada data yang hilang. |
| Efficiency (Efisien) | Perbedaan warna bar berdasarkan jumlah kematian per tahun tidak efisien dalam melihat pola data time series. |
| Necessity (Kebutuhan) | Pemberian label jumlah kasus pada setiap bar tidak diperlukan karena sudah ada skala yang ditampilkan pada sumbu Y (sebaiknya pilih salah satu, ingin menampilkan label jumlah kasus di setiap bar atau menampilkan skala di sumbu Y), dan pembedaan warna berdasarkan tahun juga tidak diperlukan karena setiap bar memiliki makna yang sama yaitu jumlah orang yang meninggal karena lung diseases di UK. |
| Truthfulness (Keadaan yang sebenarnya) | Data tidak di-plot dengan benar karena menggunakan tipe grafik yang kurang tepat untuk menampilkan data time series. Selain itu, data tidak ditampilkan sesuai dengan keadaan sebenarnya karena ada data satu tahun yaitu tahun 1977 yang tidak ditampilkan. Sehingga, akan menjadi kurang tepat jika kita menyimpulkan jumlah kematian akibat lung diseases di UK menurun dari tahun 1974 sampai dengan 1979 dengan hanya melihat grafik tersebut. Tidak ditampilkannya data tahun 1977 membuat yang sebenarnya tidak terlihat. |
Referensi
Nurussadad, A.A. (March 3, 2021). Visualisasi Data dengan ggplot2. Retrieved from https://rpubs.com/nurussadad/STA581-04-ggplot2
Soleh, A.M. (2021). STA581 Sains Data: Visualisasi Data. Retrieved from https://newlms.ipb.ac.id/
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, annisarahminur@apps.ipb.ac.id↩
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, reniamelia@apps.ipb.ac.id↩