Visualisasi Data
Tugas Kelompok 3
Pertama panggil datasets Titanic menggunakan sintaks berikut:
## Class Sex Age Survived Freq
## 1 1st Male Child No 0
## 2 2nd Male Child No 0
## 3 3rd Male Child No 35
## 4 Crew Male Child No 0
## 5 1st Female Child No 0
## 6 2nd Female Child No 0
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.3 ✓ purrr 0.3.4
## ✓ tibble 3.0.6 ✓ dplyr 1.0.2
## ✓ tidyr 1.1.1 ✓ stringr 1.4.0
## ✓ readr 1.3.1 ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
##
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
##
## discard
## The following object is masked from 'package:readr':
##
## col_factor
Selanjutnya, hitung jumlah penumpang yang selamat berdasarkan jenis kelamin menggunakan sintaks berikut
## sum(Freq)
## 1 367
## sum(Freq)
## 1 344
Syntax untuk membuat plot yang melanggar aturan ACCENT
qplot(x=c(1,3),
y=c(367,344),
geom = "point",
colour="Laki-laki dan Perempuan",
main="Penumpang Titanic Selamat",
xlab = "Laki-laki dan Perempuan",
ylab="Jumlah",ylim=c(0,1000))Catatan Pelanggaran
Apprehension (Pemahaman)
Hubungan di antara data tidak digambarkan dengan benar. Data yang digunakan memiliki 2 kategori yang berbeda, seharusnya diberikan perbedaan warna untuk membedakan kategori. Selain itu sumbu x dan sumbu y tidak dituliskan dengan benar, seharusnya sumbu y berkisar di nilai 300.
Clarity (Kejelasan) menyangkut
Elemen-elemen grafik tidak dibedakan dengan jelas secara visual. Hal ini karena setiap level yaitu untuk level laki-laki dan perempuan diberikan warna yang sama.
Consistency (Konsistensi)
Penafsiran grafik tidak berdasarkan keterpaparan pada grafik serupa di masa lalu atau tidak menggunakan standar universal yang wajar. Untuk menampilkan data dengan 2 kategori seperti berikut, biasanya digunakan barchart dan bukan scatterplot.
Efficiency (Efisiensi)
grafik tidak menggambarkan data dengan cara sesederhana mungkin karena pada sumbu y digunakan nilai dengan batas terlalu tinggi yaitu sampai nilai 1000
Necesity (Kebutuhan)
Kebutuhan grafik tidak terpenuhi, yaitu perbedaan warna di setiap kategori dan rentang nilai pada sumbu y yang terlalu lebar serta ketidaksesuaian sumbu x yang digunakan.
Truthfulness (Keadaan sebenarnya)
Data diplot dengan tidak baik dalam sistem koordinat karena terdapat kesalahan pada sumbu x dan y
Tugas Kelompok 1
Data
Data yang digunakan adalah data ldeaths yang berada di dalam dasasets R.
Monthly Deaths from Lung Diseases in the UK. Three time series giving the monthly deaths from bronchitis, emphysema and asthma in the UK, 1974-1979, both sexes (ldeaths), males (mdeaths) and females (fdeaths).
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512
## 1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837
## 1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823
## 1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293
## 1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491
## 1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915
Untuk dapat menggunakan data time series tersebut ke dalam ggplot2, maka data tersebut akan ditransformasi menjadi data frame terlebih dahulu.
Grafik
Grafik banyaknya kematian karena Lung Diseases di UK tahun 1974 sampai dengan tahun 1979:
ggplot(a, # data yang digunakan
aes(x=year,
y=value,
fill=year))+
geom_bar(stat = "identity", width = 0.6, show.legend = FALSE)+ # membuat bar chart per tahun
scale_fill_manual(values = c("#8d8741","#659dbd","#daad86","#bc986a","#fbeec1"))+
scale_y_continuous(limits=c(5000,25000),oob = rescale_none)+ # mengatur scale sumbu y
geom_label(data = . %>% group_by(year) %>% summarise(m=sum(value)), # agregat data
aes(label = paste0(m), x = year, y=m), # label pada bar
vjust = +1.5, # posisi label
show.legend = FALSE)+ # tidak menggunakan legend
theme(plot.title = element_text(size=14, face="bold.italic", margin=margin(0,0,15,0)))+ # pengaturan font judul plot
ggtitle("Deaths from Lung Disesase")+ # judul plot
labs(x="Year", y=NULL) # mengatur judul sumbu x dan y## `summarise()` ungrouping output (override with `.groups` argument)
## Pelanggaran
Daftar pelanggaran 6 prinsip desain:
| Prinsip | Deskripsi Pelanggaran |
|---|---|
| Apprehension (Pemahaman) | Data time series ldeath yang berisi data per bulan di-plot menggunakan summary data per tahun sehingga tidak dapat terlihat fluktuasi data per bulan sepanjang tahun 1974 - 1979 secara tepat. Selain itu, pemilihan tipe grafik (bar chart) yang kurang tepat untuk data time series membuat hubungan di antara data menjadi tidak mudah untuk dipahami. |
| Clarity (Kejelasan) | Penggunaan bar chart untuk memetakan data time series membuat perbedaan level data menjadi tidak jelas. Tidak adanya penjelasan (label) pada sumbu Y juga membuat data menjadi kurang jelas. |
| Consistency (Konsistensi) | Grafik ini menjadi tidak konsisten karena kesalahan dalam memilih tipe grafik untuk menampilkan data, karena data time series selalu ditampilkan dalam plot garis. Selain itu, data tahun 1977 yang tidak ditampilkan membuat interpretasi perbandingan jumlah kasus kematian karena lung diseases di UK dari tahun 1974 s.d. 1979 dari grafik tersebut menjadi kurang konsisten, untuk menampilkan data time series kurun waktu harus lengkap tanpa ada data yang hilang. |
| Efficiency (Efisien) | Perbedaan warna bar berdasarkan jumlah kematian per tahun tidak efisien dalam melihat pola data time series. |
| Necessity (Kebutuhan) | Pemberian label jumlah kasus pada setiap bar tidak diperlukan karena sudah ada skala yang ditampilkan pada sumbu Y (sebaiknya pilih salah satu, ingin menampilkan label jumlah kasus di setiap bar atau menampilkan skala di sumbu Y), dan pembedaan warna berdasarkan tahun juga tidak diperlukan karena setiap bar memiliki makna yang sama yaitu jumlah orang yang meninggal karena lung diseases di UK. |
| Truthfulness (Keadaan yang sebenarnya) | Data tidak di-plot dengan benar karena menggunakan tipe grafik yang kurang tepat untuk menampilkan data time series. Selain itu, data tidak ditampilkan sesuai dengan keadaan sebenarnya karena ada data satu tahun yaitu tahun 1977 yang tidak ditampilkan. Sehingga, akan menjadi kurang tepat jika kita menyimpulkan jumlah kematian akibat lung diseases di UK menurun dari tahun 1974 sampai dengan 1979 dengan hanya melihat grafik tersebut. Tidak ditampilkannya data tahun 1977 membuat yang sebenarnya tidak terlihat. |
Perbaikian Visualisasi Data Kelompok 1
Grafik
Untuk Visualisasi data
ldeathsdigunakan librarydygraph.
Catatan Perbaikan dan Perbandingan Visualisasi Data
Daftar pelanggaran 6 prinsip desain:
| Prinsip | Catatan Pelanggaran | Catatan Perbaikan | Catatan Perbandingan |
|---|---|---|---|
| Apprehension (Pemahaman) | Data time series ldeath yang berisi data per bulan di-plot menggunakan summary data per tahun sehingga tidak dapat terlihat fluktuasi data per bulan sepanjang tahun 1974 - 1979 secara tepat. Selain itu, pemilihan tipe grafik (bar chart) yang kurang tepat untuk data time series membuat hubungan di antara data menjadi tidak mudah untuk dipahami. |
Data time series ldeath di plot per bulan sehingga kelihatan fluktuasinya dalam kurun waktu 1974-1979. |
Sesuai dengan diskusi. |
| Clarity (Kejelasan) | Penggunaan bar chart untuk memetakan data time series membuat perbedaan level data menjadi tidak jelas. Tidak adanya penjelasan (label) pada sumbu Y juga membuat data menjadi kurang jelas. | Penggunaan line chart untuk memetakan data time series membuat perbedaan level data menjadi lebih jelas. Adanya penjelasan (label) pada sumbu Y juga membuat data menjadi lebih jelas. | Sesuai dengan diskusi. |
| Consistency (Konsistensi) | Grafik ini menjadi tidak konsisten karena kesalahan dalam memilih tipe grafik untuk menampilkan data, karena data time series selalu ditampilkan dalam plot garis. Selain itu, data tahun 1977 yang tidak ditampilkan membuat interpretasi perbandingan jumlah kasus kematian karena lung diseases di UK dari tahun 1974 s.d. 1979 dari grafik tersebut menjadi kurang konsisten, untuk menampilkan data time series kurun waktu harus lengkap tanpa ada data yang hilang. | Grafik cukup konsisten karena tidak ada data yang hilang selama kurun waktu tersebut. Selain itu, penggunaan line chart untuk data time series sesuai dengan kemampuan untuk menafsirkan grafik berdasarkan keterpaparan pada grafik serupa di masa lalu karena menggunakan standar universal yang wajar. | Sesuai dengan diskusi. |
| Efficiency (Efisien) | Perbedaan warna bar berdasarkan jumlah kematian per tahun tidak efisien dalam melihat pola data time series. | Pola data time series idealnya menggunakan 1 warna untuk 1 grafik, agar pola flukstuasinya terlihat jelas. | Sesuai dengan diskusi. |
| Necessity (Kebutuhan) | Pemberian label jumlah kasus pada setiap bar tidak diperlukan karena sudah ada skala yang ditampilkan pada sumbu Y (sebaiknya pilih salah satu, ingin menampilkan label jumlah kasus di setiap bar atau menampilkan skala di sumbu Y), dan pembedaan warna berdasarkan tahun juga tidak diperlukan karena setiap bar memiliki makna yang sama yaitu jumlah orang yang meninggal karena lung diseases di UK. | Dari sisi kebutuhan, grafik di atas sudah memenuhi kriteria tersebut. Informasinya dirasa cukup bagi pembaca, tetapi juga tidak berlebihan secara tampilan. | Sesuai dengan diskusi. |
| Truthfulness (Keadaan yang sebenarnya) | Data tidak di-plot dengan benar karena menggunakan tipe grafik yang kurang tepat untuk menampilkan data time series. Selain itu, data tidak ditampilkan sesuai dengan keadaan sebenarnya karena ada data satu tahun yaitu tahun 1977 yang tidak ditampilkan. Sehingga, akan menjadi kurang tepat jika kita menyimpulkan jumlah kematian akibat lung diseases di UK menurun dari tahun 1974 sampai dengan 1979 dengan hanya melihat grafik tersebut. Tidak ditampilkannya data tahun 1977 membuat yang sebenarnya tidak terlihat. | Plot tersebut sudah menampilkan keadaan yang sebenarnya, tidak ada series yang hilang atau tidak di tampilkan, | Sesuai dengan diskusi. |
Referensi
Nurussadad, A.A. (March 3, 2021). Visualisasi Data dengan ggplot2. Retrieved from https://rpubs.com/nurussadad/STA581-04-ggplot2
Soleh, A.M. (2021). STA581 Sains Data: Visualisasi Data. Retrieved from https://newlms.ipb.ac.id/
dygraphs for R. Retrieved from https://rstudio.github.io/dygraphs/index.html
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, az_zahramonra@apps.ipb.ac.id↩
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, moch.ridwan@apps.ipb.ac.id↩
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, annisarahminur@apps.ipb.ac.id↩
Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University, reniamelia@apps.ipb.ac.id↩