Visualisasi Data

Tugas Kelompok 3

Pertama panggil datasets Titanic menggunakan sintaks berikut:

##   Class    Sex   Age Survived Freq
## 1   1st   Male Child       No    0
## 2   2nd   Male Child       No    0
## 3   3rd   Male Child       No   35
## 4  Crew   Male Child       No    0
## 5   1st Female Child       No    0
## 6   2nd Female Child       No    0
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.3     ✓ purrr   0.3.4
## ✓ tibble  3.0.6     ✓ dplyr   1.0.2
## ✓ tidyr   1.1.1     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
## 
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
## 
##     discard
## The following object is masked from 'package:readr':
## 
##     col_factor

Selanjutnya, hitung jumlah penumpang yang selamat berdasarkan jenis kelamin menggunakan sintaks berikut

##   sum(Freq)
## 1       367
##   sum(Freq)
## 1       344

Catatan Pelanggaran

Apprehension (Pemahaman)

Hubungan di antara data tidak digambarkan dengan benar. Data yang digunakan memiliki 2 kategori yang berbeda, seharusnya diberikan perbedaan warna untuk membedakan kategori. Selain itu sumbu x dan sumbu y tidak dituliskan dengan benar, seharusnya sumbu y berkisar di nilai 300.

Clarity (Kejelasan) menyangkut

Elemen-elemen grafik tidak dibedakan dengan jelas secara visual. Hal ini karena setiap level yaitu untuk level laki-laki dan perempuan diberikan warna yang sama.

Consistency (Konsistensi)

Penafsiran grafik tidak berdasarkan keterpaparan pada grafik serupa di masa lalu atau tidak menggunakan standar universal yang wajar. Untuk menampilkan data dengan 2 kategori seperti berikut, biasanya digunakan barchart dan bukan scatterplot.

Efficiency (Efisiensi)

grafik tidak menggambarkan data dengan cara sesederhana mungkin karena pada sumbu y digunakan nilai dengan batas terlalu tinggi yaitu sampai nilai 1000

Necesity (Kebutuhan)

Kebutuhan grafik tidak terpenuhi, yaitu perbedaan warna di setiap kategori dan rentang nilai pada sumbu y yang terlalu lebar serta ketidaksesuaian sumbu x yang digunakan.

Truthfulness (Keadaan sebenarnya)

Data diplot dengan tidak baik dalam sistem koordinat karena terdapat kesalahan pada sumbu x dan y

Tugas Kelompok 1

Data

Data yang digunakan adalah data ldeaths yang berada di dalam dasasets R.

Monthly Deaths from Lung Diseases in the UK. Three time series giving the monthly deaths from bronchitis, emphysema and asthma in the UK, 1974-1979, both sexes (ldeaths), males (mdeaths) and females (fdeaths).

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 1974 3035 2552 2704 2554 2014 1655 1721 1524 1596 2074 2199 2512
## 1975 2933 2889 2938 2497 1870 1726 1607 1545 1396 1787 2076 2837
## 1976 2787 3891 3179 2011 1636 1580 1489 1300 1356 1653 2013 2823
## 1977 3102 2294 2385 2444 1748 1554 1498 1361 1346 1564 1640 2293
## 1978 2815 3137 2679 1969 1870 1633 1529 1366 1357 1570 1535 2491
## 1979 3084 2605 2573 2143 1693 1504 1461 1354 1333 1492 1781 1915

Untuk dapat menggunakan data time series tersebut ke dalam ggplot2, maka data tersebut akan ditransformasi menjadi data frame terlebih dahulu.

Grafik

Grafik banyaknya kematian karena Lung Diseases di UK tahun 1974 sampai dengan tahun 1979:

## `summarise()` ungrouping output (override with `.groups` argument)

## Pelanggaran

Daftar pelanggaran 6 prinsip desain:

Prinsip Deskripsi Pelanggaran
Apprehension (Pemahaman) Data time series ldeath yang berisi data per bulan di-plot menggunakan summary data per tahun sehingga tidak dapat terlihat fluktuasi data per bulan sepanjang tahun 1974 - 1979 secara tepat. Selain itu, pemilihan tipe grafik (bar chart) yang kurang tepat untuk data time series membuat hubungan di antara data menjadi tidak mudah untuk dipahami.
Clarity (Kejelasan) Penggunaan bar chart untuk memetakan data time series membuat perbedaan level data menjadi tidak jelas. Tidak adanya penjelasan (label) pada sumbu Y juga membuat data menjadi kurang jelas.
Consistency (Konsistensi) Grafik ini menjadi tidak konsisten karena kesalahan dalam memilih tipe grafik untuk menampilkan data, karena data time series selalu ditampilkan dalam plot garis. Selain itu, data tahun 1977 yang tidak ditampilkan membuat interpretasi perbandingan jumlah kasus kematian karena lung diseases di UK dari tahun 1974 s.d. 1979 dari grafik tersebut menjadi kurang konsisten, untuk menampilkan data time series kurun waktu harus lengkap tanpa ada data yang hilang.
Efficiency (Efisien) Perbedaan warna bar berdasarkan jumlah kematian per tahun tidak efisien dalam melihat pola data time series.
Necessity (Kebutuhan) Pemberian label jumlah kasus pada setiap bar tidak diperlukan karena sudah ada skala yang ditampilkan pada sumbu Y (sebaiknya pilih salah satu, ingin menampilkan label jumlah kasus di setiap bar atau menampilkan skala di sumbu Y), dan pembedaan warna berdasarkan tahun juga tidak diperlukan karena setiap bar memiliki makna yang sama yaitu jumlah orang yang meninggal karena lung diseases di UK.
Truthfulness (Keadaan yang sebenarnya) Data tidak di-plot dengan benar karena menggunakan tipe grafik yang kurang tepat untuk menampilkan data time series. Selain itu, data tidak ditampilkan sesuai dengan keadaan sebenarnya karena ada data satu tahun yaitu tahun 1977 yang tidak ditampilkan. Sehingga, akan menjadi kurang tepat jika kita menyimpulkan jumlah kematian akibat lung diseases di UK menurun dari tahun 1974 sampai dengan 1979 dengan hanya melihat grafik tersebut. Tidak ditampilkannya data tahun 1977 membuat yang sebenarnya tidak terlihat.

Perbaikian Visualisasi Data Kelompok 1

Grafik

Untuk Visualisasi data ldeaths digunakan library dygraph.

Catatan Perbaikan dan Perbandingan Visualisasi Data

Daftar pelanggaran 6 prinsip desain:

Prinsip Catatan Pelanggaran Catatan Perbaikan Catatan Perbandingan
Apprehension (Pemahaman) Data time series ldeath yang berisi data per bulan di-plot menggunakan summary data per tahun sehingga tidak dapat terlihat fluktuasi data per bulan sepanjang tahun 1974 - 1979 secara tepat. Selain itu, pemilihan tipe grafik (bar chart) yang kurang tepat untuk data time series membuat hubungan di antara data menjadi tidak mudah untuk dipahami. Data time series ldeath di plot per bulan sehingga kelihatan fluktuasinya dalam kurun waktu 1974-1979. Sesuai dengan diskusi.
Clarity (Kejelasan) Penggunaan bar chart untuk memetakan data time series membuat perbedaan level data menjadi tidak jelas. Tidak adanya penjelasan (label) pada sumbu Y juga membuat data menjadi kurang jelas. Penggunaan line chart untuk memetakan data time series membuat perbedaan level data menjadi lebih jelas. Adanya penjelasan (label) pada sumbu Y juga membuat data menjadi lebih jelas. Sesuai dengan diskusi.
Consistency (Konsistensi) Grafik ini menjadi tidak konsisten karena kesalahan dalam memilih tipe grafik untuk menampilkan data, karena data time series selalu ditampilkan dalam plot garis. Selain itu, data tahun 1977 yang tidak ditampilkan membuat interpretasi perbandingan jumlah kasus kematian karena lung diseases di UK dari tahun 1974 s.d. 1979 dari grafik tersebut menjadi kurang konsisten, untuk menampilkan data time series kurun waktu harus lengkap tanpa ada data yang hilang. Grafik cukup konsisten karena tidak ada data yang hilang selama kurun waktu tersebut. Selain itu, penggunaan line chart untuk data time series sesuai dengan kemampuan untuk menafsirkan grafik berdasarkan keterpaparan pada grafik serupa di masa lalu karena menggunakan standar universal yang wajar. Sesuai dengan diskusi.
Efficiency (Efisien) Perbedaan warna bar berdasarkan jumlah kematian per tahun tidak efisien dalam melihat pola data time series. Pola data time series idealnya menggunakan 1 warna untuk 1 grafik, agar pola flukstuasinya terlihat jelas. Sesuai dengan diskusi.
Necessity (Kebutuhan) Pemberian label jumlah kasus pada setiap bar tidak diperlukan karena sudah ada skala yang ditampilkan pada sumbu Y (sebaiknya pilih salah satu, ingin menampilkan label jumlah kasus di setiap bar atau menampilkan skala di sumbu Y), dan pembedaan warna berdasarkan tahun juga tidak diperlukan karena setiap bar memiliki makna yang sama yaitu jumlah orang yang meninggal karena lung diseases di UK. Dari sisi kebutuhan, grafik di atas sudah memenuhi kriteria tersebut. Informasinya dirasa cukup bagi pembaca, tetapi juga tidak berlebihan secara tampilan. Sesuai dengan diskusi.
Truthfulness (Keadaan yang sebenarnya) Data tidak di-plot dengan benar karena menggunakan tipe grafik yang kurang tepat untuk menampilkan data time series. Selain itu, data tidak ditampilkan sesuai dengan keadaan sebenarnya karena ada data satu tahun yaitu tahun 1977 yang tidak ditampilkan. Sehingga, akan menjadi kurang tepat jika kita menyimpulkan jumlah kematian akibat lung diseases di UK menurun dari tahun 1974 sampai dengan 1979 dengan hanya melihat grafik tersebut. Tidak ditampilkannya data tahun 1977 membuat yang sebenarnya tidak terlihat. Plot tersebut sudah menampilkan keadaan yang sebenarnya, tidak ada series yang hilang atau tidak di tampilkan, Sesuai dengan diskusi.

Referensi

Nurussadad, A.A. (March 3, 2021). Visualisasi Data dengan ggplot2. Retrieved from https://rpubs.com/nurussadad/STA581-04-ggplot2

Soleh, A.M. (2021). STA581 Sains Data: Visualisasi Data. Retrieved from https://newlms.ipb.ac.id/

dygraphs for R. Retrieved from https://rstudio.github.io/dygraphs/index.html


  1. Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University,

  2. Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University,

  3. Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University,

  4. Mahasiswa Pascasarjana Statistika dan Sains Data, IPB University,