1 Objektif

Ini adalah catatan untuk memandu secara singkat dalam melakukan visualisasi data untuk kebutuhan eksplorasi data atau publikasi menggunakan R dan package ggplot2. Tujuan dari tutorial ini adalah agar peserta dapat mencoba membuat grafik yang menarik dan mudah.

2 Cakupan Materi

Materi yang akan dibahas:

  • Dasar-dasar ggplot2
  • Penggunaan fungsi qplot()
  • Aesthetic pada ggplot2
  • Barplot
  • Histogram & Density
  • Boxplot
  • Scatter plot
  • Line plot
  • Menentukan warna
  • Faceting
  • Annotation
  • Tema (theme)

3 Prasyarat

Untuk dapat mengikuti tutorial ini dengan baik, ada beberapa hal yang perlu dipersiapkan, yaitu:

  1. Koneksi internet yang baik

  2. Menginstall software

    1. R program https://cran.r-project.org/

    2. RStudio https://www.rstudio.com/products/rstudio/download/

  3. Data & Script yang dapat diperoleh dari repository ini dan pada database yang disediakan pembicara.

  4. Package R yang dibutuhkan: ggplot2, dplyr (atau tidyverse) dan nycflights13.

Catatan: Data diperoleh dari packages nycflights13 yang disimpan ke dalam database. Jika Anda ingin mencoba diluar kegiatan atau tidak dapat terhubung dengan database pembicara, Anda dapat menginstall package nycflights13 untuk memperoleh data yang digunakan pada database. Dua data lain berupa file CSV untuk disesuaikan dengan kebutuhan tutorial.

Data ini terdiri dari 336,776 penerbangan dari New York City (NYC) selama tahun 2013. Data asli berasal dari US Bureau of Transportation Statistics, dan dapat dilihat dokumentasinya dengan ?nycflights13::flights. Pastikan Anda sudah berhasil install package tersebut.

4 Install dan Load Packages

Jalankan perintah di bawah ini untuk install package (jika Anda belum pernah install) yang akan digunakan untuk dapat mengikuti tutorial ini sampai selesai.

install.packages(c("ggplot2", "dplyr", "tidyr", "nycflights13"))
# atau                                                                         
install.packages(c("tidyverse", "nycflights13"))                         

Panggil package yang sudah Anda install dengan fungsi library().

# Panggil package yang sudah terisntall
library(ggplot2)
library(dplyr)
library(tidyr)

# # atau cukup memanggil `tidyverse` untuk memanggil package ggplot2 dan package lain di tidyverse
# library(tidyverse)

library(nycflights13)

Package ggplot2 (dan beberapa package lain yang tidak digunakan di tutorial ini) termasuk dalam bagian package tidyverse. tidyverse adalah kumpulan package yang dibuat oleh Hadley Wickham dkk untuk kebutuhan data science menggunakan R.

  • ggplot2 adalah salah satu package yang sangat banyak digunakan oleh pengguna R untuk kebutuhan visualisasi.
  • dplyr dan tidyr adalah package yang sangat berguna untuk melakukan manipulasi/transformasi data menggunakan R.
  • nycflights13 adalah package yang menyediakan 5 data frame dalam format tibble tentang penerbangan di NYC selama tahun 2013.

Tidyverse

Tidyverse

tidyverse menggunakan tibble sebagai pengganti data.frame.

Tibbles are data frames, but they tweak some older behaviours to make life a little easier. R is an old language, and some things that were useful 10 or 20 years ago now get in your way. It’s difficult to change base R without breaking existing code, so most innovation occurs in packages – Grolemund & Wickham.

4.1 Operator Pipe %>%

Sebelum melangkah lebih jauh, kita harus mengeksploitasi operator pipe yang diimpor dari package magrittr oleh Stefan Bache. Ini akan mengubah kehidupan analitik data Anda. Anda tidak perlu lagi memberlakukan perintah multi-operasi dengan menyatukannya di dalam satu sama lain. Sintaks baru ini mengarah ke kode yang lebih mudah untuk ditulis dan dibaca.

Begini tampilannya: %>%. Pintasan keyboard RStudio: Ctrl + Shift + M (Windows), Cmd + Shift + M (Mac). Lebih lanjut mengenai operator %>% silahkan baca penjelasan operator pipe.

5 Eksplorasi dan Visualisasi Data

Kita lihat terlebih dulu data yang akan kita gunakan. Data yang akan digunakan ada 3, yaitu flights, airlines dan weather.

flights

Ada 336,776 jadwal penerbangan selama tahun 2013. Variabel dep_delay dengan nilai positif (dep_delay > 0) menunjukkan bahwa penerbangan tersebut mengalami keterlambatan dari jadwal berangkat yang seharusnya, sedangkan dep_delay negatif (dep_delay < 0) menunjukkan penerbanga dilakukan lebih awal dari yang seharusnya, dalam satuan menit. Adapun dep_delay yang NA (kosong atau missing value) menunjukkan penerbangan dibatalkan atau cancel.

airlines

Di data ini terdapat 16 perusahaan maskapai penerbangan. Variabel carrier nantinya digunakan untuk di-join dengan variabel carrier juga pada data flights.

weather

Data di atas adalah data cuaca berdasarkan bandara yang ada pada varibel origin selama tahun 2013 dengan rentang waktu setiap satu jam (lihat time_hour).

Sekarang kita lihat dulu secara sekilas seperti apa data flights yang akan kita gunakan.

str(flights)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   336776 obs. of  19 variables:
 $ year          : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
 $ month         : int  1 1 1 1 1 1 1 1 1 1 ...
 $ day           : int  1 1 1 1 1 1 1 1 1 1 ...
 $ dep_time      : int  517 533 542 544 554 554 555 557 557 558 ...
 $ sched_dep_time: int  515 529 540 545 600 558 600 600 600 600 ...
 $ dep_delay     : num  2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
 $ arr_time      : int  830 850 923 1004 812 740 913 709 838 753 ...
 $ sched_arr_time: int  819 830 850 1022 837 728 854 723 846 745 ...
 $ arr_delay     : num  11 20 33 -18 -25 12 19 -14 -8 8 ...
 $ carrier       : chr  "UA" "UA" "AA" "B6" ...
 $ flight        : int  1545 1714 1141 725 461 1696 507 5708 79 301 ...
 $ tailnum       : chr  "N14228" "N24211" "N619AA" "N804JB" ...
 $ origin        : chr  "EWR" "LGA" "JFK" "JFK" ...
 $ dest          : chr  "IAH" "IAH" "MIA" "BQN" ...
 $ air_time      : num  227 227 160 183 116 150 158 53 140 138 ...
 $ distance      : num  1400 1416 1089 1576 762 ...
 $ hour          : num  5 5 5 5 6 5 6 6 6 6 ...
 $ minute        : num  15 29 40 45 0 58 0 0 0 0 ...
 $ time_hour     : POSIXct, format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
summary(flights)
      year          month             day           dep_time    sched_dep_time
 Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
 1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
 Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
 Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
 3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
 Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
                                                 NA's   :8255                 
   dep_delay          arr_time    sched_arr_time   arr_delay       
 Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
 1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
 Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
 Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
 3rd Qu.:  11.00   3rd Qu.:1940   3rd Qu.:1945   3rd Qu.:  14.000  
 Max.   :1301.00   Max.   :2400   Max.   :2359   Max.   :1272.000  
 NA's   :8255      NA's   :8713                  NA's   :9430      
   carrier              flight       tailnum             origin         
 Length:336776      Min.   :   1   Length:336776      Length:336776     
 Class :character   1st Qu.: 553   Class :character   Class :character  
 Mode  :character   Median :1496   Mode  :character   Mode  :character  
                    Mean   :1972                                        
                    3rd Qu.:3465                                        
                    Max.   :8500                                        
                                                                        
     dest              air_time        distance         hour           minute     
 Length:336776      Min.   : 20.0   Min.   :  17   Min.   : 1.00   Min.   : 0.00  
 Class :character   1st Qu.: 82.0   1st Qu.: 502   1st Qu.: 9.00   1st Qu.: 8.00  
 Mode  :character   Median :129.0   Median : 872   Median :13.00   Median :29.00  
                    Mean   :150.7   Mean   :1040   Mean   :13.18   Mean   :26.23  
                    3rd Qu.:192.0   3rd Qu.:1389   3rd Qu.:17.00   3rd Qu.:44.00  
                    Max.   :695.0   Max.   :4983   Max.   :23.00   Max.   :59.00  
                    NA's   :9430                                                  
   time_hour                  
 Min.   :2013-01-01 05:00:00  
 1st Qu.:2013-04-04 13:00:00  
 Median :2013-07-03 10:00:00  
 Mean   :2013-07-03 05:22:54  
 3rd Qu.:2013-10-01 07:00:00  
 Max.   :2013-12-31 23:00:00  
                              

Dari hasil di atas saja sudah banyak hal yang kita dapatkan. Pertama, isi dari variabel year semuanya adalah 2013. Tidak ada nilai lain selain itu. Variabel seperti ini biasanya akan langsung dibuang karena tidak mempunyai informasi yang dapat digunakan untuk analisis. Atau digunakan untuk membuat variabel baru. Misalnya dengan menggabungkan variabel year, month dan day menjadi sebuah variabel tanggal.

Kedua, pada variabel dep_time, dep_delay, arr_time, arr_delay dan air_time terdapat beberapa data yang nilainya NA. Artinya ada data penerbangan yang tidak memiliki data-data tersebut. Perlu diketahui dulu penyebab dan konteks data tersebut NA. Misalnya, jika suatu penerbangan tidak memiliki data dep_time artinya penerbangan tersebut tidak mempunyai catatan waktu take-off. Bisa jadi penerbangan tersebut di-cancel. Jika suatu penerbangan mempunyai data dep_time tapi tidak memiliki data arr_time maka bisa jadi penerbangan tersebut mengalami kecelakaan atau hal lainnya.

Siapkan data yang akan digunakan. Kita join data flights dengan airlines untuk mendapatkan variabel nama perusahaan maskapai penerbangan (name), kemudian join lagi dengan weather untuk mendapatkan data cuaca.

flights_tbl <- flights %>% 
  left_join(airlines, by = "carrier") %>% 
  left_join(weather, suffix = c("_flight", "_weather"))

Untuk lebih mengetahui mengenai join menggunakan dplyr silahkan baca artikel ini dan ini.

str(flights_tbl)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   336776 obs. of  29 variables:
 $ year          : num  2013 2013 2013 2013 2013 ...
 $ month         : num  1 1 1 1 1 1 1 1 1 1 ...
 $ day           : int  1 1 1 1 1 1 1 1 1 1 ...
 $ dep_time      : int  517 533 542 544 554 554 555 557 557 558 ...
 $ sched_dep_time: int  515 529 540 545 600 558 600 600 600 600 ...
 $ dep_delay     : num  2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
 $ arr_time      : int  830 850 923 1004 812 740 913 709 838 753 ...
 $ sched_arr_time: int  819 830 850 1022 837 728 854 723 846 745 ...
 $ arr_delay     : num  11 20 33 -18 -25 12 19 -14 -8 8 ...
 $ carrier       : chr  "UA" "UA" "AA" "B6" ...
 $ flight        : int  1545 1714 1141 725 461 1696 507 5708 79 301 ...
 $ tailnum       : chr  "N14228" "N24211" "N619AA" "N804JB" ...
 $ origin        : chr  "EWR" "LGA" "JFK" "JFK" ...
 $ dest          : chr  "IAH" "IAH" "MIA" "BQN" ...
 $ air_time      : num  227 227 160 183 116 150 158 53 140 138 ...
 $ distance      : num  1400 1416 1089 1576 762 ...
 $ hour          : num  5 5 5 5 6 5 6 6 6 6 ...
 $ minute        : num  15 29 40 45 0 58 0 0 0 0 ...
 $ time_hour     : POSIXct, format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...
 $ name          : chr  "United Air Lines Inc." "United Air Lines Inc." "American Airlines Inc." "JetBlue Airways" ...
 $ temp          : num  39 39.9 39 39 39.9 ...
 $ dewp          : num  28 25 27 27 25 ...
 $ humid         : num  64.4 54.8 61.6 61.6 54.8 ...
 $ wind_dir      : num  260 250 260 260 260 260 240 260 260 260 ...
 $ wind_speed    : num  12.7 15 15 15 16.1 ...
 $ wind_gust     : num  NA 21.9 NA NA 23 ...
 $ precip        : num  0 0 0 0 0 0 0 0 0 0 ...
 $ pressure      : num  1012 1011 1012 1012 1012 ...
 $ visib         : num  10 10 10 10 10 10 10 10 10 10 ...

6 Dasar-dasar ggplot2

Package ggplot2 merupakan salah satu package untuk visualisasi yang paling banyak digunakan oleh pengguna R. Package ini juga yang menjadikan salah satu keutamaan R dibanding software pemrograman dan analisis data yang lain.

ggplot2 didesain untuk bekerja secara iteratif. Kata ggplot sendiri merupaka kependekan dari grammar of graphics plot. Terdapat dua fungsi utama yang digunakan untuk visualisasi data. Fungsi qplot(), yang merupakan kependekan dari quick-plot. Penggunaan qplot() sendiri tidak terlalu banyak, bahkan pembuatnya sendiri mengatakan bahwa qplot() dibuat untuk mereka yang memang sudah sangat terbiasa menggunakan fungsi plot() pada base R.

Fungsi kedua, dan yang paling sering digunakan, adalah ggplot(). Perbedaan yang paling mencolok dari fungsi qplot() dan ggplot() adalah tipe data yang dapat digunakan. Fungsi qplot() dapat menggunakan vector atau dataframe, sedangkan ggplot()hanya menerima dataframe. Fungsi-fungsi pada ggplot2 berperan sebagai layer yang ditandai dengan +.

Berikut contoh dari penggunaan qplot().

not_cancel <- flights_tbl %>% 
  filter(!is.na(dep_delay))
qplot(x = name, data = not_cancel)

Tentu saja tampilan grafik seperti di atas tidak baik karena informasi yang diberikan kurang sempurna. Nama maskapai penerbangan yang saling tumpang tindih juga membuat grafik tersebut tidak menarik.

qplot(x = name, data = not_cancel) +
  theme(axis.text.x = element_text(angle = 90))

Fungsi theme() akan diabhas lebih banyak di bagian berikutnya.

7 Visualisasi dengan ggplot()

Fungsi yang paling sering digunakan dari package ggplot2 adalah ggplot(). Secara umum visualisasi menggunakan ggplot() adalah seperti berikut.

ggplot(data = <DATA>, mapping = aes(x = <VAR>, y = <VAR>)) + 
  <GEOM_FUNCTION>()

Anda dapat mempelajari tentang ggplot2 dari buku ggplot2 Elegant Graphics for Data Analysis second edition.

7.1 Barplot

Yang pertama kita akan melakukan eksplorasi data dengan menggunakan diagram batang atau barplot. Grafik yang akan dihasilkan sama dengan yang dihasilkan oleh qplot() sebelumnya.

ggplot(data = not_cancel, mapping = aes(x = name)) +
    geom_bar() +
    theme(axis.text.x = element_text(angle = 90))

Geom geom_bar() dapat menerima data dengan format memanjang (raw) atau tabulasi.

not_cancel %>% 
  select(name)

Jika bentuk datanya memanjang seperti ini maka cukup menyebutkan variabelnya di argumen x = pada aes().

ggplot(data = not_cancel, mapping = aes(x = name)) +
    geom_bar() +
    theme(axis.text.x = element_text(angle = 90))

Jika datanya dalam bentuk tabulasi, sebutkan kategorinya di argumen x = dan nilainya di argumen y =, kemudian tambahkan stat = "identity" pada geom_bar().

not_cancel <- not_cancel %>% 
  count(name) 
not_cancel
ggplot(data = not_cancel, mapping = aes(x = name, y = n)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 90))

Secara default tampilan barplot diurutkan berdasarkan alfabet kategori pada argumen x. Jika ingin barplot diurutkan berdasarkan nilainya, gunakan fungsi reorder().

ggplot(data = not_cancel, mapping = aes(x = reorder(name, -n), y = n)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 90))

Untuk mengurutkan barplot berdasarkan value

  1. Buat terlebih dahulu tabel frekuensi dari kategori yang diinginkan.
  2. gunakan fungsi reorder() pada aestethic x dan n sbg y.
  3. gunakan stat = "identity" pada geom_bar().
not_cancel <- not_cancel %>% 
  mutate(pct = n/sum(n))

ggplot(data = not_cancel, mapping = aes(x = reorder(name, -pct), y = pct)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 90))

canceled <- flights_tbl %>% 
  filter(is.na(dep_delay)) %>% 
  count(name) %>% 
  mutate(pct = n/sum(n))
canceled

Dari tabel di atas kita dapat mengetahui bahwa ExpressJet Airlines Inc. yang paling banyak melakukan cancel selama tahun 2013. Sekarang mari kita tampilkan dalam visualisasi.

g <- ggplot(data = canceled, mapping = aes(x = reorder(name, -pct), y = pct)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 90))

g

g +
  labs(title = "Persentase Maskapai Yang Sering Melakukan Cancel",
       x = "Maskapai",
       y = "Persentase") +
  theme(axis.title.y = element_text(angle = 0, vjust = 1))

Hasil dari ggplot dapat disimpan dalam sebuah objek di R kemudian ditambahkan layer dengan + dan geom atau komponen lain.

Kita juga dapat menentukan warna untuk masing-masing batang pada barplot. Misalnya, setiap batang berbeda warnanya berdasarkan nama kategorinya secara default.

Untuk menambahkan judul (title), mengganti judul masing-masing axis x dan y atau menambahkan subtitledapat menggunakan labs().

ggplot(data = canceled, mapping = aes(x = reorder(name, -pct), y = pct, fill = name)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 90),
        axis.title.y = element_text(angle = 0, vjust = 1),
        legend.position = "none") +
  labs(title = "Persentase Maskapai Yang Sering Melakukan Cancel",
       x = "Maskapai",
       y = "Persentase")

Argumen legend.position = "none" digunakan untuk menghilangkan legend dari grafik yang dibuat. Cobalah untuk menghapus argumen legend.position = "none" dan lihat hasilnya.

ggplot(data = canceled, mapping = aes(x = reorder(name, -pct), y = pct*100, fill = name)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = paste(round(pct*100, 2), "%")), vjust = -0.25) +
  theme(axis.text.x = element_text(angle = 90),
        axis.title.y = element_text(angle = 0, vjust = 1),
        legend.position = "none") +
  labs(title = "Persentase Maskapai Yang Sering Melakukan Cancel",
       x = "Maskapai",
       y = "Persentase")

Anda juga dapat melakukan operasi matematika sederhana untuk variabel yang akan digunakan. Misalnya mengubah satuan pct dengan dikalikan 100. geom_text() digunakan untuk menambahkan komponen layer teks pada grafik. Dalam kasus ini digunakan untuk menampilkan nilai di atas masing-masing batang. vjust = -0.25 agar teks berada di atas batang.

ggplot(data = canceled, mapping = aes(x = reorder(name, pct), y = pct*100, fill = name)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = paste(round(pct*100, 2), "%")), hjust = -0.01) +
  theme(legend.position = "none") +
  labs(title = "Persentase Maskapai Yang Sering Melakukan Cancel",
       x = "Maskapai",
       y = "Persentase") +
  coord_flip()

Agar tampilan barplot dengan axis.text.x lebih menarik, gunakan coord_flip() untuk memutar grafik. Posisi axis x di posisi y dan sebaliknya.

7.2 Histogram & Density

Histogram atau Density dapat digunakan untuk memvisualisasikan sebaran dari sebuah variabel numerik.

g <- ggplot(data = flights_tbl, mapping = aes(x = air_time))
g

Karena variabel yang akan kita gunakan sama, yaitu hanya air_time maka kita simpan dahulu hasil dari ggplot ke dalam objek g sehingga kita dapat mengganti argumen pada geom_histogram() tanpa perlu memanggil lagi fungsi ggplot() dengan argumen yang sama sepertisebelumnya. Ketika kita panggil objek dari ggplot tersebut, maka hnaya menapilkan sebuah kanvas kosong karena kita belum menambahkan layer geom apa yang akan digunakan.

g +
  geom_histogram()

Ketika kita tambahkan geom_histogram() maka akan ditambahkan histogram. Secara default geom_histogram() menggunakan 30 bins. bins adalah banyaknya kotak/batang, sedangkan lebar batang disebut binwidth. Jika ada NA maka secara otomatis akan dibuang.

g +
  geom_histogram(bins = 50, fill = "skyblue", color = "white")

Dengan bins = 50 artinya pada histogram tersebut akan digunakan 50 batang. Argumen fill = "skyblue" untuk memberikan warna pada batang histogram. Anda juga dapat menggunakan warna lain, misalnya fill = "pink" atau fill = "lightblue" atau bahkan menggunakan kode warna Hex.

Sebagian besar lamanya penerbangan kurang dari 200 menit. Namun dari grafik di atas terlihat ada beberapa puncak yang terjadi. Mari kita lihat menggunakan geom_density()

g +
  geom_histogram(aes(y = ..density..), bins = 50, fill = "skyblue", color = "white") +
  geom_density(color = "darkgreen", size = 0.7)

g +
  geom_density(fill = "skyblue", alpha = 0.5)

Namun jika diperhatikan, ada juga penerbangan yang lama waktu terbangnya lebih dari 600 menit atau 10 jam. Kita lihat data dengan penerbangan selama sekitar 10 jam tersebut.

flights10h <- flights_tbl %>% 
  filter(air_time > 500)

flights10h %>% 
  group_by(origin, dest) %>% 
  summarise(min = min(air_time), avg = mean(air_time), std = sd(air_time), max = max(air_time))

Ternyata penerbangan dari bandara EWR dan JFK menuju bandara HNL rata-rata membutuhkan waktu terbang lebih dari 600 menit atau 10 jam. Apa itu HNL?

airports %>% 
  filter(faa == "HNL")

7.3 Boxplot

Secara default, boxplot di ggplot2 memerlukan variabel kategorik sebagai argumen x dan variabel numerik sebagai argumen y.

ggplot(data = flights_tbl, mapping = aes(x = name, y = wind_speed)) +
  geom_boxplot() +
  coord_flip()

Jika hanya ingin satu boxplot untuk satu variabel tanpa dibedakan berdasarkan kategori lain maka cukup gunakan x = '' atau string lain seperti contoh berikut.

ggplot(data = flights_tbl, mapping = aes(x = "Statistics", y = temp)) +
  geom_boxplot()

ggplot(data = flights_tbl, mapping = aes(x = origin, y = temp)) +
  geom_boxplot() +
  coord_flip()

ggplot(data = flights_tbl, mapping = aes(x = origin, y = temp)) +
  geom_boxplot(color = "skyblue") +
  coord_flip()

Anda dapat membaca beberapa artikel tentang geom_boxplot(), salah satunya geom_boxplot.

7.4 Scatter plot

Scatter plot adalah visualisasi data dari dua buah variabel numerik. Misalkan dari data weather kita ambil data cuaca di bandara JFK saja selama tahun 2013.

weather_jfk <- weather %>% 
  filter(origin == "JFK") 
ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_point()

Anda dapat merubah shape dari geom_point dengan sebuah bilangan integer.

Point Shape

Point Shape

ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_point(shape = 1) +
  labs(title = "Suhu Bandara JFK Selama Tahun 2013",
       x = "waktu",
       y = "Suhu")

7.5 Line plot/time series plot

ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_line()

ggplot(data = weather_jfk, mapping = aes(x = time_hour)) + 
  geom_line(aes(y = temp), color = "skyblue")

Ketebalan garis dapat disesuaikan dengan size =, misalnya size = 1 untuk garis yang lebih tebal dari default.

ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_line(color = "skyblue") +
  geom_point(size = 0.5) +
  scale_x_datetime(breaks = "1 month", date_labels = "%b %d") +
  theme(axis.text.x = element_text(angle = 90))

ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_line() +
  geom_point(size = 0.5) +
  scale_x_datetime(breaks = "days", date_labels = "%b %d") +
  theme(axis.text.x = element_text(angle = 90))

ggplot(data = weather_jfk, mapping = aes(x = time_hour, y = temp)) + 
  geom_line() +
  geom_point(size = 0.5) +
  scale_x_datetime(breaks = "1 month", date_labels = "%b %d") +
  theme(axis.text.x = element_text(angle = 90)) +
  labs(title = "Suhu Bandara JFK Selama Tahun 2013",
       x = "Waktu",
       y = "Suhu")

weather_jfk %>% 
  ggplot(mapping = aes(x = time_hour, y = temp)) +
  geom_line() +
  geom_smooth()

weather %>% 
  ggplot(mapping = aes(x = time_hour, y = temp, color = origin)) +
  # geom_line() +
  geom_smooth() +
  scale_color_manual(values = c("#ea5454", "#6f45d8", "#57c158"))

8 Facet

flights_aug2 <- flights_tbl %>% 
  inner_join(airports, by = c("origin" = "faa"), suffix = c("_carrier", "_originairports")) %>% 
  filter(!is.na(dep_delay) & month == 8) %>% 
  mutate(tgl = as.Date(paste(year, month, day, sep = "-"))) %>% 
  group_by(name_originairports, tgl) %>% 
  summarise(n = n()) 
ggplot(data = flights_aug2, mapping = aes(x = tgl, y = n)) + 
  geom_line(color = "skyblue") +
  geom_point() +
  facet_grid(rows = vars(name_originairports)) +
  scale_x_date(breaks = "days", date_labels = "%d") +
  theme(axis.text.x = element_text(angle = 45)) +
  labs(title = "Jumlah Penerbangan Harian Bulan Agustus 2013",
       x = "Tanggal",
       y = "Jumlah")

ggplot(data = flights_aug2, mapping = aes(x = tgl, y = n)) + 
  geom_line(color = "skyblue") +
  geom_point() +
  facet_grid(name_originairports ~ . ) +
  scale_x_date(breaks = "days", date_labels = "%d") +
  theme(axis.text.x = element_text(angle = 45)) +
  labs(title = "Jumlah Penerbangan Harian Bulan Agustus 2013",
       x = "Tanggal",
       y = "Jumlah")


ggplot(data = flights_aug2, mapping = aes(x = tgl, y = n)) + 
  geom_line(color = "skyblue") +
  geom_point() +
  facet_grid(cols = vars(name_originairports)) +
  labs(title = "Jumlah Penerbangan Harian Bulan Agustus 2013",
       x = "Tanggal",
       y = "Jumlah")


ggplot(data = flights_aug2, mapping = aes(x = tgl, y = n)) + 
  geom_line(color = "skyblue") +
  geom_point() +
  facet_grid( . ~ name_originairports) +
  labs(title = "Jumlah Penerbangan Harian Bulan Agustus 2013",
       x = "Tanggal",
       y = "Jumlah")

ggplot(data = flights_aug2, mapping = aes(x = tgl, y = n)) + 
  geom_line(color = "skyblue") +
  geom_point() +
  facet_grid(rows = vars(), cols = vars(name_originairports)) +
  labs(title = "Jumlah Penerbangan Harian Bulan Agustus 2013",
       x = "Tanggal",
       y = "Jumlah")

Setelah selesai membuat grafik yang Anda inginkan, Anda dapat menyimpan grafik tersebut dengan fungsi ggsave().

g <- flights_tbl %>% 
  filter(origin == "JFK") %>% 
  ggplot(mapping = aes(x = time_hour, y = temp)) +
  geom_line() +
  geom_smooth()

ggsave(filename = "plotR.jpg", plot = g, width = 10, height = 7)

Jika Anda tidak menyebutkan objek ggplot2 pada plot = maka secara otomatis plot yang terakhir dibuat yang akan dipilih.

