Objektif Ini adalah catatan untuk memandu secara singkat dalam melakukan eksplorasi data menggunakan R dan beberapa package yang menjadi bagian dari package tidyverse. Tujuan dari tutorial ini adalah agar peserta dapat mencoba mengakses data yang berasal dari database (pada kesempatan ini menggunakan MySQL) melalui R dan menggunakan data dari file CSV yang dapat diunduh. Database yang akan diakses telah disediakan oleh pembicara di localhost-nya. Namun, Anda hanya dapat mengaksesnya ketika kegiatan sedang berlangsung.
Cakupan Materi Materi yang akan dibahas:
Operator Pipes untuk beberapa fungsi secara berurutan/sequence
Mendapatkan nilai unik/tidak duplikat dari data frame atau variable
Subset variable berdasarkan nama/indeks variable
Subset baris berdasarkan indeks baris atau nilai dari satu atau beberapa variabel
Koneksi internet yang baik dan terhubung dalam jaringan yang sama dengan PC pembicara untuk dapat mengakses database.
Menginstall software
R program https://cran.r-project.org/
RStudio https://www.rstudio.com/products/rstudio/download/
Data & Script yang dapat diperoleh dari repository ini dan pada database yang disediakan pembicara.
Package R yang dibutuhkan: readr, tidyr, dplyr, ggplot2 (atau tidyverse), dan RMySQL.
Catatan: Data diperoleh dari packages nycflights13 yang disimpan ke dalam database. Jika Anda ingin mencoba diluar kegiatan atau tidak dapat terhubung dengan database pembicara, Anda dapat menginstall package nycflights13 untuk memperoleh data yang digunakan pada database. Dua data lain berupa file CSV untuk disesuaikan dengan kebutuhan tutorial. Data ini terdiri dari 336,776 penerbangan dari New York City (NYC) selama tahun 2013. Data asli berasal dari US Bureau of Transportation Statistics, dan dapat dilihat dokumentasinya dengan ?nycflights13::flights.
library(nycflights13)
Panggil package yang sudah Anda install dengan fungsi library().
# Panggil package yang sudah terisntall
library(RMySQL)
## Loading required package: DBI
Package reader, tidyr, dplyr dan ggplot2 (dan beberapa package lain yang tidak digunakan di tutorial ini) termasuk dalam bagian package tidyverse. tidyverse adalah kumpulan package yang dibuat oleh Hadley Wickham dkk untuk kebutuhan data science menggunakan R.
RMySQL digunakan untuk membuat koneksi antara R dan database MySQL. Beberapa fungsi yang akan digunakan pada tutorial ini antara lain dbConnect() yang berasal dari package DBI untuk membuat koneksi, dbReadTable() untuk import data dari database ke R dan fungsi dbDisconnect() untuk memutuskan koneksi yang sudah tidak digunakan.
readr berguna untuk import data dari tabular data file (csv, text file, dll).
tidyr memiliki fungi-fungsi untuk “merapihkan” data. Terutama yang sering digunakan adalah fungsi gather() dan spread().
dplyr adalah package yang sangat berguna untuk melakukan manipulasi/transformasi data menggunakan R.
ggplot2 adalah salah satu package yang sangat banyak digunakan oleh pengguna R untuk kebutuhan visualisasi.
tidyverse menggunakan tibble sebagai pengganti data.frame. > Tibbles are data frames, but they tweak some older behaviours to make life a little easier. R is an old language, and some things that were useful 10 or 20 years ago now get in your way. It’s difficult to change base R without breaking existing code, so most innovation occurs in packages – Grolemund & Wickham.
Beberapa kelebihan tibble dibandingkan data.frame diantaranya adalah ketika menampilkan data, tibble tidak menampilkan semua baris dan kolom. Jika ada lebih dari 10 baris data, maka hanya akan ada 10 baris pertama yang ditampilkan dan beberapa variabel sesuai dengan lebar console R Anda. Untuk lebih memahami tentang tibble, silahkan membaca artikel ini.