HELLO!
Teknik Informatika UIN MAULANA MALIK IBRAHIM MALANG
Lalu Egiq Fahalik Anggara(220605110066)
linier algebra
by Prof. Dr. Suhartono, M.Kom
Ini adalah catatan untuk memandu secara singkat dalam melakukan eksplorasi data menggunakan R dan beberapa package yang menjadi bagian dari package tidyverse. Tujuan dari tutorial ini adalah agar peserta dapat mencoba mengakses data yang berasal dari database (pada kesempatan ini menggunakan MySQL) melalui R dan menggunakan data dari file CSV yang dapat diunduh. Database yang akan diakses telah disediakan oleh pembicara di localhost-nya. Namun, Anda hanya dapat mengaksesnya ketika kegiatan sedang berlangsung.
Materi yang akan dibahas:
Operator Pipes untuk beberapa fungsi secara berurutan/sequence
Mendapatkan nilai unik/tidak duplikat dari data frame atau variable
Subset variable berdasarkan nama/indeks variable
Subset baris berdasarkan indeks baris atau nilai dari satu atau beberapa variabel
Untuk dapat mengikuti tutorial ini dengan baik, ada beberapa hal yang perlu dipersiapkan oleh peserta. Yaitu:
Koneksi internet yang baik dan terhubung dalam jaringan yang sama dengan PC pembicara untuk dapat mengakses database.
Menginstall software
Data & Script yang dapat diperoleh dari repository ini dan pada database yang disediakan pembicara.
Package R yang dibutuhkan: readr, tidyr, dplyr, ggplot2 (atau tidyverse), dan RMySQL.
Catatan: Data diperoleh dari packages nycflights13 yang disimpan ke dalam database. Jika Anda ingin mencoba diluar kegiatan atau tidak dapat terhubung dengan database pembicara, Anda dapat menginstall package nycflights13 untuk memperoleh data yang digunakan pada database. Dua data lain berupa file CSV untuk disesuaikan dengan kebutuhan tutorial. Data ini terdiri dari 336,776 penerbangan dari New York City (NYC) selama tahun 2013. Data asli berasal dari US Bureau of Transportation Statistics, dan dapat dilihat dokumentasinya dengan ?nycflights13::flights.
library(nycflights13)
## Warning: package 'nycflights13' was built under R version 4.2.3
#Pastikan Anda sudah berhasil install package tersebut.
Jalankan perintah di bawah ini untuk install package (jika Anda belum pernah install) yang akan digunakan untuk dapat mengikuti tutorial ini sampai selesai.
Panggil package yang sudah Anda install dengan fungsi library().
# Panggil package yang sudah terisntall
library(RMySQL)
## Warning: package 'RMySQL' was built under R version 4.2.3
## Loading required package: DBI
library(readr)
## Warning: package 'readr' was built under R version 4.2.3
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.2.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.2.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.2.3
# atau cukup memanggil
# library(tidyverse)
# untuk memanggil package di atas selain RMySQL
Package reader, tidyr, dplyr dan ggplot2 (dan beberapa package lain yang tidak digunakan di tutorial ini) termasuk dalam bagian package tidyverse. tidyverse adalah kumpulan package yang dibuat oleh Hadley Wickham dkk untuk kebutuhan data science menggunakan R.
RMySQL digunakan untuk membuat koneksi antara R dan database MySQL. Beberapa fungsi yang akan digunakan pada tutorial ini antara lain dbConnect() yang berasal dari package DBI untuk membuat koneksi, dbReadTable() untuk import data dari database ke R dan fungsi dbDisconnect() untuk memutuskan koneksi yang sudah tidak digunakan.
readr berguna untuk import data dari tabular data file (csv, text file, dll).
tidyr memiliki fungi-fungsi untuk “merapihkan” data. Terutama yang sering digunakan adalah fungsi gather() dan spread().
dplyr adalah package yang sangat berguna untuk melakukan manipulasi/transformasi data menggunakan R.
ggplot2 adalah salah satu package yang sangat banyak digunakan oleh pengguna R untuk kebutuhan visualisasi.
tidyverse menggunakan tibble sebagai pengganti data.frame. > Tibbles are data frames, but they tweak some older behaviours to make life a little easier. R is an old language, and some things that were useful 10 or 20 years ago now get in your way. It’s difficult to change base R without breaking existing code, so most innovation occurs in packages – Grolemund & Wickham.
Beberapa kelebihan tibble dibandingkan data.frame diantaranya adalah ketika menampilkan data, tibble tidak menampilkan semua baris dan kolom. Jika ada lebih dari 10 baris data, maka hanya akan ada 10 baris pertama yang ditampilkan dan beberapa variabel sesuai dengan lebar console R Anda. Untuk lebih memahami tentang tibble, silahkan membaca artikel ini.
Sebelum kita mulai, kita akan membahas terlebih dahulu sebuah operator yang sangat berguna dan banyak digunakan oleh pengguna R yang menggunakan tidyverse. Operator ini adalah Pipes (%>%). Perhatikan contoh di bawah ini.
mean(iris$Sepal.Length)
## [1] 5.843333
#atau
iris$Sepal.Length %>% mean()
## [1] 5.843333
Kedua script tersebut melakukan hal yang sama dan menghasilkan nilai yang sama.
Misalkan ada rangkaian dari beberapa fungsi seperti ini, fun1(), fun2() dan fun3() adalah fungsi di R.
Saya akan coba menjelaskan lebih dalam untuk lebih memahami oprator %>%.
Misalkan f(a, x) adalah sebuah fungsi di R dengan argumen a dan x. kemudian fungsi g(b, z) adalah fungsi lain di R dengan argumen b dan z. Dengan menggunakan operator %>% kita dapat menuliskannya sebagai berikut.
daftar pustaka