Lembaga : UIN Maulana Malik Ibrahim Malang
Jurusan : Teknik Informatika

1 . Pendahuluan

Saat melakukan manipulasi data pada R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain: sample() untuk mengambil sampel secara acak dari tabel, mutate() untuk menambah kolom, select() untuk mengambil data atau variabel yang dibutuhkan, arrange() untuk mengurutkan data, filter() untuk menyaring data, groupby() untuk mengelompokkan data dan lain lain.

2 . Data Inflow Pulau Sulawesi-Papua

library(readxl)
## Warning: package 'readxl' was built under R version 4.1.3
manInflow <- read_excel(path = "inflow tahunan Sul.xlsx")
manInflow
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.1.3
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1
## Warning: package 'ggplot2' was built under R version 4.1.3
## Warning: package 'tibble' was built under R version 4.1.3
## Warning: package 'tidyr' was built under R version 4.1.3
## Warning: package 'readr' was built under R version 4.1.3
## Warning: package 'purrr' was built under R version 4.1.3
## Warning: package 'dplyr' was built under R version 4.1.3
## Warning: package 'forcats' was built under R version 4.1.3
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

3 . Menghapus Beberapa Variable yang Tidak Diperlukan

## Menghapus Semua Kolom Kecuali Kolom Tahun 2012
sul2012 <- select(manInflow, '2012')
sul2012
## Menghapus semua Kolom Kecuali Kolom tahun 2012,2013,2014
sul200 <- select(manInflow, `2012`,`2013`,`2014`)
sul200

4 . Memilih Variable yang ingin Digunakan

## Memilih semua kolom kecuali kolom 2012
Sulawesiex2012 <- select(manInflow, -'2012')
Sulawesiex2012

Select dapat juga digunakan untuk merubah atau mengganti nama Kolom

## Mengganti Kolom 2012 Menjadi 2k12
Sulawesi300 <- manInflow %>% 
  select("2k12" = `2012` , `2018` , `2019`)
Sulawesi300

5 . Mengganti Kolom Tahun pada tabel

library(dplyr)
Sulawesi400 <- manInflow %>% rename("2k13" = '2013')
head(Sulawesi400)

6 . Mengambil Nilai yang Tidak duplikasi dari Variable

6.1 . Di Suatu Variable

Sulawesi4 <- distinct(manInflow, `2015`)
Sulawesi4

6.2 . Di Semua Variable

Sulawesi5 <- distinct(manInflow, `2015`, .keep_all = TRUE)
Sulawesi5

7 . Menyeleksi Baris Pada Tabel

## Menyeleksi Menggunakan fungsi Filter()   

Sulawesi5 <- manInflow %>%
  filter(Provinsi <= 'Sulawesi') %>%
    select(`2011`,`2012`)
Sulawesi5
Sulawesi6 <- manInflow %>%
  filter(Provinsi == 'Sulawesi Barat', Provinsi == 'Sulawesi Selatan') %>%
    select( -`2017`)
Sulawesi6
str(manInflow)
## tibble [11 x 12] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:11] "Sulampua" "Sulawesi Utara" "Sulawesi Tengah" "Sulawesi Selatan" ...
##  $ 2011    : num [1:11] 25056 5671 1563 10593 659 ...
##  $ 2012    : num [1:11] 31011 6635 1885 13702 964 ...
##  $ 2013    : num [1:11] 63774 21646 1520 17770 6093 ...
##  $ 2014    : num [1:11] 41607 7374 3000 19384 2256 ...
##  $ 2015    : num [1:11] 40309 6286 2593 19583 2385 ...
##  $ 2016    : num [1:11] 45737 7266 2665 21043 3491 ...
##  $ 2017    : num [1:11] 44126 7044 2806 18803 3618 ...
##  $ 2018    : num [1:11] 52672 7781 3701 21894 3632 ...
##  $ 2019    : num [1:11] 60202 7809 4042 24749 4390 ...
##  $ 2020    : num [1:11] 52812 6324 3052 21551 3353 ...
##  $ 2021    : num [1:11] 45714 4671 2453 18335 3270 ...
str(manInflow %>% group_by(Provinsi))
## grouped_df [11 x 12] (S3: grouped_df/tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:11] "Sulampua" "Sulawesi Utara" "Sulawesi Tengah" "Sulawesi Selatan" ...
##  $ 2011    : num [1:11] 25056 5671 1563 10593 659 ...
##  $ 2012    : num [1:11] 31011 6635 1885 13702 964 ...
##  $ 2013    : num [1:11] 63774 21646 1520 17770 6093 ...
##  $ 2014    : num [1:11] 41607 7374 3000 19384 2256 ...
##  $ 2015    : num [1:11] 40309 6286 2593 19583 2385 ...
##  $ 2016    : num [1:11] 45737 7266 2665 21043 3491 ...
##  $ 2017    : num [1:11] 44126 7044 2806 18803 3618 ...
##  $ 2018    : num [1:11] 52672 7781 3701 21894 3632 ...
##  $ 2019    : num [1:11] 60202 7809 4042 24749 4390 ...
##  $ 2020    : num [1:11] 52812 6324 3052 21551 3353 ...
##  $ 2021    : num [1:11] 45714 4671 2453 18335 3270 ...
##  - attr(*, "groups")= tibble [11 x 2] (S3: tbl_df/tbl/data.frame)
##   ..$ Provinsi: chr [1:11] "Gorontalo" "Maluku" "Maluku Utara" "Papua" ...
##   ..$ .rows   : list<int> [1:11] 
##   .. ..$ : int 7
##   .. ..$ : int 9
##   .. ..$ : int 8
##   .. ..$ : int 10
##   .. ..$ : int 11
##   .. ..$ : int 1
##   .. ..$ : int 6
##   .. ..$ : int 4
##   .. ..$ : int 3
##   .. ..$ : int 5
##   .. ..$ : int 2
##   .. ..@ ptype: int(0) 
##   ..- attr(*, ".drop")= logi TRUE

8 . Pengelompokan dan Pengumpulan Data

8.1 . Pengelompokan

## Menggunakan Fugnsi group_by()  
  
Sulawesig1 <- manInflow %>%
    group_by(Provinsi)
Sulawesig1

8.2 . Pengurutan

Sulawesisort <- arrange(manInflow, `2012`)
Sulawesisort

9 . Menambahkan Kolom Pada Tabel

Sulawesiup1 <- manInflow %>%
    mutate(`2021` = manInflow$`2020`/2)
Sulawesiup1

10 . Visualisasi Data

10.1 . Menggunakan Grafik Dot / Titik

ggplot(data = manInflow, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

ggplot(data = manInflow, mapping = aes(x = Provinsi, y = `2012`)) +
  geom_point()