Manipulasi data dengan library dplyr

Saat melakukan manipulasi data pada R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain: sample() untuk mengambil sampel secara acak dari tabel, mutate() untuk menambah kolom, select() untuk mengambil data atau variabel yang dibutuhkan, arrange() untuk mengurutkan data, filter() untuk menyaring data, groupby() untuk mengelompokkan data dan lain lain.

Data outflow pada pulau Kalimantan

library(readxl)
## Warning: package 'readxl' was built under R version 4.1.2
manipulasioutflow <- read_excel(path = "outflow tahunan1.xlsx")
manipulasioutflow 
## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.1.2
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1
## Warning: package 'tidyr' was built under R version 4.1.2
## Warning: package 'readr' was built under R version 4.1.2
## Warning: package 'purrr' was built under R version 4.1.2
## Warning: package 'dplyr' was built under R version 4.1.2
## Warning: package 'forcats' was built under R version 4.1.2
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Menghapus Beberapa Variabel yang Tidak Ingin Digunakan

Kalimantan2011 <- select(manipulasioutflow, '2011')
Kalimantan2011
## # A tibble: 6 x 1
##   `2011`
##    <dbl>
## 1 29535.
## 2  5221.
## 3  6850.
## 4  5126.
## 5 12337.
## 6     0
Kalimantan2 <- select(manipulasioutflow, `2012`, `2014`, `2016`, `2018`, `2020`)
Kalimantan2
## # A tibble: 6 x 5
##   `2012` `2014` `2016` `2018` `2020`
##    <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 33444. 38772. 42179. 53989. 52060.
## 2  5698.  6764.  9402. 12278. 13501.
## 3  7741.  8346. 10131. 13040. 12518.
## 4  5580.  6265.  7424.  8476.  8222.
## 5 14426. 17398. 15221. 17724. 14993.
## 6     0      0      0   2471.  2826.

Memilih Variabel yang Ingin Digunakan

Kalimantanmin2011 <- select(manipulasioutflow, -'2017')
Kalimantanmin2011
## # A tibble: 6 x 11
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2018` `2019` `2020` `2021`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 53989. 57579. 52060. 30291.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 12278. 13768. 13501.  6958.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 13040. 12891. 12518.  7071.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  8476.  9228.  8222.  5192.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 17724. 18596. 14993.  9110.
## 6 Kaliman~     0      0      0      0      0      0   2471.  3096.  2826.  1960.

Sintaks ini menggunakan fungsi select, dan select ini tidak hanya untuk memilih kolom dalam jumlah banyak, melainkan juga bisa untuk mengganti nama kolomnya. misalnya :

Kalimantanmin1 <- manipulasioutflow %>%
  select(tahun = `2014`, `2018`, `2019`)
Kalimantanmin1
## # A tibble: 6 x 3
##    tahun `2018` `2019`
##    <dbl>  <dbl>  <dbl>
## 1 38772. 53989. 57579.
## 2  6764. 12278. 13768.
## 3  8346. 13040. 12891.
## 4  6265.  8476.  9228.
## 5 17398. 17724. 18596.
## 6     0   2471.  3096.

Mengganti Tabel Tahun

library(dplyr)
Kalimantantahun2 <- manipulasioutflow %>% rename('2010' = '2011')
head(Kalimantantahun2)
## # A tibble: 6 x 12
##   Provinsi `2010` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Mengambil Nilai yang Tidak Duplikasi dari Variabel

Dari Sebuah Variabel

Kalimantan4 <- distinct(manipulasioutflow, `2015`)
Kalimantan4
## # A tibble: 6 x 1
##   `2015`
##    <dbl>
## 1 41945.
## 2  8486.
## 3 10190.
## 4  6755.
## 5 16514.
## 6     0

Di Semua Variabel

Kalimantan5 <- distinct(manipulasioutflow, `2015`, .keep_all = TRUE)
Kalimantan5
## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Menyeleksi Baris pada Tabel

Baris tabel diseleksi dengan menggunakan fungsi filter().

Kalimantan6 <- manipulasioutflow %>%
  filter(Provinsi <= 'Kalimantan Barat') %>%
    select(`2018`,`2019`)
Kalimantan6
## # A tibble: 2 x 2
##   `2018` `2019`
##    <dbl>  <dbl>
## 1 53989. 57579.
## 2 12278. 13768.
Kalimantan7 <- manipulasioutflow %>%
  filter(Provinsi == 'Kalimantan Barat', Provinsi == 'Kalimantan Tengah') %>%
    select( -`2020`)
Kalimantan7
## # A tibble: 0 x 11
## # ... with 11 variables: Provinsi <chr>, 2011 <dbl>, 2012 <dbl>, 2013 <dbl>,
## #   2014 <dbl>, 2015 <dbl>, 2016 <dbl>, 2017 <dbl>, 2018 <dbl>, 2019 <dbl>,
## #   2021 <dbl>
str(manipulasioutflow)
## tibble [6 x 12] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:6] "Kalimantan" "Kalimantan Barat" "Kalimantan Tengah" "Kalimantan Selatan" ...
##  $ 2011    : num [1:6] 29535 5221 6850 5126 12337 ...
##  $ 2012    : num [1:6] 33444 5698 7741 5580 14426 ...
##  $ 2013    : num [1:6] 44929 6011 15421 5046 18451 ...
##  $ 2014    : num [1:6] 38772 6764 8346 6265 17398 ...
##  $ 2015    : num [1:6] 41945 8486 10190 6755 16514 ...
##  $ 2016    : num [1:6] 42179 9402 10131 7424 15221 ...
##  $ 2017    : num [1:6] 50404 11132 11695 9544 16525 ...
##  $ 2018    : num [1:6] 53989 12278 13040 8476 17724 ...
##  $ 2019    : num [1:6] 57579 13768 12891 9228 18596 ...
##  $ 2020    : num [1:6] 52060 13501 12518 8222 14993 ...
##  $ 2021    : num [1:6] 30291 6958 7071 5192 9110 ...
str(manipulasioutflow %>% group_by(Provinsi))
## grouped_df [6 x 12] (S3: grouped_df/tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:6] "Kalimantan" "Kalimantan Barat" "Kalimantan Tengah" "Kalimantan Selatan" ...
##  $ 2011    : num [1:6] 29535 5221 6850 5126 12337 ...
##  $ 2012    : num [1:6] 33444 5698 7741 5580 14426 ...
##  $ 2013    : num [1:6] 44929 6011 15421 5046 18451 ...
##  $ 2014    : num [1:6] 38772 6764 8346 6265 17398 ...
##  $ 2015    : num [1:6] 41945 8486 10190 6755 16514 ...
##  $ 2016    : num [1:6] 42179 9402 10131 7424 15221 ...
##  $ 2017    : num [1:6] 50404 11132 11695 9544 16525 ...
##  $ 2018    : num [1:6] 53989 12278 13040 8476 17724 ...
##  $ 2019    : num [1:6] 57579 13768 12891 9228 18596 ...
##  $ 2020    : num [1:6] 52060 13501 12518 8222 14993 ...
##  $ 2021    : num [1:6] 30291 6958 7071 5192 9110 ...
##  - attr(*, "groups")= tibble [6 x 2] (S3: tbl_df/tbl/data.frame)
##   ..$ Provinsi: chr [1:6] "Kalimantan" "Kalimantan Barat" "Kalimantan Selatan" "Kalimantan Tengah" ...
##   ..$ .rows   : list<int> [1:6] 
##   .. ..$ : int 1
##   .. ..$ : int 2
##   .. ..$ : int 4
##   .. ..$ : int 3
##   .. ..$ : int 5
##   .. ..$ : int 6
##   .. ..@ ptype: int(0) 
##   ..- attr(*, ".drop")= logi TRUE

Pengelompokkan dan Pengurutkan Data

Pengelompokkan Data

Kalimantanup <- manipulasioutflow %>%
    group_by(Provinsi)
Kalimantanup
## # A tibble: 6 x 12
## # Groups:   Provinsi [6]
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Pengurutan data

Kalimantanubah <- arrange(manipulasioutflow, `2012`)
Kalimantanubah
## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## 2 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 3 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 4 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## # ... with 1 more variable: 2021 <dbl>

Menambahkan kolom pda tabel

Kalimantanup1 <- manipulasioutflow %>%
    mutate(`2021` = manipulasioutflow$`2020`/2)
Kalimantanup1
## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~ 29535. 33444. 44929. 38772. 41945. 42179. 50404. 53989. 57579. 52060.
## 2 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 3 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 4 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 6 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Visualisasi Data Tabel dengan ggplot

ggplot dengan Grafik Titik

ggplot(data = manipulasioutflow, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

ggplot(data = manipulasioutflow, mapping = aes(x = Provinsi, y = `2012`)) +
  geom_point()