Cara Memanipulasi data dengan library dplyr

Saat melakukan manipulasi data pada R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain: sample() untuk mengambil sampel secara acak dari tabel, mutate() untuk menambah kolom, select() untuk mengambil data atau variabel yang dibutuhkan, arrange() untuk mengurutkan data, filter() untuk menyaring data, groupby() untuk mengelompokkan data dan lain lain.

Data Outflow uang kartal Pulau Kalimantan

library(readxl)
## Warning: package 'readxl' was built under R version 4.1.2
dplyrOutflow1 <- read_excel(path = "D:/Matkul Sem2/Linear Algebra/pivot Outflow Kalimantan.xlsx")
dplyrOutflow1
## # A tibble: 5 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.1.2
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1
## Warning: package 'tidyr' was built under R version 4.1.2
## Warning: package 'readr' was built under R version 4.1.2
## Warning: package 'purrr' was built under R version 4.1.2
## Warning: package 'dplyr' was built under R version 4.1.2
## Warning: package 'forcats' was built under R version 4.1.2
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Menghapus Beberapa Variabel yang tidak diperlukan

Kalimantan2015 <- select(dplyrOutflow1, '2015')
Kalimantan2015
## # A tibble: 5 x 1
##   `2015`
##    <dbl>
## 1  8486.
## 2 10190.
## 3  6755.
## 4 16514.
## 5     0
Kalimantanmin2 <- select(dplyrOutflow1, '2011', '2012', '2013', '2014', '2016', '2017', '2018', '2020', '2021')
Kalimantanmin2
## # A tibble: 5 x 9
##   `2011` `2012` `2013` `2014` `2016` `2017` `2018` `2020` `2021`
##    <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1  5221.  5698.  6011.  6764.  9402. 11132. 12278. 13501.  6958.
## 2  6850.  7741. 15421.  8346. 10131. 11695. 13040. 12518.  7071.
## 3  5126.  5580.  5046.  6265.  7424.  9544.  8476.  8222.  5192.
## 4 12337. 14426. 18451. 17398. 15221. 16525. 17724. 14993.  9110.
## 5     0      0      0      0      0   1507.  2471.  2826.  1960.

Memilih Variebel yang akan digunakan

Kalimantanmin2015 <- select(dplyrOutflow1, -'2019')
Kalimantanmin2015
## # A tibble: 5 x 11
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2020` `2021`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13501.  6958.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12518.  7071.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  8222.  5192.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 14993.  9110.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  2826.  1960.

Sintaks ini menggunakan fungsi select, dan select ini tidak hanya untuk memilih kolom dalam jumlah banyak, melainkan juga bisa untuk mengganti nama kolomnya. misalnya :

Kalimantanmin1 <- dplyrOutflow1 %>%
  select(tahun = `2017`, `2018`, `2019`)
Kalimantanmin1
## # A tibble: 5 x 3
##    tahun `2018` `2019`
##    <dbl>  <dbl>  <dbl>
## 1 11132. 12278. 13768.
## 2 11695. 13040. 12891.
## 3  9544.  8476.  9228.
## 4 16525. 17724. 18596.
## 5  1507.  2471.  3096.

Mengganti tabel pada tahun

library(dplyr)
Kalimantantahun2 <- dplyrOutflow1 %>% rename('2010' = '2011')
head(Kalimantantahun2)
## # A tibble: 5 x 12
##   Provinsi `2010` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Menggambil Nilai yang tidak Duplikasi dari Variabel yang ada

Dari Sebuah Variabel

Kalimantan4 <- distinct(dplyrOutflow1, `2016`)
Kalimantan4
## # A tibble: 5 x 1
##   `2016`
##    <dbl>
## 1  9402.
## 2 10131.
## 3  7424.
## 4 15221.
## 5     0

Dari Semua Variabel

Kalimantan5 <- distinct(dplyrOutflow1, `2016`, .keep_all = TRUE)
Kalimantan5
## # A tibble: 5 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Menyeleksi Baris pada Tabel

Baris tabel diseleksi dengan menggunakan fungsi filter().

Kalimantan6 <- dplyrOutflow1 %>%
  filter(Provinsi <= 'Kalimantan Utara') %>%
    select(`2018`,`2019`)
Kalimantan6
## # A tibble: 5 x 2
##   `2018` `2019`
##    <dbl>  <dbl>
## 1 12278. 13768.
## 2 13040. 12891.
## 3  8476.  9228.
## 4 17724. 18596.
## 5  2471.  3096.
Kalimantan7 <- dplyrOutflow1 %>%
  filter(Provinsi == 'Kalimantan Barat', Provinsi == 'Kalimantan Timur') %>%
    select( -`2020`)
Kalimantan7
## # A tibble: 0 x 11
## # ... with 11 variables: Provinsi <chr>, 2011 <dbl>, 2012 <dbl>, 2013 <dbl>,
## #   2014 <dbl>, 2015 <dbl>, 2016 <dbl>, 2017 <dbl>, 2018 <dbl>, 2019 <dbl>,
## #   2021 <dbl>
str(dplyrOutflow1)
## tibble [5 x 12] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:5] "Kalimantan Barat" "Kalimantan Tengah" "Kalimantan Selatan" "Kalimantan Timur" ...
##  $ 2011    : num [1:5] 5221 6850 5126 12337 0
##  $ 2012    : num [1:5] 5698 7741 5580 14426 0
##  $ 2013    : num [1:5] 6011 15421 5046 18451 0
##  $ 2014    : num [1:5] 6764 8346 6265 17398 0
##  $ 2015    : num [1:5] 8486 10190 6755 16514 0
##  $ 2016    : num [1:5] 9402 10131 7424 15221 0
##  $ 2017    : num [1:5] 11132 11695 9544 16525 1507
##  $ 2018    : num [1:5] 12278 13040 8476 17724 2471
##  $ 2019    : num [1:5] 13768 12891 9228 18596 3096
##  $ 2020    : num [1:5] 13501 12518 8222 14993 2826
##  $ 2021    : num [1:5] 6958 7071 5192 9110 1960
str(dplyrOutflow1 %>% group_by(Provinsi))
## grouped_df [5 x 12] (S3: grouped_df/tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:5] "Kalimantan Barat" "Kalimantan Tengah" "Kalimantan Selatan" "Kalimantan Timur" ...
##  $ 2011    : num [1:5] 5221 6850 5126 12337 0
##  $ 2012    : num [1:5] 5698 7741 5580 14426 0
##  $ 2013    : num [1:5] 6011 15421 5046 18451 0
##  $ 2014    : num [1:5] 6764 8346 6265 17398 0
##  $ 2015    : num [1:5] 8486 10190 6755 16514 0
##  $ 2016    : num [1:5] 9402 10131 7424 15221 0
##  $ 2017    : num [1:5] 11132 11695 9544 16525 1507
##  $ 2018    : num [1:5] 12278 13040 8476 17724 2471
##  $ 2019    : num [1:5] 13768 12891 9228 18596 3096
##  $ 2020    : num [1:5] 13501 12518 8222 14993 2826
##  $ 2021    : num [1:5] 6958 7071 5192 9110 1960
##  - attr(*, "groups")= tibble [5 x 2] (S3: tbl_df/tbl/data.frame)
##   ..$ Provinsi: chr [1:5] "Kalimantan Barat" "Kalimantan Selatan" "Kalimantan Tengah" "Kalimantan Timur" ...
##   ..$ .rows   : list<int> [1:5] 
##   .. ..$ : int 1
##   .. ..$ : int 3
##   .. ..$ : int 2
##   .. ..$ : int 4
##   .. ..$ : int 5
##   .. ..@ ptype: int(0) 
##   ..- attr(*, ".drop")= logi TRUE

Pengelompokan dan Pengurutan Data

Pengelompokan Data

Kalimantankel <- dplyrOutflow1 %>%
    group_by(Provinsi)
Kalimantankel
## # A tibble: 5 x 12
## # Groups:   Provinsi [5]
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Pengurutan Data

Kalimantanubah <- arrange(dplyrOutflow1, `2012`)
Kalimantanubah
## # A tibble: 5 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## 2 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 3 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 4 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 5 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## # ... with 1 more variable: 2021 <dbl>

Menambahkan Kolon pada Tabel

Kalimantankel2 <- dplyrOutflow1 %>%
    mutate(`2021` = dplyrOutflow1$`2020`/2)
Kalimantankel2
## # A tibble: 5 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Kaliman~  5221.  5698.  6011.  6764.  8486.  9402. 11132. 12278. 13768. 13501.
## 2 Kaliman~  6850.  7741. 15421.  8346. 10190. 10131. 11695. 13040. 12891. 12518.
## 3 Kaliman~  5126.  5580.  5046.  6265.  6755.  7424.  9544.  8476.  9228.  8222.
## 4 Kaliman~ 12337. 14426. 18451. 17398. 16514. 15221. 16525. 17724. 18596. 14993.
## 5 Kaliman~     0      0      0      0      0      0   1507.  2471.  3096.  2826.
## # ... with 1 more variable: 2021 <dbl>

Visualisasi Data Tabel dengan ggplot

ggplot dengan Grafik Titik

ggplot(data = dplyrOutflow1, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

ggplot(data = dplyrOutflow1, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

Refrensi

1.https://rpubs.com/suhartono-uinmaliki/868598

2.https://www.bi.go.id/id/statistik/ekonomi-keuangan/ssp/indikator-pengedaran-uang.aspx