Dosen Pengampu : Prof. Dr. Suhartono,M.Kom.

Lembaga : UIN Maulana Malik Ibrahim Malang

Jurusan : Teknik Informatika

Manipulasi data dengan library dplyr

Saat melakukan manipulasi data pada R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain: sample() untuk mengambil sampel secara acak dari tabel, mutate() untuk menambah kolom, select() untuk mengambil data atau variabel yang dibutuhkan, arrange() untuk mengurutkan data, filter() untuk menyaring data, groupby() untuk mengelompokkan data dan lain lain.

Data inflow pada pulau Jawa

library(readxl)

## Warning: package 'readxl' was built under R version 4.1.2

manipulasiinflow <- read_excel(path = "inflow tahunan1.xlsx")
manipulasiinflow 

## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 6 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## # ... with 1 more variable: `2021` <dbl>

library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.1.2

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1

## Warning: package 'ggplot2' was built under R version 4.1.2

## Warning: package 'tibble' was built under R version 4.1.2

## Warning: package 'tidyr' was built under R version 4.1.2

## Warning: package 'readr' was built under R version 4.1.2

## Warning: package 'purrr' was built under R version 4.1.2

## Warning: package 'dplyr' was built under R version 4.1.2

## Warning: package 'stringr' was built under R version 4.1.2

## Warning: package 'forcats' was built under R version 4.1.2

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Menghapus Beberapa Variabel yang Tidak Ingin Digunakan

jawa2011 <- select(manipulasiinflow, '2011')
jawa2011

## # A tibble: 6 x 1
##    `2011`
##     <dbl>
## 1 123917.
## 2  43775.
## 3  35137.
## 4   6490.
## 5  38515.
## 6      0

jawa2 <- select(manipulasiinflow, `2012`, `2014`, `2016`, `2018`, `2020`)
jawa2

## # A tibble: 6 x 5
##    `2012`  `2014`  `2016`  `2018`  `2020`
##     <dbl>   <dbl>   <dbl>   <dbl>   <dbl>
## 1 160482. 217303. 261607. 306911. 259444.
## 2  60629.  78660.  88036.  87243.  76883.
## 3  43298.  60476.  72782.  87829.  84970.
## 4   9173.  13890.  17350.  20574.   7348.
## 5  47383.  64276.  83439. 106433.  86848.
## 6      0       0       0    4832.   3396.

Memilih Variabel yang Ingin Digunakan

jawamin2011 <- select(manipulasiinflow, -'2017')
jawamin2011

## # A tibble: 6 x 11
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2018` `2019` `2020` `2021`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 3.07e5 3.25e5 2.59e5 1.88e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.72e4 9.48e4 7.69e4 5.73e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 8.78e4 9.08e4 8.50e4 6.20e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 2.06e4 2.09e4 7.35e3 6.71e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 1.06e5 1.14e5 8.68e4 5.90e4
## 6 Banten   0      0      0      0      0      0      4.83e3 4.48e3 3.40e3 2.80e3

Sintaks ini menggunakan fungsi select, dan select ini tidak hanya untuk memilih kolom dalam jumlah banyak, melainkan juga bisa untuk mengganti nama kolomnya. misalnya :

jawamin1 <- manipulasiinflow %>%
  select(tahun = `2014`, `2018`, `2019`)
jawamin1

## # A tibble: 6 x 3
##     tahun  `2018`  `2019`
##     <dbl>   <dbl>   <dbl>
## 1 217303. 306911. 324624.
## 2  78660.  87243.  94846.
## 3  60476.  87829.  90751.
## 4  13890.  20574.  20899.
## 5  64276. 106433. 113651.
## 6      0    4832.   4477.

Mengganti Tabel Tahun

library(dplyr)
jawatahun2 <- manipulasiinflow %>% rename('2010' = '2011')
head(jawatahun2)

## # A tibble: 6 x 12
##   Provinsi `2010` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 6 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## # ... with 1 more variable: `2021` <dbl>

Mengambil Nilai yang Tidak Duplikasi dari Variabel

Dari Sebuah Variabel

jawa4 <- distinct(manipulasiinflow, `2015`)
jawa4

## # A tibble: 6 x 1
##    `2015`
##     <dbl>
## 1 230141.
## 2  81303.
## 3  65198.
## 4  14831.
## 5  68808.
## 6      0

Di Semua Variabel

jawa5 <- distinct(manipulasiinflow, `2015`, .keep_all = TRUE)
jawa5

## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 6 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## # ... with 1 more variable: `2021` <dbl>

Menyeleksi Baris pada Tabel

Baris tabel diseleksi dengan menggunakan fungsi filter().

jawa6 <- manipulasiinflow %>%
  filter(Provinsi <= 'Jawa Timur') %>%
    select(`2018`,`2019`)
jawa6

## # A tibble: 5 x 2
##    `2018`  `2019`
##     <dbl>   <dbl>
## 1 306911. 324624.
## 2  87243.  94846.
## 3  87829.  90751.
## 4 106433. 113651.
## 5   4832.   4477.

jawa7 <- manipulasiinflow %>%
  filter(Provinsi == 'Jawa Timur', Provinsi == 'Jawa Tengah') %>%
    select( -`2020`)
jawa7

## # A tibble: 0 x 11
## # ... with 11 variables: Provinsi <chr>, 2011 <dbl>, 2012 <dbl>, 2013 <dbl>,
## #   2014 <dbl>, 2015 <dbl>, 2016 <dbl>, 2017 <dbl>, 2018 <dbl>, 2019 <dbl>,
## #   2021 <dbl>

str(manipulasiinflow)

## tibble [6 x 12] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:6] "Jawa" "Jawa Barat" "Jawa Tengah" "Yogyakarta" ...
##  $ 2011    : num [1:6] 123917 43775 35137 6490 38515 ...
##  $ 2012    : num [1:6] 160482 60629 43298 9173 47383 ...
##  $ 2013    : num [1:6] 134998 35190 42182 8939 48687 ...
##  $ 2014    : num [1:6] 217303 78660 60476 13890 64276 ...
##  $ 2015    : num [1:6] 230141 81303 65198 14831 68808 ...
##  $ 2016    : num [1:6] 261607 88036 72782 17350 83439 ...
##  $ 2017    : num [1:6] 277609 83220 77031 17483 98380 ...
##  $ 2018    : num [1:6] 306911 87243 87829 20574 106433 ...
##  $ 2019    : num [1:6] 324624 94846 90751 20899 113651 ...
##  $ 2020    : num [1:6] 259444 76883 84970 7348 86848 ...
##  $ 2021    : num [1:6] 187816 57295 62024 6714 58986 ...

str(manipulasiinflow %>% group_by(Provinsi))

## grouped_df [6 x 12] (S3: grouped_df/tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:6] "Jawa" "Jawa Barat" "Jawa Tengah" "Yogyakarta" ...
##  $ 2011    : num [1:6] 123917 43775 35137 6490 38515 ...
##  $ 2012    : num [1:6] 160482 60629 43298 9173 47383 ...
##  $ 2013    : num [1:6] 134998 35190 42182 8939 48687 ...
##  $ 2014    : num [1:6] 217303 78660 60476 13890 64276 ...
##  $ 2015    : num [1:6] 230141 81303 65198 14831 68808 ...
##  $ 2016    : num [1:6] 261607 88036 72782 17350 83439 ...
##  $ 2017    : num [1:6] 277609 83220 77031 17483 98380 ...
##  $ 2018    : num [1:6] 306911 87243 87829 20574 106433 ...
##  $ 2019    : num [1:6] 324624 94846 90751 20899 113651 ...
##  $ 2020    : num [1:6] 259444 76883 84970 7348 86848 ...
##  $ 2021    : num [1:6] 187816 57295 62024 6714 58986 ...
##  - attr(*, "groups")= tibble [6 x 2] (S3: tbl_df/tbl/data.frame)
##   ..$ Provinsi: chr [1:6] "Banten" "Jawa" "Jawa Barat" "Jawa Tengah" ...
##   ..$ .rows   : list<int> [1:6] 
##   .. ..$ : int 6
##   .. ..$ : int 1
##   .. ..$ : int 2
##   .. ..$ : int 3
##   .. ..$ : int 5
##   .. ..$ : int 4
##   .. ..@ ptype: int(0) 
##   ..- attr(*, ".drop")= logi TRUE

Pengelompokkan dan Pengurutkan Data

Pengelompokkan Data

jawaup <- manipulasiinflow %>%
    group_by(Provinsi)
jawaup

## # A tibble: 6 x 12
## # Groups:   Provinsi [6]
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 6 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## # ... with 1 more variable: `2021` <dbl>

Pengurutan data

jawaubah <- arrange(manipulasiinflow, `2012`)
jawaubah

## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## 2 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 5 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 6 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## # ... with 1 more variable: `2021` <dbl>

Menambahkan kolom pda tabel

jawaup1 <- manipulasiinflow %>%
    mutate(`2021` = manipulasiinflow$`2020`/2)
jawaup1

## # A tibble: 6 x 12
##   Provinsi `2011` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Jawa     1.24e5 1.60e5 1.35e5 2.17e5 2.30e5 2.62e5 2.78e5 3.07e5 3.25e5 2.59e5
## 2 Jawa Ba~ 4.38e4 6.06e4 3.52e4 7.87e4 8.13e4 8.80e4 8.32e4 8.72e4 9.48e4 7.69e4
## 3 Jawa Te~ 3.51e4 4.33e4 4.22e4 6.05e4 6.52e4 7.28e4 7.70e4 8.78e4 9.08e4 8.50e4
## 4 Yogyaka~ 6.49e3 9.17e3 8.94e3 1.39e4 1.48e4 1.74e4 1.75e4 2.06e4 2.09e4 7.35e3
## 5 Jawa Ti~ 3.85e4 4.74e4 4.87e4 6.43e4 6.88e4 8.34e4 9.84e4 1.06e5 1.14e5 8.68e4
## 6 Banten   0      0      0      0      0      0      1.49e3 4.83e3 4.48e3 3.40e3
## # ... with 1 more variable: `2021` <dbl>

Visualisasi Data Tabel dengan ggplot

ggplot dengan Grafik Titik

ggplot(data = manipulasiinflow, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

ggplot(data = manipulasiinflow, mapping = aes(x = Provinsi, y = `2012`)) +
  geom_point()

Daftar Pustaka

https://rpubs.com/suhartono-uinmaliki/868598

https://www.bi.go.id/id/statistik/ekonomi-keuangan/ssp/indikator-pengedaran-uang.aspx