Manipulasi data dengan library dplyr

Saat melakukan manipulasi data pada R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain: sample() untuk mengambil sampel secara acak dari tabel, mutate() untuk menambah kolom, select() untuk mengambil data atau variabel yang dibutuhkan, arrange() untuk mengurutkan data, filter() untuk menyaring data, groupby() untuk mengelompokkan data dan lain lain.

Data inflow pada pulau sulawesi

library(readxl)
## Warning: package 'readxl' was built under R version 4.1.2
manipulasiinflow <- read_excel(path = "inflow tahunan1.xlsx")
manipulasiinflow  
## # A tibble: 11 x 12
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2017` `2018` `2019`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 44126. 52672. 60202.
##  2 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7044.  7781.  7809.
##  3 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  2806.  3701.  4042.
##  4 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 18803. 21894. 24749.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3618.  3632.  4390.
##  6 Sulawesi Bar~     0      0      0      0   4.92e1   536.   746.   606.   542.
##  7 Gorontalo         0      0      0      0   0          0      0   1088.  1983.
##  8 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1339.  1530.  1924.
##  9 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  2484.  3210.  4056.
## 10 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  6353.  8076.  9259.
## 11 Papua Barat       0      0      0     11.7 5.18e2   818.   933.  1153.  1448.
## # ... with 2 more variables: 2020 <dbl>, 2021 <dbl>
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.1.2
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1
## Warning: package 'tidyr' was built under R version 4.1.2
## Warning: package 'readr' was built under R version 4.1.2
## Warning: package 'purrr' was built under R version 4.1.2
## Warning: package 'dplyr' was built under R version 4.1.2
## Warning: package 'forcats' was built under R version 4.1.2
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Menghapus Beberapa Variabel yang Tidak Ingin Digunakan

sulawesi2011 <- select(manipulasiinflow, '2011')
sulawesi2011
## # A tibble: 11 x 1
##    `2011`
##     <dbl>
##  1 25056.
##  2  5671.
##  3  1563.
##  4 10593.
##  5   659.
##  6     0 
##  7     0 
##  8   586.
##  9  1273.
## 10  4710.
## 11     0
sulawesi2 <- select(manipulasiinflow, `2012`, `2014`, `2016`, `2018`, `2020`)
sulawesi2
## # A tibble: 11 x 5
##    `2012`  `2014` `2016` `2018` `2020`
##     <dbl>   <dbl>  <dbl>  <dbl>  <dbl>
##  1 31011. 41607.  45737. 52672. 52812.
##  2  6635.  7374.   7266.  7781.  6324.
##  3  1885.  3000.   2665.  3701.  3052.
##  4 13702. 19384.  21043. 21894. 21551.
##  5   964.  2256.   3491.  3632.  3353.
##  6     0      0     536.   606.   329.
##  7     0      0       0   1088.  2227.
##  8   633.  1006.   1259.  1530.  1876.
##  9  1147.  1781.   2367.  3210.  2909.
## 10  6047.  6794.   6291.  8076.  9556.
## 11     0     11.7   818.  1153.  1635.

Memilih Variabel yang Ingin Digunakan

sulawesimin2011 <- select(manipulasiinflow, -'2017')
sulawesimin2011
## # A tibble: 11 x 11
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2018` `2019` `2020`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 52672. 60202. 52812.
##  2 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7781.  7809.  6324.
##  3 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  3701.  4042.  3052.
##  4 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 21894. 24749. 21551.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3632.  4390.  3353.
##  6 Sulawesi Bar~     0      0      0      0   4.92e1   536.   606.   542.   329.
##  7 Gorontalo         0      0      0      0   0          0   1088.  1983.  2227.
##  8 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1530.  1924.  1876.
##  9 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  3210.  4056.  2909.
## 10 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  8076.  9259.  9556.
## 11 Papua Barat       0      0      0     11.7 5.18e2   818.  1153.  1448.  1635.
## # ... with 1 more variable: 2021 <dbl>

Sintaks ini menggunakan fungsi select, dan select ini tidak hanya untuk memilih kolom dalam jumlah banyak, melainkan juga bisa untuk mengganti nama kolomnya. misalnya :

sulawesimin1 <- manipulasiinflow %>%
  select(tahun = `2014`, `2018`, `2019`)
sulawesimin1
## # A tibble: 11 x 3
##      tahun `2018` `2019`
##      <dbl>  <dbl>  <dbl>
##  1 41607.  52672. 60202.
##  2  7374.   7781.  7809.
##  3  3000.   3701.  4042.
##  4 19384.  21894. 24749.
##  5  2256.   3632.  4390.
##  6     0     606.   542.
##  7     0    1088.  1983.
##  8  1006.   1530.  1924.
##  9  1781.   3210.  4056.
## 10  6794.   8076.  9259.
## 11    11.7  1153.  1448.

Mengganti Tabel Tahun

library(dplyr)
sulawesitahun2 <- manipulasiinflow %>% rename('2010' = '2011')
head(sulawesitahun2)
## # A tibble: 6 x 12
##   Provinsi `2010` `2012` `2013` `2014` `2015` `2016` `2017` `2018` `2019` `2020`
##   <chr>     <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
## 1 Sulampua 25056. 31011. 63774. 41607. 4.03e4 45737. 44126. 52672. 60202. 52812.
## 2 Sulawes~  5671.  6635. 21646.  7374. 6.29e3  7266.  7044.  7781.  7809.  6324.
## 3 Sulawes~  1563.  1885.  1520.  3000. 2.59e3  2665.  2806.  3701.  4042.  3052.
## 4 Sulawes~ 10593. 13702. 17770. 19384. 1.96e4 21043. 18803. 21894. 24749. 21551.
## 5 Sulawes~   659.   964.  6093.  2256. 2.38e3  3491.  3618.  3632.  4390.  3353.
## 6 Sulawes~     0      0      0      0  4.92e1   536.   746.   606.   542.   329.
## # ... with 1 more variable: 2021 <dbl>

Mengambil Nilai yang Tidak Duplikasi dari Variabel

Dari Sebuah Variabel

sulawesi4 <- distinct(manipulasiinflow, `2015`)
sulawesi4
## # A tibble: 11 x 1
##     `2015`
##      <dbl>
##  1 40309. 
##  2  6286. 
##  3  2593. 
##  4 19583. 
##  5  2385. 
##  6    49.2
##  7     0  
##  8  1007. 
##  9  1790. 
## 10  6099. 
## 11   518.

Di Semua Variabel

sulawesi5 <- distinct(manipulasiinflow, `2015`, .keep_all = TRUE)
sulawesi5
## # A tibble: 11 x 12
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2017` `2018` `2019`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 44126. 52672. 60202.
##  2 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7044.  7781.  7809.
##  3 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  2806.  3701.  4042.
##  4 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 18803. 21894. 24749.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3618.  3632.  4390.
##  6 Sulawesi Bar~     0      0      0      0   4.92e1   536.   746.   606.   542.
##  7 Gorontalo         0      0      0      0   0          0      0   1088.  1983.
##  8 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1339.  1530.  1924.
##  9 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  2484.  3210.  4056.
## 10 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  6353.  8076.  9259.
## 11 Papua Barat       0      0      0     11.7 5.18e2   818.   933.  1153.  1448.
## # ... with 2 more variables: 2020 <dbl>, 2021 <dbl>

Menyeleksi Baris pada Tabel

Baris tabel diseleksi dengan menggunakan fungsi filter().

sulawesi6 <- manipulasiinflow %>%
  filter(Provinsi <= 'sulawesi Barat') %>%
    select(`2018`,`2019`)
sulawesi6
## # A tibble: 6 x 2
##   `2018` `2019`
##    <dbl>  <dbl>
## 1 52672. 60202.
## 2  1088.  1983.
## 3  1530.  1924.
## 4  3210.  4056.
## 5  8076.  9259.
## 6  1153.  1448.
sulawesi7 <- manipulasiinflow %>%
  filter(Provinsi == 'sulawesi Barat', Provinsi == 'sulawesi Tengah') %>%
    select( -`2020`)
sulawesi7
## # A tibble: 0 x 11
## # ... with 11 variables: Provinsi <chr>, 2011 <dbl>, 2012 <dbl>, 2013 <dbl>,
## #   2014 <dbl>, 2015 <dbl>, 2016 <dbl>, 2017 <dbl>, 2018 <dbl>, 2019 <dbl>,
## #   2021 <dbl>
str(manipulasiinflow)
## tibble [11 x 12] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:11] "Sulampua" "Sulawesi Utara" "Sulawesi Tengah" "Sulawesi Selatan" ...
##  $ 2011    : num [1:11] 25056 5671 1563 10593 659 ...
##  $ 2012    : num [1:11] 31011 6635 1885 13702 964 ...
##  $ 2013    : num [1:11] 63774 21646 1520 17770 6093 ...
##  $ 2014    : num [1:11] 41607 7374 3000 19384 2256 ...
##  $ 2015    : num [1:11] 40309 6286 2593 19583 2385 ...
##  $ 2016    : num [1:11] 45737 7266 2665 21043 3491 ...
##  $ 2017    : num [1:11] 44126 7044 2806 18803 3618 ...
##  $ 2018    : num [1:11] 52672 7781 3701 21894 3632 ...
##  $ 2019    : num [1:11] 60202 7809 4042 24749 4390 ...
##  $ 2020    : num [1:11] 52812 6324 3052 21551 3353 ...
##  $ 2021    : num [1:11] 45714 4671 2453 18335 3270 ...
str(manipulasiinflow %>% group_by(Provinsi))
## grouped_df [11 x 12] (S3: grouped_df/tbl_df/tbl/data.frame)
##  $ Provinsi: chr [1:11] "Sulampua" "Sulawesi Utara" "Sulawesi Tengah" "Sulawesi Selatan" ...
##  $ 2011    : num [1:11] 25056 5671 1563 10593 659 ...
##  $ 2012    : num [1:11] 31011 6635 1885 13702 964 ...
##  $ 2013    : num [1:11] 63774 21646 1520 17770 6093 ...
##  $ 2014    : num [1:11] 41607 7374 3000 19384 2256 ...
##  $ 2015    : num [1:11] 40309 6286 2593 19583 2385 ...
##  $ 2016    : num [1:11] 45737 7266 2665 21043 3491 ...
##  $ 2017    : num [1:11] 44126 7044 2806 18803 3618 ...
##  $ 2018    : num [1:11] 52672 7781 3701 21894 3632 ...
##  $ 2019    : num [1:11] 60202 7809 4042 24749 4390 ...
##  $ 2020    : num [1:11] 52812 6324 3052 21551 3353 ...
##  $ 2021    : num [1:11] 45714 4671 2453 18335 3270 ...
##  - attr(*, "groups")= tibble [11 x 2] (S3: tbl_df/tbl/data.frame)
##   ..$ Provinsi: chr [1:11] "Gorontalo" "Maluku" "Maluku Utara" "Papua" ...
##   ..$ .rows   : list<int> [1:11] 
##   .. ..$ : int 7
##   .. ..$ : int 9
##   .. ..$ : int 8
##   .. ..$ : int 10
##   .. ..$ : int 11
##   .. ..$ : int 1
##   .. ..$ : int 6
##   .. ..$ : int 4
##   .. ..$ : int 3
##   .. ..$ : int 5
##   .. ..$ : int 2
##   .. ..@ ptype: int(0) 
##   ..- attr(*, ".drop")= logi TRUE

Pengelompokkan dan Pengurutkan Data

Pengelompokkan Data

sulawesiup <- manipulasiinflow %>%
    group_by(Provinsi)
sulawesiup
## # A tibble: 11 x 12
## # Groups:   Provinsi [11]
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2017` `2018` `2019`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 44126. 52672. 60202.
##  2 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7044.  7781.  7809.
##  3 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  2806.  3701.  4042.
##  4 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 18803. 21894. 24749.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3618.  3632.  4390.
##  6 Sulawesi Bar~     0      0      0      0   4.92e1   536.   746.   606.   542.
##  7 Gorontalo         0      0      0      0   0          0      0   1088.  1983.
##  8 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1339.  1530.  1924.
##  9 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  2484.  3210.  4056.
## 10 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  6353.  8076.  9259.
## 11 Papua Barat       0      0      0     11.7 5.18e2   818.   933.  1153.  1448.
## # ... with 2 more variables: 2020 <dbl>, 2021 <dbl>

Pengurutan data

sulawesiubah <- arrange(manipulasiinflow, `2012`)
sulawesiubah
## # A tibble: 11 x 12
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2017` `2018` `2019`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulawesi Bar~     0      0      0      0   4.92e1   536.   746.   606.   542.
##  2 Gorontalo         0      0      0      0   0          0      0   1088.  1983.
##  3 Papua Barat       0      0      0     11.7 5.18e2   818.   933.  1153.  1448.
##  4 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1339.  1530.  1924.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3618.  3632.  4390.
##  6 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  2484.  3210.  4056.
##  7 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  2806.  3701.  4042.
##  8 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  6353.  8076.  9259.
##  9 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7044.  7781.  7809.
## 10 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 18803. 21894. 24749.
## 11 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 44126. 52672. 60202.
## # ... with 2 more variables: 2020 <dbl>, 2021 <dbl>

Menambahkan kolom pda tabel

sulawesiup1 <- manipulasiinflow %>%
    mutate(`2021` = manipulasiinflow$`2020`/2)
sulawesiup1
## # A tibble: 11 x 12
##    Provinsi      `2011` `2012` `2013`  `2014` `2015` `2016` `2017` `2018` `2019`
##    <chr>          <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Sulampua      25056. 31011. 63774. 41607.  4.03e4 45737. 44126. 52672. 60202.
##  2 Sulawesi Uta~  5671.  6635. 21646.  7374.  6.29e3  7266.  7044.  7781.  7809.
##  3 Sulawesi Ten~  1563.  1885.  1520.  3000.  2.59e3  2665.  2806.  3701.  4042.
##  4 Sulawesi Sel~ 10593. 13702. 17770. 19384.  1.96e4 21043. 18803. 21894. 24749.
##  5 Sulawesi Ten~   659.   964.  6093.  2256.  2.38e3  3491.  3618.  3632.  4390.
##  6 Sulawesi Bar~     0      0      0      0   4.92e1   536.   746.   606.   542.
##  7 Gorontalo         0      0      0      0   0          0      0   1088.  1983.
##  8 Maluku Utara    586.   633. 10273.  1006.  1.01e3  1259.  1339.  1530.  1924.
##  9 Maluku         1273.  1147.  4341.  1781.  1.79e3  2367.  2484.  3210.  4056.
## 10 Papua          4710.  6047.  2131.  6794.  6.10e3  6291.  6353.  8076.  9259.
## 11 Papua Barat       0      0      0     11.7 5.18e2   818.   933.  1153.  1448.
## # ... with 2 more variables: 2020 <dbl>, 2021 <dbl>

Visualisasi Data Tabel dengan ggplot

ggplot dengan Grafik Titik

ggplot(data = manipulasiinflow, mapping = aes(x = Provinsi, y = `2011`)) +
  geom_point()

ggplot(data = manipulasiinflow, mapping = aes(x = Provinsi, y = `2012`)) +
  geom_point()