“Single-Table Analysis with dplyr using R Language” dapat diartikan sebagai “Analisis dengan Satu Tabel Menggunakan dplyr dalam Bahasa R”.

Analisis dengan satu tabel mengacu pada proses memanipulasi dan menganalisis data yang terdapat dalam satu tabel tunggal menggunakan paket dplyr dalam bahasa pemrograman R. Paket dplyr adalah salah satu paket yang populer dalam R untuk memanipulasi dan menyederhanakan operasi pada data frame.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
data_frame = data.frame(companies = c("Legenda Selular","BERMAIN DENGAN API","Siaomi","TCS",
                                      "Legenda Selular","BERMAIN DENGAN API","TCS","Siaomi",
                                      "Doritos","Siaomi"),
                        people = c(100,NA,532,454,234,554,223,122,432,453),
                        rating = c(4,3,5,NA,5,3,NA,4,5,2))
 
print("Original Data frame")
## [1] "Original Data frame"
print(data_frame)
##             companies people rating
## 1     Legenda Selular    100      4
## 2  BERMAIN DENGAN API     NA      3
## 3              Siaomi    532      5
## 4                 TCS    454     NA
## 5     Legenda Selular    234      5
## 6  BERMAIN DENGAN API    554      3
## 7                 TCS    223     NA
## 8              Siaomi    122      4
## 9             Doritos    432      5
## 10             Siaomi    453      2
print("Extracting companies vector from data frame")
## [1] "Extracting companies vector from data frame"
print("Companies vector")
## [1] "Companies vector"
data_frame %>%
  pull(companies)
##  [1] "Legenda Selular"    "BERMAIN DENGAN API" "Siaomi"            
##  [4] "TCS"                "Legenda Selular"    "BERMAIN DENGAN API"
##  [7] "TCS"                "Siaomi"             "Doritos"           
## [10] "Siaomi"
print("Renaming rating column")
## [1] "Renaming rating column"
data_frame %>%
    rename(feedback_rating = rating)
##             companies people feedback_rating
## 1     Legenda Selular    100               4
## 2  BERMAIN DENGAN API     NA               3
## 3              Siaomi    532               5
## 4                 TCS    454              NA
## 5     Legenda Selular    234               5
## 6  BERMAIN DENGAN API    554               3
## 7                 TCS    223              NA
## 8              Siaomi    122               4
## 9             Doritos    432               5
## 10             Siaomi    453               2
print("Arranging data frame by rating column")
## [1] "Arranging data frame by rating column"
data_frame %>%
  arrange(rating)
##             companies people rating
## 1              Siaomi    453      2
## 2  BERMAIN DENGAN API     NA      3
## 3  BERMAIN DENGAN API    554      3
## 4     Legenda Selular    100      4
## 5              Siaomi    122      4
## 6              Siaomi    532      5
## 7     Legenda Selular    234      5
## 8             Doritos    432      5
## 9                 TCS    454     NA
## 10                TCS    223     NA
print("Arranging data frame by rating column")
## [1] "Arranging data frame by rating column"
data_frame %>%
  filter(!is.na(people))
##            companies people rating
## 1    Legenda Selular    100      4
## 2             Siaomi    532      5
## 3                TCS    454     NA
## 4    Legenda Selular    234      5
## 5 BERMAIN DENGAN API    554      3
## 6                TCS    223     NA
## 7             Siaomi    122      4
## 8            Doritos    432      5
## 9             Siaomi    453      2
data_frame %>%
  summarize(num_rows = n(),most_bellas = max(companies))
##   num_rows most_bellas
## 1       10         TCS

Dalam analisis data menggunakan paket dplyr dalam R, Anda dapat melakukan beberapa tugas penting sebagai berikut:

  1. Pemilihan Kolom: Anda dapat memilih kolom tertentu dari tabel menggunakan fungsi select(). Misalnya, Anda dapat menggunakan perintah select(data, kolom1, kolom2) untuk memilih kolom1 dan kolom2 dari tabel data.

  2. Pemfilteran Baris: Untuk memfilter baris berdasarkan kondisi tertentu, Anda dapat menggunakan fungsi filter(). Misalnya, dengan menggunakan perintah filter(data, kondisi), Anda dapat menghasilkan baris-baris yang memenuhi kondisi tertentu dari tabel data.

  3. Pengelompokan Data: Fungsi group_by() digunakan untuk mengelompokkan data berdasarkan kolom tertentu. Misalnya, Anda dapat menggunakan perintah group_by(data, kolom) untuk mengelompokkan data berdasarkan kolom yang ditentukan.

  4. Penyusunan Ulang Data: Fungsi arrange() digunakan untuk menyusun ulang data berdasarkan kolom tertentu. Misalnya, perintah arrange(data, kolom) akan mengurutkan data berdasarkan kolom yang ditentukan.

  5. Menghitung Ringkasan Statistik: Untuk menghitung ringkasan statistik seperti rata-rata, median, dan lainnya, Anda dapat menggunakan fungsi summarize(). Misalnya, dengan perintah summarize(data, rata_rata = mean(kolom)), Anda dapat menghitung rata-rata dari kolom yang ditentukan.

  6. Penambahan Kolom Baru: Fungsi mutate() digunakan untuk menambahkan kolom baru berdasarkan perhitungan atau transformasi dari kolom yang ada. Misalnya, perintah mutate(data, kolom_baru = kolom1 + kolom2) akan menambahkan kolom baru yang berisi hasil penjumlahan kolom1 dan kolom2.

Dengan menggunakan berbagai fungsi ini dan fungsi lainnya yang disediakan oleh paket dplyr, Anda dapat melakukan analisis data secara efisien dan efektif pada satu tabel menggunakan bahasa pemrograman R.