“Single-Table Analysis with dplyr using R Language” dapat diartikan sebagai “Analisis dengan Satu Tabel Menggunakan dplyr dalam Bahasa R”.
Analisis dengan satu tabel mengacu pada proses memanipulasi dan menganalisis data yang terdapat dalam satu tabel tunggal menggunakan paket dplyr dalam bahasa pemrograman R. Paket dplyr adalah salah satu paket yang populer dalam R untuk memanipulasi dan menyederhanakan operasi pada data frame.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data_frame = data.frame(companies = c("Legenda Selular","BERMAIN DENGAN API","Siaomi","TCS",
"Legenda Selular","BERMAIN DENGAN API","TCS","Siaomi",
"Doritos","Siaomi"),
people = c(100,NA,532,454,234,554,223,122,432,453),
rating = c(4,3,5,NA,5,3,NA,4,5,2))
print("Original Data frame")
## [1] "Original Data frame"
print(data_frame)
## companies people rating
## 1 Legenda Selular 100 4
## 2 BERMAIN DENGAN API NA 3
## 3 Siaomi 532 5
## 4 TCS 454 NA
## 5 Legenda Selular 234 5
## 6 BERMAIN DENGAN API 554 3
## 7 TCS 223 NA
## 8 Siaomi 122 4
## 9 Doritos 432 5
## 10 Siaomi 453 2
print("Extracting companies vector from data frame")
## [1] "Extracting companies vector from data frame"
print("Companies vector")
## [1] "Companies vector"
data_frame %>%
pull(companies)
## [1] "Legenda Selular" "BERMAIN DENGAN API" "Siaomi"
## [4] "TCS" "Legenda Selular" "BERMAIN DENGAN API"
## [7] "TCS" "Siaomi" "Doritos"
## [10] "Siaomi"
print("Renaming rating column")
## [1] "Renaming rating column"
data_frame %>%
rename(feedback_rating = rating)
## companies people feedback_rating
## 1 Legenda Selular 100 4
## 2 BERMAIN DENGAN API NA 3
## 3 Siaomi 532 5
## 4 TCS 454 NA
## 5 Legenda Selular 234 5
## 6 BERMAIN DENGAN API 554 3
## 7 TCS 223 NA
## 8 Siaomi 122 4
## 9 Doritos 432 5
## 10 Siaomi 453 2
print("Arranging data frame by rating column")
## [1] "Arranging data frame by rating column"
data_frame %>%
arrange(rating)
## companies people rating
## 1 Siaomi 453 2
## 2 BERMAIN DENGAN API NA 3
## 3 BERMAIN DENGAN API 554 3
## 4 Legenda Selular 100 4
## 5 Siaomi 122 4
## 6 Siaomi 532 5
## 7 Legenda Selular 234 5
## 8 Doritos 432 5
## 9 TCS 454 NA
## 10 TCS 223 NA
print("Arranging data frame by rating column")
## [1] "Arranging data frame by rating column"
data_frame %>%
filter(!is.na(people))
## companies people rating
## 1 Legenda Selular 100 4
## 2 Siaomi 532 5
## 3 TCS 454 NA
## 4 Legenda Selular 234 5
## 5 BERMAIN DENGAN API 554 3
## 6 TCS 223 NA
## 7 Siaomi 122 4
## 8 Doritos 432 5
## 9 Siaomi 453 2
data_frame %>%
summarize(num_rows = n(),most_bellas = max(companies))
## num_rows most_bellas
## 1 10 TCS
Dalam analisis dengan satu tabel menggunakan dplyr, Anda dapat melakukan berbagai tugas seperti:
Pemilihan Kolom: Memilih kolom tertentu dari tabel menggunakan fungsi select(). Misalnya, select(data, kolom1, kolom2) akan memilih kolom1 dan kolom2 dari data.
Pemfilteran Baris: Menggunakan fungsi filter() untuk memfilter baris berdasarkan kondisi tertentu. Misalnya, filter(data, kondisi) akan menghasilkan baris yang memenuhi kondisi tertentu.
Pengelompokan Data: Menggunakan fungsi group_by() untuk mengelompokkan data berdasarkan kolom tertentu. Misalnya, group_by(data, kolom) akan mengelompokkan data berdasarkan kolom yang ditentukan.
Penyusunan Ulang Data: Menggunakan fungsi arrange() untuk menyusun ulang data berdasarkan kolom tertentu. Misalnya, arrange(data, kolom) akan menyusun ulang data berdasarkan kolom yang ditentukan.
Menghitung Ringkasan Statistik: Menggunakan fungsi summarize() untuk menghitung ringkasan statistik, seperti rata-rata, median, dan lainnya. Misalnya, summarize(data, rata_rata = mean(kolom)) akan menghasilkan rata-rata kolom yang ditentukan.
Penambahan Kolom Baru: Menggunakan fungsi mutate() untuk menambahkan kolom baru berdasarkan perhitungan atau transformasi dari kolom yang ada. Misalnya, mutate(data, kolom_baru = kolom1 + kolom2) akan menambahkan kolom baru yang merupakan hasil penjumlahan kolom1 dan kolom2.
Dengan menggunakan fungsi-fungsi ini dan berbagai fungsi lain yang disediakan oleh paket dplyr, Anda dapat melakukan analisis data yang efisien dan efektif pada satu tabel menggunakan bahasa pemrograman R.