Dataframe

Dataframe pada R di RStudio adalah struktur data yang digunakan untuk merepresentasikan data dalam bentuk tabel dua dimensi. Dataframe terdiri dari banyak kolom dengan tiap kolom berisi list atau vector yang sama panjangnya. Setiap kolom merepresentasikan satu variabel, sedangkan setiap baris merepresentasikan satu observasi. Dataframe dapat berisi berbagai jenis data, seperti numerik, karakter, dan logikal. Untuk membuat dataframe pada R, dapat menggunakan fungsi data.frame(). Dataframe dapat dimanipulasi menggunakan berbagai fungsi seperti subset(), merge(), rbind(), dan cbind(). Fungsi str() dapat digunakan untuk mengetahui struktur dari sebuah dataframe, seperti banyaknya observasi dan variabel, nama-nama variabel, tipe variabel, dan beberapa nilai baris pertama untuk masing-masing variabel.

To create a dataframe in R, we can use the data.frame() function. Here’s an example of how to create a dataframe in R:

df <- data.frame(
  name = c("Haruno", "Kisaki", "Raph", "Nijika", "Yamada", "Cain"),
  age = c(25, 30, 35, 15, 15, 12),
  gender = c("female", "male", "male", "Female", "Female", "Male")
)


print(df)
##     name age gender
## 1 Haruno  25 female
## 2 Kisaki  30   male
## 3   Raph  35   male
## 4 Nijika  15 Female
## 5 Yamada  15 Female
## 6   Cain  12   Male

Mengakses dan Memanipulasi Data di Dataframe

# membuat dataframe
df <- data.frame(
  nama = c("Haruka", "Ken", "Hana"),
  usia = c(25, 30, 35),
  gender = c("female", "male", "male")
)

# menampilkan dataframe
print(df)
##     nama usia gender
## 1 Haruka   25 female
## 2    Ken   30   male
## 3   Hana   35   male
# mengakses kolom pada dataframe
print(df$nama)
## [1] "Haruka" "Ken"    "Hana"
print(df[, "nama"])
## [1] "Haruka" "Ken"    "Hana"
# mengakses baris pada dataframe
print(df[1, ])
##     nama usia gender
## 1 Haruka   25 female
print(df[c(1, 3), ])
##     nama usia gender
## 1 Haruka   25 female
## 3   Hana   35   male
# mengakses subset dari dataframe
print(subset(df, usia > 30))
##   nama usia gender
## 3 Hana   35   male
# menggabungkan dua dataframe berdasarkan kolom yang sama
df2 <- data.frame(
  nama = c("Haruka", "Ken", "Hana"),
  pekerjaan = c("dokter", "guru", "insinyur")
)

df3 <- merge(df, df2, by = "nama")
print(df3)
##     nama usia gender pekerjaan
## 1   Hana   35   male  insinyur
## 2 Haruka   25 female    dokter
## 3    Ken   30   male      guru

Kode R di atas mengilustrasikan beberapa operasi yang dapat dilakukan dengan DataFrame.

Pada bagian pertama, kode tersebut membuat sebuah DataFrame bernama df. DataFrame ini memiliki tiga kolom: nama, usia, dan gender. Data pada setiap kolom diinisialisasi dengan menggunakan vektor. c() digunakan untuk menggabungkan nilai-nilai dalam vektor.

Selanjutnya, kode tersebut menggunakan perintah print(df) untuk menampilkan DataFrame df secara keseluruhan.

Untuk mengakses kolom dalam DataFrame, kode tersebut menggunakan perintah df$nama atau df[, “nama”]. Keduanya menghasilkan keluaran yang sama yaitu kolom nama dari DataFrame df.

Untuk mengakses baris dalam DataFrame, kode tersebut menggunakan perintah df[1, ] untuk mendapatkan baris pertama dari DataFrame df, atau df[c(1, 3), ] untuk mendapatkan baris pertama dan ketiga dari DataFrame df.

Selanjutnya, kode tersebut menggunakan perintah subset(df, usia > 30) untuk mengakses subset dari DataFrame df di mana nilai usia lebih dari 30.

Kode selanjutnya membuat dua DataFrame baru yaitu df2 dan df3. DataFrame df2 memiliki dua kolom yaitu nama dan pekerjaan. Kemudian, kode menggunakan perintah merge(df, df2, by = “nama”) untuk menggabungkan kedua DataFrame berdasarkan kolom nama. Hasilnya disimpan dalam DataFrame df3 dan ditampilkan menggunakan perintah print(df3).

Kode di atas memberikan contoh penggunaan beberapa operasi dasar pada DataFrame, seperti membuat DataFrame, mengakses kolom dan baris, mengakses subset, dan menggabungkan DataFrame.

Visualisasi data pada Dataframe

df <- data.frame(
  nama = c("Haruka", "Ken", "Hana"),
  usia = c(25, 30, 35),
  gender = c("female", "male", "male")
)

# Membuat plot batang untuk kolom usia
barplot(df$usia, names.arg = df$nama, xlab = "Nama", ylab = "Usia", main = "Usia Peserta")

Fungsi barplot() digunakan untuk membuat plot bar.