Dataframe
Dataframe pada R di RStudio adalah struktur data yang digunakan untuk merepresentasikan data dalam bentuk tabel dua dimensi. Dataframe terdiri dari banyak kolom dengan tiap kolom berisi list atau vector yang sama panjangnya. Setiap kolom merepresentasikan satu variabel, sedangkan setiap baris merepresentasikan satu observasi. Dataframe dapat berisi berbagai jenis data, seperti numerik, karakter, dan logikal. Untuk membuat dataframe pada R, dapat menggunakan fungsi data.frame(). Dataframe dapat dimanipulasi menggunakan berbagai fungsi seperti subset(), merge(), rbind(), dan cbind(). Fungsi str() dapat digunakan untuk mengetahui struktur dari sebuah dataframe, seperti banyaknya observasi dan variabel, nama-nama variabel, tipe variabel, dan beberapa nilai baris pertama untuk masing-masing variabel.
Untuk membuat dataframe di bahasa R, kita dapat menggunakan fungsi data.frame(). Berikut adalah contoh bagaimana cara membuat datafraem di R :
df <- data.frame(
name = c("Sri", "Sutikno", "Kasino", "Ajeng", "Ayu", "Dono"),
age = c(25, 30, 35, 15, 15, 12),
gender = c("female", "male", "male", "Female", "Female", "Male")
)
print(df)
## name age gender
## 1 Sri 25 female
## 2 Sutikno 30 male
## 3 Kasino 35 male
## 4 Ajeng 15 Female
## 5 Ayu 15 Female
## 6 Dono 12 Male
Mengakses dan Memanipulasi Data di Dataframe
# membuat dataframe
df <- data.frame(
nama = c("Katini", "Abdul", "Candra"),
usia = c(25, 30, 35),
gender = c("female", "male", "male")
)
# menampilkan dataframe
print(df)
## nama usia gender
## 1 Katini 25 female
## 2 Abdul 30 male
## 3 Candra 35 male
# mengakses kolom pada dataframe
print(df$nama)
## [1] "Katini" "Abdul" "Candra"
print(df[, "nama"])
## [1] "Katini" "Abdul" "Candra"
# mengakses baris pada dataframe
print(df[1, ])
## nama usia gender
## 1 Katini 25 female
print(df[c(1, 3), ])
## nama usia gender
## 1 Katini 25 female
## 3 Candra 35 male
# mengakses subset dari dataframe
print(subset(df, usia > 30))
## nama usia gender
## 3 Candra 35 male
# menggabungkan dua dataframe berdasarkan kolom yang sama
df2 <- data.frame(
nama = c("Sri", "Sutikno", "Kasino"),
pekerjaan = c("dokter", "guru", "insinyur")
)
df3 <- merge(df, df2, by = "nama")
print(df3)
## [1] nama usia gender pekerjaan
## <0 rows> (or 0-length row.names)
Kode R di atas mengilustrasikan beberapa operasi yang dapat dilakukan dengan DataFrame.
Pada bagian pertama, kode tersebut membuat sebuah DataFrame bernama df. DataFrame ini memiliki tiga kolom: nama, usia, dan gender. Data pada setiap kolom diinisialisasi dengan menggunakan vektor. c() digunakan untuk menggabungkan nilai-nilai dalam vektor.
Selanjutnya, kode tersebut menggunakan perintah print(df) untuk menampilkan DataFrame df secara keseluruhan.
Untuk mengakses kolom dalam DataFrame, kode tersebut menggunakan perintah df$nama atau df[, “nama”]. Keduanya menghasilkan keluaran yang sama yaitu kolom nama dari DataFrame df.
Untuk mengakses baris dalam DataFrame, kode tersebut menggunakan perintah df[1, ] untuk mendapatkan baris pertama dari DataFrame df, atau df[c(1, 3), ] untuk mendapatkan baris pertama dan ketiga dari DataFrame df.
Selanjutnya, kode tersebut menggunakan perintah subset(df, usia > 30) untuk mengakses subset dari DataFrame df di mana nilai usia lebih dari 30.
Kode selanjutnya membuat dua DataFrame baru yaitu df2 dan df3. DataFrame df2 memiliki dua kolom yaitu nama dan pekerjaan. Kemudian, kode menggunakan perintah merge(df, df2, by = “nama”) untuk menggabungkan kedua DataFrame berdasarkan kolom nama. Hasilnya disimpan dalam DataFrame df3 dan ditampilkan menggunakan perintah print(df3).
Kode di atas memberikan contoh penggunaan beberapa operasi dasar pada DataFrame, seperti membuat DataFrame, mengakses kolom dan baris, mengakses subset, dan menggabungkan DataFrame.
Visualisasi data pada Dataframe
df <- data.frame(
nama = c("Sri", "Sutikno", "Kasino"),
usia = c(25, 30, 35),
gender = c("female", "male", "male")
)
# Membuat plot batang untuk kolom usia
barplot(df$usia, names.arg = df$nama, xlab = "Nama", ylab = "Usia", main = "Usia Peserta")