Terkoneksi dengan data adalah sesuatu yang sangat dasar dalam pengolahan data (data science) Pada Kejadian ini akan di Tunjukan proses antarmuka data yang paling simpel dan sederhana dengan R sebagai aplikasi yang di gunakan ,secara umum R dapat membaca data dari file yang tersimpan di dalam maupun di luar Direktorinya. Selain itu, R juga bisa menyimpan dan dapat membaca data dalam berbagai format file contohnya seperti csv,excel,txt,rds,XML,json dan yang lain nya # Impor/Ekspor CSV Ada beberapa cara yang bisa dilakukan untuk melakukan impor/expor data dengan menggunakan R. Berikut ini penjelasannya , ditunjukan ada 3 cara yang sering digunakan dalam proses antarmuka data.
Cara 1
Pertama-tama kita harus memastikan direktori kerja dalam koneksi yang tepat dan benar , memeriksa dengan menggunakan cara fungsi getwd(). Kemudian, kita dapat mengatur direktori kerja baru menggunakan fungsi setwd().
setwd(getwd()) # setting direktori# Berikutnya, proses impor data dari CSV dengan memakai fungsi read.csv().dataalgo1 <-read.csv("input/input1.csv",sep =",") # format pemisah komadataalgo2 <-read.csv("input/input2.csv",sep =";") # format pemisah titik koma# Saat kita ingin melakukan expor data (simpan) di dalam direktori yang kita mau maka dapat diproses dengan menggunakan fungsi write.csv() untuk format data dengan pemisah koma (",") dan fungsi write.csv2() untuk format data dengan pemisah semicolon (";").write.csv(dataalgo1,"output/output1.csv", row.names =FALSE) write.csv2(dataalgo2,"output/output2.csv", row.names =FALSE)
Cara 2
Jika pembaca sekalian lebih menyukai koneksi direktori secara automatis, cara pilihan ini sepertinya adalah pilihan yang yang lebih bijak dan lumayan praktis.
ini merupakan langkah alternatif untuk kita agar lebih nyaman untuk memilih data yang tersimpan di dalam komputer (PC) ataupun laptop dengan tidak harus melakukan pengaturan direktori terlebih dahulu sebelum melakukan proses impor data.
df3 <-read.csv(file.choose())## Catatan: Proses untuk melakukan impor/eskpor data selanjutnya akan dilakukan dengan cara 1 satu saja.
Impor/Ekspor Excel
Microsoft Excel merupakan program spreadsheet yang paling sering dan lumayan banyak dipakai yang menyimpan data dalam format .xls atau .xlsx. R dapat langsung membaca dari file-file ini menggunakan paket readxl.
Format data yang paling umum dan paling yang sering dipakai untuk melakukan impor/ekspor data ialah file CSV dan XLSX. Namun sayangnya, membutuhkan ukuran file CSV atau XLSX cendrung lebih besar dibandingkan dengan format lainya seperti TXT atau file biner R (RDS). Sehingga, ini dapat membutuhkan sekiranya tambahan waktu pada saat kita akan melakukan impor/ekspor data. Sedikit saran, yang saya rekomendasikan dalam hal ini adalah mengimpor dan melakukan ekspor data tersebut dengan format TXT atau binary.
# impor datadataalgo5 <-read.table("input/input5.txt") # format TXT (notepad)dataalgo6 <-source("input/input6.Rdmpd") # format TXT (Rdmpd) dataalgo7 <-readRDS("input/input7.rds") # format binary RDS dataalgo8 <-readRDS("input/input8.ascii") # format binary ASCII # ekspor datawrite.table(dataalgo5,"output/output5.txt") dump("dataalgo6", "output/output6.Rdmpd") saveRDS(dataalgo7, "output/output7.rds") saveRDS(dataalgo7, "output/output8.ascii", ascii=TRUE)## Catatan: Format binary sangat lazim dan umum digunakan untuk melakukan ringkasan terhadap file yang berukuran besar, terutama pada saat menggunakan sistem kontrol (API) seperti halnya Git.
Impor/Ekspor XML
XML adalah suatu kumpulan beragam format file,data di World Wide Web, intranet, dan di situs atau tempat yang lainnya menggunakan teks ASCII standar. XML merupakan sebuah singkatan dari eXtensible Markup Language. Untuk penjelasan lebih lengkap kalian dapat menemukannya di Youtube
Pada dasarnya XML sangatlah mirip dengan HTML, dimana sintak-sintaknya berisi markup. Tetapi, perlu diingat bahwa XML tidaklah sama dengan hal tag markup HTML yang menjelaskan dalam laman struktur datanya terdapat dalam file tersebut. Kalian dapat memperhatikan video penjelasan mengenai HTML yang terdapat di Youtube
Untuk Selanjutnya, mari kita lakukan impor/ekspor data dengan format XML.
library("XML") # load paket XML library("kulife") # load paket kulifelibrary("methods") # paket kondisionaldataalgo9<-xmlParse("input/input9.xml") # impor data XMLxml_df <-xmlToDataFrame(dataalgo9) # konversi ke Dataframewrite.xml(xml_df, "output/output9.xml") # ekspor data XML
Impor/Ekspor JSON
File JSON dapat menyimpan data sebagai teks di dalam suatu format yang bisa dibaca manusia. Json merupakan sebuah singkatan dari JavaScript Object Notation. R juga dapat membaca file di JSON menggunakan paket jsonlite. Selengkapnya kalian dapat melihat tentang JSON di Youtube.
library("jsonlite") # load paket JSONdataalgo10 <-fromJSON("input/input10.json") # impor datajson_df <-as.data.frame(dataalgo10) # konversi ke Dataframewrite_json(json_df, "output/output10.json") # ekspor data JSON
Impor Data dari Web
banyak website yang menyediakan data untuk digunakan oleh penggunanya. Dengan menggunakan program R, kita dapat melakukan ekstrak data secara spesifik dari situs web tersebut yang secara terprogram. Pada kali ini , saya mau menunjukkan contoh bagaimana cara mengimpor data dari repositori GitHub, namun Anda dapat melakukan hal yang sama dengan masuk ke dalam situs web ataupun juga repositori lain.
Sistem basis data merupakan data relasional yang tersimpan dalam format yang dinormalisasikan. Sehingga, untuk melakukan proses komputasi statistik kita pasti membutuhkan query SQL yang sangat canggih dan kompleks. Tetapi R dapat terhubung dengan mudah ke banyak database relasional seperti MySql, Oracle, SQL Server, dll. Kemudian biasanya, kita akan mengubah basis data tersebut menjadi sebuah bingkai data (data frame). Setelah data sudah ada dan tersedia di lingkungan R, selanjutnya dimanipulasi atau dilakukan analisis lebih lanjut.
Catatan: Kita akan mempelajari bagian ini di bagian khusus yang disebut “Sistem Basis Data dengan R” pada semester berikutnya.
Menambang Data Web
Pengikisan data dari web (Webscraping Data) merupakan sebuah proses dengan menggunakan bot untuk mengekstrakan konten dan data dari situs web. Tidak sama seperti screen scraping, yang hanya menyalin piksel yang ditampilkan di layar, web scraping dapat mengekstrak kode HTML yang mendasarinya yang berada pada dasarnya disimpan dalam database. Pengikisan data ini dapat mereplikasikan semua konten yang ada dari berbagai web yang telah di tuju.
Catatan: Kita akan mempelajari bagian ini di bagian khusus yang disebut “Ilmu Data Terapan”.