Algoritma & Struktur Data

~ Antarmuka Data dengan R ~


Kontak : \(\downarrow\)
Email
RPubs https://rpubs.com/kentzend03/

Pendahuluan

Terhubung dengan data adalah hal paling mendasar dalam proses olah data (Data Science). Pada bagian ini akan dibahas bagaimana proses antarmuka data yang paling sederhana dengan menggunakan R. Secara garis besar R dapat membaca data dari file yang disimpan di dalam maupun di luar direktorinya. Selain itu, sistem operasi R juga dapat menyimpan dan membaca data dalam format file seperti csv, excel, txt, rds, xml, json, dll.

Impor/Ekspor CSV

Terdapat beberapa cara yang dapat dilakukan untuk impor/ekspor data dengan R. Berikut ini diperlihatkan 3 cara yang paling sering digunakan dalam proses antarmuka data.

Cara 1

Pertama - tama, pastikan direktori kerja anda dalam koneksi yang benar, periksalah dengan menggunakan fungsi getwd(). Kemudian anda dapat mengaturdirektori baru menggunakan fungsi setwd().

print(getwd())
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
getwd()
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
setwd(getwd())

# Impor Data csv
df1 <-read.csv("Input/input1.csv",sep = ",") # format pemisah koma
df2 <-read.csv("Input/input2.csv",sep = ";") # format pemisah titik koma

# Ekpor Data csv
write.csv(df1,"Output/output1.csv", row.names = FALSE)
write.csv(df2,"Output/output2.csv", row.names = FALSE) 

Cara 2

Bagi anda yang lebih menyukai koneksi direktori secara otomatis, cara ini adalah pilihan yang lebih bijak dan praktis

(Ya <- getwd())
## [1] "D:/Fisika Medis/Algoritma dan Struktur Data/Tugas 10"
if (!is.null(Ya)) setwd(Ya)

# Impor Data
df1 <- read.csv(file.path(Ya,'Input', 'input1.csv'))
df2 <- read.csv(file.path(Ya,'Input', 'input2.csv'))

#Ekspor Data
write.csv(df1, file.path(Ya, 'Output', 'File1.csv'), row.names = FALSE)
write.csv(df2, file.path(Ya, 'Output', 'File2.csv'), row.names = FALSE)

Cara 3

Cara ini adalah cara alternatif bagi anda yang lebih nyaman untuk memilih data yang tersimpan di komputer (PC) tanpa harus melakukan pengaturan direktori terlebih dahulu sebelum melakukan proses impor data.

df<-read.csv(file.choose())

Impor/Ekspor Excel

Microsoft Excel adalah program spreadsheet yang paling banyak digunakan yang mwnyimpan data dalam format .xls atau .xlsx. R dapat membaca langsung dari file-file ini menggunakan paket readxl

# install.packages(c("readxl", "writexl"))   # install `readxl & writexl` 
pacman::p_load(readxl, writexl)              # load `readxl & writexl`

# Impor Data
df3<-read_excel("Input/input4.xls")          # impor data xls (97-2003)
df4<-read_excel("Input/input3.xlsx",sheet=1) # impor data xlsx (2003-up)

# Ekspor Data
write_xlsx(df3,"Output/output3.xls") 
write_xlsx(df4,"Output/output4.xlsx")

Impor/Ekspor TXT and RDS

Format data paling umum yang sering digunakan untuk impor/ekspor data adalah file csv dan xlsx. Namun ukuran file CSV dan XLSX cenderung lebih besar dibandingkan format yang lainnya seperti TXT atau file binEr R (RDS). Sehingga ini akan membutuhkan tambahan waktu pada saat anda melakukan impor/ekspor data. Tips yang sangat saya rekomendasikan dalam hal ini adalah mengimpor dan eksper data tersebut dengan dengan format TXT atau binary

# Impor Data
df5<-read.table('input/input5.txt')
df6<-source('input/input6.Rdmpd')
df7<-readRDS('input/input7.rds')
df8<-readRDS('input/input8.ascii')

# Ekspor Data
write.table(df5,'output/output5.txt')
dump('df6','output/output6.Rdmpd')
saveRDS(df7,'output/output7.rds')
saveRDS(df8,'output/output8.ascii',ascii=TRUE)

Impor/Ekspor XML

XML adalah kumpulan berbagai format file dan data di World Wide Web, internet, dan di tempat lain menggunakan teks ASCII standar. XML adalah singkatan dari eXtensible Markup Language.

Sebenarnya XML sangat mirip dengan HTML, dimana sintak-sintaknya berisi markup. Tetapi, perlu dicatat bahwa XML tidak sama dengan hal tag markup HTML yang menjelaskan laman struktur datanya terdapat dalam file tersebut.

Selanjutnya, mari kita lakukan impor/ekspor data dengan format XML

pacman::p_load(XML,kulife,methods)        # Load packages

library("XML")          # load paket XML
library("kulife")       # load paket kulife
library("methods")      # paket kondisional

df9<-xmlParse('Input/input9.xml')          # Impor data XML
xml_df<-xmlToDataFrame(df9)                # Konversi dataframe
write.xml(xml_df,'Output/File9.xml')     # Ekspor data XML

Impor/Ekspor JSON

File JSON menyimpan data sebagai text dalam format yang dapat dibaca oleh manusia. JSON adalah singkatan dari JavaScript Object Notation. R dapat membaca file JSON menggunakan paket jsonlite

library("jsonlite")

df10<-fromJSON('Input/input10.json')          # Impor data JSON
json_df<-as.data.frame(df10)                # Konversi dataframe
write_json(json_df,'Output/File10.json')     # Ekspor data JSON

Impor Data dari Web

Ada banyak website menyediakan data untuk dikonsumsi oleh penggunanya. Dengan menggunakan program R, kita dapat mengekstrak data spesifik dari situs web tersebut secara terprogram. Dibagian ini saya memberi contoh cara mengimpor data dari repositori GitHub, tetapi, anda dapat melakukan hal yang sama ke situs web atau repositori lain.

# CSV
web_csv<-read.csv("https://github.com/Bakti-Siregar/dataset/raw/master/Bookdown-Data-Science-for-Beginners/csv1.csv")

# XLSX
pacman::p_load(rio)           # Instal Package
library(rio)                  # Import Data dari GitHub
install_formats()             # Periksa auto paket yang di sarankan
## [1] TRUE
web_xlsx<-rio::import('https://github.com/Bakti-Siregar/dataset/blob/master/Bookdown-Data-Science-for-Beginners/xlsx1.xlsx?raw=true')

Basis Data R

Sistem basis data adalah data relasional yang disimpan dalam format yang dinormalisasi. Untuk melakukan komputasi statistik dibutuhkan query SQL yang sangat canggih dan kompleks. Tetapi R dapat dengan mudah terhubung ke banyak database relasional seperti MySql, Oracle, SQL, Server, dll. Selanjutnya biasanya, kita akan mengubah basis data tersebut menjadi bingkai data (Data Frame). Setelah data tersedia di lingkungan R, kemudian dimanipulasi atau dilakukan analisis lebih lanjut.

Menambang Data Web

Pengikisan dari data web (Webscraping Data) adalah proses menggunakan bot yang mengesktrak konten dan data dari situs web. Tidak seperti screen scraping, yang hanya menyalin piksel yang ditampilkan di layar, web scraping mengekstrak kode HTML yang mendasarinya yang pada dasarnya di simpan dalam data base. Pengikisan data ini dapat mereplikasi seluruh konten dari berbagai situs web yang ditargetkan.

---
title: "Algoritma & Struktur Data"
subtitle: "~ Antarmuka Data dengan R ~"
author: "Kent Juan Nataniel Yaoisokhi Zendrato (20214520004)"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::robobook:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "style.css"

---

```{r include=FALSE}
knitr::opts_chunk$set(class.source = "nocopy",
                      class.output = "nocopy",
                      message = F,
                      warning = F)

library(reticulate)
library(Rcpp)

```

<br>

<img style="float: right; margin: -80px 50px 0px 50px; width:25%" src="Foto.png"/> 

|
:---- |:----
**Kontak**| **: $\downarrow$**
Email| kent.zendrato@student.matanauniversity.ac.id
RPubs  | https://rpubs.com/kentzend03/

***

# Pendahuluan

Terhubung dengan data adalah hal paling mendasar dalam proses olah data (Data Science). Pada bagian ini akan dibahas bagaimana proses antarmuka data yang paling sederhana dengan menggunakan R. Secara garis besar R dapat membaca data dari file yang disimpan di dalam maupun di luar direktorinya. Selain itu, sistem operasi R juga dapat menyimpan dan membaca data dalam format file seperti csv, excel, txt, rds, xml, json, dll.

<img style="float: right; margin: 0px 0px 0px 0px; width:100%" src="Ok.png"/>

# Impor/Ekspor CSV

Terdapat beberapa cara yang dapat dilakukan untuk impor/ekspor data dengan R. Berikut ini diperlihatkan 3 cara yang paling sering digunakan dalam proses antarmuka data.

## Cara 1

Pertama - tama, pastikan direktori kerja anda dalam koneksi yang benar, periksalah dengan menggunakan fungsi getwd(). Kemudian anda dapat mengaturdirektori baru menggunakan fungsi setwd().

```{r}
print(getwd())
getwd()
setwd(getwd())

# Impor Data csv
df1 <-read.csv("Input/input1.csv",sep = ",") # format pemisah koma
df2 <-read.csv("Input/input2.csv",sep = ";") # format pemisah titik koma

# Ekpor Data csv
write.csv(df1,"Output/output1.csv", row.names = FALSE)
write.csv(df2,"Output/output2.csv", row.names = FALSE) 
```

## Cara 2

Bagi anda yang lebih menyukai koneksi direktori secara otomatis, cara ini adalah pilihan yang lebih bijak dan praktis

```{r}
(Ya <- getwd())
if (!is.null(Ya)) setwd(Ya)

# Impor Data
df1 <- read.csv(file.path(Ya,'Input', 'input1.csv'))
df2 <- read.csv(file.path(Ya,'Input', 'input2.csv'))

#Ekspor Data
write.csv(df1, file.path(Ya, 'Output', 'File1.csv'), row.names = FALSE)
write.csv(df2, file.path(Ya, 'Output', 'File2.csv'), row.names = FALSE)
```

## Cara 3

Cara ini adalah cara alternatif bagi anda yang lebih nyaman untuk memilih data yang tersimpan di komputer (PC) tanpa harus melakukan pengaturan direktori terlebih dahulu sebelum melakukan proses impor data.

```{r}
df<-read.csv(file.choose())
```

# Impor/Ekspor Excel

Microsoft Excel adalah program spreadsheet yang paling banyak digunakan yang mwnyimpan data dalam format .xls atau .xlsx. R dapat membaca langsung dari file-file ini menggunakan paket readxl

```{r}
# install.packages(c("readxl", "writexl"))   # install `readxl & writexl` 
pacman::p_load(readxl, writexl)              # load `readxl & writexl`

# Impor Data
df3<-read_excel("Input/input4.xls")          # impor data xls (97-2003)
df4<-read_excel("Input/input3.xlsx",sheet=1) # impor data xlsx (2003-up)

# Ekspor Data
write_xlsx(df3,"Output/output3.xls") 
write_xlsx(df4,"Output/output4.xlsx")
```

# Impor/Ekspor TXT and RDS

Format data paling umum yang sering digunakan untuk impor/ekspor data adalah file csv dan xlsx. Namun ukuran file CSV dan XLSX cenderung lebih besar dibandingkan format yang lainnya seperti TXT atau file binEr R (RDS). Sehingga ini akan membutuhkan tambahan waktu pada saat anda melakukan impor/ekspor data. Tips yang sangat saya rekomendasikan dalam hal ini adalah mengimpor dan eksper data tersebut dengan dengan format TXT atau binary

```{r}
# Impor Data
df5<-read.table('input/input5.txt')
df6<-source('input/input6.Rdmpd')
df7<-readRDS('input/input7.rds')
df8<-readRDS('input/input8.ascii')

# Ekspor Data
write.table(df5,'output/output5.txt')
dump('df6','output/output6.Rdmpd')
saveRDS(df7,'output/output7.rds')
saveRDS(df8,'output/output8.ascii',ascii=TRUE)
```

# Impor/Ekspor XML

XML adalah kumpulan berbagai format file dan data di World Wide Web, internet, dan di tempat lain menggunakan teks ASCII standar. XML adalah singkatan dari eXtensible Markup Language.

Sebenarnya XML sangat mirip dengan HTML, dimana sintak-sintaknya berisi markup. Tetapi, perlu dicatat bahwa XML tidak sama dengan hal tag markup HTML yang menjelaskan laman struktur datanya terdapat dalam file tersebut.

Selanjutnya, mari kita lakukan impor/ekspor data dengan format XML

```{r}
pacman::p_load(XML,kulife,methods)        # Load packages

library("XML")          # load paket XML
library("kulife")       # load paket kulife
library("methods")      # paket kondisional

df9<-xmlParse('Input/input9.xml')          # Impor data XML
xml_df<-xmlToDataFrame(df9)                # Konversi dataframe
write.xml(xml_df,'Output/File9.xml')     # Ekspor data XML
```

# Impor/Ekspor JSON

File JSON menyimpan data sebagai text dalam format yang dapat dibaca oleh manusia. JSON adalah singkatan dari JavaScript Object Notation. R dapat membaca file JSON menggunakan paket jsonlite

```{r}
library("jsonlite")

df10<-fromJSON('Input/input10.json')          # Impor data JSON
json_df<-as.data.frame(df10)                # Konversi dataframe
write_json(json_df,'Output/File10.json')     # Ekspor data JSON
```

# Impor Data dari Web

Ada banyak website menyediakan data untuk dikonsumsi oleh penggunanya. Dengan menggunakan program R, kita dapat mengekstrak data spesifik dari situs web tersebut secara terprogram. Dibagian ini saya memberi contoh cara mengimpor data dari repositori GitHub, tetapi, anda dapat melakukan hal yang sama ke situs web atau repositori lain.

```{r}
# CSV
web_csv<-read.csv("https://github.com/Bakti-Siregar/dataset/raw/master/Bookdown-Data-Science-for-Beginners/csv1.csv")

# XLSX
pacman::p_load(rio)           # Instal Package
library(rio)                  # Import Data dari GitHub
install_formats()             # Periksa auto paket yang di sarankan

web_xlsx<-rio::import('https://github.com/Bakti-Siregar/dataset/blob/master/Bookdown-Data-Science-for-Beginners/xlsx1.xlsx?raw=true')
```

# Basis Data R

Sistem basis data adalah data relasional yang disimpan dalam format yang dinormalisasi. Untuk melakukan komputasi statistik dibutuhkan query SQL yang sangat canggih dan kompleks. Tetapi R dapat dengan mudah terhubung ke banyak database relasional seperti MySql, Oracle, SQL, Server, dll. Selanjutnya biasanya, kita akan mengubah basis data tersebut menjadi bingkai data (Data Frame). Setelah data tersedia di lingkungan R, kemudian dimanipulasi atau dilakukan analisis lebih lanjut.

# Menambang Data Web

Pengikisan dari data web (Webscraping Data) adalah proses menggunakan bot yang mengesktrak konten dan data dari situs web. Tidak seperti screen scraping, yang hanya menyalin piksel yang ditampilkan di layar, web scraping mengekstrak kode HTML yang mendasarinya yang pada dasarnya di simpan dalam data base. Pengikisan data ini dapat mereplikasi seluruh konten dari berbagai situs web yang ditargetkan.

