Mengimport Data CSV menjadi R-Dataframe dan Melihat Strukturnya

Fungsi read.csv() dapat digunakan untuk melakukan importing data csv menjadi dataframe di R dengan menyebutkan folder/direktori serta nama file-nya. Selanjutnya hasil import dapat disimpan dengan nama yang diberikan. Pada contoh di bawah ini, dataframe-nya diberi nama mobil.

mobil <- read.csv("D:/auto.csv")

Melihat banyaknya baris dan banyaknya kolom yang ada pada dataframe mobil masing-masing menggunakan fungsi nrow() dan ncol(), atau menggunakan dim() untuk menampilkan sekaligus.

nrow(mobil) #banyaknya baris
## [1] 392
ncol(mobil) #banyaknya kolom
## [1] 9
dim(mobil)  #banyaknya baris dan kolom
## [1] 392   9

Untuk menampilkan nama-nama variabel/kolom yang ada pada dataframe mobil, dapat dilakukan dengan menggunakan perintah colnames() seperti di bawah ini.

colnames(mobil)
## [1] "mpg"          "cylinders"    "displacement" "horsepower"   "weight"      
## [6] "acceleration" "year"         "origin"       "name"

Penjelasan dari masing-masing variabel adalah sebagai berikut

  1. mpg: miles per gallon
  2. cylinders: Number of cylinders between 4 and 8
  3. displacement: Engine displacement (cu. inches)
  4. horsepower: Engine horsepower
  5. weight: Vehicle weight (lbs.)
  6. acceleration: Time to accelerate from 0 to 60 mph (sec.)
  7. year: Model year (modulo 100)
  8. origin: Origin of car (1. American, 2. European, 3. Japanese)
  9. name: Vehicle name

Menampilkan Beberapa Statistik Ringkasan dari Variabel mpg

mean(mobil$mpg)  #rata-rata
## [1] 23.44592
median(mobil$mpg) #median
## [1] 22.75
min(mobil$mpg)   #nilai terkecil
## [1] 9
max(mobil$mpg)   #nilai terbesar
## [1] 46.6
sd(mobil$mpg)   #nilai terkecil
## [1] 7.805007
quantile(mobil$mpg, 0.25)  #nilai Q1 
## 25% 
##  17
quantile(mobil$mpg, 0.75)  #nilai Q3 
## 75% 
##  29

Kita dapat juga menggunakan fugnsi summary() untuk menampilkan beberapa statistik ringkasan secara sekaligus.

summary(mobil$mpg)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00   17.00   22.75   23.45   29.00   46.60

Tersedia pula banyak fungsi lain di berbagai package yang bisa digunakan untuk menampilkan statistik ringkasan, salah satunya adalah fungsi stat.desc() pada package pastecs

library(pastecs)
## Warning: package 'pastecs' was built under R version 4.0.3
stat.desc(mobil$mpg)
##      nbr.val     nbr.null       nbr.na          min          max        range 
##  392.0000000    0.0000000    0.0000000    9.0000000   46.6000000   37.6000000 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
## 9190.8000000   22.7500000   23.4459184    0.3942124    0.7750412   60.9181419 
##      std.dev     coef.var 
##    7.8050075    0.3328941

Menampilkan sebaran data Variabel mpg

Menampilkan sebaran data variabel mpg dalam bentuk histogram dapat dilakukan dengan menggunakan fungsi hist() sebagai berikut

hist(mobil$mpg)

Memperbaiki tampilan histogram dapat dilakukan dengan menambahkan opsi-opsi yang tersedia seperti di bawah ini

hist(mobil$mpg,
     breaks = 20,
     col = "coral",
     main = "Sebaran Data Variabel MPG",
     xlab = "miles per gallon")

Jika di atas adalah histogram menggunakan fungsi yang sifatnya basic, package yang banyak digunakan untuk visualisasi di R adalah ggplot2.... dan berikut ini ilustrasi penggunaan ggplot2 untuk menggambar histogram variabel mpg.

library(ggplot2)
ggplot(mobil, aes(x=mpg)) +
    geom_histogram(bins=20, fill="#69b3a2", color="#e9ecef", alpha=0.9) +
    ggtitle("Sebaran Data Variabel MPG") +
    theme(
      plot.title = element_text(size=15)
    )

Salah satu plot yang juga berguna melihat sebaran data adalah boxplot yang dapat diperoleh seperti di bawah ini

boxplot(mobil$mpg, horizontal = TRUE, col="skyblue")

Menampilkan Tabel Frekuensi

table(mobil$origin)
## 
##   1   2   3 
## 245  68  79
tabel = table(mobil$origin)
names(tabel) = c("amerika", "eropa", "jepang")
tabel
## amerika   eropa  jepang 
##     245      68      79
#dalam bentuk persentase
tabel/nrow(mobil) *100
##  amerika    eropa   jepang 
## 62.50000 17.34694 20.15306

Membandingkan nilai mpg antar negara asal kendaraan

aggregate(mobil$mpg ~ mobil$origin, FUN="mean")
##   mobil$origin mobil$mpg
## 1            1  20.03347
## 2            2  27.60294
## 3            3  30.45063
tapply(mobil$mpg, mobil$origin, FUN="mean")
##        1        2        3 
## 20.03347 27.60294 30.45063
boxplot(mobil$mpg ~ mobil$origin, 
        ylab="miles per galon",
        xlab="asal negara")

negara = ifelse(mobil$origin==1, "amerika", ifelse(mobil$origin==2, "eropa", "jepang"))
boxplot(mobil$mpg ~ negara, 
        ylab="miles per galon",
        xlab="asal negara")

Scatter Plot

plot(mobil$weight, mobil$mpg, 
     pch = 19,
     col = "coral",
     ylab = "miles per gallon",
     xlab = "vehicle weight (x lbs)")