Fungsi read.csv() dapat digunakan untuk melakukan importing data csv menjadi dataframe di R dengan menyebutkan folder/direktori serta nama file-nya. Selanjutnya hasil import dapat disimpan dengan nama yang diberikan. Pada contoh di bawah ini, dataframe-nya diberi nama mobil.
mobil <- read.csv("D:/auto.csv")
Melihat banyaknya baris dan banyaknya kolom yang ada pada dataframe mobil masing-masing menggunakan fungsi nrow() dan ncol(), atau menggunakan dim() untuk menampilkan sekaligus.
nrow(mobil) #banyaknya baris
## [1] 392
ncol(mobil) #banyaknya kolom
## [1] 9
dim(mobil) #banyaknya baris dan kolom
## [1] 392 9
Untuk menampilkan nama-nama variabel/kolom yang ada pada dataframe mobil, dapat dilakukan dengan menggunakan perintah colnames() seperti di bawah ini.
colnames(mobil)
## [1] "mpg" "cylinders" "displacement" "horsepower" "weight"
## [6] "acceleration" "year" "origin" "name"
Penjelasan dari masing-masing variabel adalah sebagai berikut
mpg: miles per galloncylinders: Number of cylinders between 4 and 8displacement: Engine displacement (cu. inches)horsepower: Engine horsepowerweight: Vehicle weight (lbs.)acceleration: Time to accelerate from 0 to 60 mph (sec.)year: Model year (modulo 100)origin: Origin of car (1. American, 2. European, 3. Japanese)name: Vehicle namempgmean(mobil$mpg) #rata-rata
## [1] 23.44592
median(mobil$mpg) #median
## [1] 22.75
min(mobil$mpg) #nilai terkecil
## [1] 9
max(mobil$mpg) #nilai terbesar
## [1] 46.6
sd(mobil$mpg) #nilai terkecil
## [1] 7.805007
quantile(mobil$mpg, 0.25) #nilai Q1
## 25%
## 17
quantile(mobil$mpg, 0.75) #nilai Q3
## 75%
## 29
Kita dapat juga menggunakan fugnsi summary() untuk menampilkan beberapa statistik ringkasan secara sekaligus.
summary(mobil$mpg)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 17.00 22.75 23.45 29.00 46.60
Tersedia pula banyak fungsi lain di berbagai package yang bisa digunakan untuk menampilkan statistik ringkasan, salah satunya adalah fungsi stat.desc() pada package pastecs
library(pastecs)
## Warning: package 'pastecs' was built under R version 4.0.3
stat.desc(mobil$mpg)
## nbr.val nbr.null nbr.na min max range
## 392.0000000 0.0000000 0.0000000 9.0000000 46.6000000 37.6000000
## sum median mean SE.mean CI.mean.0.95 var
## 9190.8000000 22.7500000 23.4459184 0.3942124 0.7750412 60.9181419
## std.dev coef.var
## 7.8050075 0.3328941
mpgMenampilkan sebaran data variabel mpg dalam bentuk histogram dapat dilakukan dengan menggunakan fungsi hist() sebagai berikut
hist(mobil$mpg)
Memperbaiki tampilan histogram dapat dilakukan dengan menambahkan opsi-opsi yang tersedia seperti di bawah ini
hist(mobil$mpg,
breaks = 20,
col = "coral",
main = "Sebaran Data Variabel MPG",
xlab = "miles per gallon")
Jika di atas adalah histogram menggunakan fungsi yang sifatnya basic, package yang banyak digunakan untuk visualisasi di R adalah
ggplot2.... dan berikut ini ilustrasi penggunaan ggplot2 untuk menggambar histogram variabel mpg.
library(ggplot2)
ggplot(mobil, aes(x=mpg)) +
geom_histogram(bins=20, fill="#69b3a2", color="#e9ecef", alpha=0.9) +
ggtitle("Sebaran Data Variabel MPG") +
theme(
plot.title = element_text(size=15)
)
Salah satu plot yang juga berguna melihat sebaran data adalah boxplot yang dapat diperoleh seperti di bawah ini
boxplot(mobil$mpg, horizontal = TRUE, col="skyblue")
table(mobil$origin)
##
## 1 2 3
## 245 68 79
tabel = table(mobil$origin)
names(tabel) = c("amerika", "eropa", "jepang")
tabel
## amerika eropa jepang
## 245 68 79
#dalam bentuk persentase
tabel/nrow(mobil) *100
## amerika eropa jepang
## 62.50000 17.34694 20.15306
mpg antar negara asal kendaraanaggregate(mobil$mpg ~ mobil$origin, FUN="mean")
## mobil$origin mobil$mpg
## 1 1 20.03347
## 2 2 27.60294
## 3 3 30.45063
tapply(mobil$mpg, mobil$origin, FUN="mean")
## 1 2 3
## 20.03347 27.60294 30.45063
boxplot(mobil$mpg ~ mobil$origin,
ylab="miles per galon",
xlab="asal negara")
negara = ifelse(mobil$origin==1, "amerika", ifelse(mobil$origin==2, "eropa", "jepang"))
boxplot(mobil$mpg ~ negara,
ylab="miles per galon",
xlab="asal negara")
plot(mobil$weight, mobil$mpg,
pch = 19,
col = "coral",
ylab = "miles per gallon",
xlab = "vehicle weight (x lbs)")