library(ggplot2)
library(data.table)
## Warning: package 'data.table' was built under R version 4.5.2
datairis <- data.table(iris)
datairis
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## <num> <num> <num> <num> <fctr>
## 1: 5.1 3.5 1.4 0.2 setosa
## 2: 4.9 3.0 1.4 0.2 setosa
## 3: 4.7 3.2 1.3 0.2 setosa
## 4: 4.6 3.1 1.5 0.2 setosa
## 5: 5.0 3.6 1.4 0.2 setosa
## ---
## 146: 6.7 3.0 5.2 2.3 virginica
## 147: 6.3 2.5 5.0 1.9 virginica
## 148: 6.5 3.0 5.2 2.0 virginica
## 149: 6.2 3.4 5.4 2.3 virginica
## 150: 5.9 3.0 5.1 1.8 virginica
//Visualisasi Data Univariate Visualisasi univariate digunakan ketika kita hanya menganalisis satu variabel dalam suatu dataset. Tujuannya adalah untuk memahami distribusi, pusat data, penyebaran, serta kemungkinan adanya outlier. Contoh teknik visualisasi univariate antara lain: • Histogram – untuk melihat distribusi data • Boxplot – untuk memahami penyebaran data dan outlier • Density Plot – untuk melihat pola distribusi secara lebih halus
//Histogram
ggplot(iris, aes(x = Sepal.Length)) +
geom_histogram(binwidth = 0.5, fill = "blue", color = "black") +
labs(title = "Histogram Sepal Length")
Kode di atas akan membuat histogram untuk variabel Sepal.Length, yang
menunjukkan distribusi panjang sepal pada dataset iris. Histogram ini
digunakan untuk memahami distribusi panjang sepal. Jika distribusinya
miring ke kanan atau ke kiri, itu menunjukkan adanya skewness dalam
data.
//Boxplot
ggplot(iris, aes(y = Sepal.Length)) +
geom_boxplot(fill = "red") +
labs(title = "Boxplot Sepal Length")
Boxplot ini membantu mendeteksi outlier dan melihat persebaran data.
Jika terdapat titik di luar whisker, itu menunjukkan adanya nilai
ekstrem.
//Visualisasi Data Bivariate Analisis bivariate dilakukan ketika kita ingin melihat hubungan antara dua variabel. Teknik ini berguna untuk memahami pola hubungan, korelasi, atau tren antar variabel. Contoh teknik visualisasi bivariate meliputi: • Scatter Plot – untuk melihat hubungan antara dua variabel numerik • Line Chart – untuk melihat hubungan berurutan antara dua variabel, sering digunakan dalam data deret waktu • Bar Chart (Grouped/Stacked) – untuk membandingkan distribusi dua variabel kategorikal atau campuran
//Scatter Plot
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +
geom_point(aes(color = Species)) +
labs(title = "Scatter Plot Sepal Length vs Sepal Width")
Scatter plot ini membantu dalam mengidentifikasi korelasi antara panjang
dan lebar sepal. Jika titik-titik membentuk pola linier, itu menunjukkan
adanya korelasi kuat antara kedua variabel.
//Boxplot Berdasarkan Kategori
ggplot(iris, aes(x = Species, y = Sepal.Length, fill = Species)) +
geom_boxplot() +
labs(title = "Boxplot Sepal Length berdasarkan Species")
Boxplot ini memungkinkan kita untuk membandingkan distribusi panjang
sepal berdasarkan spesies. Jika terdapat tumpang tindih besar antara
boxplot, berarti perbedaannya tidak terlalu signifikan.
//Visualisasi Data Multivariate Ketika analisis melibatkan lebih dari dua variabel, kita memerlukan visualisasi multivariate untuk mengidentifikasi pola atau hubungan yang lebih kompleks. Beberapa teknik yang sering digunakan antara lain: • Scatter Plot Matrix – untuk melihat hubungan antara beberapa variabel numerik • Heatmap – untuk menampilkan korelasi antara variabel dalam bentuk matriks warna • Parallel Coordinates Plot – untuk menggambarkan hubungan antar banyak variabel secara simultan
//Pair Plot
pairs(iris[,1:4], col = iris$Species, pch = 19)
Pair plot ini menampilkan hubungan antar semua pasangan variabel dalam
dataset iris. Kita bisa melihat pola antara berbagai kombinasi variabel
untuk mendapatkan wawasan lebih dalam. Fungsi pairs() di base R dapat
digunakan untuk membuat scatter plot matriks sederhana tanpa perlu
menginstal paket tambahan.
//Scatter Plot 3D Menggunakan paket plotly:
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, size = Petal.Length, color = Species)) +
geom_point(alpha = 0.7) +
labs(title = "Bubble Plot Sepal vs. Petal")
Bubble plot merupakan salah satu cara untuk menganalisis hubungan
multivariat antara tiga variabel kuantitatif sekaligus dalam satu
visualisasi. Dalam contoh berikut, kita akan menggunakan Sepal.Length
dan Sepal.Width sebagai sumbu X dan Y, sementara Petal.Length
direpresentasikan dalam ukuran gelembung, serta Species sebagai warna
kategori.
//Kesimpulan Dengan menggunakan teknik visualisasi di atas, kita dapat menganalisis data secara lebih efektif: • Visualisasi univariate membantu memahami distribusi data dan mendeteksi outlier. • Visualisasi bivariate memungkinkan kita melihat hubungan antara dua variabel, seperti korelasi atau pola tertentu. • Visualisasi multivariate memberikan wawasan lebih mendalam dengan mempertimbangkan beberapa variabel sekaligus, terutama untuk memahami interaksi kompleks dalam data. Pemahaman ini sangat penting untuk analisis data eksploratif sebelum melakukan pemodelan lebih lanjut.