Pendahuluan

Dalam analisis data, visualisasi merupakan salah satu teknik penting untuk memahami distribusi, pola, dan hubungan dalam kumpulan data. Dengan menggunakan teknik visualisasi yang tepat, kita dapat menyajikan informasi secara lebih intuitif, sehingga memudahkan interpretasi data serta pengambilan keputusan yang lebih baik.

Berdasarkan jumlah variabel yang dianalisis, visualisasi data dapat dikategorikan menjadi tiga jenis utama, yaitu univariate, bivariate, dan multivariate.

Persiapan

Sebelum mulai, pastikan R sudah terinstall di komputer Anda. Gunakan paket ggplot2 untuk visualisasi data dengan perintah berikut:

library(ggplot2)
library(data.table)
## Warning: package 'data.table' was built under R version 4.5.2
datairis <- data.table(iris)
datairis
##      Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
##             <num>       <num>        <num>       <num>    <fctr>
##   1:          5.1         3.5          1.4         0.2    setosa
##   2:          4.9         3.0          1.4         0.2    setosa
##   3:          4.7         3.2          1.3         0.2    setosa
##   4:          4.6         3.1          1.5         0.2    setosa
##   5:          5.0         3.6          1.4         0.2    setosa
##  ---                                                            
## 146:          6.7         3.0          5.2         2.3 virginica
## 147:          6.3         2.5          5.0         1.9 virginica
## 148:          6.5         3.0          5.2         2.0 virginica
## 149:          6.2         3.4          5.4         2.3 virginica
## 150:          5.9         3.0          5.1         1.8 virginica

Visualisasi Data Univariate

Visualisasi univariate digunakan ketika kita hanya menganalisis satu variabel dalam suatu dataset. Tujuannya adalah untuk memahami distribusi, pusat data, penyebaran, serta kemungkinan adanya outlier. Contoh teknik visualisasi univariate antara lain:

Histrogram

ggplot(iris, aes(x = Sepal.Length)) +
  geom_histogram(binwidth = 0.5, fill = "blue", color = "black") +
  labs(title = "Histogram Sepal Length")

Kode di atas akan membuat histogram untuk variabel Sepal.Length, yang menunjukkan distribusi panjang sepal pada dataset iris. Histogram ini digunakan untuk memahami distribusi panjang sepal. Jika distribusinya miring ke kanan atau ke kiri, itu menunjukkan adanya skewness dalam data.

Boxplot

ggplot(iris, aes(y = Sepal.Length)) +
  geom_boxplot(fill = "red") +
  labs(title = "Boxplot Sepal Length")

Boxplot ini membantu mendeteksi outlier dan melihat persebaran data. Jika terdapat titik di luar whisker, itu menunjukkan adanya nilai ekstrem.

Visualisasi Data Bivariate

Analisis bivariate dilakukan ketika kita ingin melihat hubungan antara dua variabel. Teknik ini berguna untuk memahami pola hubungan, korelasi, atau tren antar variabel. Contoh teknik visualisasi bivariate meliputi:

Scatter Plot

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +
  geom_point(aes(color = Species)) +
  labs(title = "Scatter Plot Sepal Length vs Sepal Width")

Scatter plot ini membantu dalam mengidentifikasi korelasi antara panjang dan lebar sepal. Jika titik-titik membentuk pola linier, itu menunjukkan adanya korelasi kuat antara kedua variabel.

Boxplot Berdasarkan Kategori

ggplot(iris, aes(x = Species, y = Sepal.Length, fill = Species)) +
  geom_boxplot() +
  labs(title = "Boxplot Sepal Length berdasarkan Species")

Boxplot ini memungkinkan kita untuk membandingkan distribusi panjang sepal berdasarkan spesies. Jika terdapat tumpang tindih besar antara boxplot, berarti perbedaannya tidak terlalu signifikan.

Visualisasi Data Multivariate

Ketika analisis melibatkan lebih dari dua variabel, kita memerlukan visualisasi multivariate untuk mengidentifikasi pola atau hubungan yang lebih kompleks. Beberapa teknik yang sering digunakan antara lain:

Pair Plot

pairs(iris[,1:4], col = iris$Species, pch = 19)

Pair plot ini menampilkan hubungan antar semua pasangan variabel dalam dataset iris. Kita bisa melihat pola antara berbagai kombinasi variabel untuk mendapatkan wawasan lebih dalam. Fungsi pairs() di base R dapat digunakan untuk membuat scatter plot matriks sederhana tanpa perlu menginstal paket tambahan.

Scatter Plot 3D

Menggunakan paket plotly:

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, size = Petal.Length, color = Species)) +
  geom_point(alpha = 0.7) +
  labs(title = "Bubble Plot Sepal vs. Petal")

Bubble plot merupakan salah satu cara untuk menganalisis hubungan multivariat antara tiga variabel kuantitatif sekaligus dalam satu visualisasi. Dalam contoh berikut, kita akan menggunakan Sepal.Length dan Sepal.Width sebagai sumbu X dan Y, sementara Petal.Length direpresentasikan dalam ukuran gelembung, serta Species sebagai warna kategori.

Kesimpulan

Dengan menggunakan teknik visualisasi di atas, kita dapat menganalisis data secara lebih efektif:

Pemahaman ini sangat penting untuk analisis data eksploratif sebelum melakukan pemodelan lebih lanjut.