Visualisasi data adalah proses menyajikan data dalam bentuk grafik, diagram, atau gambar untuk mempermudah pemahaman informasi. Tujuan visualisasi data: Memahami pola, tren, dan hubungan dalam data Menemukan anomali atau outlier Mempermudah proses analisis dan komunikasi hasil penelitian Menyajikan data dengan cara yang lebih menarik dan mudah dipahami
contoh data
kategori <- c("A", "B", "C", "D")
frekuensi <- c(12, 18, 7, 10)
Diagram batang digunakan untuk menampilkan data kategorikal. Setiap batang menunjukkan nilai suatu kategori.
barplot(frekuensi,
names.arg = kategori,
col = "lightblue",
main = "Diagram Batang",
xlab = "Kategori",
ylab = "Frekuensi")
Diagram lingkaran menunjukkan proporsi tiap kategori terhadap total keseluruhan.
pie(frekuensi,
labels = kategori,
main = "Diagram Lingkaran")
Menggambarkan perubahan nilai dari waktu ke waktu.
bulan <- 1:6
penjualan <- c(120, 135, 150, 160, 145, 170)
plot(bulan, penjualan,
type = "l",
main = "Diagram Garis Penjualan",
xlab = "Bulan",
ylab = "Jumlah Penjualan",
col = "blue")
Menunjukkan hubungan antara dua variabel numerik.
x <- rnorm(30)
y <- 2*x + rnorm(30)
plot(x, y,
main = "Scatter Plot",
xlab = "X",
ylab = "Y",
pch = 19)
Histogram menunjukkan distribusi data numerik (sebaran frekuensi).
nilai <- c(70, 75, 80, 65, 78, 82, 90, 85, 88, 74,
69, 72, 91, 84, 77, 79, 73, 68, 95, 87,
81, 76, 83, 92, 89, 67, 71, 93, 86, 66)
hist(nilai,
main = "Histogram Nilai",
xlab = "Nilai",
col = "lightgreen",
breaks = 10)
Menampilkan ringkasan distribusi: Median Kuartil Nilai minimum dan maksimum Outlier
boxplot(nilai,
main = "Boxplot Nilai Siswa",
ylab = "Nilai")
Heatmap memberikan visualisasi matriks dalam bentuk warna (intensitas nilai).
mat <- matrix(rnorm(25), nrow=5)
heatmap(mat, main="Heatmap Data Acak")
Uji normalitas digunakan untuk menentukan apakah data mengikuti distribusi normal. Kenapa penting? Banyak analisis statistik (regresi, t-test, ANOVA) mengasumsikan data normal Jika data tidak normal → harus transformasi atau gunakan metode non-parametrik
Mengukur seberapa jauh distribusi data berbeda dari distribusi normal. Lebih sensitif pada ekor (tail).
library(nortest)
## Warning: package 'nortest' was built under R version 4.5.2
ad.test(nilai)
##
## Anderson-Darling normality test
##
## data: nilai
## A = 0.29563, p-value = 0.5721
Modifikasi Kolmogorov–Smirnov ketika mean dan SD tidak diketahui.
lillie.test(nilai)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: nilai
## D = 0.069511, p-value = 0.9701
Berdasarkan skewness dan kurtosis. Jika nilai besar → data tidak normal.
library(tseries)
## Warning: package 'tseries' was built under R version 4.5.2
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
jarque.bera.test(nilai)
##
## Jarque Bera Test
##
## data: nilai
## X-squared = 1.7193, df = 2, p-value = 0.4233
1. Histogram dan Kurva
hist(nilai, probability = TRUE, col="lightblue")
lines(density(nilai), col="red")
qqnorm(nilai)
qqline(nilai, col="red")
boxplot(nilai, main="Boxplot Nilai")