Visualisasi data kontinu (univariate) merupakan tahap awal yang sangat penting dalam proses Exploratory Data Analysis (EDA) karena membantu analis memahami karakter dasar suatu variabel sebelum melakukan analisis yang lebih kompleks. Pada tahap ini, analis tidak langsung membangun model atau membandingkan antar variabel, tetapi terlebih dahulu mengeksplorasi bagaimana bentuk distribusi data, apakah terdapat outlier, apakah data bersifat simetris atau skewed, serta seberapa besar variasinya. Berbeda dengan data kategorik yang berfokus pada frekuensi label, data kontinu menekankan pada pola penyebaran nilai dan struktur distribusi sehingga visualisasinya harus mampu mempertahankan makna matematis data tersebut. Teknik seperti histogram, density plot, dan boxplot digunakan untuk menggambarkan bentuk distribusi, konsentrasi data, serta mendeteksi nilai ekstrem. Dengan visualisasi yang dirancang secara tepat, analis dapat membangun intuisi statistik yang kuat dan memastikan bahwa analisis lanjutan dilakukan berdasarkan pemahaman data yang akurat dan menyeluruh.
library(ggplot2)
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
ggplot(diamonds, aes(x = price)) +
geom_histogram(binwidth = 1000, fill = "red", color = "white") +
labs(
title = "Distribusi Harga Berlian",
x = "Harga (USD)",
y = "Jumlah Berlian"
) +
theme_minimal()
##
Interpretasi Histogram “Distribusi Harga Berlian” menunjukkan bahwa
harga berlian tidak terdistribusi secara merata dan lebih condong ke
arah harga yang lebih tinggi, yaitu miring ke kanan (positif
skew). Sebagian besar berlian memiliki harga yang masuk ke
kisaran rendah hingga menengah (kurang dari 5.000 dolar), yang bisa
dilihat dari batang tertinggi pada interval harga yang lebih kecil.
Harga berlian semakin mahal, maka jumlahnya semakin sedikit, sehingga
frekuensinya menurun perlahan hingga mendekati 20.000 USD. Pola ini
menunjukkan bahwa berlian yang harganya sangat tinggi jumlahnya sedikit,
dibandingkan dengan berlian yang harganya lebih murah. Distribusi yang
miring ke kanan ini menunjukkan kemungkinan adanya nilai-nilai ekstrem
pada harga yang tinggi. Oleh karena itu, dalam analisis selanjutnya,
mungkin perlu dipertimbangkan untuk melakukan transformasi data, seperti
menggunakan logaritma, agar distribusi lebih seimbang dan hasil
interpretasi statistik lebih tepat.
ggplot(diamonds, aes(x = cut, y = table)) +
geom_boxplot(fill = "green") +
labs(
title = "Box Plot Persentase Table Berdasarkan Potongan",
x = "Potongan Berlian",
y = "Table (%)"
) +
theme_minimal()
##
Interpretasi Boxplot tersebut menampilkan bagaimana persentase
table (%) tersebar berdasarkan jenis kualitas berlian
yang ada, yaitu Fair, Good, Very Good, Premium, dan Ideal. Secara
keseluruhan, nilai median table di semua kategori berada dalam
rentang yang hampir sama, yaitu sekitar 56% hingga 60%, yang menunjukkan
bahwa perbandingan jumlah table antar potongan tidak terlalu berbeda.
Namun, kategori Fair dan Good tampak
memiliki perbedaan (distribusi) yang lebih meluas, yang ditunjukkan oleh
box dan whisker yang lebih panjang serta jumlah outlier yang lebih
banyak, terutama pada nilai-nilai yang sangat tinggi. Sementara itu,
kategori Ideal dan Premium biasanya
memiliki penyebaran yang lebih merata dengan rentang antara kuartil yang
lebih sempit, yang menunjukkan perbedaan antar data yang lebih kecil.
Adanya beberapa nilai yang menyimpang pada hampir setiap kategori
menunjukkan adanya berlian yang memiliki ukuran table jauh lebih tinggi
atau lebih rendah dibandingkan kebanyakan data. Secara keseluruhan,
meskipun terdapat perbedaan kecil dalam variasi, persentase table antar
potongan berlian tetap stabil dan tidak menunjukkan perbedaan yang
terlalu besar.
ggplot(diamonds, aes(x = color, y = price)) +
geom_violin(fill = "pink") +
labs(
title = "Violin Plot Harga Berlian Berdasarkan Warna",
x = "Warna Berlian",
y = "Harga (USD)"
) +
theme_minimal()
##
Interpretasi Grafik violin tersebut menampilkan bagaimana harga berlian
beragam berdasarkan tingkat warnanya, dari kategori D sampai J. Bisa
dilihat bahwa semua kategori warna memiliki distribusi harga yang
condong ke arah kanan (miring positif), di mana sebagian besar berlian
memiliki harga rendah sampai menengah, sementara hanya sedikit berlian
yang memiliki harga sangat tinggi. Kepadatan warna terbesar biasanya
terletak di bawah 5.000 USD, hal ini terlihat dari bagian biola yang
lebih tebal di area tersebut. Selain itu, warna dengan kualitas yang
kurang baik (seperti I dan J) tampak memiliki rentang harga yang lebih
luas, menunjukkan perbedaan harga yang lebih besar. Meskipun ada
perbedaan dalam cara berdistribusi warna, secara umum pola harga tidak
terlalu berbeda, jadi warna bukan satu-satunya hal yang menentukan harga
berlian; kemungkinan ada faktor lain seperti berat, bentuk, dan
kejernihan yang juga memengaruhi harga.
ggplot(diamonds, aes(x = carat)) +
geom_density(fill = "steelblue") +
labs(
title = "Density Plot Carat Berlian Berdasarkan Warna",
x = "Carat Berlian",
y = "Kepadatan"
) +
theme_minimal()
##
Interpretasi Grafik densitas tersebut menampilkan cara berlian
didistribusikan berdasarkan warnanya, dan secara umum menunjukkan pola
distribusi yang condong ke kanan (positif skew). Kepadatan tertinggi
terjadi pada berat yang kecil, terutama di bawah 1 carat, hal ini
terlihat dari puncak kurva yang tertinggi pada rentang tersebut. Hal ini
menunjukkan bahwa kebanyakan berlian dalam dataset tersebut memiliki
ukuran yang tidak terlalu besar. Saat nilai berat berlian meningkat,
maka tingkat kepadatannya semakin berkurang, artinya jumlah berlian yang
besar jauh lebih sedikit dibandingkan berlian yang lebih kecil. Selain
itu, terdapat beberapa puncak kecil (multimodal) pada rentang tertentu,
yang menunjukkan adanya kelompok ukuran carat yang cukup banyak diminati
di pasar. Secara keseluruhan, distribusi ini menunjukkan bahwa berlian
dengan ukuran besar cukup langka, sedangkan berlian dengan ukuran kecil
hingga sedang lebih banyak terdapat dalam data.