Pendahuluan

Visualisasi data kontinu (univariate) merupakan tahap awal yang sangat penting dalam proses Exploratory Data Analysis (EDA) karena membantu analis memahami karakter dasar suatu variabel sebelum melakukan analisis yang lebih kompleks. Pada tahap ini, analis tidak langsung membangun model atau membandingkan antar variabel, tetapi terlebih dahulu mengeksplorasi bagaimana bentuk distribusi data, apakah terdapat outlier, apakah data bersifat simetris atau skewed, serta seberapa besar variasinya. Berbeda dengan data kategorik yang berfokus pada frekuensi label, data kontinu menekankan pada pola penyebaran nilai dan struktur distribusi sehingga visualisasinya harus mampu mempertahankan makna matematis data tersebut. Teknik seperti histogram, density plot, dan boxplot digunakan untuk menggambarkan bentuk distribusi, konsentrasi data, serta mendeteksi nilai ekstrem. Dengan visualisasi yang dirancang secara tepat, analis dapat membangun intuisi statistik yang kuat dan memastikan bahwa analisis lanjutan dilakukan berdasarkan pemahaman data yang akurat dan menyeluruh.

library(ggplot2)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
ggplot(diamonds, aes(x = price)) +
  geom_histogram(binwidth = 1000, fill = "red", color = "white") +
  labs(
    title = "Distribusi Harga Berlian",
    x = "Harga (USD)",
    y = "Jumlah Berlian"
  ) +
  theme_minimal()

## Interpretasi Histogram “Distribusi Harga Berlian” menunjukkan bahwa harga berlian tidak terdistribusi secara merata dan lebih condong ke arah harga yang lebih tinggi, yaitu miring ke kanan (positif skew). Sebagian besar berlian memiliki harga yang masuk ke kisaran rendah hingga menengah (kurang dari 5.000 dolar), yang bisa dilihat dari batang tertinggi pada interval harga yang lebih kecil. Harga berlian semakin mahal, maka jumlahnya semakin sedikit, sehingga frekuensinya menurun perlahan hingga mendekati 20.000 USD. Pola ini menunjukkan bahwa berlian yang harganya sangat tinggi jumlahnya sedikit, dibandingkan dengan berlian yang harganya lebih murah. Distribusi yang miring ke kanan ini menunjukkan kemungkinan adanya nilai-nilai ekstrem pada harga yang tinggi. Oleh karena itu, dalam analisis selanjutnya, mungkin perlu dipertimbangkan untuk melakukan transformasi data, seperti menggunakan logaritma, agar distribusi lebih seimbang dan hasil interpretasi statistik lebih tepat.

ggplot(diamonds, aes(x = cut, y = table)) +
  geom_boxplot(fill = "green") +
  labs(
    title = "Box Plot Persentase Table Berdasarkan Potongan",
    x = "Potongan Berlian",
    y = "Table (%)"
  ) +
  theme_minimal()

## Interpretasi Boxplot tersebut menampilkan bagaimana persentase table (%) tersebar berdasarkan jenis kualitas berlian yang ada, yaitu Fair, Good, Very Good, Premium, dan Ideal. Secara keseluruhan, nilai median table di semua kategori berada dalam rentang yang hampir sama, yaitu sekitar 56% hingga 60%, yang menunjukkan bahwa perbandingan jumlah table antar potongan tidak terlalu berbeda. Namun, kategori Fair dan Good tampak memiliki perbedaan (distribusi) yang lebih meluas, yang ditunjukkan oleh box dan whisker yang lebih panjang serta jumlah outlier yang lebih banyak, terutama pada nilai-nilai yang sangat tinggi. Sementara itu, kategori Ideal dan Premium biasanya memiliki penyebaran yang lebih merata dengan rentang antara kuartil yang lebih sempit, yang menunjukkan perbedaan antar data yang lebih kecil. Adanya beberapa nilai yang menyimpang pada hampir setiap kategori menunjukkan adanya berlian yang memiliki ukuran table jauh lebih tinggi atau lebih rendah dibandingkan kebanyakan data. Secara keseluruhan, meskipun terdapat perbedaan kecil dalam variasi, persentase table antar potongan berlian tetap stabil dan tidak menunjukkan perbedaan yang terlalu besar.

ggplot(diamonds, aes(x = color, y = price)) +
  geom_violin(fill = "pink") +
  labs(
    title = "Violin Plot Harga Berlian Berdasarkan Warna",
    x = "Warna Berlian",
    y = "Harga (USD)"
  ) +
  theme_minimal()

## Interpretasi Grafik violin tersebut menampilkan bagaimana harga berlian beragam berdasarkan tingkat warnanya, dari kategori D sampai J. Bisa dilihat bahwa semua kategori warna memiliki distribusi harga yang condong ke arah kanan (miring positif), di mana sebagian besar berlian memiliki harga rendah sampai menengah, sementara hanya sedikit berlian yang memiliki harga sangat tinggi. Kepadatan warna terbesar biasanya terletak di bawah 5.000 USD, hal ini terlihat dari bagian biola yang lebih tebal di area tersebut. Selain itu, warna dengan kualitas yang kurang baik (seperti I dan J) tampak memiliki rentang harga yang lebih luas, menunjukkan perbedaan harga yang lebih besar. Meskipun ada perbedaan dalam cara berdistribusi warna, secara umum pola harga tidak terlalu berbeda, jadi warna bukan satu-satunya hal yang menentukan harga berlian; kemungkinan ada faktor lain seperti berat, bentuk, dan kejernihan yang juga memengaruhi harga.

ggplot(diamonds, aes(x = carat)) +
  geom_density(fill = "steelblue") +
  labs(
    title = "Density Plot Carat Berlian Berdasarkan Warna",
    x = "Carat Berlian",
    y = "Kepadatan"
  ) +
  theme_minimal()

## Interpretasi Grafik densitas tersebut menampilkan cara berlian didistribusikan berdasarkan warnanya, dan secara umum menunjukkan pola distribusi yang condong ke kanan (positif skew). Kepadatan tertinggi terjadi pada berat yang kecil, terutama di bawah 1 carat, hal ini terlihat dari puncak kurva yang tertinggi pada rentang tersebut. Hal ini menunjukkan bahwa kebanyakan berlian dalam dataset tersebut memiliki ukuran yang tidak terlalu besar. Saat nilai berat berlian meningkat, maka tingkat kepadatannya semakin berkurang, artinya jumlah berlian yang besar jauh lebih sedikit dibandingkan berlian yang lebih kecil. Selain itu, terdapat beberapa puncak kecil (multimodal) pada rentang tertentu, yang menunjukkan adanya kelompok ukuran carat yang cukup banyak diminati di pasar. Secara keseluruhan, distribusi ini menunjukkan bahwa berlian dengan ukuran besar cukup langka, sedangkan berlian dengan ukuran kecil hingga sedang lebih banyak terdapat dalam data.