Pada analisis ini kita akan berfokus pada visualisasi data kontinu. Data kontinu merupakan data numerik yang dapat memiliki nilai dalam rentang tertentu dan memiliki struktur distribusi yang penting untuk dipahami sebelum analisis lanjutan dilakukan.
Visualisasi data kontinu membantu analis memahami pola distribusi, mengidentifikasi kemiringan data, serta mendeteksi kemungkinan adanya outlier. Pada studi ini digunakan dataset diamonds untuk mengeksplorasi karakteristik variabel numerik khususnya price.
Pada tahap ini analisis berfokus pada pertanyaan berikut:
Bagaimana bentuk distribusi harga berlian?
Apakah terdapat kemiringan distribusi? Apakah terdapat pencilan (outlier)?
Untuk menjawab pertanyaan tersebut digunakan visualisasi univariat data kontinu yang membantu memahami distribusi, penyebaran, serta mendeteksi pencilan.
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 326 950 2401 3933 5324 18823
Dari ringkasan awal terlihat bahwa harga berlian memiliki rentang yang cukup luas, sehingga penting untuk memahami distribusinya melalui visualisasi.
Histogram adalah grafik yang digunakan untuk menampilkan distribusi frekuensi suatu variabel numerik dengan cara membagi data ke dalam beberapa interval (bin). Grafik ini membantu melihat pola sebaran data, seperti nilai yang paling sering muncul, penyebaran, serta bentuk distribusi secara umum. Berikut contoh visualisasi Histogram untuk variabel price:
Histogram di atas digunakan untuk menampilkan distribusi frekuensi harga berlian dengan membagi data ke dalam beberapa interval. Visualisasi ini membantu melihat seberapa sering harga tertentu muncul dalam dataset.
Terlihat bahwa batang histogram paling tinggi berada pada rentang harga rendah hingga menengah, yang menunjukkan bahwa sebagian besar berlian berada pada kisaran harga tersebut. Frekuensi kemudian menurun seiring meningkatnya harga, dengan hanya sedikit berlian yang berada pada kategori harga sangat tinggi. Pola ini menunjukkan bahwa distribusi harga tidak merata dan lebih banyak terkonsentrasi pada nilai yang lebih kecil.
Secara keseluruhan, histogram ini menunjukkan bahwa mayoritas berlian memiliki harga relatif rendah hingga menengah, sementara berlian dengan harga tinggi jumlahnya jauh lebih sedikit, sehingga distribusi cenderung condong ke kanan.
Density plot merupakan versi pemulusan dari histogram yang menampilkan kurva kepadatan probabilitas. Grafik ini digunakan untuk melihat pola distribusi data secara lebih halus, sehingga memudahkan dalam mengidentifikasi kecenderungan pusat data, variasi, dan bentuk distribusi tanpa dipengaruhi oleh pembagian interval. Berikut adalah contoh visualisasi Density Plot untuk variabel price:
Density plot di atas merupakan versi pemulusan dari histogram yang digunakan untuk melihat pola distribusi harga berlian secara lebih halus. Kurva kepadatan memudahkan dalam mengamati kecenderungan nilai tanpa dipengaruhi pembagian kelas seperti pada histogram.
Grafik menunjukkan satu puncak utama pada rentang harga rendah hingga menengah, yang menandakan bahwa sebagian besar berlian memiliki harga pada kisaran tersebut. Selain itu, kurva memanjang ke sisi kanan hingga harga yang sangat tinggi, menunjukkan adanya sejumlah kecil berlian mahal. Bentuk kurva yang tidak simetris ini mengindikasikan bahwa distribusi harga berlian condong ke kanan.
Melalui density plot ini dapat disimpulkan bahwa mayoritas berlian berada pada harga rendah hingga menengah, dengan sebagian kecil memiliki harga jauh lebih tinggi, sehingga memberikan gambaran umum pola sebaran data secara lebih halus.
Boxplot adalah grafik yang merangkum distribusi data menggunakan lima ukuran statistik utama, yaitu nilai minimum, kuartil pertama (Q1), median, kuartil ketiga (Q3), dan maksimum. Visualisasi ini berguna untuk melihat pusat data, tingkat penyebaran, serta mendeteksi kemungkinan nilai ekstrem (outlier) secara ringkas. Berikut adalah contoh visualisasi Boxplot untuk variabel price:
Boxplot di atas digunakan untuk merangkum distribusi harga berlian (price) melalui ukuran statistik utama, yaitu median, kuartil, serta rentang data. Berbeda dengan histogram dan density plot yang menampilkan bentuk distribusi, boxplot membantu melihat pusat data, penyebaran, dan kemungkinan nilai ekstrem secara ringkas.
Garis di dalam kotak menunjukkan median (nilai tengah) yang berada pada kisaran harga rendah hingga menengah. Hal ini menandakan bahwa setengah dari berlian memiliki harga di bawah nilai tersebut dan setengah lainnya di atasnya, sehingga median dapat dianggap sebagai harga tipikal berlian dalam dataset.
Batas bawah dan atas kotak merepresentasikan Kuartil 1 (Q1) dan Kuartil 3 (Q3), yang menunjukkan bahwa 50% harga berlian berada dalam rentang tertentu pada level rendah hingga menengah. Rentang ini disebut interquartile range (IQR) dan menggambarkan bahwa mayoritas berlian memiliki harga yang tidak terlalu jauh dari nilai tengah, sehingga variasi utama data masih berada dalam kisaran yang relatif terkonsentrasi.
Garis “whisker” yang memanjang terutama ke arah kanan menunjukkan bahwa terdapat harga berlian yang jauh lebih tinggi dibandingkan mayoritas data. Selain itu, munculnya beberapa titik di bagian atas mengindikasikan adanya nilai ekstrem (outlier), yaitu berlian dengan harga sangat tinggi yang jumlahnya relatif sedikit.
Secara keseluruhan, boxplot ini menunjukkan bahwa distribusi harga berlian cenderung tidak simetris dan condong ke arah nilai yang lebih besar, dengan sebagian besar berlian berada pada harga rendah hingga menengah serta hanya sebagian kecil yang memiliki harga sangat tinggi. Grafik ini membantu memahami pola sebaran harga secara ringkas tanpa perlu melihat detail frekuensi seperti pada histogram.
Violin plot adalah kombinasi antara boxplot dan density plot yang menampilkan ringkasan statistik sekaligus bentuk distribusi kepadatan data. Grafik ini membantu melihat bagaimana data tersebar, area dengan konsentrasi tinggi, serta posisi median dan kuartil dalam satu visualisasi yang lebih informatif. Berikut adalah contoh visualisasi Violin Plot untuk variabel price:
Violin plot yang digabungkan dengan boxplot digunakan untuk melihat distribusi harga berlian secara lebih lengkap, karena menampilkan kepadatan data sekaligus ringkasan statistik seperti median dan kuartil. Visualisasi ini membantu memahami pola sebaran dan konsentrasi data dalam satu grafik.
Terlihat bahwa bagian violin paling lebar berada pada harga rendah hingga menengah, yang menunjukkan bahwa sebagian besar berlian berada pada rentang tersebut. Garis median di dalam box menunjukkan nilai tengah harga yang juga berada pada kisaran itu. Bentuk grafik yang memanjang ke arah harga berlian tinggi menandakan adanya sejumlah kecil berlian dengan harga jauh lebih besar dibandingkan mayoritas data.
Secara keseluruhan, grafik ini menunjukkan bahwa distribusi harga berlian didominasi oleh nilai rendah hingga menengah dengan beberapa nilai tinggi sebagai ekor distribusi, sehingga pola sebaran data tampak tidak simetris dan condong ke kanan.
Berdasarkan histogram, density plot, boxplot, dan violin plot, dapat disimpulkan bahwa distribusi harga berlian didominasi oleh nilai rendah hingga menengah dengan jumlah observasi yang jauh lebih banyak dibandingkan harga tinggi. Seluruh grafik secara konsisten menunjukkan pola distribusi yang tidak simetris dan cenderung condong ke kanan, yang berarti hanya sebagian kecil berlian memiliki harga sangat tinggi. Sementara itu, nilai tengah data berada pada kisaran harga menengah dengan variasi yang masih tergolong wajar, sehingga secara umum pola sebaran harga berlian dapat dikatakan terkonsentrasi pada rentang tertentu dengan beberapa nilai ekstrem sebagai ekor distribusi.