Dalam analisis data, visualisasi merupakan tahap eksplorasi awal yang sangat penting untuk memahami karakteristik dan pola distribusi data. Khusus pada data kontinu, visualisasi membantu dalam :
Melihat bentuk distribusi
Mengidentifikasi kemiringan (skewness)
Mendeteksi outlier
Menentukan kebutuhan transformasi data
Data diamonds adalah dataset bawaan ggplot2 yang sering digunakan dalam pembelajaran eksplorasi data karena memiliki jumlah observasi besar dan kombinasi variabel numerik serta kategorik.
Tujuan laporan ini adalah :
Menampilkan distribusi data kontinu pada datadet diamonds.
Menginterpretasikan pola distribusi menggunakan :
Menarik kesimpulan mengenai karakteristik data.
library(ggplot2)
head(diamonds)
ggplot(diamonds, aes(x = carat)) +
geom_histogram(bins = 40, fill = "orange", color = "black") +
labs(title = "Histogram Carat",
x = "Carat",
y = "Frekuensi") +
theme_minimal()
Interpretasi
Histogram carat menunjukkan bahwa sebagian besar berlian dalam dataset berukuran kecil, terutama yang memiliki ukuran kurang dari satu carat. Rentang carat rendah memiliki frekuensi tertinggi, yang kemudian turun secara bertahap seiring bertambahnya ukuran berlian. Pola ini menghasilkan distribusi miring ke kanan, yang ditunjukkan dengan ekor panjang hingga sekitar lima carat.
Ini menunjukkan bahwa berlian berukuran besar kurang umum dibandingkan berlian berukuran kecil. Selain itu, distribusi tidak simetris dan tidak mengikuti pola normal; sebagai akibatnya, nilai yang dianggap rata-rata mungkin lebih besar daripada median. Secara keseluruhan, data menunjukkan bahwa berlian berukuran kecil mendominasi pasar dalam dataset ini, meskipun berlian besar hanya sebagian kecil dari total observasi.
ggplot(diamonds, aes(x = carat)) +
geom_density(fill = "lightgreen", alpha = 0.5) +
labs(title = "Density Plot Carat",
x = "Carat",
y = "Density") +
theme_minimal()
Iterpretasi
Menurut plot densitas, distribusi carat tidak simetris dan cenderung miring ke kanan. Padatannya paling tinggi di daerah dengan carat yang lebih kecil, terutama di bawah satu carat. Kurva berkurang secara bertahap dan membentuk ekor panjang hingga sekitar lima carat, menunjukkan bahwa berlian berukuran besar tidak banyak. Ada beberapa puncak kecil (multimodal ringan) di pola ini, yang menunjukkan bahwa ukuran tertentu yang populer di pasaran.
ggplot(diamonds, aes(y = carat)) +
geom_boxplot(fill = "tomato") +
labs(title = "Boxplot Carat",
y = "Carat") +
theme_minimal()
Interpretasi
Temuan tersebut diperkuat dengan boxplot carat. Dengan median kurang dari satu carat, sebagian besar data berada dalam rentang interkuartil (IQR) yang kecil dan relatif sempit. Ada banyak titik di atas whisker atas yang menunjukkan perbedaan pada carat besar, bahkan 5 carat. Ini menunjukkan bahwa berlian besar adalah nilai tertinggi dalam kumpulan data.
ggplot(diamonds, aes(x = "", y = carat)) +
geom_violin(fill = "lightgreen") +
labs(title = "Violin Plot Carat",
y = "Carat") +
theme_minimal()
Interpretasi
Plot violin memberikan gambaran distribusi yang lebih rinci. Carat kecil memiliki bagian violin yang paling lebar, yang menunjukkan kepadatan data yang tinggi pada ukuran tersebut. Bentuk menunjukkan frekuensi yang semakin rendah seiring dengan peningkatan ke atas. Adanya skewness positif dan nilai ekstrem ditunjukkan oleh ekor panjang di bagian atas.
Secara keseluruhan, pola distribusi yang konsisten ditunjukkan oleh keempat visualisasi. Data carat cenderung miring ke kanan, yang merupakan ciri dari distribusi yang tidak normal. Dalam dataset ini, sebagian besar berlian berukuran kecil, terutama yang berukuran kurang dari satu carat, seperti yang ditunjukkan oleh frekuensi tinggi pada histogram dan puncak kepadatan pada density plot. Jumlah berlian yang ada dalam dataset meningkat seiring dengan ukuran carat yang lebih besar, yang ditunjukkan oleh ekor panjang pada histogram dan density plot.
Meskipun boxplot menunjukkan median berukuran kecil dengan rentang interkuartil yang relatif sempit, banyak outlier pada berlian berukuran besar, menunjukkan bahwa berlian berukuran besar adalah nilai ekstrem dalam data. Plot violin memperkuat temuan ini dengan menunjukkan kepadatan tertinggi pada berlian berukuran kecil dan penyempitan distribusi pada berlian berukuran besar.
Oleh karena itu, dapat disimpulkan bahwa berlian berukuran kecil mendominasi dataset, distribusi data tidak simetris, dan ukuran besar memiliki banyak nilai ekstrem. Untuk mengurangi efek skewness, transformasi data seperti logaritma dapat dipertimbangkan untuk analisis lebih lanjut.