Pendahuluan

Visualisasi data merupakan langkah penting dalam analisis eksploratif untuk memahami karakteristik suatu variabel sebelum dilakukan analisis lanjutan. Melalui grafik, pola distribusi, kecenderungan data, serta keberadaan nilai ekstrem dapat diamati secara lebih intuitif dibandingkan penyajian dalam bentuk tabel.

Laporan ini bertujuan untuk menganalisis dua variabel numerik kontinu pada dataset diamonds, yaitu carat dan price, menggunakan histogram, density plot, boxplot, serta scatter plot untuk melihat hubungan antarvariabel.

Deskripsi Dataset

Dataset diamonds merupakan dataset bawaan dari package ggplot2 di R yang berisi 53.940 observasi berlian dengan berbagai karakteristik fisik dan ekonomi.

Variabel yang dianalisis dalam laporan ini adalah:

  1. carat : berat berlian (dalam karat)

  2. price : harga berlian (dalam dolar)

Kedua variabel tersebut termasuk data numerik kontinu karena nilainya berada dalam rentang tertentu dan dapat berupa angka desimal maupun bilangan besar.

Histogram (Price)

Distribusi harga menunjukkan pola serupa dengan berat berlian. Sebagian besar berlian memiliki harga pada rentang rendah hingga menengah, sedangkan harga sangat tinggi relatif jarang ditemukan.

Histogram (Carat)

Distribusi berat berlian menunjukkan bahwa sebagian besar berlian memiliki berat relatif kecil. Frekuensi menurun secara signifikan pada berat yang lebih besar, sehingga distribusi cenderung tidak simetris dan condong ke kanan (right-skewed).

Density Plot (Price)

Kurva menunjukkan distribusi harga yang tidak simetris, dengan ekor panjang di sisi kanan yang menandakan adanya harga yang sangat tinggi.

Density Plot (Carat)

Kurva density berat berlian memperjelas bahwa konsentrasi data berada pada berat kecil dan menurun secara bertahap pada berat yang lebih besar.

Boxplot (Price)

Boxplot harga menunjukkan penyebaran data yang cukup luas serta keberadaan banyak outlier pada harga tinggi. Hal ini mengindikasikan adanya variasi harga yang signifikan dalam dataset.

Boxplot (Carat)

Sebagian besar berat berlian berada pada rentang relatif kecil, dengan median yang berada di bawah nilai maksimum secara signifikan. Terdapat beberapa outlier pada bagian atas, yang menunjukkan adanya berlian dengan berat jauh lebih besar dibandingkan mayoritas data.

Kesimpulan

Berdasarkan seluruh visualisasi yang telah dilakukan, baik melalui histogram, density plot, maupun boxplot, dapat disimpulkan bahwa distribusi berat (carat) dan harga (price) berlian tidak tersebar secara merata.

Sebagian besar berlian dalam dataset memiliki ukuran kecil dan harga relatif lebih rendah. Sementara itu, berlian dengan ukuran dan harga sangat tinggi jumlahnya lebih sedikit dan muncul sebagai nilai ekstrem dalam data.

Secara umum, karakteristik data menunjukkan bahwa nilai rendah hingga menengah lebih dominan dibandingkan nilai yang sangat tinggi.