Visualisasi data merupakan langkah penting dalam analisis eksploratif untuk memahami karakteristik suatu variabel sebelum dilakukan analisis lanjutan. Melalui grafik, pola distribusi, kecenderungan data, serta keberadaan nilai ekstrem dapat diamati secara lebih intuitif dibandingkan penyajian dalam bentuk tabel.
Laporan ini bertujuan untuk menganalisis dua variabel numerik kontinu pada dataset diamonds, yaitu carat dan price, menggunakan histogram, density plot, boxplot, serta scatter plot untuk melihat hubungan antarvariabel.
Dataset diamonds merupakan dataset bawaan dari package ggplot2 di R yang berisi 53.940 observasi berlian dengan berbagai karakteristik fisik dan ekonomi.
Variabel yang dianalisis dalam laporan ini adalah:
carat : berat berlian (dalam karat)
price : harga berlian (dalam dolar)
Kedua variabel tersebut termasuk data numerik kontinu karena nilainya berada dalam rentang tertentu dan dapat berupa angka desimal maupun bilangan besar.
Distribusi harga menunjukkan pola serupa dengan berat berlian. Sebagian besar berlian memiliki harga pada rentang rendah hingga menengah, sedangkan harga sangat tinggi relatif jarang ditemukan.
Distribusi berat berlian menunjukkan bahwa sebagian besar berlian memiliki berat relatif kecil. Frekuensi menurun secara signifikan pada berat yang lebih besar, sehingga distribusi cenderung tidak simetris dan condong ke kanan (right-skewed).
Kurva menunjukkan distribusi harga yang tidak simetris, dengan ekor panjang di sisi kanan yang menandakan adanya harga yang sangat tinggi.
Kurva density berat berlian memperjelas bahwa konsentrasi data berada pada berat kecil dan menurun secara bertahap pada berat yang lebih besar.
Boxplot harga menunjukkan penyebaran data yang cukup luas serta keberadaan banyak outlier pada harga tinggi. Hal ini mengindikasikan adanya variasi harga yang signifikan dalam dataset.
Sebagian besar berat berlian berada pada rentang relatif kecil, dengan median yang berada di bawah nilai maksimum secara signifikan. Terdapat beberapa outlier pada bagian atas, yang menunjukkan adanya berlian dengan berat jauh lebih besar dibandingkan mayoritas data.
Scatter plot menunjukkan adanya hubungan positif antara berat dan harga berlian. Semakin besar berat berlian, semakin tinggi pula harga yang cenderung dimiliki. Pola ini menunjukkan bahwa berat merupakan salah satu faktor penting dalam menentukan harga berlian.
Berdasarkan hasil visualisasi, variabel carat dan price menunjukkan distribusi yang tidak simetris dan cenderung condong ke kanan (positively skewed). Mayoritas berlian dalam dataset memiliki berat dan harga relatif rendah, sementara hanya sebagian kecil yang memiliki nilai ekstrem tinggi.
Selain itu, visualisasi scatter plot menunjukkan adanya hubungan linear positif antara berat dan harga berlian. Temuan ini mengindikasikan bahwa peningkatan berat berlian cenderung diikuti oleh peningkatan harga.
Secara keseluruhan, eksplorasi grafis ini memberikan gambaran awal yang kuat mengenai karakteristik distribusi dan hubungan antarvariabel sebelum dilakukan analisis inferensial lebih lanjut.