Visualisasi data merupakan langkah penting dalam analisis eksploratif untuk memahami karakteristik suatu variabel sebelum dilakukan analisis lanjutan. Melalui grafik, pola distribusi, kecenderungan data, serta keberadaan nilai ekstrem dapat diamati secara lebih intuitif dibandingkan penyajian dalam bentuk tabel.
Laporan ini bertujuan untuk menganalisis dua variabel numerik kontinu pada dataset diamonds, yaitu carat dan price, menggunakan histogram, density plot, boxplot, serta scatter plot untuk melihat hubungan antarvariabel.
Dataset diamonds merupakan dataset bawaan dari package ggplot2 di R yang berisi 53.940 observasi berlian dengan berbagai karakteristik fisik dan ekonomi.
Variabel yang dianalisis dalam laporan ini adalah:
Kedua variabel tersebut termasuk data numerik kontinu karena nilainya berada dalam rentang tertentu dan dapat berupa angka desimal maupun bilangan besar.
Histogram harga menunjukkan frekuensi tertinggi pada rentang harga rendah hingga menengah. Batang pada rentang tersebut terlihat paling dominan dibandingkan rentang harga lainnya.Frekuensi menurun secara bertahap pada harga yang lebih tinggi, dan pada rentang harga tertinggi jumlah observasi terlihat jauh lebih sedikit.Pola ini menunjukkan bahwa distribusi harga terkonsentrasi pada tingkat tertentu dan semakin jarang pada nilai harga yang tinggi.
Histogram ini menunjukkan bahwa konsentrasi frekuensi tertinggi berada pada rentang carat kecil, terutama di bawah 1 carat. Batang pada interval tersebut tampak paling dominan dibandingkan interval lainnya. Frekuensi kemudian menurun secara konsisten seiring dengan meningkatnya nilai carat. Pada rentang carat yang lebih besar, jumlah observasi terlihat jauh lebih sedikit.Dengan demikian, secara visual dapat ditegaskan bahwa distribusi berat berlian didominasi oleh ukuran kecil dan mengalami penurunan frekuensi yang jelas pada ukuran yang lebih besar.
Density plot ini memperlihatkan puncak kurva pada kisaran harga rendah. Setelah itu, kurva menurun secara bertahap menuju harga yang lebih tinggi. Bagian kanan kurva terlihat lebih panjang, menunjukkan adanya sejumlah harga tinggi dengan kepadatan yang rendah. Hal ini menunjukkan bahwa distribusi harga memiliki penyebaran yang lebih luas pada sisi nilai tinggi dibandingkan sisi nilai rendah.
Density plot ini memperlihatkan puncak kurva pada nilai carat rendah, yang mengindikasikan konsentrasi data tertinggi berada pada rentang tersebut. Setelah mencapai puncak, kurva menurun secara bertahap menuju nilai carat yang lebih besar. Bagian kanan kurva terlihat memanjang, menunjukkan adanya nilai besar dengan kepadatan yang lebih rendah. Hal ini memperkuat bahwa distribusi berat berlian tidak merata dan memiliki kecenderungan penyebaran yang lebih panjang pada nilai carat tinggi.
Boxplot ini menunjukkan median harga berada pada rentang yang relatif rendah dibandingkan keseluruhan skala harga. Rentang antar kuartil cukup lebar, dan whisker bagian atas lebih panjang dibandingkan bagian bawah. Terdapat sejumlah titik ekstrem pada bagian atas distribusi. Dengan demikian, dapat ditegaskan bahwa meskipun sebagian besar harga berada pada rentang tertentu, terdapat sejumlah nilai tinggi yang memperluas variasi harga secara keseluruhan.
Pada boxplot ini, median berada pada bagian bawah kotak, yang menunjukkan bahwa sebagian besar data berada pada rentang nilai kecil. Whisker bagian atas lebih panjang dibandingkan bagian bawah, serta terdapat beberapa titik ekstrem di atasnya. Hal ini menunjukkan adanya nilai carat besar yang menyimpang dari mayoritas data. Secara keseluruhan, boxplot menegaskan adanya ketidakseimbangan distribusi dengan variasi yang lebih besar pada sisi nilai tinggi.
Berdasarkan keseluruhan visualisasi (histogram, density plot, dan boxplot), dapat disimpulkan bahwa variabel carat dan price memiliki distribusi yang tidak simetris dan cenderung terkonsentrasi pada nilai rendah. Pada variabel carat, sebagian besar berlian memiliki berat relatif kecil, sementara jumlah observasi menurun secara signifikan pada nilai carat yang lebih besar. Pola ini menunjukkan bahwa distribusi berat berlian memiliki ekor yang lebih panjang pada sisi kanan, yang mengindikasikan adanya sejumlah nilai besar meskipun dengan frekuensi yang lebih rendah. Pola serupa juga terlihat pada variabel price. Mayoritas berlian berada pada rentang harga rendah hingga menengah, sedangkan harga tinggi muncul dalam jumlah yang jauh lebih sedikit. Keberadaan nilai-nilai ekstrem pada boxplot semakin memperkuat adanya penyebaran yang lebih luas pada sisi harga tinggi. Secara keseluruhan, kedua variabel menunjukkan kecenderungan distribusi yang condong ke kanan (positively skewed), di mana konsentrasi data berada pada nilai rendah dengan sejumlah kecil observasi bernilai tinggi yang memperluas variasi data. Kondisi ini mengindikasikan bahwa karakteristik berlian dalam dataset didominasi oleh ukuran dan harga yang relatif terjangkau, dengan sebagian kecil berlian yang memiliki berat dan harga jauh di atas rata-rata.