Sebagai seorang data analyst, langkah pertama dalam analisis data adalah memahami struktur dan karakteristik dataset yang akan kita gunakan. Pada analisis kali ini saya menggunakan dataset diamonds, yaitu dataset bawaan dari package ggplot2 yang berisi informasi atribut berlian seperti harga (price), berat karat (carat), warna (color), kejernihan (clarity), dan kualitas potongan (cut). Namun, dalam analisis kali ini fokus utama saya diberikan pada dua variabel numerik, yaitu carat sebagai representasi ukuran atau berat berlian dan price sebagai indikator nilai ekonominya.

Untuk memperoleh pemahaman yang lebih mendalam saya menggunakan tiga jenis grafik utama, yaitu histogram, density plot, dan boxplot, yang masing-masing memberikan perspektif analisis yang berbeda. Histogram menunjukkan distribusi frekuensi, density plot menampilkan pola distribusi halus, sedangkan boxplot membantu melihat penyebaran data dan outlier. Kombinasi ketiganya memungkinkan interpretasi data yang lebih informatif dan mudah dipahami.

Histogram - Distribusi Berat Berlian

Histogram digunakan untuk melihat bagaimana distribusi berat berlian dalam dataset. Grafik ini bisa membantu dalam mengidentifikasi rentang nilai yang paling sering muncul serta memperlihatkan pola umum penyebaran data.

ggplot(diamonds, aes(x = carat)) +
  geom_histogram(fill = "lightblue", bins = 30) +
  labs(title = "Distribusi Berat Berlian",
       x = "Carat",
       y = "Frekuensi") +
  theme_minimal()

Dari grafik dapat kita lihat bahwa sebagian besar berlian memiliki berat pada rentang kecil hingga sedang. Frekuensi data menurun cukup tajam ketika berat berlian semakin besar. Hal ini menjelaskan bahwa berlian berukuran kecil jauh lebih umum dibandingkan berlian berukuran besar. Bentuk distribusi yang memanjang ke arah kanan menunjukkan bahwa data bersifat right-skewed, yang artinya hanya sebagian kecil berlian yang memiliki berat sangat besar dibandingkan mayoritas lainnya.


Density Plot - Pola Distribusi Berat Berlian


Untuk melengkapi analisis distribusi berat berlian yang kita lakukan saya menggunakan density plot untuk menampilkan pola distribusi data secara lebih halus dibandingkan histogram. Grafik ini tidak bergantung pada pembagian interval tertentu, tapi memperkirakan bentuk kurva distribusi berdasarkan kepadatan data. Dengan menggunakan density plot ini, kita dapat memahami pola umum distribusi secara lebih jelas, termasuk melihat apakah distribusi berbentuk simetris, miring, atau memiliki lebih dari satu puncak.

ggplot(diamonds, aes(x = carat)) +
  geom_density(fill = "paleturquoise", alpha = 0.7) +
  labs(title = "Density Plot Berat Berlian",
       x = "Carat",
       y = "Kepadatan") +
  theme_minimal()

Grafik density yang dihasilkan menunjukkan bahwa kurva distribusi berat berlian memiliki puncak yang tinggi di bagian nilai kecil dan kemudian menurun secara perlahan ke arah kanan meskipun terdapat beberapa fluktuasi kepadatan pada rentang tertentu. Pola yang kita peroleh ini memperkuat temuan sebelumnya bahwa distribusi data bersifat miring ke kanan. Yang artinya sebagian besar berlian memiliki berat relatif kecil, sedangkan berlian dengan berat besar jumlahnya jauh lebih sedikit. Kurva yang menurun secara bertahap menunjukkan bahwa semakin besar berat berlian, semakin jarang jumlahnya dalam dataset. Informasi ini penting karena bisa memberikan gambaran realistis kepada kita tentang kondisi populasi berlian secara umum, di mana ukuran besar merupakan karakteristik yang relatif langka.


Boxplot - Sebaran Harga Berlian


Untuk memahami variasi harga berlian dan melihat bagaimana data tersebar secara keseluruhan saya menggunakan boxplot pada variabel price. Grafik ini dapat menyajikan ringkasan statistik data secara visual, termasuk nilai median, rentang kuartil, serta kemungkinan adanya nilai ekstrem. Pada analisis kali ini boxplot sangat berguna karena mampu memberikan informasi distribusi secara ringkas namun tetap informatif, terutama dalam mengidentifikasi apakah terdapat harga yang jauh berbeda dari kebanyakan data.

ggplot(diamonds, aes(y = price)) +
  geom_boxplot(fill = "lightcyan") +
  labs(title = "Sebaran Harga Berlian",
       y = "Harga") +
  theme_minimal()

Dari grafik boxplot yang kita buat terlihat bahwa sebagian besar harga berlian berada dalam rentang tertentu ditunjukkan oleh ukuran kotak utama pada grafik. Garis yang berada di dalam kotak menunjukkan median harga, yang merepresentasikan nilai tengah data. Tetapi pada grafik yang kita peroleh terdapat sejumlah titik di luar garis batas atas grafik yang menandakan adanya nilai harga yang jauh lebih tinggi dibandingkan mayoritas berlian lainnya. Titik-titik itulah yang disebut outlier dimana menunjukkan adanya berlian dengan harga sangat mahal dibandingkan mayoritas data. Adanya outlier ini mengindikasikan bahwa distribusi harga tidak sepenuhnya merata dan cenderung memiliki variasi yang cukup besar. Hal ini masuk akal karena harga berlian dipengaruhi oleh banyak faktor seperti ukuran, kualitas potongan, kejernihan, dan warnanya.

Melalui kombinasi dari tiga visualisasi yang kita lakukan, diperolehlah pemahaman yang lebih menyeluruh mengenai karakteristik data. Histogram memberikan gambaran frekuensi distribusi berat berlian, density plot memperjelas mengenai pola distribusi secara halus, serta boxplot yang memperlihatkan sebaran harga serta keberadaan nilai ekstrem. Hasil analisis yang kita lakukan menunjukkan bahwa sebagian besar berlian dalam dataset memiliki berat kecil dengan distribusi yang condong ke kanan, serta harga yang bervariasi dengan beberapa nilai sangat tinggi. Pendekatan visualisasi ini membantu menyederhanakan data kompleks menjadi informasi yang mudah dipahami, sehingga mempermudah proses interpretasi dan pengambilan keputusan berbasis data.