Visualisasi data adalah salah satu langkah penting dalam analisis data eksploratif. Melalui visualisasi data hubungan antar variabel dapat kita dipahami dengan lebih mudah, terutama oleh masyarakat umum.
Pada pengerjaan tugas kali ini saya menggunakan dataset
diamonds yang tersedia pada paket ggplot2.
Fokus analisis adalah hubungan antara dua variabel kontinu
(bivariat) untuk melihat pola dan kecenderungan yang muncul
pada data berlian.
Dalam kehidupan sehari-hari, kita sering mendengar bahwa berlian dinilai dari “berat” dan “harga”. Namun ternyata di balik adanya penilaian tersebut sebenarnya terdapat banyak aspek teknis yang tidak selalu terlihat oleh mata kita. Dataset diamonds yang digunakan dalam analisis ini berisi puluhan ribu data berlian dengan karakteristik yang sangat beragam. Setiap baris data merepresentasikan satu berlian dengan ukuran, proporsi, dan harga yang berbeda.
Melalui visualisasi data ini saya akan mencoba menyederhanakan informasi yang kompleks agar dapat dipahami oleh masyarakat umum. Grafik yang dihasilkan bukan sekadar hiasan visual saja, melainkan alat bantu untuk melihat pola, kecenderungan, dan hubungan antar karakteristik berlian. Dengan visualisasi data ini, kita akan dapat memahami bagaimana suatu faktor berkaitan dengan faktor lainnya tanpa harus membaca deretan angka yang lumayan rumit.
Baiklah disini kita akan membuat visualisasi yang pertama, Visualisasi berikut berfokus pada hubungan antara dua variabel kontinu (bivariat). Visualisasi pertama yang akan kita lakukan bertujuan untuk menjawab pertanyaan yang paling sering muncul di dalam masyarakat yaitu : “Apakah berlian yang lebih berat pasti lebih mahal?”
Secara logika, berat berlian sering diasosiasikan dengan nilai yang lebih tinggi. Dengan adanya asumsi ini dilingkugan masyarakat kita ingin membuktikannya menggunakan data nyata. Dengan menampilkan grafik hubungan antara berat berlian dan harga, kita akan dapat melihat apakah kenaikan berat selalu diikuti oleh kenaikan harga, atau justru terdapat variasi yang cukup besar di dalamnya.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(alpha = 0.4, color = "lightblue") +
labs(
title = "Hubungan Berat Berlian dan Harga",
x = "Berat Berlian (Carat)",
y = "Harga (USD)"
) +
theme_minimal()
Grafik pertama memperlihatkan hubungan antara berat berlian (carat) dan harga. Terlihat pola korelasi positif yang kuat dimana semakin besar berat berlian maka semakin tinggi pula harganya. Kenaikan harga juga tampak semakin tajam pada carat yang lebih besar, menunjukkan bahwa harga tidak meningkat secara linear melainkan cenderung eksponensial. Variasi harga juga semakin lebar pada berlian dengan carat besar, yang mengindikasikan adanya pengaruh faktor lain seperti kualitas potongan, warna, dan kejernihan.
Selanjutnya kita akan membuat visualisasi yang kedua, Visualisasi ini dibuat untuk mengeksplorasi hubungan antara kedalaman berlian (depth) dan harga berlian (price). Kedalaman suatu berlian merupakan salah satu ukuran proporsi fisik yang sering diasumsikan berpengaruh terhadap kualitas dan nilai jual pada berlian. Maka dari itu sebelum melihat grafik, terdapat dugaan awal bahwa variasi nilai kedalaman mungkin berkaitan dengan perbedaan harga berlian di pasar.
Melalui grafik scatter plot ini, setiap titik merepresentasikan satu berlian dengan kombinasi nilai kedalaman dan harga tertentu. Dengan mengamati penyebaran titik-titik tersebut, analis data ini berupaya menilai apakah terdapat pola tertentu, seperti kecenderungan harga meningkat atau menurun pada rentang kedalaman tertentu, atau apakah data justru tersebar secara acak.
Visualisasi ini juga bertujuan untuk mengidentifikasi apakah kedalaman berlian berperan sebagai faktor pembeda harga yang signifikan, atau hanya sebagai karakteristik teknis yang variasinya relatif kecil dibandingkan faktor lain seperti berat dan ukuran fisik. Dengan kata lain, grafik ini membantu menjawab pertanyaan awal: “apakah perbedaan kedalaman berlian cukup berarti dalam menjelaskan variasi harga berlian?”
ggplot(diamonds, aes(x = depth, y = price)) +
geom_point(alpha = 0.3, color = "steelblue") +
labs(
title = "Hubungan antara Kedalaman Berlian dan Harga",
x = "Kedalaman Berlian",
y = "Harga Berlian (USD)"
) +
theme_minimal()
Grafik diatas menunjukkan hubungan antara kedalaman berlian dan harga berlian (USD). Secara umum, tidak terlihat adanya hubungan linear yang kuat antara kedalaman dan harga. Titik-titik data tersebar cukup luas pada rentang kedalaman sekitar 58–62, yang merupakan konsentrasi terbesar data, namun harga pada rentang tersebut sangat bervariasi, mulai dari harga rendah hingga sangat tinggi. Hal ini menunjukkan bahwa kedalaman berlian bukan faktor utama yang secara langsung menentukan harga. Selain itu, terdapat beberapa titik di luar rentang umum (outlier), tetapi jumlahnya relatif sedikit dan tidak membentuk pola tertentu. Secara keseluruhan, grafik ini mengindikasikan bahwa hubungan antara kedalaman berlian dan harga cenderung lemah, sehingga kemungkinan terdapat faktor lain yang lebih berpengaruh terhadap harga berlian, seperti carat, cut, color, atau clarity.
Selanjutnya kita akan membuat visualisasi yang ketiga, Visualisasi ini dibuat untuk mengeksplorasi hubungan antara panjang berlian (x) dan harga berlian (price). Panjang berlian merupakan salah satu dimensi fisik utama yang sering dijadikan indikator ukuran dan nilai berlian. Melalui scatter plot ini, setiap titik mewakili satu berlian dengan kombinasi panjang dan harga tertentu. Grafik ini memungkinkan kita mengamati apakah harga cenderung meningkat seiring bertambahnya panjang berlian, atau apakah terdapat variasi harga yang signifikan pada panjang yang sama.
Analisis awal dari grafik ini juga bertujuan untuk memahami apakah ukuran fisik secara sederhana dapat menjadi faktor penentu harga, atau jika ada faktor lain (misalnya kualitas potongan, clarity, atau cut) yang menyebabkan variasi harga tetap tinggi meskipun panjang berlian serupa. Dengan kata lain, grafik ini membantu menjawab pertanyaan awal: “seberapa besar pengaruh dimensi fisik berlian terhadap harga, dan apakah terdapat pola hubungan yang jelas antara panjang berlian dan harga?”
ggplot(diamonds, aes(x = x, y = price)) +
geom_point(alpha = 0.3, color = "darkblue") +
labs(
title = "Hubungan antara Panjang Berlian dan Harga",
x = "Panjang Berlian (mm)",
y = "Harga Berlian (USD)"
) +
theme_minimal()
Grafik diatas menunjukkan hubungan antara panjang berlian (mm) dan harga berlian (USD). dapat kita lihat adanya hubungan positif yang cukup kuat antara kedua variabel tersebut. Semakin besar panjang berlian, harga cenderung meningkat. Pola titik-titik membentuk kurva yang naik, yang mengindikasikan hubungan tidak sepenuhnya linear, melainkan cenderung meningkat lebih tajam pada panjang tertentu. Pada kisaran panjang sekitar 4–6 mm, harga masih relatif rendah hingga menengah, namun ketika panjang mencapai sekitar 6–9 mm, harga meningkat secara signifikan dan variasinya juga semakin besar. Hal ini menunjukkan bahwa ukuran berlian merupakan faktor yang sangat berpengaruh terhadap harga. Selain itu, terdapat beberapa titik pencilan (outlier), tetapi secara umum pola kenaikan harga terhadap panjang berlian terlihat jelas dan konsisten.