Analisa Rata-Rata Tinggi & Berat Badan Wanita Amerika - Dataset
1: ‘Women’
Grafik pertama yang akan kita analisa adalah line chart dengan
menggunakan dataset women. Grafik di atas menggambarkan hubungan antara
tinggi badan (height) wanita dalam inci pada sumbu x dan berat badan
wanita (weight) dalam pound pada sumbu y. Kita dapat melihat adanya pola
linear positif yang konsisten pada grafik tersebut, di mana setiap
peningkatan tinggi badan secara proporsional diikuti oleh peningkatan
berat badan. Pola ini terlihat dari garis biru yang menghubungkan setiap
titik data, yang membentuk jalur yang terus naik tanpa adanya fluktuasi
besar. Hal ini menunjukkan hubungan langsung dan erat antara kedua
variabel tersebut. Pada grafik, rentang tinggi badan berada antara 58
inci hingga 72 inci atau sekitar 147 cm hingga 183 cm) sedangkan rentang
berat badan berkisar antara 115 pound hingga 165 pound atau sekitar 52
kg hingga 75 kg. Setiap titik pada grafik merepresentasikan kombinasi
tinggi badan dan berat badan seorang wanita dan garis penghubung di
antaranya menunjukkan perubahan atau tren dalam dataset. Tidak terdapat
penyimpangan signifikan dari garis tren yang sekaligus menandakan tidak
adanya data outlier. Hal ini mencerminkan bahwa hubungan antara tinggi
badan dan berat badan dalam dataset ini sangat kuat dan stabil. Tidak
hanya itu, melalui grafik ini kita juga dapat melihat bahwa dataset
women ini terdistribusi dengan baik dan mengikuti pola yang logis.
Multivariate Box Plot Pada Dataset ‘Women’
# Membuat Multivariate Box Plot dari data Women
plot_ly(
data = Women,
y = ~weight,
x = ~Height_Category,
type = "box"
)%>%
layout(
title = "Boxplot of Women's Weight by Height Category\nShort: <= 60, Medium: <= 65, Tall: > 65",
xaxis = list(title = "Height Category"),
yaxis = list(title = "Weight (in pounds)")
)
Grafik stacked bar plot di atas menunjukkan distribusi jumlah wanita
dalam berbagai kategori tinggi badan berdasarkan rentang berat badan
tertentu. Sumbu X menggambarkan rentang berat badan wanita yang
dikelompokkan ke dalam interval 10 satuan mulai dari 110 hingga 170
pounds sementara sumbu Y menunjukkan jumlah individu dalam setiap
rentang berat tersebut. Warna dalam batang tersebut digunakan untuk
merepresentasikan kategori tinggi badan, seperti oranye untuk kategori
Short (pendek), hijau untuk Medium (sedang), dan biru untuk Tall
(tinggi). Setiap batang dalam grafik ini menunjukkan kombinasi jumlah
individu dengan kategori tinggi yang berbeda dalam rentang berat
tertentu. Pada rentang berat 110-120 pound dengan total 3 individu
termasuk dalam kategori Short karena seluruh batangnya berwarna oranye.
Apabila kita melihat pada rentang berat 120-130 pound, tiga orang
individu dikategorikan dalam tinggi Medium. Hal ini terlihat dari bar
yang berhenti pada sumbu Y di angka 3 dengan keseluruhan bar nya
dipenuhi oleh warna hijau. Selanjutnya, pada rentang berat 130-140
pound, terdapat variasi kategori tinggi dengan total 2 individu untuk
kategori Medium dan dan 1 individu dengan kategori Tall sehingga
totalnya mencapai 3 orang dengan dua warna, yaitu hijau dan biru.
Setelahnya, kita dapat melihat bahwa kebanyakan bar dihiasi dengan warna
biru yang menandakan bahwa rentang berat yang lebih besar juga diikuti
oleh kategori Tall (tinggi). Buktinya adalah pada rentang berat 140-150
hanya diisi oleh individu dalam kategori tinggi Tall dengan jumlah total
3 orang. Begitu pula pada rentang berat 150-160 dan 160-170, hanya
terdapat individu dengan tinggi Tall dengan total masing-masing
berjumlah 2 dan 1 orang. Secara keseluruhan, individu dengan tinggi Tall
terlihat mendominasi rentang berat yang lebih tinggi (130 ke atas),
sedangkan kategori Short hanya terlihat pada rentang berat yang lebih
rendah (110-120). Artinya ada hubungan yang positif antara berat badan
dan tinggi badan wanita berdasarkan dataset women ini.
Scatter Plot Pada Dataset ‘Women’
# Membuat Scatterplot dari data Women
p_scatter <- ggplot(women, aes(x = height, y = weight)) +
geom_point(color = 'blue', size = 3) +
labs(title = "Scatter Plot of Women's Height and Weight",
x = "Height (in inches)",
y = "Weight (in pounds)") +
theme_minimal()
# Konversi plot ggplot menjadi plot interaktif menggunakan ggplotly
p_scatter_interaktif <- ggplotly(p_scatter)
# Menampilkan plot
p_scatter_interaktif
Yang terakhir adalah grafik scatter plot yang juga menampilkan
hubungan antara tinggi badan dalam inches dan berat badan dalam pounds.
Scatter plot ini memberikan gambaran visual yang jelas mengenai hubungan
antara kedua variabel tersebut melalui titik-titik data yang tersebar di
sepanjang grafik. Kita dapat melihat adanya hubungan positif yang
terbangun antara tinggi badan dan berat badan wanita pada dataset women
tersebut. Setiap titik yang ada pada grafik tersebut memperlihatkan
bahwa seiring dengan bertambahnya tinggi badan seorang wanita, maka
berat badannya cenderung juga meningkat. Ini tercermin dalam pola titik
data yang membentuk garis diagonal yang naik ke atas kanan. Oleh karena
itu, kita juga dapat menyimpulkan bahwa terdapat korelasi positif antara
tinggi badan dan berat badan sehingga kedua variabel ini akan bergerak
pada arah yang sama. Artinya peningkatan pada satu variabel akan
berdampak juga pada peningkatan variabel lainnya dan begitu juga
sebaliknya apabila mengalami penurunan. Salah satu contohnya adalah
ketika berat badan seorang wanita adalah 120 pounds maka tinggi badannya
adalah 60 inches sedangkan wanita dengan berat 164 pounds memiliki
tinggi badan yang lebih besar di angka 72 inches.
Keempat visualisasi tersebut memberikan wawasan yang berbeda
mengenai hubungan tinggi badan dan berat badan pada dataset Women.
Stacked bar plot menunjukkan distribusi jumlah individu berdasarkan
kategori tinggi badan dalam berbagai rentang berat dan membantu kita
untuk memahami persebaran kelompok tetapi kurang efektif untuk
menunjukkan hubungan linear antara tinggi dan berat badan. Scatter plot
memberikan gambaran yang paling jelas tentang hubungan langsung antara
kedua variabel melalui pola titik data yang membentuk garis diagonal
naik, menandakan adanya korelasi positif yang kuat. Lalu line chart
menggambarkan hubungan linear positif dengan cara yang sederhana dan
terstruktur, meskipun kurang fleksibel untuk menunjukkan variasi antar
individu dibandingkan scatter plot. Multivariate box plot berfungsi
untuk menganalisis distribusi berat badan dalam kategori tinggi tertentu
(Short, Medium, Tall) yang memberikan wawasan tentang median, variasi,
dan distribusi data dalam kelompok. Secara keseluruhan menurut kelompok
kami, scatter plot adalah visualisasi terbaik untuk menggambarkan
hubungan tinggi badan dan berat badan wanita dalam dataset ini sebab
kita dapat melihat dengan jelas pola hubungan linear keduanya, sekaligus
mempermudah interpretasi data secara langsung.
Analisa Hubungan Diameter, Volume, dan Tinggi Pohon Black Cherry -
Dataset 2: ‘Trees’
Berikutnya adalah gambar grafik stacked bar plot yang menunjukkan
adanya hubungan antara variabel Height atau tinggi pohon dalam satuan
kaki pada sumbu x dan Volume pohon dalam satuan kaki kubik pada sumbu y.
Setiap batang pada grafik ini merepresentasikan distribusi volume pohon
dalam rentang tinggi tertentu, dengan warna yang berbeda-beda sesuai
skala volume. Skala warna ini mempermudah kita untuk melakukan
identifikasi terhadap volume pohon pada tiap rentang tinggi, di mana
warna yang lebih terang seperti hijau dan kuning menunjukkan volume yang
lebih besar sedangkan warna gelap seperti biru dan ungu dipakai untuk
menunjukkan volume yang lebih kecil. Melalui grafik tersebut, kita dapat
melihat bahwa tinggi pohon memiliki hubungan positif dengan volume
pohon, di mana pohon dengan tinggi yang lebih besar akan diikuti oleh
volume yang lebih besar pula. Sebagai contoh, pada rentang tinggi
sekitar 80 kaki, volume pohon mencapai puncaknya dengan total volume
yang lebih besar dibandingkan rentang tinggi lainnya. Batang ini juga
mencakup beberapa segmen warna, menunjukkan distribusi volume pada
rentang tinggi tersebut. Sebaliknya, pada rentang tinggi yang lebih
rendah, seperti 65-70 kaki, volume pohon lebih kecil secara keseluruhan,
dengan warna dominan gelap (biru atau ungu) yang mengindikasikan volume
rendah. Selain itu, ada juga bar plot yang sangat mencolok yaitu pada
rentang tinggi 85 kaki, di mana grafik bagian ini didominasi oleh warna
kuning terang yang mengindikasikan bahwa seluruh pohon pada rentang ini
memiliki volume yang sangat besar melebihi angka 60. Secara keseluruhan,
melalui grafik ini kita dapat melihat dengan jelas positif antara tinggi
pohon dan volume, di mana pohon yang lebih tinggi cenderung memiliki
volume yang lebih besar. Namun, distribusi volume pada setiap tinggi
tidak merata, karena beberapa rentang tinggi seperti di 80 kaki
menunjukkan variasi volume yang lebih luas dibandingkan rentang tinggi
lainnya.
Scatter Plot Pada Dataset ‘Trees’
#scatter plot
plot_ly(trees, x = ~Girth, y = ~Volume, type = 'scatter', mode = 'markers', color = ~Girth,
marker = list(size = 12, opacity = 0.6), text = ~paste("Height:", Height, " Volume:", Volume)) %>%
layout(title = "Girth vs Volume", xaxis = list(title = "Girth"), yaxis = list(title = "Volume"))
Grafik scatter plot ini menampilkan hubungan antara variabel Girth
(diameter batang pohon) sebagai sumbu x dan Volume (volume pohon)
sebagai sumbu y. Setiap titik dalam grafik ini mewakili satu data pohon,
di mana nilai Girth dan Volume bervariasi. Melalui grafik yang tergambar
di atas, kita dapat melihat bahwa ada hubungan positif antara Girth dan
Volume, yang berarti semakin besar diameter batang pohon (Girth), maka
Volume pohon juga cenderung semakin besar. Hubungan kedua variabel ini
tentu masuk akal, karena pohon dengan batang yang lebih besar cenderung
memiliki volume yang lebih besar pula. Apabila kita memperhatikan
sebaran datanya, terlihat juga bahwa sebagian besar pohon memiliki Girth
antara 10 hingga 18 dan Volume antara 10 hingga 60 yang mencerminkan
karakteristik dataset didominasi oleh pohon dengan ukuran batang volume
yang sedang hingga besar. Pohon dengan Girth di atas 18 konsisten
menunjukkan Volume tinggi di angka 70 hingga 80, sementara pohon dengan
Girth kecil memiliki Volume yang lebih rendah. Artinya, pohon dengan
diameter yang besar secara konsisten memiliki volume yang besar. Namun,
tidak ada data dengan Volume rendah yang memiliki Girth besar dan
titik-titik scatter plot nya juga cukup rapi membentuk suatu pola
linier, yang mengindikasikan korelasi yang cukup kuat antara Girth dan
Volume. Dengan kata lain, Girth bisa menjadi prediktor yang cukup andal
untuk memperkirakan Volume pohon dalam konteks dataset ini. Selain itu,
kita juga bisa memperhatikan warna pada grafik yang memberikan informasi
tambahan terkait variasi nilai Girth, di mana warna kuning menggambarkan
nilai Girth yang besar dan ungu untuk nilai yang lebih kecil. Penggunaan
warna ini memudahkan interpretasi visual terhadap pola positif antara
Girth dan Volume.
Secara keseluruhan, keempat visualisasi ini memiliki kelebihannya
masing-masing untuk menganalisa distribusi dan hubungan antar variabel
tinggi pohon (Height), diameter batang pohon (Girth), dan volume pohon
(Volume). Contohnya line chart lebih cocok untuk melihat adanya tren
atau pola perubahan secara umum tetapi scatter plot memberikan gambaran
yang lebih detail untuk hubungan dua variabel. Selanjutnya, untuk
stacked bar plot atau box plot cocok untuk menganalisa distribusi data.
Pada dataset Trees ini kami merasa bahwa scatter plot adalah yang paling
cocok untuk memberikan gambaran terkait hubungan antara
variabel-variabel yang ada di dalam dataset ini. Contohnya, kami
menggunakan variabel Height dan Volume pada scatter plot yang membuat
kita mengetahui bahwa hubungan antara kedua variabel ini adalah positif
atau artinya keduanya bergerak pada arah yang sama.
Memahami Pola Konsumsi Gas Masyarakat Inggris Pada Periode 1960 -
1986 - Dataset 3: ‘UKGas’
Tidak hanya itu, grafik line chart dataset UKgas ini juga
menunjukkan adanya peningkatan variabilitas dalam konsumsi gas seiring
waktu. Pada awal periode tahun 1960, selisih antara puncak dan dasar
konsumsi relatif kecil. Namun, setelah memasuki tahun 1970 hingga
pertengahan 1980, perbedaan antara puncak dan dasar semakin besar. Hal
ini menandakan adanya peningkatan permintaan musiman yang semakin tinggi
sebagai dampak dari perubahan pola cuaca, peningkatan penggunaan gas
untuk pemanas, atau pertumbuhan populasi yang meningkatkan kebutuhan
energi. Salah satu periode yang menonjol adalah awal hingga pertengahan
1980, di mana kita dapat melihat adanya puncak konsumsi yang mencapai
hampir 1.200 juta therm. Periode ini menunjukkan bagaimana permintaan
gas mencapai titik tertinggi dalam sejarah grafik tersebut dan juga
mencerminkan perubahan yang signifikan dalam konsumsi energi masyarakat
Inggris.
Stacked Bar Plot Pada Dataset ‘UKGas’
ukgas_df2 = data.frame(Year = as.integer(floor(time(UKgas))),Quarter = as.factor(cycle(UKgas)),Consumption = as.numeric(UKgas))
stackedbar = plot_ly(ukgas_df2, x = ~Year, y = ~Consumption, type = 'bar', color = ~Quarter, colors = c("mistyrose2", "darkolivegreen3", "dodgerblue4", "goldenrod1")) %>%layout(title = "Konsumsi Gas di Inggris per Tahun dan Kuartal", xaxis = list(title = "Tahun"), yaxis = list(title = "Konsumsi Gas (dalam jutaan therm)"),barmode = 'stack')
stackedbar
Untuk pola musimannya pun terlihat dengan sangat jelas dibandingkan
dengan gambaran yang diberikan oleh line chart. Kita dapat melihat bahwa
kontribusi yang paling tinggi dimiliki oleh kuartal pertama (Q1) yang
menandakan bahwa permintaan gas pada periode Januari–Maret meningkat
secara signifikan. Hal ini sesuai dengan kondisi iklim di Inggris yang
mengalami musim dingin pada kuartal tersebut, sehingga konsumsi untuk
keperluan pemanas menjadi tinggi. Kuartal keempat (Q4) juga menunjukkan
kontribusi yang signifikan pada total konsumsi gas tahunan, mencerminkan
peningkatan permintaan gas saat musim dingin kembali dimulai pada akhir
tahun. Berbeda halnya dengan kontribusi yang diberikan oleh kuartal
kedua (Q2) dan kuartal ketiga (Q3) yang cenderung lebih rendah,
menunjukkan penurunan permintaan gas selama musim semi dan musim panas
ketika suhu lebih hangat sehingga masyarakat tidak lagi memerlukan
pemanas.Apabila kita memperhatikan batang yang ada pada tahun 1986,
kenaikan pada permintaan gas di tahun tersebut juga diiringi dengan
tingginya permintaan per-kuartal pada tahun tersebut dibandingkan dengan
kuartal di tahun-tahun sebelumnya.
Multivariate Box Plot Pada Dataset ‘UKGas’
ukgas_df3 = data.frame(Time = time(UKgas), Gas = as.numeric(UKgas))
ukgas_df3$Year = floor(ukgas_df3$Time)
ukgas_df3$Quarter = factor(cycle(UKgas), labels = c("Q1", "Q2", "Q3", "Q4"))
boxp = plot_ly(data = ukgas_df3, x = ~Quarter, y = ~Gas, type = "box", color = ~Quarter)%>%layout(title = "Box Plot Konsumsi Gas di Inggris per Kuartal")
boxp
Grafik yang ketiga adalah multivariate boxplot yang membantu kita
untuk menganalisis dan memvisualisasikan distribusi dataset UKgas
tersrbut. Pada kuartal pertama (Q1) yang berwarna hijau, box plot
menunjukkan rentang yang paling lebar dengan median konsumsi yang berada
di sekitar angka 371.4 juta therm. Rentang interkuartil yang lebar
mengindikasikan adanya variasi yang signifikan dalam konsumsi gas selama
kuartal ini dan garis atas yang cukup tinggi menunjukkan adanya periode
dengan konsumsi yang sangat tinggi. Hal ini sesuai dengan musim dingin
yang terjadi pada bulan Januari hingga Maret di Inggris, di mana
penggunaan gas untuk pemanas meningkat tajam. Di kuartal kedua (Q2) yang
berwarna oranye, distribusi konsumsi gas menjadi lebih sempit dengan
median sekitar 240.1 juta therm, yang menandakan penurunan konsumsi gas
saat memasuki musim semi di bulan April- Juni.