Analisa Rata-Rata Tinggi & Berat Badan Wanita Amerika - Dataset 1: ‘Women’

Dataset pertama yang kami gunakan adalah dataset women yang berisi informasi tentang tinggi badan (height) dan berat badan (weight) sekelompok wanita. Dataset ini terdiri dari 15 baris yang masing-masing mewakili seorang individu wanita dan dua kolom variabel yang mencatat tinggi badan dalam satuan inci dan berat badan dalam satuan pound. Kedua variabel ini sering digunakan dalam penelitian untuk mengeksplorasi hubungan antara tinggi badan dan berat badan, serta untuk menganalisis apakah ada korelasi yang signifikan antara keduanya. Hubungan antara tinggi dan berat badan seseorang sering kali dipengaruhi oleh banyak faktor, mulai dari genetika, pola makan, dan tingkat aktivitas fisik. Oleh karena itu, analisis terhadap dataset ini dapat memberikan pemahaman yang lebih baik mengenai distribusi berat badan pada wanita dengan variasi tinggi badan yang berbeda.

Line Chart Pada Dataset ‘Women’

# Membuat Stacked Bar Plot dari data Women
Women <- women %>%
  mutate(
    Height_Category = case_when(
      height <= 60 ~ "Short",
      height <= 65 ~ "Medium",
      height > 65 ~ "Tall"
    ), 
    Weight_Range = cut(weight, breaks = seq(100, 170, by = 10), include.lowest = TRUE)
  )

# Hitung jumlah data berdasarkan kategori tinggi dan rentang berat
women_count <- Women %>%
  count(Weight_Range, Height_Category)
# Membuat Line Chart dari data Women
p_linechart <- ggplot(women, aes(x = height, y = weight)) +
  geom_line(color = 'blue', size = 1) +
  geom_point(color = 'blue', size = 2) +  # Menambahkan titik agar lebih jelas
  labs(title = "Line Chart of Women's Height and Weight",
       x = "Height (in inches)",
       y = "Weight (in pounds)") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
# Konversi plot ggplot menjadi interaktif dengan ggplotly
p_linechart_interaktif <- ggplotly(p_linechart)

# Tampilkan plot interaktif
p_linechart_interaktif

Grafik pertama yang akan kita analisa adalah line chart dengan menggunakan dataset women. Grafik di atas menggambarkan hubungan antara tinggi badan (height) wanita dalam inci pada sumbu x dan berat badan wanita (weight) dalam pound pada sumbu y. Kita dapat melihat adanya pola linear positif yang konsisten pada grafik tersebut, di mana setiap peningkatan tinggi badan secara proporsional diikuti oleh peningkatan berat badan. Pola ini terlihat dari garis biru yang menghubungkan setiap titik data, yang membentuk jalur yang terus naik tanpa adanya fluktuasi besar. Hal ini menunjukkan hubungan langsung dan erat antara kedua variabel tersebut. Pada grafik, rentang tinggi badan berada antara 58 inci hingga 72 inci atau sekitar 147 cm hingga 183 cm) sedangkan rentang berat badan berkisar antara 115 pound hingga 165 pound atau sekitar 52 kg hingga 75 kg. Setiap titik pada grafik merepresentasikan kombinasi tinggi badan dan berat badan seorang wanita dan garis penghubung di antaranya menunjukkan perubahan atau tren dalam dataset. Tidak terdapat penyimpangan signifikan dari garis tren yang sekaligus menandakan tidak adanya data outlier. Hal ini mencerminkan bahwa hubungan antara tinggi badan dan berat badan dalam dataset ini sangat kuat dan stabil. Tidak hanya itu, melalui grafik ini kita juga dapat melihat bahwa dataset women ini terdistribusi dengan baik dan mengikuti pola yang logis.

Multivariate Box Plot Pada Dataset ‘Women’

# Membuat Multivariate Box Plot dari data Women
plot_ly(
  data = Women,
  y = ~weight,
  x = ~Height_Category,
  type = "box"
)%>%
  layout(
    title = "Boxplot of Women's Weight by Height Category\nShort: <= 60, Medium: <= 65, Tall: > 65",
    xaxis = list(title = "Height Category"),
    yaxis = list(title = "Weight (in pounds)")
  )

Selanjutnya adalah grafik multivariate boxplot yang dapat kita pakai untuk melihat distribusi dataset women yang terdiri atas variabel berat badan wanita berdasarkan tiga kategori tinggi badan, yaitu Short (≤ 60), Medium (≤ 65), dan Tall (> 65). Setiap kategori ini menunjukkan pola distribusi yang berbeda, seperti pada kategori Short (≤ 60), berat badan wanita memiliki rentang nilai yang sangat sempit dengan median berada di angka 117 pounds. Hal ini menunjukkan bahwa wanita dengan tinggi badan yang rendah cenderung memiliki berat badan yang lebih seragam. Rentang antar kuartil (IQR) nya juga kecil sehingga terbukti bahwa variasi datanya juga rendah. Selain itu, tidak terdapat outlier yang terlihat dalam kategori ini, menegaskan bahwa distribusi berat badan cukup stabil di kelompok tinggi badan short ini. Yang kedua, dapat kita lihat pada kategori Medium (≤ 65) yang menunjukkan median berat badan yang lebih tinggi dibandingkan kategori “Short”, yaitu pada angka 129 pounds. Variasi berat badan pada kategori ini juga lebih besar dibandingkan kategori sebelumnya yang terlihat dari IQR yang lebih lebar. Hal ini menunjukkan bahwa wanita dengan tinggi badan di kategori Medium memiliki berat badan yang lebih bervariasi, meskipun datanya masih tetap terkonsentrasi dalam rentang tertentu. Sama seperti kategori Short, dalam kategori ini juga tidak ditemukan adanya outlier. Yang terakhir adalah kategori Tall (> 65) sebagai kategori yang memiliki median berat badan yang paling tinggi, yaitu sekitar 150 pounds. Hal ini menunjukkan bahwa wanita yang lebih tinggi cenderung memiliki berat badan yang lebih besar dibandingkan dengan kategori Short ataupun Medium. Selain itu, rentang antar kuartil (IQR) pada kategori ini juga jauh lebih lebar, menunjukkan variasi berat badan yang lebih signifikan. Secara keseluruhan, hasil box plot ini memberikan kita gambaran bahwa variabel tinggi badan dan berat badan wanita memiliki hubungan yang positif satu sama lain. Wanita dengan tinggi badan lebih besar cenderung memiliki berat badan yang lebih tinggi, yang terlihat dari peningkatan median berat badan di setiap kategori tinggi badan. Selain itu, variasi berat badan juga meningkat seiring bertambahnya tinggi badan, terlihat dari IQR yang semakin besar pada kategori yang lebih tinggi.

Stacked Bar Plot Pada Dataset ‘Women’

plot_ly(
  data = women_count,
  x = ~Weight_Range,
  y = ~n,
  color = ~Height_Category,
  type = "bar"
) %>%
  layout(
    title = "Stacked Bar Plot of Women Data",
    xaxis = list(title = "Weight Range"),
    yaxis = list(
      title = "Count",
      range = c(0, 4),      # Mengatur rentang y dari 0 hingga 5
      tickvals = seq(0, 5, 1), # Menampilkan hanya nilai bulat tanpa desimal
      tickformat = ".0f"      # Format angka tanpa desimal
    ),
    barmode = "stack"
  )

Grafik stacked bar plot di atas menunjukkan distribusi jumlah wanita dalam berbagai kategori tinggi badan berdasarkan rentang berat badan tertentu. Sumbu X menggambarkan rentang berat badan wanita yang dikelompokkan ke dalam interval 10 satuan mulai dari 110 hingga 170 pounds sementara sumbu Y menunjukkan jumlah individu dalam setiap rentang berat tersebut. Warna dalam batang tersebut digunakan untuk merepresentasikan kategori tinggi badan, seperti oranye untuk kategori Short (pendek), hijau untuk Medium (sedang), dan biru untuk Tall (tinggi). Setiap batang dalam grafik ini menunjukkan kombinasi jumlah individu dengan kategori tinggi yang berbeda dalam rentang berat tertentu. Pada rentang berat 110-120 pound dengan total 3 individu termasuk dalam kategori Short karena seluruh batangnya berwarna oranye. Apabila kita melihat pada rentang berat 120-130 pound, tiga orang individu dikategorikan dalam tinggi Medium. Hal ini terlihat dari bar yang berhenti pada sumbu Y di angka 3 dengan keseluruhan bar nya dipenuhi oleh warna hijau. Selanjutnya, pada rentang berat 130-140 pound, terdapat variasi kategori tinggi dengan total 2 individu untuk kategori Medium dan dan 1 individu dengan kategori Tall sehingga totalnya mencapai 3 orang dengan dua warna, yaitu hijau dan biru. Setelahnya, kita dapat melihat bahwa kebanyakan bar dihiasi dengan warna biru yang menandakan bahwa rentang berat yang lebih besar juga diikuti oleh kategori Tall (tinggi). Buktinya adalah pada rentang berat 140-150 hanya diisi oleh individu dalam kategori tinggi Tall dengan jumlah total 3 orang. Begitu pula pada rentang berat 150-160 dan 160-170, hanya terdapat individu dengan tinggi Tall dengan total masing-masing berjumlah 2 dan 1 orang. Secara keseluruhan, individu dengan tinggi Tall terlihat mendominasi rentang berat yang lebih tinggi (130 ke atas), sedangkan kategori Short hanya terlihat pada rentang berat yang lebih rendah (110-120). Artinya ada hubungan yang positif antara berat badan dan tinggi badan wanita berdasarkan dataset women ini.

Scatter Plot Pada Dataset ‘Women’

# Membuat Scatterplot dari data Women
p_scatter <- ggplot(women, aes(x = height, y = weight)) +
  geom_point(color = 'blue', size = 3) +
  labs(title = "Scatter Plot of Women's Height and Weight",
       x = "Height (in inches)",
       y = "Weight (in pounds)") +
  theme_minimal()

# Konversi plot ggplot menjadi plot interaktif menggunakan ggplotly
p_scatter_interaktif <- ggplotly(p_scatter)

# Menampilkan plot
p_scatter_interaktif

Yang terakhir adalah grafik scatter plot yang juga menampilkan hubungan antara tinggi badan dalam inches dan berat badan dalam pounds. Scatter plot ini memberikan gambaran visual yang jelas mengenai hubungan antara kedua variabel tersebut melalui titik-titik data yang tersebar di sepanjang grafik. Kita dapat melihat adanya hubungan positif yang terbangun antara tinggi badan dan berat badan wanita pada dataset women tersebut. Setiap titik yang ada pada grafik tersebut memperlihatkan bahwa seiring dengan bertambahnya tinggi badan seorang wanita, maka berat badannya cenderung juga meningkat. Ini tercermin dalam pola titik data yang membentuk garis diagonal yang naik ke atas kanan. Oleh karena itu, kita juga dapat menyimpulkan bahwa terdapat korelasi positif antara tinggi badan dan berat badan sehingga kedua variabel ini akan bergerak pada arah yang sama. Artinya peningkatan pada satu variabel akan berdampak juga pada peningkatan variabel lainnya dan begitu juga sebaliknya apabila mengalami penurunan. Salah satu contohnya adalah ketika berat badan seorang wanita adalah 120 pounds maka tinggi badannya adalah 60 inches sedangkan wanita dengan berat 164 pounds memiliki tinggi badan yang lebih besar di angka 72 inches.

Keempat visualisasi tersebut memberikan wawasan yang berbeda mengenai hubungan tinggi badan dan berat badan pada dataset Women. Stacked bar plot menunjukkan distribusi jumlah individu berdasarkan kategori tinggi badan dalam berbagai rentang berat dan membantu kita untuk memahami persebaran kelompok tetapi kurang efektif untuk menunjukkan hubungan linear antara tinggi dan berat badan. Scatter plot memberikan gambaran yang paling jelas tentang hubungan langsung antara kedua variabel melalui pola titik data yang membentuk garis diagonal naik, menandakan adanya korelasi positif yang kuat. Lalu line chart menggambarkan hubungan linear positif dengan cara yang sederhana dan terstruktur, meskipun kurang fleksibel untuk menunjukkan variasi antar individu dibandingkan scatter plot. Multivariate box plot berfungsi untuk menganalisis distribusi berat badan dalam kategori tinggi tertentu (Short, Medium, Tall) yang memberikan wawasan tentang median, variasi, dan distribusi data dalam kelompok. Secara keseluruhan menurut kelompok kami, scatter plot adalah visualisasi terbaik untuk menggambarkan hubungan tinggi badan dan berat badan wanita dalam dataset ini sebab kita dapat melihat dengan jelas pola hubungan linear keduanya, sekaligus mempermudah interpretasi data secara langsung.

Analisa Hubungan Diameter, Volume, dan Tinggi Pohon Black Cherry - Dataset 2: ‘Trees’

Dataset kedua adalah trees yang memberikan gambaran terkait dengan karakteristik pohon, khususnya dari spesies Black Cherry yang sangat terkenal akan kayu-kayunya yang sangat berkualitas. Dataset ini terdiri dari 31 baris yang mewakili masing-masing pohon dan tiga kolom variabel yang mencatat informasi mengenai lingkar batang pohon (girth) dalam inci, tinggi pohon (height) dalam kaki, dan volume kayu (volume) dalam kaki kubik. Variabel girth menunjukkan lingkar batang pohon yang diukur pada ketinggian 4,5 kaki dari tanah dan biasanya digunakan untuk menggambarkan diameter batang pohon. Ukuran lingkar batang yang lebih besar umumnya menunjukkan bahwa pohon tersebut memiliki volume kayu yang lebih besar pula. Variabel height memberikan informasi tentang tinggi pohon yang juga dapat memengaruhi volume kayu yang dapat dihasilkan. Lalu yang terakhir adalah variabel Volume kayu yang memberikan perkiraan jumlah kayu yang dapat diproduksi oleh pohon tersebut. Analisis yang dilakukan pada dataset ini sering kali berfokus pada hubungan antara girth, height, dan volume, dengan menggunakan teknik regresi linier untuk memprediksi volume kayu berdasarkan ukuran pohon. Analisis ini tidak hanya membantu dalam memahami faktor-faktor yang memengaruhi produksi kayu, tetapi juga dapat digunakan untuk merencanakan pengelolaan hutan atau industri kayu yang mengandalkan ukuran pohon untuk menentukan nilai dan kualitas kayu yang dihasilkan.

Line Chart Pada Dataset ‘Trees’

#line chart
plot_ly(trees, x = ~Girth, y = ~Volume, type = 'scatter', mode = 'lines+markers', color = "red", 
        line = list(shape = "linear"), name = "Girth vs Volume") %>%
  layout(title = "Girth vs Volume", xaxis = list(title = "Girth"), yaxis = list(title = "Volume"))
## Warning in RColorBrewer::brewer.pal(N, "Set2"): minimal value for n is 3, returning requested palette with 3 different levels

## Warning in RColorBrewer::brewer.pal(N, "Set2"): minimal value for n is 3, returning requested palette with 3 different levels

Selanjutnya, kita akan melakukan analisa terhadap hasil grafik line chart pada dataset berikutnya, yaitu trees. Melalui grafik line chart tersebut, kita dapat melihat adanya hubungan antara variabel Girth atau diameter batang pohon dalam satuan inci pada sumbu x dan Volume pohon dalam satuan kaki kubik pada sumbu y. Garis merah yang menghubungkan titik-titik data mewakili tren hubungan antara kedua variabel tersebut. Berdasarkan grafik ini, terlihat bahwa terdapat hubungan positif antara diameter batang pohon (Girth) dan volume pohon (Volume). Artinya keduanya bergerak para arah yang sama sehingga apabila diameter batang pohon Black Cherry tersebut bertambah, maka volume pohonnya juga cenderung akan meningkat. Namun, berbeda dengan line chart yang dimiliki oleh dataset Women, grafik di atas menunjukkan bahwa dataset ini memiliki pola kenaikan yang tidak sepenuhnya linear. Pada awalnya, untuk diameter batang pohon kecil sekitar 8 hingga 12 inci, volume pohon meningkat dengan tingkat pertumbuhan yang lambat dan sedikit berfluktuasi. Namun, setelah diameter batang pohon mencapai lebih dari 12 inci, volume pohon mulai meningkat lebih tajam, menunjukkan percepatan pertumbuhan volume. Puncaknya terlihat pada diameter batang yang lebih besar, di mana volume meningkat secara signifikan, khususnya pada rentang Girth di atas 18 inci. Selain itu, meskipun hubungan kedua variabel ini bersifat positif, terdapat beberapa fluktuasi kecil pada rentang diameter tertentu. Sebagai contoh, pada diameter sekitar 14 hingga 16 inci, volume sedikit turun sebelum kembali meningkat. Hal ini mungkin disebabkan oleh variasi alami dalam data atau pengaruh faktor-faktor lain seperti kondisi pertumbuhan pohon atau struktur kayu.

Multivariate Box Plot Pada Dataset ‘Trees’

## stacked box plot
fig <- plot_ly() %>%
  add_boxplot(y = ~trees$Girth, name = "Girth") %>%
  add_boxplot(y = ~trees$Height, name = "Height") %>%
  add_boxplot(y = ~trees$Volume, name = "Volume") %>%
  layout(
    title = "Multivariate Box Plot for Tree Data",
    xaxis = list(title = "Tree Attributes"),
    yaxis = list(title = "Measurements")
  )
fig

Grafik multivariate box plot di atas memberikan visualisasi terkait dengan distribusi tiga variabel utama yang ada di dalam dataset trees, yaitu Girth (diameter batang pohon), Height (tinggi pohon), dan Volume (volume pohon). Melalui box plot ini, kita dapat mengetahui hasil dari ringkasan statistik data tersebut, mulai dari median, rentang antar kuartil (IQR), dan outlier untuk setiap variabel. Yang pertama akan kita analisa adalah variabel Girth yang digambarkan dengan warna biru. Median diameter batang pohon Black Cherry tersebut berada di angka 12.9 inci, dengan rentang antar kuartil (IQR) yang relatif sempit. Hal ini menunjukkan bahwa diameter batang pohon cenderung memiliki distribusi data yang konsisten dan terpusat, tanpa adanya outlier. Sebaliknya, variabel Height dengan warna oranye menunjukkan median tinggi pohon di sekitar 76 kaki, dengan IQR yang lebih lebar dibandingkan dengan Girth. Hal ini menandakan bahwa tinggi pohon memiliki variasi data yang lebih besar. Terakhir adalah variabel Volume dengan warna hijau yang menunjukkan distribusi data yang paling bervariasi dibandingkan kedua variabel sebelumnya. Median volume pohon berada pada angka 24.2 kaki kubik, namun rentang antar kuartilnya jauh lebih lebar yang artinya variasi data dalam variabel ini sangatlah besar. Selain itu, terdapat outlier juga di atas kuartil ketiga, yang menunjukkan keberadaan pohon dengan volume yang jauh lebih besar dari mayoritas, kemungkinan besar diakibatkan oleh kombinasi diameter dan tinggi yang ekstrem pada pohon-pohon tersebut. Berdasarkan hasil ketiga variabel ini, variabel volume terlihat cukup terpengaruh oleh diameter (Girth) dan tinggi (Height). Hal ini terlihat dari variasinya yang menjadi terbesar karena pengaruh gabungan dari kedua variabel tersebut.

Stacked Bar Plot Pada Dataset ‘Trees’

#stacked bar plot
plot_ly(data = trees, x = ~Height, y = ~Volume, color = ~Volume, type = 'bar')
## Warning: textfont.color doesn't (yet) support data arrays

## Warning: textfont.color doesn't (yet) support data arrays

Berikutnya adalah gambar grafik stacked bar plot yang menunjukkan adanya hubungan antara variabel Height atau tinggi pohon dalam satuan kaki pada sumbu x dan Volume pohon dalam satuan kaki kubik pada sumbu y. Setiap batang pada grafik ini merepresentasikan distribusi volume pohon dalam rentang tinggi tertentu, dengan warna yang berbeda-beda sesuai skala volume. Skala warna ini mempermudah kita untuk melakukan identifikasi terhadap volume pohon pada tiap rentang tinggi, di mana warna yang lebih terang seperti hijau dan kuning menunjukkan volume yang lebih besar sedangkan warna gelap seperti biru dan ungu dipakai untuk menunjukkan volume yang lebih kecil. Melalui grafik tersebut, kita dapat melihat bahwa tinggi pohon memiliki hubungan positif dengan volume pohon, di mana pohon dengan tinggi yang lebih besar akan diikuti oleh volume yang lebih besar pula. Sebagai contoh, pada rentang tinggi sekitar 80 kaki, volume pohon mencapai puncaknya dengan total volume yang lebih besar dibandingkan rentang tinggi lainnya. Batang ini juga mencakup beberapa segmen warna, menunjukkan distribusi volume pada rentang tinggi tersebut. Sebaliknya, pada rentang tinggi yang lebih rendah, seperti 65-70 kaki, volume pohon lebih kecil secara keseluruhan, dengan warna dominan gelap (biru atau ungu) yang mengindikasikan volume rendah. Selain itu, ada juga bar plot yang sangat mencolok yaitu pada rentang tinggi 85 kaki, di mana grafik bagian ini didominasi oleh warna kuning terang yang mengindikasikan bahwa seluruh pohon pada rentang ini memiliki volume yang sangat besar melebihi angka 60. Secara keseluruhan, melalui grafik ini kita dapat melihat dengan jelas positif antara tinggi pohon dan volume, di mana pohon yang lebih tinggi cenderung memiliki volume yang lebih besar. Namun, distribusi volume pada setiap tinggi tidak merata, karena beberapa rentang tinggi seperti di 80 kaki menunjukkan variasi volume yang lebih luas dibandingkan rentang tinggi lainnya.

Scatter Plot Pada Dataset ‘Trees’

#scatter plot
plot_ly(trees, x = ~Girth, y = ~Volume, type = 'scatter', mode = 'markers', color = ~Girth, 
        marker = list(size = 12, opacity = 0.6), text = ~paste("Height:", Height, " Volume:", Volume)) %>%
  layout(title = "Girth vs Volume", xaxis = list(title = "Girth"), yaxis = list(title = "Volume"))

Grafik scatter plot ini menampilkan hubungan antara variabel Girth (diameter batang pohon) sebagai sumbu x dan Volume (volume pohon) sebagai sumbu y. Setiap titik dalam grafik ini mewakili satu data pohon, di mana nilai Girth dan Volume bervariasi. Melalui grafik yang tergambar di atas, kita dapat melihat bahwa ada hubungan positif antara Girth dan Volume, yang berarti semakin besar diameter batang pohon (Girth), maka Volume pohon juga cenderung semakin besar. Hubungan kedua variabel ini tentu masuk akal, karena pohon dengan batang yang lebih besar cenderung memiliki volume yang lebih besar pula. Apabila kita memperhatikan sebaran datanya, terlihat juga bahwa sebagian besar pohon memiliki Girth antara 10 hingga 18 dan Volume antara 10 hingga 60 yang mencerminkan karakteristik dataset didominasi oleh pohon dengan ukuran batang volume yang sedang hingga besar. Pohon dengan Girth di atas 18 konsisten menunjukkan Volume tinggi di angka 70 hingga 80, sementara pohon dengan Girth kecil memiliki Volume yang lebih rendah. Artinya, pohon dengan diameter yang besar secara konsisten memiliki volume yang besar. Namun, tidak ada data dengan Volume rendah yang memiliki Girth besar dan titik-titik scatter plot nya juga cukup rapi membentuk suatu pola linier, yang mengindikasikan korelasi yang cukup kuat antara Girth dan Volume. Dengan kata lain, Girth bisa menjadi prediktor yang cukup andal untuk memperkirakan Volume pohon dalam konteks dataset ini. Selain itu, kita juga bisa memperhatikan warna pada grafik yang memberikan informasi tambahan terkait variasi nilai Girth, di mana warna kuning menggambarkan nilai Girth yang besar dan ungu untuk nilai yang lebih kecil. Penggunaan warna ini memudahkan interpretasi visual terhadap pola positif antara Girth dan Volume.

Secara keseluruhan, keempat visualisasi ini memiliki kelebihannya masing-masing untuk menganalisa distribusi dan hubungan antar variabel tinggi pohon (Height), diameter batang pohon (Girth), dan volume pohon (Volume). Contohnya line chart lebih cocok untuk melihat adanya tren atau pola perubahan secara umum tetapi scatter plot memberikan gambaran yang lebih detail untuk hubungan dua variabel. Selanjutnya, untuk stacked bar plot atau box plot cocok untuk menganalisa distribusi data. Pada dataset Trees ini kami merasa bahwa scatter plot adalah yang paling cocok untuk memberikan gambaran terkait hubungan antara variabel-variabel yang ada di dalam dataset ini. Contohnya, kami menggunakan variabel Height dan Volume pada scatter plot yang membuat kita mengetahui bahwa hubungan antara kedua variabel ini adalah positif atau artinya keduanya bergerak pada arah yang sama.

Memahami Pola Konsumsi Gas Masyarakat Inggris Pada Periode 1960 - 1986 - Dataset 3: ‘UKGas’

Dataset terakhir yang kami digunakan adalah dataset UKgas yang mencatat konsumsi gas di Inggris dalam satuan juta therm. Fokus utama dari dataset ini adalah perubahan konsumsi energi dari waktu ke waktu dengan periode waktu dari tahun 1960 hingga 1986. Dataset ini terdiri atas 108 data yang menunjukkan konsumsi gas per kuartal di setiap tahunnya, sehingga totalnya adalah empat kuartal per tahun. Dataset ini memiliki dua variabel utama, yaitu konsumsi gas per kuartal dan pola musiman di Inggris. Melalui dua variabel ini, kita bisa mengetahui tren konsumsi gas di Inggris selama periode tersebut dan melihat bagaimana pola musiman memengaruhi konsumsi energi masyarakat di negara tersebut. Sebagai contoh, konsumsi gas cenderung lebih tinggi pada kuartal yang mencakup musim dingin karena cuacanya yang dingin sehingga masyarakat lebih banyak membutuhkan pemanas. Oleh karena itu, pola musiman menjadi faktor penting dalam analisis ini dan bisa kita pelajari untuk mengidentifikasi pola konsumsi yang berulang setiap tahunnya. Selain itu, dataset ini juga membuka kemungkinan untuk mengetahui faktor-faktor lain yang mempengaruhi konsumsi gas, seperti kebijakan energi, pertumbuhan ekonomi, atau bahkan perubahan harga energi. Nantinya, analisa ini dapat kita gunakan untuk membuat prediksi konsumsi gas di masa depan yang sangat berguna bagi perencanaan energi dan kebijakan pemerintah.

Line Chart Pada Dataset ‘UKGas’

data("UKgas")
ukgas_df = data.frame(Time = as.Date(time(UKgas), origin = "1960-01-01"), Consumption = as.numeric(UKgas))

line = plot_ly(ukgas_df, x = ~Time, y = ~Consumption, type = 'scatter', mode = 'lines') %>%
  layout(
    title = "Konsumsi Gas di Inggris per Kuartal dari 1960-1986",
    xaxis = list(title = "Tahun"),
    yaxis = list(title = "Konsumsi Gas (dalam jutaan therm)")
  )

line

Berdasarkan hasil line chart mengenai konsumsi gas di Inggris dari dataset UKgas di atas, kita dapat melihat adanya peningkatan konsumsi gas yang signifikan, dengan garis tren yang cenderung naik dari tahun ke tahun. Peningkatan ini mulai terlihat secara signifikan sejak tahun 1975 hingga 1986, yang mungkin disebabkan oleh berbagai faktor seperti pertumbuhan populasi, perkembangan ekonomi, atau peningkatan akses ke layanan gas. Selain itu, kita juga dapat melihat adanya pola musiman yang cukup konsisten di dalam line chart ini. Meskipun tren keseluruhan dari tahun 1960 hingga 1986 menunjukkan peningkatan bertahap dalam konsumsi gas, ada pola fluktuasi tahunan yang terjadi secara rutin. Dari chart tersebut, konsumsi gas cenderung lebih tinggi di awal tahun (Q1) dan di akhir tahun (Q4) karena pada periode ini musim dingin sedang mengalami, di mana suhu udara rendah mendorong adanya kebutuhan untuk pemanas. Sebaliknya, konsumsi gas menurun selama kuartal kedua (Q2) dan ketiga (Q3), yang mencakup musim semi dan musim panas, ketika kebutuhan untuk pemanas lebih rendah. Tidak hanya itu, grafik line chart dataset UKgas ini juga menunjukkan adanya peningkatan variabilitas dalam konsumsi gas seiring waktu. Pada awal periode tahun 1960, selisih antara puncak dan dasar konsumsi relatif kecil. Namun, setelah memasuki tahun 1970 hingga pertengahan 1980, perbedaan antara puncak dan dasar semakin besar. Hal ini menandakan adanya peningkatan permintaan musiman yang semakin tinggi sebagai dampak dari perubahan pola cuaca, peningkatan penggunaan gas untuk pemanas, atau pertumbuhan populasi yang meningkatkan kebutuhan energi. Salah satu periode yang menonjol adalah awal hingga pertengahan 1980, di mana kita dapat melihat adanya puncak konsumsi yang mencapai hampir 1.200 juta therm. Periode ini menunjukkan bagaimana permintaan gas mencapai titik tertinggi dalam sejarah grafik tersebut dan juga mencerminkan perubahan yang signifikan dalam konsumsi energi masyarakat Inggris.

Stacked Bar Plot Pada Dataset ‘UKGas’

ukgas_df2 = data.frame(Year = as.integer(floor(time(UKgas))),Quarter = as.factor(cycle(UKgas)),Consumption = as.numeric(UKgas))

stackedbar = plot_ly(ukgas_df2, x = ~Year, y = ~Consumption, type = 'bar', color = ~Quarter, colors = c("mistyrose2", "darkolivegreen3", "dodgerblue4", "goldenrod1")) %>%layout(title = "Konsumsi Gas di Inggris per Tahun dan Kuartal", xaxis = list(title = "Tahun"), yaxis = list(title = "Konsumsi Gas (dalam jutaan therm)"),barmode = 'stack')

stackedbar

Sama halnya dengan grafik line chart, grafik stacked bar plot di atas juga menggambarkan konsumsi gas di Inggris dengan gambaran yang detail terkait dengan jumlah kontribusi kuartal di tiap tahunnya. Setiap batang dalam grafik ini terdiri dari empat segmen berwarna yang merepresentasikan konsumsi di tiap kuartal. Warna pink menggambarkan kuartal pertama, warna hijau untuk kuartal kedua, warna biru untuk kuartal ketiga, dan yang terakhir adalah warna kuning yang menggambarkan kuartal keempat. Secara keseluruhan, terdapat peningkatan yang stabil dalam total konsumsi gas dari tahun 1960 hingga 1986, di mana tinggi setiap batang meningkat seiring berjalannya waktu. Hal ini menunjukkan adanya pertumbuhan permintaan energi secara bertahap, baik untuk keperluan rumah tangga ataupun industri. Untuk pola musimannya pun terlihat dengan sangat jelas dibandingkan dengan gambaran yang diberikan oleh line chart. Kita dapat melihat bahwa kontribusi yang paling tinggi dimiliki oleh kuartal pertama (Q1) yang menandakan bahwa permintaan gas pada periode Januari–Maret meningkat secara signifikan. Hal ini sesuai dengan kondisi iklim di Inggris yang mengalami musim dingin pada kuartal tersebut, sehingga konsumsi untuk keperluan pemanas menjadi tinggi. Kuartal keempat (Q4) juga menunjukkan kontribusi yang signifikan pada total konsumsi gas tahunan, mencerminkan peningkatan permintaan gas saat musim dingin kembali dimulai pada akhir tahun. Berbeda halnya dengan kontribusi yang diberikan oleh kuartal kedua (Q2) dan kuartal ketiga (Q3) yang cenderung lebih rendah, menunjukkan penurunan permintaan gas selama musim semi dan musim panas ketika suhu lebih hangat sehingga masyarakat tidak lagi memerlukan pemanas.Apabila kita memperhatikan batang yang ada pada tahun 1986, kenaikan pada permintaan gas di tahun tersebut juga diiringi dengan tingginya permintaan per-kuartal pada tahun tersebut dibandingkan dengan kuartal di tahun-tahun sebelumnya.

Multivariate Box Plot Pada Dataset ‘UKGas’

ukgas_df3 = data.frame(Time = time(UKgas), Gas = as.numeric(UKgas))
ukgas_df3$Year = floor(ukgas_df3$Time)
ukgas_df3$Quarter = factor(cycle(UKgas), labels = c("Q1", "Q2", "Q3", "Q4"))

boxp = plot_ly(data = ukgas_df3, x = ~Quarter, y = ~Gas, type = "box", color = ~Quarter)%>%layout(title = "Box Plot Konsumsi Gas di Inggris per Kuartal")
boxp

Grafik yang ketiga adalah multivariate boxplot yang membantu kita untuk menganalisis dan memvisualisasikan distribusi dataset UKgas tersrbut. Pada kuartal pertama (Q1) yang berwarna hijau, box plot menunjukkan rentang yang paling lebar dengan median konsumsi yang berada di sekitar angka 371.4 juta therm. Rentang interkuartil yang lebar mengindikasikan adanya variasi yang signifikan dalam konsumsi gas selama kuartal ini dan garis atas yang cukup tinggi menunjukkan adanya periode dengan konsumsi yang sangat tinggi. Hal ini sesuai dengan musim dingin yang terjadi pada bulan Januari hingga Maret di Inggris, di mana penggunaan gas untuk pemanas meningkat tajam. Di kuartal kedua (Q2) yang berwarna oranye, distribusi konsumsi gas menjadi lebih sempit dengan median sekitar 240.1 juta therm, yang menandakan penurunan konsumsi gas saat memasuki musim semi di bulan April- Juni. Selanjutnya, pada kuartal ketiga (Q3) dengan warna biru memiliki box plot dengan rentang terkecil dan median terendah pada angka 176.1 juta therm. Hal ini mencerminkan konsumsi gas terendah sepanjang tahun pada musim panas di bulan Juli hingga September. Pada musim ini, tentu masyarakat tidak lagi memerlukan pemanas sebab cuacanya pun sudah memberikan mereka kehangatan. Sebaliknya, apabila kita melihat box plot yang ada pada kuartal keempat (Q4) menunjukkan peningkatan median konsumsi sekitar 355.4 juta therm dengan rentang yang lebih lebar, mengindikasikan bahwa konsumsi gas kembali meningkat saat memasuki musim dingin pada akhir tahun di bulan Oktober hingga Desember. Variasi dalam konsumsi selama Q4 menunjukkan perubahan suhu yang mulai menurun dan berfluktuasi, memengaruhi permintaan gas. Secara keseluruhan, pola distribusi ini menyoroti pentingnya cuaca dalam memengaruhi permintaan energi di Inggris, di mana musim dingin menghasilkan permintaan gas yang jauh lebih tinggi dibandingkan dengan musim panas dan musim semi.

Scatter Plot Pada Dataset ‘UKGas’

ukgas_df4 = data.frame(Time = time(UKgas), Gas = as.numeric(UKgas))
scatter = plot_ly(data = ukgas_df4, x = ~Time, y = ~Gas, type = "scatter", mode = "markers") %>%layout(title = "Scatter Plot Konsumsi Gas di Inggris Seiring Waktu", xaxis = list(title = "Waktu"), yaxis = list(title = "Konsumsi Gas"))

scatter

Yang terakhir adalah grafik scatter plot yang menunjukkan distribusi dan tren konsumsi gas di Inggris dari tahun 1960 hingga 1986. Dalam menggambarkan scatter plot ini, kami menggunakan sumbu horizontal yang mewakili waktu dalam tahun dan untuk sumbu vertikalnya menunjukkan konsumsi gas masyarakat Inggris pada periode tersebut. Berdasarkan gambar scatter plot ini, terlihat bahwa konsumsi gas di Inggris cenderung meningkat secara signifikan seiring berjalannya waktu. Pada awal periode di sekitar tahun 1960, konsumsi gas relatif rendah dengan nilai berkisar di bawah 200. Namun, mulai dari tahun 1970-an, konsumsi gas mengalami peningkatan yang lebih besar dengan nilai yang tersebar secara bertahap antara 200 hingga 800. Peningkatan ini semakin terlihat di akhir periode sekitar tahun 1985-an, di mana nilai konsumsi gas mencapai lebih dari 1000. Pola yang muncul dalam scatter plot ini mengindikasikan adanya tren kenaikan konsumsi gas di Inggris selama periode yang ditinjau. Distribusi data juga menunjukkan bahwa konsumsi gas menjadi lebih beragam seiring berjalannya waktu, yang mungkin mencerminkan perubahan dalam pola penggunaan energi atau peningkatan populasi dan industri yang mempengaruhi kebutuhan gas di Inggris.

Berdasarkan keempat grafik tersebut, kita dapat menyimpulkan bahwa konsumsi gas menunjukkan tren peningkatan signifikan seiring berjalannya waktu. Meskipun setiap grafik memiliki fokus dan detail yang berbeda, tetapi semuanya memperlihatkan bahwa ada hubungan yang erat antara pola konsumsi gas dan musim. Secara keseluruhan, konsumsi gas di Inggris cenderung meningkat terutama pada kuartal pertama dan keempat yang mengalami musim dingin, sementara konsumsi lebih rendah pada musim semi dan musim panas di kuartal kedua dan ketiga. Keduanya memiliki hubungan positif, di mana konsumsi gas akan meningkat selama musim dingin dan menurun saat musim panas. Variasi konsumsi ini menunjukkan bahwa permintaan energi sangat dipengaruhi oleh suhu dan kondisi cuaca, karena masyarakat lebih banyak membutuhkan pemanas selama musim dingin. Selain itu, tren peningkatan konsumsi gas seiring waktu juga mengindikasikan adanya faktor lain seperti pertumbuhan populasi, perkembangan ekonomi, dan semakin luasnya penggunaan gas dalam berbagai sektor.Menurut kelompok kami, grafik stacked bar plot adalah grafik yang paling tepat untuk menggambarkan hubungan antara variabel konsumsi gas per kuartal dan pola musiman. Hal ini karena stacked bar plot tidak hanya menunjukkan total konsumsi gas per tahun, tetapi juga memperinci kontribusi konsumsi per kuartal di setiap tahunnya sehingga kita bisa menganalisa dengan jelas mana kuartal yang berkontribusi paling banyak di tahun tersebut.