Kelompok 8: 3337250067-MARTIN NURHIDAYAT 3337250087-MOCHAMAD FAREL ALFAREZI 3337250122-AHMAD KAUTSAR 3337250165-NABIL MURSYID YUKINATA 3337250128-MUHAMMAD RAIHAN FIRDAUS

Sumber data: https://berd-platform.de/records/bgvgb-tar18 // https://www.kaggle.com/datasets/gregorut/videogamesales

Install library

Beberapa library yang perlu diinstall sebagai berikut:

library(ggplot2)
library(readxl)
library(ggthemes)
library(gridExtra)

Input Data

Data diinput dari Mircosoft Excel dengan syntax sebagai berikut:

setwd("C:/Users/RBNRC/Documents/Kuliah/Semester 2/Probabilitas dan Statistika/Pertemuan 2")
data <- read_excel("game_sales.xlsx")
head(data)
## # A tibble: 6 × 11
##    Rank Name           Platform  Year Genre Publisher NA_Sales EU_Sales JP_Sales
##   <dbl> <chr>          <chr>    <dbl> <chr> <chr>        <dbl>    <dbl>    <dbl>
## 1     1 Wii Sports     Wii       2006 Spor… Nintendo      4149     2902      377
## 2     2 Super Mario B… NES       1985 Plat… Nintendo      2908      358      681
## 3     3 Mario Kart Wii Wii       2008 Raci… Nintendo      1585     1288      379
## 4     4 Wii Sports Re… Wii       2009 Spor… Nintendo      1575     1101      328
## 5     5 Pokemon Red/P… GB        1996 Role… Nintendo      1127      889     1022
## 6     6 Tetris         GB        1989 Puzz… Nintendo       232      226      422
## # ℹ 2 more variables: Other_Sales <dbl>, Global_Sales <dbl>

1.Pie Chart

Dari data tersebut akan disajikan visualisasi data dalam bentuk Pie Chart. Berikut terlampir hasil visualisasi data Persentase Penjualan Game berdasarkan publisher:

pie_chart <- ggplot(data, aes(x = "", fill = Publisher)) +
  geom_bar(width = 1, color = "black") +
  coord_polar("y", start = 0) +
  theme_minimal() +
  labs(title = "Publisher") +
  theme(axis.text.x = element_blank())

pie_chart

Diagram pie menunjukkan distribusi jumlah game berdasarkan publisher. Secara statistik deskriptif, terlihat bahwa Nintendo memiliki proporsi paling besar dibandingkan publisher lainnya, yang berarti jumlah game yang dipublikasikan Nintendo dalam dataset ini paling banyak. Publisher lain seperti Activision, Electronic Arts, Sony Computer Entertainment, Ubisoft, dan Take-Two Interactive memiliki proporsi lebih kecil, sedangkan Atari, Bethesda Softworks, dan SquareSoft memiliki jumlah yang relatif sedikit. Hal ini menunjukkan bahwa distribusi game antar publisher dalam dataset tidak merata dan didominasi oleh beberapa publisher besar.

Secara statistik inferensia, jika dataset ini dianggap sebagai sampel dari industri game secara umum, maka dapat diduga bahwa terdapat publisher yang lebih dominan dalam mempublikasikan game dibandingkan yang lain.

2.Bar Chart

Dari data tersebut akan disajikan visualisasi data dalam bentuk Bar Chart. Berikut terlampir hasil visualisasi data Jumlah Responden berdasarkan Genre Game:

bar_chart <- ggplot(data, aes(x = `Genre`, fill = `Genre`)) +
  geom_bar() +
  theme_minimal() +
  labs(title = "Genre Game", x = "Genre", y = "Jumlah Game") +
  theme(
    axis.text.x = element_text(
      angle = 45,
      hjust = 1,
      margin = margin(t = 10)
    )
  )

bar_chart

Berdasarkan grafik tersebut, secara statistik deskriptif terlihat bahwa genre game yang paling banyak adalah Shooter dengan sekitar 22 game, diikuti oleh Platform (16 game) dan Role-Playing (15 game). Sementara itu, genre dengan jumlah paling sedikit adalah Adventure (1 game), Fighting (2 game), dan Puzzle (3 game). Hal ini menunjukkan bahwa distribusi game tidak merata dan cenderung didominasi oleh beberapa genre tertentu.

Secara statistik inferensia, perbedaan jumlah pada setiap genre mengindikasikan adanya kecenderungan bahwa preferensi atau produksi game lebih terfokus pada genre tertentu seperti Shooter dan Platform. Dengan demikian dapat diasumsikan bahwa genre-genre tersebut memiliki tingkat popularitas atau permintaan yang lebih tinggi dibandingkan genre lain yang jumlahnya lebih sedikit

3. Histogram

histogram <- ggplot(data, aes(x = EU_Sales)) +
  geom_histogram(binwidth = 30, fill = "steelblue", color = "black", alpha = 0.7) +
  theme_minimal() +
  labs(title = "Histogram: Penjualan Game di Eropa",
       x = "EU Sales (Million)",
       y = "Frekuensi")

histogram

Berdasarkan histogram penjualan game di Eropa, secara statistik deskriptif terlihat bahwa sebagian besar penjualan game berada pada rentang rendah hingga menengah, yaitu sekitar 0–500 juta unit, dengan frekuensi yang paling tinggi pada rentang tersebut. Hanya sedikit game yang memiliki penjualan sangat tinggi hingga di atas 1000 juta unit, sehingga distribusi data terlihat tidak merata dan cenderung miring ke kanan (right-skewed).

Secara statistik inferensia, pola distribusi ini menunjukkan bahwa sebagian besar game memiliki tingkat penjualan yang relatif rendah hingga sedang, sedangkan hanya beberapa game yang menjadi sangat populer dengan penjualan yang jauh lebih tinggi. Hal ini mengindikasikan adanya kemungkinan perbedaan popularitas atau keberhasilan pasar antar game di wilayah Eropa.

4. Boxplot

boxplot_data <- ggplot(data) +
  geom_boxplot(aes(y = `JP_Sales`, fill = "Penjualan di region Jepang"), alpha = 0.6) +
  theme_minimal() +
  labs(title = "Boxplot: Penjualan Di Region Jepang", fill = "Kondisi")

boxplot_data

Berdasarkan boxplot penjualan game di region Jepang, secara statistik deskriptif terlihat bahwa median penjualan berada pada nilai yang relatif rendah, dengan sebagian besar data berada pada rentang nilai bawah hingga menengah. Kotak (interquartile range) menunjukkan variasi penjualan yang cukup besar antar game. Selain itu, terdapat outlier dengan nilai penjualan yang sangat tinggi dibandingkan data lainnya, yang menandakan adanya beberapa game dengan penjualan jauh lebih besar dari mayoritas game.

Secara statistik inferensia, keberadaan outlier dan penyebaran data yang cukup lebar menunjukkan bahwa distribusi penjualan game di Jepang tidak merata. Hal ini mengindikasikan bahwa hanya beberapa game yang sangat populer dan mendominasi penjualan, sementara sebagian besar game memiliki tingkat penjualan yang relatif lebih rendah.

5. Density Plot

density_plot <- ggplot(data, aes(x = `Global_Sales`,fill = "Frekuensi")) +
  geom_density(alpha = 5) +
  theme_minimal() +
  labs(title = "Density Plot: Penjualan Global", x = "Frekuensi", y = "Density")
density_plot

Berdasarkan density plot penjualan game secara global, secara statistik deskriptif terlihat bahwa sebagian besar data penjualan terkonsentrasi pada nilai yang relatif rendah hingga menengah, dengan puncak kepadatan berada pada kisaran sekitar 800–1500. Distribusi data juga menunjukkan ekor yang panjang ke arah kanan, yang menandakan adanya beberapa game dengan penjualan yang jauh lebih tinggi dibandingkan mayoritas game lainnya.

Secara statistik inferensia, pola distribusi yang miring ke kanan (positively skewed) menunjukkan bahwa pasar game global didominasi oleh banyak game dengan penjualan moderat hingga rendah, sementara hanya sedikit game yang mencapai tingkat penjualan sangat tinggi. Hal ini mengindikasikan adanya ketimpangan dalam keberhasilan penjualan game di pasar global.

Ukuran Pemusatan

1. Menghitung Rata-Rata (mean)

Berikut terlampir syntax untuk menghitung rata-rata (mean) penjualan global dari responden

mean(data$`Global_Sales`)
## [1] 1300.88

2. Menghitung Median

Berikut terlampir syntax untuk menghitung median penjualan global dari responden

median(data$`Global_Sales`)
## [1] 1056

3. Menghitung Modus

Berikut terlampir syntax untuk menghitung modus penjualan global dari responden

modus <- function(x) {
  uniqx <- unique(x)
  uniqx[which.max(tabulate(match(x, uniqx)))]
}

modus(data$`Global_Sales`)
## [1] 849

Menampilkan ringkasan data (Statistik 5 Serangkai)

summary(data$`Global_Sales`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    22.0   810.5  1056.0  1300.9  1467.0  8274.0

Ukuran Penyebaran data

1. Menghitung Range

max(data$`Global_Sales`) - min(data$`Global_Sales`)
## [1] 8252

2. Menghitung Keragaman Data (Variasi)

var(data$`Global_Sales`)
## [1] 1095421

3. Menghitung standar deviasi dari data

sd(data$`Global_Sales`)
## [1] 1046.623