Introduction
Tôi thực hiện thử nghiệm với bộ dữ liệu Video Game Sales được thống kê từ các năm từ 1980 đến 2020 chứa các số liệu bán hàng khác nhau trên toàn cầu, JP, EU, NA.
Phần trình bày dưới đây của tôi vẫn còn nhiều thiếu xót, vì vậy tôi sẽ tiếp tục nghiên cứu và cập nhật trong thời gian tới.
Sum of Global Sales by Year
- Biểu đồ thể hiện tổng doanh số bán hàng của Global, North America, Europe, Japan, The Rest of the World từ năm 1980 - 2020. Từ hình vẽ ta có thể kết luận rằng North America là khu vực có giữ doanh số về trò chơi điện tử lớn nhất qua các năm.Vì đây là quốc gia có nền kinh tế và công nghệ phát triển, nhu cầu về những trò chơi giải trí cũng trở nên phổ biến và đạt đến đỉnh cao vào năm 2008.
#-----------------------------
#Sum of Global Sales by Year
#----------------------------
sum_of_sales <- games %>%
group_by(Year) %>%
summarise(sum_global_sales = sum(Global_Sales), sum_others_sales = sum(Other_Sales),
sum_jb_sales = sum(JP_Sales), sum_eu_sales = sum(EU_Sales),
sum_na_sales = sum(NA_Sales), .groups = 'drop')
sum_of_sales %>%
ggplot(aes(x = Year)) +
geom_line(aes(y = sum_global_sales,group=1,color="Global Sales")) +
geom_line(aes(y= sum_na_sales,group=1,color="North America Sales")) +
geom_line(aes(y= sum_eu_sales,group=1,color="Europe Sales")) +
geom_line(aes(y= sum_jb_sales,group=1,color="Japan Sales")) +
geom_line(aes(y= sum_others_sales,group=1,color="The Rest of the World")) +
theme(plot.title = element_text(family = my_font, size = 40, color = "grey10", face = "bold")) +
theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
theme(legend.title = element_text(size = 30, face = "bold", family = my_font)) +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1),legend.position="top") +
scale_color_manual(name="Sales",values = colors)+
theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
labs(x = NULL, y = NULL,
title = "Sum of Global Sales by Year",
caption = "Data Source: Kaggle") +
theme_classic() +
theme(panel.grid = element_blank())

Top 10 Games by Sales
- Bên cạnh đó, bộ dữ liệu chứa các trò chơi khác nhau từ nhiều năm trên nền tảng khác nhau, rất khó để hiển thị top 10 trò chơi/ nhà phát hành/ nền tảng nổi tiếng nhất mà người dùng thích chơi. Do đó, tôi sẽ vẽ biểu đồ khác nhau về 10 trò chơi hàng đầu mà người dùng thích chơi bằng cách sử dụng nền tảng khác nhau. Tiếp tục với biểu đồ về top 10 trò chơi hàng đầu trong khoảng từ năm 1980 - 2020, Wii Sport đứng đầu doanh số bán hàng, theo sau đó là Grand Theft Auto V có khoảng cách với Wii Sport là 26,82 triệu.
#-------------------------
# Top 10 Games by Sales
#-------------------------
year_count <- games %>%
group_by(Year) %>%
summarise(count_year = n())
# tail(year_count)
games <- games[games$Year!='2017'& games$Year!='2020',]
gsales10 <-games %>%
group_by(Name) %>%
summarise(sum_global_sales = sum(Global_Sales),.groups = 'drop') %>%
arrange(desc(sum_global_sales))
games_totalsales <- head(gsales10, 10)
#plot
games_totalsales %>%
ggplot(aes(x= Name, y=sum_global_sales)) +
geom_bar(stat = "identity", aes(x= Name, y=sum_global_sales, fill = Name)) +
theme(plot.title = element_text(size = 30, face = 'bold', family = my_font)) +
labs(x = NULL, y = NULL,
title = "Top 10 Games by Sales",
caption = "Data Source: Kaggle") +
theme_classic() +
theme(panel.grid = element_blank()) +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1, size = 10, face = 'italic'),
legend.position="none")

Top 5 Publisher Distribution
- Trong bộ dữ liệu có rất nhiều nhà xuất bản các trò chơi điện tử khác nhau. Tôi lấy ra Top 5 nhà xuất bản dựa theo doanh số bán ra của sản phẩm. Từ biểu đồ này có thể suy ra rằng Nintendo tạo ra doanh số bán hàng cao nhất so với các nhà xuất bản khác (lớn nhất trong giai đoạn 2003 - 2008). Điều này cũng có nghĩa là hầu hết các trò chơi của Nintendo đều phổ biến với người dùng hoặc là những trò chơi có giá cả đắt đỏ hơn so với các sản phẩm còn lại.
#-------------------------------------------------------------------
# Top 5 Publisher Distribution by Yearly Number of Game and Sales
#-------------------------------------------------------------------
publisher_count <- games %>%
group_by(Publisher) %>%
summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
arrange(desc(count_game)) %>%
select(Publisher)%>% head(5)
publisher_count20 <- as.vector(publisher_count$Publisher)
publisher_bubble <- games %>%
filter(Publisher %in% publisher_count20) %>%
group_by(Year,Publisher) %>%
summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
arrange(desc(Year))
#plot
publisher_bubble %>%
ggplot(aes(x=Year, y=GlobalSales, size=count_game, fill=Publisher)) +
geom_point(alpha=0.5, shape=21, color="black") +
scale_size(range = c(.1, 24), name="Number of Games") +
theme(plot.background =element_blank()) +
labs(x = NULL, y = NULL,
title = "Top 5 Publisher Distribution by Yearly Number of Game and Sales",
caption = "Data Source: Kaggle") +
theme(legend.position="right",axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
theme(plot.title = element_text(size = 50, face = 'bold', family = my_font)) +
theme_classic() +
theme(panel.grid = element_blank())

---
title: 'Practice 6: Video Game Sales'
author: "Nguyen Thi Ngoc Huyen"
date: "4/7/2021"
output: 
  html_document:
    code_download: true
    code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: flatly
    toc: TRUE
    toc_float: TRUE
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)

```

# Introduction

  Tôi thực hiện thử nghiệm với bộ dữ liệu Video Game Sales được thống kê từ các năm từ 1980 đến 2020 chứa các số liệu bán hàng khác nhau trên toàn cầu, JP, EU, NA.
 
  Phần trình bày dưới đây của tôi vẫn còn nhiều thiếu xót, vì vậy tôi sẽ tiếp tục nghiên cứu và cập nhật trong thời gian tới.

# Number of Games in each Platforms

1. Biểu đồ về số lượng trò chơi của mỗi nền tảng.

  Thách thức của tệp dữ liệu này không có tổng doanh số cho từng nhà sản xuất hoặc thể loại hoặc nền tảng. Do đó cần tính tổng doanh số theo cách thủ công, tôi sẽ tổng hợp 4 doanh số bán hàng khác nhau tương ứng và phân loại theo nhà sản xuất, thể loại hoặc nền tảng.
  Từ biểu đồ chúng ta có thể suy ra cả DS và PS2 đều rất gần nhau. DS có tổng cộng 2163 trò chơi và PS2 có tổng cộng 2161 trò chơi. Mặt khác, PCFX có số lượng trò chơi thấp nhất (1 trò chơi).

```{r, eval=FALSE}

# Load package and data: 
library(tidyverse)

# games <- read.csv("vgsales1.csv", header = T)

games <- read_csv("D:\\R\\Data\\vgsales1.csv")

options(repr.plot.width = 16, repr.plot.height = 8)

games <- games[games$Year!='N/A',]
games$Year <- factor(games$Year)

games <- games[,2:11]

#font & color
colors <- c("Global Sales"="red", "North America Sales"="blue", "Europe Sales"="green", "Japan Sales"="orange",
            "The Rest of the World"="violet")
my_font <- "Roboto"

#--------------------------------------------
# Number of Games in each Platforms
#--------------------------------------------
PF <- games %>% 
  group_by(Platform) %>% count()

PF %>% ggplot(aes(x = Platform, y = n)) +
  geom_bar(stat = 'identity', fill = "#2c7bb6") +
  theme(plot.title = element_text(size = 40, face = 'bold', family = my_font)) +
  labs(x = NULL, y = NULL, 
       title = "Number of Games in each Platforms",
       caption = "Data Source: Kaggle") +
  theme_classic() +
  theme(panel.grid = element_blank())

```

![](D:\R\practice\picture\numberofgames.png)

# Sum of Global Sales by Year
2. Biểu đồ thể hiện tổng doanh số bán hàng của Global, North America, Europe, Japan, The Rest of the World từ năm 1980 - 2020.
Từ hình vẽ ta có thể kết luận rằng North America là khu vực có giữ doanh số về trò chơi điện tử lớn nhất qua các năm.Vì đây là quốc gia có nền kinh tế và công nghệ phát triển, nhu cầu về những trò chơi giải trí cũng trở nên phổ biến và đạt đến đỉnh cao vào năm 2008.
```{r, eval=FALSE}
#-----------------------------
#Sum of Global Sales by Year
#----------------------------

sum_of_sales <- games %>% 
  group_by(Year) %>% 
  summarise(sum_global_sales = sum(Global_Sales), sum_others_sales = sum(Other_Sales),
            sum_jb_sales = sum(JP_Sales), sum_eu_sales = sum(EU_Sales),
            sum_na_sales = sum(NA_Sales), .groups = 'drop')


sum_of_sales %>% 
  ggplot(aes(x = Year)) +
  geom_line(aes(y = sum_global_sales,group=1,color="Global Sales")) +
  geom_line(aes(y= sum_na_sales,group=1,color="North America Sales")) +
  geom_line(aes(y= sum_eu_sales,group=1,color="Europe Sales")) +
  geom_line(aes(y= sum_jb_sales,group=1,color="Japan Sales")) +
  geom_line(aes(y= sum_others_sales,group=1,color="The Rest of the World")) +
  theme(plot.title = element_text(family = my_font, size = 40, color = "grey10", face = "bold")) +
  theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
  theme(legend.title = element_text(size = 30, face = "bold", family = my_font)) + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1),legend.position="top") +
  scale_color_manual(name="Sales",values = colors)+
  theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
  labs(x = NULL, y = NULL,
       title = "Sum of Global Sales by Year",
       caption = "Data Source: Kaggle") +
  theme_classic() +
  theme(panel.grid = element_blank())
```

![](D:\R\practice\picture\Rplot2.png)

# Top 10 Games by Sales

3. Bên cạnh đó, bộ dữ liệu chứa các trò chơi khác nhau từ nhiều năm trên nền tảng khác nhau, rất khó để hiển thị top 10 trò chơi/ nhà phát hành/ nền tảng nổi tiếng nhất mà người dùng thích chơi. Do đó, tôi sẽ vẽ biểu đồ khác nhau về 10 trò chơi hàng đầu mà người dùng thích chơi bằng cách sử dụng nền tảng khác nhau.
  Tiếp tục với biểu đồ về top 10 trò chơi hàng đầu trong khoảng từ năm 1980 - 2020, Wii Sport đứng đầu doanh số bán hàng, theo sau đó là Grand Theft Auto V có khoảng cách với Wii Sport là 26,82 triệu.
```{r, eval=FALSE}
#-------------------------
# Top 10 Games by Sales
#-------------------------

year_count <- games %>% 
  group_by(Year) %>% 
  summarise(count_year = n())

# tail(year_count)

games <- games[games$Year!='2017'& games$Year!='2020',]

gsales10 <-games %>%
    group_by(Name) %>%
    summarise(sum_global_sales = sum(Global_Sales),.groups = 'drop') %>%
    arrange(desc(sum_global_sales))
games_totalsales <- head(gsales10, 10)

#plot

games_totalsales %>% 
  ggplot(aes(x= Name, y=sum_global_sales)) +
  geom_bar(stat = "identity",  aes(x= Name, y=sum_global_sales, fill = Name)) +
  theme(plot.title = element_text(size = 30, face = 'bold', family = my_font)) +
  labs(x = NULL, y = NULL,
       title = "Top 10 Games by Sales",
       caption = "Data Source: Kaggle") +
  theme_classic() +
  theme(panel.grid = element_blank()) +
    theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1, size = 10, face = 'italic'),
       legend.position="none")
```

![](D:\R\practice\picture\top10.png)

# Top 5 Publisher Distribution

4. Trong bộ dữ liệu có rất nhiều nhà xuất bản các trò chơi điện tử khác nhau. Tôi lấy ra Top 5 nhà xuất bản dựa theo doanh số bán ra của sản phẩm. Từ biểu đồ này có thể suy ra rằng Nintendo tạo ra doanh số bán hàng cao nhất so với các nhà xuất bản khác (lớn nhất trong giai đoạn 2003 - 2008). Điều này cũng có nghĩa là hầu hết các trò chơi của Nintendo đều phổ biến với người dùng hoặc là những trò chơi có giá cả đắt đỏ hơn so với các sản phẩm còn lại.
```{r, eval=FALSE}
#-------------------------------------------------------------------
# Top 5 Publisher Distribution by Yearly Number of Game and Sales
#-------------------------------------------------------------------

publisher_count <- games %>%
    group_by(Publisher) %>%
    summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
    arrange(desc(count_game)) %>%
    select(Publisher)%>% head(5)

publisher_count20 <- as.vector(publisher_count$Publisher)

publisher_bubble <- games %>%
    filter(Publisher %in% publisher_count20) %>%
    group_by(Year,Publisher) %>%
    summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
    arrange(desc(Year))

#plot
publisher_bubble %>% 
  ggplot(aes(x=Year, y=GlobalSales, size=count_game, fill=Publisher)) +
  geom_point(alpha=0.5, shape=21, color="black") +
  scale_size(range = c(.1, 24), name="Number of Games") +
  theme(plot.background =element_blank()) +
  labs(x = NULL, y = NULL,
       title = "Top 5 Publisher Distribution by Yearly Number of Game and Sales",
       caption = "Data Source: Kaggle") +
  theme(legend.position="right",axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
  theme(plot.title = element_text(size = 50, face = 'bold', family = my_font)) +
  theme_classic() +
  theme(panel.grid = element_blank())

```


![](D:\R\practice\picture\top5.png)
