Introduction
Tôi thực hiện thử nghiệm với bộ dữ liệu Video Game Sales được thống kê từ các năm từ 1980 đến 2020 chứa các số liệu bán hàng khác nhau trên toàn cầu, JP, EU, NA.
Phần trình bày dưới đây của tôi vẫn còn nhiều thiếu xót, vì vậy tôi sẽ tiếp tục nghiên cứu và cập nhật trong thời gian tới.
Sum of Global Sales by Year
- Biểu đồ thể hiện tổng doanh số bán hàng của Global, North America, Europe, Japan, The Rest of the World từ năm 1980 - 2020. Từ hình vẽ ta có thể kết luận rằng North America là khu vực có giữ doanh số về trò chơi điện tử lớn nhất qua các năm.Vì đây là quốc gia có nền kinh tế và công nghệ phát triển, nhu cầu về những trò chơi giải trí cũng trở nên phổ biến và đạt đến đỉnh cao vào năm 2008.
#-----------------------------
#Sum of Global Sales by Year
#----------------------------
sum_of_sales <- games %>%
group_by(Year) %>%
summarise(sum_global_sales = sum(Global_Sales), sum_others_sales = sum(Other_Sales),
sum_jb_sales = sum(JP_Sales), sum_eu_sales = sum(EU_Sales),
sum_na_sales = sum(NA_Sales), .groups = 'drop')
sum_of_sales %>%
ggplot(aes(x = Year)) +
geom_line(aes(y = sum_global_sales,group=1,color="Global Sales")) +
geom_line(aes(y= sum_na_sales,group=1,color="North America Sales")) +
geom_line(aes(y= sum_eu_sales,group=1,color="Europe Sales")) +
geom_line(aes(y= sum_jb_sales,group=1,color="Japan Sales")) +
geom_line(aes(y= sum_others_sales,group=1,color="The Rest of the World")) +
theme(plot.title = element_text(family = my_font, size = 40, color = "grey10", face = "bold")) +
theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
theme(legend.title = element_text(size = 30, face = "bold", family = my_font)) +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1),legend.position="top") +
scale_color_manual(name="Sales",values = colors)+
theme(plot.caption = element_text(family = my_font, size = 12, color = "grey40", face = "italic")) +
labs(x = NULL, y = NULL,
title = "Sum of Global Sales by Year",
caption = "Data Source: Kaggle") +
theme_classic() +
theme(panel.grid = element_blank())

Top 10 Games by Sales
- Bên cạnh đó, bộ dữ liệu chứa các trò chơi khác nhau từ nhiều năm trên nền tảng khác nhau, rất khó để hiển thị top 10 trò chơi/ nhà phát hành/ nền tảng nổi tiếng nhất mà người dùng thích chơi. Do đó, tôi sẽ vẽ biểu đồ khác nhau về 10 trò chơi hàng đầu mà người dùng thích chơi bằng cách sử dụng nền tảng khác nhau. Tiếp tục với biểu đồ về top 10 trò chơi hàng đầu trong khoảng từ năm 1980 - 2020, Wii Sport đứng đầu doanh số bán hàng, theo sau đó là Grand Theft Auto V có khoảng cách với Wii Sport là 26,82 triệu.
#-------------------------
# Top 10 Games by Sales
#-------------------------
year_count <- games %>%
group_by(Year) %>%
summarise(count_year = n())
# tail(year_count)
games <- games[games$Year!='2017'& games$Year!='2020',]
gsales10 <-games %>%
group_by(Name) %>%
summarise(sum_global_sales = sum(Global_Sales),.groups = 'drop') %>%
arrange(desc(sum_global_sales))
games_totalsales <- head(gsales10, 10)
#plot
games_totalsales %>%
ggplot(aes(x= Name, y=sum_global_sales)) +
geom_bar(stat = "identity", aes(x= Name, y=sum_global_sales, fill = Name)) +
theme(plot.title = element_text(size = 30, face = 'bold', family = my_font)) +
labs(x = NULL, y = NULL,
title = "Top 10 Games by Sales",
caption = "Data Source: Kaggle") +
theme_classic() +
theme(panel.grid = element_blank()) +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1, size = 10, face = 'italic'),
legend.position="none")

Top 5 Publisher Distribution
- Trong bộ dữ liệu có rất nhiều nhà xuất bản các trò chơi điện tử khác nhau. Tôi lấy ra Top 5 nhà xuất bản dựa theo doanh số bán ra của sản phẩm. Từ biểu đồ này có thể suy ra rằng Nintendo tạo ra doanh số bán hàng cao nhất so với các nhà xuất bản khác (lớn nhất trong giai đoạn 2003 - 2008). Điều này cũng có nghĩa là hầu hết các trò chơi của Nintendo đều phổ biến với người dùng hoặc là những trò chơi có giá cả đắt đỏ hơn so với các sản phẩm còn lại.
#-------------------------------------------------------------------
# Top 5 Publisher Distribution by Yearly Number of Game and Sales
#-------------------------------------------------------------------
publisher_count <- games %>%
group_by(Publisher) %>%
summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
arrange(desc(count_game)) %>%
select(Publisher)%>% head(5)
publisher_count20 <- as.vector(publisher_count$Publisher)
publisher_bubble <- games %>%
filter(Publisher %in% publisher_count20) %>%
group_by(Year,Publisher) %>%
summarise(GlobalSales = sum(Global_Sales),count_game = length(unique(Name)),.groups = 'drop') %>%
arrange(desc(Year))
#plot
publisher_bubble %>%
ggplot(aes(x=Year, y=GlobalSales, size=count_game, fill=Publisher)) +
geom_point(alpha=0.5, shape=21, color="black") +
scale_size(range = c(.1, 24), name="Number of Games") +
theme(plot.background =element_blank()) +
labs(x = NULL, y = NULL,
title = "Top 5 Publisher Distribution by Yearly Number of Game and Sales",
caption = "Data Source: Kaggle") +
theme(legend.position="right",axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
theme(plot.title = element_text(size = 50, face = 'bold', family = my_font)) +
theme_classic() +
theme(panel.grid = element_blank())

