随着生活水平和消费能力的不断提升,人们的非物质需求也明显增大,尤其加上近年来科技浪潮的推动,娱乐支出在许多人日常消费中的比重也逐渐增加。2016年全球娱乐行业收益总额为3143亿美元,其中游戏收益1011亿美元,在娱乐收益上远超电影(399亿美元)和音乐(369亿美元)收益。并且其中美洲总收益为299亿美元,位居榜首,是全球最大的游戏市场,中国及其他亚太地区国家紧随其后。可见全球游戏市场规模正在不断扩大,活跃玩家的数量也在不断提升。
现今,游戏主要分为两类,单机游戏和网络游戏。单机游戏一般指的是不进行互联网对战、只需要一台游戏机就能够完成的电子游戏。但随着网络的普及,为适应防盗版、后续内容下载服务、多人联机对战等目的,越来越多的单机游戏也开始支持互联网,也逐渐加强了网络元素和多人模式。相对而言,网络游戏在近几年发展迅速,但游戏质量差异较大,也因为可接触面的扩张而使得游戏用户更加参差不齐。相比起网络游戏,单机游戏的用户粘性更强,发展模式更加成熟,也有更加完善的发行平台(如Steam)。和电影类似,单机游戏拥有较多专业游戏评论人和评论平台,普通玩家也会对游戏进行评分,因此本文仅选取游戏大类中的单机游戏进行相关分析。
本文旨在根据现实数据,分析市场上部分游戏评分的影响因素,从而希望对游戏发行商和开发团队以一定启发。
此次数据来自kaggle竞赛平台(https://www.kaggle.com/xtyscut/video-games-sales-as-at-22-dec-2016csv),原数据集包含16719条样本和16个变量,部分变量含有缺失值,记录为“N/A”,第一列为游戏名变量(Name),不纳入分析内容。其中,考虑到游戏的全球销量变量(Global_Sales)已包含北美销量(NA_Sales)、欧洲销量(EU_Sales)、日本销量(JP_Sales)和其他国家销量(Other_Sales)四个变量的值,因此实际分析中人为剔除了这四个变量,在销量上只保留了全球销量一个变量。其次,原数据集中分别包含了专业游戏评论者和游戏用户对每一款游戏的评分与评论数,但鉴于评论总数中同时含有了不同态度的评价,难以进行游戏好坏的区分,因此选取评论者和用户的游戏评分作为被解释变量,剩余7个变量作为解释变量。
评论者评分(Critic_Score): 数值变量,由专业游戏评论者或媒体对该游戏进行的评分,取值范围为0-100。
用户评分(User_Score): 数值变量,由游戏用户对该游戏进行的评分,取值范围为0-10。
所属平台(Platform): 分类变量,指运行游戏的载体,包括PC(个人电脑)、PlayStation系列(PS、PSP、PS2、PS3、PS4、PSV)、Nintendo Dual Screen系列(DS、3DS)、XBOX系列(X360、XB、XOne)、Wii、WiiU、DC、GC、GBA。
发布时间(Year_of_Release): 数值变量(整数),指游戏发布的时间,从1980年至2016年。
类型(Genre): 分类变量,指游戏所属类型/流派,包括动作(Action)、冒险(Adventure)、格斗(Fighting)、平台(Platform)、解谜(Puzzle)、竞速(Racing)、角色扮演(Role_Playing)、射击(Shooter)、模拟(Simulation)、运动(Sports)、策略(Strategy)和混合(Misc)。
发行公司(Publisher): 分类变量,指发行游戏的公司,包括美国艺电公司(Electronic Arts)、日本科乐美公司(Konami Digital)、日本万代南梦宫控股公司(Namco Bandai Games)、日本任天堂公司(Nintendo)、索尼电脑娱乐公司(Sony Computer Entertainment)、育碧娱乐软件公司(Ubisoft)和美国THQ公司(THQ)等。
开发团队(Developer): 分类变量,指负责进行游戏开发的团队或组织,包括Electronic Arts、Ubisoft、Konami、Nintendo、Namco、Visual Concepts、Omega Force、Capcorn和Codemasters等。
分级(Rating): 分类变量,指游戏针对玩家年龄进行的等级划分,所有玩家Everyone(E)、10岁以上的玩家Everyone10+(E10+)、13岁以上的用户Teen(T)、17岁以上用户Mature(M)。
全球销量(Global_Sales): 数值变量,指该游戏截止2016年12月22日为止的全球销量,单位为百万件。
原数据集的评论人评分、用户评分、分级这三个变量的缺失值较多,考虑到进行缺失值插补的结果可能与真实结果相差较大,因此选择直接删除含有缺失值的记录,同时删除个别极端值样本(如1995年之前发行的游戏)。此外,全球销量变量的原单位为“百万件”,使得数值大小相对较小,因此此处将每个数值乘以100,将变量单位化为“万件”,以便于观察和分析。而发行年份本身不应作为数值大小代入回归模型,因此先将其转化为因子变量。
game <- read_csv("/Users/lisiqi/Desktop/R论文/game.csv",na="N/A")
Parsed with column specification:
cols(
Name = col_character(),
Platform = col_character(),
Year_of_Release = col_double(),
Genre = col_character(),
Publisher = col_character(),
Global_Sales = col_double(),
Critic_Score = col_double(),
User_Score = col_double(),
Developer = col_character(),
Rating = col_character()
)
games2 <- game %>%
filter(complete.cases(.)) %>%
select(Critic_Score,User_Score,everything()) %>%
select(-Name) %>%
mutate(User_Score=as.double(User_Score),
Year_of_Release=as.integer(Year_of_Release),
Global_Sales=Global_Sales*100)
原数据集中游戏发行公司和开发团队这两个变量类别较多,而本文旨在分析影响游戏评分的因素,参考当前游戏市场行情,市场上大部分游戏都被少数大型游戏公司所覆盖,因此此次分析仅选择发行量前10位的发行公司和游戏开发数目超过60件的开发团队,以期望分析结果对这些主流公司和团队有所启发,同时给一些小型或新兴团队以借鉴。
top_pubs <- games2 %>%
group_by(Publisher) %>%
summarise(n=n()) %>%
arrange(desc(n)) %>%
filter(n>=239) %>%
.$Publisher
top_deves <- games2 %>%
group_by(Developer) %>%
summarise(n=n()) %>%
arrange(desc(n)) %>%
filter(n>=60) %>%
.$Developer
games2 <- games2 %>%
filter(Year_of_Release>1995) %>%
filter(Publisher %in% top_pubs & Developer %in% top_deves)
games2 <- games2 %>%
mutate(Year_of_Release=as.factor(Year_of_Release))
经过以上处理,最终得到含有1252条样本、9个变量(2个被解释变量、7个解释变量)数据集。
head(games2)
# A tibble: 6 x 9
Critic_Score User_Score Platform Year_of_Release Genre Publisher
<dbl> <dbl> <chr> <fct> <chr> <chr>
1 90 6.3 PC 2016 Spor… Take-Two…
2 90 6.2 XOne 2016 Spor… Take-Two…
3 88 8.4 PS4 2016 Shoo… Electron…
4 88 7.6 PC 2016 Shoo… Electron…
5 88 6.7 PS4 2016 Spor… Take-Two…
6 87 8.2 XOne 2016 Shoo… Electron…
# ... with 3 more variables: Global_Sales <dbl>, Developer <chr>,
# Rating <chr>
从评论人评分的直方图可以看出,评论人评分呈略左偏分布,分数多集中在70-90分,其中85分左右的评分最多,有少数游戏评分在40分以下。从用户评分的直方图可以看出,与评论人评分类似,用户评分也呈现左偏分布,分数多集中在7-9分之间,其中7.6分左右的评分数量最多。
p1 <- games2 %>%
ggplot(aes(x=Critic_Score))+
geom_histogram()
p2 <- games2 %>%
ggplot(aes(x=User_Score))+
geom_histogram()
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
所属平台: 从所属平台的柱形图可以看出,运行于PS2、PS3和X360的游戏较多,接近200款游戏;而在PS、PSV和DC上的游戏较少,最少只有几款游戏运行于DC平台。
从平台对游戏评分的箱线图中可以看出,对于评论人评分,DC平台虽然游戏数量较少但普遍评分较高,PS平台的作品总体评分较高且差异相对较小,PSV平台的作品评分差异最大,X360平台的作品低分较多。对于玩家评分,PC平台上的评分差异最大,GBA、PS、PS2平台普遍评分较高,GC平台拥有最低分游戏。
games2 %>%
ggplot(aes(x=Platform))+
geom_bar()
p3 <- games2 %>%
ggplot(aes(x=Platform,y=Critic_Score))+
geom_boxplot()
p4 <- games2 %>%
ggplot(aes(x=Platform,y=User_Score))+
geom_boxplot()
发布时间: 从发布时间的直方图可以看出,大部分游戏发布于2000年以后,且游戏发布量在2007年左右达到高峰,2005年至2010年期间每年发行量均在100款游戏上下。
从散点图可以看出,在评论人评分上,高分游戏集中在2000年-2005年以及2012-2014年之间,各年份高分游戏数量差别不大,但近年来低分游戏数目较多。在玩家评分上也大致呈相同情形,但玩家所评低分游戏多集中在2002年-2009年之间。
games2 %>%
ggplot(aes(x=Year_of_Release))+
geom_bar()
p5 <- games2 %>%
ggplot(aes(x=Year_of_Release,y=Critic_Score))+
geom_point()
p6 <- games2 %>%
ggplot(aes(x=Year_of_Release,y=User_Score))+
geom_point()
类型: 从游戏类型的柱形图可以看出,运动类游戏数量明显多于其他类游戏,动作类游戏其次,冒险、策略、解谜、角色扮演类游戏数量均较少,可以大致推断出,运动和动作类游戏仍然是许多游戏公司的着力点和主力军。
从箱线图中可以看出,无论是评论人还是玩家评分,角色扮演类游戏的评分差异性都最小且总体评分较高,运动和射击类游戏出现低分的情形较多,而冒险类游戏在两类人群中评分差距较大。
games2 %>%
ggplot(aes(x=Genre))+
geom_bar()
p7 <- games2 %>%
ggplot(aes(x=Genre,y=Critic_Score))+
geom_boxplot()+
coord_flip()
p8 <- games2 %>%
ggplot(aes(x=Genre,y=User_Score))+
geom_boxplot()+
coord_flip()
发行公司: 从发行公司的柱形图可以看出,美国艺电公司(Electronic Arts)的游戏发行量远高于其他公司,育碧娱乐软件公司(Ubisoft)其次,其他几家公司相对较少,其中,THQ的游戏发行量最少。
从箱线图中可以看出,THQ和SEGA公司由于游戏发行数量较少,差异性也很小,索尼、任天堂和艺电公司的游戏虽然评分有较大差异性,但三者在两类群体中的普遍评分都相对比较高。
games2 %>%
ggplot(aes(x=Publisher))+
geom_bar()+
coord_flip()
p9 <- games2 %>%
ggplot(aes(x=Publisher,y=Critic_Score))+
geom_boxplot()+
coord_flip()
p10 <- games2 %>%
ggplot(aes(x=Publisher,y=User_Score))+
geom_boxplot()+
coord_flip()
开发团队: 从开发团队的柱形图可以看出,与发行公司类似,Electronic Arts所领导或参与开发的游戏最多,育碧(Ubisoft)其次,而Omega Force、Capcom和Codemasters相对较少。
从箱线图中可以看出,Visual Concepts在评论人处评分普遍较高,且评分差异性很小,任天堂和Capcom其次。Capcom在玩家处有很高评分,而育碧所开发的游戏在两类群体中得到低分的数目均较多。
games2 %>%
ggplot(aes(x=Developer))+
geom_bar()+
coord_flip()
p11 <- games2 %>%
ggplot(aes(x=Developer,y=Critic_Score))+
geom_boxplot()+
coord_flip()
p12 <- games2 %>%
ggplot(aes(x=Developer,y=User_Score))+
geom_boxplot()+
coord_flip()
分级: 从游戏分级的柱形图可以看出,面向全年龄段玩家的游戏(E)最多,其次是面向13岁以上玩家的游戏,而面向10岁以上和17岁以上的游戏数量相差不多。
从箱线图中可以看出,各类分级游戏的评分差异不大,面向13岁以上玩家的游戏得到低分的数目稍多。
games2 %>%
ggplot(aes(x=Rating))+
geom_bar()
p13 <- games2 %>%
ggplot(aes(x=Rating,y=Critic_Score))+
geom_boxplot()
p14 <- games2 %>%
ggplot(aes(x=Rating,y=User_Score))+
geom_boxplot()
全球销量: 从全球销量的直方图可以看出,大部分游戏销量在500万件以下,其中,销量在10-20万件的游戏最多,销量在500万件以上的游戏只有38款,在主体分析之外,可针对这些销量较高的游戏额外进行具体分析,但如果将个别极端值纳入回归模型,可能会影响模型的解释效果,因此在建模时仅筛选出销量在2000万件以下的样本。
从瓦图和平滑曲线中可看出,销量和评分具有微弱的正相关关系,虽然高销量的游戏普遍评分都不是特别低,但高评分低销量的游戏数目仍然较多。
games2 %>%
filter(Global_Sales<2000) %>%
ggplot(aes(x=Global_Sales))+
geom_histogram(binwidth = 10)
p15 <- games2 %>%
filter(Global_Sales<2000) %>%
ggplot(aes(x=Global_Sales,y=Critic_Score))+
geom_hex()+
geom_smooth(se=F)
p16 <- games2 %>%
filter(Global_Sales<2000) %>%
ggplot(aes(x=Global_Sales,y=User_Score))+
geom_hex()+
geom_smooth(se=F)
`geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
`geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
#可视化之后数据处理
games2 <- games2 %>%
filter(Global_Sales<2000)
由于此次分析目的在于探究影响游戏评分的因素,而非根据各特征来对新游戏的评分进行预测,因此优先考虑模型对已有数据的拟合效果,而不太关注模型的泛化能力,从而选取调整的判定系数、模型对已有数据拟合得到的均方误差(MSE)或赤池信息准则(AIC)作为评价标准。
首先,对于评论人评分,建立全变量的多元线性回归模型,得到模型mod_critic1调整的判断系数为0.3167,且游戏平台、类型、销量、因素几个变量明显显著。使用逐步筛选法对变量进行筛选,得到模型mod_critic2,将这一模型的残差对评分画相关图,发现二者具有明显的线性相关性,怀疑各变量间存在未被挖掘的交互作用。此外,残差与全球销量也呈现一定相关关系。将残差与各变量交互作用再进行回归之后,选取其中模型显著的变量组合加入原模型,得到模型mod_critic3,再对该模型进行逐步回归,得到最终的回归模型mod_critic。该模型修正的判定系数为0.6597,较最初全变量模型,拟合能力有明显提高,模型残差与因变量的相关性也明显减小。虽然可以看出残差中仍包含有一些信息未被提取,可能还有其他一些因素对游戏评分有影响(比如玩家性别、游戏时长等),但对于能够获得数据的已有变量来说,建模到此为止。
#Critic_Score
mod_critic1 <- lm(Critic_Score~.-User_Score,data=games2)
#逐步筛选
#mod_critic_step1 <- step(mod_critic1)
mod_critic2 <- lm(Critic_Score ~ Platform + Year_of_Release
+ Genre + Global_Sales + Developer + Rating
, data = games2)
#残差分析
games2 <- games2 %>%
add_residuals(mod_critic2,"resid")
ggplot(games2,aes(Critic_Score,resid))+
geom_hex()
模型mod_critic结果显示,在平台方面,发行于DC、PS平台上有助于游戏评论人评分的提高(但结合先前的探索性分析,在DC平台上发布的游戏数量非常少,因此本文认为基于小样本得到的这一结论并不非常可靠);游戏类型方面,冒险类游戏的评分会较低,而策略类游戏能够提高评论人评分;开发团队方面,评论人更偏好于Konami、Nintendo、Omega Force和Visual Concepts所开发的游戏,且Konami的游戏对评分提高最显著;全球销量也对评论人评分有着正向影响。交互作用方面,发行于GC、PS2、PS4、PSP、Wii、XB平台上的冒险类游戏评分普遍较高,PS4平台上的尤为明显,发行于GBA平台上的格斗类游戏、DS平台上的综合类游戏也有助于提高评论人评分,而X360平台上的冒险类游戏和Wiiu平台上的射击类游戏则会显著降低评分。综合来看,游戏的开发团队、游戏类型、发布平台和销量是影响游戏在专业评论人处评分的最主要因素。
#最终模型
mod_critic <- lm(Critic_Score ~ Platform + Genre + Global_Sales
+ Developer + Rating + Year_of_Release
+ Publisher + I(Global_Sales^2) + I(Global_Sales^0.5)
+ log(Global_Sales) + Platform:Genre + Platform:Publisher
+ Genre:Year_of_Release + Year_of_Release:Publisher
+ Genre:Publisher + Genre:Rating + Genre:Global_Sales
+ Rating:Publisher + Global_Sales:Publisher
+ Global_Sales:Developer , data = games2)
games2 <- games2 %>%
add_residuals(mod_critic,"resid")
ggplot(games2,aes(Critic_Score,resid))+
geom_hex()
games2 <- games2 %>%
select(-resid)
其次,对于游戏用户、即玩家的评分,也按照同样的流程建立模型。最初全变量的线性回归模型mod_user1调整的判定系数为0.2584,而经过添加交互作用变量与逐步回归得到了最终模型mod_user调整的判断系数为0.4675,较最初的模型也有一定提升,但值的大小并不不够大,说明除已有数据里的自变量及其交互作用之外还存在一些影响游戏玩家评分的因素,但此次分析也只考虑已有变量,因此建模到此为止。
#User_Score
mod_user <- lm(User_Score~.-Critic_Score,data=games2)
#逐步筛选
#mod_user_step1 <- step(mod_user)
mod_user2 <- lm(User_Score ~ Platform + Year_of_Release + Genre
+ Global_Sales + Developer + Rating
, data = games2)
#残差分析
games2 <- games2 %>%
add_residuals(mod_user2,"resid")
ggplot(games2,aes(User_Score,resid))+
geom_hex()
模型mod_user结果显示,游戏类型方面,冒险、解谜和射击类游戏在玩家处得分普遍较高;发行公司方面,玩家普遍偏好Namco Bandai Games、Nintendo和Ubisoft公司所发行的游戏;与评论人评分类似,全球销量对玩家方面对评分也有正向影响;发行年份方面,2013和2014年发行的游戏评分明显较低。交互作用方面,2001年-2005年所发行的射击类游戏和2005年、2008年发行的冒险类游戏评分均较低。综合来看,游戏的类型、开发公司、发行年份和全球销量是影响游戏在玩家处评分的主要因素。
#最终模型
mod_user <- lm(formula = User_Score ~ Genre + Publisher
+ Global_Sales + Developer + Rating
+ Year_of_Release + log(Global_Sales)
+ Genre:Year_of_Release + Developer:Year_of_Release
+ Rating:Year_of_Release + Genre:Publisher + Genre:Rating
+ Publisher:Rating + Global_Sales:Rating
, data = games2)
games2 <- games2 %>%
add_residuals(mod_user,"resid")
ggplot(games2,aes(User_Score,resid))+
geom_hex()
games2 <- games2 %>%
select(-resid)
除了多元回归模型之外,本文也尝试了利用Lasso(Least Absolute Shrinkage and Selection Operation)正则化方法进行变量筛选,最终对Critic_Score和User_Score两变量建立的模型预测的均方误差分别为102.1233和1.3015,均大于多元回归模型的均方误差30.7910和0.6713,因此本文仅部分参考Lasso回归的结果。
x_critic <- model_matrix(games2,Critic_Score~.-User_Score)[,-1] %>%
as.matrix()
x_user <- model_matrix(games2,User_Score~.-Critic_Score)[,-1] %>%
as.matrix()
y_critic <- games2$Critic_Score
y_user <- games2$User_Score
#10折交叉验证确定参数lambda
cv_fit_critic <- cv.glmnet(x_critic,y_critic,alpha=1,
family="gaussian",type.measure="mse")
bestlam_c <- cv_fit_critic$lambda.min
out_critic <- predict(cv_fit_critic,x_user,
type="coefficients",s=bestlam_c)
cv_fit_user <- cv.glmnet(x_user,y_user,alpha=1,
family="gaussian",type.measure="mse")
bestlam_u <- cv_fit_user$lambda.min
out_user <- predict(cv_fit_user,x_user,type="coefficients",
s=bestlam_u)
head(out_user)
6 x 1 sparse Matrix of class "dgCMatrix"
1
(Intercept) 6.9518845
PlatformDC .
PlatformDS -0.2264097
PlatformGBA 0.1192737
PlatformGC 0.1533800
PlatformPC -0.4414044
Lasso回归结果显示,对于评论人评分,和多元回归结果相似,发行在DC、PS平台可以显著提高评分,解谜、运动和策略类的游戏对评分提高显著;补充的地方在于,2005年以前所发行的游戏评分明显要高于2005年之后的,但在2016年游戏评分又有显著提升,且面向17岁以上玩家的游戏评分也明显有提升。对于玩家评分,同样显示出2005年前后游戏评分的明显差别,冒险、解谜和策略类游戏在玩家处更受欢迎,面向17岁以上玩家的游戏评分提升也十分显著。
除了对数据的主要部分进行分析之外,由于此次目的是探究游戏评分的影响因素,因此,观测一些高评分游戏(通常称之为“神作”)的特征也十分重要。从原完整数据集中分别筛选出评论人评分在90及以上的数据作为数据集top_critics,有74个样本;筛选出用户评分在9分及以上的数据作为数据集top_users,有35个样本。对这两个数据集中的因变量分别进行全变量的逐步回归,模型mod_topcritics和mod_topusers逐步回归后的调整判定系数分别为0.7151和0.7081,均高于所有样本回归结果,从而得到高分游戏的回归结果。
top_critics <- game %>%
filter(complete.cases(.)) %>%
filter(Publisher %in% top_pubs) %>%
filter(Developer %in% top_deves) %>%
select(Name,Critic_Score,User_Score,everything()) %>%
mutate(User_Score=as.double(User_Score),
Year_of_Release=as.factor(Year_of_Release),
Global_Sales=Global_Sales*100) %>%
filter(Critic_Score>=90)
top_users <- game %>%
filter(complete.cases(.)) %>%
filter(Publisher %in% top_pubs) %>%
filter(Developer %in% top_deves) %>%
select(Name,Critic_Score,User_Score,everything()) %>%
mutate(User_Score=as.double(User_Score),
Year_of_Release=as.factor(Year_of_Release),
Global_Sales=Global_Sales*100) %>%
filter(User_Score>=9)
mod_topcritics <- lm(Critic_Score~Platform+Year_of_Release
+Genre+Publisher+Developer+Global_Sales+Rating,
data=top_critics)
mod_topusers <- lm(Critic_Score~Platform+Year_of_Release
+Genre+Publisher+Developer+Global_Sales+Rating,
data=top_users)
结果显示,评论人评分方面,游戏平台对游戏评分有重要影响,高分游戏多发布在DC和PS系列平台,与普遍趋势不同,早年游戏评分反而没有近年高,全球销量对游戏评分的影响也更为显著;用户评分方面,发布于PS3平台的游戏和Nintendo、Ubisoft公司发行的游戏倾向于获得高分。
top_games <- game %>%
filter(complete.cases(.)) %>%
filter(Publisher %in% top_pubs) %>%
filter(Developer %in% top_deves) %>%
select(Name,Critic_Score,User_Score,everything()) %>%
mutate(User_Score=as.double(User_Score),
Year_of_Release=as.factor(Year_of_Release),
Global_Sales=Global_Sales*100) %>%
filter(User_Score>=9 & Critic_Score>=90)
| Name | Critic_Score | User_Score |
|---|---|---|
| Super Mario 3D World | 93 | 9.0 |
| Metal Gear Solid: The Legacy Collection | 93 | 9.0 |
| Super Mario Galaxy 2 | 97 | 9.1 |
| The Legend of Zelda: Twilight Princess | 96 | 9.2 |
| The Legend of Zelda: Twilight Princess | 95 | 9.0 |
| Tom Clancy’s Splinter Cell: Chaos Theory | 94 | 9.0 |
| ESPN NFL 2K5 | 92 | 9.1 |
| Pikmin 2 | 90 | 9.1 |
| SoulCalibur II | 93 | 9.1 |
| SSX 3 | 93 | 9.1 |
| The Legend of Zelda: A Link to the Past | 95 | 9.1 |
| Metroid Fusion | 92 | 9.1 |
| Klonoa 2: Lunatea’s Veil | 91 | 9.1 |
| Tekken 3 | 96 | 9.1 |
| Castlevania: Symphony of the Night | 93 | 9.4 |
最后,从原数据集中筛选出同时达到评论人评分90分以上和用户评分9分以上的游戏,共15款。其中,GC平台拥有3款,PS3、Wiiu各拥有1款,其他平台分别拥有2款;游戏发布于1997-2013年之间;动作类游戏最多;Nintendo公司所发行和开发的游戏占据了近一半;大部分为全年龄向的游戏。且综合各方面来看,表现最为出色的游戏是Nintendo公司于2010年自行开发并发行于Wii平台上的平台游戏《Super Mario Galaxy 2》(超级马里奥银河2)。
另搜集游戏评论数据,数据来自Kaggle竞赛平台(https://www.kaggle.com/dahlia25/metacritic-video-game-comments#metacritic_game_info.csv),内容为Metacritic网站(一个专门收集对于电影、电视节目、音乐专辑、游戏的评论的网站)上28万条以上的电子游戏评论文本。筛选出用户评分9.5分及以上的游戏,共112531条评论,进行分词和词频统计之后,绘制词云图。
从图中可以看出,能够让玩家打出10分高分的游戏在内容上拥有更加优秀的游戏角色(Characters)、画面(Graphics、beautiful)、音乐(Music),并且突破常规(unique),让玩家有新鲜感(first)、良好的体验感(Experience)以及用户粘性(即系列游戏,series、fan),即愿意花足够的时间(time、hours)在上面。此外,高分游戏还能满足玩家的一些额外需求,如多用户(multiplayer)、多模式(mode)等。
library(jiebaR)
library(wordcloud2)
usercomment <- read_csv(
"/Users/lisiqi/Desktop/R论文/metacritic_game_user_comments.csv")
comments <- usercomment %>%
filter(Userscore>=9.5) %>%
select(Comment) %>%
.$Comment
engine <- worker(user="/Users/lisiqi/Desktop/R论文/myword.txt",
stop_word="/Users/lisiqi/Desktop/R论文/stopwords.txt")
seg_comment <- segment(comments,engine)
freq_comment <- freq(seg_comment)
freq_comment <- arrange(freq_comment,desc(freq))
wordcloud2(freq_comment,size=0.5)
通过探索性数据分析、数据建模和文本分析,可以得到以下结论。
1.发行于PS系列平台在一定程度上有助于游戏评分的提高,且不同类型的游戏针对不同平台进行发行能够显著提高其评分(如根据此次分析结果,冒险类游戏最适合发行于PS4平台,而格斗类游戏适合发行于GBA平台,综合类游戏适合发布于DS平台);
2.不论是游戏评论人(媒体、职业玩家等)还是普通玩家,都倾向于给策略、解谜和运动类游戏更高打分,而射击类游戏相对评分较低;
3.Namco Bandai Games、Nintendo和Ubisoft公司是受大多数玩家青睐的游戏公司,且Konami、Nintendo、Omega Force和Visual Concecpts所开发的游戏普遍评分较高;
4.尽管游戏整体评分略呈下降趋势,但高分游戏在近年来比早年更多,说明在游戏整体质量打折的大趋势下,仍有不少高品质作品出现,其中最具代表性的是Nintendo公司于2010年自行开发并发行于Wii平台上的平台游戏《Super Mario Galaxy 2》(超级马里奥银河2);
5.销量虽然并不完全与游戏评分成正相关,但仍与其呈大致相同的趋势,可以侧面反映游戏水准;
6.除了通常的游戏角色、画面、音乐等必备因素,能够让玩家给出高分的游戏还具有能给人以新鲜感、良好体验和用户粘性的创新点,游戏续集(即系列游戏)和多用户、多模式等特点也是部分加分点。
根据这些结论,本文对游戏发行公司和开发团队提出如下建议。
1.尽管处在在网络游戏异军突起、单机游戏备受竞争的大环境中,游戏开发公司和团队也应该保持初心,追求开发出基于玩家体验的高质量游戏,而不是唯利润或销量所驱,越是在快消费和激烈竞争时代的背景下,越要专注品质;
2.Namco Bandai Games 、Nintendo、Ubisoft等游戏公司的高质量游戏作品相对较多,一些正处于成长期或瓶颈期的游戏公司或团队可以多借鉴这些优秀公司的特点(包括本文结果未显示但仍在当下单机游戏领域地位重要的索尼电脑娱乐公司),和Konami、Nintendo、Omega Force、Visual Concecpts这些优秀开发团队的成功案例以提升自己;
3.运动、策略类游戏是玩家普遍较喜爱的游戏类型,游戏公司可以优先考虑发行这些类型的游戏,并且一定要针对不同的平台发行不同类型的游戏;
4.游戏评论人一般影响游戏的舆论走势,在一定程度上可以促进游戏销量(或打击游戏销量),因此想要在销量上取得一定突破的游戏公司可以有针对性地根据这些媒体和职业玩家的喜好在游戏中增加相应的特色点(如多在PS4平台上发行、少开发射击类游戏等)。
虽然现今的大环境是网络游戏正不断崛起,但单机游戏仍拥有系统稳定、支持非网络连接、画面精美、具有收藏价值、更易防止未成年人沉迷等优点,仍是游戏界无可替代的一个分支。优秀的游戏作品和电影一样具有传达正确价值观、讲述好的故事的作用,值得被更多人了解,这也是游戏公司和开发团队肩上的重任。
最后,本文限于数据、时间、精力和篇幅,并未针对模型进行深入优化,数据特征也并不充足(如游戏评分其实还受其时长、价格和用户许多个人特征的影响),只是针对能够获得的这一个数据集进行相应分析,因此仍有较大改进空间。