RapidMiner exercise 2

1) 找到一个由任意数量的属性和观察项组成的数据集。 您或许可以通过个人数据收藏或凭借员工身份访问数据集,但尽管您使用的是公司的数据,也要确保仅在获得许可后才这样做! 您还可以在互联网上搜索数据集库。 在您常用的搜索引擎中对“data sets”进行简单搜索,可以搜索到一些提供数据集资料库以便用于学术和学习的网站。导入看起来与您相关的数据集,并完成以下各项:

我找到的数据集是Global Entrepreneurship Monitor 2012(GEM.csv文件),由Thomas Shott教授提供。目前在网上只能找到2009年的数据报告

2) 将数据集的格式设置为 CSV 文件。 它可能本身就是此格式,否则您可能需要在 Excel 或类似软件中打开数据,然后使用“File”>“Save As”功能将数据保存为 CSV 文件。

3) 将数据导入到 Rapidminer 存储库中。 在存储库中将其保存为 Chapter2_Exercise。

在Repositories视图中选择“Import CSV File”,进入如下向导页面:

第1步,选择文件所在路径:

step1

第2步,选择编码与文件编码一致(这里为UTF-8),去掉Skip Comments选项的勾,选择Column Separation为Comma:

step2

第3步,保持默认的Annotation(Name):

step3

第4步,选择各变量的数据类型(变量名下面、Attribute上面那行),如图所示:

step4

第5步,选择本地存储库中的保存路径和文件名(这里设为GEM):

step5

最后导入的结果:

data

导入结果的描述性统计:

desc

4) 在 Rapidminer 中创建一个新的空白流程流,并将数据集拖动到流程窗口中。

cleansing1

5) 运行流程,并在元数据视图和“数据视图”中查看数据集。 请注意是否有任何属性具有缺失或不一致的数据。

如图所示,在这个94274行的数据集中,许多列都有很多缺失值:

cleansing1 cleansing1

6) 如果发现任何缺失或不一致的数据,请使用操作符进行处理。 或许您可以尝试在“操作符”选项卡中浏览文件夹树状目录,并试用本章中未介绍的一些操作符。

依次添加Replace missing、Filter Examples操作符,首先将exportpct(出口比例)中的缺失值替换为0,再过滤掉其他有缺失值的列:

cleansing2 cleansing2

7) 尝试根据一些属性的值过滤掉一些观察项,并过滤掉一些属性。

添加Filter Examples操作符,过滤掉age(创业者年龄)、omnowjob(企业员工数)、FirmAge(企业创办年数)三个变量中明显不合理的部分观测值:

cleansing2

添加Select Attributes操作符,选择部分变量,如图所示:

cleansing2

最终处理结果:

output

8) 记录找到数据集的位置、是如何准备数据集以便将其导入到 Rapidminer 中的,以及您对它进行了哪些数据准备活动。

该数据集的情况已在1)中说明。