RapidMiner exercise 2

我找到的数据集是Global Entrepreneurship Monitor 2012（GEM.csv文件），由Thomas Shott教授提供。目前在网上只能找到2009年的数据和报告。

在Repositories视图中选择“Import CSV File”，进入如下向导页面：

第1步，选择文件所在路径：

step1

第2步，选择编码与文件编码一致（这里为UTF-8），去掉Skip Comments选项的勾，选择Column Separation为Comma：

step2

第3步，保持默认的Annotation（Name）：

step3

第4步，选择各变量的数据类型（变量名下面、Attribute上面那行），如图所示：

step4

第5步，选择本地存储库中的保存路径和文件名（这里设为GEM）：

step5

最后导入的结果：

data

导入结果的描述性统计：

cleansing1

如图所示，在这个94274行的数据集中，许多列都有很多缺失值：

cleansing1

依次添加Replace missing、Filter Examples操作符，首先将exportpct（出口比例）中的缺失值替换为0，再过滤掉其他有缺失值的列：

cleansing2

添加Filter Examples操作符，过滤掉age（创业者年龄）、omnowjob（企业员工数）、FirmAge（企业创办年数）三个变量中明显不合理的部分观测值：

cleansing2

添加Select Attributes操作符，选择部分变量，如图所示：

cleansing2

最终处理结果：

该数据集的情况已在1)中说明。