我找到的数据集是Global Entrepreneurship Monitor 2012(GEM.csv文件),由Thomas Shott教授提供。目前在网上只能找到2009年的数据和报告。
在Repositories视图中选择“Import CSV File”,进入如下向导页面:
第1步,选择文件所在路径:
第2步,选择编码与文件编码一致(这里为UTF-8),去掉Skip Comments选项的勾,选择Column Separation为Comma:
第3步,保持默认的Annotation(Name):
第4步,选择各变量的数据类型(变量名下面、Attribute上面那行),如图所示:
第5步,选择本地存储库中的保存路径和文件名(这里设为GEM):
最后导入的结果:
导入结果的描述性统计:
如图所示,在这个94274行的数据集中,许多列都有很多缺失值:
依次添加Replace missing、Filter Examples操作符,首先将exportpct(出口比例)中的缺失值替换为0,再过滤掉其他有缺失值的列:
添加Filter Examples操作符,过滤掉age(创业者年龄)、omnowjob(企业员工数)、FirmAge(企业创办年数)三个变量中明显不合理的部分观测值:
添加Select Attributes操作符,选择部分变量,如图所示:
最终处理结果:
该数据集的情况已在1)中说明。