はじめに

このドキュメントでは、第2章「量的変数の要約方法」の演習に使用するデータセットの概要を示す。 各自が担当するデータセットを選び、ヒストグラム・代表値・散布度・箱ひげ図などの分析を実施すること。

以下では、全データセットの概要と変数説明を示したうえで、演習に推奨する4つのデータセットを提案する。


全データセット一覧

1. Auto.csv

アメリカで販売された自動車392台の燃費・性能に関するデータ。1970年代から80年代にかけての車種を対象としており、燃費(mpg)やエンジン排気量(displacement)など複数の量的変数を含む。車の性能が年代や気筒数によってどう変わるかを探る際に有用なデータである。

変数一覧(10変数):

変数名 説明
mpg 量的 燃費(マイル/ガロン)
cylinders 量的(離散) エンジンの気筒数
displacement 量的 エンジン排気量(立方インチ)
horsepower 量的 馬力
weight 量的 車両重量(ポンド)
acceleration 量的 加速性能(0→60mphの秒数)
year 量的(離散) 製造年(西暦下2桁)
origin 質的(名義) 産地(1=米国、2=欧州、3=日本)
name 質的(名義) 車種名

演習適性:◎(推奨) 量的変数が豊富で行数も適度(392行)。身近な「車」のデータで直感的に理解しやすい。


2. Bikeshare.csv

米国ワシントンD.C.の自転車シェアリングサービスに関するデータ。2011〜2012年の時間単位の利用記録(8,645件)を含む。気温・湿度・風速などの気象データと、時間帯・曜日・季節などの時系列情報が揃っており、利用者数(bikers)を目的変数とした分析が可能である。

変数一覧(16変数):

変数名 説明
season 質的(順序) 季節(春・夏・秋・冬)
mnth 質的(順序)
hr 量的(離散) 時間帯(0〜23)
holiday 質的(名義) 祝日フラグ(0/1)
weekday 質的(名義) 曜日
workingday 質的(名義) 平日フラグ(0/1)
weathersit 質的(順序) 天気(晴れ・曇り・雨等)
temp 量的 気温(正規化)
atemp 量的 体感気温(正規化)
hum 量的 湿度(正規化)
windspeed 量的 風速(正規化)
casual 量的(離散) 非会員の利用者数
registered 量的(離散) 会員の利用者数
bikers 量的(離散) 総利用者数

演習適性:○ 行数が多く(8,645行)、気象・時間帯との関係も見やすいが、変数数がやや多く初心者には整理が必要。


3. College.csv

アメリカの大学777校に関するデータ。入学者数・授業料・卒業率など教育機関の特性を表す19変数を含む。私立・公立の違いや、学費と卒業率の関係を探る際に有用である。大学というテーマは学生自身に身近であり、データへの興味を引き出しやすい。

変数一覧(19変数):

変数名 説明
Private 質的(名義) 私立か否か(Yes/No)
Apps 量的(離散) 出願者数
Accept 量的(離散) 合格者数
Enroll 量的(離散) 入学者数
Top10perc 量的 高校上位10%出身の学生割合(%)
Top25perc 量的 高校上位25%出身の学生割合(%)
F.Undergrad 量的(離散) フルタイム学部生数
P.Undergrad 量的(離散) パートタイム学部生数
Outstate 量的 州外学生の授業料(ドル)
Room.Board 量的 寮費・食費(ドル)
Books 量的 年間書籍費(ドル)
Personal 量的 年間個人支出(ドル)
PhD 量的 博士号保有教員の割合(%)
Terminal 量的 最終学位保有教員の割合(%)
S.F.Ratio 量的 学生・教員比率
perc.alumni 量的 卒業生寄付率(%)
Expend 量的 学生一人当たり支出(ドル)
Grad.Rate 量的 卒業率(%)

演習適性:○ 変数数が多く自由に選んで分析できるが、米国の大学データのため文脈の説明が必要。


4. Credit.csv

400名のクレジットカード利用者に関するデータ。収入・クレジット限度額・残高など金融関連の量的変数と、住宅所有・学生区分などの質的変数を含む。量的変数の分布や、収入と残高の関係を探るうえで扱いやすい構成である。

変数一覧(12変数):

変数名 説明
Income 量的 年収(千ドル)
Limit 量的 クレジット限度額(ドル)
Rating 量的 信用スコア
Cards 量的(離散) 保有カード枚数
Age 量的(離散) 年齢(歳)
Education 量的(離散) 教育年数
Own 質的(名義) 住宅所有の有無(Yes/No)
Student 質的(名義) 学生か否か(Yes/No)
Married 質的(名義) 既婚か否か(Yes/No)
Region 質的(名義) 居住地域(South/East/West)
Balance 量的 クレジットカード残高(ドル)

演習適性:○ 行数・変数数ともに適度で扱いやすい。金融テーマに興味がある学生向け。


5. Default.csv

1万人を対象としたクレジットカードのデフォルト(返済不能)に関するデータ。目的変数はデフォルトの有無(質的)だが、残高(balance)・収入(income)という量的変数の分布分析が演習の主軸となる。大量データの扱いと分布の偏りを体感するのに適している。

変数一覧(5変数):

変数名 説明
default 質的(名義) デフォルトの有無(Yes/No)
student 質的(名義) 学生か否か(Yes/No)
balance 量的 クレジットカード平均残高(ドル)
income 量的 年収(ドル)

演習適性:△ 変数が少なく演習の幅はやや狭い。大量データ(10,000行)の扱いに慣れる目的には向く。


6. Hitters.csv

1986〜87年シーズンのメジャーリーグ選手322名の成績・年俸データ。打数・安打・本塁打・年俸など多くの量的変数を含む。スポーツデータは直感的に理解しやすく、年俸の分布や欠損値(NA)の処理を学ぶ機会にもなる。

変数一覧(21変数):

変数名 説明
AtBat 量的(離散) 打数
Hits 量的(離散) 安打数
HmRun 量的(離散) 本塁打数
Runs 量的(離散) 得点数
RBI 量的(離散) 打点
Walks 量的(離散) 四球数
Years 量的(離散) 在籍年数
CAtBat〜CWalks 量的(離散) 通算成績(各種)
League 質的(名義) 所属リーグ(A/N)
Division 質的(名義) 所属地区(E/W)
PutOuts 量的(離散) 刺殺数
Assists 量的(離散) 補殺数
Errors 量的(離散) 失策数
Salary 量的 年俸(千ドル)※欠損値あり
NewLeague 質的(名義) 翌年のリーグ(A/N)

演習適性:◎(推奨) 量的変数が豊富でスポーツへの関心が動機づけになる。欠損値処理も学べる。


7. NYSE.csv

ニューヨーク証券取引所の1962〜2010年の日次株式市場データ(6,051件)。株式リターン・取引量・ボラティリティなど金融市場の量的変数を含む。時系列データとしての特性があるため、単純な要約統計量の演習には使いやすいが、文脈理解に金融知識が必要。

変数一覧(7変数):

変数名 説明
date 質的(名義) 日付
day_of_week 質的(名義) 曜日
DJ_return 量的 ダウ平均株価の日次リターン
log_volume 量的 取引量の対数値
log_volatility 量的 ボラティリティの対数値
train 質的(名義) 訓練データフラグ(TRUE/FALSE)

演習適性:△ 量的変数が少なく、金融の文脈が必要なため初心者にはやや難しい。


8. OJ.csv

オレンジジュース(Minute Maid対Citrus Hill)の1,070件の購買データ。価格・割引・購買ブランドなど小売マーケティングに関する変数を含む。価格差や割引率の分布分析に使いやすいが、変数が多く整理が必要。

変数一覧(主要変数):

変数名 説明
Purchase 質的(名義) 購買ブランド(CH/MM)
PriceCH 量的 Citrus Hillの価格(ドル)
PriceMM 量的 Minute Maidの価格(ドル)
DiscCH / DiscMM 量的 各ブランドの値引き額
LoyalCH 量的 Citrus Hillへのロイヤルティ指数
PriceDiff 量的 価格差(MM-CH)
SalePriceCH / SalePriceMM 量的 セール価格

演習適性:△ テーマは身近だが変数が19個と多く、整理に手間がかかる。


9. Portfolio.csv

100件の投資ポートフォリオに関するシミュレーションデータ。変数は資産XとYの2変数のみ。

変数一覧(2変数):

変数名 説明
X 量的 資産Xのリターン
Y 量的 資産Yのリターン

演習適性:✕(非推奨) 変数が2つのみで演習の幅が非常に限られる。


10. Smarket.csv / Weekly.csv

株式市場の週次・日次リターンデータ。Lag変数(前週・前日リターン)が中心変数であり、分布の分析よりも予測モデリング向けのデータ構造となっている。

演習適性:△(要約統計の演習には不向き)


11. USArrests.csv

アメリカ50州の犯罪統計データ。殺人・暴行・強姦の発生率と都市部人口割合の4変数で構成されており、小規模かつ直感的に理解しやすい。州名が行名になっており、地域差の比較にも使いやすい。

変数一覧(4変数):

変数名 説明
Murder 量的 殺人発生率(人口10万人当たり)
Assault 量的 暴行発生率(人口10万人当たり)
UrbanPop 量的 都市部人口の割合(%)
Rape 量的 強姦発生率(人口10万人当たり)

演習適性:◎(推奨) 変数が少なく全量的変数。行数50で手計算との対応も確認しやすい。基礎演習に最適。


12. Wage.csv

米国ニュージャージー州の中年男性3,000名の賃金・属性データ。年齢・学歴・婚姻状況・人種・職種など多様な変数を含み、賃金(wage)の分布やその規定要因を探る演習に適している。社会的テーマとして関心を持ちやすく、量的変数も豊富である。

変数一覧(12変数):

変数名 説明
year 量的(離散) 調査年
age 量的(離散) 年齢(歳)
maritl 質的(名義) 婚姻状況
race 質的(名義) 人種
education 質的(順序) 学歴区分
region 質的(名義) 地域
jobclass 質的(名義) 職種(産業系/情報系)
health 質的(順序) 健康状態
health_ins 質的(名義) 健康保険加入の有無
logwage 量的 賃金の対数値
wage 量的 賃金(千ドル/年)

演習適性:◎(推奨) 量的変数(age・wage等)と質的変数が揃っており、グループ別比較も可能。社会的関心が高いテーマ。


ゼミ演習への推奨データセット

以上の検討をふまえ、4名のゼミ生それぞれへの担当データセットとして以下を推奨する。

推奨データセット一覧
担当者 データセット 行数 量的変数数 テーマ 推奨理由
ゼミ生A Auto.csv 392 7 自動車の燃費・性能 量的変数が豊富。身近なテーマで直感的
ゼミ生B Wage.csv 3000 3 賃金と属性 賃金分布の偏りや外れ値の観察に最適
ゼミ生C USArrests.csv 50 4 州別犯罪統計 小規模で全変数が量的。基礎確認に最適
ゼミ生D Hitters.csv 322 15 野球選手の成績・年俸 多変数・欠損値処理も含め発展的な演習が可能

各自は担当データセットを読み込み、以下の分析を順に実施すること。

  1. head() / str() / summary() によるデータ確認
  2. 量的変数のヒストグラム描画
  3. 平均・中央値・最頻値の算出
  4. 分散・標準偏差・四分位範囲の算出
  5. 箱ひげ図の描画
  6. テキスト第2章の類題作成

本資料は統計検定3級テキスト第2章「量的変数の要約方法」の演習用に作成した。