このドキュメントでは、第2章「量的変数の要約方法」の演習に使用するデータセットの概要を示す。 各自が担当するデータセットを選び、ヒストグラム・代表値・散布度・箱ひげ図などの分析を実施すること。
以下では、全データセットの概要と変数説明を示したうえで、演習に推奨する4つのデータセットを提案する。
アメリカで販売された自動車392台の燃費・性能に関するデータ。1970年代から80年代にかけての車種を対象としており、燃費(mpg)やエンジン排気量(displacement)など複数の量的変数を含む。車の性能が年代や気筒数によってどう変わるかを探る際に有用なデータである。
変数一覧(10変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| mpg | 量的 | 燃費(マイル/ガロン) |
| cylinders | 量的(離散) | エンジンの気筒数 |
| displacement | 量的 | エンジン排気量(立方インチ) |
| horsepower | 量的 | 馬力 |
| weight | 量的 | 車両重量(ポンド) |
| acceleration | 量的 | 加速性能(0→60mphの秒数) |
| year | 量的(離散) | 製造年(西暦下2桁) |
| origin | 質的(名義) | 産地(1=米国、2=欧州、3=日本) |
| name | 質的(名義) | 車種名 |
演習適性:◎(推奨) 量的変数が豊富で行数も適度(392行)。身近な「車」のデータで直感的に理解しやすい。
アメリカの大学777校に関するデータ。入学者数・授業料・卒業率など教育機関の特性を表す19変数を含む。私立・公立の違いや、学費と卒業率の関係を探る際に有用である。大学というテーマは学生自身に身近であり、データへの興味を引き出しやすい。
変数一覧(19変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| Private | 質的(名義) | 私立か否か(Yes/No) |
| Apps | 量的(離散) | 出願者数 |
| Accept | 量的(離散) | 合格者数 |
| Enroll | 量的(離散) | 入学者数 |
| Top10perc | 量的 | 高校上位10%出身の学生割合(%) |
| Top25perc | 量的 | 高校上位25%出身の学生割合(%) |
| F.Undergrad | 量的(離散) | フルタイム学部生数 |
| P.Undergrad | 量的(離散) | パートタイム学部生数 |
| Outstate | 量的 | 州外学生の授業料(ドル) |
| Room.Board | 量的 | 寮費・食費(ドル) |
| Books | 量的 | 年間書籍費(ドル) |
| Personal | 量的 | 年間個人支出(ドル) |
| PhD | 量的 | 博士号保有教員の割合(%) |
| Terminal | 量的 | 最終学位保有教員の割合(%) |
| S.F.Ratio | 量的 | 学生・教員比率 |
| perc.alumni | 量的 | 卒業生寄付率(%) |
| Expend | 量的 | 学生一人当たり支出(ドル) |
| Grad.Rate | 量的 | 卒業率(%) |
演習適性:○ 変数数が多く自由に選んで分析できるが、米国の大学データのため文脈の説明が必要。
400名のクレジットカード利用者に関するデータ。収入・クレジット限度額・残高など金融関連の量的変数と、住宅所有・学生区分などの質的変数を含む。量的変数の分布や、収入と残高の関係を探るうえで扱いやすい構成である。
変数一覧(12変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| Income | 量的 | 年収(千ドル) |
| Limit | 量的 | クレジット限度額(ドル) |
| Rating | 量的 | 信用スコア |
| Cards | 量的(離散) | 保有カード枚数 |
| Age | 量的(離散) | 年齢(歳) |
| Education | 量的(離散) | 教育年数 |
| Own | 質的(名義) | 住宅所有の有無(Yes/No) |
| Student | 質的(名義) | 学生か否か(Yes/No) |
| Married | 質的(名義) | 既婚か否か(Yes/No) |
| Region | 質的(名義) | 居住地域(South/East/West) |
| Balance | 量的 | クレジットカード残高(ドル) |
演習適性:○ 行数・変数数ともに適度で扱いやすい。金融テーマに興味がある学生向け。
1万人を対象としたクレジットカードのデフォルト(返済不能)に関するデータ。目的変数はデフォルトの有無(質的)だが、残高(balance)・収入(income)という量的変数の分布分析が演習の主軸となる。大量データの扱いと分布の偏りを体感するのに適している。
変数一覧(5変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| default | 質的(名義) | デフォルトの有無(Yes/No) |
| student | 質的(名義) | 学生か否か(Yes/No) |
| balance | 量的 | クレジットカード平均残高(ドル) |
| income | 量的 | 年収(ドル) |
演習適性:△ 変数が少なく演習の幅はやや狭い。大量データ(10,000行)の扱いに慣れる目的には向く。
1986〜87年シーズンのメジャーリーグ選手322名の成績・年俸データ。打数・安打・本塁打・年俸など多くの量的変数を含む。スポーツデータは直感的に理解しやすく、年俸の分布や欠損値(NA)の処理を学ぶ機会にもなる。
変数一覧(21変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| AtBat | 量的(離散) | 打数 |
| Hits | 量的(離散) | 安打数 |
| HmRun | 量的(離散) | 本塁打数 |
| Runs | 量的(離散) | 得点数 |
| RBI | 量的(離散) | 打点 |
| Walks | 量的(離散) | 四球数 |
| Years | 量的(離散) | 在籍年数 |
| CAtBat〜CWalks | 量的(離散) | 通算成績(各種) |
| League | 質的(名義) | 所属リーグ(A/N) |
| Division | 質的(名義) | 所属地区(E/W) |
| PutOuts | 量的(離散) | 刺殺数 |
| Assists | 量的(離散) | 補殺数 |
| Errors | 量的(離散) | 失策数 |
| Salary | 量的 | 年俸(千ドル)※欠損値あり |
| NewLeague | 質的(名義) | 翌年のリーグ(A/N) |
演習適性:◎(推奨) 量的変数が豊富でスポーツへの関心が動機づけになる。欠損値処理も学べる。
ニューヨーク証券取引所の1962〜2010年の日次株式市場データ(6,051件)。株式リターン・取引量・ボラティリティなど金融市場の量的変数を含む。時系列データとしての特性があるため、単純な要約統計量の演習には使いやすいが、文脈理解に金融知識が必要。
変数一覧(7変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| date | 質的(名義) | 日付 |
| day_of_week | 質的(名義) | 曜日 |
| DJ_return | 量的 | ダウ平均株価の日次リターン |
| log_volume | 量的 | 取引量の対数値 |
| log_volatility | 量的 | ボラティリティの対数値 |
| train | 質的(名義) | 訓練データフラグ(TRUE/FALSE) |
演習適性:△ 量的変数が少なく、金融の文脈が必要なため初心者にはやや難しい。
オレンジジュース(Minute Maid対Citrus Hill)の1,070件の購買データ。価格・割引・購買ブランドなど小売マーケティングに関する変数を含む。価格差や割引率の分布分析に使いやすいが、変数が多く整理が必要。
変数一覧(主要変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| Purchase | 質的(名義) | 購買ブランド(CH/MM) |
| PriceCH | 量的 | Citrus Hillの価格(ドル) |
| PriceMM | 量的 | Minute Maidの価格(ドル) |
| DiscCH / DiscMM | 量的 | 各ブランドの値引き額 |
| LoyalCH | 量的 | Citrus Hillへのロイヤルティ指数 |
| PriceDiff | 量的 | 価格差(MM-CH) |
| SalePriceCH / SalePriceMM | 量的 | セール価格 |
演習適性:△ テーマは身近だが変数が19個と多く、整理に手間がかかる。
100件の投資ポートフォリオに関するシミュレーションデータ。変数は資産XとYの2変数のみ。
変数一覧(2変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| X | 量的 | 資産Xのリターン |
| Y | 量的 | 資産Yのリターン |
演習適性:✕(非推奨) 変数が2つのみで演習の幅が非常に限られる。
株式市場の週次・日次リターンデータ。Lag変数(前週・前日リターン)が中心変数であり、分布の分析よりも予測モデリング向けのデータ構造となっている。
演習適性:△(要約統計の演習には不向き)
アメリカ50州の犯罪統計データ。殺人・暴行・強姦の発生率と都市部人口割合の4変数で構成されており、小規模かつ直感的に理解しやすい。州名が行名になっており、地域差の比較にも使いやすい。
変数一覧(4変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| Murder | 量的 | 殺人発生率(人口10万人当たり) |
| Assault | 量的 | 暴行発生率(人口10万人当たり) |
| UrbanPop | 量的 | 都市部人口の割合(%) |
| Rape | 量的 | 強姦発生率(人口10万人当たり) |
演習適性:◎(推奨) 変数が少なく全量的変数。行数50で手計算との対応も確認しやすい。基礎演習に最適。
米国ニュージャージー州の中年男性3,000名の賃金・属性データ。年齢・学歴・婚姻状況・人種・職種など多様な変数を含み、賃金(wage)の分布やその規定要因を探る演習に適している。社会的テーマとして関心を持ちやすく、量的変数も豊富である。
変数一覧(12変数):
| 変数名 | 型 | 説明 |
|---|---|---|
| year | 量的(離散) | 調査年 |
| age | 量的(離散) | 年齢(歳) |
| maritl | 質的(名義) | 婚姻状況 |
| race | 質的(名義) | 人種 |
| education | 質的(順序) | 学歴区分 |
| region | 質的(名義) | 地域 |
| jobclass | 質的(名義) | 職種(産業系/情報系) |
| health | 質的(順序) | 健康状態 |
| health_ins | 質的(名義) | 健康保険加入の有無 |
| logwage | 量的 | 賃金の対数値 |
| wage | 量的 | 賃金(千ドル/年) |
演習適性:◎(推奨) 量的変数(age・wage等)と質的変数が揃っており、グループ別比較も可能。社会的関心が高いテーマ。
以上の検討をふまえ、4名のゼミ生それぞれへの担当データセットとして以下を推奨する。
| 担当者 | データセット | 行数 | 量的変数数 | テーマ | 推奨理由 |
|---|---|---|---|---|---|
| ゼミ生A | Auto.csv | 392 | 7 | 自動車の燃費・性能 | 量的変数が豊富。身近なテーマで直感的 |
| ゼミ生B | Wage.csv | 3000 | 3 | 賃金と属性 | 賃金分布の偏りや外れ値の観察に最適 |
| ゼミ生C | USArrests.csv | 50 | 4 | 州別犯罪統計 | 小規模で全変数が量的。基礎確認に最適 |
| ゼミ生D | Hitters.csv | 322 | 15 | 野球選手の成績・年俸 | 多変数・欠損値処理も含め発展的な演習が可能 |
各自は担当データセットを読み込み、以下の分析を順に実施すること。
head() / str() / summary()
によるデータ確認本資料は統計検定3級テキスト第2章「量的変数の要約方法」の演習用に作成した。