第2章量的変数の要約方法：データセット概要

はじめに

このドキュメントでは、第2章「量的変数の要約方法」の演習に使用するデータセットの概要を示す。各自が担当するデータセットを選び、ヒストグラム・代表値・散布度・箱ひげ図などの分析を実施すること。

以下では、全データセットの概要と変数説明を示したうえで、演習に推奨する4つのデータセットを提案する。

全データセット一覧

1. Auto.csv

アメリカで販売された自動車392台の燃費・性能に関するデータ。1970年代から80年代にかけての車種を対象としており、燃費（mpg）やエンジン排気量（displacement）など複数の量的変数を含む。車の性能が年代や気筒数によってどう変わるかを探る際に有用なデータである。

変数一覧（10変数）:

変数名	型	説明
mpg	量的	燃費（マイル/ガロン）
cylinders	量的（離散）	エンジンの気筒数
displacement	量的	エンジン排気量（立方インチ）
horsepower	量的	馬力
weight	量的	車両重量（ポンド）
acceleration	量的	加速性能（0→60mphの秒数）
year	量的（離散）	製造年（西暦下2桁）
origin	質的（名義）	産地（1=米国、2=欧州、3=日本）
name	質的（名義）	車種名

演習適性：◎（推奨） 量的変数が豊富で行数も適度（392行）。身近な「車」のデータで直感的に理解しやすい。

2. Bikeshare.csv

米国ワシントンD.C.の自転車シェアリングサービスに関するデータ。2011〜2012年の時間単位の利用記録（8,645件）を含む。気温・湿度・風速などの気象データと、時間帯・曜日・季節などの時系列情報が揃っており、利用者数（bikers）を目的変数とした分析が可能である。

変数一覧（16変数）:

変数名	型	説明
season	質的（順序）	季節（春・夏・秋・冬）
mnth	質的（順序）	月
hr	量的（離散）	時間帯（0〜23）
holiday	質的（名義）	祝日フラグ（0/1）
weekday	質的（名義）	曜日
workingday	質的（名義）	平日フラグ（0/1）
weathersit	質的（順序）	天気（晴れ・曇り・雨等）
temp	量的	気温（正規化）
atemp	量的	体感気温（正規化）
hum	量的	湿度（正規化）
windspeed	量的	風速（正規化）
casual	量的（離散）	非会員の利用者数
registered	量的（離散）	会員の利用者数
bikers	量的（離散）	総利用者数

演習適性：○ 行数が多く（8,645行）、気象・時間帯との関係も見やすいが、変数数がやや多く初心者には整理が必要。

3. College.csv

アメリカの大学777校に関するデータ。入学者数・授業料・卒業率など教育機関の特性を表す19変数を含む。私立・公立の違いや、学費と卒業率の関係を探る際に有用である。大学というテーマは学生自身に身近であり、データへの興味を引き出しやすい。

変数一覧（19変数）:

変数名	型	説明
Private	質的（名義）	私立か否か（Yes/No）
Apps	量的（離散）	出願者数
Accept	量的（離散）	合格者数
Enroll	量的（離散）	入学者数
Top10perc	量的	高校上位10%出身の学生割合（%）
Top25perc	量的	高校上位25%出身の学生割合（%）
F.Undergrad	量的（離散）	フルタイム学部生数
P.Undergrad	量的（離散）	パートタイム学部生数
Outstate	量的	州外学生の授業料（ドル）
Room.Board	量的	寮費・食費（ドル）
Books	量的	年間書籍費（ドル）
Personal	量的	年間個人支出（ドル）
PhD	量的	博士号保有教員の割合（%）
Terminal	量的	最終学位保有教員の割合（%）
S.F.Ratio	量的	学生・教員比率
perc.alumni	量的	卒業生寄付率（%）
Expend	量的	学生一人当たり支出（ドル）
Grad.Rate	量的	卒業率（%）

演習適性：○ 変数数が多く自由に選んで分析できるが、米国の大学データのため文脈の説明が必要。

4. Credit.csv

400名のクレジットカード利用者に関するデータ。収入・クレジット限度額・残高など金融関連の量的変数と、住宅所有・学生区分などの質的変数を含む。量的変数の分布や、収入と残高の関係を探るうえで扱いやすい構成である。

変数一覧（12変数）:

変数名	型	説明
Income	量的	年収（千ドル）
Limit	量的	クレジット限度額（ドル）
Rating	量的	信用スコア
Cards	量的（離散）	保有カード枚数
Age	量的（離散）	年齢（歳）
Education	量的（離散）	教育年数
Own	質的（名義）	住宅所有の有無（Yes/No）
Student	質的（名義）	学生か否か（Yes/No）
Married	質的（名義）	既婚か否か（Yes/No）
Region	質的（名義）	居住地域（South/East/West）
Balance	量的	クレジットカード残高（ドル）

演習適性：○ 行数・変数数ともに適度で扱いやすい。金融テーマに興味がある学生向け。

5. Default.csv

1万人を対象としたクレジットカードのデフォルト（返済不能）に関するデータ。目的変数はデフォルトの有無（質的）だが、残高（balance）・収入（income）という量的変数の分布分析が演習の主軸となる。大量データの扱いと分布の偏りを体感するのに適している。

変数一覧（5変数）:

変数名	型	説明
default	質的（名義）	デフォルトの有無（Yes/No）
student	質的（名義）	学生か否か（Yes/No）
balance	量的	クレジットカード平均残高（ドル）
income	量的	年収（ドル）

演習適性：△ 変数が少なく演習の幅はやや狭い。大量データ（10,000行）の扱いに慣れる目的には向く。

6. Hitters.csv

1986〜87年シーズンのメジャーリーグ選手322名の成績・年俸データ。打数・安打・本塁打・年俸など多くの量的変数を含む。スポーツデータは直感的に理解しやすく、年俸の分布や欠損値（NA）の処理を学ぶ機会にもなる。

変数一覧（21変数）:

変数名	型	説明
AtBat	量的（離散）	打数
Hits	量的（離散）	安打数
HmRun	量的（離散）	本塁打数
Runs	量的（離散）	得点数
RBI	量的（離散）	打点
Walks	量的（離散）	四球数
Years	量的（離散）	在籍年数
CAtBat〜CWalks	量的（離散）	通算成績（各種）
League	質的（名義）	所属リーグ（A/N）
Division	質的（名義）	所属地区（E/W）
PutOuts	量的（離散）	刺殺数
Assists	量的（離散）	補殺数
Errors	量的（離散）	失策数
Salary	量的	年俸（千ドル）※欠損値あり
NewLeague	質的（名義）	翌年のリーグ（A/N）

演習適性：◎（推奨） 量的変数が豊富でスポーツへの関心が動機づけになる。欠損値処理も学べる。

7. NYSE.csv

ニューヨーク証券取引所の1962〜2010年の日次株式市場データ（6,051件）。株式リターン・取引量・ボラティリティなど金融市場の量的変数を含む。時系列データとしての特性があるため、単純な要約統計量の演習には使いやすいが、文脈理解に金融知識が必要。

変数一覧（7変数）:

変数名	型	説明
date	質的（名義）	日付
day_of_week	質的（名義）	曜日
DJ_return	量的	ダウ平均株価の日次リターン
log_volume	量的	取引量の対数値
log_volatility	量的	ボラティリティの対数値
train	質的（名義）	訓練データフラグ（TRUE/FALSE）

演習適性：△ 量的変数が少なく、金融の文脈が必要なため初心者にはやや難しい。

8. OJ.csv

オレンジジュース（Minute Maid対Citrus Hill）の1,070件の購買データ。価格・割引・購買ブランドなど小売マーケティングに関する変数を含む。価格差や割引率の分布分析に使いやすいが、変数が多く整理が必要。

変数一覧（主要変数）:

変数名	型	説明
Purchase	質的（名義）	購買ブランド（CH/MM）
PriceCH	量的	Citrus Hillの価格（ドル）
PriceMM	量的	Minute Maidの価格（ドル）
DiscCH / DiscMM	量的	各ブランドの値引き額
LoyalCH	量的	Citrus Hillへのロイヤルティ指数
PriceDiff	量的	価格差（MM－CH）
SalePriceCH / SalePriceMM	量的	セール価格

演習適性：△ テーマは身近だが変数が19個と多く、整理に手間がかかる。

9. Portfolio.csv

100件の投資ポートフォリオに関するシミュレーションデータ。変数は資産XとYの2変数のみ。

変数一覧（2変数）:

変数名	型	説明
X	量的	資産Xのリターン
Y	量的	資産Yのリターン

演習適性：✕（非推奨） 変数が2つのみで演習の幅が非常に限られる。

10. Smarket.csv / Weekly.csv

株式市場の週次・日次リターンデータ。Lag変数（前週・前日リターン）が中心変数であり、分布の分析よりも予測モデリング向けのデータ構造となっている。

演習適性：△（要約統計の演習には不向き）

11. USArrests.csv

アメリカ50州の犯罪統計データ。殺人・暴行・強姦の発生率と都市部人口割合の4変数で構成されており、小規模かつ直感的に理解しやすい。州名が行名になっており、地域差の比較にも使いやすい。

変数一覧（4変数）:

変数名	型	説明
Murder	量的	殺人発生率（人口10万人当たり）
Assault	量的	暴行発生率（人口10万人当たり）
UrbanPop	量的	都市部人口の割合（%）
Rape	量的	強姦発生率（人口10万人当たり）

演習適性：◎（推奨） 変数が少なく全量的変数。行数50で手計算との対応も確認しやすい。基礎演習に最適。

12. Wage.csv

米国ニュージャージー州の中年男性3,000名の賃金・属性データ。年齢・学歴・婚姻状況・人種・職種など多様な変数を含み、賃金（wage）の分布やその規定要因を探る演習に適している。社会的テーマとして関心を持ちやすく、量的変数も豊富である。

変数一覧（12変数）:

変数名	型	説明
year	量的（離散）	調査年
age	量的（離散）	年齢（歳）
maritl	質的（名義）	婚姻状況
race	質的（名義）	人種
education	質的（順序）	学歴区分
region	質的（名義）	地域
jobclass	質的（名義）	職種（産業系/情報系）
health	質的（順序）	健康状態
health_ins	質的（名義）	健康保険加入の有無
logwage	量的	賃金の対数値
wage	量的	賃金（千ドル/年）

演習適性：◎（推奨） 量的変数（age・wage等）と質的変数が揃っており、グループ別比較も可能。社会的関心が高いテーマ。

ゼミ演習への推奨データセット

以上の検討をふまえ、4名のゼミ生それぞれへの担当データセットとして以下を推奨する。

推奨データセット一覧
担当者	データセット	行数	量的変数数	テーマ	推奨理由
ゼミ生A	Auto.csv	392	7	自動車の燃費・性能	量的変数が豊富。身近なテーマで直感的
ゼミ生B	Wage.csv	3000	3	賃金と属性	賃金分布の偏りや外れ値の観察に最適
ゼミ生C	USArrests.csv	50	4	州別犯罪統計	小規模で全変数が量的。基礎確認に最適
ゼミ生D	Hitters.csv	322	15	野球選手の成績・年俸	多変数・欠損値処理も含め発展的な演習が可能

各自は担当データセットを読み込み、以下の分析を順に実施すること。

head() / str() / summary() によるデータ確認
量的変数のヒストグラム描画
平均・中央値・最頻値の算出
分散・標準偏差・四分位範囲の算出
箱ひげ図の描画
テキスト第2章の類題作成

本資料は統計検定3級テキスト第2章「量的変数の要約方法」の演習用に作成した。

第2章量的変数の要約方法：データセット概要

統計学ゼミ

2026-06-19

はじめに

全データセット一覧

1. Auto.csv

2. Bikeshare.csv

3. College.csv

4. Credit.csv

5. Default.csv

6. Hitters.csv

7. NYSE.csv

8. OJ.csv

9. Portfolio.csv

10. Smarket.csv / Weekly.csv

11. USArrests.csv

12. Wage.csv

ゼミ演習への推奨データセット

第2章 量的変数の要約方法：データセット概要

統計学ゼミ

2026-06-19

はじめに

全データセット一覧

1. Auto.csv

2. Bikeshare.csv

3. College.csv

4. Credit.csv

5. Default.csv

6. Hitters.csv

7. NYSE.csv

8. OJ.csv

9. Portfolio.csv

10. Smarket.csv / Weekly.csv

11. USArrests.csv

12. Wage.csv

ゼミ演習への推奨データセット

第2章量的変数の要約方法：データセット概要