講義資料

メイン資料

データ解析論Iについて

授業の概要・到達目標

　現代社会はデータに満ちあふれている．これからの時代はデータとの適切な「付き合い方」ができなければ生き抜くことは困難であろう．将来，どのような進路を選ぶにしろ，データから離れて暮らすことは困難である．

　この授業では，データを適切に分析する手法の学修を目的としてフリーソフトであるRを用いて，データの加工，Rマークダウンによるドキュメント生成および実証分析の基礎を学ぶ．あわせて，科学における再現可能性の重要性について学ぶ．

　なお，「データ解析論I」は「データ解析論II」とあわせて履修することで社会調査士資格＜Ｅ＞区分の認定科目となっている．社会調査士取得を目指す学生は確認しておくこと．

　到達目標は以下の通りである．

各統計手法について，その目的と意義を説明することができる．
各統計手法について，各自で分析を実行できる．
分析結果について，適切に他者に説明できる．

授業内容

[第1講]イントロダクション
[第2講]アンケート項目の検討・データの整理①
[第3講]データの整理②
[第4講]RMarkdownの記法①
[第5講]RMarkdownの記法②
[第6講]実証分析の手続き・クロス集計表の作成①
[第7講]クロス集計表の作成②
[第8講]（単）回帰分析
[第9講]t検定
[第10講]重回帰分析①
[第11講]重回帰分析②
[第12講]重回帰分析③
[第13講]モデル選択・発表準備
[第14講]プレゼンテーション

※ただし，履修者の状況により内容を一部変更することがある．

履修上の注意

　この授業ではRおよびRStudioを用いる．授業でも紹介するが，自宅のPCでもRおよびRStudioをインストールしておくこと．

準備学習（予習・復習等）の内容

　この授業では，各自の興味関心にあわせてアンケートを収集し，それに関する分析を通じて分析手法を学ぶ．広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること．

教科書

　特になし，資料を用意する．

参考書

　適宜紹介する．

成績評価の方法

平常点30％，小課題20%，プレゼンテーション50％

平常点：授業評価アンケート，その他授業中に行う調査等の回答状況などの授業への積極性を評価する．
小課題：スキルチェックのための簡単な課題を課す．
プレゼンテーション：学期末に実施する．

その他

　社会調査士資格＜Ｅ＞区分の認定科目である．＜Ｆ＞科目と選択必修であり，本講義は「データ解析論II」と併せて履修することで＜Ｅ＞科目として認定される．

参考：データ解析論II（後期科目）

授業の概要・到達目標

　データ解析論IIでは，データ解析論Iで学んだ統計手法をもとに，フリーソフトであるRを用いて，より発展的な分析手法について学ぶ．

　具体的には，一般化線形モデル，一般化線形混合モデルや因子分析，時系列分析といった分析手法から，ランダム化比較実験，マッチング法，不連続回帰，操作変数法といった実験・調査・分析デザインに関わる話題まで触れる．

　なお，「データ解析論II」は「データ解析論I」とあわせて履修することで社会調査士資格＜Ｅ＞区分の認定科目となっている．社会調査士取得を目指す学生は確認しておくこと．

　到達目標は以下の通りである．

各統計手法について，その目的と意義を説明することができる．
各統計手法について，各自で分析を実行できる．
分析結果について，適切に他者に説明できる．

授業内容

[第1講]イントロダクション
[第2講]一般化線形モデル①
[第3講]一般化線形モデル②
[第4講]一般化線形混合モデル①
[第5講]一般化線形混合モデル②
[第6講]因子分析①
[第7講]因子分析②
[第8講]時系列分析①
[第9講]時系列分析②
[第10講]ランダム化比較実験
[第11講]マッチング法
[第12講]回帰不連続デザイン
[第13講]操作変数法・発表準備
[第14講]プレゼンテーション

※ただし，履修者の状況により内容を一部変更することがある．

履修上の注意

　データ解析論Iの履修を前提とする．

　この授業ではRおよびRStudioを用いる．授業でも紹介するが，自宅のPCでもRおよびRStudioをインストールしておくこと．

準備学習（予習・復習等）の内容

教科書

　特になし，資料を用意する．

参考書

　適宜紹介する．

成績評価の方法

平常点30％，小課題20%，プレゼンテーション50％

平常点：授業評価アンケート，その他授業中に行う調査等の回答状況などの授業への積極性を評価する．
小課題：スキルチェックのための簡単な課題を課す．
プレゼンテーション：学期末に実施する．

その他

　社会調査士資格＜Ｅ＞区分の認定科目である．＜Ｆ＞科目と選択必修であり，本講義は「データ解析論I」と併せて履修することで＜Ｅ＞科目として認定される．

[第1講]

イントロダクション

授業の概要を紹介する．

[第2講]

アンケート項目の検討・データの整理①

この講義では，実際にオンライン上でアンケート調査を実施し，データを取得した上で分析を行います．
そのために，自身の興味・関心のある項目について質問項目を考えてもらい，質問項目の作成を行う．
- ただし，こちらでもいくつかの項目を用意するので，あわせて分析をするとよい．
「帰無仮説」と「対立仮説」および「データの分類」を復習しておくとよいでしょう．
この辺は基本的なことでもあるので，軽く復習しておきましょう．

量的／質的	データの名称	測定尺度	直接できる演算	主な代表値
量的データ	比率データ	比率尺度	＋－×÷	各種平均
量的データ	間隔データ	間隔尺度	＋－	算術平均
質的データ	順位データ	順位尺度	＞＝	中央値
質的データ	カテゴリデータ	名義尺度	度数カウント	最頻値

（参考：入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一)）

[第3講]

データの整理②

実施した調査によるデータ（調査が間に合わなければ，その他のデータ）を用いて，記述統計量の算出手法について学ぶ．
平均・分散・標準偏差・度数など．
- 過去に学んだことの復習なので，しっかりと確認しておきましょう＆Rでの算出方法を身に着けましょう．

[第4講]

RMarkdownの記法①

RMarkdown：
- R上でドキュメントを作成するツール
レポーティングが重要！
- 分析した結果を他の人に伝える必要がある．
- 自身の記録としても残しておく必要がある．
再現性が重要！
- 自身が行った分析を再度確認するために．
- 他の人にデータの分析結果の妥当性を確認してもらうために．
- コードと合わせて説明できることが望ましい．
学問においても再現性が重要視される

[第5講]

RMarkdownの記法②

第4講に引き続き，RMarkdownの記法について学ぶ．
さらに，htmlのみならず，docxやhtmlスライド形式での出力形式についても学ぶ．

[第6講]

実証分析の手続き・クロス集計表の作成①

実証分析：
クロス集計表：複数の質問項目を組み合わせて集計する手法
- ex. 朝食を食べているか否か×深夜アルバイトしているか否かなど．
- 企業の中でも基本的な統計手法としてよく用いられている．
その他，企業レポートなどで用いられている整理手法についても学ぶ．

[第7講]

クロス集計表の作成②

引き続きクロス集計について学ぶ．
- 特に，クロス集計の可視化を中心に学ぶ
- クロス集計のヒートマップなど
関連パッケージ：

rpivotTable

[第8講]

（単）回帰分析

回帰分析：説明変数が「量的変数」，応答変数が「量的変数」の関係を明らかにするための手法．
基本的には以下の式で表される．

\[y = \beta x_1 + \alpha + \epsilon \]

$y$は応答変数，$x_1$は説明変数を示し，$\beta$は係数（これを知りたい），$\alpha$は切片（これも知りたい）を示す．
$\epsilon$は誤差を示し，回帰分析は誤差の正規分布を仮定している．
イメージは中学校で学んだ1次関数．
- 2点を通る．．．から直線を推計したが，逆に複数の点に近い点を通った直線だと思うとよい．

[第9講]

t検定

t検定：説明変数が「2つの名義変数」，応答変数が「量的変数」の関係を明らかにするための手法．
- 「2群の平均値の差の検定」と呼ばれる．

[第10講]

重回帰分析①

あじゃらかほげほげ
- あわせて回帰分析において「ダミー変数」を用いた時の分析についても紹介する．

[第11講]

重回帰分析②

あじゃらかほげほげ
あじゃらかほげほげ
あじゃらかほげほげ
あじゃらかほげほげ

[第12講]

重回帰分析③

あじゃらかほげほげ
あじゃらかほげほげ
あじゃらかほげほげ
あじゃらかほげほげ

[第13講]

モデル選択・発表準備

グループのメンバーの興味があるテーマについて調査をして，発表をする．
以下の手順で分析を実施して，スライドを作成せよ．
- 分析対象とするデータの記述統計量（平均値・中央値・四分位点）を算出する．
- 対立仮説と帰無仮説を立てる
- 図表を作成する
- 結果を適切に解釈する．
1件の発表には最低でも2つの↑があること．

[第14講]

プレゼンテーション

各自によるプレゼンテーション（の予定）

Column

今日のTake Home Messages

データ解析論I（春学期）とデータ解析論II（秋学期）を履修しなければ，社会調査士E科目として認定されない．
RとRStudioというプログラムを用いる．
Googleアカウントを作成しておく必要がある．
- ファイル共有のため，

data(iris)
library(ggplot2)
g1<-ggplot(iris, #データフレームirisを使うことを宣言
           aes(x=Sepal.Length,　#x軸にはSepal.Lengthを使う
           y=Sepal.Width)) #ｙ軸はSepal.Widthを

g1 #描画

データの概要

データの頭10個

carat	cut	color	clarity	depth	table	price	x	y	z
0.23	Ideal	E	SI2	61.5	55	326	3.95	3.98	2.43
0.21	Premium	E	SI1	59.8	61	326	3.89	3.84	2.31
0.23	Good	E	VS1	56.9	65	327	4.05	4.07	2.31
0.29	Premium	I	VS2	62.4	58	334	4.20	4.23	2.63
0.31	Good	J	SI2	63.3	58	335	4.34	4.35	2.75
0.24	Very Good	J	VVS2	62.8	57	336	3.94	3.96	2.48
0.24	Very Good	I	VVS1	62.3	57	336	3.95	3.98	2.47
0.26	Very Good	H	SI1	61.9	55	337	4.07	4.11	2.53
0.22	Fair	E	VS2	65.1	61	337	3.87	3.78	2.49
0.23	Very Good	H	VS1	59.4	61	338	4.00	4.05	2.39

変数名リスト

変数名	内容
catat	キャラット
cut	カットの仕方
color	色
clarity	など
depth	など
table	など
price	など
x	など
y	など
z	など

演習問題

問題

演習問題：

以下の問題を回答してください．なお，提出はコードを提出するだけで良い．

リアクションペーパー：

授業で学んだことおよび感想を下記リンクからお答えください．

Column

ヒント

こんなことがかかわるかも？

データの概要

データの頭10個

carat	cut	color	clarity	depth	table	price	x	y	z
0.23	Ideal	E	SI2	61.5	55	326	3.95	3.98	2.43
0.21	Premium	E	SI1	59.8	61	326	3.89	3.84	2.31
0.23	Good	E	VS1	56.9	65	327	4.05	4.07	2.31
0.29	Premium	I	VS2	62.4	58	334	4.20	4.23	2.63
0.31	Good	J	SI2	63.3	58	335	4.34	4.35	2.75
0.24	Very Good	J	VVS2	62.8	57	336	3.94	3.96	2.48
0.24	Very Good	I	VVS1	62.3	57	336	3.95	3.98	2.47
0.26	Very Good	H	SI1	61.9	55	337	4.07	4.11	2.53
0.22	Fair	E	VS2	65.1	61	337	3.87	3.78	2.49
0.23	Very Good	H	VS1	59.4	61	338	4.00	4.05	2.39

変数名リスト

変数名	内容
catat	キャラット
cut	カットの仕方
color	色
clarity	など
depth	など
table	など
price	など
x	など
y	など
z	など

--- title: "データ解析論I第1講" output: flexdashboard::flex_dashboard: orientation: columns source_code: embed theme: journal toc: true toc_depth: 2 fig_mobile: true --- ```{r setup, include=FALSE} library(flexdashboard) ``` # 講義資料 {data-width=650} ## メイン資料 {.tabset .tabset-fade} ### 目次 * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ ### データ解析論Iについて #### 授業の概要・到達目標　現代社会はデータに満ちあふれている．これからの時代はデータとの適切な「付き合い方」ができなければ生き抜くことは困難であろう．将来，どのような進路を選ぶにしろ，データから離れて暮らすことは困難である．　この授業では，データを適切に分析する手法の学修を目的としてフリーソフトであるRを用いて，データの加工，Rマークダウンによるドキュメント生成および実証分析の基礎を学ぶ．あわせて，科学における再現可能性の重要性について学ぶ．　なお，「データ解析論I」は「データ解析論II」とあわせて履修することで社会調査士資格＜Ｅ＞区分の認定科目となっている．社会調査士取得を目指す学生は確認しておくこと．　到達目標は以下の通りである． 1. 各統計手法について，その目的と意義を説明することができる． 2. 各統計手法について，各自で分析を実行できる． 3. 分析結果について，適切に他者に説明できる． #### 授業内容 * [第1講]イントロダクション * [第2講]アンケート項目の検討・データの整理① * [第3講]データの整理② * [第4講]RMarkdownの記法① * [第5講]RMarkdownの記法② * [第6講]実証分析の手続き・クロス集計表の作成① * [第7講]クロス集計表の作成② * [第8講]（単）回帰分析 * [第9講]t検定 * [第10講]重回帰分析① * [第11講]重回帰分析② * [第12講]重回帰分析③ * [第13講]モデル選択・発表準備 * [第14講]プレゼンテーション ※ただし，履修者の状況により内容を一部変更することがある． #### 履修上の注意　この授業ではRおよびRStudioを用いる．授業でも紹介するが，自宅のPCでもRおよびRStudioをインストールしておくこと． #### 準備学習（予習・復習等）の内容　この授業では，各自の興味関心にあわせてアンケートを収集し，それに関する分析を通じて分析手法を学ぶ．広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること． #### 教科書　特になし，資料を用意する． #### 参考書　適宜紹介する． #### 成績評価の方法平常点30％，小課題20%，プレゼンテーション50％ ``` 平常点：授業評価アンケート，その他授業中に行う調査等の回答状況などの授業への積極性を評価する．小課題：スキルチェックのための簡単な課題を課す．プレゼンテーション：学期末に実施する． ``` #### その他　社会調査士資格＜Ｅ＞区分の認定科目である．＜Ｆ＞科目と選択必修であり，本講義は「データ解析論II」と併せて履修することで＜Ｅ＞科目として認定される． ### 参考：データ解析論II（後期科目） #### 授業の概要・到達目標　データ解析論IIでは，データ解析論Iで学んだ統計手法をもとに，フリーソフトであるRを用いて，より発展的な分析手法について学ぶ．　具体的には，一般化線形モデル，一般化線形混合モデルや因子分析，時系列分析といった分析手法から，ランダム化比較実験，マッチング法，不連続回帰，操作変数法といった実験・調査・分析デザインに関わる話題まで触れる．　なお，「データ解析論II」は「データ解析論I」とあわせて履修することで社会調査士資格＜Ｅ＞区分の認定科目となっている．社会調査士取得を目指す学生は確認しておくこと．　到達目標は以下の通りである． 1. 各統計手法について，その目的と意義を説明することができる． 2. 各統計手法について，各自で分析を実行できる． 3. 分析結果について，適切に他者に説明できる． #### 授業内容 * [第1講]イントロダクション * [第2講]一般化線形モデル① * [第3講]一般化線形モデル② * [第4講]一般化線形混合モデル① * [第5講]一般化線形混合モデル② * [第6講]因子分析① * [第7講]因子分析② * [第8講]時系列分析① * [第9講]時系列分析② * [第10講]ランダム化比較実験 * [第11講]マッチング法 * [第12講]回帰不連続デザイン * [第13講]操作変数法・発表準備 * [第14講]プレゼンテーション ※ただし，履修者の状況により内容を一部変更することがある． #### 履修上の注意　データ解析論Iの履修を前提とする．　この授業ではRおよびRStudioを用いる．授業でも紹介するが，自宅のPCでもRおよびRStudioをインストールしておくこと． #### 準備学習（予習・復習等）の内容　この授業では，各自の興味関心にあわせてアンケートを収集し，それに関する分析を通じて分析手法を学ぶ．広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること． #### 教科書　特になし，資料を用意する． #### 参考書　適宜紹介する． #### 成績評価の方法平常点30％，小課題20%，プレゼンテーション50％ ``` 平常点：授業評価アンケート，その他授業中に行う調査等の回答状況などの授業への積極性を評価する．小課題：スキルチェックのための簡単な課題を課す．プレゼンテーション：学期末に実施する． ``` #### その他　社会調査士資格＜Ｅ＞区分の認定科目である．＜Ｆ＞科目と選択必修であり，本講義は「データ解析論I」と併せて履修することで＜Ｅ＞科目として認定される． ### [第1講] #### イントロダクション * 授業の概要を紹介する． ### [第2講] #### アンケート項目の検討・データの整理① * この講義では，実際にオンライン上でアンケート調査を実施し，データを取得した上で分析を行います． * そのために，自身の興味・関心のある項目について質問項目を考えてもらい，質問項目の作成を行う． - ただし，こちらでもいくつかの項目を用意するので，あわせて分析をするとよい． * 「帰無仮説」と「対立仮説」および「データの分類」を復習しておくとよいでしょう． * この辺は基本的なことでもあるので，軽く復習しておきましょう．量的／質的 | データの名称 | 測定尺度 | 直接できる演算 | 主な代表値 --- | --- | --- | --- | --- 量的データ | 比率データ | 比率尺度 | ＋－×÷ | 各種平均量的データ | 間隔データ | 間隔尺度 | ＋－ | 算術平均質的データ | 順位データ | 順位尺度 | ＞＝ | 中央値質的データ | カテゴリデータ | 名義尺度 | 度数カウント | 最頻値（参考：入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一)） ### [第3講] #### データの整理② * 実施した調査によるデータ（調査が間に合わなければ，その他のデータ）を用いて，記述統計量の算出手法について学ぶ． * 平均・分散・標準偏差・度数など． - 過去に学んだことの復習なので，しっかりと確認しておきましょう＆Rでの算出方法を身に着けましょう． ### [第4講] #### RMarkdownの記法① * RMarkdown： - R上でドキュメントを作成するツール * レポーティングが重要！ - 分析した結果を他の人に伝える必要がある． - 自身の記録としても残しておく必要がある． * 再現性が重要！ - 自身が行った分析を再度確認するために． - 他の人にデータの分析結果の妥当性を確認してもらうために． - コードと合わせて説明できることが望ましい． * 学問においても再現性が重要視される ### [第5講] #### RMarkdownの記法② * 第4講に引き続き，RMarkdownの記法について学ぶ． * さらに，htmlのみならず，docxやhtmlスライド形式での出力形式についても学ぶ． ### [第6講] #### 実証分析の手続き・クロス集計表の作成① * 実証分析： * クロス集計表：複数の質問項目を組み合わせて集計する手法 - ex. 朝食を食べているか否か×深夜アルバイトしているか否かなど． - 企業の中でも基本的な統計手法としてよく用いられている． * その他，企業レポートなどで用いられている整理手法についても学ぶ． ### [第7講] #### クロス集計表の作成② * 引き続きクロス集計について学ぶ． - 特に，クロス集計の可視化を中心に学ぶ - クロス集計のヒートマップなど * 関連パッケージ： ``` rpivotTable ``` ### [第8講] #### （単）回帰分析 * 回帰分析：説明変数が「量的変数」，応答変数が「量的変数」の関係を明らかにするための手法． * 基本的には以下の式で表される． $$y = \beta x_1 + \alpha + \epsilon $$ * $y$は応答変数，$x_1$は説明変数を示し，$\beta$は係数（これを知りたい），$\alpha$は切片（これも知りたい）を示す． * $\epsilon$は誤差を示し，回帰分析は誤差の正規分布を仮定している． * イメージは中学校で学んだ1次関数． - 2点を通る．．．から直線を推計したが，逆に複数の点に近い点を通った直線だと思うとよい． ### [第9講] #### t検定 * t検定：説明変数が「2つの名義変数」，応答変数が「量的変数」の関係を明らかにするための手法． - 「2群の平均値の差の検定」と呼ばれる． ### [第10講] #### 重回帰分析① * あじゃらかほげほげ * あわせて回帰分析において「ダミー変数」を用いた時の分析についても紹介する． ### [第11講] #### 重回帰分析② * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ ### [第12講] #### 重回帰分析③ * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ * あじゃらかほげほげ ### [第13講] #### モデル選択・発表準備 * グループのメンバーの興味があるテーマについて調査をして，発表をする． * 以下の手順で分析を実施して，スライドを作成せよ． - 分析対象とするデータの記述統計量（平均値・中央値・四分位点）を算出する． - 対立仮説と帰無仮説を立てる - 図表を作成する - 結果を適切に解釈する． * 1件の発表には最低でも2つの↑があること． ### [第14講] #### プレゼンテーション * 各自によるプレゼンテーション（の予定） ## Column {data-width=350} ### 今日のTake Home Messages * データ解析論I（春学期）とデータ解析論II（秋学期）を履修しなければ，社会調査士E科目として認定されない． * RとRStudioというプログラムを用いる． * Googleアカウントを作成しておく必要がある． * ファイル共有のため， ``` data(iris) library(ggplot2) g1<-ggplot(iris, #データフレームirisを使うことを宣言 aes(x=Sepal.Length,　#x軸にはSepal.Lengthを使う y=Sepal.Width)) #ｙ軸はSepal.Widthを g1 #描画 ``` ### データの概要 #### データの頭10個 ```{r} library(ggplot2) knitr::kable(head(diamonds, 10)) ``` #### 変数名リスト | 変数名 | 内容 | | ------- | ------------ | | catat | キャラット | | cut | カットの仕方 | | color | 色 | | clarity | など | | depth | など | | table | など | | price | など | | x | など | | y | など | | z | など | # 演習問題 ## 問題 {.tabset .tabset-fade} ### 問題 #### 演習問題： * 以下の問題を回答してください．なお，提出はコードを提出するだけで良い． #### リアクションペーパー： * 授業で学んだことおよび感想を下記リンクからお答えください． ## Column {data-width=350} ### ヒント * こんなことがかかわるかも？ ```{r} gauge(diamonds, min = 0, max = 50, gaugeSectors( success = c(41, 50), warning = c(21, 40), danger = c(0, 20) )) ``` ### データの概要 #### データの頭10個 ```{r} library(ggplot2) knitr::kable(head(diamonds, 10)) ``` #### 変数名リスト | 変数名 | 内容 | | ------- | ------------ | | catat | キャラット | | cut | カットの仕方 | | color | 色 | | clarity | など | | depth | など | | table | など | | price | など | | x | など | | y | など | | z | など |