Note:今回のレポーとは、単位が不明であったため、単位を記述していない。
df <- read.csv("data_final.csv") #使用するデータをインポートする
head(df) #データを表示する
## wage female age bachelor permanent marriage tenure hour experience
## 1 50 0 45 1 1 0 31 51 24
## 2 30 0 30 1 1 0 45 51 9
## 3 42 1 54 0 1 1 20 55 37
## 4 8 1 64 0 1 1 17 35 47
## 5 12 1 33 0 0 0 43 40 16
## 6 50 0 36 1 1 1 40 45 15
result <- lm(wage ~ tenure, data = df)
plot(df$wage, df$tenure) #散布図を表示する
summary(result)
##
## Call:
## lm(formula = wage ~ tenure, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.4285 -6.7841 0.1553 6.4502 28.9053
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 45.87015 1.48520 30.89 <2e-16 ***
## tenure -0.49551 0.03592 -13.79 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.4 on 753 degrees of freedom
## Multiple R-squared: 0.2017, Adjusted R-squared: 0.2007
## F-statistic: 190.3 on 1 and 753 DF, p-value: < 2.2e-16
cor(df$tenure, df$wage)
## [1] -0.4491509
cor.test(df$tenure, df$wage)
##
## Pearson's product-moment correlation
##
## data: df$tenure and df$wage
## t = -13.795, df = 753, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5043392 -0.3903082
## sample estimates:
## cor
## -0.4491509
解答: 散布図より、賃金と勤続年数の間には、負の相関があることが分かる。単回帰の結果から、P値が0.05以下である為、統計的に有意水準である。 賃金と勤続年数の間には、適度な負の相関が成立し、95%信頼区間より、その相関係数は、(-0.5810123 -0.4100065)である。
library(estimatr)
result2 <- lm_robust(wage ~ tenure, data = df)
result2
## Estimate Std. Error t value Pr(>|t|) CI Lower CI Upper
## (Intercept) 45.8701488 1.8730478 24.48958 7.087523e-98 42.1931322 49.5471653
## tenure -0.4955094 0.0435546 -11.37674 8.741457e-28 -0.5810123 -0.4100065
## DF
## (Intercept) 753
## tenure 753
解答: まず、P値の値が0.05以下である為、賃金と勤続年数の間に全く関係がないという帰無仮説が棄却される。 勤続年数のパラメーターから、勤続年数が1年上がるごとに、賃金が-0.496下がる傾向にあることが分かる。 95%信頼区間において、勤続年数が(-0.5810123, -0.4100065)であり、勤続年数は、賃金に対して負の関係があることが推定される。
この単回帰の限界は、一つには、線形の変化しかとられないため、残差が大きくなり、モデルとして説明力が低くなることである。 2変数が非線形(e.g.二次関数に近似する)に変化する時、2変数に関係があるにも関わらず、関係性をうまく説明できないことがある。
3.勤続年数が賃金に与える因果効果を、コントロール変数を用いた回帰分析にて推定し、推定結果の解釈、コントロール変数を選択した理由、およびその限界について論ぜよ
iv_robust(wage ~ tenure + female + marriage | tenure + female + experience + hour, df)
## Estimate Std. Error t value Pr(>|t|) CI Lower
## (Intercept) 58.0994270 3.2405521 17.928867 4.181757e-60 51.7378089
## tenure -0.5692853 0.0589665 -9.654385 7.229916e-21 -0.6850441
## female -8.8471405 0.8264182 -10.705404 5.475631e-25 -10.4695050
## marriage -9.4323412 2.0833354 -4.527519 6.938062e-06 -13.5221950
## CI Upper DF
## (Intercept) 64.4610450 751
## tenure -0.4535265 751
## female -7.2247759 751
## marriage -5.3424875 751
解答: 上記の多重回帰分析より、勤続年数が、賃金に与える因果効果は、勤続年数1年当たり、およそ-o.57となった。 今回の重回帰では、全ての説明変数のp値が0.05以下である為、統計的に有意である。 95%信頼区間より、(-0.6850441 -0.4535265)であり、始めの検証と同じく、賃金を経験年数の間には、負の関係性があると推定される。
各コントロール変数を選択した理由は、以下のとおりである。
・female…ジェンダー指数が低い日本では、男女間に賃金格差があることが推定され、また、結婚後の労働形態に男女間で大きな差が生じると推定したからである。具体的には、女性は、パート等の非正規職に就き、男性は正社員のままであると考察した。
・marriage…結婚することで、職を変える人も多く、また賃金が安定しているから結婚する人も多いと予想したため、交絡因子として、コントロールするためにモデルに加えた。
・hours…労働時間は、勤続年数にも、賃金にも影響を与えている交絡因子であると考えたので、今回コントロール変数としてモデルに組み入れた。
・ageは、experienceと0.9を超える相関関係があるため、多重共線性の問題を考慮し、排除した。年を重ねれば、同様の作業をしている場合、経験も同じ分増えると考えるのは、至極普通の結論に感ぜられる。
重回帰分析の限界は、まず、どのコントロール変数を選択するのが困難である点である。一般的に、背景知識を使ってコントロール変数(媒介変数、交絡因子等)を特定するが、ぞの背景知識を得るのも使うのもまた、難しい場合が多い。 次に挙げれるのが、多重共線性の問題である。Rを使う場合は、多重共線性は自動的に排除されることが多いが、多重共線性の問題が生じると、説明力が高くなり過ぎ、分散が大きくなるという傾向がある。多重共線性の問題は、各変数との相関関係を取ることで防ぐことができる。