Тамхитай холбоотой үхэл, өвчлөлийг бууруулахын тулд тамхины татварыг ихэсгэн хүн амын дунд тамхины хэрэглээг багасгах. Тамхины хэрэглээг 20% бууруулахын тулд татварыг хэдэн хувь нэмэгдүүлэх вэ гэдэг нь тамхины эрэлтийн мэдрэмжээс хамаарна. Хэрэв эрэлтийн мэдрэмж -1 бол тамхины үнийг 20% нэмэгдүүлбэл хэрэглээ 20% багасна. Бид эрэлтийн мэдрэмжийг мэдэхгүй тул борлуулалт болон үнийн датанаас үнэлэх хэрэгтэй.
Эрэлтийн үнийн мэдрэмж дараах томъёогоор тодорхойлогдоно
\[elasticity = \epsilon = \frac{dQ_d/Q_d}{dP/P} = \frac{d\log(Q_d)}{d\log(P)}.\]
Иймд хэрэв үнэ, эрэлтийн хэмжээ өгөгдсөн бол дараахь шугаман регрессээр эрэлтийн мэдрэмжийг олж болно:
\[\log Q_d = \alpha + \beta \log P + u,\]
setwd("C:/Users/User/Dropbox/ECONOMETRICS/EconometricsR/Stock Watson/datasets")
load("cig85_95.Rdata")Борлуулалтын датанаас \(\log(Q)\)-г \(\log(P)\)-д регрессдэн мэдрэмжийг нийцтэй үнэлэх боломжгүй учир инструмент хувьсагч ашиглан үнэлнэ.
library(dplyr)
library(AER) # packaged associated with Applied Econometrics in R cig <- cig85_95 %>%
filter(year==1985 | year==1995)
cig <- cig %>%
arrange(state, year) %>%
mutate(rtax = tax / cpi,
rtaxs = taxs / cpi,
rtaxso = rtaxs - rtax,
logQ = log(packpc),
logP = log(avgprs / cpi),
logIncome = log(income / (pop*cpi))) %>%
group_by(state) %>%
mutate(dlogQ = logQ - lag(logQ),
dlogP = logP - lag(logP),
dlogIncome=logIncome - lag(logIncome),
dtrtaxs = rtaxs - lag(rtaxs),
dtrtax = rtax - lag(rtax),
dtrtaxso = rtaxso - lag(rtaxso)) %>%
filter(year==1995)Эхний инструмент нь \(SalesTax_i\): нийт борлуулалтын татварт тамхины эзлэх хувь, rtaxso = rtaxs - rtax.
Энэ инструмент хувьсагч маань хүчин төгөлдөр инструмент байхын тулд дараахь 2 нөхцлийг биелүүлэх ёстой
Зөвхөн 95 оны датаг ашиглан \[\log(Price)=\alpha+\beta*SalesTax_i+u\] шугаман регрессийг үнэлэхэд.
\[\widehat{\log(P)} = \underset{(0.028)}{4.616}+\underset{(0.005)}{0.031}\log(P)\]
fit1 <- lm(logP~rtaxso, data=cig)
coeftest(fit1, vcov = vcovHC(fit1, "HC1"))##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.6165463 0.0289177 159.6444 < 2.2e-16 ***
## rtaxso 0.0307289 0.0048354 6.3549 8.489e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(fit1)$r.squared## [1] 0.4709961
\(R^2=0.47\) учир ойролцоогоор \(\log(Price)\)-ийн 47%-г \(SalesTax\)-р тайлбарлаж чадна.
fit2 <- lm(cig$logQ ~ fit1$fitted.values)
coef(fit2)## (Intercept) fit1$fitted.values
## 9.719877 -1.083587
IV регрессийн үр дүнг ихэвчлэн \[\widehat{\log(Q)} = \underset{(1.55)}{9.72}-\underset{(0.32)}{1.08}\log(P)\] гэж тэмдэглэдэг
AER package-ийн ivreg функцыг ашиглавал
iv = ivreg(logQ ~ logP|rtaxso , data = cig)
iv_V <- vcovHC(iv, "HC1")
coeftest(iv, vcov=iv_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.71988 1.52832 6.3598 8.346e-08 ***
## logP -1.08359 0.31892 -3.3977 0.001411 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
TSLS үнэлгээнээс харахад тамхины эрэлт харьцангуй мэдрэмжтэй: үнэ 1 % өсөхөд хэрэглээ 1.08 буурна. Инстументийн экзоген нөхцөл биелэхгүй байх болмжтой учир, энэ үнэлгээ төдийлэн найдвартай биш. Тамхины борлуулалтад нөлөөлөх хувьсагч орхигдсон байж болох талтай. Жишээ нь өндөр орлоготой мужид борлуулалтын татвараас илүүтэйгээр, хүн амын орлогын татвар нь төсвийн ихэнх хувийг бүрдүүлнэ. Тиймээс татварын бодлого нь хүн амын орлогоос хамаарна. Тамхины борлуулалт ч орлогоос хамааралтай байх боломжтой. Тэгэхээр эрэлтийн тэгшитгэлээ орлогоос хамааруулан үнэлэх шаардлагатай.
Орлого эрэлтэд нөлөөлөх учир эрэлтийн тэгшитгэлийн error term-д агуулагдана. Хэрэв борлуулалтын татвар нь орлоготой хамааралтай бол эрэлтийн тэгшитгэлийн \(u\)-тай ч мөн хамааралтай болох учир экзоген нөхцлийг зөрчинө. Тэгэхээр бидний өмнө үнэлсэн IV регресс маань орхигдсон хувьсагчийн гажуутай гэсэн үг. Иймд энэ гажуудалыг засахын тулд \(\log(Income)\)-г эрэлтийн тэгшитгэлд оруулж үнэлэх хэрэгтэй \[\log(Q)=\alpha+\beta_1\log(P)+\beta_2\log(Income)+u\]
iv2 <- ivreg(logQ ~ logP + logIncome | logIncome + rtaxso , data = cig)
iv2_V <- vcovHC(iv2, "HC1")
coeftest(iv2, vcov = iv2_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.43066 1.25939 7.4883 1.935e-09 ***
## logP -1.14338 0.37230 -3.0711 0.003611 **
## logIncome 0.21452 0.31175 0.6881 0.494917
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\[\widehat{\log(Q)} = \underset{(1.26)}{9.43}-\underset{(0.37)}{1.14}\log(P)+\underset{(0.31)}{0.21}\log(Inc)\] Энэ регрессд зөвхөн ганц инструмент \(SalesTax_i\)-г ашиглаж байна. Өөр нэг инструмент болж чадах хувьсагч бол \(CigTax\): зөвхөн тамхины бүтээгдэхүүнээс авах татвар.
iv3 <- ivreg(logQ ~ logP + logIncome | logIncome + rtaxso + rtaxs, data = cig)
iv3_V <- vcovHC(iv3, "HC1")
coeftest(iv3, vcov = iv3_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.89496 0.95922 10.3157 1.947e-13 ***
## logP -1.27742 0.24961 -5.1177 6.211e-06 ***
## logIncome 0.28040 0.25389 1.1044 0.2753
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\[\widehat{\log(Q)} = \underset{(0.96)}{9.89}-\underset{(0.25)}{1.28}\log(P)+\underset{(0.25)}{0.28}\log(Inc)\] Эрэлтийн мэдрэмжийн үнэлгээний стандарт алдаа нь 0.37-с 0.25 болж багассан учир илүү нарийвчлал сайтай үнэлгээ гэж хэлж болно. Эдгээр үнэлгээ хир найдвартай эсэх нь инструментийн шинж чанараас хамаарна.
Татвартай холбоотой хувьсагчид экзоген эсэхийг авч шалгая. Эрэлтийн тэгшитгэлийн алдаанд (\(u\)) ямар хүчин зүйлс орох талаар, эдгээр хүчин зүйлс интрументтэй хамааралтай эсэхээс шалтгаалан экзоген нөхцлийг шалгаж болно. Яагаад зарим мужуудад тамхины борлуулалт өндөр байдаг вэ? Нэг шалтгаан нь орлого байж болох боловч бид орлогыг эрэлтийн тэгшитгэлд оруулсан учир орлогоос хамаарсан хэсэг нь эрэлтийн тэгшитгэлийн алдаанд орохгүй. Бас нэг шалтгаан нь бүс нутгийн шинж чанар. Жишээлбэл, тамхи тариалдаг мужуудад тамхины хэрэглээ өндөр байдаг. Энэ хүчин зүйл татвартай хамааралтай юу? Тамхины үйлдвэрлэл тухайн мужийн тэргүүлэх үйлдвэрлэлийн салбар бол тамхины компаниуд тамхины татварыг бага байлгах лобби хийснээр татварт нөлөөлж болох юм. Тэгэхээр эрэлтийн татвар экзоген хувьсагч болж чадахгүй байх боломжтой юм.
Үүний нэг шийдэл нь эрэлтийн тэгшитгэлд тухайн мужийн тамхины үйлдвэрлэлийн хэмжээг оруулах. \[\log(Q_{i})=\alpha+\beta_1\log(P_{i})+\beta_2\log(Income_{i})+\beta_3 Prod_i+u_{i}\]
Панел дататай үед бид өөр аргаар үүнийг шийдэж болно. Мужийн тамхины үйлдвэрлэлийн хэмжээ өөрчлөгдөхгүй гэж үзвэл (бүс нутгийн шинж чанартай хувьсагчийг individual effect гэдэг)
\[\log(Q_{it})=\alpha+\beta_1\log(P_{it})+\beta_2\log(Income_{it})+\beta_3 Prod_i+u_{it}\]
Хувийн эффектийг арилгахын тулд хугацааны дагуу ялгавар авбал \[\Delta\log(Q_{it})=\beta_1\Delta\log(P_{it})+\beta_2\Delta\log(Income_{it})+\Delta u_{it}\]
Үнэлэгдсэн эрэлтийн мэдрэмжийн утга нь ямар хугацааны турш ялгавар авсанаас хамаарна. Тамхи донтуулдаг бүтээгдэхүүн учир, үнийн өөрчлөлт богино хугацаанд бараг мэдрэмжгүй боловч урт хугацаанд эрэлтэд нөлөөлнө.
iv4 <- ivreg(dlogQ ~ dlogP + dlogIncome | dlogIncome + dtrtaxso, data = cig)
iv4_V <- vcovHC(iv4, "HC1")
coeftest(iv4, vcov = iv4_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.117962 0.068217 -1.7292 0.09062 .
## dlogP -0.938014 0.207502 -4.5205 4.454e-05 ***
## dlogIncome 0.525970 0.339494 1.5493 0.12832
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
iv5 <- ivreg(dlogQ ~ dlogP + dlogIncome | dlogIncome + dtrtax, data = cig)
iv5_V <- vcovHC(iv5, "HC1")
coeftest(iv5, vcov = iv5_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.017049 0.067217 -0.2536 0.8009
## dlogP -1.342515 0.228661 -5.8712 4.848e-07 ***
## dlogIncome 0.428146 0.298718 1.4333 0.1587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
iv6 <- ivreg(dlogQ ~ dlogP + dlogIncome | dlogIncome + dtrtax + dtrtaxso, data = cig)
iv6_V <- vcovHC(iv6, "HC1")
coeftest(iv6, vcov = iv6_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.052003 0.062488 -0.8322 0.4097
## dlogP -1.202403 0.196943 -6.1053 2.178e-07 ***
## dlogIncome 0.462030 0.309341 1.4936 0.1423
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Caption for the picture.
Инструмент хувьсагч экзоген эсэхийг тогтоохын тулд судлаж буй зүйлийнхээ талаар гүнзгий мэдлэгтэй байх шаардлагатай. Олон инструмент хувьсагчтай үед статистикийн аргаар тогтоох аргачлал бий. overidentification test гэж нэрлэдэг.
Over-identified үед ямар инструмент ашиглахаас хамаарч параметрийн үнэлгээ янз бүр байх боловч инструментууд экзоген нөхцлийг хангаж байвал алийг нь ч ашигласан бай ойролцоо утгатай байна. Хэрэв инструмент үнэлгээнүүд хоорондоо эрс ялгаатай бол тэдний аль нэг нь, эсвэл бүгд экзоген нөхцлийг хангахгүй гэсэн үг.
\(y=X\beta+u\) тэгшитгэлд \(Z_1, Z_2\) инструментууд экзоген (\(\mathrm{cor}(Z_1,u) = 0\)) бол уг инструмент маань \(\hat{u}^{TSLS}=y-X*\hat{\beta}_{TSLS}\)-тай хамааралгүй байна. Иймд \(\hat{u}^{TSLS}\)-г \(Z_1, Z_2\)-д регрессдэхэд коэффициентүүд нь 0 байх ёстой. Эдгээр коэффициентүүдийг тэг эсэхийг \(F\) тестээр шалгаж болно. Энэ тестийг \(J\)-тест гэх бөгөөд тест статистик нь \(J=mF\sim\chi^2(m-k)\) тархалттай. Энд \(m\) инструмент хувьсагчийн тоо, \(k\)-эндоген хувьсагчийн тоо.
cig$u_hat <- iv6$residuals
f <- lm(u_hat ~ dtrtax + dtrtaxso, data=cig) # residuals-г IV хувьсагчдад регрессдэнэ
J <- 2*summary(f)$fstatistic[1] # J = mF Эндоген хувьсагчийн тоо \(к=1\) (\(\log P_{i}\)), инструмент хувьсагчийн тоо \(m=2\) учир J-статистик нь \(\chi^2(1)\) тархалттай. \(p\)- утгыг тооцвол
# 5%-ийн критик утга
qchisq(0.95, 1)## [1] 3.841459
# p-утга
1 - pchisq(J, 1)## value
## 0.02635671
Иймд 2 инструмент хоёулаа экзоген гэдэг таамаглал 5%-ийн түвшинд няцаагдана. Энэ тестийн үр дүнд дор хаяж нэг инструмент нь эндоген болж таарав. Дараахь 3 боломжтой
-1. dtrtax эндоген, dtrtaxso экзоген -2. dtrtax экзоген, dtrtaxso эндоген -3. dtrtax, dtrtaxso- хоёул эндоген
Бид dtrtax-г dtrtaxso-той харьцуулан dtrtaxso-г экзоген гэж үзнэ.
1985 - 1990 оны хооронд 5 жилийн ялгаврыг авч эрэлтийн мэдрэмжийг үнэлж үзвэл -0.79 болно. 10 жилийн урт хугацаанд эрэлт нь илүү үнийн мэдрэмжтэйг харуулж байна.
Хүүхдийн тоо эмэгтэйчүүдийн ажил эрхлэлтэд хэрхэн нөлөөлөх вэ? Labor supply equation \[Weeksm1=\alpha +\beta*Morekids +u\].
setwd("C:/Users/User/Dropbox/ECONOMETRICS/EconometricsR/Stock Watson/datasets")
load("Fertility.Rdata")means <- fertility %>%
group_by(morekids) %>%
summarise(dundaj=mean(weeksm1))| morekids | dundaj |
|---|---|
| 0 | 21.06843 |
| 1 | 15.68143 |
1979 онд ажилласан долоо хоногийн тоо групп тус бүрийн дунджаар 2-с бага хүүхэдтэй эмэгтэйчүүдийн хувьд дунджаар 21.06, 2 оос олон хүүхэдтэй эмэгтэйчүүдийн хувьд дунджаар 15.68. 2-с олон хүүхэдтэй эмэгтэйичүүд, 2-с бага хүүхэдтэй эмэгтэйчүүдээс дунджаар 5.387 долоо хоног бага ажилладаг. Шугаман регрессээр харуулбал.
ols <- lm(weeksm1 ~ morekids, data=fertility)
ols_V <- vcovHC(ols, "HC1")
coeftest(ols, vcov = ols_V)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.068428 0.056068 375.765 < 2.2e-16 ***
## morekids -5.386996 0.087149 -61.813 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Групп болгоны хувьд ажилласан 7 хоногийн тоог boxplot-д дүрсэлбэл
2-с олон хүүхэдтэй эмэгтэйчүүдийн ажилласан долоо хоногийн тоо дунджаар 15.68 боловч медиан нь 0 байна. ТУс бүрийн тархалтыг нь хистограммаар үзүүлбэл
Шугаман магадлалын загвараар үнэлбэл (logit загвараар үнэлэх боломжтой ч TSLS-ийн эхний шатны үнэлгээ болох учир шугаман магадлалаар үнэлэв)
linprob <- lm(morekids ~ samesex, data=fertility)
summary(linprob)##
## Call:
## lm(formula = morekids ~ samesex, data = fertility)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.4139 -0.4139 -0.3464 0.5860 0.6536
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.346425 0.001365 253.79 <2e-16 ***
## samesex 0.067525 0.001920 35.17 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4844 on 254652 degrees of freedom
## Multiple R-squared: 0.004835, Adjusted R-squared: 0.004831
## F-statistic: 1237 on 1 and 254652 DF, p-value: < 2.2e-16
\[morekids = \underset{(0.001)}{0.346} + \underset{(0.002)}{0.066}*samesex\]
samesex = 1 байвал ахиад хүүхэдтэй болох магадлал 6.6%-р илүү. t-statistic = 35.2 учир статистикийн ач холбогдолтой
samesex нь рандом хувьсагч бөгөөд хөдөлмөрийн labor supply equation-ы алдаатай хамааралгүй учир инструмент экзогений нөхцөл биелнэ. Эхний шатны F-statistic нь (F = 1238) 10-с их тул instrument relevance нөхцөл биелнэ. Ийм д samesex нь хучин төгөлдөр инструмент болж чадна
iv <- ivreg(weeksm1 ~ morekids|samesex, data = fertility)
iv1 <- ivreg(weeksm1 ~ morekids + agem1 + black + hispan + othrace|agem1 + black + hispan + othrace + samesex, data = fertility)Нэмэлт хувьсагчдыг ашигласан үнэлгээ андны үнэлгээнээс төдийлэн зөрөхгүй байна. samesex хувьсагч agem1, black, hispan, othrace хувьсагчуудтай хамааралгүй учир орхигдсон хувьсагчийн гажуудал байхгүй гэж хэлж болох юм.