library(wooldridge)
data("prison")
help("prison")
prison: 45 değişken üzerinde 714 gözlem içeren bir data. state: alfabetik dc durumu:9 year: 80-90 govelec: 1 valilik seçimi blacksiyah orantısı metro: metrodaki siyah oran
data("wage1")
help("wage1")
wage: ortalama saatlik ücret educ: eğitim yılı exper: yılların potansiyel deneyimi tenure:normal iş veren yılları nonwhite: 1 beyaz değilse
data("wine")
help("wine")
wine: 5 değişken üzerinde 21 gözlem içeren bir data. country : ülkeler alcohol: litre başına kişi başı şarap alkol deatsh: 1000de ölüm heart: 1000de kalp hastalığı liver: 1000de karaciğer hastalığı
data("smoke")
help("smoke")
smoke:10 değişken üzerinde 807 gözlem içeren bir data. educ: okul yılları cigpric: eyalet fiyatı white: 1 beyaz age: yıl olarak income: yıllık gelir
data("labsup")
help("labsup")
labsup: 20 değişken üzerinde 31857 gözlem içeren bir data.
kids: çocuk sayısı boys2: ilk iki doğum erkek girls2: ilk iki doğum kız agefstm: ilk doğumda annenin yaşı faminc: aile geliri, $1000s
##2.soru Bu 5 veri setinden birini seçin ver en az 4 bağımsız değişkenli bir model tahmin edin. Değişkenlerde logaritma kullandınız mı? Neden kullandınız, neden kullanmadınız?**
wolldridge de labsup verisini kullanmaya karar verdim.
library(wooldridge)
data("labsup")
verilere bakalım
library(rmarkdown)
paged_table(labsup)
?labsup
\[log(kids)=\beta_0+ \beta_1morekids+\beta_2boys2+ \beta_3girls2+ \beta_4boy1st+u\]
cokreg <- lm(log(kids)~ morekids+boys2+girls2+boy1st,data = labsup)
summary(cokreg)
##
## Call:
## lm(formula = log(kids) ~ morekids + boys2 + girls2 + boy1st,
## data = labsup)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.14302 -0.13551 -0.00089 0.00380 1.24790
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.692229 0.001817 380.916 < 2e-16 ***
## morekids 0.544776 0.001642 331.842 < 2e-16 ***
## boys2 -0.007509 0.002294 -3.274 0.00106 **
## girls2 0.001806 0.002347 0.770 0.44147
## boy1st 0.004624 0.002324 1.989 0.04669 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1463 on 31852 degrees of freedom
## Multiple R-squared: 0.7761, Adjusted R-squared: 0.7761
## F-statistic: 2.76e+04 on 4 and 31852 DF, p-value: < 2.2e-16
Diğer iki değişkeni sabitken ilk iki doğum erkek getirisinin sıfır olup olmadığını test etmek için kurduğumuz hipotez H0:β2=0 olarakyazarız. Bu hipotezi reddersek H1:β2>0 alternatif hipotezini kabulederiz
n<-nobs(cokreg)
n
## [1] 31857
boys2 tahmini katsayı β2: -0.0075.
gözlem sayısı n=31857
t dağılımı için serbestlik derecesi: n-k-1=31857-4-1= 31852
%95 olasılıkta t değeri?: bulalım
qt(0.95,31852)
## [1] 1.644901
%99 olasılıkta
qt(0.99,31852)
## [1] 2.326465
%99 olasılıkta t değeri: 2.326465
büyük gözlem sayısına sahibiz bu nedenle t değerlerimiz, normal dağılım kritik değerlerine çok yakın.
\[boys2 değişkeni t value değeri:-3,274\] \[mutlak değerde: 3,27\]
kritik değerde boys2 değişkeninde %1 durumunda istatistiksel olarak anlamlı. H0 hipotezini reddediyoruz ve boys2 katsayısı sıfırdan büyüktür.
##4.soru Her bağımsız değişken katsayısı için bir güven aralığı oluşturun ve güven aralığı grafiğini çizin.
confint(cokreg)
## 2.5 % 97.5 %
## (Intercept) 6.886674e-01 0.695791228
## morekids 5.415580e-01 0.547993444
## boys2 -1.200472e-02 -0.003012855
## girls2 -2.793079e-03 0.006405436
## boy1st 6.771348e-05 0.009179455
confint bizim için %95 güven aralığını oluşturacaktır. bir de %99 güven aralığı oluşturalım.
confint(cokreg, level=0.99)
## 0.5 % 99.5 %
## (Intercept) 0.687548033 0.696910569
## morekids 0.540546795 0.549004623
## boys2 -0.013417579 -0.001600001
## girls2 -0.004238403 0.007850761
## boy1st -0.001363976 0.010611145
library(coefplot)
## Loading required package: ggplot2
coefplot(cokreg)
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.
##boys2 katsayısı güven aralığını kapsamamaktadır
##5.soru İstediğiniz katsayılar için bir kısıtlı model oluşturun ve F testi yapın. Sonuçlarınızı açıklayın.
tahmini denklem: log(kids)=β0+β1morekids+β2boys2+β3girls2+β4boy1st+u
t: log(kids)=β0+β1morekids+β3girls2+β4boy1st+u
hipotez H0:β2=0,β4=0
f: log(kids)=β0+β1log(morekids)+β3log(girls2)+u
kısıtlı <- lm(kids ~ boys2+boy1st ,data = labsup)
summary(kısıtlı)
##
## Call:
## lm(formula = kids ~ boys2 + boy1st, data = labsup)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7748 -0.7518 -0.7297 0.2482 9.2703
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.751815 0.007831 351.411 < 2e-16 ***
## boys2 0.045049 0.015314 2.942 0.00327 **
## boy1st -0.022078 0.013437 -1.643 0.10038
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9771 on 31854 degrees of freedom
## Multiple R-squared: 0.0002718, Adjusted R-squared: 0.000209
## F-statistic: 4.33 on 2 and 31854 DF, p-value: 0.01318
r2_kısıtsız<-summary(cokreg)$r.sq
r2_kısıtlı<-summary(kısıtlı)$r.sq
r2_kısıtsız
## [1] 0.7761067
r2_kısıtlı
## [1] 0.0002717646
n<-nobs(cokreg)
n
## [1] 31857
kaç değişken kullandık?
k<-4
kaç kısıt kullandık?
q<-3
F_testi<-((r2_kısıtsız-r2_kısıtlı)/(1-r2_kısıtsız))*((n-k-1)/q)
F_testi
## [1] 36791.17
f %99 kritİk değeri:
qf(0.99,q,n-k-1)
## [1] 3.782236
test değeri kritik değerin üzerinde hipotez reddedilir
1-pf(F_testi,q,n-k-1)
## [1] 0
iki katsayının beraber 0 olma olasılığı 0 dır bu yüzden hipotezi reddederiz.