1.soru Wooldridge veri setlerini araştırın ve 5 tanesinin açıklamasını yazın (sadece 3 değişkenin anlamını yazmanız yeterli).

library(wooldridge)
data("prison")
help("prison")

prison: 45 değişken üzerinde 714 gözlem içeren bir data. state: alfabetik dc durumu:9 year: 80-90 govelec: 1 valilik seçimi blacksiyah orantısı metro: metrodaki siyah oran

data("wage1")
help("wage1")

wage: ortalama saatlik ücret educ: eğitim yılı exper: yılların potansiyel deneyimi tenure:normal iş veren yılları nonwhite: 1 beyaz değilse

data("wine")
help("wine")

wine: 5 değişken üzerinde 21 gözlem içeren bir data. country : ülkeler alcohol: litre başına kişi başı şarap alkol deatsh: 1000de ölüm heart: 1000de kalp hastalığı liver: 1000de karaciğer hastalığı

data("smoke")
help("smoke")

smoke:10 değişken üzerinde 807 gözlem içeren bir data. educ: okul yılları cigpric: eyalet fiyatı white: 1 beyaz age: yıl olarak income: yıllık gelir

data("labsup")
help("labsup")

labsup: 20 değişken üzerinde 31857 gözlem içeren bir data.

kids: çocuk sayısı boys2: ilk iki doğum erkek girls2: ilk iki doğum kız agefstm: ilk doğumda annenin yaşı faminc: aile geliri, $1000s

##2.soru Bu 5 veri setinden birini seçin ver en az 4 bağımsız değişkenli bir model tahmin edin. Değişkenlerde logaritma kullandınız mı? Neden kullandınız, neden kullanmadınız?**

wolldridge de labsup verisini kullanmaya karar verdim.

library(wooldridge)
data("labsup")

verilere bakalım

library(rmarkdown)
paged_table(labsup)
?labsup

\[log(kids)=\beta_0+ \beta_1morekids+\beta_2boys2+ \beta_3girls2+ \beta_4boy1st+u\]

cokreg <- lm(log(kids)~ morekids+boys2+girls2+boy1st,data = labsup)
summary(cokreg)
## 
## Call:
## lm(formula = log(kids) ~ morekids + boys2 + girls2 + boy1st, 
##     data = labsup)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.14302 -0.13551 -0.00089  0.00380  1.24790 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.692229   0.001817 380.916  < 2e-16 ***
## morekids     0.544776   0.001642 331.842  < 2e-16 ***
## boys2       -0.007509   0.002294  -3.274  0.00106 ** 
## girls2       0.001806   0.002347   0.770  0.44147    
## boy1st       0.004624   0.002324   1.989  0.04669 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1463 on 31852 degrees of freedom
## Multiple R-squared:  0.7761, Adjusted R-squared:  0.7761 
## F-statistic: 2.76e+04 on 4 and 31852 DF,  p-value: < 2.2e-16

Diğer iki değişkeni sabitken ilk iki doğum erkek getirisinin sıfır olup olmadığını test etmek için kurduğumuz hipotez H0:β2=0 olarakyazarız. Bu hipotezi reddersek H1:β2>0 alternatif hipotezini kabulederiz

n<-nobs(cokreg)
n
## [1] 31857

boys2 tahmini katsayı β2: -0.0075.

gözlem sayısı n=31857

t dağılımı için serbestlik derecesi: n-k-1=31857-4-1= 31852

%95 olasılıkta t değeri?: bulalım

qt(0.95,31852)
## [1] 1.644901

%99 olasılıkta

qt(0.99,31852)
## [1] 2.326465

%99 olasılıkta t değeri: 2.326465

büyük gözlem sayısına sahibiz bu nedenle t değerlerimiz, normal dağılım kritik değerlerine çok yakın.

\[boys2 değişkeni t value değeri:-3,274\] \[mutlak değerde: 3,27\]

kritik değerde boys2 değişkeninde %1 durumunda istatistiksel olarak anlamlı. H0 hipotezini reddediyoruz ve boys2 katsayısı sıfırdan büyüktür.

##4.soru Her bağımsız değişken katsayısı için bir güven aralığı oluşturun ve güven aralığı grafiğini çizin.

confint(cokreg)
##                     2.5 %       97.5 %
## (Intercept)  6.886674e-01  0.695791228
## morekids     5.415580e-01  0.547993444
## boys2       -1.200472e-02 -0.003012855
## girls2      -2.793079e-03  0.006405436
## boy1st       6.771348e-05  0.009179455

confint bizim için %95 güven aralığını oluşturacaktır. bir de %99 güven aralığı oluşturalım.

confint(cokreg, level=0.99)
##                    0.5 %       99.5 %
## (Intercept)  0.687548033  0.696910569
## morekids     0.540546795  0.549004623
## boys2       -0.013417579 -0.001600001
## girls2      -0.004238403  0.007850761
## boy1st      -0.001363976  0.010611145
library(coefplot)
## Loading required package: ggplot2
coefplot(cokreg)
## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

## Warning: It is deprecated to specify `guide = FALSE` to remove a guide. Please
## use `guide = "none"` instead.

##boys2 katsayısı güven aralığını kapsamamaktadır

##5.soru İstediğiniz katsayılar için bir kısıtlı model oluşturun ve F testi yapın. Sonuçlarınızı açıklayın.

tahmini denklem: log(kids)=β0+β1morekids+β2boys2+β3girls2+β4boy1st+u

t: log(kids)=β0+β1morekids+β3girls2+β4boy1st+u

hipotez H0:β2=0,β4=0

f: log(kids)=β0+β1log(morekids)+β3log(girls2)+u

kısıtlı <- lm(kids ~ boys2+boy1st ,data = labsup)
summary(kısıtlı)
## 
## Call:
## lm(formula = kids ~ boys2 + boy1st, data = labsup)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7748 -0.7518 -0.7297  0.2482  9.2703 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.751815   0.007831 351.411  < 2e-16 ***
## boys2        0.045049   0.015314   2.942  0.00327 ** 
## boy1st      -0.022078   0.013437  -1.643  0.10038    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9771 on 31854 degrees of freedom
## Multiple R-squared:  0.0002718,  Adjusted R-squared:  0.000209 
## F-statistic:  4.33 on 2 and 31854 DF,  p-value: 0.01318
r2_kısıtsız<-summary(cokreg)$r.sq
r2_kısıtlı<-summary(kısıtlı)$r.sq
r2_kısıtsız
## [1] 0.7761067
r2_kısıtlı
## [1] 0.0002717646
n<-nobs(cokreg)
n
## [1] 31857

kaç değişken kullandık?

k<-4

kaç kısıt kullandık?

q<-3
F_testi<-((r2_kısıtsız-r2_kısıtlı)/(1-r2_kısıtsız))*((n-k-1)/q)
F_testi
## [1] 36791.17

f %99 kritİk değeri:

qf(0.99,q,n-k-1)
## [1] 3.782236

test değeri kritik değerin üzerinde hipotez reddedilir

1-pf(F_testi,q,n-k-1)
## [1] 0

iki katsayının beraber 0 olma olasılığı 0 dır bu yüzden hipotezi reddederiz.