Modelin değişkenlerinin ve prppov değişkeninin ne anlama geldiğini yazın
library(wooldridge)
data("discrim")
psoda:orta sodanın fiyatı prpblck: restoranın bulunduğu bölgede siyahi oranı income: restoranın bulunduğu bölgenin medyan (ortanca) aile geliri. prppov:restoranın bulunduğu bölgede yoksulluk oranı
Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir?
Siyahi oranının ortalaması
mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
Siyahi oranın standart sapması
sd(discrim$prpblck,na.rm = TRUE)
## [1] 0.1824165
Aile gelirinin ortalaması
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
Aile gelirinin standart sapması
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29
Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü? ## Cevap C
discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.29401 -0.05242 0.00333 0.04231 0.44322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.563e-01 1.899e-02 50.354 < 2e-16 ***
## prpblck 1.150e-01 2.600e-02 4.423 1.26e-05 ***
## income 1.603e-06 3.618e-07 4.430 1.22e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08611 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06422, Adjusted R-squared: 0.05952
## F-statistic: 13.66 on 2 and 398 DF, p-value: 1.835e-06
\[ psoda= \beta_0 + \beta_1prpblck +u \] \[ psoda=9.563 + 1.150prpblck + u \] Yorum: Sodanın fiyatı hiç siyahi olmayan bölgede 9.563 birim. Siyahi oranı her birim arttığında soda fiyatı 1.150 birim artış gösteriyor.
Basit Regresyon,
basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
\[ psoda= \beta_0 + \beta_1prpblck + \beta_2income+u \] \[ psoda=1.03740 +0.06493prpblck \]
İncome dahil edildiği zaman prpblck katsayısı 1.150’den 0.65’e düştü. Yani gelir; siyahi oranı ile tersinir ilişkide. Gelir hariç tutulduğunda ayrımcılık etkisinin azaldığını gösterir.
Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir. Modelin tahmin edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puanı) artarsa, psoda’nın tahmini yüzde değişimi ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz)
logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## log(income) 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
\[ log(psoda)= \beta_0 + \beta_1prpblck+ \beta_2log(income)+u \] \[ log(psoda)= -079377+0.12158prpblck+ 0.7651income+u \] prpblck yüzde 20 artarsa 0.12158*20=2.4316 yaklaşık 2.44 artar.
Şimdi prppov değişkenini kısım e’deki regresyona ekleyin. beta1 ’e ne olur? ## Cevap F
logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
\[ log(psoda)= \beta_0 + \beta_1prpblck+ \beta_2log(income)beta_3logprppov+u \] \[ log(psoda)=-1.46333 + 0.07281prpblck + 0.13696log(income)+0.38036prppov+u \] Prppov eklemek, prpblck katsayısının 0,0728’e düşmesine neden olur.
log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi? ## Cevap G
cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467
Korelasyon yaklaşık olarak -0.838’dir. Mantıklıdır, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.
Aşağıdaki ifadeyi değerlendirin: “log(income) ve prppov çok yüksek oranda ilişkili olduğundan, aynı regresyonda olmalarına gerek yoktur.”
Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.
F Testi yapınız
kisitsizmodel <- lm(psoda~prpblck + log(income) + prppov , data = discrim)
summary(kisitsizmodel)
##
## Call:
## lm(formula = psoda ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.28083 -0.05006 0.00305 0.04247 0.44286
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.51208 0.30777 -1.664 0.09693 .
## prpblck 0.07501 0.03214 2.334 0.02011 *
## log(income) 0.14180 0.02804 5.058 6.5e-07 ***
## prppov 0.39629 0.13915 2.848 0.00463 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08526 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08497, Adjusted R-squared: 0.07806
## F-statistic: 12.29 on 3 and 397 DF, p-value: 1.053e-07
kisitlimodel <- lm(psoda~prpblck, data = discrim)
summary(kisitlimodel)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
\[ R_r^2=0.01561 \] \[ n=410 \]
\[ k = 3 \]
0.07806-0.01561=0.06245 1-0.07806= 0.92194
0.06245/0.92194=0.0677376
410-3-1=406 q=2
406/2=203
\[ F= 0.0677376 * 203 =13.75073 \]