Modelin değişkenlerinin ve prppov değişkeninin ne anlama geldiğini
library(wooldridge)
data("discrim")
psoda: orta sodanın fiyatı prpblck: restoranın bulunduğu bölgede siyahi oranı income: restoranın bulunduğu bölgenin medyan (ortanca) aile geliri prppov: restoranın bulunduğu bölgede yoksulluk oranı
Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir?
Siyahi oranının ortalaması
mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
Siyahi oranının std sapması
sd(discrim$prpblck,na.rm = TRUE)
## [1] 0.1824165
Aile gelirinin ortalaması
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
Aile gelirinin std sapması
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29
Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü?
discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.29401 -0.05242 0.00333 0.04231 0.44322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.563e-01 1.899e-02 50.354 < 2e-16 ***
## prpblck 1.150e-01 2.600e-02 4.423 1.26e-05 ***
## income 1.603e-06 3.618e-07 4.430 1.22e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08611 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06422, Adjusted R-squared: 0.05952
## F-statistic: 13.66 on 2 and 398 DF, p-value: 1.835e-06
\[ psoda= \beta_0 + \beta_1prpblck + u \]
\[ psoda= 9.563 + 1.150prpblck + u \] Yorum: Sodanın fiyatı hiç siyahi olmayan bölgede 9.563 br. Siyahi oranı her bir br arttığında soda fiyatı 1.150 br artış gösteriyor.
Basit regresyon
basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
\[ psoda= \beta_0 + \beta_1prpblck + \beta_2income + u \]
\[ psoda= 1.03740 + 0.06493prpblck \]
İncome dahil edildiğinde prpblck katsayısı 1.150’den 0.65’e düştü. Yani gelir; siyahi oranı ile tersinir ilişkidedir. Gelirin denklemden çıkarıldığında ayrımcılık etkisinin azaldığını gösterir.
Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir. Modeli tahmin edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puanı) artarsa, psoda’nın tahmini yüzde değişimi ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz)
logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## log(income) 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
\[ log(psoda)= \beta_0 + \beta_1prpblck + \beta_2log(income) +u \]
\[ log(psoda)= -0.79377 + 0.12158prpblck + 0.07651income + u \]
prpblck yüzde 20 artarsa 0.12158*20 = 2.4316 yani yaklaşık yüzde 2.44 artacaktır
Şimdi prppov değişkenini kısım e’deki regresyona ekleyin. beta1’e ne olur?
logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
\[ log(psoda)= \beta_0 + \beta_1prpblck + \beta_2log(income) + \beta_3prppov + u \]
\[ log(psoda)= -1.46333 + 0.07281prpblck + 0.13696log(income) + 0.38036prppov + u \] prppov eklemek, prpblck katsayısının 0,0728’e düşmesine neden olur
log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi?
cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467
Korelasyon yaklaşık olarak -0.838’dir. Katsayının negatif çıkması mantıklıdır çünkü bu iki değişken (gelir ve yoksulluk oranı) ters ilişkilidir. Gelir 1 br arttığında yoksulluk oranı 0.838 düşer
Aşağıdaki ifadeyi değerlendirin: “log(income) ve prppov çok yüksek oranda ilişkili olduğundan, aynı regresyonda olmalarına gerek yoktur.”
Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.
F Testi yapınız
kisitsizrur <- lm(psoda~prpblck + log(income) + prppov , data = discrim)
summary(kisitsizrur)
##
## Call:
## lm(formula = psoda ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.28083 -0.05006 0.00305 0.04247 0.44286
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.51208 0.30777 -1.664 0.09693 .
## prpblck 0.07501 0.03214 2.334 0.02011 *
## log(income) 0.14180 0.02804 5.058 6.5e-07 ***
## prppov 0.39629 0.13915 2.848 0.00463 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08526 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08497, Adjusted R-squared: 0.07806
## F-statistic: 12.29 on 3 and 397 DF, p-value: 1.053e-07
\[ R_(ur)^2= 0.07806 \]
kisitlir <- lm(psoda~prpblck, data = discrim)
summary(kisitlir)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
\[ R_r^2=0.01561 \]
\[ n=410 \] \[ k=3 \]
0.07806-0.01561=0.06245 1-0.07806= 0.92194
0.06245/0.92194=0.0677376
410-3-1=406 q=2
406/2=203
\[ F= 0.0677376 * 203 =13.75073 \]
Fq,DF = F2,406 = 8.53 Hesaplanan F = 13.75 0’dan çok büyük, bu yüzden kısıtsız modeli seçeriz