odev

SORU a

Modelin değişkenlerinin ve prppov değişkeninin ne anlama geldiğini

CEVAP a

library(wooldridge)

data("discrim")

psoda: orta sodanın fiyatı prpblck: restoranın bulunduğu bölgede siyahi oranı income: restoranın bulunduğu bölgenin medyan (ortanca) aile geliri prppov: restoranın bulunduğu bölgede yoksulluk oranı

SORU b

Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir?

CEVAP b

Siyahi oranının ortalaması

mean(discrim$prpblck,na.rm = TRUE)

## [1] 0.1134864

Siyahi oranının std sapması

sd(discrim$prpblck,na.rm = TRUE)

## [1] 0.1824165

Aile gelirinin ortalaması

mean(discrim$income, na.rm = TRUE)

## [1] 47053.78

Aile gelirinin std sapması

sd(discrim$income, na.rm = TRUE)

## [1] 13179.29

SORU c

Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü?

CEVAP c

discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)

## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06

\[ psoda= \beta_0 + \beta_1prpblck + u \]

\[ psoda= 9.563 + 1.150prpblck + u \] Yorum: Sodanın fiyatı hiç siyahi olmayan bölgede 9.563 br. Siyahi oranı her bir br arttığında soda fiyatı 1.150 br artış gösteriyor.

SORU d

Basit regresyon

CEVAP d

basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)

## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

\[ psoda= \beta_0 + \beta_1prpblck + \beta_2income + u \]

\[ psoda= 1.03740 + 0.06493prpblck \]

İncome dahil edildiğinde prpblck katsayısı 1.150’den 0.65’e düştü. Yani gelir; siyahi oranı ile tersinir ilişkidedir. Gelirin denklemden çıkarıldığında ayrımcılık etkisinin azaldığını gösterir.

SORU e

Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir. Modeli tahmin edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puanı) artarsa, psoda’nın tahmini yüzde değişimi ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz)

CEVAP e

logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)

summary(logdiscrimreg)

## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07

\[ log(psoda)= \beta_0 + \beta_1prpblck + \beta_2log(income) +u \]

\[ log(psoda)= -0.79377 + 0.12158prpblck + 0.07651income + u \]

prpblck yüzde 20 artarsa 0.12158*20 = 2.4316 yani yaklaşık yüzde 2.44 artacaktır

SORU f

Şimdi prppov değişkenini kısım e’deki regresyona ekleyin. beta1’e ne olur?

CEVAP f

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)

## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

\[ log(psoda)= \beta_0 + \beta_1prpblck + \beta_2log(income) + \beta_3prppov + u \]

\[ log(psoda)= -1.46333 + 0.07281prpblck + 0.13696log(income) + 0.38036prppov + u \] prppov eklemek, prpblck katsayısının 0,0728’e düşmesine neden olur

SORU g

log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi?

CEVAP g

cor(log(discrim$income), discrim$prppov, use = "complete.obs")

## [1] -0.838467

Korelasyon yaklaşık olarak -0.838’dir. Katsayının negatif çıkması mantıklıdır çünkü bu iki değişken (gelir ve yoksulluk oranı) ters ilişkilidir. Gelir 1 br arttığında yoksulluk oranı 0.838 düşer

SORU h

Aşağıdaki ifadeyi değerlendirin: “log(income) ve prppov çok yüksek oranda ilişkili olduğundan, aynı regresyonda olmalarına gerek yoktur.”

CEVAP h

Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.

EK SORU 1

F Testi yapınız

EK CEVAP 1

kisitsizrur <- lm(psoda~prpblck + log(income) + prppov , data = discrim)

summary(kisitsizrur)

## 
## Call:
## lm(formula = psoda ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.28083 -0.05006  0.00305  0.04247  0.44286 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.51208    0.30777  -1.664  0.09693 .  
## prpblck      0.07501    0.03214   2.334  0.02011 *  
## log(income)  0.14180    0.02804   5.058  6.5e-07 ***
## prppov       0.39629    0.13915   2.848  0.00463 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08526 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08497,    Adjusted R-squared:  0.07806 
## F-statistic: 12.29 on 3 and 397 DF,  p-value: 1.053e-07

\[ R_(ur)^2= 0.07806 \]

kisitlir <- lm(psoda~prpblck, data = discrim)

summary(kisitlir)

## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

\[ R_r^2=0.01561 \]

\[ n=410 \] \[ k=3 \]

0.07806-0.01561=0.06245 1-0.07806= 0.92194

0.06245/0.92194=0.0677376

410-3-1=406 q=2

406/2=203

\[ F= 0.0677376 * 203 =13.75073 \]

Fq,DF = F2,406 = 8.53 Hesaplanan F = 13.75 0’dan çok büyük, bu yüzden kısıtsız modeli seçeriz