Soru 1 Modelin değişkenlerinin ve prppov değişkeninin ne anlama geldiğini yazın.
library(wooldridge)
## Warning: package 'wooldridge' was built under R version 4.4.2
data("discrim")
Data 37 Farkli Değişkenden oluşmakta. Data değişkenleri ve onlarnın açıklamaları
psoda: Orta boy soda fiyatı,
pfries: Küçük boy patates kızartması fiyatı,
pentree: Ana yemek (burger veya tavuk) fiyatı
wagest: Başlangıç ücreti
nmgrs: Müdür sayısı,
nregs: Kasa sayısı,
hrsopen: Açık kalma süresi (saat)
emp: Çalışan sayısı,
psoda2: Orta boy soda fiyatı,
pfries2: Küçük boy patates kızartması fiyatı,
pentree2: Ana yemek fiyatı,
wagest2: Başlangıç ücreti,
nmgrs2: Müdür sayısı
nregs2: Kasa sayısı,
hrsopen2: Açık kalma süresi (saat),
emp2: Çalışan sayısı,
compown: Şirket tarafından sahiplenilmiş =1
chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4
density: Nüfus yoğunluğu, kasaba
crmrte: Suç oranı, kasaba
state: NJ = 1, PA = 2
prpblck: Siyahi nüfus oranı, posta kodu
prppov: Yoksulluk içinde yaşayanların oranı, posta kodu
prpncar: Arabası olmayanların oranı, posta kodu
hseval: Medyan ev değeri, posta kodu
nstores: Mağaza sayısı, posta kodu
income: Medyan aile geliri, posta kodu
county: İlçe etiketi
lpsoda: Log(psoda)
lpfries: Log(pfries)
lhseval: Log(hseval)
lincome: Log(income)
ldensity: Log(density)
NJ: New Jersey için =1
BK: Burger King için =1
KFC: Kentucky Fried Chicken için =1
RR: Roy Rogers için =1
Soru 2
ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir?
mean(discrim$prpblck, na.rm = TRUE)
## [1] 0.1134864
sd(discrim$prpblck,na.rm=TRUE)
## [1] 0.1824165
mean(discrim$income,na.rm = TRUE)
## [1] 47053.78
sd(discrim$income,na.rm=TRUE)
## [1] 13179.29
Ortalama Siyahi nufus orani %11 ve ortalama gelir 47053 ve bu değişkenlerin standart sapmalari sirasiyla 0.18, 13179
Soru 3 Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü?)
discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.29401 -0.05242 0.00333 0.04231 0.44322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.563e-01 1.899e-02 50.354 < 2e-16 ***
## prpblck 1.150e-01 2.600e-02 4.423 1.26e-05 ***
## income 1.603e-06 3.618e-07 4.430 1.22e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08611 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06422, Adjusted R-squared: 0.05952
## F-statistic: 13.66 on 2 and 398 DF, p-value: 1.835e-06
Modelimiz şü şekildedir Psoda = 9.563 + 0.115prpblc + 0.00001603 Yani Pennsylvaniada her hangi bölgede siyahi nüfüs oranı her şey sabit olduğunda, %100 oldüğü zaman Soda fiyati 11 sent artmaktadır.Modelde R-kare değeri 0.595% değerini almıstır yani Değişkenlerimiz modelin %60 açıklamakta.
Soru 4 Basit regresyon modelini kullanarak basit regresyonu tahmin edin. Ayrımcılık etkisi income’ı kontrol ettiğiniz modele göre daha mı büyük daha mı küçük?
basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
Psoda = 1.0374+ 0.06prpblck + u Yeni modelimizde prpblck katsayisi 0.06’e inmiştir. Bu önceki tahmine göre daha düşük bir değerdir.Yani gelir hariç tutulduğunda ayrimciliğin azaldığını gözlemleyebiliriz. ### Soru 5 Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir.
logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## log(income) 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
Psoda = -0.79 + 0.12prpblck + 0.07 log(income) 0.12*%20
Prpblck yüzde 20 artarsa, psoda tahmini olarak %2,4 artacaktır. 6.Soru Şimdi prppov değişkenini kısım e’deki regresyona ekleyin. B1’e ne olur?
logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
prppov eklemek, prpblck katsayısının 0,07281’e düşmesine neden olur.
Soru 6 log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi?
cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467
Gelir ve yoksulluk arasinda negatif bir ilişki olduğunu gözlemlenmektedir. Korelasyon katsayisi -0.83. Sonuç beklediğim gibiydi. Geliri düşük olanlar genelde Yoksul olur ve yoksulluk oranını yükseltmekte. Yani Gelir düşünce yoksulluk oranı yükselmektedir
F-testi
model <- lm(log(psoda) ~ prppov + prpblck + log(income), data = discrim)
summary(model)
##
## Call:
## lm(formula = log(psoda) ~ prppov + prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
Sonuçlar: F-istatistiği: 12.6 Bu, modeldeki bağımsız değişkenlerin genel olarak psoda üzerindeki etkisinin güçlü olduğunu gösterir.
p-değeri:
6.917×10 −8 (çok küçük) Bu değer, 𝐻 0 hipotezini reddetmek için yeterince küçüktür ( p<0.05).
Yorum:
H0 reddedilir. Bu, bağımsız değişkenlerin topluca psoda fiyatı üzerinde anlamlı bir etkisi olduğunu gösterir. F testinin sonucu, modelin anlamlı bir şekilde açıklayıcı olduğunu ve bağımsız değişkenlerin modele önemli katkı sağladığını ifade eder.