DİSCRİM Verileri

library(wooldridge)
data("discrim")
head(discrim)
##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0
mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NA
sum(is.na(discrim$prpblck))
## [1] 1
sum(is.na(discrim$income))
## [1] 1
mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
sd(discrim$prpblck,na.rm = TRUE)
## [1] 0.1824165
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29

Kısıtsız Model

kisitsiz_model <- lm(psoda~prpblck+income, data = discrim)
summary(kisitsiz_model)
## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06

Kısıtlı Model

kisitli_model <- lm(psoda~prpblck, data = discrim)
summary(kisitli_model)
## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

kısıtsız R kare : 0.05952

kısıtlı R kare : 0.01561

(0.05952-0.01561)/(1-0.05952)
## [1] 0.04668892
logkisitsiz_model <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logkisitsiz_model)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07
paste( (0.2*100)*0.122, "yüzdelik artış")
## [1] "2.44 yüzdelik artış"

“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08
cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467

discrim

psoda:orta boy soda fiyatı,1. dalga pfries: küçük boy patates kızartması fiyatı,1. dalga pentree: ana yemek fiyatı (burger veya tavuk),1. dalga wagest: başlangıç ücreti,1. dalga nmgrs: yönetici sayısı,1. dalga nregs: kasa sayısı, 1. dalga hrsopen: açık olduğu saat sayısı, 1. dalga emp: çalışan sayısı, 1. dalga psoda2: orta boy soda fiyatı, 2. dalga pfries2: küçük boy patates kızartması fiyatı, 2. dalga pentree2: ana yemek fiyatı, 2. dalga wagest2: başlangıç ücreti, 2. dalga nmgrs2: yönetici sayısı, 2. dalga nregs2: kasa sayısı, 2. dalga hrsopen2: açık olduğu saat sayısı, 2. dalga emp2: çalışan sayısı, 2. dalga compown: =1 ise şirket sahipliğinde chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4 density: nüfus yoğunluğu, şehir crmrte: suç oranı, şehir state: NJ = 1 (New Jersey), PA = 2 (Pennsylvania) prpblck: siyah nüfus oranı, posta kodu bölgesi prppov: yoksulluk oranı, posta kodu bölgesi prpncar: arabasız hane oranı, posta kodu bölgesi hseval: medyan konut değeri, posta kodu bölgesi nstores: mağaza sayısı, posta kodu bölgesi income: medyan aile geliri, posta kodu bölgesi county: ilçe etiketi lpsoda: log(orta boy soda fiyatı) lpfries: log(küçük boy patates kızartması fiyatı) lhseval: log(medyan konut değeri) lincome: log(medyan aile geliri) ldensity: log(nüfus yoğunluğu) NJ: =1 ise New Jersey BK: =1 ise Burger King KFC: =1 ise Kentucky Fried Chicken RR: =1 ise Roy Rogers

Bu veri seti, David Card ve Alan Krueger’in asgari ücret artışlarının istihdam üzerindeki etkilerini inceledikleri ünlü çalışmada kullanılmıştır. Özellikle fiyatlar, çalışan sayısı ve demografik faktörler gibi değişkenler yer almaktadır. Çalışma, Myth and Measurement kitabında (1997, Princeton University Press) detaylı olarak analiz edilmiştir.

New Jersey için, kontrol grubu olarak doğu Pennsylvania’daki fast-food işletmeleri seçilmiştir. New Jersey - Pennsylvania Karşılaştırması Bu karşılaştırma, en fazla ilgi çeken çalışmadır. Yazarlar, verileri 24 soruluk bir telefon anketi kullanarak toplamışlardır. Bu ankette asgari ücretle ilgili yalnızca bir soru, tam zamanlı ve yarı zamanlı istihdam hakkında bilgi istemektedir. Ancak, bu sorunun belirsiz olduğu ve tam zamanlı ile yarı zamanlı istihdamı nasıl tanımladığı konusunda net olmadığı eleştirilmektedir. Card ve Krueger, zaman serisi analizlerinin geçerliliğini değerlendirdikleri bu bölümde, asgari ücret artışlarının istihdam üzerindeki etkilerini inceleyen çeşitli çalışmaları ele almaktadırlar. Yazarlar, bu çalışmalardan bazılarını yeniden üretip güncellemişlerdir. Ancak seçtikleri örneklem sınırlıdır ve genellikle daha zayıf istatistiksel sonuçlara sahip çalışmalara odaklanmışlardır.Card ve Krueger, bu çalışmaların sonuçlarını sorgulamak için çeşitli testler kullanmışlardır:

Örneğin, gözlem sayısının (derece serbestlik karekökü) minimum ücret değişkeni ile ilişkili t-istatistikleri üzerindeki etkisini analiz etmişlerdir. Yazarlar, örneklem büyüklüğü arttıkça beklenenin aksine t-istatistiklerinin düştüğünü gözlemlemişlerdir. Bu analizlerde elde edilen ilişkiler istatistiksel olarak anlamlı değildir. Dahası, sundukları dağılım grafiği, özellikle Jacob Klerman’ın (1992) çalışmasını çıkardığınızda, bulgularının zayıf olduğunu göstermektedir. Bu çalışmayı eklemeden bile negatif regresyon katsayılarını elde edememişlerdir.

Regresyon

model <- lm(psoda~prpblck+prppov+income,data = discrim)
summary(model)
## 
## Call:
## lm(formula = psoda ~ prpblck + prppov + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.28891 -0.05253  0.00210  0.03965  0.44514 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.278e-01  2.799e-02  33.147  < 2e-16 ***
## prpblck     8.888e-02  3.210e-02   2.769  0.00588 ** 
## prppov      1.575e-01  1.138e-01   1.384  0.16708    
## income      2.032e-06  4.763e-07   4.266 2.49e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08602 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06871,    Adjusted R-squared:  0.06168 
## F-statistic: 9.764 on 3 and 397 DF,  p-value: 3.145e-06

değişkenlerin arasında pozitif yönlü bir ilişki vardır.

F testi

result <- lm(psoda~prpblck+prppov+income,data = discrim)
summary(result)
## 
## Call:
## lm(formula = psoda ~ prpblck + prppov + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.28891 -0.05253  0.00210  0.03965  0.44514 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.278e-01  2.799e-02  33.147  < 2e-16 ***
## prpblck     8.888e-02  3.210e-02   2.769  0.00588 ** 
## prppov      1.575e-01  1.138e-01   1.384  0.16708    
## income      2.032e-06  4.763e-07   4.266 2.49e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08602 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06871,    Adjusted R-squared:  0.06168 
## F-statistic: 9.764 on 3 and 397 DF,  p-value: 3.145e-06

p-değeri 0.05’ten büyük olduğu için değişkenler arasında anlamlı bir fark yoktur.