R ile Çoklu Regresyon Analizi Ödev Soruları ve Cevapları birinci bölümde Wooldridge Bölüm Soruları
Wooldridge Bölüm Soruları 1inci soru ## soru 1 açıklaması 4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak, en küçük kareler (OLS) tarafından aşağıdaki denklem tahmin edilmiştir:
Üniversite not ortalaması = 1.392 - 0.0135lmsyd+0.00148sat
lmsyd, öğrencilerin lise mezuniyet sınıflarındaki yüzdelik dilimi göstermektedir. Örneğin, lmsyd=5, sınıfın ilk %5’inde olduğu anlamına gelir. sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır
lmsyd katsayısının negatif olması neden mantıklıdır? ## soru 1.b lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not ortalaması nedir? ## soru 1.c Diyelim ki iki lise mezunu, A ve B, liseden aynı yüzdelik dilimde mezun oldular. Ancak Öğrenci A’nın SAT puanı 140 puan daha yüksek. (aynı zamanda yaklaşık bir standart sapmaya sahip). Bu iki öğrenci için üniversite not ortalamasında tahmini fark nedir? Bu fark büyük bir fark mı? ## soru 1.d
Wooldridge Bölüm Soruları 2inci soru
Aşağıdaki model, Biddle ve Hamermesh (1990) tarafından uyumak ve çalışmak için harcanan zaman arasındaki dengeyi incelemek ve uykuyu etkileyen diğer faktörleri incelemek için kullanılan çoklu regresyon modelinin basitleştirilmiş bir versiyonudur:
Uyku = ß₀ + ß₁toplam.iş + ß₂eğitim + ß₃yaş + u
uyku ve toplam iş dakikayla eğitim ve yaş yılla hesaplanmıştır.
Yetişkinler iş için uykuyu takas ediyorsa, ß₁’in işareti nedir? ## soru 2.b ß₂ ve ß₃’ün hangi işaretleri olacağını düşünüyorsunuz? ## soru 2.c SLEEP75’teki verileri kullanarak, tahmin edilen denklem şu şekildedir: uyku = 3,638.25 - 0.148toplam.iş - 11.13eğitim + 2.20yaş
n= 706 ve R²= 0.113 Birisi haftada beş saat daha fazla çalışırsa, uykunun kaç dakika düşeceği tahmin edilir? bu büyük bir takas mı? d.Eğitim üzerindeki tahmini katsayının üzerindeki işaretini ve büyüklüğünü tartışın. e.Uykudaki çeşitliliğin çoğunu toplam iş, eğitim ve yaşın açıkladığını söyleyebilir misiniz? Uyuyarak geçirilen süreyi başka hangi faktörler etkileyebilir? Bunların toplam iş ile ilişkili olması muhtemel mi?
Wooldridge Bölüm Soruları 3üncün soru
Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla ilişkilendiren bir çalışma yapmak istiyorsunuz, birkaç öğrenciye bir anket dağıttınız. Öğrencilere her hafta dört aktivitede kaç saat geçirdikleri sordunuz: ders çalışmak, uyumak, bir işte çalışmak ve boş zaman. Herhangi bir aktivite dört kategoriden birine konur, böylece her öğrenci için dört aktivitedeki saatlerin toplamı 168 olmalıdır. Not ortalaması = ß₀ + ß₁ders.çalışma + ß₂uyumak + ß₃iş.çalışma + ß₄boş.zaman + uyku
ß₁’i yorumladığınızda çalışmayı değiştirirken uykuyu, işi ve boş zamanları sabit tutmak mantıklı mı? ## soru 3.b Bu modelin neden MLR.3 Varsayımını ihlal ettiğini açıklayın. ## soru 3.c Modeli, parametrelerinin faydalı bir yoruma sahip olması için nasıl yeniden formüle edebilirsiniz ve varsayım MLR.3’ü ihlal edilmez?
birinci bölümde Wooldridge Bölüm cevabları
lmsyd, ne kadar küçükse öğrencinin lisedeki durumu o kadar düşük olacak şekilde tanımlanır. Diğer her şey eşittir, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur. ## cevabı 1.b Sadece bu değerleri denkleme yerleştirin üniversite not ortalaması = 1.392 - 0.0135 . 20 + 0.00148 . 1050 = 2.676 ## cevabı 1.c A ve B arasındaki fark, sat katsayısının 140 katıdır, çünkü lmsyd her iki öğrenci için de aynıdır. Dolayısıyla A’nın 0.00148 . (140) = 0.207 daha yüksek bir puama sahip olduğu tahmin edilmektedir. ## cevabı 1.d lmsy sabit olduğunda, Δüniversite not ortalaması = 0.00148 . Δsat. Bu durumda 0.5 = 0.00148 . Δsat veya Δsat = 0.00148/0.5 olacak şekilde bulmak istiyoruz. olacak şekilde bulmak istiyoruz. Δsat=338
Diğer her şey eşit olduğunda, yetişkinler uykuyu iş için tercih ediyorsa, daha fazla iş daha az uyku anlamına gelir, bu yüzden ß₁<0 olur. ## cevabı 2.b ß₂ ve ß₃ işaretleri kişiden kişiye göre değişir. Vereceğiniz örneklere göre bu katsayıların işaretleri eksi veya artı olabilir. Bu yüzden bu çalışma için herhangi bir beklenti içinde olamayız. Kimi yaş ilerledikçe uykunun azaldığını söyler, kimi arttığını ve bunu gerekçeleriyle örneklendirebilir. Aynı durum eğitim ile ilgili olarak da tartışılabilir. ## cevabı 2.c Uyku ve toplam iş dakika ile ölçüldüğünden 5 saati dakikaya çevirmeniz gerekir (5.60 = 300). 300 dakikayı formülde yerine koyarsak 0.148 . 300 = 44.4 dakika. Uyku bir hafta içinde 44.4 dakika düşer bunun çok fazla bir düşüş olduğunu söyleyemeyiz. Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir, ancak etkisi oldukça küçüktür. Üniversite ile lise arasındaki farkın dört yıl olduğunu varsayarsak, modelimiz diğer değişkenler sabit olduğunda üniversite mezunu olan kişinin lise mezunu olan bir kişiye göre haftada yaklaşık 45 dakika (11.13 ) daha az uyuduğunu tahmin ediyor.
Hayır. Tanım olarak, çalışma + uyku + iş + boş zaman = 168. Bu nedenle, çalışmayı değiştirirsek, toplamın hala 168 olması için diğer kategorilerden en az birini değiştirmeliyiz. ## cevabı 3.b kısmından, mesela iş değişkenini diğer bağımsız değişkenlerin mükemmel bir lineer fonksiyonu olarak yazabiliriz: iş= 168 - uyku - ders - boşzaman Bu her gözlem için geçerlidir, dolayısıyla MLR.3 ihlal edilmiştir. ## cevabı 3.c Bağımsız değişkenlerden birini modelden çıkarın, mesela boş zaman değişkenini çıkarın: Not ortalaması = ß₀ + ß₁ders.çalışma + ß₂uyumak + ß₃iş.çalışma + u
Bu durumda, ß₁ ders çalışma bir saat arttığında, uyku, iş ve u sabit tutulduğu zaman not ortalamasındaki değişiklik olarak yorumlanır. Uykuyu ve çalışmayı sabit tutuyoruz, ancak ders çalışmayı bir saat artırıyorsak, boş zamanı bir saat azaltıyor olmalıyız. Diğer eğim parametreleri de benzer bir yoruma sahiptir.
ikinci bölümde Wooldridge Veri Sorusu ## soru 1 açıklaması Sağlık görevlilerinin ilgilendiği sorunlardan biri, hamilelik sırasında sigara içmenin bebek sağlığı üzerindeki etkilerini belirlemektir. Bebek sağlığının bir ölçüsü doğum ağırlığıdır; çok düşük doğum ağırlığı, bebeği çeşitli hastalıklara yakalanma riskine sokabilir. Doğum ağırlığını etkileyen sigara içimi dışındaki faktörlerin sigara ile ilişkili olması muhtemel olduğundan, bu faktörleri dikkate almalıyız. Örneğin, daha yüksek gelir genellikle daha iyi doğum öncesi bakıma erişimin yanı sıra anne için daha iyi beslenme ile sonuçlanır. Bunu tanımlayan bir denklem
bwght = ß₀ + ß₁cigs + ß₂faminc + u
Wooldridge BWGHT data setini kullanın.
Modelin değişkenlerinin ne anlama geldiğini yazın. ## soru 1.b Modeli tahmin etmeden, ß₂ için en olası işaret nedir? ## soru 1.c cigs ve faminc’in ilişkili olabileceğini düşünüyor musunuz? Korelasyonun pozitif mi negatif mi olabilir? ## soru 1.d Şimdi, BWGHT’deki verileri kullanarak, faminc olan ve olmayan denklemi tahmin edin. sonuçları rapor edin. örnek boyutu ve R-kare dahil olmak üzere denklem formunda yazın. Sonuçlarınızı tartışın, faminc eklemenin cigs’in bwght üzerindeki tahmini etkisini önemli ölçüde değiştirip değiştirmediğine odaklanın. ## soru 2.a Bu soruyu yanıtlamak için DISCRIM verilerini kullanın. Bunlar, New Jersey ve Pennsylvania’daki fast-food restoranlarındaki çeşitli ürünlerin fiyatlarına ilişkin posta kodu düzeyinde veriler ve posta kodu popülasyonunun özellikleridir. Buradaki fikir, fast-food restoranlarının siyahların daha yoğun olduğu bölgelerde daha yüksek fiyatlar talep edip etmediğini öğrenmektir. Modelimiz
psoda = ß₀ + ß₁prpblck + ß₂income + u ## soru 2.b Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir? ## soru 2.c Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü? ## soru 2.d Basit regresyon
psoda = ß₀ + ß₁prpblck + u
modelini kullanarak basit regresyonu tahmin edin. Ayrımcılık etkisi income’ı kontrol ettiğiniz modele göre daha mı büyük daha mı küçük? ## soru 2.e Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir.
log(psoda) = ß₀ + ß₁prpblck + ß₂log(income) + u
Modelin tahmin edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puanı) artarsa, psoda’nın tahmini yüzde değişimi ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz) ## soru 2.f Şimdi prppov değişkenini kısım e’deki regresyona ekleyin.ß₁’e ne olur? ## soru 2.g log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi? ## soru 2.h Aşağıdaki ifadeyi değerlendirin: “log(income) ve prppov çok yüksek oranda ilişkili olduğundan, aynı regresyonda olmalarına gerek yoktur.”
Tek ebeveynli hanelerin öğrencilerin matematik performansı üzerindeki etkilerini incelemek için MEAPSINGLE’daki verileri kullanın. Bu veriler, 2000 yılı için güneydoğu Michigan’daki okulların bir alt kümesi içindir. Sosyo-ekonomik değişkenler, Posta kodu düzeyinde elde edilir (burada Posta kodu okulların posta adreslerine göre atanır). ## soru 3.a math4, pctsgle, lmedinc ve free değişkenlerinin ne anlama geldiklerini yazın. ## soru 3.b Math4’ün basit regresyonunu pctsgle üzerinde çalıştırın ve sonuçları normal biçimde rapor edin. Eğim katsayısını yorumlayın. Tek ebeveynliğin etkisi büyük mü yoksa küçük mü görünüyor? ## soru 3.c lmedinc ve free değişkenlerini denkleme ekleyin. pctsgle üzerindeki katsayıya ne olur? ## soru 3.d lmedinc ve free arasındaki örnek korelasyonu bulun. Beklediğiniz işaret var mı? ## soru 3.e Imedinc ve free arasındaki önemli korelasyon varsa. Tek ebeveynliğin öğrenci performansı üzerindeki nedensel etkisini daha iyi tahmin etmek için bir tanesini regresyondan analizinden çıkarmanız gerektiği anlamına gelir mi? Açıklayın.
Wooldridge Veri Soruları cevabları ## cevab 1.a
library(wooldridge)
library(rmarkdown)
data("bwght")
head(bwght)
## faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1 13.5 16.5 122.3 109 12 12 1 1 1 0
## 2 7.5 16.5 122.3 133 6 12 2 1 0 0
## 3 0.5 16.5 122.3 129 NA 12 2 0 0 0
## 4 15.5 16.5 122.3 126 12 12 2 1 0 0
## 5 27.5 16.5 122.3 134 14 12 2 1 1 0
## 6 7.5 16.5 122.3 118 12 14 6 1 0 0
## lbwght bwghtlbs packs lfaminc
## 1 4.691348 6.8125 0 2.6026897
## 2 4.890349 8.3125 0 2.0149031
## 3 4.859812 8.0625 0 -0.6931472
## 4 4.836282 7.8750 0 2.7408400
## 5 4.897840 8.3750 0 3.3141861
## 6 4.770685 7.3750 0 2.0149031
help(bwght)
## starting httpd help server ... done
kullanacağımız değişkenlerin tanımları
-faminc: 1988 family income, $1000s, 1988 aile geliri -cigs: cigs smked per day while preg, hamileyken içilen günlük sigara sayısı -bwght: birth weight, ounces, doğum ağırlığı, ons ## cevab 1.b Bir yandan, gelirdeki bir artış genellikle gıda tüketimini arttırır ve sigara ile aile geliri arasında pozitif bir ilişki olabilir. Öte yandan, daha fazla eğitime sahip ailelerin aile gelirleri de daha yüksektir ve daha fazla eğitim ile sigara içme arasında olumsuz bir ilişki vardır. ## cevab 1.c Sigara ve faminc arasındaki örnek korelasyonu yaklaşık -0.173’tür ve negatif bir korelasyona işaret eder. ## cevab 1.d
ilkreg <- lm(bwght~ cigs,data = bwght)
ikincireg<- lm(bwght~ cigs+faminc,data = bwght)
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
stargazer(list(ilkreg,ikincireg),type = "text")
##
## =====================================================================
## Dependent variable:
## -------------------------------------------------
## bwght
## (1) (2)
## ---------------------------------------------------------------------
## cigs -0.514*** -0.463***
## (0.090) (0.092)
##
## faminc 0.093***
## (0.029)
##
## Constant 119.772*** 116.974***
## (0.572) (1.049)
##
## ---------------------------------------------------------------------
## Observations 1,388 1,388
## R2 0.023 0.030
## Adjusted R2 0.022 0.028
## Residual Std. Error 20.129 (df = 1386) 20.063 (df = 1385)
## F Statistic 32.235*** (df = 1; 1386) 21.274*** (df = 2; 1385)
## =====================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Denklem şeklinde rapor
bwght = 116.974 - 0.463cigs + 0.093faminc
bwght= 119.772 - 0.514cigs
Regresyona faminc eklendiğinde sigara içmenin etkisi biraz daha az ama aradaki fark çok büyük değil. Bunun nedeni, cigs ve faminc’in çok ilişkili olmaması ve faminc üzerindeki katsayının pratik olarak küçük olmasıdır. (Faminc değişkeni binlerle ölçülür, yani 1988’de 10.000$ daha fazla gelir, öngörülen doğum ağırlığını yalnızca .93 ons artırır.)
data("discrim")
head(discrim)
## psoda pfries pentree wagest nmgrs nregs hrsopen emp psoda2 pfries2 pentree2
## 1 1.12 1.06 1.02 4.25 3 5 16.0 27.5 1.11 1.11 1.05
## 2 1.06 0.91 0.95 4.75 3 3 16.5 21.5 1.05 0.89 0.95
## 3 1.06 0.91 0.98 4.25 3 5 18.0 30.0 1.05 0.94 0.98
## 4 1.12 1.02 1.06 5.00 4 5 16.0 27.5 1.15 1.05 1.05
## 5 1.12 NA 0.49 5.00 3 3 16.0 5.0 1.04 1.01 0.58
## 6 1.06 0.95 1.01 4.25 4 4 15.0 17.5 1.05 0.94 1.00
## wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density crmrte state
## 1 5.05 5 5 15.0 27.0 1 3 4030 0.0528866 1
## 2 5.05 4 3 17.5 24.5 0 1 4030 0.0528866 1
## 3 5.05 4 5 17.5 25.0 0 1 11400 0.0360003 1
## 4 5.05 4 5 16.0 NA 0 3 8345 0.0484232 1
## 5 5.05 3 3 16.0 12.0 0 1 720 0.0615890 1
## 6 5.05 3 4 15.0 28.0 0 1 4424 0.0334823 1
## prpblck prppov prpncar hseval nstores income county lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300 3 44534 18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300 3 44534 18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200 3 41164 12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600 3 50366 10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100 1 72287 10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000 2 44515 18 0.05826885
## lpfries lhseval lincome ldensity NJ BK KFC RR
## 1 0.05826885 11.90699 10.70401 8.301521 1 0 0 1
## 2 -0.09431065 11.90699 10.70401 8.301521 1 1 0 0
## 3 -0.09431065 12.03884 10.62532 9.341369 1 1 0 0
## 4 0.01980261 12.05292 10.82707 9.029418 1 0 0 1
## 5 NA 12.42561 11.18840 6.579251 1 1 0 0
## 6 -0.05129331 11.90497 10.70358 8.394799 1 1 0 0
help(discrim)
Gördüğünüz gibi veri setinde bazı değişkenler için bazı gözlemler NA değerine sahip. NA (not available) o gözlem için mevcut değil anlamına geliyor. Örneğin pfries (price of small fries, küçük kızartmanın fiyatı) değişkeninin beşinci gözlemi veri setinde bulunan beşinci restoranının küçük kızartma fiyatını bilmediğimiz anlamı taşıyor. Mevcut olmayan gözlemler analizlerde her zaman sorunlar çıkarır. Bu mevcut olmayan değişkenlerle nasıl başa çıkacağımızı yavaş yavaş öğrenmemiz gerekir.
Modelin değişkenlerinin ve prppov değişkeninin anlamı.
-psoda: price of medium soda, 1st wave, orta sodanın fiyatı. -prpblck: proportion black, zipcode, restoranın bulunduğu bölgede siyahi oranı -income: median family income, zipcode, restoranın bulunduğu bölgenin medyan (ortanca) aile geliri. -prppov: proportion in poverty, zipcode, restoranın bulunduğu bölgede yoksulluk oranı ## cevab 2.b
mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NA
Bildiğimiz mean ve sd fonksiyonlarını kullanarak ortama ve standart sapma değerlerini bulamadık. Çıkan NA sonucu bize bu değişkenlerin içinde bazı gözlemlerin mevcut olmadığını gösteriyor olabilir. discrim veri setinde 410 gözlem olduğundan her bir gözlemi kontrol edemiyorz ve bu değişkenlerin içinde kaç tane gözlemin mevcut olmadığını çıkaramıyoruz. R bize bu konuda is.na fonksiyonu ile yardımcı oluyor. is.na aslında sorduğumuz ingilizce bir soru ve is na? derken R’a mevcut olmayan gözlem var mı diye soru soruyoruz. R’da bize her bir gözlem için o gözlemin değeri olup olmadığını TRUE (doğru) ve FALSE (yanlış) olarak geri veriyor. Örnek vermek gerekirse konsola is.na(discrim income)yazarsanız, Rincome değişkeninin her bir gözlemi için income)) income değişkenin içindeki var olmayan gözlem sayısını toplayacak ve bize verecektir.
sum(is.na(discrim$prpblck))
## [1] 1
sum(is.na(discrim$income))
## [1] 1
Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerinine sahip olduğunu söylememiz lazım.
mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
mean(discrim$income,na.rm = TRUE)
## [1] 47053.78
sd(discrim$income,na.rm = TRUE)
## [1] 13179.29
fonksiyonun içine yazdığımız na.rm (na remove, çıkar) öevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.
Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır. Aşağıdaki komutu kullanmak için vtable paketini yüklemeniz gerektiğini unutmayın
library(vtable)
## Loading required package: kableExtra
sumtable(discrim,summ = c('notNA(x)', 'countNA(x)', 'mean(x)', 'sd(x)'),out = 'return' )
## Variable NotNA CountNA Mean Sd
## 1 psoda 402 8 1.045 0.089
## 2 pfries 393 17 0.922 0.106
## 3 pentree 398 12 1.322 0.643
## 4 wagest 390 20 4.616 0.347
## 5 nmgrs 404 6 3.42 1.018
## 6 nregs 388 22 3.608 1.244
## 7 hrsopen 410 0 14.439 2.81
## 8 emp 404 6 17.622 9.423
## 9 psoda2 388 22 1.045 0.094
## 10 pfries2 382 28 0.941 0.109
## 11 pentree2 386 24 1.354 0.65
## 12 wagest2 389 21 4.996 0.253
## 13 nmgrs2 404 6 3.484 1.14
## 14 nregs2 388 22 3.608 1.244
## 15 hrsopen2 399 11 14.466 2.752
## 16 emp2 397 13 17.567 8.607
## 17 compown 410 0 0.344 0.476
## 18 chain 410 0 2.117 1.11
## 19 density 409 1 4561.803 5132.408
## 20 crmrte 409 1 0.053 0.047
## 21 state 410 0 1.193 0.395
## 22 prpblck 409 1 0.113 0.182
## 23 prppov 409 1 0.071 0.067
## 24 prpncar 409 1 0.115 0.117
## 25 hseval 409 1 147399.267 56070.468
## 26 nstores 410 0 3.139 1.809
## 27 income 409 1 47053.785 13179.286
## 28 county 410 0 13.659 8.045
## 29 lpsoda 402 8 0.04 0.085
## 30 lpfries 393 17 -0.088 0.115
## 31 lhseval 409 1 11.829 0.389
## 32 lincome 409 1 10.72 0.284
## 33 ldensity 409 1 7.959 0.996
## 34 NJ 410 0 0.807 0.395
## 35 BK 410 0 0.417 0.494
## 36 KFC 410 0 0.195 0.397
## 37 RR 410 0 0.241 0.428
discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrim)
## psoda pfries pentree wagest
## Min. :0.730 Min. :0.670 Min. :0.490 Min. :4.250
## 1st Qu.:0.980 1st Qu.:0.850 1st Qu.:0.950 1st Qu.:4.250
## Median :1.060 Median :0.930 Median :1.020 Median :4.500
## Mean :1.045 Mean :0.922 Mean :1.322 Mean :4.616
## 3rd Qu.:1.085 3rd Qu.:1.000 3rd Qu.:1.470 3rd Qu.:4.950
## Max. :1.490 Max. :1.270 Max. :3.950 Max. :5.750
## NA's :8 NA's :17 NA's :12 NA's :20
## nmgrs nregs hrsopen emp
## Min. : 1.00 Min. :1.000 Min. : 7.00 Min. : 3.00
## 1st Qu.: 3.00 1st Qu.:3.000 1st Qu.:12.00 1st Qu.:11.38
## Median : 3.00 Median :3.000 Median :15.50 Median :16.38
## Mean : 3.42 Mean :3.608 Mean :14.44 Mean :17.62
## 3rd Qu.: 4.00 3rd Qu.:4.000 3rd Qu.:16.00 3rd Qu.:21.00
## Max. :10.00 Max. :8.000 Max. :24.00 Max. :80.00
## NA's :6 NA's :22 NA's :6
## psoda2 pfries2 pentree2 wagest2
## Min. :0.410 Min. :0.6900 Min. :0.410 Min. :4.250
## 1st Qu.:1.000 1st Qu.:0.8400 1st Qu.:0.940 1st Qu.:5.050
## Median :1.050 Median :0.9400 Median :1.040 Median :5.050
## Mean :1.045 Mean :0.9412 Mean :1.354 Mean :4.996
## 3rd Qu.:1.103 3rd Qu.:1.0100 3rd Qu.:2.053 3rd Qu.:5.050
## Max. :1.400 Max. :1.3700 Max. :2.850 Max. :6.250
## NA's :22 NA's :28 NA's :24 NA's :21
## nmgrs2 nregs2 hrsopen2 emp2
## Min. :0.000 Min. :1.000 Min. : 8.00 Min. : 0.00
## 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:12.00 1st Qu.:11.50
## Median :3.000 Median :3.000 Median :15.00 Median :17.00
## Mean :3.484 Mean :3.608 Mean :14.47 Mean :17.57
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:16.00 3rd Qu.:22.50
## Max. :8.000 Max. :8.000 Max. :24.00 Max. :55.50
## NA's :6 NA's :22 NA's :11 NA's :13
## compown chain density crmrte
## Min. :0.0000 Min. :1.000 Min. : 163 Min. :0.00518
## 1st Qu.:0.0000 1st Qu.:1.000 1st Qu.: 1666 1st Qu.:0.02888
## Median :0.0000 Median :2.000 Median : 2868 Median :0.04312
## Mean :0.3439 Mean :2.117 Mean : 4562 Mean :0.05338
## 3rd Qu.:1.0000 3rd Qu.:3.000 3rd Qu.: 5660 3rd Qu.:0.06219
## Max. :1.0000 Max. :4.000 Max. :41437 Max. :0.35971
## NA's :1 NA's :1
## state prpblck prppov prpncar
## Min. :1.000 Min. :0.00000 Min. :0.004298 Min. :0.00000
## 1st Qu.:1.000 1st Qu.:0.01165 1st Qu.:0.029710 1st Qu.:0.04353
## Median :1.000 Median :0.04144 Median :0.044441 Median :0.07389
## Mean :1.193 Mean :0.11349 Mean :0.071297 Mean :0.11487
## 3rd Qu.:1.000 3rd Qu.:0.12106 3rd Qu.:0.082159 3rd Qu.:0.12348
## Max. :2.000 Max. :0.98166 Max. :0.418480 Max. :0.62724
## NA's :1 NA's :1 NA's :1
## hseval nstores income county
## Min. : 33900 Min. :1.000 Min. : 15919 Min. : 1.00
## 1st Qu.:107900 1st Qu.:2.000 1st Qu.: 37883 1st Qu.: 6.00
## Median :142300 Median :3.000 Median : 46272 Median :14.00
## Mean :147399 Mean :3.139 Mean : 47054 Mean :13.66
## 3rd Qu.:176800 3rd Qu.:4.000 3rd Qu.: 54981 3rd Qu.:20.00
## Max. :473400 Max. :8.000 Max. :136529 Max. :29.00
## NA's :1 NA's :1
## lpsoda lpfries lhseval lincome
## Min. :-0.31471 Min. :-0.40048 Min. :10.43 Min. : 9.675
## 1st Qu.:-0.02020 1st Qu.:-0.16252 1st Qu.:11.59 1st Qu.:10.542
## Median : 0.05827 Median :-0.07257 Median :11.87 Median :10.742
## Mean : 0.04032 Mean :-0.08781 Mean :11.83 Mean :10.720
## 3rd Qu.: 0.08155 3rd Qu.: 0.00000 3rd Qu.:12.08 3rd Qu.:10.915
## Max. : 0.39878 Max. : 0.23902 Max. :13.07 Max. :11.824
## NA's :8 NA's :17 NA's :1 NA's :1
## ldensity NJ BK KFC
## Min. : 5.094 Min. :0.0000 Min. :0.0000 Min. :0.0000
## 1st Qu.: 7.418 1st Qu.:1.0000 1st Qu.:0.0000 1st Qu.:0.0000
## Median : 7.961 Median :1.0000 Median :0.0000 Median :0.0000
## Mean : 7.959 Mean :0.8073 Mean :0.4171 Mean :0.1951
## 3rd Qu.: 8.641 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:0.0000
## Max. :10.632 Max. :1.0000 Max. :1.0000 Max. :1.0000
## NA's :1
## RR
## Min. :0.0000
## 1st Qu.:0.0000
## Median :0.0000
## Mean :0.2415
## 3rd Qu.:0.0000
## Max. :1.0000
##
psoda = 0.956 + 0.115prpblck + 0.0000016income + u
Örnek boyutu 399 gözlemdir (398 serbestlik derecesi ve 9 eksik gözlem ile gösterilir) ve ayarlanmış R² 0.595’tir. prpblck katsayısı, her şey eşit olduğunda, prpblck %10 artarsa, soda fiyatının ekonomik olarak önemli olmayan derecede yaklaşık 1,2 sent artacağını gösterir.
basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
Basit regresyon ile prpblack üzerindeki katsayının tahmini 0.065’tir. Bu, önceki tahminden daha düşüktür ve bu nedenle, gelir hariç tutulduğunda ayrımcılık etkisinin azaldığını gösterir.
logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## log(income) 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.
logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur.
cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467
Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.
Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.
data("meapsingle")
paged_table(meapsingle)
help("meapsingle")
math4, pctsgle, lmedinc ve free değişkenlerinin ne anlama geldikleri
-math4: percent satisfactory, 4th grade math, matematik başarı yüzdesi -pctsgle: percent of children not in married-couple families, evli-çift ailelerde olmayan çocukların yüzdesi -lmedinc: log(medinc), medinc: zipcode median family, $ (1999), bölgenin ortanca geliri -free: percent eligible, free lunch, bedava öğle yemeğine uygun görülen yüzdesi
basitreg3<- lm(math4~pctsgle, data = meapsingle)
summary(meapsingle)
## dcode bcode math4 read4
## Min. :38010 Min. : 6 Min. : 18.90 Min. :15.40
## 1st Qu.:63060 1st Qu.:1401 1st Qu.: 71.30 1st Qu.:53.70
## Median :63200 Median :2800 Median : 85.70 Median :67.20
## Mean :63895 Mean :3283 Mean : 80.66 Mean :65.55
## 3rd Qu.:63290 3rd Qu.:5180 3rd Qu.: 93.00 3rd Qu.:79.70
## Max. :81902 Max. :8629 Max. :100.00 Max. :96.20
## enroll exppp free reduced
## Min. :152.0 Min. :3317 Min. : 0.00 Min. : 0.000
## 1st Qu.:342.0 1st Qu.:4490 1st Qu.: 3.70 1st Qu.: 1.700
## Median :403.0 Median :5401 Median : 9.80 Median : 3.900
## Mean :414.1 Mean :5421 Mean :17.49 Mean : 4.772
## 3rd Qu.:478.0 3rd Qu.:6184 3rd Qu.:23.40 3rd Qu.: 7.100
## Max. :830.0 Max. :9014 Max. :88.10 Max. :19.600
## lunch medinc totchild married
## Min. : 0.00 Min. : 31935 Min. : 343 Min. : 282
## 1st Qu.: 5.70 1st Qu.: 59646 1st Qu.: 3677 1st Qu.: 2947
## Median :14.40 Median : 72073 Median : 4817 Median : 3645
## Mean :22.26 Mean : 73645 Mean : 5222 Mean : 4163
## 3rd Qu.:31.00 3rd Qu.: 85873 3rd Qu.: 6080 3rd Qu.: 5132
## Max. :97.60 Max. :138188 Max. :12360 Max. :11479
## single pctsgle zipcode lenroll
## Min. : 61 Min. : 5.231 Min. :48009 Min. :5.024
## 1st Qu.: 473 1st Qu.:12.106 1st Qu.:48103 1st Qu.:5.835
## Median : 694 Median :15.714 Median :48309 Median :5.999
## Mean :1058 Mean :19.345 Mean :48315 Mean :5.986
## 3rd Qu.:1388 3rd Qu.:22.355 3rd Qu.:48356 3rd Qu.:6.170
## Max. :3684 Max. :56.536 Max. :49284 Max. :6.721
## lexppp lmedinc
## Min. :8.107 Min. :10.37
## 1st Qu.:8.410 1st Qu.:11.00
## Median :8.594 Median :11.19
## Mean :8.577 Mean :11.16
## 3rd Qu.:8.730 3rd Qu.:11.36
## Max. :9.107 Max. :11.84
coklureg3<- lm(math4~pctsgle+lmedinc+free, data = meapsingle)
summary(coklureg3)
##
## Call:
## lm(formula = math4 ~ pctsgle + lmedinc + free, data = meapsingle)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.919 -7.195 0.931 7.313 50.152
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.72322 58.47814 0.884 0.377
## pctsgle -0.19965 0.15872 -1.258 0.210
## lmedinc 3.56013 5.04170 0.706 0.481
## free -0.39642 0.07035 -5.635 5.2e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.7 on 225 degrees of freedom
## Multiple R-squared: 0.4598, Adjusted R-squared: 0.4526
## F-statistic: 63.85 on 3 and 225 DF, p-value: < 2.2e-16
cor(meapsingle$free,meapsingle$lmedinc)
## [1] -0.7469703
library(car)
## Loading required package: carData
vif(coklureg3)
## pctsgle lmedinc free
## 5.740981 4.118812 3.188079