R ile Çoklu Regresyon Analizi Ödev Soruları ve Cevapları birinci bölümde Wooldridge Bölüm Soruları
Wooldridge Bölüm Soruları 1inci soru ## soru 1 açıklaması 4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak, en küçük kareler (OLS) tarafından aşağıdaki denklem tahmin edilmiştir:
Üniversite not ortalaması = 1.392 - 0.0135lmsyd+0.00148sat
lmsyd, öğrencilerin lise mezuniyet sınıflarındaki yüzdelik dilimi göstermektedir. Örneğin, lmsyd=5, sınıfın ilk %5’inde olduğu anlamına gelir. sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır
lmsyd katsayısının negatif olması neden mantıklıdır? ## soru 1.b lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not ortalaması nedir? ## soru 1.c Diyelim ki iki lise mezunu, A ve B, liseden aynı yüzdelik dilimde mezun oldular. Ancak Öğrenci A’nın SAT puanı 140 puan daha yüksek. (aynı zamanda yaklaşık bir standart sapmaya sahip). Bu iki öğrenci için üniversite not ortalamasında tahmini fark nedir? Bu fark büyük bir fark mı? ## soru 1.d
Wooldridge Bölüm Soruları 2inci soru
Aşağıdaki model, Biddle ve Hamermesh (1990) tarafından uyumak ve çalışmak için harcanan zaman arasındaki dengeyi incelemek ve uykuyu etkileyen diğer faktörleri incelemek için kullanılan çoklu regresyon modelinin basitleştirilmiş bir versiyonudur:
Uyku = ß₀ + ß₁toplam.iş + ß₂eğitim + ß₃yaş + u
uyku ve toplam iş dakikayla eğitim ve yaş yılla hesaplanmıştır.
Yetişkinler iş için uykuyu takas ediyorsa, ß₁’in işareti nedir? ## soru 2.b ß₂ ve ß₃’ün hangi işaretleri olacağını düşünüyorsunuz? ## soru 2.c SLEEP75’teki verileri kullanarak, tahmin edilen denklem şu şekildedir: uyku = 3,638.25 - 0.148toplam.iş - 11.13eğitim + 2.20yaş
n= 706 ve R²= 0.113 Birisi haftada beş saat daha fazla çalışırsa, uykunun kaç dakika düşeceği tahmin edilir? bu büyük bir takas mı? d.Eğitim üzerindeki tahmini katsayının üzerindeki işaretini ve büyüklüğünü tartışın. e.Uykudaki çeşitliliğin çoğunu toplam iş, eğitim ve yaşın açıkladığını söyleyebilir misiniz? Uyuyarak geçirilen süreyi başka hangi faktörler etkileyebilir? Bunların toplam iş ile ilişkili olması muhtemel mi?
Wooldridge Bölüm Soruları 3üncün soru
Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla ilişkilendiren bir çalışma yapmak istiyorsunuz, birkaç öğrenciye bir anket dağıttınız. Öğrencilere her hafta dört aktivitede kaç saat geçirdikleri sordunuz: ders çalışmak, uyumak, bir işte çalışmak ve boş zaman. Herhangi bir aktivite dört kategoriden birine konur, böylece her öğrenci için dört aktivitedeki saatlerin toplamı 168 olmalıdır. Not ortalaması = ß₀ + ß₁ders.çalışma + ß₂uyumak + ß₃iş.çalışma + ß₄boş.zaman + uyku
ß₁’i yorumladığınızda çalışmayı değiştirirken uykuyu, işi ve boş zamanları sabit tutmak mantıklı mı? ## soru 3.b Bu modelin neden MLR.3 Varsayımını ihlal ettiğini açıklayın. ## soru 3.c Modeli, parametrelerinin faydalı bir yoruma sahip olması için nasıl yeniden formüle edebilirsiniz ve varsayım MLR.3’ü ihlal edilmez?
birinci bölümde Wooldridge Bölüm cevabları
lmsyd, ne kadar küçükse öğrencinin lisedeki durumu o kadar düşük olacak şekilde tanımlanır. Diğer her şey eşittir, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur. ## cevabı 1.b Sadece bu değerleri denkleme yerleştirin üniversite not ortalaması = 1.392 - 0.0135 . 20 + 0.00148 . 1050 = 2.676 ## cevabı 1.c A ve B arasındaki fark, sat katsayısının 140 katıdır, çünkü lmsyd her iki öğrenci için de aynıdır. Dolayısıyla A’nın 0.00148 . (140) = 0.207 daha yüksek bir puama sahip olduğu tahmin edilmektedir. ## cevabı 1.d lmsy sabit olduğunda, Δüniversite not ortalaması = 0.00148 . Δsat. Bu durumda 0.5 = 0.00148 . Δsat veya Δsat = 0.00148/0.5 olacak şekilde bulmak istiyoruz. olacak şekilde bulmak istiyoruz. Δsat=338
Diğer her şey eşit olduğunda, yetişkinler uykuyu iş için tercih ediyorsa, daha fazla iş daha az uyku anlamına gelir, bu yüzden ß₁<0 olur. ## cevabı 2.b ß₂ ve ß₃ işaretleri kişiden kişiye göre değişir. Vereceğiniz örneklere göre bu katsayıların işaretleri eksi veya artı olabilir. Bu yüzden bu çalışma için herhangi bir beklenti içinde olamayız. Kimi yaş ilerledikçe uykunun azaldığını söyler, kimi arttığını ve bunu gerekçeleriyle örneklendirebilir. Aynı durum eğitim ile ilgili olarak da tartışılabilir. ## cevabı 2.c Uyku ve toplam iş dakika ile ölçüldüğünden 5 saati dakikaya çevirmeniz gerekir (5.60 = 300). 300 dakikayı formülde yerine koyarsak 0.148 . 300 = 44.4 dakika. Uyku bir hafta içinde 44.4 dakika düşer bunun çok fazla bir düşüş olduğunu söyleyemeyiz. Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir, ancak etkisi oldukça küçüktür. Üniversite ile lise arasındaki farkın dört yıl olduğunu varsayarsak, modelimiz diğer değişkenler sabit olduğunda üniversite mezunu olan kişinin lise mezunu olan bir kişiye göre haftada yaklaşık 45 dakika (11.13 ) daha az uyuduğunu tahmin ediyor.
Hayır. Tanım olarak, çalışma + uyku + iş + boş zaman = 168. Bu nedenle, çalışmayı değiştirirsek, toplamın hala 168 olması için diğer kategorilerden en az birini değiştirmeliyiz. ## cevabı 3.b kısmından, mesela iş değişkenini diğer bağımsız değişkenlerin mükemmel bir lineer fonksiyonu olarak yazabiliriz: iş= 168 - uyku - ders - boşzaman Bu her gözlem için geçerlidir, dolayısıyla MLR.3 ihlal edilmiştir. ## cevabı 3.c Bağımsız değişkenlerden birini modelden çıkarın, mesela boş zaman değişkenini çıkarın: Not ortalaması = ß₀ + ß₁ders.çalışma + ß₂uyumak + ß₃iş.çalışma + u
Bu durumda, ß₁ ders çalışma bir saat arttığında, uyku, iş ve u sabit tutulduğu zaman not ortalamasındaki değişiklik olarak yorumlanır. Uykuyu ve çalışmayı sabit tutuyoruz, ancak ders çalışmayı bir saat artırıyorsak, boş zamanı bir saat azaltıyor olmalıyız. Diğer eğim parametreleri de benzer bir yoruma sahiptir.
ikinci bölümde Wooldridge Veri Sorusu ## soru 1 açıklaması Sağlık görevlilerinin ilgilendiği sorunlardan biri, hamilelik sırasında sigara içmenin bebek sağlığı üzerindeki etkilerini belirlemektir. Bebek sağlığının bir ölçüsü doğum ağırlığıdır; çok düşük doğum ağırlığı, bebeği çeşitli hastalıklara yakalanma riskine sokabilir. Doğum ağırlığını etkileyen sigara içimi dışındaki faktörlerin sigara ile ilişkili olması muhtemel olduğundan, bu faktörleri dikkate almalıyız. Örneğin, daha yüksek gelir genellikle daha iyi doğum öncesi bakıma erişimin yanı sıra anne için daha iyi beslenme ile sonuçlanır. Bunu tanımlayan bir denklem
bwght = ß₀ + ß₁cigs + ß₂faminc + u
Wooldridge BWGHT data setini kullanın.
Modelin değişkenlerinin ne anlama geldiğini yazın. ## soru 1.b Modeli tahmin etmeden, ß₂ için en olası işaret nedir? ## soru 1.c cigs ve faminc’in ilişkili olabileceğini düşünüyor musunuz? Korelasyonun pozitif mi negatif mi olabilir? ## soru 1.d Şimdi, BWGHT’deki verileri kullanarak, faminc olan ve olmayan denklemi tahmin edin. sonuçları rapor edin. örnek boyutu ve R-kare dahil olmak üzere denklem formunda yazın. Sonuçlarınızı tartışın, faminc eklemenin cigs’in bwght üzerindeki tahmini etkisini önemli ölçüde değiştirip değiştirmediğine odaklanın. ## soru 2.a Bu soruyu yanıtlamak için DISCRIM verilerini kullanın. Bunlar, New Jersey ve Pennsylvania’daki fast-food restoranlarındaki çeşitli ürünlerin fiyatlarına ilişkin posta kodu düzeyinde veriler ve posta kodu popülasyonunun özellikleridir. Buradaki fikir, fast-food restoranlarının siyahların daha yoğun olduğu bölgelerde daha yüksek fiyatlar talep edip etmediğini öğrenmektir. Modelimiz
psoda = ß₀ + ß₁prpblck + ß₂income + u ## soru 2.b Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte bulun. prpblck ve income ölçü birimleri nelerdir? ## soru 2.c Bu modeli OLS ile tahmin edin ve sonuçları, n ve R-kare dahil olmak üzere denklem biçiminde rapor edin. (Tahminleri raporlarken bilimsel gösterimi kullanmayın.) prpblck üzerindeki katsayıyı yorumlayın. Sizce ekonomik olarak büyük mü? ## soru 2.d Basit regresyon
psoda = ß₀ + ß₁prpblck + u
modelini kullanarak basit regresyonu tahmin edin. Ayrımcılık etkisi income’ı kontrol ettiğiniz modele göre daha mı büyük daha mı küçük? ## soru 2.e Gelire göre sabit fiyat esnekliğine sahip bir model daha uygun olabilir.
log(psoda) = ß₀ + ß₁prpblck + ß₂log(income) + u
Modelin tahmin edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puanı) artarsa, psoda’nın tahmini yüzde değişimi ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz) ## soru 2.f Şimdi prppov değişkenini kısım e’deki regresyona ekleyin.ß₁’e ne olur? ## soru 2.g log(income) ve prppov arasındaki ilişkiyi bulun. Kabaca beklediğiniz gibi mi? ## soru 2.h Aşağıdaki ifadeyi değerlendirin: “log(income) ve prppov çok yüksek oranda ilişkili olduğundan, aynı regresyonda olmalarına gerek yoktur.”
Tek ebeveynli hanelerin öğrencilerin matematik performansı üzerindeki etkilerini incelemek için MEAPSINGLE’daki verileri kullanın. Bu veriler, 2000 yılı için güneydoğu Michigan’daki okulların bir alt kümesi içindir. Sosyo-ekonomik değişkenler, Posta kodu düzeyinde elde edilir (burada Posta kodu okulların posta adreslerine göre atanır). ## soru 3.a math4, pctsgle, lmedinc ve free değişkenlerinin ne anlama geldiklerini yazın. ## soru 3.b Math4’ün basit regresyonunu pctsgle üzerinde çalıştırın ve sonuçları normal biçimde rapor edin. Eğim katsayısını yorumlayın. Tek ebeveynliğin etkisi büyük mü yoksa küçük mü görünüyor? ## soru 3.c lmedinc ve free değişkenlerini denkleme ekleyin. pctsgle üzerindeki katsayıya ne olur? ## soru 3.d lmedinc ve free arasındaki örnek korelasyonu bulun. Beklediğiniz işaret var mı? ## soru 3.e Imedinc ve free arasındaki önemli korelasyon varsa. Tek ebeveynliğin öğrenci performansı üzerindeki nedensel etkisini daha iyi tahmin etmek için bir tanesini regresyondan analizinden çıkarmanız gerektiği anlamına gelir mi? Açıklayın.