soru 1

4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak, en küçük kareler (OLS) tarafından aşağıdaki denklem tahmin edilmiştir: üniversite not ortalaması= 1.392-0.0135lmsyd+0.00148sat lmsyd, öğrencilerin lise mezuniyet sınıflarındaki yüzdelik dilimi göstermektedir. Örneğin, lmsyd=5, sınıfın ilk %5’inde olduğu anlamına gelir. sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır. a. lmsyd katsayısının negatif olması neden mantıklıdır? b.lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not ortalaması nedir? c. Diyelim ki iki lise mezunu, A ve B, liseden aynı yüzdelik dilimde mezun oldular. Ancak Öğrenci A’nın SAT puanı 140 puan daha yüksek. (aynı zamanda yaklaşık bir standart sapmaya sahip). Bu iki öğrenci için üniversite not ortalamasında tahmini fark nedir? Bu fark büyük bir fark mı? d.lmsyd sabit tutulduğunda, SAT puanlarındaki hangi fark, tahmini üniversite not ortalaması farkına 0,50 veya bir notun yarısı kadar farka yol açar? Cevabınıza yorum yapın. ## Cevap 1

a.lmsyd, ne kadar küçükse öğrencinin lisedeki durumu o kadar düşük olacak şekilde tanımlanır. Diğer her şey eşittir, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur. b.Sadece bu değerleri denkleme yerleştirin üniversite not ortalaması=1.392-0.0135x20+0.00148x1050=2.676 c.A ve B arasındaki fark, sat katsayısının 140 katıdır, çünkü lmsyd her iki öğrenci için de aynıdır. Dolayısıyla A’nın 0.00148x(140)=0.207 daha yüksek bir puana sahip olduğu tahmin edilmektedir. d.lmsy sabit olduğunda,Δuniversite not ortalaması=0.00148xΔsat Bu durumda 0.5=0.00148xΔsat veya Δsat=0.00148/0.5 olacak şekilde bulmak istiyoruz.Δsat=338

soru 2

Aşağıdaki model, Biddle ve Hamermesh (1990) tarafından uyumak ve çalışmak için harcanan zaman arasındaki dengeyi incelemek ve uykuyu etkileyen diğer faktörleri incelemek için kullanılan çoklu regresyon modelinin basitleştirilmiş bir versiyonudur: uyku=ß0+ß1toplam.iş+ß2eğitim+ß3yaş+u uyku ve toplam iş dakikayla, eğitim ve yaş yılla hesaplanmıştır. a.Yetişkinler iş için uykuyu takas ediyorsa,ß1’in işareti nedir? b.ß2 ve ß3’ün hangi işaretleri olacağını düşünüyorsunuz? c.SLEEP75’teki verileri kullanarak, tahmin edilen denklem şu şekildedir: uyku=3,638.25-0.148toplam.iş-11.13eğitim+2.20yaş n=706 ve R2=0.113 Birisi haftada beş saat daha fazla çalışırsa, uykunun kaç dakika düşeceği tahmin edilir? bu büyük bir takas mı? d.Eğitim üzerindeki tahmini katsayının üzerindeki işaretini ve büyüklüğünü tartışın. e.Uykudaki çeşitliliğin çoğunu toplam iş, eğitim ve yaşın açıkladığını söyleyebilir misiniz? Uyuyarak geçirilen süreyi başka hangi faktörler etkileyebilir? Bunların toplam iş ile ilişkili olması muhtemel mi?

Cevap 2

a.Diğer herşey eşit olduğunda, yetişkinler uykuyu iş için tercih ediyorsa, daha fazla iş daha az uyku anlamına gelir, bu yüzden ß1<0 olur. b.ß2 ve ß3 işaretleri kişiden kişiye göre değişir. Vereceğiniz örneklere göre bu katsayıların işaretleri eksi veya artı olabilir. Bu yüzden bu çalışma için herhangi bir beklenti içinde olamayız. Kimi yaş ilerledikçe uykunun azaldığını söyler, kimi arttığını ve bunu gerekçeleriyle örneklendirebilir. Aynı durum eğitim ile ilgili olarak da tartışılabilir. c.Uyku ve toplam iş dakika ile ölçüldüğünden 5 saati dakikaya çevirmeniz gerekir (5x60=300) 300 dakikayı formülde yerine koyarsak 0.148x300=44.4 dakika. Uyku bir hafta içinde 44.4 dakika düşer bunun çok fazla bir düşüş olduğunu söyleyemeyiz. d.Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir, ancak etkisi oldukça küçüktür. Üniversite ile lise arasındaki farkın dört yıl olduğunu varsayarsak, modelimiz diğer değişkenler sabit olduğunda üniversite mezunu olan kişinin lise mezunu olan bir kişiye göre haftada yaklaşık 45 dakika (11.13 ) daha az uyuduğunu tahmin ediyor. d.Şaşırtıcı olmayan bir şekilde, üç açıklayıcı değişken, katılımcıların yalnızca yaklaşık %11.3’ünü (R2) açıklamaktadır. Hata terimindeki önemli bir faktör genel sağlıktır. Bir diğeri ise medeni durum ve kişinin çocuğu olup olmadığıdır. Sağlık, medeni durum ve çocukların sayısı ve yaşları genellikle toplam iş süresiyle ile ilişkilidir.

Soru 3

Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla ilişkilendiren bir çalışma yapmak istiyorsunuz, birkaç öğrenciye bir anket dağıttınız. Öğrencilere her hafta dört aktivitede kaç saat geçirdikleri sordunuz: ders çalışmak, uyumak, bir işte çalışmak ve boş zaman. Herhangi bir aktivite dört kategoriden birine konur, böylece her öğrenci için dört aktivitedeki saatlerin toplamı 168 olmalıdır. not ortalaması=ß0+ß1ders çalışma+ß2uyumak+ß3iş çalışma+ß4boş a.ß1’i yorumladığınızda çalışmayı değiştirirken uykuyu, işi ve boş zamanları sabit tutmak mantıklı mı? b.Bu modelin neden MLR.3 Varsayımını ihlal ettiğini açıklayın. c.Modeli, parametrelerinin faydalı bir yoruma sahip olması için nasıl yeniden formüle edebilirsiniz ve varsayım MLR.3’ü ihlal edilmez?

Cevap 3

a.Hayır. Tanım olarak, çalışma + uyku + iş + boş zaman = 168. Bu nedenle, çalışmayı değiştirirsek, toplamın hala 168 olması için diğer kategorilerden en az birini değiştirmeliyiz. b.kısmından, mesela iş değişkenini diğer bağımsız değişkenlerin mükemmel bir lineer fonksiyonu olarak yazabiliriz iş=168-uyku-ders-boş zaman Bu her gözlem için geçerlidir, dolayısıyla MLR.3 ihlal edilmiştir. c.Bağımsız değişkenlerden birini modelden çıkarın, mesela boş zaman değişkenini çıkarın: not ortalaması=ß0+ß1ders çalışma+ß2uyumak+ß3iş çalışma+u Bu durumda ß1 ders çalışma bir saat arttığında, uyku, iş ve u sabit tutulduğu zaman not ortalamasındaki değişiklik olarak yorumlanır. Uykuyu ve çalışmayı sabit tutuyoruz, ancak ders çalışmayı bir saat artırıyorsak, boş zamanı bir saat azaltıyor olmalıyız. Diğer eğim parametreleri de benzer bir yoruma sahiptir.

Wooldridge Veri Soruları

1.Sağlıkla ilgili konulardan biri, hamilelikte içmenin bebek sağlığına yönelik eğitim almaktır. Bebek sağlığın bir ölçü doğumdur; çok düşük doğumdan, gelenler tarafından yakalanma riskine sokabilir. Doğumda sigara içimi olabilir. Örneğin, daha yüksek gelişte daha iyi öncesi eğitime öğretmenin yanı sıra anne için daha iyi beslenme ile ile. Bunu hesabı bir denklem bwght=ß0+ß1cigs+ß2faminc+u Wooldridge BWGHT veri setini kullanır. a.Modellemelerinin ne anlama geldiği yazın. b.Modeli tahmin etmeden,ß2 için en olası işaretler nedir? c.cigs ve faminc’in hakkında düşünüyor musunuz? Korelasyonun pozitif mi negatif mi olabilir? d.Şimdi, BWGHT’deki verileri kullanarak, faminc olan ve olmayan denklem tahmini edin. rapor raporları edinin. örneklemede ve R-kare dahil olmak üzere örneklemdedir. Sonuçlarınızı tartışın, faminc eklemenin cigs’in üzerindeki paketlerden alışveriş yapılmayan değiştirilmeyen odaklanın.

2.Bu yanıt vermek için DISCRIM kullanılır. Bunlar, New Jersey ve Pensilvanya’daki fastfood restoranlarındaki gidişata göre posta yönü yönünden ve posta aracının özellikleridir. Bunlar, fast-food restoranlarının tasarımlarından daha yüksek olan ürünlerin satın alınan ürünleridir. modelimiz psoda=ß0+ß1prpblck+ß2income+u a.Modelin uyumlarının ve prppovinin ne anlama geldiği yazın. b.Ortalama prpblck ve gelir standart sapmalarıyla birlikte bulun. prpblck ve gelir ölçeğinde ölçüm? c.Bu model OLS ile tahmin ve sonuçları, n ve R-kare dahil olmak üzere teklif edin. (Tahminleri raporlarıken gösterimi yorumlari.) prpblck üzerindeki katsayıyılayın. Sizce ekonomik olarak büyük mü? d.basit regresyon psoda=ß0+ß1prpblck+u modelini kullanarak basit regresyonu tahmin edin. Ayrımcılık etkisi gelir’ı kontrol eden modele göre daha mı büyük daha mı küçük? e.Gelire göre sabit fiyatta sahip bir model daha uygun olabilir. log(psoda)=ß0+ß1prpblck+ß2log(income)+u Modelin tahmini edin ve tahminlerini raporlayın. Eğer prpblck .20 (20 yüzde puan) artarsa, psoda’nın tahmini yüzde ne olur? (İpucu: Cevap 2.xx’dir, burada “xx”i doldurursunuz) f.Şimdi prppovini odadaki e’deki regresyona ekleyin.ß1 ne olur? g.log(incom) ve prppove’den şüphe duymaktadır. Kabacanız gibi mi? h.Aşağıdaki ifadeyi değerlendirin: “log(income) ve çok yüksek oranda oranlı, aynı regresyonda gereklina gerek yoktur.”

3.Tek ebeveynli evlerin verilerinin uygulanması için ölçüm yapmak için MEAPSINGLE’daki verileri kullanır. Bu yorum, 2000 yılı için güney doğu okulların bir alt küme içindir. Sosyo- ekonomik olanlar, Posta kodu okulları itibari ile posta kodu okullarının posta puanlarına göre atanır). a.matematik4, pctsgle, lmedinc ve freelerinin ne anlama gelmelerini yazın. b.Math4’ün basit regresyonunu ve üzerindeki normal gösterimleri raporun üzerinde. Eğim yönünden yorumlayın. Tek ebeveynliğin büyük yoksa küçük mü görünüyor? c.lmedinc ve free uyarlarını denkleme ekleyin. pctsgle üzerinde katsayıya ne olur? d.lmedinc ve ücretsiz bir örneklem durumu bulun. Beklediğiniz işaretler var mı? e.Imedink ve serbest geçişler değişir. Tek ebeveynliğin eğitim üzerinde nedensel olarak daha iyi olmak tahmin için bir tanesini regresyondan analizden çıkarmanız olası dönecek mi? açıklayın. f.Görünen açıklayıcıların her biri için varyans enflasyon faktörlerini (VIF’ler) bulun. Hangi olabilecek en büyük VIF’ye sahip? Bu bilgi, tek ebeveynliğin çocukların eğitimini kullanmak için kullanmak için model mi? ## Wooldridge Veri Cevapları

library(wooldridge)
library(rmarkdown)
data("bwght")
head(bwght)
##   faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1   13.5   16.5    122.3   109       12       12      1    1     1    0
## 2    7.5   16.5    122.3   133        6       12      2    1     0    0
## 3    0.5   16.5    122.3   129       NA       12      2    0     0    0
## 4   15.5   16.5    122.3   126       12       12      2    1     0    0
## 5   27.5   16.5    122.3   134       14       12      2    1     1    0
## 6    7.5   16.5    122.3   118       12       14      6    1     0    0
##     lbwght bwghtlbs packs    lfaminc
## 1 4.691348   6.8125     0  2.6026897
## 2 4.890349   8.3125     0  2.0149031
## 3 4.859812   8.0625     0 -0.6931472
## 4 4.836282   7.8750     0  2.7408400
## 5 4.897840   8.3750     0  3.3141861
## 6 4.770685   7.3750     0  2.0149031
help(bwght)
## starting httpd help server ... done

kullanacağımız değişkenlerin tanımları

-faminc: 1988 family income, $1000s, 1988 aile geliri -cigs: cigs smked per day while preg, hamileyken içilen günlük sigara sayısı -bwght: birth weight, ounces, doğum ağırlığı, ons

b.Bir yandan, gelirdeki bir artış genellikle gıda tüketimini arttırır ve sigara ile aile geliri arasında pozitif bir ilişki olabilir. Öte yandan, daha fazla eğitime sahip ailelerin aile gelirleri de daha yüksektir ve daha fazla eğitim ile sigara içme arasında olumsuz bir ilişki vardır. c.Sigara ve faminc arasındaki örnek korelasyonu yaklaşık -0.173’tür ve negatif bir korelasyona işaret eder. d.

ilkreg <- lm(bwght~ cigs,data = bwght)
ikincireg<- lm(bwght~ cigs+faminc,data = bwght)
library(stargazer)
## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
stargazer(list(ilkreg,ikincireg),type = "text")
## 
## =====================================================================
##                                    Dependent variable:               
##                     -------------------------------------------------
##                                           bwght                      
##                               (1)                      (2)           
## ---------------------------------------------------------------------
## cigs                       -0.514***                -0.463***        
##                             (0.090)                  (0.092)         
##                                                                      
## faminc                                               0.093***        
##                                                      (0.029)         
##                                                                      
## Constant                   119.772***               116.974***       
##                             (0.572)                  (1.049)         
##                                                                      
## ---------------------------------------------------------------------
## Observations                 1,388                    1,388          
## R2                           0.023                    0.030          
## Adjusted R2                  0.022                    0.028          
## Residual Std. Error    20.129 (df = 1386)       20.063 (df = 1385)   
## F Statistic         32.235*** (df = 1; 1386) 21.274*** (df = 2; 1385)
## =====================================================================
## Note:                                     *p<0.1; **p<0.05; ***p<0.01

Denklem şeklinde rapor bwght=116.974-0.463cigs+0.093faminc bwght=119.772-0.514cigs

Regresyona faminc eklendiğinde sigara içmenin etkisi biraz daha az ama aradaki fark çok büyük değil. Bunun nedeni, cigs ve faminc’in çok ilişkili olmaması ve faminc üzerindeki katsayının pratik olarak küçük olmasıdır. (Faminc değişkeni binlerle ölçülür, yani 1988’de 10.000$ daha fazla gelir, öngörülen doğum ağırlığını yalnızca .93 ons artırır.) 2. a.

data("discrim")
head(discrim)
##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0
help(discrim)

Gördüğünüz gibi veri setinde bazı değişkenler için bazı gözlemler NA değerine sahip. NA (not available) o gözlem için mevcut değil anlamına geliyor. Örneğin pfries (price of small fries, küçük kızartmanın fiyatı) değişkeninin beşinci gözlemi veri setinde bulunan beşinci restoranının küçük kızartma fiyatını bilmediğimiz anlamı taşıyor. Mevcut olmayan gözlemler analizlerde her zaman sorunlar çıkarır. Bu mevcut olmayan değişkenlerle nasıl başa çıkacağımızı yavaş yavaş öğrenmemiz gerekir.

Modelin değişkenlerinin ve prppov değişkeninin anlamı. -psoda: price of medium soda, 1st wave, orta sodanın fiyatı. -prpblck: proportion black, zipcode, restoranın bulunduğu bölgede siyahi oranı -income: median family income, zipcode, restoranın bulunduğu bölgenin medyan (ortanca) aile geliri. -prppov: proportion in poverty, zipcode, restoranın bulunduğu bölgede yoksulluk oranı

mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NA

Bildiğimiz mean ve sd fonksiyonlarını kullanarak ortama ve standart sapma değerlerini bulamadık. Çıkan NA sonucu bize bu değişkenlerin içinde bazı gözlemlerin mevcut olmadığını gösteriyor olabilir. discrim veri setinde 410 gözlem olduğundan her bir gözlemi kontrol edemiyorz ve bu değişkenlerin içinde kaç tane gözlemin mevcut olmadığını çıkaramıyoruz. R bize bu konuda is.na fonksiyonu ile yardımcı oluyor. is.na aslında sorduğumuz ingilizce bir soru ve is na? derken R’a mevcut olmayan gözlem var mı diye soru soruyoruz. R’da bize her bir gözlem için o gözlemin değeri olup olmadığını TRUE (doğru) ve FALSE (yanlış) olarak geri veriyor. Örnek vermek gerekirse konsola is.na(discrim income yazarsanız rincome değişkeninin her bir gözlemi için TRUE ve, income)) income değişkenin içindeki var olmayan gözlem sayısını toplayacak ve bize verecektir.

sum(is.na(discrim$prpblck))
## [1] 1
sum(is.na(discrim$income))
## [1] 1

Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerinine sahip olduğunu söylememiz lazım.

mean(discrim$prpblck,na.rm = TRUE)
## [1] 0.1134864
sd(discrim$prpblck,na.rm = TRUE)
## [1] 0.1824165
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29

fonksiyonun içine yazdığımız na.rm (na remove, çıkar) öevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.

Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır. Aşağıdaki komutu kullanmak için vtable paketini yüklemeniz gerektiğini unutmayın.

library(vtable)
## Zorunlu paket yükleniyor: kableExtra
## Loading required package: kableExtra
sumtable(discrim, summ=c('notNA(x)', 'countNA(x)', 'mean(x)','sd(x)'),out='return')
##    Variable NotNA CountNA       Mean        Sd
## 1     psoda   402       8      1.045     0.089
## 2    pfries   393      17      0.922     0.106
## 3   pentree   398      12      1.322     0.643
## 4    wagest   390      20      4.616     0.347
## 5     nmgrs   404       6       3.42     1.018
## 6     nregs   388      22      3.608     1.244
## 7   hrsopen   410       0     14.439      2.81
## 8       emp   404       6     17.622     9.423
## 9    psoda2   388      22      1.045     0.094
## 10  pfries2   382      28      0.941     0.109
## 11 pentree2   386      24      1.354      0.65
## 12  wagest2   389      21      4.996     0.253
## 13   nmgrs2   404       6      3.484      1.14
## 14   nregs2   388      22      3.608     1.244
## 15 hrsopen2   399      11     14.466     2.752
## 16     emp2   397      13     17.567     8.607
## 17  compown   410       0      0.344     0.476
## 18    chain   410       0      2.117      1.11
## 19  density   409       1   4561.803  5132.408
## 20   crmrte   409       1      0.053     0.047
## 21    state   410       0      1.193     0.395
## 22  prpblck   409       1      0.113     0.182
## 23   prppov   409       1      0.071     0.067
## 24  prpncar   409       1      0.115     0.117
## 25   hseval   409       1 147399.267 56070.468
## 26  nstores   410       0      3.139     1.809
## 27   income   409       1  47053.785 13179.286
## 28   county   410       0     13.659     8.045
## 29   lpsoda   402       8       0.04     0.085
## 30  lpfries   393      17     -0.088     0.115
## 31  lhseval   409       1     11.829     0.389
## 32  lincome   409       1      10.72     0.284
## 33 ldensity   409       1      7.959     0.996
## 34       NJ   410       0      0.807     0.395
## 35       BK   410       0      0.417     0.494
## 36      KFC   410       0      0.195     0.397
## 37       RR   410       0      0.241     0.428
discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06

psoda=0.956+0.115prpblck+0.0000016income+u Örnek boyutu 399 gözlemdir (398 serbestlik derecesi ve 9 eksik gözlem ile gösterilir) ve ayarlanmış R2 0.595’tir. prpblck katsayısı, her şey eşit olduğunda, prpblck %10 artarsa, soda fiyatının ekonomik olarak önemli olmayan derecede yaklaşık 1,2 sent artacağını gösterir. d.

basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

Basit regresyon ile prpblack üzerindeki katsayının tahmini 0.065’tir. Bu, önceki tahminden daha düşüktür ve bu nedenle, gelir hariç tutulduğunda ayrımcılık etkisinin azaldığını gösterir. e.

logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07
paste( (0.2*100)*0.122, "yüzdelik artış")
## [1] "2.44 yüzdelik artış"

“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır. f.

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur. g.

cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467

Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.

h.Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar. 3. a.

data("meapsingle")
paged_table(meapsingle)
help(meapsingle)

math4, pctsgle, lmedinc ve free değişkenlerinin ne anlama geldikleri

-math4: percent satisfactory, 4th grade math, matematik başarı yüzdesi -pctsgle: percent of children not in married-couple families, evli-çift ailelerde olmayan çocukların yüzdesi -lmedinc: log(medinc), medinc: zipcode median family, $ (1999), bölgenin ortanca geliri -free: percent eligible, free lunch, bedava öğle yemeğine uygun görülen yüzdesi b.

basitreg3<- lm(math4~pctsgle, data = meapsingle)
summary(basitreg3)
## 
## Call:
## lm(formula = math4 ~ pctsgle, data = meapsingle)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -47.791  -8.310   1.600   8.092  50.317 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 96.77043    1.59680   60.60   <2e-16 ***
## pctsgle     -0.83288    0.07068  -11.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.48 on 227 degrees of freedom
## Multiple R-squared:  0.3795, Adjusted R-squared:  0.3768 
## F-statistic: 138.9 on 1 and 227 DF,  p-value: < 2.2e-16
coklureg3<- lm(math4~pctsgle+lmedinc+free, data = meapsingle)
summary(coklureg3)
## 
## Call:
## lm(formula = math4 ~ pctsgle + lmedinc + free, data = meapsingle)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -34.919  -7.195   0.931   7.313  50.152 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 51.72322   58.47814   0.884    0.377    
## pctsgle     -0.19965    0.15872  -1.258    0.210    
## lmedinc      3.56013    5.04170   0.706    0.481    
## free        -0.39642    0.07035  -5.635  5.2e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.7 on 225 degrees of freedom
## Multiple R-squared:  0.4598, Adjusted R-squared:  0.4526 
## F-statistic: 63.85 on 3 and 225 DF,  p-value: < 2.2e-16
cor(meapsingle$free,meapsingle$lmedinc)
## [1] -0.7469703
library(car)
## Zorunlu paket yükleniyor: carData
## Loading required package: carData
vif(coklureg3)
##  pctsgle  lmedinc     free 
## 5.740981 4.118812 3.188079