Ödev

Wooldridge Bölüm Soruları


Soru 1: GPA Tahmin Modeli

4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak, en küçük kareler (OLS) yöntemiyle aşağıdaki denklem tahmin edilmiştir:

Model:

\[ \text{Üniversite Not Ortalaması} = \beta_0 + \beta_1 \cdot \text{lmsyd} + \beta_2 \cdot \text{sat} + u \]

  • lmsyd, öğrencilerin lise mezuniyet sınıflarındaki yüzdelik dilimini göstermektedir. Örneğin, lmsyd=5, sınıfın ilk %5’inde olduğu anlamına gelir.
  • sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır.

Sorular:

  1. lmsyd katsayısının negatif olması neden mantıklıdır?
    • lmsyd ne kadar küçükse, öğrencinin lisedeki durumu o kadar iyi olur. Diğer her şey eşit olduğunda, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur.
  2. lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not ortalaması nedir?
    • Bu değerleri denkleme yerleştirin:
      \[ \text{Tahmini Üniversite Not Ortalaması} = \beta_0 + \beta_1 \cdot 20 + \beta_2 \cdot 1050 \]
  3. İki öğrenci arasında SAT puan farkının etkisi nedir?
    • A ve B öğrencilerinin SAT puanları arasındaki fark sat katsayısının 140 katıdır. Yani, A’nın üniversite not ortalaması B’ye göre:
      \[ 140 \cdot \beta_2 \] kadar farklı olur.
  4. SAT puanlarındaki hangi fark, tahmini üniversite not ortalaması farkına 0,50 kadar yol açar?
    • lmsyd sabit tutulduğunda:
      \[ 0.50 = \beta_2 \cdot \Delta SAT \]
    • Buradan:
      \[ \Delta SAT = \frac{0.50}{\beta_2} \]

Soru 2: Uyku ve İş Modeli

Model:

\[ \text{uyku} = \beta_0 + \beta_1 \cdot \text{iş} + \beta_2 \cdot \text{eğitim} + \beta_3 \cdot \text{yaş} + u \]

  • uyku ve , dakikayla ölçülür.
  • eğitim ve yaş, yıllarla ölçülür.

Sorular:

  1. İş ve uyku arasındaki ilişki nedir?
    • Diğer her şey sabitken, daha fazla iş daha az uyku anlamına gelir. Bu yüzden \(\beta_1 < 0\).
  2. Haftada 5 saat daha fazla çalışmanın etkisi nedir?
    • Haftada 5 saat, dakikaya çevrildiğinde:
      \[ 5 \cdot 60 = 300 \text{ dakika} \]
    • Bu durumda:
      \[ \Delta Uyku = 300 \cdot \beta_1 \]
  3. Eğitim katsayısının yorumu nedir?
    • Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir. Örneğin, üniversite mezunu bir kişi, lise mezununa göre haftada yaklaşık:
      \[ 4 \cdot \beta_2 \] kadar daha az uyur.
  4. Modelin açıklama gücü nedir?
    • Model, uykudaki çeşitliliğin çoğunu açıklayamıyor olabilir. Sağlık durumu, medeni durum ve çocuk sayısı gibi faktörler uyku süresini etkileyebilir ve bu faktörler toplam işle ilişkili olabilir.

Soru 3: Üniversite Not Ortalaması ve Aktivite Modeli

Senaryo:

Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla ilişkilendiren bir çalışma yapmak istiyorsunuz. Öğrencilere her hafta dört aktivitede kaç saat geçirdikleri sorulmuştur:
- Ders çalışmak
- Uyumak
- Bir işte çalışmak
- Boş zaman

Herhangi bir aktivite dört kategoriden birine konur. Dolayısıyla, her öğrenci için toplam süre 168 saate eşittir.

Model:

\[ \text{GPA} = \beta_0 + \beta_1 \cdot \text{Çalışma} + \beta_2 \cdot \text{Uyku} + \beta_3 \cdot \text{İş} + \beta_4 \cdot \text{Boş Zaman} + u \]

Sorular:

  1. Çalışmayı değiştirirken diğer değişkenleri sabit tutmak mantıklı mı?
    • Hayır. Çünkü:
      \[ Çalışma + Uyku + İş + Boş Zaman = 168 \]
    • Çalışma süresini artırırsak, toplamın hâlâ 168 olması için diğer kategorilerden en az biri değişmelidir.
  2. MLR.3 Varsayımı neden ihlal edilir?
    • Bir değişken (örneğin, ), diğer bağımsız değişkenlerin lineer bir fonksiyonu olduğunda mükemmel kollinearite oluşur. Bu durum MLR.3 varsayımını ihlal eder.
  3. Model nasıl yeniden formüle edilebilir?
    • Bağımsız değişkenlerden birini modelden çıkarabilirsiniz (örneğin, boş zaman):
      \[ \text{GPA} = \beta_0 + \beta_1 \cdot \text{Çalışma} + \beta_2 \cdot \text{Uyku} + \beta_3 \cdot \text{İş} + u \]

Wooldridge Veri Soruları

Bölüm 1: Hamilelikte Sigara ve Doğum Ağırlığı

Sağlık görevlilerinin ilgilendiği sorunlardan biri, hamilelik sırasında sigara içmenin bebek sağlığı üzerindeki etkilerini belirlemektir. Bebek sağlığının bir ölçüsü doğum ağırlığıdır. Çok düşük doğum ağırlığı, bebeği çeşitli hastalıklara yakalanma riskine sokabilir. Doğum ağırlığını etkileyen sigara içimi dışındaki faktörlerin sigara ile ilişkili olması muhtemel olduğundan, bu faktörleri dikkate almalıyız. Örneğin, daha yüksek gelir genellikle daha iyi doğum öncesi bakıma erişim ve anne için daha iyi beslenme anlamına gelir.

Model:

\[ \text{bwght} = \beta_0 + \beta_1 \cdot \text{cigs} + \beta_2 \cdot \text{faminc} + u \]

Sorular:

  1. Modeldeki değişkenlerin anlamlarını açıklayın.
    • bwght: Doğum ağırlığı (gram).
    • cigs: Hamilelik sırasında annenin içtiği günlük sigara sayısı.
    • faminc: Ailenin yıllık geliri (bin $ cinsinden).
  2. Modeli tahmin etmeden önce \(\beta_1\) işareti ne olabilir? Neden?
    • \(\beta_1\) muhtemelen negatiftir çünkü sigara içmek doğum ağırlığını olumsuz etkiler.
  3. cigs ve faminc ilişkili mi? Korelasyonun işareti ne olabilir?
    • Evet, ilişkili olabilir. Daha düşük gelir seviyeleri daha fazla sigara içmeyle ilişkilendirilebilir, bu da negatif korelasyona işaret eder.
  4. BWGHT verileri kullanılarak faminc eklenmeden ve eklendiğinde model tahmini:
    • İki denklemi tahmin edin ve sonuçları \(R^2\), örnek boyutu ve katsayılarla raporlayın.
    • Faminc değişkeninin eklenmesi, sigaranın bwght üzerindeki tahmini etkisini değiştiriyor mu? Tartışın.

Bölüm 2: Ayrımcılık ve Fiyatlandırma

New Jersey ve Pennsylvania’daki fast-food restoranlarında fiyatların siyah nüfus yoğunluğuna göre değişip değişmediği incelenmektedir.

Model:

\[ \log(\text{psoda}) = \beta_0 + \beta_1 \cdot \text{prpblck} + \beta_2 \cdot \log(\text{income}) + u \]

Sorular:

  1. Modeldeki değişkenlerin anlamları:

    • psoda: Bir fast-food restoranında büyük bir gazlı içecek fiyatı (sent cinsinden).
    • prpblck: Posta kodunda yaşayan siyah nüfus oranı (0-1 arası).
    • income: Posta kodundaki ortalama gelir (dolar).
    • prppov: Posta kodundaki yoksulluk oranı (0-1 arası).
  2. Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte hesaplayın. Bu ölçümlerin birimlerini belirtin.

  3. Modeli OLS ile tahmin edin ve sonuçları raporlayın.

    • \(R^2\), örnek boyutu ve katsayılarla birlikte denklem formatında raporlayın.
  4. Prpblck üzerindeki katsayıyı yorumlayın. Ekonomik olarak anlamlı mı?

  5. Income’ı kontrol ettiğinizde ayrımcılık etkisi daha büyük mü yoksa daha küçük mü?

  6. Fiyata göre sabit esneklik modeli:

    • \(\log(\text{psoda}) = \beta_0 + \beta_1 \cdot \text{prpblck} + \beta_2 \cdot \log(\text{income}) + \beta_3 \cdot \text{prppov} + u\)
    • Eğer \(\text{prpblck}\) %20 artarsa, psoda’nın tahmini yüzdesel değişimi nedir?
  7. Prppov değişkeni eklendiğinde prpblck katsayısına ne olur?

  8. Log(income) ve prppov arasındaki ilişkiyi inceleyin. Beklediğiniz gibi mi?

  9. “Log(income) ve prppov çok yüksek korelasyonlu olduğundan aynı regresyonda olmalarına gerek yoktur” ifadesini değerlendirin.


Bölüm 3: Tek Ebeveynli Haneler ve Matematik Performansı

Sosyo-ekonomik değişkenlerin, özellikle tek ebeveynli hanelerin, öğrencilerin matematik performansı üzerindeki etkisi incelenmektedir.

Model:

\[ \text{math4} = \beta_0 + \beta_1 \cdot \text{pctsgle} + \beta_2 \cdot \log(\text{lmedinc}) + \beta_3 \cdot \text{free} + u \]

Sorular:

  1. Değişkenlerin anlamları:

    • math4: Matematik test performansı (4. sınıf).
    • pctsgle: Tek ebeveynli hanelerin yüzdesi (0-100).
    • lmedinc: Medyan hane gelirinin logaritması (dolar).
    • free: Ücretsiz öğle yemeği alan öğrencilerin oranı (% olarak).
  2. Math4 ve pctsgle arasındaki basit regresyon:

    • Eğim katsayısını yorumlayın. Tek ebeveynliğin etkisi büyük mü yoksa küçük mü?
  3. Lmedinc ve free değişkenlerini eklediğinizde, pctsgle katsayısı nasıl değişir?

  4. Lmedinc ve free arasındaki örnek korelasyon nedir? Beklenen işarete uygun mu?

  5. Lmedinc ve free arasındaki korelasyon nedeniyle birini regresyondan çıkarmak mantıklı mı? Açıklayın.

  6. Varyans Enflasyon Faktörleri (VIF) ile multikolineerliği kontrol edin:

    • Hangi değişken en büyük VIF değerine sahiptir?
    • Bu bilgi, analiz modelinizi etkiler mi?

Wooldridge Veri Soruları Cevapları

1-

a-

# Gerekli kütüphaneleri yükleme
# wooldridge kütüphanesi: Wooldridge veri setleri için
library(wooldridge)

# rmarkdown kütüphanesi: Dinamik raporlama için
library(rmarkdown)

# bwght veri setini yükleme
# bwght: Hamilelik sırasında sigara içmenin doğum ağırlığı üzerindeki etkisini inceleyen veri seti
data("bwght")
# bwght veri setinin ilk birkaç satırını görüntüleme
# head() fonksiyonu, veri setinin ilk 6 satırını gösterir
head(bwght)
##   faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1   13.5   16.5    122.3   109       12       12      1    1     1    0
## 2    7.5   16.5    122.3   133        6       12      2    1     0    0
## 3    0.5   16.5    122.3   129       NA       12      2    0     0    0
## 4   15.5   16.5    122.3   126       12       12      2    1     0    0
## 5   27.5   16.5    122.3   134       14       12      2    1     1    0
## 6    7.5   16.5    122.3   118       12       14      6    1     0    0
##     lbwght bwghtlbs packs    lfaminc
## 1 4.691348   6.8125     0  2.6026897
## 2 4.890349   8.3125     0  2.0149031
## 3 4.859812   8.0625     0 -0.6931472
## 4 4.836282   7.8750     0  2.7408400
## 5 4.897840   8.3750     0  3.3141861
## 6 4.770685   7.3750     0  2.0149031
help(bwght)
## starting httpd help server ... done

Değişkenler (Sütunlar):

  1. faminc: Sayısal, ailenin yıllık gelirini (binlerce dolar cinsinden) temsil eder.
  2. cigtax: Sayısal, sigara paket başına uygulanan vergi miktarını (dolar cinsinden) belirtir.
  3. cigprice: Sayısal, sigara paketinin fiyatını (dolar cinsinden) belirtir.
  4. bwght: Tam sayı, bebeğin doğum ağırlığını (gram cinsinden) temsil eder.
  5. fatheduc: Tam sayı, babanın eğitim seviyesi (yıl cinsinden).
  6. motheduc: Tam sayı, annenin eğitim seviyesi (yıl cinsinden).
  7. parity: Tam sayı, annenin sahip olduğu çocuk sayısını gösterir.
  8. male: Tam sayı, bebeğin cinsiyetini belirtir (1 = erkek, 0 = kız).
  9. white: Tam sayı, bebeğin etnik kökenini belirtir (1 = beyaz, 0 = beyaz olmayan).
  10. cigs: Tam sayı, annenin gebelik sırasında günde içtiği sigara sayısını belirtir.
  11. lbwght: Sayısal, doğum ağırlığının doğal logaritması.
  12. bwghtlbs: Sayısal, doğum ağırlığının pound cinsinden ölçülmüş hali.
  13. packs: Sayısal, annenin günde içtiği sigara paketi sayısı.
  14. lfaminc: Sayısal, ailenin gelirinin doğal logaritması.
 str(bwght)
## 'data.frame':    1388 obs. of  14 variables:
##  $ faminc  : num  13.5 7.5 0.5 15.5 27.5 7.5 65 27.5 27.5 37.5 ...
##  $ cigtax  : num  16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 ...
##  $ cigprice: num  122 122 122 122 122 ...
##  $ bwght   : int  109 133 129 126 134 118 140 86 121 129 ...
##  $ fatheduc: int  12 6 NA 12 14 12 16 12 12 16 ...
##  $ motheduc: int  12 12 12 12 12 14 14 14 17 18 ...
##  $ parity  : int  1 2 2 2 2 6 2 2 2 2 ...
##  $ male    : int  1 1 0 1 1 1 0 0 0 0 ...
##  $ white   : int  1 0 0 0 1 0 1 0 1 1 ...
##  $ cigs    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ lbwght  : num  4.69 4.89 4.86 4.84 4.9 ...
##  $ bwghtlbs: num  6.81 8.31 8.06 7.88 8.38 ...
##  $ packs   : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ lfaminc : num  2.603 2.015 -0.693 2.741 3.314 ...
##  - attr(*, "time.stamp")= chr "25 Jun 2011 23:03"

b- Bir yandan, gelirdeki bir artış genellikle gıda tüketimini arttırır ve sigara ile aile geliri arasında pozitif bir ilişki olabilir. Öte yandan, daha fazla eğitime sahip ailelerin aile gelirleri de daha yüksektir ve daha fazla eğitim ile sigara içme arasında olumsuz bir ilişki vardır.

c- Sigara ve faminc arasındaki örnek korelasyonu yaklaşık -0.173’tür ve negatif bir korelasyona işaret eder.

d-

ilkreg <- lm(bwght~ cigs,data = bwght)
ikincireg<- lm(bwght~ cigs+faminc,data = bwght)
library(stargazer)
## 
## Please cite as:
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
stargazer(list(ilkreg,ikincireg),type = "text")
## 
## =====================================================================
##                                    Dependent variable:               
##                     -------------------------------------------------
##                                           bwght                      
##                               (1)                      (2)           
## ---------------------------------------------------------------------
## cigs                       -0.514***                -0.463***        
##                             (0.090)                  (0.092)         
##                                                                      
## faminc                                               0.093***        
##                                                      (0.029)         
##                                                                      
## Constant                   119.772***               116.974***       
##                             (0.572)                  (1.049)         
##                                                                      
## ---------------------------------------------------------------------
## Observations                 1,388                    1,388          
## R2                           0.023                    0.030          
## Adjusted R2                  0.022                    0.028          
## Residual Std. Error    20.129 (df = 1386)       20.063 (df = 1385)   
## F Statistic         32.235*** (df = 1; 1386) 21.274*** (df = 2; 1385)
## =====================================================================
## Note:                                     *p<0.1; **p<0.05; ***p<0.01

Denklem Şeklinde Açıklama:

İlk modelde, yalnızca cigs (sigara içme) değişkeni yer almaktadır ve bu model şu şekilde yazılabilir:

\[ \text{bwght} = 119.772 - 0.514 \times \text{cigs} + \epsilon \]

Bu modelde, sigara içme (cigs) her bir birim arttığında doğum ağırlığı (bwght) ortalama 0.514 ons azalır. Modelin R² değeri 0.023 olup, modelin doğum ağırlığını açıklayan çok az bir kısmı olduğunu gösterir.

İkinci modelde, faminc (aile geliri) de eklenmiştir. Bu model şu şekilde yazılabilir:

\[ \text{bwght} = 116.974 - 0.463 \times \text{cigs} + 0.093 \times \text{faminc} + \epsilon \]

Bu denklemde, faminc değişkeninin katsayısı 0.093’tür, yani aile gelirindeki her 1 birim artış, doğum ağırlığını ortalama 0.093 ons artırmaktadır. Ancak, faminc ve cigs değişkenlerinin etkisi arasındaki fark oldukça küçüktür, çünkü cigs’in etkisi yalnızca -0.514’ten -0.463’e düşmüştür.

Açıklama:

  • Model 1: Sadece cigs etkisi (sigara içme) dikkate alındığında, cigs’in katsayısı -0.514’tür. Bu, sigara içmenin doğum ağırlığını azalttığını göstermektedir.

  • Model 2: cigs ve faminc birlikte modele eklendiğinde, cigs katsayısı 0.514’ten 0.463’e düşerken, faminc katsayısı 0.093 olarak bulunmuştur. Bu da, gelirdeki artışın doğum ağırlığını hafifçe artırdığını gösterir.

Bu farkların küçük olmasının nedeni, faminc ve cigs değişkenlerinin güçlü bir ilişki içinde olmamaları ve faminc’in etkisinin doğrudan sigara içme ile ilgili olmamasıdır.

2-

a-

# "discrim" veri setini yükle
data("discrim")

# "discrim" veri setinin ilk birkaç satırını görüntüle
head(discrim)
##   psoda pfries pentree wagest nmgrs nregs hrsopen  emp psoda2 pfries2 pentree2
## 1  1.12   1.06    1.02   4.25     3     5    16.0 27.5   1.11    1.11     1.05
## 2  1.06   0.91    0.95   4.75     3     3    16.5 21.5   1.05    0.89     0.95
## 3  1.06   0.91    0.98   4.25     3     5    18.0 30.0   1.05    0.94     0.98
## 4  1.12   1.02    1.06   5.00     4     5    16.0 27.5   1.15    1.05     1.05
## 5  1.12     NA    0.49   5.00     3     3    16.0  5.0   1.04    1.01     0.58
## 6  1.06   0.95    1.01   4.25     4     4    15.0 17.5   1.05    0.94     1.00
##   wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density    crmrte state
## 1    5.05      5      5     15.0 27.0       1     3    4030 0.0528866     1
## 2    5.05      4      3     17.5 24.5       0     1    4030 0.0528866     1
## 3    5.05      4      5     17.5 25.0       0     1   11400 0.0360003     1
## 4    5.05      4      5     16.0   NA       0     3    8345 0.0484232     1
## 5    5.05      3      3     16.0 12.0       0     1     720 0.0615890     1
## 6    5.05      3      4     15.0 28.0       0     1    4424 0.0334823     1
##     prpblck    prppov   prpncar hseval nstores income county     lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300       3  44534     18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200       3  41164     12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600       3  50366     10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100       1  72287     10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000       2  44515     18 0.05826885
##       lpfries  lhseval  lincome ldensity NJ BK KFC RR
## 1  0.05826885 11.90699 10.70401 8.301521  1  0   0  1
## 2 -0.09431065 11.90699 10.70401 8.301521  1  1   0  0
## 3 -0.09431065 12.03884 10.62532 9.341369  1  1   0  0
## 4  0.01980261 12.05292 10.82707 9.029418  1  0   0  1
## 5          NA 12.42561 11.18840 6.579251  1  1   0  0
## 6 -0.05129331 11.90497 10.70358 8.394799  1  1   0  0
help(discrim)

Format 410 gözlemden oluşan ve 37 değişken içeren bir data.frame:

  • psoda: Orta boy soda fiyatı, 1. dalga
  • pfries: Küçük boy patates kızartması fiyatı, 1. dalga
  • pentree: Ana yemek fiyatı (burger veya tavuk), 1. dalga
  • wagest: Başlangıç maaşı, 1. dalga
  • nmgrs: Yönetici sayısı, 1. dalga
  • nregs: Kasa sayısı, 1. dalga
  • hrsopen: Açık olma saatleri, 1. dalga
  • emp: Çalışan sayısı, 1. dalga
  • psoda2: Orta boy soda fiyatı, 2. dalga
  • pfries2: Küçük boy patates kızartması fiyatı, 2. dalga
  • pentree2: Ana yemek fiyatı, 2. dalga
  • wagest2: Başlangıç maaşı, 2. dalga
  • nmgrs2: Yönetici sayısı, 2. dalga
  • nregs2: Kasa sayısı, 2. dalga
  • hrsopen2: Açık olma saatleri, 2. dalga
  • emp2: Çalışan sayısı, 2. dalga
  • compown: Şirket sahibi ise =1
  • chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4
  • density: Nüfus yoğunluğu, kasaba
  • crmrte: Suç oranı, kasaba
  • state: NJ = 1, PA = 2
  • prpblck: Siyah oranı, posta kodu
  • prppov: Yoksulluk oranı, posta kodu
  • prpncar: Arabasız oranı, posta kodu
  • hseval: Medyan konut değeri, posta kodu
  • nstores: Mağaza sayısı, posta kodu
  • income: Medyan aile geliri, posta kodu
  • county: İlçe etiketi
  • lpsoda: log(psoda)
  • lpfries: log(pfries)
  • lhseval: log(hseval)
  • lincome: log(income)
  • ldensity: log(density)
  • NJ: New Jersey için =1
  • BK: Burger King için =1
  • KFC: Kentucky Fried Chicken için =1
  • RR: Roy Rogers için =1

b-

mean(discrim$prpblck)
## [1] NA
sd(discrim$prpblck)
## [1] NA
mean(discrim$income)
## [1] NA
sd(discrim$income)
## [1] NA

Bu sonuçların NA (Not Available) olarak dönmesinin nedeni, discrim$prpblck ve discrim$income sütunlarında eksik (missing) değerlerin bulunmasıdır.

R, veri setinde eksik değerlere sahip olan bir sütunla işlem yapmaya çalıştığında, bu sütundaki istatistiksel hesaplamaları (ortalama ve standart sapma gibi) yapamaz ve sonuç olarak NA döner. Bu durum, eksik değerlerin (örneğin, NA) hesaplama sürecine dahil edilmesinden kaynaklanır.

sum(is.na(discrim$prpblck))
## [1] 1
sum(is.na(discrim$income))
## [1] 1

Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerinine sahip olduğunu söylememiz lazım.

Bunu düzeltmek için, eksik verileri yönetmek adına na.rm = TRUE parametresi eklenebilir. Örneğin:

mean(discrim$prpblck, na.rm = TRUE)
## [1] 0.1134864
sd(discrim$prpblck, na.rm = TRUE)
## [1] 0.1824165
mean(discrim$income, na.rm = TRUE)
## [1] 47053.78
sd(discrim$income, na.rm = TRUE)
## [1] 13179.29

fonksiyonun içine yazdığımız na.rm (na remove, çıkar) öevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.

Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır. Aşağıdaki komutu kullanmak için vtable paketini yüklemeniz gerektiğini unutmayın.

library(vtable)
## Loading required package: kableExtra
sumtable(discrim, summ=c('notNA(x)', 'countNA(x)', 'mean(x)','sd(x)'),out='return')
##    Variable NotNA CountNA   Mean    Sd
## 1     psoda   402       8      1 0.089
## 2    pfries   393      17   0.92  0.11
## 3   pentree   398      12    1.3  0.64
## 4    wagest   390      20    4.6  0.35
## 5     nmgrs   404       6    3.4     1
## 6     nregs   388      22    3.6   1.2
## 7   hrsopen   410       0     14   2.8
## 8       emp   404       6     18   9.4
## 9    psoda2   388      22      1 0.094
## 10  pfries2   382      28   0.94  0.11
## 11 pentree2   386      24    1.4  0.65
## 12  wagest2   389      21      5  0.25
## 13   nmgrs2   404       6    3.5   1.1
## 14   nregs2   388      22    3.6   1.2
## 15 hrsopen2   399      11     14   2.8
## 16     emp2   397      13     18   8.6
## 17  compown   410       0   0.34  0.48
## 18    chain   410       0    2.1   1.1
## 19  density   409       1   4562  5132
## 20   crmrte   409       1  0.053 0.047
## 21    state   410       0    1.2  0.39
## 22  prpblck   409       1   0.11  0.18
## 23   prppov   409       1  0.071 0.067
## 24  prpncar   409       1   0.11  0.12
## 25   hseval   409       1 147399 56070
## 26  nstores   410       0    3.1   1.8
## 27   income   409       1  47054 13179
## 28   county   410       0     14     8
## 29   lpsoda   402       8   0.04 0.085
## 30  lpfries   393      17 -0.088  0.12
## 31  lhseval   409       1     12  0.39
## 32  lincome   409       1     11  0.28
## 33 ldensity   409       1      8     1
## 34       NJ   410       0   0.81  0.39
## 35       BK   410       0   0.42  0.49
## 36      KFC   410       0    0.2   0.4
## 37       RR   410       0   0.24  0.43

c-

discrimreg <- lm(psoda~prpblck+income, data = discrim)
summary(discrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.29401 -0.05242  0.00333  0.04231  0.44322 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.563e-01  1.899e-02  50.354  < 2e-16 ***
## prpblck     1.150e-01  2.600e-02   4.423 1.26e-05 ***
## income      1.603e-06  3.618e-07   4.430 1.22e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08611 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06422,    Adjusted R-squared:  0.05952 
## F-statistic: 13.66 on 2 and 398 DF,  p-value: 1.835e-06

Bu, bir lineer regresyon modelinin çıktı sonuçlarını temsil etmektedir. Model, psoda (soda tüketimi) değişkenini, prpblck (siyah oranı) ve income (gelir) değişkenlerine göre tahmin etmeye çalışmaktadır.

Çıktının Açıklaması:

  • Residuals (Artıklar):

    • Min: -0.29401
    • 1.Çeyrek (1Q): -0.05242
    • Medyan: 0.00333
    • 3.Çeyrek (3Q): 0.04231
    • Max: 0.44322
      Bu değerler, modelin tahmin ettiği soda tüketimi ile gerçek soda tüketimi arasındaki farkları (artıkları) gösterir. Negatif değerler, modelin gerçek değerden fazla tahminde bulunduğu, pozitif değerler ise modelin düşük tahminde bulunduğu durumları gösterir.
  • Coefficients (Katsayılar):

    • (Intercept) (Kesisim): 0.9563
      Bu, modelin prpblck ve income sıfır olduğunda psoda için tahmin ettiği değerdir.
    • prpblck: 0.1150
      Bu katsayı, siyah oranı (prpblck) değiştikçe soda tüketiminin nasıl değiştiğini gösterir. Yani, prpblck bir birim arttığında, psoda tahmini 0.1150 birim artmaktadır.
    • income: 1.603e-06
      Gelir değişkeninin psoda üzerindeki etkisini belirtir. Gelir bir birim arttığında, soda tüketimi 0.000001603 birim artmaktadır.
  • Standard Error (Standart Hata):

    • Her bir katsayının standart hatası, tahmin edilen katsayının ne kadar güvenilir olduğunu gösterir. Daha düşük bir standart hata, katsayının daha güvenilir olduğunu belirtir.
  • t-value ve Pr(>|t|):

    • prpblck ve income değişkenleri için p-değerleri çok küçük (1.26e-05 ve 1.22e-05) olduğu için, her iki değişkenin de psoda üzerinde anlamlı bir etkisi vardır.
    • Intercept için de p-değeri oldukça küçüktür, bu da kesisimin de anlamlı olduğunu gösterir.
  • R-squared (R-kare): 0.06422
    Modelin, bağımlı değişkenin (psoda) değişkenliğini açıklamak için ne kadar başarılı olduğunu gösterir. Burada 0.06422, modelin verilerin yalnızca %6.4’ünü açıklayabildiğini gösterir. Bu oldukça düşük bir değer ve modelin psoda üzerindeki etkileri sınırlı olduğunu ima eder.

  • Adjusted R-squared (Düzeltilmiş R-kare): 0.05952
    Bu değer, bağımsız değişkenlerin sayısını dikkate alarak düzeltilmiş R-kareyi gösterir. Modelde fazla bağımsız değişken kullanıldığında, bu değer R-kareye göre daha güvenilir olabilir.

  • F-statistic: 13.66
    Bu, modelin genel anlamlılığını test etmek için kullanılan bir istatistiktir. p-değeri 1.835e-06 olduğundan, modelin genel olarak anlamlı olduğu söylenebilir.

Özet:

  • Modelde prpblck (siyah oranı) ve income (gelir) değişkenlerinin psoda (soda tüketimi) üzerinde anlamlı etkileri bulunmaktadır.
  • Ancak, modelin açıklama gücü (R-kare) oldukça düşük, yani bağımsız değişkenler psoda üzerindeki değişkenliği tam olarak açıklayamıyor.

d-

basitdiscrimreg <- lm(psoda~prpblck, data = discrim)
summary(basitdiscrimreg)
## 
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.30884 -0.05963  0.01135  0.03206  0.44840 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.03740    0.00519  199.87  < 2e-16 ***
## prpblck      0.06493    0.02396    2.71  0.00702 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0881 on 399 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.01808,    Adjusted R-squared:  0.01561 
## F-statistic: 7.345 on 1 and 399 DF,  p-value: 0.007015

Verilen örnek, regresyon analizinin nasıl çalıştığını gösteriyor. Buradaki temel amaç, bağımlı değişkenler ile bağımsız değişkenler arasındaki ilişkiyi modellemektir.

İlk Analiz: bwght (Bebek Ağırlığı) ile İlişkiler

İlk modelde, bwght değişkeni (bebeğin ağırlığı) bağımlı değişken olarak alınmış ve cigs (sigara içme durumu) ve faminc (aile geliri) gibi bağımsız değişkenlerle analiz edilmiştir.

Sonuçlar: 1. Sigara içme durumu (cigs): Sigara içmenin, bebek ağırlığı üzerinde negatif bir etkisi olduğu bulunmuş. Yani, sigara içme miktarı arttıkça, bebeklerin ağırlığı azalıyor. Bu ilişki istatistiksel olarak anlamlı ve p-değeri 0.01’den küçük.

  1. Aile Geliri (faminc): Aile gelirinin arttıkça bebeklerin ağırlığının da arttığı bir ilişki bulunmuş. Bu da istatistiksel olarak anlamlı ve p-değeri 0.01’den küçük.

Modelin genel uyumunu gösteren R-squared değeri 0.023, bu da modelin verinin yalnızca %2.3’ünü açıkladığını gösteriyor. Yani, modelin açıklama gücü düşük. Ancak bu, ilişkilendirmeye çalıştığınız değişkenler hakkında bazı bilgiler verebilir.

İkinci Analiz: psoda (Soda Satışı) ile İlişkiler

İkinci analizde ise, psoda (soda satışı) bağımlı değişken olarak ele alınmış ve prpblck (Afrikalı Amerikalıların oranı) ve income (gelir) gibi bağımsız değişkenlerle yapılan regresyon analizi sunulmuş.

Sonuçlar: 1. Afrikalı Amerikalıların Oranı (prpblck): Bu bağımsız değişkenin, soda satışları üzerinde anlamlı bir etkisi olduğu görülüyor. P-değeri 0.01’den küçük olduğu için bu sonuç istatistiksel olarak anlamlı.

  1. Gelir (income): Gelirin de soda satışları üzerinde pozitif bir etkisi olduğu bulunmuş. P-değeri 0.01’den küçük ve bu ilişki de istatistiksel olarak anlamlı.

Modelin R-squared değeri 0.064, yani modelin %6.4’lük bir kısmı açıklanıyor. Bu daha yüksek bir uyum, ancak yine de modelin sınırlı açıklama gücü vardır.

Genel Sonuçlar:

Her iki modelde de bazı bağımsız değişkenlerin bağımlı değişkenler üzerinde anlamlı etkiler yarattığı gösterilmiştir. Ancak her iki modelin de R-squared değerlerinin düşük olduğu, dolayısıyla bu değişkenlerin etkilerini tam anlamıyla açıklamakta yetersiz kaldığı söylenebilir. Bu tür analizlerde daha fazla değişkenin veya etkileşimin dahil edilmesi, modelin açıklayıcılığını artırabilir.

e-

logdiscrimreg <- lm(log(psoda)~prpblck+log(income), data = discrim)
summary(logdiscrimreg)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.33563 -0.04695  0.00658  0.04334  0.35413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.79377    0.17943  -4.424 1.25e-05 ***
## prpblck      0.12158    0.02575   4.722 3.24e-06 ***
## log(income)  0.07651    0.01660   4.610 5.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0821 on 398 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.06809,    Adjusted R-squared:  0.06341 
## F-statistic: 14.54 on 2 and 398 DF,  p-value: 8.039e-07

Yukarıdaki çıktı, lm() fonksiyonu kullanılarak yapılan doğrusal regresyon modelinin sonuçlarını göstermektedir. Bu model, log(psoda)yi bağımlı değişken olarak ve prpblck (black population share) ile log(income) (gelir logaritması) bağımsız değişkenleri kullanarak tahmin etmeyi amaçlamaktadır. Sonuçları şu şekilde yorumlayabiliriz:

  1. Katsayılar (Coefficients):
    • (Intercept): Kesme noktası, yani modelin başlangıç değeri. Bu değer -0.79377 olup, bu değerin anlamlı olduğu gösterilmiştir (p-değeri 1.25e-05, bu da oldukça küçük bir değerdir).
    • prpblck: Siyah nüfus oranı ile log(psoda) arasında pozitif bir ilişki vardır. Katsayısı 0.12158 olup, bu ilişki de istatistiksel olarak anlamlıdır (p-değeri 3.24e-06).
    • log(income): Gelirin logaritması ile log(psoda) arasında da pozitif bir ilişki vardır. Katsayısı 0.07651 olup, bu ilişki de anlamlıdır (p-değeri 5.43e-06).
  2. Modelin İyiği:
    • Residual standard error: Modelin hata payının ölçüsüdür. Bu durumda hata payı 0.0821 olarak hesaplanmıştır. Düşük bir değer, modelin tahminlerinin daha doğru olduğunu gösterir.
    • R-squared: Bu istatistik, modelin bağımsız değişkenlerinin, bağımlı değişkendeki değişimi ne kadar açıkladığını gösterir. Burada 0.06809, modelin sadece %6.81’lik bir kısmı açıklayabildiğini gösteriyor. Bu oldukça düşük bir değerdir, yani model daha fazla değişken veya daha karmaşık bir modelle geliştirilebilir.
    • Adjusted R-squared: Bu, R-squared’ın bağımsız değişken sayısına göre düzeltilmiş halidir ve 0.06341 olarak hesaplanmıştır. Bu da modelin açıklama gücünün düşük olduğunu gösterir.
  3. F-istatistiği: Modelin anlamlı olup olmadığını test eden bir istatistik olup, 14.54 değeriyle oldukça yüksek bir değer elde edilmiştir. Bu, modelin genel olarak anlamlı olduğu ve bağımsız değişkenlerin bağımlı değişken üzerinde etkisi olduğu anlamına gelir. P-değeri (8.039e-07) de bu sonuçları destekler.

Sonuç olarak, modelin bazı anlamlı ilişkiler bulduğu ancak açıklama gücünün düşük olduğu (R² çok düşük) söylenebilir. Bu durumda daha fazla değişkenin modele dahil edilmesi veya başka bir modelin kullanılması önerilebilir.

paste( (0.2*100)*0.122, "yüzdelik artış")
## [1] "2.44 yüzdelik artış"

Yukarıdaki kod, bir hesaplama yapıp sonucu bir metinle birleştirir. Adım adım ne yaptığını açıklayalım:

  1. Hesaplama: (0.2*100)*0.122
    • Önce 0.2 * 100 hesaplanır, bu 20 eder.
    • Sonra 20 * 0.122 hesaplanır, bu da 2.44 eder.
  2. paste() fonksiyonu: paste() fonksiyonu, verilen elemanları birleştirip bir metin olarak döndürür. Bu durumda, hesaplanan değeri “yüzdelik artış” metniyle birleştiriyor.

Yani hesaplama sonucu 2.44 ve bu değer “yüzdelik artış” ile birleştirilerek metin formatında döndürülmüş olur.

“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.

f-

logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
## 
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.32218 -0.04648  0.00651  0.04272  0.35622 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.46333    0.29371  -4.982  9.4e-07 ***
## prpblck      0.07281    0.03068   2.373   0.0181 *  
## log(income)  0.13696    0.02676   5.119  4.8e-07 ***
## prppov       0.38036    0.13279   2.864   0.0044 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08137 on 397 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.08696,    Adjusted R-squared:  0.08006 
## F-statistic:  12.6 on 3 and 397 DF,  p-value: 6.917e-08

İşte doğrusal regresyon modelinin sonuçlarının Türkçe yorumlanması:

Model Formülü:

log(psoda) ~ prpblck + log(income) + prppov

Bağımlı değişken psodanın logaritması, bağımsız değişkenler ise prpblck, log(income) ve prppov’dur.

Kalıntılar:

  • Min: -0.32218
  • 1Q (Birinci Çeyrek): -0.04648
  • Medyan: 0.00651
  • 3Q (Üçüncü Çeyrek): 0.04272
  • Max: 0.35622

Bu kalıntılar, gözlemlenen ve tahmin edilen değerler arasındaki farkı göstermektedir. Kalıntıların 0’a yakın bir dağılıma sahip olması, modelin iyi bir uyum sağladığını gösterir.

Katsayılar:

  1. (Intercept):
    • Tahmin = -1.46333
    • Standart Hata = 0.29371
    • t değeri = -4.982
    • p-değeri = 9.4e-07 ***
    • Bu katsayı, regresyon doğrusunun kesişim noktasını temsil eder ve istatistiksel olarak anlamlıdır (p-değeri < 0.001).
  2. prpblck (Siyah nüfus oranı):
    • Tahmin = 0.07281
    • Standart Hata = 0.03068
    • t değeri = 2.373
    • p-değeri = 0.0181 *
    • Bu katsayı %5 seviyesinde anlamlıdır (p-değeri < 0.05) ve Siyah nüfus oranı ile log(psoda) arasında pozitif bir ilişki olduğunu gösterir.
  3. log(income) (Gelirin logaritması):
    • Tahmin = 0.13696
    • Standart Hata = 0.02676
    • t değeri = 5.119
    • p-değeri = 4.8e-07 ***
    • Bu katsayı çok yüksek bir anlamlılığa sahiptir (p-değeri < 0.001) ve gelir logaritması ile log(psoda) arasında pozitif bir ilişki olduğunu gösterir.
  4. prppov (Yoksulluk oranı):
    • Tahmin = 0.38036
    • Standart Hata = 0.13279
    • t değeri = 2.864
    • p-değeri = 0.0044 **
    • Bu katsayı %1 seviyesinde anlamlıdır (p-değeri < 0.01) ve yoksulluk oranı ile log(psoda) arasında pozitif bir ilişki olduğunu gösterir.

Model Uyumunun Değerlendirilmesi:

  • Kalıntı standart hatası: 0.08137
  • Çoklu R-kare: 0.08696
  • Düzeltilmiş R-kare: 0.08006
  • F-istatistiği: 12.6 (3 ve 397 serbestlik derecesiyle)
  • p-değeri: 6.917e-08

Model, log(psoda)’nın varyansının yaklaşık %8.7’sini açıklamaktadır. Bu oran çok yüksek olmasa da, F-istatistiği için p-değeri modelin tamamının istatistiksel olarak anlamlı olduğunu göstermektedir.

prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur.

cor(log(discrim$income), discrim$prppov, use = "complete.obs")
## [1] -0.838467

Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.

h- Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.

3-

a-

data("meapsingle")
paged_table(meapsingle)
help(meapsingle)

İşte verilen verilerin Türkçe çevirisi:

Bir data.frame 229 gözlem ve 18 değişken içeriyor:

  • dcode: ilçe kodu
  • bcode: bina kodu
  • math4: 4. sınıf matematik memnuniyet oranı (yüzde)
  • read4: 4. sınıf okuma memnuniyet oranı (yüzde)
  • enroll: okul kayıt sayısı
  • exppp: öğrenci başına harcama, $
  • free: ücretsiz öğle yemeği alma hakkı olanların oranı (yüzde)
  • reduced: indirilmiş öğle yemeği alma hakkı olanların oranı (yüzde)
  • lunch: ücretsiz + indirilmiş öğle yemeği alma hakkı
  • medinc: posta kodu medyan aile geliri, $ (1999)
  • totchild: çocuk sayısı (posta kodunda)
  • married: evli çiftlerin ailelerinde yaşayan çocuk sayısı
  • single: evli çift olmayan ailelerde yaşayan çocuk sayısı
  • pctsgle: evli çift olmayan ailelerde yaşayan çocukların oranı (yüzde)
  • zipcode: okulun posta kodu
  • lenroll: log(enroll)
  • lexppp: log(exppp)
  • lmedinc: log(medinc)

b-

basitreg3<- lm(math4~pctsgle, data = meapsingle)
summary(basitreg3)
## 
## Call:
## lm(formula = math4 ~ pctsgle, data = meapsingle)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -47.791  -8.310   1.600   8.092  50.317 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 96.77043    1.59680   60.60   <2e-16 ***
## pctsgle     -0.83288    0.07068  -11.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.48 on 227 degrees of freedom
## Multiple R-squared:  0.3795, Adjusted R-squared:  0.3768 
## F-statistic: 138.9 on 1 and 227 DF,  p-value: < 2.2e-16

Görünüşe göre, sağladığınız veriler ve analizler çeşitli regresyon modelleri ve değişkenlerle ilgili. Buradaki örnekler, bir bağımlı değişkenin çeşitli bağımsız değişkenlerle nasıl ilişkilendirildiğini gösteriyor. Verilen örnekler, aşağıdaki gibi bazı temel istatistiksel sonuçları içeriyor:

Örnek Model Sonuçları:

  1. Model 1 ve Model 2:
    • Dependent variable: bwght (doğum ağırlığı)
    • cigs (sigara içme miktarı) ile olan ilişki: Sigara içmenin doğum ağırlığı üzerinde olumsuz bir etkisi var.
    • faminc (aile geliri) ile olan ilişki: Aile geliri arttıkça doğum ağırlığının arttığı gözlemleniyor.
  2. R-Kare Değerleri:
    • Model 1 ve Model 2 için R² değerleri sırasıyla 0.023 ve 0.030, bu da modelin bağımlı değişkeni açıklamada sınırlı bir güce sahip olduğunu gösteriyor.
  3. F-Statistiği:
    • Model 1 için F-istatistiği 32.235, bu modelin istatistiksel olarak anlamlı olduğunu gösteriyor.
    • Model 2 için F-istatistiği 21.274, yine anlamlılık gösteriyor.
  4. İstatistiksel Anlamlılık:
    • Bağımsız değişkenler (cigs, faminc) p-değerlerine göre istatistiksel olarak anlamlı bulunmuş (p < 0.01).

Diğer Modeller:

  • Diğer regresyon modelleri, psoda gibi değişkenlerin üzerine yapılan regresyon analizlerini içeriyor. Bu modellerde de değişkenlerin istatistiksel anlamlılıkları ve R² değerleri sunuluyor.

Anlamlı Değişkenler:

  • prpblck (siyah nüfus oranı) ve income (gelir) gibi değişkenlerin psoda üzerinde önemli bir etkisi olduğu görülüyor.

c-

coklureg3<- lm(math4~pctsgle+lmedinc+free, data = meapsingle)
summary(coklureg3)
## 
## Call:
## lm(formula = math4 ~ pctsgle + lmedinc + free, data = meapsingle)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -34.919  -7.195   0.931   7.313  50.152 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 51.72322   58.47814   0.884    0.377    
## pctsgle     -0.19965    0.15872  -1.258    0.210    
## lmedinc      3.56013    5.04170   0.706    0.481    
## free        -0.39642    0.07035  -5.635  5.2e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.7 on 225 degrees of freedom
## Multiple R-squared:  0.4598, Adjusted R-squared:  0.4526 
## F-statistic: 63.85 on 3 and 225 DF,  p-value: < 2.2e-16

d-

cor(meapsingle$free,meapsingle$lmedinc)
## [1] -0.7469703

Bu kod parçası, R dilinde yazılmış bir komuttur ve iki değişken arasındaki korelasyonu hesaplamaktadır. İşte adım adım açıklaması:

  1. meapsingle$free: Bu, meapsingle veri çerçevesinde bulunan ve “free” adını taşıyan sütunu (değişkeni) ifade eder. Muhtemelen bu sütun, öğrencilerin ücretsiz okul yemeklerinden yararlanıp yararlanmadığı gibi bir bilgiyi içermektedir.

  2. meapsingle$lmedinc: Bu da meapsingle veri çerçevesinde bulunan ve “lmedinc” adını taşıyan bir başka sütunu ifade eder. Bu sütun, öğrencilerin düşük gelirli olup olmadığını belirten bir bilgi olabilir.

  3. cor(): Bu fonksiyon, verilen iki değişken arasındaki korelasyonu hesaplar. Korelasyon, iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçen bir istatistiksel değerdir. Korelasyon değeri -1 ile 1 arasında değişir:

    • 1: Tam pozitif korelasyon (değişkenler birlikte artar).
    • -1: Tam negatif korelasyon (biri artarken diğeri azalır).
    • 0: Korelasyon yoktur (değişkenler arasında doğrusal ilişki yoktur).

Sonuç olarak, cor(meapsingle$free, meapsingle$lmedinc) komutu, meapsingle veri çerçevesindeki “free” ve “lmedinc” değişkenleri arasındaki korelasyonu hesaplayacak ve bu ilişkinin gücünü ve yönünü belirleyecektir.

e-

library(car)
## Loading required package: carData
vif(coklureg3)
##  pctsgle  lmedinc     free 
## 5.740981 4.118812 3.188079

vif(coklureg3) kodu, R dilinde Varyans Şişirme Faktörü (VIF) hesaplamak için kullanılır. İşte açıklaması:

  1. vif(): Bu fonksiyon, regresyon modelinizdeki değişkenler arasında çoklu doğrusallık (multicollinearity) olup olmadığını kontrol etmek için kullanılır. Çoklu doğrusallık, bağımsız değişkenlerin birbirleriyle yüksek korelasyona sahip olması durumudur ve bu durum modelin güvenilirliğini etkileyebilir. VIF, her bir bağımsız değişkenin diğerleriyle ne kadar ilişkili olduğunu gösterir.

    • Bir VIF değeri 1 olan bir değişkenin, diğer bağımsız değişkenlerle hiçbir korelasyonu yok demektir.
    • VIF değeri 5 veya daha büyük olan bir değişken, diğer bağımsız değişkenlerle yüksek derecede korelasyona sahiptir ve bu durum modelde problem oluşturabilir.
  2. coklureg3: Bu, VIF hesaplamak istediğiniz regresyon modelini ifade eder. coklureg3, genellikle lm() fonksiyonu ile oluşturulmuş bir modeldir. Örneğin, coklureg3 <- lm(dependent ~ predictor1 + predictor2 + ...) şeklinde bir model olabilir.

Özetle:

vif(coklureg3) fonksiyonu, coklureg3 modelindeki her bir bağımsız değişkenin VIF değerlerini hesaplar. Bu, değişkenler arasında çoklu doğrusallık problemi olup olmadığını değerlendirmenize yardımcı olur.