Ödev
Wooldridge Bölüm Soruları
Soru 1: GPA Tahmin Modeli
4137 üniversite öğrencisi üzerinde GPA2’deki verileri kullanarak, en küçük kareler (OLS) yöntemiyle aşağıdaki denklem tahmin edilmiştir:
Model:
\[ \text{Üniversite Not Ortalaması} = \beta_0 + \beta_1 \cdot \text{lmsyd} + \beta_2 \cdot \text{sat} + u \]
- lmsyd, öğrencilerin lise mezuniyet sınıflarındaki
yüzdelik dilimini göstermektedir. Örneğin,
lmsyd=5
, sınıfın ilk %5’inde olduğu anlamına gelir.
- sat, öğrenci başarı testindeki birleştirilmiş matematik ve sözel puanlardır.
Sorular:
- lmsyd katsayısının negatif olması neden
mantıklıdır?
lmsyd
ne kadar küçükse, öğrencinin lisedeki durumu o kadar iyi olur. Diğer her şey eşit olduğunda, öğrencinin lisedeki durumu ne kadar kötüyse, beklenen üniversite not ortalaması o kadar düşük olur.
- lmsyd = 20 ve sat = 1.050 olduğunda tahmini üniversite not
ortalaması nedir?
- Bu değerleri denkleme yerleştirin:
\[ \text{Tahmini Üniversite Not Ortalaması} = \beta_0 + \beta_1 \cdot 20 + \beta_2 \cdot 1050 \]
- Bu değerleri denkleme yerleştirin:
- İki öğrenci arasında SAT puan farkının etkisi
nedir?
- A ve B öğrencilerinin SAT puanları arasındaki fark
sat
katsayısının 140 katıdır. Yani, A’nın üniversite not ortalaması B’ye göre:
\[ 140 \cdot \beta_2 \] kadar farklı olur.
- A ve B öğrencilerinin SAT puanları arasındaki fark
- SAT puanlarındaki hangi fark, tahmini üniversite not
ortalaması farkına 0,50 kadar yol açar?
lmsyd
sabit tutulduğunda:
\[ 0.50 = \beta_2 \cdot \Delta SAT \]- Buradan:
\[ \Delta SAT = \frac{0.50}{\beta_2} \]
Soru 2: Uyku ve İş Modeli
Model:
\[ \text{uyku} = \beta_0 + \beta_1 \cdot \text{iş} + \beta_2 \cdot \text{eğitim} + \beta_3 \cdot \text{yaş} + u \]
- uyku ve iş, dakikayla
ölçülür.
- eğitim ve yaş, yıllarla ölçülür.
Sorular:
- İş ve uyku arasındaki ilişki nedir?
- Diğer her şey sabitken, daha fazla iş daha az uyku anlamına gelir. Bu yüzden \(\beta_1 < 0\).
- Haftada 5 saat daha fazla çalışmanın etkisi nedir?
- Haftada 5 saat, dakikaya çevrildiğinde:
\[ 5 \cdot 60 = 300 \text{ dakika} \]
- Bu durumda:
\[ \Delta Uyku = 300 \cdot \beta_1 \]
- Haftada 5 saat, dakikaya çevrildiğinde:
- Eğitim katsayısının yorumu nedir?
- Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir.
Örneğin, üniversite mezunu bir kişi, lise mezununa göre haftada
yaklaşık:
\[ 4 \cdot \beta_2 \] kadar daha az uyur.
- Daha fazla eğitim, daha az tahmini uyku süresi anlamına gelir.
Örneğin, üniversite mezunu bir kişi, lise mezununa göre haftada
yaklaşık:
- Modelin açıklama gücü nedir?
- Model, uykudaki çeşitliliğin çoğunu açıklayamıyor olabilir. Sağlık durumu, medeni durum ve çocuk sayısı gibi faktörler uyku süresini etkileyebilir ve bu faktörler toplam işle ilişkili olabilir.
Soru 3: Üniversite Not Ortalaması ve Aktivite Modeli
Senaryo:
Üniversite not ortalamasını çeşitli etkinliklerde harcanan zamanla
ilişkilendiren bir çalışma yapmak istiyorsunuz. Öğrencilere her hafta
dört aktivitede kaç saat geçirdikleri sorulmuştur:
- Ders çalışmak
- Uyumak
- Bir işte çalışmak
- Boş zaman
Herhangi bir aktivite dört kategoriden birine konur. Dolayısıyla, her öğrenci için toplam süre 168 saate eşittir.
Model:
\[ \text{GPA} = \beta_0 + \beta_1 \cdot \text{Çalışma} + \beta_2 \cdot \text{Uyku} + \beta_3 \cdot \text{İş} + \beta_4 \cdot \text{Boş Zaman} + u \]
Sorular:
- Çalışmayı değiştirirken diğer değişkenleri sabit tutmak
mantıklı mı?
- Hayır. Çünkü:
\[ Çalışma + Uyku + İş + Boş Zaman = 168 \] - Çalışma süresini artırırsak, toplamın hâlâ 168 olması için diğer kategorilerden en az biri değişmelidir.
- Hayır. Çünkü:
- MLR.3 Varsayımı neden ihlal edilir?
- Bir değişken (örneğin,
iş
), diğer bağımsız değişkenlerin lineer bir fonksiyonu olduğunda mükemmel kollinearite oluşur. Bu durum MLR.3 varsayımını ihlal eder.
- Bir değişken (örneğin,
- Model nasıl yeniden formüle edilebilir?
- Bağımsız değişkenlerden birini modelden çıkarabilirsiniz (örneğin,
boş zaman
):
\[ \text{GPA} = \beta_0 + \beta_1 \cdot \text{Çalışma} + \beta_2 \cdot \text{Uyku} + \beta_3 \cdot \text{İş} + u \]
- Bağımsız değişkenlerden birini modelden çıkarabilirsiniz (örneğin,
Wooldridge Veri Soruları
Bölüm 1: Hamilelikte Sigara ve Doğum Ağırlığı
Sağlık görevlilerinin ilgilendiği sorunlardan biri, hamilelik sırasında sigara içmenin bebek sağlığı üzerindeki etkilerini belirlemektir. Bebek sağlığının bir ölçüsü doğum ağırlığıdır. Çok düşük doğum ağırlığı, bebeği çeşitli hastalıklara yakalanma riskine sokabilir. Doğum ağırlığını etkileyen sigara içimi dışındaki faktörlerin sigara ile ilişkili olması muhtemel olduğundan, bu faktörleri dikkate almalıyız. Örneğin, daha yüksek gelir genellikle daha iyi doğum öncesi bakıma erişim ve anne için daha iyi beslenme anlamına gelir.
Model:
\[ \text{bwght} = \beta_0 + \beta_1 \cdot \text{cigs} + \beta_2 \cdot \text{faminc} + u \]
Sorular:
- Modeldeki değişkenlerin anlamlarını açıklayın.
- bwght: Doğum ağırlığı (gram).
- cigs: Hamilelik sırasında annenin içtiği günlük
sigara sayısı.
- faminc: Ailenin yıllık geliri (bin $ cinsinden).
- bwght: Doğum ağırlığı (gram).
- Modeli tahmin etmeden önce \(\beta_1\) işareti ne olabilir?
Neden?
- \(\beta_1\) muhtemelen negatiftir çünkü sigara içmek doğum ağırlığını olumsuz etkiler.
- cigs ve faminc ilişkili mi? Korelasyonun işareti ne
olabilir?
- Evet, ilişkili olabilir. Daha düşük gelir seviyeleri daha fazla sigara içmeyle ilişkilendirilebilir, bu da negatif korelasyona işaret eder.
- BWGHT verileri kullanılarak faminc eklenmeden ve
eklendiğinde model tahmini:
- İki denklemi tahmin edin ve sonuçları \(R^2\), örnek boyutu ve katsayılarla
raporlayın.
- Faminc değişkeninin eklenmesi, sigaranın bwght üzerindeki tahmini etkisini değiştiriyor mu? Tartışın.
- İki denklemi tahmin edin ve sonuçları \(R^2\), örnek boyutu ve katsayılarla
raporlayın.
Bölüm 2: Ayrımcılık ve Fiyatlandırma
New Jersey ve Pennsylvania’daki fast-food restoranlarında fiyatların siyah nüfus yoğunluğuna göre değişip değişmediği incelenmektedir.
Model:
\[ \log(\text{psoda}) = \beta_0 + \beta_1 \cdot \text{prpblck} + \beta_2 \cdot \log(\text{income}) + u \]
Sorular:
Modeldeki değişkenlerin anlamları:
- psoda: Bir fast-food restoranında büyük bir gazlı
içecek fiyatı (sent cinsinden).
- prpblck: Posta kodunda yaşayan siyah nüfus oranı
(0-1 arası).
- income: Posta kodundaki ortalama gelir
(dolar).
- prppov: Posta kodundaki yoksulluk oranı (0-1 arası).
- psoda: Bir fast-food restoranında büyük bir gazlı
içecek fiyatı (sent cinsinden).
Ortalama prpblck ve income değerlerini standart sapmalarıyla birlikte hesaplayın. Bu ölçümlerin birimlerini belirtin.
Modeli OLS ile tahmin edin ve sonuçları raporlayın.
- \(R^2\), örnek boyutu ve katsayılarla birlikte denklem formatında raporlayın.
Prpblck üzerindeki katsayıyı yorumlayın. Ekonomik olarak anlamlı mı?
Income’ı kontrol ettiğinizde ayrımcılık etkisi daha büyük mü yoksa daha küçük mü?
Fiyata göre sabit esneklik modeli:
- \(\log(\text{psoda}) = \beta_0 + \beta_1
\cdot \text{prpblck} + \beta_2 \cdot \log(\text{income}) + \beta_3 \cdot
\text{prppov} + u\)
- Eğer \(\text{prpblck}\) %20 artarsa, psoda’nın tahmini yüzdesel değişimi nedir?
- \(\log(\text{psoda}) = \beta_0 + \beta_1
\cdot \text{prpblck} + \beta_2 \cdot \log(\text{income}) + \beta_3 \cdot
\text{prppov} + u\)
Prppov değişkeni eklendiğinde prpblck katsayısına ne olur?
Log(income) ve prppov arasındaki ilişkiyi inceleyin. Beklediğiniz gibi mi?
“Log(income) ve prppov çok yüksek korelasyonlu olduğundan aynı regresyonda olmalarına gerek yoktur” ifadesini değerlendirin.
Bölüm 3: Tek Ebeveynli Haneler ve Matematik Performansı
Sosyo-ekonomik değişkenlerin, özellikle tek ebeveynli hanelerin, öğrencilerin matematik performansı üzerindeki etkisi incelenmektedir.
Model:
\[ \text{math4} = \beta_0 + \beta_1 \cdot \text{pctsgle} + \beta_2 \cdot \log(\text{lmedinc}) + \beta_3 \cdot \text{free} + u \]
Sorular:
Değişkenlerin anlamları:
- math4: Matematik test performansı (4. sınıf).
- pctsgle: Tek ebeveynli hanelerin yüzdesi
(0-100).
- lmedinc: Medyan hane gelirinin logaritması
(dolar).
- free: Ücretsiz öğle yemeği alan öğrencilerin oranı (% olarak).
- math4: Matematik test performansı (4. sınıf).
Math4 ve pctsgle arasındaki basit regresyon:
- Eğim katsayısını yorumlayın. Tek ebeveynliğin etkisi büyük mü yoksa küçük mü?
Lmedinc ve free değişkenlerini eklediğinizde, pctsgle katsayısı nasıl değişir?
Lmedinc ve free arasındaki örnek korelasyon nedir? Beklenen işarete uygun mu?
Lmedinc ve free arasındaki korelasyon nedeniyle birini regresyondan çıkarmak mantıklı mı? Açıklayın.
Varyans Enflasyon Faktörleri (VIF) ile multikolineerliği kontrol edin:
- Hangi değişken en büyük VIF değerine sahiptir?
- Bu bilgi, analiz modelinizi etkiler mi?
- Hangi değişken en büyük VIF değerine sahiptir?
Wooldridge Veri Soruları Cevapları
1-
a-
# Gerekli kütüphaneleri yükleme
# wooldridge kütüphanesi: Wooldridge veri setleri için
library(wooldridge)
# rmarkdown kütüphanesi: Dinamik raporlama için
library(rmarkdown)
# bwght veri setini yükleme
# bwght: Hamilelik sırasında sigara içmenin doğum ağırlığı üzerindeki etkisini inceleyen veri seti
data("bwght")
# bwght veri setinin ilk birkaç satırını görüntüleme
# head() fonksiyonu, veri setinin ilk 6 satırını gösterir
head(bwght)
## faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1 13.5 16.5 122.3 109 12 12 1 1 1 0
## 2 7.5 16.5 122.3 133 6 12 2 1 0 0
## 3 0.5 16.5 122.3 129 NA 12 2 0 0 0
## 4 15.5 16.5 122.3 126 12 12 2 1 0 0
## 5 27.5 16.5 122.3 134 14 12 2 1 1 0
## 6 7.5 16.5 122.3 118 12 14 6 1 0 0
## lbwght bwghtlbs packs lfaminc
## 1 4.691348 6.8125 0 2.6026897
## 2 4.890349 8.3125 0 2.0149031
## 3 4.859812 8.0625 0 -0.6931472
## 4 4.836282 7.8750 0 2.7408400
## 5 4.897840 8.3750 0 3.3141861
## 6 4.770685 7.3750 0 2.0149031
## starting httpd help server ... done
Değişkenler (Sütunlar):
- faminc: Sayısal, ailenin yıllık gelirini (binlerce dolar cinsinden) temsil eder.
- cigtax: Sayısal, sigara paket başına uygulanan vergi miktarını (dolar cinsinden) belirtir.
- cigprice: Sayısal, sigara paketinin fiyatını (dolar cinsinden) belirtir.
- bwght: Tam sayı, bebeğin doğum ağırlığını (gram cinsinden) temsil eder.
- fatheduc: Tam sayı, babanın eğitim seviyesi (yıl cinsinden).
- motheduc: Tam sayı, annenin eğitim seviyesi (yıl cinsinden).
- parity: Tam sayı, annenin sahip olduğu çocuk sayısını gösterir.
- male: Tam sayı, bebeğin cinsiyetini belirtir (1 = erkek, 0 = kız).
- white: Tam sayı, bebeğin etnik kökenini belirtir (1 = beyaz, 0 = beyaz olmayan).
- cigs: Tam sayı, annenin gebelik sırasında günde içtiği sigara sayısını belirtir.
- lbwght: Sayısal, doğum ağırlığının doğal logaritması.
- bwghtlbs: Sayısal, doğum ağırlığının pound cinsinden ölçülmüş hali.
- packs: Sayısal, annenin günde içtiği sigara paketi sayısı.
- lfaminc: Sayısal, ailenin gelirinin doğal logaritması.
## 'data.frame': 1388 obs. of 14 variables:
## $ faminc : num 13.5 7.5 0.5 15.5 27.5 7.5 65 27.5 27.5 37.5 ...
## $ cigtax : num 16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 16.5 ...
## $ cigprice: num 122 122 122 122 122 ...
## $ bwght : int 109 133 129 126 134 118 140 86 121 129 ...
## $ fatheduc: int 12 6 NA 12 14 12 16 12 12 16 ...
## $ motheduc: int 12 12 12 12 12 14 14 14 17 18 ...
## $ parity : int 1 2 2 2 2 6 2 2 2 2 ...
## $ male : int 1 1 0 1 1 1 0 0 0 0 ...
## $ white : int 1 0 0 0 1 0 1 0 1 1 ...
## $ cigs : int 0 0 0 0 0 0 0 0 0 0 ...
## $ lbwght : num 4.69 4.89 4.86 4.84 4.9 ...
## $ bwghtlbs: num 6.81 8.31 8.06 7.88 8.38 ...
## $ packs : num 0 0 0 0 0 0 0 0 0 0 ...
## $ lfaminc : num 2.603 2.015 -0.693 2.741 3.314 ...
## - attr(*, "time.stamp")= chr "25 Jun 2011 23:03"
b- Bir yandan, gelirdeki bir artış genellikle gıda tüketimini arttırır ve sigara ile aile geliri arasında pozitif bir ilişki olabilir. Öte yandan, daha fazla eğitime sahip ailelerin aile gelirleri de daha yüksektir ve daha fazla eğitim ile sigara içme arasında olumsuz bir ilişki vardır.
c- Sigara ve faminc arasındaki örnek korelasyonu yaklaşık -0.173’tür ve negatif bir korelasyona işaret eder.
d-
ilkreg <- lm(bwght~ cigs,data = bwght)
ikincireg<- lm(bwght~ cigs+faminc,data = bwght)
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
##
## =====================================================================
## Dependent variable:
## -------------------------------------------------
## bwght
## (1) (2)
## ---------------------------------------------------------------------
## cigs -0.514*** -0.463***
## (0.090) (0.092)
##
## faminc 0.093***
## (0.029)
##
## Constant 119.772*** 116.974***
## (0.572) (1.049)
##
## ---------------------------------------------------------------------
## Observations 1,388 1,388
## R2 0.023 0.030
## Adjusted R2 0.022 0.028
## Residual Std. Error 20.129 (df = 1386) 20.063 (df = 1385)
## F Statistic 32.235*** (df = 1; 1386) 21.274*** (df = 2; 1385)
## =====================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Denklem Şeklinde Açıklama:
İlk modelde, yalnızca cigs
(sigara içme) değişkeni yer
almaktadır ve bu model şu şekilde yazılabilir:
\[ \text{bwght} = 119.772 - 0.514 \times \text{cigs} + \epsilon \]
Bu modelde, sigara içme (cigs
) her bir birim arttığında
doğum ağırlığı (bwght
) ortalama 0.514 ons azalır. Modelin
R² değeri 0.023 olup, modelin doğum ağırlığını açıklayan çok az bir
kısmı olduğunu gösterir.
İkinci modelde, faminc
(aile geliri) de eklenmiştir. Bu
model şu şekilde yazılabilir:
\[ \text{bwght} = 116.974 - 0.463 \times \text{cigs} + 0.093 \times \text{faminc} + \epsilon \]
Bu denklemde, faminc
değişkeninin katsayısı 0.093’tür,
yani aile gelirindeki her 1 birim artış, doğum ağırlığını ortalama 0.093
ons artırmaktadır. Ancak, faminc
ve cigs
değişkenlerinin etkisi arasındaki fark oldukça küçüktür, çünkü
cigs
’in etkisi yalnızca -0.514’ten -0.463’e düşmüştür.
Açıklama:
Model 1: Sadece
cigs
etkisi (sigara içme) dikkate alındığında,cigs
’in katsayısı -0.514’tür. Bu, sigara içmenin doğum ağırlığını azalttığını göstermektedir.Model 2:
cigs
vefaminc
birlikte modele eklendiğinde,cigs
katsayısı 0.514’ten 0.463’e düşerken,faminc
katsayısı 0.093 olarak bulunmuştur. Bu da, gelirdeki artışın doğum ağırlığını hafifçe artırdığını gösterir.
Bu farkların küçük olmasının nedeni, faminc
ve
cigs
değişkenlerinin güçlü bir ilişki içinde olmamaları ve
faminc
’in etkisinin doğrudan sigara içme ile ilgili
olmamasıdır.
2-
a-
# "discrim" veri setini yükle
data("discrim")
# "discrim" veri setinin ilk birkaç satırını görüntüle
head(discrim)
## psoda pfries pentree wagest nmgrs nregs hrsopen emp psoda2 pfries2 pentree2
## 1 1.12 1.06 1.02 4.25 3 5 16.0 27.5 1.11 1.11 1.05
## 2 1.06 0.91 0.95 4.75 3 3 16.5 21.5 1.05 0.89 0.95
## 3 1.06 0.91 0.98 4.25 3 5 18.0 30.0 1.05 0.94 0.98
## 4 1.12 1.02 1.06 5.00 4 5 16.0 27.5 1.15 1.05 1.05
## 5 1.12 NA 0.49 5.00 3 3 16.0 5.0 1.04 1.01 0.58
## 6 1.06 0.95 1.01 4.25 4 4 15.0 17.5 1.05 0.94 1.00
## wagest2 nmgrs2 nregs2 hrsopen2 emp2 compown chain density crmrte state
## 1 5.05 5 5 15.0 27.0 1 3 4030 0.0528866 1
## 2 5.05 4 3 17.5 24.5 0 1 4030 0.0528866 1
## 3 5.05 4 5 17.5 25.0 0 1 11400 0.0360003 1
## 4 5.05 4 5 16.0 NA 0 3 8345 0.0484232 1
## 5 5.05 3 3 16.0 12.0 0 1 720 0.0615890 1
## 6 5.05 3 4 15.0 28.0 0 1 4424 0.0334823 1
## prpblck prppov prpncar hseval nstores income county lpsoda
## 1 0.1711542 0.0365789 0.0788428 148300 3 44534 18 0.11332869
## 2 0.1711542 0.0365789 0.0788428 148300 3 44534 18 0.05826885
## 3 0.0473602 0.0879072 0.2694298 169200 3 41164 12 0.05826885
## 4 0.0528394 0.0591227 0.1366903 171600 3 50366 10 0.11332869
## 5 0.0344800 0.0254145 0.0738020 249100 1 72287 10 0.11332869
## 6 0.0591327 0.0835001 0.1151341 148000 2 44515 18 0.05826885
## lpfries lhseval lincome ldensity NJ BK KFC RR
## 1 0.05826885 11.90699 10.70401 8.301521 1 0 0 1
## 2 -0.09431065 11.90699 10.70401 8.301521 1 1 0 0
## 3 -0.09431065 12.03884 10.62532 9.341369 1 1 0 0
## 4 0.01980261 12.05292 10.82707 9.029418 1 0 0 1
## 5 NA 12.42561 11.18840 6.579251 1 1 0 0
## 6 -0.05129331 11.90497 10.70358 8.394799 1 1 0 0
Format 410 gözlemden oluşan ve 37 değişken içeren bir data.frame:
- psoda: Orta boy soda fiyatı, 1. dalga
- pfries: Küçük boy patates kızartması fiyatı, 1. dalga
- pentree: Ana yemek fiyatı (burger veya tavuk), 1. dalga
- wagest: Başlangıç maaşı, 1. dalga
- nmgrs: Yönetici sayısı, 1. dalga
- nregs: Kasa sayısı, 1. dalga
- hrsopen: Açık olma saatleri, 1. dalga
- emp: Çalışan sayısı, 1. dalga
- psoda2: Orta boy soda fiyatı, 2. dalga
- pfries2: Küçük boy patates kızartması fiyatı, 2. dalga
- pentree2: Ana yemek fiyatı, 2. dalga
- wagest2: Başlangıç maaşı, 2. dalga
- nmgrs2: Yönetici sayısı, 2. dalga
- nregs2: Kasa sayısı, 2. dalga
- hrsopen2: Açık olma saatleri, 2. dalga
- emp2: Çalışan sayısı, 2. dalga
- compown: Şirket sahibi ise =1
- chain: BK = 1, KFC = 2, Roy Rogers = 3, Wendy’s = 4
- density: Nüfus yoğunluğu, kasaba
- crmrte: Suç oranı, kasaba
- state: NJ = 1, PA = 2
- prpblck: Siyah oranı, posta kodu
- prppov: Yoksulluk oranı, posta kodu
- prpncar: Arabasız oranı, posta kodu
- hseval: Medyan konut değeri, posta kodu
- nstores: Mağaza sayısı, posta kodu
- income: Medyan aile geliri, posta kodu
- county: İlçe etiketi
- lpsoda: log(psoda)
- lpfries: log(pfries)
- lhseval: log(hseval)
- lincome: log(income)
- ldensity: log(density)
- NJ: New Jersey için =1
- BK: Burger King için =1
- KFC: Kentucky Fried Chicken için =1
- RR: Roy Rogers için =1
b-
## [1] NA
## [1] NA
## [1] NA
## [1] NA
Bu sonuçların NA (Not Available) olarak dönmesinin
nedeni, discrim$prpblck
ve discrim$income
sütunlarında eksik (missing) değerlerin bulunmasıdır.
R, veri setinde eksik değerlere sahip olan bir sütunla işlem yapmaya
çalıştığında, bu sütundaki istatistiksel hesaplamaları (ortalama ve
standart sapma gibi) yapamaz ve sonuç olarak NA
döner. Bu
durum, eksik değerlerin (örneğin, NA
) hesaplama sürecine
dahil edilmesinden kaynaklanır.
## [1] 1
## [1] 1
Gördüğünüz gibi hem prbblck hem income değişkenlerinin birer gözlemi boş değere sahip. Bu yüzden mean ve sd fonksiyonlarının NA gözlemlerinine sahip olduğunu söylememiz lazım.
Bunu düzeltmek için, eksik verileri yönetmek adına
na.rm = TRUE
parametresi eklenebilir. Örneğin:
## [1] 0.1134864
## [1] 0.1824165
## [1] 47053.78
## [1] 13179.29
fonksiyonun içine yazdığımız na.rm (na remove, çıkar) öevcut olmayan gözlemleri hesaplamadan çıkarmamızı söyler. prbblck değişkeninin ortalaması 0.11, standart sapması 0.18, income değişkeninin ortalaması 47053, standart sapması 13179 olacaktır.
Diyelim ki siz bütün değişkenler için kaç tane gözlemin mevcut olmadığını, kaç tane gözlemin var olduğunu, ortalamasını ve standart sapmasını görmek istiyorsunuz. Bu durumda vtable paketi size yardımcı olacaktır. Aşağıdaki komutu kullanmak için vtable paketini yüklemeniz gerektiğini unutmayın.
## Loading required package: kableExtra
## Variable NotNA CountNA Mean Sd
## 1 psoda 402 8 1 0.089
## 2 pfries 393 17 0.92 0.11
## 3 pentree 398 12 1.3 0.64
## 4 wagest 390 20 4.6 0.35
## 5 nmgrs 404 6 3.4 1
## 6 nregs 388 22 3.6 1.2
## 7 hrsopen 410 0 14 2.8
## 8 emp 404 6 18 9.4
## 9 psoda2 388 22 1 0.094
## 10 pfries2 382 28 0.94 0.11
## 11 pentree2 386 24 1.4 0.65
## 12 wagest2 389 21 5 0.25
## 13 nmgrs2 404 6 3.5 1.1
## 14 nregs2 388 22 3.6 1.2
## 15 hrsopen2 399 11 14 2.8
## 16 emp2 397 13 18 8.6
## 17 compown 410 0 0.34 0.48
## 18 chain 410 0 2.1 1.1
## 19 density 409 1 4562 5132
## 20 crmrte 409 1 0.053 0.047
## 21 state 410 0 1.2 0.39
## 22 prpblck 409 1 0.11 0.18
## 23 prppov 409 1 0.071 0.067
## 24 prpncar 409 1 0.11 0.12
## 25 hseval 409 1 147399 56070
## 26 nstores 410 0 3.1 1.8
## 27 income 409 1 47054 13179
## 28 county 410 0 14 8
## 29 lpsoda 402 8 0.04 0.085
## 30 lpfries 393 17 -0.088 0.12
## 31 lhseval 409 1 12 0.39
## 32 lincome 409 1 11 0.28
## 33 ldensity 409 1 8 1
## 34 NJ 410 0 0.81 0.39
## 35 BK 410 0 0.42 0.49
## 36 KFC 410 0 0.2 0.4
## 37 RR 410 0 0.24 0.43
c-
##
## Call:
## lm(formula = psoda ~ prpblck + income, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.29401 -0.05242 0.00333 0.04231 0.44322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.563e-01 1.899e-02 50.354 < 2e-16 ***
## prpblck 1.150e-01 2.600e-02 4.423 1.26e-05 ***
## income 1.603e-06 3.618e-07 4.430 1.22e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08611 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06422, Adjusted R-squared: 0.05952
## F-statistic: 13.66 on 2 and 398 DF, p-value: 1.835e-06
Bu, bir lineer regresyon modelinin çıktı sonuçlarını temsil etmektedir. Model, psoda (soda tüketimi) değişkenini, prpblck (siyah oranı) ve income (gelir) değişkenlerine göre tahmin etmeye çalışmaktadır.
Çıktının Açıklaması:
Residuals (Artıklar):
- Min: -0.29401
- 1.Çeyrek (1Q): -0.05242
- Medyan: 0.00333
- 3.Çeyrek (3Q): 0.04231
- Max: 0.44322
Bu değerler, modelin tahmin ettiği soda tüketimi ile gerçek soda tüketimi arasındaki farkları (artıkları) gösterir. Negatif değerler, modelin gerçek değerden fazla tahminde bulunduğu, pozitif değerler ise modelin düşük tahminde bulunduğu durumları gösterir.
- Min: -0.29401
Coefficients (Katsayılar):
- (Intercept) (Kesisim): 0.9563
Bu, modelin prpblck ve income sıfır olduğunda psoda için tahmin ettiği değerdir. - prpblck: 0.1150
Bu katsayı, siyah oranı (prpblck) değiştikçe soda tüketiminin nasıl değiştiğini gösterir. Yani, prpblck bir birim arttığında, psoda tahmini 0.1150 birim artmaktadır. - income: 1.603e-06
Gelir değişkeninin psoda üzerindeki etkisini belirtir. Gelir bir birim arttığında, soda tüketimi 0.000001603 birim artmaktadır.
- (Intercept) (Kesisim): 0.9563
Standard Error (Standart Hata):
- Her bir katsayının standart hatası, tahmin edilen katsayının ne kadar güvenilir olduğunu gösterir. Daha düşük bir standart hata, katsayının daha güvenilir olduğunu belirtir.
t-value ve Pr(>|t|):
- prpblck ve income değişkenleri için p-değerleri çok küçük (1.26e-05 ve 1.22e-05) olduğu için, her iki değişkenin de psoda üzerinde anlamlı bir etkisi vardır.
- Intercept için de p-değeri oldukça küçüktür, bu da kesisimin de anlamlı olduğunu gösterir.
R-squared (R-kare): 0.06422
Modelin, bağımlı değişkenin (psoda) değişkenliğini açıklamak için ne kadar başarılı olduğunu gösterir. Burada 0.06422, modelin verilerin yalnızca %6.4’ünü açıklayabildiğini gösterir. Bu oldukça düşük bir değer ve modelin psoda üzerindeki etkileri sınırlı olduğunu ima eder.Adjusted R-squared (Düzeltilmiş R-kare): 0.05952
Bu değer, bağımsız değişkenlerin sayısını dikkate alarak düzeltilmiş R-kareyi gösterir. Modelde fazla bağımsız değişken kullanıldığında, bu değer R-kareye göre daha güvenilir olabilir.F-statistic: 13.66
Bu, modelin genel anlamlılığını test etmek için kullanılan bir istatistiktir. p-değeri 1.835e-06 olduğundan, modelin genel olarak anlamlı olduğu söylenebilir.
Özet:
- Modelde prpblck (siyah oranı) ve income (gelir) değişkenlerinin psoda (soda tüketimi) üzerinde anlamlı etkileri bulunmaktadır.
- Ancak, modelin açıklama gücü (R-kare) oldukça düşük, yani bağımsız değişkenler psoda üzerindeki değişkenliği tam olarak açıklayamıyor.
d-
##
## Call:
## lm(formula = psoda ~ prpblck, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30884 -0.05963 0.01135 0.03206 0.44840
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.03740 0.00519 199.87 < 2e-16 ***
## prpblck 0.06493 0.02396 2.71 0.00702 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0881 on 399 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.01808, Adjusted R-squared: 0.01561
## F-statistic: 7.345 on 1 and 399 DF, p-value: 0.007015
Verilen örnek, regresyon analizinin nasıl çalıştığını gösteriyor. Buradaki temel amaç, bağımlı değişkenler ile bağımsız değişkenler arasındaki ilişkiyi modellemektir.
İlk Analiz: bwght
(Bebek Ağırlığı) ile İlişkiler
İlk modelde, bwght
değişkeni (bebeğin ağırlığı) bağımlı
değişken olarak alınmış ve cigs
(sigara içme durumu) ve
faminc
(aile geliri) gibi bağımsız değişkenlerle analiz
edilmiştir.
Sonuçlar: 1. Sigara içme durumu
(cigs
): Sigara içmenin, bebek ağırlığı üzerinde
negatif bir etkisi olduğu bulunmuş. Yani, sigara içme miktarı arttıkça,
bebeklerin ağırlığı azalıyor. Bu ilişki istatistiksel olarak
anlamlı ve p-değeri 0.01’den küçük.
- Aile Geliri (
faminc
): Aile gelirinin arttıkça bebeklerin ağırlığının da arttığı bir ilişki bulunmuş. Bu da istatistiksel olarak anlamlı ve p-değeri 0.01’den küçük.
Modelin genel uyumunu gösteren R-squared değeri 0.023, bu da modelin verinin yalnızca %2.3’ünü açıkladığını gösteriyor. Yani, modelin açıklama gücü düşük. Ancak bu, ilişkilendirmeye çalıştığınız değişkenler hakkında bazı bilgiler verebilir.
İkinci Analiz: psoda
(Soda Satışı) ile İlişkiler
İkinci analizde ise, psoda
(soda satışı) bağımlı
değişken olarak ele alınmış ve prpblck
(Afrikalı
Amerikalıların oranı) ve income
(gelir) gibi bağımsız
değişkenlerle yapılan regresyon analizi sunulmuş.
Sonuçlar: 1. Afrikalı Amerikalıların Oranı
(prpblck
): Bu bağımsız değişkenin, soda satışları
üzerinde anlamlı bir etkisi olduğu görülüyor. P-değeri 0.01’den küçük
olduğu için bu sonuç istatistiksel olarak anlamlı.
- Gelir (
income
): Gelirin de soda satışları üzerinde pozitif bir etkisi olduğu bulunmuş. P-değeri 0.01’den küçük ve bu ilişki de istatistiksel olarak anlamlı.
Modelin R-squared değeri 0.064, yani modelin %6.4’lük bir kısmı açıklanıyor. Bu daha yüksek bir uyum, ancak yine de modelin sınırlı açıklama gücü vardır.
Genel Sonuçlar:
Her iki modelde de bazı bağımsız değişkenlerin bağımlı değişkenler üzerinde anlamlı etkiler yarattığı gösterilmiştir. Ancak her iki modelin de R-squared değerlerinin düşük olduğu, dolayısıyla bu değişkenlerin etkilerini tam anlamıyla açıklamakta yetersiz kaldığı söylenebilir. Bu tür analizlerde daha fazla değişkenin veya etkileşimin dahil edilmesi, modelin açıklayıcılığını artırabilir.
e-
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income), data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.33563 -0.04695 0.00658 0.04334 0.35413
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.79377 0.17943 -4.424 1.25e-05 ***
## prpblck 0.12158 0.02575 4.722 3.24e-06 ***
## log(income) 0.07651 0.01660 4.610 5.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0821 on 398 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.06809, Adjusted R-squared: 0.06341
## F-statistic: 14.54 on 2 and 398 DF, p-value: 8.039e-07
Yukarıdaki çıktı, lm()
fonksiyonu kullanılarak yapılan
doğrusal regresyon modelinin sonuçlarını göstermektedir. Bu model,
log(psoda)
yi bağımlı değişken olarak ve
prpblck
(black population share) ile
log(income)
(gelir logaritması) bağımsız değişkenleri
kullanarak tahmin etmeyi amaçlamaktadır. Sonuçları şu şekilde
yorumlayabiliriz:
- Katsayılar (Coefficients):
- (Intercept): Kesme noktası, yani modelin başlangıç
değeri. Bu değer
-0.79377
olup, bu değerin anlamlı olduğu gösterilmiştir (p-değeri 1.25e-05, bu da oldukça küçük bir değerdir). - prpblck: Siyah nüfus oranı ile
log(psoda)
arasında pozitif bir ilişki vardır. Katsayısı0.12158
olup, bu ilişki de istatistiksel olarak anlamlıdır (p-değeri 3.24e-06). - log(income): Gelirin logaritması ile
log(psoda)
arasında da pozitif bir ilişki vardır. Katsayısı0.07651
olup, bu ilişki de anlamlıdır (p-değeri 5.43e-06).
- (Intercept): Kesme noktası, yani modelin başlangıç
değeri. Bu değer
- Modelin İyiği:
- Residual standard error: Modelin hata payının
ölçüsüdür. Bu durumda hata payı
0.0821
olarak hesaplanmıştır. Düşük bir değer, modelin tahminlerinin daha doğru olduğunu gösterir. - R-squared: Bu istatistik, modelin bağımsız
değişkenlerinin, bağımlı değişkendeki değişimi ne kadar açıkladığını
gösterir. Burada
0.06809
, modelin sadece %6.81’lik bir kısmı açıklayabildiğini gösteriyor. Bu oldukça düşük bir değerdir, yani model daha fazla değişken veya daha karmaşık bir modelle geliştirilebilir. - Adjusted R-squared: Bu, R-squared’ın bağımsız
değişken sayısına göre düzeltilmiş halidir ve
0.06341
olarak hesaplanmıştır. Bu da modelin açıklama gücünün düşük olduğunu gösterir.
- Residual standard error: Modelin hata payının
ölçüsüdür. Bu durumda hata payı
- F-istatistiği: Modelin anlamlı olup olmadığını test
eden bir istatistik olup,
14.54
değeriyle oldukça yüksek bir değer elde edilmiştir. Bu, modelin genel olarak anlamlı olduğu ve bağımsız değişkenlerin bağımlı değişken üzerinde etkisi olduğu anlamına gelir. P-değeri (8.039e-07
) de bu sonuçları destekler.
Sonuç olarak, modelin bazı anlamlı ilişkiler bulduğu ancak açıklama gücünün düşük olduğu (R² çok düşük) söylenebilir. Bu durumda daha fazla değişkenin modele dahil edilmesi veya başka bir modelin kullanılması önerilebilir.
## [1] "2.44 yüzdelik artış"
Yukarıdaki kod, bir hesaplama yapıp sonucu bir metinle birleştirir. Adım adım ne yaptığını açıklayalım:
- Hesaplama:
(0.2*100)*0.122
- Önce
0.2 * 100
hesaplanır, bu20
eder. - Sonra
20 * 0.122
hesaplanır, bu da2.44
eder.
- Önce
- paste() fonksiyonu:
paste()
fonksiyonu, verilen elemanları birleştirip bir metin olarak döndürür. Bu durumda, hesaplanan değeri “yüzdelik artış” metniyle birleştiriyor.
Yani hesaplama sonucu 2.44
ve bu değer “yüzdelik artış”
ile birleştirilerek metin formatında döndürülmüş olur.
“Prpblck” yüzde 20 artarsa, psoda tahmini olarak %2,44 artacaktır.
f-
logdiscrimregprpov <- lm(log(psoda)~prpblck+log(income)+prppov, data = discrim)
summary(logdiscrimregprpov)
##
## Call:
## lm(formula = log(psoda) ~ prpblck + log(income) + prppov, data = discrim)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.32218 -0.04648 0.00651 0.04272 0.35622
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.46333 0.29371 -4.982 9.4e-07 ***
## prpblck 0.07281 0.03068 2.373 0.0181 *
## log(income) 0.13696 0.02676 5.119 4.8e-07 ***
## prppov 0.38036 0.13279 2.864 0.0044 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.08137 on 397 degrees of freedom
## (9 observations deleted due to missingness)
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08006
## F-statistic: 12.6 on 3 and 397 DF, p-value: 6.917e-08
İşte doğrusal regresyon modelinin sonuçlarının Türkçe yorumlanması:
Model Formülü:
log(psoda) ~ prpblck + log(income) + prppov
Bağımlı değişken psoda
nın logaritması, bağımsız
değişkenler ise prpblck
, log(income)
ve
prppov
’dur.
Kalıntılar:
- Min: -0.32218
- 1Q (Birinci Çeyrek): -0.04648
- Medyan: 0.00651
- 3Q (Üçüncü Çeyrek): 0.04272
- Max: 0.35622
Bu kalıntılar, gözlemlenen ve tahmin edilen değerler arasındaki farkı göstermektedir. Kalıntıların 0’a yakın bir dağılıma sahip olması, modelin iyi bir uyum sağladığını gösterir.
Katsayılar:
- (Intercept):
- Tahmin = -1.46333
- Standart Hata = 0.29371
- t değeri = -4.982
- p-değeri = 9.4e-07 ***
- Bu katsayı, regresyon doğrusunun kesişim noktasını temsil eder ve istatistiksel olarak anlamlıdır (p-değeri < 0.001).
- prpblck (Siyah nüfus oranı):
- Tahmin = 0.07281
- Standart Hata = 0.03068
- t değeri = 2.373
- p-değeri = 0.0181 *
- Bu katsayı %5 seviyesinde anlamlıdır (p-değeri < 0.05) ve Siyah
nüfus oranı ile
log(psoda)
arasında pozitif bir ilişki olduğunu gösterir.
- log(income) (Gelirin logaritması):
- Tahmin = 0.13696
- Standart Hata = 0.02676
- t değeri = 5.119
- p-değeri = 4.8e-07 ***
- Bu katsayı çok yüksek bir anlamlılığa sahiptir (p-değeri < 0.001)
ve gelir logaritması ile
log(psoda)
arasında pozitif bir ilişki olduğunu gösterir.
- prppov (Yoksulluk oranı):
- Tahmin = 0.38036
- Standart Hata = 0.13279
- t değeri = 2.864
- p-değeri = 0.0044 **
- Bu katsayı %1 seviyesinde anlamlıdır (p-değeri < 0.01) ve
yoksulluk oranı ile
log(psoda)
arasında pozitif bir ilişki olduğunu gösterir.
Model Uyumunun Değerlendirilmesi:
- Kalıntı standart hatası: 0.08137
- Çoklu R-kare: 0.08696
- Düzeltilmiş R-kare: 0.08006
- F-istatistiği: 12.6 (3 ve 397 serbestlik derecesiyle)
- p-değeri: 6.917e-08
Model, log(psoda)
’nın varyansının yaklaşık %8.7’sini
açıklamaktadır. Bu oran çok yüksek olmasa da, F-istatistiği için
p-değeri modelin tamamının istatistiksel olarak anlamlı olduğunu
göstermektedir.
prppov eklemek, prpblck katsayısının 0,0738’e düşmesine neden olur.
## [1] -0.838467
Korelasyon yaklaşık olarak -0.838’dir. Bu mantıklı, çünkü gelirdeki düşüşlerin daha yüksek yoksulluk oranlarıyla sonuçlanması beklenebilir.
h- Yüksek düzeyde ilişkili olmalarına rağmen, her ikisinin de dahil edilmesi mükemmel bir doğrusallık ile sonuçlanmaz ve bunun yerine, ayırt edici etkiyi izole etmeye yardımcı olan başka bir kontrol değişkeni ekleyerek modeli tamamlar.
3-
a-
İşte verilen verilerin Türkçe çevirisi:
Bir data.frame
229 gözlem ve 18 değişken içeriyor:
- dcode: ilçe kodu
- bcode: bina kodu
- math4: 4. sınıf matematik memnuniyet oranı (yüzde)
- read4: 4. sınıf okuma memnuniyet oranı (yüzde)
- enroll: okul kayıt sayısı
- exppp: öğrenci başına harcama, $
- free: ücretsiz öğle yemeği alma hakkı olanların oranı (yüzde)
- reduced: indirilmiş öğle yemeği alma hakkı olanların oranı (yüzde)
- lunch: ücretsiz + indirilmiş öğle yemeği alma hakkı
- medinc: posta kodu medyan aile geliri, $ (1999)
- totchild: çocuk sayısı (posta kodunda)
- married: evli çiftlerin ailelerinde yaşayan çocuk sayısı
- single: evli çift olmayan ailelerde yaşayan çocuk sayısı
- pctsgle: evli çift olmayan ailelerde yaşayan çocukların oranı (yüzde)
- zipcode: okulun posta kodu
- lenroll: log(enroll)
- lexppp: log(exppp)
- lmedinc: log(medinc)
b-
##
## Call:
## lm(formula = math4 ~ pctsgle, data = meapsingle)
##
## Residuals:
## Min 1Q Median 3Q Max
## -47.791 -8.310 1.600 8.092 50.317
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 96.77043 1.59680 60.60 <2e-16 ***
## pctsgle -0.83288 0.07068 -11.78 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.48 on 227 degrees of freedom
## Multiple R-squared: 0.3795, Adjusted R-squared: 0.3768
## F-statistic: 138.9 on 1 and 227 DF, p-value: < 2.2e-16
Görünüşe göre, sağladığınız veriler ve analizler çeşitli regresyon modelleri ve değişkenlerle ilgili. Buradaki örnekler, bir bağımlı değişkenin çeşitli bağımsız değişkenlerle nasıl ilişkilendirildiğini gösteriyor. Verilen örnekler, aşağıdaki gibi bazı temel istatistiksel sonuçları içeriyor:
Örnek Model Sonuçları:
- Model 1 ve Model 2:
- Dependent variable: bwght (doğum ağırlığı)
- cigs (sigara içme miktarı) ile olan ilişki: Sigara içmenin doğum ağırlığı üzerinde olumsuz bir etkisi var.
- faminc (aile geliri) ile olan ilişki: Aile geliri arttıkça doğum ağırlığının arttığı gözlemleniyor.
- R-Kare Değerleri:
- Model 1 ve Model 2 için R² değerleri sırasıyla 0.023 ve 0.030, bu da modelin bağımlı değişkeni açıklamada sınırlı bir güce sahip olduğunu gösteriyor.
- F-Statistiği:
- Model 1 için F-istatistiği 32.235, bu modelin istatistiksel olarak anlamlı olduğunu gösteriyor.
- Model 2 için F-istatistiği 21.274, yine anlamlılık gösteriyor.
- İstatistiksel Anlamlılık:
- Bağımsız değişkenler (cigs, faminc) p-değerlerine göre istatistiksel olarak anlamlı bulunmuş (p < 0.01).
Diğer Modeller:
- Diğer regresyon modelleri, psoda gibi değişkenlerin üzerine yapılan regresyon analizlerini içeriyor. Bu modellerde de değişkenlerin istatistiksel anlamlılıkları ve R² değerleri sunuluyor.
Anlamlı Değişkenler:
- prpblck (siyah nüfus oranı) ve income (gelir) gibi değişkenlerin psoda üzerinde önemli bir etkisi olduğu görülüyor.
c-
##
## Call:
## lm(formula = math4 ~ pctsgle + lmedinc + free, data = meapsingle)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.919 -7.195 0.931 7.313 50.152
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.72322 58.47814 0.884 0.377
## pctsgle -0.19965 0.15872 -1.258 0.210
## lmedinc 3.56013 5.04170 0.706 0.481
## free -0.39642 0.07035 -5.635 5.2e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.7 on 225 degrees of freedom
## Multiple R-squared: 0.4598, Adjusted R-squared: 0.4526
## F-statistic: 63.85 on 3 and 225 DF, p-value: < 2.2e-16
d-
## [1] -0.7469703
Bu kod parçası, R dilinde yazılmış bir komuttur ve iki değişken arasındaki korelasyonu hesaplamaktadır. İşte adım adım açıklaması:
meapsingle$free
: Bu,meapsingle
veri çerçevesinde bulunan ve “free” adını taşıyan sütunu (değişkeni) ifade eder. Muhtemelen bu sütun, öğrencilerin ücretsiz okul yemeklerinden yararlanıp yararlanmadığı gibi bir bilgiyi içermektedir.meapsingle$lmedinc
: Bu dameapsingle
veri çerçevesinde bulunan ve “lmedinc” adını taşıyan bir başka sütunu ifade eder. Bu sütun, öğrencilerin düşük gelirli olup olmadığını belirten bir bilgi olabilir.cor()
: Bu fonksiyon, verilen iki değişken arasındaki korelasyonu hesaplar. Korelasyon, iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçen bir istatistiksel değerdir. Korelasyon değeri -1 ile 1 arasında değişir:- 1: Tam pozitif korelasyon (değişkenler birlikte artar).
- -1: Tam negatif korelasyon (biri artarken diğeri azalır).
- 0: Korelasyon yoktur (değişkenler arasında doğrusal ilişki yoktur).
Sonuç olarak,
cor(meapsingle$free, meapsingle$lmedinc)
komutu, meapsingle
veri çerçevesindeki “free” ve “lmedinc”
değişkenleri arasındaki korelasyonu hesaplayacak ve bu ilişkinin gücünü
ve yönünü belirleyecektir.
e-
## Loading required package: carData
## pctsgle lmedinc free
## 5.740981 4.118812 3.188079
vif(coklureg3)
kodu, R dilinde Varyans Şişirme
Faktörü (VIF) hesaplamak için kullanılır. İşte açıklaması:
vif()
: Bu fonksiyon, regresyon modelinizdeki değişkenler arasında çoklu doğrusallık (multicollinearity) olup olmadığını kontrol etmek için kullanılır. Çoklu doğrusallık, bağımsız değişkenlerin birbirleriyle yüksek korelasyona sahip olması durumudur ve bu durum modelin güvenilirliğini etkileyebilir. VIF, her bir bağımsız değişkenin diğerleriyle ne kadar ilişkili olduğunu gösterir.- Bir VIF değeri 1 olan bir değişkenin, diğer bağımsız değişkenlerle hiçbir korelasyonu yok demektir.
- VIF değeri 5 veya daha büyük olan bir değişken, diğer bağımsız değişkenlerle yüksek derecede korelasyona sahiptir ve bu durum modelde problem oluşturabilir.
coklureg3
: Bu, VIF hesaplamak istediğiniz regresyon modelini ifade eder.coklureg3
, genelliklelm()
fonksiyonu ile oluşturulmuş bir modeldir. Örneğin,coklureg3 <- lm(dependent ~ predictor1 + predictor2 + ...)
şeklinde bir model olabilir.
Özetle:
vif(coklureg3)
fonksiyonu, coklureg3
modelindeki her bir bağımsız değişkenin VIF değerlerini hesaplar. Bu,
değişkenler arasında çoklu doğrusallık problemi olup olmadığını
değerlendirmenize yardımcı olur.