Elimizdeki değer, şans eseri gözlenecek değerden büyük mü, HO’ı reddetmek için yeteri kanıt var mı elimizde?
P değeri gözlemlenme olasılığının şans eseri olacak farklılıklardan daha küçük olması durumunda HO’ı reddediyoruz.
Evrene ulaşamadığım için çoğu zaman, elimizde bir örneklem olur ve ondan bir değer elde ederiz. Elimdeki değeri, örneklem ortalamaları dağılımı ile karşılaştırıyoruz.Örneklem ortalamaları dağılımı, sonsuz sayıda örneklem alsaydık bu ortalamaların oluşturacağı teorik dağılım, p değerinin doğduğu ve hesaplandığı tek yer burasıdır. Benim elimdeki değer bu örneklem ortalamaları dağılımında nereye düşüyor, onun düştüğü yerin olasılık değeri 0.05’ten küçükse, yani 100 örneklemden 5 inden azında varsa H0 reddetmek için yeterli kanıtım var derim.
Standart hata: Evrenin bir standart sapması var elimizdeki örnekleminde bir standart sapması var bu ikisinin arasındaki fark örneklem hatası. Standart hata ortalamaların şans eseri ne kadar dalgalanması beklediğimizi gösterir. Örneklem büyüdükçe N artar, standart hata küçülür, eğri daralır, şans faktörü azalır.
Formül: standart sapma / √n
p değeri: sıfır hipotezinin doğru olduğu varsayımı altında bizim elde ettiğimiz sonucun veya daha aşırı bir sonucun şans eseri karşımıza çıkma olasılığıdır. bu olasılık küçükse HO’ı reddediyoruz.
p değeri, Ho doğruyken verilerimizin şans eseri ortaya çıkma olasılığıdır.
alfa değeri: deneye başlamadan önce belirlediğimiz hata payı eşiğidir.
MLT’ye göre örneklem ortalamaları normal bir çan eğrisi oluşturur.(MLT: dağılım şekli ne olursa olsun, örneklem 30dan büyükse normal dağılıma ulaşıyoruz der. Yani, evren dağılımı ne olursa olsun örneklem ortalamalarının dağılımının (sampling distribution) normale yaklaştığını söyler.)
HO: şansın referans noktasını verir.
Kendi verini hesapla ve bu çan eğrisi üzerind nereye düşüyor onu bul.
Gözlemin ötesinde kalan alanı p değeri ölç, belirlediğin alfa ile kıyasla ve karar ver.
Hipotez testi sadece örneklem hatasını gerçek bir etkiden ayırmak için yapılır. P değeri küçükse gözlemimizin şans eseri gerçekleşmesi çok zordur.
Düzey 1 değişkenleri:
Bağımlı değişken: mathach: Öğrencinin matematik başarı puanı
Yordayıcı değişken: ses: Öğrencinin sosyo-ekonomik statüsü
Düzey 2 yordayıcı:
meanses: Okulun ortalama SES değeri
sector: Okulun türü (0 = Devlet, 1 = Özel/Katolik)
Merkezlenmiş değişken:
cses: ses değişkeninin okul ortalamasına göre merkezlenmiş hali (Group-mean centered)
library(tidyverse)
library(sjmisc) # Frekans ve betimsel istatistikler
library(car) # Alternatif model özetleri için (S fonksiyonu)
library(lme4) # HLM / Mixed modelleri kurmak için
library(interactions) # Etkileşim (interaction) grafikleri için
library(broom) # çıktıları düzenli almak için
load("HSB.RData")
Öncelik Ses değişkeni için grup ortalamasında merkezleme işlemi yapıyoruz. Her okulun ortalama ses puanı hesaplanıyor ve öğrencinin kendi SES puanından, kendi okulunun ortalamasını çıkarıyoruz.
HSB <- HSB %>%
group_by(school) %>%
mutate(meanses = mean(ses, na.rm = TRUE)) %>%
ungroup() %>% # easier version of aggregation
mutate(cses = ses - meanses) %>%
relocate(cses, .after = ses)
Betimsel istatistiklerin incelenmesi
# female değişkeni için frekans tablosu oluşturma
HSB %>%
select(female) %>%
sjmisc::frq()
## female <categorical>
## # total N=7185 valid N=7185 mean=1.53 sd=0.50
##
## Value | N | Raw % | Valid % | Cum. %
## ----------------------------------------
## Male | 3390 | 47.18 | 47.18 | 47.18
## Female | 3795 | 52.82 | 52.82 | 100.00
## <NA> | 0 | 0.00 | <NA> | <NA>
# SES (ses), merkezlenmiş SES (cses) ve Matematik Başarısı (mathach) değişkenleri için; gözlem sayısı (n), kayıp veri oranı (NA.prc), ortalama, standart sapma ve aralık (min-max) değerlerinin hesaplanması
HSB %>%
select(ses, cses, mathach) %>%
descr(show = c("n", "NA.prc","mean", "sd", "range"))
# Okul düzeyi (Düzey 2) için veri setini oluşturma
HSB.S <-
HSB %>%
group_by(school) %>%
summarise(n = n(),
sector = unique(sector),
size = unique(size),
pracad = unique(pracad),
disclim = unique(disclim),
meanses = unique(meanses),
himinty = unique(himinty))
Okul düzeyi değişkenine ait betimsel istatistikler
HSB.S %>%
select(sector, himinty) %>%
frq()
## sector <categorical>
## # total N=160 valid N=160 mean=1.44 sd=0.50
##
## Value | N | Raw % | Valid % | Cum. %
## ----------------------------------------
## Public | 90 | 56.25 | 56.25 | 56.25
## Catholic | 70 | 43.75 | 43.75 | 100.00
## <NA> | 0 | 0.00 | <NA> | <NA>
##
## himinty <categorical>
## # total N=160 valid N=160 mean=1.27 sd=0.45
##
## Value | N | Raw % | Valid % | Cum. %
## -------------------------------------------------------
## Equal or less than 40% | 116 | 72.50 | 72.50 | 72.50
## Equal or more than 40% | 44 | 27.50 | 27.50 | 100.00
## <NA> | 0 | 0.00 | <NA> | <NA>
HSB.S %>%
select(n, size, disclim, meanses) %>%
descr(show = c("n", "NA.prc","mean", "sd", "range"))
Liseler ortalama matematik başarılarında ne kadar farklılık gösterir?
Matematik başarısındaki toplam varyansın ne kadarının okullardan kaynaklandığını belirlemek istiyoruz.
Matematiksel Formülasyon:
Level-1 (Öğrenci Düzeyi): 𝑌𝑖𝑗=𝛽0𝑗+𝑟𝑖𝑗
Y_{ij}: j okulundaki i numaralı öğrencinin matematik puanı.
𝛽0𝑗: j okulunun ortalama puanı.
r_ij: Öğrenci düzeyindeki hata (sapma).
Level-2 (Okul Düzeyi): 𝛽0𝑗=𝛾00+𝑢0𝑗
𝛽0𝑗: j okulunun ortalaması
𝛾00:Gamma 00: Tüm okulların, yani tüm veri setinin Genel Ortalaması.
𝑢0𝑗:Okul düzeyindeki hata (sapma). Bir okulun ortalamasının, tüm okulların genel ortalamasından ne kadar saptığıdır.
Bu modelde düzey-1 hata terimi 𝑟𝑖𝑗∼𝑁(0,𝜎2) ve düzey-2 hata terimi 𝑢0𝑗∼𝑁(0,𝜏2) olarak varsayıldığında eşitlikler:
𝑚𝑎𝑡ℎ𝑎𝑐ℎ𝑖𝑗=𝛽0𝑗+𝑟𝑖𝑗
𝛽0𝑗=12.64+𝑢0𝑗
𝑉(𝑢0𝑗)=𝜏00=8.61
𝑉(𝑟𝑖𝑗)=𝜎2=39.15
𝛾00: Tüm okullardaki tüm öğrencilerin matematik başarı puanlarının genel ortalamasıdır:12.64.
𝜏00: okullar arası varyans: 8.61
𝜎2 : öğrenciler arası varyans: 39.15
# lmer() içinde (1 | school) ifadesi "Rastgele Kesişim" (Random Intercept) anlamına gelir.
mod01 <- lmer(mathach ~ 1 + (1 | school), data = HSB)
summary(mod01)
## Linear mixed model fit by REML ['lmerMod']
## Formula: mathach ~ 1 + (1 | school)
## Data: HSB
##
## REML criterion at convergence: 47116.8
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -3.0631 -0.7539 0.0267 0.7606 2.7426
##
## Random effects:
## Groups Name Variance Std.Dev.
## school (Intercept) 8.614 2.935
## Residual 39.148 6.257
## Number of obs: 7185, groups: school, 160
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 12.6370 0.2444 51.71
mod01 %>% S()
## Linear mixed model fit by REML
## Call: lmer(formula = mathach ~ 1 + (1 | school), data = HSB)
##
## Estimates of Fixed Effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 12.6370 0.2444 51.71 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Estimates of Random Effects (Covariance Components):
## Groups Name Std.Dev.
## school (Intercept) 2.935
## Residual 6.257
##
## Number of obs: 7185, groups: school, 160
##
## logLik df AIC BIC
## -23558.40 3 47122.79 47143.43
tidy(mod01)
Sınıflararası Korelasyon (Intraclass Correlation - ICC): ICC = 𝜏00 / (𝜏00 + 𝜎2) = 8.61 / (8.61 + 39.15) ≈ 0.18 Öğrencilerin toplam matematik başarısı varyansının %18’inin okullar arasındaki farklılıklardan (okul düzeyinden) kaynaklanmaktadır.
Olası Değerler Aralığı: \[Genel Ortalama \pm 1.96 \times \sqrt{\tau_{00}}\] Genel Ortalama: 12.64
Okullar arası varyans karekökü yani standart sapma: √8.61 ≈ 2.93
Sonuç: 12.64 ± 1.96 × 2.93 ≈ [6.89, 18.39]
Okulların %95’i bu iki uç değer arasında (6.89 - 18.39) bir yerlerde sıralanıyor.
Güvenirlik HLM’de bir parametrenin güvenirliği:“Gerçek Varyansın, Toplam Varyansa Oranı”
Gerçek Varyans (𝜏𝑞𝑞): Regresyon eşitliğinin okuldan okula değişkenlik gösterme derecesidir. Tüm okulların gerçek başarı ortalamalarının veya gerçek SES-Başarı eğimlerinin birbirinden ne kadar farklı olduğunu gösterir. (Çıktılarda Tau varyans bileşeni olarak bilinir).
Hata Varyansı (𝑣𝑞𝑗): Her bir okulun regresyon eşitliğinin ne kadar kesin kestirildiği kısmıdır. Örneklemden elde edilen tahminin, gerçek değerden ne kadar saptığını gösterir. Eğer sıfıra yaklaşırsa, güvenirlik 1’e yaklaşır. Hata varyansı büyürse güvenirlik düşer.
Formül: 𝜆𝑞𝑗=𝜏00 / (𝜏00+𝑣𝑞𝑗)
Pay: Gerçek okullar arası fark. Payda: Gerçek fark + Tahmin hatası
# 1. Modelden varyans bileşenlerini çekelim
var_comp <- as.data.frame(VarCorr(mod01))
tau_00 <- var_comp$vcov[var_comp$grp == "school"] # Okullar arası varyans
sigma_sq <- var_comp$vcov[var_comp$grp == "Residual"] # Okul içi hata varyansı
# 2. Her bir okulun örneklem büyüklüğünü (nj) bulalım
n_j <- HSB %>%
count(school) %>%
pull(n)
# 3. Her okul için kesişim güvenirliğini (lambda) hesaplayalım
reliability_j <- tau_00 / (tau_00 + (sigma_sq / n_j))
# 4. HLM Programındaki "Reliability Estimate" değerini bulmak için ortalamasını alalım
mean_reliability <- mean(reliability_j)
print(paste("Kesişim Güvenirliği (Reliability Estimate):", round(mean_reliability, 3)))
## [1] "Kesişim Güvenirliği (Reliability Estimate): 0.901"
Düzey-1 kesişiminin (intercept) rastgele etkisine ilişkin güvenirlik değeri, Düzey-2 birimlerinin ortalama güvenirliğidir. Her bir okulun kesişim değeri için hesaplanan En Küçük Kareler - OLS kestirimlerinin genel güvenirliğini ölçer. Bu model için elde edilen güvenirlik kestirimi oldukça yüksektir ve 0.901 olarak bulunmuştur. Elimizdeki okul ortalamaları ne kadar gerçek, ne kadar şans eseri bunun cevabıdır, okullar hakkında elde edilen başarı puanlarının; o okulların gerçek performansını %90 oranında doğru yansıttığının kanıtıdır.
# boş model
mod1_sl <- lm(mathach ~ 1,
data=HSB)
# karşılaştır
anova(mod01, mod1_sl)
Anova sonucundaki p-değeri anlamlı:Okullar arası varyans anlamlı derecede sıfırdan büyüktür. Okullar arasında matematik başarısında anlamlı farklılıkların olduğunu ve bu farklılıkların rastgele etkiler modeli tarafından başarıyla yakalandığını gösterir.
Araştırma sorusu: Okullar arasındaki bu başarı farkının ne kadarı, okulların ortalama SES (sosyo-ekonomik statü) düzeyinden kaynaklanıyor?
Model formülasyon:
Düzey-1 Modeli: 𝑚𝑎𝑡ℎ𝑎𝑐ℎ𝑖𝑗=𝛽0𝑗+𝑟𝑖𝑗
Düzey-2 Modeli: 𝛽0𝑗=𝛾00+𝛾01(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢0𝑗
Bir önceki boş model formülasyonundan farklı olarak düzey 2 de y01(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗) ekledik.
y01(Meanses Katsayısı): Okulun ortalama SES düzeyindeki 1 birimlik artış, okulun matematik başarısını ne kadar artırıyor? y01(Meanses Katsayısı):5.86
Formülasyona değerleri eklediğimizde: 𝑚𝑎𝑡ℎ𝑎𝑐ℎ𝑖𝑗=𝛽0𝑗+𝑟𝑖𝑗 𝛽0𝑗=12.65+5.86(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢0𝑗
Yorum: Intercept = 12.68: Bu, bir okulun ortalama SES düzeyi(meanses değeri) 0 olan, bir okulun beklenen matematik başarı puanıdır.
meanses (y01) = 5.86: Bir okulun ortalama SES düzeyi 1 birim arttığında, o okulun matematik başarısı tam 5.86 puan artıyor. Bu değer istatistiksel olarak da anlamlıdır.
Varyans incelendiğinde;
𝑉(𝑢0𝑗)=𝜏00=2.64 (Okullar arası kalan varyans) 𝑉(𝑟𝑖𝑗)=𝜎2=39.16 (Okul içi öğrenci varyansı)
Okullar arası varyans 8.61’den 2.64’e düştü. meanses’in, ortalama matematik başarısındaki okuldan okula gözlenen değişkenliğin büyük bir kısmını açıkladığını göstermektedir.
Tek bir karma eşitlik halinde modelin son hali: 𝑚𝑎𝑡ℎ𝑎𝑐ℎ𝑖𝑗=𝛾00+𝛾01(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢0𝑗+𝑟𝑖𝑗
Olası Değerler Aralığı (Plausible Values Range): Tüm okulların ortalama SES değerinin sıfır olduğu (𝑚𝑒𝑎𝑛𝑠𝑒𝑠=0 ) varsayıldığında, okul başarı ortalamaları için %95 olası değerler aralığı şu şekilde hesaplanır: 12.65±1.96 x √2.64=(9.47,15.83)
Açıklanan Varyans Oranı (𝑅22): 𝑅22=8.61−2.64 /8.61=0.69
Okulların ortalama matematik başarı puanlarındaki açıklanabilir varyansın yaklaşık %69’u okulların ortalama SES düzeyi ile açıklanabilmektedir.
mod02 <- lmer(mathach ~ meanses +
(1 | school),
data = HSB)
summary(mod02)
## Linear mixed model fit by REML ['lmerMod']
## Formula: mathach ~ meanses + (1 | school)
## Data: HSB
##
## REML criterion at convergence: 46961.3
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -3.13493 -0.75254 0.02413 0.76766 2.78515
##
## Random effects:
## Groups Name Variance Std.Dev.
## school (Intercept) 2.639 1.624
## Residual 39.157 6.258
## Number of obs: 7185, groups: school, 160
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 12.6846 0.1493 84.97
## meanses 5.8635 0.3615 16.22
##
## Correlation of Fixed Effects:
## (Intr)
## meanses 0.010
mod02 %>% S()
## Linear mixed model fit by REML
## Call: lmer(formula = mathach ~ meanses + (1 | school), data = HSB)
##
## Estimates of Fixed Effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 12.6846 0.1493 84.97 <2e-16 ***
## meanses 5.8635 0.3615 16.22 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Estimates of Random Effects (Covariance Components):
## Groups Name Std.Dev.
## school (Intercept) 1.624
## Residual 6.258
##
## Number of obs: 7185, groups: school, 160
##
## logLik df AIC BIC
## -23480.65 4 46969.29 46996.81
tidy(mod02)
Koşullu Sınıflararası Korelasyon (Conditional ICC): meanses değişkeninin modele eklenmesinin ardından koşullu (conditional) sınıflararası korelasyonu: 𝜌𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑎𝑙=2.64 / 2.64+39.16=0.06
Ortalama SES kontrol altına alındıktan sonra matematik başarılarındaki varyansın yaklaşık %6’sı okullar arasındadır. Yani hala açıklanması gereken anlamlı bir varyans kaldı.
Koşullu Güvenilirlik MEAN SES kontrol edildikten sonra, okulların gerçek ortalamalarını ayırt etme gücü (reliability) azalmaktadır. Koşulsuz olan modelde 0.90 olan güvenilirlik değeri,0.74 oldu. Bu düşüş, açıklanan varyansın ardından kalan “koşullu” farkların daha az belirgin hale geldiğini gösterir.
# 1. Modelden varyans bileşenlerini çekelim
var_comp <- as.data.frame(VarCorr(mod02))
tau_00 <- var_comp$vcov[var_comp$grp == "school"] # Okullar arası varyans
sigma_sq <- var_comp$vcov[var_comp$grp == "Residual"] # Okul içi hata varyansı
# 2. Her bir okulun örneklem büyüklüğünü (nj) bulalım
n_j <- HSB %>%
count(school) %>%
pull(n)
# 3. Her okul için kesişim güvenirliğini (lambda) hesaplayalım
reliability_j <- tau_00 / (tau_00 + (sigma_sq / n_j))
# 4. HLM Programındaki "Reliability Estimate" değerini bulmak için ortalamasını alalım
mean_reliability <- mean(reliability_j)
print(paste("Kesişim Güvenirliği (Reliability Estimate):", round(mean_reliability, 3)))
## [1] "Kesişim Güvenirliği (Reliability Estimate): 0.74"
Sanki veride bulunan 160 okul için ayrı ayrı bir regresyon denklemi varmış gibi, her okulun kendi kesişim ve eğim değerlerine sahip olduğu bir model kurmak istiyoruz. Yani, her okulun kendi ortalama matematik başarısı (kesişim) ve kendi SES-Başarı ilişkisi (eğim) olabilir.
Formülasyon:
Düzey-1 Modeli:
mathach_ij = b0j + b1j(cses_ij) + r_ij b1j: Bu okulda SES ile başarı arasındaki ilişki ne kadar güçlü?
Düzey 2-Modeli:
Kesişim Denklemi: b0j = y00 + u0j y00: Okulların ortalama başarı puanı. u0j: Okulun ortalamasının genelden sapması.
Eğim Denklemi: b1j = y10 + u1j y10: Tüm okullardaki ortalama SES-Başarı ilişkisi. u1j: Bu okulun SES-başarı ilişkisinin (eğiminin), genel eğimden ne kadar saptığını gösterir.
95% Plausible Value (Olası Değerler) Aralıkları: Okul Ortalamaları (Kesişimler) için %95 aralık:
12.64±1.96√8.68=(6.87,18.41)
SES-Başarı Eğimleri için %95 aralık:
2.19±1.96√0.68=(0.57,3.81)
Okul Ortalamaları β0𝑗: [6.87, 18.41]
SES-Başarı Eğimleri β1𝑗: [0.57, 3.81]
Çoğu okulda SES ile başarı arasında pozitif bir ilişki vardır, ancak bazı okullarda bu ilişki 3.81 kadar güçlüyken, bazılarında 0.57 kadar zayıftır
mod03 <- lmer(mathach ~ cses + # Düzey 1 yordayıcı
(cses | school), # tesadüfi etki
data = HSB)
summary(mod03)
## Linear mixed model fit by REML ['lmerMod']
## Formula: mathach ~ cses + (cses | school)
## Data: HSB
##
## REML criterion at convergence: 46714.2
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -3.09680 -0.73193 0.01855 0.75386 2.89924
##
## Random effects:
## Groups Name Variance Std.Dev. Corr
## school (Intercept) 8.681 2.9464
## cses 0.694 0.8331 0.02
## Residual 36.700 6.0581
## Number of obs: 7185, groups: school, 160
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 12.6362 0.2445 51.68
## cses 2.1932 0.1283 17.10
##
## Correlation of Fixed Effects:
## (Intr)
## cses 0.009
Yorumlar: Sabit Etkiler (Fixed Effects): Intercept (12.63): Tüm okulların ortalama başarı puanı. cses (2.19): Ortalama olarak, bir öğrencinin SES düzeyi 1 birim arttığında matematik başarısı 2.19 puan artıyor.
Rastgele Etkiler (Random Effects): Okullar Ne Kadar Farklı? school (Intercept) Variance (8.68): Okulların ortalama başarıları arasındaki fark.
school cses Variance (0.69):SES eğimlerinin varyansı.Bu değerin 0’dan büyük olması şu anlama gelir: SES, her okulda başarıyı aynı şekilde etkilemiyor. Bazı okullarda SES ile başarı arasındaki ilişki çok dik, bazılarında bu ilişki çok zayıf.
Öğrenci düzeyindeki değişkenlik 39.15’ten (Boş Model) 36.70’e düştü.
Modele SES değişkeninin girmesiyle Düzey-1’de açıklanan varyans oranını şu şekilde hesaplarız:
𝑅21=(39.15−36.70)/39.15=0.063
Öğrenci düzeyindeki SES değişkenini matematik başarısının bir yordayıcısı olarak kullanmak, okul-içi başarı varyansını %6.3 oranında açıklamış.
Kesişim ve Eğim Arasındaki Korelasyon Bu değer 0.019, ve çok düşük bir değer. Bir okulun genel matematik başarısı yüksek diye, o okulda SES ile başarı arasındaki ilişkinin (eşitsizliğin) illaki daha güçlü veya zayıf olacağını söyleyemeyiz.
Okul matematik başarı ortalamaları ve SES-başarı eğimleri için güvenirlik kestirimini etkileyen iki faktör vardır: Regresyon eşitliğinin okuldan okula değişkenlik gösterme derecesi. Her bir okulun regresyon eşitliğinin ne kadar kesin kestirildiği.
Okul matematik başarı ortalamaları için güvenirlik yaklaşık 0,91, SES-başarı eğimleri içinse 0,26 olarak kestirilmiştir.Okul ortalamalarının kestirimlerinin oldukça güvenilir, ama eğimlerin değildir. Sebep; eğimlerin varyanslarının, ortalamaların varyanslarından daha düşük olmasıdır.
# 1. Modelden varyans bileşenlerini çekelim
var_comp <- as.data.frame(VarCorr(mod03))
# tau_00: Okullar arası kesişim (Intercept) varyansı
tau_00 <- var_comp$vcov[var_comp$var1 == "(Intercept)" & is.na(var_comp$var2)]
# tau_11: Okullar arası eğim (SES slope) varyansı
tau_11 <- var_comp$vcov[2]
# sigma_sq: 1. Düzey (Okul içi) kalıntı/hata varyansı
sigma_sq <- var_comp$vcov[var_comp$grp == "Residual"]
# 2. Her bir okul için gerekli istatistikleri (nj ve SES varyansı) hesaplayalım
school_stats <- HSB %>%
group_by(school) %>%
summarise(
n_j = n(),
# Okul içindeki SES varyansı
ses_var = var(ses, na.rm = TRUE),
# Eğim hatası için SES'in Toplam Kareler (Sum of Squares) değeri: sum((X - mean(X))^2)
ses_ss = (n_j - 1) * ses_var
) %>%
# Eğim hesaplanabilmesi ve varyansın 0'a bölme hatası vermemesi için
# en az 2 öğrencisi olan ve SES varyansı 0 olmayan okulları alıyoruz
filter(n_j > 1, ses_ss > 0)
# 3. Her okul için tahmin hatası (v_qj) ve güvenirlik (lambda) hesaplaması
school_stats <- school_stats %>%
mutate(
# --- KESİŞİM (INTERCEPT) İÇİN ---
v_0j = sigma_sq / n_j, # Kesişim tahmin hatası
lambda_0j = tau_00 / (tau_00 + v_0j), # Kesişim güvenirliği
# --- EĞİM (SLOPE) İÇİN ---
v_1j = sigma_sq / ses_ss, # Eğim tahmin hatası (Kritik nokta: ses_ss'e bölünür)
lambda_1j = tau_11 / (tau_11 + v_1j) # Eğim güvenirliği
)
# 4. HLM Programındaki "Reliability Estimate" değerini bulmak için ortalamaları alalım
mean_rel_intercept <- mean(school_stats$lambda_0j, na.rm = TRUE)
mean_rel_slope <- mean(school_stats$lambda_1j, na.rm = TRUE)
# 5. Sonuçları Yazdıralım
cat("Kesişim (Okul Ortalaması) Güvenirliği:", round(mean_rel_intercept, 3), "\n")
## Kesişim (Okul Ortalaması) Güvenirliği: 0.908
cat("Eğim (SES-Başarı) Güvenirliği: ", round(mean_rel_slope, 3), "\n")
## Eğim (SES-Başarı) Güvenirliği: 0.264
Başarı ve Ses arasındaki ilişki okullar arasında değişkenlik göstermekteydi. Bu değişkenliği açıklamak için yeni bir model kuruluyor.
Hem okulların başarı ortalamalarını hem de okullardaki SES eğimini okulun özellikleriyle (ses ve sektör) açıklamaya çalışıyoruz.
mod04 <- lmer(mathach ~ cses + # Düzey-1 Yordayıcısı
meanses + sector + # Düzey-2 Yordayıcıları
cses:meanses + # Çapraz Düzey Etkileşimi 1
cses:sector + # Çapraz Düzey Etkileşimi 2
(1 + cses | school), # Rastgele Kesişim ve Rastgele Eğim
data = HSB)
S(mod04)
## Linear mixed model fit by REML
## Call: lmer(formula = mathach ~ cses + meanses + sector + cses:meanses +
## cses:sector + (1 + cses | school), data = HSB)
##
## Estimates of Fixed Effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 12.1279 0.1993 60.856 < 2e-16 ***
## cses 2.9450 0.1556 18.928 < 2e-16 ***
## meanses 5.3329 0.3692 14.446 < 2e-16 ***
## sectorCatholic 1.2266 0.3063 4.005 6.20e-05 ***
## cses:meanses 1.0393 0.2989 3.477 0.000507 ***
## cses:sectorCatholic -1.6427 0.2398 -6.851 7.32e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Estimates of Random Effects (Covariance Components):
## Groups Name Std.Dev. Corr
## school (Intercept) 1.5426
## cses 0.3179 0.39
## Residual 6.0598
##
## Number of obs: 7185, groups: school, 160
##
## logLik df AIC BIC
## -23251.83 10 46523.66 46592.46
summary(mod04)
## Linear mixed model fit by REML ['lmerMod']
## Formula: mathach ~ cses + meanses + sector + cses:meanses + cses:sector +
## (1 + cses | school)
## Data: HSB
##
## REML criterion at convergence: 46503.7
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -3.15926 -0.72319 0.01704 0.75444 2.95822
##
## Random effects:
## Groups Name Variance Std.Dev. Corr
## school (Intercept) 2.380 1.5426
## cses 0.101 0.3179 0.39
## Residual 36.721 6.0598
## Number of obs: 7185, groups: school, 160
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 12.1279 0.1993 60.856
## cses 2.9450 0.1556 18.928
## meanses 5.3329 0.3692 14.446
## sectorCatholic 1.2266 0.3063 4.005
## cses:meanses 1.0393 0.2989 3.477
## cses:sectorCatholic -1.6427 0.2398 -6.851
##
## Correlation of Fixed Effects:
## (Intr) cses meanss sctrCt css:mn
## cses 0.075
## meanses 0.256 0.019
## sectorCthlc -0.699 -0.053 -0.356
## cses:meanss 0.019 0.293 0.074 -0.026
## css:sctrCth -0.052 -0.696 -0.027 0.077 -0.351
Yorumlar:
Düzey-1 Modeli: 𝑚𝑎𝑡ℎ𝑎𝑐ℎ𝑖𝑗=𝛽0𝑗+𝛽1𝑗(𝑠𝑒𝑠𝑖𝑗−𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑟𝑖𝑗
Düzey-2 Modeli: 𝛽0𝑗=𝛾00+𝛾01(𝑠𝑒𝑐𝑡𝑜𝑟𝑗)+𝛾02(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢0𝑗 𝛽1𝑗=𝛾10+𝛾11(𝑠𝑒𝑐𝑡𝑜𝑟𝑗)+𝛾12(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢1𝑗
Yerine sonuçları eklediğimizde;
𝛽0𝑗=12.10 + 1.22(𝑠𝑒𝑐𝑡𝑜𝑟𝑗) + 5.33(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗) +𝑢0𝑗
𝛽1𝑗=2.94−1.64(𝑠𝑒𝑐𝑡𝑜𝑟𝑗)+1.03(𝑚𝑒𝑎𝑛𝑠𝑒𝑠𝑗)+𝑢1𝑗
Sabit değer:12.10: Okulun ortalama SES düzeyi sıfır (𝑀𝐸𝐴𝑁𝑆𝐸𝑆=0 ) olan bir devlet okulunda (𝑆𝐸𝐶𝑇𝑂𝑅=0), kendi okulunun tam ortalamasında bir SES’e sahip olan ((𝑆𝐸𝑆−𝑀𝐸𝐴𝑁𝑆𝐸𝑆)=0) bir öğrencinin beklenen matematik başarısıdır.
𝑀𝐸𝐴𝑁𝑆𝐸𝑆 Etkisi (+5.33): Sektör (Katolik/Devlet) etkisi sabit tutulduğunda, bir okulun ortalama SES düzeyindeki 1 birimlik artış, o okulun matematik başarı ortalamasında 5.33 puanlık bir artışa yol açmaktadır.
SECTOR Etkisi (+1.22): Diğer her şey (SES değerleri) eşit tutulduğunda, özel okulların (𝑆𝐸𝐶𝑇𝑂𝑅=1) matematik başarı ortalaması, devlet okullarına (𝑆𝐸𝐶𝑇𝑂𝑅=0) kıyasla 1.23 puan daha yüksektir.
cses - 2.945: Bireysel SES Etkisi:Temel Eğim :Ortalama SES seviyesine sahip (𝑀𝐸𝐴𝑁𝑆𝐸𝑆=0) bir devlet okulunda (𝑆𝐸𝐶𝑇𝑂𝑅=0), öğrencinin kendi SES değeri okul ortalamasının 1 birim üzerine çıkarsa, matematik başarısı 2.94 puan artar.
𝑀𝐸𝐴𝑁𝑆𝐸𝑆×(𝑆𝐸𝑆−𝑀𝐸𝐴𝑁𝑆𝐸𝑆) Etkileşimi (+1.03): Okulun genel SES ortalaması arttıkça, öğrencinin bireysel SES’inin başarıya olan etkisi daha da güçlenmektedir.
S𝐸𝐶𝑇𝑂𝑅×(𝑆𝐸𝑆−𝑀𝐸𝐴𝑁𝑆𝐸𝑆)Etkileşimi (−1.64): Özel okullarda (𝑆𝐸𝐶𝑇𝑂𝑅=1), öğrencinin SES’i ile başarısı arasındaki ilişki, devlet okullarına göre 1.64 birim daha zayıftır.
Devlet okulundaki eğim: 2.94
Özel okuldaki eğim: 2.94−1.64=1.30
Özel okullar, öğrencilerin sosyoekonomik statülerinden (SES) kaynaklanan başarı farklılıklarını (eşitsizliğini) devlet okullarına kıyasla azaltan, daha eşitleyici bir etkiye sahiptir.
𝑢1: Modele konulan değişkenlerle açıklanamayan, okullar arasındaki eğim (SES-Başarı ilişkisi) farklılıklarıdır.
𝑟: Öğrenciler arasındaki bireysel farklılıklardır (Düzey-1 hatası).
𝑉(𝑢0𝑗)=2.38 (Kesişim varyansı)
𝑉(𝑢1𝑗)=0.101 (Eğim varyansı)
𝑉(𝑟𝑖𝑗)=36.72 (Düzey-1 hata varyansı)
Boş modelde 8.61 olan u0 varyansı, şimdi 2.38’e düştü. Yani okullar arası farkın yaklaşık %72’sini (Zenginlik + Sektör) ile açıklandı.
Eğim Varyansının Düşüşü: Bir önceki modelde 0.69 olan eğim farkı (u_1), 0.10’a düştü. Bu, “Okullar arasındaki zengin-fakir farkının ana sebebi okulun sektörüdür (Katolik/Devlet).
Hala Öğrenci Farkı Hakim: r_ij: hala en büyük varyans kaynağı (36.72).
Basit regresyon (OLS) küçük gruplarda hata yapmaya müsaittir. HLM ise Shrinkage sayesinde küçük okulları merkeze doğru çekerek daha güvenilir ve stabilize edilmiş sonuçlar üretir, tahmin hassasiyetini maksimize etmiştir.
Bu yaklaşımın temelinde Değiştirilebilirlik (Exchangeability) varsayımı yatar; Birimlerin (okulların) artık etkilerinin, belirli özellikler kontrol edildikten sonra benzer bir dağılım sergilediği varsayımı.
EB tahninleri ile ilgili uyarılar; Level-2 modelinin doğruluğuna duyarlıdır, aksi halde yanlı bir tahmin üretebilir.
EB tahminleri varyans daralmasına sebep olabilir.
Model karşılaştırması anova() çıktısındaki Ki-kare testi (𝑝<.05) anlaml, SES ile başarı arasındaki ilişki okullar arasında şans eseri olmayacak kadar anlamlı bir şekilde farklılaşmaktadır.
anova(mod04, mod03, test="Chisq")
Sabit etkiler
Yorum: Mavi Çizgi (Public - Devlet): Çok daha dik. Bu, devlet okullarında öğrencinin SES’i arttıkça başarısının hızla yükseldiğini gösterir. Yani zengin ve fakir öğrenci arasındaki başarı makası çok açıktır.
Turuncu Çizgi (Catholic - Katolik): Çok daha yatay. İşte bu, tabloda gördüğün o negatif interaksiyonun (-1.64) görsel karşılığıdır. Katolik okullarında öğrencinin SES’i değişse bile başarı puanı o kadar sert değişmiyor.
SES puanı düşük olan öğrencilerde (grafiğin sol ucu), turuncu çizgi mavi çizginin çok üzerinde. Eğer fakir bir öğrenciysen, Katolik okuluna gitmek sana devlet okuluna göre devasa bir avantaj sağlıyor.
mod04 %>% interact_plot(pred = cses, modx = sector, interval = T)
mod04 %>% interact_plot(pred = cses, modx = sector, mod2 = meanses, interval = T)
Yorum: Paneller soldan sağa kaydıkça tüm çizgilerin yukarı çıkmakta;
okul zenginleştikçe herkesin başarısı artar.
Mavi Kesikli Çizgi (Public): Her zaman daha diktir. Devlet okullarında öğrencinin parası varsa başarılıdır, yoksa puanı çok düşüktür.
Turuncu Düz Çizgi (Catholic): Her zaman daha yataydır. Bu, Katolik okullarının “fırsat eşitliği” sunduğunu, öğrencinin SES düzeyine bakmaksızın başarıyı stabilize ettiğini gösterir.
Sayıltılar
Düzey-1: Hatalar rastgele olmalı, normal dağılmalı ve en önemlisi her okulda benzer bir değişkenlik (sabit varyans) göstermeli.
Hangi değişkeni modele ekleyeceğine dikkatlice karar ver.
Düzey 2: u_0j, u_1 çok değişkenli normal dağılması gerekir. Hatalar birbirinden bağımsız olmalı.
Sayıltılar bozulduğunda;
robust (dayanıklı) standart hatalar kullanarak sonuçların hatalı çıkmasını engelleyebiliriz. çıkarımların, varsayımların ihlaline karşı ne kadar hassas olduğunu anlamak için duyarlılık analizi yapılmalı.
library(performance) # Sayıltı kontrolü (En kritik paket)
# Modelimizin 'model_hlm' olduğunu varsayalım
model_hlm <- lmer(mathach ~ cses + sector + (cses | school), data = HSB)
check_model(model_hlm)
Amacım bu hafta öğrendiğim bilgileri pekiştirmek ve uygulama yaparak öğrenmekti. Henüz farklı bir datada çalışmaya cesaret edemedim, yanlış yorum yaparım yanlış pekiştirme olur, bilgi yanlış yerleşir diye korktum, zira yanlış öğrenilen bilginin düzeltilmesinin çok daha zor olduğunu düşünüyorum. Bu yüzden, HSB verisi üzerinde çalıştım. Bu şekilde benim için daha anlamlı oldu açıkcası. Bir önceki öğrenme günlüğünde, teorik kısımlarla ilgili detaylı notlarımı paylaşmıştım, önce o notları okuyarak başladım ödeve. Daha sonra adım adım derste yapılanları tek tek yaptım çıktılardaki değerlerin nerden geldiğini nasıl yorumlandığını anlamaya çalıştım. Ben bu analizin mantığını anladım, ama yorumlama kısmı hala gelgitli. Özellikle niyeyse r2 hesaplarında bir karıştırdım yani keşke regresyondaki gibi direkt gelseydi o değer. Henüz çok yeni öğrendiğim bir analiz olduğu için zamanla pekişir diye düşünüyorum, bakalım zaman herşeyin ilacı…