Öğrenme Günlüğü (Regresyon) IMS Tutorials - 03 Modelde yer alan kısımları tamamlayarak ve OLC731 dersi Hafta-5 Regresyon Modelleri inceleneyerek regresyon konusunda öğrenme günlüğümü hazırladım.

Veri Görselleştirme

İki değişken arasındaki ilişkiyi anlamanın önemli adımlarından biri görselleştirmedir. Scatterplot ile doğrusal mı, eğrisel mi, yoksa karmaşık bir ilişki mi olduğunu gözlemleyebiliriz. Bu şekilde veri setindeki aykırı değerler de tespit edilebilir. Burada görselleştirme için kullanılan geom_point(), geom_abline() gibi ggplot fonksiyonlarının yanında cut() fonksiyonun da kullanım şeklini öğrendim. cut() fonksiyonu ile modeldeki sürekli değişkenin kategorilerine ayrılması mümkün oluyor. cut(değişken, break=5)-> Beş kategoriye ayrılmasını ifade eder. Yine as.factor() ile değişkenler kategorik hale getirilebilir. Daha sonra coord_trans(x=“log”, y=“log”) kullanımı ile eksenlerin logaritmik ölçeğe çevirilmesi mümkün hale gelebilir.

Korelasyon

Korelasyon katsayısı (r), iki değişkenin doğrusal ilişkisinin gücünü ve yönünü ölçer. Bu kaynakta da korelasyonun temel işlevine değinilmiş. Burada korelasyon için cor(x,y) fonksiyonuna başvurulur. Bu kaynakta use= kalbına değinilmiş. use = “pairwise.complete.obs” eksik verilerde sadece tam gözlemleri kullanır. Yine bu adımda dplyr ve base paketlerinin içindeki fonksiyonlar kullanılmaktadır. Burada ek olarak dikkatimi çeken log(x) doğal logaritma dönüşümü, cor(log(body_wt), log(brain_wt)) log dönüşümlü korelasyon olarak kullanılmış. Benzer olarak abs() fonksiyonu da değerin mutak değere dönüştüürlmüş halini verir.

Basit Doğrusal Regresyon

Basit doğrusal regresyon temel anlamda bir bağımlı değişken (Y) ile bir bağımsız değişken (X) arasındaki ilişkiyi doğrusal bir modelle açıklamaya çalışır. Formülasyonu ise, Y= intercept + slope*x + E şeklindedir(y=response, x=explanatory variables) lm(y~x) fonksiyonu ile direkt olarak sonuç elde edilebilirken yukarıdaki formülde değerler yerine yazılarak ta sonuca ulaşılabilir. coef() ile model katısyalarına ulaşılabilir ve eğim(slope) ve kesişim katsayısı(intercept) değerlerini döndürmeye yarar. fitted() ile her gözlem için regresyon doğrusunun üzerinde beklenen değer elde edilebilir. residuals() artık değerler için kullanılır. predict() fonksiyonu ise yeni veri için tahmin yürütmeye yarar. predict(y~x, newdata = data.frame(x=150)) -> x=150 için y tahmini. confint() ile katsayıların güven aralıkları hesaplanırken anova() ile varyans analizi yapılarak regresyonun anlamlılığı test edilir.

Regresyon Modellerinin Yorumlanması

Regresyon katsayılarını yorumlamak, modelin anlamını kavramak için önemlidir. Eğim katsayısı, X’teki bir birimlik artışın Y üzerindeki etkisidir. Örneğin eğim katsayısı 2.50 iken; x’teki bir birimlik artış y’de 2,50lik bir artışa neden olur. Sabit terim, X=0 iken Y’nin beklenen değeridir. Katsayıların anlamlılığı p-değerleriyle test edilir. Tahminler için model kullanılabilir, ancak güven aralıkları da dikkate alınmalıdır. Yorumlama işlemi için yukarıdaki fonksiyonlara başvurulur. lm(), summary(), coef(), confint(), predict(), fitted(), residuals() modelleme aşamasında, mutate(), filter() verileri inceleme ve dönüştürme aşamasında, ggplot(), geom_point(), geom_smooth(), labs() fonksiyonları ise görselleştirme aşamasında kullanılır.

Model Uygunluğu

Model uygunluğunda model ile verinin ne derece uyumlu olduğunu ölçmek amaçlanmaktadır. R^2 değeri korelasyon katsayısının karesine eşittir. Değerin yüksek olması iyi bri model veri uyumu için yeterli değildir. Leverage(Kaldıraç), bir gözlemin bağımsız değişkenler (predictors) açısından ne kadar “uç” (ortalama değerlerden uzak) olduğunu ölçen bir istatistiktir. Düşük kaldıraç, gözlem predictor değerleri bakımından ortalama civarındadır. Yüksek kaldıraç ise gözlem, predictor değerleri bakımından uç noktada. Bu gözlemler regresyon doğrusunu “çekme” gücüne sahiptir. Leverage değerleri 0 ile 1 arasında değişir.Leverage değeri ortalamanın birkaç katı (örneğin 2–3 katı) olduğunda gözlem “yüksek kaldıraç” olarak kabul edilir. Influence(Etki) ise hem kaldrıaç hem de artık değerleri birleştiğinde model katsaıalrının ne kadar değiştiğini verir. Yukarıdaki fonksiyonlara ek olarak; hatvalues() ile kaldıraç değerleri hesaplanabilir. cooks.distance() ile modeldeki etkili değerler hesaplanabilir. influence.measures() ile etkili gözlemler listelenebilir.

Paralel Eğimler

Bir nicel değişken ile bir kategorik değişkeni modele dahil etmek için yapılan işlemdir. Gruplar arasında sabit farklar olabilir ve gruplar arasında paralel doğrular elde edilir(aynı eğim, farklı kesişim katsayısı) Y = intercept + slope* X + intercept_2* Group + E ile formulüze edilebilir. Burada group kategorik değişken, intercept’i değiştirir ama eğim sabit kalır. Yukardıki fonksiyonlar kullanılır.

Paralel Eğimlerin Yorumlanması

Bu aşamada modelin test edilmesi ve etkileşimin eklenmesi işlemleri kullanılır. Eğer gruplar arasında eğim farklıysa modele etkileşim değeri eklenir. Artıkların analizi ile modelin uygunluğu test edilir.

Çoklu Regresyon çoklu regresyonda amaç birden fazla bağımsız değişkenle Y’yi açıklamaktır. Birden fazla bağımsız değişken aynı anda işleme dahil edilir. lm(y ~ x1 + x2 + …) fonksiyonu ile çoklu regresyon modeli kurulur. coef() ile katsayıları çıkarılır. Her bir bağımsız değişkenin etkisini gösterir. predict(model, newdata) ile yeni veri için tahmin yapılır. Çoklu regresyon modelinde tüm bağımsız değişkenler için değer girilmelidir. confint(model) ileKatsayıların güven aralıklarını hesaplanır. anova(model) ile modelleri karşılaştırmak için varyans analizi yapılr. vif(model) Variance Inflation Factor hesaplanır. Multicollinearity (bağımsız değişkenler arası yüksek korelasyon) olup olmadığını test eder. step(model) ile Adım adım model seçimi yapılır (AIC kriterine göre). Gereksiz değişkenleri çıkararak daha parsimonious(sade) bir model elde etmeye yarar.

Makale İncelemesi

Liu ve Wang (2022) PISA 2015 verilerini kullanarak Inquiry-Based Learning (IBL) ile Science Self-Efficacy arasındaki ilişkiyi incelemiş, bu ilişkide Science Interest’i aracı (mediator) ve Teacher Support’u düzenleyici (moderator) değişken olarak modele dahil etmiştir.

Kullanılan Değişkenler Bağımsız değişken (Predictor): Inquiry-Based Learning (IBL) PISA 2015’te öğrencilerin fen derslerinde sorgulamaya dayalı etkinliklere ne kadar katıldığını ölçen ölçek. Kodlar: genellikle ST093Q01TA vb. itemler (örneğin “Fen dersinde kendi deneyini tasarlama fırsatı bulma”). Bağımlı değişken (Outcome): Science Self-Efficacy Öğrencilerin fenle ilgili görevleri yapabilme konusundaki özgüvenleri. Kodlar: ST129Q01NA vb. (örneğin “Fenle ilgili karmaşık problemleri çözebileceğime inanıyorum”). Aracı değişken (Mediator): Science Interest Öğrencilerin fen derslerine ve fenle ilgili konulara duyduğu ilgi. Kodlar: ST094Q01TA vb. (örneğin “Fen konularını öğrenmekten hoşlanırım”). Düzenleyici değişken (Moderator): Teacher Support Öğrencilerin öğretmenlerinden gördüğü destek düzeyi. Kodlar: ST091Q01TA vb. (örneğin “Fen öğretmenim bana öğrenmede yardımcı olur”). Teorik Model (Mediating–Moderating Model) Mediating (Aracılık): IBL → Science Interest → Science Self-Efficacy Yani sorgulamaya dayalı öğrenme, öğrencilerin fen ilgisini artırıyor; bu ilgi de özgüveni yükseltiyor. Moderating (Düzenleyicilik): Teacher Support, IBL ile Science Self-Efficacy arasındaki ilişkiyi güçlendiriyor veya zayıflatıyor. Yani öğretmen desteği yüksek olduğunda IBL’nin etkisi daha güçlü.

Benzer Çalışma Önerisi

Veri Kaynağı: IRLS 2021 (Okuma becerileri üzerine odaklı uluslararası araştırma). Ülkeler: Türkiye ve Singapur (yüksek başarı örneği). Değişkenler Bağımlı değişken (Outcome): Okuma başarısı (PIRLS test puanları). Bağımsız değişken (Predictor): Öğrencinin evde kitap bulundurma sıklığı / okuma materyali erişimi. Aracı değişken (Mediator): Öğrencinin okuma motivasyonu (örneğin “okumaktan keyif alma” ölçeği). Düzenleyici değişken (Moderator): Cinsiyet veya SES (socio-economic status). Teorik Model Aracılık (Mediation): Evde kitap erişimi → Okuma motivasyonu -> Okuma başarısı. Düzenleyicilik (Moderation): Cinsiyet/SES, bu aracılık ilişkisinin gücünü değiştirir. Örneğin SES yüksek olduğunda evde kitap erişiminin motivasyon üzerindeki etkisi daha güçlü olabilir. Özetle; PIRLS 2021 verisi ile Türkiye ve Singapur karşılaştırması için bağımlı değişken okuma başarısı, bağımsız değişken evde kitap erişimi, aracı değişken okuma motivasyonu ve düzenleyici değişken SES/cinsiyet olduğu bir modeldir.