library(dplyr)
library(ggplot2)
library(openintro)

TEORİK ÇALIŞMA ÖZETİM

Bu bölümde IMS Tutorials - 03 Model ve Hafta 5: Regresyon Modelleri kaynaklarında öğrendiklerim özetlenmiştir.

İki Değişkenin Görselleştirilmesi ve Korelasyon

Bu modelde elimizde iki adet değişken bulunmaktadır. Y değişkeni (bağımlı değişken) ve X değişkeni (bağımsız değişken). Regresyon analizinde amaç, X değişkenindeki değişimlerin Y değişkenini nasıl etkilediğini anlamaktır. İki sayısal değişken arasındaki ilişkiyi göstermek için saçılım grafiği (scatterplot) kullanırız, ve bunun için geom_point() fonksiyonundan faydalanırız. labs() fonksiyonu ile x ve y eksenine başlık ekleyebiliriz. Açıklayıcı değişkenimizi ayrıklaştırabiliriz. R’da bu işlem, sayısal bir değişkeni belirli sayıda ayrık dilime (gruba) bölmeye yarayan cut() fonksiyonu ile yapılır. Fonksiyondaki breaks argümanı, değişkenin kaç parçaya ayrılacağını belirtir. Burada, orijinal tail_l değişkenini cut() fonksiyonu ile beş parçaya bölerek tail_cut adında yeni bir değişken oluşturuyoruz. Ardından bu yeni değişkeni possum veri kümesine geri ekliyoruz:

possum <- possum |>
  mutate(tail_cut = cut(tail_l, breaks = 5))

Sonrasında, toplam uzunluk (total_l) ile bu yeni tail_cut değişkeni arasındaki ilişkiyi çizebiliriz. Bu işlemle, verideki tüm noktaları bu dilimlere göre gruplayıp, her bir grubu kendi dikey çizgisi üzerinde (orijinal kuyruk uzunluğu değerleri yerine) gösteriyoruz. Böylece, değişkenin aralıklı (discrete) gruplarına göre serpilme grafiği oluşturulmuş olur.

ggplot(data = possum, aes(y = total_l, x = tail_cut)) +
  geom_point()

Gruplanmış veriyi, kutu grafiği ile oluşturuyoruz. geom_boxplot() fonksiyonu ile kutu grafiği oluşturuyoruz. outlier.alphaier.alpha = 0 ile aykırı değerlerin görünürlüğünü kapatıyoruz. geom_jitter() fonksiyonu ile veriyi dağıtıyoruz. color = “sky blue” ile nokta rengini belirliyoruz. width = 0.2 ile nokta dağılımının genişliğini ayarlıyoruz. Genel olarak, medyan kuyruk uzunluğu arttıkça vücut uzunluğunun da arttığını görüyoruz.

ggplot(data = possum, aes(y = total_l, x = tail_cut)) +
  geom_boxplot(outlier.alpha = 0) +
  geom_jitter(color = "sky blue", width = 0.2)

İki değişkenli ilişkilerin dağılım grafiklerini yorumlarken 4 temel özellikle ilgileniriz. İlki noktaların formu, ilişkinin doğrusal olup olmadığını kararı verilir, lineer regresyon için en kririk sorudur. İkincisi değişkenlerin hareket yönü; pozitif ya da negatif olabilir. Üçüncüsü ilişkinin ne kadar güçlü olduğu, nokkatar bir çizgi etrafında sıkça kümelenmişse ilişki güçlüdür. Dördüncüsü aykırı değer olup olmamasıdır.

Bazen verilerin dağılım grafiğinde anlaşılması zor örüntüler çıkabilir bunun sebebi ya anlamlı bir ilişki olmaması olabilir, bazen de değişkenlerden birinin ya da ikisininde dönüşümü(transformation) gerekmektedir. Bunun için coord_trans() fonksiyonu ya da scale_x_log() ve scale_y_log() fonksiyonları kullanılabilir.

Noktaların geri kalanıyla uyumlu görünmeyen gözlemler “aykırı değerler” olarak kabul edilebilir.Gözlemlerin birçoğu aynı koordinatlara sahip olduğunda karşılık gelen noktalar üst üste çizilir.Bunu engellemek için alpha argümanını kullanarak noktalara şeffaflık ekleyebiliriz. Diğer bir yöntem ise grafiğe jitter eklemektir. Görselde aykırı değer olarak görünen değerleri filter() fonksiyonu ayıklayabiliriz.

Korelasyon iki değişken arasındaki doğrusal ilişkinin nicel olarak ifade edilmesidir. -1 ve +1 arasında değer alır.Bu değerlere yakın değerler daha güçlüdür. 0.5’e yakın değerler orta düzeyde, 0.2’ye yakın değerler zayıf kabul edilir. Eğer iki değişken arasında gerçekten doğrusal bir ilişki yoksa, korelasyon katsayısı sıfıra yakın olacaktır. cor() fonksiyonu, x ve y değişkenleri arasındaki Pearson çarpım momentleri korelasyonunu (Pearson product-moment correlation) hesaplar.use argümanını “pairwise.complete.obs” (ikili tam gözlemler) olarak ayarlamak, cor() fonksiyonunun yalnızca hem x hem de y değerlerinin eksik olmadığı gözlemler için korelasyon katsayısını hesaplamasına izin verir. Korelasyonun var olması, bir neden-sonuç ilişkisi olduğu anlamına gelmez. İki değişkenin birlikte hareket etmesi (biri artarken diğerinin de artması), birinin diğerine neden olduğu anlamına gelmez. Genellikle, “Confounder” (Karıştırıcı Değişken) adı verilen üçüncü, gizli bir faktör bu ilişkiyi bulandırır.

Basit Doğrusal Regresyon

Regresyonda, en iyi uyum çizgisini (best fit line) belirlemek için en küçük kareler (least squares) kriterini kullanılır. Çizgi ile bir veri noktası seti arasındaki kareli mesafelerin (squared distances) toplamını en aza indirmeye çalışan çizgiyi arıyorsak, benzersiz (tek) bir çizgi mevcuttur. Bu çizgiye “en küçük kareler regresyon doğrusu” denir. Regresyon doğrusu, gerçek noktalar ile tahmin edilen noktalar arasındaki sapmaların karelerinin toplamını en aza indirecek şekilde seçilir. geom_smooth() fonksiyonu, verilerin dağılım grafiğinin üzerine bu tür modelleri çizmenize olanak tanır. Doğrusal modelleri incelediğimiz için, method argümanı “lm” değerine ayarlanır, se=FALSE argümanı ile standart hata gösterilmez.

add_line(my_slope = 1) ## Grafiğe eğimi 1 olan (y = x) bir referans çizgisi ekler.Bu çizgi, tahmin ve gerçek değerler eşit olsaydı noktaların nerede olacağını gösterir.

Regresyon çözümlemenin temel amacı; “Bağımlı değişken ile bağımsız değişken(ler) arasındaki ilişkiyi matematiksel modelle açıklayarak bağlantılar bulmak ve bağımsız değişken(ler) yardımıyla bağımlı değişkenli kestirmek şeklinde özetlenebilir.”

Bir doğrusal regresyon modeli için, yanıt değişkeninin değerini bir doğruyu oluşturan unsurlar (bir kesişim noktası ve bir eğim) cinsinden tanımlar.Yanıt = kesişim + eğim.açıklayıcı + gürültü

Evren regresyon denklemi veri ile tahmin edildiğinde, kesişim ve eğim değerleri, gerçek evren kesişimi ve eğimi için birer “tahmin” (kestirim) olur. Veride gözlemlenen ile regresyon doğrusundan tahmin edilen arasındaki farka “artık” (residual) denir. Regresyon doğrusu her zaman iki özelliğe sahip olacaktır:Artıkların toplamı her zaman 0 olacaktır.x̄ ve ȳ noktası (ortalamalar noktası) kesinlikle regresyon doğrusu üzerinde yer alır. En küçük kareler uyum prosedürü, artıkların (hataların) ortalamasının sıfır olduğunu garanti eder. Aynı zamanda, kestirilen (tahmin edilen) değerlerin ortalaması, yanıt değişkeninin (gerçek verilerin) ortalamasına eşit olmalıdır.

Basit doğrusal regresyon modeli formülü:

y = b0 + b1 * x

Kesişim (Intercept, b0):x = 0 olduğunda y’nin aldığı değeri gösterir. Regresyon doğrusunun y-eksenini kestiği noktadır.Kesişim elle şu şekilde hesaplanır: b0 = ȳ − (b1 * x̄)

Eğim (Slope, b1):Cx’teki 1 birimlik değişimin, y’de ne kadar değişime neden olduğunu gösterir.Regresyon doğrusunun eğimidir. Eğim elle şu şekilde hesaplanabilir: b1 = r * (sy / sx)

Regresyon Modellerini Yorumlama

R’ da basit doğrusal regresyon fonsksiyonu: model <- lm(y ~ x, data = veri_seti); y=bağımlı değişken, x=bağımsız değişkendir.

model<-lm(ucla_new ~ amaz_new, data = textbooks)

Coefficients: (Intercept) amaz_new
0.929 1.199

Kesişim (b0): 0.929 Eğim (b1): 1.199

ucla_new=0.929+1.199.amaz_new

Yorum: Amazon’un bir kitap için talep ettiği fiyattaki her bir ek $1’lık artış için, UCLA kitapçısındaki kitapların ortalama fiyatının yaklaşık $1.20 artması beklenir. Bu, ortalama olarak, UCLA kitapçısındaki kitap fiyatının Amazon’daki karşılık gelen fiyattan yaklaşık %20 daha yüksek olduğu anlamına gelir(1.20 katı). Eğim, açıklayıcı değişkendeki bir birimlik değişikliğe karşılık, bağımlı değişkendeki (yanıt) tahmini ortalama değişimi gösterir.

coef() fonksiyonunu kullanarak sadece kestirilen katsayıları bir vektör olarak döndürebiliriz.

summary(model) fonksiyonu ile modelin özetine ulaşılabilir.

fitted.values() fonksiyonunu kullanarak R’dan kestirilen değerleri yani orijinal veri kümesindeki her bir gözlem için modelin tahmin ettiği (yordanmıs değerleri-ŷ) döndürür incelenebilir.

Kestirilen her değer bir artık (residual) üretir. Bu artık, yanıt değişkeninin gerçek gözlemlenen değeri ile modelimize göre yanıtın beklenen değeri arasındaki farktır. Bu artıklar, residuals() fonksiyonu kullanılarak incelenebilir.

Broom paketini yükleyip, ardından model nesnesi üzerinde augment() fonksiyonu ile, bağımlı ve bağımsız değişkenleri , artıkları, kaldıraç (leverage) skorlarını ve her bir gözlemle ilgili değerleri içeren bir veri çerçevesi elde edilir.

predict() fonksiyonu, bir model nesnesine uygulandığında, varsayılan olarak orijinal gözlemler için kestirilen değerleri döndürür.newdata argümanını belirterek, modeli istediğimiz herhangi bir gözlem hakkında tahminde bulunmak için kullanabiliriz.

Regresyon çizgisini elle eklemek için, geom_smooth() yerine geom_abline() fonksiyonu kullanabiliriz. slope ve intercept olmak üzere iki adet argümanı vardır.

Modelin Uygunluğunu Değerlendirme

SSE (Sum of Squared Errors - Hata Kareler Toplamı): Modelin yaptığı hataların toplam büyüklüğünü gösterir. Artıkların (hataların) ortalaması her zaman sıfırdır (pozitifler ve negatifler birbirini götürür). Bu yüzden, toplam hatayı ölçmek için her bir artığın karesi alınır ve toplanır. Bu, modelin veriye ne kadar iyi uyduğunun bir ölçüsüdür: SSE ne kadar küçükse, model o kadar iyi uymuştur.

Modelin ne kadar iyi çalıştığını ölçmenin temel yolu, tipik bir hatanın (artığın) büyüklüğüne bakmaktır. Modelin tipik hatasını yanıt değişkeninin birimlerinde ölçen en yaygın yol ortalama hata kareleri toplamı kökü (RMSE) veya regresyon çıktısında görünen adıyla Artık Standart Hatası’dır. Bu, esasen artıkların standart sapmasıdır. R’da summary(model)$sigma ile incelenebilir.

RMSE = Karekök( SSE / (n - 2) )

Neden n-2: Burada n gözlem sayısıdır. n yerine n-2’ye bölünmesinin nedeni Serbestlik Derecesi (Degrees of Freedom) kavramıdır (2 parametre tahmin ettiğimiz için: eğim ve kesişim).

Farklı birimlere sahip modellerin uyumunu karşılaştırmak için birimsiz bir ölçüye ihtiyacımız var. Bu, Belirtme Katsayısı veya yaygın adıyla R2’dir.

R2, regresyon modelimizin (SSE) hatasını, boş modelin (SST) hatasına kıyasla ne kadar azalttığını gösterir.

Yorum: R2, yanıt değişkenindeki değişkenliğin modelimiz tarafından açıklanan oranıdır (yüzdesi).Yanıt değişkenindeki değişkenliğin, açıklayıcı değişken tarafından açıklanabilen yüzdesini temsil eder.

R2 ve Korelasyon: Tek bir açıklayıcı değişkenli basit doğrusal regresyonda, R2 değeri, korelasyon katsayısının karesine eşittir.

Yüksek bir R2 tek başına “iyi” bir modele sahip olduğunuz anlamına gelmez ve düşük bir “kötü” bir modele sahip olduğunuz anlamına gelmez.

Kaldıraç (Leverage) ve Etki (Influence) Regresyon analizinde, bazı gözlemler modelin eğimini diğerlerinden daha fazla etkileyebilir. Bu noktaları incelemek için iki ana kavram kullanılır: Kaldıraç ve Etki.

Bir gözlemin kaldıracı, yalnızca bağımsız değişkenin (X) değerine bağlıdır. Bir noktanın bağımsız değişkenin ortalamasından ne kadar uzak olduğunu ölçer.

Kaldıraç, bir gözlemin açıklayıcı değişkenin ortalamasından ne kadar uzakta olduğunun bir fonksiyonudur. Yani, serpilme grafiğinin merkezine (x-ekseni boyunca) yakın olan noktalar düşük kaldıraçlı, uzakta olan noktalar ise yüksek kaldıraçlıdır.

Yüksek kaldıraca sahip gözlemler, bağımsız değişkenin aşırı değerleri nedeniyle, regresyon doğrusunun eğimi üzerinde önemli bir etkiye sahip olabilir veya olmayabilir. Böyle bir etkiye sahip olan gözleme etkili (influential) denir.

X ekseni boyunca merkezden uzak olan noktalar yüksek kaldıraca sahiptir. Kaldıraç, augment() çıktısındaki .hat sütununda bulunur.

Etki (Influence): Bir gözlemin etkisi, regresyon çizgisinin eğimini ne kadar değiştirdiğini ölçer.

Yüksek etki, hem yüksek kaldıraç hem de büyük bir artık (model çizgisinden dikey olarak uzaklık) kombinasyonunu gerektirir.

Cook Mesafesi (Cook’s Distance): Kaldıraç ve artığı birleştirerek etkiyi ölçen tek bir sayıdır.

Yorum: Yüksek Cook mesafesi, noktanın modelin eğimini önemli ölçüde değiştirdiğini gösterir.

Cook mesafesi, augment() çıktısındaki .cooksd sütununda bulunur.

Paralel Eğimler

Paralel Eğimler modeli, elinizde bir sayısal (numeric) ve bir kategorik (categorical) açıklayıcı değişken olduğunda kullanılır. R’da bu modeli kurmak için sadece + işareti ile değişken ekleriz(y~x+z) Eğer kategorik değişken, sayısal kodlanmışsa factor() fonksiyonu kullanılması gerekir.

Çoklu regresyon katsayılarının yorumlanmasına ilişkin bilgiler;

“Tek Bir Eğim Vardır”: Şu ana kadar ele aldığımız paralel eğim modellerinde sadece bir tane eğim katsayısı vardır. Evet, modelde iki açıklayıcı değişken vardır (biri sayısal, biri kategorik) ancak sadece sayısal olan değişken bir eğimle ilişkilidir.

Kontrol Etmek” (Controlling for) Kavramı: Çoklu regresyondaki kilit fark, katsayıların diğer açıklayıcı değişkenler bağlamında yorumlanması zorunluluğudur. “Diğer değişkenler kontrol edildiğinde” (after controlling for) ifadesi, modelinizi geçerli bir şekilde anlamak için hayati önem taşır.

Paralel eğimler modelinde “modelin başarısı” (fit), yine artıklar (residuals) üzerinden ölçülür.

Genel olarak, daha yüksek bir R2 daha iyi bir model uyumunun işareti olabilir, ancak durum çoklu regresyonda daha karmaşık hale gelir; çünkü modele eklenen her ilave açıklayıcı değişken R2 yi her zaman artıracaktır. Bu nedenle, çoklu regresyonda model uyumları genellikle Düzeltilmiş R-kare değeri kullanılarak karşılaştırılır. Bu değer artadabilir,azaladabilir.

Çoklu Regresyon

Çoklu regresyon, her bir bağımsız değişkendeki değişikliğin, diğer değişkenler sabit tutulduğunda, bağımlı değişkendeki değişiklikle ne ölçüde ilişkili olduğunu kestirir. Ancak bağımsız değişkenlerin kendi aralarındaki yüksek korelasyon (çoklu bağlantı), yordama sürecini zorlaştırır ve katsayıların güvenilirliğini düşürür.

Çoklu regresyon analizine başlamadan önce değişkenlerin betimsel istatistikleri ve değişkenler arası korelasyonlar incelenmelidir. Bunun için kullanacağımız temel fonksiyonlar: Betimsel istatistikler için psych::describe(), görselleştirme ve toplu korelasyon matrisi için GGally::ggpairs() fonksiyonlarıdır. (Tekil testler için cor.test() sonucu broom::tidy() ile düzenlenebilir).

Çoklu Korelasyon Katsayısı : Bağımlı değişkenin gerçek (gözlenen) değerleri ile modelin ürettiği tahmin (yordanan) değerleri arasındaki korelasyondur.

Belirlilik Katsayısı: Bağımlı değişkendeki varyansın (değişkenliğin), bağımsız değişkenler tarafından açıklanan yüzdesidir.

Kestirimin standart hatası: Modelin yaptığı tahminlerin “ortalama” ne kadar yanıldığını gösteren sayıdır.

Model veri uyumu Kurulan modelin veriye iyi uyup uymadığının test edilmesinde kullanılacak F değeri varyans analizi sonucunda elde edilir. Bu değerin istatşsistiksel olarak anlamlı olması, modelin veriye iyi uyduğunu gösterir.

Intercept(Regresyon Sabiti): Bağımsız değişkenlerin tümü sıfır olduğunda, bağımlı değişkenin alacağı değeri gösterir.

Örnek yorumlama: Y_performans = 1.744 + 0.686 * X_motivasyon - 0.607 * X_kaygi

Motivasyon puanında bir birimlik artış, kaygı puanı sabit tutulduğunda, performans puanında ortalama olarak 0.686 birimlik bir artışa karşılık gelir. Benzer şekilde, kaygı puanında bir birimlik artış, motivasyon puanı sabit tutulduğunda, performans puanında ortalama olarak 0.607 birimlik bir azalmaya karşılık gelir.

Regresyon katsayılarını, birbirleriyle kıyaslayamayız çünkü birimleri farklıdır. Ancak, standartlaştırılmış regresyon katsayıları kullanarak değişkenlerin etkilerini karşılaştırabiliriz.Analize başlamadan önce tüm değişkenler Z-Puanına dönüştürülmesi gerekir

Model grafikleri ggfortify::autoplot() fonksiyonu ile çizilebilir. Artıklar ve Yordanan Değerler grafiğinde yatay bir çizgi, doğrusal bir ilişkinin göstergesidir. Q-Q residuals grafiği,artıkların normal dağılıp dağılmadığını incelemek için kullanılır. Artık noktalarının düz kesikli çizgiyi takip etmesi beklenir.Scale-Location grafiği, artıkların varyansının homojenliğini (homoscedasticity) kontrol etmek için kullanılır. Eşit yayılmış noktalara sahip yatay çizgi, homoscedasticity’nin iyi bir göstergesidir. Residuals vs Leverage grafiği ise uç değerleri belirlemek için kullanılır.

Yol şeması: Değişkenler arasındaki ilişkilerin oklar ve katsayılar yardımıyla gösterildiği bir diyagramdır.Bunun için, lavaan paketi ve çizim için lavaanPlot veya semPlot fonksiyonalrı kullanılır.

Aşamalı (Stepwise) Regresyon

Aşamalı regresyon, çok sayıda bağımsız değişkenin bulunduğu durumlarda, en anlamlı değişkenleri seçmek için kullanılan bir yöntemdir. Bu yöntem, modelin açıklayıcılığını artırmak ve gereksiz değişkenleri elemek amacıyla kullanılır.

Adım 1: Bağımlı değişkenle en yüksek korelasyona sahip olan değişkeni seç ve ilk modeli kur.

Adım 2: İlk modelin açıklayamadığı “Hata Varyansına” bak. Geriye kalan bu hatayı en iyi kim açıklıyor? (En yüksek kısmi korelasyon kimde?).

Adım 3: O değişkeni modele ekle.

Adım 4: Yeni eklenen değişken modele istatistiksel olarak anlamlı bir katkı sağladı mı? (Test et).

Adım 5: Anlamlı katkı sağlayan değişken kalmayana kadar devam et.

Adım 6: R2 değişimi anlamlı mı diye F testi ile kontrol et.

Etkili Gözlemlerin Belirlenmesi

Etkili gözlemler, regresyon analizinde modelin sonuçlarını önemli ölçüde etkileyen veri noktalarıdır. Bu gözlemler, modelin eğimini ve kestirimlerini değiştirebilir, bu nedenle dikkatle incelenmelidir.

Etkili gözlemleri belirlemek için kullanılan başlıca yöntemler şunlardır:

1.Cook’D kontrol etme: kesme noktası 4/N’DİR. R’da kontrol için : library(olsrr) ols_plot_cooksd_bar(model)

2.DFBETAS:Kritik değer 2/√n dir. R’da kontrol için :ols_plot_dfbetas(model)

3.İnfluence Measures: influence.measures(model, infl = influence(model))

4.Leverage Değerleri: augment() fonksiyonu ile elde edilen .hat sütunu kullanılarak yüksek kaldıraçlı gözlemler belirlenebilir. Ortalama değer genellikle (p+1)/n olarak kabul edilir (p: bağımsız değişken sayısı, n: gözlem sayısı). Kritik değer ortalamanın 2 ya da 3 katıdır. R’da kontrol için : library(olsrr) ols_plot_resid_lev(model)

5.Etkili Gözlem: Hem uçta yer alıp (Leverage) hem de modelin tahmininden saparak (Uzaklık) regresyon doğrusunu kendine doğru bükebilen “güçlü” gözlemdir. R’da: ols_plot_dffits(model)

Kategorik Bağımsız bir Değişken ile Çoklu Regresyon

Çoklu regresyon modelinde, bağımsız değişkenler kategorik ya da sürekli olabilirler. Kategorik bağımsız değişkenler, regresyon modellerinde genellikle “dummy değişkenler” (sahte değişkenler) kullanılarak temsil edilir. Dummy değişkenler, kategorik değişkenin her bir seviyesi için ayrı bir sütun oluşturarak, bu seviyelerin etkilerini modelde ayrı ayrı değerlendirmemizi sağlar. k - 1 Kuralı:Eğer kategorik değişkeninizin k tane düzeyi (grubu) varsa, sisteme k-1 tane dummy değişken girer.

lm() fonksiyonu ise aşağıdaki şekilde Medeni değişkenini kategorik hale getirmektedir. Medeni değişkeni sayısal kodlanmışsa, onu formül içinde kategorik (faktör) olarak belirtilmesi gerekir.

model <- lm(Performans ~ factor(Medeni) , data=Performansd1)

Çoklu Regresyonda İki-Yönlü Etkileşim Etkisi

Eğer bir çoklu regresyon modelinde bir bağımsız değişken ile bağımlı değişken arasındaki ilişkinin büyüklüğü diğer bir bağımsız değişkenin düzeyine göre değişirse, etkileşim gözlenir. Bu etki, düzenleyici (moderator) etki olarak da bilinmektedir.

Normal regresyon “X arttıkça Y artar” der. Etkileşimli regresyon ise “X arttıkça Y artar ama bu artış Z’nin ne kadar olduğuna bağlıdır” der.

Etkileşimi bulmak için iki değişkeni çarparız (X * Z). Ancak ortaya çıkan bu yeni çarpım değişkeni, kendisini oluşturan X ve Z ile çok yüksek korelasyon gösterir.Multicollinearity sorunu ortaya çıkar.Çözüm ise, Merkezleme, yani değişkenlerin ham değerlerini kullanmak yerine, her değerden ortalama çıkarılır. Böylece yeni ortalama 0 olur. Bu işlem korelasyonu düşürür ve analizi kurtarır.

Etkileşim Etkisi

Stargazer paketi, iki modeli yan yana koyarak kıyaslamamızı sağlar. Tabloyu şöyle okuyoruz: Model 1’de sadece ana etkiler var (Sorun ve Destek). Model 2’de ise Etkileşim terimi eklenmiş.

Sonuç: csorun (Stres): Katsayısı 0.086***. Yani stres, belirtileri kesinlikle artırıyor.

cdestek (Destek): Katsayısı anlamsız (Yıldız yok). Yani tek başına desteğin doğrudan bir etkisi yok gibi görünüyor.

cross_m (Etkileşim): Katsayısı -0.005**. Bu katsayı negatif ve anlamlıdır.

Anlamı:Sosyal destek arttıkça, stresin yarattığı o kötü etki azalmaktadır.

Etki Büyüklüğü (Cohen’s f2): P-değeri bize “bir etki var mı?” sorusunun cevabını verir f2 ise “bu etki ne kadar büyük?” sorusunun cevabını verir.Literatürdeki Kesme Noktaları:0.005: Küçük, 0.010: Orta, 0.025: Büyük.
R’da kontrol için: library(effectsize) cohens_f_squared(cross_model)

HOCAMDAN ÖNEMLİ NOTLAR

Düzenleyici değişken seçimi literatür destekli olmalı.

Bağımlı değişkenin düzenleyici etkisinin olamayacağı açıklanmalıdır.

Düzenleyici etki anlamlı çıktığında bu etkileşim görselleştirilmeli, anlamlı çıkmazsa gerek yok, bu durumda modelden çıkarılıp, sadece regresyon analizi ile devam edilebilir.

Merkezileştirme ve standartlaştırma her zaman gerekli değil.

Örneklem büyüklüğü önemli.

Düzenleyici değişken sürekli ya da kategorik olabilir,ama sürekli değişkenin ise kategorik değişkene dönüştürme.

Bağımsız değişken sürekli ya da kategorik olabilir. Bağımlı değişken de aynı şekilde fakat kategorik olduğunda lojistik regresyon veya probit regresyon ile hesaplama yapılmalıdır.

Causal Quartet

Collider (Çarpıştırıcı) Örneği: Normalde alakasız olan X ve Y ilişkili görünür. (Bias oluşur). Modele ekleme.

Confounder (Karıştırıcı) Örneği: Üçüncü bir değişkenin, iki değişken arasındaki ilişkiyi etkilediği durumlar. Modele ekle, daha temiz ilişki elde edersin.

Mediator (Aracı) Örneği: Bir değişkenin, iki değişken arasındaki ilişkiye aracılık ettiği durumlar.Eğer toplam etkiyi merak ediyorsan modele ekleme.

M-Bias (M-Yanılgısı) Örneği:Eğer bir değişken (Z), iki farklı gizli faktörün ortak sonucuysa,bu değişkeni modele ekleme.

MAKALE İNCELEMESİ

Bu makalede, 2015 PISA verileri kullanılarak sorgulamaya dayalı öğrenme (inquiry-based learning) ile fen öz yeterliği (science self-efficacy) arasındaki ilişki açıklanmaya çalışılmıştır. PISA 2015 öğrenci anketlerinden elde edilen ve Madde Tepki Kuramı (IRT) ile ölçeklenen “Ağırlıklı Olabilirlik Tahminleri” (Weighted Likelihood Estimates - WLE) puanlarını kullanmışlardır. Analizler, SPSS PROCESS makrosu kullanılarak gerçekleştirilmiştir.

Araştırma soruları: (1) Fen ilgisi, sorgulamaya dayalı öğrenme ile fen öz-yeterliği arasındaki ilişkiyle nasıl ilişkilidir?

  1. Yukarıdaki ilişki, öğretmen desteği tarafından nasıl düzenlenmektedir (modere edilmektedir)?

Kullanılan değişkenler ve PISA kodları şunlardır:

Bağımlı Değişken: Science self-efficacy (Fen öz yeterliği). PISA Kodu:SCIEEFF.

Bağımsız Değişken:Inquiry-based science teaching and learning practices(Sorgulamaya dayalı fen öğretimi ve öğrenimi uygulamaları). PISA Kodu: IBTEACH.

Aracı Değişken (Mediator):Interest in broad science topics(Geniş fen konularına duyulan ilgi) PISA Kodu: INTBRSCI.

Düzenleyici Değişken (Moderator):Teacher support in science classes. PISA Kodu: TEACHSUP.

Kontrol Değişkenleri: Cinsiyet (Gender): Erkek=1, Kadın=2 olarak kodlanmıştır. Disiplin İklimi (Disciplinary climate): Fen derslerindeki disiplin ortamı. PISA Kodu: DISCLISCI.

Modelin Kurulması:

Model teorik olarak Bandura’nın kişisel faktörlerin, sosyal çevrenin ve davranışların birbirini etkilediğini öne süren karşılıklı belirleyicilik (reciprocal determinism) ilkesine dayandırılarak kurulmuş. Kurulan varsayımsal model, sorgulamaya dayalı öğrenmenin, fen ilgisinin aracılığıyla ve öğretmen desteğinin düzenleyici etkisiyle fen öz-yeterliği ile ilişkilendirildiği bir aracı-düzenleyici (mediating–moderating) modeldir.Bu modelde “Sorgulamaya Dayalı Öğrenme” (Bağımsız Değişken), “Fen Öz-yeterliğini” (Bağımlı Değişken) etkilemektedir. Ancak bu etki, “Fen İlgisi” üzerinden dolaylı olarak gerçekleşmektedir (Aracılık/Mediation). Öğretmen Desteği seviyesine göre gücü veya yönü değişmektedir.(Düzenleyicilik/Moderation).

Test of Mediation: Aracı(Mediator) Rolü:Fen ilgisi

Denklem 1: Sorgulamaya dayalı öğrenme yoluyla fen ilgisinin yordanması(Yol A)

Denklem 2: Fen ilgisinden geçmeksizin, sorgulamaya dayalı öğrenmenin fen öz yeterliği üzerindeki doğrudan etkisi (Yol C)

Denklem 3: Fen ilgisinin aracı olduğu durumda sorgulamaya dayalı öğrenmenin fen öz yeterliği üzerindeki toplam etkisi; bu etki hem Denklem 2’deki doğrudan etkiyi (Yol C) hem de fen ilgisi üzerinden gerçekleşen dolaylı etkiyi içerir( Yol A → B)

Sonuçlar; sorgulamaya dayalı öğrenme fen öz-yeterliği ile pozitif yönde ilişkili bulunmuştur; varsayılan aracı değişken olan fen ilgisi ise hem sorgulamaya dayalı öğrenme hem de fen öz-yeterliği ile pozitif korelasyon göstermiştir. Tüm korelasyonlar 0.01 düzeyinde anlamlı olduğundan, aracılık analizinin ön koşulu böylece sağlanmıştır.

Analizler, fen ilgisinin, sorgulamaya dayalı öğrenme ile öz yeterlik arasındaki ilişkide “kısmi aracı” (partial mediation) rolü oynadığını ve toplam etkinin %20.1’ini oluşturduğunu göstermiştir.

Test of moderated mediation: Düzenleyici (Moderator) Rolü: Öğretmen Desteği

Teorik olarak kurulan bu yapıyı test etmek için modele iki adet etkileşim terimi (interaction term) eklenmiştir. Düzenleyici (moderasyon) etkiler, basit eğimler (simple slopes) hesaplanarak grafiğe dökülmüştür. Görselleştirme amacıyla değişkenler; düşük ve yüksek olmak üzere iki değere sahip sıralı değişkenlere dönüştürülmüştür.

Moderator değişken olan “Öğretmen Desteği” şu 3 ilişkiyi modere etmektedir:

Yol A: Sorgulamaya dayalı öğrenme →Fen İlgisi

Yol B: Fen İlgisi → Fen Öz-yeterliği

Yol C (Direkt Etki): Sorgulamaya dayalı öğrenme → Fen Öz-yeterliği

Bunu test etmek için modele iki adet etkileşim terimi eklenmiştir:

Etkileşim 1: Sorgulamaya dayalı öğrenme X Öğretmen Desteği

Etkileşim 2: Fen İlgisi X Öğretmen Desteği

Sonuç: Öğretmen desteği, Sorgulamaya Dayalı Öğrenme’nin Fen Öz-yeterliği üzerindeki doğrudan etkisini pozitif yönde güçlendirmiştir.

Öğretmen desteği, Fen İlgisi üzerinden geçen dolaylı yolu negatif yönde düzenlemiştir.

PROJE ÖN HAZIRLIK

PISA verisi inceleme

Haftaya hazırlık olarak Pisa verisi R studioya aktarılmış ve Türkiye ve Finlandiya ülkeleri için filtrelenmiştir. Daha fazla analiz bu aşamada yapmadım. Sizden değişkenler için onay aldıktan sonra önce ilgili değişkenleri seçip sonra eksik veri bulma “colSums(is.na())” ve temizleme fonksiyonları “na.omit()” ile devam etmeyi planlıyorum.

Kullandığım kodlar:

library(haven) CY08MSP_STU_QQQ <- read_sav(“CY08MSP_STU_QQQ.SAV”) View(CY08MSP_STU_QQQ)

turkiye_verisi <- CY08MSP_STU_QQQ %>% filter(CNT == “TUR”)

finlandiya_verisi <- CY08MSP_STU_QQQ %>% filter(CNT == “FIN”)

Her defasında Pisa verisini açmamak için bu iki ülkeye ait kısmı .rds dosyası olarak bilgisayarıma kaydettim.

Kod:

saveRDS(turkiye_verisi, “pisa_2022_tur_full.rds”)

saveRDS(finlandiya_verisi, “pisa_2022_fin_full.rds”)

Seçtiğim değişkenlerin PISA kodları:

Moderator: Gender: ST004D01T

Mediator: Matematik Öz-yeterliği: MATHEFF

Bağımsız Değişken: Öğretmen desteği: TEACHSUP

Bağımlı Değişken: Matematik Anksiyetesi: ANXMAT

Literatür Keşfi

Wang, Xu, ve Fei (2024), yaptıkları çalışmada, öğrenci tarafından algılanan öğretmen desteği, öğretmen-öğrenci ilişkisi, ve Matematik özyeterliliği ile Matematik anksiyetesi ile arasında istatistiksel olarak anlamlı negatif ilişki bulmuştur. Ayrıca, algılanan matematik öğretmeni desteğinin; öğretmen-öğrenci ilişkisi ve matematik öz-yeterliği üzerinden gerçekleşen zincirleme aracılık (chain mediation) yoluyla matematik kaygısını etkilediği bulmuştur.Bunlara ek olarak, matematik öğretmenlerinden algılanan duygusal desteğin, öğretmen-öğrenci ilişkisindeki yakınlık aracılığıyla matematik kaygısı üzerindeki etkisi, sadece erkek öğrenciler arasında anlamlı bulunmuştur.

Li, Fei, ve Wang (2025), yaptıkları çalışmada, Matematik öz-yeterliği ve öğretmen desteği ile Matematik kaygısı arasında anlamlı ve negatif bir ilişki olduğunu bulmuştur. Matematik öz-yeterliği, öğrenci tarafından algılanan matematik öğretmeni desteği ile akademik erteleme arasındaki ilişkiyi modere etmiştir (düzenlemiştir).

Sonuç olarak, bu iki çalışma da, öğretmen desteğinin matematik kaygısını azalttığını desteklemektedir. Cinsiyet ve matematik öz yeterliğine ilişkin bulgular da kuracağım modeli destekler niteliktedir.

References Wang, C., Xu, Q., & Fei, W. (2024). The effect of student-perceived teacher support on math anxiety: chain mediation of teacher–student relationship and math self-efficacy. Frontiers in Psychology, 15, 1333012.
https://doi.org/10.3389/fpsyg.2024.1333012.

Li, X., Fei, W., & Wang, C. (2025). The relationship between student-perceived math teacher support and math anxiety in elementary school: a moderated mediation model.Educational Psychology, 45(7), 845–861. https://doi.org/10.1080/01443410.2025.2512247

ÖĞRENME GÜNLÜĞÜM

Bu hafta için teorik kısımla ilgili öğrendiklerim yukarıda özetlenmiştir. PISA verisini ilk defa OECD websitesinden bulup indirdim.Benim Pisa verisiyle ilk karşılaşmam diyebilirim sizin uygulamalarda verdiğiniz mini Pisa verileri hariç tabi ki. İndirmesi ve R studio’ya aktarması bayağı uzun sürdü büyük bir veri olduğu için.Keşke PISA’da yabancı dil başarısı ile ilgili değişkenler de olsaydı o zaman daha çok ilgimi çekerdi:)

Tutorial ve sizin ders notlarınız genelde paralel gitti. Sizin notlarınız daha detaylı tutorial da bulunmayan detaylar da var ve teknik arka planı anlatıyor ve yapılan analizin arkasında ne çalışıyor onu anlamamıza yardımcı oluyor diyebilirim. Tutorials’ daki derslerde farklı veri setleri ile uygulamalı gitmek ve görsellerle desteklenmesi de iyi oldu. Interaction kısmında dikkatimi çeken bir şey oldu. Tutorials kısmında yazılan kodlarda iki nokta üst üste kullanılmış,mesela lm(y ~ x + z + x:z, data = mydata) sizin anlatımınıza göre bu şekilde olacaktır lm(y ~ x * z, data = mydata). Ben * ile olanı tercih etmeyi düşünüyorum çalışmalarımda çünkü daha pratik. Simpson paradoxu ile yine karşılaştım, alt gruplar dikkate alınırsa iki değişken arasındaki ilişkinin yönünün değişebileceğini yine görmüş oldum. Çoklu regresyon modeli kurarken, 3 boyutlu görselleştirme yapmanın daha faydalı olacağını öğrendim. Kontrol Etmek (Controlling for) Kavramı, pararel eğimler bölümünde biraz daha anlaşılır oldu benim için. Çoklu regresyon modeli kurarken, formülde tek tek değişken ismi yazmak yerine, nokta(.) yazarak veri setindeki tüm değişkenleri otomatik olarak modele dahil edebileceğimi öğrendim. Analizle ilgisi olmayan (sıra numarası gibi) değişkenleri çıkarmak için eksi işaretini kullanabileceğimi gördüm (. - case).

Makalede, “test of moderated mediation” kısmı aynı anda hem aracılık hem moderasyon yapılması ilgimi çekti. Genel olarak PISA çalışmalarına baktığımda,başarı çok çalışıldığı için farklı değişkenler üzerinden gitmeyi düşündüm kendi kuracağım modelde.Sizin de ödevdeki yönlendirmenizi göz önünde bulundurarak, Matematik değişkeni ile başladım. Bağımlı değişken olarak “Matematik Kaygısını” almayı düşündüm. Yukarıda bahsettiğim makaleler, yaptığım araştırma sonucu, bağımsız değişken “Öğretmen desteği”, Mediator “Matematik Öz-yeterliği”, ve moderator olarak da “Cinsiyeti”seçmeyi düşünüyorum. Bu değişkenlerin PISA verisindeki karşılıklarını da “Compendia” ve “Codebook” isimli OECD sitesinden indirdiğim dosyalarda buldum.