📒 Öğrenme Günlüğü

Bu bölümde, incelenen 8 bölüm içeriğinde yer alan bilgiler not alınacaktır.

🔹Regresyon Modelleme 1: İki Değişkenin Görselleştirilmesi

İstatistiksel çalışmalarda genellikle; bağımlı değişkenler (çıktı değişkeni-response variable) “y”, bağımsız değişkenler (girdi değişkeni-explanatory variable) ise “x” olarak karakterize edilir. Bağımlı değişken; bağımsız değişkenle ilişkisi olabilen ya da ondan etkilenen değişken olarak tanımlanabilir. Response variable dikey eksene yerleştirilirken, explanatory değişken ise x eksenine yerleştirilir. Scatterplot (dağılım grafiği) genellikle bu değişkenler arasındaki ilişkiyi görselleştirmek için kullanılır.Bu grafiği çizdirmek için ise; ggplot2 paketi içerisindeki ggplot() fonkisyonu aes ve labs kodları kullanılmaktadır.

Sürekli bir değişkenin kategorik hale getirilmesinde ise sürekli değişkenleri belli bir seğere göre gruplara bölerek ve bunu veri setine ayrı bir sütun olarak kaydederek yapılabilir. Bu işlem ise cut() fonksiyonu ile gerçekleştirilir. Örnek olarak:

possum <- possum |> mutate(tail_cut = cut(tail_l, breaks = 5))

breaks kodu ise, değişken değerlerinin en alt ve en üstündeki veri aralığını 5 parçaya böler. Yani normal bir dağılım grafiğinde noktalar dağınık dururken bu fonksiyon ile noktalar kategorize edilmiş şekliyle gözükür.

|> bu fonksiyon ise %>% yerine kullanılır ve R’da otomatik olarak gelir. Herhangi bir paket yüklemeye gerek yoktur.

Dağılım grafiği geom_ponit() ile çizilirken bunun yerine geom_boxplot() yazılırsa kutu bıyık grafiği çizilmiş olur.Örnek olarak:

ggplot(data = possum, aes(y = total_l, x = tail_cut)) + geom_boxplot()

Dağılım grafiği ve kutu-bıyık grafiği birleştirilmek istenirse:

ggplot(data = possum, aes(y = total_l, x = tail_cut)) + geom_boxplot(outlier.alpha = 0) + geom_jitter(color = "sky blue", width = 0.2)

alpha değeri uç değerleri ekleme anlamına gelir.

Dağılım grafiklerinde; ilişkinin gücü ve yönü oldukça önemlidir.

as.factor fonksiyonu ile gruplama aşağıdaki gibi yapılır: ggplot (data= bdims, aes(y= wgt, x= hgt, color= as.factor(sex)))+ geom_point()

Logaritmik dönüşümler veriyi düzeltmek/düzenlemek için yapılır. Eğer çok büyük bir veri seti varsa, grafik çizdirildiğinde tüm noktalar sıkışıp tek bir yerde yoğunlaşabilir ve bu da okunmasını zorlaştırır. Logaritmik dönüşümler milyonluk farkları 1-2 birimlik farklara indirger. Örnek kodlar:

ggplot(data = mammals, aes(x = body_wt, y = brain_wt)) + geom_point() + coord_trans(x = "log10", y = "log10")

ggplot(data = mammals, aes(x = body_wt, y = brain_wt)) + geom_point() + scale_x_log10() + scale_y_log10()

🔹Regresyon Modelleme 2: Korelasyon

Korelasyon, bu doğrusal ilişkinin gücünü nicel olarak ölçmenin bir yoludur. Korelasyon katsayısı, -1 ile 1 arasında bir sayıdır. Korelasyon katsayısının işareti, pozitif veya negatif yönüne karşılık gelir.

cor() fonksiyonu R’da korelasyonu hesaplar. Örnek olarak:

ncbirths |> summarize(N = n(), r = cor(weight, mage))

Anscombe Dataseti: Sayısal özellikleri birbirine benzeyen, ancak grafiksel ilişkiler açısından farklı olan dört veri seti.

ggplot(data = noise, aes(x = x, y = y)) + geom_point() + facet_wrap(~z)

facet_wrap veri setini organize etmeyi sağlar.

glimpse() veri setine göz atmak için kullanılır.

🔹Regresyon Modelleme 3: Basit Doğrusal Regresyon

En iyi uyum eğrisi çizilerek dağılım grafiklerindeki noktaların bu çizgiye yakınlık uzaklığına bakılarak daha sağlıklı yorumlar yapılabilir. Örnek olarak:

ggplot(data = possum, aes(y = total_l, x = tail_l)) + geom_point() + geom_smooth(method = "lm")

Standart hatanın gözükmesini istemiyorsak:

ggplot(data = possum, aes(y = total_l, x = tail_l)) + geom_point() + geom_smooth(method = "lm", se = FALSE)

Verilerde gözlemlenen değer ile regresyon doğrusundan tahmin edilen değer arasındaki farka “artık” denir. Regresyon doğrusunun üzerinde yer alan gözlemler, tahmin edilen değerlerini aşmış ve pozitif artık değerlere sahiptir. Regresyon doğrusunun altında yer alan değerler, tahmin edilen değerlerinden daha düşüktür ve negatif artık değerlere sahiptir.

Doğrusal Regresyon Model Formülü:

y=b0+b1⋅x

🔹Regresyon Modelleme 4: Yorumlama

İki değişken arasında regresyon denklemi kurmak için örnek olarak:

lm(ucla_new ~ amaz_new, data = textbooks)

ucla_new: bağımlı değişken, amaz_new: bağımsız değişken (UCLA kitapçısındaki fiyatları, Amazon fiyatlarına bakarak tahmin et)

coef() fonksiyonu; regresyon denkleminin ögelerini yazdırmayı sağlar.

Fitted Values, her bir gözlem için hesapladığı teorik tahmin değerleridir ve bu değerler gerçek veri noktalarının regresyon doğrusu üzerindeki izdüşümlerini temsil eder. R içerisinde fitted.values() fonksiyonu ile erişilen bu liste, modelin “olması gereken” dediği değerleri içerir. Eğer orijinal veri setinde eksik bilgiler (NA) varsa, bu satırlar otomatik olarak analiz dışı bırakılır.

Gerçek Değer - Tahmin Değeri = Residuals (Artık Değerler)

Broom paketindeki augment() fonksiyonu, veri seti çıktısını düzenler.

geom_abline(data = hgt_wgt_coefs... manuel olarak regresyon doğrusu eklemeyi sağlar.

🔹Regresyon Modelleme 5: Model Uyuymu

Regresyon doğrusu; dağılım grafiğinde bulunan veri noktalarının doğruya olan uzaklıklarının en iyi olduğu versiyonudur. Doğrunun alt ve üstündeki değerlerin toplamı her zaman sıfırdır, çünkü pozitif ve negatif değerler birbirleriyle eşitlenerek birbirlerini iptal ederler. Sum of Squared Errors (SSE), değerlerin çizilen doğrudan ne kadar saptığını hesaplar. Düşük SSE, modelin veri setini iyi temsil ettiğini ifade eder. Örnek olarak:

null_mod |> augment(possum) |> summarize(SST = sum(.resid^2))

Regresyon modelinde bazı unusual pointler modelin eğimini tek başına değiştirebilecek güce sahiptir. Özellikle x ekseninde ortalamadan uzak olan noktalar high leverage etkisine sahiptir. Eğer bu nokta yani çizgiden çok sapan bir değerse, buna influential point denir, bu noktalar eğimi değiştirerek tüm analizin sonucunu çarpıtabilir.

🔹Regresyon Modelleme 6: Paralel Eğimler

Biri sayısal diğeri ise kategorik olan değişkenlerin modellerini açıklamak için bu yöntem kullanılır. Örneğin, araba fiyatları arttı ancak bu artış; motor büyüklüğü ile mi ilgili yoksa yılın ilerlemesinin de bununla ilgisi var mı? sorusuna aynı anda yanıt verir. Şu ana kadar 1 bağımsız değişken varken çoklu regresyonda birden fazla bağımsız değişken vardır.

🔹Regresyon Modelleme 7: Paralel Eğimler Modelini Değerlendirme ve Genişletme

Paralel eğim modelinde, model iki çizgi ile temsil edilir, ancak her gözlem için sadece bir çizgi geçerlidir. Örneğin, 2008 yılında üretilen arabalara karşılık gelen yeşil noktalar yeşil çizgi ile, 1999 yılında üretilen arabalara karşılık gelen turuncu noktalar ise turuncu çizgi ile karşılaştırılır. Model verilere daha iyi uyuyorsa, çizginin dışında kalan değerler daha küçüktür, SSE daha küçüktür ve R2 değeri daha yüksek olur.

Simpson Paradoksu; bağımlı ve bağımsız değişken arasındaki ilişkiyi sistematik olarak etkileyen üçüncü bir değişkenin analizde göz ardı edilmesinden kaynaklanan durumdur. Yanılgıya sebep olur.

🔹Regresyon Modelleme 8: Çoklu Regresyon

Çoklu regresyon ile basit regresyondan farklı olarak birden fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisi incelenebilir.

🎢Ön Hazırlık

Bu bölümde, sonraki ödev için hazırlık yapılacaktır.

🔸Makale İncelemesi (Liu & Wang, 2022)

Tablo 1: Araştırma Künyesi ve Metodolojik Çerçeve
Bölüm	Açıklama
Araştırmanın Amacı	Bu çalışmanın temel amacı, sorgulayıcı öğrenme ile fen basarısı arasındaki iliskide fen öz-yeterliginin aracı rolunu ve cinsiyetin düzenleyici etkisini incelemektir.
Yöntem	Arastırmada iliskisel tarama modeli kullanılmıs olup, degiskenler arasındaki doğrudan ve dolaylı etkiler Yapısal Eşitlik Modellemesi ve Çoklu Regresyon yöntemleriyle test edilmistir.
Örneklem ve Veri Seti	Araştırma verileri PISA 2015 döngüsünden elde edilmiştir. Türkiye ve Singapur örneklemleri filtrelenerek toplamda 15 yaş grubu öğrenciler analize dahil edilmistir.
Kullanılan Analiz	Veri analizinde aracı ve düzenleyici regresyon modelleri kurulmuş; eksik veriler temizlenmiş ve ağırlıklandırma islemleri göz ardı edilmistir.

Tablo 2: Araştırmada Kullanılan Değişkenler ve PISA Kodları
Degisken	Rol	PISA_Kodu	Aciklama
Fen Okuryazarlığı	Bağımlı Değişken	PV1SCIE - PV10SCIE	Öğrencilerin fen bilimleri alanındaki başarı puanları.
Sorgulayıcı Öğrenme	Bağımsız Değişken	IBTEACH	Fen derslerinde deney yapma, tartışma ve sorgulama temelli etkinliklerin uygulanma sıklığı.
Fen Öz-yeterliği	Aracı Değişken (Mediator)	SCIEEFF	Öğrencinin fen konularını başarabileceğine dair kendi yeteneğine olan inanç düzeyi.
Öğretmen Desteği	Düzenleyici (Moderator)	TEACHSUP	Fen öğretmeninin öğrencilere sağladığı bireysel ilgi ve destek düzeyi.
Sosyoekonomik Düzey (SES)	Kontrol Değişkeni	ESCS	Ailenin ekonomik, sosyal ve kültürel statüsü.

Mediating-Moderating Model

Liu ve Wang (2022) tarafından ele alınan Mediating-Moderating Model, sorgulayıcı öğrenmenin fen başarısı üzerindeki etkisini çözümlemek amacıyla, etkinin nasıl ve hangi koşullarda gerçekleştiğini aynı anda test eden bütünleşik bir istatistiksel yapıdır. Bu modele göre; sorgulayıcı öğrenmenin akademik çıktı üzerindeki etkisi doğrudan değildir; bu öğretim yöntemi öncelikle öğrencinin kendi kapasitesine olan inancını yani fen öz-yeterliğini artırmakta ve artan bu öz-yeterlik sayesinde başarı dolaylı yoldan yükselmektedir; ancak söz konusu bu dolaylı pozitif etkinin gücü herkes için sabit olmayıp, cinsiyet veya okulun sosyoekonomik imkanları gibi düzenleyici değişkenlerin seviyelerine göre anlamlı farklılıklar göstermektedir.

🔸Veri Seti Seçimi

Çalışmamda; PISA 2022 veri seti kullanılarak Türkiye ve Singapur verilerini karşılaştıracağım. Matematik Kaygısı (bağımsız değişken) ile Matematik Başarısı (bağımlı değişken) arasındaki negatif yönlü ilişkide, öğrencilerin matematik problemlerini çözebilme kapasitelerine olan inançlarını temsil eden Matematik Öz-yeterliği aracı değişken olarak alacağım. Ayrıca, bu ilişkinin cinsiyet faktörüne göre farklılaşıp farklılaşmadığını inceleyeceğim.

Tablo 4: Araştırma Deseni ve PISA 2022 Kodları
Degisken	Modeldeki_Rolu	PISA_2022_Kodu
Matematik Başarısı	Bağımlı Değişken (Y)	PV1MATH
Matematik Kaygısı	Bağımsız Değişken (X)	ANXMAT
Matematik Öz-yeterliği	Aracı Değişken (Mediator)	MATHEFF
Cinsiyet	Düzenleyici Değişken (Moderator)	ST004D01T

Regresyon Ödevi | Hazırlık

Mervenur Sensoy

2025-11-30