Bu bölümde, incelenen 8 bölüm içeriğinde yer alan bilgiler not alınacaktır.
İstatistiksel çalışmalarda genellikle; bağımlı değişkenler (çıktı değişkeni-response variable) “y”, bağımsız değişkenler (girdi değişkeni-explanatory variable) ise “x” olarak karakterize edilir. Bağımlı değişken; bağımsız değişkenle ilişkisi olabilen ya da ondan etkilenen değişken olarak tanımlanabilir. Response variable dikey eksene yerleştirilirken, explanatory değişken ise x eksenine yerleştirilir. Scatterplot (dağılım grafiği) genellikle bu değişkenler arasındaki ilişkiyi görselleştirmek için kullanılır.Bu grafiği çizdirmek için ise; ggplot2 paketi içerisindeki ggplot() fonkisyonu aes ve labs kodları kullanılmaktadır.
Sürekli bir değişkenin kategorik hale getirilmesinde ise sürekli değişkenleri belli bir seğere göre gruplara bölerek ve bunu veri setine ayrı bir sütun olarak kaydederek yapılabilir. Bu işlem ise cut() fonksiyonu ile gerçekleştirilir. Örnek olarak:
possum <- possum |> mutate(tail_cut = cut(tail_l, breaks = 5))
breaks kodu ise, değişken değerlerinin en alt ve en üstündeki veri aralığını 5 parçaya böler. Yani normal bir dağılım grafiğinde noktalar dağınık dururken bu fonksiyon ile noktalar kategorize edilmiş şekliyle gözükür.
|> bu fonksiyon ise %>% yerine kullanılır ve R’da otomatik olarak gelir. Herhangi bir paket yüklemeye gerek yoktur.
Dağılım grafiği geom_ponit() ile çizilirken bunun yerine
geom_boxplot() yazılırsa kutu bıyık grafiği çizilmiş
olur.Örnek olarak:
ggplot(data = possum, aes(y = total_l, x = tail_cut)) + geom_boxplot()
Dağılım grafiği ve kutu-bıyık grafiği birleştirilmek istenirse:
ggplot(data = possum, aes(y = total_l, x = tail_cut)) + geom_boxplot(outlier.alpha = 0) + geom_jitter(color = "sky blue", width = 0.2)
alpha değeri uç değerleri ekleme anlamına gelir.
Dağılım grafiklerinde; ilişkinin gücü ve yönü oldukça önemlidir.
as.factor fonksiyonu ile gruplama aşağıdaki gibi yapılır:
ggplot (data= bdims, aes(y= wgt, x= hgt, color= as.factor(sex)))+ geom_point()
Logaritmik dönüşümler veriyi düzeltmek/düzenlemek için yapılır. Eğer çok büyük bir veri seti varsa, grafik çizdirildiğinde tüm noktalar sıkışıp tek bir yerde yoğunlaşabilir ve bu da okunmasını zorlaştırır. Logaritmik dönüşümler milyonluk farkları 1-2 birimlik farklara indirger. Örnek kodlar:
ggplot(data = mammals, aes(x = body_wt, y = brain_wt)) + geom_point() + coord_trans(x = "log10", y = "log10")
ggplot(data = mammals, aes(x = body_wt, y = brain_wt)) + geom_point() + scale_x_log10() + scale_y_log10()
Korelasyon, bu doğrusal ilişkinin gücünü nicel olarak ölçmenin bir yoludur. Korelasyon katsayısı, -1 ile 1 arasında bir sayıdır. Korelasyon katsayısının işareti, pozitif veya negatif yönüne karşılık gelir.
cor() fonksiyonu R’da korelasyonu hesaplar. Örnek
olarak:
ncbirths |> summarize(N = n(), r = cor(weight, mage))
Anscombe Dataseti: Sayısal özellikleri birbirine benzeyen, ancak grafiksel ilişkiler açısından farklı olan dört veri seti.
ggplot(data = noise, aes(x = x, y = y)) + geom_point() + facet_wrap(~z)
facet_wrap veri setini organize etmeyi sağlar.
glimpse() veri setine göz atmak için kullanılır.
En iyi uyum eğrisi çizilerek dağılım grafiklerindeki noktaların bu çizgiye yakınlık uzaklığına bakılarak daha sağlıklı yorumlar yapılabilir. Örnek olarak:
ggplot(data = possum, aes(y = total_l, x = tail_l)) + geom_point() + geom_smooth(method = "lm")
Standart hatanın gözükmesini istemiyorsak:
ggplot(data = possum, aes(y = total_l, x = tail_l)) + geom_point() + geom_smooth(method = "lm", se = FALSE)
Verilerde gözlemlenen değer ile regresyon doğrusundan tahmin edilen değer arasındaki farka “artık” denir. Regresyon doğrusunun üzerinde yer alan gözlemler, tahmin edilen değerlerini aşmış ve pozitif artık değerlere sahiptir. Regresyon doğrusunun altında yer alan değerler, tahmin edilen değerlerinden daha düşüktür ve negatif artık değerlere sahiptir.
Doğrusal Regresyon Model Formülü:
y=b0+b1⋅x
İki değişken arasında regresyon denklemi kurmak için örnek olarak:
lm(ucla_new ~ amaz_new, data = textbooks)
ucla_new: bağımlı değişken, amaz_new: bağımsız değişken (UCLA kitapçısındaki fiyatları, Amazon fiyatlarına bakarak tahmin et)
coef() fonksiyonu; regresyon denkleminin ögelerini
yazdırmayı sağlar.
Fitted Values, her bir gözlem için hesapladığı teorik tahmin
değerleridir ve bu değerler gerçek veri noktalarının regresyon doğrusu
üzerindeki izdüşümlerini temsil eder. R içerisinde
fitted.values() fonksiyonu ile erişilen bu liste, modelin
“olması gereken” dediği değerleri içerir. Eğer orijinal veri setinde
eksik bilgiler (NA) varsa, bu satırlar otomatik olarak analiz dışı
bırakılır.
Gerçek Değer - Tahmin Değeri = Residuals (Artık Değerler)
Broom paketindeki augment() fonksiyonu, veri seti
çıktısını düzenler.
geom_abline(data = hgt_wgt_coefs... manuel olarak
regresyon doğrusu eklemeyi sağlar.
Regresyon doğrusu; dağılım grafiğinde bulunan veri noktalarının doğruya olan uzaklıklarının en iyi olduğu versiyonudur. Doğrunun alt ve üstündeki değerlerin toplamı her zaman sıfırdır, çünkü pozitif ve negatif değerler birbirleriyle eşitlenerek birbirlerini iptal ederler. Sum of Squared Errors (SSE), değerlerin çizilen doğrudan ne kadar saptığını hesaplar. Düşük SSE, modelin veri setini iyi temsil ettiğini ifade eder. Örnek olarak:
null_mod |> augment(possum) |> summarize(SST = sum(.resid^2))
Regresyon modelinde bazı unusual pointler modelin eğimini tek başına değiştirebilecek güce sahiptir. Özellikle x ekseninde ortalamadan uzak olan noktalar high leverage etkisine sahiptir. Eğer bu nokta yani çizgiden çok sapan bir değerse, buna influential point denir, bu noktalar eğimi değiştirerek tüm analizin sonucunu çarpıtabilir.
Biri sayısal diğeri ise kategorik olan değişkenlerin modellerini açıklamak için bu yöntem kullanılır. Örneğin, araba fiyatları arttı ancak bu artış; motor büyüklüğü ile mi ilgili yoksa yılın ilerlemesinin de bununla ilgisi var mı? sorusuna aynı anda yanıt verir. Şu ana kadar 1 bağımsız değişken varken çoklu regresyonda birden fazla bağımsız değişken vardır.
Paralel eğim modelinde, model iki çizgi ile temsil edilir, ancak her gözlem için sadece bir çizgi geçerlidir. Örneğin, 2008 yılında üretilen arabalara karşılık gelen yeşil noktalar yeşil çizgi ile, 1999 yılında üretilen arabalara karşılık gelen turuncu noktalar ise turuncu çizgi ile karşılaştırılır. Model verilere daha iyi uyuyorsa, çizginin dışında kalan değerler daha küçüktür, SSE daha küçüktür ve R2 değeri daha yüksek olur.
Simpson Paradoksu; bağımlı ve bağımsız değişken arasındaki ilişkiyi sistematik olarak etkileyen üçüncü bir değişkenin analizde göz ardı edilmesinden kaynaklanan durumdur. Yanılgıya sebep olur.
Çoklu regresyon ile basit regresyondan farklı olarak birden fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisi incelenebilir.
Bu bölümde, sonraki ödev için hazırlık yapılacaktır.
| Bölüm | Açıklama |
|---|---|
| Araştırmanın Amacı | Bu çalışmanın temel amacı, sorgulayıcı öğrenme ile fen basarısı arasındaki iliskide fen öz-yeterliginin aracı rolunu ve cinsiyetin düzenleyici etkisini incelemektir. |
| Yöntem | Arastırmada iliskisel tarama modeli kullanılmıs olup, degiskenler arasındaki doğrudan ve dolaylı etkiler Yapısal Eşitlik Modellemesi ve Çoklu Regresyon yöntemleriyle test edilmistir. |
| Örneklem ve Veri Seti | Araştırma verileri PISA 2015 döngüsünden elde edilmiştir. Türkiye ve Singapur örneklemleri filtrelenerek toplamda 15 yaş grubu öğrenciler analize dahil edilmistir. |
| Kullanılan Analiz | Veri analizinde aracı ve düzenleyici regresyon modelleri kurulmuş; eksik veriler temizlenmiş ve ağırlıklandırma islemleri göz ardı edilmistir. |
| Degisken | Rol | PISA_Kodu | Aciklama |
|---|---|---|---|
| Fen Okuryazarlığı | Bağımlı Değişken | PV1SCIE - PV10SCIE | Öğrencilerin fen bilimleri alanındaki başarı puanları. |
| Sorgulayıcı Öğrenme | Bağımsız Değişken | IBTEACH | Fen derslerinde deney yapma, tartışma ve sorgulama temelli etkinliklerin uygulanma sıklığı. |
| Fen Öz-yeterliği | Aracı Değişken (Mediator) | SCIEEFF | Öğrencinin fen konularını başarabileceğine dair kendi yeteneğine olan inanç düzeyi. |
| Öğretmen Desteği | Düzenleyici (Moderator) | TEACHSUP | Fen öğretmeninin öğrencilere sağladığı bireysel ilgi ve destek düzeyi. |
| Sosyoekonomik Düzey (SES) | Kontrol Değişkeni | ESCS | Ailenin ekonomik, sosyal ve kültürel statüsü. |
Liu ve Wang (2022) tarafından ele alınan Mediating-Moderating Model, sorgulayıcı öğrenmenin fen başarısı üzerindeki etkisini çözümlemek amacıyla, etkinin nasıl ve hangi koşullarda gerçekleştiğini aynı anda test eden bütünleşik bir istatistiksel yapıdır. Bu modele göre; sorgulayıcı öğrenmenin akademik çıktı üzerindeki etkisi doğrudan değildir; bu öğretim yöntemi öncelikle öğrencinin kendi kapasitesine olan inancını yani fen öz-yeterliğini artırmakta ve artan bu öz-yeterlik sayesinde başarı dolaylı yoldan yükselmektedir; ancak söz konusu bu dolaylı pozitif etkinin gücü herkes için sabit olmayıp, cinsiyet veya okulun sosyoekonomik imkanları gibi düzenleyici değişkenlerin seviyelerine göre anlamlı farklılıklar göstermektedir.
Çalışmamda; PISA 2022 veri seti kullanılarak Türkiye ve Singapur verilerini karşılaştıracağım. Matematik Kaygısı (bağımsız değişken) ile Matematik Başarısı (bağımlı değişken) arasındaki negatif yönlü ilişkide, öğrencilerin matematik problemlerini çözebilme kapasitelerine olan inançlarını temsil eden Matematik Öz-yeterliği aracı değişken olarak alacağım. Ayrıca, bu ilişkinin cinsiyet faktörüne göre farklılaşıp farklılaşmadığını inceleyeceğim.
| Degisken | Modeldeki_Rolu | PISA_2022_Kodu |
|---|---|---|
| Matematik Başarısı | Bağımlı Değişken (Y) | PV1MATH |
| Matematik Kaygısı | Bağımsız Değişken (X) | ANXMAT |
| Matematik Öz-yeterliği | Aracı Değişken (Mediator) | MATHEFF |
| Cinsiyet | Düzenleyici Değişken (Moderator) | ST004D01T |