İki sayısal değişken arasındaki ilişkiyi anlamak istatistiksel
modellemenin temel bir adımıdır. Modeli kurmada önce gerçekleştirilen
yapılan görsel analiz değişkenler arasındaki potansiyel bağlantıların
doğası, gücü ve biçimi hakkında bilgiler sunar. Değişkenler arasındaki
ilişkileri görselleştirmek için kullanılan temel araç saçılım grafiğidir
(scatterplot). (Tek bir değişkenin dağılımını bir histogram veya
yoğunluk grafiği ile görselleştirirken iki sayısal değişken arasındaki
ilişkiyi görselleştirmek için yaygın olarak scatterplot kullanılır). Bu
grafik, her bir gözlemi iki boyutlu bir düzlemde, eksenlerin iki
değişkene karşılık geldiği bir nokta olarak temsil eder. Örneğin, possum
veri setindeki hayvanların toplam vücut uzunlukları
(total_l) ile kuyruk uzunlukları (tail_l)
arasındaki ilişkiyi incelemek için bir saçılım grafiği oluşturulabilir.
Bu grafik, kuyruk uzunluğu arttıkça toplam vücut uzunluğunun da artma
eğiliminde olup olmadığını ortaya koyar.
Bir saçılım grafiğini yorumlarken, ilişkinin yapısını tam olarak kavramak için dört temel özellik incelenir:
Biçim: İlişkinin doğrusalbir desene mi uyduğu yoksa doğrusal olmayan (non-linear) bir eğilim mi gösterdiğini belirler.
Yön: İlişkinin yönü değişkenlerin birlikte nasıl hareket ettiğini gösterir. Eğer bir değişken artarken diğeri de artma eğilimindeyse bu pozitif bir yöndür. Tersine bir değişken artarken diğeri azalma eğilimindeyse bu negatif bir yöndür.
Güç: İlişkinin gücü, veri noktalarının belirlenen bir desen etrafında ne kadar sıkı bir şekilde kümelendiği ile ölçülür. Noktalar belirgin bir doğruya çok yakınsa güçlü bir ilişkiden, geniş bir alana yayılmışsa zayıf bir ilişkiden bahsedilir.
Aykırı Gözlemler (Unusual Observations): Genel desene uymayan veya diğer noktalardan belirgin şekilde uzakta duran gözlemlerdir. Bu aykırı değerler bir ölçüm hatasının sonucu olabileceği gibi, incelenen olgunun doğasına dair önemli bilgiler içeren istisnai durumları da temsil edebilir. Bu nedenle bu noktaların tespit edilmesi ve araştırılması önemlidir.
Görsel analiz, bir ilişki hakkında sezgisel ve güçlü bilgiler sunsa da, bu ilişkinin gücünü ve yönünü objektif olarak ölçmek ve farklı veri setleri arasında karşılaştırma yapabilmek için sayısal bir ölçüte ihtiyaç duyulur. Bu ihtiyaç bizi korelasyon kavramına yönlendirir.
Korelasyon katsayısı, bu ihtiyacı karşılamak üzere tasarlanmış, yaygın olarak kullanılan bir ölçümdür. Korelasyon katsayısı (r), doğrusal bir ilişkinin gücünü ve yönünü ifade eden -1 ile 1 arasında bir değerdir. Bu katsayının yorumlanması şu şekildedir:
İşaret (Yön): Katsayının pozitif (+) veya negatif (-) olması, ilişkinin yönünü belirtir. Pozitif değerler, değişkenlerin birlikte arttığını (pozitif ilişki); negatif değerler ise biri artarken diğerinin azaldığını (negatif ilişki) gösterir.
Büyüklük (Güç): Katsayının mutlak değeri, ilişkinin gücünü gösterir. Değer 0’a yaklaştıkça ilişki zayıflar. Değer 1’e veya -1’e yaklaştıkça, noktaların bir doğru etrafında daha sıkı kümelendiği güçlü bir doğrusal ilişkiden bahsedilir.
R’da korelasyon katsayısı cor() fonksiyonu ile kolayca
hesaplanabilir. Ancak, veri setinde eksik değerler (NA)
bulunduğunda cor() fonksiyonu varsayılan olarak NA
sonucu döndürür. Bu durumu yönetmek için
use = "pairwise.complete.obs" argümanı kullanılır. Bu
argüman, fonksiyona yalnızca her iki değişken için de eksik olmayan
gözlem çiftlerini kullanarak hesaplama yapmasını söyler.
Korelasyon nedensellik anlamına gelmez. İki değişkenin birlikte hareket ediyor olması, birinin diğerine neden olduğu anlamına gelmemektedir. Bu ilkeyi göz ardı etmek, hatalı sonuçlara ve yanlış kararlara yol açabilir. Bu kavramı somutlaştırmak için sahte korelasyon (spurious correlation) örnekleri oldukça aydınlatıcıdır. Bu tür sahte ilişkilerin arkasında genellikle üçüncü bir değişken yatar. Özellikle zaman serisi verilerinde zaman, yaygın bir karıştırıcı değişkendir (confounder). Zaman içinde her iki değişken de bağımsız olarak artış veya azalış gösterebilir ve bu durum aralarında bir ilişki varmış gibi görünmesine neden olur. Bu nedenle iki değişken arasında bir korelasyon tespit edildiğinde, altta yatan mekanizmaları sorgulamak ve olası karıştırıcı faktörleri göz önünde bulundurmak esastır. Örneğin bir şehirde ibadethane sayısı ile suç oranları arasında güçlü bir ilişki olabilir ancak bu iki olay arasında mantıksal bir neden-sonuç ilişkisinin olmadığı açıktır (bunun nedeni nüfusun artması ile açıklanabilir). Diğer hatalar ise değişken rollerinin değiştirilmesi ve yüzde değişim vs. yüzde puan değişimi gibi farklı birimleri yorumlamaktır.
Aşağıda korelasyon matrisini görselleştirmek için gereken paketlere ve fonksyionlara yer verilmiştir:
ggcorplot (), corrplot () ve
library (psych) paketindeki ggpairs ()
fonksiyonlarını kullanarak korelasyon matrisini
görselleştirebiliriz.
library (performanceAnalytics) paketindeki
corPlot () fonksiyonu ile korelasyon matrisini anlamlılık
düzeyleri ile görselleştirebiliriz.
library (GGally) paketindeki
chart.Correlation () fonksiyonu ile korelasyon matrisini
görselleştirebiliriz ve değişkenlerin dağılımını inceleyebiliriz.
Korelasyon, doğrusal bir ilişkiyi ölçmek için güçlü bir araçtır ancak bu ilişkiyi bir model olarak formüle etmez veya tahmin yapma imkanı sunmaz. Bu noktada, ilişkiyi matematiksel bir denkleme döken ve öngörü gücü sağlayan regresyon modellemesine ihtiyaç duyulur.
Regresyon modeli mevcut ilişkiyi tanımlarken bir değişkenin bilinen değerini kullanarak diğer değişkenin değerini tahmin etme gücü de sağlar. Bu doğruyu objektif bir şekilde belirlemek için matematiksel bir kritere ihtiyaç vardır.
En uygun doğruyu bulmak için kullanılan standart yöntemdir. Bu ölçüt, her bir gözlem noktasının doğruya olan dikey mesafelerinin (bunlara artıklar denir) kareleri toplamını minimize eden doğruyu ‘en iyi uyan doğru’ olarak tanımlar. Artıkların toplamı her zaman sıfırdır. Ortalama nokta her zaman regresyon eğrisinin üzerindedir.
Y = β₀ + β₁ * X + ε
Bağımlı değişken = kesişim + eğim * bağımsız değişken + hata
ŷ = β̂₀ + β̂₁ * X
fitted. values ()
Modelin, belirli bir X değeri için tahmin ettiği Y’nin ortalama değeridir. Bu değerler, en küçük kareler doğrusunun üzerinde yer alır.
residuals ()
Her bir gözlem için gerçek değer (Y) ile modelin tahmin ettiği değer (ŷ) arasındaki farktır: e = Y - ŷ. Artıklar, pozitif (nokta doğrunun üstündeyse) veya negatif (nokta doğrunun altındaysa) olabilir. Artıklar, popülasyon modelindeki teorik ve asla doğrudan gözlemleyemeyeceğimiz gürültü terimi olan ε’nin, verimizdeki yansımaları veya tahminleridir. Modelin ne kadar iyi uyduğunu değerlendirmek için bu artıkları analiz ederiz.
Teorik regresyon modelini gerçek dünya verilerine uygulamak ve elde edilen sayısal sonuçları anlamlı içgörülere dönüştürmek sürecin önemli bir adımıdır. R, bu süreci lm() (linear model) fonksiyonu ile gerçekleştirir. Bu fonksiyon, en küçük kareler yöntemini kullanarak model katsayılarını tahmin eder ve yorumlama için bir çıktı sunar.
R’da bir doğrusal model oluşturmak için kullanılan temel formül şu şekildedir:
lm(formula = y ~ x, data = dataframe)
formula: y ~ x yapısı, y’nin yanıt (bağımlı)
değişken, x’in ise açıklayıcı (bağımsız) değişken olduğunu
belirtir.
data: Modelde kullanılacak değişkenlerin bulunduğu
veri çerçevesini (data frame) gösterir.
Örneğin, bdims veri setindeki kişilerin ağırlıklarını
(wgt) boylarına (hgt) göre modellemek için şu
komut kullanılır: lm(formula = wgt ~ hgt, data = bdims)
Bir lm model nesnesinin çıktısı, kesişim noktası ve eğim
katsayılarını içerir. [lm () fonksiyonunun çıktısı, lm
sınıfından bir model nesnesidir (books_mod). Bu nesne,
model hakkındaki tüm bilgileri depolar. class () fonksiyonu
nesnenin sınıfını sorgular]. Bu katsayıların doğru yorumlanması,
modelden elde edilen bilginin doğru anlaşılması için önemlidir.
Kesişim Noktası (Intercept - β̂₀): Bu katsayı, açıklayıcı değişkenin (X) değeri 0 olduğunda, yanıt değişkeninin (Y) beklenen ortalama değerini temsil eder. Ancak çoğu durumda, açıklayıcı değişkenin 0 değerini alması pratik olarak anlamsız veya imkansız olabilir (örneğin, boyu 0 olan bir insan). Bu değer genellikle veri aralığının çok dışında kalır. Veri aralığının dışındaki değerler için tahmin yapmak (extrapolation), modelin geçerli olmadığı bir yorum yapma riski taşır. Bu nedenle kesişim noktası genellikle modelin matematiksel bir bileşeni olarak görülür ve pratik bir yorumu her zaman olmaz.
Eğim (Slope - β̂₁): Eğim katsayısı, açıklayıcı değişkendeki her bir birimlik artışın, yanıt değişkeninin beklenen ortalama değerinde ne kadarlık bir değişikliğe yol açtığını gösterir. Örneğin, lise mezuniyet oranları (hs_grad) ile yoksulluk oranları (poverty) arasındaki ilişkiyi modelleyen bir denklemde (povertŷ = 64.594 - 0.591 * hs_grad) eğim katsayısı -0.591 olarak bulunmuştur. Bu katsayının doğru yorumu şöyledir: “ABD ilçeleri arasında, lise mezuniyet oranındaki her bir yüzde puanlık artış, ortalama yoksulluk oranında yaklaşık 0.591 yüzde puanlık bir düşüşle ilişkilidir.”
Modelin genel özetini görmek ve açıklama gücünü anlamak için summary() fonksiyonu kullanılır. Bu fonksiyonun çıktısı model hakkında detaylı istatistiksel bilgiler sunar:
Artık Standart Hata (Residual Standard Error): Modelin tahminlerinin, gerçek gözlem değerlerinden ortalama olarak ne kadar saptığını gösteren bir ölçüttür. Yanıt değişkeni (Y) ile aynı birimdedir ve modelin tipik tahmin hatasının büyüklüğünü yansıtır. Daha düşük bir değer, modelin veri noktalarına daha yakın olduğunu gösterir.
Multiple R-squared (R²): Belirlilik katsayısı olarak da bilinen R2, yanıt değişkenindeki (Y) toplam değişkenliğin yüzde kaçının açıklayıcı değişken (X) tarafından açıklandığını gösterir. 0 ile 1 arasında bir değer alır. Örneğin, R² = 0.97 ise bu, Y’deki değişkenliğin %97’sinin X ile olan doğrusal ilişki tarafından açıklandığı anlamına gelir. Bu, modelin açıklama gücünün yüksek olduğunu gösterir. [Basit doğrusal regresyonda R2 değerinin önemli bir yorumu daha vardır: Bu değer bölümün devamında ele alınan korelasyon katsayısının (r) karesine eşittir (R² = r²). Bu bağlantı, korelasyonun ilişkinin gücünü nasıl ölçtüğünü ve regresyon modelinin bu gücü varyansın ne kadarını açıkladığına nasıl dönüştürdüğünü matematiksel olarak birleştirir].
Adjusted R-squared: R2 değerinin, modele eklenen değişken sayısına göre düzeltilmiş bir versiyonudur. Özellikle çoklu regresyon modellerinde yeni değişkenlerin eklenmesiyle R2’nin şişmesini engellemek için kullanılır. Eklediğimiz değişken sayısına göre düzeltme yapan R2 değeri Adjusted R2 değeridir. Adjusted R2 değeri her zaman R2 değerinden daha küçüktür. (R2’yi anlamak için boş modelle kıyaslama yapmak gerekir).
Bir regresyon modelini kurduktan sonraki adım, yalnızca genel metrikleri incelemek değil, aynı zamanda modelin bireysel gözlemler üzerindeki performansını analiz etmek ve en önemlisi, modeli yeni veriler üzerinde tahmin yapmak için kullanmaktır.
R’da, bir lm nesnesinden modele özgü bilgileri çıkarmak için çeşitli fonksiyonlar bulunur. fitted.values() fonksiyonu, modelin her bir gözlem için tahmin ettiği takma değerleri (ŷ) bir vektör olarak döndürür. Benzer şekilde, residuals() fonksiyonu da her bir gözlem için artık değerleri (e = Y - ŷ) döndürür.
broom paketindeki augment() fonksiyonu, bir lm model nesnesine .fitted ve .resid gibi sütunları ekler.
Bir regresyon modelinin en pratik uygulamalarından biri daha önce
görülmemiş veriler için tahminlerde bulunmaktır. Bu işlem
predict() fonksiyonu ile gerçekleştirilir. Fonksiyon model
nesnesini ve newdata argümanını alır. Örneğin;
predict(model_nesnesi, newdata = new_data)
Burada dikkat edilmesi gereken bir nokta, newdata argümanına sağlanan veri çerçevesinin, orijinal modeli kurarken kullanılan açıklayıcı değişkenle aynı isme sahip bir sütun içermesi gerektiğidir.
Örneğin, hgt_wgt_mod adında, boy (hgt) ile
ağırlığı (wgt) modelleyen bir regresyon modelimiz olsun.
ben adında, tek bir kişinin boy bilgisini içeren yeni bir veri çerçevesi
oluşturalım:
#ben veri çerçevesi
# hgt wgt
#182.8 74.8
Bu kişinin boyuna göre beklenen ağırlığını tahmin etmek için
predict() fonksiyonu şu şekilde kullanılır:
# predict(hgt_wgt_mod, newdata = ben)
# 1
#81.00909
Yorum: Model, 182.8 cm boyundaki bir bireyin beklenen ortalama ağırlığının 81.01 kg olacağını tahmin eder.
Regresyon analizi, değişkenler arasındaki ilişkiyi anlamak ve bir değişkendeki değişimi diğer değişkenler aracılığıyla açıklamak için kullanılan güçlü bir istatistiksel araçtır. Bu analizin temel gücü, dayandığı modelin güvenilirliğine ve verileri ne kadar doğru temsil ettiğine bağlıdır. Modelin güvenilirliği, belirli gözlemlerin model katsayıları üzerinde orantısız bir etkiye sahip olmasından etkilenir. Aykırı değerler veya kaldıraç noktaları olarak adlandırılan bu tür gözlemler, regresyon doğrusunun eğimini ve kesişim noktasını tek başlarına önemli ölçüde değiştirebilir. Bu durum, modelin verilerdeki genel eğilimi yansıtmak yerine birkaç istisnai noktaya aşırı uyum sağlamasına yol açarak genel geçerliliğini ve tahmin gücünü zayıflatır.
Bir regresyon modelinin performansını objektif bir şekilde değerlendirebilmek için, modelin verilere ne kadar iyi uyum sağladığını ölçen temel istatistiksel metrikleri anlamak gerekir. Bu metrikler modelin açıklayıcı gücünü ve tahmin doğruluğunu nicel olarak ifade eder. Bununla birlikte modelin genel performansına dair bir başlangıç noktası sunarak, tekil gözlemlerin model üzerindeki potansiyel orantısız etkilerini teşhis etme sürecinin ilk adımını oluştururlar. Bu bölümün devamında, model uyumunu değerlendirmede en sık kullanılan iki temel metrik olan Hataların Kareleri Toplamı (SSE) ve Belirlilik Katsayısı (R²) açıklanmıştır.
Hataların Kareleri Toplamı (Sum of Squared Errors - SSE), regresyon analizinin temelini oluşturan en küçük kareler kriterinin merkezinde yer alan bir metriktir. Her bir gözlemlenen değer ile modelin o gözlem için tahmin ettiği değer arasındaki dikey mesafeyi ifade eden artıkların karelerinin toplanmasıyla elde edilir.
Örnek: Analiz edilen possum veri setinde, kuyruk uzunluğuna dayalı regresyon modeli için SSE değeri 1301.488 olarak hesaplanmıştır. Karşılaştırma için, hiçbir açıklayıcı değişken içermeyen ve yalnızca yanıt değişkeninin ortalamasını tahmin eden boş (null) model için bu değer 1913.826’dır. Bu temel modelin hata kareleri toplamı (SST) yanıt değişkenindeki toplam değişkenliği temsil eder.
Belirlilik Katsayısı (R²), bir regresyon modelinin yanıt değişkenindeki (y) değişkenliğin yüzde kaçını açıklayabildiğini gösteren metriklerden biridir. Bu metrik kurulan modelin performansını, hiçbir öngörü sunmayan ve her gözlem için sadece yanıt değişkeninin ortalamasını tahmin eden boş model ile kıyaslayarak bir referans noktası oluşturur. Tek açıklayıcı değişkenli en küçük kareler regresyon modelleri için R² değeri, korelasyon katsayısının karesine (r²ₓ,ᵧ) eşittir.
$$ R² = 1 - SSE / SST $$
SSE, kurulan modelin hata kareleri toplamı iken, SST ise boş modelin hata kareleri toplamı, yani yanıt değişkenindeki toplam değişkenliktir. R² değeri 0 ile 1 arasında değişir ve 1’e yaklaştıkça modelin açıklama gücü artar. Yüksek bir R² değeri, modelin genel veri yapısına uyum sağladığı yanılsamasını yaratırken, aslında bu uyumun birkaç gözlem tarafından etkilendiği gerçeğini maskeleyebilir. Bu durum, genel uyum metriklerinin ötesine bakmamızı sağlar.
Kaldıraç, bir gözlemin açıklayıcı değişken (x-ekseni) değerinin,
diğer gözlemlerin ortalamasından ne kadar uzakta olduğunu ölçen bir
metriktir. Bir gözlemin kaldıraç değeri ne kadar yüksekse, regresyon
doğrusu üzerinde potansiyel olarak o kadar fazla çekme gücüne sahiptir.
Burada kritik olan nokta, kaldıracın yalnızca açıklayıcı değişkenin (x)
konumuna bağlı olmasıdır; gözlemin yanıt değişkeni (y) değerinin
kaldıraç hesaplamasına hiçbir yoktur. Yatay eksende merkezden uzaklaşan
noktaların kaldıraç değeri artarken, merkeze yakın olan noktaların
kaldıraç değeri düşüktür. Kaldıraç augment () çıktısındaki
.hat () sütununda bulunur.
Bir gözlemin etkili (influential) olarak tanımlanması, o gözlemin veri setinden çıkarılması durumunda regresyon modelinin katsayılarında (eğim ve kesişim noktası) ne kadar büyük bir değişiklik olacağını ifade eder. Bir gözlemin etkili olabilmesi için genellikle iki özelliğin bir araya gelmesi gerekir: yüksek kaldıraç ve büyük bir artık. Yüksek kaldıracı olan bir nokta, eğer aynı zamanda regresyon doğrusundan dikey olarak da uzaksa (büyük artık), doğruyu kendine doğru çekerek model üzerinde önemli bir etki yaratır.
Cook’s distance, bir gözlemin toplam etkisini ölçmek için standart olarak kullanılan bir metriktir. Bu metrik her bir gözlemin hem kaldıraç değerini hem de artık değerini tek bir sayıda birleştirerek, o gözlemin ne kadar etkili olduğunu nicel olarak ortaya koyar.
.cooksd
Bir analistin veri setinden bir gözlemi çıkarmayı düşünmeden önce sorması gereken ilk ve en önemli soru şudur: “Gözlemi çıkarmak için geçerli bir gerekçe nedir?” “Sonuçlarımı iyileştiriyor” veya “R² değerini yükseltiyor” gibi argümanlar, bir veri noktasını çıkarmak için geçerli bir bilimsel gerekçe değildir. Geçerli olduğu bilinen verileri, sadece modelin uyumunu artırmak amacıyla bilinçli olarak göz ardı etmek, bilimsel dürüstlüğe aykırıdır. Bu tür uygulamalar, bilimsel çalışmalarda bulguların geri çekilmesine dahi yol açabilmektedir. Bir veri noktasını analizden çıkarmak için analist veri giriş hatası, ölçüm cihazı arızası veya gözlemin çalışılan popülasyonun bir parçası olmadığının kanıtlanması gibi geçerli gerekçeler sunmalıdır.
Bir gözlemi çıkarmadan önce yanıtlanması gereken ikinci zorunlu soru ise şudur: “Bu durum, modelin çıkarım kapsamını (scope of inference) nasıl değiştirir?” Veri setinden belirli bir alt grubun (örneğin, bir ülkeler analizinde en fakir ülkelerin tamamının etkili gözlem olarak çıkarılması) sistematik olarak çıkarılması, modelin artık tüm popülasyonu temsil etmediği anlamına gelir. Bu durumda, modelin sonuçları artık “tüm ülkeler” için değil, yalnızca geriye kalan “fakir olmayan ülkeler” için geçerli olacaktır. Çıkarım kapsamında meydana gelen bu daralmayı göz ardı etmek veya yanlış yorumlamak, analizin bir kusuru olabilir ve sonuçların tamamen yanlış anlaşılmasına yol açabilir.
Notlar:
Cook’s D —> 4 / N
# library (olsrr)
# ols_plot_cooksd_bar (model)
DFBETA —> (p + 1 / N)
# ols_plot_dfbetas (model)
# influence.measures(model, infl =influence(model))
leverage (kaldıraç) (hi)
# library (olsrr)
# ols_plot_resid_lev (model)
influence (etki)
# ols_plot_dffits (model)
Standart çoklu regresyon modelleri, bir açıklayıcı değişkenin sonuç üzerindeki etkisinin, modeldeki diğer değişkenlerin değerinden bağımsız ve sabit olduğunu varsayar ancak gerçek dünyadaki ilişkiler nadiren bu kadar basittir. Etkileşim terimleri, bu kısıtlamayı ortadan kaldırarak bir değişkenin etkisinin başka bir değişkenin seviyesine göre değişmesine olanak tanır. Bu yaklaşım, daha esnek, gerçekçi ve yorumlama gücü yüksek modeller oluşturmamızı sağlar.
Paralel eğimler modeli çoklu regresyonun temel uygulamalarından biridir ve bir sürekli ile bir kategorik değişkenin sonuç değişkeni üzerindeki etkilerini aynı anda modellememize olanak tanır. Modelin adından da anlaşılacağı gibi temel varsayımı oldukça nettir: sürekli değişkenin sonuç değişkeni üzerindeki etkisi (yani eğim), kategorik değişkenin her bir grubu için aynıdır. Bu, her grup için çizilen regresyon doğrularının birbirine paralel olduğu anlamına gelir.
Bir örnek olarak, ggplot2 paketindeki mpg
veri setini kullanarak araçların otoyol yakıt verimliliğini
(hwy) modelleyelim. Açıklayıcı değişkenlerimiz motor hacmi
(displ - sürekli) ve aracın üretim yılıdır
(year - kategorik, 1999 ve 2008). Motor hacminin
(displ) yakıt verimliliği (hwy) üzerindeki
etkisi, hem 1999 model araçlar için hem de 2008 model araçlar için
sabittir. Başka bir deyişle, motor hacmindeki bir birimlik artışın yakıt
verimliliğinde yarattığı değişim, aracın yeni ya da eski olmasından
etkilenmez.
Bu modeli lm() fonksiyonu ile aşağıdaki gibi
oluşturabiliriz.
library (ggplot2)
lm(formula = hwy ~ displ + factor(year), data = mpg)
##
## Call:
## lm(formula = hwy ~ displ + factor(year), data = mpg)
##
## Coefficients:
## (Intercept) displ factor(year)2008
## 35.276 -3.611 1.402
Yukarıdaki çıktıdaki katsayıların yorumu aşağıdaki gibidir:
Intercept (35.276): Bu katsayı,
modeldeki referans kategorisi (bu durumda 1999 yılı) için kesim
noktasıdır. Teorik olarak, motor hacmi 0 litre olan bir 1999 model
aracın beklenen otoyol yakıt verimliliğinin 35.276 MPG olduğunu ifade
eder. Bu değer, displ değişkeninin veri setindeki aralığı
sıfırı içermediği için pratik bir yorumdan çok, modelin başlangıç
noktasını belirleyen matematiksel bir sabittir.
displ (-3.611): Bu, modelin paralel
eğim kısmını temsil eden ortak eğim katsayısıdır. Bu katsayı, araç 1999
ya da 2008 model olsun fark etmeksizin, motor hacmindeki her bir
litrelik artışın, otoyol yakıt verimliliğini ortalama 3.611 MPG
azalttığını gösterir.
factor(year)2008 (1.402): Bu
katsayı, 2008 model araçların regresyon doğrusunun, 1999 model araçların
doğrusuna göre dikey olarak ne kadar yukarıda olduğunu belirtir. Aynı
motor hacmine sahip bir 2008 model aracın, 1999 model bir araca kıyasla
ortalama 1.402 MPG daha yüksek yakıt verimliliğine sahip olduğu yorumu
yapılır.
Bu model, 1999 ve 2008 yılları için iki farklı kesim noktasına sahip ancak eğimleri aynı olan iki paralel doğru üretir ancak motor teknolojisindeki gelişmeler göz önüne alındığında, motor hacminin verimlilik üzerindeki etkisinin yıllara göre değişmediği varsayımı her zaman geçerli olmayabilir. Bu bölümün devamında bu kısıtlamayı nasıl aşabileceğimizi ve nasıl daha gerçekçi bir model kurabileceğimizi inceleyeceğiz.
library(broom)
data_space <- ggplot(data = mpg, aes(x = displ, y = hwy, color = factor(year))) +
geom_point()
mod <- lm(hwy ~ displ + factor(year), data = mpg)
augment(mod)
## # A tibble: 234 × 9
## hwy displ `factor(year)` .fitted .resid .hat .sigma .cooksd .std.resid
## <int> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 29 1.8 1999 28.8 0.224 0.0143 3.79 0.0000173 0.0597
## 2 29 1.8 1999 28.8 0.224 0.0143 3.79 0.0000173 0.0597
## 3 31 2 2008 29.5 1.54 0.0158 3.79 0.000908 0.412
## 4 30 2 2008 29.5 0.544 0.0158 3.79 0.000113 0.145
## 5 26 2.8 1999 25.2 0.835 0.00916 3.79 0.000152 0.222
## 6 26 2.8 1999 25.2 0.835 0.00916 3.79 0.000152 0.222
## 7 27 3.1 2008 25.5 1.52 0.00938 3.79 0.000512 0.403
## 8 26 1.8 1999 28.8 -2.78 0.0143 3.78 0.00265 -0.740
## 9 25 1.8 1999 28.8 -3.78 0.0143 3.78 0.00490 -1.01
## 10 28 2 2008 29.5 -1.46 0.0158 3.79 0.000807 -0.388
## # ℹ 224 more rows
data_space +
geom_line(data = augment (mod), aes(y = .fitted, color = `factor(year)`))
Etkileşim terimleri bir modelin esnekliğini ve açıklama gücünü önemli ölçüde artıran bir araçtır. Temel mantığı, bir açıklayıcı değişkenin sonuç değişkeni üzerindeki etkisinin, başka bir açıklayıcı değişkenin değerine bağlı olarak değişmesine izin vermektir. Bu, paralel doğrular varsayımını ortadan kaldırır ve her bir grup için farklı eğimlere sahip regresyon doğruları oluşturulmasını sağlar. Böylelikle değişkenler arasındaki daha karmaşık ilişkiler yakalanabilir.
mpg veri setindeki ilişkiyi görselleştirdiğimizde,
etkileşimli bir modele neden ihtiyaç duyabileceğimize dair güçlü
kanıtlar buluruz. Aşağıdaki grafikte, displ ve
hwy arasındaki ilişki, üretim yılına (year)
göre ayrı regresyon doğruları ile gösterilmiştir.
ggplot(data = mpg, aes(x = displ, y = hwy, color = factor(year))) +
geom_point() +
geom_smooth(method = "lm", se = 0)
## `geom_smooth()` using formula = 'y ~ x'
Bu grafikteki iki doğrunun birbirine paralel olmadığı açıkça görülmektedir. Bu durum, motor hacminin yakıt verimliliği üzerindeki negatif etkisinin 1999 ve 2008 model araçlar için farklı olabileceğini gösterir. Dolayısıyla, paralel eğimler varsayımı bu veri seti için geçerli olmayabilir ve sorgulanması gerekir.
Etkileşimli bir model oluşturmak için formüle küçük bir ekleme yapılır. İki değişken arasındaki etkileşimi belirtmek için aralarına kolon (:) operatörü konur. Bu, R’a iki değişkenin ana etkilerinin yanı sıra bu değişkenlerin çarpımını temsil eden yeni bir terimi de modele dahil etmesini söyler.
lm(hwy ~ displ + factor(year) + displ:factor(year), data = mpg)
##
## Call:
## lm(formula = hwy ~ displ + factor(year) + displ:factor(year),
## data = mpg)
##
## Coefficients:
## (Intercept) displ factor(year)2008
## 35.7922 -3.7684 0.3445
## displ:factor(year)2008
## 0.3052
Bu formül, hwy’yi displ, year ve bu ikisinin etkileşiminin bir fonksiyonu olarak modelleyecektir. Bu yeni model her bir yıl için hem kesim noktasının hem de eğimin farklı olmasına olanak tanır.
Etkileşimli bir modeldeki katsayıları yorumlamak, paralel eğimler modeline kıyasla daha fazla dikkat ve bağlam bilgisi gerektirir. Katsayılar her koşulda geçerli bir etkiyi değil, belirli bir koşul altındaki (genellikle referans kategorisi) etkiyi veya bu etkinin diğer kategoriye göre nasıl değiştiğini temsil eder.
Etkileşimli modelin çıktısı aşağıdaki gibidir:
Her bir katsayının ne anlama geldiğini inceleyelim:
(Intercept) (35.7922): Bu değer,
referans grubumuz olan 1999 yılı için kesim noktasıdır. displ değeri
sıfır olduğunda 1999 model bir arabanın beklenen hwy değerini
gösterir.
displ (-3.7684): Bu değer, yine
referans grubumuz olan 1999 yılı için displ değişkeninin eğimidir. 1999
model araçlarda motor hacmindeki her bir litrelik artış, otoyol yakıt
verimliliğini (hwy) ortalama 3.77 MPG azaltmaktadır.
factor(year)2008 (0.3445): Bu
katsayı, 2008 yılı için kesim noktasındaki değişimi gösterir.
2008 model bir aracın kesim noktası, 1999 model bir aracın kesim
noktasına (35.7922) 0.3445 eklenerek bulunur.
displ:factor(year)2008 (0.3052): Bu
katsayı, 2008 yılı için motor hacmi eğimindeki değişimi temsil
eder. 2008 model araçların eğimi, 1999 model araçların eğiminden 0.3052
daha fazladır (daha az negatiftir).
Bu katsayıları kullanarak her yıl için spesifik eğimleri hesaplayabiliriz:
1999 yılı için eğim: Bu, referans grubunun eğimi olduğu için doğrudan displ katsayısına eşittir: -3.77.
2008 yılı için eğim: Bu eğimi hesaplamak için displ katsayısını ve etkileşim terimi katsayısını toplarız: -3.77 + 0.3052 = -3.46 (yuvarlanmış değerlerle -3.77 + 0.31 = -3.46).
Yorum: Yakıt verimliliği, eski model arabalarda motor hacminin bir fonksiyonu olarak daha hızlı düşmektedir. 2008 model araçların genel olarak daha yüksek yakıt verimliliğine sahip olması sadece ortalama olarak daha küçük motorlara sahip olmalarından kaynaklanmıyor olabilir. Bu bulgu, 2008 model araçların mühendislik açısından daha başarılı olduğunu ve daha büyük motor hacimlerinde bile yakıt verimliliğini koruma konusunda göreceli olarak daha iyi performans gösterdiğini öne sürmektedir.
Bu bölüm babies veri seti ile oluşturulan bir örnek üzerinden
bebeklerin doğum ağırlığını etkileyen çeşitli faktörleri incelemek
amacıyla gerçekleştirilen çoklu regresyon analizinin bulgularıyla
açıklanacaktır. Analiz, 1960 ve 1967 yılları arasında San Francisco’da
gerçekleşen doğumlara ait veriler kullanılarak yapılmıştır. İlk aşamada,
doğum ağırlığı (bwt) bağımlı değişken olarak ele alınmış ve
temel açıklayıcı değişkenler olarak gebelik süresi
(gestation) ile anne yaşı (age) modele dahil
edilmiştir.
Başlangıçta kurulan bu basit modelin, annenin sigara içme durumu
(smoke) gibi kritik bir kategorik değişkeni içerecek
şekilde nasıl genişletildiği gösterilmiştir. Model katsayılarının “diğer
değişkenler sabitken” nasıl yorumlandığı açıklanmıştır. Son olarak,
annenin boyu ve kilosu gibi ek değişkenlerin de dahil edildiği daha
kapsamlı bir model sunulmuştur.
Model, başlangıç olarak doğum ağırlığı ile iki sürekli sayısal değişken (gebelik süresi ve anne yaşı) arasındaki ilişkiyi açıklamayı hedefler. Geometrik olarak bu model, üç boyutlu bir uzayda (doğum ağırlığı, gebelik süresi ve anne yaşı eksenlerinde) tek bir regresyon düzlemi ile temsil edilir. Bu yaklaşım, basit doğrusal regresyonun ötesine geçerek birden fazla faktörün etkisini aynı anda değerlendirmemize olanak tanır.
Doğum ağırlığını (bwt) ons cinsinden tahmin etmek için
gebelik süresini (gestation) gün cinsinden ve anne yaşını
(age) yıl cinsinden kullanan ilk modelin formülasyonu
aşağıdaki gibidir: \[𝑏𝑤𝑡\^ = 𝛽̂₀ + 𝛽̂₁ ⋅
𝑔𝑒𝑠𝑡𝑎𝑡𝑖𝑜𝑛 + 𝛽̂₂ ⋅ 𝑎𝑔𝑒\]
Bu denklemde 𝑏𝑤𝑡^ tahmini doğum ağırlığını, 𝛽̂₀ kesim noktasını (intercept), 𝛽̂₁ gebelik süresinin katsayısını ve 𝛽̂₂ anne yaşının katsayısını temsil etmektedir.
Bu modelin sonucunda elde edilen katsayılar aşağıdaki gibidir.
library (openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
lm(formula = bwt ~ gestation + age, data = babies)
##
## Call:
## lm(formula = bwt ~ gestation + age, data = babies)
##
## Coefficients:
## (Intercept) gestation age
## -15.5226 0.4676 0.1657
Çoklu regresyon modellerinin en güçlü yönlerinden biri, bir değişkenin sonuç üzerindeki etkisini diğer değişkenlerin etkisinden arındırarak analiz etme yeteneğidir. Bu nedenle model katsayılarını yorumlarken “diğer değişkenler sabitken” (ceteris paribus) ilkesi uygulanır.
Gebelik süresi (gestation) katsayısının etkisi: Modelde
gestation değişkeni için elde edilen katsayı 0.4676’dır. Bu katsayının
yorumu şu şekildedir:
Bu, annenin 25 yaşında ya da 35 yaşında olmasından bağımsız olarak, gebelik süresinin doğum ağırlığı üzerindeki etkisinin sabit olduğu anlamına gelir.
Anne yaşı (age) katsayısının etkisi: Benzer şekilde,
age değişkeni için elde edilen katsayı 0.1657’dir. Bu
değerin yorumu ise şöyledir:
Bu oran, bebeğin 38 haftalık (266 gün) ya da 40 haftalık (280 gün) doğmasından bağımsız olarak tüm gebelik süreleri için aynı kalmaktadır. Her ikisi de zamanında doğum yapmış (örneğin 280 günlük gebelik süresi) 36 yaşındaki bir annenin bebeğinin, 35 yaşındaki bir annenin bebeğinden yaklaşık 0.17 ons daha ağır olmasını ifade eder.
Özetle, çoklu regresyon analizinde bir katsayıyı yorumlarken, “diğer [değişken(ler)] sabit tutulduğunda” veya “[değişken(ler)] kontrol edildikten sonra” gibi ifadelerin kullanılması, bulguların doğru ve yanıltıcı olmayan bir şekilde aktarılması için oldukça önemlidir.
Mevcut model yalnızca iki sayısal değişken içermektedir. Şimdi, doğum ağırlığı analizlerinde önemli bir faktör olan sigara içme durumunu kategorik bir değişken olarak modele dahil ederek analizi daha da geliştireceğiz. Analizi daha gerçekçi ve kapsamlı hale getirmek için, modele annenin sigara içme durumunu (smoke) temsil eden kategorik bir değişken ekliyoruz. İkili bir kategorik değişkenin eklenmesi, tek regresyon düzlemini ikiye ayırır. Bu düzlemler paraleldir, bu da gebelik süresi ve anne yaşının etkilerinin hem sigara içenler hem de içmeyenler için aynı olduğunun varsayıldığı anlamına gelir. Bu nedenle smoke katsayısı bu iki düzlem arasındaki sabit dikey mesafeyi temsil eder.
Sigara içme durumu (0 = içmiyor, 1 = içiyor) değişkeninin eklendiği yeni ve genişletilmiş modelin matematiksel formülasyonu şöyledir:
𝑏𝑤𝑡^ = 𝛽̂₀ + 𝛽̂₁ ⋅ 𝑔𝑒𝑠𝑡𝑎𝑡𝑖𝑜𝑛 + 𝛽̂₂ ⋅ 𝑎𝑔𝑒 + 𝛽̂₃ ⋅ 𝑠𝑚𝑜𝑘𝑒
Bu genişletilmiş modelin analizi sonucunda elde edilen yeni katsayılar aşağıda listelenmiştir:
lm(bwt ~ gestation + age + smoke, data = babies)
##
## Call:
## lm(formula = bwt ~ gestation + age + smoke, data = babies)
##
## Coefficients:
## (Intercept) gestation age smoke
## -4.6037 0.4455 0.1069 -8.0143
Bu katsayıların yorumu, yine diğer değişkenler sabitken ilkesine dayanmaktadır, ancak artık kontrol edilen değişken sayısı artmıştır:
gestation ve age: Bu katsayıların değerleri, bir önceki modele kıyasla değişmiştir (gestation 0.47’den 0.45’e, age 0.17’den 0.11’e düşmüştür). Bu değişimin nedeni, smoke değişkeninin karıştırıcı (confounding) bir değişken olarak hareket etmesidir. İlk model, aslında sigara içmeyle ilişkili olan etkinin bir kısmını yanlışlıkla gestation ve age değişkenlerine atfetmişti. Yeni model, sigara içme durumunu kontrol ederek bu değişkenlerin etkilerinin daha doğru bir tahminini sunmaktadır.
smoke (-8.0143): Aynı gebelik süresine sahip ve aynı yaşta olan iki anne karşılaştırıldığında, sigara içen annenin bebeğinin beklenen doğum ağırlığının, sigara içmeyen annenin bebeğine göre ortalama 8 ons (yaklaşık yarım pound) daha düşük olduğu tahmin edilmektedir. Bu, modeldeki diğer değişkenlerin etkisine kıyasla çok büyük bir etkidir ve sigara içmenin doğum ağırlığı üzerindeki güçlü negatif ilişkisini ortaya koymaktadır.
Bu model sigara içmenin önemli bir faktör olduğunu göstermektedir ancak annenin boyu ve kilosu gibi diğer fiziksel özellikler de doğum ağırlığını etkileyebilir. Bu ek değişkenleri de içeren nihai bir modelle bulguları derinleştirebiliriz:
Annenin boyu (height), doğum öncesi kilosu
(weight) ve bu doğumun ilk hamileliği olup olmadığı
(parity) gibi ek açıklayıcı değişkenleri içeren nihai ve
kapsamlı bir modelle [her şeyi içeren (kitchen sink)] birincil bulgunun
yani sigara içmenin etkisi sınanabilir. smoke katsayısının
diğer birçok makul faktör kontrol edildikten sonra bile büyük ve negatif
kalıp kalmadığını göstererek, sonuca olan güvenimizi artırabiliriz.
lm(bwt ~ gestation + age + smoke + height + weight + parity,
data = babies)
##
## Call:
## lm(formula = bwt ~ gestation + age + smoke + height + weight +
## parity, data = babies)
##
## Coefficients:
## (Intercept) gestation age smoke height weight
## -80.41085 0.44398 -0.00895 -8.40073 1.15402 0.05017
## parity
## -3.32720
Tüm bu değişkenlerin dahil edildiği bu kapsamlı modeldeki bulgular incelendiğinde, sigara içme durumunun (smoke = -8.40) doğum ağırlığı üzerindeki güçlü ve negatif etkisinin, modele çok sayıda yeni değişken eklenmesine rağmen hala devam ettiği görülmektedir. Dikkat çekici bir diğer nokta ise, age katsayısının bu modelde negatife dönmesidir. Bu işaret değişikliği çoklu regresyonda sıkça karşılaşılan bir durumdur ve çoklu doğrusallık (multicollinearity) veya baskılayıcı etkiler (suppressor effects) gibi karmaşık ilişkileri yansıtabilir. Bu, herhangi bir değişkenin etkisinin, modelde bulunan diğer değişkenlere bağlı olduğunun önemli bir istatistiksel göstergesidir. Sigara (smoke) katsayısı -8.40 ons olarak bulunmuştur. Bir ons yaklaşık 28.35 gram olduğundan, bu etki yaklaşık 240 gramlık bir azalmaya karşılık gelir. Raporun bu aşamasındaki ana bulguyu şu şekilde özetleyebiliriz: Buradaki temel bulgu, gebelik süresi, annenin yaşı, boyu, kilosu ve daha önce hamile kalıp kalmadığı kontrol edildikten sonra, sigara içen annelerin bebeklerinin beklenen doğum ağırlığının, içmeyen annelere göre 240 gram daha düşük olmasıdır. Bu sonuç, sigara içmenin doğum ağırlığı üzerindeki istikrarlı ve önemli negatif etkisini güçlü bir şekilde teyit etmektedir.
Çoklu regresyon eşitliğini elde etmeden önce değişkenlerin her biri standartlaştırılırsa (0,1) sonuçlar standart sapma birimlerince ifade edilir. Bağımsız değişkenler arasında korelasyon olduğunda, standartlaştırılmış eğim katsayısı bağımlı değişken ile bağımsız değişken arasındaki korelasyon katsayısı değildir.
Bir çoklu regresyon modelinde bir bağımsız değişken ile bağımlı değişken arasındaki ilişkinin büyüklüğü diğer bir bağımsız değişkenin düzeyine göre değişirse etkileşim gözlenir. Bağımsız değişkenlerin farklı kategorileri arasındaki etkileşimin farklı olmasına moderasyon etkisi denir.
Çoklu regresyonun en önemli varsayımı çoklu bağlantı olmamasıdır. İki değişken arasında yüksek ilişki varsa bu değişkenler tek bir değişken gibi davranırlar. Bu istemediğimiz bir durumdur. Dolayısıyla çaprazlanmış değişkenleri aldığımızda çoklu bağlantı problemi çıkacağı için bunları doğrudan çarparak denkleme alamayız (çoklu bağlantı değişkenler arasında .80 ve üzerinde ilişki olmasıdır). Ne yapmalıyız? Eğer bu değişkenlerin ölçeğini değiştirip çarparsak o zaman çoklu bağlantı problemi ortadan kalkar. Merkezlemek de bir yöntemdir. her bir değişkenden ortalamasını çıkararak değişkenleri merkezleyebiliriz. Peki her etkileşim değerini modele koyacak mıyız? Bu sorunun cevabı ise etki büyüklüğünü incelemek.
SONSÖZ
Buraya ekleyeceğim daha çok şey var. Bu konu benim için en az Fransızca öğrenmek kadar zor ama bir o kadar da eğlenceli. Özellikle paralel düzlemler ve daha fazla değişkenin etkisini incelemeye çalıştığımızda modeli resmedemeyeceğimiz bilgisi beni çok heyecanlandırdı. Bazı yerleri defterimden görseller koyarak geçtim çünkü yazarak bitiremeyeceğim sandım. İlkokulda bile ödev bitirememe rüyası görmemiştim ama doktorada bu derste gördüm. 👀
Ödevin teslim tarihini 30 Aralık olarak görünce çok sevinmiştim çünkü baştan sona okuyunca düşündüm ki ancak bitirirdim zaten. 🤦🏻♀️ Geç de olsa devam edeceğim çünkü amacım: öğrenmek
ve “öğrenmek” benim hayattaki en sevdiğim şey 🧠
Bu çalışmanın amacı araştırmaya dayalı öğrenme adı verilen bir öğretim yönteminin, öğrencilerin fen bilimlerine olan bu güvenini, fen öz yeterliğini nasıl etkilediğini anlamaktır.Bu ilişkinin yanında fen bilimlerine ilgi ve öğretmen desteği gibi diğer önemli faktörlerin rolü de incelenmektedir.
PISA 2015 veri setinin kulanıldığı çalışma 57 ülkeden toplam 346.109 öğrencinin verilerini analiz ederek oldukça geniş kapsamlı sonuçlar ortaya koymuştur.
Aşağıdaki tabloda araştırmada kullanılan değişkenler ve bu değişkenlerin rolü gösterilmiştir. Bununla birlikte her değişkenin PISA veri setindeki kodu da tabloda gösterilmiştir.
| Kavram | Anlamı | Araştırmadaki Rolü | ||||
| IBTEACH | Inquiry-Based Learning Araştırmaya Dayalı Öğrenme |
Bağımsız Değişken | ||||
| SCIEEFF | Science Self-Efficacy Fen Öz Yeterliği |
Bağımlı Değişken | ||||
| INTBRSCI | Science Interest Fen Bilimine İlgi |
Aracı Değişken | ||||
| TEACHSUP | Teacher Support Öğretmen Desteği |
Düzenleyici Değişken | ||||
# tüm paketleri en başa toplayalım
library(haven)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
CY6_MS_CMB_STU_QQQ <- read_sav("PISA/CY6_MS_CMB_STU_QQQ.sav")
head(CY6_MS_CMB_STU_QQQ)
## # A tibble: 6 × 921
## CNTRYID CNT CNTSCHID CNTSTUID CYC NatCen Region STRATUM
## <dbl+lbl> <chr+lbl> <dbl> <dbl> <chr> <chr+lbl> <dbl+lbl> <chr+lbl>
## 1 8 [Albania] ALB [Alba… 800001 803627 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## 2 8 [Albania] ALB [Alba… 800001 800454 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## 3 8 [Albania] ALB [Alba… 800001 800893 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## 4 8 [Albania] ALB [Alba… 800001 804180 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## 5 8 [Albania] ALB [Alba… 800001 800491 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## 6 8 [Albania] ALB [Alba… 800001 804249 06MS 000… [Alb… 800 [Alb… ALB… [ALB…
## # ℹ 913 more variables: SUBNATIO <chr+lbl>, OECD <dbl+lbl>,
## # ADMINMODE <dbl+lbl>, Option_CPS <dbl+lbl>, Option_FL <dbl+lbl>,
## # Option_ICTQ <dbl+lbl>, Option_ECQ <dbl+lbl>, Option_PQ <dbl+lbl>,
## # Option_TQ <dbl+lbl>, Option_UH <dbl+lbl>, Option_Read <chr+lbl>,
## # Option_Math <chr+lbl>, LANGTEST_QQQ <dbl+lbl>, LANGTEST_COG <dbl+lbl>,
## # LANGTEST_PAQ <dbl+lbl>, CBASCI <dbl+lbl>, BOOKID <dbl+lbl>,
## # ST001D01T <dbl+lbl>, ST003D02T <dbl+lbl>, ST003D03T <dbl+lbl>, …
# kısa bir isimle çalışmak daha kolay olacak
pisa15 <- CY6_MS_CMB_STU_QQQ
dim(pisa15)
## [1] 519334 921
names(pisa15) # hepsini yazdırmam gerekmezdi, parantez içinde sütunları belirtip daha kısa bir çıktı oluşturabilirdim ama merak ettim
## [1] "CNTRYID" "CNT" "CNTSCHID" "CNTSTUID"
## [5] "CYC" "NatCen" "Region" "STRATUM"
## [9] "SUBNATIO" "OECD" "ADMINMODE" "Option_CPS"
## [13] "Option_FL" "Option_ICTQ" "Option_ECQ" "Option_PQ"
## [17] "Option_TQ" "Option_UH" "Option_Read" "Option_Math"
## [21] "LANGTEST_QQQ" "LANGTEST_COG" "LANGTEST_PAQ" "CBASCI"
## [25] "BOOKID" "ST001D01T" "ST003D02T" "ST003D03T"
## [29] "ST004D01T" "ST005Q01TA" "ST006Q01TA" "ST006Q02TA"
## [33] "ST006Q03TA" "ST006Q04TA" "ST007Q01TA" "ST008Q01TA"
## [37] "ST008Q02TA" "ST008Q03TA" "ST008Q04TA" "ST011Q01TA"
## [41] "ST011Q02TA" "ST011Q03TA" "ST011Q04TA" "ST011Q05TA"
## [45] "ST011Q06TA" "ST011Q07TA" "ST011Q08TA" "ST011Q09TA"
## [49] "ST011Q10TA" "ST011Q11TA" "ST011Q12TA" "ST011Q16NA"
## [53] "ST011D17TA" "ST011D18TA" "ST011D19TA" "ST012Q01TA"
## [57] "ST012Q02TA" "ST012Q03TA" "ST012Q05NA" "ST012Q06NA"
## [61] "ST012Q07NA" "ST012Q08NA" "ST012Q09NA" "ST013Q01TA"
## [65] "ST123Q01NA" "ST123Q02NA" "ST123Q03NA" "ST123Q04NA"
## [69] "ST019AQ01T" "ST019BQ01T" "ST019CQ01T" "ST021Q01TA"
## [73] "ST022Q01TA" "ST124Q01TA" "ST125Q01NA" "ST126Q01TA"
## [77] "ST127Q01TA" "ST127Q02TA" "ST127Q03TA" "ST111Q01TA"
## [81] "ST118Q01NA" "ST118Q02NA" "ST118Q03NA" "ST118Q04NA"
## [85] "ST118Q05NA" "ST119Q01NA" "ST119Q02NA" "ST119Q03NA"
## [89] "ST119Q04NA" "ST119Q05NA" "ST121Q01NA" "ST121Q02NA"
## [93] "ST121Q03NA" "ST082Q01NA" "ST082Q02NA" "ST082Q03NA"
## [97] "ST082Q08NA" "ST082Q09NA" "ST082Q12NA" "ST082Q13NA"
## [101] "ST082Q14NA" "ST034Q01TA" "ST034Q02TA" "ST034Q03TA"
## [105] "ST034Q04TA" "ST034Q05TA" "ST034Q06TA" "ST039Q01NA"
## [109] "ST039Q02NA" "ST039Q03NA" "ST039Q04NA" "ST039Q05NA"
## [113] "ST039Q06NA" "ST059Q01TA" "ST059Q02TA" "ST059Q03TA"
## [117] "ST060Q01NA" "ST061Q01NA" "ST062Q01TA" "ST062Q02TA"
## [121] "ST062Q03TA" "ST071Q01NA" "ST071Q02NA" "ST071Q03NA"
## [125] "ST071Q04NA" "ST071Q05NA" "ST031Q01NA" "ST032Q01NA"
## [129] "ST032Q02NA" "ST063Q01NA" "ST063Q01NB" "ST063Q02NA"
## [133] "ST063Q02NB" "ST063Q03NA" "ST063Q03NB" "ST063Q04NA"
## [137] "ST063Q04NB" "ST063Q05NA" "ST063Q05NB" "ST063Q06NA"
## [141] "ST063Q06NB" "ST064Q01NA" "ST064Q02NA" "ST064Q03NA"
## [145] "ST097Q01TA" "ST097Q02TA" "ST097Q03TA" "ST097Q04TA"
## [149] "ST097Q05TA" "ST098Q01TA" "ST098Q02TA" "ST098Q03NA"
## [153] "ST098Q05TA" "ST098Q06TA" "ST098Q07TA" "ST098Q08NA"
## [157] "ST098Q09TA" "ST098Q10NA" "ST100Q01TA" "ST100Q02TA"
## [161] "ST100Q03TA" "ST100Q04TA" "ST100Q05TA" "ST103Q01NA"
## [165] "ST103Q03NA" "ST103Q08NA" "ST103Q11NA" "ST104Q01NA"
## [169] "ST104Q02NA" "ST104Q03NA" "ST104Q04NA" "ST104Q05NA"
## [173] "ST107Q01NA" "ST107Q02NA" "ST107Q03NA" "ST092Q01TA"
## [177] "ST092Q02TA" "ST092Q04TA" "ST092Q05TA" "ST092Q06NA"
## [181] "ST092Q08NA" "ST092Q09NA" "ST093Q01TA" "ST093Q03TA"
## [185] "ST093Q04TA" "ST093Q05TA" "ST093Q06TA" "ST093Q07NA"
## [189] "ST093Q08NA" "ST094Q01NA" "ST094Q02NA" "ST094Q03NA"
## [193] "ST094Q04NA" "ST094Q05NA" "ST095Q04NA" "ST095Q07NA"
## [197] "ST095Q08NA" "ST095Q13NA" "ST095Q15NA" "ST113Q01TA"
## [201] "ST113Q02TA" "ST113Q03TA" "ST113Q04TA" "ST129Q01TA"
## [205] "ST129Q02TA" "ST129Q03TA" "ST129Q04TA" "ST129Q05TA"
## [209] "ST129Q06TA" "ST129Q07TA" "ST129Q08TA" "ST131Q01NA"
## [213] "ST131Q03NA" "ST131Q04NA" "ST131Q06NA" "ST131Q08NA"
## [217] "ST131Q11NA" "ST146Q01TA" "ST146Q02TA" "ST146Q03TA"
## [221] "ST146Q04TA" "ST146Q05TA" "ST146Q06NA" "ST146Q07NA"
## [225] "ST146Q08NA" "ST146Q09NA" "ST076Q01NA" "ST076Q02NA"
## [229] "ST076Q03NA" "ST076Q04NA" "ST076Q05NA" "ST076Q06NA"
## [233] "ST076Q07NA" "ST076Q08NA" "ST076Q09NA" "ST076Q10NA"
## [237] "ST076Q11NA" "ST078Q01NA" "ST078Q02NA" "ST078Q03NA"
## [241] "ST078Q04NA" "ST078Q05NA" "ST078Q06NA" "ST078Q07NA"
## [245] "ST078Q08NA" "ST078Q09NA" "ST078Q10NA" "ST078Q11NA"
## [249] "ST065Class" "IC001Q01TA" "IC001Q02TA" "IC001Q03TA"
## [253] "IC001Q04TA" "IC001Q05TA" "IC001Q06TA" "IC001Q07TA"
## [257] "IC001Q08TA" "IC001Q09TA" "IC001Q10TA" "IC001Q11TA"
## [261] "IC009Q01TA" "IC009Q02TA" "IC009Q03TA" "IC009Q05NA"
## [265] "IC009Q06NA" "IC009Q07NA" "IC009Q08TA" "IC009Q09TA"
## [269] "IC009Q10NA" "IC009Q11NA" "IC002Q01NA" "IC003Q01TA"
## [273] "IC004Q01TA" "IC005Q01TA" "IC006Q01TA" "IC007Q01TA"
## [277] "IC008Q01TA" "IC008Q02TA" "IC008Q03TA" "IC008Q04TA"
## [281] "IC008Q05TA" "IC008Q07NA" "IC008Q08TA" "IC008Q09TA"
## [285] "IC008Q10TA" "IC008Q11TA" "IC008Q12TA" "IC008Q13NA"
## [289] "IC010Q01TA" "IC010Q02NA" "IC010Q03TA" "IC010Q04TA"
## [293] "IC010Q05NA" "IC010Q06NA" "IC010Q07TA" "IC010Q08TA"
## [297] "IC010Q09NA" "IC010Q10NA" "IC010Q11NA" "IC010Q12NA"
## [301] "IC011Q01TA" "IC011Q02TA" "IC011Q03TA" "IC011Q04TA"
## [305] "IC011Q05TA" "IC011Q06TA" "IC011Q07TA" "IC011Q08TA"
## [309] "IC011Q09TA" "IC013Q01NA" "IC013Q04NA" "IC013Q05NA"
## [313] "IC013Q11NA" "IC013Q12NA" "IC013Q13NA" "IC014Q03NA"
## [317] "IC014Q04NA" "IC014Q06NA" "IC014Q08NA" "IC014Q09NA"
## [321] "IC015Q02NA" "IC015Q03NA" "IC015Q05NA" "IC015Q07NA"
## [325] "IC015Q09NA" "IC016Q01NA" "IC016Q02NA" "IC016Q04NA"
## [329] "IC016Q05NA" "IC016Q07NA" "EC001Q01NA" "EC001Q02NA"
## [333] "EC001Q03NA" "EC001Q04NA" "EC001Q05NA" "EC001Q06NA"
## [337] "EC001Q07NA" "EC001Q08NA" "EC001Q09NA" "EC001Q10NA"
## [341] "EC003Q01NA" "EC003Q02NA" "EC003Q03NA" "EC003Q04NA"
## [345] "EC003Q05NA" "EC003Q06NA" "EC004Q01NA" "EC004Q02NA"
## [349] "EC005Q01NA" "EC005Q02NA" "EC005Q03NA" "EC005Q04NA"
## [353] "EC005Q05NA" "EC005Q06NA" "EC005Q07NA" "EC005Q08NA"
## [357] "EC007Q01NA" "EC007Q02NA" "EC008Q01NA" "EC008Q02NA"
## [361] "EC008Q03NA" "EC008Q04NA" "EC009Q03NA" "EC009Q07NA"
## [365] "EC009Q10NA" "EC009Q12NA" "EC009Q13NA" "EC009Q14NA"
## [369] "EC010Q04NA" "EC010Q06NA" "EC010Q07NA" "EC010Q08NA"
## [373] "EC010Q09NA" "EC010Q10NA" "EC010Q11NA" "EC010Q12NA"
## [377] "EC011Q01NA" "EC011Q02NA" "EC011Q03NA" "EC011Q04NA"
## [381] "EC011Q05NA" "EC012Q01NA" "EC012Q02NA" "EC012Q03NA"
## [385] "EC012Q04NA" "EC012Q05NA" "EC012Q06NA" "EC012Q07NA"
## [389] "EC012Q08NA" "EC012Q09NA" "EC012Q10NA" "EC012Q11NA"
## [393] "EC012Q12NA" "EC013Q01NA" "EC013Q02NA" "EC013Q03NA"
## [397] "EC013Q04NA" "EC013Q05NA" "EC013Q06NA" "EC013Q07NA"
## [401] "EC013Q08NA" "EC013Q09NA" "EC013Q10NA" "EC013Q11NA"
## [405] "EC013Q12NA" "EC013Q13NA" "EC014Q01NA" "EC014Q02NA"
## [409] "EC015Q01NA" "EC015Q02NA" "EC015Q03NA" "EC015Q04NA"
## [413] "EC015Q05NA" "EC015Q06NA" "EC015Q07NA" "EC015Q08NA"
## [417] "EC017Q01NA" "EC017Q02NA" "EC018Q01NA" "EC018Q02NA"
## [421] "EC018Q03NA" "EC018Q04NA" "EC019Q03NA" "EC019Q07NA"
## [425] "EC019Q10NA" "EC019Q12NA" "EC019Q13NA" "EC019Q14NA"
## [429] "EC020Q04NA" "EC020Q06NA" "EC020Q07NA" "EC020Q08NA"
## [433] "EC020Q09NA" "EC020Q10NA" "EC020Q11NA" "EC020Q12NA"
## [437] "EC021Q01NA" "EC021Q02NA" "EC021Q03NA" "EC021Q04NA"
## [441] "EC021Q05NA" "EC022Q01NA" "EC022Q02NA" "EC022Q03NA"
## [445] "EC022Q04NA" "EC022Q05NA" "EC022Q06NA" "EC022Q07NA"
## [449] "EC022Q08NA" "EC022Q09NA" "EC022Q10NA" "EC022Q11NA"
## [453] "EC022Q12NA" "EC023Q01NA" "EC023Q02NA" "EC023Q03NA"
## [457] "EC023Q04NA" "EC023Q05NA" "EC023Q06NA" "EC023Q07NA"
## [461] "EC023Q08NA" "EC023Q09NA" "EC023Q10NA" "EC023Q11NA"
## [465] "EC023Q12NA" "EC023Q13NA" "EC024Q01NA" "EC024Q02NA"
## [469] "EC024Q03NA" "EC024Q04NA" "EC024Q05NA" "EC024Q06NA"
## [473] "EC024Q07NA" "EC024Q08NA" "EC026Q01NA" "EC026Q02NA"
## [477] "EC027Q01NA" "EC027Q02NA" "EC027Q03NA" "EC027Q04NA"
## [481] "EC028Q01NA" "EC028Q02NA" "EC028Q03NA" "EC029Q01NA"
## [485] "EC030Q01NA" "EC030Q02NA" "EC030Q03NA" "EC030Q04NA"
## [489] "EC030Q05NA" "EC030Q06NA" "EC030Q07NA" "EC031Q01TA"
## [493] "EC032Q01TA" "EC033Q01NA" "PA001Q01TA" "PA001Q02TA"
## [497] "PA001Q03TA" "PA002Q01TA" "PA002Q02TA" "PA002Q03TA"
## [501] "PA002Q04TA" "PA002Q05TA" "PA002Q06NA" "PA002Q07NA"
## [505] "PA002Q08NA" "PA002Q09NA" "PA002Q10NA" "PA003Q01TA"
## [509] "PA003Q02TA" "PA003Q03TA" "PA003Q04NA" "PA003Q05NA"
## [513] "PA003Q06NA" "PA003Q07NA" "PA003Q08NA" "PA004Q01NA"
## [517] "PA004Q02NA" "PA004Q03NA" "PA004Q04NA" "PA005Q01TA"
## [521] "PA006Q01TA" "PA006Q02TA" "PA006Q03TA" "PA006Q04TA"
## [525] "PA006Q05TA" "PA006Q06TA" "PA006Q07TA" "PA006Q08TA"
## [529] "PA006Q09TA" "PA006Q10TA" "PA006Q11TA" "PA007Q01TA"
## [533] "PA007Q02TA" "PA007Q03TA" "PA007Q04TA" "PA007Q05TA"
## [537] "PA007Q06TA" "PA007Q07TA" "PA007Q09NA" "PA007Q11NA"
## [541] "PA007Q12NA" "PA007Q13NA" "PA007Q14NA" "PA007Q15NA"
## [545] "PA008Q01TA" "PA008Q02TA" "PA008Q03TA" "PA008Q04TA"
## [549] "PA008Q05TA" "PA008Q06NA" "PA008Q07NA" "PA008Q08NA"
## [553] "PA008Q09NA" "PA008Q10NA" "PA009Q01NA" "PA009Q02NA"
## [557] "PA009Q03NA" "PA009Q04NA" "PA009Q05NA" "PA009Q06NA"
## [561] "PA009Q08NA" "PA009Q09NA" "PA009Q10NA" "PA009Q11NA"
## [565] "PA011Q01NA" "PA011Q02NA" "PA011Q03NA" "PA014Q01NA"
## [569] "PA018Q01NA" "PA018Q02NA" "PA018Q03NA" "PA019Q01NA"
## [573] "PA019Q02NA" "PA019Q03NA" "PA019Q04NA" "PA019Q05NA"
## [577] "PA019Q06NA" "PA019Q07NA" "PA019Q08NA" "PA020Q01NA"
## [581] "PA020Q02NA" "PA020Q03NA" "PA020Q04NA" "PA021Q01NA"
## [585] "PA021Q02NA" "PA021Q03NA" "PA021Q04NA" "PA022Q01NA"
## [589] "PA023Q01NA" "PA023Q02NA" "PA023Q03NA" "PA023Q04NA"
## [593] "PA023Q05NA" "PA023Q06NA" "PA023Q07NA" "PA023Q08NA"
## [597] "PA026Q01NA" "PA027Q01NA" "PA027Q02NA" "PA027Q03NA"
## [601] "PA027Q04NA" "PA027Q05NA" "PA027Q06NA" "PA027Q07NA"
## [605] "PA027Q08NA" "PA028Q01NA" "PA029Q01NA" "PA030Q01NA"
## [609] "PA032Q01TA" "PA032Q02TA" "PA032Q03TA" "PA032Q04TA"
## [613] "PA032Q05TA" "PA033Q02TA" "PA033Q06TA" "PA033Q07TA"
## [617] "PA033Q08TA" "PA033Q09TA" "PA035Q01TA" "PA035Q03TA"
## [621] "PA035Q04TA" "PA035Q05TA" "PA035Q06TA" "PA035Q07NA"
## [625] "PA035Q08NA" "PA036Q01TA" "PA036Q03TA" "PA036Q04TA"
## [629] "PA036Q05TA" "PA036Q06TA" "PA036Q07NA" "PA036Q08NA"
## [633] "PA039Q01TA" "PA039Q02TA" "PA039Q03TA" "PA039Q04TA"
## [637] "PA039Q05TA" "PA039Q06TA" "PA041Q01TA" "PA042Q01TA"
## [641] "AGE" "PROGN" "ISCEDL" "ISCEDD"
## [645] "ISCEDO" "DISCLISCI" "TEACHSUP" "IBTEACH"
## [649] "TDTEACH" "ENVAWARE" "ENVOPT" "JOYSCIE"
## [653] "INTBRSCI" "INSTSCIE" "SCIEEFF" "EPIST"
## [657] "SCIEACT" "BSMJ" "GRADE" "IMMIG"
## [661] "MISCED" "FISCED" "HISCED" "HOMESCH"
## [665] "ENTUSE" "BMMJ1" "BFMJ2" "hisei"
## [669] "REPEAT" "DURECEC" "OUTHOURS" "MMINS"
## [673] "LMINS" "SMINS" "TMINS" "BELONG"
## [677] "ANXTEST" "MOTIVAT" "COOPERATE" "CPSVALUE"
## [681] "EMOSUPS" "PERFEED" "ADINST" "SCCHANGE"
## [685] "CHANGE" "SADDINST" "HADDINST" "ADDSCIIN"
## [689] "COMSCSUP" "COMSCSTRLE" "COMSCSTRCO" "COMSCTSREL"
## [693] "COMMASUP" "COMMASTRLE" "COMMASTRCO" "COMMATSREL"
## [697] "USESCH" "INTICT" "COMPICT" "AUTICT"
## [701] "SOIAICT" "ICTHOME" "ICTSCH" "PRESUPP"
## [705] "CURSUPP" "EMOSUPP" "PQSCHOOL" "PASCHPOL"
## [709] "PQGENSCI" "PQENPERC" "PQENVOPT" "unfairteacher"
## [713] "PARED" "COBN_F" "COBN_M" "COBN_S"
## [717] "LANGN" "OCOD1" "OCOD2" "OCOD3"
## [721] "CULTPOSS" "HEDRES" "HOMEPOS" "ICTRES"
## [725] "WEALTH" "ESCS" "W_FSTUWT" "W_FSTURWT1"
## [729] "W_FSTURWT2" "W_FSTURWT3" "W_FSTURWT4" "W_FSTURWT5"
## [733] "W_FSTURWT6" "W_FSTURWT7" "W_FSTURWT8" "W_FSTURWT9"
## [737] "W_FSTURWT10" "W_FSTURWT11" "W_FSTURWT12" "W_FSTURWT13"
## [741] "W_FSTURWT14" "W_FSTURWT15" "W_FSTURWT16" "W_FSTURWT17"
## [745] "W_FSTURWT18" "W_FSTURWT19" "W_FSTURWT20" "W_FSTURWT21"
## [749] "W_FSTURWT22" "W_FSTURWT23" "W_FSTURWT24" "W_FSTURWT25"
## [753] "W_FSTURWT26" "W_FSTURWT27" "W_FSTURWT28" "W_FSTURWT29"
## [757] "W_FSTURWT30" "W_FSTURWT31" "W_FSTURWT32" "W_FSTURWT33"
## [761] "W_FSTURWT34" "W_FSTURWT35" "W_FSTURWT36" "W_FSTURWT37"
## [765] "W_FSTURWT38" "W_FSTURWT39" "W_FSTURWT40" "W_FSTURWT41"
## [769] "W_FSTURWT42" "W_FSTURWT43" "W_FSTURWT44" "W_FSTURWT45"
## [773] "W_FSTURWT46" "W_FSTURWT47" "W_FSTURWT48" "W_FSTURWT49"
## [777] "W_FSTURWT50" "W_FSTURWT51" "W_FSTURWT52" "W_FSTURWT53"
## [781] "W_FSTURWT54" "W_FSTURWT55" "W_FSTURWT56" "W_FSTURWT57"
## [785] "W_FSTURWT58" "W_FSTURWT59" "W_FSTURWT60" "W_FSTURWT61"
## [789] "W_FSTURWT62" "W_FSTURWT63" "W_FSTURWT64" "W_FSTURWT65"
## [793] "W_FSTURWT66" "W_FSTURWT67" "W_FSTURWT68" "W_FSTURWT69"
## [797] "W_FSTURWT70" "W_FSTURWT71" "W_FSTURWT72" "W_FSTURWT73"
## [801] "W_FSTURWT74" "W_FSTURWT75" "W_FSTURWT76" "W_FSTURWT77"
## [805] "W_FSTURWT78" "W_FSTURWT79" "W_FSTURWT80" "UNIT"
## [809] "WVARSTRR" "PV1MATH" "PV2MATH" "PV3MATH"
## [813] "PV4MATH" "PV5MATH" "PV6MATH" "PV7MATH"
## [817] "PV8MATH" "PV9MATH" "PV10MATH" "PV1READ"
## [821] "PV2READ" "PV3READ" "PV4READ" "PV5READ"
## [825] "PV6READ" "PV7READ" "PV8READ" "PV9READ"
## [829] "PV10READ" "PV1SCIE" "PV2SCIE" "PV3SCIE"
## [833] "PV4SCIE" "PV5SCIE" "PV6SCIE" "PV7SCIE"
## [837] "PV8SCIE" "PV9SCIE" "PV10SCIE" "PV1SCEP"
## [841] "PV2SCEP" "PV3SCEP" "PV4SCEP" "PV5SCEP"
## [845] "PV6SCEP" "PV7SCEP" "PV8SCEP" "PV9SCEP"
## [849] "PV10SCEP" "PV1SCED" "PV2SCED" "PV3SCED"
## [853] "PV4SCED" "PV5SCED" "PV6SCED" "PV7SCED"
## [857] "PV8SCED" "PV9SCED" "PV10SCED" "PV1SCID"
## [861] "PV2SCID" "PV3SCID" "PV4SCID" "PV5SCID"
## [865] "PV6SCID" "PV7SCID" "PV8SCID" "PV9SCID"
## [869] "PV10SCID" "PV1SKCO" "PV2SKCO" "PV3SKCO"
## [873] "PV4SKCO" "PV5SKCO" "PV6SKCO" "PV7SKCO"
## [877] "PV8SKCO" "PV9SKCO" "PV10SKCO" "PV1SKPE"
## [881] "PV2SKPE" "PV3SKPE" "PV4SKPE" "PV5SKPE"
## [885] "PV6SKPE" "PV7SKPE" "PV8SKPE" "PV9SKPE"
## [889] "PV10SKPE" "PV1SSPH" "PV2SSPH" "PV3SSPH"
## [893] "PV4SSPH" "PV5SSPH" "PV6SSPH" "PV7SSPH"
## [897] "PV8SSPH" "PV9SSPH" "PV10SSPH" "PV1SSLI"
## [901] "PV2SSLI" "PV3SSLI" "PV4SSLI" "PV5SSLI"
## [905] "PV6SSLI" "PV7SSLI" "PV8SSLI" "PV9SSLI"
## [909] "PV10SSLI" "PV1SSES" "PV2SSES" "PV3SSES"
## [913] "PV4SSES" "PV5SSES" "PV6SSES" "PV7SSES"
## [917] "PV8SSES" "PV9SSES" "PV10SSES" "SENWT"
## [921] "VER_DAT"
# cinsiyete göre sayıyı ve ülkeleri görmek istedim
table(pisa15$ST004D01T) # cinsiyet
##
## 1 2
## 260245 259089
table(pisa15$CNT) # ülkeler
##
## ALB ARE AUS AUT BEL BGR BRA CAN CHE CHL COL CRI CZE
## 5215 14167 14530 7007 9651 5928 23141 20058 5860 7053 11795 6866 6894
## DEU DNK DOM DZA ESP EST FIN FRA GBR GEO GRC HKG HRV
## 6504 7161 4740 5519 6736 5587 5882 6108 14157 5316 5532 5359 5809
## HUN IDN IRL ISL ISR ITA JOR JPN KOR KSV LBN LTU LUX
## 5658 6513 5741 3371 6598 11583 7267 6647 5581 4826 4546 6525 5299
## LVA MAC MDA MEX MKD MLT MNE NLD NOR NZL PER POL PRT
## 4869 4476 5325 7568 5324 3634 5665 5385 5456 4520 6971 4478 7325
## QAR QAT QCH QES QUC QUD QUE ROU RUS SGP SVK SVN SWE
## 1657 12083 9841 32330 1652 1398 1887 4876 6036 6115 6350 6406 5458
## TAP THA TTO TUN TUR URY USA VNM
## 7708 8249 4692 5375 5895 6062 5712 5826
# modelde kullanacağım değişkenleri seçtim
pisa_model <- pisa15[, c("CNT",
"BELONG",
"ANXTEST",
"EMOSUPP",
"ST004D01T")]
dim(pisa_model) # kontrol ediyorum, her şey yolunda
## [1] 519334 5
# şimdi de ülkelere göre filtrelemek gerek
pisa_TUR <- pisa_model %>% filter(CNT == "TUR")
pisa_FIN <- pisa_model %>% filter(CNT == "FIN")
# tekrar kontrol ediyorum
dim(pisa_TUR)
## [1] 5895 5
dim(pisa_FIN)
## [1] 5882 5
colSums(is.na(pisa_TUR))
## CNT BELONG ANXTEST EMOSUPP ST004D01T
## 0 91 78 5895 0
colSums(is.na(pisa_FIN))
## CNT BELONG ANXTEST EMOSUPP ST004D01T
## 0 116 110 5882 0
# şu işlemi en başta yapsaydım seçtiğim değişkenin elimden kayıp gitmesini izlemek zorunda kalmayacaktım 🥲🥲🥲
# makaleden farklı olsun istemiştima ama öğretmen desteğini seçip yeniden yapacağım
# modelde kullanacağım değişkenleri yeniden seçtim
pisa_model <- pisa15[, c("CNT",
"BELONG",
"ANXTEST",
"TEACHSUP",
"ST004D01T")]
# tekrar ülkelere göre filtreliyorum
pisa_TUR <- pisa_model %>% filter(CNT == "TUR")
pisa_FIN <- pisa_model %>% filter(CNT == "FIN")
colSums(is.na(pisa_TUR))
## CNT BELONG ANXTEST TEACHSUP ST004D01T
## 0 91 78 642 0
colSums(is.na(pisa_FIN))
## CNT BELONG ANXTEST TEACHSUP ST004D01T
## 0 116 110 285 0
# çok eksik var ama hiç veri olmamasından iyidir. eksik verileri ne yapacağımızı bu derste öğrenmediğimiz için hepsini siliyorum
# sildim
pisa_Tür <- na.omit(pisa_TUR)
pisa_Fin <- na.omit(pisa_FIN)
# R nesnesi olarak kaydedelim
saveRDS(pisa15, file = "pisa15.rds")
saveRDS(pisa_Tür, file = "pisa_Tür.rds")
saveRDS(pisa_Fin, file = "pisa_Fin.rds")
summary(pisa_Tür[, c("BELONG", "ANXTEST", "TEACHSUP")])
## BELONG ANXTEST TEACHSUP
## Min. :-3.1297 Min. :-2.5050 Min. :-2.7195
## 1st Qu.:-1.0740 1st Qu.:-0.3080 1st Qu.:-0.4527
## Median :-0.5064 Median : 0.3233 Median : 0.0966
## Mean :-0.4191 Mean : 0.3228 Mean : 0.1972
## 3rd Qu.: 0.1258 3rd Qu.: 0.8531 3rd Qu.: 1.4475
## Max. : 2.6127 Max. : 2.5493 Max. : 1.4475
summary(pisa_Fin[, c("BELONG", "ANXTEST", "TEACHSUP")])
## BELONG ANXTEST TEACHSUP
## Min. :-3.12970 Min. :-2.5050 Min. :-2.7195
## 1st Qu.:-0.48380 1st Qu.:-0.8455 1st Qu.:-0.3068
## Median :-0.05730 Median :-0.4331 Median : 0.1410
## Mean : 0.09709 Mean :-0.4104 Mean : 0.1984
## 3rd Qu.: 0.66420 3rd Qu.: 0.0752 3rd Qu.: 0.9133
## Max. : 2.60930 Max. : 2.5493 Max. : 1.4475
# Sınav kaygısı arttıkça aidiyetin azalması, öğretmen desteği arttıkça aidiyetin artması ve kaygı arttıkça algılanan desteğin azalmasını görmeyi umuyorum ki buraya da tik atıp ilerliyorum
cor(pisa_Tür[, c("BELONG", "ANXTEST", "TEACHSUP")],
use = "complete.obs")
## BELONG ANXTEST TEACHSUP
## BELONG 1.00000000 -0.03521424 0.05692177
## ANXTEST -0.03521424 1.00000000 -0.04213450
## TEACHSUP 0.05692177 -0.04213450 1.00000000
cor(pisa_Fin[, c("BELONG", "ANXTEST", "TEACHSUP")],
use = "complete.obs")
## BELONG ANXTEST TEACHSUP
## BELONG 1.0000000 -0.2512618 0.1911387
## ANXTEST -0.2512618 1.0000000 -0.1174039
## TEACHSUP 0.1911387 -0.1174039 1.0000000
Türkiye verisinde tüm yollara bakalım:
model_a_TUR<- lm(TEACHSUP ~ ANXTEST, data = pisa_Tür)
summary(model_a_TUR)
##
## Call:
## lm(formula = TEACHSUP ~ ANXTEST, data = pisa_Tür)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0301 -0.6466 -0.0869 1.1794 1.3396
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.21011 0.01449 14.505 < 2e-16 ***
## ANXTEST -0.04010 0.01314 -3.052 0.00228 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.003 on 5238 degrees of freedom
## Multiple R-squared: 0.001775, Adjusted R-squared: 0.001585
## F-statistic: 9.316 on 1 and 5238 DF, p-value: 0.002283
# Sınav kaygısı arttıkça öğretmen desteği algısı anlamlı biçimde azalmaktadır
Türkiye’de sınav kaygısı, öğretmen desteğini negatif yönde yordamaktadır (β = -0.040, p = .002)
model_b_TUR <- lm(BELONG ~ ANXTEST, data = pisa_Tür)
summary(model_b_TUR)
##
## Call:
## lm(formula = BELONG ~ ANXTEST, data = pisa_Tür)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.81680 -0.65656 -0.08494 0.54259 3.09418
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.40696 0.01623 -25.07 <2e-16 ***
## ANXTEST -0.03755 0.01472 -2.55 0.0108 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.124 on 5238 degrees of freedom
## Multiple R-squared: 0.00124, Adjusted R-squared: 0.001049
## F-statistic: 6.503 on 1 and 5238 DF, p-value: 0.0108
# Sınav kaygısı arttıkça okula aidiyet anlamlı biçimde azalmaktadır
Türkiye’de sınav kaygısı okula aidiyeti negatif yönde anlamlı biçimde yordamaktadır (β = -0.038, p = .011).
model_c_TUR <- lm(BELONG ~ ANXTEST + TEACHSUP,
data = pisa_Tür)
summary(model_c_TUR)
##
## Call:
## lm(formula = BELONG ~ ANXTEST + TEACHSUP, data = pisa_Tür)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8875 -0.6488 -0.0765 0.5258 3.2701
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.42003 0.01653 -25.405 < 2e-16 ***
## ANXTEST -0.03505 0.01472 -2.382 0.0173 *
## TEACHSUP 0.06223 0.01546 4.024 5.8e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.122 on 5237 degrees of freedom
## Multiple R-squared: 0.004319, Adjusted R-squared: 0.003939
## F-statistic: 11.36 on 2 and 5237 DF, p-value: 1.197e-05
# Türkiye örnekleminde öğretmen desteği, sınav kaygısı ile okula aidiyet arasındaki ilişkide kısmi aracı rol oynamaktadır.
Türkiye örnekleminde öğretmen desteği, sınav kaygısı ile okula aidiyet arasındaki ilişkide kısmi aracı rol oynamaktadır. Aracı değişken modele eklendiğinde öğretmen desteği okula aidiyeti pozitif yönde yordamıştır (β = 0.062, p < .001). Aynı modelde sınav kaygısının okula aidiyet üzerindeki etkisi azalmış ancak devam etmiştir (β = -0.035, p = .017).
Finlandiya verisinde tüm yollara bakalım:
model_a_FIN <- lm(TEACHSUP ~ ANXTEST, data = pisa_Fin)
summary(model_a_FIN)
##
## Call:
## lm(formula = TEACHSUP ~ ANXTEST, data = pisa_Fin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1703 -0.5126 -0.0462 0.6664 1.6058
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.14891 0.01311 11.360 <2e-16 ***
## ANXTEST -0.12052 0.01368 -8.809 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8827 on 5552 degrees of freedom
## Multiple R-squared: 0.01378, Adjusted R-squared: 0.01361
## F-statistic: 77.6 on 1 and 5552 DF, p-value: < 2.2e-16
# Sınav kaygısı arttıkça öğretmen desteği algısı anlamlı biçimde azalmaktadır
Finlandiya’da sınav kaygısı öğretmen desteğini negatif yönde yordamaktadır (β = -0.121, p < .001).
model_b_FIN <- lm(BELONG ~ ANXTEST, data = pisa_Fin)
summary(model_b_FIN)
##
## Call:
## lm(formula = BELONG ~ ANXTEST, data = pisa_Fin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8228 -0.5529 -0.0856 0.4884 3.3365
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.01967 0.01409 -1.395 0.163
## ANXTEST -0.28453 0.01471 -19.342 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.949 on 5552 degrees of freedom
## Multiple R-squared: 0.06313, Adjusted R-squared: 0.06296
## F-statistic: 374.1 on 1 and 5552 DF, p-value: < 2.2e-16
# Sınav kaygısı arttıkça okula aidiyet anlamlı biçimde azalmaktadır
Finlandiya’da sınav kaygısı okula aidiyeti negatif yönde yordamaktadır (β = -0.285, p < .001).
model_c_FIN <- lm(BELONG ~ ANXTEST + TEACHSUP,
data = pisa_Fin)
summary(model_c_FIN)
##
## Call:
## lm(formula = BELONG ~ ANXTEST + TEACHSUP, data = pisa_Fin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.0030 -0.5543 -0.0785 0.4754 3.7995
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.04659 0.01405 -3.315 0.000923 ***
## ANXTEST -0.26274 0.01460 -17.992 < 2e-16 ***
## TEACHSUP 0.18079 0.01422 12.710 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9356 on 5551 degrees of freedom
## Multiple R-squared: 0.08963, Adjusted R-squared: 0.0893
## F-statistic: 273.2 on 2 and 5551 DF, p-value: < 2.2e-16
# Finlandiya örnekleminde öğretmen desteği, sınav kaygısı ile okula aidiyet arasındaki ilişkide kısmi aracı rol oynamaktadır.
Aracı değişken modele eklendiğinde öğretmen desteği okula aidiyeti pozitif yönde yordamıştır (β = 0.181, p < .001). Aynı modelde sınav kaygısının okula aidiyet üzerindeki etkisi azalmış ancak devam etmiştir (β = -0.263, p < .001).
Aynı aracılık modeli her iki ülkede de desteklenmiş olmakla birlikte, ilişkilerin gücü Finlandiya örnekleminde belirgin biçimde daha yüksektir. Türkiye örnekleminde öğretmen desteğinin aracılık rolü istatistiksel olarak anlamlı olmakla birlikte etki büyüklüğü düşüktür.
Cinsiyeti modele dahil edelim.
pisa_Tür$ST004D01T <- factor(pisa_Tür$ST004D01T,
levels = c(1, 2),
labels = c("Kız", "Erkek"))
pisa_Fin$ST004D01T <- factor(pisa_Fin$ST004D01T,
levels = c(1, 2),
labels = c("Kız", "Erkek"))
model_TUR <- lm(BELONG ~ ANXTEST * ST004D01T + TEACHSUP,
data = pisa_Tür)
summary(model_TUR)
##
## Call:
## lm(formula = BELONG ~ ANXTEST * ST004D01T + TEACHSUP, data = pisa_Tür)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.0492 -0.6371 -0.0932 0.5542 3.4361
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.297644 0.024872 -11.967 < 2e-16 ***
## ANXTEST -0.054206 0.020973 -2.585 0.009779 **
## ST004D01TErkek -0.231494 0.033001 -7.015 2.6e-12 ***
## TEACHSUP 0.056174 0.015408 3.646 0.000269 ***
## ANXTEST:ST004D01TErkek -0.009632 0.029947 -0.322 0.747758
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.116 on 5235 degrees of freedom
## Multiple R-squared: 0.0147, Adjusted R-squared: 0.01395
## F-statistic: 19.52 on 4 and 5235 DF, p-value: 5.799e-16
# Türkiye örnekleminde cinsiyet, sınav kaygısı ile okula aidiyet arasındaki ilişkiyi düzenlememektedir.
Türkiye örnekleminde sınav kaygısının okula aidiyet üzerindeki olumsuz etkisi anlamlı olmakla birlikte, bu ilişkinin kız ve erkek öğrenciler için benzer olduğu; cinsiyetin düzenleyici bir rol oynamadığı görülmüştür (β = -0.010, p = .748).
model_FIN <- lm(BELONG ~ ANXTEST * ST004D01T + TEACHSUP,
data = pisa_Fin)
summary(model_FIN)
##
## Call:
## lm(formula = BELONG ~ ANXTEST * ST004D01T + TEACHSUP, data = pisa_Fin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.9740 -0.5558 -0.0708 0.4692 3.9011
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.10595 0.01860 -5.695 1.29e-08 ***
## ANXTEST -0.28044 0.02128 -13.177 < 2e-16 ***
## ST004D01TErkek 0.13850 0.02824 4.905 9.63e-07 ***
## TEACHSUP 0.17971 0.01420 12.655 < 2e-16 ***
## ANXTEST:ST004D01TErkek 0.06025 0.02958 2.037 0.0417 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9338 on 5549 degrees of freedom
## Multiple R-squared: 0.09355, Adjusted R-squared: 0.0929
## F-statistic: 143.2 on 4 and 5549 DF, p-value: < 2.2e-16
# Finlandiya örnekleminde cinsiyet, sınav kaygısı ile okula aidiyet arasındaki ilişkiyi düzenlemektedir.
Finlandiya örnekleminde sınav kaygısı ile okula aidiyet arasındaki ilişkinin cinsiyete göre anlamlı biçimde farklılaştığı görülmüştür (β = 0.060, p = .042). Bulgular sınav kaygısının okula aidiyet üzerindeki olumsuz etkisinin kız öğrencilerde erkek öğrencilere kıyasla daha güçlü olduğunu göstermektedir.
Aynı model her iki ülkede de sınanmış olmakla birlikte, sınav kaygısının okula aidiyet üzerindeki etkisinin cinsiyete göre farklılaşması yalnızca Finlandiya örnekleminde gözlenmiştir. Türkiye örnekleminde cinsiyet bu ilişkide düzenleyici bir rol oynamazken, Finlandiya’da sınav kaygısının özellikle kız öğrencilerin okula aidiyetini daha güçlü biçimde zayıflattığı görülmüştür.
library(psych)
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
describe(pisa_Tür[, c("BELONG", "ANXTEST", "TEACHSUP")])
## vars n mean sd median trimmed mad min max range skew
## BELONG 1 5240 -0.42 1.12 -0.51 -0.47 0.87 -3.13 2.61 5.74 0.52
## ANXTEST 2 5240 0.32 1.05 0.32 0.31 0.89 -2.50 2.55 5.05 0.00
## TEACHSUP 3 5240 0.20 1.00 0.10 0.27 1.11 -2.72 1.45 4.17 -0.42
## kurtosis se
## BELONG 1.09 0.02
## ANXTEST 0.47 0.01
## TEACHSUP -0.23 0.01
describe(pisa_Fin[, c("BELONG", "ANXTEST", "TEACHSUP")])
## vars n mean sd median trimmed mad min max range skew
## BELONG 1 5554 0.10 0.98 -0.06 0.04 0.85 -3.13 2.61 5.74 0.40
## ANXTEST 2 5554 -0.41 0.87 -0.43 -0.40 0.70 -2.50 2.55 5.05 0.05
## TEACHSUP 3 5554 0.20 0.89 0.14 0.25 0.88 -2.72 1.45 4.17 -0.46
## kurtosis se
## BELONG 1.30 0.01
## ANXTEST 1.16 0.01
## TEACHSUP 0.30 0.01
Table 1. Means (M), standard deviations (SD), and correlations among focal variables (Türkiye)
| Variables | M | SD | 1 | 2 | 3 |
|---|---|---|---|---|---|
| 1. School Belonging | -0.42 | 1.12 | — | ||
| 2. Test Anxiety | 0.32 | 1.05 | -0.035 | — | |
| 3. Teacher Support | 0.20 | 1.00 | 0.057 | -0.042 | — |
Table 2. Means (M), standard deviations (SD), and correlations among focal variables (Finlandiya)
| Variables | M | SD | 1 | 2 | 3 |
|---|---|---|---|---|---|
| 1. School Belonging | 0.10 | 0.9 | — | ||
| 2. Test Anxiety | -0.41 | 0.87 | -0.251 | — | |
| 3. Teacher Support | 0.20 | 0.89 | 0.191 | -0.117 | — |
Kaynaklar: (Diğerler makaleleri de ekleyeceğim)
Liu, Y. & Wang, J. (2022) The mediating–moderating model of inquiry-based learning and science self-efficacy: evidence from PISA 2015. International Journal of Science Education, 44,(7), 1096-1119, doi: 10.1080/09500693.2022.2067364
Diğer tabloları ve görselleri de yapacaktım ama bu noktada bırakmaya kaar verdim çünkü içimden bir ses önce hatalarımı bulup düzeltmem gerektiğini söylüyor. Bunu bir öğrenme denemesi olarak düşünüyorum. Daha sonra yapacağımız benzer çalışmalar için bir ön hazırlık diyebilirim. Hocam siz kısa sürede çok fazla ve çok güzel şeyler öğrettiniz ama benim bunları uzun uzun ve sık sık tekrar etmem gerekiyor. Ders bittiğinde geriye dönüp baştan sona tüm konulara tekrar çalışacağım. Yetkinlik ne kadar güzel bir his. Nitel araştırma yaparken katılımcılarla görüşme esnasında zihnimde birinci düzey hatta bazen ikinci düzey kodlama yapabilecek hale gelmiş olmanın verdiği duyguyu nicel çalışmalarda da hissetmek isterdim. Niteldeki özgüvenimin onda birini bile hissedemiyorum ama öğrenmeye devam edeceğim. 🍀