DİKKAT EK BİR BİLGİ: Means ve One-Way ANOVA Prosedürleri Arasındaki Fark

Hocamız, gruplar arası ortalama kıyaslaması yaparken SPSS’te iki farklı prosedür kullanılabileceğini ve bunların varsayılan çıktılarının birbirinden farklı olduğunu vurgulamıştır:

Analyze → Compare Means → Means menüsüne gittiğinizde, ilk aşamada yalnızca betimleyici istatistikler (grup ortalamaları, örneklem büyüklükleri, standart sapmalar vb.) elde edilir. İstatistiksel anlamlılık testi olan ANOVA’yı da görmek isterseniz, menüden ekstra olarak “ANOVA” seçeneğini işaretlemeniz gerekir.

Analyze → Compare Means → One-Way ANOVA menüsüne doğrudan gittiğinizde ise, varsayılan olarak istatistiksel anlamlılık testi (ANOVA tablosu, F değeri ve p-değeri / Sig. değeri) doğrudan verilir. Ancak bu prosedür, grup ortalamalarını ve diğer betimleyici istatistikleri otomatik olarak göstermez; bunları da elde etmek için ayrıca “Descriptives” seçeneğini işaretlemeniz gerekir.

Kısacası:

Means prosedürü betimsel özet için, One-Way ANOVA prosedürü ise doğrudan hipotez testi için daha uygundur. İkisini de kullanabilirsiniz; sadece hangi bilgiyi öncelikli istediğinize göre menü seçimi yapmanız yeterlidir.

2.3.3.2 Medeni Duruma Göre Yaş Ortalamalarının Karşılaştırılması (Yine Means ile ANOVA tercih edilmiştir.)

Önce Means ile ortalamalara bakalım.

Daha önceki değişkenlerin tamamen temizlenmesi için RESET tuşuna tıklayarak temizleyelim.

Medeni Duruma Göre Yaş Ortalamalarının Betimsel Analizi (Means Tablosu)

Elde edilen tablo şu ortalama yaşları göstermektedir:

Hiç evlenmedi: 26.24 yıl

Evli, eşiyle birlikte yaşıyor: 44.92 yıl

Evli, eşiyle birlikte yaşamıyor: 43.23 yıl

Evli değil ama birlikte yaşıyor: 43.13 yıl

Boşandı: 46.32 yıl

Eşi öldü: 63.66 yıl

Gruplar arasında oldukça belirgin yaş farkları görülmektedir. Ancak hocamız, çıkarımsal istatistik prensiplerine bağlı kalarak şu önemli uyarıyı yapmıştır:“Bu tabloda gördüğüm yaş farklarını henüz popülasyon düzeyinde gerçek bir farklılık olarak yorumlayamam. Çünkü yaş değişkeninde büyük bir varyans (dağılım) vardır ve gözlenen farkların rastgele örneklem varyasyonundan (noise) mı yoksa gerçek bir sistematik farktan (signal)** mı kaynaklandığını bilmiyorum.”

Bu nedenle hocamız, herhangi bir çıkarımsal iddia yapmadan önce ANOVA testi yaparak istatistiksel anlamlılık skoruna (p-değeri) bakacağını ve ancak o testten sonra “medeni duruma göre yaş ortalamaları arasında anlamlı fark vardır” diyebileceğini vurgulamıştır.

Bu tutum, betimsel bulgular ile çıkarımsal sonuçlar arasındaki kritik ayrımı çok net bir şekilde ortaya koymaktadır.

ANOVA’ya bakıyoruz. Analyze → Compare Means → Means Options yöntemini seçtik.

Karşımıza gelen Number of Cases ve Standart Deviation ’a ihtiyacımız olmadığı için tıklayıp sol tuş ile yana atmayı unutmayınız bize sadece Mean lazım olduğu için onu yalnız bıraktık. Son durum aşağıdaki gibidir.

Medeni Duruma Göre Yaş Ortalamalarının One Way ANOVA Testi ve İstatistiksel Anlamlılığın Yorumu Sig. (p-değeri) < 0.001 (binde birden daha küçük)

Bu p-değeri, boş hipotez (H₀) doğru olsa bile (yani medeni durum grupları arasında popülasyon düzeyinde yaş ortalaması farkı gerçekten yoksa), tabloda gördüğümüz bu büyük farkların rastgele örneklem varyasyonundan (noise) kaynaklanma ihtimalinin %0.1’den bile daha düşük olduğunu gösterir.

İstatistikte geleneksel kabul edilen kritik eşik (cut-off point) p < 0.05’tir.

p-değerimiz 0.05’ten çok daha küçük olduğu için boş hipotez (H₀) reddedilir ve şu sonuca varılır: Medeni durum grupları arasında yaş ortalaması bakımından istatistiksel olarak anlamlı bir fark vardır.

Hocamızın da vurguladığı gibi: p-değeri ne kadar küçük olursa, gözlenen farkın rastgele (noise) kaynaklı olma ihtimali o kadar azalır ve “gerçek bir sinyal vardır” diyebilme güvenimiz o kadar artar. Bu nedenle p < 0.05 olduğunda “istatistiksel olarak anlamlı fark vardır” deriz; p ≥ 0.05 olduğunda ise farkı rastgele varyasyona bağlarız.

Medeni Duruma Göre Yaş Ortalamalarının Error Bar Grafiği ile Görsel Değerlendirilmesi

Bu grafikte her medeni durum grubunun (Hiç evlenmedi, Evli eşle birlikte yaşayan, Boşandı, Eşi öldü vb.) ortalama yaşı ve etrafındaki %95 güven aralıkları (error bars) yan yana gösterilecektir. Böylece tabloda gördüğümüz farkların ne kadar belirgin olduğunu, hangi grupların güven aralıklarının ayrıştığını ve hangilerinin örtüştüğünü tek bakışta değerlendirebileceğiz.

Bu görselleştirme, ANOVA’nın sayısal sonucunu somut ve yorumlaması kolay bir hâle getirmektedir.

Grafikte en belirgin ayrışma “Hiç evlenmedi” grubunda görülmektedir (ortalama ≈ 26.2 yaş). Bu grubun %95 güven aralığı, diğer tüm medeni durum gruplarının güven aralıklarıyla hiç kesişmemektedir. Aynı şekilde “Eşi öldü” grubu da (ortalama ≈ 63.7 yaş) diğer gruplardan net şekilde ayrışmaktadır.

“Evli değil ama birlikte yaşıyor” grubunun hata çubuğu oldukça geniştir; bunun nedeni grubun örneklem büyüklüğünün çok küçük olmasıdır (standart hata bu yüzden artmıştır).

Hocamızın da belirttiği gibi, grafikten kolayca anlaşılmaktadır ki en az bir grup (özellikle “Hiç evlenmedi” grubu) diğerlerinden belirgin şekilde farklıdır. Bu görsel, ANOVA testinin bulduğu anlamlı farkı tek bakışta doğrulamaktadır.

Not: Araştırmacılar bu tür çoklu grup karşılaştırmalarında genellikle post-hoc testler yaparak hangi gruplerin birbirinden istatistiksel olarak anlamlı şekilde farklı olduğunu tek tek belirler. Bu grafikte ise genel olarak “gruplar arasında fark vardır” sonucunu görsel olarak desteklemektedir.

2.3.4 İki Gruplu Ortalama Kıyaslaması

Hocamızın soru şu: “Peki iki grubu kıyaslıyor olsaydım ne yapacaktım?”

İki grup kıyaslaması veri setimizde farklı şekillerde karşımıza çıkabilir:

  • Bağımsız iki grup (örneğin kadınlar ve erkekler gibi birbirinden net şekilde ayrılan iki kategori) → Independent Samples T-Test

  • Bir örneklemin popülasyon ortalamasıyla karşılaştırılması (örneğin TGSS’teki yaş ortalaması ile Türkiye genel nüfusunun yaş ortalaması) → One Sample T-Test

  • Aynı grubun farklı zamanlarda veya koşullarda iki kez ölçülmesi (paired) → Paired Samples T-Test

Hocamız ilk olarak bağımsız iki grup senaryosuna odaklanıyor. Kadın ve erkeklerin (cinsiyet gruplarının) boy ortalamaları arasında istatistiksel olarak anlamlı bir fark olup olmadığını test etmek istiyor.

Bu karşılaştırma için Independent Samples T-Test kullanılacaktır. Hocamız bu testle birlikte iki ortalama kıyaslamasının temel mantığını ve hangi durumlarda hangi testi seçeceğimizi de açıklamaya devam edecektir.

2.3.4.1 Cinsiyete Göre Boy Ortalamalarının Independent Samples T-Test ile Karşılaştırılması

Daha önceki değişkenlerin tamamen temizlenmesi için RESET tuşuna tıklayarak temizleyelim.

Cinsiyete Göre Boy Ortalamalarının Independent Samples T-Test ile Karşılaştırılması ve Sonuçların Yorumu

Group Statistics tablosunda:

Erkekler: Ortalama boy = 173.45 cm (N = 873)

Kadınlar: Ortalama boy = 161.09 cm (N = 828)

Independent Samples Test tablosunda önce Levene’s Test for Equality of Variances (varyansların homojenliği testi) incelenmiştir. Bu testin p-değeri 0.002 (< 0.05) çıktığı için iki grubun varyanslarının eşit olmadığı sonucuna varılmıştır.

Bu nedenle hocamız “Equal variances not assumed” (Welch’s t-test) satırını referans almıştır. Bu satırdaki Two-Sided p değeri < 0.001 olarak bulunmuştur.

Sonuç olarak: Kadın ve erkeklerin boy ortalamaları arasında istatistiksel olarak anlamlı bir fark vardır (p < 0.001). Gözlenen bu farkın rastgele örneklem varyasyonundan (noise) kaynaklanma ihtimali binde birden daha düşüktür.

Hocamız, dersin daha kolay anlaşılması için “One-Sided p” sütununu gizleyerek doğrudan Two-Sided p değeri üzerinden yorum yapmıştır.

2.3.4.2 Cinsiyete Göre Kilo Ortalamalarının Independent Samples T-Test ile Karşılaştırılması

Cinsiyete Göre Kilo Ortalamalarının Independent Samples T-Test ile Karşılaştırılması ve Sonuçların Yorumu

Group Statistics tablosuna göre:

Erkekler: Ortalama kilo = 81.03 kg (N = 873)

Kadınlar: Ortalama kilo = 67.65 kg (N = 836)

Öncelikle Levene’s Test for Equality of Variances (varyansların homojenliği testi) incelenmiştir. Bu testin p-değeri 0.532 (> 0.05) çıktığı için iki grubun varyanslarının eşit olduğu varsayımı kabul edilmiştir.

Bu nedenle hocamız “Equal variances assumed” (üst satır) sonucunu referans almıştır. Bu satırdaki Two-Sided p değeri < 0.001 olarak bulunmuştur.

Sonuç olarak:Kadın ve erkeklerin kilo ortalamaları arasında istatistiksel olarak anlamlı bir fark vardır (p < 0.001).Gözlenen bu farkın rastgele örneklem varyasyonundan (noise) kaynaklanma ihtimali binde birden daha düşüktür. Dolayısıyla popülasyon düzeyinde de cinsiyet grupları arasında kilo bakımından gerçek ve anlamlı bir farklılık bulunduğu söylenebilir.

DİKKAT : One-sided p değeri, farkın belirli bir yönde (örneğin “erkeklerin kilosu kadınlardan daha fazladır” gibi) olup olmadığını test eder. Two-sided p değeri ise yön belirtmeksizin sadece “kadın ve erkeklerin kilo ortalamaları birbirinden farklı mıdır?” sorusuna bakar.

İleri derslerde bu iki yaklaşım daha detaylı incelenecektir. Ancak hocamızın da belirttiği gibi, genellikle herhangi bir ön varsayımımız veya yönsel bir araştırma sorumuz yoksa (örneğin “fark sadece bir yönde olur” diye bir iddiamız yoksa) Two-Sided p değerine bakarız. Çünkü two-sided test daha genel ve temkinli bir yaklaşımdır.