Veri Analizi Okulu 8. Hafta Ders Notları

1.1 ÖRNEK ANALİZ 1: Türkiye’deki 18 yaş üstü yetişkin nüfusun ortalama boyu (popülasyon ortalaması μ) nedir?
1.1.1 Çıkarımsal Analize Başlamadan Önce Veri Dağılımının İncelenmesi
1.1.2 Error Bar Grafiği ile Cinsiyete Göre Boy Ortalamalarının Karşılaştırılması
1.1.3 Cinsiyete Göre Boy Ortalamalarının Sayısal Karşılaştırılması (Compare Means Prosedürü)
1.1.4 Cinsiyete Göre Gruplandırılmış Explore Analizi: Her Grubun Ayrı Ayrı Standart Hata ve Güven Aralığı İncelemesi
1.2 ÖRNEK ANALİZ 2: Yerleşim Yeri Yoğunluğuna (Degree of Urbanization) Göre Boy Ortalamalarının Gruplandırılmış Explore Analizi
1.2.1 Kentleşme Düzeyine (Degree of Urbanization) Göre Boy Ortalamalarının Karşılaştırmalı Error Bar Grafiği

1.1 ÖRNEK ANALİZ 1: Türkiye’deki 18 yaş üstü yetişkin nüfusun ortalama boyu (popülasyon ortalaması μ) nedir?

Bu soruyu cevaplamak için veri setindeki height (boy) değişkenini kullanırız. 2615 kişilik rastgele örneklemden elde edilen örneklem ortalaması (x̄), popülasyon ortalaması μ’nun nokta tahmini (point estimate) olarak kabul edilir.

Ancak tek bir sayı yeterli değildir; çünkü bu tahminin ne kadar güvenilir olduğunu da bilmek isteriz. Bu nedenle:

Standart hata (standard error) hesaplanır,
İstenen güven düzeyinde (genellikle %95) güven aralığı (confidence interval) oluşturulur.

Böylece hem Türkiye’nin genel ortalama boyunu en iyi şekilde tahmin etmiş oluruz, hem de bu tahminin belirsizliğini (örneklem hatasını) sayısal olarak ifade ederiz. Kısaca, height değişkeni üzerinden yaptığımız bu analiz, çıkarımsal istatistiğin en temel amaçlarından biri olan “örneklemden popülasyon parametresine genelleme” işleminin somut bir örneğidir.

1.1.1 Çıkarımsal Analize Başlamadan Önce Veri Dağılımının İncelenmesi

TGSS 2024 veri setindeki sayısal değişkenler (örneğin height) üzerinde çıkarımsal istatistiksel analiz yapmadan önce, parametrik yöntemlerin (güven aralığı, t-testi, ANOVA vb.) geçerli olabilmesi için verinin dağılım özelliklerini incelemek temel bir adımdır. Bu nedenle ilk olarak genel dağılım analizi gerçekleştirilir. Bu ön inceleme, parametrik varsayımların (özellikle normallik varsayımı) sağlanıp sağlanmadığını belirlememizi ve gerekirse analiz stratejimizi buna göre şekillendirmemizi sağlar. Kısaca, “her şeye başlamadan önce genel dağılıma bakmak” çıkarımsal istatistiğin doğru ve güvenilir sonuçlar üretmesi için zorunlu ilk adımdır.

Histogram Yorumu ve Sonraki Adım TGSS 2024 veri setindeki “height” (boy) değişkeninin dağılımı incelendiğinde, genel olarak normale yakın (approximately normal) bir yapı sergilediği görülmektedir. Dağılımda belirgin bir çarpıklık veya aşırı aykırı değer bulunmamaktadır. Ancak histogramda belirli değerlerde (özellikle 170 cm ve 175 cm civarında) lokal yığılmalar (heaping) gözlenmektedir. Bu durum, katılımcıların boy bilgilerini tam sayıya yuvarlama (rounding) eğiliminden kaynaklanmaktadır. Grafik üzerinden elde edilen özet istatistiklere göre, tüm örneklemde (erkek ve kadınlar birlikte) boy ortalaması (x̄) 167 cm ve standart sapması (s) 10 cm olarak hesaplanmıştır.

Merkezi eğilim (central tendency) ve dağılım (dispersion) ölçütlerini daha detaylı incelemek için SPSS’te Analyze → Descriptive Statistics → Explore menüsünden yararlanılır. Bu ön inceleme, çıkarımsal analizlerde kullanılacak parametrik yöntemlerin varsayımlarının karşılanıp karşılanmadığını teyit etmek açısından kritik öneme sahiptir.

DİKKAT LÜTFEN : Eğer Explore seçildikten sonra önceden kalan değişkenler var ise lütfen RESET tuşunu tıklayınız ve atama bölgelerini temiz hale getiriniz.

Standart Hata, Güven Aralığı ve Çıkarımsal İstatistiğin Temeli TGSS 2024 veri setindeki “Ayakkabısızken boyunuz yaklaşık kaç cm?” değişkenine ait Explore çıktısına göre, geçerli 1701 gözlemde örneklem ortalaması (x̄) = 167,43 cm, standart sapma (s) = 10,13 cm ve standart hata (standard error of the mean) = 0,246 cm olarak hesaplanmıştır.

Standart sapma, örneklemdeki bireysel boy değerlerinin ne kadar yayıldığını (varyansı) ölçerken; standart hata ise bu örneklem ortalamasının popülasyon ortalaması (μ) için ne kadar güvenilir bir tahmin olduğunu gösterir. Merkezi Limit Teoremi’ne dayanarak, standart hata formülü ile popülasyon ortalaması için %95 güven aralığı şu şekilde oluşturulur:

%95 GA = x̄ ± 1,96 × SE

≈ 167,43 ± (1,96 × 0,246) ≈ 166,95 – 167,91 cm (burada 1,96 yerine 2 ’de alınabilir.Bilginize)

Bu aralık, Türkiye’deki 18 yaş üstü yetişkin nüfusun gerçek ortalama boyunun %95 olasılıkla 166,95 cm ile 167,91 cm arasında olduğunu ifade eder.

Çıkarımsal istatistiğin temel mantığı burada yatar: Eğer ileride herhangi bir altgrubun (örneğin belirli bir yaş grubu, bölge veya cinsiyet) boy ortalaması bu güven aralığı içinde yer alıyorsa, o grubun popülasyon ortalamasıyla istatistiksel olarak uyumlu olduğu kabul edilir. Güven aralığının dışında bir değer elde edildiğinde ise “bu grup genel popülasyondan anlamlı şekilde farklıdır” sonucuna varılır.

Dolayısıyla standart hata, tüm çıkarımsal analizlerin (güven aralıkları, hipotez testleri) temel taşıdır; çünkü örneklemden popülasyona genelleme yaparken belirsizliği sayısallaştırır ve karar verme sürecimizi bilimsel temele oturtur.

1.1.2 Error Bar Grafiği ile Cinsiyete Göre Boy Ortalamalarının Karşılaştırılması

Kadınların ve erkeklerin ortalama boyları ne aralıkta dağılıyor? Bu iki grubun ortalamaları birbirinden farklı mı?” sorusuna görsel ve sezgisel bir cevap vermek istiyoruz.

Bu karşılaştırmalı error bar grafiği sayesinde, gruplar arası farklılıkları hem sayısal hem de görsel olarak kolayca değerlendirebileceğiz.

Cinsiyete Göre Boy Ortalamalarının Karşılaştırmalı Error Bar Grafiği ve Gruplar Arası Farklılığın Görsel Değerlendirilmesi Şimdi grafiğe birlikte bakalım. SPSS’teki Error Bar grafiği, Erkek ve Kadın olmak üzere iki ayrı grup için boy ortalamalarını ve her birinin %95 güven aralıklarını yan yana göstermektedir.

Erkekler: Örneklem ortalaması yaklaşık 173 cm civarındadır ve %95 güven aralığı 172 – 174 cm arasında yer almaktadır.

Kadınlar: Örneklem ortalaması yaklaşık 161 cm civarındadır ve %95 güven aralığı 160.5 – 162 cm arasında yer almaktadır.

Hata çubukları (güven aralıkları) birbirleriyle hiç kesişmemektedir. Bu durum, kadın ve erkek popülasyon ortalamalarının (%95 güven düzeyinde) istatistiksel olarak anlamlı şekilde farklı olduğuna güçlü bir görsel kanıt oluşturur. Güven aralıkları kesişseydi “gruplar arasında fark yok” diyebilecektik; ancak net ayrışma sayesinde “gerçek bir fark var” sonucuna varabiliyoruz.

1.1.3 Cinsiyete Göre Boy Ortalamalarının Sayısal Karşılaştırılması (Compare Means Prosedürü)

Error Bar grafiğinden elde ettiğimiz görsel kanıtlardan hemen, kadın ve erkek gruplarının boy ortalamalarını daha detaylı ve sayısal olarak karşılaştırmak amacıyla SPSS’teki Analyze → Compare Means → Means menüsüne bakabiliriz.

Bu prosedürde:

Dependent List kutusuna height (boy) değişkenini (bağımlı değişken),
Independent List kutusuna gender (cinsiyet) değişkenini (bağımsız değişken) yerleştirerek sonucu elde ederiz.

1.1.4 Cinsiyete Göre Gruplandırılmış Explore Analizi: Her Grubun Ayrı Ayrı Standart Hata ve Güven Aralığı İncelemesi

Error bar grafiğinde gördüğümüz iki grubun (erkek ve kadın) standart hatalarını ve güven aralıklarını daha detaylı ve ayrı ayrı incelemek istiyoruz. Bunun için Analyze → Descriptive Statistics → Explore menüsüne ile çalışırız.

Dependent List kutusuna height değişkenini atarız. (Daha önce atamıştık.)

Factor List kutusuna gender (cinsiyet) değişkenini yerleştirerek analizi “gruba göre” (by group) çalıştırırız.

Böylece SPSS, sadece genel popülasyon için değil, erkekler ve kadınlar için ayrı ayrı şu çıktıları elde ederiz.

Ortalama
Standart sapma
Standart hata
%95 güven aralığı
ve diğer tanımlayıcı istatistikler

Bu adım, her cinsiyet grubunun kendi içinde ne kadar kesin bir tahmin yaptığımızı ve güven aralıklarının ne kadar dar veya geniş olduğunu rakamlarla netleştirmemizi sağlar.

Cinsiyete Göre Gruplandırılmış Explore Analizi ve Güven Aralıklarının Yorumu

Erkekler: Örneklem ortalaması \(\bar{x} = 173.45\) cm, standart hata = 0.29 cm

%95 Güven Aralığı: 172.87 – 174.02 cm

Kadınlar: Örneklem ortalaması \(\bar{x} = 161.09\) cm, standart hata = 0.25 cm

%95 Güven Aralığı: 160.59 – 161.58 cm

İki grubun %95 güven aralıkları hiçbir noktada kesişmemektedir. Bu durum, herhangi bir hipotez testi yapmadan önce bile, erkek ve kadın popülasyonlarının ortalama boyları arasında istatistiksel olarak anlamlı bir fark olduğuna güçlü bir görsel ve intuitif kanıt sunmaktadır.

Eğer güven aralıkları kesişseydi, “gözlenen fark örneklem varyansından kaynaklanıyor olabilir, gerçek popülasyonda fark olmayabilir” diyebilecektik. Ancak aralıkların net bir şekilde ayrışması, Türkiye’deki yetişkin erkek ve kadınların ortalama boylarının gerçekte de farklı olduğunu (popülasyon düzeyinde) güçlü biçimde işaret etmektedir.

1.2 ÖRNEK ANALİZ 2: Yerleşim Yeri Yoğunluğuna (Degree of Urbanization) Göre Boy Ortalamalarının Gruplandırılmış Explore Analizi

Amacımız henüz hiçbir istatistiksel hipotez testi yapmadan degurba (Kentsel Yerleşim Durumu) değişkeninde yer alan kırsal, orta yoğun kent ve yoğun kent gruplarına göre boy ortalamalarının birbirinden farklı olup olmadığına dair intuitif ve görsel bir ön fikir edinmektir.

Güven aralıklarının kesişip kesişmediğine bakarak gruplar arasında potansiyel bir fark olup olmadığını hızlıca değerlendirebilecektir.

Kentleşme Düzeyine (Kırsal – Orta Yoğun Kent – Yoğun Kent) Göre Boy Ortalamalarının Explore Analizi ve Güven Aralıklarının Yorumu

Kırsal: Ortalama boy = 168.19 cm (%95 Güven Aralığı: 167.03 – 169.36 cm)

Orta Yoğun Kent: Ortalama boy = 167.60 cm (%95 Güven Aralığı: 166.45 – 168.75 cm)

Yoğun Kent: Ortalama boy = 167.21 cm (%95 Güven Aralığı: 166.62 – 167.81 cm)

Ortalamalar arasındaki küçük farklara rağmen, üç grubun %95 güven aralıkları büyük ölçüde örtüşmektedir.

Hocamız bu durumdan hareketle, herhangi bir istatistiksel hipotez testi yapmadan önce bile şu sonuca varmıştır: Bu üç grubun boy ortalamaları popülasyon düzeyinde birbirinden istatistiksel olarak anlamlı şekilde farklı değil gibi gözüküyor. (Tabii henüz istatiksel bir test yapmadığı için sezgisel görüşüdür.)

Güven aralıklarının kesişmesi, gözlenen ortalama farkların büyük ihtimalle örneklem varyasyonundan (rastgele örnekleme hatasından) kaynaklandığını ve gerçek popülasyonda anlamlı bir farkın bulunmadığını güçlü biçimde işaret etmektedir.

1.2.1 Kentleşme Düzeyine (Degree of Urbanization) Göre Boy Ortalamalarının Karşılaştırmalı Error Bar Grafiği

Bu grafik bize Kırsal, Orta Yoğun Kent ve Yoğun Kent olmak üzere üç grubun boy ortalamalarını ve her bir grubun %95 güven aralıklarını (error bars) yan yana gösterecektir.

Bu görselleştirme, hem gruplar arası ortalama farkları hem de güven aralıklarının ne ölçüde örtüştüğünü tek bakışta değerlendirmemizi sağlar. Amacımız, herhangi bir hipotez testi yapmadan önce kentleşme düzeyine göre boy ortalamalarında anlamlı bir fark olup olmadığına dair görsel ve intuitif bir ön fikir edinmektir. Grafik aynı zamanda genel dağılım hakkında da hızlı bir özet bilgi vermektedir.

Kentleşme Düzeyine Göre Boy Ortalamalarının Error Bar Grafiği ile Görsel Değerlendirmesi Error Bar grafiği incelendiğinde şu sonuçlar net bir şekilde görülmektedir:

Kırsal grubun ortalama boyu ≈ 168.2 cm

Orta Yoğun Kent grubun ortalama boyu ≈ 167.6 cm

Yoğun Kent grubun ortalama boyu ≈ 167.2 cm

Üç grubun %95 güven aralıkları büyük ölçüde örtüşmekte ve hiçbir grup diğerinden belirgin şekilde ayrılmamaktadır. Özellikle kırsal ve orta yoğun kent gruplarının geniş güven aralıkları, yoğun kent grubunun aralığını tamamen kapsamaktadır.

Bu görsel örtüşme, hocamızın da vurguladığı gibi, herhangi bir hipotez testi (ANOVA vb.) yapmadan önce bile şu çıkarımsal sonucu sezebiliriz:

Kentleşme düzeyine göre boy ortalamaları arasında popülasyon düzeyinde istatistiksel olarak anlamlı bir fark yoktur. Gözlenen küçük ortalama farklar, büyük olasılıkla örneklem varyasyonundan kaynaklanmaktadır.

Grafik ayrıca örneklem büyüklüğünün etkisi konusunda da önemli bir teknik bilgi vermektedir: daha küçük örneklem büyüklüğüne sahip gruplarda (kırsal ve orta yoğun kent) standart hata daha büyük olduğu için hata çubukları daha genişken, daha büyük örneklemli grupta (yoğun kent) hata çubuğu belirgin şekilde daralmıştır.

Kısacası bu grafik, güven aralıklarının örtüşmesi yoluyla gruplar arası farkın “gerçek” mi yoksa “rastgele örnekleme hatasından” mı kaynaklandığını tek bakışta bize fikir vermektedir. Tabii henüz herhangi bir hipotez testi yapmadığımızı HATIRLAYALIM.