5. Merkezi Limit Teoremi (Central Limit Theorem) için Yapılan İşlemlere Devam

Merkezi Limit Teoremi’ni (Central Limit Theorem - CLT) gerçek veri seti üzerinde test etmek üzere, orijinal örneklemimizdeki 2615 gözlemi kullanarak 523 adet alt-örneklem (sub-sample) oluşturduk. Her bir alt-örneklem yaklaşık 5 bireyden oluşacak şekilde rastgele grup ataması (random assignment) yapılacak ve her grup için yaş ortalaması hesapladık.

Şimdi ise elde edilen bu 523 örneklem ortalamasının oluşturduğu yeni dağılım incelenecek ve orijinal yaş değişkeninin sağa çarpık ve kesik (truncated) yapısına rağmen, bu ortalamaların dağılımının normal dağılıma ne ölçüde yaklaştığı görsel ve istatistiksel olarak değerlendiriceğiz. Bu işlem, CLT’nin pratikteki gücünü somut bir şekilde göstermeyi amaçlamaktadır.

İlgili Adımlar Aşağıdaki Gibi Devam Etmiştir.

Yeni veri seti üzeriyle çalışacağız.

Continue ve OK tıklandığında;

Yaş değişkeni sağa çarpık (right-skewed), yani normal olmayan bir dağılıma sahip olsa da, bu 2615 kişilik kitleden rastgele 5’er kişilik 523 alt örneklem seçilip ortalamaları alındığında, ortaya çıkan dağılımın normale çok yakınsadığı ve standart sapmanın orijinal veriye göre (15’ten 8’e) düştüğü görülmüştür.

Non-Normal Değişkenlerin Toplanması ile Normal Dağılıma Yaklaşım: Endeks Oluşturma ve Merkezi Limit Teoremi

Merkezi Limit Teoremi’nin önemli bir uygulamalarından biri de birden fazla değişkenin toplanması yoluyla endeks (composite index) oluşturulmasıdır. Başlangıç düzeyinde kullanılan değişkenlerin her biri kendi başına normal dağılım göstermese dahi, bu değişkenlerin toplamı (sum) veya ağırlıklı toplamı ile oluşturulan endeks skoru, büyük bir olasılıkla normale yakın bir dağılım özelliği gösterir. Bu durum, CLT’nin “birçok bağımsız rastgele değişkenin toplamının dağılımı, örneklem büyüklüğü yeterince büyük olduğunda normal dağılıma yaklaşır” ilkesinin doğal bir uzantısıdır. Dolayısıyla araştırmacılar, non-normal dağılıma sahip birden fazla değişkeni bir araya getirerek tek bir endeks oluşturduklarında, elde edilen yeni değişkenin istatistiksel analizlerde (parametrik testler, regresyon vb.) daha rahat kullanılabilir hale gelmesi beklenir.

Konuyla ilgili Hocamızın Açıklaması : Merkezi Limit Teoremi’nin pratikteki önemli uygulamalarından biri, kendi başına normal dağılım göstermeyen birden fazla değişkenin toplanarak kompozit endeks (composite index) oluşturulmasıdır. Örneğin, ruh sağlığı düzeyini ölçmek amacıyla son bir hafta içindeki duygusal durumla ilgili 10 ayrı Likert tipi soru (her biri tipik olarak 1 ile 4 arasında puanlanan) kullanıldığında, bu maddelerin her biri tek başına normal dağılımdan belirgin şekilde sapar. Özellikle sınırlı kategori sayısına (4’lü ölçek) sahip ordinal değişkenlerde normalite varsayımının sağlanması hem teorik hem de pratik olarak zordur. Ancak bu 10 değişkenin toplamı veya ortalaması alınarak tek bir ruh sağlığı endeksi (örneğin 10 ile 40 arasında değişen bir skor) oluşturulduğunda, Merkezi Limit Teoremi gereği elde edilen bileşik skor büyük olasılıkla normale yakın bir dağılım özelliği gösterir. Bu yaklaşım, tek tek değişkenlerin non-normal yapısına rağmen, parametrik istatistiksel testlerin (t-test, ANOVA, regresyon vb.) daha güvenilir ve uygun bir şekilde kullanılabilmesini sağlar. Bu yöntem aynı zamanda bir boyut azaltma (dimensionality reduction) tekniği olarak da değerlendirilebilir. Endeks oluşturmak analizleri pratikte büyük ölçüde kolaylaştırsa da, orijinal değişkenlerin taşıdığı çok boyutlu bilginin bir kısmının kaybolmasına neden olabilir. Bu nedenle araştırmacılar, endeks oluşturma kararını hem teorik hem de pratik gerekçelerle vermelidir.

age (yaş) değişkeninin frekans dağılım analizini hatırlayalım.

degurba (Kentleşme durumuna bakalım)

Bu Aşamada Hocamızın Açıklaması : Bu aşamada amaç, Türkiye’deki 12 NUTS 1 seviyesindeki istatistiki bölge (yerleşim birimi) arasında yaş ortalamaları ve yaş dağılımları bakımından herhangi bir farklılık olup olmadığını keşifsel (exploratory) düzeyde incelemektir. Araştırmacı burada herhangi bir ortalama karşılaştırması (mean comparison) veya çıkarımsal istatistik (inferential statistics) yapmamakta; yalnızca betimleyici istatistikler ve görsel inceleme yoluyla bir “göz kararı” değerlendirmesi gerçekleştirmektedir.

Bu noktada özellikle vurgulanması gereken husus şudur: Gözlemlenen farklılıklar ile popülasyonda gerçekten var olan sistematik farklılıklar aynı şey değildir. Gözlenen farkların istatistiksel olarak anlamlı olup olmadığı, yani örneklemdeki bu farklılıkların gerçek popülasyon parametrelerine tekabül edip etmediği, ayrı bir inferansiyel analiz konusudur ve ileride hipotez testi veya anlamlılık testleri ile değerlendirilmesi gerekmektedir.

İlk Gözatma Yorumu : NUTS 1 seviyesindeki 12 istatistiki bölgeye ait yaş dağılımlarının görsel incelemesi, yerleşim tipi ile yaş yapısı arasında belirgin bir örüntü ortaya koymaktadır. Orta ve yüksek yoğunluklu kentleşmiş bölgelerde (büyükşehir ve metropolitan alanlar) yaş dağılımı belirgin şekilde daha genç yaş gruplarında yoğunlaşmakta ve sola kaymış bir yapı sergilemektedir. Buna karşılık kırsal ve düşük yoğunluklu bölgelerde yaşlar daha çok orta yaş grubunda kümelenmekte, ayrıca dağılımın çeyrekler arası aralığı (Interquartile Range - IQR) kentlere göre daha geniş bir yayılım göstermektedir. Bu bulgu, kentlerde genç nüfusun daha fazla toplandığını, kırsal alanlarda ise yaş yapısının daha heterojen ve orta yaş ağırlıklı olduğunu işaret etmektedir. Bu değerlendirme henüz betimsel düzeyde olup, gözlemlenen farklılıkların istatistiksel olarak anlamlı olup olmadığı ilerideki inferansiyel analizlerde test edilecektir.

HATIRLATMA DİKKAT : Merkezi eğilim ve dağılım ölçümlerini daha önceki derslerde de söylendiği üzere sayısal olan değişkenler üzerinden yapıyoruz dostlar.

Dersin ikinci bölümünde, veri dönüşüm işlemlerinin daha ileri bir aşaması ele alınmaktadır. Daha önce Recode komutu ile tek bir değişkenin kategorilerini yeniden gruplayarak yeni bir değişken oluşturmayı öğrenmiştik (tekli kodlama).

Şimdi ise birden fazla değişkenin kombinasyonundan yeni bir değişken türetme tekniği tanıtılmaktadır. Bu yöntem, araştırma sorularına ve analitik ihtiyaçlara göre daha karmaşık ve anlamlı kategorik değişkenler oluşturmak için kullanılır.

Örnek uygulama:

Veri setinde bulunan iki değişken — cinsiyet (gender) ve yerleşim yeri (kır / orta yoğunluklu kent / yoğun kent) — birleştirilerek 6 kategorili yeni bir değişken oluşturulacaktır:

Kırda yaşayan erkek
Kırda yaşayan kadın
Orta yoğunluklu kentte yaşayan erkek
Orta yoğunluklu kentte yaşayan kadın
Yoğun kentte yaşayan erkek
Yoğun kentte yaşayan kadın

Bu tür birleşik değişkenler, çapraz kodlama (cross-coding) veya etkileşim değişkeni (interaction variable) olarak adlandırılır.

Hocamız bu işlemi SPSS menü arayüzü yerine Syntax üzerinden, özellikle IF fonksiyonunu etkili bir şekilde kullanarak bize yol göstermektedir. Bu amaçla yeni bir Syntax dosyası açılarak (File → New → Syntax) kod yazımına başlanacaktır.

Bu yaklaşım, veri setini araştırmanın spesifik ihtiyaçlarına göre esnek bir şekilde dönüştürme imkânı sunar ve ilerleyen analizlerde daha güçlü, yorumlanabilir değişkenler elde etmeyi sağlar.

Veri Analizi Okulu 7. Hafta Ders Notları

Normal Dağılım ve Merkezi Limit Teoremi

Veri Analizi Okulu - İsmail Cüneyt VARİLCİ

27 April 2026

5. Merkezi Limit Teoremi (Central Limit Theorem) için Yapılan İşlemlere Devam

Non-Normal Değişkenlerin Toplanması ile Normal Dağılıma Yaklaşım: Endeks Oluşturma ve Merkezi Limit Teoremi