4. Merkezi Limit Teoremi (Central Limit Theorem)

Eğer bir popülasyondan yeterince büyük örneklemler (genellikle n ≥ 30) rastgele ve bağımsız olarak çekilirse, örneklem ortalamalarının (\(\bar{x}\)) dağılımı, popülasyonun dağılım şekline bakılmaksızın yaklaşık normal dağılıma yaklaşır. Matematiksel olarak:

\[\bar{X}_n \sim N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{(n yeterince büyükken)}\]

Burada:

\(\mu\) = popülasyon ortalaması

\(\sigma\) = popülasyon standart sapması

\(n\) = her bir örneklemin büyüklüğü

Bu Veri Seti Açısından CLT’nin Anlamı

Yaş değişkeni popülasyonda normal dağılmıyor olsa da (sağa çarpık, truncated),

Birden fazla alt-örneklem çekip her birinin yaş ortalamasını aldığımızda, bu ortalamaların oluşturduğu yeni dağılım normal (ya da normale çok yakın) olacaktır.

Bu sayede, örneklem ortalaması üzerinden popülasyon ortalaması (\(\mu\)) hakkında güven aralığı ve hipotez testi yapabiliriz (z-test veya t-test).

Özetle: Histogram’da gördüğümüz non-normal dağılım, tek bir değişkenin dağılımıdır. CLT ise örneklem ortalamalarının dağılımı için geçerlidir. Bu nedenle parametrik çıkarımsal istatistikler hâlâ büyük ölçüde kullanılabilir.

Sonraki Adım: CLT Testi

Hocamızın belirttiği gibi, bu histogramı temel alarak Merkezi Limit Teoremi’ni pratikte test edeceğiz.

Örneklem büyüklüğü: ( N = 2615 ) (tüm gözlemler geçerli)

a) Yöntemsel Tasarım

Alt-Örneklem Sayısının Belirlenmesi:

Veri setini yaklaşık 5 kişilik alt-örneklemlere bölmek istiyoruz:

\[\frac{2615}{5} \approx 523\]

Dolayısıyla hedefimiz 523 adet alt-örneklem oluşturmaktır.

Rastgele Grup Atama (Random Assignment)

Her bir bireye (gözleme) 1 ile 523 arasında rastgele bir grup numarası (cluster ID) atanacaktır. Bu işlem tamamen rastgele (random) yapılacaktır:

Her gözlem için bağımsız bir uniform rastgele sayı üretilir:

Uniform dağılım = Düzgün / Eşit olasılıklı dağılım demektir. Atama tamamen rastgeledir (random assignment).

\(U_i \sim \text{Uniform}(1, 523) \quad i = 1,2,\dots,2615\)

SPSS’te bu, şu şekilde gerçekleştirilir:

Veri setine yeni bir değişken eklenir (örneğin randsamp1).

Neden Random Uniform seçtik? Rastgele sayı üretimi (random number generation) sürecinde farklı olasılık dağılımları kullanılabilmektedir. Normal dağılım, değerlerin merkezde yoğunlaşıp uçlarda seyrekleştiği simetrik bir yapı sunarken; ki-kare (χ²) ve üstel (exponential) dağılımlar belirli yönlerde asimetri yaratır. Poisson dağılımı ise düşük değerlerde yüksek frekansın giderek azaldığı sağa çarpık bir yapıya sahiptir ve bu veri setindeki yaş değişkeninin dağılımına benzerlik göstermektedir. Bununla birlikte, her bir grup numarasının (1 ile 523 arasında) tamamen eşit olasılıkla seçilmesini ve alt-örneklemlerin yaklaşık aynı büyüklükte oluşmasını hedeflediğimiz için uniform (düzgün) dağılım tercih edilmiştir. Uniform dağılım, her grup ID’sine tam olarak aynı olasılığı (1/523) vererek rastgele atama işlemini tarafsız (unbiased) ve dengeli bir şekilde gerçekleştirmekte, böylece Merkezi Limit Teoremi testinde sistematik önyargıyı minimize etmektedir.

Önemli not: Atama rastgele yapıldığı için grup büyüklükleri tam olarak 5 olmayabilir. Bazı gruplarda 4, bazı gruplarda 5, bazı gruplarda ise 6 gözlem bulunabilir. Bu durum CLT simülasyonu için sorun teşkil etmez; aksine gerçekçi bir varyasyon yaratır.

Hocamızın Hatırlatması: Rastgele grup ataması (random assignment) işlemi, tamamen rastlantısal (stochastic) bir süreçtir. Bu nedenle her çalıştırmada farklı sayılar üretilmesi beklenen ve normal bir durumdur. Hocanın belirttiği üzere, aynı veri seti üzerinde farklı kişiler tarafından veya aynı kişi tarafından farklı zamanlarda RV.UNIFORM(1,523) komutu çalıştırıldığında, her bireye atanan grup numaraları farklı olacaktır. Bu varyasyon, rastgele sayı üreteçlerinin (random number generator) doğasından kaynaklanmaktadır ve her çalıştırmada bağımsız, tekrar üretilemeyen (non-reproducible) sonuçlar doğurur. Bu özellik, Merkezi Limit Teoremi testinin gerçekçi simülasyonu açısından önemli bir avantajdır.

Ondalıklardan Kurtulmamız Gerek RV.UNIFORM(1,523) fonksiyonu, varsayılan olarak sürekli uniform dağılım (continuous uniform distribution) ürettiği için ondalıklı (kesirli / floating-point) sayılar üretmektedir. Bu durum, grup ataması amacıyla kullanıldığında önemli bir sorun yaratmaktadır. Çünkü grup numaralarının tam sayı (integer) olması beklenirken, 320.56 veya 320.25 gibi kesirli değerler ortaya çıkmakta ve bu da veri setinde teorik olarak 523’ten fazla farklı grup oluşmasına neden olmaktadır. Hocamızın belirttiği üzere, ondalıklı atamalar grup tanımlama ve sonraki analiz süreçlerini (özellikle gruplandırma ve ortalama hesaplama) oldukça zorlaştırmaktadır.

1.Adım:

Variable View ekranına geliriz ve ondalık kısmı sıfırlarız.

İkinci Uyarı: SPSS’te RV.UNIFORM(1,523) fonksiyonu ile üretilen rastgele grup numarası (randsamp1), Numeric (sayı) veri tipinde tanımlandığı sürece, görünürde ondalık kısımlar gizlense bile arka planda floating-point hassasiyetini ve kesirli değerleri saklamaya devam etmektedir. Bu durum, SPSS’in sayısal değişkenlerde kullandığı iç temsil biçiminden kaynaklanmakta ve grup numaralarının tam sayı (integer) olarak kullanılmasını zorlaştırmaktadır.

2.Adım:

Hocamızın Bu Konuyu Çözmek için Uyguladığı Yöntem: randsamp1 değişkeninin tipini Numeric’ten String (karakter) formatına dönüştürmeyi tercih etmiştir. String tip, yalnızca görüntülenen karakter dizisini tuttuğu için ondalık bilgiyi tamamen ortadan kaldırır ve ilerleyen aşamalardaki gruplandırma, filtreleme ve ortalama hesaplama işlemlerini çok daha temiz ve güvenilir hale getirir.

Şimdi sıra bu Grup Ortalamalarının Hesaplanmasına gelelim.

Her grup için yaş değişkeninin aritmetik ortalaması hesaplanır:

\[\bar{x}_k = \frac{1}{n_k} \sum_{i \in \text{Grup } k} \text{Yaş}_i \quad k = 1,2,\dots,523\]

Burada:

( n_k ): ( k )-ıncı gruptaki gözlem sayısı (yaklaşık 5) ( {x}_k ): ( k )-ıncı alt-örneklemin yaş ortalaması

Bu işlem sonucunda elimizde 523 adet örneklem ortalaması bulunacaktır.

Bunu SPSS’de yapmak için ;

Aslında biz dağılım arıyoruz ancak ek bilgi olması için bu grupların ortalamasını nasıl bulunduğunu gösterelim.

Hocamızın Bağımlı ve Bağımsız Değişken Hatırlatması : Araştırma sorularında değişkenler, bağımsız değişken (independent variable) ve bağımlı değişken (dependent variable) olarak iki temel kategoriye ayrılır. Bağımsız değişken, araştırmacı tarafından etkileyici (predictor) veya açıklayıcı faktör olarak kabul edilen ve diğer değişkenleri etkilemesi beklenen değişkendir. Bağımlı değişken ise bağımsız değişkenin etkisi altında kalan, onun tarafından açıklanmaya çalışılan ve sonuç (outcome) niteliği taşıyan değişkendir. Örneğin, “Yaş, yaşam memnuniyetini nasıl etkiliyor?” sorusunda yaş bağımsız değişken iken, yaşam memnuniyeti bağımlı değişkendir. Bu ayrım, regresyon, varyans analizi ve deneysel tasarımlarda hipotez testi ve model kurma süreçlerinin temelini oluşturur.

Ortalamaların Dağılımını Görmek için Ne yapmak Gerekir? : En uygun yöntem, orijinal mikro-düzeydeki (case-level) veri setinden yeni bir özet (aggregated) veri seti oluşturmaktır. Bu yeni veri setinde her bir alt-örneklem (grup) için tek bir satır olacak ve bu satırda ilgili grubun grup numarası ile o gruba ait yaş ortalaması (mean age) yer alacaktır. Bu işlem, birçok istatistiksel yazılımda “summary”, “collapse” veya “group by” olarak adlandırılırken, SPSS’te Aggregate prosedürü ile gerçekleştirilir. Aggregate komutu, veriyi bireysel gözlem düzeyinden grup düzeyine (group-level) taşıyarak, Merkezi Limit Teoremi testinde kullanacağımız 523 adet örneklem ortalamasının dağılımını elde etmemizi sağlar.

Genel Bilgi Veriyi Toplulaştırma (Aggregate):

Data -> Aggregate menüsü üzerinden alt seviyedeki datalar üst seviyeye taşınabilir (özetlenebilir). Yani;

SPSS’te bu işleme Aggregate (Toplulaştırma / Özetleme) prosedürü denir. Aggregate, veriyi daha üst bir agregasyon düzeyine (higher aggregation level) taşıyarak özetleme ve toplulaştırma işlemidir. Örneğin, Türkiye’deki 12 istatistiki bölge bazında bireysel gözlemlerden oluşan orijinal veri setinden yeni bir özet veri seti oluşturmak istendiğinde, Aggregate komutu ile her bir bölge için tek bir satır üretilir. Bu yeni veri setinde satırlar coğrafi bölgeleri temsil ederken, sütunlarda o bölgenin yaş ortalaması, kilo ortalaması, boy ortalaması gibi çeşitli özet istatistikleri (mean, median, sum vb.) yer alır. Bu işlem, mikro-düzey (bireysel gözlem) veriyi makro-düzey (grup/region) özet veriye dönüştürerek, grup bazlı analizleri ve karşılaştırmaları önemli ölçüde kolaylaştırmaktadır.

Data Setinde Geçen Bölgeler Hakkında Hocamızın Yaptığı Açıklama: SPSS’te Data → Aggregate prosedürü, veriyi belirli bir kırılım değişkeni üzerinden özetleyerek yeni bir üst düzey veri seti oluşturmak için kullanılır. Prosedürde ilk olarak sorulan Break Variable(s) alanı, agregasyonun hangi değişken bazında yapılacağını tanımlar. Bu değişken, verinin hangi düzeyde (bölge, eğitim seviyesi, cinsiyet vb.) gruplanarak özetleneceğini belirleyen ana kırılım parametresidir.

Bu veri setinde Türkiye’deki sosyoekonomik ve sosyodemografik analizler için NUTS (Nomenclature of Territorial Units for Statistics) sistemi kullanılmaktadır. NUTS, Avrupa Birliği’nin bölgesel istatistik standartlarına uygun hiyerarşik bir sınıflandırmadır ve Türkiye’de üç seviyeden oluşur:

NUTS 1: 12 istatistiki bölge

NUTS 2: 26 alt bölge

NUTS 3: 81 il

Hocamız, veri setindeki nuts1 değişkenini kullanarak NUTS 1 seviyesinde (12 istatistiki bölge) agregasyon yapmayı gösterecektir. Bu sayede her bir NUTS 1 bölgesine ait yaş ortalaması, kilo ortalaması, boy ortalaması gibi özet istatistiklerin yer aldığı yeni, daha kompakt bir veri seti elde edilecektir.

Konu pekişmesi için yukarıdaki Merkezi Limit Teoremi testinden bağımsız bir örnek verelim:

DİKKAT Ek Bilgi : DİKKAT

Hocamızın Function ile ilgili Açıklaması : SPSS Aggregate prosedüründe Summaries of Variable(s) bölümü, her bir break variable (kırılım) grubu için hangi özet istatistiklerin hesaplanacağını belirler. Kullanıcı, ilgili değişkenler (örneğin age, height, weight) için bir veya birden fazla özet fonksiyonu seçebilir. En sık kullanılan fonksiyonlar arasında MEAN (ortalama), SUM (toplam), MEDIAN (medyan), SD (standart sapma), MIN (minimum), MAX (maksimum) ve N (gözlem sayısı) yer alır. Ayrıca aynı değişkene birden fazla özet istatistik aynı anda uygulanabilir. Örneğin, age değişkeni için hem age_mean = MEAN(age) hem de age_median = MEDIAN(age) tanımlanabilir. Hocamız bu aşamada öncelikle age, height ve weight değişkenlerinin ortalamalarını (mean) hesaplamayı tercih etmekte olup, ihtiyaca göre diğer fonksiyonlar da kolayca eklenebilmektedir. Bu esneklik, tek bir Aggregate komutu ile çok değişkenli ve çok istatistikli özet tabloların oluşturulmasını sağlar.

Hocamızın Yukarıdaki Görünümde Yer Alan Kısımlardaki Açıklamları : SPSS Aggregate prosedüründe Save bölümünde üç temel seçenek sunulmaktadır:

Mevcut veri setine özet değişkenleri eklemek, Yeni bir veri seti oluşturmak (Create a new dataset containing only the aggregated variables), Yeni bir dış dosya (.sav) olarak kaydetmek.

Hocamız, “Create a new dataset containing only the aggregated variables” seçeneğini tercih etmiştir. Bu seçenek, orijinal mikro-düzey veriyi değiştirmeden, yalnızca agregasyon sonucunda elde edilen özet istatistikleri (örneğin NUTS 1 seviyesinde her bölge için yaş ortalaması, boy ortalaması, kilo ortalaması vb.) içeren tamamen yeni ve bağımsız bir veri seti oluşturur. Kullanıcı bu yeni veri setine istediği ismi verebilir (örneğin nuts_summary). “OK” tuşuna basıldığında SPSS otomatik olarak bu yeni veri setini açar ve aktif hale getirir. Bu yöntem, özellikle Merkezi Limit Teoremi testi gibi sonraki analizlerde kullanılmak üzere temiz, kompakt ve sadece özet bilgilerden oluşan bir veri seti elde etmek için en uygun ve en sık tercih edilen yaklaşımdır.

Yeni bir veri seti oluştu:

Veri Analizi Okulu 7. Hafta Ders Notları

Normal Dağılım ve Merkezi Limit Teoremi

Veri Analizi Okulu - İsmail Cüneyt VARİLCİ

27 April 2026

4. Merkezi Limit Teoremi (Central Limit Theorem)

Genel Bilgi Veriyi Toplulaştırma (Aggregate):

DİKKAT Ek Bilgi : DİKKAT