3. TGSS 2024 Veri Setimizi Açıyoruz.

TGSS 2024 veri setimizin SPSS’e yükleme adımları grafik olarak aşağıda gösterilmiştir.

Data View Ekranı

Variable View Ekranı

age (yaş) değişkeninin analizine bir bakalım;

Burada hocamızın bir uyarısını belirterek konuya devam edeceğiz.

Hocamızın Uyarısı: “Her ne olursa olsun en ideal başlangıç bütün değişkenlerin aslında bir frekansını yapıp öyle devam etmektir. Ama biz defalarca yaptığımız için yapmadan ilerliyorum.”

Tablo Yorumu

Case Processing Summary

Veri setinin tamamı analiz kapsamına alınmıştır. Herhangi bir kayıp değer bulunmamaktadır.

Betimleyici İstatistikler (Descriptives)

a) Merkezi Eğilim Ölçüleri

Ortalama (\(\bar{x}\)): 40.2945 Medyan: 39.0000 %5 Kırpılmış Ortalama (5% Trimmed Mean): 39.7084

Ortalama ve medyan değerleri birbirine çok yakındır. Bu durum dağılımın neredeyse simetrik olduğunu işaret etmektedir. Ancak hafif pozitif çarpıklık (aşağıda detaylandırılmıştır) nedeniyle ortalama, medyandan biraz daha yüksektir. Bu veri seti 18 yaş ve üzeri bireyleri kapsadığından, ortalama Türkiye genel nüfus ortalamasını değil, 18+ popülasyonu yansıtmaktadır. Örnekleme önyargısı (sampling bias) nedeniyle popülasyon parametresini tam olarak temsil etmeyebilir.

b) Dağılım (Dispersion) Ölçüleri

Varyans (\(s^2\)): 233.258 Standart Sapma (\(s\)): 15.27277 Minimum: 18.00 Maksimum: 100.00 Aralık (Range): 82.00 Çeyrekler Arası Aralık (Interquartile Range): 24.00

Standart sapma yaklaşık 15.27 birimdir. Bu değer, yaşların ortalamadan ortalama 15.27 yıl sapma gösterdiğini ifade eder. Aralık (Range = Max - Min) 82 birimdir ve veri setinin geniş bir yaş aralığını (18-100) kapsadığını gösterir.

c) Dağılımın Şekli (Shape Parameters)

Çarpıklık (Skewness): 0.458 (Std. Error = 0.048) Basıklık (Kurtosis): -0.609 (Std. Error = 0.096)

Çarpıklık pozitif ve istatistiksel olarak anlamlıdır (SE’nin yaklaşık 9 katı). Dağılım hafif sağa çarpıktır (sağ kuyruk daha uzundur). Basıklık negatiftir; bu da dağılımın platikurtik (düz tepeli, normal dağılımdan daha basık) olduğunu gösterir.

Çıkarımsal İstatistik: Ortalama İçin %95 Güven Aralığı

SPSS tarafından hesaplanan %95 güven aralığı:

Alt sınır: 39.7088 Üst sınır: 40.8801

Standart Hata (Standard Error of the Mean): \(SE = \frac{s}{\sqrt{n}} = \frac{15.27277}{\sqrt{2615}} \approx 0.2987\) Güven aralığı şu formülle elde edilir: \(\bar{x} \pm z_{0.975} \times SE \quad (z_{0.975} \approx 1.96)\)

Yorum:

Bu veri setinden elde edilen örneklem ortalaması 40.2945’tir. %95 güven düzeyinde, Türkiye’deki 18 yaş ve üzeri popülasyonun gerçek yaş ortalamasının 39.7088 ile 40.8801 arasında olduğu söylenebilir. Yani, tekrarlanan örneklemelerle yapılan 100 çalışmanın yaklaşık 95’inde popülasyon ortalaması bu aralık içinde yer alır.

Normal Dağılım Yaklaşımı ve Empirik Kural

Standart sapma kullanılarak yaklaşık kapsama oranları (empirical rule):

\(\mu \pm 1s\) aralığı: \(40.2945 \pm 15.2728 \approx\) [25.02, 55.57] Bu aralık teorik olarak verinin yaklaşık %68’ini kapsamalıdır. \(\mu \pm 2s\) aralığı: \(40.2945 \pm 30.5455 \approx\) [9.75, 70.84] Teorik olarak verinin yaklaşık %95’ini kapsamalıdır.

Önemli not: Yaş değişkeni 18 yaşında tabanlandığı (minimum 18) için teorik sol kuyruk -∞’ya gidemez. Bu nedenle dağılım kesikli (truncated) bir yapıdadır ve normal dağılım varsayımı tam olarak sağlanmaz. Özellikle sol tarafta (18 yaş altı) doğal bir sınır vardır.

Stem-and-Leaf Plot Yorumu

Stem-and-Leaf Plot, sayısal verilerin dağılımını hem görsel hem de sayısal olarak gösteren klasik bir betimleyici istatistik aracıdır. Histogramdan farklı olarak orijinal verilerin (veya ondalık basamaklarının) büyük bir kısmını korur ve dağılımın şekli, kümelenmeleri, simetri, çarpıklık ve aykırı değerler hakkında ayrıntılı bilgi verir.

a) Plot Parametreleri (SPSS Ayarları)

SPSS tarafından otomatik olarak ölçeklendirilen plot şu özelliklere sahiptir:

Stem width: 10.00 Her stem (kök), 10 yıllık yaş aralığını temsil eder. Stem 1 → 10–19 yaş Stem 2 → 20–29 yaş Stem 3 → 30–39 yaş … Stem 8 → 80–89 yaş

Each leaf: 4 case(s)

Her bir yaprak (leaf) sembolü 4 gözlemi temsil etmektedir. Bu ölçeklendirme, plotun okunabilirliğini korumak için yapılmıştır.

& sembolü: Kesirli (fractional) yaprakları gösterir (örneğin 0.5 yaprak = 2 gözlem).

Extremes: 1.00 vaka (≥100)

100 yaş ve üzeri bireyler ayrı bir “Extremes” satırında raporlanmıştır.

b) Plot’un Teknik Okuma Kuralı

Bir satırı okumak için:

Stem + Leaf birleştirilir → yaş değeri elde edilir. Her leaf karakteri ×4 çarpılır → o yaştaki gözlem sayısı bulunur.

Örnek okumalar (SPSS çıktısından doğrudan):

Stem 1 + Leaf 8 → 18 yaş

Stem 1’de çok sayıda 8 leaf bulunduğu için 18 yaş grubunda yüksek yoğunluk vardır (her 8 leaf = 4 kişi).

Stem 7 + Leaf 5 → 75 yaş

Her 5 leaf = 4 kişi → 75 yaş grubunda yaklaşık 8 kişi (örnek olarak hocanın belirttiği gibi).

Stem 8 → 80+ yaşlarda çok az leaf bulunmaktadır (neredeyse boş).

Stem 1 genelinde 172 leaf × 4 = 688 gözlem (18–19 yaş grubu).

Bu okuma yöntemi sayesinde dağılımın her bir yaşa (veya 1 yıllık gruba) ait frekansı tam olarak görülebilir.

c) Dağılımın Teknik Yorumu

Stem-and-Leaf Plot’tan elde edilen başlıca bulgular:

d) Yoğunlaşma bölgeleri:

18–19 yaş (Stem 1): Çok yüksek frekans

20–49 yaş (Stem 2, 3, 4): En yoğun kümelenme (verinin büyük çoğunluğu burada)

50–59 yaş (Stem 5): Orta düzey frekans

60+ yaş: Hızla azalan frekans

e) Dağılımın şekli:

Sol taraf (genç yaşlar) daha yoğun, sağ kuyruk (ileri yaşlar) daha uzundur → hafif pozitif çarpıklık (positive skewness) doğrulanmaktadır. Bu, daha önce Descriptives tablosunda hesaplanan Skewness = 0.458 ile uyumludur.

f) Aykırı / ekstrem değerler:

Sadece 1 kişi 100 yaş ve üzerindedir (Extremes satırı). Bu değer, veri setinin maksimumu (100) ile tutarlıdır.

Boşluklar: 80+ yaşlarda (Stem 8) leaf sayısı çok düşüktür; 80 yaşında hemen hemen hiç gözlem yoktur veya 4’ten azdır.

Bu görünüm aslında dağılım bizim normalde çıkarttığımız histograma çok benzer bir şey. Biraz daha hangi yaş gruplarında dağılığımı görsel olarak sunuyor.

Boxplot

Boxplot, verinin merkezi eğilimini, dağılımını, çarpıklığını ve aykırı değerlerini tek bir görselde özetleyen çok güçlü bir betimleyici istatistik aracıdır. Özellikle çeyreklik (quartiles) tabanlı olduğu için uç değerlerden (outliers) daha az etkilenir ve dağılımın orta %50’sini net bir şekilde gösterir.

Önceki bulgularla uyum: Ortalama = 40.2945, Medyan = 39.0000, IQR = 24.00, Min = 18, Max = 100.

a) Boxplot’un Teknik Yapısı ve Okuma Kuralı

SPSS’in varsayılan boxplot’u şu bileşenlerden oluşur:

Kutu (Box): Verinin orta %50’sini (25. persentil = Q1 ile 75. persentil = Q3 arası) temsil eder.

Bu aralığa Interquartile Range (IQR) denir:

\(IQR = Q_3 - Q_1 = 24.00\)

Kutunun içindeki kalın çizgi: Medyan (Q2 = 50. persentil) = 39.00

Bıyıklar (Whiskers):ü

Alt bıyık: Q1’den 1.5 × IQR aşağısındaki en küçük değer (veya minimum).

Üst bıyık: Q3’ten 1.5 × IQR yukarısındaki en büyük değer (veya maksimum).

Bu sınırların dışındaki noktalar aykırı değer (outlier) olarak işaretlenir.

Aykırı Değerler: Bıyıkların dışında kalan noktalar.

Bu grafikte 1.201 numaralı vaka (case 1,201) üst bıyığın dışında, 100 yaşında olarak görünmektedir.

b) Teknik Yorum

Orta %50’lik dilim (Box):

Yaşların %50’si Q1 ile Q3 arasında yer almaktadır. Grafikten görüldüğü üzere kutu yaklaşık 28–30 yaş ile 52–53 yaş arasında yoğunlaşmıştır. Bu, verinin büyük çoğunluğunun 20’li yaşların sonu ile 50’li yaşların başı arasında kümelendiğini göstermektedir.

Medyan:

Verinin tam ortasındaki değer 39 yaşındadır. Ortalama (40.29) ile medyanın birbirine yakın olması, dağılımın neredeyse simetrik olduğunu (hafif pozitif çarpıklık) teyit eder.

Dağılımın yoğunluğu:

Kutunun genişliği (IQR = 24) orta %50’nin 24 yıllık bir aralıkta dağıldığını gösterir. Bu, yaş değişkeninin orta yaş grubunda nispeten homojen bir yoğunluğa sahip olduğunu belirtir.

Aykırı Değer (Outlier):

Tek bir aykırı değer tespit edilmiştir: Case 1,201 → 100 yaş.

Bu değer, üst bıyığın (yaklaşık 86–87 yaş) oldukça üzerinde yer aldığı için SPSS tarafından otomatik olarak outlier olarak işaretlenmiştir. Veri setinin maksimum değeriyle (100) uyumludur ve “extremes” satırında da belirtilmişti. (Stem and Leaf Plot’da görülmektedir.)

Simetri ve Çarpıklık:

Kutunun medyana göre konumu ve bıyık uzunlukları, hafif pozitif çarpıklık (sağ kuyruk daha uzun) olduğunu doğrular. Bu, Stem-and-Leaf Plot’ta ve Descriptives tablosunda (Skewness = 0.458) görülen bulguyla tam olarak örtüşmektedir.

c) Boxplot’un Diğer İstatistiklerle Karşılaştırması

Şimdi age (yaş) değişkeninin histogram dağılımına ilgili adımları gerçekleştirerek bakalım.

Histogram, sayısal bir değişkenin frekans dağılımını çubuk grafik şeklinde görselleştiren temel bir betimleyici araçtır. Bu grafik, önceki raporlarda (Descriptives, Stem-and-Leaf Plot ve Boxplot) elde edilen bulguları görsel olarak doğrulamakta ve dağılımın şekli, yoğunlaşma bölgeleri ile normal dağılım varsayımının durumunu net bir şekilde ortaya koymaktadır.

Örneklem büyüklüğü: n = 2.615

Özet istatistikler (grafikte de belirtilmiştir):

Ortalama (\(\bar{x}\)) = 40.29

Standart Sapma (\(s\)) = 15.273

Minimum = 18, Maksimum = 100

a) Histogram’ın Teknik Yapısı

X-ekseni: Yaş değerleri (18’den 120’ye kadar binlere ayrılmış).

Y-ekseni: Frekans (her bin içindeki gözlem sayısı).

Bin genişliği: SPSS otomatik olarak uygun bin genişliği seçmiştir (yaklaşık 2–3 yıllık aralıklar).

Grafikte sağ kuyruk belirgin şekilde uzundur; 80+ yaşlarda frekans çok düşüktür.

b) Dağılımın Teknik Yorumu

Histogram’dan elde edilen başlıca bulgular:

Sağa çarpık (positively skewed / right-skewed) dağılım.

Sol tarafta (genç yaşlar) yüksek bir tepe (mod) görülmektedir.

Frekans, yaklaşık 20–25 yaş civarında zirve yapar (en yüksek çubuk ≈ 160–170 frekans).

30–50 yaş aralığında orta düzeyde yoğunluk devam eder.

60+ yaşlardan itibaren frekans hızla azalır ve uzun bir sağ kuyruk oluşur.

c) Çarpıklık doğrulaması:

Daha önce Descriptives tablosunda hesaplanan Skewness = 0.458 (standart hatası = 0.048) burada görsel olarak da net şekilde doğrulanmaktadır. Dağılım asimetriktir ve sağ kuyruk daha uzundur.

d) Neden sağa çarpık?

Veri seti 18 yaş ve üzeri bireyleri kapsadığı için sol tarafta doğal bir alt sınır (truncation) vardır (18 yaş altı gözlem yok).

Bir değişkenin gerçekte mümkün olan bütün değer aralığı yerine, yalnızca belirli bir sınırın ötesindeki değerlerin gözlemlenebildiği (veya analiz edildiği) duruma truncated distribution denir.

Türkiye nüfusunun genel olarak genç yapısı nedeniyle 18–30 yaş aralığında daha yüksek frekans beklenmektedir. İleri yaşlarda (65+) mortalite etkisiyle frekans azalır → klasik “yaş piramidi”nin 18+ kesitinde görülen tipik sağa çarpıklık.

e) Normal dağılım varsayımı:

Dağılım normal dağılımdan belirgin şekilde sapmaktadır.

Normal dağılım simetrik, tek tepeli ve kuyrukları simetrik olurdu.

Burada hem çarpıklık hem de 18 yaş altındaki doğal kesinti nedeniyle normalite varsayımı sağlanmamaktadır.

Merkezi Limit Teoremi (Central Limit Theorem - CLT) ve Önemi

Histogram’ın gösterdiği bu non-normal dağılım, parametrik istatistiksel testlerde (t-test, ANOVA, regresyon vb.) doğrudan sorun yaratabilir gibi görünse de, Merkezi Limit Teoremi bu sınırlamayı büyük ölçüde aşmamızı sağlar.

Veri Analizi Okulu 7. Hafta Ders Notları

Normal Dağılım ve Merkezi Limit Teoremi

Veri Analizi Okulu - İsmail Cüneyt VARİLCİ

27 April 2026

3. TGSS 2024 Veri Setimizi Açıyoruz.