3. Betimleyici İstatistikler (Descriptive Statistics)

Tablo veya grafik (frekans tablosu, özet istatistikler, korelasyon vb.) çıkartmak istendiğinde genellikle Analyze ana menüsü kullanılır. Analizler temel olarak iki kategoriye ayrılır:

A. Frekans Analizi (Frequencies)

Değişkenlerdeki cevap kategorilerinin kaç kez tekrar ettiğini (gözlem sayısını) gösterir.

Hem sayısal hem de kategorik (nominal, ordinal) tüm değişken tipleri için frekans analizi yapılabilir (örneğin; cinsiyet, medeni durum veya yaş dağılımı).

İzlenecek Yol: Analyze -> Descriptive Statistics -> Frequencies.

Önreğin Cinsiyet değişkeninin frekans analizi yapalım.

Tablo Okuma:

Tablolarda toplam geçerli (Valid) kişi sayısı ve kayıp veri (Missing) sayısı en başta verilir.

Tablo sütunlarında frekans (kişi sayısı), yüzde (Tüm veri seti içindeki oran), geçerli yüzde (Valid Percent - Sadece cevap verenler içindeki oran) ve kümülatif yüzde (o değere kadar olanların toplam oranı) bulunur.

Önemli Not: Raporlama yaparken, aksine bir neden yoksa her zaman “Valid Percent” (Geçerli Yüzde) sütunu raporlanmalıdır.

İkinci Örnek: degurba (Kentleşme durumuna bakalım)

Daha önceki gender değişkenini kaldırmak için;

Sola at tuşuna da basabiliriz. Reset’i de tıklayabiliriz.Reset Tavsiye Edilmektedir.

Grafik Çıkarma: Frequencies menüsü içindeki Charts sekmesinden kategorik veriler için Bar Chart (çubuk grafik), sayısal veriler için ise Histogram (üzerine normal dağılım eğrisi de eklenebilir) çıkartılabilir. Sayısal verilerde Bar veya Pie (pasta) grafik istenmez.

Örneğimizdeki degurba (Kentleşme durumuna bakalım) ’nın grafiğine bakalım.

Continue ve Ok tıklanır. Tabloya ek olarak grafik de çıkartmış oluruz.

Grafiği düzenlemek için grafik üzerinde çift tıklarız. Gelen ekran yardımı ile istediğimiz düzenlemeleri yaparız. Örneğin yüzde miktarlarını grafik üzerinde görmek için aşağıdaki kısım tıklanır.

Aşağıda % yüzde değerleri gelir istersek bu değerlerin görünümü için sağ taraftaki kısımdan başka düzenlemeler de yapabiliriz.

Sayısal değişkenlerin hem Frekans Analizini (Frequencies) hem de Özet İstatistikler (Descriptives) analizini yapabiliriz.

Örnek

Sayısal değişken olarak Weight(Kilo değişkeni) değişkeninin betimsel istatistik analizini yapalım.

Önce yukarıdaki gibi frekans analizine önce bakalım.

Önce Weight(Kilo değişkeni) ’nin frekans analizine histogram grafiği ile birlikte bakalım.

Continue ve OK tıklanır;

Hem tablo hem de grafik karşımıza gelir.

Tablo

Grafik

DATA SETİ İLE İLGİLİ WEIGHT DEĞİŞKENİ ÖZELİNDE EK BİLGİ: BU TÜR DURUMLAR DEĞİŞKENLERİN BİR KISMINDA OLABİLİR. BU DURUMU ANKETİ BİZE ULAŞTIRANLAR BİLMEKTEDİR. YÖNTEM BAĞLAMINDA OLAYI İNCELEMEK GEREKİR.VE BU TİP BİLGİLERE ULAŞMAK GEREKİR. HOCAMIZIN WEIGHT KISMINDA YAPTIĞI AÇIKLAMA AŞAĞIDAKİ GİBİDİR

HOCAMIZIN 906 KİŞİLİK MISSING DATA İLE İLGİLİ AÇIKLAMASI

Kilo (Weight) Değişkeninde Eksik Veriler ve TGSS Rotasyon Sistemi

Veri Seti Bilgisi:

TGSS 2024 veri setinde kilo değişkeni (kişilerin kendi bildirdikleri ağırlıkları) ile ilgili olarak:

1709 kişinin verisi mevcuttur. 906 kişinin verisi eksiktir (missing).

Neden Bu Kadar Çok Eksik Veri Var?

TGSS 2024 araştırması, rotasyon (dönüşümlü) sistemi ile tasarlanmıştır. Bu sistemin amacı, ankette daha fazla soru sorabilmektir.

Katılımcılara 3 farklı form sunulur. Her katılımcı bu formlardan sadece 2’sini doldurur. Bir form her seferinde boş bırakılır.

Bu sayede bazı sorular örneklemin yalnızca 2/3’üne sorulur. Böylece toplam soru sayısı artırılarak araştırmanın kapsamı genişletilir. Kilo sorusu da bu rotasyona tabi tutulmuş sorulardan biridir. Dolayısıyla örneklemin yaklaşık 2/3’üne (1709 kişiye) sorulmuştur. Geri kalan 906 kişiye ise bu soru hiç sorulmamıştır. Bu nedenle bu kişilerde “sistematik missing” (tasarım kaynaklı eksik veri) oluşmuştur.

Diğer Missing Değerler

Eksik verilerin bir kısmı da katılımcıların kendi tercihleri nedeniyle oluşmuştur:

10 kişi “Bilmiyorum” cevabını vermiştir. 3 kişi “Cevap vermek istemiyorum” demiştir.

Bu yanıtlar da istatistiksel analizlerde missing olarak kabul edilir.

Özetle;

TGSS 2024 Kilo Değişkeni - Eksik Veri Dağılımı
Durum Kişi.Sayısı Açıklama
Kilo verisi mevcut 1.709 Soru sorulmuş ve cevap verilmiş
Kilo verisi missing (toplam) 906 Rotasyon + “Bilmiyorum” + “İstemiyorum”
Rotasyon nedeniyle sorulmamış ~893 Form rotasyonu (2/3 kuralı)
Bilmiyorum 10 Katılımcı tercihi
Cevap vermek istemiyorum 3 Katılımcı tercihi

Kullanılabilir Veri

Analizlerimizde yalnızca 1709 kişinin kilo verisini kullanabileceğiz. Bu durum, TGSS’in rotasyon sisteminin doğal bir sonucudur ve veri setinin genel yapısını yansıtmaktadır.

B. Özet İstatistikler (Descriptives)

Sayısal (scale) bir değişkenin ortalama, minimum, maksimum ve standart sapma gibi dağılım parametrelerine bakmak için kullanılır.

İzlenecek Yol: Analyze -> Descriptive Statistics -> Descriptives.

Örnek olarak weight (Ağırlık değişkenine) bakalım.

Aynı yolu izleyerek height (boy değişkeni) değişkeninin sonucuna tek olarak baktığımızda aşağıdaki gibi sonuç alırız.

Aynı tabloya birden fazla değişken (örneğin boy ve kilo) atıldığında, tablonun altında “Listwise N” değeri görünür. Bu değer, analize sokulan her iki/tüm değişkenlerde de ortak olarak eksiksiz verisi bulunan (kesişim kümesi) kişi sayısını ifade eder.

Valid N (listwise) için hocamızın açıklamaları bizi aşağıdaki bigilere götürür.

Boy ve Kilo Değişkenlerinde Listwise Valid N

TGSS 2024 veri setinde boy ve kilo değişkenlerini birlikte incelemek istediğimizde önemli bir kavramla karşılaşırız: Valid N (Listwise).

Önemli Sayılar

Kilo verisi mevcut olan kişi sayısı: 1.709 Hem boy hem de kilo verisine sahip olan kişi sayısı: 1.694

1694 sayısı, listwise valid N (tam gözlem sayısı) olarak adlandırılır.

Listwise Valid N Nedir?

Listwise deletion (tam gözlem yöntemi), analiz yaparken sadece her iki değişkende de verisi olan bireyleri dikkate alır.

Yani boy ile kilo arasında bir analiz (korelasyon, regresyon vb.) yapmak istediğimizde SPSS ya da R otomatik olarak yalnızca 1.694 gözlemi kullanır.

Tek tek değişkenlerdeki gözlem sayıları (örneğin kilo için 1.709) yeterli değildir.

Analizde yer alacak tüm değişkenlerin kesişim kümesi (ortak geçerli veriler) dikkate alınmalıdır.

Neden Bu Kadar Önemlidir?

Çok değişkenli analizlerde (bivariate veya multivariate):

Her değişkenin kendi başına kaç gözlemi olduğu değil, Analize giren tüm değişkenlerin ortak geçerli veri sayısı (kesişim kümesi) önemlidir.

Örnek Senaryo

Boy ile kilo arasında Pearson korelasyon analizi yapmak istediğinizde:

SPSS size şu sonucu verecektir: Valid N (listwise) = 1.694

TGSS 2024 - Boy ve Kilo Değişkenlerinde Geçerli Gözlem Sayıları
Durum Geçerli.Gözlem.Sayısı Açıklama
Kilo verisi mevcut 1.709 Sadece kilo bilgisi olanlar
Boy verisi mevcut 1701 Sadece boy bilgisi olanlar
Hem boy hem kilo verisi mevcut 1.694 Listwise Valid N → Analizde kullanılacak ortak veri

Not:

TGSS’in rotasyon sistemi nedeniyle bu tür listwise kayıplar çok yaygındır. Bu yüzden her analizden önce Valid N değerini mutlaka kontrol edin. Özellikle regresyon, korelasyon veya çoklu analizlerde bu sayı, sonuçların güvenilirliğini doğrudan etkiler.

Özet Kural:

Tek değişken analizi → Her değişkenin kendi N’ine bakılır.

Çok değişkenli analiz → Kesişim kümesi (Listwise Valid N) kullanılır.

Örneklerimizde devam edelim. Eğitim seviyesi değişkeni için bir analiz yapalım. Ordinal bir değişken olmasından dolayı frekans analizi yaparız.

educ [Bitirmek en yüksek eğitim seviyesi nedir?] edulit [Okuma yazma biliyor musunuz?] educlt [Eğitim seviyesi ve okul yazarlık durumu?]

Tablolar ile ilgili Hocamızın anlattıkları genel olarak aşağıdaki gibidir.

1. Statistics Tablosu (Temel Bilgiler) TABLO1

Bitirdiğiniz en yüksek eğitim seviyesi nedir? sorusuna 2.615 kişi (tüm örneklem) cevap vermiştir → Valid N = 2.615, Missing = 0.

Okuma yazma biliyor musunuz? sorusuna ise sadece 113 kişi cevap vermiştir → Valid N = 113, Missing = 2.502. Eğitim seviyesi ve okur yazarlık durumu (kompozit değişken) ise tekrar 2.615 kişi için oluşturulmuştur.

Neden sadece 113 kişi?

Çünkü “Okuma yazma biliyor musunuz?” sorusu yalnızca “Herhangi bir okul bitirmedim” cevabını veren kişilere sorulmuştur.

2. Bitirdiğiniz En Yüksek Eğitim Seviyesi Frekans Tablosu TABLO2

Ana Bulgular (Valid Percent):

Herhangi bir okul bitirmedim → 113 kişi (%4,3) İlkokul → 492 kişi (%18,8) Ortaokul / İlköğretim → 395 kişi (%15,1) Lise → 862 kişi (%33,0) 2 veya 3 yıllık meslek yüksekokulu → 255 kişi (%9,8) 4-5-6 yıllık fakülte / 4 yıllık yüksekokul → 427 kişi (%16,3) Yüksek lisans → 61 kişi (%2,3) Doktora → 10 kişi (%0,4) Toplam: 2.615 kişi (%100).

3. Okuma Yazma Biliyor Musunuz? (Sadece Okul Bitirmeyenler) TABLO3

Evet → %43,4 (49 kişi) Hayır → %56,6 (64 kişi)

Yani okul bitirmemiş olanların yaklaşık %43’ü okuma yazma biliyor.

4. Kompozit Değişken: Eğitim Seviyesi ve Okur Yazarlık Durumu TABLO4

Bu değişken nasıl oluşturuldu?

SPSS’te iki soru birleştirilerek yeni bir kompozit değişken yaratılmıştır:

“Herhangi bir okul bitirmedim” diyen 113 kişi için okuma-yazma bilgisi eklenmiştir. Böylece iki ayrı kategori oluşmuştur: Herhangi bir okul bitirmedi - Okur yazar değil → 64 kişi (%2,4) Herhangi bir okul bitirmedi - Okur yazar → 49 kişi (%1,9)

Sonraki kategoriler normal eğitim seviyeleriyle devam eder.

Özet ve Teknik Not

  • Orijinal soru (“Bitirdiğiniz en yüksek eğitim seviyesi nedir?”) → 2.615 kişi

  • Ek soru (“Okuma yazma biliyor musunuz?”) → Sadece 113 kişi (okul bitirmeyenler)

  • Kompozit değişken → Her iki bilginin birleştirilmesiyle daha detaylı ve kullanışlı bir değişken elde edilmiştir.

Bu yapı, ankette rotasyon ve mantıksal atlama kuralları sayesinde daha fazla soru sorulabilmesini sağlar. Analiz yaparken kompozit değişkeni (Eğitim seviyesi ve okur yazarlık durumu) kullanmak genellikle daha avantajlıdır.

Not: Valid Percent’e dikkat edin! Özellikle “okul bitirmemiş” grubu incelenirken Valid Percent kullanmak, Missing System değerlerini dışladığı için daha doğru yorum yapmanızı sağlar.

Diyelim ki ilk iki değişken elimde yok sadece üçüncü değişken var sanki o değişken ile çalışıyoruz varsayalım ve frekans analizini yapalım. Bu senaryoya göre ilk iki değişkeni geri atalım ve sadece analizi educlt üzerinden yapalım.

Bu aşamada bize kategorileri tekrar düzenle dediler. Buna göre;

Eğitim Seviyesi Değişkeninin Yeniden Kodlanması

TGSS 2024 veri setinde “Eğitim seviyesi ve okur yazarlık durumu” değişkeni şu anda 9 kategorili bir yapıdadır (kategoriler 1’den 9’a kadar numaralandırılmıştır).

Bizden İstenen Yeni Gruplama

Proje çalışmasında daha sade ve anlamlı bir eğitim seviyesi değişkeni oluşturmak amacıyla mevcut 9 kategorili değişken yeniden kodlanacaktır (recoding).

Yeni değişken şu 6 kategoriden oluşacaktır:

  1. Okula gitmemiş olanlar → “Herhangi bir okul bitirmedi - Okur yazar değil” + “Herhangi bir okul bitirmedi - Okur yazar” (kategori 1 + 2)

  2. İlkokul mezunları → Sadece “İlkokul” (kategori 3)

  3. Ortaokul mezunları → “Ortaokul / İlköğretim” (kategori 4)

  4. Lise mezunları → “Lise” (kategori 5)

  5. Üniversite mezunları → “2 veya 3 yıllık meslek yüksekokulu” + “4-5-6 yıllık fakülte / 4 yıllık yüksekokul” (kategori 6 + 7) (Önlisans + Lisans birleştirilecek)

  6. Lisansüstü mezunları → “Yüksek lisans” + “Doktora” (kategori 8 + 9)

Eğitim Seviyesi Değişkeni Yeniden Kodlama Şeması
Mevcut Kategori Mevcut Etiket Yeni Kategori No Yeni Grup
1 Herhangi bir okul bitirmedi - Okur yazar değil 1 Okula gitmemiş olanlar
2 Herhangi bir okul bitirmedi - Okur yazar 1 Okula gitmemiş olanlar
3 İlkokul 2 İlkokul mezunları
4 Ortaokul / İlköğretim 3 Ortaokul mezunları
5 Lise 4 Lise mezunları
6 2 veya 3 yıllık meslek yüksekokulu 5 Üniversite mezunları
7 4-5-6 yıllık fakülte / 4 yıllık yüksekokul 5 Üniversite mezunları
8 Yüksek lisans 6 Lisansüstü mezunları
9 Doktora 6 Lisansüstü mezunları

Neden Bu Şekilde Yeniden Kodlama Yapıyoruz?

9 kategorili değişken proje analizlerinde çok dağınık kalıyor. Daha az ve mantıksal olarak birleştirilmiş kategorilerle (6 grup) daha net yorum yapılabilir. Özellikle okula gitmemiş olanlar, üniversite mezunları ve lisansüstü grupları birleştirilerek analizler daha anlamlı hale getirilir.