Tablo veya grafik (frekans tablosu, özet istatistikler, korelasyon
vb.) çıkartmak istendiğinde genellikle Analyze ana menüsü
kullanılır. Analizler temel olarak iki kategoriye ayrılır:
Değişkenlerdeki cevap kategorilerinin kaç kez tekrar ettiğini (gözlem sayısını) gösterir.
Hem sayısal hem de kategorik (nominal, ordinal) tüm değişken tipleri için frekans analizi yapılabilir (örneğin; cinsiyet, medeni durum veya yaş dağılımı).
İzlenecek Yol:
Analyze -> Descriptive Statistics -> Frequencies.
Önreğin Cinsiyet değişkeninin frekans analizi yapalım.
Tablo Okuma:
Tablolarda toplam geçerli (Valid) kişi sayısı ve kayıp
veri (Missing) sayısı en başta verilir.
Tablo sütunlarında frekans (kişi sayısı), yüzde (Tüm veri seti
içindeki oran), geçerli yüzde (Valid Percent - Sadece cevap
verenler içindeki oran) ve kümülatif yüzde (o değere kadar olanların
toplam oranı) bulunur.
Önemli Not: Raporlama yaparken, aksine bir neden yoksa her zaman “Valid Percent” (Geçerli Yüzde) sütunu raporlanmalıdır.
İkinci Örnek: degurba (Kentleşme durumuna bakalım)
Daha önceki gender değişkenini kaldırmak için;
Sola at tuşuna da basabiliriz. Reset’i de tıklayabiliriz.Reset Tavsiye Edilmektedir.
Grafik Çıkarma: Frequencies menüsü
içindeki Charts sekmesinden kategorik veriler için
Bar Chart (çubuk grafik), sayısal veriler için ise
Histogram (üzerine normal dağılım eğrisi de eklenebilir)
çıkartılabilir. Sayısal verilerde Bar veya Pie
(pasta) grafik istenmez.
Örneğimizdeki degurba (Kentleşme durumuna bakalım) ’nın grafiğine bakalım.
Continue ve Ok tıklanır. Tabloya ek olarak grafik de çıkartmış oluruz.
Grafiği düzenlemek için grafik üzerinde çift tıklarız. Gelen ekran yardımı ile istediğimiz düzenlemeleri yaparız. Örneğin yüzde miktarlarını grafik üzerinde görmek için aşağıdaki kısım tıklanır.
Aşağıda % yüzde değerleri gelir istersek bu değerlerin görünümü için sağ taraftaki kısımdan başka düzenlemeler de yapabiliriz.
Sayısal değişkenlerin hem Frekans Analizini (Frequencies) hem de Özet İstatistikler (Descriptives) analizini yapabiliriz.
Örnek
Sayısal değişken olarak Weight(Kilo değişkeni) değişkeninin betimsel istatistik analizini yapalım.
Önce yukarıdaki gibi frekans analizine önce bakalım.
Önce Weight(Kilo değişkeni) ’nin frekans analizine histogram grafiği ile birlikte bakalım.
Continue ve OK tıklanır;
Hem tablo hem de grafik karşımıza gelir.
Tablo
Grafik
DATA SETİ İLE İLGİLİ WEIGHT DEĞİŞKENİ ÖZELİNDE EK BİLGİ: BU TÜR DURUMLAR DEĞİŞKENLERİN BİR KISMINDA OLABİLİR. BU DURUMU ANKETİ BİZE ULAŞTIRANLAR BİLMEKTEDİR. YÖNTEM BAĞLAMINDA OLAYI İNCELEMEK GEREKİR.VE BU TİP BİLGİLERE ULAŞMAK GEREKİR. HOCAMIZIN WEIGHT KISMINDA YAPTIĞI AÇIKLAMA AŞAĞIDAKİ GİBİDİR
HOCAMIZIN 906 KİŞİLİK MISSING DATA İLE İLGİLİ AÇIKLAMASI
Kilo (Weight) Değişkeninde Eksik Veriler ve TGSS Rotasyon Sistemi
Veri Seti Bilgisi:
TGSS 2024 veri setinde kilo değişkeni (kişilerin kendi bildirdikleri ağırlıkları) ile ilgili olarak:
1709 kişinin verisi mevcuttur. 906 kişinin verisi eksiktir (missing).
Neden Bu Kadar Çok Eksik Veri Var?
TGSS 2024 araştırması, rotasyon (dönüşümlü) sistemi ile tasarlanmıştır. Bu sistemin amacı, ankette daha fazla soru sorabilmektir.
Katılımcılara 3 farklı form sunulur. Her katılımcı bu formlardan sadece 2’sini doldurur. Bir form her seferinde boş bırakılır.
Bu sayede bazı sorular örneklemin yalnızca 2/3’üne sorulur. Böylece toplam soru sayısı artırılarak araştırmanın kapsamı genişletilir. Kilo sorusu da bu rotasyona tabi tutulmuş sorulardan biridir. Dolayısıyla örneklemin yaklaşık 2/3’üne (1709 kişiye) sorulmuştur. Geri kalan 906 kişiye ise bu soru hiç sorulmamıştır. Bu nedenle bu kişilerde “sistematik missing” (tasarım kaynaklı eksik veri) oluşmuştur.
Diğer Missing Değerler
Eksik verilerin bir kısmı da katılımcıların kendi tercihleri nedeniyle oluşmuştur:
10 kişi “Bilmiyorum” cevabını vermiştir. 3 kişi “Cevap vermek istemiyorum” demiştir.
Bu yanıtlar da istatistiksel analizlerde missing olarak kabul edilir.
Özetle;
| Durum | Kişi.Sayısı | Açıklama |
|---|---|---|
| Kilo verisi mevcut | 1.709 | Soru sorulmuş ve cevap verilmiş |
| Kilo verisi missing (toplam) | 906 | Rotasyon + “Bilmiyorum” + “İstemiyorum” |
| Rotasyon nedeniyle sorulmamış | ~893 | Form rotasyonu (2/3 kuralı) |
| Bilmiyorum | 10 | Katılımcı tercihi |
| Cevap vermek istemiyorum | 3 | Katılımcı tercihi |
Kullanılabilir Veri
Analizlerimizde yalnızca 1709 kişinin kilo verisini kullanabileceğiz. Bu durum, TGSS’in rotasyon sisteminin doğal bir sonucudur ve veri setinin genel yapısını yansıtmaktadır.
Sayısal (scale) bir değişkenin ortalama, minimum,
maksimum ve standart sapma gibi dağılım parametrelerine bakmak için
kullanılır.
İzlenecek Yol:
Analyze -> Descriptive Statistics -> Descriptives.
Örnek olarak weight (Ağırlık değişkenine) bakalım.
Aynı yolu izleyerek height (boy değişkeni) değişkeninin sonucuna tek olarak baktığımızda aşağıdaki gibi sonuç alırız.
Aynı tabloya birden fazla değişken (örneğin boy ve kilo) atıldığında, tablonun altında “Listwise N” değeri görünür. Bu değer, analize sokulan her iki/tüm değişkenlerde de ortak olarak eksiksiz verisi bulunan (kesişim kümesi) kişi sayısını ifade eder.
Valid N (listwise) için hocamızın açıklamaları bizi aşağıdaki bigilere götürür.
Boy ve Kilo Değişkenlerinde Listwise Valid N
TGSS 2024 veri setinde boy ve kilo değişkenlerini birlikte incelemek istediğimizde önemli bir kavramla karşılaşırız: Valid N (Listwise).
Önemli Sayılar
Kilo verisi mevcut olan kişi sayısı: 1.709 Hem boy hem de kilo verisine sahip olan kişi sayısı: 1.694
1694 sayısı, listwise valid N (tam gözlem sayısı) olarak adlandırılır.
Listwise Valid N Nedir?
Listwise deletion (tam gözlem yöntemi), analiz yaparken sadece her iki değişkende de verisi olan bireyleri dikkate alır.
Yani boy ile kilo arasında bir analiz (korelasyon, regresyon vb.) yapmak istediğimizde SPSS ya da R otomatik olarak yalnızca 1.694 gözlemi kullanır.
Tek tek değişkenlerdeki gözlem sayıları (örneğin kilo için 1.709) yeterli değildir.
Analizde yer alacak tüm değişkenlerin kesişim kümesi (ortak geçerli veriler) dikkate alınmalıdır.
Neden Bu Kadar Önemlidir?
Çok değişkenli analizlerde (bivariate veya multivariate):
Her değişkenin kendi başına kaç gözlemi olduğu değil, Analize giren tüm değişkenlerin ortak geçerli veri sayısı (kesişim kümesi) önemlidir.
Örnek Senaryo
Boy ile kilo arasında Pearson korelasyon analizi yapmak istediğinizde:
SPSS size şu sonucu verecektir: Valid N (listwise) = 1.694
| Durum | Geçerli.Gözlem.Sayısı | Açıklama |
|---|---|---|
| Kilo verisi mevcut | 1.709 | Sadece kilo bilgisi olanlar |
| Boy verisi mevcut | 1701 | Sadece boy bilgisi olanlar |
| Hem boy hem kilo verisi mevcut | 1.694 | Listwise Valid N → Analizde kullanılacak ortak veri |
Not:
TGSS’in rotasyon sistemi nedeniyle bu tür listwise kayıplar çok yaygındır. Bu yüzden her analizden önce Valid N değerini mutlaka kontrol edin. Özellikle regresyon, korelasyon veya çoklu analizlerde bu sayı, sonuçların güvenilirliğini doğrudan etkiler.
Özet Kural:
Tek değişken analizi → Her değişkenin kendi N’ine bakılır.
Çok değişkenli analiz → Kesişim kümesi (Listwise Valid N) kullanılır.
Örneklerimizde devam edelim. Eğitim seviyesi değişkeni için bir analiz yapalım. Ordinal bir değişken olmasından dolayı frekans analizi yaparız.
educ [Bitirmek en yüksek eğitim seviyesi nedir?] edulit [Okuma yazma biliyor musunuz?] educlt [Eğitim seviyesi ve okul yazarlık durumu?]
Tablolar ile ilgili Hocamızın anlattıkları genel olarak aşağıdaki gibidir.
1. Statistics Tablosu (Temel Bilgiler) TABLO1
Bitirdiğiniz en yüksek eğitim seviyesi nedir? sorusuna 2.615 kişi (tüm örneklem) cevap vermiştir → Valid N = 2.615, Missing = 0.
Okuma yazma biliyor musunuz? sorusuna ise sadece 113 kişi cevap vermiştir → Valid N = 113, Missing = 2.502. Eğitim seviyesi ve okur yazarlık durumu (kompozit değişken) ise tekrar 2.615 kişi için oluşturulmuştur.
Neden sadece 113 kişi?
Çünkü “Okuma yazma biliyor musunuz?” sorusu yalnızca “Herhangi bir okul bitirmedim” cevabını veren kişilere sorulmuştur.
2. Bitirdiğiniz En Yüksek Eğitim Seviyesi Frekans Tablosu TABLO2
Ana Bulgular (Valid Percent):
Herhangi bir okul bitirmedim → 113 kişi (%4,3) İlkokul → 492 kişi (%18,8) Ortaokul / İlköğretim → 395 kişi (%15,1) Lise → 862 kişi (%33,0) 2 veya 3 yıllık meslek yüksekokulu → 255 kişi (%9,8) 4-5-6 yıllık fakülte / 4 yıllık yüksekokul → 427 kişi (%16,3) Yüksek lisans → 61 kişi (%2,3) Doktora → 10 kişi (%0,4) Toplam: 2.615 kişi (%100).
3. Okuma Yazma Biliyor Musunuz? (Sadece Okul Bitirmeyenler) TABLO3
Evet → %43,4 (49 kişi) Hayır → %56,6 (64 kişi)
Yani okul bitirmemiş olanların yaklaşık %43’ü okuma yazma biliyor.
4. Kompozit Değişken: Eğitim Seviyesi ve Okur Yazarlık Durumu TABLO4
Bu değişken nasıl oluşturuldu?
SPSS’te iki soru birleştirilerek yeni bir kompozit değişken yaratılmıştır:
“Herhangi bir okul bitirmedim” diyen 113 kişi için okuma-yazma bilgisi eklenmiştir. Böylece iki ayrı kategori oluşmuştur: Herhangi bir okul bitirmedi - Okur yazar değil → 64 kişi (%2,4) Herhangi bir okul bitirmedi - Okur yazar → 49 kişi (%1,9)
Sonraki kategoriler normal eğitim seviyeleriyle devam eder.
Özet ve Teknik Not
Orijinal soru (“Bitirdiğiniz en yüksek eğitim seviyesi nedir?”) → 2.615 kişi
Ek soru (“Okuma yazma biliyor musunuz?”) → Sadece 113 kişi (okul bitirmeyenler)
Kompozit değişken → Her iki bilginin birleştirilmesiyle daha detaylı ve kullanışlı bir değişken elde edilmiştir.
Bu yapı, ankette rotasyon ve mantıksal atlama kuralları sayesinde daha fazla soru sorulabilmesini sağlar. Analiz yaparken kompozit değişkeni (Eğitim seviyesi ve okur yazarlık durumu) kullanmak genellikle daha avantajlıdır.
Not: Valid Percent’e dikkat edin! Özellikle “okul bitirmemiş” grubu incelenirken Valid Percent kullanmak, Missing System değerlerini dışladığı için daha doğru yorum yapmanızı sağlar.
Diyelim ki ilk iki değişken elimde yok sadece üçüncü değişken var sanki o değişken ile çalışıyoruz varsayalım ve frekans analizini yapalım. Bu senaryoya göre ilk iki değişkeni geri atalım ve sadece analizi educlt üzerinden yapalım.
Bu aşamada bize kategorileri tekrar düzenle dediler. Buna göre;
Eğitim Seviyesi Değişkeninin Yeniden Kodlanması
TGSS 2024 veri setinde “Eğitim seviyesi ve okur yazarlık durumu” değişkeni şu anda 9 kategorili bir yapıdadır (kategoriler 1’den 9’a kadar numaralandırılmıştır).
Bizden İstenen Yeni Gruplama
Proje çalışmasında daha sade ve anlamlı bir eğitim seviyesi değişkeni oluşturmak amacıyla mevcut 9 kategorili değişken yeniden kodlanacaktır (recoding).
Yeni değişken şu 6 kategoriden oluşacaktır:
Okula gitmemiş olanlar → “Herhangi bir okul bitirmedi - Okur yazar değil” + “Herhangi bir okul bitirmedi - Okur yazar” (kategori 1 + 2)
İlkokul mezunları → Sadece “İlkokul” (kategori 3)
Ortaokul mezunları → “Ortaokul / İlköğretim” (kategori 4)
Lise mezunları → “Lise” (kategori 5)
Üniversite mezunları → “2 veya 3 yıllık meslek yüksekokulu” + “4-5-6 yıllık fakülte / 4 yıllık yüksekokul” (kategori 6 + 7) (Önlisans + Lisans birleştirilecek)
Lisansüstü mezunları → “Yüksek lisans” + “Doktora” (kategori 8 + 9)
| Mevcut Kategori | Mevcut Etiket | Yeni Kategori No | Yeni Grup |
|---|---|---|---|
| 1 | Herhangi bir okul bitirmedi - Okur yazar değil | 1 | Okula gitmemiş olanlar |
| 2 | Herhangi bir okul bitirmedi - Okur yazar | 1 | Okula gitmemiş olanlar |
| 3 | İlkokul | 2 | İlkokul mezunları |
| 4 | Ortaokul / İlköğretim | 3 | Ortaokul mezunları |
| 5 | Lise | 4 | Lise mezunları |
| 6 | 2 veya 3 yıllık meslek yüksekokulu | 5 | Üniversite mezunları |
| 7 | 4-5-6 yıllık fakülte / 4 yıllık yüksekokul | 5 | Üniversite mezunları |
| 8 | Yüksek lisans | 6 | Lisansüstü mezunları |
| 9 | Doktora | 6 | Lisansüstü mezunları |
Neden Bu Şekilde Yeniden Kodlama Yapıyoruz?
9 kategorili değişken proje analizlerinde çok dağınık kalıyor. Daha az ve mantıksal olarak birleştirilmiş kategorilerle (6 grup) daha net yorum yapılabilir. Özellikle okula gitmemiş olanlar, üniversite mezunları ve lisansüstü grupları birleştirilerek analizler daha anlamlı hale getirilir.