Veri analizinde hangi istatistiksel testi veya modeli kullanacağımıza karar verirken kendimize sormamız gereken ilk ve en önemli soru şudur: “Tahmin etmeye çalıştığım (yani bağımlı) değişkenin yapısı nedir?” Bu değişkenin sayısal mı, kategorik mi, sıralı mı yoksa bir sayım verisi mi olduğu, bizi tamamen farklı analiz yollarına götürecektir. İşte bu temel ayrıma göre en sık kullanılan regresyon modelleri ve detaylı açıklamaları:
Temel Amaç: Bir veya daha fazla bağımsız değişkenin, sayısal ve sürekli bir bağımlı değişken üzerindeki etkisini matematiksel bir doğru denklemi ile modellemek ve bu değişkeni tahmin etmektir.
Bağımlı Değişkenin Özelliği: Bağımlı değişken, teorik olarak sonsuz sayıda ara değer alabilen, ölçülebilir bir niceliktir (örn: boy, kilo, sıcaklık, gelir, sınav notu). Analizin temel varsayımlarından biri, bu değişkenin veya model hatalarının normal dağılıma yakın olmasıdır.
Cevap Aradığı Soru Türü: “X’teki her 1 birimlik artış, Y’yi ne kadar artırır/azaltır?” veya “Belirli X değerlerine sahip bir birey için beklenen Y değeri nedir?”
Pratik Örnekler:
Akademik Başarı: Bir öğrencinin haftalık ders çalışma saati (X1), aldığı özel ders sayısı (X2) ve devam ettiği ders sayısının (X3), yıl sonu sınav notunu (Y) nasıl etkilediğini araştırmak. Burada tahmin edilmeye çalışılan “sınav notu” 0 ile 100 arasında herhangi bir değeri alabilen sayısal bir değişkendir.
Emlak Fiyatlandırması: Bir evin metrekaresi (X1), oda sayısı (X2) ve şehir merkezine olan uzaklığının (X3), evin satış fiyatını (Y) nasıl belirlediğini modellemek. “Fiyat”, sayısal ve sürekli bir değişkendir.
Temel Amaç: Bir veya daha fazla bağımsız değişkenin, sadece iki sonucu olan (dikotomik) kategorik bir bağımlı değişkenin ortaya çıkma olasılığını tahmin etmektir.
Bağımlı Değişkenin Özelliği: Bağımlı değişkenin yalnızca iki kategorisi vardır. Bu kategoriler genellikle “1” (olayın gerçekleştiği durum) ve “0” (olayın gerçekleşmediği durum) olarak kodlanır. Örnekler: Evet/Hayır, Başarılı/Başarısız, Müşteri Terk Etti/Etmedi, Hastalık Var/Yok.
Cevap Aradığı Soru Türü: “X değişkenlerindeki özelliklere sahip bir bireyin, ‘başarılı’ grubunda yer alma olasılığı yüzde kaçtır?”
Pratik Örnekler:
Tıp: Bir hastanın yaşı (X1), kan basıncı (X2) ve sigara içme durumuna (X3) bakarak, belirli bir hastalığa yakalanma riskini (Y: Hasta/Sağlıklı) tahmin etmek. Model, “Bu özelliklerdeki birinin hasta olma olasılığı %75’tir” gibi bir sonuç verir.
Bankacılık: Müşterinin geliri (X1), kredi notu (X2) ve yaşının (X3), aldığı krediyi geri ödemede temerrüde düşüp düşmeyeceğini (Y: Temerrüde Düştü/Düşmedi) öngörmek.
Temel Amaç: Bağımsız değişkenlerin, kategorileri arasında doğal bir hiyerarşi veya sıralama olan bir bağımlı değişkeni nasıl etkilediğini incelemektir.
Bağımlı Değişkenin Özelliği: Kategoriler arasında “daha iyi”, “daha yüksek”, “daha fazla” gibi bir sıralama vardır, ancak kategoriler arasındaki mesafeler eşit değildir. Örneğin, “çok memnunum” ile “memnunum” arasındaki fark, “memnunum” ile “kararsızım” arasındaki farkla aynı olmayabilir.
Cevap Aradığı Soru Türü: “X değişkenindeki bir artış, bireyin daha yüksek bir memnuniyet kategorisine girme olasılığını artırır mı?”
Pratik Örnekler:
Müşteri Memnuniyeti: Bir otelde konaklayan müşterinin ödediği ücret (X1) ve konaklama süresinin (X2), otelden memnuniyet düzeyini (Y: “Çok Kötü”, “Kötü”, “Orta”, “İyi”, “Çok İyi”) nasıl etkilediğini analiz etmek.
Eğitim: Öğrencilerin sosyoekonomik düzeylerinin (X), bir dersten aldıkları harf notunu (Y: “F”, “D”, “C”, “B”, “A”) nasıl etkilediğini araştırmak.
Temel Amaç: Bağımsız değişkenlere bakarak, aralarında hiçbir sıralama veya hiyerarşi olmayan, ikiden fazla kategoriye sahip bir bağımlı değişkeni tahmin etmektir.
Bağımlı Değişkenin Özelliği: Kategoriler birbirinden farklıdır ama biri diğerinden üstün değildir. Sıralı Lojistik Regresyon ile en temel farkı budur.
Cevap Aradığı Soru Türü: “Belirli özelliklere sahip bir bireyin, hangi markayı/partiyi/seçeneği tercih etme olasılığı en yüksektir?”
Pratik Örnekler:
Pazarlama: Bir tüketicinin yaşı (X1) ve gelir düzeyine (X2) göre hangi araba markasını (Y: “Toyota”, “Ford”, “Mercedes”) tercih edeceğini tahmin etmek. Markalar arasında doğal bir sıralama yoktur.
Siyaset Bilimi: Bir seçmenin demografik özelliklerine (X1, X2…) göre hangi siyasi partiye (Y: “A Partisi”, “B Partisi”, “C Partisi”, “Kararsız”) oy vereceğini modellemek.
Temel Amaç: Bağımsız değişkenlerin, belirli bir zaman veya mekan aralığında bir olayın meydana gelme sayısını (sayım verisi) nasıl etkilediğini modellemektir.
Bağımlı Değişkenin Özelliği: Bağımlı değişken, negatif olmayan tam sayılardan (0, 1, 2, 3, …) oluşan bir sayım verisidir. “Kaç tane?”, “Kaç kez?” sorularının cevabıdır.
Cevap Aradığı Soru Türü: “X koşulları altında, belirli bir sürede ortalama kaç olay beklemeliyiz?”
Pratik Örnekler:
Trafik Güvenliği: Hava durumu (X1) ve günün saatine (X2) bağlı olarak, bir kavşakta bir saat içinde meydana gelen kaza sayısını (Y) tahmin etmek.
Müşteri Hizmetleri: Bir mağazanın açık olduğu saatlerdeki müşteri yoğunluğuna (X) göre, bir saatte gelen şikayet başvuru sayısını (Y) modellemek.
Özetle, doğru regresyon modelini seçmek, analizinizin en kritik adımıdır ve tamamen tahmin etmeye çalıştığınız bağımlı değişkenin doğasına bağlıdır. Elinizdeki değişken bir not ise Lineer, bir seçim (evet/hayır) ise Lojistik, bir sıralama (iyi/kötü) ise Ordinal, bir tercih (marka A/B/C) ise Multinomiyal, bir sayı (kaç adet) ise Poisson Regresyon aklınıza gelmelidir.
Bir veri setini analiz etmek, bir dedektifin ipuçlarını birleştirmesine benzer. Önce her bir kanıtı tek başına inceler, sonra kanıtlar arasındaki ikili ilişkileri arar ve en sonunda tüm kanıtları bir araya getirerek olayın büyük resmini ortaya çıkaran bir model kurar. İstatistiksel analiz de tam olarak bu mantıkla ilerler.
Bu, analizin ilk ve en temel adımıdır. Amacımız, daha karmaşık analizlere geçmeden önce her bir değişkeni tek başına tanımak ve “elimizde ne var?” sorusunu cevaplamaktır. Bu aşamada nedensellik veya ilişki aramayız; sadece betimleme (tanımlama) yaparız.
Temel Mantık: Değişkenin merkezini (tipik değerini), yayılımını (değerlerin ne kadar dağınık olduğunu) ve dağılımını (değerlerin şeklini) anlamak.
Sorulan Sorular:
“Bu değişkenin ortalama değeri nedir?” (Merkezi Eğilim: Ortalama, Medyan, Mod)
“Değerler ne kadar geniş bir aralığa yayılıyor?” (Yayılım Ölçüleri: Standart Sapma, Varyans, Min-Maksimum Değerler)
“En sık ve en nadir karşılaşılan değerler hangileri?” (Frekans Dağılımları)
Pratik Örnekler:
Sayısal Değişken (Örn: Öğrencilerin Sınav Notları):
Analiz: Sınıfın sınav notu ortalaması nedir? (Örn: 65). En düşük not (Örn: 20) ve en yüksek not (Örn: 95) kaçtır? Notlar ortalama etrafında mı toplanmış, yoksa çok mu dağınık? (Standart sapma).
Görselleştirme: Bir Histogram grafiği ile notların dağılımını (çan eğrisi gibi mi, yoksa bir tarafa mı yığılmış) görürüz.
Kategorik Değişken (Örn: Katılımcıların Eğitim Durumu):
Analiz: Katılımcıların yüzde kaçı lise, yüzde kaçı üniversite mezunu? En çok gözlenen eğitim seviyesi hangisi?
Görselleştirme: Bir Çubuk Grafik (Bar Chart) ile her bir kategorinin büyüklüğünü kolayca karşılaştırabiliriz.
Bu aşama, veri setindeki olası hataları (örn: yaş değişkeninde 200 gibi bir değer) veya anormallikleri fark etmemiz için de kritik öneme sahiptir.
Verinin genel portresini çizdikten sonra, değişkenler arasındaki olası bağlantıları, yani “birlikte hareket etme” eğilimlerini araştırmaya başlarız. “A değişkeni değiştiğinde, B değişkeni de sistematik bir şekilde değişiyor mu?” sorusunun cevabını ararız. Kullanacağımız test, bu iki değişkenin tipine bağlıdır.
Amaç: İki sürekli değişken arasındaki doğrusal ilişkinin yönünü (pozitif mi, negatif mi) ve gücünü (ne kadar kuvvetli) ölçmek.
Pratik Örnek (Ders Çalışma Saati ve İstatistik Notu):
Araştırma Sorusu: “Öğrencilerin haftalık ders çalışma saatleri arttıkça, istatistik sınav notları da artar mı?”
Olası Sonuçlar:
Pozitif Korelasyon: Evet, çalışma saati arttıkça notlar da artma eğiliminde. Grafik (Serpilme Diyagramı) yukarı doğru giden bir noktalar bulutu gösterir.
Negatif Korelasyon: (Örnek: Bilgisayar oyunu oynama saati ile sınav notu). Oyun saati arttıkça, notlar düşme eğiliminde. Grafik aşağı doğru giden bir noktalar bulutu gösterir.
Sıfır Korelasyon: (Örnek: Öğrencinin ayakkabı numarası ile sınav notu). İkisi arasında anlamlı bir ilişki yok. Grafik, rastgele dağılmış bir noktalar bulutu gösterir.
Amaç: İki kategorik değişkenin birbirinden bağımsız olup olmadığını test etmek. Yani, bir değişkendeki kategori üyeliği, diğer değişkendeki kategori üyeliği hakkında bize bilgi veriyor mu?
Pratik Örnek (Cinsiyet ve Tercih Edilen Sosyal Medya Platformu):
Araştırma Sorusu: “Kadınlar ve erkekler arasında tercih edilen sosyal medya platformu (Instagram, Twitter, Facebook) açısından bir farklılık var mıdır?”
Analiz: Önce kimin hangi platformu tercih ettiğini gösteren bir Çapraz Tablo (Kontenjans Tablosu) oluşturulur. Ki-Kare testi ise bu tabloda gözlemlediğimiz değerlerin, eğer iki değişken arasında HİÇBİR ilişki olmasaydı bekleyeceğimiz teorik değerlerden istatistiksel olarak anlamlı şekilde farklı olup olmadığını söyler. Eğer anlamlı bir fark varsa, “Cinsiyet ile platform tercihi arasında bir ilişki vardır” deriz.
Amaç: Sayısal bir değişkenin ortalamasını, iki farklı ve bağımsız grup arasında karşılaştırmak.
Pratik Örnek (Kahve Tüketimi ve Uyku Süresi):
Araştırma Sorusu: “Her gün kahve içenler (Grup 1) ile hiç kahve içmeyenlerin (Grup 2) ortalama gece uyku süreleri arasında anlamlı bir fark var mıdır?”
Analiz: T-testi, bu iki grubun ortalama uyku sürelerini alır ve aradaki farkın rastlantısal olup olmadığını test eder. Eğer sonuç anlamlıysa, “Kahve tüketiminin ortalama uyku süresi üzerinde bir etkisi vardır” sonucuna varabiliriz.
Amaç: T-testinin üç veya daha fazla grup için genişletilmiş halidir. Sayısal bir değişkenin ortalamasını, ikiden fazla grup arasında karşılaştırmak için kullanılır.
Pratik Örnek (Eğitim Düzeyi ve Aylık Gelir):
Araştırma Sorusu: “Bireylerin aylık gelir ortalamaları, eğitim düzeylerine (Lise, Üniversite, Yüksek Lisans) göre farklılık göstermekte midir?”
Analiz: ANOVA, bu üç grubun ortalama gelirleri arasında istatistiksel olarak anlamlı bir fark olup olmadığını tek bir testte söyler. Eğer test anlamlı çıkarsa, “Eğitim düzeyi grupları arasında ortalama gelir açısından en az bir fark vardır” deriz. (Hangi grupların birbirinden farklı olduğunu bulmak için ek testler gerekir.)
Gerçek dünya, ikili ilişkilerden daha karmaşıktır. Bir sonuç (bağımlı değişken), genellikle birden fazla faktörden aynı anda etkilenir. Çok değişkenli analizler, bu karmaşık yapıyı modellememizi sağlar.
Temel Mantık: Bir bağımlı değişkeni açıklamak veya tahmin etmek için, birden fazla bağımsız değişkenin birlikte ve birbirini kontrol ederek oluşturduğu etkiyi incelemek.
En Yaygın Yöntem: Çoklu Regresyon
Pratik Örnek (Bir Evin Fiyatını Tahmin Etmek):
Bağımlı Değişken: Evin Fiyatı (Sayısal)
Bağımsız Değişkenler: Metrekare (Sayısal), Oda Sayısı (Sayısal), Şehir merkezine uzaklığı (Sayısal), Bina Yaşı (Sayısal).
Analiz: İki değişkenli analizde sadece “metrekare arttıkça fiyat artar” diyebilirdik. Ancak çoklu regresyon ile çok daha güçlü bir model kurarız:
“Metrekare, oda sayısı ve bina yaşı sabit tutulduğunda, merkeze olan uzaklıktaki her 1 km’lik artış, evin fiyatını ortalama X TL düşürmektedir.”
Bu model, tüm bu faktörleri hesaba katan bir tahmin denklemi üretir. Bu denklemle, belirli özelliklere sahip (örn: 120 m², 3 odalı, 5 yaşında, merkeze 10 km) yeni bir evin fiyatını tahmin edebiliriz.
Ayrıca model, bu faktörlerin toplamda ev fiyatlarındaki değişimin yüzde kaçını açıkladığını da bize söyler (R-Kare değeri).
Hocamızın İlk Anlatım Excel Veri Seti
Excel Veri Seti
TGSS 2024 Data View Ekranı
TGSS 2024 Variable View Ekranı