1 İstatistiksel Analizin Temel Felsefesi ve Bilişsel İşlevi

İstatistik bilimi, en temel epistemolojik tanımıyla sistematik bir özetleme mekanizmasıdır. İnsan zihni, bilişsel sınırları gereği belirli bir sayının ötesindeki veri noktalarını, bireysel gözlemleri ve karmaşık sayısal yığınları tek tek algılama, işleme ve bir bütünlük içerisinde karşı tarafa aktarma kapasitesine sahip değildir. Geniş veri setleriyle muhatap olunduğunda, verinin içsel doğasını anlamlandırmak, gizli örüntüleri ortaya çıkarmak ve bu devasa karmaşıklığı yönetilebilir, aktarılabilir bir bilgi formuna dönüştürmek için bilimsel standartlara oturtulmuş bir özetleme faaliyeti yapmak mutlak bir zorunluluktur.

Bu özetleme ihtiyacının doğası, pratik ve gündelik bir akademik senaryo üzerinden son derece net bir biçimde açıklanabilir. Yaklaşık 200 ila 250 öğrencinin fiziksel olarak bulunduğu büyük bir konferans salonunda gerçekleştirilen bir üniversite dersinin katılımcı profili incelenmek istendiğinde, öğrencilerin yaşları gibi temel bir demografik değişken tek tek sayılamaz veya dışarıdan bir gözlemciye birebir raporlanamaz. Eğer söz konusu salonda sadece üç veya dört kişi gibi son derece sınırlı sayıda bir katılımcı grubu bulunsaydı, dersi veren akademisyen her bir bireyin yaşını ayrıntılı ve kişisel olarak betimleyebilirdi. Ancak gözlem sayısı bilişsel eşiği aştığında ve veri boyutu büyüdüğünde, bu ayrıntılı aktarım lüksü tamamen ortadan kalkar. Bu noktada akademisyen veya araştırmacı, mecburi olarak özetleme yoluna giderek “çoğunluğu orta yaşlıydı” veya “sınıfın yaş ortalaması 30 civarındaydı” şeklinde genel bir eğilimi yansıtan, tekillikten uzaklaşmış özet formlarına başvurmak zorunda kalır.

İnsan zihninin doğal olarak yürüttüğü bu özetleme süreci, bilimsel bir çerçeveye oturtulduğunda temelde iki farklı eksende işleyen bir kavrama sistemine dönüşür. Birinci eksen, merkezin bilgisini yani genel eğilimi bulmaya odaklanır; bu, bütün yaşların matematiksel ortalamasının alınması veya frekansı en yüksek olan, yani en çok tekrar eden grubun ön plana çıkarılması yoluyla gerçekleştirilir. İkinci eksen ise, tek başına bir ortalamanın veya genel eğilimin tüm gerçeği yansıtma konusunda yetersiz kalacağı bilinciyle hareket eder. Sadece “ortalama 30” demek, salonda 17 yaşında çok genç birinin veya 70 yaşında oldukça yaşlı birinin de bulunduğu gerçeğini gizler. Bu nedenle, merkezin bilgisine ek olarak dağılımın bilgisine, yani uç değerlerin (outliers) varlığına ve verinin bu belirlenen merkezden ne kadar uzaklaştığına dair sapan durumların aktarılmasına ihtiyaç duyulur. İstatistiğin tüm matematiksel formülleri, algoritmaları ve teorik altyapısı, insan zihnindeki bu ikili (merkezi anlama ve dağılımı fark etme) doğal özetleme mantığının formüle edilmiş halidir. Bu bağlamda veri analizi süreci, uygulanan yöntemin kapsamına ve amacına göre Betimleyici İstatistik (Descriptive Statistics) ve Çıkarımsal İstatistik (Inferential Statistics) olmak üzere iki ana analitik düzlemde sınıflandırılmaktadır.

2 İstatistiksel Analizin İki Temel Türü ve Metodolojik Kapsamları

İstatistiksel analizler, araştırmacının elindeki verinin niteliğine, büyüklüğüne ve bu veriden elde etmek istediği bilginin hedefine göre iki farklı metodolojik yaklaşımla ele alınır. Bu iki yaklaşım, veriyi anlamlandırma sürecinin farklı aşamalarını temsil eder.

2.1 Betimleyici İstatistik (Descriptive Statistics)

Betimleyici istatistik, araştırmacının elinde halihazırda var olan, somut ve sınırları belirli bir veri setindeki durumu tanımlamaya, anlamaya ve sayısal olarak betimlemeye odaklanan analiz türüdür. Bu analiz çerçevesinde araştırmacı, veri setinin kendi içindeki dağılımlarını, yüzdelik dilimlerini, ana parametrelerini ve ortalamalarını inceler; ayrıca farklı gruplara göre çeşitli skorların nasıl karşımıza çıktığını ve nasıl farklılaştığını ortaya koyar. Betimleyici istatistiğin temel sorusu “Var olan bu veri setinde mevcut durum nedir?” sorusudur.

Betimleyici istatistiğin uygulanması ve yorumlanması, veri setinin tamamına (yani analiz edilen konunun evrenine) mutlak bir erişim sağlandığı durumlarda metodolojik olarak çok daha doğrudan, kesin ve görece kolay bir süreçtir. Evrenin (popülasyonun) tamamı doğrudan ölçüldüğü ve el altında olduğu için, dışarıda kalan bilinemeyen bir kesim yoktur; dolayısıyla herhangi bir tahmin yürütmeye, ihtimalleri hesaba katmaya veya hata payı belirlemeye gerek duyulmaz. Var olan durum, istatistiksel parametrelerle tam bir matematiksel kesinlik içerisinde özetlenir ve betimlenir.

2.2 Çıkarımsal İstatistik (Inferential Statistics)

Betimleyici istatistiğin sunduğu kesinlik konforlu olsa da, gerçek dünyada yürütülen uygulamalı istatistik çalışmalarının ve akademik araştırmaların çok büyük bir kısmı, tüm evrene ulaşmanın imkansızlığı üzerine kuruludur. Çıkarımsal istatistik, küçük bir kesit veya dikkatlice seçilmiş bir örneklem (sample) üzerinden hareket ederek çok daha geniş bir evreni (büyük resmi) anlamaya çalışma bilimidir. Evrenin tüm elemanlarından tek tek veri toplamanın yarattığı aşılmaz pratik zorluklara, maliyet bariyerlerine ve operasyonel imkansızlıklara matematiksel ve olasılıksal bir çözüm sunar.

Çıkarımsal istatistiğin varoluş nedeni makro ölçekli araştırmalarda daha iyi anlaşılır. Türkiye gibi devasa bir popülasyonun eğilimlerini anlamak isteyen bir araştırmacının tüm bireylerden eksiksiz veri toplaması hem devasa bir bütçe gerektirecek hem de operasyonel olarak imkansız olacaktır. Bu zorlukları aşmak için araştırmacılar, ana kitleyi yansıtma potansiyeline sahip daha küçük bir örneklem grubu (örneğin rastlantısal seçilmiş 1.000 kişi) oluştururlar. Toplanan bu kesitsel veri üzerinden elde edilen bulgularla ana popülasyona dair parametreler tahmin edilmeye çalışılır.

Çıkarımsal istatistiği betimleyici istatistikten ayıran en önemli felsefi ve metodolojik dayanak, bu yöntemin tamamen ihtimale (olasılığa) dayalı bir sistem olmasıdır. İstatistiksel ölçümlerde bütün evren kusursuz bir şekilde önümüze konulmadığı sürece, veri setine dahil edilmeyen ufak bir kesimin dahi ana parametreleri değiştirme potansiyeli her zaman mevcuttur. Bu sebeple çıkarımsal hesaplamaların doğası gereği sonuçlar “güven aralıkları” (confidence intervals) ve “hata payları” (margin of errors) gibi kavramlar üzerinden akademik literatüre aktarılır.