İstatistik bilimi, en temel epistemolojik tanımıyla sistematik bir özetleme mekanizmasıdır. İnsan zihni, bilişsel sınırları gereği belirli bir sayının ötesindeki veri noktalarını, bireysel gözlemleri ve karmaşık sayısal yığınları tek tek algılama, işleme ve bir bütünlük içerisinde karşı tarafa aktarma kapasitesine sahip değildir. Geniş veri setleriyle muhatap olunduğunda, verinin içsel doğasını anlamlandırmak, gizli örüntüleri ortaya çıkarmak ve bu devasa karmaşıklığı yönetilebilir, aktarılabilir bir bilgi formuna dönüştürmek için bilimsel standartlara oturtulmuş bir özetleme faaliyeti yapmak mutlak bir zorunluluktur.
Bu özetleme ihtiyacının doğası, pratik ve gündelik bir akademik senaryo üzerinden son derece net bir biçimde açıklanabilir. Yaklaşık 200 ila 250 öğrencinin fiziksel olarak bulunduğu büyük bir konferans salonunda gerçekleştirilen bir üniversite dersinin katılımcı profili incelenmek istendiğinde, öğrencilerin yaşları gibi temel bir demografik değişken tek tek sayılamaz veya dışarıdan bir gözlemciye birebir raporlanamaz. Eğer söz konusu salonda sadece üç veya dört kişi gibi son derece sınırlı sayıda bir katılımcı grubu bulunsaydı, dersi veren akademisyen her bir bireyin yaşını ayrıntılı ve kişisel olarak betimleyebilirdi. Ancak gözlem sayısı bilişsel eşiği aştığında ve veri boyutu büyüdüğünde, bu ayrıntılı aktarım lüksü tamamen ortadan kalkar. Bu noktada akademisyen veya araştırmacı, mecburi olarak özetleme yoluna giderek “çoğunluğu orta yaşlıydı” veya “sınıfın yaş ortalaması 30 civarındaydı” şeklinde genel bir eğilimi yansıtan, tekillikten uzaklaşmış özet formlarına başvurmak zorunda kalır.
İnsan zihninin doğal olarak yürüttüğü bu özetleme süreci, bilimsel bir çerçeveye oturtulduğunda temelde iki farklı eksende işleyen bir kavrama sistemine dönüşür. Birinci eksen, merkezin bilgisini yani genel eğilimi bulmaya odaklanır; bu, bütün yaşların matematiksel ortalamasının alınması veya frekansı en yüksek olan, yani en çok tekrar eden grubun ön plana çıkarılması yoluyla gerçekleştirilir. İkinci eksen ise, tek başına bir ortalamanın veya genel eğilimin tüm gerçeği yansıtma konusunda yetersiz kalacağı bilinciyle hareket eder. Sadece “ortalama 30” demek, salonda 17 yaşında çok genç birinin veya 70 yaşında oldukça yaşlı birinin de bulunduğu gerçeğini gizler. Bu nedenle, merkezin bilgisine ek olarak dağılımın bilgisine, yani uç değerlerin (outliers) varlığına ve verinin bu belirlenen merkezden ne kadar uzaklaştığına dair sapan durumların aktarılmasına ihtiyaç duyulur. İstatistiğin tüm matematiksel formülleri, algoritmaları ve teorik altyapısı, insan zihnindeki bu ikili (merkezi anlama ve dağılımı fark etme) doğal özetleme mantığının formüle edilmiş halidir. Bu bağlamda veri analizi süreci, uygulanan yöntemin kapsamına ve amacına göre Betimleyici İstatistik (Descriptive Statistics) ve Çıkarımsal İstatistik (Inferential Statistics) olmak üzere iki ana analitik düzlemde sınıflandırılmaktadır.