İnşaatçının demir ve betonu tanıması gibi, bir veri analisti de değişken tiplerini tanımak zorundadır. Hangi değişkenle korelasyon, hangisiyle regresyon yapılacağı tamamen bu tiplere göre belirlenir. İstatistik bilimi değişkenleri 4 temel kategoriye ayırır:
Nominal (Kategorik) Değişkenler: İsim (Nom) kökünden gelir. Sayısal bir değer, sıralama veya artma/azalma barındırmayan, birbirine üstünlüğü olmayan tamamen “ayrışık” kategorileri temsil eder.
Not: Bilgisayarda bu değişkenler 1, 2, 3 gibi rakamlarla ifade edilerek (Value) kodlanabilir ancak metin de olsa sayı da olsa niteliği gereği nominal (kategorik) bir değişkendir. Sayıların temsil ettiği isimlere ise etiket (Label) denir.
Ordinal (Sıralı) Değişkenler: Kendi içerisinde bir artma-azalma eğilimi, belli bir sırası ve yönü olan değişkenlerdir. Fakat artış seviyeleri/aralıkları eşit değildir veya bu mesafe net olarak bilinemez.
Not: Literatürde tartışmalı olmakla birlikte, bu tür değişkenler pratik veri analizlerinde yerine göre sayısal (nümerik) gibi hesaba katılarak veya ordinal regresyon gibi özel modellerde doğrudan sıralı olarak kullanılabilir.
Interval (Aralıklı) Değişkenler: Sayısal (nümerik) değişkenlerin bir türüdür. Artma-azalma vardır ve artış birimleri eşittir ancak gerçek ve mutlak bir sıfır noktası yoktur. Gerçek sıfır olmadığı için rasyo (orantı) hesabı yapılamaz (“Burası iki kat daha fazla” denemez).
Ratio (Oransal) Değişkenler: Sayısal değişkenlerin en gelişmiş türüdür. Artış seviyeleri (increment) sabittir ve başlangıç noktası gerçek bir sıfırı temsil eder. Bu yüzden oran hesapları (“Ali, Ayşe’den iki kat daha büyük”) yapılabilir.
Özet Pratik Kural: İstatistiksel modellemelerde ve program arayüzlerinde çoğu zaman bu 4 yapı sadece 2 gruba indirgenerek ele alınır: Sayısal (Numeric) değişkenler (Interval ve Ratio) ve Kategorik (Categorical) değişkenler (Nominal). Ordinal değişkenler ise senaryoya göre her iki tarafta da yer alabilir.