1. Giriş: Makine Öğreniminde k-NN’in Yeri ve Temel Kavramlar

Merhaba Dostlar,

Giriş:

Şimdiye kadar doğrusal ilişkileri modellemek için Lineer Regresyon ve sınıflandırma için Lojistik Regresyon gibi parametrik modellere odaklandık. Bu modeller, verilerdeki belirli bir matematiksel denklemi veya ilişkiyi öğrenmeye çalışır. Ancak her zaman veriler bu kadar düzenli bir matematiksel yapıya sahip olmayabilir. İşte tam bu noktada, farklı bir felsefeye sahip, parametrik olmayan modeller devreye girer. K-En Yakın Komşu (k-NN) algoritması, bu parametrik olmayan modellerin en temel ve sezgisel örneklerinden biridir.

k-NN Algoritmasına İlk Adım: Komşu Kavramı

K-NN’in kalbinde “komşuluk” kavramı yatar. Günlük hayatta hepimiz, bir konu hakkında bilgi edinmek istediğimizde çevremizdeki insanlara, yani “komşularımıza” danışırız. Örneğin, yeni bir şehre taşındığınızda iyi bir restoran bulmak için en yakınınızdaki komşularınıza sormak, k-NN’in çalışma prensibine oldukça benzer.

“Yakınlık” veya “Benzerlik” Ne Anlama Gelir?

Makine öğreniminde “yakınlık” veya “benzerlik” kavramı, veri noktaları arasındaki mesafelerle ölçülür. Bir veri noktası, özellik uzayında (örneğin, 2 boyutlu bir grafikteki x ve y koordinatları gibi) diğer bir noktaya ne kadar az uzaklıktaysa, o kadar “yakın” veya “benzer” kabul edilir. Bu mesafe, genellikle Öklid veya Manhattan gibi matematiksel metriklerle hesaplanır.

Sezgisel Olarak Neden Komşular Önemlidir?

Makine öğreniminde de aynı mantık geçerlidir: Eğer bir veri noktası, belirli bir özelliğe (etiket veya sınıf) sahip başka noktalara çok yakınsa, bu yeni noktanın da benzer bir özelliğe sahip olma olasılığı yüksektir. Örneğin, belirli yaş ve maaş aralığındaki insanların belirli bir ürünü alma olasılığı yüksekse, benzer yaş ve maaşa sahip yeni bir kişinin de bu ürünü alma olasılığının yüksek olduğunu varsayarız.

Temel Tanımlar ve Terminoloji

Makine öğrenimi algoritmalarını anlamak için bazı temel terimlerini tekrar bir hatırlayalım:

-Özellikler (Features): Bir veri noktasını tanımlayan öznitelikler veya değişkenlerdir. Örneğin, bir kişinin yaşı, maaşı, eğitim seviyesi gibi bilgiler birer özelliktir. Bu özellikler, modelin tahmin yapmak için kullandığı girdilerdir.

-Hedef Değişken (Target Variable): Modelin tahmin etmeye çalıştığı değişkendir. Sınıflandırma problemlerinde “etiket” (label) veya “sınıf” (class), regresyon problemlerinde ise sürekli bir değerdir. Örneğin, bir kişinin belirli bir ürünü alıp almayacağı (Evet/Hayır) veya bir evin fiyatı hedef değişkendir.

-Eğitim Seti (Training Set): Modelin öğrenme veya “eğitim” yaptığı veri kümesidir. Algoritma, bu set üzerindeki özellikler ve hedef değişken arasındaki ilişkileri öğrenir.

-Test Seti (Test Set): Modelin eğitim sonrası performansını değerlendirmek için kullanılan, eğitim setinde görülmemiş bağımsız veri kümesidir. Bu set, modelin genelleme yeteneğini ölçmek için kritiktir.

-Etiket (Label) / Sınıf (Class): Özellikle sınıflandırma problemlerinde, bir veri noktasının ait olduğu kategoridir. Örneğin, “iyi müşteri” veya “kötü müşteri” birer etikettir.

Neden k-NN? Avantajları ve Dezavantajları (İlk Bakış)

Her algoritmanın kendine özgü avantajları ve dezavantajları vardır. k-NN’in temel özelliklerine kısa bir göz atalım:

Avantajları:

-Basitlik ve Yorumlanabilirlik: K-NN’in çalışma prensibi oldukça basittir ve kolayca anlaşılabilir. “Komşuya sor” mantığı, karmaşık matematiksel denklemlerden uzak, sezgisel bir yaklaşım sunar.

-Esneklik: Parametrik bir model olmadığı için, verilerdeki karmaşık ve doğrusal olmayan ilişkileri yakalayabilir. Belirli bir veri dağılımı varsayımı yapmaz.

-Bellek Tabanlı (Lazy Learner): Eğitim aşamasında model oluşturmaz, bu da onu “tembel” bir öğrenici yapar. Bu durum, veri yapısının önceden bilinmediği durumlarda faydalı olabilir.

Dezavantajları:

-Hesaplama Maliyeti: Özellikle büyük veri setlerinde, her yeni tahmin için tüm eğitim verisi taranıp mesafelerin hesaplanması gerektiğinden hesaplama açısından pahalı olabilir.

-Boyutluluk Laneti (Curse of Dimensionality): Özellik sayısı arttıkça, veri noktaları arasındaki mesafeler anlamsızlaşmaya başlar, bu da algoritmanın performansını düşürür. Bu, k-NN için önemli bir problemdir ve ilerleyen bölümlerde detaylandıracağız.

-Ölçeklendirmeye Duyarlılık: Farklı ölçeklerdeki özellikler, mesafe hesaplamalarını bozabilir. Bu nedenle, k-NN kullanmadan önce özellik ölçeklendirme hayati öneme sahiptir.

2. Temeller ve Felsefe

K-En Yakın Komşu (k-NN), makine öğreniminin en basit ve en sezgisel algoritmalarından biridir. Temel prensibi, yeni bir veri noktasının sınıfını veya değerini, ona en yakın olan k adet komşusunun etiketlerine bakarak belirlemektir.

Neden “Tembel Öğrenme”?

K-NN, diğer birçok algoritmanın aksine, eğitim aşamasında bir model oluşturmak veya parametre öğrenmek için karmaşık hesaplamalar yapmaz. Bunun yerine, tüm eğitim verisini olduğu gibi saklar. “Öğrenme” süreci, yeni bir veri noktası geldiğinde, yani tahmin yapılması gerektiğinde gerçekleşir. Bu nedenle “tembel öğrenme” (lazy learning) olarak adlandırılır.

Lazy in Training, Eager in Prediction” (Eğitimde tembel, tahminde hevesli) ifadesi, K-En Yakın Komşular (k-NN) gibi bazı makine öğrenmesi algoritmalarını tanımlamak için kullanılan kısa ve etkileyici bir sözdür.

Anlamı:

Lazy in Training (Eğitimde tembel):

kNN modeli, klasik anlamda bir eğitim (training) sürecinden geçmez. Veriyi sadece hafızasında tutar (örneğin: eğitim verilerini kaydeder) ama bu aşamada model parametrelerini öğrenmez, karmaşık hesaplamalar yapmaz.

  • Yani “tembel” çünkü hiçbir şey öğrenmez, sadece bekler.

Eager in Prediction (Tahminde hevesli):

Ancak tahmin (prediction) zamanı geldiğinde oldukça “aktif” olur. Yeni bir örnek geldiğinde, tüm eğitim verisine bakar, en yakın komşuları bulur, uzaklıkları hesaplar ve sınıf kararını verir.

  • Yani “hevesli” çünkü o anda tüm işi birden yapar.
Aşama kNN’nin davranışı Açıklama
Eğitim (Training) Tembel Sadece veriyi saklar, model oluşturmaz
Tahmin (Prediction) Hevesli Her yeni veri geldiğinde tüm eğitim verisine göre hesaplama yapar

Bu yüzden kNN, “lazy learner (tembel öğrenci)” olarak da bilinir.

“Benzer Komşular, Benzer Etiketlere Sahiptir” Varsayımı

K-NN’in temel varsayımı, bir veri noktasının, özellik uzayında (feature space) kendine yakın olan noktalarla benzer bir etikete (sınıf veya değer) sahip olması gerektiğidir. Bu, dünyadaki birçok olguda geçerli olan yaygın bir prensiptir; örneğin, coğrafi olarak yakın olan insanların benzer tercihlere sahip olması beklenebilir.

Karar Sınırı’nın Oluşumu

K-NN’in karar sınırı (decision boundary), Lojistik Regresyon gibi parametrik modellerin aksine, doğrusal olmak zorunda değildir. Veri dağılımına göre oldukça esnek ve karmaşık olabilir. Aslında, k-NN’in karar sınırı, bölgeleri komşuluk ilişkilerine göre ayıran Voronoi diyagramlarına benzer bir yapıya sahiptir.

Aşağıdaki görsel, k-NN’in temel prensibini ve farklı k değerlerinde karar sınırının nasıl değişebileceğini göstermektedir.

k Değerinin Esnekliğe Etkisi ve Riski:

k değerinin seçimi, modelin esnekliği ve genellenebilirlik yeteneği üzerinde doğrudan bir etkiye sahiptir. Yanlış k değeri seçimi, modelin aşırı veya yetersiz öğrenmesine (overfitting/underfitting) yol açabilir:

Çok küçük bir k değeri seçilmesi durumunda “overfitting” (aşırı öğrenme) riski:

Model, eğitim verisindeki gürültüye ve aykırı değerlere aşırı duyarlı hale gelir. Karar sınırları çok girintili ve çıkıntılı olur, eğitim verisine mükemmel uyar ancak yeni, görünmeyen verilerde kötü performans gösterir. Model, eğitim verisinin “ezberini” yapar, ancak genel örüntüleri öğrenmez.

Çok büyük bir k değeri seçilmesi durumunda ise “underfitting” (yetersiz öğrenme) riski:

Model, verilerdeki önemli desenleri ve yerel yapıları gözden kaçırır. Karar sınırları çok genel ve basit olur, hem eğitim hem de test verisinde düşük performans gösterir. Model, veriden yeterince öğrenmez ve basitleştirilmiş bir bakış açısı sunar.

k Değeri Model Esnekliği Temel Risk Açıklama
Küçük k (örn. 1-5) Yüksek esneklik, karmaşık Aşırı Öğrenme (Overfitting) Eğitim verisindeki gürültüye aşırı duyarlı, yeni veride kötü performans
Büyük k (örn. 20-50+) Düşük esneklik, genel Yetersiz Öğrenme (Underfitting) Verideki önemli desenleri gözden kaçırır, hem eğitim hem testte kötü performans

3. KNN Algoritmasının Detaylı Anlatımı

K-En Yakın Komşu (k-NN) algoritması, makine öğrenimindeki en sezgisel ve basit algoritmalardan biridir. Parametrik olmayan bir model olarak, verilerdeki karmaşık ve doğrusal olmayan ilişkileri yakalama yeteneğine sahiptir. Şimdi bu algoritmanın işleyişini adım adım inceleyelim.

1. Algoritma Nasıl Çalışır? Adım Adım Açıklama

K-NN algoritması, yeni bir veri noktasının sınıfını veya değerini tahmin etmek için tüm eğitim veri setini kullanır. İşte adım adım çalışma prensibi:

Yeni bir veri noktası geldiğinde ne olur?

Bir k-NN modeli eğitildiğinde, aslında hiçbir şey “öğrenmez” veya bir model oluşturmaz. Sadece tüm eğitim veri setini belleğinde saklar. Bir tahmin yapılması gerektiğinde, yani yeni, etiketlenmemiş bir veri noktası (sorgu noktası) geldiğinde, algoritma harekete geçer. Bu sorgu noktasının sınıfını belirlemek için tüm eğitim verisiyle karşılaştırma yapar.

Mesafenin hesaplanması (Euclidean Mesafesi odaklı)

Yeni gelen sorgu noktası ile eğitim setindeki her bir veri noktası arasındaki mesafe hesaplanır. Bu mesafe, noktaların özellik uzayındaki “yakınlığını” veya “benzerliğini” belirler. Çeşitli mesafe metrikleri kullanılabilir, ancak en yaygın olanı Öklid Mesafesi’dir.

Öklid Mesafesi (Euclidean Distance):

İki nokta (\(p_1\) ve \(p_2\)) arasındaki en kısa düz çizgi mesafesidir. İki boyutlu uzayda Pisagor teoreminin bir genellemesidir.

Eğer \(p_1 = (x_1, y_1)\) ve \(p_2 = (x_2, y_2)\) ise, Öklid mesafesi şu şekilde hesaplanır:

\[ d(p_1, p_2) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \]

Genel olarak, \(n\) boyutlu uzayda \(p_1 = (x_{1,1}, x_{1,2}, ..., x_{1,n})\) ve \(p_2 = (x_{2,1}, x_{2,2}, ..., x_{2,n})\) için Öklid mesafesi:

Sezgisel Anlamı: Öklid mesafesi, iki noktanın geometrik olarak ne kadar “uzak” olduğunu gösterir. Özellik değerleri birbirine ne kadar yakınsa, mesafe o kadar küçüktür ve noktalar o kadar benzer kabul edilir.

k en yakın komşunun seçilmesi

Tüm eğitim noktalarıyla mesafeler hesaplandıktan sonra, yeni sorgu noktasına en yakın olan \(k\) adet nokta (komşu) belirlenir. Buradaki \(k\) değeri, algoritmayı kullanan kişi tarafından belirlenen bir hiperparametredir.

Örneğin, \(k=3\) olarak belirlenmişse, sorgu noktasına en yakın 3 eğitim noktası seçilir.

Sınıflandırma için çoğunluk oyu

Seçilen \(k\) adet komşunun sınıflarına bakılır. Sorgu noktasının sınıfı, bu \(k\) komşu arasında en sık görülen sınıf (çoğunluk oyu) olarak atanır.

Örnek: Eğer \(k=5\) ve seçilen 5 komşudan 3’ü “Sınıf A”, 2’si “Sınıf B” ise, yeni sorgu noktası “Sınıf A” olarak etiketlenir.

Beraberlik Durumu (Tie-breaking): Eğer çoğunluk oylamasında beraberlik olursa (örneğin, \(k=4\) için 2 “Sınıf A”, 2 “Sınıf B”), bu durumda çeşitli stratejiler izlenebilir: * Beraberliği bozan bir kural (örn. en yakın komşuyu tercih etme). * \(k\) değerini değiştirme (genellikle tek sayı \(k\) seçilerek beraberlik riski azaltılır). * Mesafe ağırlıklı oylama (daha yakın komşuların oylarının daha fazla ağırlık taşıması).

2. Mesafe Metrikleri

Mesafe metrikleri, iki veri noktası arasındaki “uzaklığı” veya “farklılığı” ölçmek için kullanılır. k-NN algoritmasının temel taşı oldukları için doğru mesafe metriğini seçmek önemlidir.

Euclidean Mesafesi: Formülü ve sezgisel anlamı

Yukarıda detaylıca bahsettiğimiz gibi, Öklid mesafesi, iki nokta arasındaki en kısa düz çizgi mesafesini ölçer. En yaygın kullanılan mesafe metriğidir.

Formül (n boyut için):

Sezgisel Anlamı: Günlük hayattaki “kuş uçuşu” mesafesine benzer. Bir harita üzerindeki iki nokta arasındaki direkt uzaklığı düşünün. Özellikle özellikler arasında sürekli ve doğrusal ilişkiler olduğunda iyi çalışır.

Manhattan Mesafesi : Formülü ve sezgisel anlamı

Manhattan mesafesi, “şehir bloğu mesafesi” veya “taksi mesafesi” olarak da bilinir. İki nokta arasındaki farkların mutlak değerlerinin toplamıdır. Bir şehirde birbirine dik sokaklar üzerinde hareket eden bir taksinin gideceği en kısa mesafeye benzer.

Formül (n boyut için): \[ d(p, q) = \sum_{i=1}^{n} |q_i - p_i| \]

Sezgisel Anlamı: Öklid mesafesinden farklı olarak, özellikler boyunca “gidilen yolun” toplamıdır. Özellikler arasında bağımsız hareketlerin daha anlamlı olduğu durumlarda (örneğin, özelliklerin ayrı ayrı yorumlanabildiği durumlarda) faydalı olabilir. Aykırı değerlere Öklid mesafesine göre daha az duyarlıdır çünkü kare alma işlemi yoktur.

Diğer mesafe metriklerine kısa bir değini

  • Minkowski Mesafesi: Öklid ve Manhattan mesafelerinin genelleştirilmiş halidir. \(p\) parametresi ile kontrol edilir.
    • \(p=1\) ise Manhattan mesafesi olur.
    • \(p=2\) ise Öklid mesafesi olur.
    • \(p=\infty\) ise Chebyshev mesafesi olur (özellikler arasındaki en büyük farkı bulur).
  • Hamming Mesafesi: Özellikle kategorik (nominal) veriler için kullanılır. İki dizi arasındaki karşılık gelen sembollerin farklı olduğu pozisyon sayısını ölçer.
  • Kosinüs Benzerliği: Özellikle metin analizi gibi yüksek boyutlu ve seyrek verilerde kullanılır. İki vektör arasındaki açının kosinüsünü ölçer. Açının küçüklüğü, vektörlerin yönlerinin benzerliğini gösterir (yani içeriğin benzerliğini).

Seçilen mesafe metriği, verinin türüne ve özelliklerin anlamlarına göre belirlenmelidir.

3. k Değeri Seçiminin Önemi

\(k\) değeri, k-NN algoritmasının en kritik hiperparametresidir. Modelin karmaşıklığını ve genellenebilirlik yeteneğini doğrudan etkiler.

k değeri ne anlama gelir?

\(k\) değeri, yeni bir sorgu noktasına en yakın kaç tane komşunun dikkate alınacağını belirler. Bu komşuların etiketleri (sınıflandırma için) veya değerleri (regresyon için) sorgu noktasının tahminini oluşturmada kullanılır.

Örnek:

  • \(k=1\) demek, sadece en yakın komşunun sınıfının/değerinin alınması demektir.
  • \(k=5\) demek, en yakın 5 komşunun çoğunluk oyuna/ortalamasına bakılması demektir.

Küçük k ve Büyük k değerlerinin etkileri (aşırı uyum/eksik uyum)

\(k\) değerinin seçimi, modelin bias (yanlılık) ve variance (değişkenlik) dengesi üzerinde büyük bir etkiye sahiptir:

  • Küçük k değeri (örn. \(k=1\), \(k=3\)):

    • Etkisi: Model yerel gürültüye ve aykırı değerlere çok duyarlı hale gelir. Karar sınırları çok karmaşık, girintili çıkıntılı olur.
    • Risk: Aşırı Öğrenme (Overfitting). Model eğitim verisini ezberler, ancak yeni, görünmeyen verilerde kötü performans gösterir. Yüksek varyans, düşük yanlılık.
    • Sezgisel: Bir yabancı şehirde sadece tek bir kişiye (en yakın komşu) sorarak restoran seçmeye benzer. Eğer o kişi kötü bir restoran tavsiye ederse, siz de kötü bir seçim yaparsınız.
  • Büyük k değeri (örn. \(k=20\), \(k=50\)):

    • Etkisi: Model çok fazla komşuyu dikkate aldığı için yerel desenleri gözden kaçırır, karar sınırları çok genelleştirilmiş ve basit hale gelir.
    • Risk: Yetersiz Öğrenme (Underfitting). Model, verideki önemli ilişkileri yakalayamaz, hem eğitim hem de test verisinde düşük performans gösterir. Düşük varyans, yüksek yanlılık.
    • Sezgisel: Bir yabancı şehirde restoran seçmek için yüzlerce kişiye danışmaya benzer. Herkesin tercihini ortalamak, size çok popüler ama belki de özelliksiz bir seçim yaptırabilir, yerel lezzetleri kaçırırsınız.

Optimal k değeri nasıl bulunur? (Çapraz doğrulama ile giriş)

Optimal \(k\) değerini bulmak, hiperparametre ayarlamasının (hyperparameter tuning) bir parçasıdır. Bunu yapmanın en yaygın ve güvenilir yolu Çapraz Doğrulama (Cross-Validation) kullanmaktır.

  1. Aday \(k\) değerlerini belirleme: Genellikle tek sayılar (beraberlik riskini azaltmak için) ve küçük sayılardan başlanarak belirli bir aralığa kadar (örn. 1, 3, 5, …, 31) aday \(k\) değerleri belirlenir.
  2. Veriyi bölme: Eğitim veri seti, \(N\) katmanlı (örneğin 5 veya 10 katmanlı) çapraz doğrulama için parçalara ayrılır.
  3. Modeli değerlendirme: Her bir \(k\) değeri için:
    • Veri seti \(N\) katmana bölünür.
    • Her iterasyonda \(N-1\) katman eğitim için, 1 katman doğrulama için kullanılır.
    • Her bir \(k\) değeri ve her bir katman için model eğitilir ve doğrulama setindeki performansı (örn. doğruluk, F1-skor, MSE) ölçülür.
    • Bu performans skorlarının ortalaması alınır.
  4. En iyi \(k\) değerini seçme: Tüm \(k\) değerleri için elde edilen ortalama performans skorları karşılaştırılır. En yüksek performansı veren \(k\) değeri optimal olarak kabul edilir.

Ek İpuçları:

  • Genellikle \(k\) değeri, eğitim veri seti boyutunun karekökü civarında bir başlangıç noktası olarak düşünülebilir (ancak bu bir kural değil, sadece bir sezgiseldir).
  • Çoğunluk oylamasında beraberliği önlemek için genellikle tek sayı \(k\) değerleri tercih edilir.

4. Veri Ölçeklendirme (Feature Scaling)

Veri ölçeklendirme, k-NN algoritması için kritik bir ön işleme adımıdır. Bu adımı atlamak, modelin performansını ciddi şekilde düşürebilir.

Neden önemlidir? (Mesafe hesaplamalarındaki etkisi)

Mesafe metrikleri (özellikle Öklid ve Manhattan mesafesi), özellik değerlerinin büyüklüklerine çok duyarlıdır. Eğer özellikler farklı ölçeklerdeyse (yani farklı birimlere sahipse veya çok farklı değer aralıklarında yer alıyorsa), büyük değerlere sahip özellikler, küçük değerlere sahip özelliklere göre mesafenin hesaplanmasında orantısız derecede daha fazla etkiye sahip olacaktır.

Örnek:

Bir kişiyi tanımlayan iki özellik olsun:

  • Yaş: 20-70 arasında değişiyor.
  • Maaş: 2000 - 100000 arasında değişiyor.

Eğer yaş ve maaş arasındaki Öklid mesafesini hesaplarsak, maaştaki küçük bir değişim bile yaştaki büyük bir değişimden daha fazla etki yaratacaktır çünkü maaşın sayısal değeri çok daha büyüktür. Bu durumda algoritma, “maaş” özelliğini “yaş” özelliğinden daha önemli sanabilir, halbuki her iki özellik de eşit derecede önemli olabilir.

Aşağıdaki görselde bu durum net bir şekilde gösterilmektedir. Soldaki grafikte ölçeklendirme yapılmadığında, maaş eksenindeki geniş aralık, mesafe hesaplamalarını domine eder ve yaşın katkısını gölgeler. Sağdaki grafikte ise veriler ölçeklendirildikten sonra (genellikle standartlaştırma), her iki özelliğin de mesafe hesaplamasına eşit katkı sağlaması sağlanır, bu da daha doğru komşu bulma ve dolayısıyla daha iyi model performansı anlamına gelir.

Min-Max Normalizasyonu ve Z-skoru Standardizasyonu

İki temel ölçeklendirme tekniği vardır:

  1. Min-Max Normalizasyonu (Min-Max Normalization):

    • Verileri belirli bir aralığa (genellikle 0 ile 1 arasına) dönüştürür.
    • Formül: \(X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}\)
    • Ne zaman kullanılır: Özelliklerin belirli bir aralıkta olmasının önemli olduğu durumlarda (örn. sinir ağları). Aykırı değerlerden etkilenir, çünkü \(X_{min}\) ve \(X_{max}\) aykırı değerlerden etkilenebilir.
  2. Z-skoru Standardizasyonu (Z-score Standardization):

    • Verileri ortalaması 0 ve standart sapması 1 olan bir dağılıma dönüştürür.
    • Formül: \(X_{std} = \frac{X - \mu}{\sigma}\) (burada \(\mu\) ortalama, \(\sigma\) standart sapmadır)
    • Ne zaman kullanılır: Verinin normal dağılıma yakın olduğu varsayıldığında veya aykırı değerlerin etkisini azaltmak istendiğinde. Birimlerin farklı olduğu ve karşılaştırma yapılması gereken durumlarda çok kullanışlıdır.

Önemli Not: Ölçeklendirme işlemleri yalnızca eğitim seti üzerinde hesaplanmalı ve bu hesaplanan değerler (min, max, ortalama, standart sapma) hem eğitim setine hem de test setine uygulanmalıdır. Test setindeki değerler üzerinden yeniden ölçeklendirme parametreleri hesaplamak, veri sızıntısına (data leakage) neden olur.