Machine Learning Academy’deki en önemli derslerden biri, denge sanatıdır. İyi bir öğrenci (model), ne sınavdaki her soruyu virgülüne kadar ezberlemeli, ne de derslere hiç girmeyip konunun ana fikrini bile kaçırmalıdır. Bu iki aşırı uca, makine öğrenmesi literatüründe Overfitting (Aşırı Uyum) ve Underfitting (Eksik Uyum) diyoruz.
Bu ikilemi, akademideki en çalışkan öğrencimiz olan yeşil saçlı Gözetimli Öğrenme Uzmanı üzerinden bir metaforla anlatalım.
Overfitting, bir modelin eğitim verisindeki ana deseni öğrenmek yerine, verideki gürültüyü, tesadüfi dalgalanmaları ve her bir detayı ezberlemesi durumudur (James vd., 2023).
Öğrencimizin, ders notlarındaki (eğitim verisi) her bir soruyu ve cevabını virgülüne kadar ezberlediğini düşünün. Notlardaki her örneği hatasız bir şekilde çözer. Ancak, konunun mantığını kavramadığı için, final sınavında (test verisi) daha önce görmediği sorularda çuvallar. İşte bu öğrencimiz “overfit” olmuştur.
Overfitting’e Lütfen Dikkat
Yukarıdaki görselde, öğrencimizin eğitim verisindeki her bir noktaya takıntılı bir şekilde uyan, aşırı karmaşık bir “kural çizgisi” çizdiğini görüyoruz. Bu çizgi, eğitim setinde mükemmel çalışır ama verinin genel “trendini” kaçırdığı için gerçek dünyada işe yaramaz.
Teknik Dilde: Overfitting, modelin yüksek varyansa (high variance) sahip olduğu bir durumdur. Model, eğitim verisindeki en ufak bir değişikliğe bile aşırı tepki verir (“aşırı hassastır”) ve bu yüzden genelleme yapamaz (Goodfellow, Bengio & Courville, 2016).
İkilemin diğer ucunda ise Underfitting bulunur. Bu, modelin çok basit kalması ve eğitim verisindeki temel deseni bile tam olarak öğrenememesi durumudur (Goodfellow vd., 2016).
Underfitting’e Lütfen Dikkat
Bu sefer, öğrencimizin ders çalışmaya hiç motive olmadığını ve konuyu anlamak için yeterli çabayı göstermediğini düşünün. Sadece “tüm cevaplar ortalama bir değerdedir” gibi aşırı basit bir kural öğrenir. Bu öğrencimiz, hem ders notlarında (eğitim verisi) hem de final sınavında (test verisi) başarısız olur. İşte bu öğrencimiz de “underfit” olmuştur.
Teknik Dilde: Underfitting, modelin yüksek yanlılığa (high bias) sahip olduğu bir durumdur. Model, verinin karmaşıklığını yakalayamayacak kadar “ön yargılıdır” ve aşırı basit varsayımlar yapar (Goodfellow, Bengio & Courville, 2016).
İyi bir model ne overfit ne de underfit olmalıdır. Amacımız, verideki temel ve genelleştirilebilir deseni yakalayan, ancak gürültüyü görmezden gelen “altın oranı” bulmaktır.
Altın Oran: Ne ezberci, ne tembel. Verinin ana trendini yakalayan ideal model.
Bu görselde, Gözetimli Öğrenme öğrencimizin artık ne aşırı karmaşık ne de aşırı basit, tam kararında, verinin genel trendini mükemmel bir şekilde yakalayan bir “kural çizgisi” bulduğunu görüyoruz. Bu model, hem eğitim verisinde “yeterince iyi”dir hem de yeni verileri tahmin etme konusunda “sağlam”dır.
Makine öğrenmesindeki asıl sanat, “ezbercilik” ile “tembellik” arasında, yani teknik terimlerle Yanlılık (Bias) ile Varyans (Variance) arasında doğru dengeyi kurmaktır. Bu meşhur kavrama Bias-Variance Trade-off (Yanlılık-Varyans Dengesi) denir. * Modeli çok basitleştirirsek, yanlılık artar (underfitting). * Modeli çok karmaşıklaştırırsak, varyans artar (overfitting). * İyi bir mimar, bu iki zıt gücü dengeleyerek en sağlam yapıyı inşa eden kişidir.
Peki, bir modelin bu “altın oranı” yakalayıp yakalamadığını, yani “gerçekten öğrendiğini” mi yoksa sadece “ezberlediğini” mi nasıl anlarız?
Bu bölümde, makine öğrenmesinin temel sezgilerini aktarırken, bu alanı şekillendiren öncü isimlerin ve temel eserlerin bilgeliğinden yararlandık. Bir mimarın, kendinden önceki büyük ustaların eserlerini incelemesi gibi, biz de bu temel kaynaklara saygımızı sunarak kendi bilgi temelimizi sağlamlaştırıyoruz.
Bilgi, kendinden önceki devlerin omuzlarında yükselir.
Başvurulan Temel Eserler
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Hastie, T., Tibshirani, R., & Friedman, J. (2008). The elements of statistical learning: Data mining, inference, and prediction (2nd ed.). Springer.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2023). An introduction to statistical learning: With applications in R (2nd ed.). Springer.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT press.
Harika bir iş çıkardık dostlar!
Bu bölümde, hiç kod yazmadan, makine öğrenmesi dünyasının arkasındaki en temel kavramsal sezgileri inşa ettik. Artık biliyoruz ki:
Artık mimarlığın temel prensiplerini anladığımıza göre, baretlerimizi takıp, planlarımızı açıp, RStudio’da ilk projemizin temelini atma zamanı geldi. Teoriyi pratiğe dökme vakti!
Bir sonraki durağımız, Bölüm 8.2: İlk Planımız - Lineer
Regresyon İnşa Etmek (tidymodels ile)!
Veriyle kalın, lütfen takipte kalın dostlar…