Makine Öğrenmesi Serisi Başlıyor.
Merhaba Dostlar,
Serimizin zirve noktası olan Bölüm 7: “Ustalık Projesi”ni tamamlayarak, veriyi sadece analiz edip görselleştirmekle kalmayıp, onu yaşayan, interaktif bir ürüne nasıl dönüştüreceğimizi öğrendik. O projenin sonunda, “Keşke bu verilerle geleceği de tahmin edebilseydik…” diye düşünmüş olabilirsiniz. İşte o an, bir “veri kaşifinden” bir “veri mimarına” dönüştüğünüz andır.
Şimdiye kadar bir veri kaşifiydik; verinin geçmişinde ve şimdisinde yatan hikayeleri ortaya çıkardık. Artık bir veri mimarı olmaya başlıyoruz; verinin temellerini kullanarak geleceği öngören, sağlam ve güvenilir modeller inşa edeceğiz.
Ancak sağlam bir yapı inşa etmeden önce, mimarinin temel prensiplerini, malzeme bilimini ve fiziğin kurallarını anlamamız gerekir. Bir mimarın, temel fizik kurallarını (yerçekimi, gerilim, sıkıştırma) bilmeden bir gökdelen tasarlayamayacağı gibi, bizim de makine öğrenmesinin temel “fizik kurallarını” (Overfitting, Bias-Variance Dengesi, Eğitim/Test mantığı) anlamadan sağlam modeller inşa etmemiz imkansızdır.
Bu yüzden, bu ilk bölümde RStudio’yu açmayacağız. Klavyelerimizi bir kenara bırakıp, “Machine Learning Academy”nin kapılarından içeri girerek, bu heyecan verici dünyanın arkasındaki temel sezgileri, metaforları ve felsefeyi anlamak için zihinsel bir yolculuğa çıkacağız.
Bu bölümdeki amacımız, sizi alanın öncü isimlerinin omuzlarında yükselterek, makine öğrenmesinin temel kavramlarına dair sarsılmaz bir sezgiyle donatmaktır. Bu nedenle, anlatımlarımızı akademik bir titizlikle, konunun temel kaynaklarına atıfta bulunarak yapacağız.
Hazırsanız, mimarlığın ilk dersine başlayalım.
En temel haliyle makine öğrenmesi, bilgisayarlara bir görevi açıkça nasıl yapacaklarını programlamak yerine, veriden “deneyim” yoluyla öğrenme yeteneği kazandırma bilimidir. Alanın öncüleri Hastie, Tibshirani ve Friedman’ın da belirttiği gibi, bu alan “veriden öğrenen” algoritmalarla ilgilidir (Hastie vd., 2008).
Bu tanımı bir metaforla somutlaştıralım:
-Geleneksel Programlama bir “Yemek Tarifi” gibidir: Bir bilgisayara kek yapmasını öğretmek için, ona adım adım, her detayıyla (şu kadar un koy, şu kadar karıştır, şu sıcaklıkta pişir) komutlar verirsiniz. Program, bu tarifin dışına asla çıkamaz.
-Makine Öğrenmesi ise bir “Gurme Şef” yetiştirmek gibidir: Şefe binlerce farklı kekin fotoğrafını, malzemelerini ve lezzet puanlarını (yani veriyi) verirsiniz. Şef, bu veriyi inceleyerek unun dokuya, şekerin tada, pişirme süresinin kabarıklığa olan etkisini kendi kendine “öğrenir”.
Peki, bu süreçte “veri” ve “öğrenme” tam olarak ne anlama geliyor?
“Veri” Nedir?
“Öğrenme” Nedir?
Şefin, bu binlerce denemeden sonra zihninde oluşturduğu içsel kurallardır. Örneğin:
İşte bu kendi kendine kurallar çıkarma süreci sonunda, şefimiz daha önce hiç görmediği malzemelerle bile harika bir kek yapabilecek sezgiye sahip olur. Bizim modelimiz de tam olarak bunu yapar: Öğrendiği kuralları kullanarak, daha önce hiç görmediği yeni veriler hakkında isabetli tahminlerde bulunur.
Machine Learning Academy’nin uzman öğrencileri ile tanışalım: Denetimsiz Öğrenme (solda), Pekiştirmeli Öğrenme (arkada) ve Denetimli Öğrenme (sağda).
Machine Learning Academy’deki yolculuğumuzda bize üç uzman öğrenci eşlik edecek. Her biri, öğrenmenin farklı bir felsefesinde ustalaşmıştır ve onların çalışma stillerini anlamak, makine öğrenmesinin üç ana dalını anlamamızı sağlayacaktır (James vd., 2023; Sutton & Barto, 2018).
Gözetimli öğrenmenin temsilcisi, yeşil saçlı, enerjik ve hedef odaklı öğrencimizdir. Onun dünyasında her şey nettir. Tıpkı bir öğrencinin, cevap anahtarı olan bir test kitabıyla çalışması gibi, o da etiketlenmiş (labeled) veri setleriyle çalışır. Elindeki veride hem sorular (özellikler / features) hem de o soruların doğru cevapları (hedef / target) bulunur.
Görevi, sorular ve cevaplar arasındaki ilişkiyi öğrenerek, gelecekte karşılaşacağı ve cevabını bilmediği soruları doğru tahmin etmektir (James vd., 2023). Bu uzmanlık, iki ana alana ayrılır:
“Bu işlem sahtekarlık mı, değil mi?” veya “Bu müşteri aboneliğini iptal edecek mi, etmeyecek mi?” gibi kategorik sorulara cevap arar. Çıktı, belirli sınıflardan biridir.
Gerçek Dünya Örnekleri:
Sınıflandırma: Etiketli verileri bir çizgiyle ayırarak gelecekteki verileri sınıflandırmayı öğrenmek.
“Bu evin fiyatı ne kadar olur?” veya “Bu ürün önümüzdeki ay ne kadar satar?” gibi sayısal tahminler yapar. Çıktı, sürekli bir sayıdır.
Regresyon: Veri noktaları arasındaki trendi öğrenerek sayısal tahminler yapmak.
Denetimsiz Öğrenme: Etiketsiz verinin derinliklerindeki gizli desenleri keşfetmek.
Denetimsiz öğrenmenin temsilcisi, mavi saçlı, sakin ve sezgileri güçlü kaşifimizdir. Onun çalışma masasında cevap anahtarları yoktur. Elinde sadece devasa, etiketsiz (unlabeled) bir veri okyanusu bulunur.
Görevi, bu okyanusun derinliklerine dalarak, daha önce kimsenin fark etmediği doğal grupları, gizli yapıları ve anlamlı desenleri kendi kendine keşfetmektir (Hastie vd., 2008).
Gerçek Dünya Örnekleri:
Pekiştirmeli Öğrenme: Deneme-yanılma ve ödüllerle en iyi stratejiyi öğrenmek.
Pekiştirmeli öğrenmenin temsilcisi, mor saçlı, dinamik ve rekabetçi stratejistimizdir. O, statik veri setleriyle çalışmaz; bunun yerine, bir çevre (environment) ile sürekli etkileşim halindedir.
Görevi, bu çevre içinde deneme-yanılma yoluyla, doğru eylemler (actions) için ödüller (rewards) ve yanlış eylemler için cezalar (penalties) alarak en optimal stratejiyi (policy) öğrenmektir (Sutton & Barto, 2018).
Gerçek Dünya Örnekleri:
Bu temel felsefeleri ve akademimizin uzmanlarını tanıdıktan sonra, bir sonraki adımda bir modelin nasıl “ezber” yaptığını (overfitting) ve bunun önüne nasıl geçebileceğimizi keşfedeceğiz.