MEH535 Örüntü Tanıma 3. Denetimli Öğrenme Doç.Dr. M. Kemal GÜLLÜ Elektronik ve Haberleşme Mühendisliği Bölümü web: http://akademikpersonel.kocaeli.edu.tr/kemalg/ E-posta: kemalg@kocaeli.edu.tr
Örneklerden Sınıf Öğrenme Aile arabası sınıfı C Tahmin: x aracı aile arabası mıdır? Bilgi çıkartımı: İnsanlar aile arabasından ne bekler? Çıkış: Pozitif (+) ya da negatif (-) örnekler Giriş: Öznitelikler: x 1 : price, x 2 : engine power - - 2
Eğitim Kümesi X x = { 'T it r,?, N : is.mg,, rt *t t our. nek t.ir#netiketi*=tm = { 1, you 7 ek, x my a srrek tif Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 3
4 Sınıf C ( price Bs Epz ) AND ( e, Eeypow. ed Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 4
Hipotez Sınıfı H Hipotez sınıfı H : olası tüm dikdörtgenler kümesi alalım hay = fl ; x ' I porikf! shift and in rise 4 nyakf inpteuwn Gerçek sınıf hats 1 : Ethbettylkixtttr 'T v u Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 5
S, G ve Versiyon Uzayı enohellnpotet A He engenders potet the ) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) egihn wish de ( K srnk Kines in4 hs ; le ha anasmdnhi Lnhpetnhr s hath vows vast. B n aahfavesjen may for. term 6
. X, Xz 7. Y, Y ] Ty 7536 Tt ) oy,.1dyyh1d 8,#88##, 10 1 1 0 0 0 0 1 111 1 O 0 0 1 1 0 0 1 1 00 1 4 0011 1 1 01 0 1 0 1 0 1 01 0 101 bin ; EX - OR mantkalislemswionyruelsh 7784
N nokta 2 N ayrı yolla +/- olarak etiketlenebilir 2 N farklı öğrenme problemi N örnekle tanımlanan bir öğrenme problemi, H dan çizilen bir hipotezi ile hatasız öğrenilebilir H ile ayrılabilen en fazla nokta sayısı Vapnik- Chervonenkis (VC) boyutu olarak adlandırılır ve VC(H) ile gösterilir H hipotez sınıfının (sınıflandırma modelinin) kapasitesini ölçer Vapnik-Chervonenkis Boyutu Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) HEEEB VC(H ) = N 7
Özetle; Soru: Öğrenme algoritması kaç örneğe ihtiyaç duyar? Yanıt: VC(H) Vapnik-Chervonenkis Boyutu X örnek uzayı üzerinde tanımlı H hipotez uzayı tarafından parçalanmış en büyük örnek alt kümesinin büyüklüğüdür. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 8
Gürültü ve Model Karmaşıklığı Basit yapıyı kullan: Kolay kullanım (düşük hesapsal karmaşıklık) Eğitimi kolay (düşük uzay karmaşıklığı) Açıklama kolay (daha yorumlanabilir yapı) Genelleme iyi (düşük değişinti) gbasiidd Yµ birdnfffe Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 9
Çoklu Sınıf Durumu X { x,r } t t N t 1 r t i t 1 if x i t 0 if x j, j i Hipotez eğit h i (x), i =1,...,K: h i x t t 1 eger x i t 0 eger x j, j i Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 10
X={ut,rt} µ Bağlanım Zdeeceoler model ; T(Ht=w(x4+went+w. RTER te rt=fkt)+e y opeeo * Hsbc )=tn{frtjcxtf Eke, y=antb - At,wo1k)=µt{,( rt.w.nt.w.lt dotnfdllemmdfljsndnkihatn Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) gcxitwnnttwo 11
Model Seçimi ve Genelleştirme Öğrenme kötü konumlanmış (ill-posed) bir problemdir Veri tek çözüm için uygun değildir Aynı veri ile eğitim ve test modeli nasıl genelleyebilir? Genelleştirme: Model yeni veride ne ölçüde performans gösterecektir? Aşırı uydurma (Overfitting): Hipotez karmaşıklığı fazla Az uydurma (Underfitting): Hipotez karmaşıklığı yetersiz 12
Model Seçimi ve Genelleştirme Üçlü Ödünleşim (Dietterich, 2003): H ın karmaşıklığı: c(h) Eğitim kümesi miktarı: N Yeni verideki genelleme hatası: E I. 2. N 4 : Et, ( N biigidiihaemoetl yersek Lafhhme zakleyir ) C ( N ) In ; inalihle Et, savasmdr ET 13
Model Seçimi ve Genelleştirme 14
Model Karmaşıklığı? Çapraz Geçerleme Çapraz Geçerleme (Cross Validation) Eğitim Veri Kümesi: Eğitim Kümesi Geçerleme Kümesi ottwiie (Training Set) (Validation Set) - model eniyi model kamaahhginin parametresimy tespitilo 'T tespili 15
' Çapraz Geçerleme - ti - + + - = Hata (E) eğitim hatası = : karmaşıklık nnsigeekndendaha obhusigerhnder Lahs basil - old kvhehhno del AZUYDURMA ) ATIRIUYDUKMA ( Unowfifthf ) ( Owfthy ) olhesigerekn hold karhatlhhjs 16
Çapraz Geçerleme Seçilen model geçerleme aşamasında iyi çalışabilir Bulunan modelin test aşamasında çalışma başarımı? Holdout yöntemi (2-fold cross validation) Eğitim Kümesi (Training Set) Geçerleme Kümesi (Validation Set) Test Kümesi (Test Set) Testte başarım düşük ise (genelleme hatası yüksek) eğitim kümesi yetersiz olabilir 17
Genelleme hatasını kestirmek için örneğin: Eğitim kümesi (%50) Geçerleme kümesi (%25) Test kümesi (%25) seçilebilir Çapraz Geçerleme Eğer veri kümesindeki örnek sayısı az ise, istenen başarım için rastgele yeniden örnekleme yapılabilir (repeated hold-out) 18
Çapraz Geçerleme K-Kat (K-Fold) Çapraz Geçerleme: Tüm veriler eğitim ve testte kullanılır K kez eğitim gerekir 19
Çapraz Geçerleme İç İçe (Nested) Çapraz Geçerleme: 20
Çapraz Geçerleme Birini Dışarıda Bırak (Leave-One Out) Çapraz Geçerleme: N örnekli veri için N ayrı eğitim yapılır Rastgelelik yoktur Hesapsal yük fazladır 21
Çapraz Geçerleme Önyükleme (Bootstrapping) Çapraz Geçerleme: K ayrı eğitim gerçekleştirilir Her eğitim verisinden test örnekleri alınır ve yerleri yeniden örnekleme ile geriye kalan veri kümesinden doldurulur (N örnekli) 22
Kayp Model Denetimli Öğrenme 1. Jllilenr ; f ( xlol 2. : lelirhnr fonksiyomim )= < Elope ( rt glxtlol ), 3. En iyikme pnseohini : f* = argmign EHIX ) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning The MIT Press (V1.1) 23