Makine Öğrenmesi 8. hafa Takviyeli Öğrenme (Reinforcemen Learning) Q Öğrenme (Q Learning) TD Öğrenme (TD Learning) Öğrenen Vekör Parçalama (LVQ) LVQ2 LVQ-X 1 Takviyeli Öğrenme Takviyeli öğrenme (Reinforcemen Learning), bulunduğu oramı algılayan ve kendi başına kararlar alabilen bir sisemin, hedefine ulaşabilmesinde doğru kararlar almayı nasıl öğrenebileceğini göserir. Bu yönem roboik, oyun programlama, hasalık eshisi ve fabrika oomasyonu gibi alanlarda sıklıkla kullanılır. 2 1
Takviyeli Öğrenme Takviyeli öğrenmede bir eğimen bulunur faka deneimli öğrenmedeki gibi siseme çok deay vermez veya veremez. Bunun yerine öğrenen sisem bir karar verdiğinde bu kararın doğru olduğu durumlar için sisemi ödüllendirir ve yanlışlar için de cezalandırır. Amaç, öğrenen sisemin denediği olası durumların hedef olup olmadığının konrolü ve denenen doğru veya yanlış üm durumların haırlanmasıdır. 3 Takviyeli Öğrenme Karar verilen durumlar ardarda gelen diziler şeklinde haırlanırsa sonunda başarıya ulaşan duruma bağlı olarak haırlanan ardışıl durumlar dizisindeki her karara büyük ödülden hisseler dağıılır. Aşağıda örnek bir durum ağacı göserilmişir. B D A 85 E 100 C F 4 2
Takviyeli Öğrenme Ödül veya cezayı belirleyen genellikle bir değer (amaç veya hedef de denilir) fonksiyonu ( V) vardır. Davranış poliikası ( Π ) ile anındaki durumda iken ( s ) yapılabilecek harekelerden ( a ) opimumu seçilebilir. Takviyeli öğrenme, değer fonksiyonunun üreiği en büyük ödüle sahip davranış poliikasını ercih eder. Opimum davranış poliikasının ercihi şöyle ifade edilir. Π= argmax a ( V( s, a) ) 5 Q Öğrenme Takviyeli öğrenme yaklaşımları içerisinde en çok bilineni Q-Öğrenme yönemidir. Sıklıkla labiren ve arama problemlerine uygulanır. Bu yönemi 1989 da ilk kez öneren Wakins değer fonksiyonu için Q harfini kullanması dolayısıyla yönem bu adı almışır. Kullanılacak değer fonksiyonunun (Q) maemaiksel modelinin genellikle kolayca belirlenebilir olmaması yüzünden sadece anlık duruma bağlı ödüller kullanılır. 6 3
Q Öğrenme Mevcu duruma sezgisel olarak veya rasgele bir değer ( r ) verilebilir. Faka ödülün gerçek değeri en büyük ödüle ulaşınca neleşir. Büyük ödüle ulaşan harekeler dizisi ödülden hareke uzaklığı oranında yararlanır. Büyük ödülden yararlanma oranı ( γ ) genelde [0 1] arasında bir değer olarak seçilir. Değer fonksiyonunun güncellenmesi aşağıdaki denklem ile gerçekleşir. Q( s, a) = r + γmaxq( s+ 1, a+ 1) a + 1 7 Örnek Klasik bir problem olarak bir roboun 4x4 bir maris üzerinde sol üs köşeden başlayarak sağ al köşedeki çıkışı arama adımlarını izleyelim. 8 4
Örnek Robo rasgele ahminlerle hücreler arasında gezinirken çıkışı keşfediyor. Çıkışa hangi hücreden geçi ise onu işareliyor. 9 Örnek Robo rasgele gezinmelere devam ederken her seferinde bulduğu 1 hücreyi işareliyor. 10 5
Örnek Tüm ierasyonlar biiğinde en kısa yolu aşağıdaki gibi çiziyor. 11 TD Öğrenme 1988 de Suon, Q algorimasında dela kuralını kullanarak bir iyileşme yapıp TD (Temporal Difference) öğreme adıyla sunmuşur. Dela kuralında eğim azalma için kullanılan ( η ) parameresi, büyük ödüle giden birden fazla yolun kesişimindeki durumları Q öğrenmesine göre daha değerli hale geirmekedir. Q = Q( s, a) Q = Q + η r + 1 + γmaxq a + 1 + 1 Q 12 6
Sarsa: Akif Poliikalı TD TD öğrenme yönemi bir sonraki en iyi hareke değerine göre davranış poliikasını seçiği için pasif poliikalı yönem olarak adlandırılır. Sarsa gibi akif poliikalı yönemlerde ise bir sonraki davranış poliikası da belirlenebilir. Dolayısıyla problemin durum ağacı üzerinde 1 seviye daha derine indiği söylenebilir. 13 ÖDEV Sarsa algorimasını örnek bir uygulama için MATLAB ile hazırlayınız. 14 7
Takviyeli Öğrenen YSA: LVQ YSA mimarisine sahip olan LVQ (Learning Vecor Quanizaion) modeli, akviyeli öğrenmeden esinlenerek oraya konulan danışmanlı bir öğrenme yönemidir. 15 Takviyeli Öğrenen YSA: LVQ Bazen örneklere ai sınıf değeri bilinemez ve bu yüzden öğrenen modele hedef değerleri vermek mümkün olmaz. Bununla beraber modelin üreiği çıkının doğru veya yanlış olduğu belirilebiliyorsa akviyeli öğrenme ile sınıflandırma yapılabilir. 16 8
LVQ Ağı LVQ ağında amaç NxM boyulu bir marisi M boyulu birkaç veköre harialamakır. Öğrenme işlemi, girdi marisini emsil edecek vekörler kümesini espi emek için yürüülür. Diğer bir deyişle LVQ ağının görevi öğrenme yolu ile referans vekörler denilen bu emsilcileri belirlemekir. 17 LVQ Ağının Kamanları LVQ ağı 3 kamandan oluşmakadır: Girdi kamanı: Dışarıdan alınan örnekler (girdi vekörleri) ağa göserilir. Kohonen kamanı: Her eleman sınıflı bir referans vekörüdür. Girdi vekörüne en yakın olan referans vekörü burada belirlenir. Çıkı kamanı: Her sınıf için bir çıkış bulunur. Sadece belirlenen sınıfa ai çıkış akif yapılır. 18 9
LVQ Ağında Öğrenme LVQ ağında girdi vekörlerinin sınıfları, referans vekörleri üzerinde uygulanan en yakın 1 komşu kuralına göre belirlenir. Uzaklık ölçüü olarak genellikle Ökli uzaklığı kullanılır. Sonuca bağlı olarak her ierasyonda bir referans vekörü güncellenir. 19 LVQ Ağında Öğrenme Girdi vekörü ile referans vekörler arasındaki mesafeler hesaplanır. En kısa mesafeyi sağlayan referans vekör belirlenir. Bu referans vekörün sınıfı çıkışa akif edilir. Belirlenen referans vekörü, sonucun doğruluğuna göre belirli bir oranda girdi vekörüne yaklaşırılır veya uzaklaşırılır. 20 10
LVQ Ağında Öğrenme Girdi vekörüne en yakın referans vekörü şu ifadeyle belirlenir. i= argmin Çıkış doğruysa referans vekör güncellenir. v Çıkış yanlışsa; v i i = v + λ i j = v λ i x v ( x v ) ( x v ) i i j 21 LVQ Ağında Öğrenme Öğrenme kasayısı λ genelde [0 1] aralığında seçilir. YSA mimarisine sahip olan LVQ modeli aynı zamanda geriyayılımdaki eğim azalmayı da kullanır. Dolayısıyla λ değeri her ierasyonda azalılır. 22 11
LVQ Öze Ağın öğrenmesi emel çok kamanlı ağlardan daha hızlı ve kolaydır. Doğrusal olmayan problemlerde de kullanılabilir. Öğrenme kasayısının sıfır değerine inmemesi durumunda ağ doğru ağırlık değerlerinden uzaklaşır ve öğrendiklerini unuabilir. Bazı problemlerde aynı referans vekörü ehlikeli şekilde sürekli olarak kazanır. İki sınıfın arasında veya sınırlara yakın vekörlerin sınıfı belirlenemeyebilir. 23 Örnek Kümeleme eslerinde iyi bilinen Ruspini veri kümesinde LVQ eğiimini izleyelim. 24 12
LVQ2 Ağı LVQ ağı, farklı sınıflara ai nokaların arasında veya uç sınır bölgelerde kalan örnek nokaları sınıflandırmada zorlanır. Bu konuda bir iyileşirme olarak LVQ2 önerilmişir. Haalı sınıflandırılan örneklere en yakın iki referans vekör espi edilir. Girdi vekörü bu ikisinin sınırlandırdığı pencere içinde ise ve vekörler farklı sınıflardansa güncellenir. 25 LVQ-X Ağı LVQ2 ağının eğiiminin iyileşirilmiş halidir. Yanlış sınıflandırma yapıldığında iki referans vekörü birden güncellenir. Bu işlem, öğrenme hızını arırır, öğrenme zamanını kısalır ve ağın genelleme yeeneğini arırır. 26 13
LVQ-X Ağı LVQ-X ağında, her ierasyonda, yarışmayı kazanan iki ane işlem elemanı bulunur. Bunlar; Global: Girdi vekörüne en yakın referans vekörüne sahip olanı gösermekedir. Yerel: Girdi ile aynı sınıfan referans vekörlerinden girdi vekörüne en yakın olanı ifade emekedir. 27 LVQ-X Ağı Girdi örneğine daha yakın olan referans vekör, örnek ile farklı sınıfandır ve bu yüzden uzaklaşırılmalıdır. Girdi, doğru sınıflandırılabilsin diye diğer vekör de örneğe daha yakın hale geirilmelidir. v v 1 2 = v 1 = v 2 + λ λ ( x v1) ( x v ) 2 28 14