BSM-767 MAKİNE ÖĞRENMESİ. Doğrusal Ayırıcılar (Linear Discriminants)

BSM-767 MAKİNE ÖĞRENMESİ Doğrusal Ayırıcılar (Linear Discriminants) Yrd. Doç. Dr. Ümit ATİLA umitatila@karabuk.edu.tr http://web.karabuk.edu.tr/umitatilla/

Perceptron Perceptron, bir giriş kümesinin ağırlıklandırılmış bağlantılarla tek katmanda yer alan McCulloch-Pitts nöronlarına bağlanmasından oluşan yapıdır. Girişler genelde nöron gibi yuvarlak çizilir ama aslında bunlar nöron değil sadece giriş sinyalleridir. Nöronların bias girişleri genelde çizilmez, ama orada olduğunu bilmelisiniz. 2

Perceptron Perceptronlarda nöronlar diğer nöronlardan bağımsızdır. Onların ne yaptığıyla ilgilenmez. Sadece ağırlıklar ile çarpılmış giriş sinyalini alır ve kendi eşik değeri ile karşılaştırır. Giriş sinyali sayısını veri setindeki parametre sayısı belirler. 3

Perceptron Doğrusal sınıflandırıcı perceptron için kullanacağımız mimari doğrusal bir birleştiricidir. Girişler x1,x2,...xm olsun. Ağırlıklar ise wij ile temsil edilir. Bu i. girişten j. nörona yapılan bağlantı demektir. Bu ağırlıklar ixj boyutlu matriste tutulabilir. Perceptron modeli sahip olduğumuz özellikleri alıyor bunlara farklı ağırlıklar (w) veriyor. 4

Perceptron Daha sonra bu ağırlıklandırılmış girişler doğrusal formda toplanırlar. Daha sonra bu toplam sinyal bir eşik değer ile karşılaştırılır. Eğer eşik değer aşılıyorsa verilen giriş iki sınıftan birine, aşılmıyorsa diğerine dahil edilir. n v k = i=1 w i x i y k = ቊ 1, eğer v k > θ 0, eğer v k θ v k = W T. X 5

Perceptron Sonuçta elde edilen 0 ve 1 lerden oluşan bir vektördür. Örneğin, 5 nöronlu perceptron için çıkış sinyali olarak (0,1,0,0,1) vektörü elde ediliyorsa 2. ve 5. nöronların tetiklendiğini diğerlerinin ise tetiklenmediğini anlıyoruz. Bu elde edilen vektör ise beklenen değer vektörü ile karşılaştırılır ve hangi nöronun doğru hangisinin yanlış cevap verdiği anlaşılır. Eğer nöron doğru cevap vermiyorsa bu nörona giden ağırlıklar güncellenir. Nöron için öyle bir ağırlık vektörü bulunmalı ki bir daha ki sefere aynı giriş için doğru cevabı versin. 6

Perceptron Ağırlık güncellemek için kullanılan formül: w ij n = d k y k. x i w ij (n + 1) = w ij (n) + η w ij (n) w ij (n + 1) = w ij (n) + η d k y k. x i 7

Öğrenme Katsayısı Öğrenme katsayısı her iterasyonda ağırlık değişim miktarını değiştirmek için kullanılan 0 ile 1 arasında seçilen bir parametredir. 1 seçilirse elde edilen ağırlık değişim miktarı olduğu gibi uygulanır. Bu durumda sistem hızlı ancak kararsız öğrenme gerçekleştirir. Çok küçük seçilmesi de öğrenme süresini uzatır ancak kararlı öğrenme gerçekleşir veri setindeki gürültü ve hatalara karşı daha dirençli olur. Genel olarak 0.1 ile 0.4 arası seçmek uygun olur. 8

Bias Girişi McCulloch-Pitts modelinde bahsedilen ve nörona ait bir eşik değeri vardı. Bu eşik değer nöronun tetiklenmek için ihtiyaç duyduğu bir değerdir. Bu değer değiştirilebilir olmalıdır. Eğer tüm girişler sıfır olursa bu durumda nöronun tetiklenip tetiklenmeyeceğine karar veren eşik değer olacaktır. 9

Bias Girişi Bu sebeple McCulloch-Pitts modeline değeri sabit +1 olan bir bias girişi eklenir. Bu bias değeri normal bir giriş gibi düşünülür ve x0= +1 olur ve W0j = bias olur. 10

Perceptron Öğrenme Algoritması Başlangıç değeri verme Ağırlıkları rasgele olarak ata Eğitim T iterasyon boyunca veya tüm örnekler doğru sınıflandırılıncaya kadar yap Her bir giriş vektörü için yap Her j nöronu için toplam sinyali bul ve çıkışını hesapla n v j = w ij x i i=1 Her bir ağırlığı güncelle y j = 1, eğer v j > θ 0, eğer v j θ w ij (n + 1) = w ij (n) + η d j y j. x i 11

Doğrusal Ayrılabilirlik (Linear Separability) Bir perceptron, perceptron öğrenme algoritmasının ağırlıklar ve bias parametresini ayarlaması suretiyle bir doğru elde eder. Perceptron bu doğrunun bir tarafında tetiklenirken diğer tarafında tetiklenmez. Bu doğruya karar sınırı (decision boundry) denir. Bu karar sınırı 2B uzayda doğru, 3B uzayda düzlem ve daha yüksek boyutlar ise hiper düzlemdir. 12

Doğrusal Ayrılabilirlik (Linear Separability) Perceptron, W T. X 0 ise tetiklenir. Burada iki vektörün çarpımı vardır. a. b = a. b. cos(θ) olarak yazılır. Buna iki vektörün inner product ya da skalar çarpımı denir. Burada θ, a ve b vektörleri arasındaki açı ve a ise a vektörünün büyüklüğüdür. Diyelim ki W T. X1 = 0 ise X1, karar sınırında yer alıyor demektir. Diyelim ki aynı şartı sağlayan başka bir X2 olsun. Bu durumda; W T. X1 = W T. X2 X1 X2 W T = 0 13

Doğrusal Ayrılabilirlik (Linear Separability) Buradan iki vektörün skalar çarpımının sıfır olması için ya a veya b veya cos(θ) sıfır olması gerektiği anlaşılır. a ve b vektörlerinin sıfır olması için bir sebep olmadığına göre, cos θ = 0 olmalıdır. Buradan da θ açısı П/2 veya - П/2 olmalıdır. Böylece X1-X2 karar sınırı üzerinde yer alan bir doğrudur ve W T ise karar sınırına diktir. 14

Doğrusal Ayrılabilirlik (Linear Separability) Rasgele ağırlık değerleri ile başladığınızda bu rasgele değerler size herhangi bir doğru çizebilir. Böylelikle bu öğreneme algoritması bu iki parametreyi değiştirmek suretiyle doğruyu ayarlıyor ve istenen sınıf ayrımını yapabilir hale geliyor. 15

Doğrusal Ayrılabilirlik (Linear Separability) Perceptron her iterasyonda bir noktayı doğru sınıfa dahil eder. Diğer noktaları önemsemez. Yapmamız gereken her iterasyonda yanlış sınıflandırılan her hangi bir noktayı seçip iterasyonlara devam etmektir. Tüm noktalar doğru sınıflandırılıncaya kadar algoritma devam ettirilir. Eğer üzerinde çalıştığımız veri seti doğrusal olarak ayrılabilir ise öyle bir duruma varılacak ki tüm noktalar doğru olarak sınıflandırılacak. Perceptron öğrenme algoritması doğrusal olarak ayrılabilen veriler üzerinde sınıflandırmayı garanti eder. 16

Doğrusal Ayrılabilirlik (Linear Separability) Perceptron öğrenme algoritması her seferinde tek bir noktayı değerlendirdiği için sadece bir iterasyon sonra çok kötü bir duruma geçerken bir sonraki iterasyonda çok iyi bir duruma geçebilir. Veri seti tamamiyle doğrusal ayrılabilir değilse perceptron öğrenme algoritması hiç bir şekilde yakınsamayı gerçekleştiremez. 17

Doğrusal Ayrılabilirlik (Linear Separability) Bu durumda ne yaparız? Belli bir iterasyonda diyelim ki 1000. iterasyonda algoritmayı durdururuz. 1000. iterasyonda artık ağırlık vektörü olarak ne elde etmişsek ona razı geliriz. 1000. iterasyonda elde ettiğimiz hipotezi perceptron öğrenme algoritmasının final hipotezi olarak belirleriz 18

Doğrusal Ayrılabilirlik (Linear Separability) Eğer birden fazla perceptron varsa ne olur? Bu durumda her biri uzayın farklı bir kısmını bölen doğrular tanımlar. Örneğin 4 perceptron bir araya getirildiğinde 4 sınıfı bir birinden ayırabilen karar sınırları bulunabilir. 19

AND ve OR Problemleri Sinir ağının yapı taşı perceptronlardır ve biz bu perceptronları sinir ağlarında bir araya getiririz. Bir perceptron ile doğrusal ayrılabilir problemler çözülebilir. Çünkü perceptronda elde ettiğimiz hipotez bir doğrudur. Örneğin AND ve OR problemleri doğrusal özellik gösterir ve bu problemler perceptron ile çözülebilir. 20

AND Problemi AND fonksiyonunu gerçekleştirecek ağa batığınızda -1.5 bias değeri ile bir direnç oluşturulmuş ve sadece iki girişinde +1 olduğu durumda +1 elde ediyorum. Diğer durumlarda ise 0 elde ediyorum. 21

OR Problemi 22

XOR Problemi Şimdi perceptronları bir araya getirdiğimiz farklı kombinasyonlar ile tek bir perceptron ile yapamadığımız bazı şeylere bakalım. Mesela diyagonal +1 ve -1 noktalarının olduğu durum. Yani XOR problemi. Bu duruma tek bir perceptron ile çözüm üretemiyorsunuz. Bu durum Minsky ve Papert tarafından (1961) yazılan "Perceptron" isimli kitapta da belirtilmiş ve araştırmacıların sinir ağlarına olan ilgili azalmıştır. Neticesinde sinir ağları araştırmalarının 20 yıl gecikmesine sebep olmuştur. 23

XOR Problemi Bu fonksiyonda X1=0 ve X2=0 iken çıkış 0, X1=0 X2=1 iken çıkış 1, X1=1 ve X2=0 iken çıkış 1, X1=1 ve X2=1 iken çıkış 0 olur. Bu durumda bu örüntüleri bir doğru ile iki sınıfa ayırabilir miyiz. Hayır. Böyle bir doğru çizemeyiz. Bu durumda deriz ki XOR problemi doğrusal olarak ayrılabilen bir problem değildir ve iki girişli bir perceptron ile bu problemi çözemeyiz. 24

XOR Problemi XOR probleminin doğrusal fonksiyonlar kullanan perceptronlar ile çözülmesinin imkansız olduğunu söyleyemeyiz. Eğer problemi boyut artırmak suretiyle 3 boyutlu hale getirirsek iki sınıfı ayıran bir düzlem bulunabilir. Örneğin (x,y) düzleminden bakıldığında veriyi değiştirmeyen ancak sadece (0,0) noktasını 3. boyut ekseni boyunca ilerleten bir 3. giriş eklenebilir. 25

Doğrusal Ayrılabilirlik (Linear Separability) Aslında doğrusal fonksiyon ile iki sınıfı ayırmak her zaman mümkündür. Bunu problemin boyutunu artırarak gerçekleştiririz. Örneğin Karar Destek Makineleri (SVM) bu mantıkla çalışan kernel tabanlı sınıflandırıcıdır. Eğer doğrusal perceptron ile doğrusal olmayan problemler çözmek isterseniz doğrusal olmayan değişkenler üretebilirsiniz. Örneğin şekilde aynı veri setinin iki versiyonu görülüyor. Üstteki veri setinde koordinatlar x1 ve x2 iken alttakinde x1,x2 ve x1*x2 dir. Böylece 3. boyuta çıkılır ve veri doğrusal fonksiyon ile ayrılabilir hale gelir. 26

Örnek Problem-1 P1 = (1,2) d1= 1 P2 = (-1,2) d2= 0 P3 = (0,-1) d3= 0 2 boyutlu düzlemde verilen 3 örüntüye ait veri noktaları perceptron algoritması ile sınıflandırılmak isteniyor. Öyle bir W* ağırlık vektörü elde edin ki tüm örüntüler perceptron tarafından doğru sınıflandırılsın. Başlangıç ağırlık vektörü W(0) = (-1, 0.8) 27

Örnek Problem-1 28

Doğrusal Regresyon "Regresyon" kelimesi basitçe "gerçek değerli çıkış" anlamına gelir. Acaba şu değişkenler şu değişkenlerle ilişkili midir dediğiniz her durumda akla gelen ilk şey doğrusal regresyondur. Doğrusal regresyonun temelinde bir özellik vektörüne ait giriş değişkeninin ağırlık kazanmasıyla bir hedef değişkeni belirli bir hata ile ürettiği varsayılır. 29

Doğrusal Regresyon Bu varsayım aşağıdaki eşitlik ile temsil edilir: W ağırlıkları, X verinin özellik vektörünü, E hatayı ve Y değişkeni de hedef değişkeni temsil etmektedir. Yukarıda verilen 2 boyutlu uzayda bir doğru denklemidir ve burada W1 doğrunun eğimini, W0 ise y eksenini kestiği noktayı belirtir. 30

Doğrusal Regresyon Doğrusal regresyon, bir doğrunun bize verilen bir veriye uydurulması işlemidir. Doğruyu veriye uydurmak için önce hatamızı ölçmeli ve bu hatayı minimize etmeliyiz. Her veri örneği aslında bir doğru denklemine E hatası oranında uzaktır. Bu hata değerleri çok küçük olduğu varsayımı ile çözüm sırasında ihmal edilirler. X ve Y vektörlerini içeren veri kümesi kullanılarak en az hatayı verecek optimal W ağırlık vektörünün tespiti regresyon analizinin temel amacını oluşturur. 31

Doğrusal Regresyon Bu modeli iki nöron ile basitçe oluşturabiliriz. Bu durumda y2 = w21 X + w20 olacaktır. Böylece basit bir yapay sinir ağı modellenmiş olur. Burada y2 ağın çıkışıdır ve doğrusal olarak modellenmiştir. Burada bias görevi gören w20 ağırlığı doğru denklemindeki kesme, w21 ağırlığı ise eğim yerine geçer. 32

Çoklu Doğrusal Regresyon Doğrusal regresyonun M boyutlu bir veri kümesine uygulanabilen şeklidir. Tüm giriş değişkenlerinin ağırlıklı toplamının hedef değişkeni belirli bir hata ile ürettiği varsayılır. Wj ağırlıkları, Xj verinin özellik vektörlerini, E hatayı ve Y değişkeni de hedef değişkeni temsil etmektedir. 2 değişkenli problemde bias ile beraber 3 boyutlu uzaya çıkılmış olunur ve elde edilen doğru değil düzlemdir, 3 boyuttan fazlasında ise hiperdüzlem elde edilir. 33

Çoklu Doğrusal Regresyon Örneğin 2 değişkenli doğrusal regresyon yapabilecek modeli 3 nöronla basitçe oluşturabiliriz. Bu durumda hücrenin çıkışı y3= w31 x1 + w32 x2 + w30 olacaktır. Bu durumda y3 çıkışı x1 ve x2 olmak üzere iki girişe bağlıdır. Bu durumda W31 ve W32 olmak üzere iki tane eğim vardır. 34

Çoklu Doğrusal Regresyon Veri örnekleri M+1 boyutlu bir hiper-düzlem denklemine, ihmal edilebilecek kadar küçük E hatası oranında uzaktır., Amaç, doğrusal regresyondaki gibi W ağırlık vektörünün tespit edilmesine dayanır. Hem basit doğrusal hem de çoklu doğrusal regresyonun en temel çözümü en küçük kareler yöntemine (least squares) dayanır. 35

En Küçük Kareler Yöntemi (Least Squares) En küçük kareler yöntemiyle çözülebilen bu denklemlerin matematiksel çözümü aşağıdaki gibi ifade edilebilir. N değeri verideki toplam örnek sayısını, i indisi her bir örneğin verideki sırasını ve j indisi de verinin boyutlarını temsil eder. 36

En Küçük Kareler Yöntemi (Least Squares) En küçük kareler yönteminin temel prensibi aşağıdaki gibi ifade edilen hata kareleri ortalamasının (MSE) minimize edilmesidir. Bu esitlikle ifade edilen ei hataları olabilecek en küçük değerlere sahiptir ve doğrusal bir çözüm ile tahmin edilemez kabul edilirler. 37

En Küçük Kareler Yöntemi (Least Squares) Diyelim ki elimizde insanlara ait boy-kilo verisi olsun. 1 2 3 4 5 6 7 8 Boy (inch) 65 65 62 67 69 65 61 67 Kilo (pound) 105 125 110 120 140 135 95 130 Verilerin iki boyutlu düzlemde gösterimi şu şekilde olsun. 38

En Küçük Kareler Yöntemi (Least Squares) Amacımız öyle bir doğru elde etmek ki bu veri setinde yer alan noktalara en iyi uyumu sağlasın. Doğrusal regresyon sonucu uydurulan doğruda bir takım hatalar olabilir. Hata, veri noktaları ile bu noktaların dikey düzlemde doğruyu kestiği noktalar arasındaki mesafelerdir. Her bir doğru için elde edilen hataların kareleri toplanarak toplam hata bulunur. Kare alınmasının amacı negatif çıkabilecek olan hataları pozitife çevirmektir. Burada amaç hatayı en küçük verecek doğrusal modeli bulmaktır. 39

En Küçük Kareler Yöntemi (Least Squares) 40

En Küçük Kareler Yöntemi (Least Squares) Doğrusal modeli uygulamak için doğru denkleminden faydalanacağız. y = w0 + w1x 41

En Küçük Kareler Yöntemi (Least Squares-Matris Formu) 42

Eşikleme ve Yarışmalı Sınıflandırma Tahmin ve kestirim yöntemlerinin başarıları MSE ölçütü yardımıyla karşılaştırılır. Regresyon gibi tahminlemede kullanılan bir çözümleyicinin sınıflandırma yapabilmesi için ise hesaplanan sonuçlar üzerinde bir eşikleme yapılmalıdır. İki sınıflı sistemlerde etiketler için 0 ve 1 değerleri seçilirse eşik değeri de 0.5 olmalıdır. Çok sınıflı sistemlerde ise yarışma usulü sonuç tayin edilir. 43

Sınıflandırma Örneği Kümeleme ve sınıflandırma için sık kullanılan İRİS veri kümesinden bir kesit alınmıştır. Veri, giriş için 4 özellik vektörüne sahip X değişkenini, hedef içinse 3 sınıf değeri taşıyan Y değişkenini bulundurur. Sınıflandırma yapılacağı için Y değişkeni üç ayrı lojik değişkene dönüşmelidir. 44

Sınıflandırma Örneği Sınıflandırma sistemlerinin en kolay öğrendiği hedefler 0 ve 1 olmak üzere ikili sınıf bilgileridir. Tahmin sistemi gerçel sayılar üretir. Bu yüzden tek çıkışlı sistemde 0.5 eşikleme kullanılarak yuvarlama yapılır Çok çıkışlı sistemlerde ise değişkenlerden hangisi büyükse o kazandı denilir. 45

Sınıflandırma Örneği Çoklu doğrusal regresyon çözümü ile aşağıdaki 3 denklem bulunur; Bulunan ortalama karesel hatalar; 46

Sınıflandırma Örneği Burada Ȳ değişkenleri regresyon denklemleriyle hesaplanan değerleri gösterir. İlk iki örnekte en büyük değer Ȳ1, sonraki iki örnekte Ȳ2 ve son iki örnekte Ȳ3 değişkeni kazanan sınıfı temsil eder. Y değişkenleri sırasıyla A, B ve C sınıflarını temsil eder. Buna göre 6 örneğin tümü de doğru sınıflandırılmıştır. 47

Doğrusal Olmayan Regresyon Doğrusal olmayan regresyon modelleri de aynı doğrusal modeller gibi basit bir denklemle gösterilebilirler. Doğrusal olmayan regresyon modellerinde bu denklemdeki parametre sayısı verideki değişken sayısıyla doğrudan ilişkili olmayabilir. Doğrusal olmayan regresyon modellerinin parametre tahminleri için önerilen birçok yöntem vardır. Bunlardan en çok bilinenleri en küçük kareler, en çok olabilirlik (maximum likelihood) ve gauss- Newton yöntemleridir. 48