TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MAKİNA MÜHENDİSLİĞİ ANABİLİM DALI DOKTORA PROGRAMI ŞEKİL TANIMA ÖDEV 2 KONU : DESTEK VEKTÖR MAKİNELERİ Kenan KILIÇASLAN Okul No:1098107203
1. DESTEK VEKTÖR MAKİNELER İÇİN GEREKLİ ÖN BİLGİLER 1.1. Vektör İşlemleri 1.1.1. Vektörlerin Skaler Çarpımı n boyutlu =A(,,, vektörü ile =B(,,, vektörünü scaler olarak çarpmak için aşağıdaki formül kullanılır... (1.1) A vektörünün transpozesi (1.1) Denkleminin sonucu (1.2).... (1.3) 1.1.2. Vektörlerin Uzunluğu ya da Normu Vektörlerin uzunluğu aşağıdaki şekilde bulunur.,,, vektörünün uzunluğu ile gösterilir ve aşağıdaki gibi gösterilir. (1.4) 1.2. Lagrange Fonksiyonu Lagrange fonksiyonları Destek Vektör Makinelerinde ve iyi kararı vermek için kullanılır. Şekil 1.1, hem serbest (kısıtsız) durumda oluşan maksimum ile kısıtlama konulması durumunda oluşan maksimumu göstermektedir. Kısıtlamalı maksimum, hiçbir zaman serbest maksimumdan büyük değer alamaz. Karar verme ile ilgili aşağıdaki örneği verelim. Örnek: Fayda fonksiyonu ve bütçe kısıt fonksiyonu aşağıdaki gibi olsun. 2 4 2 60 Fayda fonksiyonu Bütçe kısıt fonksiyonu 1
Bütçe kısıt fonksiyonundan yi çekelim ve fayda fonksiyonuna koyalım. 4 2 60 302 30 2 2 Maksimum değeri bulmak için fayda fonksiyonun türevini sıfıra eşitleyip çözeceğiz. 324 0 den 8; 14 Şekil 1 1 Serbest ve kısıtlı uçdeğer Kısıt fonksiyonu daha karmaşık olursa veya birden fazla kısıt olursa yukarıdaki metodu uygulamak zorlaşmaktadır. Analitik olarak lagrange çarpanı yöntemi ile problemi çözmek gerekir. Lagrange çarpanının özü, kısıtlamalı bir uçdeğer problemini, serbest uçdeğer probleminin birinci sıra koşulunun uygulanabileceği bir biçime dönüştürmektir. Yukarıdaki fayda maksimizasyonu problemine Lagrange çarpanı yöntemiyle yaklaşalım. Lagrange fonksiyonu şöyle oluşacaktır: 2 4 2 60 değeri önceden bilinmeyen bir parametredir ve Lagrange çarpanı olarak ifade edilmektedir. Kısıtı tamamen yerine getirirsek, λ ortadan kalkar ve Z ile F eşitlenir. Böylece U nun kısıtlamalı maksimizasyonu yerine, Z nin serbest maksimizasyonunu çözer duruma geliriz. Buna göre, parantez içindeki ifadenin yok olmasını nasıl sağlarız? Bunun yolu, Lagrange fonksiyonunda λ yı ek bir değişken gibi dikkate almaktır. Yani,,,.Bu durumda birinci sıra koşullar şöyle yazılır: 2
240 20 604 2 0 8, 14 4, 128 Bunu genelleştirelim Amaç fonksiyon, Kısıt fonksiyonu ise Lagrange fonksiyonu En iyi karar için gerekli koşullar zfx,x,,x (1.5) gx,x,,x c (1.6) Zfx,x,,x λcgx,x,,x (1.7) 0, 0,., 0, 0 (1.8) 1.6 denklemi ile birlikte hx,x,,x d ikinci bir kısıt fonksiyonu daha olursa benzer şekilde Lagrange fonksiyonu aşağıdaki gibi olur. Zfx,x,,x λcgx,x,,x μdhx,x,,x (1.9) Gerekli koşullar, Z x 0,i1,2,,n 3
Z λ 0 Z μ 0 4
2. LİNEER SINIFLANDIRMA 2.1. Lineer Diskriminant Fonksiyonları ve Karar Hiperdüzlemleri İki sınıf halinde ve göz önünde bulundurulan lineer diskriminant fonksiyonlarına bir kez daha odaklanalım. l boyutlu hiperyüzey özellik boşluğu ile ilgili karar hiperdüzlemdir. gx w x w 0 (2.1) Burada,,,, bilinen ağırlık vektörü, başlangıç değer., karar hiperdüzleminde iki nokta ise aşağıdaki geçerlidir. 0 0 (2.2) Şekil 2 1 Karar çizgisi için geometri. Çizginin bir tarafı g(x)>0 (+), g(x)<0 ( ) fark vektörü açıkça belli ki, karar hiperdüzlemi üzerindedir (herhangi bir, için). Şekil 2.1 de görüldüğü gibi w vektörü karar hiperdüzlemine diktir. Şekil 2.1 de gösterilen geometri 0, 0 ve 0 içindir. Matematikten anımsarsak, 5
(2.3) ve (2.4) Burada, karar hiperdüzleminin noktasının Öklid mesafesinin ölçümüdür. Düzlemin bir tarafında pozitif bir değer, diğer tarafında negatif bir değer vardır. Özel durumlarda düzlemin merkezidir. 2.2. Destek Vektör Makineleri (DVM) Biz, iki sınıf doğrusal ayrılabilir görev ve daha sonra ayrılamaz verilerin genel durumları için metotlara varacağız., 1,2,, eğitim setinin özellik vektörüdür. Bunlar, sınıflarına ait ve doğrusal ayrılabilir olduğu varsayılır. Bir kez daha bir hiperdüzlem tasarlanmalıdır. gx w x w 0 (2.5) bu düzgün tüm eğitim vektörlerini sınıflandırır. Şekil 2.2 de iki geçerli hiperdüzlem sonucu için sınıflandırma görülmektedir. Hiperdüzlem için eğitim seti ayarlayın. Ancak bu iki mantıklı pratik uygulama sınıflandırmasında uygulama dışında bir eğitim seti olarak seçsin mi? Şüphesiz cevap: bir tam satır. Nedeni bu hiperdüzlem bölge iki tarafında, her iki sınıf için daha az hata riski vardır. Dolayısıyla, bilinmeyen verilerle karşılaşıldığında böyle bir hiperdüzlem daha güvenilir olabilir. Burada, sınıflandırma dizaynı aşamasında çok önemli bir konuya değinilmiştir. Bu sınıflandırmanın genellemesi bilinmektedir. Bu sınıflandırma yeteneği anlamına gelir, eğitim veri kümesi kullanılarak tasarlanmış, tatmin edici bu set dışında veri ile çalışmak üzere bir bu konu üzerine tekrar geleceğiz. Yukarıdaki kısa tartışmalar sonrasında, kabul için bu hiperdüzlem sınıflandırıcısı için çok mantıklı seçim her iki sınıf arası marjı maksimum olanıdır. Şimdi her iki sınıftan ayıran hiperdüzlem sınırını sayıya dökelim. Her hiperdüzlem yön ( tarafından) ve uzayda onun gerçek konumu ( ) ifade eder. Sınıfın herhangi birini tercih etmek istiyoruz. ve deki ilgili karalardan, hangi aralığa sahip seçilen hiperdüzlemin 6
her bir doğrultusu için mantıklıdır. Bu şekil 2.3 dedir. Koyu renk ile gösterilen Şekil 2 2 Doğrusal ayrılabilir iki sınıf problemi örneği hiperdüzlemler ilgili yönde sonsuz kümesinden seçilmiştir. Yön1 de sınır 2 ve yön2 de sınır 2 dir. Amacımız maksimum sınır aralığını aramaktır. Bununla birlikte her hiperdüzlem bir ölçülenme faktörü içinde belirlenir. Bölüm 2.1 e tekrar bakarsak noktalar arası uzaklık, dır. Şimdi ölçüsünü bulacağız, in değeri böylece noktalarında, için 1 e eşit, için -1 e eşittir., de kenar Bu eşitlik, 1 1 2 7
Yön 2 Yön 1 Şekil 2 3 Yön1 margini, yön2'den daha geniştir. 1, 1, değerine ihtiyaç duyar. Şimdi matematik devralacak noktaya geldi. Her bir x için y ile (w için 1, w için1) ilgili sınıf işaretçisini göstereceğiz. İşimizi özetlersek : hiperdüzlemin, parametresini hesaplamak. minimize (2.6) burada, 1, 1,2,, (2.7) Açıkça bu form minimize marjı maksimum yapar. Bu lineer eşitlik kısıtlamasının lineer olmayan (ikinci dereceden) optimizasyon görev tanımıdır. Karush-Kuhn-Tucker (KKT) koşulları 2.6 ve 2.7 nin minimizasyonudur.,, 0 (2.8) 8
,, 0 (2.9) 0, 1,2,, (2.10) 1 0, 1,2,, (2.11) burada vektörü lagrange çarpanının vektörüdür.,,, fonksiyonunda tanımlanmıştır. 2.11 ile 2.8 ve 2.9 u birleştirirsek,, 1 (2.12) 0 (2.13) 0 (2.14) KKT koşulları doğrusal olmayan modellemelerin çözümünde optimizasyon yapmak yani mümkün olan alternatifler içindeki en uygun değeri bulmak için kullanılan yöntemdir. Uyarılar - Lagrange çarpanı sıfır yada pozitiftir. Böylece, optimal sonucun w parametre vektörü herhangi bir 0 için özellik vektörünün lineer karışımıdır. (2.15) Bu destek vektörleri ve destek vektör makinesi (DVM), optimum hiperdüzlem sınıflandırıcısı olarak bilinir. Bundan dolayı 0 için 2.11 deki kısıtlamayı düzenlemeyi önermektedir. Destek vektörleri iki hiperdüzlemde herhangi bir konumdadır. 1 (2.16) Yani onlar lineer sınıflandırmaya en yakın vektörlerdir ve eğitim kümesinin kritik unsurlarını oluşturmaktadır. (2.16) iki hiperdüzlem arasındaki bölgeyi tanımlar, özellik vektörü 0 her iki konumun dışında sınır ayırma bandı tekabül eder veya onlar bu hiperdüzlemlerin birine konumlanır. Sonuç hiperdüzlem sınıflandırması sayıya ve özellik vektörü gibi konuma duyarsızdır. Onlar çapraz olmayan sınıf ayırma bandı yapar. - Bununla beraber, w açıkça bellidir. w 0 koşulların herhangi biri tarafından kesin olarak elde edilebilir (tümleyen durgunluk). 9
- 2.6 daki maliyet fonksiyonu kesin dışbükey(konveks)dir. Bu özellik olay tarafından garanti edilmiştir. Bu hessian matrisi pozitif tanımlıdır. Böylece, eşitsizlik lineer fonksiyonlardan oluşan koşullardır. Bir destek vektör makinesinin en uygun hiperdüzlem benzersizdir. Bir destek vektör makinesinin optimum hiperdüzlemi çok ilginç özelliklere sahiptir. Sonraki adım ilişkili parametrelerin hesaplanmasıdır. Gözüken hesaplama noktasından bu daima belirtilen algoritma ve kolay görev değildir. Biz bu yola kayacağız, 2.6 ve 2.7 de verilen optimizasyon görevimizin özel doğasından olan önerilir. Problem konveks programlama ailesine aittir. Maliyet fonksiyonu konvekstir ve kısıtlamaların grubu lineerdir ve kabul edilebilir sonuçlar konveks tanımlanmıştır. Bu gibi durumlar lagrange duality tarafından çözümlenebilir. Maksimize,, (2.17) burada, (2.18) 0 (2.19) 0 (2.20) İki eşitlik kısıtlamalarında (w ve ile gösterilen) lagrange gradyeninde sıfır eşitlik sonucu vardır. Zaten bir şey kazanmıştık. Eğitim özellik vektörleri eşitlik kısıtlamaları değil, eşitsizlik olanlarla sorun gidermek kolay olabilir. (2.18), (2.19) u (2.17) de yerine koyarsak, max, (2.21) 0 (2.22) 0 (2.23) Daha önce olduğu gibi optimum lagrange çarpanı 2.21 maksimizasyonunda hesaplanmıştır. Optimum hiperdüzlem vasıtasıyla ve w tamamlayıcı boşluk koşuluyla elde edilir. 2.3. Ayrılamaz Sınıflar Bu durum için önceki durumlar geçersizdir ve şekil 2.4 de gösterilmektedir. İki sınıf ayrılamaz. Bazı noktalar ayırma bandına girmişlerdir. Paralel hiperdüzlem aşağıdaki gibi tanımlanmıştır. 10
1 Eğitim özellik vektörü üç kategoride incelenir. - Vektörler bu grubun dışında kalan ve doğru olarak sınıflandırılır. Bu vektörler (2.7) deki kısıt ile uyumludur. - Vektörler grup içinde düşen ve doğru olarak sınıflandırılır. Bu şekil 2.4 de kare noktalardır ve eşitsizlik, 0 1 - Vektörlerden yanlış sınıflandırılan vardır. Buda kapalı daire olarak gösterilmiştir. Bu eşitsizlik, 0 Her üç durumu tek bir formülde toplarsak, 1 (2.24) Şekil 2 4 Ayrılamaz durumda noktalar sınıf ayırma bandı içine girmişlerdir. 11
Birinci kategoride 0, ikincisi 0 1 ve üçüncüsü 1 dir. serbest değişken olarak bilinir. Optimize görev daha karmaşık hale gelir, ancak önceki ile aynı mantıktadır. Amaç sonuçta daha geniş ayırma bölgesi yapmak fakat 0 ile daha küçük gerçekleşir. Bunu matematik olarak ifade edelim.,, (2.25), elemanları olan bir vektördür ve 1, 0 (2.27) 0, 0 C hesaplanan iki durum için pozitif sabittir. Bununla birlikte optimizasyon zor olan I(.) fonksiyonunu gerektirir. Bunu aşağıdaki gibi optimize edersek, Minimize,,, (2.28) Burada, 1, 1,2,, (2.29) Bu problemi bir konveks programlama ve lagrangian ile, KKT koşullarından, 0, 1,2,, (2.30),,,, 1 (2.31) 0 veya (2.32) 0 veya 0 (2.33) 0 veya 0, i=1,2,,n (2.33) 1 0 (2.34) 0 (2.35) 0, 0 (2.36) Wolf dual olarak yeniden gösterirsek, Minimize,,,,, 12
Burada, 0 0 0, 0 Lagrangian da yerine koyarsak, max, (2.37) Burada 0 (2.38) 0 (2.39) Not: Bu lagrange çarpanları marj içinde bulunan noktalardır veya sınıf hata tarafındadır( 0 ). Tüm eşitliklerde maksimum kullanılabilir değer C, için KKT durumları de 0 ı gösterir. Bir başka deyişle, bu noktalar w sonuç çözümünde en kabul edilir şekle sahiptir. Örnek 2.1 : Bu aşağıdaki noktaları içeren iki sınıf görevi içersin, : 1,1, 1, 1 : 1,1, 1, 1 DVM yaklaşımı kullanılacak, optimum ayırma hiperdüzlemini göstereceğiz. 0 ve farklı lagrange çarpanları ile elde edilir. Şekil 2.5 de noktalar karenin köşelerine konumlanmıştır. Problemin temel şekli DVM lineer sınıflandırması için izin verir. Gerçekten şekil 2.5 i dikkatli incelemek gerekir. Optimal değer, 0 13
Burada 0 ve 1 ise 0 Bu durum için dolayısıyla, tüm dört nokta destek vektörüdür ve her iki sınıf ayırma çizgisi üzerindedir ve 1 e eşittir. Herhangi bir doğrultu için g(x)=0 dir ve marj daha küçüktür. KKT koşulları ile ilişkilenirse elde edilen aynı sonuçlar o işaret olmalıdır. Şekil 2 5 Dört noktalı destek vektör örneği g(x)=0 daha küçük ve optimal olanı g(x) dir. Bizim problemi matematiksel olarak ifade edersek, lineer eşitsizlik kısıtlamaları, 10 10 10 10 Lagrangian fonksiyonu ile ilişkilendirirsek, 14
KKT Koşullarını girersek,,,, 2 1 1 1 1 0 0 0 1 0 1 0 1 0 1 0,,, 0 Yukarıdaki denklemlerde 1, 0 koyalım. Bu durumda dört bilinmeyen için üç denklem aşağıdadır. 1 0 0 Bu denklemlerden birden fazla çözüm bulunur. Ancak tüm bunlar benzersiz optimum ayırma yolu gösterir. Örnek 2.2 15
Şekil 2.6 da gösterilen öğrenme veri noktaları iki boyutlu uzayda ve iki ayrılmaz sınıfa bölünmüştür. Düz çizgi şekil 2.6a da C=0,2 ye tekabül eden ve Platt s kullanılarak elde edilen çizgidir. Noktalı çizgiler (2.16) daki koşula ve ayrılan iki sınıfın tanımlanan iki aralığında buluşurlar, o noktalar için 0 daki şekil 2.6b, C=1000 için düzenlenmiştir. Büyük C için daha küçük aralık görülmektedir. Çünkü (2.25) de ikinci terimde C vardır. (2.25) yoluyla tasarlanan sınıflandırma yumuşak sınır sınıflandırmasıdır. 2.4. v-dvm Şekil 2.6 İki ayrılamayan sınıf örneği ve DVM lineer sınıflandırma (dolu çizgi) ve sınırlar noktalı çizgidir. (a) C=0,2 ve (b) C=1000 için Örnek 2.2 de gösterilen kapalı ilişki C parametresi dışındadır ve bu optimizasyon prosesinin sonucunda marj genişliği elde edilir. Böylece marj DVM in dizaynında önemli bir varlıktır(tümünden sonra maksimizasyonda DVM in temelidir.). Bir doğal soru ortaya çıkar, o maliyet fonksiyonunda yolu yönlendirir. Kendi parametrede kontrol yerine ayrılır. Bu niçin içermez (C vs.). Biz de transparan olmayan magrin ile güçlü olmasına rağmen kimin ilişkisidir. Yumuşak marj DVM az değiştiği tanıtılmıştı. Hiperdüzlem çifti tarafından margin tanımlanmıştı, (2.40) ve ρ0 optimizasyonda soldaki gibi serbest değişkendir. Yeni düzenleme ile birincil problem (2.28) ve (2.30) aşağıdaki gibi verebilir. 16
Minimize, Jw, w,ξ,ρ w νρc ξ (2.41) Burada, y w xw ρξ, i 1,2,, N (2.42) ξ 0, i1,2,,n (2.43) ρ 0, i 1,2,, N (2.44) ρ nun rolü anlaşılmıştır. Not: ξ 0 için (2.42) deki kısıtlama durumu marjı ayıran iki sınıf ya eşittir. Önceki formülasyon v-dvm olarak bilinir. ξ 0 ile noktaların ortalama sayısı basittir, ρ margin değeri tarafından kontrol edilmektedir. Belirli yönde w için ρ marjı ve noktalarının sayısı yüksek marj içindedir. ν parametresi maliyet fonksiyonunda ikinci terimi etkiler ve bu konumun değeri [0,1] aralığındadır. (2.41) (2.44) formüllerini lagrangian fonksiyonu olarak birleştirirsek, w, w,λ,ξ,μ,δ w νρ ξ μ ξ 2.45 Bölüm 2.3 deki adımları takip edersek,kkt koşullarından sonuç, (2.46) 0 (2.47), 1,2,, (2.48) (2.49) 0 (2.50) μ ξ 0 (2.51) 0 (2.52) μ 0, 0, 0 (2.53) Wolf dual olarak daha basit olarak gösterirsek, Maksimize w, w,λ,ξ,μ,δ (2.54) 17
burada, (2.55) 0 (2.56), 1,2,, (2.57) (2.58) μ 0, 0, 0 (2.59) (2.56) ile (2.58) arasını lagrangian olarak gösterirsek dual problem olarak eşitlik max, (2.60) Burada 0, 1,2,, (2.61) 0 (2.62) (2.63) Bir kez daha, problem lagrange çarpanlar ve serbest değişkenler girilir. 18
KAYNAKLAR [1] THEODORIDIS.S, KOUTROUMBAS.K, Pattern Recognition, Academic Press, 2006 Third edition, [2] http://idari.cu.edu.tr/sanli/matikt2-3.pdf (07-11-2009) Kısıtlamalı optimizasyon [3] http://hook.sirus.com/users/mjake/probdens.html (07-11-2009) Probability Densities [4] TOLUN.S Destek Vektör Makineleri : Banka başarısızlığının Tahmin Üzerine Bir Uygulama, İstanbul Üniversitesi FBE Doktora tezi (2008) 19