Destekçi Vektör Makineleri Destekçi Vektör Makineleri(Support Vector Machines) Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için önerilmiş bir makine öğrenmesi yöntemidir. Sınıflama, regresyon ve aykırı değer belirleme için kullanılabilen eğiticili (supervised) öğrenme yöntemidir. Eğitim verisinde öğrenme yaparak yeni veri üzerinde doğru tahmin yapmaya ve genelleştirmeye çalışan makine öğrenmesidir. İstatistiksel öğrenme teorisine ve yapısal risk minimizasyonuna dayanmaktadır. Sınıflama Sınıflama, benzer özellikteki nesnelerin önceden belirlenmiş alt gruplara atanması işlemidir. İki esas amaç vardır: 1.Veriyi sadeleştirmek 2.Kestirim yapmak Veri Madenciliğinde Kullanılan Sınıflandırma Yöntemleri 1. 2. 3. 4. Karar Ağaçları Navie Bayes K-en yakın komşuluğu Yapay Sinir Ağları 5. Genetik Algoritmalar
6. Random Forest 7. Destek Vektör Makineleri Tarihçe 1. 2. 3. 4. 5. 6. 7. 8. Doğrusal Diskriminant Yöntemi Fisher,1936 Perceptron-F.Rosenblatt,1957 Genelleştirilmiş Düşey Algoritmaları(Generalized Portrait Algorthm)- Vapnik ve Lerner,1963 İstatiksel Öğrenme-Vapnik ve Chervonenkis,1974 Estimation of Depences Based of Emprical Data- Vapnik,1982 VC Teorisi- Vapnik,1982 Kernel Trick-Busor,Guyon ve Vapnik,1992 Soft marjin yaklaşımı Cortes, 1995 Destekçi Vektör Makineleri DVM ler nonparametrik sınıflayıcılardır.dağılım hakkında herhangi bir ön bilgi varsayımı yoktur.eğitim setlerinde girdi ve çıktılar eşlenir.eşler aracılığıyla, test setinde ve yeni veri setlerinde girdi değişkenini sınıflayacak karar fonksiyonları elde edilir.girdi verisi (input data)doğrusal olarak ayrılabildiğinde; verileri ayırabilecek sonsuz sayıdaki doğru içerisinden marjini en yüksek yapacak olan doğruyu seçmeyi hedeflemektedir.doğrusal olarak ayrılamadığında; iorijinal çalışma verisini yüksek boyuta dönüştürmek için doğrusal olmayan haritalama (mapping) kullanmaktadır. Verinin taşındığı yeni boyutta marjini en büyük (optimal) ayırıcı düzlemi araştırmaktadır. Avantajları 1. Yüksek doğruluk
2. Karmaşık karar sınırları modelleyebilme 3. Çok sayıda bağımsız değişkenle çalışabilme 4. Hem doğrusal olarak ayrılan hem doğrusal olarak ayrılamayan verilere uygulanabilme 5. Diğer birçok yönteme kıyasla overfitting sorunun az olması Dezavantajları 1. 2. Olasılıksal tahminler üretememe / Nokta tahmini (Var- Yok, A sınıfı-b Sınıfı vb.) Çekirdek fonksiyonlar için Mercer Koşulu zorunluluğu / Çekirdek fonksiyonları pozitif tanımlı sürekli simetrik fonksiyonlar olmalı) Kullanım Alanları Nesne tanıma.. (Yüz tanıma, parmak izi tanıma.. vb) El yazısı tanıma. Zaman serisi tahmin testleri. Biyoinformatik (Microarray verilerin analizi) İstatistiksel Öğrenme Teorisi Vapnik-Chervonenkis Teorisi Amaç: Dağılımdan bağımsız yöntemler ile tahminler üzerinde test hatası için sınırlar üretmektir.klasik istatistik, doğru modelin formunun bilindiğini varsayıp, amacı modelin parametrelerini belirlemek olarak görürken; istatistiksel öğrenme teorisi modelin formunun bilinmediğini kabul etmekte ve doğru olabilecek modeller arasından en iyi modelin bulunmasını hedeflemektedir
VC Teorisi (Vapnik-Chervonenkis) VC teorisi ile öğrenebilirliğin yeterli şartlarının yanında gerekli şartlarını da ortaya koymuşlardır. Gerekli şartlar kapasite kavramına dayanmaktadır. VC teorisinin bilinen en iyi kapasite ölçüsü VC boyutudur.öğrenme makinesinin kapasitesi, makinenin genelleme kabiliyeti üzerinde etkilidir. Vapnik- Chervonenkis (VC) BoyutuVC boyutu fonksiyonlar sınıfının {f(α)} (ya da kümesinin) sahip olduğu bir özelliktir.bu kümenin kapasitesi hakkında somut bir fikir vermektedir. VC boyutunu hesaplamak için parçalama (shattering) kullanılmaktadır VC Boyut Örneği Şekil 1. Hyperplane yüzey şekilleri Yapısal Risk Minimizasyonu (YRM) Genelleme hatası için bir açıklamadır Genelleme hatası; deneysel hata, denemedeki örnek sayısı ve kapasiteden etkilenmektedir
YRM, gerçek risk için üst sınırı minimize edecek fonksiyonu araştırmaktadır Gerçek risk için üretilen üst sınır (VC boyutu) monoton artan bir fonksiyonu olduğu için çözümü yapı adı verilen alt kümeler aracılığıyla bulunmaya çalışılır. Her alt küme için deneysel risk minimize edilerek deneysel risk ve güvenirliğin toplamı minimize edilmiş olur. Doğrusal olarak Doğrusal ayrılması Olmayan DVM imkansız veriler Amaç doğruyu nereye çizeceğimiz ve marjinin en yüksek değerine nerede ulaşabileceğimizdir. Şekil 2. Doğrusal Ayırma Verilerin Doğrusal Olarak Ayrılabildiği Durum ( Hard Margin) Maksimum Marjin(Mesafe) Formülü w: çoklu düzlemin normali (ağırlık vektörü) xi: i veri noktası yi: i veri noktasının sınıfı (+1 veya -1)
b : bias Sınıflandırıcı: f(xi) = sign(wt xi + b) xi nin fonksiyonel marjini yi(wt xi + b) Fakat biz w, b değerlerini ölçekleyerek marjini artırabiliriz. Veri kümesinin Fonksiyonel marjini, herhangi bir noktadaki minimum fonksiyonel marjinin iki katıdır. Buradaki 2, marjinin tam genişliğinin ölçüsünden gelmektedir. Hard Margin Eğitim seti; {xi,yi} i=1,2,,l Sınıf etiketleri ; yi Є {-1, +1} Ayırıcı düzlem: <w.x> +b= 0 w ; çoklu düzlemin normali (ağırlık vektörü ) b : bias x; <w.x>+b= 0 çoklu düzlemi üzerinde herhangi bir nokta Kesikli çizgilerle gösterilen ve ayırıcı çoklu düzleme paralel olarak çizilmiş eşit uzaklıkta iki çoklu düzlem (doğru) arasındaki uzaklığa marjin adı verilmektedir. <w,x1>+b=+1, yi= +1 için <w,x2>+b=-1, yi= -1 için Destek vektörlerinin, ayırıcı çoklu düzleme olan uzaklığı 1/ w Dolayısıyla marjin: 2/ w w :w nin öklid formu
Verilerin doğrusal olarak ayrılamadığı durum ( Soft Margin) Genel olarak, pratikte veriler tamamen doğrusal olarak ayrılamamaktadır. Şekilde tek bir noktadan dolayı B 1 düzlemi tüm noktaları ayıramamaktayken, B 2 tamamını ayırmaktadır, ancak daha küçük marjine sahiptir. Soft marjn yaklaşımı bu tip problemler için, deneme hatalarını tolere edebilecek bir yaklaşımdır. Verilerin doğrusal olarak ayrılamadığı durum ( Soft Margin) Negatif olmayan slack değişken adı ile bir değişken tanımlanmıştır. Sert marjinde elde edilen kısıtlara slack değişken eklenir. Miniizasyona aynen devam edilir. Kullanıcı tarafından belirlenen hata maliyeti (C) eklenir. Hata maliyeti (marjin maksimizasyonu ile deneme hatası minimizasyonu arasındaki ödünleşimi belirler) Yüksek C değeri=yüksek hata beklentisi Doğrusal olmayan Destek Vektör Makineleri Doğrusal DVM den farkı x yerine Φ(x) kullanılmasıdır. Buradaki sorunlar: 1- Dönüştürülmüş uzayda oluşturulacak doğrusal karar sınırı ile ilgili nasıl bir haritalama fonksiyonu kullanılacağı açık değildir. 2-Uygulanan haritalama fonksiyonu biliniyorsa, kurulan optimizasyon probleminin yüksek boyutlu olay uzayında çözümü
karmaşık ve zor hesaplamalar gerektirir. Doğrusal Olmayan DVM Denklemler dönüştürülmüş uzayda iki vektörün iç çarpımı biçimindedir. Boyut sorunundan dolayı hesaplanması zordur. Bu sorunu önlemek amacıyla çekirdek düzenlemesi önerilmiştir. Çekirdek Düzenlemesi : Çekirdek düzenlemesi yapılarak dönüştürülmüş uzaydaki Φ(x) vektörü yerine girdi uzayındaki verilerden oluşturulan bir çekirdek fonksiyonu ile işlemler yapılır. orijinal veriyi kullanarak dönüştürülmüş uzayda bir benzerlik hesaplaması yapar. Lineer Olarak Ayrılmayan Durumlar İçin Veri kümeleri lineer olarak ayrılabilir. Fakat veri kümeleri çok keskin(hard) ise ne yapacağız? Daha yüksek boyutlu uzayda veriyi haritalayabiliriz (ifade edebiliriz). Lineer Olarak Ayrılamayan Durum İçin Veriler doğrusal olarak ayrılamadığında, veriyi doğrusal olmayan haritalama (Φ) yaparak orijinal girdi uzayından, daha yüksek boyuttaki bir uzaya aktarır. Bu yeni boyutta veriyi en iyi ayıracak çoklu düzlemi araştırır. Çekirdek Fonksiyonları (Kernels) Niçin çekirdek fonksiyonu kullanalım? Ayrılamaz problemleri ayrılabilir yapabilme. Veriyi daha iyi gösterim uzayında haritalama için
Genel Çekirdek Fonksiyonları Lineer Polinomsal Gaussian Radyal tabanlı Sigmoid Çekirdek Fonksiyon Çalışmada sıklıkla kullanılan üç çekirdek fonksiyon karşılaştırılmıştır: 1- Doğrusal fonksiyon: 2- Polinomiyal fonksiyon: 3- Sigmoid fonksiyon: 4- Radyal tabanlı fonksiyon: Doğrusal olmayan Destek Vektör Makineleri Avantajları Direk girdi uzayındaki veriler kullanılacağı için Φ haritalama fonksiyonun kesin olarak ne olduğunun bilmeye gerek duyulmaması. Çekirdek fonksiyon kullanarak iç çarpım hesaplamanın, dönüştürülmüş nitelik seti Φ(x) kullanarak hesaplamaya kıyasla daha kolay ve maliyetinin düşük olması Dönüştürülmüş uzayda iki vektörün iç çarpımı: Orijinal veriden hesaplanan bu benzerlik fonksiyonu ile gösterilen çekirdek fonksiyonudur. Kaynakça Açık Kaynak WEKA Data Mining Yazılımı http://www.cs.waikato.ac.nz/ml/weka/ https://www.youtube.com/watch?v=3licbrzprza
http://www.csie.ntu.edu.tw/~cjlin/libsvm/ https://www.ce.yildiz.edu.tr/personal/banud/file/2634/ma kine+ogrenmesi-ml-10.pdf http://ninova.itu.edu.tr/tr/dersler/bilisim-enstitusu/19 5/bbl-606/ekkaynaklar?g9769 http://aves.cu.edu.tr/imageofbyte.aspx?resim=8&ssno=13&u SER=1950