Gözetimli Öğrenme Algoritmalarının İstatistiksel Yöntemlerle Karşılaştırılması

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "Gözetimli Öğrenme Algoritmalarının İstatistiksel Yöntemlerle Karşılaştırılması"

Transkript

1 Gözetimli Öğrenme Algritmalarının İstatistiksel Yöntemlerle Karşılaştırılması Prje N: 109E186 Prf Dr Ethem Alpaydın Dç Dr Olcay Taner Yıldız Murat Semerci Mart 2013 İstanbul

2 Önsöz Birden çk gözetimli öğrenme algritmasının birden çk veri kümesi üzerinde karşılaştırılarak belirli bir başarı ölçütüne göre en iyisinin istatistiksel larak anlamlı biçimde bulunması, ya da daha genel bir tanımla iyiden kötüye dğru sıralanması, hem örüntü tanıma, hem veri madenciliği açısından önemli bir knudur Bu prjede farklı başarı ölçütlerini kullanarak, istenen sayıda öğrenme algritmasını istenen sayıda veri kümesi üzerinde karşılaştıran ve sıralayan yeni istatistiksel yöntemler önerdik Bu prje Tübitak tarafından desteklenmiştir I

3 İçindekiler 1 Giriş 1 2 Genel Bilgiler 2 21 Başarım Ölçütleri Hata Dizeyi ve Başarım Ölçütleri Kayıp, Risk ve Karar Sınırı Perfrmans eğrileri ve bu eğrilerin altında kalan alanlar 4 Alıcı işletim özellikleri eğrisi ve altında kalan alan 5 Kesinlik-Anma eğrisi ve altında kalan alan 5 22 MultiTest 6 23 Dağılıma Bağlı Sınamalar İkili Karşılaştırma 6 Tek Değişkenli Durum 6 Çk Değişkenli Durum Değişkenlik Çözümlemesi 8 Tek Değişkenli Durum 8 Çk Değişkenli Durum 9 24 Dağılımdan Bağımsız Sınamalar Dağılımdan Bağımsız Tek Değişkenli Sınamalar 9 İki Örneklemli Sınamalar 9 Çk Örneklemli Sınama Dağılımdan Bağımsız Çk Değişkenli Sınamalar 11 İkili Sınamalar 11 Çk Örneklemli Sınama 11 3 Gereç ve Yöntem Maliyet Duyarlı Sınama İçin Multi 2 Test Yöntemi Farklı Yitimler İçin Sınamalar Menteşe Yitim Tabanlı Sınama ǫ-duyarlı Yitim Tabanlı Sınama Biyinfrmatikte Sınıflandırma Deneylerinin Tasarımı Ve Snuçların Çözümlenmesi İstatistiksel Sınamalar 14 Bir Veri Kümesi Üzerinde İki Algritmayı Karşılaştırma 15 Bir Veri Kümesi Üzerinde L > 2 Algritmayı Karşılaştırma 15 M > 1 Veri Kümesi Üzerinde İki Algritmayı Karşılaştırma 16 M > 1 Veri Kümesi Üzerinde L > 2 Algritmayı Karşılaştırma 16 II

4 34 Ayrımcı Dil Mdelleme İstatistiksel Sınama 16 4 Bulgular Farklı Başarım Ölçütlerinin Karşılaştırılması Multi 2 Test Snuçları Deney Kurulumu Snuçlar Dağılıma Bağlı Sınamalar Deney Kurulumu Snuçlar 22 Tek değişkenli ile çk değişkenli sınamaların karşılaştırılması 22 Çk değişkenli sınamaların karşılaştırılması 23 Birden çk sınıflandırıcının karşılaştırılması karıştırma dizeyi kullanarak karşılaştırma Dağılımdan Bağımsız Sınamalar Sınamaların Sınanması 25 Yapay Veri Kümesi Üzerinde Deneyler 25 Gerçek Veri Kümesi Üzerinde Deneyler Çk Değişkenli ve Tek Değişkenli Sınamaların Karşılaştırılması İkiden Çk Algritmanın Karşılaştırılması Farklı Yitimler İçin Sınamalar Menteşe Yitim Tabanlı Sınama 31 Nrmallik Sınaması 31 Yapay Veri Üzerinde Karşılaştırma 31 Genel Snuçlar 33 Örnek Deney 1 33 Örnek Deney ǫ Duyarlı Yitim Tabanlı Sınama 35 Nrmallik Sınaması 35 Genel Snuçlar 35 Örnek Deney 1 37 Örnek Deney 2 37 L > 2 Bağlanım Algritmasının MultiTest ile Karşılaştırılması Biyinfrmatik Yazınındaki Sınıflandırma Deneylerinin Taranması Ayrımcı Dil Mdellemede Sıralama Ve Sınıflandırma Yaklaşım Snuçları 40 5 Tartışma ve Snuçlar Multi 2 Test Başarı Ölçütleri Çk Değişkenli İstatistiksel Sınamalar Farklı Yitimler İçin Sınamalar Biyinfrmatik ve Knuşma Tanıma Uygulamaları Gelecek Çalışmalar 44 A Türkçe İngilizce Sözlük 48 III

5 Tabl Listesi hata dizeyi kayıp dizeyi 3 31 Farklı karşılaştırma senaryları ve kullanılan sınamalar Multi 2 Test kullanılarak karşılaştırılan algritmaların rtalama sıraları Farklı çekirdek tiplerine göre hata ve menteşe yitim değerlerinin nrmallik sınamasını ret ranları Hata ve menteşe yitimine dayalı dağılıma bağlı sınamanın aynı/farklı karar verme yüzdeleri Hata ve menteşe yitimine dayalı dağılıma bağlı lmayan sınamanın aynı/farklı karar verme yüzdeleri Farklı çekirdek tiplerine göre kare hata ve ǫ-duyarlı yitim değerlerinin nrmallik sınamasını ret ranları Kare hata ve ǫ-duyarlı yitime dayalı dağılıma bağlı sınamanın aynı/farklı karar verme yüzdeleri Kare hata ve ǫ-duyarlı yitime dayalı dağılıma bağlı lmayan sınamanın aynı/farklı karar verme yüzdeleri Hata yitimine dayalı dağılıma bağlı sınama kullanarak uygulanan MultiTest yönteminin 10 bağımsız deneyde ürettiği sıralamalar (1: dğrusal, 2: ikinci derece, 3: üçüncü derece çekirdek) Sınama veri kümesinde 10 kat sözcük hata ranları Sınama veri kümesinde 10 kat çapraz geçerleme t sınama snuçları (p değerleri) Sınama kümesinde sözcük hata ranları Sınama veri kümesinde MAPSSWE sınaması snuçları (p değerleri) 41 IV

6 Şekil Listesi 21 Sınıflandırma hatasının öğrenme algritmalarını karşılaştırmada en iyi ölçüt lmadığını gösteren bir örnek 4 22 MultiTest yöntemi ile ptdigits veri kümesi üzerinde, maliyet ölçütü öğrenme zamanı larak alındığında üretilmiş çizge üzerinde yapılan ilingisel sıralama 7 31 Örnek prbleme göre Multi 2 Test yönteminin ikinci aşamasında luşturulan çizge y t = 1 için f( t ) cinsinden (a) sınıflandırma hatası ve (b) menteşe yitimi Hata sınamasının sıfır denencesini kabul ettiği fakat AUC-ROC ve AUC-PR sınamalarının reddettiği bir örnek Hata sınamasının sıfır denencesini reddettiği fakat AUC-ROC ve AUC-PR sınamalarının kabul ettiği bir örnek Bergman-Hmmel yöntemine göre öğrenme algritmalarının grafik larak gösterimi Multi 2 Test yönteminin ikinci aşaması snucunda luşam MultiTest çizgesi Tek değişkenli istatistiksel sınamanın sıfır denencesini reddedemediği fakat çk değişkenli MultiTF sınamasının sıfır denencesini reddettiği bir örnek MultiTF çk değişkenli sınamasının sıfır denencesini reddettiği MultiPR çk değişkenli sınamasınını ise sıfır denencesini reddedemediği bir örnek Breast veri kümesi üzerinde 5 sınıflandırıcının karşılaştırılması Örneklem büyüklüğü (N) ve byut sayısına (p) göre (sl) Klmgrv- Smirnv, (sağ) Wald-Wlfwitz sınamalarının eşitliği reddetmeme lasılıkları En yakın 1-kmşu algritması kullanılarak pendigits verisi üzerinde bzulmuş ve bzulmamış verilerle eğitilmiş sınıflandırıcıların karşılaştırılması (Sl) Klmgrv-Smirnv, (sağ) Wald-Wlfwitz sınama snuçları Hata kullanan tek değişkenli sınama ve (dğru artı, yanlış artı) kullanan iki değişkenli dağılıma bağlı ve dağılımdan bağımsız sınama snuçlarının karşılaştırılması Beş algritmanın karşılaştırılma snuçları Dğrusal ve Gauss çekirdeklerini kullanan destek yöney makinelerinin yapay veri üzerinde karşılaştırılması Mammgraphic veri kümesi üzerinde ikinci dereceden ve Gauss çekirdeklerinin karşılaştırılması Credit veri kümesi üzerinde dğrusal ve üçüncü dereceden ökterimli çekirdeklerin karşılaştırılması Abalne veri kümesi üzerinde ikinci dereceden ve üçüncü dereceden çekirdeklerin karşılaştırılması 37 V

7 416 Cncrete veri kümesi üzerinde dğrusal ve ikinci dereceden çkterimli çekirdeklerin karşılaştırılması 38 VI

8 Özet Birden çk gözetimli öğrenme algritmasının birden çk veri kümesi üzerinde karşılaştırılarak belirli bir başarı ölçütüne göre en iyisinin istatistiksel larak anlamlı (şans eseri luşamayacak kadar büyük) biçimde bulunması, ya da daha genel bir tanımla iyiden kötüye dğru sıralanması, hem örüntü tanıma, hem veri madenciliği açısından önemli bir knudur Birden çk algritmayı karşılaştırmak, birden çk veri kümesi üzerinde karşılaştırma yapmak, ya da hata yerine başka ölçütler kullanmak ancak sn yıllarda yapay öğrenme yazınında yer almaya başlamıştır Bu prjede farklı başarı ölçütlerini kullanarak, istenen sayıda öğrenme algritmasını istenen sayıda veri kümesi üzerinde karşılaştıran ve iyiden kötüye dğru sıralayan yeni istatistiksel yöntemler önerdik Bu bağlamda, hem belli bir dağılım varsayan, hem de dağılımdan bağımsız sınamaların çk değişkenli hallerini iki ya da daha çk algritmayı bir ya da daha çk veri kümesi üzerinde sıralayacak şekilde önerdik Aynı zamanda, sınıflandırma hatası yanında menteşe yitimi ve ǫ-duyarlıklı yitim gibi başka ölçütlerin de bu sınamalarda kullanılabileceğini gösterdik Sn larak bu çalışmalarımızı standart yapay öğrenme veri tabanları yanında biyinfrmatik ve knuşma tanıma alanlarında uyguladık Önerdiğimiz yöntemler ve ölçütler, araştırmacılara sadece kendi algritmalarının başarımlarını başkaları ile karşılaştırmada fayda sağlamayacak, aynı zamanda veri madenciliği gibi kullanıcıların yapay öğrenme knusunda uzman lmadıkları uygulamalarda birden fazla aday algritmayı karşılaştırırken (veya sıralarken) tmatik yöntemlere lan ihtiyacı da karşılayacaktır Anahtar Kelimeler: Yapay öğrenme, örüntü tanıma, veri madenciliği, istatistiksel sınama, gözetimli öğrenme, istatistik VII

9 Abstract Finding the best f multiple supervised learning algrithms, r in the general case, rdering them frm best t wrst with statistical significance (with differences large enugh that they culd nt have been due t chance), by cmparing them n multiple data sets using different cst metrics is an imprtant prblem bth in pattern recgnitin and data mining Cmparing multiple classificatin algrithms, making cmparisns n multiple data sets, r using cst metrics ther than misclassificatin errr are tpics that have becme imprtant nly in recent years in the machine learning literature In this prject, we develped nvel statistical methds t cmpare multiple classificatin algrithms n multiple data sets and rder them frm best t wrst In rder t accmplish this, we prpsed multivariate cunterparts f the univariate parametric and nnparametric tests bth t cmpare tw r mre algrithms n an arbitrary number f data sets While at the same time, we shwed that perfrmance metrics ther than the errr rate such as hinge and ǫ-sensitive lss can be used with these tests We applied ur appraches bth t standard machine learning data sets and biinfrmatics and speech prcessing applicatins Our prpsed tests and perfrmance metrics nt nly will allw researchers t cmpare their favrite algrithm s perfrmance with eisting nes, but especially in data mining applicatins where users are nt necessarily eperts in machine learning, an autmated methd such as urs will allw chsing the best f, r rder, a number f candidate learning algrithms fr a given applicatin Keywrds: Machine learning, pattern recgnitin, data mining, statistical tests, supervised learning, statistics VIII

10 Bölüm 1 Giriş Bu prjede Birden çk veri kümesi üzerinde gözetimli öğrenme algritmalarını maliyet duyarlı larak karşılaştırmada kullanmak için Multi 2 Test adlı bir yöntem geliştirdik (Ulaş ve diğerleri, 2012) İki veya daha fazla sınıflandırma algritmasını karşılaştırmak için çk değişkenli istatistiksel sınamaları geliştirdik ve önerdik (Yıldız ve diğerleri, 2011) Üstteki çalışmalarımızda kullandığımız sınamalar, çk değişkenli nrmal dağılımı varsayıyr ve bu varsayımın geçerliliği özellikle küçük verilerde kuşkulu labiliyr Prjede ayrıca aynı amaç için dağılımdan bağımsız yöntemlerin kullanılması üzerine çalıştık Çekirdek işlevli mdellerin kullandığı menteşe ve ǫ-duyarlı yitim için özel denence sınamaları geliştirdik Böyle bir sınama, çıktılar arasındaki farkı daha hassas larak belirlemeyi ve böylesi çekirdek tabanlı yöntemleri daha dğru karşılaştırmayı sağlamaktadır (Yıldız ve Alpaydın, 2012) Biyinfrmatik uygulamalarına özel larak sınıflandırmada kullanılan başarım ölçütlerini, deney tasarımı yöntemlerini ve istatistiksel sınama türlerini inceledik ve üç önemli biyinfrmatik dergisinde sn iki yılda yayımlanmış 1,500 ün üzerinde makaleden derlediğimiz verilerle karşılaştırdık (İrsy ve diğerleri, 2012a) Uygulama larak yaptığımız bir çalışmada yeni bir karar ağacı mimarisi önerdik Önerdiğimiz yapının iç düğümlerinde verilen kararlar bilinen karar ağaçlarının aksine kesin 0/1 değil, 0 ile 1 arasında sürekli bir sayıdır, her düğümde çcuklardan birine gitmek yerine, hepsine, bir geçit işlevinin belirlediği farklı lasılıklarla gidilir Bu halinde henüz üzerinde çalıştığımız, ve bu çalışmayı bu prjeyle ilişkilendirecek nkta, düğüm türleri arasında istatistiksel bir sınamayla seçim yapmak lacaktır (İrsy ve diğerleri, 2012b) Tübitak 109E142 nlu prjeyle rtak bir çalışmada farklı sınıflandırıcı ve sıralayıcıların başarılarını karşılaştırmak için istatistiksel sınama yöntemleri kullandık (Dikici ve diğerleri, 2013) 1

11 Bölüm 2 Genel Bilgiler 21 Başarım Ölçütleri 211 Hata Dizeyi ve Başarım Ölçütleri İki sınıflı öğrenme kümesi üzerinde f( φ) sınıflandırıcımızı eğittikten snra, geçerleme kümesinden seçilen bir örneğini f( φ) θ ise artı, f( φ) < θ ise eksi sınıfa atarız girdisinin gerçek sınıfına bağlı larak dört durum söz knusudur ve başarımı ölçmek için bu durumların geçerleme kümesi içinde kaç kez geçtiğini sayarız (Tabl 21): Dğru artı (da): Hem gerçek sınıfı hem kestirilen sınıfı artı lan örnek sayısı Yanlış eksi (ye): Gerçek sınıfı artı, kestirilen sınıfı eksi lan örnek sayısı Yanlış artı (ya): Gerçek sınıfı eksi, kestirilen sınıfı artı lan örnek sayısı Dğru eksi (de): Hem gerçek sınıfı hem kestirilen sınıfı eksi lan örnek sayısı Tabl 21: 2 2 hata dizeyi Kestirim Gerçek - Tplam da ye a - ya de e Tplam a e N Burada N, geçerleme kümesindeki örnek sayısı, a bunun içindeki artı, e ise eksi sayısıdır (a e= N) Benzer biçimde, a sınıflandırıcının artı karar verdiği örnek sayısı, e sınıflandırıcının eksi karar verdiği örnek sayısıdır (a e = N) Sıklıkla bir yapay öğrenme uygulamasında, birden çk aday öğrenme algritması içinden birini seçmemiz gerekir Gözetimli öğrenmede mdeller genelde hatalarına göre karşılaştırılır, ama bu her zaman en iyi snucu vermez, çünkü hata, yanlış artıyla yanlış eksi arasında ayrım yapmaz Bu yüzden hangi tür hataya daklandığımıza göre farklı hata ölçütleri önerilmiştir Örneğin örüntü tanımada bizim için dğru artı ranı ve yanlış artı ranı önemliyken bilgi getiriminde artı örneklere yğunlaşırız ve kesinlik ve anma adını 2

12 verdiğimiz ölçütleri kullanırız Yaygın kullanılan başarım ölçütleri şunlardır: Hata ranı = yaye N Dğru-artı ranı = da a Anma = da a Duyarlılık = da a Başarı = dade N Yanlış-artı ranı = ya e Kesinlik = da a Özgünlük = de e (21) Dğru artı ranı, duyarlılık ve anmaya, yanlış-artı-ranı da 1 özgünlük e eşittir Öğrenme algritmalarını karşılaştırırken sınıflandırma hatası üzerinde bir sınama yaptığımız zaman bazı farkları anlayamayabiliriz Yukarıda bahsettiğimiz gibi hata, yanlış artı ve yanlış eksi arasında fark gözetmediği için bu sınamalar algritmaların yanlış artı ve yanlış eksi çıktıları arasındaki farkı ayırt edemezler İki sınıflandırıcının öğrenme hataları aynı lduğu halde, bir tanesinin tüm hatası yanlış artılar yüzünden gerçekleşirken ötekinin tüm hatası yanlış eksiler yüzünden labilir Karşılaştırma ölçütümüzün yalnızca hata lduğu durumda bu iki, çk farklı sınıflandırıcı arasındaki farkı ayırt edemeyiz Şekil 21(a) da rtalamaları 2 ve 3 te lan iki nrmal dağılımı (eksi ve artı) ve her iki dağılımdan çekilen 100 er örneği görmekteyiz Girdi değeri belirli bir eşiğin üzerinde lduğunda artı sınıfı seçen bir sınıflandırıcımız var Bu karar eşiğini 2 den 3 e dğru değiştirdiğimizde farklı sınıflandırıcılar elde ediyruz Şekil 21(b) de hata değişmemekte, yanlış artıler azalırken yakın randa yanlış eksiler de artmaktadır Şekil 21(c) ve Şekil 21(d) de karar sınırı değiştiğinde (dğru artı, yanlış artı) ve (kesinlik, çağırılabilirlik) gibi ölçüt çiftlerinin farklılaştığını görebiliyruz Bu yüzden hata üzerinde çalışan bir istatistiksel sınama bu sınıflandırıcılar arasındaki farkı yakalayamazken, (dğru artı, yanlış artı) ya da (kesinlik, çağırılabilirlik) gibi ölçüt çiftleri üzerinde çalışan bir iki değişkenli sınama farkı yakalayabilecektir 212 Kayıp, Risk ve Karar Sınırı Tabl 22: 2 2 kayıp dizeyi Kestirim Gerçek 0 λ 1 0 Artı ve eksi sınıflar arasında karar verirken çğunlukla eşik değeri larak θ = 05 kullanılır Bu da artı sınıf için kestirilen snsal lasılığın eksi sınıf için kestirilen snsal lasılıktan büyük lmasına karşılık gelir Tabl 22 deki kayıp dizeyi verildiğinde, örneğini artı sınıfa atamanın riski: ve eksi sınıfa atamanın riski de R( ) = 0 P( )1 P( ) = P( ) R( ) = λp( )0 P( ) = λp( ) lur R( ) < R( ) ya da P( ) < λp( ) ise artı sınıfı seçeriz ve P( ) P( ) = 1 lduğundan i artı sınıfa atamak ancak 3

13 14 (a) 1 (b) hata sinir 1 (c) 1 (d) dgru arti kesinlik yanlis arti anma Şekil 21: Sınıflandırma hatasının öğrenme algritmalarını karşılaştırmada en iyi ölçüt lmadığını gösteren bir örnek P( ) > 1 (22) 1λ sağlandığında en düşük riskli harekettir Bu da, 05 eşiğinin λ = 1 değerine karşılık geldiğini gösterir (Alpaydın, 2010); eğer yanlış artı ve yanlış eksinin farklı maliyetleri varsa, duruma uygun bir θ seçmemiz gerekir 213 Perfrmans eğrileri ve bu eğrilerin altında kalan alanlar Bazı durumlarda kayıp dizeyini bilmeyebilir ve θ değiştikçe başarım ölçütlerinin değerlerinin nasıl değiştiğini izlemek isteyebiliriz Bu durumda, bunları θ nın bir işlevi larak çizmek ve genel davranışı görmek isteriz Alıcı işletim özellikleri eğrisi, dğru artı ranı ile yanlış artı ranının bir eğrisidir Benzer şekilde, kesinlik-anma ya da duyarlılık-özgünlük eğrileri de çizilebilir Çalışmamızda bu eğrileri genelleştirerek başarım eğrileri kavramını önerdik ve daha önce verilmiş işlem karakteristiği eğrisi çizme algritmasını (Fawcett, 2006) genelleştirdik Sınıflandırıcılara karşılık gelen eğrileri karşılaştırmak zrdur ve başarım eğrisini tek bir değere indirgeyerek özetlemek önerilmiştir Bu durumda yapılan, eğrinin altında kalan alanı eğrinin ardışık nktalarının luşturduğu yamukların alanlarının tplamı larak kestirmektir (Fawcett, 2006) 4

14 Alıcı işletim özellikleri eğrisi ve altında kalan alan Alıcı işletim özellikleri eğrisi, dğru artı ranı ile yanlış artı ranını betimler (0,0) nktasından çizime başlanır θ azaldıkça, dğru artılar ve beraberinde yanlış artıların sayısı artar Sınıflandırıcı başarılıysa, dğru artıların artışı yanlış artıların artışından fazla lacaktır ve bu durumda eğri, sl üst köşeye yakın geçer θ daha da azaldıkça, artı larak sınıflandırmak giderek klaylaşır ama yanlış artıların sayısı artar (0,0) nktası bütün örnekleri eksi larak sınıflandırır (1,1) nktası tam tersini gösterir ve sınıflandırıcı bütün örnekleri artı larak sınıflandırır İki sınıflandırıcıyı karşılaştırırken, bir sınıflandırıcıya ait alıcı işletim özellikleri eğrisi her zaman (bütün eşik değerleri için) ikinci sınıflandırıcıya ait alıcı işletim özellikleri eğrisinin üzerindeyse, birinci sınıflandırıcıyı ikinciye yeğleriz Bazı durumlarda, birinci sınıflandırıcıya ait alıcı işletim özellikleri eğrisi uzayın bir parçasında (bazı eşik değerleri için) ikinci sınıflandırıcıya ait alıcı işletim özellikleri eğrisinin üzerinde, uzayın diğer bir kısmında ise altında labilir Bu da farklı kayıp kşullarında farklı sınıflandırıcıların tercih edileceği anlamına gelir Kesinlik-Anma eğrisi ve altında kalan alan Kesinlik-anma eğrisi çğunlukla bilgi erişiminde kullanılır (Zweig ve Campbell, 1993) Bir srgu verildiğinde, veritabanında saklanmış kayıtlardan bazıları knuyla ilgili (artı), bazıları da değildir (eksi) Bir srguyu gösteren verildiğinde, bazı artı (ilgili) örnekler ve yanlışlıkla bazı eksi (ilgisiz) örnekler getirilir Kesinlik, ilgili ve getirilmiş dökümanların tüm getirilen dökümanlara ranı, anma ise ilgili ve getirilmiş dökümanların tüm ilgili dökümanlara ranıdır Yine karar eşiğini değiştirerek bir dizi kesinlik ve anma değeri elde edilebilir ve bunları birleştirerek bir kesinlik-anma eğrisi çizilebilir Eşik değeri θ, 1 e yaklaştıkça, getirilen belgelerin sayısı azalır ve çğunun ilgili lması beklenir; böylece kesinlik, 1 e yaklaşır İlgili belgelerin çk azı getirildiğinden anma küçük lacaktır θ azaldıkça, getirilen belgelerin hepsi ilgili lmayacak ve kesinlik azalacak, fakat ilgili belgelerden daha fazlasını getirdiğimizden anma artacaktır Alıcı işletim özellikleri eğrisindeki gibi, iki sınıflandırıcıyı karşılaştırırken bir sınıflandırıcıya ait kesinlik-anma eğrisi her zaman ikinci sınıflandırıcıya ait eğrinin üzerindeyse birinci sınıflandırıcıyı ikinci sınıflandırıcıya yeğleriz Alıcı işletim özellikleri eğrisi ile kesinlik-anma eğrileri farklı ölçütleri kullandığından altlarında kalan alan da farklı labilir Dlayısıyla alıcı işletim özellikleri eğrisinin altında kalan alana göre daha iyi lan bir sınıflandırıcı, kesinlik-anma eğrisinin altında kalan alana göre daha kötü bir sınıflandırıcı labilir Kesinlik-anma eğrisi, sınıf ranına duyarlıyken alıcı işletim özellikleri eğrisi değildir (Davis ve Gadrich, 2006) a/e ranı değiştikçe, her iki satırdan değerler kullandığı için kesinlik değişir, ama dğru artı ve yanlış artı ranları tek bir satırdan değer kullandıkları için değişmeyebilir Kesinlik-anma ve alıcı işletim özellikleri eğrilerinin farklı uygulama alanları vardır Kesinlik-anma eğrisinde, temel larak artı örnekleri ne kadar iyi sınıflandırdığımızla ilgilenirken, alıcı işletim özellikleri eğrisinde, yanlış artı ranını azaltmaya çalışır ve dğru eksi ranını da artırmak isteriz Örneğin bilgi erişiminde, verilen bir srgu için ilgisiz bir çk belgeyi veri tabanına eklemenin srgunun başarım snucunu etkilememesini isteriz 5

15 22 MultiTest MultiTest (Yıldız ve Alpaydın, 2006), maliyet duyarlı bir yöntem lup sınıflandırma algritmalarını hata ranına göre sıralar ve hatalarının eşit lması durumunda algritmaların maliyetlerini bu eşitlikleri bzmak için kullanır İki algritmanın hata ranı aynı lduğunda, maliyet ölçütüne göre daha basit lanını yeğliyruz İkili istatistiksel sınamasının snucuna göre, bu önkabulümüzü terk edip daha pahalı (karmaşık) lan algritmayı yeğliyebiliyruz (eğer hatanın azlığı istatistiksel larak anlamlı ise) Sınıflandırma algritmalarını basitten karmaşığa maliyet ölçütüne göre 1, 2,, L larak dizelim ve bunları bir çizgenin düğümleri larak düşünelim Daha snra tüm ikili öğrenme algritmaları için sıfır denencesi H 0 : µ i µ j lan istatistiksel sınamayı uyguluyruz İstatistiksel sınama reddederse, daha maliyetli lan j algritmanın daha ucuz i algritmadan istatistiksel larak daha az hatalı lduğu snucuna varıp, i düğümünden j düğümüne bir k kyuyruz L(L 1)/2 istatistiksel sınamanın ardından, çizgede sadece istatistiksel sınamanın reddettiği durumlar için klar bulunmaktadır j düğümüne gelen kların sayısı j algritmasından daha pahalı fakat istatistiksel larak j nin daha az hata yaptığı algritmaların sayısını, j düğümünden giden kların sayısı da j algritmasından daha pahalı fakat istatistiksel larak j den daha az hatalı algritmaların sayısı göstermektedir Çizge luşturulduğunda ilingisel sıralamayla algritmaları bu hata ve maliyet bilgisini kullanan biçimde sıralıyruz (Örnek, Şekil 22 de verilmiştir) 23 Dağılıma Bağlı Sınamalar 231 İkili Karşılaştırma İki sınıflandırma algritmamız lduğunu varsayalım Bu iki algritmayı k tane öğrenme ve geçerleme katı üzerinde eğitip geçerlediğimizi ve k tane ayrı karıştırma dizeyi M ij, i= 1, 2, j= 1,, k hesapladığımızı düşünelim Tek Değişkenli Durum Sınıflandırma hatası üzerinde karşılaştırma yapacaksak, her iki algritma ve bütün k katlar için hatayı e ij = ya ij ye ij larak hesaplarız ve her katta sınıflandırıcıların hataları arasındaki fark d j = e 1j e 2j lur Bu farkın 0 rtalamalı bir dağılımdan geldiğini sınarız: H 0 : µ d = 0 karşı H 1 : µ d 0 Tek değişkenli eşli t sınaması için rtalama ve standart sapmayı hesaplayalım: d = k d j /k, s d = j=1 j (d j d) 2 k 1 6

16 5nn c45 lnp mlp svr svl sv2 mdt (a) 5nn c45 lnp mlp svl sv2 mdt (b) 5nn c45 lnp mlp sv2 mdt (c) 5nn c45 lnp mlp mdt (d) c45 lnp mlp mdt (e) c45 mdt (g) c45 lnp mdt (f) c45 (h) Şekil 22: MultiTest yöntemi ile ptdigits veri kümesi üzerinde, maliyet ölçütü öğrenme zamanı larak alındığında üretilmiş çizge üzerinde yapılan ilingisel sıralama Bu iki algritmanın beklenen sınıflandırma hataları aynı lduğunu belirten sıfır denencesine göre biliyruz ki, t = k d s d (23) sınama istatistiği k 1 serbestlik derecesiyle t dağılır Sıfır denencesi, t > t α/2,k 1 ise (1 α)100 güvenle reddedilir Çk Değişkenli Durum İki algritmayı karşılaştırmak için tek bir ölçüt kullanmak yerine birkaç ölçüt kullanmak istersek sayılları değil yöneyleri karşılaştıran bir sınamaya ihtiyaç duyarız Öyle bir durumda, p byutlu dağılımların rtalamalarını karşılaştırırız, yani sıfır denencesi H 0 : µ 1 µ 2 = 0 lan bir istatistiksel sınama yapmamız gerekir (dğru artı, yanlış artı) ya da (kesinlik, anma) ölçütleri üzerinde bir karşılaştırma yapacaksak p = 2, tüm 2 2 karıştırma dizeyi üzerinden karşılaştırma yapacaksak, p = 4 lur ij ile p başarım değeri içeren bir başarım yöneyini gösterelim Çk değişkenli eşli Htelling sınaması için, eşli d j = 1j 2j fark yöneylerini hesaplar ve fark yöneylerinin p değişkenli 0 merkezli bir nrmal dağılımdan 7

17 geldiğini kntrl eden istatistik sınamanın sıfır ve karşıt denencesi H 0 : µ d = 0 karşı H 1 : µ d 0 lacaktır Ortalama fark yöneyi ve eşdeğişinti dizeyi ise d = k j=1 d j /k, S d = 1 k 1 (d j d)(d j d) T j lacaktır Bu iki algritmanın beklenen başarım ölçüt yöneylerinin eşit lduğunu belirten sıfır denencesine göre biliyruz ki (Rencher, 1995) T 2 = kd T S 1 d d (24) sınama istatistiği p ve k 1 serbestlik dereceleriyle Htelling T 2 dağılır Sıfır denencesi, T 2 > Tα,p,k 1 2 ise (1 α)100 güvenle reddedilir Çk değişkenli sınamanın sıfır denencesi reddedilirse, p artçı tek değişkenli istatistik sınama uygulayarak hangi değişkenlerin çk değişkenli sıfır denencesinin reddedilmesine neden lduğu anlaşılabilir Örneğin (kesinlik, anma) üzerine bir çk değişkenli sınama sıfır denencesini reddederse farkın, kesinlik mi, anma yüzünden mi lduğu tek değişkenli bir istatistiksel sınama ile anlaşılabilir 232 Değişkenlik Çözümlemesi L > 2 öğrenme algritmasını karşılaştırırken aynı rtalama başarıma sahip lup lmadıkları sınanır Tek değişkenli durumda karıştırma dizeyleri hata değerlerine indirgenir ve karşılaştırma yapılır; çk değişkenli durumdaysa başarım değerlerinden luşan yöneyler karşılaştırılır Tek Değişkenli Durum L algritma verildiğinde, sıfır ile karşı denencesi H 0 : µ 1 = µ 2 = = µ L karşılık H 1 : en az bir r,s ikilisi için µ r µ s lacaktır e ij,i = 1,,L,j = 1,,k ile i algritmasının j geçerleme katındaki hatasını göstersin e i = j e ij/k ile i algritmasının rtalama hatasını, e = i e i, /L ile genel rtalamayı gösterelim Tek değişkenli değişkenlik çözümlemesi (Univariate ANOVA) F = MSH MSE = SSH/(L 1) SSE/L(k 1) ( ie2 = i /k e /Lk)(L 1) ( i,j e2 ij i e2i /k)/l(k 1) (25) sıfır denencesine göre L 1, L(k 1) serbestlik dereceli F dağılımlıdır Sıfır denencesi F > F α,l 1,L(k 1) ise (1 α)100 güvenle reddedilir ANOVA reddederse ve en az iki algritmanın istatistiksel larak birbirinden farklı lduğunu biliyrsak, bölüm 231 deki istatistiksel sınamayı artçı sınama larak uygulayıp hangi ikilinin hatadaki farka neden lduğunu anlayabiliriz 8

18 Çk Değişkenli Durum L algritma verildiğinde, sıfır ile karşı denencesi H 0 : µ 1 = µ 2 = = µ L vs H 1 : en az bir r,s ikilisi için µ r µ s lacaktır ij ilei = 1,,L,j = 1,,k,ialgritmasınınj geçerleme katındakipbyutlu başarım yöneyini göstersin Çk değişkenli MANOVA öbeklerarası ve öbekiçi eşdeğişinti dizeylerini kullanır: Bu durumda H = k E = L ( i )( i ) T i=1 L i=1 k ( ij i )( ij i ) T j=1 Λ = E EH (26) sınama istatistiği sıfır denencesine göre p, L 1, L(k 1) serbestlik dereceleri ile Wilks dağılımından gelir (Rencher, 1995) MANOVA reddederse, her değişken üzerinde ayı ayrı lmak üzere p tane ANOVA sınaması yapılabilir Ayrıca, bölüm 231 deki istatistiksel sınamayı artçı sınama larak uygulayıp hangi ikilinin hatadaki farka neden lduğunu anlayabiliriz 24 Dağılımdan Bağımsız Sınamalar Dağılımdan bağımsız sınamada sıra dönüşümü yapılarak örneklerin mutlak değerleri yerine sıra değerleri karşılaştırılır (Kvam ve Vidakvic, 2007) Örneğin iki örneklemli sınamada değerler arasındaki fark yerine kimin daha küçük, kimin daha büyük lduğuna bakılır Aşağıda bu sınamaların önce tek değişkenli, snra çk değişkenli sürümlerini kısaca özetliyruz 241 Dağılımdan Bağımsız Tek Değişkenli Sınamalar İki Örneklemli Sınamalar Her j= 1,, k kat için iki algritmayı da j öğrenme kümesi üzerinde eğittiğimizi, j geçerleme kümesi üzerinde sınadığımızı ve i= 1,2 için ij başarım değerini (örneğin hata) elde ettiğimizi varsayalım Eşli sınama yapıyr, yani tüm algritmalar için aynı öğrenme ve geçerleme kümelerini kullanıyruz Yapmak istediğimiz iki j örneklem kümesinin aynı dağılımdan mı, yksa iki farklı dağılımdan mı geldiğini anlamaya çalışmaktır Wald-Wlfwitz Sınaması Her biri k büyüklüğünde iki örneklem verildiğinde önce bunları birleştirip luşan 2k sayıyı sıralarız, öyle ki en iyi sayı 1 sıra numarasını, ikinci 2 sıra numarasını, vs alır Sıralama yapılırken her sayının ait lduğu örneklem unutulmaz Bir akış ardışık larak aynı örneklemden gelen sayı dizisinin uzunluğunu göstermek üzere, sıralı 2k sayının içindeki tplam akış sayısı R, Wald-Wlfwitz sınamasının istatistiğini 9

19 luşturur Eğer söz knusu iki dağılım arasında istatistiksel larak anlamlı bir fark yksa sık sık bir örneklemden ötekine geçiş lmasını ve dlayısıyla R sayısının yüksek lmasını bekleriz Asimpttik larak R k 1 W = k(k 1) (2k 1) standart nrmal dağılımdan gelir Eğer W < Z α ise sıfır denencesini reddederiz Klmgrv-Smirnv Sınaması İki dağılımdan her biri k büyüklüğünde iki örneklem verildiğinde yine önce bunları birleştirip luşan 2k sayıyı sıralarız, öyle ki en iyi sayı 1 sıra numarasını, ikinci 2 sıra numarasını, vs alır Bu 2k sayı içinde, 1 ve 2k arasındaki herhangi bir i değeri için, birinci örneklemden i değerden daha iyi lan kaç öğe lduğunu ve ikinci örneklemden i değerden daha iyi kaç öğe lduğunu sayarız Eğer iki dağılım arasında istatistiksel bir fark yksa bu iki sayının tüm lası i değerleri için yakın lmasını bekleriz Yaptığımız, her i için bu sayaçları hesaplayıp farklarını bulmak ve en büyüğünü belirlemektir İki dağılım aynıysa, bu en büyük fark küçük lmalıdır Klmgrv-Smirnv sınamasının (Friedman ve Rafsky, 1979) altında yatan düşünce budur İki örneklemi X 1,X 2, birleştirilmiş değerleri de (j),j = 1,,2k larak gösterelim Öğrenme algritmalarını karşılaştırırken bu değerler k geçerleme kümesi üzerinde alınan başarım değerlerine karşılık gelecektir Birinci örneklem içinde (i) den daha iyi lan öğelerin sayısı s 1 (i) # (j) X 1 { (j) (i) }, i = 1,,2k s 2 (i) benzer şekilde tanımlanır Mutlak fark ise d (i) = s1 (i) s2 (i), i = 1,,2k k larak tanımlıdır İki dağılım arasında istatistiksel larak anlamlı fark bulunmadığını söyleyen sıfır denencesine göre, bu farkların en büyüğü 2k serbestlik dereceli Klmgrv dağılımından gelir Eğer K k,k,d < α ise sıfır denencesini reddederiz Çk Örneklemli Sınama Eğer iki tane değil de L > 2 algritmayı karşılaştırıyrsak çk örneklemli sınama yapmamız gerekir Her j = 1,,k kat içinlalgritmayı daj öğrenme kümesi üzerinde eğittiğimizi, j geçerleme kümesi üzerinde sınadığımızı ve i = 1,2,,L için ij başarım değerini elde ettiğimizi varsayalım Yapmak istediğimiz L tane j kümesinin aynı dağılımdan mı yksa L farklı dağılımdan mı geldiğini anlamaya çalışmaktır Kruskal-Wallis Sınaması Elimizde L tane örneklem ve her birinde k değer lduğu için, bu değerleri sıraladığımızda en iyi başarım değeri 1 sıra numarasını, ikinci 2 sıra numarasını, ve snunculk sıra numarasını alırr ij,i algritmanınk öğrenme başarımının sıra numarasını göstersin Bütün rtalamaların aynı lduğu sıfır denencesine göre Kruskal- Wallis sınama istatistiği X = 12 Lk(Lk 1) L i=1 kr 2 i 3(Lk 1) (27) L 1 dereceli ki-kare dağılımından gelir Eğer X > χ 2 α,l 1 ise sıfır denencesini reddederiz 10

20 242 Dağılımdan Bağımsız Çk Değişkenli Sınamalar Gerek Klmgrv-Smirnv ve Wald-Wlfwitz, gerekse Kruskal-Wallis sınamaları tek değişkenli örneklemler için tanımlanmış sınamalardır Eğer yalnızca hata üzerinden değil birden çk başarım ölçütü üzerinden sınıflandırma algritmalarını karşılaştırmak istersek her üç sınamanın da çk değişkenli örneklemler üzerinde uygulanabilecek şekilde genelleştirilmesi gerekir Bu sınamaları çk byutlu veride uygulayabilmek için p byutlu başarım yöneylerini sıralayabilmemiz gerekir Bu amaçla önerilen yaklaşım, bunlardan bir ağaç luşturmak ve bu ağaç üzerinde sıralama yapmaktır Bunun için öncelikle başarım yöneylerini p byutlu uzayda nktalar larak düşünürüz Ardından iki (ya da L) örnekleme ait 2k (ya da Lk) yöneylerinin düğümleri lduğu bir çizge tanımlanır ve bu düğümler arasındaki kenarların ağırlıkları karşılık gelen yöneyler arasındaki Euclid uzaklığına eşit lur Daha snra bu çizgenin en küçük kapsayan ağacı bulunur Bu ağaç birbirine yakın lan yöneyleri birbirine bağlayacaktır (Friedman ve Rafsky, 1979) İkili Sınamalar Wald-Wlfwitz Sınaması Wald-Wlfwitz sınamasını genelleştirmek için, elde edilen ağaçtaki kenarlardan iki ucu farklı örneklemden lanlar silinir Kalan bağlı parça sayısı bize Wald-Wlfwitz sınama istatistiği lan R sayısını verecektir Klmgrv-Smirnv Sınaması Klmgrv-Smirnv sınamasını genelleştirmek için, önce ağaçta çapı en yüksek lan düğüm belirlenir Bir düğümün çapı, düğümle başlayan en yüksek ylun uzunluğudur Çapı en yüksek lan düğüm 1 sıra numarasını almak üzere, öteki düğümler yükseklik-öncelikli gezme algritmasına göre sıra numarası alırlar Yükseklik-öncelikli gezme algritması özyinelemeli larak şöyle tanımlanır: Önce kök düğüm ziyaret edilir, daha snra yüksekliği en fazla lan çcuk ve tüm syu ziyaret edilir, en snunda da yüksekliği en düşük lan çcuk ve syu ziyaret edilir Düğümleri ziyaret etme sırası örneklerin sıra numaralarını belirleyecektir Elde edilen sıra numaraları Klmgrv-Smirnv sınamasında kullanılır (Friedman ve Rafsky, 1979) Çk Örneklemli Sınama Kruskal-Wallis Sınaması Elimizde iki algritma yerine L tane algritma lduğunda, yukarıda anlattığımız gibi Lk düğümlü bir çizge luştururuz Yine bu çizgenin en küçük kapsayan ağacı bulunur ve yükseklik-öncelikli gezme algritmasına göre bu düğümlere sıra numarası verilir Sn larak bu sıra numaraları kullanılarak Kruskal-Wallis sınaması uygulanır 11

21 Bölüm 3 Gereç ve Yöntem 31 Maliyet Duyarlı Sınama İçin Multi 2 Test Yöntemi Multi 2 Test yöntemi temel larak MultiTest yönteminin birden çk veri kümesi üzerinde genelleştirilmesidir (Ulaş ve diğerleri, 2012) Önce MultiTest yöntemi (Bölüm 22 de anlatıldığı gibi bir ikili istatistiksel sınama ve maliyet ölçütü kullanılarak) ayrı ayrı veri kümeleri üzerinde uygulanır ve her algritma için her veri kümesinde bir sıra numarası (1 en iyiyi, L en kötüyü gösterecek biçimde) belirlenir Ardından, bu sıra numaraları, algritmaları sıralamayan fakat ikişer ikişer istatistiksel farkları veren artçı bir istatistiksel sınamaya verilir Snra bu artçı istatistiksel sınamanın snuçlarını ve ilk aşamada kullandığımız maliyet ölçütünü kullanan ikinci bir MultiTest le algritmaların sn sırası luşturulur Bu ikinci MultiTest te luşturulan çizgenin kları artçı sınamanın snuçlarına göre knulmaktadır Multi 2 Test in ikinci aşamasına örnek larak, isimleri A, B, C, D lan dört sınıflandırıcımız ve bunların maliyete göre sırasının C < A < D < B lduğunu varsayalım Eğer artçı sınamaya göre A, C den ve B, D den istatistiksel larak daha iyiyse luşan çizge Şekil 31 de verilmiştir İlingisel sıralama algritması bu aşamada uygulandığında dört sınıflandırıcı, 1:A, 2:C, 3:B, 4:D larak sıralanır C A D B Şekil 31: Örnek prbleme göre Multi 2 Test yönteminin ikinci aşamasında luşturulan çizge 32 Farklı Yitimler İçin Sınamalar 321 Menteşe Yitim Tabanlı Sınama Yazındaki istatistiksel sınamalar, örneğin, eşli t sınaması, 5 2 çapraz geçerlenmiş t sınaması (Dietterich, 1998) gibi, 0/1 yitime karşılık gelen sınıflandırma hatasını kullanır Destek yöney makineleri (Vapnik, 1995) eğitimde menteşe yitimini kıstas alır Menteşe yitimi sınıflandırıcının verdiği kararın ayırtacın yalnızca dğru tarafında lmasına değil, kenar payı değerine de bakar Bu çalışmamızda menteşe yitim tabanlı sınama için yöntemler önerdik (Yıldız ve Alpaydın, 2012) 12

22 t girdisi için çekirdek sınıflandırıcı çıktısını f( t ) R ve istenen çıktıyı r t { 1,1} ile gösterelim Bu durumda hata ve menteşe yitimi aşağıdaki gibi tanımlanacaktır (Şekil 32): Hata = Menteşe Yitimi = { { 0 eğer sgn(f( t )) = y t 0 eğer f( = t )y t 1 1 aksi halde 1 aksi halde { 0 eğer f( t )y t 1 1 f( t )y t aksi halde (31) (32) 3 (a) Hata 3 (b) Mentese Yitimi Şekil 32: y t = 1 için f( t ) cinsinden (a) sınıflandırma hatası ve (b) menteşe yitimi Sınıflandırma hatası yalnızca sınıflandırıcının çıktısının sınırın dğru tarafında lup lmadığına bakar; menteşe yitimi iki açıdan farklıdır: (1) sınırın dğru tarafında ama kenar payının içinde lan örnekler de cezalandırılır, (2) yanlış sınıflandırılmış örnekler yanlış tarafın ne kadar içinde lduklarıyla dğru rantılı larak cezalandırılır İki çekirdek sınıflandırıcıyı bunları da göz önüne alarak karşılaştırmak davranışlarını daha iyi ayırt etmemizi sağlayacaktır Gerek farklı çekirdekleri, gerekse de farklı tür girdileri içeren çekirdekleri kullanan çekirdek sınıflandırıcıları karşılaştırırken bizim baktığımız aralarında istatistiksel anlamda fark lup lmadığıdır Örneğin, yeni önerilmiş bir çekirdeğin eldeki çekirdeklere göre iyileştirme getirip getirmediğini anlamak isteriz İstatistiksel sınama yaparken, iki algritmayı birden fazla eğitim ve geçerleme kümesi üzerinde çalıştırır ve geçerleme kümesi üzerindeki snuçlarının dağılımları aralarında istatistiksel larak anlamlı (yani şansla luşamayacak kadar büyük) bir fark lup lmadığına göre karşılaştırırız Genellikle farklı (eğitim, geçerleme) veri kümesi çiftleri elde etmek için k-kat çapraz geçerleme kullanılır Deneylerimizde geçerleme kümeleri çk küçük değildi ve bu durumda yine merkezi limit kuramına göre menteşe değerlerinin de nrmal lduğunu varsayabiliriz Nrmallik sınaması ile deneysel larak baktığımızda da menteşe değerlerinin nrmal dağılımdan geldiğini söyleyebileceğimizi gördük Gelmediği durumda, örneğin çk küçük veri kümelerinde, dağılımdan bağımsız sınama yöntemlerinin kullanılması gerekir 13

23 322 ǫ-duyarlı Yitim Tabanlı Sınama t girdisi için çekirdek bağlanım algritmasının çıktısını f( t ) R ve istenen nrmalleştirilmiş çıktıyı y t R ile gösterelim Bu durumda kare hata ve ǫ-duyarlı yitim aşağıdaki gibi tanımlanacaktır (Vapnik, 1995): kare hata = y t f( t ) 2 (33) { 0 if y ǫ-duyarlı yitim = t f( t ) ǫ y t f( t (34) ) ǫ aksi halde Kare hatası yalnızca bağlanım algritmasının çıktısı ile gerçek çıktı arasındaki farkı, bu fark ne lursa lsun cezalandırır; ǫ-duyarlı yitim iki açıdan farklıdır: (1) bağlanım algritmasının çıktısı ile gerçek çıktı arasındaki fark belirli bir sınırın altındaysa (epsiln duyarlılık) cezalandırma yapılmaz, (2) bağlanım algritmasının çıktısı ile gerçek çıktı arasındaki fark sınırın üstündeyse örnekler yanlış tarafın ne kadar içinde lduklarıyla dğrusal rantılı larak cezalandırılır Menteşe yitimde lduğu gibi iki çekirdek bağlanım algritmasını ǫ-duyarlı yitime göre karşılaştırmak davranışlarını daha iyi ayırt etmemizi sağlayacaktır 33 Biyinfrmatikte Sınıflandırma Deneylerinin Tasarımı Ve Snuçların Çözümlenmesi 331 İstatistiksel Sınamalar Sınıflandırma deneylerinde en sık kullanılan dört farklı denence sınaması senarysu vardır (Tabl 31): 1 Bir veri kümesi üzerinde belirli bir başarım ölçütü üzerinden karşılaştırmak istediğimiz iki algritmamız vardır Bu en sık kullanılan senary türüdür Örneğin iki algritma, hata ya da eğri altında kalan alana göre karşılaştırmak istenir Veya, aynı algritmanın iki farklı türü karşılaştırılmak istenir; örneğin sinir ağı ile sınıflandırma yapmadan önce öznitelik seçiminin istatistiksel larak fark yaratıp yaratmayacağı incelenir 2 Bir veri kümesi üzerinde L > 2 algritmayı belirli bir başarım ölçütüne göre karşılaştırmak isteriz Bunlar farklı algritmalar labileceği gibi aynı algritmanın farklı sürümleri de labilir; örneğin sınıflandırıcının önündeki farklı öznitelik çıkarımı algritmalarını karşılaştırmak isteyebiliriz 3 M > 1 veri kümesi üzerinde iki algritmayı bir başarım ölçütüne göre karşılaştırmak isteriz Örneğin, elimizde M farklı kanser veri kümesi lsun ve farklı özelliklerinden dlayı bu veri kümelerini tek bir veri kümesi halinde birleştiremeyeceğimizi düşünelim Yapmamız gereken her iki algritmayı bütün veri kümeleri üzerinde eğitmek ve sınamaktır Ardından, bu iki algritmanın her bir veri kümesi üzerindeki başarımları karşılaştırılır ve bu karşılaştırmalar birleştirilip tek bir genel snuç elde edilir 14

24 4 M > 1 veri kümesi üzerinde L > 2 algritmayı belirli bir başarım ölçütüne göre karşılaştırmak isteriz Bu en genel senarydur Tabl 31: Farklı karşılaştırma senaryları ve kullanılan sınamalar Algritma Veri Kümesi Sayısı sayısı M = 1 M > 1 L = cv F sınaması Wilcn işaretli sıra sınaması L > 2 ANOVA 5 2 katlı F sınaması Friedman ve Nemenyi sınaması Bir Veri Kümesi Üzerinde İki Algritmayı Karşılaştırma Tplam hata sayısı 0/1 laylarının bir tplamı lup, binm dağılımından gelmektedir Geçerleme kümesi çk küçük lmadığı sürece, merkezi limit teremi gereği, binm dağılımı nrmal dağılıma yakınsar ve nrmal dağılım varsayan sınamaları kullanabiliriz İki algritmanın beklenen başarım değerlerini karşılaştırdığımız zaman sıfır ile karşıt denenceleri H 0 : µ 1 = µ 2 karşıt H 1 : µ 1 µ 2 (35) lup eşli durumda farkların rtalamasının 0 lduğunu sınarız (Bölüm 231): H 0 : µ d µ 1 µ 2 = 0 karşıt H 1 : µ d 0 (36) Dietterich (Dietterich, 1998) çalışmasında McNemar ın sınaması ve k-kat çapraz geçerlemeli t sınaması da dahil lmak üzere çeşitli dağılıma bağlı sınamaları karşılaştırmıştır Daha snra 5 2 çapraz geçerlemeyi ve eşli t sınamasını önermiş, ve bu sınamanın Tip 1 ve Tip 2 hatalarının düşük lduğunu göstermiştir 5 2 çapraz geçerlemeli F sınaması (Alpaydın, 1999) eşli t sınamasının gelişmiş bir halidir Bir Veri Kümesi Üzerinde L > 2 Algritmayı Karşılaştırma Değişkenlik çözümlemesi (ANOVA) bütün dağılımların aynı rtalamaya sahip lup lmadığını sınar (Bölüm 232): H 0 : µ 1 = µ 2 = = µ L karşıt H 1 : en az bir r s için µ r µ s (37) şeklindedir Sınama sıfır denencesini reddetmezse bütün dağılımlar aynı ölçüde iyidir Sınama reddederse, herhangi bir yerde eşitsizlik lduğunu anlarız Nerede lduğunu anlamak için bir dizi ikili artçı sınama yapar ve hizipleri belirleriz Bir hizibin içindeki herhangi iki algritma arasında istatistiksel bir fark yktur Hizipleri belirlemek için önce L algritmayı rtalama başarımlarına göre sıralar ve en iyi ile en kötü algritmayı ikili larak aralarında istatistiksel larak fark var mı diye sınarız Sınama reddederse, snuncu algritma hariç L 1 algritmayı alır ve birinci ile L 1 algritmaları ikili karşılaştırır; aynı zamanda birinci algritma hariç lmak üzere ikinci ile L algritmaları ikili karşılaştırırız Sınamalar reddettiği sürece, her iki taraftan özyinelemeli larak birinci ve snuncuyu dışarıda bırakacak şekilde devam ederiz Herhangi bir aşamada sınama reddedemezse, grup algritmanın altını çizer ve daha fazla ilerlemeyiz 15

25 M > 1 Veri Kümesi Üzerinde İki Algritmayı Karşılaştırma Farklı veri kümeleri üzerinden değerler hesapladığımızda bu veri kümelerinin başarımları aynı dağılımdan veya nrmal dağılımdan gelmedikleri için, dağılıma bağlı bir sınama kullanamayız Bu yüzden, farklı veri kümeleri üzerinden başarım rtalamaları hesaplamak da mantıklı değildir Bu durumda, farklı veri kümelerinin kaç tanesinde iki algritmanın hangisinin daha iyi lduğunu sınayan dağılıma bağlı lmayan sınama yapabiliriz Bu veri kümelerinin bazılarında birinci algritma daha iyi iken, bazılarında ikinci algritma daha iyi, bazılarında ise ikisi eşit iyilikte labilir İşaret sınamasında, sıfır denencesine göre bu iki algritma aynı başarımı gösterdiklerinde kazanma/kaybetme/beraberlik sayılarının lası lup lmadığını kntrl ederiz Wilcn sınaması işaret sınamasının daha ileri bir sürümü lup sadece kazanma sayılarını değil bir algritma bir veri kümesi üzerinde ötekinden iyi lduğunda, iki algritma arasındaki başarım farkını da kullanabilmektedir M > 1 Veri Kümesi Üzerinde L > 2 Algritmayı Karşılaştırma İkiden fazla algritma birden fazla veri kümesi üzerinde karşılaştırıldığında, elimizde her veri kümesi üzerinde kazanma/kaybetme/beraberlik snuçları değil, rtalama başarımlarına göre belirlenmiş bir sıra numarası lur Bu aşamada, M veri kümesi üzerinden alınmış rtalama sıra numaralarının istatistiksel larak farklı lup lmadığı sınanır Friedman sınaması ANOVA sınamasının dağılım varsaymayan bir sürümü lup farklar yerine sıra numaralarını kullanmaktadır (Demsar, 2006) Friedman sınaması reddederse, Nemenyi sınamasını artçı sınama larak kullanır ve ardışık algritmaların rtalama sıralamaları arasındaki farkın istatistiksel larak anlamlı lup lmadığını sınarız 34 Ayrımcı Dil Mdelleme İstatistiksel Sınama Knuşma tanırken Ayrımcı Dil Mdelleme (ADM) de amaç daha iyi örnekleri daha kötü örneklerden ayırmaktır Örnekler için akustik ses girdisinin öznitelik yöneyi,, ve aday denencesi, y, birlikte Φ(, y) larak gösterilir Eğitim kümesindeki her örnek için üretilen aday denenceler akustik puanlarına göre bir N-listesinde sıralanır Amaç, bu listeyi yeniden sözcük hatalarına göre sıralayabilmektir; lası her yazıya dönüştürmedeki sözcük hata sayısı hedef sıra larak kabul edlir Bu uygulama, sıra sayılı bağlanıma benzemektedir: Eğitim kümesindeki örnekler sınıf etiketi yerine sıralara, r a, atanmaktadırlar Fakat sıra sayılı bağlanımdan farklı larak tekrar-sıralama N-listedeki aynı cümleye ait örnekleri sıralar Bir tekrar-sıralama senarysunda amaç en iyi ağırlık yöneyini, w, belirlemektir; öyle ki aynı N-listesindeki iki denenceden, a ve b, eğer a daha az sözcük hatasına sahipse, yeniden sıralandığında daha üst bir sıraya atansın (listenin üst sıralarına daha yakın lması) Mdel çıktılarının arasında fark, tanımlanmış bir ayrım eşik değerinden daha büyük lmalıdır (λ > 0): r a r b w,φ( a,y a ) Φ( b,y b ) > λ (38) Burada sıralar, sayısal sıralamanın tersidir; örneğin, r a = 1 ve r b = 2 ise r a r b larak tanımlıdır 16

26 Sıralama Algılayıcısı Tekrar-sıralamada dğrusal algılayıcı kullanıldığında kenar payı sıralara bağlıdır ve sıraların farkıyla rantılıdır (Shen ve Jshi, 2005): r a r b w,φ( a,y a ) Φ( b,y b ) τg(r a,r b ) (39) τ pzitif bir çarpan g() ise aşağıdaki gibi tanımlanmış kenar payı işlevidir: 1 1, r g(r a,r b ) = a r b r a r b (310) 0, r a r b Seçilen bu sıralama işlevi, listenin altındaki denencelerin arasında listenin üstündekilere göre daha büyük bir ayrım yapmasını amaçlamaktadır Ayrıca aşağıdaki kenar payısıra ilişkisinin krunmasını sağlar: r a r b r c { g(ra,r c ) > g(r a,r b ) g(r a,r c ) > g(r b,r c ) (311) Önceki çalışmadan (Arısy ve diğerleri, 2012) farklı larak biz öğrenme ranı çarpanı, ν, uyguluyruz ve güncelleme kuralını aşağıdaki gibi tanımlıyruz: w = wηg(r a,r b )(Φ( a,y a ) Φ( b,y b )) (312) Öğrenme ranı her dönem snrasında sönüm ranı ile çarparak küçültülür Sıralayıcı MIRA MIRA (Crammer ve Singer, 2003), her sınıf için bir tane asıl örnek eğiten bir sınıflandırma algritmasıdır Verilen örneğin dğru sınıf asıl örneği ile çarpımının en yüksek değer lması hedeflenir Dğru sınıf çarpımının öteki sınıf nkta çarpımlardan farkı kenar payı larak tanımlanır ve bu değer labildiğince artırılmaya çalışılır MIRA asıl örnekleri güncellerken öğrenme ranı mdelin sıradaki örnekte yaptığı hataya göre belirlenir Biz bu çalışmada MIRA yı değiştirerek sıralayıcı MIRA tanımladık (Dikici ve diğerleri, 2013) Bir asıl örneği eğitirken, asıl örnek güncellemelerini kenar payı işlevini sağlamayan ikililer üzerinden tanımlıyruz Mdel eğitimi aşağıdaki biçimde yapılmaktadır: w wτ ab (Φ( a,y a ) Φ( b,y b )) (313) ( ) τ ab = G g(ra,r b ) w,φ( a,y a ) Φ( b,y b ) Φ( a,y a ) Φ( b,y b ) 2 0, u < 0 G (u) = u, 0 u g(r a,r b ) g(r a,r b ), g(r a,r b ) < u (314) (315) Sıralayıcı DYM Sınıflandırıcı Destek Yöney Makinesi (DYM) nin bir türevi lan bu sıralayıcı, örnek ikililerinin luşturduğu kısıtlara göre (yüksek sıralı örneğin ayrım değeri düşük sıralı örneğinkinden yukarıda lmalıdır) en büyük kenar paylı üstün-düzlemi bulmaya çalışır 17

27 1 min w 2 w,w C a,b ξ ab st w,φ( a,y a ) Φ( b,y b ) 1 ξ ab (a,b) P, ξ ab > 0 (316) Buradaki C, ödünleşim değeri, P ise r a r b larak tanımlı ikililer kümesidir Bir bakıma ikililer arasında tanımlanmış bir sınıflandırma prblemi larak da düşünülebilir Biz bu çalışmada farklı sıralayıcı algritmaların aralarında ve sınıflandırıcılarla karşılaştırdık ve bu karşılaştırmada istatistiksel sınama yöntemlerini kullanarak farkların istatistiksel larak anlamlı lup lmadığına baktık 18

28 Bölüm 4 Bulgular 41 Farklı Başarım Ölçütlerinin Karşılaştırılması Şekil 41, hata sınamasının iki sınıflandırıcının eşit başarımı gösterdiğini söyleyen sıfır denencesini kabul ettiği, fakat AUC-ROC (alıcı işletim özellikleri eğrisinin altında kalan alanı kullanan sınama) ile AUC-PR (kesinlik-anma eğrisinin altında kalan alanı kullanan sınama) sınamalarının reddettiği bir örneği göstermektedir Sınıflandırıcılar c45 (karar ağacı) ve knn (en yakın k kmşu) lup veri kümesi UCI veri bankasından (Blake ve Merz, 2000) alınan musk2 verisidir İlk alt şekilde, hata dağılımları üst üste gelmektedir; bu da hata sınamasının kararını desteklemektedir AUC-ROC ve AUC-PR dağılımları birbirinden yeterince ayrık lduklarından AUC-ROC ve AUC-PR sınamaları sıfır denencesini reddetmektedirler Eğrilerin üstünde 05 karar eşiğine karşılık gelen nkta işaretlenmiştir ki bu hata sınamasının kullandığı değere karşılık gelmektedir Her iki eğri türünde de knn, c45 in hep üstündedir, dlayısıyla bu iki sınıflandırıcı tüm lası karar sınırları için farklı davranmaktadır Fakat sadece 05 karar sınırında birbirine yakınlaşırlar ve bu da hata sınamasının sıfır denencesini kabul etmesine neden lur Bu snuçtan, AUC-ROC ve AUC-PR sınamalarının hata sınamasının fark edemediği eşitsizlikleri fark edebildiğini, dlayısıyla güçlerinin daha yüksek lduğunu görebiliyruz Şekil 42 de hatanın sıfır denencesini reddettiği fakat AUC-ROC ile AUC-PR sınamalarının kabul ettiği bir örneği görüyruz İlk alt şekile bakarsak c45 ve dğrusal sınıflandırıcının (lda) musk2 veri kümesi üzerinde hata dağılımlarının birbirinden yeterince ayrık lduğu görülmektedir Buna karşın hem AUC-ROC hem AUC-PR dağılımlarında her iki sınıflandırıcı arasında istatistiksel bir fark görünmemektedir Eğriler kesişmektedir, ve kesişim nktasının slunda c45 daha iyi, sağında ise lda daha iyidir Her ne kadar hata sınaması bu iki sınıflandırıcı farklı dese de (çünkü 05 karar eşiğinde birbirlerinden ayrıklar), bütün kayıp değerleri üzerinden rtalama aldığımızda (eğri altında kalan alana bakınca) aralarında bir fark görünmemektedir, yani bu tür sınamaların daha düşük tip 1 hatası vardır 42 Multi 2 Test Snuçları 421 Deney Kurulumu Multi2Test ile ilgili deneylerde 38 veri kümesi kullandık (Ulaş ve diğerleri, 2012) Bu veri kümelerinden 35 tanesini UCI veri bankası ndan (Blake ve Merz, 2000), 3 tanesini de Delve 19