DESTEK VEKTÖR MAKĠNELERĠ KULLANARAK PATENT DEĞERLEME. YÜKSEK LĠSANS TEZĠ Seçil ERCAN

Transkript

1 ĠSTANBUL TEKNĠK ÜNĠVERSĠTESĠ FEN BĠLĠMLERĠ ENSTĠTÜSÜ DESTEK VEKTÖR MAKĠNELERĠ KULLANARAK PATENT DEĞERLEME YÜKSEK LĠSANS TEZĠ Seçil ERCAN Anabilim Dalı : Endüstri Mühendisliği Programı : Endüstri Mühendisliği HAZĠRAN 2011

2

3 ĠSTANBUL TEKNĠK ÜNĠVERSĠTESĠ FEN BĠLĠMLERĠ ENSTĠTÜSÜ DESTEK VEKTÖR MAKĠNELERĠ KULLANARAK PATENT DEĞERLEME YÜKSEK LĠSANS TEZĠ Seçil ERCAN ( ) Tezin Enstitüye Verildiği Tarih : 06 Mayıs 2011 Tezin Savunulduğu Tarih : 08 Haziran 2011 Tez DanıĢmanı : Yrd. Doç.Dr. Gülgün KAYAKUTLU (ĠTÜ) Diğer Jüri Üyeleri : Doç. Dr. Ferhan ÇEBĠ (ĠTÜ) Yrd. Doç. Dr. Alp ÜSTÜNDAĞ (ĠTÜ) HAZĠRAN 2011

4

5 ÖNSÖZ Bu çalışmada, patent tescil sürecinde yapay sinir ağları kullanılarak modelleme yapılmıştır. Patent tescil kararını sınıflandırma amacıyla Destek Vektör Makineleri kullanılmıştır. Tez çalışmam boyunca bilgi ve deneyimleri ile bana destek olan ve yol gösteren danışman hocam sayın Y. Doç. Dr. Gülgün Kayakutlu ya çok teşekkür ederim. Uygulama alanı olarak patent tescil sürecini seçmemde beni yüreklendiren ve desteklerini esirgemeyen Sayın Sertaç Köksaldı ya ve Ceren Pala ya, tez yazma deneyimini paylaşan ve her türlü yardımıma koşan Mine Işık a, sıkıntılı tez döneminde manevi desteğiyle moral sağlayan Levent Atahan a, Çağatay İris e, Didem Çınar a, Fatma Konukçu ya, yapay sinir ağları ve yazılımı ile ilgili sorularımı cevaplayan Erkam Güreşen e ve elbette hayatımın her döneminde bana güvenen, destek veren ve yanımda olan aileme sonsuz teşekkür ederim. Yüksek lisans tez çalışmalarım sırasında vermiş olduğu destekten dolayı TÜBİTAK BİDEB e de teşekkür ederim. Bu tez benim için akademik yaşama attığım ilk adım olarak büyük önem taşımaktadır. Yapılan çalışmaların gelecekte bu konu ile ilgili yapılacak çalışmalarda yol gösterici olmasını temenni ederim. Mayıs 2011 Seçil Ercan (Endüstri Mühendisi) iii

6 iv

7 ĠÇĠNDEKĠLER Sayfa KISALTMALAR... vii ÇĠZELGE LĠSTESĠ... ix ġekġl LĠSTESĠ... xi ÖZET... xiii SUMMARY... xv 1. GĠRĠġ PATENT TESCĠL SÜRECĠNDE ÖNCEKĠ ARAġTIRMALAR SINIFLANDIRMA PROBLEMLERĠ VE YAPAY SĠNĠR AĞLARI Genel Tanımlar Sınıflandırma Yöntemleri Yapay Sinir Ağları YSA Tarihçesi Tek Katmanlı ve Çok Katmanlı Algılayıcılar İleri Beslemeli ve Geri Beslemeli Ağlar Gözetimli Öğrenme ve Gözetimsiz Öğrenme Yapan YSA Yapay Sinir Ağları nın Kullanım Alanları Yapay Sinir Ağları Teknikleri Yapay Sinir Ağları nın Sınıflandırmada Kullanımı YÖNTEM: DESTEK VEKTÖR MAKĠNELERĠ Ayrılamayan Veriler için Optimal Hiper Düzlem Çekirdek (Kernel) Fonksiyonları UYGULAMA Uygulamanın Amacı Girdi Değişkenlerinin Belirlenmesi Veri Derleme Kullanılan Yazılım: NeuroSolutions Verilerin Yapay Sinir Ağları nda Uygulanması Destek Vektör Makineleri Geri-Yayılımlı Algoritma (Back Propagation) Kullanılan Tekniklerin Karşılaştırılması Verilerin Yer Değiştirilmesi Sonuçlar ve Çıkarım SONUÇLAR VE ÖNERĠLER KAYNAKLAR EKLER ÖZGEÇMĠġ v

8

9 KISALTMALAR AR-GE ART ÇKA DVM GA GYA IPC RTF YSA : Araştırma-Geliştirme : Adaptif Rezonans Teori : Çok Katmanlı Algılayıcılar : Destek Vektör Makineleri : Genetik Algoritma : Geri-Yayılımlı Algoritma : International Patent Classification : Radyal Tabanlı Fonksiyon : Yapay Sinir Ağları vii

10

11 ÇĠZELGE LĠSTESĠ Sayfa Çizelge 3.1 : XOR probleminin girdi ve çıktıları Çizelge 5.1 : Önceki çalışmalardan uygulamada kullanılacak kriterler Çizelge 5.2 : Uygulamada kullanılan değişkenler ve alabileceği değerler Çizelge 5.3 : Örnek veri kümesi Çizelge 5.4 : Uygulamada kullanılan farklı veri kümeleri için denemeler Çizelge 5.5 : DVM nin genetikle iyileştirilmediği modelin test sonuçları Çizelge 5.6 : DVM nin genetikle iyileştirildiği modelin test sonuçları Çizelge 5.7 : Geri-yayılımlı algoritma modelinin test sonuçları Çizelge 5.8 : DVM ve GYA modellerinin performans kriterleri Çizelge 5.9 : Verilerin yer değiştirmesiyle oluşturulan DVM modellerinin performanslarının karşılaştırılması Çizelge A.1 : Patent tescil süreciyle ilgili literatür çalışmaları Çizelge B.1 : Uygulama verileri Çizelge C.1 : GA ile iyileştirilmemiş DVM modelinin çıktıları Çizelge C.2 : DVM modelinin veri oranları 80:10:10 olan çıktıları Çizelge C.3 : DVM modelinin veri oranları 60:30:10 olan çıktıları Çizelge C.4 : DVM modelinin veri oranları 55:35:10 olan çıktıları Çizelge C.5 : GYA modelinin veri oranları 80:10:10 olan çıktıları Çizelge C.6 : GYA modelinin veri oranları 60:30:10 olan çıktıları Çizelge C.7 : GYA modelinin veri oranları 55:35:10 olan çıktıları Çizelge C.8 : DVM modelinin (80:10:10) yer değiştirilmiş verilerinin çıktıları Çizelge C.9 : DVM modelinin (60:30:10) yer değiştirilmiş verilerinin çıktıları Çizelge C.10 : DVM modelinin (55:35:10) yer değiştirilmiş verilerinin çıktıları Çizelge D.1 : Gizli katman-çıktı katmanı arasındaki optimum ağırlıklar ix

12 x

13 ġekġl LĠSTESĠ Sayfa ġekil 2.1 : Patent değeri modeli... 5 ġekil 3.1 : Sınıflandırma modelinin akışı ġekil 3.2 : Fisher in doğrusal ayırma analizine bir örnek ġekil 3.3 : Karar ağaçlarının genel yapısı ġekil 3.4 : Tipik bir işleme elemanı ġekil 3.5 : XOR probleminin grafiksel gösterimi ġekil 3.6 : XOR problemi için ağ topolojisi ġekil 4.1 : İki sınıfı ayıran vektörler ġekil 4.2 : Farklı ξ i durumlarına örnekler ġekil 5.1 : Patent başvurusu ve tescil/red süreci ġekil 5.2 : Patent tescil kararı için çok katmanlı YSA modeli ġekil 5.3 : Uygulama modellerinin doğruluk performansları ġekil 5.4 : Uygulama modellerinin göreli hata değerleri ġekil 5.5 : En iyi sonucu veren DVM nin ağ modeli ġekil 5.6 : NeuroSolutions ın DVM için yarattığı model xi

14

15 DESTEK VEKTÖR MAKĠNELERĠ KULLANARAK PATENT DEĞERLEME ÖZET Yenilik ve fark yaratma gereksinimi arttıkça bireysel ya da kurumsal fikirler geliştirilmekte, iletişim teknolojilerinin yaygınlığı nedeni ile her yeni fikrin korunması kaçınılmaz bir hal almaktadır. Fikri hak ve mülkiyetleri kanunları çerçevesinde her araştırmaya ve yeniliğe neden olacak fikrin korunması için patent tescil hakkı elde etmek önemli bir adım haline gelmiştir. Patent değerleme ile ilgili daha önce yapılan çalışmalarda genel olarak patentin ekonomik değeri ölçülmeye çalışılmıştır. Bu çalışmalar çoğunlukla patenti veren kurumlar için yapılmıştır. Patent başvurusunu yapan taraf için önceden bir saptama yapacak çalışma bulunamamıştır.bu araştırmanın amacı patent tescil kararı hakkında önceden kestirim yapabilecek bir yapay sinir ağı modeli oluşturmaktır. Patent tescil kararını etkileyen pek çok neden vardır. Patent aile sayısı, teknoloji sınıfı sayısı gibi kriterlere bağlı olarak değişen bu kararın tescil mi red mi olacağı önceden saptandığı takdirde başvuru sahibi bir ön fikir edinmektedir.başvurunun tescil olan veya reddedilen başvuru sınıflarından hangisine dahil olacağını kestirmek için sınıflandırma yapılmıştır. Genellikle istatistiksel yöntemlerle sınıflandırma yapılmaktayken dağılım bilgisi gerektirmemesi ve öğrenme algoritmaları açısından yapay sinir ağları kullanılmıştır. Bu çalışmada beyaz eşya sektörü ile ilgili tescil olmuş ve reddedilmiş patentler incelenerek yapay sinir ağları ile dinamik bir değerleme modeli oluşturulmuştur. Bu amaçla kullanılan yöntem Destek Vektör Makineleri dir (DVM). Çalışmada DVM ile en sık kullanılan yapay sinir ağı tekniği olan Geri-Yayılımlı Algoritma (GYA) karşılaştırılmıştır. Elde edilen sonuçlar DVM nin sınıflandırma performansının GYA dan daha iyi olduğunu göstermiştir. Eniyileme yaklaşımıyla hazırlanan model patent tescil kararının önceden kestirimine olanak sağlamıştır. Bu çalışma, patent başvurusunun başvuran tarafından değerlenmesi açısından alanında öncülük yapmaktadır. xiii

16 xiv

17 PATENT VALUE ANALYSIS USING SUPPORT VECTOR MACHINES SUMMARY Receiving patents or licenses is an inevitable part of research to protect new ideas that will lead for innovation potential to create global competitive advantage.every new idea deserves to be legally protected in the limits of intellectual property laws and therefore patent applications have increased exponentially. Measuring economical value of each patent has been widely studied in the literature. Majority of the research in this fieldis focused on the patent driver prospect. Additionally, there are not so many studies related to detect the determinants of patent granting decisions. The aim of this study is to form an artificial neural network model for predicting possible outcomes of patent appeals. There is a variety of criteria affecting decisions on each patent right such as; number of patent families, number of technological classes etc. Predicting the possibility of approval may help to take some precautions to assure the accaptance procedure. The classification strategy applied is based on determining the class in which related appeal is included. In general, statistical inferences are used to evaluatepatent candidates. As a new approach artificial neural networks may help to perform the analysis without the need of probability distribution function for each decision and taking benefits of learning. In this study, patents that are accepted and rejected in white good industry are analyzed to construct an artificial neural network model for dynamic classification. The technique used for this model is support vector machines. Results of the proposed model are compared with a generally accepted neural network approach, the back-propogation algorithm. It is shown with several experiments thatclassification performance of support vector machine is better than back-propogation algorithm. The proposed model in this study will help the decision makers to determine ahead whether patent appeal will be accepted or not. The study is unique with the approach that helps the applicant managers. xv

18 xvi

19 1. GĠRĠġ Teknolojik gelişmelerin hızla artışa geçtiği yirmibirinci yüzyılda araştırmaya verilen önem artmıştır. Fark yaratmak isteyen her üretici bireysel, kurumsal ve kurumlararası araştırmalar yürütmektedir. Bu çalışmalar süresince veya sonrasında ortaya çıkan yenilik fikirlerinin koruma altına alınması önemlidir. Daha önce sadece buluşlar için koruma hakkı sağlayan patent alımı, her yeni fikir için küresel ayrıcalık sağlamaktadır. Bunun için patent ofislerine başvuruda bulunulmaktadır. Patent başvurularının inceleme sonucunda tescil olması ya da reddedilmesi kararı, başvuru sahibi için kritik öneme sahiptir. Bir fikre dayalı araştırmanın, pazarı geliştirici bir fark yaratacağını ya da avantaj taşımadığını görmeküretici için maliyet açısından olduğu kadar pazar konumu açısından da önemlidir. İletişimin yaygınlaşması ve internet sayesinde düşüncelerinpaylaşılırolması, her yeni fikrin en kısa zamanda korunmasını zorunlu kılmaktadır. Patent için başvuru ile başlayan sürecin değerlendirme sonucunun açıklanmasına kadar geçen sürede yapılan harcamaları en aza indirmesi için kararın tahmin edilmesi yararlı olacaktır. Araştırma-Geliştirme (AR-GE) çalışmaları sonucu ortaya çıkan buluş fikirlerinin hepsi patent olmamaktadır. Patent almaya değer görülenler için başvuruda bulunulmaktadır. Başvuruların da bir kısmı tescil olabilmektedir. Bir patentin ekonomik değerini etkileyen patent göstergelerini dikkate alan birçok çalışma bulunmaktadır (Lanjouw ve Schankerman, 1999; Guellec ve Van Pottelsberghe, 2000; Ruiz ve Banet, 2008, 2009; Lai ve Che, 2009). Ancak patent başvurularını tescil olmadan önce değerlendiren çalışmalar pek bulunmamaktadır. Genellikle tescil olma olasılığını, patent ofisindeki uzmanların incelemesine bağlı olarak değerlendiren çalışmalar vardır (Lemley ve Sampat, 2009). Patent başvurusunun tescil olup olmayacağı kararının, başvuran tarafından değerlendirildiği ve önceden saptandığı bir modellemeye bu literatür taramasında rastlanmamıştır. Patent değerlendirme ile ilgili literatürdeki çalışmaların önemli bir kısmında istatistiksel yöntemler kullanılmıştır. Ancak patent tescil süreci boyunca patent göstergelerinin değerlerinde değişiklikler olabileceği için patent değerlendirmede 1

20 dinamik bir modellemeye gereksinim vardır. Öte yandan, Lai ve Che nin (2009) çalışmasında patentin parasal değerini saptamak için Yapay Sinir Ağları (YSA) ile tahmin modellemesi yapılmıştır. Çalışmanın bir sonraki bölümünde patent tescil süreci ile ilgili daha önce yapılan çalışmalar incelenmiştir. Bu süreçteki problemler ortaya konmuş ve çözümü için önceki çalışmalarda eksik görülen alan tespit edilmeye çalışılmıştır. Literatür taramasına ayrılan üçüncü bölümün ilk kısmında sınıflandırmada kullanılan yöntemler ve eksiklikleri anlatılmıştır; ikinci kısmında ise yapay sinir ağları teknikleri ve kullanım alanları açıklanmıştır. Aynı bölümün son kısmında sınıflandırma amacıyla yapay sinir ağları kullanan önceki araştırmaların özetlenmesine yer verilmiştir. Dördüncü bölümde yapay sinir ağları tekniklerinden biri olan ve genellikle sınıflandırmada kullanılan Destek Vektör Makineleri (DVM) algoritmasının doğrusal olarak ayrılabilen problemler için matematiksel olarak modellenmesi anlatılmıştır. Doğrusal olarak ayrılamayan problemler için de DVM nin geliştirilmiş modelinin matematiksel çıkarımları detaylandırılmıştır. DVM nin işleyişinin matematiksel olarak açıklanmasından sonra uygulamaya geçilmiştir. Çalışmanın beşinci bölümünde uygulama amacı, uygulamada kullanılan verilerin derlenmesi, yapay sinir ağları yazılımında önerilen modellerin uygulanması ve karşılaştırılması, modelin geçerliliğin kontrol edilmesi aşamaları açıklanmıştır. Altıncı ve son bölümde ise önceden belirtilen amaç doğrultusunda uygulama sonuçları yorumlanmış;çalışma sonuçlarının kullanılacağı alanlar belirtilmiş ve ileriki çalışmalar için önerilerde bulunulmuştur. 2

21 2. PATENT TESCĠL SÜRECĠNDE ÖNCEKĠ ARAġTIRMALAR Yeni bir ürün için patent alma işlemi ilaç sanayiinin kuruluşundan, yirminci yüzyılın başlarından beri Amerika dan dünyaya yayılmıştır (Url-1). Teknolojinin hızlı gelişimi ve yenilik süreçlerinin önem kazanması ile birlikte her sanayii alanında patent edinme 1990 yıllarından sonra büyük önem kazanmıştır. Bu çalışma, imalat sanayiinden kaynaklandığından literatür taraması yıllarını kapsayacaktır. Patentler, mühendisliğin ve teknolojinin ortak noktasında yer almaktadır (Lai ve Che,2009). Günümüzde gelişen teknoloji ile beraber yeni fikirlerin telif haklarını elde tutmak için patentlere olan önem de artmaktadır. Patent başvurularının yaklaşık %40 ının tescil olması, başvuru kalitesinin ve tescil sürecinin kritik olduğunu göstermektedir (Url-2). Patent tescil süreciyle ilgili yapılan önceki çalışmalar genel olarak, olasılık hesaplamaları (patent başvurusunun tescil olması, patente itiraz dosyalanması, diğer patentlere referans olması ile ilgili olasılıklar), patent belgesinin parasal değerinin modellenmesi veya patent tescil sürecini etkileyen değişkenlerle ilgili ilişkilerle ilgilidir. Bir patente atıfta bulunulması, aynı konuda yapılan çalışmalara yol gösterici olması açısından patentin değerini ve kalitesini göstermektedir. Csardi ve diğ. (2005) patentin atıf alma olasılığını hesaplamak için, stokastik bir modelleme kurmuştur. Bu olasılık hesaplanırken hali hazırda kabul edilen alıntı sayısı, patentin yaşı gibi göstergeler kullanılmıştır (Csardi ve diğ., 2005). Patent belgesinin kalitesini belirlemek için alıntılanma olasılığının hesaplandığı bir diğer çalışmada ise incelenen patenti referans gösteren bir belgenin marjinal etkisinin önemli olduğu tespit edilmiştir (Marco, 2006). Daha önce başvurulmuş patentlere veya üretimi yapılmış ürünlere dayanarak patent belgesine itiraz edilebilmektedir. Reitzig (2004) Çok Değişkenli Analiz (Multivariate Analysis) ile patente itiraz edilme olasılığını modellemiştir. Analizde ele aldığı kriterler patent aile sayısı, buluşçu sayısı, başvuran sayısı, alıntı sayısı, istem sayısı, bağımsız istem sayısı ve kelime sayısıdır. Bir patente itiraz edilmesi olasılığının 3

22 kaliteli kelime sayısına bağlı olduğu, bunun da teknik problemi tariflemede kullanılan kelime sayısı ve teknik avantaj sayısı gibi göstergelerle ilişkili olduğu sonucunu elde etmiştir (Reitzig, 2004). Yine Reitzig ile birlikte Harhoof a ait bir çalışmada (2004) istem sayısı, patent aile sayısı, teknoloji sınıfı (International Patent Classification-IPC) sayısı, başvuru ile tescil arasındaki süre, alıntı sayısı, atıf sayısı, başvuru sahibi firmanın patent portfolyo sayısı, ilgili teknoloji sınıfındaki kümülatif patent sayısı gibi kriterlerle patente itiraz edilmesi durumu analiz edilmiştir. Kriterlere ait tanımlayıcı istatistik değerleri hesaplanmış ve kriterler arasındaki korelasyon hesaplamaları ile birlikte bu kriterlere göre itiraz edilme olasılığı modeli oluşturulmuştur. Patent değerine bağlı olarak itiraz olasılığının arttığı sonucuna varılmıştır. Güçlü patentleme faaliyeti olan ve yüksek belirsizlik içeren alanlarda daha fazla itiraz gözlemlenmiştir. Jerak ve Wagner (2006) çalışmalarında patente itiraz edilme olasılığını modellemek amacıyla Bayes regresyon, Markov zinciri ve Monte Carlo simülasyonunu uygulamışlardır. Önceki araştırmalardan farklı olarak istem sayısı, koruma sağlanan ülke sayısı, alıntı yapılan patent sayısı, patente yapılan atıf sayısı gibi faktörlerin itiraz olasılığını doğrusal olmayan bir şekilde etkilediği sonucuna ulaşılmıştır. Bir patent başvurusunun tescil olması da birçok değişkene bağlıdır. Lemley ve Sampat (2009), patent başvurularının tescil olma olasılıkları için geliştirdikleri modelde doğrusal olasılık modelini kullanmışlardır. Tescil olasılığını hesaplarken ağırlıklı olarak patent uzmanlarının özelliklerini dikkate alan bu çalışmada uzmanların deneyimi, patent aile sayısı, değiştirilmesi istenen istem sayısı gibi kriterler ele alınmıştır. Lanjouw ve Schankerman (1999) patent değerini ve kalitesini değerlendirmek üzere istem sayısı, alıntı sayısı, atıf sayısı ve patent aile sayısı kriterlerini kullanarak Örtük Değişken Modeli (Latent Variable Model) ile modelleme yapmıştır. Dört farklı alanda uygulaması yapılan çalışmada, patente yapılan atıfların daha önemli olduğu, kalite ölçümünün ise patent yenileme ve dava açma kararlarıyla daha ilişkili olduğu sonucu elde edilmiştir. Ruiz ve Banet (2008), patent değeri için önceden yapılan çalışmalardaki tahminler ile patentin gözlenen değerini, kısmi en küçük kareler modelini (Partial Least Square Path Modelling) kullanarak dinamik bir şekilde karşılaştırmışlardır. Bir başka 4

23 çalışmalarında ise kısmi en küçük kareler modeli ile birlikte yapısal eşitlik modelini kullanarak patent değerini hesaplamışlardır (Ruiz ve Banet, 2009). Bu iki çalışmada da patent değerini etkileyen faktörler üç başlık altında toplanmıştır: bilgi birikimi (knowledge stock), teknoloji hedefi (technologic scope) ve uluslar arası hedef (international scope). Bilgi birikiminde patentin referans aldığı belgeler, buluşçu sayısı, başvuran sayısı değişkenleri yer almaktadır. Teknoloji hedefi, teknoloji sınıfı (IPC) sayısı ve istem sayısını; uluslar arası hedef ise Japonya rüçhanı ve Almanya rüçhanı değişkenlerini içermektedir. Şekil 2.1 de Ruiz ve Banet in kullandıkları patent değerinin ölçümü için oluşturdukları model görülmektedir. Alıntı Sayısı Buluşçu Sayısı Başvuran Sayısı IPC Sayısı İstem Sayısı Bilgi Birikimi Teknoloji Hedefi Patent Değeri Atıf Sayısı Patent Aile Sayısı Japonya Japonya Rüçhanı Almanya Rüçhanı Uluslar arası Hedef Almanya Avrupa ġekil 2.1 : Patent değeri modeli (Ruiz ve Banet, 2008, 2009). Lai ve Che nin (2009) çalışmasında patentin parasal değerini bulmak için yapay sinir ağları kullanılarak modelleme yapılmıştır. Çalışmada başlangıçta ele alınan 17 adet kriter faktör analizi ile 9 faktöre indirilmiştir. Bunun sonucunda modellemede kullanılan faktörler; başvuran sayısı, buluşçu sayısı, istem sayısı, bağımsız istem sayısı, ABD de alıntı sayısı, yabancı ülkeden alıntı yapılan patent sayısı, patent olmayan alıntı sayısı, patente atıfta bulunan patent sayısı, IPC sayısı, Amerikan patent sınıflandırma kodu sayısı, patent aile sayısıdır. Doğrusal regresyon analizi ile göstergelerden 7 tanesinin önemli olduğu sonucu elde edilmiştir: buluşçu sayısı, bağımsız istem sayısı, patent olmayan alıntı sayısı, atıf sayısı, başvurudan sonuca kadar geçen inceleme süresi, patentte yer alan resim sayısı, patent ömrü. Bu göstergeler, geri-yayılımlı yapay sinir ağları modeline girdi olarak verilmiş ve olası zararı hesaplamak veya patent ihlal durumu için parasal değeri görüşmek üzere bir değerlendirme yapılmıştır. 5

24 Patent değeri üzerinde etkisi olduğu bilinen kriterlerle birlikte yeni kriterler de incelenmektedir. Guellec ve Van Pottelsberghe nin (2000) regresyon yöntemini kullanarak yaptıkları bir çalışmada patentin rüçhan ülkesini gösteren patentleme stratejisinin, patentin uluslar arası yayılmasının da patent değeri üzerinde etkisi olduğu sonucuna varılmıştır. Bu çalışmada dikkate alınan patent değerlendirme kriterleri; Avrupa rüçhanı, uluslar arası rüçhan (Patent Cooperation Treaty-PCT), ulusal rüçhan, en az bir yerel buluşçu olması, en az bir yerel başvuran olması, buluşçu ve başvuranın aynı ülkeden olması, patent koruması sağlanan ülkelerdir. Araştırma-Geliştirme ye (AR-GE) yapılan yatırımların kaynaklarının da patent süreci üzerindeki etkisini inceleyen Sanyal (2003), sabit etkiler modeli ve Cobb Douglas modelini uygulamıştır. Patentin yayılma süresi, endüstriyel AR-GE yatırımı, üniversite destekli AR-GE gibi kavramlar göz önünde bulundurulmuştur (Sanyal, 2003). Sanyal ın (2004) diğer bir çalışmasında ise bir ülkedeki rejim değişiminin patent kalitesi üzerindeki etkisi incelenmiştir. Yerel rüçhanlı, yabancı rüçhanlı patent başvuruları kriterleriyle Sırasal Karar Oyunu (Sequential Decision Game) yöntemi kullanılarak inceleme yapılmıştır. Patent başvurusu ile patentin tescil olması arasında geçen süre, ilerlemenin sağlanması açısından önemlidir. Nakanishi ve Yamada (2008), bu süre ile patent başvuruları arasındaki ilişkiyi irdelemişlerdir. Devinim Tahmini için Genel bir Yöntem (Generalized Method of Moment estimator) ile patent başvurusuna atıfta bulunulması, yapılan AR-GE maliyeti, elde edilen kazanç kriterlerini kullanmışlardır. Alcácer ve diğ. (2008) patent başvurusunda firmanın atıfta bulunduğu belgeler ile patent ofisinin incelemesi sonucu gösterilen referans belgelerin de önemli olduğunu belirtmişlerdir. Bu çalışmada çok değişkenli regresyon ve varyans analizi yöntemleri kullanılmıştır. Başvuruyu yapan firmanın türü, başvuru rüçhanının yerel ya da yabancı olması, firmanın deneyimi, patent ofisindeki uzmanın deneyimi gibi kriterler çalışmada yararlanılan başlıca kriterlerdir. Patent başvurusunda alıntının Avrupa patentlerinden veya uluslar arası alanda geçerli olan patentlerden yapılmış olması da patentin kalitesini etkileyebilmektedir. Harhoff ve Wagner in (2006) çok değişkenli analiz yöntemini kullandıkları çalışmada uluslar arası patent sayısına bağlı olarak patentin kalitesi arttığında, başvurunun patent ofisi tarafından değerlendirilmesi sürecinin de kolaylaşacağı sonucuna varılmıştır.buradan 6

25 hareketle, başvuruda yer alan alıntıların kalitesinin, patentin tescil olmasında da etkili olması beklenmektedir. İncelenen çalışmalar ışığında patentin parasal değerini, tescil olma olasılığını etkileyen benzer göstergeler bulunduğu görülmektedir. Bu göstergeler dolaylı olarak patentin koruma sağlayacağı ülke kararını da etkilemektedir. (Ruzi ve Banet, 2009).Klemperer (1990) patentin ömrü ile koruma alanı arasındaki ilişkiyi olasılık hesaplamaları kullanarak incelemiştir. Patent koruması sağlanan ülke sayısı, maliyetler, patentli ürünlerin satışından sağlanan kazanç, patentin ömrü değişkenleri kullanılmıştır. Patent ömrünü uzunluk, koruma alanının kapsamını ise genişlik olarak ele almıştır. Sonsuz ömürlü ancak dar kapsama alanına sahip patentlerin yeniliği ödüllendirmek için sosyal açıdan etkili olduğu, patentin ömrü kısa ancak koruma kapsamı geniş olduğunda ise optimal duruma ulaşılacağı gösterilmiştir.gilbert ve Shapiro (1990) da Klemperer in çalışmasında olduğu gibi olasılık hesaplamaları ile patent ömrü ve koruma alanı arasında optimal bir strateji belirlemeyi amaçlamaktadır. Benzer değişkenlerle yapılan çalışma sonucunda sonsuz ömürlü bir patentte, buluş için gerekli ödülü sağlayacak şekilde patent genişliğinin ayarlanabildiği optimal patent politikası için koşullar önermişlerdir. Lerner (1994) ise patent korumasının etkisini incelemek amacıyla regresyon analizi yapmıştır. Uluslar arası teknoloji sınıfı sayısı, ABD de alıntı sayısı, patente karşı herhangi bir dava açılıp açılmadığı gibi değişkenler kullanarak patent koruma alanının genişliğinin, firma değerini önemli ölçüde etkilediği sonucuna varmıştır. Literatürdeki bu çalışmaların önemli bir kısmında istatistiksel yöntemler kullanılmıştır. Ancak patent tescil süreci boyunca patent göstergelerinin değerlerinde değişiklikler olabileceği için patent değerlendirmede dinamik bir modellemenin yapılması gerekmektedir. Lai ve Che nin (2009) çalışmasında ise patentin parasal değerini saptamak için Yapay Sinir Ağları (YSA) ile tahmin modellemesi yapılmıştır. Patent sürecinde modelleme ile ilgili incelenen çalışmaların kullandığı yöntem, değişkenler ve elde ettikler sonuçların yer aldığı çizelge Ek A da verilmiştir. 7

26 8

27 3. SINIFLANDIRMA PROBLEMLERĠ VE YAPAY SĠNĠR AĞLARI 3.1 GenelTanımlar Sınıflandırma, nesnelerin sınıf etiketlerini tahmin etmek amacıyla veri sınıflarını tanımlayan ve ayıran modeller (veya fonksiyonlar) kümesini bulma işlemidir (Han ve Kamber, 2000). Sınıflandırma analizi, elde edilmek istenen modelin, sınıf etiketleri bilinen verilerin eğitim verisi olarak kullanılması temeline dayanmaktadır. Sınıflandırmada hedef sınıflar bilindiği için kümeleme analizinden farklılık göstermektedir. Sınıflandırma analizi yapılırken hedef sınıf etiketleri bilinmektedir, yeni bir veri geldiğinde bu nesnenin ait olduğu sınıfın tahmini yapılmaktadır. Kümeleme analizinde ise veriler, benzer özelliklerine göre kümelenmektedir, analiz öncesinde hedef sınıf etiketleri bilinmemektedir. Sınıflandırma ve tahmin yöntemleri arasında da sınıf etiketleri (çıktı) özelliği açısından bir fark bulunmaktadır. Sınıflandırma analizinde çıktı değerleri kategorik etiketler yani kesikli değerler olarak tahmin edilmekte iken tahmin analizinde sürekli değer alan fonksiyonlar modellenmektedir (Leopold ve diğ., 2004). Sınıflandırma modelinin doğruluğu model tarafından doğru sınıflandırılan test kümesindeki örneklerin yüzdesine bağlıdır. Her örnek için bilinen sınıf etiketi ile modelin tahmin sınıfı karşılaştırılmaktadır. Doğruluk ölçütünün test kümesine uygulandığına dikkat çekmek gerekir, çünkü eğer eğitim kümesi üzerinden doğruluk ölçütüne bakılırsa öğrenme aşamasında olan model aşırı uyumluluk eğiliminde olduğu için iyimser bir sonuç çıkaracaktır. Bu nedenle sınıflandırma modelinin doğruluğu test kümesiyle değerlendirilmekte ve kabul edilebilir bir seviyede ise gelecekteki yeni örnekleri sınıflandırmada bu model kullanılabilmektedir (Leopold ve diğ., 2004). Sınıflandırma problemlerinin genel yapısı, m tane verinin, n tane kriterin fonksiyonuna göre incelenmesi sonucu q tane sınıftan birine girme kararından oluşmaktadır. Şekil 3.1 de sınıflandırma modeli için genel bir akış yer almaktadır (Doumpos ve Zopounidis, 2002). 9

28 Sınıflandırma modelinin özellikleri m veri n kriter q grup Sınıflandırma modelinin yeterliliğini kontrol et Eğitilmiş veriyle eniyileme Sınıflandırma modeli oluşturma verinin gireceği sınıfın kestirimi Eğitilmiş verilerin yeterliliğini kontrol et Gerçek sınıf ile modelin sınıfı benzer mi? Hayır Evet Yeni örneklerin sınıflandırılması için modeli kullan ġekil 3.1 : Sınıflandırma modelinin akışı (Doumpos ve Zopounidis, 2002). 3.2 Sınıflandırma Yöntemleri Sınıflandırma analizinde kullanılan temel teknikler şu şekilde sıralanabilir: 1. Fisher in Doğrusal Ayırma (Fisher s Linear Discriminant) Analizi 2. Karar Ağaçları (Decision Trees) 3. Sinir Ağları (Neural Networks) 4. Bayes Sınıflayıcıları (Bayes Classifier) Fisher in doğrusal ayırma analizi, varyansları dikkate alan istatistiksel bir tekniktir. Bu yöntem temel olarak kapsamlı doğrusal ayırma fonksiyonu bulmaya çalışmaktadır. Şekil 3.2 de verileri doğrusal olarak iki sınıfa ayıran bir grafik örneği görülmektedir. Sınıflar arasındaki sapmayı enbüyüklerken sınıf içindeki sapmayı enküçükleyecek bir grafik oluşturmaktadır (Wang ve diğ., 2004). 10

29 ġekil 3.2 : Fisher in doğrusal ayırma analizine bir örnek. Dağılımı bilinen veriler olduğu durumda bu tekniğin kullanılması yüksek sınıflama performansı sağlamaktadır (Hand ve diğ., 2001). Fisher yönteminde her örüntü rassal bir vektör olarak görülmektedir. Bu nedenle yöntemin sınıflandırma performansı örneklerin olasılık dağılımına dayanmaktadır. Analiz için toplanan veriler de genellikle ampirik veriler olup dağılımı bilinmemektedir. Ayrıca tahmin edilen dağılımın da doğrusal sınıflandırmaya uygun olması beklenmektedir (Wang ve diğ., 2004). Doğrusal ayırma analizinde sınıflandırma için kullanılan özelliklerin toplam sayısı, sınıf sayısının bir eksiği ile kısıtlanmaktadır (Xiang ve diğ., 2006). Ulaşılabilen özellik sayısı kısıtı nedeniyle bu yöntemin kullanım alanı, sınıf sayısı yüksek olan problemlerle sınırlanmaktadır. Bu açıdan diğer sınıflandırma yaklaşımları karşısında önemli bir eksikliği bulunmaktadır. Fisher in doğrusal ayırma analizi, belirtildiği gibi sınıflandırma için dağılım bilgisi gerektirdiğinden ve özellik sayısı için kısıtlama getirdiğinden pek tercih edilmemektedir. Karar ağaçları da sınıflandırma analizinde sıklıkla karşılaşılan bir tekniktir. Bir karar ağacı; kök düğümü (root node), dallar (branch) aracılığıyla yaprak düğüme (leaf node) bağlayan bir yapıdan oluşmaktadır. Yapı içinde aralarda yer alan düğümler ise karar düğümleri (decision node) olarak adlandırılmaktadır. Karar 11

30 ağaçlarının temel elemanları ve aralarındaki bağlantıyı gösteren yapı Şekil 3.3 te görülmektedir. Kök Düğüm Karar Düğümü Yaprak Düğüm Karar Düğümü Yaprak Düğüm Yaprak Düğüm Yaprak Düğüm Yaprak Düğüm ġekil 3.3 : Karar ağaçlarının genel yapısı. Kök düğüm ile başlayan karar ağacında, veriler karar düğümlerine gelindiğinde dallardaki her bir olası çıktı ile test edilmektedir. Her bir dal, bir karar düğümüne veya son düğüm olan yaprak düğüme bağlanmaktadır (Larose, 2005). Karar ağaçları hızlı öğrenmekte ve hızlı cevap vermektedir. Bu nedenle karmaşık algoritmalardan önce sınıflandırmanın doğruluğunu test etmek için kıyaslama amacıyla kullanılabilmektedir. Eğitim verilerinin tümünü hafızada tutmamaktadır. Bunun yerine karar ağacının yapısını, karar düğümlerinin parametrelerini, yaprak düğümlerin çıktı değerlerini depolamaktadır. Bu sebeple karmaşıklığı daha az olan bir yöntemdir (Alpaydın, 2004). Karar ağaçları temelde, test edilen özelliğin her bir değeri için bir dal oluşturmakta ve buna uygun olarak örnekleri dağıtmaktadır. Bunun sonucunda oluşan alt kümeler küçüldükçe örneklerin bölümlendirilmesi ile alt kümelerdeki veri sayısı azalmaktadır. Verilerin azalması da istatistiksel olarak yetersizliğe sebep olduğu için uygun bir örüntü çıkarmak imkansız hale gelmektedir. Bu problemi önlemek için özelliğin değerleri kategorik olarak birleştirilmekte ve böylece alt küme sayısı azaltılabilmektedir. Bir diğer yol ise ikili (binary) karar ağaçları kullanarak her özellik için iki dal oluşturulmasıdır (Leopold ve diğ., 2004). Ancak bu varsayımlar ile sınıflandırma performansının daha düşük olması beklenmektedir. Karar ağaçlarının bir diğer zayıf noktası ise herhangi bir anda, diğer bir deyişle bir dalın olduğu noktada, yalnızca bir özellik ile sınıflandırma yapılabilmesidir (Yang ve 12

31 Xu, 2005). Bu şekilde farklı özelliklerin bir arada sınıflandırılmasına eşzamanlı olarak bakılamaması, karar ağaçlarının kullanım alanını daraltmaktadır. Sinir ağlarıda sınıflandırma, kümeleme, tahmin gibi pek çok alanda kullanılmakta olup konuyla ilgili detaylı açıklamalar, çalışmanın ilerleyen kısımlarında (Bölüm 3.3 te) ele alınacaktır. Bayes sınıflayıcıları ise Bayes Teoremi ni temel alan istatistiksel bir sınıflandırma tekniğidir. Örnek olarak alınan verilerin ait oldukları sınıflarla üyelik ilişkisi kurarak sınıf tahmini yapılmaktadır. Koşullu olasılıklar dikkate alınarak özellikleri bilinen bir verinin, önceden belirlenen sınıf etiketlerine ait olma olasılıkları hesaplanmaktadır (Leopold ve diğ., 2004). Koşullu olasılığın genel formülü denklem (3.1) de verilmiştir. (3.1) Bayes Teoremi nde A olayı, sınıf etiketlerinden belli bir tanesine ait olması; B olayı ise sınıf etiketi bilinmeyen bir örneğin belli bir özellik kümesine sahip olması olsun. Bu durumda; - P(A B): B olayındaki özelliklere sahip olduğu bilinen bir örneğin, A olayı içindeki sınıfa ait olması olasılığını - P(B A): A olayı içindeki sınıfa ait olduğu bilinen bir örneğin, B olayındaki özelliklere sahip olması olasılığını - P(A): Herhangi bir örneğin A olayı içindeki sınıfa ait olması olasılığını - P(B): Herhangi bir örneğin B olayındaki özelliklere sahip olması olasılığını temsil etmektedir. Modelin, örnek verilerden P(B A), P(A) ve P(B) olasılıklarını öğrenmesi sonucu P(A B) olasılıkları hesaplanarak sınıf tahmininde bulunulmaktadır. Bayes sınıflandırıcıları tüm sınıfların a posteriori olasılıklarını karşılaştırmakta ve en yüksek olasılıkla bir sınıfa atama yapmaktadır. A posteriori olasılıkları ise genellikle bilinmediği için sonlu bir örneklemden tahmin edilmesi gerekmektedir. Verilerin kesin bir dağılıma uyması beklenmektedir (Wang ve diğ., 2004). Ancak birçok dağılım için bu tahmin zor olmaktadır. Bu nedenle tüm sınıfların normal dağılıma uyduğu varsayımı yapılmaktadır (Mika ve diğ., 1999). Bayes algoritmalarında yapılan bir diğer varsayım ise özelliklerin birbirinden bağımsız 13

32 olması durumudur (Yang ve Xu, 2005). Bu varsayımlar sebebiyle Bayes sınıflayıcıları ile sınıflandırma yapmak, sınıflandırmanın gerçek ile örtüşmesini olumsuz yönde etkilemektedir. 3.3 YapaySinirAğları Sinir ağları, basit işleme birimlerinden oluşan paralel dağıtık (parallel distributed) bir işleme algoritmasıdır. Söz konusu işleme birimleri, gözlemsel bilgiyi depolamak ve ulaşılabilir kılmak için doğal bir eğilime sahiptir. Sinir ağları temelde iki yönüyle beyine benzemektedir: 1. Bilgi, bir öğrenme süreciyle ağ aracılığıyla çevreden kazanılmaktadır. 2. Kazanılan bilgiyi depolamak için sinaptik ağırlıklar olarak bilinen bağlantı şiddetleri (strength) kullanılmaktadır (Haykin, 1999). Sinir ağları genel yapı itibariyle girdi, girdi katmanı, işleme elemanı, işleme katman(lar)ı, çıktı ve çıktı katmanından oluşmaktadır. Son dönemde yapılan detaylı bir tanıma göre ise bir sinir ağında bulunması gerekenler aşağıdaki gibi sıralanmıştır (Güreşen ve Kayakutlu, 2011): en az bir başlangıç düğümü, en az bir bitiş düğümü, başlangıç ve bitiş düğümü dışındaki tüm düğümler işleme (processing) elemanı olmak üzere en az bir işleme elemanı, her i düğümü ile bağlantılı bir durum değişkeni n i, k düğümünden i düğümüne olan bağlantıyla ilişkilendirilmiş bir ağırlık (w ki ), her i düğümü ile ilişkilendirilmiş bir sapma değeri (b i ), çoklu işleme elemanlarının en az ikisi paralel bağlantılı, verilen girdi için istenen çıktıyı modellemeye yardımcı olacak bir öğrenme algoritması, düğüm k dan düğüm i ye giden ki bağlantısı üzerinde k düğümünün çıktısı olarak nk kadar bir akış, her bir başlangıç düğümü en az bir bitiş düğümüne ve her bir bitiş düğümü en az bir başlangıç düğümüne bağlantılı, 14

33 k düğümünden i düğümüne yalnızca bir bağlantı. Yapay sinir ağlarında tipik bir işleme elemanının şematik gösterimi Şekil 3.4 te görüldüğü gibidir. Sapma x1 wk1 bk Girdi x2... xm... wk2 wkm Toplama fonksiyonu vk Çıktı yk Sinaptik ağırlıklar ġekil 3.4 : Tipik bir işleme elemanı (Güreşen ve Kayakutlu, 2011). Yapay sinir ağları (YSA), öğrenerek elde ettikleri bilgiler ile kendi davranışlarını oluşturmakta ve daha sonra benzer konularda benzer kararları vermektedirler (Öztemel, 2003) YSA Tarihçesi Warren McCulloch ve Walter Pitts, 1943 yılında ağlar üzerinden bilgi işleme ile ilgili genel bir teori ortaya koymuşlardır. İlk yapay sinir hücresinin oluşturulması bu dönemlerdedir (Müller ve Reinhardt, 1993). Günümüzde birçok öğrenme kuralının da temelini oluşturan Hebbian öğrenme kuralı da 1949 yılında Donald Hebb tarafından geliştirilmiştir e gelindiğinde Rosenblatt tarafından yapay sinir ağlarında önemli bir adım olan algılayıcılar (perceptron) geliştirilmiştir da tek katmanlı algılayıcıların problemleri çözme yeteneklerinin sınırlı olduğu görülmüş ve çalışmalar durdurulmuştur yılında algılayıcının sorunu olan XOR problemi, çok katmanlı algılayıcılar geliştirilerek çözülmüştür. Aynı yıllarda Kohonen tarafından bir kümeleme tekniği olan Özdüzenleyici Haritalar konusunda, Hopfield tarafından Hopfield ağları konusunda çalışmalar yayınlanmıştır yılında da Hopfield in çalışmalarının sonucu olarak Hinton ve arkadaşları Boltzman makinesi ni geliştirmişlerdir (Öztemel, 2003). 15

34 3.3.2 Tek Katmanlı ve Çok Katmanlı Algılayıcılar Algılayıcı, doğrusal olarak ayrılabilen örüntülerin (pattern) sınıflandırılması için kullanılan bir sinir ağının en basit şeklidir (Haykin, 1999). Çalışma prensibi, birden fazla girdiyi alarak bir çıktı üretmesine dayanmaktadır. Tek katmanlı yapay sinir ağları yalnızca girdi ve çıktı katmanlarından oluşmaktadır. (Öztemel, 2003). Ağırlıkların güncellenmesi algılayıcı yakınsama algoritması ile yapılmaktadır. Bu algoritmanın adımları şu şekildedir (Haykin, 1999): (3.2) b n : sapma y n : gözlenen değer d n : beklenen değer η : öğrenme oranı parametresi (0 < η 1) 1. Adım: Ağırlık vektörünün ilk değeri 0 alınır ve n = 1, 2, için de hesaplamalar yapılır. 2. Adım: Girdi vektörü x n ve beklenen çıktıd n algılayıcıya verilir. 3. Adım: Algılayıcının gerçekleşen çıktısı y n, signum fonksiyonu yardımıyla hesaplanır. (3.3) 4. Adım: Ağırlık vektörü güncellenir. (3.4) Eğer x n 1. sınıfa ait ise d n = +1 değerini, 2. sınıfa ait ise d n = -1 değerini almaktadır. Tek katmanlı algılayıcıların doğrusal olmayan problemleri çözmede yetersiz görülmesi sebebiyle çok katmanlı algılayıcılar (ÇKA) geliştirilmiştir. ÇKA da girdi ve çıktı katmanlarının dışında en az bir katman daha bulunmaktadır. ÇKA modeli için genellikle örnek olarak verilen problem XOR problemidir (Öztemel, 2003). 16

35 XOR probleminde 0 ve 1 değerlerinden oluşan dört örnek bulunmaktadır. x 1 ve x 2 girdi değerlerini, y ise beklenen çıktı değerlerini göstermek üzere problemin verileri Çizelge 3.1 de görüldüğü gibidir. Çizelge 3.1 : XOR probleminin girdi ve çıktıları. x 1 x 2 y x2 x1 ġekil 3.5 : XOR probleminin grafiksel gösterimi (Alpaydın, 2004). Şekil 3.5 te grafiksel gösterimde beklenen çıktı değeri 0 olan (x 1, x 2 ) = (0, 0) ve (1, 1) noktalarının karşıt köşelerde yer aldığı görülmektedir. Benzer şekilde beklenen çıktı değeri 1 olan (x 1, x 2 ) = (0, 1) ve (1, 0) noktaları da karşıt köşelerdedir (Haykin, 1999). Bu nedenle XOR problemi doğrusal olarak ayrılamamaktadır ve tek katmanlı algılayıcılar bu problemi çözmede yetersiz kalmıştır (Alpaydın, 2004). ġekil 3.6: XOR problemi için ağ topolojisi (Öztemel, 2003). 17

36 XOR probleminin topolojik yapısına bakılacak olursa çok katmanlı algılayıcı ağının iki girdi ve bir çıktı birimi olacaktır. Şekil 3.6 da XOR problemi için ağın topolojisi görülmektedir. Bir ara katmanda, iki ara katman birimi ile bu problemin çözüleceği varsayılmaktadır. Ara katman için bir adet, çıktı katmanı için bir adet eşik değer birimi bulunmaktadır (Öztemel, 2003). ÇKA ağının öğrenmesi, en küçük kareler yöntemine dayalı olan Delta Kuralı nın genelleştirilmiş bir halidir. Delta Kuralı ileri doğru hesaplama ve geriye doğru hesaplama olmak üzere iki aşamadan oluşmaktadır. Örnekler ile ağa verilen girdiler, ara katman(lar)dan geçerek çıktı katmanına gitmektedir. Ağın öğrenmesi sonucu elde edilen çıktılar, ileri doğru hesaplamanın kapsamındadır. Bu çıktılar ile örneklere ait gerçek çıktılar arasındaki farka bakılarak ağırlıkların yeniden güncellenmesi adımı ise geriye doğru hesaplama olarak adlandırılmaktadır. Bu aşamada beklenen ve gerçekleşen çıktı arasındaki hatayı enküçükleyecek ağırlıklar hesaplanmaya çalışılmaktadır (Öztemel, 2003). Girdi katmanındaki işleme elemanlarının çıktısı, sapmaları da içerecek şekilde gelen girdiler üzerinde hiçbir değişiklik yapılmadan ara (gizli) katmana gönderilmektedir. Girdilerin ağırlıklı toplamları, toplama fonksiyonu (f(net)) olarak alınmakta ve bunu ileri doğru yayan aktivasyon fonksiyonu ile gizli katman birimlerinin z h değerleri hesaplanmaktadır. Aktivasyon fonksiyonu olarak genellikle sigmoid fonksiyonu kullanılmaktadır. Bu fonksiyonun tercih edilmesinin sebebi sürekli bir fonksiyon olması ve türevinin kolaylıkla alınabiliyor olmasıdır (Alpaydın, 2004). (3.5) (3.6) Gizli katmanların işleme elemanları ve çıktı katmanının işleme elemanları benzer şekilde toplama ve aktivasyon fonksiyonları ile bir çıktı değeri üretmektedir. Delta kuralının geriye doğru hesaplama kısmında ise bu çıktılar (y n ) ile beklenen çıktılar (d n ) arasındaki farka bağlı olarak hata değeri (E n ) şu şekilde elde edilmektedir: (3.7) Toplam hatayı enküçüklemek için ağırlıklara göre türev alınarak 0 a eşitlenmektedir. Geriye doğru hesaplama yapılırken ilk olarak çıktı katmanı ile bir önceki gizli katman arasındaki ağırlıklar güncellenmektedir. Sonra sırasıyla gizli katman ile bir 18

37 önceki gizli katman arasındaki veya gizli katman ile girdi katmanı arasındaki ağırlıklar güncellenmektedir (Haykin, 1999; Alpaydın, 2004). (3.8) (3.9) (3.10) Ġleri Beslemeli ve Geri Beslemeli Ağlar İleri beslemeli yapay sinir ağları kendi içlerinde doğrusal olmayan statik ağlardır (Haykin, 1999). Bu ağlar, sinyallerin yalnızca girdiden çıktıya olmak üzere bir yönde hareket etmesine izin vermektedir (Welstead, 1994; Azadeh ve diğ., 2006). Çok katmanlı algılayıcılar, genellikle ileri beslemeli olarak bağlanmaktadır. İleri beslemeli yapay sinir ağlarına örnek olarak geri-yayılmalı algoritma, radyal tabanlı fonksiyon ağları, özdüzenleyici haritalar verilebilir (Haykin, 1999). Geri beslemeli yapay sinir ağları ise dinamik sistemlerdir ve bir denge noktasına ulaşıncaya kadar sürekli durumları değişmektedir. Geri beslemeli bağlantılar da genellikle tek katmanlı algılayıcılarda kullanılmaktadır (Haykin, 1999). Bu ağlara verilebilecek en temel örnek Yinelenen (Recurrent) Sinir Ağları dır Gözetimli Öğrenme ve Gözetimsiz Öğrenme Yapan YSA Yapay sinir ağlarında öğrenme yöntemleri gözetimli ve gözetimsiz öğrenme yöntemleri şeklinde ayrılabilmektedir. Gözetimli öğrenme (supervised learning), eğitim verilerinden öğrenmeyi sağlarken gözetimsiz öğrenme (unsupervised learning), Öklit uzaklığı gibi diğer işaretler aracılığıyla öğrenmektedir (Leopold ve diğ., 2004). Gözetimli öğrenmede algoritma, girdilerin fonksiyonu sonucu elde edilen çıktı ile gerçek çıktı arasındaki farkı enküçüklemeye çalışmaktadır (Alpaydın, 2004). Gözetimsiz öğrenme algoritmalarında girdi değişkenleri vardır ancak çıktı değişkenleri yoktur. Sistemin öğrenmesi, girdi değişkenlerindeki ilişkilerle sağlanmaktadır. Bu öğrenme sonucunda çıktı değişkenleri oluşmaktadır (Leopold ve diğ., 2004). 19

38 3.3.5 Yapay Sinir Ağları nın Kullanım Alanları Yapay sinir ağlarının kullanım alanları tahmin, sınıflandırma, kümeleme, ilişkilendirme, eniyileme olarak sıralanabilmektedir. Tahmin modellerinde, yapay sinir ağlarının kullanımı, diğer istatistiksel tekniklere göre genellikle daha iyi sonuçlar vermektedir (Şahin, 2002). Girdi değişkenleriyle hedef değişkenin değeri tahmin edilmeye çalışılmaktadır. Sınıflandırmada kategorik değerler hedeflenirken tahmin modellerinde sayısal (numeric) değerler beklenmektedir (Larose, 2005). Yapay sinir ağları tekniklerinden tahmin amaçlı kullanılan teknikler genellikle çok katmanlı algılayıcılar ve geri-yayılımlı algoritmalardır. Sınıflandırma, gözetimli öğrenmenin uygulama alanlarından biridir. Sınıflandırmada iki ya da daha fazla sınıfa/kategoriye ayrılabilen bir hedef değeri bulunmaktadır. Gerçekleştirilen öğrenme sonucunda girdi değişkenleri kümesinin ait olacağı en uygun sınıf tahmin edilmeye çalışılmaktadır (Larose, 2005). Doğrusal vektör parçalama, Adaptif rezonans teori, Destek vektör makineleri sınıflandırma alanında kullanılan başlıca yapay sinir ağı teknikleridir. Kümeleme, gözetimsiz öğrenme stratejisinin kullanıldığı bir uygulama alanıdır. Kümelemede benzer özellik taşıyan nesneler bir kümede toplanırken benzer olmayanlar diğer kümeler içinde yer almaktadır. Nesnelerin özelliklerinin karşısında, girecekleri belirli bir sınıf bulunmamaktadır. Bu nedenle gözetimsiz öğrenme gerçekleştirmektedir. Benzerliği enbüyükleyen ve mesafeyi enküçükleyen nesneleri homojen bir şekilde ayrıştırmaktadır (Larose, 2005). Yapay sinir ağlarıyaklaşımında en çok bilinen kümeleme tekniği Özdüzenleyici Haritalar dır (Self-Organizing Maps). İlişkilendirme, girdilerin hangi özelliklerinin (attribute) bir araya gelmesiyle kurallar oluşturacağını saptamaktadır. Market sepet analizi veya ilişki analizi (affinity analysis) olarak da bilinmektedir. İlişkilendirmenin amacı, iki ya da daha fazla özellik arasındaki ilişkiyi sayısallaştırmak için kurallar ortaya çıkarmaktır. İlişkilendirme kuralları If-then olarak şekillenmektedir (Larose, 2005). İlişkilendirmede yapay sinir ağlarından Hopfield ağları, Boltzmann Makine tekniği kullanılabilmektedir (Alpaydın, 2004). 20

39 Eniyileme problemleri, yapay sinir ağlarının bir diğer uygulama alanıdır. Sinir ağları modellerinde, başlangıç ağırlıkları ve performansı artırmak için bu ağırlıkların güncellenmesi hesaplamalarına göre iki tip problem bulunmaktadır. Birincisi sınıflandırma, örüntü tanıma gibi ileri beslemeli ağlar kullanan genel problemler iken diğeri, geri beslemeli ağları kullanan optimizasyon problemleridir. Optimizasyon amacıyla uygulanan geri beslemeli ağların en tipik örneği ise Hopfield ağlarıdır (Url- 3) Yapay Sinir Ağları Teknikleri Bir yapay sinir ağının kullandığı öğrenme stratejisi, öğrenme kuralı, toplama ve aktivasyon fonksiyonları, işleme elemanlarının topolojisine göre değişiklik gösteren çok sayıda yapay sinir ağı modeli geliştirilmiştir (Öztemel, 2003). Geri-Yayılımlı Algoritma: İleri beslemeli yapay sinir ağlarında, gözetimli öğrenme stratejisi kullanan ve tahmin modellerinde en sık kullanılan tekniklerden biri geriyayılımlı algoritmalardır. Bu algoritmada çıktıdan girdiye olacak şekilde geriye doğru ağırlıklar güncellenerek hatanın yayılması sağlanmaktadır. Bu nedenle geriyayılımlı algoritma ismini almıştır. Birinci katmanın ağırlıkları hesaplanırken sondan başa doğru gelindiği için değişimi (gradyanı) hesaplamada zincir kuralı kullanılmaktadır. Hataya göre gizli katman ve çıktı katmanı arasındaki ağırlıkların değişimi, bu değişime göre de girdi katmanı ve gizli katman arasındaki ağırlıkların değişimi hesaplanmaktadır (Alpaydın, 2004). Ağırlıklardaki düzeltmede Delta Kuralı uygulanmaktadır. Bu kuralda, öğrenme oranı parametresi η ile hatanın ağırlığa göre gradyanının çarpımının negatif olarak alınması, gradyan inişi yöntemi kullanıldığını göstermektedir. Ağırlıklardaki değişim yönünün negatif olması (denklem (3.9) da görüldüğü gibi), hata değerini düşürmeye yöneliktir (Haykin, 1999). Destek Vektör Makineleri: 1990 ların başlarında Vapnik in öncülüğünde (Boser, Guyon ve Vapnik, 1992; Cortes ve Vapnik, 1995; Vapnik, 1995, 1998) ortaya çıkarılan Destek Vektör Makineleri, gözetimli öğrenme ağlarında önemli bir tekniktir. Sınıflandırma ve doğrusal olmayan regresyon amacıyla kullanılabilmektedir. Bu teknikte temel amaç, karar yüzeyinde pozitif ve negatif örnekler arasındaki ayrımı enbüyükleyecek bir hiper düzlem (hyperplane) kurmaktır (Haykin, 1999). 21

40 Özdüzenleyici Haritalar: Kümelemede en sık kullanılan yapay sinir ağı olan Özdüzenleyici Haritalar tekniği, bir gözetimsiz öğrenme algoritmasıdır. Kohonen tarafından 1981 de ortaya konan Özdüzenleyici Haritalar da m-boyutlu girdi, daha az boyuta genellikle 2 boyuta- indirgenerek görüntülenebilmektedir. Böyle bir haritalama, benzer özellikteki elemanların kümelenmesinde kullanılmaktadır (Han ve Kamber, 2000). Bu teknikte girdidüğüm sayısı, veri kümesindeki değişken sayısına göre belirlenmektedir. Sistem, veri kümesindeki giriş vektörlerindeki bağımlılıkları dikkate alarak belirlenen bir limit değere kadar kurulan döngülerle referans vektörleri oluşturmaktadır. Öğrenme sonucunda çıktı değişkenleri elde edilmektedir. Ancak, veriler arasında anlamlı ilişkileri oluşturacak belli sayıda küme oluşmasını sağlamak amacıyla çıktıdüğüm sayısı için bir maksimum sayı belirlenmektedir (Zontul ve diğ., 2004). Çıktı düğümlerinin diğerleri arasında kazanan düğüm olmaya çabalaması, Özdüzenleyici Haritalar ın rekabetçi öğrenme temeline dayandığını göstermektedir (Larose, 2005). Doğrusal Vektör Parçalama: 1984 yılınca Kohonen tarafından geliştirilen Doğrusal Vektör Parçalama tekniği, destekleyici öğrenme stratejisi ile öğrenmektedir. Genellikle sınıflandırma problemlerinin çözümünde kullanılır. Girdilerin sınıflara ayrılması, en yakın komşu (nearest neighbour) kuralına göre gerçekleşmektedir. ÇKA daki ara katman(lar), bu teknikte Kohonen katman(lar)ına denk gelmektedir. Kohonen katmanındaki her eleman bir referans vektörünü göstermektedir. Kohonen katmanı ile çıktı katmanındaki elemanlar arasındaki ağırlıkların hepsi eğitim boyunca da sabit 1 değerini almaktadır. Girdi vektörü, en kısa uzaklıkta olduğu referans vektörün bağlı olduğu çıktı sınıfına ait olmaktadır. Her girdiye karşılık çıktı değerlerinden yalnızca biri 1 değerini alırken diğerleri 0 değerini almaktadır. Eğer sınıflandırma doğru ise referans vektör, girdi vektörüne yaklaştırılmaktadır. Bu aşama öğrenme katsayısı ile gerçekleştirilmektedir. Özdüzenleyici Haritalar da olduğu gibi kazanan vektör olma çabası bulunmaktadır (Öztemel, 2003). Adaptif Rezonans Teori: Öğrenme, bilgi depolama, kısa dönemli ve uzun dönemli hafıza, örüntü tanıma gibi fonksiyonların tanımlanması için bir matematiksel model olarak Grossberg tarafından geliştirilmiştir (Song ve diğ.,1998). En temel kullanım alanı ise sınıflandırmadır. Gözetimsiz öğrenme stratejisini kullanan Adaptif Rezonans Teori (ART) ağları, gerçek zamanlı çalışabilmekte ve çevrimiçi öğrenme 22

41 gerçekleştirebilmektedirler. Yeni durumlara uyum sağlamak için bir yandan öğrenmekte diğer yandan da unutabilmektedirler (Öztemel, 2003). Bir ART ağı girdilerin özelliklerini gösteren F1 katmanı ve ayrıştırılmış sınıfları gösteren F2 katmanından oluşmaktadır. Bu katmanlar arasında hem aşağıdan yukarı hem yukarıdan aşağı ağırlık vektörü vardır. Girdi özelliklerine göre F1 katmanının aktivasyonu belirlenmekte ve F1 katmanından gelen sınıflandırma bilgileri, F2 katmanındaki sınıflandırma ile eşleştirilmektedir. Arada benzerlik olmazsa ilgili girdi vektörü için oryantasyon modülü kullanılarak yeni bir sınıf oluşturulmaktadır (Öztemel, 2003). ART nin 1976 da ortaya çıkmasından sonra değişik ART ağları tanımlanmıştır. En yaygın kullanılanları sadece ikili değerlerden oluşan girdi vektörlerini kabul eden ART1 ağı ile sürekli değerleri de kabul eden ART2 ağı olmak üzere diğer ağlar da ART3, Bulanık ART, ARTMAP gibi başka modellerdir (Öztemel, 2003). Radyal Tabanlı Fonksiyon (RTF) Ağları: Aktivasyon fonksiyonu olarak radyal tabanlı fonksiyon kullanan sinir ağlarıdır. RTF ağlarında gizli katmandaki düğüm sayısı çok önemlidir. Çünkü buna bağlı olarak ağın karmaşıklığı ve yeterliliği de etkilenmektedir. Eğer gizli katmandaki düğüm sayısı yetersiz olursa, verinin ağ tarafından öğrenilmesi güçleşmektedir. Düğüm sayısı çok fazla olduğunda ise zayıf bir genelleme gerçekleşmektedir (Kurban ve Beşdok, 2009). Genel olarak sınıflandırma amacıyla da kullanılan bu ağlar, robotik sistemlerde sınıflandırma ile ilgilenmektedir (Alpaydın, 2004). Yinelenen Sinir Ağları: Geri besleme yapay sinir ağlarının en temel örneği olan ağlardır. Ağın işleme elemanlarının çıktıları yine ağa belirli bir şekilde geri gönderilerek girdi olarak kullanılmaktadır (Öztemel, 2003). Yinelenen sinir ağlarını tam geri dönüşümlü ve kısmi geri dönüşümlü ağlar olmak üzere ikiye ayırmak mümkündür. Tam geri dönüşümlü ağlarda, ağdaki herhangi bir birim, diğer herhangi bir birime bağlanabilmektedir ve her birim girdi, çıktı veya her ikisi olabilir. Kısmı geri dönüşümlü ağlarda ise gecikmeli gizli katman çıktılarını veya ağın çıktılarını ek girdi olarak geri beslemede kullanarak kısmi tekrar yaratır (Gupta ve diğ., 2000). Yinelenen sinir ağları arasında en çok kullanılan ve en kolay olan ağ Elman ağıdır (Öztemel, 2003). Bu ağların geri yayılımlı algoritmalardan en temel farkı destekli 23

42 öğrenme gerçekleştirmesi ve geri dönüşlerde düğümün öncelikle kendi kendini iyileştirmesidir (Alpaydın, 2004). 3.4 UygulamaVerisi Yapay Sinir Ağları, diğer istatistiksel sınıflandırma yöntemlerinde olduğu gibi veriler için dağılım bilgisi gerektirmez (Benediktsson ve diğ., 1990). Sinir ağları sınıflama amaçlı modelleme yaparken, girdi ağırlıklarını düzenleyerek ağın tahmin ettiği sınıf ile gerçek sınıf etiketi arasındaki uzaklığı enküçüklemeye çalışmaktadır. Eğitilmiş sinir ağlarından kurallar çıkarmak için pek çok algoritma geliştirilmiştir. Bu gelişmeler, sinir ağlarının sınıflandırma için kullanışlılığına katkı sağlamaktadır (Leopold, 2004). Adaptif Rezonans Teori (Adaptive Resonance Theory) Geri-yayılımlı Sinir Ağları (Backpropagation Neural Network) Doğrusal Vektör Parçalama (Linear Vector Quantization-LVQ) Yinelenen Sinir Ağları (Recurrent Neural Network) Destek Vektör Makineleri (Support Vector Machines) Çalışmanın bu bölümünde; Yinelenen Sinir Ağları (Recurrent Neural Network), Adaptif Rezonans Teori (Adaptive Resonance Theory), Geri-yayılımlı Sinir Ağları (Backpropagation Neural Network), Destek Vektör Makineleri (Support Vector Machines) tekniklerinin sınıflandırma amaçlı kullanımlarıyla ilgili çalışmalar yer almaktadır. Yinelenen Sinir Ağları (Recurrent Neural Networks), genellikle görüntü, ses, desen tanımlama şeklinde sınıflandırmalarda kullanılmıştır. Burrows ve Niranjan (1994) sınıflandırma için yinelenen sinir ağlarının kullanımıyla ilgili yayınladıkları çalışmada da konuşma tanımlama (speech recognition) yapmaktadırlar. Sınıflandırma için gözetimli sinir ağları kullanımıyla ilgili diğer bir çalışmada da yinelenen sinir ağları ile uygulama yapılmıştır (Sperduti ve Starita, 1997). Sınıflandırmada kullanılan diğer bir sinir ağları tekniği de Adaptif Rezonans Teori (ART) dir (Adaptive Resonance Theory). Song ve diğ. (1998), Bulanık Mantık ve ART yi bir arada kullanarak Bulanık ART tekniğinde sınıflandırma çalışması yapmışlardır. Çok değişkenli kimyasal verilerin kullanıldığı çalışmada Bulanık ART 24

43 ile geri-yayılımlı sinir ağları karşılaştırılmıştır. Bulanık ART nin geri-yayılımlı algoritmadan daha az eğitim zamanına ve daha az parametreye ihtiyaç duyduğu sonucu elde edilmiştir. Muchoney ve William (2001) Gauss ARTMAP sınıflandırma algoritması ile diğer ART yapay sinir ağları, karar ağaçları ve Bayes sınıflandırma algoritmalarını karşılaştırmışlardır. Gözetimli öğrenme kapsamında uygulama olarak bitki örtüsü indeks verileriyle haritalama yapılmıştır.çalışma sonucunda Gauss ARTMAP ile sınıflandırmanın daha iyi bir doğruluk değerine sahip olduğu gözlemlenmiştir. Akhbardeh ve diğ. (2008) ise çalışmalarında, gözetimli bulanık ART ile çok katmanlı algılayıcı (multilayer perceptron) ve rekabetçi sinir ağaçları (competitive neural trees) tekniklerinin karşılaştırma analizini yapmışlardır. Bu tekniklerin sınıflandırma performanslarını ölçmek üzere önceki çalışmalardan bilinen veri kümelerinden iris ve vowel ile birlikte biyolojik bir veri kümesi kullanılmıştır. Yüksek sınıflandırma performansı, yüksek öğrenme hızı ve çok düşük hesaplama yükü açısından bulanık ART tekniği diğer iki teknikten daha iyi sonuç vermiştir. Yapay sinir ağlarının sınıflandırmada kullanılmasıyla ilgili çalışmaların önemli bir bölümünde Destek Vektör Makineleri (DVM) tekniği yer almaktadır. Bu çalışmaların bir kısmında yalnızca DVM tekniği kullanılmaktayken bir kısmında da geri-yayılımlı yapay sinir ağları ile DVM karşılaştırması yapılmaktadır.benediktsson ve diğ. (1990) çok kaynaklı verilerin sınıflandırılmasında çok katmanlı sinir ağları ile istatistiksel yöntemleri karşılaştırmışlardır. Sinir ağlarında, istatistiksel yöntemlerde olduğu gibi verilerin dağılım fonksiyonunun bilinmesine ihtiyaç yoktur. Bu nedenle dağılımı bilinmeyen veriler söz konusu olduğunda ve eğitim süresi makul bir süre olduğunda sinir ağları modelini kullanmak daha uygun olmaktadır. Chen ve diğ. (2007) lösemi hastaları veri tabanında Destek Vektör Makineleri ile sınıflandırma yaparak hastalığın teşhisi için model önermişlerdir. DVM nin açıklama sığasını (kapasitesini) geliştirmek için özellik (feature) seçimi, kural çıkarma ve model tahmin etmeyi içeren çoklu Kernel yöntemi kullanılmıştır. Rosipal ve diğ. (2003) sınıflandırma için Destek Vektör Makineleri ile birlikte boyut indirgeme için kısmi en küçük kareler yöntemini temel alan bir çalışma yapmışlardır. Doğrusal bir çekirdek (Kernel) ile kısmi en küçük kareler yöntemi kullanarak sınıflandırma performansını düşürmeyecek şekilde boyut indirgeme sağlanmıştır. Ivanciuc (2007),çekirdek temelli tekniklerden biri olan Destek Vektör Makineleri yönteminin, 25

44 kimya alanında pek çok uygulamasından bahsetmektedir: ilaç tasarımı, kemometrik (kromatografik ayırmanın optimizasyonu vebileşik konsantrasyon tahmini), sensörler (sensör verilerinden nitel ve nicel tahminlerde bulunma). DVM nin kimya alanında sınıflandırmada kullanılmasında ise suyla ilgili kirleticilerin sınıflandırılması, kimyasal bileşiklerin kokularına göre ayrılması, inhibitör olan ve olmayan maddelerin içindeki kimyasalların sınıflandırılması ele alınmıştır. Martens ve diğ. (2007) DVM tekniği ile diğer yapay sinir ağları tekniklerini kural çıkarma performansı açısından değerlendirmişlerdir. Uygulama verisi olarak çok-sınıflı iris veri kümesi, Ripley in sentetik veri kümesi ile birlikte medikal teşhis ve kredi skorlama verileri kullanılmıştır. DVM tekniğinin, diğerleri arasında en iyi performans gösteren sınıflandırıcı olduğu sonucuna varılmıştır. Castroa ve diğ. (2007) bulanık sistemler ile DVM tekniği arasındaki ilişkiyi incelemiştir. XOR problemi, iris sınıflandırma problemi gibi bilinen problemlere DVM ile bulanık kurallar çıkararak doğruluk, tutarlılık, anlaşılabilirlik açısından değerlendirme yapılmıştır. Xu ve diğ. (2009), kredi skorlama için DVM tekniği ile iki aşamadan oluşan bir algoritma geliştirmiştir. İlk aşamada kredi başvurusu yapanların bilgileri, ikinci aşamada kullanılmak üzere girdi vektörü olarak birleştirilmiştir. İkinci aşamada ise genel bir DVM modelini temel alan bir algoritma önerilmiştir. Klasik DVM tekniğine göre bazı değişiklikler ile maliyetle ilişkili sınıflandırma performansında önemli ölçüde gelişme elde edilmiştir. Moavenian ve Khorrami (2010) tarafından veri indirgeme veya özellik çıkarımı yapmadan DVM ile çok katmanlı ve geri-yayılımlı yapay sinir ağları karşılaştırılmıştır. Eğitim süresi ve eğitim performansı açısından DVM daha iyi sonuç verirken test performansında klasik yöntemle daha iyi sonuç elde edilmiştir. Barakat ve Bradley (2010) de DVM ile klasik yapay sinir ağları yöntemlerini bazı ölçütlere göre karşılaştırmıştır. Bu iki yöntem; öğrenme parametreleri, değişkenler, öğrenme bilgisi, karar fonksiyonu açısından benzerlik göstermekte iken kural çıkarma amacına göre, doğruluk ve anlaşılabilirlik ölçütleri açısından yöntemlerin performansları değişiklik gösterebilmektedir. Erişti ve diğ. (2010) güç sistemlerinin bozucu etkilerini sınıflandırmak amacıyla DVM tekniğini kullanmıştır. Çalışmada öncelikle birkaç farklı özellik çıkarma tekniği kullanılarak özellikler çıkarılmıştır. Bu özelliklerden en iyi sınıflandırma doğruluğuna sahip olanlar alınarak DVM sınıflandırıcı için en uygun girdi vektörü araştırılmıştır. DVM nin kernel ve ceza parametreleri için en küçük yanlış sınıflandırma hatasını veren değerler hesaplanmıştır. Daha önce yapılan 26

45 çalışmalardaki yaklaşımlara göre daha sağlam ve daha yüksek sınıflandırma doğruluğuna sahip sonuçlar elde edilmiştir. 27

46 28

47 4. YÖNTEM: DESTEK VEKTÖR MAKĠNELERĠ Destek vektör ağları, Vapnik öncülüğünde bir dizi çalışma sonucu 1990 lı yıllarda ikili sınıflandırma için geliştirilmiştir (Haykin, 1999). Bu yöntemin amacı, iki sınıfın vektörleri arasındaki enbüyük uzaklık ile doğrusal karar fonksiyonu olarak bir optimal hiper düzlem oluşturmaktır (Cortes ve Vapnik, 1995). Destek vektör ağları, girdi vektörlerini bazı doğrusal olmayan haritalar aracılığıyla yüksek boyutlu uzaya haritalamaktadır. Tekniğin ilk uygulaması, hatasız eğitim verilerini ayırma üzerine yapılmıştır. Bu teknikle yüksek bir performansla ayırma için karar yüzeyi oluşturulmuştur (Cortes ve Vapnik, 1995). Hiper düzlemin her iki tarafında yer alan noktalardan düzleme en yakın olanları arasındaki uzaklık marjin olarak adlandırılmaktadır (Alpaydın, 2004). Bu uzaklık ne kadar büyük olursa, düzlemin iki ayrı bölgesindeki noktalar o kadar yüksek performansla sınıflandırılmış olacaktır. Primal Optimizasyon Problemi: (4.1) Bu modelde ağırlık vektörü, sabit sapma değeri, girdi vektörünü temsil etmektedir. ise hiper düzlemin negatif ya da pozitif kısmında kaldığını gösteren sınıf etiketini tanımlayan +1 (pozitif) veya -1 (negatif) değerlerini almaktadır. Yapay sinir ağlarında en basit çıktı fonksiyonu (4.2) şeklinde hesaplanmaktadır. Destek vektör makinelerinin temelinde -1 ve +1 olmak üzere iki çıktı değeri olduğu için çıktı fonksiyonu da ona uygun olarak düzenlenmektedir. Bu durumda beklenen çıktının -1 veya +1 olması durumuna göre (w, w 0 ) ikilisinin şu kısıtları sağlaması gerekmektedir: (4.3) 29

48 (4.4) Beklenen çıktı için -1 veya +1 değerleri yerine sınıf etiketini gösteren r i değişkeni konularak, kısıtın genelleştirilmiş hali şu şekilde ifade edilebilmektedir: (4.5) Bu kısıtları eşitlik durumunda sağlayan (x i, r i ) noktaları, destek vektörleri olarak adlandırılmaktadır. Bu vektörlerin bulunmasını sağlayan bilişim algoritmalarıdestek vektör makineleri olarak anılmaktadır (Haykin, 1999). (4.6) Optimal hiper düzlemi veren eşitlik ise aşağıdaki gibidir: (4.7) Destek vektörlerinin optimal hiper düzleme olan cebirsel uzaklığı hesaplanırken bu kısıttan ve ağırlıkların normundan yararlanılmaktadır. Ayırma düzlemine olan uzaklık genel olarak (4.8) şeklinde ifade edilmektedir. DVM de olduğu için (4.9) olarak yeniden yazılabilmektedir. ġekil 4.1 : İki sınıfı ayıran vektörler. 30

49 Şekil 4.1 de a ve c doğruları destek vektörlerini b doğrusu ise optimal hiper düzlemi göstermektedir. Pozitif veya negatif bölgede, optimal hiper düzleme en yakında bulunan noktanın bu düzleme uzaklığı ρ ile ifade edilmektedir. (4.10) Primal optimizasyon problemindeki amaç fonksiyonu ile kısıt arasındaki ilişki, bu eşitsizlikten gelmektedir. Bu durumda optimal ayırma düzleminin her iki tarafındaki en küçük uzaklık, destek vektörlerinin optimal hiper düzleme uzaklığıdır ve olmak üzere, toplam marjin en az olacaktır. Primal optimizasyon probleme göre doğrusal olmayan bir amaç fonksiyonuna ve doğrusal bir kısıta sahip bir model elde edilmektedir. Kısıtlı optimizasyon problemlerini çözerken Lagrange çarpanları yöntemi kullanılabilmektedir. Lagrange gevşetme olarak da bilinen bu yöntemin genel kurallarına göre (Bertsekas, 1999) mevcut primal optimizasyon probleminin doğrusal gevşetme fonksiyonu şu şekilde olmaktadır: (4.11) değişkenleri, Lagrange katsayılarını göstermek üzere olmalıdır. Primal optimizasyon probleminin (standart optimizasyon problemi) karmaşıklığı girdilerin boyutuna bağlıdır. Lagrange gevşetmesi ile standart optimizasyon probleminin, konveks optimizasyon problemine çevrilmesi ile eğitim verisi sayısına bağlı bir forma dönüştürülmesi sağlanmıştır. Konveks optimizasyona çevrilmesi problemin çekirdek (kernel) fonksiyonları temelinde yazılabilmesinde de avantaj sağlayacaktır (Alpaydın, 2004). Karush-Kuhn-Tucker (KKT) koşulları, optimizasyon teorisinde çok önemli bir yere sahiptir. Eşitsizlik halindeki kısıtlara ve doğrusal olmayan amaç fonksiyonuna sahip olan optimizasyon problemlerinde KKT koşulları uygulanmaktadır. Bu koşullar (1) tümler gevşeklik koşulları, (2) işaret kısıtlamaları, (3) gradyan eşitlikleridir. 31

50 ve olmak üzere KKT koşulları şu şekilde yazılmaktadır: Tümler gevşeklik koşulu: (4.12) İşaret kısıtlamaları: Primal problem enküçükleme problemi olduğu için ve her i için tüm kısıtlar kısıtı olduğundan Lagrange katsayıları 0 a eşit veya 0 dan büyük olacaktır. (4.13) Gradyan eşitlikleri:değişkenler w i ve w 0 olmak üzere gradyan eşitlikleri şu şekilde hesaplanmaktadır. (4.14) (4.15) Primal optimizasyon problemi, konveks maliyet fonksiyonu ve doğrusal kısıtlarla ilgilenmektedir. Böyle bir kısıtlı optimizasyon problemini, dual probleme dönüştürmek mümkündür (Haykin, 1999). (4.16) Optimallik koşullarından gelen olduğu ve ağırlık vektörü w nun toplamına eşit olduğu bilgisi ile dual problemin düzenlenmiş fonksiyonu aşağıdaki gibidir: (4.17) Bu fonksiyon, Lagrange çarpanı ya bağlı olarak yazılırsa çarpımı (4.18) denklemine eşit olacağından amaç fonksiyonu (4.19) 32

51 olacaktır. Dual optimizasyon problemi, maliyet enküçükleme problemi olan primal optimizasyon probleminin tersine bir enbüyükleme problemidir. Problemin dualinde, Lagrange çarpanı leri bulmak için amaç fonksiyonunu enbüyüklemek gerekecektir. Dual Optimizasyon Problemi: (4.20) Dual problemin çözümünde değerlerini veren kümesi destek vektörler olmaktadır. Çözümden elde edilen optimum Lagrange çarpanları kullanılarak denklem (4.14) ten optimum ağırlık vektörü kolaylıkla hesaplanabilmektedir.buna göre optimum ağırlık vektörü, destek vektör olarak seçilen eğitim verilerinin ağırlıklı toplamları olarak da ifade edilebilmektedir. (4.14) En iyi w 0 ı bulmak için de pozitif destek vektörü (r = 1) ve optimum ağırlık vektöründen (w) yararlanılmaktadır: (4.21) 4.1 Ayrılamayan Veriler için Optimal Hiper Düzlem Doğrusal olarak ayrılamayan problemler için en iyi hiper düzlemi bulmak, bazı hataları da beraberinde getirmektedir. Bu hatalara bağlı olarak da ceza maliyetleri oluşmaktadır. Denklem (4.5) i sağlamayan herhangi bir ( x i, r i ) noktası,iki çeşit hataya sebep olabilmektedir. (4.5) Bu hatalardan biri noktanın, karar yüzeyinin doğru bölgesinde ancak marjinin içinde yer almasıdır.diğeri ise noktanın, karar yüzeyinin yanlış bölgesinde yer alması ve dolayısıyla yanlış sınıflandırılmasıdır. Ayrılamayan veriler için negatif olmayan skaler değişkenler kümesi (ξ i ) tanımlanmaktadır. Gevşek(dolgu-slack) değişkenler olarak adlandırılanξ i lerin, karar yüzeyindeki etkisi şu şekilde gösterilmektedir (Haykin, 1999): 33

52 (4.22) ξ i nin alacağı değerlere göre farklı durumlar ortaya çıkmaktadır (Alpaydın, 2004). i. ξ i = 0 ise ( x i, r i ) noktası doğru sınıflandırılmıştır ve ayırma yüzeyine yeterli uzaklıktadır. ii. 0 <ξ i < 1 ise ( x i, r i ) noktası doğru sınıflandırılmıştır ancak marjinin içinde kalmıştır, ayırma yüzeyinden yeterli uzaklıkta değildir. iii. ξ i 1 ise ( x i, r i ) noktası yanlış sınıflandırılmıştır, ayırma yüzeyinin yanlış bölgesindedir. ġekil 4.2 : Farklı ξ i durumlarına örnekler. Şekil 4.2 dec doğrusu pozitif destek vektör kabul edilirse C1 ile gösterilen nokta yukarıda tanımlanan birinci duruma örnek teşkil etmektedir. Hiper düzlemden yeterli uzaklıkta ve doğru (pozitif) bölgede yer almaktadır. C2 noktası da yine doğru bölgede olmasına rağmen optimal hiper düzlemden yeterince uzakta değildir, ξ i nin (0, 1) aralığında olduğu duruma örnektir. C3 noktası ise pozitif bölgede olması gerektiği halde negatif bölgededir, yanlış sınıflandırılmıştır. Bu iki tip hata için düzenleme (regularization) (Kavzoğlu ve Çölkesen, 2010) parametresi olarak da ifade edilen bir ceza katsayısı (C) belirlenmektedir. Toplam hataya bağlı olarak toplam cezayı da enküçüklemek gerekecektir. Bu nedenle bir enküçükleme problemi olan primal optimizasyon problemine pozitif olarak eklenmektedir. C parametresi, ayırma düzleminin karmaşıklığı ile hatasız sınıflandırılamayan noktaların sayısı arasındaki tercihi (tradeoff) kontrol etmektedir (Haykin, 1999). Destek vektör makinelerinin öğrenme parametrelerinden biri olan C parametresinin alacağı farklı değerler, sınıflandırma çıktısını etkilemektedir. Eğer 34

53 Cçok büyük alınırsa sınıflandırma doğruluğu, eğitim aşamasında yüksek çıkacaktır ancak test aşamasında düşük olacaktır. Eğer C çok küçük alınırsa da modeli kullanışsız yapacağı için anlamsız olacaktır (Lin ve diğ., 2007; Ivanciuc, 2007). Ceza maliyeti küçük olacağından hatalı sınıflandırmaların toplama katkısı küçük olacaktır, böylece hatalı sınıflamaları azaltmak pek mümkün olmayacaktır. Daha önce belirtilen amaç fonksiyonunun dışında hatalardan kaynaklanan ve enküçüklenmesi gereken ceza maliyeti şu şekilde hesaplanmaktadır (Cortes ve Vapnik, 1995): (4.23) σ= 1 alındığında bu fonksiyon, birinci dereceden bir fonksiyon olmaktadır (Cortes ve Vapnik, 1995). Böylece sapmaların toplamı, C parametresi kadar ceza maliyetini oluşturmaktadır. 0 ξ i < 1 arasında sapmalar arttıkça, ilgili destek vektörden uzaklaşmakta ve ξ i 1 olduğunda yanlış bölgede sınıflandırılmış olmaktadır. Bu nedenle ξ i ler büyüdükçe sınıflandırma performansı katlanarak kötüleşmektedir. Bu durumun amaç fonksiyonuna katkısı ise σdeğerinin 1 den büyük alınmasıyla sağlanabilir. Ancak daha önce belirtildiği gibi problemin karmaşıklığını azaltmak için σ = 1 olarak alınmaktadır. Doğrusal olarak ayrılamayan Primal Optimizasyon Problemi: (4.24) Hataları da içeren primal problemde Lagrange fonksiyonu yazılacak olursa (Alpaydın, 2004): (4.25) µ i katsayıları, yeni primal problemdeki kısıtı için Lagrange katsayılarını göstermektedir. Diğer bir söylemle ξ i leri pozitif olmaya zorlamaktadır (Burges, 1998). 35

54 Doğrusal olarak ayrılamayan yeni problemde amaç fonksiyonu ve birinci kısıt kümesi olmak üzere KKT koşulları şu şekilde yazılmaktadır:, ikinci kısıt kümesi Tümler gevşeklik koşulu: (4.26) (4.27) İşaret kısıtlamaları: Primal problem enküçükleme problemi olduğu için ve her i için tüm kısıtlar kısıtı olduğu için Lagrange katsayıları 0 a eşit veya 0 dan büyük olacaktır. (4.28) (4.29) Gradyan eşitlikleri:değişkenler w i, w 0 ve ξ i olmak üzere gradyan eşitlikleri şu şekilde hesaplanmaktadır. (4.30) (4.31) (4.32) Yeni dual problemdeki tüm Lagrange katsayıları ve lerin toplamı da C ye eşit olmaktadır (Burges, 1998). Bu denklemlere göre gerekli düzenlemeler yapıldığında yeni dual problem elde edilmektedir. Doğrusal olarak ayrılamayan Dual Optimizasyon Problemi: (4.33) 36

55 4.2 Çekirdek (Kernel) Fonksiyonları Destek vektör makinelerinin diğer bir öğrenme parametresi çekirdek fonksiyonları dır.kullanılan çekirdek fonksiyona göre uygun parametrelerin seçilmesi gerekmektedir (Lin ve diğ., 2007). Destek vektör makinelerinin orijinalinde olduğu gibi doğrusal olmayan bir problemi uygun bir temel fonksiyon seçerek doğrusal olmayan dönüşüm problemiolarak yeni bir uzaya yerleştirilebilir. Bu dönüşümle beraber yeni uzayda doğrusal model kullanılabilmektedir (Alpaydın, 2004). a priori olasılık olarak tanımlanırsa hiper düzlemin ayırma yüzeyi (4.34) şeklinde yazılabilmektedir (Haykin, 1999). Bu denklemle ağırlık vektörünün, belli bir olasılık fonksiyonu ile değerlendirilmesi sağlanmaktadır. Böylece doğrusal olmayan problemin boyutu düşürülmektedir. Lagrange fonksiyonunun ağırlık vektörüne göre türevinden bulunan denklem (4.9) da, x yerine a priori yerleştirildiğinde ağırlık vektörü şu şekilde yazılmaktadır: (4.35) Bu durumda ayırma yüzeyinin fonksiyonu, ağırlık vektörünün bileşenleri ile özellik (feature) vektörü nün çarpımından oluşmaktadır: (4.36) Çekirdeklerdeana fikir, temel fonksiyonun iç çarpımı ( fonksiyonu K(x, x i )yerleştirmektir. ler çarpımı)yerine kernel (4.37) Kernel fonksiyonu, optimal hiper düzlem için ayırma yüzeyi fonksiyonunda iç çarpım yerine yerleştirildiğinde şu denklem elde edilmektedir: (4.38) Buna bağlı olarak yeni model şu şekilde yeniden yazılmaktadır: Çekirdek Optimizasyon Problemi: 37

56 (4.39) Sıklıkla karşılaşılan çekirdek fonksiyonları polinom öğrenme makinesi, radyal tabanlı fonksiyonlar ve çok katmanlı algılayıcılardır (Haykin, 1999). Polinom fonksiyonu (4.40) Radyal tabanlı fonksiyonlar (4.41) Çok katmanlı algılayıcı (4.42) 38

57 5. UYGULAMA Bu bölümde tezin ana konusu olan patent tescil sürecindeki problem ve sunulan çözümler detaylandırılmıştır. Öncelikle tescil süreci ve bu süreci etkileyen değişkenler incelenmiştir. Çözüm model için seçilen kriterler ve çıktıları göz önünde bulundurularak yapay sinir ağları ile sınıflandırma modeli oluşturulmuştur. Modelde belirlenen değişkenlere göre patent veritabanlarından veri derlendikten sonra bu veriler temizlenerek modellemeye uygun hale getirilmiştir. Yapay sinir ağları uygulamaları için kullanılan NeuroSolutions yazılımında üç ayrı uygulama yapılmış ve elde edilen sonuçlar karşılaştırılmıştır. Bu uygulamalar şöyle sıralanmıştır: i. Destek vektör makineleri (Genetik ile iyileştirilmemiş) ii. Destek vektör makineleri (Genetik ile iyileştirilmiş) iii. Geri-yayılımlı algoritma(genetik ile iyileştirilmiş) Öncelikle destek vektör makinelerinin genetik algoritma (GA) ile iyileştirilmediği ve iyileştirildiği modeller kullanılmış, genetikle iyileştirmenin daha iyi olduğu sonucuna ulaşılmıştır. Genetikle iyileştirmenin daha iyi bir performans sağladığı varsayımıyla farklı eğitim/geçerlilik/test veri oranlarında destek vektör makineleri ve geriyayılımlı algoritmaları modelleri çalıştırılmıştır. Daha sonra sınıflandırma performansı daha iyi olan destek vektör makinelerinde eğitim verileri ile geçerlilik ve test verilerinin yerleri değiştirilerek tekrar uygulanmıştır. Uygulama sonuçları çıktıları ve modeli ile birlikte yorumlanmıştır. 5.1 UygulamanınAmacı Bir patent başvurusunun tescil olması, patente konu olan buluşun belli bir süre (genellikle 20 yıl) kullanımının koruma altına alındığını göstermektedir. Patent başvurusu yapıldıktan sonra 18 ay içerisinde patent ofisinin inceleme raporu yayınlanmakta ve başvurunun tescil olması ya da reddedilmesi kararı çıkmaktadır. Bazı durumlarda inceleme raporu sonucunda başvuru sahibine düzeltmeler önerilmekte, bu düzeltmeler için verilen süre sonunda tescil kararı bildirilmektedir. Bu da başvuru ile tescil kararı arasındaki sürenin uzamasına sebep olmaktadır. 39

58 Patent başvurularının yaklaşık %40 ının tescil olması ve başvuru tarihi ile patent ofisinin kararı arasında geçen sürede yapılan ödemeler göz önünde bulundurulduğunda, bir patent başvurusunun tescil olması veya reddedilmesi durumunun önceden kestirilmesi zaman ve maliyet açısından yarar sağlayacaktır. Şekil 5.1 de, bir yenilik fikri için patent başvurusu yapılması ve tescil olması süreci görülmektedir. Araştırma-Geliştirme (Ar-Ge) çalışmaları süresince patent başvurusu yapılacak nitelikteki yenilik fikirleri değerlendirmeye alınmaktadır. Patent olabilecek nitelikte olmaması durumunda ise Ar-Ge çalışmaları devam etmektedir veya fikir tamamen terk edilmektedir. Başvuruya değer görülen araştırmalar için başvuru dosyası hazırlanarak patent ofisine başvuru yapılmaktadır. Patent ofisine başvuru yapıldıktan sonraki 18 ay içerisinde patent ofisinin araştırma sonucu yayınlanmaktadır. Patent ofisinin değerlendirmesi genel olarak üç durumdan biri ile sonuçlanmaktadır: patentin tescil olması, reddedilmesi veya başvuru sahibinin başvuruyu geri çekmesi. Bu uygulama, Şekil 5.1 de gösterilen süreçte zaman ve maliyet kazancı sağlayacak kestirim işlemi destek vektör makineleri algoritması kullanılarak gerçekleştirilmiştir. Uygulamanın patent almak isteyen firmanın maliyetlerini düşüreceği bilindiğinden Ar-Ge ye önem veren tüm işletmeler için kullanılacak bir algoritma hazırlanmıştır. Verilerini aldığımız beyaz eşya sektörü de bu sonuçları daha sonra kullanabilecektir. Bu uygulamanın amacı, patente başvurulduğu takdirde hangi sonuçların beklentisine girileceğini erken bir sürede saptamak için destek vektör makineleri ve geri-yayılımlı algoritmalar ile yapılan sınıflamaları kıyaslayarak en güvenilir modeli kurmaktır. 5.2 GirdiDeğiĢkenlerinin Belirlenmesi Patent tescil kararını etkileyen pek çok faktör bulunmaktadır. Önceki çalışmaların incelenmesinden elde edilen sonuçlar ışığında teknoloji sınıfı (IPC) sayısı, buluşçu sayısı, patent aile sayısı, başvurunun yapıldığı ülke (rüçhan) gibi değişkenlerin patent tescilinde önemli kriterler olduğu görülmüştür. Çizelge5.1 de uygulamada dikkate alınacak kriterler, daha önce kullanıldığı çalışmalar ile birlikte verilmiştir. Patent tescili konusunda uzman görüşlerine başvurulduğunda bu değişkenlere ek olarak patent vekili yardımı alıp almama durumunun da patent tescilini etkileyebileceği belirtilmiştir (Pala, 2010). 40

59 Ar-Ge çalışmaları Yenilik fikrinden vazgeçilir Hayır Patent olabilir mi? Evet Patent başvuru dosyası hazırlama Patent başvurusu Patent ofisinin incelemesi Patent inceleme sonucu? Reddedilir Tescil olur Başvuru geri çekilir ġekil 5.1 : Patent başvurusu ve tescil/red süreci. Patent aile sayısı, aynı buluşu korumak için bir ya da daha fazla ülkede dosyalanan patent başvurularının kümesindeki sayıyı temsil etmektedir (Url-4). Buluşçu sayısı, patent başvurusu yapılan bir buluşu ortaya koyan tüm dünyadan başvurmuş buluşçuların sayısını göstermektedir. Teknoloji sınıfı olarak uluslar arası kabul görmüş patent sınıflandırma sistemi (International Patent Classification-IPC) kullanılmıştır. IPC, teknolojiyi bölümlere, sınıflara, alt sınıflara ve gruplara bölen hiyerarşik bir sistemdir (Url-4). Teknoloji sınıfı sayısı da buluşun, farklı teknik alanlarda da uygulanabilirliğini göstermektedir. Rüçhan ülkesi, ilk patent başvurusunun yapıldığı ülke olup buna göre patent değerinde ve tescil kararında fark yaratmaktadır. 41

60 Çizelge 5.1 : Önceki çalışmalardan uygulamada kullanılacak kriterler. Seçilen Kriter Patent aile sayısı Buluşçu sayısı Teknoloji sınıfı sayısı Rüçhan ülkesi Kaynak Lemley, M., and Sampat, B. N., 2009 Lai, Y.-H. and Che, H.-C., 2009 Che, H.-C., Lai, Y.-H. and Wang, S.-Y., 2009 Harhoff, D. and Reitzig, M., 2004 Reitzig, M., 2004 Lanjouw, J. and Schankerman, M., 1999 Lai, Y.-H. and Che, H.-C., 2009 Che, H.-C., Lai, Y.-H. and Wang, S.-Y., 2009 Martinez-Ruiz, A. and Aluja-Banet, T., 2009 Martinez-Ruiz, A. and Aluja-Banet, T., 2008 Reitzig, M., 2004 Guellec, D. and Van Pottelsberghe, B., 2000 Lai, Y.-H. and Che, H.-C., 2009 Che, H.-C., Lai, Y.-H. and Wang, S.-Y., 2009 Martinez-Ruiz, A. and Aluja-Banet, T., 2009 Martinez-Ruiz, A. and Aluja-Banet, T., 2008 Harhoff, D. and Reitzig, M., 2004 Guellec, D. and Van Pottelsberghe, B., 2000 Lerner, J., 1994 Martinez-Ruiz, A. and Aluja-Banet, T., 2009 Martinez-Ruiz, A. and Aluja-Banet, T., 2008 Sanyal, P., 2008 Alcácer, J. et al., 2008 Guellec, D. and Van Pottelsberghe, B., 2000 Patent başvurusu dokümanı hazırlanırken patent vekillerinden destek alınarak dosyalama yapılabilmektedir. Patent dokümanında teknik açıdan metinde yer alması faydalı olacak önemli noktalar ya da yasal gerekliliklerle ilgili olarak uzman bir vekilden alınan destek, başvurunun tescil olması hususunda ayırt edici bir özellik olabilmektedir. Bu uygulamanın çıktı değişkenini gösteren tescil kararı ise patent başvurusunun tescil olması veya reddedilmesini temsil etmektedir. Başvurunun tescil olması 1, reddedilmesi ise -1 ile değerlendirilmiştir. Uygulamada kullanılan tüm değişkenlerin alabileceği değerler Çizelge 5.2 de gösterilmiştir. Rüçhan ülkesi olarak en sık karşılaşılanlara çizelgede yer verilmiştir, veri kümesinde bu ülkelerden farklı ülkeler de bulunmaktadır. Patent vekili desteği 42

61 alınması 1, alınmaması 0 ile gösterilmiştir. Tescil kararında da daha önce belirtildiği gibi tescil olması 1, reddedilmesi -1 ile ifade edilmiştir. Çizelge 5.2 : Uygulamada kullanılan değişkenler ve alabileceği değerler. DeğiĢken Ġsimleri DeğiĢken Değerleri Patent aile sayısı 0 Buluşçu sayısı 1 Teknoloji sınıfı sayısı 1 Rüçhan ülkesi CN, DE, FR, GB, JP, KR, TR, US vs Vekil bulunup bulunmaması {0, 1} Tescil kararı {-1, 1} Modelde toplam 5 girdi, bir çıktı kullanılmaktadır. Her bir girdi ve çıktı, bir düğüm (nöron) ile gösterilmek üzere modelin genel ağ yapısı Şekil 5.2 deki gibidir. Patent Aile Sayısı x1 Buluşçu Sayısı x2 Teknoloji Sınıfı Sayısı x3... y Tescil Kararı Rüçhan Ülkesi x4 Vekil bulunup bulunmaması x5 ġekil 5.2 : Patent tescil kararı için çok katmanlı YSA modeli. 5.3 Veri Derleme Yaklaşık 25 yıldır yapılan patent başvurularına bakıldığında her yıl bir milyon civarında başvuru yapıldığı ve son yıllarda bu sayının iki milyona yaklaştığı görülmektedir (Url-2). Bu nedenle uygulamada kullanılacak olan verileri sınırlandırmak için beyaz eşya sektöründe çamaşır makinesi, bulaşık makinesi ve buzdolabı ile ilgili patentler ele alınmıştır. Teknolojik gelişmelerin ve yenilikçiliğin çok önemli olduğu beyaz eşya sektöründe Ar-Ge çalışmaları ve patent başvuruları da önem kazanmaktadır. Bu bakımdan da çalışmanın sonuçları beyaz eşya sektörü için faydalı olacaktır. 43

62 Literatür ve uzman görüşlerinden yararlanılarak belirlenen girdi değişkenlerine göre uygun veriyi kolaylıkla toplamak için farklı patent veritabanlarından yararlanılmıştır. Avrupa Patent Ofisi sitesi Espacenet ve LexisNexis firmasının patent sitesi TotalPatent veritabanlarından, uygun sorgular yapılarak veri toplanmıştır (Url-5 ve Url-6). Bu veritabanlarının farklı durumlarda sağladığı kolaylıklar açısından tescil olmuş patent verileri için Espacenet veritabanı, reddedilmiş patent verileri için de TotalPatent veritabanı kullanılmıştır. Veritabanlarından veri alırken beyaz eşya sektöründe daha önce bahsedilen ürünlerle ilgili patentlere ulaşabilmek için şu teknolojik sınıflar kullanılmıştır: D06F- Çamaşır Makinesi A47L15- Bulaşık Makinesi F25D- Buzdolabı Patent vekili kullanılıp kullanılmaması durumuna göre iki farklı sorgu ile toplam 530 adet tescil olmuş patent dokümanı örnek alınmıştır. Beyaz eşya sektöründe de çok sayıda patent belgesi olduğu için belirli tarihler ( ) arasında ve Avrupa ya da Amerika da tescil olması şartları sorguya eklenmiştir. SORGU 1 (239 doküman): (IPC = "D06F" OR "A47L15" OR "F25D") AND (PRD >= " ") AND (PRD <= " " ) AND ( APC = "EP" OR "US") AND (ISG = "Y" ) AND (ISR = "Y" ) SORGU 2 (291 doküman): (IPC = "D06F" OR "A47L15" OR "F25D") AND (PRD >= " ") AND (PRD <= " " ) AND ( APC = "EP" OR "US" ) AND (ISG = "Y" ) AND (ISR = "N" ) Reddedilmiş patentler için 518 adet doküman ele alınmıştır. Sorgu sonuçlarını sınırlandırmak için yine belirli bir tarih itibariyle yayınlanmış ve daha önce bahsedilen beyaz eşya teknolojik sınıflarındaki dokümanlar sorgulanmıştır. SORGU 3 (518 doküman): (LS(rejection)) and DATE(>= ) and IPC-1-8(D06F OR A47L15 OR F25D) 44

63 Çizelge 5.3 : Örnek veri kümesi. Fam Inv IPC Pri Atn Dec DE 0-1 Çizelge 5.3 te yer alan örnek veriye göre patent aile sayısı 11, buluşçu sayısı 2, teknoloji sınıfı sayısı 2, rüçhan ülkesi Almanya (DE) olan ve patent vekili desteği alınmayan bir patent başvurusu patent ofisi tarafından reddedilmiştir. Toplamda, tescil olan ve reddedilen patentlerden oluşan ve gözetimli öğrenme için kullanılan 1048 adet dokümanın oluşturduğu veri kümesi Ek B de gösterilmektedir. 5.4 Kullanılan Yazılım: NeuroSolutions Yapay sinir ağları uygulamalarında kullanılan pek çok yazılım bulunmaktadır (Tosun, 2007). Bunlardan bazıları GoldenGem, NeuroDiet, EasyNN-plus, Harbinger, SprinN Lite eng, SprinN Standard eng, TradingSolutions, NeuroSolutions, LTF- Cimulator, BrainCom, EasyNN dir. Yapay sinir ağı yazılımları ile hemen her YSA tekniğinin uygulanması hızlı bir şekilde yapılabilmektedir. Bu nedenle farklı tekniklerin performanslarını değerlendirmek ve karşılaştırmak için yazılım kullanılması tercih edilmiştir. Bu çalışmada NeuroSolutions yazılımından yararlanılmıştır. Bu yazılım, genetik algoritmayla iyileştirme uygulamalarını da içermektedir. NeuroSolutions kullanarak tahmin, sınıflandırma, kümeleme amacıyla farklı yapay sinir ağı tekniklerinin uygulamalarını yapmak mümkündür. Yazılımın başlangıç menüsünde, uygun özellikleri girilerek bir sinir ağı yapısı oluşturmak için kullanılabilecek üç bölüm vardır: NeuralBuilder, NeuralExpert ve NeuroSolutions for Excel. NeuralBuilder ile kullanılacak olan yapay sinir ağı tekniği seçilmekte ve uygulama verileri sisteme girildikten sonra parametreler belirlenmektedir. Bu tekniklerden bazıları çok katmanlı algılayıcılar, Jordan/Elman ağları, radyal tabanlı fonksiyon, özdüzenleyici haritalar, yinelenen ağlar, destek vektör makineleridir. NeuralExpert ise problem türüne (sınıflandırma, tahmin, fonksiyon yaklaşımı, kümeleme) göre tasarım özelliklerini dikkate alarak en iyi çözümü verecek olan sinir ağı yapısına kendi karar vermektedir. Örneğin problem türü sınıflandırma olarak seçilip uygulama verileri sisteme verildiğinde, NeuralExpert bu verileri en iyi sınıflandıracak yapıyı kendi oluşturmaktadır. 45

64 NeuroSolution for Excel sayesindems Excel deki verilerin sinir ağında kullanılmak üzere düzenlenmesi, girdi/çıktı değişkenlerinin belirlenmesi, ilgili parametrelerin seçilmesi yapılabilmektedir. 5.5 Verilerin Yapay Sinir Ağları nda Uygulanması Patent tescil kararı modellemesi için toplanan verilerde hedef değerler de bilindiği için gözetimli öğrenme kullanılacaktır. Patent başvurusunun tescil olması bir sınıf, reddedilmesi ise diğer bir sınıf olarak adlandırılırsa, modeli sınıflandırma problemi şeklinde oluşturmak mümkündür. Bölüm 3 te yapay sinir ağlarında sınıflandırma ile ilgili önceki çalışmalar dikkate alındığında ağırlıklı olarak destek vektör makinelerinin ve klasik sinir ağı tekniği olarak bilinen geri-yayılımlı algoritmaların ön plana çıktığı görülmektedir. Bu çalışmada patent tescil kararı verileri için destek vektör makineleri geri-yayılımlı algoritmalar ile karşılaştırılacaktır. NeuroSolutions ta bu teknik kullanılırken genetik algoritma ile iyileştirilmesi ya da iyileştirilmemesi durumuna göre karşılaştırma yapılmıştır. Bunun yanı sıra genel olarak yapay sinir ağlarında, özel olarak sınıflandırmada da sıklıkla kullanılan geri-yayılımlı algoritma ile de veriler eğitilmiş ve test edilmiştir. Bölüm 5.2 de belirtilen beş girdi değişkeni ve bir çıktı değişkeninden üç tanesi kategorik değerlere sahiptir. Çizelge 5.2 den de görüleceği üzere rüçhan ülkesi değişkeninde 23 farklı ülke (Çizelge 5.2 de bir kısmı gösterilmiştir.) ele alındığından her bir ülke için bir girdi düğümü oluşturup başvurunun rüçhan ülkesi olan ülkeye ait düğümün 1, olmayanların ise 0 değerlerini alması sağlanmıştır. Ancak vekil bulunup bulunmaması değişkeni ve karar değişkeni ikili kategorik değerler almaktadır. Diğer bir söylemle, yalnızca iki değer alabilmektedir. Bu nedenle model, bu değişkenlerin değerlerine baktığında hangi kategoriye gireceğini tek düğüm ile anlayabilmektedir. Bu değişkenler için yalnızca birer düğüm kullanılmıştır. Dolayısıyla girdi düğüm sayısı 27 olmaktadır. Örnek veriler eğitim, geçerlilik ve test verileri olmak üzere üçe ayrılarak kullanılmaktadır. Toplam verinin önemli bir kısmı eğitim verisi olarak alınmaktadır. Eğitim verileri ile model öğrenmektedir, geçerlilik verileri ile modelin geçerliliği kontrol edilmektedir. Test verileri ise modelin performansını test etmektedir. 46

65 Bu çalışmada toplam verinin farklı yüzdeleri için uygulamalar yapılmıştır. Çizelge 5.4 te kullanılan eğitim/geçerlilik/test verilerinin yüzdeleri ve sayıları görülmektedir. Çizelge 5.4 : Uygulamada kullanılan farklı veri kümeleri için denemeler. 1. Deneme 2. Deneme 3. Deneme Yüzdesi Adedi Yüzdesi Adedi Yüzdesi Adedi Eğitim verisi 80% % % 578 Geçerlilik verisi 10% % % 366 Test verisi 10% % % 104 Toplam veri Destek Vektör Makineleri Destek vektör makinelerinin genetik algoritma ile iyileştirildiği ve iyileştirilmediği uygulamaların her ikisinde de ortak olarak kullanılan parametreler; YSA Tekniği : Destek Vektör Makineleri Girdi Düğüm Sayısı : 27 Gizli Katman Sayısı : 1 Gizli Düğüm Sayısı : Eğitim veri sayısı Çevrim Sayısı : 1000 Genetik algoritma ile iyileştirmede kullanılan parametreler ise; Nesil Sayısı : 100 Popülasyon Boyutu : 50 Çapraz olasılığı : 0.9 Mutasyon olasılığı : 0.01 Destek vektör makinesi için uygulanan her iki modelde de, en uygun çekirdek fonksiyon olarak Gauss fonksiyonu, sapma parametresi 1 e eşit olarak elde edilmiştir. Bu durumda kullanılan çekirdek fonksiyon daha önce (4.41) de gösterilen tanımdan denklem (5.1) haline dönüşür. (5.1) İlk olarak %80 eğitim verisi, %10 geçerlilik verisi ve %10 test verisi ile model çalıştırılmıştır. Destek vektör makinelerinin genetik ile iyileştirilmemiş modelinin sonuçları Çizelge 5.5 te, genetik ile iyileştirilmiş modelinin sonuçları ise Çizelge 5.6 da gösterilmektedir. Çizelge 5.5 e göre gerçekte reddedilmiş olan 50 başvurudan 16 sı için model tarafından ret kararı verildiği, gerçekte tescil olmuş olan 54 47

66 başvurudan 52 si için de model tarafından tescil kararı verildiği görülmektedir. Benzer şekilde Çizelge 5.6 ya göre de genetikle iyileştirilmemiş destek vektör makinelerinde 50 ret kararının 41 i tekrar ret kararı ile, 54 tescil kararının da 51 i tekrar tescil kararı ile sonuçlanmıştır. Çizelge 5.5 : DVM nin genetikle iyileştirilmediği modelin test sonuçları. DVM (GA Gerçekleşen olmadan) Ret Tescil Ret Beklenen Tescil 2 52 Çizelge 5.6 : DVM nin genetikle iyileştirildiği modelin test sonuçları. Genetik algoritma ile iyileştirilmemiş destek vektör makineleri 104 adet test verisinin 68 ini doğru sınıflandırırken genetik algoritma ile iyileştirilmemiş destek vektör makineleri aynı test verilerinin 92 sini doğru sınıflandırmıştır. Genetikle iyileştirilen destek vektör makinelerinin daha iyi sınıflandırma yaptığı görüldüğü için eğitim verisinin %60 ve %55 olduğu diğer veri kümeleri için denemeler, genetikle iyileştirilmiş destek vektör makineleri üzerinden yapılmıştır Geri-Yayılımlı Algoritma (Back Propagation) Geri-yayılımlı algoritma (GYA) için daha fazla öğrenme parametresinin kullanıcı tarafından verilmesi gerekmektedir. Destek vektör makinelerinde tek bir gizli katman kullanılmaktayken geri-yayılımlı algoritmada hem gizli katman sayısı hem de bu katman(lar)daki düğüm sayısı önceden girilmelidir. Momentum katsayısı öğrenme parametresi ve aktivasyon fonksiyonu da yazılıma verilmektedir. Destek vektör makinelerinde ise daha az parametre girilerek modelin optimal sonuçları vermesi sağlanmaktadır. DVM Gerçekleşen (GA ile) Ret Tescil Ret 41 9 Beklenen Tescil 3 51 Bu çalışmada gizli katmandaki işleme (processing) elemanlarının ve momentum katsayısının genetik algoritma ile iyileştirildiği bir geri-yayılımlı algoritma uygulaması yapılmıştır. Bu teknik için aşağıdaki parametreler kullanılmıştır: 48

67 YSA Tekniği : Geri-Yayılımlı Algoritma ile Çok Katmanlı Algılayıcı Girdi Sayısı : 27 Gizli Katman Sayısı : 1 Gizli Düğüm Sayısı : 4 Aktivasyon Fonksiyonu : Tanh Momentum Değeri : 0.7 Çevrim Sayısı : 1000 Genetik algoritma ile iyileştirmede kullanılan parametreler; Jenerasyon Sayısı : 100 Popülasyon Boyutu : 50 Çapraz olasılığı : 0.9 Mutasyon olasılığı : 0.01 Aktivasyon fonksiyonu olarak genellikle türevi kolay alınabilen fonksiyonlardan tanjant hiperbolik (tanh) fonksiyonu kullanılmaktadır (Alpaydın, 2004). Bu çalışmada geri-yayılımlı algoritmanın aktivasyon fonksiyonu olarak da bu fonksiyon tercih edilmiştir. Denklem (4.42) de tanjant hiperbolik fonksiyonu (5.2) şeklinde yazılmaktadır. Modelde en uygun beta değerleri β 0 = 1 ve β 1 = 0.5 olarak çıktığından aktivasyon fonksiyonu denklem (5. 3) te görüldüğü gibi elde edilmiştir. (5.3) Genetik algoritma ile iyileştirme yapılan geri-yayılımlı algoritmada Çizelge 5.7 de görüldüğü üzere reddedilmesi beklenen 50 patent başvurusundan 48 i reddedilirken tescil olması beklenen 54 patent başvurusundan 37 si tescil olmuştur. Bu durumda 104 adet test verisinin 85 i doğru karar bölgesinde sınıflandırılmıştır. Çizelge 5.7 : Geri-yayılımlı algoritma modelinin test sonuçları. Gerçekleşen GYA Ret Tescil Ret 48 2 Beklenen Tescil Destek vektör makinelerinde olduğu gibi geri-yayılımlı algoritma da eğitim verisinin %60 ve %55 oranlarında olduğu modellerde kullanılmıştır. 49

68 5.5.3 Kullanılan Tekniklerin KarĢılaĢtırılması Uygulamada patent tescil kararı probleminde sınıflandırma için destek vektör makinelerinin genetikle iyileştirilmiş ve iyileştirilmemiş modelleri ile geri-yayılımlı ağların genetikle iyileştirilmiş modeli oluşturulmuştur. Genetikle iyileştirilmemiş modelin çok daha kötü olduğu sınıflandırma yüzdesinden görülmektedir. Genetikle iyileştirilmiş model test verilerinin %88.5 ini doğru sınıflandırırken bu oran genetikle iyileştirilmemiş modelde %65.3 tür. Bu nedenle destek vektör makinesi de geri-yayılımlı algoritma modelleri de genetik algoritmayla iyileştirilmiştir. Örnek verilerin farklı eğitim/geçerlilik/test yüzdeleri her iki modele de uygulanmıştır. 3 farklı veri yüzdesiyle 2 farklı YSA tekniği kullanılarak toplamda 6 modelin performansları karşılaştırılmıştır. Performans kriterleri olarak doğruluk (accuracy) ve göreli hata (relative error) kullanılmıştır. Doğruluk, doğru sınıflandırılan test verilerinin yüzdesini göstermektedir. Göreli hata da birimsiz bir performans kriteri olduğu için farklı YSA tekniklerinin karşılaştırılmasında önemli bir kriterdir (Şahin, 2000; Çınar, 2007). y k beklenen çıktıları, r k da gerçekleşen çıktıları göstermek üzere göreli hatanın hesaplanması şu şekilde olmaktadır: (5.4) Bu performans kriterlerine göre destek vektör makineleri ve geri-yayılımlı algoritma modellerinin karşılaştırılması Çizelge 5.8 de yer almaktadır. Göreli hatanın düşük olması beklenmektedir. Çizelge 5.8 : DVM ve GYA modellerinin performans kriterleri. YSA tekniği Veri yüzdeleri Test (Eğitim:Geçerlilik:Test) Doğruluk Göreli Hata DVM 80:10:10 88,46% 0,689 DVM 60:30:10 90,38% 0,686 DVM 55:35:10 85,58% 0,645 GYA 80:10:10 81,73% 0,877 GYA 60:30:10 85,58% 0,816 GYA 55:35:10 84,62% 0,789 50

69 Destek vektör makineleri ve geri-yayılımlı algoritmalarda, DVM nin yüksek doğruluk ve düşük göreli hata ile daha iyi bir performans sergilediği görülmektedir. Uygulama modellerinin test verilerindeki doğruluk değerlerinin grafiksel olarak gösterildiği Şekil 5.3 te en yüksek değerlerin DVM modellerinde olduğu görülmektedir. DVM modelleri içinde de en yüksek performans değeri%60 eğitim, %30 geçerlilik, %10 test verilerinin kullanıldığı modelden gelmektedir. 92,00% 90,00% 88,00% 86,00% 84,00% 82,00% 80,00% 78,00% 76,00% Doğruluk 80:10:10 60:30:10 55:35:10 80:10:10 60:30:10 55:35:10 Doğruluk DVM DVM DVM GYA GYA GYA ġekil 5.3 : Uygulama modellerinin doğruluk performansları. Şekil 5.4 te ise uygulama modellerinin göreli hata değerleri yer almaktadır. Göreli hata değerlerinin düşük olması istendiği için bu performans kriterinde de DVM nin daha iyi sonuç verdiği görülmektedir. DVM kullanan modeller ise kendi içinde birbirine yakın değerlere sahip olmakla beraber %55 eğitim, %35 geçerlilik, %10 test verilerinin kullanıldığı modelin göreli hatası en düşük değere sahiptir. 1 0,8 0,6 0,4 0,2 0 Göreli Hata 80:10:10 60:30:10 55:35:10 80:10:10 60:30:10 55:35:10 Göreli Hata DVM DVM DVM GYA GYA GYA ġekil 5.4 : Uygulama modellerinin göreli hata değerleri. 51

70 Uygulama sonucunda patent tescil kararının sınıflandırılması için önerilen destek vektör makinelerinin daha iyi sonuç verdiği görülmektedir Verilerin Yer DeğiĢtirilmesi En iyi sınıflandırma sonucunu veren destek vektör makinesi tekniğinde sonuçların rassallıktan kaynaklanıp kaynaklanmadığını kontrol etmek için eğitim (training) verilerinin bir kısmı ile geçerlilik (validation) ve test verileri yer değiştirilerek tekrar destek vektör makinesi uygulanmıştır (Alpaydın, 2004). Destek vektör makineleri için uygulanmış olan farklı yüzdelerdeki veri kümeleri, belirtildiği gibi yer değiştirilerek tekrar modelde çalıştırılmıştır. Yer değiştirilerek elde edilen modellerin sınıflandırma performansları Çizelge 5.9 da görülmektedir. Çizelge 5.9 : Verilerin yer değiştirilmesiyle oluşturulan DVM modellerinin performanslarının karşılaştırılması. Veri yüzdeleri İlk Model Yer değiştirilen Model (Eğitim:Geçerlilik:Test) Doğruluk Göreli Hata Doğruluk Göreli Hata 80:10:10 88,46% 0,689 85,58% 0,740 60:30:10 90,38% 0,686 91,35% 0,700 55:35:10 85,58% 0,645 89,42% 0,672 Eğitim ve geçerlilik verilerinin yer değiştirilmesi ile tekrar çalıştırılan destek vektör makineleri modelleri, ilk modeldeki performanslarına yakın ve yüksek performanslar gösterdiği için destek vektör makineleri algoritmasının iyi sonuç vermesinin tesadüfi olarak gerçekleşmediği, problem için uygun bir model olduğu sonucuna varılmaktadır. Bu performansların aynı zamanda genetik ile iyileştirilmiş geriyayılımlı algoritmanın performansından da yüksek olması destek vektör makinelerinin geri-yayılımlı algoritmadan daha iyi olduğu sonucunu desteklemektedir. Uygulamada oluşturulan tüm modellerin test çıktıları Ek C de verilmiştir. 5.6 Sonuçlar ve Çıkarım Uygulanan modeller sonucunda en iyi sınıflandırma çıktısını veren model genetik algoritma ile iyileştirilmiş, tek gizli katmanda 630 gizli düğümü olacak şekilde bir destek vektör makinesi ağı olmuştur. 52

71 ġekil 5.5 : En iyi sonucu veren DVM nin ağ modeli. NeuroSolutions yazılımının destek vektör makineleri için çizdiği ağ da Şekil 5.6 da görülmektedir. Çekirdek fonksiyon olarak optimal sonucu veren Gauss fonksiyonu kullanılmıştır. ġekil 5.6 : NeuroSolutions ın DVM için yarattığı model. Girdi düğüm sayısı 27, gizli katmandaki düğüm sayısı 630 ve çıktı düğüm sayısı 1 dir. Gizli katman ve çıktı katmanı arasındaki optimum ağırlıklar 630 x 1 boyutunda bir matris olarak Ek D de görülmektedir. Bu model aracılığıyla patent tescil sürecinde, başvuru ile tescil kararı arasında geçen sürede patent aile sayısı, buluşçu sayısı, teknoloji sınıfı sayısı, rüçhan ülkesi ve patent vekili bulunup bulunmaması kriterlerine göre patent tescil/red kararıyla ilgili bir kestirimde bulunmak mümkündür. 53

Daha göster