HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR UYGULAMA

Transkript

1 T.C. Ġstanbul Üniversitesi Sosyal Bilimler Enstitüsü ĠĢletme Anabilim Dalı Sayısal Yöntemler Bilim Dalı Doktora Tezi HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR UYGULAMA Oğuz Akbilgiç DanıĢman: Prof.Dr. Mehmet Erdal Balaban Ġkinci DanıĢman: Prof.Dr. Hamparsum Bozdoğan Ġstanbul, 2011 I

2 II

3 ÖZ Radyal Tabanlı Fonksiyon Ağları, kullandıkları özel bir tür aktivasyon fonksiyonu nedeniyle yapay sinir ağlarının özel bir biçimi olarak değerlendirilmektedir. Radyal tabanlı fonksiyonlar olarak adlandırılan bu özel fonksiyonlar, modelin girdi uzayının farklı bölgelerinde saklı olan farklı yapıların modellenmesine imkan vermektedir. Diğer taraftan radyal tabanlı fonksiyon ağları modelinde, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesi, merkez ve yayılım parametrelerinin uzun zaman alabilen iteratif yöntemlerle belirlenmesi ve tasarım matrisinin tekilliği gibi sorunlar ortaya çıkmaktadır. Bağımsız değişkenlerinin hangilerinin bağımlı değişken ile ilişkili olduğunun belirlenememesi ise radyal tabanlı fonksiyon ağlarının eksikliklerinden biridir. Bu çalışmada radyal tabanlı fonksiyon ağları sözü edilen sorun ve eksikliklere çözüm getirecek şekilde uygun istatistik yöntemlerle entegre edilerek, Hibrit Radyal Tabanlı Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan Hibrit Radyal Tabanlı Fonksiyon Ağının performansı ve geçerliliği, İMKB Ulusal 100 endeksinin yönünün belirlenmesi üzerine bir çalışma ile test edilmiştir. III

4 ABSTRACT Radial Basis Function Networks are one of the sub division of artificial neural networks with their special activation functions called radial basis functions. These functions allow us to model the patterns hidden in the different locations of input space. On the other hand, defining the number of neuron in hidden layer by method of trial and error, finding the center and radius parameters using iterative learning methods, and the singularity of design matrix are are common problems in radial basis function networks modeling. However, not to being able to define which variables are correlated with dependent variable is another problem with radial basis function networks. In this study, we constructed a Hybrid Radial Basis Function Network model to handle the problems mentioned. The performance of Hybrid Radial Basis Function Network model is tested by a case study on forecasting the direction of movement of Istanbul Stock Exchange National 100 index. IV

5 ÖNSÖZ Yapay Zeka, bilim dünyasında son 60 yılın en popüler konularından birisidir. Yapay zekanın bir çok alt çalışma kolu olmakla beraber Yapay Sinir Ağları, yapay zekanın lokomotifi olmuş bir sahadır. Klasik istatistik yöntemlere alternatif çözümler üretebilen yapay sinir ağlarının da kendi içinde birçok türü vardır. Bu türlerden birisi olan Radyal Tabanlı Fonksiyon Ağları, özellikle sınıflandırma ve tahminleme problemlerine başarı ile uyarlanmaktadır. Klasik istatistik yöntemlere göre daha az varsayıma sahip olmaları nedeniyle gerçek hayat problemlerinin çözümüne oldukça uygun olmakla beraber bu ağlar, bazı dezavantajlara da sahiptir. Bu dezavantajların başında eldeki veriye en iyi uyum gösterecek ağ mimarisinin deneme yanılma yolu ile belirlenmesi yer almaktadır. Dolayısıyla her zaman elde edilen çözümden daha iyi bir çözüm olabileceği varsayılmaktadır. Diğer taraftan en uygun ağ parametrelerinin belirlenmesi aşaması olan öğrenme, genellikle çok zaman alan, işlem yüküne neden olan ve yerel en iyi çözüme takılması olası iteratif algoritmalar ile gerçekleştirilir. Ağ parametrelerinin başlangıç değerlerinin rastgele olarak belirlenmesi de, en iyi ağın bulunuşunun rastlantısallık içermesine neden olur. Ayrıca oluşturulan ağın parametre değerleri, bağımsız değişkenler arasından hangilerinin en iyi olduğu ile ilgili bilgi içermemektedir. Bu çalışmada radyal tabanlı fonksiyon ağları modeli ile ilgili ifade edilen problemler ve eksiklikler ele alınarak, bu sorunlara çözümler geliştirilmesi amaçlanmıştır. Bu bağlamda, ağ mimarisini ve aktivasyon fonksiyonlarına ait parametreleri belirlemek için Regresyon Ağaçları, ağırlık parametrelerini belirlemek için Ridge Regresyon, bağımlı değişken üzeride etkili olan girdi değişkenlerini belirlemek içinse Bilgi Kriterleri ve Genetik Algoritma yöntemleri, Radyal Tabanlı Fonksiyon Ağları ile entegre edilerek sözü edilen sorunların üstesinden gelecek hibrit bir model oluşturulmuştur. Hibrit Radyal Tabanlı Fonksiyon Ağları olarak adlandırdığımız modelin geçerliliği öncelikle benzetim verisi üzerinde test edilmiştir. Ayrıca modelin gerçek veriler üzerindeki geçerliliği, İMKB Ulusal 100 Endeks yönünün tahmini üzerine yapılan bir uygulama ile sınanmıştır. V

6 Bu çalışmanın her aşamasında bilgi ve tecrübelerini benimle paylaşan danışman hocam Prof.Dr. Mehmet Erdal Balaban a teşekkür ederim. Ayrıca beni University of Tennessee de bir yıl süreyle misafir eden ve bu süreçte gerek verdiği fikirlerle tezimi şekillendiren gerekse sağladığı kaynaklarla tez çalışmalarımı hızlandıran ve kolaylaştıran eş danışman hocam Prof.Dr. Hamparsum Bozdoğan a teşekkürü bir borç bilirim. Tezimin finans uygulamasında her zaman fikirlerini benimle paylaşan Dr. Ebru Demirci ye, tezimin yazım kısımlarının gözden geçirilmesinde desteklerini esirgemeyen arkadaşlarım Dr. Eylem Deniz Howe, Dr. Seda Tolun ve Dr. Elif Ünal Çoker e Matlab programı ile ilgili verdiği destekler için Dr. John Andrew Howe a teşekkür ederim. Verdikleri burslar ile tez çalışmamın bir yılını ABD de sürdürebilmemi sağlayan başta TÜBİTAK olmak üzere YÖK ve İstanbul Üniversitesi ne teşekkürlerimi sunarım. Son olarak çok severek yaptığım akademisyenlik mesleğini bana kazandıran hocam Prof.Dr. Nalan Cinemre ye ve geldiğim her noktada benden çok emekleri olan ailem Nurten, Ahmet ve Fatih Akbilgiç e sonsuz teşekkürlerimi sunarım. Oğuz Akbilgiç Haziran 2011 VI

7 ĠÇĠNDEKĠLER ÖZ... III ABSTRACT... IV ÖNSÖZ... V ĠÇĠNDEKĠLER... VII KISALTMALAR LĠSTESĠ... XII ġekġller LĠSTESĠ... XIII TABLOLAR LĠSTESĠ... XV GĠRĠġ... 1 BÖLÜM 1 YAPAY ZEKA Yapay ZekaYaklaşımları İnsan Gibi Davranmak: Turing Testi Yaklaşımı İnsan Gibi Düşünmek: Bilimsel Modelleme Yaklaşımı Rasyonel Düşünme: Düşünce Kanunları Yaklaşımı Rasyonel Davranmak: Rasyonel Ajan Yaklaşımı Yapay Zeka Çalışmalarının Tarihçesi Yapay Zekanın Alt Çalışma Alanları Uzman Sistemler Bulanık Mantık Yapay Sinir Ağları Genetik Algoritma BÖLÜM 2 YAPAY SĠNĠR AĞLARI Yapay Sinir Ağlarının Kullanım Alanları Biyolojik Sinir Sistemi ve İşleyişi VII

8 2.3 Yapay Sinir Ağlarının Genel Yapısı Yapay Sinir Ağlarının Bileşenleri Katmanlar Bağlantılar Aktivasyon Fonksiyonları Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları Hebb Kuralı Perseptron Delta Kuralı Sezgisel Optimizasyon Algoritmaları ile Öğrenme Yapay Sinir Ağlarının Avantajları ve Dezavantajları Radyal Tabanlı Fonksiyon Ağları BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI Radyal Tabanlı Fonksiyon Ağları Radyal Tabanlı Fonksiyon Ağlarının Yapısı Radyal Tabanlı Fonksiyonlar Radyal Tabanlı Fonksiyon Ağlarında Öğrenme Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının Karşılaştırılması Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler Hibrit Radyal Tabanlı Fonksiyon Ağları BÖLÜM 4 REGRESYON AĞAÇLARI Regresyon Ağaçlarının Yapısı VIII

9 4.2 Regresyon Ağaçlarının Oluşturulması Ayırma Kuralları En Küçük Kareler Kuralı En Küçük Mutlak Sapma Kuralı Regresyon Ağaçlarının Budanması Regresyon Ağaçlarında Maliyetler Açıklayıcı Değişken Sayısı ve Yanlış Sınıflandırmaya Bağlı Maliyetler Ağaç Karmaşıklığı Maliyeti Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre Edilmesi BÖLÜM 5 RĠDGE REGRESYON Çoklu Doğrusal Regresyon En Küçük Kareler Kestirimi Çoklu Doğrusal Regresyon Modelinin Varsayımları Ridge Regresyon Varlık Teoremi Ridge Kestiricisinin Özellikleri Genellestirilmiş Ridge Regresyon En İyi Ridge Sabitinin Belirlenmesi Ridge İzi Diyagramı Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ Uyum İyiliği ve Bilgi Ölçümü Entropi IX

10 6.1.2 Kullback-Leibler Uzaklığı Fisher Bilgi Matrisi Akaike-Tipi Değişken Seçim Kriterleri Akaike Bilgi Kriteri Schwartz Bilgi Kriteri Tutarlı Akaike Bilgi Kriteri (CAIC) Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) ICOMP Tipi Değişken Seçim Kriterleri AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin Karşılaştırılması En İyi Model Değişkenlerinin Genetik Algoritma ile Belirlenmesi Genetik Algoritma Genetik Algoritmanın Yapısı Genetik Algoritmanın Parametreleri Hibrit RTFA Modelinde Değişken Seçimi Problemi için Genetik Algoritma BÖLÜM 7 UYGULAMA Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü Benzetim Verisi için Uygulama Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi Değişken Seçimi Benzetim Verisi için Tahminleme Benzetim Çalışmasının Sonuçları Hibrit RTFA Modeli ile İMKB Ulusal 100 Endeks Yönünün Tahmini Değişkenlerin Belirlenmesi Verilerin Analiz için Hazırlanması İMKB Ulusal 100 Endeksi İçin Değişken Seçimi X

11 7.3.4 İMKB Ulusal 100 Endeksinin Yönünün Tahmini Çapraz Doğrulama ile Model Tutarlılığının Kontrolü İMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların Yorumlanması SONUÇ VE ÖNERĠLER KAYNAKÇA ÖZGEÇMĠġ XI

12 KISALTMALAR LĠSTESĠ AIC BIC BM CAIC CAICF ÇDB ÇDR EKK GA GÇD ICOMP IFIM RA RR RTF RTFA SBC US VIF YSA YZ : Akaike Bilgi Kriteri : Schwartz Bilgi Kriteri : Bulanık Mantık : Tutarlı Akaike Bilgi Kriteri : Fisher Bilgisine Dayalı Tutarlı Akaike Bilgi Kriteri : Çoklu Doğrusal Bağlantı : Çoklu Doğrusal Regresyon : En Küçük Kareler : Genetik Algoritma : Genelleştirilmiş Çapraz Doğrulama : Bilgi Karmaşıklığı : Ters Fisher Bilgi Matrisi : Regresyon Ağaçları : Ridge Regresyon : Radyal Tabanlı Fonksiyon : Radyal Tabanlı Fonksiyon Ağları : Schwartz Bilgi Kriteri : Uzman Sistemler : Varyans Artış Faktörü : Yapay Sinir Ağları : Yapay Zeka XII

13 ġekġller LĠSTESĠ Şekil 2-1 Nöron Genel Görünümü ve Nöronu Oluşturan Birimler (Fraser, 1998, s. 1) Şekil 2-2Bir yapay sinir ağının genel görünümü Şekil 2-3 Tek katmanlı perseptron örneği Şekil 2-4 İki girdi ve bir çıktılı perseptron Şekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) 28 Şekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) Şekil 3-1 İki kategorili sınıflandırma problemi Şekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıştırılabilirlik Şekil 3-3 RTFA Mimarisi Şekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) Şekil 3-5 İki girdili bir RTFA mimarisinde RTF'lerin görünümü Şekil 3-6 Aşırı Uyum ve Yetersiz Öğrenme Örneği Şekil 3-7 Karar Ağaçları Şekil 3-8 Aşırı belirli model örneği (Bozdogan H., 2007, s. 17) Şekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı Şekil 4-1 Örnek Regresyon Ağacı Gösterimi Şekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi Şekil 5-1 Ridge İzi Diyagramı (Bjorksrtrom, 2001, s. 8) Şekil 6-1 Tek nokta çaprazlaması Şekil 6-2 İki nokta çaprazlaması Şekil 7-1 Hibrit RTFA kullanıcı arayüzü karşılama ekranı Şekil 7-2 Hibrit RTFA modeli ile değişken seçimi arayüzü Şekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü Şekil 7-4 Benzetim verisi uygulaması için akış diyagramı Şekil 7-5 Bağımlı değişken ve doğru bağımsız değişkenler arasındaki ilişki Şekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler Şekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler XIII

14 Şekil 7-8 Endeks yönü tahmini uygulaması için akış diyagramı Şekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve IMKB100 endeksinin seyri XIV

15 TABLOLAR LĠSTESĠ Tablo 2-1 Örnek Aktivasyon Fonksiyonları Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri Tablo 3-1 Hibrit RTFA modeli bileşenlerinin işlevleri Tablo 6-1 Genetik Algoritma Parametreleri Tablo 6-2 Göze Genişlikleri Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru değişken seçim yüzdeleri Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru Model Seçim Yüzdeleri Tablo 7-3 Çapraz doğrulama sonuçları Tablo 7-4 Modelde kullanılan endeksler Tablo 7-5 Değişken seçimi için model parametreleri Tablo 7-6 Değişken Seçimi Sonuçları Tablo 7-7 Değişken Seçimi Sonucu Oluşan Modeller Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF lar üzerinden ortalamalar Tablo 7-11 Model 2 için 200 işlem günlük tahmin Tablo işlem günlük tahminler için yatırımın seyri Tablo 7-13 En iyi model için çapraz doğrulama sonuçları XV

16 GĠRĠġ Yapay Sinir Ağları, insana özgü düşünce ve öğrenme sisteminin taklit edilerek, mevcut verilerden öğrenen ve daha önce karşılaşılmamış durumlarda uygun çıktılar üretecek şekilde yapılandırılan modellerdir. Bu özelliği ile bir yapay zeka türü olan yapay sinir ağları, insan sinir sisteminin bilgisayar ortamındaki benzetimi olarak değerlendirilebilir. Yapay sinir ağları, özellikle bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan matematiksel ilişkilerin modellenmesinde kullanılmaktadır. Bu bağlamda yapay sinir ağları, tahminleme, sınıflandırma, kümeleme, sinyal işleme, görüntü ve ses tanıma v.b. birçok alanda başarıyla uygulanabilmektedir. İleri beslemeli yapıda bir tür yapay sinir ağı olan Radyal Tabanlı Fonksiyon Ağları ise özellikle sınıflandırma ve tahminleme problemlerinde kullanılmaktadır. Radyal tabanlı fonksiyon ağları, klasik istatistik yöntemlere göre daha az varsayıma sahip olmaları nedeniyle gerçek hayat problemlerine daha kolay uyum sağlamaktadır. Diğer taraftan her yöntemde olduğu gibi radyal tabanlı fonksiyon ağlarında da karşılaşılan sorunlar ve eksiklikler vardır. Bu sorunların en önemlilerinden biri, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesidir. Ayrıca gizli katman nöronlarında kullanılan radyal tabanlı aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin öğrenilmesi, oldukça zaman ve işlem yükü getiren iteratif algoritmalarla gerçekleştirilmektedir. Bu zaman ve işlem yükünün göze alındığı durumlarda bile daha iyi bir parametre kombinasyonunun var olmadığı garanti değildir. Diğer taraftan ağırlık değerlerinin doğrusal regresyon ile öğrenilmesi aşamasında sıklıkla tekillik sorunu ortaya çıkmaktadır. Radyal tabanlı fonksiyon ağlarının yukarıda ifade edilen sorunlarının yanında diğer bir önemli eksikliği, model parametrelerinin, bağımsız değişkenlerden hangilerinin bağımlı değişken üzerinde daha etkili olduğu konusunda bilgi 1

17 içermemesidir. Bu bağlamda model karmaşıklığını azaltacak bir bileşenin eksikliği söz konusudur. Bu çalışmada radyal tabanlı fonksiyon ağları, sözü edilen sorunları ve eksiklikleri açısından ele alınarak daha sağlam bir hibrit model ortaya konulması amaçlanmıştır. Buradan hareketle Bölüm 1 ve Bölüm 2 de sırasıyla yapay zeka ve ileri beslemeli yapay sinir ağları üzerinde durularak radyal tabanlı fonksiyon ağları için bir altyapı oluşturulmuştur. Sözü edilen sorunlara çözüm olacak şekilde öne sürülen Hibrit Radyal Tabanlı Fonksiyon Ağları Bölüm 3 te tanıtılmıştır. Ayrıca modelde kullanılan diğer yöntemlerin detaylı açıklamasına ise Bölüm 3 ü takip eden bölümlerde yer verilmiştir. Radyal tabanlı fonksiyonlarda, gizli katman nöron sayısının ve aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin belirlenmesi sorunlarını çözmek üzere modele Regresyon Ağaçları entegre edilmiştir. Bu bağlamda öncelikle girdi uzayı, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmaktadır. Daha sonra girdi uzayındaki her bir hiper-dikdörtgene gizli katmanda bir nöron karşılık getirilerek gizli katman nöron sayısı belirlenmektedir. Ayrıca her bir hiper-dikdörtgenin merkez koordinatları ve bu merkeze kenarların uzaklık bilgileri, karşılık getirilen gizli katman nöronundaki aktivasyon fonksiyonunun merkez ve yarıçap parametrelerinin belirlenmesinde kullanılmaktadır. Bu bağlamda Bölüm 4, Regresyon Ağaçlarının detaylı açıklanmasına ayrılmıştır. Ağırlık parametrelerinin doğrusal regresyon ile öğrenilmesinde karşılaşılan tekillik sorunu ise bu aşamada Ridge Regresyon kullanılarak aşılmıştır. Ridge Regresyon yönteminin detaylarına Bölüm 5 te yer verilmiştir. Radyal tabanlı fonksiyon ağlarının bağımsız değişkenlerden hangilerinin bağımlı değişken üzerinde etkili olduğunu belirleyememesi noktasındaki eksiklik, bilgi kriterleri temelli değişken seçim kriterleri modelle entegre edilerek giderilmiştir. Böylece radyal tabanlı fonksiyon ağlarının doğrusal olmayan modelleme gücü ile bilgi kriterlerine dayalı kriterlerin değişken seçim yöntemlerinin etkinliği birleştirilmiştir. Model karmaşıklığının indirgenmesinde oldukça etkin olması beklenen bu birleşimin uygulamasında karşılaşılan eniyileme problemi ise 2

18 Genetik Algoritmalar ile gerçekleştirilmektedir. Bu bağlamda Bölüm 6 da yer alan Değişken Seçimi bölümünün içinde Genetik Algoritmalar konusuna da yer verilmiştir. Son olarak Bölüm 7, geliştirilen Hibrit Radyal Tabanlı Fonksiyon Ağının değişken seçimi ve tahminleme açısından performansının test edilmesine ayrılmıştır. Bu bağlamda öncelikle model performansı çok yüksek dereceden doğrusal olmayan yapıda matematiksel ilişki barındıracak şekilde oluşturulmuş benzetim verisinde test edilmiştir. Daha sonra modelin gerçek veri üzerindeki performansını test etmek amacıyla İMKB Ulusal 100 endeksinin yönünün uluslararası endeks değerleri kullanılarak tahmini üzerine bir uygulama gerçekleştirilmiştir. Çalışmada ortaya konulan bulgular Sonuçlar ve Öneriler kısmında yer almakla beraber tüm çalışmanın akışı aşağıdaki diyagram ile özetlenmektedir. YAPAY ZEKA ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI RADYAL REGRESYON RĠDGE DEĞĠġKEN TABANLI AĞAÇLARI REGRESYON SEÇĠMĠ VE FONKSĠYON GENETĠK AĞLARI ALGORTĠMA ĠMKB ULUSAL 100 ENDEKS YÖNÜ TAHMĠNĠ 3

19 BÖLÜM 1 YAPAY ZEKA İnsanoğlu tarih boyunca hayatını kolaylaştıracak icatlar peşinde koşmuştur. İnsanlık ilerledikçe icatlar gelişmiş, icatlar geliştikçe insanlık ilerlemiştir. Buluşların ve icatların temel çıkış noktasını ise insanın ihtiyaçları oluşturmaktadır. Bu bağlamda insan, bedeninin fiziksel veya zihinsel yönden sınırlarını alet, araç, makine vb. teçhizatları geliştirerek sürekli genişletmiştir. İnsan karar verme, muhakeme ve idrak etme gibi çok karmaşık işlemleri çok kısa sürede yapabiliyorken, sayısal işlemlerde aynı başarıyı gösterememektedir. Örneğin sabah camdan dışarıya bakarak, hava koşullarından bedeninin olumsuz etkilenmesini engelleyecek kıyafetleri birkaç saniyede seçebilen insan beyni, dört basamaklı iki sayının çarpılması işlemini aynı hızla yapamamaktadır. Bu bağlamda hesap makineleri, insanın eksik olan bu özelliğine destek olmak üzere geliştirilmiş ilk bilgisayarlar olarak kabul edilmektedir. Günümüz bilgisayarları çok karmaşık matematiksel işlemleri bile saliselerle ölçülebilecek kadar kısa sürelerde yapabilmektedir. Ancak bilgisayarların bu işlem kapasitesi, kullanıcı tarafından verilen talimatları gerçekleştirmekle sınırlıdır. İnsana ait olan, içinde bulunulan durumu idrak etme ve buna göre karar verme işlemlerini bilgisayarlar ancak daha önceden tanımlanmış sınırlı sayıda durum içinden seçim yapmak suretiyle gerçekleştirebilmektedir. Bu yönü ile bilgisayarlar insan beyninin çok gerisindedir. Yapay Zeka (Artificial Intelligence) kavramı, bilgisayarların bu eksikliğini gidermek üzere ortaya atılmıştır. Temelinde, insan gibi düşünebilen, yorum yapabilen ve karar verebilen sistem ve algoritmaların geliştirilmesi vardır. 1.1 Yapay ZekaYaklaĢımları Yapay Zeka (YZ), son 60 senedir bilim adamlarının dikkatini yoğunlaştırdığı başlıca konulardan birisi haline gelmiştir. Genel olarak amacı, insan düşünce yapısını anlayarak bunun benzerini ortaya koyacak bilgisayar işlemlerini gerçekleştirmek, diğer bir ifade ile insan gibi düşünebilen bilgisayar teknolojisini yaratmaktır. Literatürde Yapay Zeka ile ilgili birçok tanım yer almaktadır. Heugeland 4

20 (1985, s. 2) yapay zekayı Makineleri düşünebilir hale getirmek için heyecan verici bir çaba Yani tam anlamıyla, akıllı makineler. şeklinde tanımlamaktadır. Luger (2009, s. 1) ise yapay zeka için Bilgisayar biliminin, zeki davranışların otomasyonunu konu edinen alt kolu tanımını vermektedir. Bu tanımların temelinde insan gibi düşünme, insan gibi davranma, rasyonel düşünme ve rasyonel davranma kavramları yatmaktadır. İfade edilen bu kavramların her biri aynı zamanda yapay zeka çalışmalarının amaçlarına göre alt kollarını da ifade etmektedir. Bu alt çalışma kolları takip eden kısımda daha ayrıntılı incelenmiştir Ġnsan Gibi Davranmak: Turing Testi YaklaĢımı Alan Turing (1950) tarafından önerilen Turing Testi, zekanın tatmin edici işlemsel tanımını vermektedir. Turing, bir makinenin zeki olup olmadığının anlaşılabilmesi için bir deney önermektedir. Turing Testi olarak adlandırılan bu deneye göre bir makine kendisine soru soran bir insana verdiği cevaplarla kendisinin bir insan sanılmasını başarabiliyorsa, zeki bir makine olarak adlandırılır (Turing, 1950). Günümüzde bile böyle bir testi geçebilecek bir program yazmak, üzerinde çalışılmaya değer bir konudur. Böyle bir bilgisayar aşağıda belirtilen özelliklere sahip olmalıdır. Doğal Dil ĠĢleme: İletişim kuracağı insanın dilini düzgün şekilde konuşabilmek. Bilgi Gösterimi: Sorgu öncesinde veya sorgu sırasında üretilen bilgiyi saklayabilmek. Muhakeme: Sorulan soruyu cevaplayabilmek ve yeni görüşler öne sürebilmek üzere depolanan bilgiyi kullanabilmek. Makine Öğrenmesi: Yeni durumlara adapte olabilmek ve daha önce görmüş olduğu bir örnekle karşılaştığında bunu belirleyebilmek ve tahmin yürütebilmek Ġnsan Gibi DüĢünmek: Bilimsel Modelleme YaklaĢımı Verilen bir programın insan gibi düşündüğünün söylenebilmesi için insan düşünce sisteminin bazı yönlerinin bilinmesi ve insan beyninin çalışma prensibinin incelenmesi gerekmektedir. Bunu gerçekleştirmenin iki yolu vardır. Bunlardan 5

21 birincisi, kendi düşünce ve duygularımızın izlenmesi, ikincisi ise psikolojik deneylere başvurulmasıdır. Öncelikle, teoriyi bilgisayar programına dönüştürebilecek insan aklına sahip olunması gereklidir. Örneğin, bir yapay zeka programı olan Genel Problem Çözücüyü geliştiren Newell ve Simon (1961), programlarının problemi doğru bir şekilde çözme başarısından çok programlarının problem çözmede izlediği yol ile benzer bir problemi çözen insanın izlediği yol arasındaki benzerliklere odaklanmışlardır Rasyonel DüĢünme: DüĢünce Kanunları YaklaĢımı Rasyonel düşünme ilk defa Aristo tarafından aksi iddia edilemeyecek şekilde bir sisteme bağlanmıştır. Aristo nun doğru düşünce sistemi, verilen doğru önermelerden her zaman doğru çıkarımlar yapacak şekilde tasarlanmıştır. Bunun bir örneği, Sokrates bir erkektir ve tüm erkekler bir ölümlüdür. O zaman, Sokrates de ölümlüdür. önermesi ile verilebilir (Kodratof, 1988, p. 11). Aristo nun rasyonel düşünce için tanımladığı bu kurallar, insan beyninin düşünce sistemi olarak kabul edilir ve mantık biliminin temellerini oluşturur. On dokuzuncu yüzyılın sonları ve yirminci yüzyılın başlarında modern mantık, bilimin hemen her dalı için bir notasyon ortaya koymuştur li yıllarda, yeterli zaman ve bellek sağlandığında, mantık operatörleri ile ifade edilebilmiş problemlerin varsa çözümünü bulabilen programlar geliştirilmiştir. Yapay zekanın düşünce kanunları yaklaşımı, bu tip zeki sistemler yaratmakla ilgilenir. Yapay zekanın düşünce kanunları yaklaşımında iki temel zorluk vardır. Bunlardan birincisi, formal olmayan bilgiyi mantık operatörlerinin kullanılabileceği formal hale getirebilmektir. İkincisi ise bir problemi teorik olarak çözmek ile bunu gerçek hayata uygulanması önündeki büyük zorluktur Rasyonel Davranmak: Rasyonel Ajan YaklaĢımı Rasyonel davranmak, kişinin kendisini mevcut hedefine ulaştıracak davranışları seçmesi olarak tanımlanmaktadır. Burada ajan, durumu algılayan ve ona göre hareket belirleyen birimdir. Bu yaklaşımda yapay zeka, rasyonel bir ajan elde etmenin bir aracı olarak görülür. 6

22 Yapay zekanın düşünce kanunları yaklaşımında sadece doğru çıkarsama yapma üzerine odaklanılmaktadır. Doğru çıkarsama yapabilmek bazen rasyonel bir ajan yaratmanın bir parçası olarak görülmektedir. Çünkü doğru çıkarsama yapabilmek, bir kişinin hedefine ulaşması sürecinde uygulaması gerekenlerden sadece birisidir. Diğer taraftan, doğru çıkarsama yapmak rasyonel olmak anlamına gelmez. Çünkü bazen öyle durumlar vardır ki, bu durumda uygulanacak kanıtlanmış doğru bir davranış şekli bulunmaz. Bununla birlikte, çıkarsama içermeyen rasyonel davranış biçimleri de vardır. Örneğin, birinin elini sıcak sobadan refleks olarak aniden kaldırması, mevcut durumu değerlendirip uygun çözüm yolları arasından elini kaldırmak yönünde çıkarımda bulunması ve uygulamasından daha iyidir. Refleks de çıkarsama da aynı sonucu üretmiştir, ancak çıkarsamaya başvuran kişinin eli artık yanmıştır. Turing Testinin gerektirdiği tüm muhakeme yetenekleri rasyonel davranışı bulmak içindir. Bu nedenle, hangi durumda ne yapılacağı bilgisini ifade edebilme yeteneğine ihtiyaç duyulmaktadır. Çünkü bu yetenek, mevcut farklı durumlar arasında doğru olanı seçme becerisini sağlamaktadır. Yapay zekanın rasyonel ajan dizayn etme çalışmalarının iki önemli avantajı bulunmaktadır. Bu avantajlardan ilki, düşünce kanunları yaklaşımından daha genel olmasıdır. Çünkü doğru çıkarım sadece rasyonelliğe ulaşmanın mekanizmalarından birisi olarak görülebilir ve gerekli değildir. İkincisi ise bilimsel gelişmelere katkı açısından, insan gibi davranma ve insan gibi düşünme yaklaşımlarından daha önemli olmasıdır. Çünkü rasyonelliğin standartları kesin çizgilerle belirlidir ve bilgisayara anlatılması çok daha kolaydır. Ayrıca insan düşüncesi yaklaşımı, daha belirgin durumlara uyarlanabilir niteliktedir ve genel sorunların çözümünde yetersiz kalmaktadır (Russell & Norvig, 2009, s. 5). Bu kısma kadar yapılan açıklamalardan anlaşılacağı gibi yapay zekanın temel amacı, görüntü tanıma, dil ve konuşma işleme, planlama ve tahminleme gibi genellikle akıllı insanlar tarafından yürütülen işleri makinelerin yapmasını sağlayacak yöntem ve sistemler geliştirmek suretiyle, yaşayan organizmaları simüle edebilecek bilgisayar bilgi sistemlerini geliştirmek ve insan beyninin işleyişi ile ilgili bilgilerimizi arttırmaktır (Kasabov, 1998, s. 1). 7

23 1.2 Yapay Zeka ÇalıĢmalarının Tarihçesi Yapay Zeka fikrinin izleri eski Mısır a kadar dayanıyor olsa da, makine zekası kavramı, elektronik bilgisayarın geliştirilmesi ile ortaya çıkmıştır yılında Amerika ve Almanya da eş zamanlı olarak icat edilen bilgisayar, hafıza ve bilgi işleme konusunda bilinenleri tamamıyla değiştirmiştir. İlk bilgisayarlar geniş ve soğutmalı yerlere ihtiyaç duymakta ve bir programın çalışmasında bile ayrı ayrı binlerce kablonun yeniden düzenlenmesini gerektirmekteyken, 1949 yılındaki gelişmeler sayesinde bilgisayara program girilmesi daha kolay hale gelmiştir yılının sonlarında Newel ve Simon, birçok bilim adamı tarafından ilk yapay zeka programı olarak kabul edilen Mantık Teorisyeni 1 adlı programı geliştirmiştir. Her bir problemi bir ağaç diyagramı olarak ele alan program, problemi doğru çözümü vermesi en olası dalları seçerek çözme esasına dayanmaktadır. Mantık Teorisyeni, YZ alanındaki en önemli kilometre taşlarından birisi olarak tarihe geçmiştir. Modern Yapay Zeka biliminin temelleri ise, 1956 yazında Dartmooth College da düzenlenen bir konferansta atılmıştır. Başta John McCarthy, Marvin Minsky, Allen Newell ile MIT, CMU ve Stanford Üniversitesi ndeki yapay zeka laboratuarlarının kurucusu olan Herbert Simon olmak üzere, bu konferansa katılan kişiler on yıllarca yapay zeka çalışmalarının liderliğini yürütmüşlerdir. Bu konferansı takip eden yedi yıl içerisinde yapay zeka çalışmaları büyük bir hız kazanmıştır. Bu konferansta yapay zeka bir bilim dalı olarak henüz tanımlanmamış olmasına rağmen, konferansta şekillenen fikirler üzerine çalışılarak büyük bir bilgi birikimi sağlanmıştır. Konferansı takiben Carnegie Mellon ve MIT de yapay zeka araştırmaları merkezleri kurulmuş ve yeni fikirler ortaya çıkmaya başlamıştır. Konferansa katılan kişiler ve onların öğrencileri, cebirdeki bazı problemleri çözen, mantık teoremlerini ispatlayan ve İngilizce konuşan birçok program yazmışlardır. Bu çalışmalar, 1960 lı yılların ortalarında Amerika Savunma Departmanı tarafından da desteklenmeye başlanmıştır. 1 Mantık Teorisyeni (Logic Theorist): Birçok mantık teoreminin ispatını, insana ait problem çözme yöntemlerini taklit edecek şekilde yazılmış olan ilk yapay zeka programıdır. 8

24 O zaman için yeni bir program olan Genel Problem Çözücü 1 (Newell, Shaw, & Simon, 1959) nün ilk versiyonu 1957 yılında test edilmiştir. Genel problem çözücüden birkaç yıl sonra IBM, yapay zeka çalışmaları yapmak üzere bir araştırma grubu kurmuştur ve Herbert Gelerneter bu grupta, geometri teoremlerini çözecek bir program üzerinde üç yıl boyunca çalışmıştır. Farklı çalışma grupları tarafından birçok programın üretildiği sıralarda McCharty, yapay zeka tarihinde devrim sayılacak bir çalışma ile meşgul olmuş ve 1958 yılında, günümüzde hala kullanılmakta olan LISP programlama dilini tanıtmıştır lı yıllarda yapay zeka alanına olan yoğun ilgi ve ortaya koyulan çalışmalar, bu alanda çalışan birçok bilim adamının yapay zeka çalışmalarında karşılaşacakları zorlukları tahmin edememelerini de beraberinde getirmiştir. Bu nedenledir ki, Simon (1965) ve Minsky (1967) gibi birçok bilim adamı yapay zekanın geleceği ile hayale varan iyimserliğe kapılmış, 1980 li yıllara gelindiğinde yapay zeka yaratma probleminin tamamen çözülmüş olacağını ve makinelerin insanın yapabildiği her işi yapabileceğini öngörmüşlerdir. Yapay Zeka çalışmalarında diğer bir önemli gelişme, 1970 lerde Uzman Sistemlerin ortaya çıkması ile gerçekleşmiştir. Uzman Sistemler, belirli koşullar altında alternatif bir çözümün seçilmesi olasılığını tahmin etmekte ve daha sonra alternatif çözümlerden en yüksek olasılık değerini alan alternatifin problemin çözümü olarak belirlenmesi esasına dayanmaktadır. Olasılıkların belirlenmesinde ise, bu problemle karşılaşan bir uzman kişinin değerlendirme süreci ve değerlendirme sürecinde tanımladığı kurallar uzman sisteme eğer-ise yapısı ile kodlanarak, benzer problemde uzman sistemin, uzman kişi ile benzer çözüm bulması amaçlanmaktadır ler yapay zeka çalışmalarının artık özel sektör tarafından da yürütüldüğü ve dolayısıyla çok büyük bir ivme kazandığı yıllar olmuştur yılında ABD nin 1 Genel Problem Çözücü (General Problem Solver): Herbert Simon (1965) tarafından geliştirişmiş olan ve matematiksel sembollerle ifade edilebilen cebir teoremlerini ve geometri problemlerini çözebilecek şekilde yazılmış olan bir yapay zeka programıdır. 9

25 yapay zeka ile ilgili yazılım satışından kazancı $425 milyona ulaşmıştır. Aynı dönemde Uzman Sistemlere ise etkin kullanımı nedeni ile özel bir talep olmuştur. Digital Electronics, DuPont, General Motors ve Boing firmaları, uzman sistemleri aktif olarak kullanmaya ve uzman sistemlere dayalı ürünler satmaya başlamışlardır. Yapay zekanın alt çalışma alanlarından birisi olarak görülen ve belirsizlik altında karar verme konusunda tek alternatif olarak görülen Bulanık Mantık ise ilk olarak Lotfi Zadeh (1965) tarafından ortaya atılmıştır. Bulanık mantık esasına dayanan teknolojilerin geliştirilmesi 1980 lerin sonlarından itibaren Japonya da başlamıştır. Bu tarihlerde yapay sinir ağları da yapay zekanın bir alt çalıma alanı olarak yeniden ele alınmaya başlanmıştır li yıllar yirmi birinci yüzyılın anahtar bilimi olan yapay zekanın ve yapay zeka ürünlerinin gerçek hayatla bütünleştiği ve günümüze kadar devam eden sürecin başlangıcı sayılabilir. 1.3 Yapay Zekanın Alt ÇalıĢma Alanları Yapay zeka çalışmaları, insanın taklit edilen özelliğine göre Uzman Sistemler, Bulanık Mantık, Yapay Sinir Ağları ve Genetik Algoritmalar olmak üzere dört ana başlıkta toplanabilir. Uzman Sistemler, bir konu üzerinde uzman olan insanların o konu ile ilgili bilgi ve tecrübelerinin eğer-ise kuralları ile bilgisayara aktarılarak, mevcut işin makine tarafından yapılmasını sağlamaktan ibarettir. Bulanık Mantık ile bilgisayarın, matematikteki klasik mantık sistemi ile çalışan ve sınırları çok keskin olan kararlar yerine, insan beyninin yaklaşımına daha yakın olan ve kararlar arasında yumuşak geçiş esasına dayanan bir sistem ile çalışması sağlanır. İnsanın öğrenme, tecrübe edinme ve karşılaştığı yeni durumlar karşısında karar verebilme özelliğinin bilgisayarda modellenmesi de yapay sinir ağları çalışmaları kapsamındadır. Genetik algoritmalar ise genellikle, insanı bugünkü varlığına ulaştıran evrim sürecinin unsurlarından doğal seçilimi taklit eden eniyileme algoritmaları olarak tanımlanabilir. Buradan hareketle sözü edilen yapay zeka alt çalışma alanları aşağıda özetlenmiştir Uzman Sistemler Edward Feigenbaum (1983) tarafından ortaya atılan Uzman Sistemler (US) sınırlı bir alanda geniş bir veri tabanına sahip ve sadece o işin uzmanı tarafından 10

26 yapılabilecek bir işi, karmaşık dolaylı muhakeme yeteneği ile yapabilen bilgisayar programlarıdır. Bu tanıma göre bir uzman sistem, yapay bir uzman olarak da adlandırılabilir. Karar verme gibi çok geniş bir yelpazeye hitap etmesi nedeniyle tıp, hukuk, eczacılık, mühendislik, işletmecilik gibi çok farklı disiplinlerde uygulama alanı bulmuştur. İnsan nasıl yaşamı boyunca sürekli yeni bilgiler edinmekte, zaman içerisinde görüşlerini derinleştirmekte, değiştirmekte ve olgunlaştırmakta ise US de benzer şekilde bilgi tabanını genişletebilmeli ve her yeni bilgi eklemesinde yeniden program yazılmasını gerektirmemelidir. Bir sistemin uzman sistem olarak adlandırılabilmesi için bu sistemin, kullanıcı hatalarını algılama ve bu hataların kaynağını tespit ederek kullanıcıyı hata ile ilgili bilgilendirme yapma becerisinin de olması gerekmektedir (Nabiyev, 2005, s. 445) Bulanık Mantık İlk defa Azeri matematikçi Lotfi A. Zadeh (1965) tarafından ortaya atılan Bulanık Mantık (BM), daha sonraları hızlı bir gelişme göstermiştir. Tam ve kesin bilginin bulunmadığı, belirsizliğin hakim olduğu durumlarda karar verme esasına dayanan BM, karar verme gibi çok geniş bir alanda kullanıldığı için bilim ve teknolojinin hemen her alanında uygulanmaktadır. BM de amaç, belirsizlik ifade eden, tanımlanması güç veya anlamı zor kavramlara üyelik derecesi atayarak onlara belirlilik getirmektir (Türkşen, 1985). Bulanık Mantığın tanımı iki anlamda yapılabilir. Dar anlamda düşünüldüğünde BM, 1865 yılında Alman matematikçi Cantor tarafından ortaya koyulan klasik ikili mantık sistemine dayanan Kümeler Teorisinin genelleştirilmişidir. Daha geniş anlama bakıldığında ise BM kesin mantığı da içine alan Bulanık Kümeler Teorisi ile eş anlamdadır (Pop, 2004, s. 111). Klasik mantıkta bir önerme doğru ise 1, yanlış ise 0 değeri olmak üzere, yalnızca iki değer alabilir. BM da ise bir önerme, doğruluk derecesine göre kapalı aralığında sonsuz farklı değer alabilmektedir. Bu da gerçek hayata uygulandığında çok keskin kararlar yerine daha esnek kararlar verilmesini sağlamaktadır. 11

27 Bulanık mantığın en geçerli olduğu iki durumdan biri, incelenen olayın çok karmaşık olması ve bu olayla ilgili yeterli bilginin bulunmaması durumunda kişilerin görüş ve değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına gerek duyulan hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir bilgi kaynağıdır. İşte bu tür bilgi kaynaklarının, olayların incelenmesinde kullanılmasında bulanık mantık ilkelerinden faydalanılır (Baykal & Timur, 2004) Yapay Sinir Ağları Yapay Sinir Ağları (YSA), insan beyninin özelliklerinden olan öğrenme yolu ile yeni bilgiler türetebilme ve keşfedebilme gibi yetenekleri herhangi bir yardım almadan, otomatik olarak gerçekleştirebilmek amacı ile geliştirilen bilgisayar sistemleridir. YSA insan beyninden esinlenerek, öğrenme sürecinin matematiksel olarak modellenmesi uğraşısı sonucu ortaya çıkmıştır. Bu nedenle YSA üzerindeki çalışmalar, ilk olarak beyni oluşturan biyolojik birimler olan nöronların modellenmesi ve bilgisayar sistemlerinde uygulanması ile başlamış, daha sonraları bilgisayar sistemlerinin gelişimine paralel olarak birçok alanda kullanılır hale gelmiştir. İnsan beyninin çalışma prensibini taklit ederek çalışan bu sistemler, her ne kadar bilgisayar teknolojisi hızlı bir gelişim göstermiş, işlem hızları nano saniyeler düzeyine inmiş olsa da, değil insan beyni, ilkel bir canlıya ait sinir sisteminin yanında bile çok ilkel kalmaktadır. Nano saniyeler bazındaki işlem hızları ile yapay sinir ağları, mili saniyeler mertebesindeki işlen hızları ile işlem yapan insan beyninin işlevselliğinin henüz çok uzağındadır. İnsan beyninde yaklaşık 10¹¹ sinir hücresinin var olduğu düşünülünce, bu sayının bilgisayar ortamında modellenmesi şu an için mümkün görünmemektedir. Fakat karar hızı açısından insan beyni ile henüz yarışamasalar bile, YSA yapısallıkları ve hassas eşleştirmeleri başarı ile gerçekleştirebilmeleri nedeni ile gün geçtikçe daha fazla uygulama alanı bulmaktadır. Yapay sinir ağları başlı başına bir çalışma alanı olmakla birlikte, diğer birçok alanda bir araç olarak da kullanılmaktadır. Bu bağlamda YSA, bilimin hemen her alanında uygulanmaktadır. Bu uygulamalarda başlıcaları, uzay araştırmaları, 12

28 bankacılık, sigortacılık, kalite kontrol, elektronik, savunma sanayi, yönetim bilimleri, insan kaynakları ve robotik olarak sayılabilir Genetik Algoritma Milyonlarca yıldan beri organizmalar, değişen dünya koşullarına ayak uydurabilmek ve varlıklarını sürdürebilmek için biyolojik evrimden geçmektedir. Yaşayan her organizma genlerden oluşan ve kromozom adı verilen genetik materyallere sahiptir. Bu kromozomların dizilişleri ve düzenlenmesi, türlerin varlığını sürdürebilmesinde anahtar rol oynamaktadır. Doğal seçilim süreci ve en güçlü olanın yaşamını sürdürme ilkesi, evrimin önemli dayanaklarındandır. Genetik Algoritma (GA), evrimin bu ilkeleri üzerine kurulmuştur. Bu bağlamda GA, problemin alternatif çözümlerini birer birey, mevcut çözümden daha iyi bir çözüme geçme aşamasını ise doğal seçilim olarak kabul eden sezgisel bir eniyileme algoritmasıdır. Çalışmamızda özel bir ileri beslemeli YSA türü olan Radyal Tabanlı Fonksiyon Ağları, sorunları ve eksiklikleri bakımından ele alınmış ve bu sorun ve eksiklikler karşısında çözüm olarak önerilen Hibrit Radyal Tabanlı Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan modelin daha iyi anlaşılabilmesi amacıyla Bölüm 2 de ileri beslemeli ağlara odaklanılarak YSA a yer verilmiştir. 13

29 BÖLÜM 2 YAPAY SĠNĠR AĞLARI İnsan beyni üzerine yapılan çalışmalar binlerce yıl öncesine kadar uzanır. Ancak insan beyninin ve düşünce sisteminin taklit edilmesi çalışmaları modern elektroniğin ortaya çıkışı ile gerçekleşebilmiştir. YSA çalışmalarına olan ilginin ilk dalgaları, Warren McCulloch ve Walter Pitts (1943) isimli nöro-psikologların gerçekleştirdikleri çalışmalarında basitleştirilmiş nöron yapılarını tanıtmaları ile başlamıştır. Yaşamlarının yirmi yılını düşünme ve hissetme gibi sinirsel olayları araştırmaya harcayan McCulloch ve Pitts in çalışması, insan beyninin nasıl düşündüğünü ortaya çıkarmak için basit elektrik devrelerini kullanan ilkel bir YSA dizaynı üzerinedir. Onların bu çalışması, McCulloch ve Pitts in Formal Sinir Ağı Teorisi olarak anılmaktadır (Haykin, 1994, p. 38). Yapay Sinir Ağları teknolojilerindeki diğer bir büyük gelişme, Donald Hebb (1949) tarafından yayınlanan The Organization of Behavior adlı kitapla sağlanmıştır. Bu kitap, McCulloch ve Pitts in nöronlar ve bunların nasıl işlediklerine ilişkin teorisini destekler niteliktedir. Hebb in kitabı ile ortaya koyulan en önemli bilgi, nöral bağlantıların her kullanılışlarında daha da güçlendiklerinin gösterilmesidir. Bu bilginin doğruluğu, YSA nın öğrenme algoritmalarının geliştirilmesi ile pekiştirilmiştir (Haykin, 1994, p. 39) li yıllarda YSA çalışmaları yavaşlama olmuştur. Bununla birlikte bazı araştırmacılar bireysel olarak bu alandaki çalışmalarına devam etmiştir. Marvin Minsky (1954) yazdığı "Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem" isimli doktora tezinde YSA nı kullanmıştır. Ayrıca Minsky, ilk defa YZ konusunu detaylı olarak ele alan Steps Towards Artificial Intelligence" isimli bir de bilimsel makale yayınlamıştır (Minsky, 1963). Bu makale, YSA nı anlatan geniş bir bölüm içermektedir yılında Dartmouth ta yapılan Yapay Zeka Yaz 14

30 Araştırma Projesi kapsamındaki çalışmalar, çok basit düzeyde olsalar da YSA çalışmalarının ilk örnekleri sayılır li yıllarda John Von Neuman ın, telgraf aleti ve vakum tüpleri kullanılarak basitleştirilmiş nöron fonksiyonlarının taklit edilebileceği üzerine ortaya attığı fikir, Von Neumann Makinesi 1 keşfine de zemin hazırlamıştır. McCulloch and Pitts in çalışmalarından 15 yıl sonra YSA da yeni bir yaklaşım tanıtılmıştır yılında Cornell Üniversitesinde nöro-biyolog olarak görev yapan Frank Rosenblatt, Perseptron üzerinde çalışmaya başlamıştır. Perseptron, uygulamaya elverişli ilk YSA modeli olarak kabul edilmektedir. Perseptronun oluşturulmasında o zamanların bile en ilkel donanım malzemeleri kullanılmıştır. Perseptronun ilham kaynağı ise sineklerin gözleri olmuştur. Yaklaşan bir tehlikeyi gören bir sineğin kaçma kararını alma süreci, perseptron ile modellenmiştir (Masters, 1993) ve 1960 yıllarında ABD nin Stanford Üniversitesi nden Bernard Wildrow ve Marcian Hoff, ADALINE 2 ve MADALINE 3 modellerini geliştirmişlerdir. Bu modeller, sinyal işleme gibi gerçek hayat problemlerine uygulanabilen ilk yapay sinir ağları olarak ortaya çıkmaktadır. (Rojas, 1996, s. 476). Yayınlanmasını takiben oldukça popüler hale gelen perseptrondaki büyük çöküş, Marvin Minsky ve Seymour Papert (1969) tarafından yayınlanan Perceptrons isimli kitapta perseptronların sınırlı problem çözme kapasitelerinin ispatlanması ile gerçekleşmiştir (Masters, 1993). Minsky ve Papert in YSA nın eksikliklerini ortaya koymaları ile beraber, birçok bilim adamı yapay sinir ağı çalışmalarını bırakmaya 1 Von Neumann Makinesi: Matematikçi John Von Neumann tarafından geliştirilen, komutlar ve verinin aynı depolama biriminde saklandığı bir çeşit bilgisayar tasarımıdır. 2 ADALINE (ADAptive LINear Elements): 1960 yılında Bernard Widrow ve doktora öğrencisi Tedd Hoff tarafından geliştirilen tek katmanlı bir yapay sinir ağı örneğidir. 3 MADALINE (Çokluple ADALINE): ADALINE ağında girdi ve çıktı arasına paralel olarak yerleştirilen bir katmanla elde edilen bir çeşit iki katmanlı yapay sinir ağıdır. 15

31 başlamıştır. Başlıcaları Teuvo Kohonen, Stephen Grosberg, James Anderson ve Kunihiko Fukushima olmak üzere az sayıda bilim adamı ise YSA çalışmalarına devam ettirmişlerdir (Kröse & Smagt, 1996) dan 1981 yılına kadar geçen süreçte YZ ve YSA na bilim adamlarının ilgisi azalmış olsa da yapay zeka ve robotlar konusunu işleyen birçok roman, film ve televizyon programı ile konu gündemde kal mıştır. Yapay Sinir Ağlarına olan ilginin yeniden artmaya başlaması, özellikle bilgisayarların işlem kapasitelerinin artması ve hatanın geri yayılımı algoritmasının keşfini takiben 1980 li yılların başlarına kadar beklemiştir (Kröse & Smagt, 1996, s. 13). Bu tarihlerde YSA da önemli bir yenilik sayılan Özdüzenleyici Haritalar 1 öne çıkmaya başlamıştır yılında California Teknoloji Enstitüsünden John Hopfield, YSA ya yeni bir yaklaşım getiren çalışmasını bilim dünyasına sunmuştur. Hopfield çalışmasında, YZ yaklaşımlarının insan beynini tam olarak taklit etmesinin mümkün olmamasına rağmen, dinamik problemleri çözebilecek makinelerin yapımının sağlanabileceğini ifade etmiştir. Hopfield in fikirleri YSA da yeni bir alanın doğmasını sağlamıştır. Hopfield in fikrine dayanan YSA modelleri ise Hopfield Modeli olarak anılmaktadır (Haykin, Neural Networks, 1994, s. 41). Yaklaşık aynı zamanlarda Japonya da gerçekleştirilen YSA konulu bir konferansta Japonlar, YSA nın kabiliyetlerinin yeniden araştırılmaya başlanacağını duyurmuşlardır. Bu duyuru, Amerika Birleşik Devletleri ni YZ ve YSA çalışmalarında geride kalmak korkusuna sevk etmiş ve bu alandaki çalışmalara büyük fonlar ayırmalarına neden olmuştur. Yapay sinir ağları konulu yıllık konferansların ilki 1986 yılında 1800 bilim insanının katılımı ile gerçekleştirilmiştir. Aynı yıl Rumelhart, Hinton ve Williams (1986), geri yayılım algoritmasındaki gelişmeleri konu alan bir rapor hazırlamışlardır. 1 Özdüzenleyici Haritalar (Self-Organizing Maps-SOM): Danışmansız öğrenme algoritmalarını kullanan bir çeşit yapay sinir ağıdır. Genellikle çok boyutlu girdi uzayının, harita olarak adlandırılan düşük boyutlarla ifade edilmesinde kullanılır (Kohonen, 2001, s. 106). 16

32 Bu çalışmalarında, geri yayılım algoritmasının çok katmanlı perseptronların eğitiminde neden en önemli yöntem olarak ortaya çıktığı üzerinde durmuşlardır lı yıllar teknolojide ve dolayısıyla da YSA konusunda birçok ileri düzeyde araştırma ve ilerlemenin gerçekleştiği yıllar olmuştur. Günümüzde ise YSA ilkelerinin elektronik uygulamaları oldukça popülerdir. 2.1 Yapay Sinir Ağlarının Kullanım Alanları Yapay sinir ağları, birimleri sınıflara ayırmada oldukça başarılı bir yöntemdir. Walzack ve Sincich (1999) çalışmalarında, üniversite adaylarını, kabul edildikleri takdirde kayıt yaptırıp yaptırmayacak adaylar olmak üzere YSA ile iki kategoriye ayırmışlardır. Calderon ve Cheh (2002) ise yapay sinir ağlarını, iş başarısızlığı riskinin ölçülmesinde kullanmıştır. Huang v.d. (2008) iş başarısızlığı tahmininde YSA ve finansal analiz metotlarını bir araya getirerek hibrit bir model kurmuştur. Angelini v.d. (2008) ise kredi başvurularını değerlendirmede YSA modeli kullanmışlardır. Yapay sinir ağlarının çok başarılı olduğu diğer bir alan ise tahminlemedir. Palaez (2006) çalışmasında, işsizliğin tahmini için ekonomik modeller ile YSA modelini karşılaştırmış ve YSA nı başarılı bir tahminleyici olarak bulmuştur. Dawson v.d. (2002), Çinin Yangtze nehri için yağış miktarı-akış sürecinin ölçülmesinde iki farklı YSA modeli kullanılmıştır. Yangtze nehrine ait arası 6 saatlik yağış miktarı-akış verileri kullanılmış ve her iki YSA modelinin de nehrin akışını başarı ile tahmin ettiğini görmüşlerdir. Yapay sinir ağları çalışmalarının geleneksel istatistik tekniklerin kullanıldığı her alanda kendilerini göstermesi ile YSA ve istatistik tekniklerin karşılaştırıldığı çalışmalar literatürde sıkça yer almaya başlamıştır. Akbilgiç ve Keskintürk (2008), çoklu regresyon analizi ve YSA nı bir benzetim örneği için karşılaştırmış ve hata kareler ortalaması ve bilgi karmaşıklığı (ICOMP) kriterleri açısından YSA nın daha iyi bir tahminleyici olduğunu göstermiştir. Eastaugh v.d. (1997), erken doğuma bağlı riskli gebeliklerin belirlenmesinde YSA ve lojistik regresyon modellerini karşılaştırmıştır. Bu çalışmada, 17

33 kullanılan açıklayıcı değişkenlerin her iki modelde de başarılı tahmin yapmaya yeterli olmadıkları görülmüştür. 2.2 Biyolojik Sinir Sistemi ve ĠĢleyiĢi İnsan sinir sistemi bütün olarak düşünüldüğünde oldukça karmaşık bir yapıda olmasına rağmen, kendisini oluşturan birimler oldukça basittir. Sinir sistemini oluşturan bu basit hücrelere nöron adı verilir. Şekil 2-1 de bir nöronun genel görünümü ve nöronu oluşturan birimler yer almaktadır. Akson Tümseği Gövde Akson Dentrit Çekirdek Akson Çıkışı ġekil 2-1 Nöron Genel Görünümü ve Nöronu OluĢturan Birimler (Fraser, 1998, s. 1) Şekil 2-1 de genel görünümü verilen, sinir sistemini oluşturan unsurların sistem içindeki görevleri ise özetle aşağıdaki gibidir. Gövde: Nöronun orta kısmını oluşturur. Alınan sinyaller gövdede toplanır ve yine gövdede yer alan çekirdekte işlenir. 18

34 Dentrit: Dış çevreden nörona sinyallerin alındığı birimdir. Her bir nöronda çok sayıda dentrit bulunur. Akson: İşlenen sinyalleri dış çevreye ileten birimdir. Sinaps: Sinyal ileten aksonlarla sinyal alan dentritler arasındaki bağlantıyı sağlayan birimlerdir. Yukarıda temel elemanları ifade edilen bir nöronun işleyişi, sinapslardan geçen sinyallerin dentritlere ulaşması ile başlar. Nörona bağlı tüm dentritlerden gelen sinyaller hücre gövdesinde toplanır. Bu toplam değer bir eşik değerini aştığı zaman nöron ısınmaya başlar ve aksonlar aracılığı ile diğer nöronlara sinyal gönderir (Halıcı, 2001, s. 2-3). Biyolojik sinir sistemindeki işleyiş YSA ile modellenerek, insan gibi karar verebilen ve muhakeme yeteneği olan zeki sistemler yaratılmaya çalışılmıştır. Bu bağlamda YSA, YZ nin önemli kilometre taşlarından birisi olmuştur. 2.3 Yapay Sinir Ağlarının Genel Yapısı İnsan sinir sistemini taklit edecek şekilde oluşturulan bir yapay sinir ağı modeli, Şekil 2-2 de gösterildiği gibi girdi katmanı, gizli katman (veya ara katman) ve sonuç katmanı olmak üzere üç kısımdan oluşmaktadır. Bu katmanlardan gizli katman, birden fazla katmandan oluşabilir. Her bir katman nöronlardan oluşmaktadır. Girdi ve çıktı katmanındaki nöron sayısı, bağımsız ve bağımlı değişkenlerinin sayısı ile belirlenmekte iken, gizli katmandaki katman sayısı ve her bir gizli katmanda bulunacak nöron sayıları, en iyi performansı verecek şekilde kullanıcı tarafından belirlenmektedir. 19

35 ġekil 2-2Bir yapay sinir ağının genel görünümü Nöronlar arasındaki bilgi akışı YSA nın türünü belirlemektedir. YSA da bilgi akışı genellikle ileriye doğrudur ve bu tür YSA İleri Beslemeli Ağlar olarak adlandırılır. Bu çalışmada, sadece ileri beslemeli ağlar üzerinde durulmaktadır. Bu bağlamda ileri beslemeli ağlarda yer alan her bir nöron, alıp işlediği bilgiyi kendinden sonraki katmandaki nöronlara iletir. Bu bilgi iletimi sırasında nöronlar arasındaki bağlantıların ağırlıkları oldukça önemlidir. Diğer bir ifade ile bilgiler, ileten ve iletilen nöron arasındaki ağırlık değeri ile çarpılarak iletilmektedir. 2.4 Yapay Sinir Ağlarının BileĢenleri Genel görünümü Şekil 2-2 ile verilen bir yapay sinir ağı modeli, nöron adı verilen basit birimlerin bir araya getirilmesi ile oluşturulmaktadır. Bu nöronlar her birinde farklı görevleri yerine getirmek üzere girdi katmanı, gizli katman ve çıktı katmanında gruplandırılır. Bu bağlamda bir YSA modeli, nöronlar ve bilgi akışını ve işleyişini sağlayacak şekilde o nöronları bir arada tutan bağlantılardan oluşur Katmanlar Genel bir YSA modeli, girdi katmanı, gizli katman ve çıktı katmanından oluşmaktadır. Bu katmanların her biri, bilgi işleyişini sağlayacak şekilde farklı görevlere sahip nöronlar içermektedir. Bilginin ağa ilk gösterildiği kısım olan girdi katmanı, yapay sinir ağı modelinin dış dünya ile bağlantısını sağlamaktadır. Girdi katmanında bulunacak 20

36 nöron sayısı, bağımsız değişken sayısı kadardır. Bununla birlikte bazı YSA modellerinde, regresyon analizindeki sabit terim görevini gören ve yan olarak adlandırılan bir nöron daha eklenmektedir. Yan nöronuna girilen bilginin sabit olarak 1 değerini aldığı varsayılmaktadır. Bununla birlikte ne yan değeri ne de bağımsız değişken değerleri, girdi katmanı nöronlarında herhangi bir işleme tabi tutulmazlar. Gizli katman, YSA da kara kutu olarak bilinen kısımdır. Girdi katmanından kendisine iletilen bilgi bu katmanda işlenmektedir. Gizli katman birden fazla alt katmandan oluşabilir. Gizli katmanın kaç alt katmandan oluşacağı ve her bir alt katmanda kaç nöron bulunacağı kullanıcı tarafından belirlenir. Literatürde bu sayılarla ilgili bazı öneriler bulunmakla beraber, genellikle deneme yanılma yolu ile en iyi sonucu veren sayılar bulunur. Gizli katman nöronları bilgiyi, her bir nöronda bulunan aktivasyon fonksiyonları aracılığı ile işlerler. Bu bağlamda aktivasyon fonksiyonunun seçimi, kullanıcı inisiyatifinde olan ve ağın başarısını önemli ölçüde etkileyen parametrelerden birisidir. Bazı basit YSA modellerinde girdi katmanı direk çıktı katmanına bağlanır. Ancak bu tip ağlar bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkiyi modelleyememektedir. Buradan hareketle gizli katman, YSA na doğrusal olmayan ilişkileri modelleme gücünü kazandıran katmandır. Biyolojik nöron yapısında aksona karşılık gelen çıktı katmanı, modelde işlenen verinin dış dünyaya iletildiği katmandır. Gizli katmandan bağlantılar ile kendisine gelen bilgi, genellikle aynen ağın çıktısı olarak dış dünyaya iletilmektedir. Özellikle gizli katman bulunmayan basit YSA modellerinde ise çıktı katmanı nöronları, gelen bilgiyi bir eşik değer fonksiyonundan geçirerek dış dünyaya iletirler. Diğer taraftan, çıktı katmanında bulunacak olan nöron sayısı verideki açıklanan değişken sayısı kadardır. 21

37 2.4.2 Bağlantılar Yapay sinir ağlarında katmanlar arasındaki bilgi akışı bağlantılar aracılığı ile gerçekleştirilmektedir. Her bir katman kendisine gelen bilgiyi (işleyerek ya da doğrudan) kendisinden sonraki katmana aktarır. Bu aktarma işleminin gerçekleşebilmesi için, katmanlardaki her bir nöron, bir sonraki katmanda bulunan her bir nörona bağlanır. Bu bağlantıların her birisi bir ağırlık değerine sahiptir. Böylece herhangi iki nöron arasında iletilen bilgi, bu ağırlık değeri ile çarpılarak iletilmiş olur. Bu bağlamda herhangi bir nörona gelen net bilgi, kendisine bağlı olan bir önceki katmandaki nöronların çıktılarının doğrusal bir kombinasyonudur. Yapay sinir ağlarında bağlantı sayısı, katmanlarda yer alan nöronların belirlenmesi ile kendiliğinden ortaya çıkar. Ancak her bir bağlantıya ait bağlantı ağırlık değerleri genellikle başlangıçta keyfi olarak kullanıcı tarafından belirlenmektedir. Daha sonra bu ağırlık değerleri, ağın çıktısı ile hedeflenen çıktı değerleri arasındaki farkı eniyileyecek şekilde iteratif olarak değiştirilir. YSA da bu ağırlık değerlerinin iteratif olarak değiştirilmesi süreci öğrenme olarak adlandırılmaktadır Aktivasyon Fonksiyonları Aktivasyon fonksiyonları YSA da bilginin işlenmesini sağlayan elemanlardır. Bazı basit YSA modelleri dışında sadece gizli katman nöronları için geçerlidir. Gizli katmanda yer alan her bir nörona bir aktivasyon fonksiyonu (genellikle aynı fonksiyon) karşılık getirilmektedir. Gizli katman nöronuna gelen net bilgi, aktivasyon fonksiyonlarının girdisi olarak nöron içerisinde işlenir. Aktivasyon fonksiyonun bu net girdiye karşılık ürettiği değer ise ilgili nöronun çıktısını oluşturmaktadır. Yapay sinir ağı literatüründe kullanılmış birçok aktivasyon fonksiyonu türü olmakla beraber, bunlardan bazıları Tablo 2-1 ile özetlenmektedir. Bu tabloda yer alan radyal tabanlı fonksiyonları kullanan YSA modelleri, Radyal Tabanlı Fonksiyon Ağları olarak adlandırılan ayrı bir YSA türü belirlemektedir. Tablo 2-1 kapsamında radyal 22

38 tabanlı fonksiyonlar bir merkez ( ) ve yarıçap ( ) parametresinin fonksiyonu olacak şekilde tanımlanmış olmakla beraber Bölüm 3 te daha detaylı olarak ele alınmıştır. Tablo 2-1 Örnek Aktivasyon Fonksiyonları Fonksiyon Adı Kısa Adı Formülasyonu Eşik Değer - Logaritmik Sigmoid Tanjant Hiperbolik Sekant Hiperbolik Radyal Tabanlı Fonksiyonlar logsig tanh sech RBF 2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları Yapay sinir ağlarının bir araç olarak kullanılması, kullanılacak YSA modelinin ve daha da önemlisi seçilen model için kullanılacak öğrenme algoritmasının belirlenmesini gerektirmektedir. Burada öğrenme, iteratif işlemler ile hedeflenen ve ağın ürettiği çıktı değerleri arasındaki farkın bir fonksiyonu olan hata fonksiyonunu enküçükleyecek şekilde ağ parametrelerinin değiştirilmesi işlemidir. Literatürde önerilmiş birçok öğrenme algoritması olmakla beraber bunlardan göreceli olarak önemli olanları takip eden kısımda verilmiştir Hebb Kuralı Hebb in, kendi adı ile anılan öğrenme kuralı, en eski ve en ünlü öğrenme kuralıdır. Hebb (1949) in kitabında Eğer bir A hücresinin aksonları B hücresine, onu etkileyecek kadar yakınsa ve sürekli olarak etkilemeye devam ederse, B hücresinde, A hücresinin uyarılarının etkisi ile metabolik değişmeler meydana gelir. ifadesi yer almaktadır. Hebb hücre seviyesindeki bu değişmeyi, etkileşimli öğrenmenin temeli olarak kabul etmiştir. Hebb Kuralının Matematiksel Modeli: Hebb öğrenmesinin formülasyonunda nöronuna gelen ve nöronundan çıkan sinyaller sırasıyla ve olmak üzere nöronlar 23

39 arasındaki bağlantı ağırlığı ile gösterilmektedir. Sinaptik ağırlık ye inci adımda uygulanan düzeltmenin genel formu (2.1) ile verilmektedir. (2.1) Burada, nörona giren ve çıkan sinyallerin bir fonksiyonudur. inci iterasyonda nörona giren ve çıkan sinyaller olan ve birer gerçel sayı olarak kabul edilmektedir. (2.1) ile verilen eşitlik, Hebb türü olan birçok öğrenme formunda aynıdır. Hebb öğrenmesinin en basit formu (2.2) ile ifade edilmektedir. (2.2) Burada, pozitif bir sabit olan öğrenme oranıdır. (2.2) eşitliğinden yararlanarak inci adımda ilgili ağırlık değerinin hesabı (2.3) ile verilmektedir. (2.3) Perseptron Perseptron, Rosenblatt (1958) tarafından örüntü sınıflandırıcı olarak ortaya atılmış basit bir YSA modelidir. Tek katmanlı perseptron, bir girdi ve bir çıktı katmanı içerir. Perseptronda hem girdi katmanı hem de çıktı katmanı ikili (0 ve 1) birimlerden oluşmaktadır. Bununla beraber perseptronun çıktı birimlerinde aktivasyon fonksiyonu olarak eşik değer fonksiyonu kullanılmaktadır. Girdi katmanında, çıktı katmanında nöron bulunan tek katmanlı bir perseptronun genel görünümü Şekil 2-3 ile verilmektedir. 24

40 Girdi Katmanı Çıktı Katmanı +1 Yan Değeri ġekil 2-3 Tek katmanlı perseptron örneği Şekil 2-3 te görüldüğü gibi tek katmanlı bir perseptron, birden fazla nörondan oluşan girdi katmanındaki her bir nöronun ve bir yan değerinin, birden fazla nörondan oluşabilen çıktı katmanındaki her bir nörona bağlanması ile elde edilmektedir. En basit hali ile iki girdi ve tek çıktılı bir perseptron modeli ise Şekil 2-4 ile verilmektedir. Şekil 2-3 ve Şekil 2-4 te gösterildiği gibi perseptronda her zaman yan değeri 1 olarak alınmaktadır. +1 ġekil 2-4 Ġki girdi ve bir çıktılı perseptron 25

41 Perseptron modelinde girdi katmanındaki nöronların aldığı değerler, ilgili bağlantıları ile çarpılarak net sinyal değeri hesaplanır ve bu değer çıktı katmanı nöronlarının girdisini oluşturur. Herhangi bir çıktı katmanı nöronu için sözü edilen bu net sinyal, ilgili çıktı katman nöronunun kendisine bağlı her bir girdi katman nöronlarının ilettiği sinyal değerlerinin ağırlık değerleri ile çarpımlarının toplamına yan değerin ağırlığının eklenmesi ile elde edilir. Çıktı katmanı nöronlarının dış dünyaya ilettiği bilgi ise her bir çıktı nöronuna gelen net sinyale karşılık eşik değer fonksiyonunun verdiği sonuçtur. Buna göre inci çıktı katmanı nöronunun girdisi ve bu girdiye karşılık gelen çıktısı sırasıyla (2.4) ve (2.5) ile verilmektedir. (2.4) (2.5) (2.4) ve (2.5) te yer alan, inci girdi katmanı nöronunun değerini,, inci çıktı katman nöronunun net girdisini,, inci girdi nöronu ile inci çıktı nöronu arasındaki bağlantı ağırlığını,, eşik değer ile inci çıktı nöronu arasındaki bağlantı ağırlığını ve ise inci çıktı nöronunun ürettiği çıktıyı ifade etmektedir. Çıktı katmanı nöronlarının kullandığı aktivasyon fonksiyonu ise ile gösterilmiştir ve (2.6) ile tanımlanmaktadır. (2.6) (2.6) ile verilen formülden anlaşılacağı gibi tek katmanlı perseptron, -1 ya da +1 sonuçlarını üretmektedir. Bu hali ile perseptron, verilen örüntüleri iki kümeye ayırma problemlerinde kullanılabilir. İki kümenin ayrılma sınırını ise (2.6) ile verilen eşik değer fonksiyonundan da anlaşılacağı gibi değeri belirler. Perseptronda çıktı nöronları doğrusal aktivasyon fonksiyonu kullandığı için girdi değerleri bir hiper-düzlem ile iki bölgeye ayrılır. Girdileri iki sınıfa ayıran bu hiper-düzleme Karar Yüzeyi adı verilir ve (2.7) ile formüle edilir. 26

42 (2.7) Perseptron Öğrenme Kuralı, bağlantı ağırlıklarının değiştirilerek ağın öğretilmesi esasına dayanan iteratif bir yöntemdir. Temel olarak, eğitim veri kümesinin ağa gösterilmesi ve hata miktarının daha önceden belirlenmiş olan bir tolerans değerini aşması durumunda her bir ağırlık değerinin bir düzeltme terimi eklenerek güncellenmesi işlemlerinden ibarettir. Herhangi bir inci adımda, girdi ile çıktı katmanı nöronları arasındaki bağlantılar ve yan değeri ile çıktı katmanı nöronları arasındaki bağlantıların düzeltilmiş değerleri sırasıyla (2.8) ve (2.9) ile hesaplanmaktadır. (2.8) (2.9) (2.8) ve (2.9) formülleri ile öğrenme, örüntüleri daha doğru sınıflandıracak şekilde ve düzeltme değerlerinin hesaplanması problemine indirgenmektedir. Perseptron öğrenmesi ile en uygun çözümün diğer bir ifade ile en iyi karar düzleminin kesinlikle bulunabileceği, Rosenblatt (1958) tarafından ispatlanan Perseptron Yakınsaklık Teoremi ile gösterilmiştir. Perseptron Yakınsaklık Teoremi: Eğitim kümesini oluşturan girdi vektörlerinin kümesi ve hedeflenen çıktı vektörlerinin kümesi olmak üzere, eğer ve kümeleri sonlu ve doğrusal ayrıştırılabilirse Perseptron Öğrenme Algoritması ile başlangıç ağırlıkları ne olursa olsun, sonlu sayıda iterasyon ile ve yi iki kümeye ayıracak ağırlıkları bulunabilir (Rojas, 1996, s. 85). Yukarıdaki teoremden de anlaşılacağı üzere perseptron, yalnızca doğrusal ayrıştırılabilir problemlerin çözümünü garanti etmektedir. Diğer bir ifade ile bir sınıflandırma probleminin perseptron ile çözülebilmesi, her bir çıktı birimi için girdileri iki ayrık bölgeye ayırabilecek bir hiper-düzlemin bulunmasını gerektirmektedir. Ancak gerçek hayatta karşılaşılan birçok problem doğrusal ayrıştırılabilir değildir. Şekil 2-5 iki girdi ve bir çıktı değerine sahip mantıksal fonksiyonlar olan AND, OR ve XOR 27

43 problemlerinin geometrik gösterimini vermektedir. Belirtilen mantık problemleri için girdi ve çıktı değerleri ise Tablo 2-2 ile verilmektedir. Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri Girdi Değerleri Çıktı Değerleri X1 X2 AND OR XOR Şekil 2-5 ten anlaşılacağı gibi AND ve OR problemleri doğrusal ayrılabilirdir. Ancak XOR problemini doğrusal olarak ayırabilecek hiç bir hiper-düzlem yoktur. OR AND XOR = 0 = 1 ġekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) Perseptrondaki doğrusal ayrıştırılabilirlik kısıtının üstesinden gelebilmenin yolu, tek katmanlı perseptrondaki girdi ve çıktı katmanı arasına ayrı bir katman (gizli katman) eklenmesi ile elde edilen çok katmanlı perseptron kullanmaktır (Gibson, Siu, & Cowan, 1989, s. 1184). Böylece birçok hiper-düzlemin bir araya getirilmesi ile yeni bir karar yüzeyi tanımlanır. Perseptronlarla ilgili Minsky ve Papert (1969) tarafından yayımlanan kitapla beraber YSA üzerinde yoğunlaşmış olan ilgi, diğer YZ alanlarına doğru 28

44 yönelmiştir. Minsky ve Papert (1969) kitaplarında, perseptron ile ilgili ortaya koyulan bu eksikliğe rağmen perseptronun önemini vurgulamış ve ileride ortaya atılacak bazı yakınsaklık teoremleri ile perseptronun doğrusal olmayan ayrıştırıcı özelliğine kavuşacağını belirtmişlerdir (Minksy & Papert, 1969). Perseptron Öğrenme Algoritması: Girdi vektörü ve hedeflenen çıktı vektörü den oluşan eğitim kümesi için perseptron öğrenme algoritması üç temel adımda özetlenebilir. Adım 1: Eğitim kümesinden daha önce gösterilmemiş bir örnek ağa gösterilir. Adım 2: Ağın çıktısı hesaplanır ve hedeflenen çıktı değeri ile karşılaştırılır. Adım 3: Kendi içinde üç aşamadan oluşan bu adıma göre; a) Eğer ise ve eğitim kümesinde ağa gösterilmemiş örnek varsa Adım 1 e dönülür. b) Eğer ise ve eğitim kümesinden ağa gösterilmemiş örnek kalmadıysa ağın eğitimi bitirilir. c) Eğe ise ağın ağırlıkları düzeltme terimleri eklenerek güncellenir. Perseptron öğrenme sürecinin Hebb kuralından tek farkı, ağ doğru çıktı ürettiğinde bağlantılarda herhangi bir değişiklik yapılmamasıdır. Ayrıca yan değerin çıktı katmanına bağlayan bağlantının ağırlık değeri w 0 ile gösterilir ve yukarıda tanımlanan perseptron öğrenme algoritmasına göre (2.10) formülü ile güncellenir. (2.10) 29

45 2.5.3 Delta Kuralı Hata düzelterek öğrenme süreçlerinden birisi olan Delta Kuralı, Widrow ve Hoff (1960) tarafından ADALINE 1 nöronları için geliştirilmiş iteratif bir öğrenme algoritmasıdır. Hata düzelterek öğrenme süreci olarak değerlendirilir. Buna göre, öncelikle girdiler oluşturulan ağı takip ederek çıktı katmanına ulaşır. Sonra ağa gösterilen eğitim girdi verisi için ağın çıktısı hesaplanır. Daha sonra hesaplanan bu değer ile hedeflenen çıktı değeri (bağımlı değişken değeri) karşılaştırılır ve bu karşılaştırma değeri (hata fonksiyonu) hesaplanır. Eğer hesaplanan ve hedeflenen çıktı değeri arasında fark kabul edilebilir düzeyde ise veya fark yoksa ağda herhangi bir değişiklik yapılmaz. Bununla birlikte bu farkın önceden belirlenmiş tolerans değerini aşması halinde, ağın bazı bağlantılarında değişiklik yapılması gerekir. Bu değişikliklerin yapılmasında En Dik Azalış Yöntemi (Steepest Descent Method) kullanılır. Ağın ağırlıkları ve hata fonksiyonu olmak üzere t inci iterasyonda ağırlık değerleri ve hata fonksiyonu değeri sırasıyla ve ile gösterilir. Bu tanıma göre inci iterasyonda ağırlıkların yeni değeri için hata fonksiyonun değeri ile arasında (2.13) ile verilen ilişki vardır. (2.13) Hata düzelterek öğrenme süreci, ağırlıklarının her bir iterasyonda en dik azalış doğrultusunda (türevin ters yönü) sıfırdan büyük bir sabit sayı olan öğrenme katsayısı ile orantılı olarak değiştirilmesi esasına dayanmaktadır. (2.14) 1 ADALINE (ADAptive LINear Element): Bernard Widrow ve Tedd Hoff tarafından 1960 yılında geliştirilen, bir yan ve bu yan değerine bağlı ağırlık fonksiyonu ile toplam işlemcisinden oluşan basit bir YSA modelidir. 30

46 (2.14) ile verilen eşitsizlikte yer alan değeri, olarak belirlenir. Öğrenme oranının yeterince küçük seçilmesi durumunda, en dik azalış yönteminde her iterasyon, bir öncekinden daha küçük hata değeri verecektir. Delta kuralına göre çıktı birimlerine ait aktivasyon fonksiyonunun, özdeşlik fonksiyonu 1 olduğu varsayılır. Dolayısıyla ağın ürettiği çıktı değerleri ile hedef değerler arasındaki farkların kareleri toplamı enküçüklenir (Fausett, 1993). Şekil 2-6 ile gösterilen ve girdi katmanında, çıktı katmanında nöron bulunan tek katmanlı bir yapay sinir ağı ele alındığında, girdi vektörü e karşılık ağın ürettiği çıktı vektörü olmak üzere inci çıktı nöronuna karşılık gelen değer (2.15) deki gibi hesaplanır. (2.15) gözlemden oluşan eğitim kümesi, olmak üzere, eğitim kümesinin herhangi bir inci elemanı için girdi ve çıktı değerleri vektörü sırasıyla (2.16) ve (2.17) deki gibi gösterilir. (2.16) (2.17) 1 Özdeşlik Fonksiyonu (Identity Function): şeklinde tanımlanan özel bir fonksiyon tipidir. 31

47 ġekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) Delta öğrenme algoritmasının temel prensibi, tüm ağın performansının ölçüsü olan bir hata fonksiyonu tanımlamak ve ağın performansını eniyilemektir. Tek katmanlı bir yapay sinir ağı için ağın performansı (2.18) deki fonksiyonu ile tanımlanır. (2.18) (2.18) de, inci çıktı nöronu için hedeflenen değer, ile ağın çıktısı ifade edilmektedir. Delta öğrenme kuralında çıktı katmanı nöronlarındaki aktivasyon fonksiyonunun türevlenebilir olması durumunda, ağırlıklarda yapılacak olan türevin tersi yönünde belirli orandaki değişiklikler yardımıyla eniyileme sağlanır. eğitim veri kümesi için, ağırlıkların değiştirilme kuralı en dik azalış yöntemine göre (2.19) daki gibidir. (2.19) (2.19) da yer alan hata fonksiyonu kullanılmasıyla, nin kısmi türevi zincir kuralının (2.20) şeklinde yazılabilir. (2.20) nin (2.19) da yerine yazılmasıyla, algoritmasında her iterasyonda alacağı yeni değer (2.21) ile hesaplanır. w ij ağırlığının öğrenme 32

48 (2.21) Öğrenme algoritmasına adını veren ve delta olarak adlandırılan hata sinyali, inci çıktı nöronu için (2.22) deki gibi hesaplanır. (2.22) Doğrusal çıktı birimleri için, inci çıktı değeri ile hedeflenen değer arasındaki farka eşittir. Buradan hareketle, inci çıktı nöronunun ağırlık matrisi, sistemin girdisi, hedef vektörünün inci koordinatı, ağdan hesaplanan çıktı vektörünün inci elemanı ve öğrenme oranı ile ifade edilmek üzere delta öğrenme kuralı (2.23) ve (2.24) ile ifade edilir. (2.23) (2.24) Bu tip ağların temel özelliği, benzer örüntüleri benzer çıktılara karşılık getirebilmeleridir. Bu özelliği sayesinde ağ, eğitim kümesi verilerinin kullanılmasıyla genellemeler yaparak daha önce görmediği örüntülere uygun sonuçlar üretebilir. Standart delta öğrenme kuralında doğrusal bir aktivasyon fonksiyonu kullanılır. Hata fonksiyonu, hata kareler toplamıdır ve bu fonksiyon en dik azalış yöntemi ile eniyilenir. Buraya kadar ifade edilenlere göre delta öğrenme algoritması aşağıdaki gibi 7 adımda özetlenebilir (Fuller, 2000, pp ): Adım 1: Öğrenme oranı belirlenir. ve en büyük hata tolerans değeri Adım 2: ağırlıklarının başlangıç değerleri rastgele küçük sayılar olarak belirlenir, ve olarak seçilir. 33

49 Adım 3: Öğrenme bu adımda başlar. girdisi ağa gösterilir ve bu girdiye karşılık çıktısı (2.25) yardımıyla hesaplanır. (2.25) Adım 4: Ağırlık değerleri (2.26) da verilen formüle göre güncellenir. (2.26) Adım 5: Hata fonksiyonunun değeri (2.27) deki formül ile hesaplanır. (2.27) Adım 6: Eğer ise olarak seçilir ve eğitime devam etmek üzere Adım 3 e, değilse Adım 7 ye gidilir. Adım 7: Eğitim döngüsü bu aşamada tamamlanır. ise eğitime son verilir, ise olarak seçilir ve yeni bir eğitim döngüsü için Adım 3 e gidilir Sezgisel Optimizasyon Algoritmaları ile Öğrenme Buraya kadar değinilmiş olan öğrenme algoritmaları analitik çözümlere dayanmaktadır. Ancak bazı durumlarda bu yöntemler yerel çözümlere takılmakta veya en iyi çözüme yakınsamakta yetersiz kalabilmektedir. Bu sorunlar bazen veri yapısından, bazen de ağırlıkların başlangıç değerlerinin iyi belirlenmemiş olmasından kaynaklanabilir. Bu tip durumlarda sezgisel optimizasyon algoritmaları sıklıkla başvurulan yöntemlerdir. Genetik Algoritma, Parçacık Sürü Optimizasyonu, Karınca Kolonisi Algoritması, Tabu Araması v.b. sezgisel yöntemler kullanılarak öğrenmenin sağlandığı çalışma sayısı oldukça fazladır. 2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları Yapay sinir ağları geleneksel istatistik tekniklerin kullanıldığı hemen her alanda alternatif bir yöntem olarak ortaya çıkmaktadır. Literatürde YSA nın istatistik 34

50 tekniklerle karşılaştırıldığı birçok çalışma bulunmaktadır. YSA nın parametrik istatistik yöntemlere göre en önemli avantajı, daha az varsayıma sahip olmasıdır. Diğer bir ifade ile YSA da bağımlı ve bağımsız değişkenler arasındaki ilişkinin yapısı ile ilgili herhangi bir varsayım bulunmamaktadır. Bununla birlikte birçok istatistik yöntemde yer alan, değişkenlerin belirli dağılımlara sahip olması ve süreklilik varsayımları YSA için geçerli değildir. Bu özellikleri ile YSA, gerçek hayat problemlerine uygulanabilirlik açısından istatistik yöntemlere göre daha elverişlidir. YSA, aktivasyon fonksiyonlarının seçimine bağlı olarak istatistik yöntemlerle analizi mümkün olmayan çok yüksek dereceden doğrusal olmayan ilişkileri bile yakalama gücüne sahiptir (Cganh, Liang, & Chen, 2001, s. 530). Yapay sinir ağları bir anlamda parametrik olmayan bir istatistik yöntem olarak düşünülebilir (Comrie, 1997, s. 655). YSA ya yöneltilen en büyük eleştiri bu noktada ortaya çıkmaktadır. YSA ile oldukça başarılı tahmin ve sınıflandırma yapılabilmekle birlikte, elde edilen nihai modele ait katsayı değerleri yorumlanamaz. Ayrıca hangi bağımsız değişkeninin bağımlı değişkenler üzerinde etkili olduğuna ilişkin bilgi de elde edilemez. Bu bağlamda YSA, politika belirlemede kullanılamaz. Buraya kadar ifade edilen dezavantajların yanı sıra, YSA da kullanıcıya bağlı olarak değiştirilebilir parametre çok fazladır. Ağırlıkların başlangıç değerlerinin, aktivasyon fonksiyonunun tipinin, gizli katmanda bulunacak alt katman sayısının ve bu alt katmanlarda bulunacak nöron sayılarının belirlenmesi keyfi olarak yapılmakta ve en iyi ağ yapısı deneme yanılma yolu ile belirlenmektedir. Ayrıca kullanılacak öğrenme algoritmasının belirlenmesi de ağın başarısı üzerinde oldukça etkilidir ve literatürde her zaman diğerlerinden daha iyi olduğu ispat edilmiş bir öğrenme algoritması bulunmamaktadır. Yukarıda ifade edilen dezavantajların dolaylı olarak ortaya çıkardığı bir başka olumsuz yön ise YSA da işlem yükünün çok fazla olmasıdır. Öğrenme algoritmalarının genellikle iterasyona dayalı olması, uzayan işlem sürelerinin kısaltılabilmesi için 35

51 belirlenen durdurma kriterlerinin fazla esnek olmamasına, bu da elde edilebilecek daha iyi çözümlerin göz ardı edilmesine neden olabilmektedir. 2.7 Radyal Tabanlı Fonksiyon Ağları Radyal Tabanlı Fonksiyon Ağları (RTFA), çok katmanlı ileri beslemeli YSA nın özel bir halidir ve iki karakteristik özelliği vardır. Bunlardan birincisi, tek gizli katman bulundurması, ikincisi ise gizli katman nöronlarında aktivasyon fonksiyonu olarak radyal tabanlı fonksiyonların kullanılmasıdır. Radyal tabanlı fonksiyon ağlarının diğer bir önemli özelliği ise girdi nöronlarından gizli katman nöronlarına bilginin değiştirilmeden aktarılmasıdır. Diğer bir ifade ile girdi katmanı ile gizli katman arasındaki tüm bağlantı ağırlıklarının 1 olduğu söylenebilir. Bu çalışmada Radyal Tabanlı Fonksiyon Ağları ele alınmıştır. Daha önce ifade edilen YSA nın dezavantajlarından bazılarının üstesinden gelecek şekilde yeni bir hibrit model geliştirilmiştir. Bu bağlamda, radyal tabanlı fonksiyon ağları için mevcut olan merkez ve yarıçap parametrelerinin belirlenmesi sorunu ve gizli katman ile çıktı katmanı arasındaki ağırlık parametrelerinin öğrenilmesi sırasında ortaya çıkan tasarım matrisinin tekilliği sorunu uygun istatistik yöntemlerin ağa entegre edilmesi ile çözülmektedir. RTFA nın dezavantajlarının bazılarının giderilmesine yönelik bu eklentilerin yanında, oluşturulan model değişken seçimi yapacak şekilde tasarlanmıştır. Bu sayede RTFA nın avantajları da bir ölçüde arttırılmış olmaktadır. Yukarıda bahsedilen ve Hibrit RTFA olarak adlandırılan model, daha ayrıntılı olarak Bölüm 3 te açıklanmıştır. 36

52 BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI Çalışmanın bu kısmında YSA nın özel bir türü olan Radyal Tabanlı Fonksiyon Ağları (RTFA) ele alınmaktadır. RTFA nın genel yapısı, işleyişi ve öğrenme kuralları incelendikten sonra RTFA ile ilgili mevcut problemler ortaya konularak bu problemlere önerilen çözümler irdelenmektedir. Bu bağlamda RTFA çerçeve kabul edilerek uygun istatistik teknikler bu çerçeveye yerleştirilmiş ve oluşturulan Hibrit RTFA modeli hem değişken seçimi hem de tahminleme problemlerine çözüm getirecek şekilde oluşturulmuştur. 3.1 Radyal Tabanlı Fonksiyon Ağları Moody ve Darken (1989) tarafından popüler hale getirilen RTFA, danışmanlı öğrenme kapsamında değerlendirilen ileri beslemeli bir YSA modelidir. Ağ mimarisinin basitliği nedeniyle çok katmanlı YSA modellerine göre birçok avantajı vardır. Bu avantajlardan başlıcası, diğer geri yayılım algoritmalarına göre daha hızlı eğitilebilmeleri olarak ifade edilebilir. RTFA yı diğer YSA ndan ayıran en önemli özellik, gizli katman aktivasyon fonksiyonlarının sigmoid ve S-türü fonksiyonlar yerine, çekirdek fonksiyon olarak da adlandırılan Radyal Tabanlı Fonksiyonlar (RTF) kullanılmasıdır. Bu özelliği ile RTFA, farklı bölgelerinde farklı davranışlar gösteren girdi uzayları üzerinde çalışılırken etkin bir araç olarak öne çıkmaktadır. 37

53 ġekil 3-1 Ġki kategorili sınıflandırma problemi Şekil 3-1 de iki kategorili çıktısı olan tipik bir sınıflandırma problemi görülmektedir. RTFA yerel bilgi işleme kapasitesi sayesinde, sözü edilen probleme kolayca çözüm getirecek şekilde uyarlanabilmektedir. Şekil 3-1 ile tanımlanan problemin çözümü için, merkezi kesikli çemberin ortasında yer alacak şekilde belirlenmiş tek bir radyal tabanlı fonksiyon kullanmak yeterli olacaktır. Şekil 3-1 ile basit bir örneği verilmiş olmakla beraber, RTFA çok karmaşık yapıdaki, diğer bir ifade ile yüksek dereceden doğrusal olmayan yapıdaki örüntüleri bile sınıflandırabilecek şekilde yapılandırılabilir. RTFA nın bu özelliğinin temeli Cover ın örüntülerin ayrılabirliği üzerine ortaya attığı teoreme dayanmaktadır (Haykin, 1999, s. 257). Cover Teoremi: Karmaşık yapıdaki örüntü sınıflandırma problemleri, doğrusal olmayan dönüşümlerle yüksek boyutlu uzaya taşındıklarında, düşük boyutlu uzaylarda yapılan çözümlere göre daha yüksek doğrusal ayrıştırılabirliğe sahiptir (Cover, 1965, s. 15). Cover Teoremine uygun olarak RTFA, doğrusal olmayan dönüşümler yardımı ile girdi uzayının içerdiği karmaşık yapıdaki örüntülerin doğrusal ayrıştırılabilir hale 38

54 getirilmesi ve daha sonra doğrusal modeller yardımı ile problemin çözülmesi esasına dayanmaktadır. Bu yapı içerisinde RTF nin görevi, girdi uzayını doğrusal olmayan dönüşümlerle yüksek boyutlu uzaya dönüştürülmesidir. Ağırlık parametreleri ise doğrusal ayırma yüzeyine karşılık gelmektedir. Cover teoreminin iddiası, Şekil 3-2 ile örneklenmiştir. A Doğrusal Olmayan Dönüşüm B E D C ġekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıģtırılabilirlik Şekil 3-2 de yer alan soldaki grafik, iki boyutta doğrusal ayrıştırılabilir olmayan iki kategorili bir sınıflandırma probleme aittir. Uygulanan doğrusal olmayan dönüşüm ile problem, sağdaki grafikte görüldüğü gibi boyutu arttırılarak üç boyutlu uzaya taşınmıştır. E düzleminin, siyah ve gri renkle gösterilmiş olan iki kategorili sınıflandırma problemini doğrusal olarak ayrıştırabildiği görülmektedir. Sonuç olarak iki boyutta çözümü doğrusal ayrıştırılabilirlik açısından imkansız olan problem, üç boyuta taşınarak daha yüksek boyutta çözülebilir hale gelmiştir. 3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı Radyal tabanlı fonksiyon ağları ileri beslemeli çok katmanlı YSA nın özel bir halidir. RTFA tek gizli katmandan oluşan ve bu gizli katman nöronlarında RTF kullanılan bir yapıdadır. Buna göre bir RTFA nın genel görünümü Şekil 3-3 ile verilmektedir. 39

55 Girdiler Nöronlar Çıktılar ġekil 3-3 RTFA Mimarisi Radyal tabanlı fonksiyon ağlarında girdi katmanı sadece modele dış dünyadan veri alınmasını sağlar. Bu bağlamda girdi, hiç bir şekilde işlenmeden doğrudan girdi katmanı aracılığı ile gizli katman nöronlarına iletilir. Diğer bir ifade ile girdi katmanını gizli katmana bağlayan tüm ağırlık değerlerinin 1 olduğu ve çözüm süresince değişmediği varsayılır. Bu özelliği ile öğrenme aşamasında değeri değiştirilecek parametre sayısında önemli bir azalma gerçekleşir ve dolayısıyla öğrenme hızlanır. Herhangi bir tahmin modeli için, kullanıcı tarafından keyfi denemelerle belirlenen, deneme yanılma yolu ile iyileştirilebilen parametrelerinin az oluşu, ilgili modelin kullanışlılığı açısından olumlu bir işarettir. Bu bakımdan RTFA nın çok katmanlı YSA ya göre daha kullanışlı olduğu söylenebilir. Bunun nedeni, eldeki problemin çözümüne uygun RTFA nın oluşturulması aşamasında ağ mimarisine ilişkin verilecek tek kararın, gizli katmanda bulunacak nöron sayısının belirlenmesi olmasıdır. En iyi modelde bulunması gereken gizli katman nöron sayısı, problemden probleme ve hatta aynı problem için elde edilmiş farklı veri kümelerine göre bile değişebilmektedir. Bu 40

56 nedenle en iyi model için gizli katman nöron sayısı genellikle farklı alternatiflerin denenmesi yoluyla bulunur. Girdi katmanından gelen bilgi gizli katmanda RTF ler aracılığıyla işlendikten sonra ilgili ağırlık değerleri ile çarpılarak çıktı katmanına iletilir. RTFA da bilgi akışına ilişkin ifade edilenlere göre, gizli katmanda bulunan nöron sayısı ve herhangi bir inci nörona atanmış RTF ile gösterilmek üzere, tek çıktılı bir radyal tabanlı fonksiyon ağının girdisine karşılık ürettiği değer, doğrusal bir model oluşturacak şekilde (3.1) ile ifade edilmektedir. (3.1) ağın çıktısını, ağın girdisini, gizli katman nöronlarının çıktılarını ve parametreleri ise gizli katmanı çıktı katmanına bağlayan ağırlık parametrelerini göstermektedir. (3.1) eşitliğinde matris notasyonunun kullanılmasıyla tek çıktılı RTFA modelinin çıktısı, (3.2) ile verilen tipik bir doğrusal modele dönüşür. (3.2) (3.2) de eğitim veri kümesi için gözlem sayısı ve gizli katman nöron sayısı olmak üzere, ( boyutlu bağımlı değişkenin tahmin değerleri vektörünü;, ( boyutlu ağırlıklar vektörünü ve, açık hali (3.3) ile verilen ( boyutlu tasarım matrisini göstermektedir. (3.3) (3.2) den anlaşılacağı gibi, RTFA nın başarısındaki en önemli etken, aktivasyon fonksiyonu olarak uygun radyal tabanlı fonksiyonun seçilmesidir. Sözü edilen RTF nin başlıcaları devam eden kısımda ayrıca incelenmiştir. 41

57 Uygun radyal tabanlı fonksiyonun seçimi kadar, sayısının belirlenmesi de ağ mimarisinin oluşturulmasında önemli rol oynamaktadır. En iyi radyal tabanlı fonksiyon sayısının seçilmesine ilişkin en basit yol, bu sayının rastgele olarak belirlenmesidir. Bu şekilde yapılan seçimde birçok farklı sayı için denemeler yapılarak içlerinden en iyi performansı gösteren belirlenir. Ancak bu yöntem hiç bir zaman en iyi alternatifin bulunmasını garanti etmemektedir. İlerleyen kısımlarda değinilecek bazı öğrenme yöntemlerinde ise kullanılacak radyal tabanlı fonksiyon sayısı kendiliğinden ortaya çıkmaktadır. 3.3 Radyal Tabanlı Fonksiyonlar Radyal tabanlı fonksiyon ağlarına adını vererek yeni bir YSA sınıfının oluşmasına yol açan RTF, girdi veri kümesinin özel olarak belirli bir bölgesine düşen değerler için en büyük (ya da en küçük) değerini alan ve bu noktadan uzaklaştıkça daha küçük (ya da daha büyük) değerler üreten fonksiyonlardır. Bu özelliği ile RTF bölgesel işlemciler olarak kabul edilmektedir. Herhangi bir radyal tabanlı fonksiyon, merkez ( ) ve yarıçap ( ) olmak üzere iki parametre ile belirlenir. Bu parametrelerden, fonksiyonun en büyük ya da en küçük değerini aldığı noktayı gösterirken, bu noktaya olan uzaklıkları ölçeklendiren parametredir. Buradan hareketle, belirli bir değerinden uzaklığın değerine oranının fonksiyonu olacak şekilde RTF (3.4) teki gibi ifade edilir. (3.4) Literatürde yer almış birçok radyal tabanlı fonksiyon olmakla beraber bunlardan başlıcaları Gauss, Cauchy, Çoklu-Kuadratik ve Ters Çoklu-Kuadratik fonksiyonlardır. Bu radyal tabanlı fonksiyonların formülasyonları sırasıyla (3.5)-(3.8) ile verilmektedir. Gauss RTF (3.5) 42

58 Cauchy RTF (3.6) Çoklu Kuadratik RTF (3.7) Ters Çoklu Kuadratik RTF (3.8) Formülasyonları verilen radyal tabanlı fonksiyonların iki boyutta görünümleri Şekil 3-4 ile verilmektedir. Şekil 3-4 ten anlaşılacağı gibi Gauss ve Çoklu-Kuadratik fonksiyonlar merkez değere yaklaştıkça en büyük değerlerine yaklaşırken, Cauchy ve Ters Çoklu-Kuadratik türü fonksiyonlarda en küçük değer, merkez noktasında alınır ve merkezden uzaklaştıkça fonksiyon daha büyük değerler alır. ġekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) 43

59 Radyal tabanlı fonksiyonlar merkez parametresi ile belirlenen belirli noktalarda en büyük ya da en küçük değerlerini aldıkları için girdi uzayının farklı bölgelerindeki farklı davranışları modelleyebilirler. Gizli katmanda bulunan nöron sayısı, girdi-çıktı arasındaki ilişkinin o sayı kadar farklı modellerle sonuca yansıtılmasını sağlar. h 1 h 2 h p ġekil 3-5 Ġki girdili bir RTFA mimarisinde RTF'lerin görünümü Şekil 3-5 te iki girdili bir RTFA için, radyal tabanlı fonksiyonların girdi uzayındaki dağılımları gösterilmektedir. İç içe geçmiş her bir halkalar grubu bir radyal tabanlı fonksiyona karşılık gelirken, bu iç içe geçmiş halkalar ilgili radyal tabanlı fonksiyonun merkezden gittikçe uzaklaşan girdilere karşılık aldıkları değerdeki değişimi ifade etmektedir. Radyal tabanlı fonksiyon ağı mimarisinde kaç gizli katman nöronu bulunacağı dolayısıyla, kaç tane radyal tabanlı fonksiyon kullanılması gerektiğinin belirlenmesi önemli bir sorundur. Gizli katman sayısı yeterince arttırılarak eğitim veri kümesindeki tüm noktalardan geçen bir model oluşturmak mümkündür. Ancak radyal tabanlı fonksiyonların sayısının, diğer bir ifade ile matrisinin boyutunun arttırılması, birçok 44

60 hazır paket programın bile altından kalkamayacağı matris tersi alma işlemlerini gerektirecektir. Bununla beraber iyi öğrenmiş bir ağdan beklenen eğitim girdisini sıfır hata verecek şekilde tahminlemesi değil, girdi ile çıktı arasında yatan gerçek ilişkiyi modellemesidir. Eğitim veri kümesini sıfır hata ile öğrenmiş bir model, çıktı değerlerinin doğasında bulunan tesadüfi veya sistematik hatayı da modele katmış demektir. Bu şekildeki model, eğitim kümesinde yer almayan daha önce görmediği girdilerle karşılaştığında hedeflenen çıktı değerinden uzak sonuçlar üretir. Diğer taraftan gereğinden az sayıda radyal tabanlı fonksiyon kullanılması, girdi ile çıktı arasındaki ilişkiyi yakalamakta yetersiz bir model oluşturulmasına yol açacaktır. Bu bağlamda gizli katman nöron sayısı, RTF ağlarının mimarisinde karar verilmesi gereken en önemli parametrelerden birisidir. E 1 E 2 E 3 E 1 : Aşırı Uyum (Ezberleme) E 2 : Gerçek Gözlem Değerleri E 3 : Yetersiz Öğrenme ġekil 3-6 AĢırı Uyum ve Yetersiz Öğrenme Örneği Şekil 3-6 aşırı ve yetersiz öğrenmiş bir RTFA modeli için eğitim veri kümesi için ağ çıktılarının seyrini göstermektedir. Buna göre aşırı uyum durumunda (E 1 ) siyah noktalarla gösterilmiş olan eğitim veri kümesi noktaları tam olarak yakalanmış olmakla beraber, serinin gerçek seyri modellenememiştir. Diğer taraftan yetersiz öğrenme 45

61 durumunda (E 3 ) ise ne eğitim kümesindeki noktalar ne de serinin gerçek seyri yakalanabilmiştir. 3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme Radyal tabanlı fonksiyon ağlarında öğrenme, danışmanlı 1 ve danışmansız 2 öğrenmenin karışımı olacak şekilde iki aşamada gerçekleştirilmektedir. Danışmansız öğrenme kapsamındaki ilk aşama, gizli katman nöronlarında yer alan radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesi aşamasıdır. Bir doğrusal regresyon problemi gibi çözülebilen ve danışmanlı öğrenme kapsamında değerlendirilen ikinci aşama ise gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının belirlenmesi sürecidir. Her iki öğrenme aşaması için de önerilmiş birçok yöntem olmakla beraber bunlardan önce çıkanlar takip eden kısımda özetlenmektedir Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi Radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlendiği bu aşamanın genellikle danışmansız öğrenme kapsamında değerlendirilmesinin nedeni, bu aşamada önerilen yöntemlerde genellikle gözlenen çıktı değerlerinin kullanılmamasıdır. Bu aşamada girdi uzayı, çıktı değerlerinden bağımsız olarak birbirine benzeyen girdi değerlerinin kümelendiği bölgelerin ve bu bölgelerin genişliklerinin belirlenmesi sürecidir. Bu aşamada kullanılan matematiksel, istatistik ve sezgisel yöntemlerden bazıları çalışma kapsamında açıklanmıştır. 1 Danışmanlı Öğrenme (Supervised Learning): Gözlenen bağımlı değişken değerlerinin var olduğu durumda kullanılan öğrenme türüdür. Tahminleme ve sınıflandırma problemleri danışmanlı öğrenme kapsamında çözülür. 2 Danışmansız Öğrenme (Unsupervised Learning): Bağımlı değişken değerlerinin olmadığı veya bilinmediği durumlarda kullanılan öğrenme türüdür. Kümeleme ve eniyileme problemleri danışmansız öğrenme kapsamında değerlendirilir. 46

62 Rastgele Olarak SeçilmiĢ Sabit Merkezler: Bu yönteme göre girdi uzayından rastgele noktalar belirlenir ve bu noktaların her biri, bir radyal tabanlı fonksiyona karşılık gelen merkez parametreleri olarak sabitlenir. Bu sabit merkez parametrelerinin değeri öğrenme süresince değiştirilmez. Bu yöntemde yarıçap parametreleri de sezgisel olarak belirlenebileceği gibi (3.9) da verilen formülasyona göre de belirlenebilir. (3.9) Yukarıdaki formülasyonda herhangi iki merkez arasındaki en büyük uzaklığı, ise gizli katman nöron sayısını göstermektedir. Tek başına kullanıldığında probleme etkin çözümler getiremeyen bu yöntem, diğer birçok teknik için başlangıç çözümü olarak kullanılmaktadır. Kümeleme Analizi: Girdi uzayının benzer girdi değerlerinin bulundukları bölgelerin merkezlerinin belirlenmesi amacıyla kullanılan istatistik yöntemlere Kümeleme Analizi adı verilir. Bu bağlamda, herhangi bir kümeleme analizi yöntemi ile ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısı ve bu fonksiyonların merkezleri belirlenebilir (Mehrotra, Mohan, & Ranka, 2000). Yarıçap parametreleri ise genellikle küme merkezlerinin birbirlerine olan ortalama uzaklıkları veya ilgili küme merkezine en yakın diğer küme merkezi arasındaki uzaklık dikkate alınarak hesaplanır. Gradyen AzalıĢ Yöntemi: Radyal tabanlı fonksiyon ağlarına uyarlanışı Poggio ve Girossi (1989) tarafından önerilen gradyen azalış yöntemini kullanan RTFA, Genelleştirilmiş Radyal Tabanlı Fonksiyon Ağları (GRTFA) olarak adlandırılmaktadır (Wettschereck & Dietterich, 1992). Bu yöntem, başlangıçta rastgele olarak belirlenmiş olan ve parametrelerinin, modelin çıktıları ile hedeflenen çıktılar arasındaki farka ilişkin tanımlanan bir hata fonksiyonunun, ve parametrelerine göre kısmi türevlerinin tersi yönünde, değerlerinin güncellenmesi esasına dayanır. Buna göre ve parametreleri öğrenmenin her aşamasında (3.10) ve (3.11) ile formülleri verilen değişim miktarları ile toplanarak güncellenir. 47

63 (3.10) (3.11) Yukarıda verilen formülasyonlarda yer alan ve değerleri sırasıyla merkez ve yarıçap parametrelerinde yapılacak olan değişiklik miktarını,, hata kareler toplamını ve ise öğrenme oranını göstermektedir. Yukarıda her iki formülasyonda da aynı öğrenme oranı kullanılmış olmakla beraber merkez ve yarıçap parametrelerinin öğrenmesinde farklı öğrenme oranları da kullanılabilir. Öğrenme oranlarının büyüklüğünün seçimi, öğrenmenin başarısı üzerinde doğrudan etkilidir. Gereğinden küçük belirlenmiş öğrenme oranı işlem süresinin çok uzamasına neden olurken, gereğinden büyük belirlenmesi en iyi çözümün atlanmasına neden olabilir. Gradyen azalış yöntemine göre öğrenme işlemi sırasında hata fonksiyonu aracılığıyla hedeflenen çıktı değerleri de kullanıldığı için, diğer yöntemlerden farklı olarak bu yöntem, danışmanlı öğrenme kapsamında değerlendirilir. Bu yöntemin olumsuz yanı, öğrenmenin yerel çözümlere takılabilmesidir. Ayrıca iteratif olarak yürütülen bu yöntem, gözlem sayısı ve radyal tabanlı fonksiyon sayısının fazlalığına bağlı olarak oldukça yüksek işlem yükü getirebilmektedir. Karar Ağaçları: Genel görünümü Şekil 3-7 verilen Karar Ağaçları, girdi uzayının sorgulama yolu ile art arda iki bölgeye ayrılması esasına dayanmaktadır. Sürekli sorgulamalar yolu ile alt hiper-dikdörtgen uzaylara bölünen girdi uzayı, birbirinden farklı özellikler gösteren girdilerin gruplandığı bölgelere ayrılmış olur. Böylece karar ağaçları, hiper-dikdörtgenlerden oluşan bu alt uzayların her birisine bir radyal tabanlı fonksiyonun merkez ve yarıçapı atanarak radyal tabanlı fonksiyon parametrelerinin belirlenmesinde kullanılmaktadır. 48

64 x<100 y y<50 y>80 80 y<10 x>75 x<165 0 x<90 x<25 x<130 y> x ġekil 3-7 Karar Ağaçları Bir tür karar ağacı olan Sınıflandırma ve Regresyon Ağaçları yöntemleri, benzer şekilde radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesinde etkin olarak kullanılmaktadır. Açıklayıcı değişkenin kesikli olması durumunda sınıflandırma ağaçları, sürekli olması durumunda ise regresyon ağaçları yöntemi kullanılır. Sınıflandırma ve regresyon ağaçları diğer öğrenme yöntemlerine göre birçok avantaja sahiptir. Bunlardan en önemlisi, oluşturulan her bir hiper-dikdörtgen bir radyal tabanlı fonksiyona karşılık geldiği için, ağ mimarisinde kullanılacak olan gizli katman sayısı kendiliğinden ortaya çıkmaktadır. Bu özelliği ile sınıflandırma ve regresyon ağaçları, RTFA yı kullanıcıya daha az bağımlı hale getirmektedir. Sınıflandırma ve regresyon ağaçlarının ikinci önemli avantajı, analize başlamadan önce bir defa çalıştırılarak analiz boyunca değiştirilmeden kullanılacak merkez ve yarıçap parametrelerinin belirlenmesini sağlamaları ve bu sayede ağır işlem yükü getiren iteratif öğrenme algoritmalarından daha az zaman almalarıdır. Yukarıda sözü edilen avantajlarından dolayı bu çalışmada, RTFA nın merkez ve yarıçap parametreleri Bölüm 4 te detaylı olarak açıklanan regresyon ağaçları kullanılarak belirlenmiştir. Bu bağlamda bağımlı değişkenin sürekliliği, oluşturulan modelin varsayımlarından birisidir. 49

65 3.4.2 Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi Radyal tabanlı fonksiyon ağları öğrenmesinin ikinci aşaması, danışmanlı öğrenme kapsamında değerlendirilen ve gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının ( ) belirlenmesi aşamasıdır. Bu aşamada öğrenme, gizli katmanda yer alan gizli katman çıktılarının ( ) bağımsız değişken değerlerini, hedef çıktı değerlerinin ( ) bağımlı değişken değerlerini ve vektörünün regresyon katsayılarını temsil ettiği bir regresyon modeli ile ifade edilebilir. Dolayısıyla ağırlık parametrelerinin öğrenilmesi, (3.12) de verilen doğrusal modelin ağırlıklarının belirlenmesi problemine indirgenmiş olur (Bozdogan H., 2007, s. 2). (3.12) (3.12) ile verilen regresyon modeli için parametresinin belirlenmesinde ilk akla gelen yöntem En Küçük Kareler (EKK) yöntemidir. EKK yöntemine göre ağırlık parametrelerinin bulunmasına ilişkin formül (3.13) teki gibi verilmektedir. (3.13) RTFA öğrenmesinde ağırlık parametrelerinin (3.13) tekine benzer bir formülasyonla hesaplanması, modelin yeni veriler için genelleme yapabilme kapasitesi açısından bazı sorunları beraberinde getirmektedir. Bu sorunların ortaya çıkmasının temel iki nedeni; ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısının girdi çıktı arasındaki gerçek ilişkiye ait modelin serbestlik derecesinden yüksek olması ve çok fazla radyal tabanlı fonksiyon kullanarak ağın aşırı belirli olması olarak özetlenebilir (Haykin, 1999, s. 265). Eğitim veri kümesinde gerçekleşen bu aşırı belirlilik, modelin test aşamasındaki kötü performans olarak ortaya çıkmaktadır. 50

66 Gözlem Değerleri Gerçek İlişki Modellenen İlişki Tahminlenen İlişki ġekil 3-8 AĢırı belirli model örneği (Bozdogan H., 2007, s. 17) Şekil 3-8 ile kötü konumlanmış 1 matrisi ve bu durumda ortaya çıkan sorun gösterilmektedir. Buna göre, sinüs dalgası fonksiyonuna rastgele hatalar eklenerek gözlem değerleri oluşturulmuş ve ilişki RTFA ile modellenmiştir (Bozdogan H., 2007). Grafiğin ilk yarısı eğitim veri kümesi için modelin çıktılarının gerçek değerlere oldukça yakın olduğunu göstermektedir. Bununla beraber test aşamasında kullanılan ikinci yarıda, modelin çıktıları ile gerçek çıktı değerleri arasında büyük farklar oluşmaktadır. Bu çalışmada ağırlık parametrelerinin belirlenmesinde, matrisinin tekilliği sorununun önüne geçmek üzere kötü konumlanmış matrisler için bir düzenleme yöntemi olan Ridge Regresyon yöntemi kullanılmıştır. Ridge Regresyon yöntemi Bölüm 5 te ayrıntılı bir şekilde açıklanmaktadır. 1 Kötü Konumlanmış Matris (Ill Posed Matrix): Tekillik sorununa yol açan matris 51

67 3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının KarĢılaĢtırılması Radyal tabanlı fonksiyon ağları diğer çok katmanlı YSA gibi doğrusal olmayan ileri beslemeli ağ yapısındadır. Her iki model de evrensel fonksiyon yakınsayıcı 1 özellikte olduğundan, her zaman çok katmanlı YSA kullanılarak çözülen bir probleme yakın sonuç verebilecek bir RTFA bulunmaktadır (Haykin, 1999, s ). Ayrıca RTFA ağları tek gizli katmanı bulunan ve gizli katmanında radyal tabanlı fonksiyonlar kullanan bir tür çok katmanlı yapay sinir ağı türü olarak değerlendirilebilir. Yukarıda sözü edilen benzerliklerinin yanında ilgili iki model arasında büyük farklar da vardır. Bu farklardan birisi, çok katmanlı ağlarda gizli katman ve çıktı katmanı nöronlarında yapılan hesaplamalar birbirine benzer iken RTF ağlarında gizli katman ve çıktı katman nöronlarının işlemlerinin birbirinden tamamen farklı olmasıdır. Çok katmanlı ağlarda genellikle hem gizli katman hem çıktı katman nöronları doğrusal olmayan işlemcilerdir. RTF ağlarında ise gizli katman doğrusal olmayan işlemci, çıktı katmanı ise gizli katman çıktılarının ağırlıklı toplamı olan doğrusal işlemcidir. RTFA ve çok katmanlı ağlar arasındaki belki de en önemli fark, problemlere çözüm üretme yöntemleridir. Çok katmanlı ağlar girdi-çıktı arasındaki doğrusal olmayan ilişkiyi bir bütün olarak ele alıp genel bir yaklaşım ortaya koymaktayken RTFA bu ilişkiyi, girdi kümesinin farklı alt uzaylarında tanımlanmış farklı ilişkiler olarak değerlendirerek daha yerel çözümler üretir. 3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler Radyal tabanlı fonksiyon ağları, özellikle parametrik istatistik yöntemlere göre daha az varsayıma sahip olmaları ve sınıflandırma ve tahminleme problemlerindeki başarılı performansları ile öne çıkmaktadır. Ancak her yöntemde olduğu gibi RTFA da 1 Evrensel Fonksiyon Yakınsayıcı (Universal Function Approximator): Herhangi bir fonksiyon için uygun bir doğruluk düzeyinde tahmin yapabilen modellerdir. En az bir gizli katmanı bulunan yapay sinir ağları genel fonksiyon uydurucu özelliktedir (Hornik, 1989). 52

68 da bazı sorunlar ve eksiklikler vardır. Bu sorun ve eksiklikler ana başlıklar halinde şu şekilde listelenmektedir. Ağ mimarisinin oluşumunda probleme en uygun gizli katman nöron sayısının belirlenmesinde herhangi bir kural olmayışı, bu sayının sezgisel olarak deneme yanılma yolu ile belirlenmesi sorunu. Öğrenmenin birinci aşamasında, merkez parametrelerinin rastgele ya da işlem yükü ağır iteratif yöntemlerle belirlenmesi sorunu. Ağırlık parametrelerinin belirlenmesi aşamasında karşılaşılan matrisinin tekilliği sorunu. Değiştirilebilir parametre sayısının çok fazla olması sorunu. Model parametrelerinin yorumlanamaması nedeniyle bağımsız değişkenlerden önemli olanların belirlenememesi sorunu ve buna bağlı olarak model karmaşıklığını azaltacak şekilde bağımsız değişkenleri arasından seçim yapacak bir mekanizma ile entegre edilmemiş olması. 3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları Buraya kadar olan kısımda RTFA nın genel yapısı, işleyişi, öğrenme algoritmaları ve son olarak da mevcut sorun ve eksiklikler üzerinde durulmuştur. Bu aşamadan itibaren belirtilen sorun ve eksikliklerden yola çıkarak çalışma şekillendirilmektedir. Buna göre öncelikle her bir sorun ve bu sorunlara karşılık çalışma kapsamında ele alınan yardımcı çözüm yöntemleri belirtilmiş ve daha sonra bu yardımcı çözüm yöntemleri RTFA modeline entegre edilerek çalışmada önerilen model ortaya çıkarılmaktadır. Burada kısaca sözü edilecek olan yardımcı çözüm yöntemleri ve bu yöntemlerin RTFA modeline nasıl entegre edildikleri ise takip eden bölümlerde tek tek açıklanmıştır. Radyal tabanlı fonksiyon ağlarının merkez ve yarıçap parametrelerinin belirlenmesinde Breiman v.d. (1984) tarafından geliştirilmiş olan Regresyon Ağaçları kullanılmıştır. Regresyon ağaçları kullanılarak merkez ve yarıçap parametrelerinin belirlenmesi fikri Kubat (1998) tarafından ortaya atılmış ve Orr (2000) tarafından 53

69 geliştirilmiştir. Buna göre girdi uzayı, her seferinde eksenlerden birisine paralel olacak şekilde art arda iki parçaya bölünerek, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmakta ve her bir alt hiper dikdörtgenin koordinatları kullanılarak merkez ve yarıçap parametreleri belirlenmektedir. Merkez ve yarıçap parametrelerinin bu şekilde belirlenmesi ile hem işlem yükü getiren iteratif öğrenme algoritmalarına hem de öğrenme oranı gibi direk sonuca etki eden ve kullanıcı tarafından keyfi olarak belirlenen parametrelere gerek kalmamaktadır. Diğer taraftan regresyon ağaçlarının, girdi uzayının farklı girdi türlerinin kümelendiği bölgeleri farklı alt uzaylara ayırma özelliği, radyal tabanlı fonksiyonların çalışma ilkesi ile bağdaşmaktadır. Regresyon ağaçlarını RTFA ile entegre etmenin belki de en önemli faydası, gizli katman nöron sayısının, diğer bir ifade ile kullanılacak radyal tabanlı fonksiyon sayısının doğrudan ortaya çıkmasıdır. Regresyon ağaçları kullanımı ile RTF sayısının kendiliğinden ortaya çıkması ve öğrenme oranı parametresine gerek kalmaması, en iyi ağ yapısının kullanıcı tarafından yapılacak olan keyfi denemelerle bulunabilmesi gibi RTFA nın en çok eleştirilen yanına çözüm getirmektedir. Radyal tabanlı fonksiyon ağlarında karşılaşılan diğer önemli bir sorun ise ağırlık parametrelerinin belirlenmesi aşamasında ortaya çıkan matrisinin tekilliği sorunudur. Bu sorun özellikle en küçük kareler regresyon yönteminin kullanılmasıyla ortaya çıkmaktadır. Tekillik sorunun çözümü için modelde, Tickhonov (1963) tarafından önerilen ridge regresyon yöntemi kullanılmaktadır. Ağırlık katsayılarının kestiriminde matrisine bir yan değeri eklenerek tekillik sorununun engellenmesi esasına dayanan bu yöntem, yanlı sonuçlar üretmekle beraber doğru ridge parametresinin belirlenmesi durumunda en küçük kareler yöntemine göre daha düşük hata kareler toplamı vermektedir (Conniffe & Stone, 1973, s. 182). Model karmaşıklığını azaltmak üzere değişken seçiminin yapılmayışı, RTFA nın eksik olduğu yönlerinden biridir. Özellikle veri kümesinin boyutlarının büyük olduğu durumlarda değişken seçimi, modelin işlem yükünü azaltmak açısından oldukça 54

70 önemlidir. Diğer taraftan değişken seçimi yapılmadığı durumda bağımlı değişken üzerinde açıklayıcılığı daha yüksek olan bağımsız değişkenler belirlenememiş olur. Çalışmada oluşturulan modelde değişken seçimi işlemini yürütmek üzere hem Akaike (1973) hem de ICOMP (Bozdogan H., 1988) türü değişken seçim kriterleri kullanılmaktadır. Her iki tür değişken seçim kriterleri için de en küçük değişken seçim kriteri değerini veren bağımsız değişken alt kümesinin, bağımlı değişken üzerinde en açıklayıcı olan değişkenler oluğu kabul edilir. Bu bağlamda bir en küçükleme problemi olarak ortaya çıkan, değişken seçim kriterine en küçük değerini aldıracak olan bağımsız değişken alt kümesinin belirlenmesi problemi, Genetik Algoritma kullanılarak çözülmektedir. Radyal tabanlı fonksiyon ağlarındaki sözü edilen sorunlara çözüm bulacak ve eksiklikleri giderecek şekilde seçilen yöntemler ve bu yöntemlerin Hibrit RTFA modelindeki işlevleri Tablo 3-1 ile özetlenmektedir. Tablo 3-1 Hibrit RTFA modeli bileģenlerinin iģlevleri Yöntem Adı Çözdüğü Sorun / Giderdiği Eksiklik Belirlediği Parametreler Gizli katman nöron sayısının keyfi Regresyon Ağaçları olarak belirlenmesi sorunu İteratif öğrenme algoritmaları ile artan işlem yükü sorunu,, RTF merkezlerinin rastgele belirlenmesi sorunu matrisinin tekilliği sorunu Ridge Regresyon İteratif öğrenme algoritmaları ile artan işlem yükü sorunu AIC, ICOMP Değişken seçimi konusundaki Bağımsız değişkenlerin alt eksiklik kümesi Genetik Algoritma Değişken seçim kriterlerinin Bağımsız değişkenlerin alt optimizasyonunun uzun zaman kümesi alması Buraya kadar anlatılanlara göre önerilen Hibrit RTFA modeli, tek çıktılı olarak Şekil 3-9 ile gösterilmektedir. Önerilen Hibrit RTFA modeli sadece tahminleme problemlerinde değil aynı zamanda değişken seçimi problemlerinde de kullanılacak 55

71 Değişken Seçimi: ICOMP şekilde oluşturulmuştur. Önerilen model tek çıktı için kurgulanmış olup, sadece girdi değişkeninin sürekli olması varsayımına sahiptir. Regresyon Ağaçları Ridge Regresyon Radyal Tabanlı Fonksiyon Ağı Genetik Algoritma ġekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı Çalışmanın takip eden kısımları, Hibrit RTFA modeline entegre edilmiş olan yöntemlerin açıklanması ve modelin uygulaması ile devam etmektedir. Buna göre regresyon ağaçları, ridge regresyon ve değişken seçimi konuları sırasıyla 4, 5 ve 6 ncı bölümlerde ele alınmaktadır. Bu bölümlerde sadece bu yöntemler açıklanmakla kalınmamış aynı zamanda ilgili yöntemlerin Hibrit RTFA modeline nasıl entegre edildikleri üzerinde de durulmuştur. Çalışmamız kapsamında genetik algoritma, en iyi bağımsız değişken alt kümesinin bulunmasında kullanılan değişken seçim kriteri değerinin eniyilenmesi amacıyla modele eklenmiştir. Bu nedenle genetik algoritmaya ayrı bir bölümde değil, değişken seçimi bölümü içerisinde yer verilmiştir. Önerilen modelin performansının ölçüldüğü Freidman benzetim verisi ve IMKB Ulusal 100 Endeksi nin yönünün tahmini üzerindeki çalışmalar Bölüm 7 de yer almaktadır. 56

72 BÖLÜM 4 REGRESYON AĞAÇLARI Regresyon Ağaçları (RA) yoğun sayısal işlemlere dayanan parametrik olmayan yöntemlerdir ve son yıl içinde oldukça popüler hale gelmiştir. Çok fazla değişken ve çok fazla sınıfın olduğu problemlere kolayca uyarlanabilen RA, aykırı değerlere karşı oldukça sağlam bir yöntemdir (Steinberg & Colla, 1995). Regresyon ağaçları, hızlı ve doğru sonuçlar elde etmek isteyen ancak bunun için geleneksel istatistik yöntemleri kullanacak zaman ve becerisi olmayan araştırmacılar için iyi bir alternatif oluşturmaktadır. Geleneksel istatistik yöntemlerin kullanılabilmesi durumunda bile, eğer çok fazla değişken varsa, bu değişkenler arasındaki önem sırasının ve aralarındaki etkileşimin belirlenmesinde RA kullanılabilir. RA veri madenciliği alanında oldukça sıklıkla kullanılır hale gelmiş olmakla beraber, eksik gözlemlere yaklaşık değer bulunması gibi temel konularda da kullanılmaktadır (Harrel, 2001). Regresyon ağaçlarının ortaya çıkışı, 1960 lı yıllarda Morgan ve Sonquist (1963) tarafından geliştirilen AID (Automatic Integraction Detection) isimli karar ağacı tekniğine dayanmaktadır. Daha sonra 1970 li yıllarda yine Morgan ve Messenger (1973) THAID (Theta AID) tekniği adı altında sınıflandırma ağaçlarını ortaya tanıtmışlardır. AID ve THAID tekniklerinin her ikisi de Michigan Üniversitesi Sosyal Araştırmalar Enstitüsü nde geliştirilmiştir (Sutton, 2005, s. 304) li yıllarda Breiman v.d. (1984) veriye uygun ağacı karşılık getiren başarılı bir program olan CART (Classification And Regression Trees) yöntemini geliştirmişlerdir. İlk sürümünden bu yana oldukça geliştirilmiş olan CART, halen Salford Systems tarafından üretilip satılan bir programdır senesinde geliştirilen QUEST (Quick Unbiased Efficient Statistical Tree) yöntemi (Loh & Shih, 1997), CART yöntemini temel almakla beraber, yansız değişken seçimi, eksik veri ile çalışabilme ve 57

73 çok fazla kategori içeren tahminleyicilerle çalışabilmesi açısından CART yönteminden daha üstün özelliklerdedir (Sutton, 2005, s. 304). Günümüzde regresyon ağaçları birçok farklı paket program yardımıyla oluşturulabilmektedir. Bu çalışmada ise RA yı oluşturmak için MATLAB programı kullanılmaktadır. 4.1 Regresyon Ağaçlarının Yapısı Regresyon ağaçlarında amaç, sürekli bir bağımlı değişkenin değerlerinin, bir ya da birden çok sürekli veya kategorik bağımsız değişken tarafından tahminlenmesidir. Kategorik açıklayıcı değişkenlerle çalışabilmesi dikkate alındığında, RA nın çoklu regresyon analizine göre daha az varsayıma sahip olduğu söylenebilir. Regresyon ağaçları yöntemi, gözlem verileri kullanılarak karar ağacı oluşturmasında kullanılan iteratif yöntemlerden birisi olarak düşünülebilir. Oluşturulan karar ağacı, girdi uzayını daha küçük alt parçalara ayıran evet-hayır soruları kümesi şeklindedir. Karar ağacı oluşturma sürecinin her bir iterasyonunda, girdi uzayını en iyi şekilde iki parçaya ayıracak soruyu bulmak amacıyla tüm değişkenler ve bu değişkenlerin tüm olası değerleri üzerinden arama (eniyileme) yapılır. E Yaş > 40 H Kilo > 100 Kilo > 80 E E Yaş >60 Yaş < 70 Yaş < 30 E Kilo < 50 E Kilo< 100 E: Evet H: Hayır ġekil 4-1 Örnek Regresyon Ağacı Gösterimi 58

74 Örneği Şekil 4-1 ile verilen RA ile girdi uzayı, her bir aşamada tek bir değişkenin belirli bir değeri üzerinden iki parçaya ayrılmaktadır. Ayrıca bir değişken üzerinden, farklı iterasyonlarda olmak kaydıyla, birden fazla kez ayırma işlemi yapmak mümkündür. Şekil 4-1 ile ağaç yapısında verilen RA nın diğer bir gösterimi ise koordinat sistemi üzerinde hiper-dikdörtgenlerin sınırlarının belirtilmesi şeklindedir. Ancak bu gösterim en fazla üç bağımsız değişken olması durumunda kullanılabilmektedir. Şekil 4-2 ile Şekil 4-1 de ağaç yapısında verilmiş olan RA nın iki boyut için hiper-dikdörtgenler yardımıyla gösterimi verilmektedir. ġekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi 4.2 Regresyon Ağaçlarının OluĢturulması Regresyon ağaçlarının temel mantığı, girdi uzayını art arda ikiye bölmek suretiyle alt uzaylara ayırmak ve çıktısı her bir alt uzayın içerdiği girdilere karşılık gelen çıktıların ortalaması olacak şekilde bir fonksiyona yaklaştırmaktır. Elde edilen her bir alt uzayın sınırları eksenlerden birine paraleldir ve bağımsız değişkenleri içeren eşitsizlik, ayrımın yapıldığı değişken ve ayrımın yapıldığı nokta olmak üzere, şeklinde ifade edilir (Breiman, Freidman, Olshen, & Stone, 1984). 59

75 Regresyon ağaçlarında esas düğüm, eğitim veri kümesi nin tamamını içeren ve Şekil 4-2 de gösterildiği gibi en dışta yer alacak olan mümkün en küçük hiper dikdörtgendir. Esas düğümün herhangi bir inci boyut (ya da değişken) için uzunluk ( - yarı genişlik) ve merkez ( ) değerleri (4.1) ve (4.2) deki gibi belirlenir (Orr, et al., 1999, s. 456). (4.1) (4.2) (4.1) ve (4.2) de her için açıklayıcı değişken indisleri kümesi ve olmak üzere eğitim verisi indisler kümesini ifade etmektedir. Esas düğümün belirli bir inci boyutunun noktasından ikiye bölünmesi ile girdi uzayı sol ve sağ olmak üzere sırasıyla (4.3) ve (4.4) te formülleri verilen ve alt kümelerine ayrılır. (4.3) (4.4) ve alt kümelerinde yer alan girdilere karşılık gelen çıktı değerlerinin ortalamaları ve sırası ile ve alt kümelerin içerdikleri örnek sayısı olmak üzere (4.5) ve (4.6) daki gibi hesaplanır. (4.5) (4.6) Tüm olası ve değerleri arasından hata fonksiyonuna en küçük değerini aldıran parçalanış, esas düğümün çocuklarını (esas düğümün ikiye ayrılması ile elde 60

76 edilecek olan girdi uzayının alt kümelerini) yaratmakta kullanılır ve bu -boyut ve - gözlem üzerinden yapılacak olan kesikli arama ile gerçekleştirilir. Esas düğümün çocukları da benzer mantıkla art arda iki alt kümeye ayrılmaya devam eder. Herhangi bir alt uzayda ayırma işleminin devam edip etmeyeceği kararı, daha önceden belirlenmiş olan parametresine göre belirlenir. Buna göre herhangi bir alt uzayda yapılacak ayırma sonucu elde edilen kümelerden birisinde parametresinden daha az gözlem kalması durumunda, son yapılan ayırma işlemi de iptal edilerek bu alt uzay için ayırma işlemi bitirilir. Girdi uzayı öncelikle çıktı hakkında daha çok bilgi içeren boyutlar (bağımsız değişkenler) üzerinden ikiye ayrılma eğilimi gösterir (Orr, et al., 1999, s. 456). Bu özelliği ile RA, hem modelin kestirilmesinde hem de hangi girdi değişkenlerinin modellenen girdi-çıktı ilişkisinde daha önemli olduğuna karar verilmesinde kullanılabilir. Diğer taraftan kurulan RA modelinde dallanmanın fazla olması kestirilen modelin karmaşıklığı ile ilgili bilgi içermemektedir. 4.3 Ayırma Kuralları Girdi uzayının art arda ikiye parçalanması işlemi, bir hata fonksiyonun eniyilenmesi ile gerçekleştirilmektedir. Ayrım kuralı olarak da adlandırılan hata fonksiyonu genellikle En Küçük Kareler ve En Küçük Mutlak Sapma olmak üzere iki farklı şekilde tanımlanmaktadır En Küçük Kareler Kuralı Bu yöntem doğrusal modeller için kullanılan en küçük kareler yöntemine benzemektedir. Ayrım, düğümlerden elde edilecek ortalama çıktı değerleri ile ilgili düğümlerde yer alan gözlem değerleri arasındaki farkın kareler toplamı ortalamasını eniyileyecek şekilde yapılır. Buna göre algoritmanın herhangi bir adımında, ayrımın yapılacağı yer kararının verilmesinde kullanılacak en küçük kareler fonksiyonu (4.7) deki gibi ifade edilir. 61

77 (4.7) (4.7) ile verilen formülasyonda k, ayrımın hangi değişken, b ise ilgili değişkenin hangi değeri üzerinden yapılacağını göstermektedir En Küçük Mutlak Sapma Kuralı Bu kritere göre her bir düğümdeki çıktıların, yine bu çıktı değerlerinin medyan değerinden olan ortalama mutlak sapmaları eniyilenir. Bu yöntemin en küçük kareler kuralına göre avantajı, aykırı değerlerden fazla etkilenmemesi, dolayısıyla daha sağlam tahminler elde edilmesidir. Dezavantajı ise veri kümesinin fazla miktarda 0 değerini içermesi durumuna duyarsız olmasıdır (Moisen, 2008, s. 584). Ayrımın sol ve sağ tarafında kalan düğümler için hesaplanan medyan değerleri sırasıyla ve olmak üzere en küçük mutlak sapma hata fonksiyonu (4.8) deki gibi hesaplanmaktadır. (4.8) 4.4 Regresyon Ağaçlarının Budanması Regresyon ağaçları yöntemi ile oluşturulan ağaç, bazen çok büyük ve kullanılan veriye aşırı uyum gösterecek şekilde konumlanabilir. Bu durum, genellikle her bir düğüm hemen tek bir gözlem içerene kadar ağacın büyütülmesi durumunda ortaya çıkar. Ezberlemeye işaret eden bu durum, test aşamasında yetersiz tahminler yapılması ile sonuçlanmaktadır. Diğer taraftan ağacın çok küçük olduğu ve dolayısıyla girdi-çıktı arasındaki ilişkiyi yakalayamadığı durumlar da olabilir. Bu bağlamda RA da uygun ağaç büyüklüğünün belirlenmesi oldukça önemlidir. Uygun ağaç büyüklüğünün belirlenmesinde kullanılan farklı yöntemler vardır. Bunlardan biri, düğümlerin heterojenliğinin ölçüsündeki azalma miktarı için bir eşik değer belirlenmesi ve bu eşik değerin aşılamaması durumunda dallanma (ayrım) yapılmamasıdır. Önerilen diğer bir yöntem ise önce ağacın belirli bir minimum düğüm 62

78 büyüklüğü sağlanana kadar geliştirilmesi ardından ağacın en iyi büyüklüğe gelene kadar budanmasıdır. En iyi ağaç büyüklüğü, test verilerinin kullanılması veya çaprazdoğrulama (Cross Validation) yoluyla belirlenebilir. Her iki durumda da belirli bir hata oranına göre en uygun büyüklükteki ağaç elde edilmiş olur (Moisen, 2008). 4.5 Regresyon Ağaçlarında Maliyetler Regresyon ağaçlarının bir istatistik modelleme aracı olarak kullanılması sırasında karşılaşılan maliyetler ana başlıklar halinde aşağıdaki gibi özetlenebilir Açıklayıcı DeğiĢken Sayısı ve YanlıĢ Sınıflandırmaya Bağlı Maliyetler Birçok uygulamada, bazı bağımsız değişkenlerle ilgili veri toplamak oldukça yüksek maliyetli ve diğerlerine göre daha zor olabilir. Ayırma sürecinde daha düşük maliyetli açıklayıcı değişkenlere öncelik verilmesi ile bu maliyet azaltılabilmektedir. Diğer taraftan uygulamada hatalı sınıflandırma maliyeti genellikle daha yüksektir. Bu nedenle maliyet fonksiyonu hesaplanırken problemin tipine göre sınıflandırma ya da tahminleme hatası formüle edilmektedir Ağaç KarmaĢıklığı Maliyeti Regresyon ağaçlarının budanması aşamasında açıklandığı gibi, kullanıcı tarafından belirlenen değerinin çok küçük belirlenmesi, oldukça büyük bir ağaç oluşmasına neden olabilir. Bununla beraber budama işlemi sonucu elde edilen ağaç genellikle ilk başta elde edilene göre önemli ölçüde daha küçüktür. Bu küçülme miktarı kullanılan veriye göre, budanmış ağacın büyüklüğünün başlangıçtaki ağaçtan 10 kere daha küçük olmasına kadar varabilir. Dolayısıyla budama ile hesaplama süresinde de önemli ölçüde azalma sağlanır. Sonuç olarak, yerine koyma maliyeti olarak da düşünülebilecek olan model karmaşıklığı, ceza terimi ile maliyet fonksiyonuna eklenir. Bunun yolu, ağaçtaki düğüm sayısının belirli bir oranda eğitim veri kümesinden hesaplanan maliyete eklenmesidir. Böylece çok büyük oluşturulmuş ağaç, küçük yanlış sınıflandırma hatası vermekle beraber yüksek ceza terimine neden olacaktır. Diğer taraftan küçük ağaç için ceza düşerken hatalı sınıflandırma maliyeti artacaktır. 63

79 Karmaşıklık maliyeti özellikle çapraz doğrulama kullanılan durumlarda, budanmak üzere oluşturulan ilk baştaki büyük ağaca uygulanarak büyük ölçüde hesaplama etkinliği sağlanabilir. 4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre Edilmesi Regresyon ağaçlarında esas düğüm, çocukları olan (tekrar dallanma yapan) terminal olmayan düğümler ve çocukları olmayan (tekrar dallanma yapmayan) terminal düğümler içermektedir. Oluşturulan ağaçta yer alan her bir düğüm, girdi uzayında merkezli ve genişliğinde bir hiper-dikdörtgene karşılık gelmektedir. En büyük hiperdikdörtgen, esas düğüme karşılık gelendir ve ağacı oluşturacak şekilde sürekli daha küçük parçalara bölünür. Hiper-dikdörtgenleri radyal tabanlı fonksiyonlara çevirmek için ele alınan düğümün merkezi, karşılık getirilecek radyal tabanlı fonksiyonun merkezi ( ), genişliği ( ) ise bir sabiti ile çarpılarak radyal tabanlı fonksiyonunun yarıçapı olarak ( ) aşağıdaki gibi kullanılmaktadır. (4.9) Yukarıdaki formülde yer alan, gibi regresyon ağaçlarının diğer bir parametresidir. parametresinin belirlenmesine yönelik Kubat (1998, s. 815) tarafından önerilen formül (4.10) da verilmiştir. (4.10) Yukarıdaki formülde yer alan, inci hiper dikdörtgenin inci boyutuna ilişkin uzunluğunu, ise karşılık getirilecek olan Gauss tipi radyal tabanlı fonksiyonun ilgili boyuta (bağımsız değişkene) ait standart sapma değerini vermektedir. Buradaki sabitinin belirlenmesi tüm düğümler (hiper-dikdörtgenler) için aynı şekildedir. 64

80 sabitinin belirlenmesine ilişkin diğer bir formülasyon ise Orr v.d. (2000, s. 456) tarafından önerilmiştir. Buna göre ilgili formülasyon, (4.10) daki Kubat tarafından önerilmiş parametre değeri olmak üzere (4.11) ile verilmektedir. (4.11) Literatürde sabiti için farklı değerlerin kullanıldığı çalışmalar vardır. Bunlardan en sık karşılaşılanı ise sabitine faklı sabit değerler vererek en iyi performans gösteren ile model oluşturulmasıdır. Çalışmamızda, sabiti değerleri için yapılan denemeler ile belirlenmektedir. Regresyon ağaçlarının diğer bir parametresi olan ise 5 olarak sabitlenmiştir. Bu parametrenin 5 ten küçük belirlenmemesinin nedeni, modelin aşırı öğrenme sorunu ile karşılaşmasına engel olmaktır. Buraya kadar ifade edilenlere göre Hibrit RTFA modelinde, öncelikle girdi uzayı regresyon ağaçları yöntemi ile her birinde en az 5 gözlem değeri bulunan ve hiper dikdörtgenlerden oluşan alt uzaylara bölünür. Daha sonra oluşturulan ağaç yapısında yer alan her bir hiper dikdörtgene, gizli katmanda bir nöron (dolayısıyla radyal tabanlı fonksiyon) karşılık getirilir. Böylece bu aşamada ağ mimarisinin temeli olan gizli katman nöron sayısı kendiliğinden belirlenmiş olur. Sözü edilen karşılık getirme işlemi, ele alınan hiper-dikdörtgenin merkezinin karşılık getirilen radyal tabanlı fonksiyonun merkezi ( ), yarıçapının ise sayılarından birisi ile çarpılarak radyal tabanlı fonksiyonun yarıçap parametresi ( ) olarak belirlenmesi ile gerçekleştirilir. 65

81 BÖLÜM 5 RĠDGE REGRESYON Regresyon Analizi, bağımlı ve bağımsız değişkenler arasındaki ilişkinin varlığının, varsa bu ilişkinin yönünün ve gücünün belirlenmesi ile belirlenmiş bu ilişkiyi kullanarak bağımlı değişkenlerin değerlerinin tahminlenmesinde kullanılan bir istatistik yöntemdir (Johnson & Bhattacharyya, 2006, s. 431). Regresyon analizi bağımlı değişken sayısının bir ya da birden çok olması, kurulan modelin doğrusal olup olmaması ve bağımsız değişken sayısına bağlı olarak farklı şekilde kurgulanır. Bununla beraber, her istatistik yöntemde olduğu gibi regresyon analizinin uygulanabilmesi için de bazı varsayımlar ve bu varsayım bozulumları için önerilmiş çözüm yöntemleri vardır. Bu bölümde Hibrit-RTFA modelinde ağ parametrelerinin belirlenmesi aşamasında karşılaşılan tasarım matrisinin tekilliği sorunu ele alınmakta ve bu sorunun çözümünde Ridge Regresyon (RR) yönteminin kullanılması üzerinde durulamaktadır. Bu bağlamda sırasıyla, çoklu doğrusal regresyon modelinin tanımlanması, bu modelde sağlanması gereken varsayımların belirtilmesi, bu varsayımlardan çoklu doğrusal bağlantı problemine çözüm olan RR yönteminin açıklanması ile RR yönteminin Hibrit RTFA modeli ile entegrasyonu üzerinde durulmaktadır. 5.1 Çoklu Doğrusal Regresyon Çoklu Doğrusal Regresyon (ÇDR), bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemekte kullanılan bir istatistik yöntemdir. ÇDR nin amacı, bağımlı değişkenin kendi içindeki değişimi, bağımsız değişkenlerin doğrusal bir kombinasyonu olan bir fonksiyon yardımıyla açıklayabilmektir. Bu bağlamda, bağımlı değişken için açıklanan değişken, bağımsız değişkenler içinse ise açıklayıcı değişken ifadeleri de kullanılmaktadır. Buna göre genel ÇDR modeli ve modelin bileşenleri, gözlem ve bağımsız değişken için (5.1) deki gibi ifade edilmektedir. 66

82 (5.1) Formülasyonu (5.1) ile verilen ÇDR modelinde, boyutlu bağımlı değişkene ait gözlem vektörünü,, olmak üzere bağımsız değişkene ait boyutlu gözlem vektörünü,, boyutlu ve elemanları birbirine eşit olan regresyon sabiti vektörünü,, değişkenine karşılık gelen regresyon katsayısını ve, boyutlu ve dağılımlı hata terimi vektörünü göstermektedir. (5.1) eşitliği ile açık hali verilen model, gösterim kolaylığı sağlamak amacıyla, ve formunda ifade edilebilir. olmak üzere (5.2) ile verilen matris (5.2) Regresyon katsayıları, ilgili bağımsız değişkenin bağımlı değişkene göre eğimini vermektedir. Diğer bir ifade ile, dışındaki tüm bağımsız değişkenlerin değeri sabit tutularak değişkeninin değerinin 1 birim artırılması halinde, değişkeninde meydana gelecek değişim miktarını göstermektedir. Bu bağlamda, herhangi bir değişkeni ile nin saçılım grafiği, ilgili değişkenler arasındaki ilişkinin yapısı hakkında bilgi verebilir (Bluman, 1998, s. 484). Hata terimi, bağımsız değişkenlerce açıklanamayan ve örneklemeden kaynaklandığı varsayılan rastgele hatayı göstermektedir. Benzetim çalışmaları dışında genellikle gerçek model tam olarak bilinmediği için hata terimi de bilinmeyendir. (5.2) ile matris gösteriminde verilen ÇDR modelinde regresyon katsayılarının gözlem verileri yardımıyla gerçekleştirilen kestirimi ile gösterilmek üzere, nin kestirimi, şeklinde hesaplanır. nin gerçek ve kestirilen değerlerinin birbirine yakınlığı, gerekleştirilen kestirimin ne kadar iyi olduğunu gösterir. Buradan hareketle, regresyon artıkları olarak da bilinen hata teriminin kestirimi, formülü ile 67

83 yapılır. Regresyon artıkları, kestirilen modelin açıklama gücünün bir ölçüsü olan belirlilik katsayısının hesaplanmasında kullanılmaktadır. Belirlilik katsayısı, bağımlı değişken nin kendi içindeki değişimin, modelde yer alan bağımsız değişkenler tarafından açıklanan kısmının oranını verir. Bu bağlamda belirlilik katsayısı (5.3) ile verildiği biçimde hesaplanır (Berk, 2004, s. 107). (5.3) Belirlilik katsayısı formülasyonunun, aralarında eşitliği bulunan bileşenleri, nin ortalaması ve, elemanları 1 lerden oluşan vektör olmak üzere (5.4), (5.5) ve (5.6) ile ifade edilmektedir. Hata Kareler Toplamı : (5.4) Toplam Kareler Toplamı : (5.5) Regresyon Kareler Toplamı : (5.6) aralığında değerler alabilen belirlilik katsayısının 1 e yakın olması modelin uyum iyiliğinin güçlü, 0 a yakın olması ise modelin uyum iyiliğinin zayıf olduğunu ifade etmektedir (Yamane, 1973, s ). Modele eklenecek her yeni bağımsız değişken, değişkeni ile ilişkisinin zayıf olması durumunda bile değerini arttırmaktadır. Bu nedenle nin uyum iyiliğinin değerlendirilmesinde kullanılması eleştirilmektedir (Bonate, 2006, s. 17). Bu noktada modelin uyum iyiliğinin değerlendirilmesinde, bağımsız değişken sayısından ye göre daha az etkilenen düzeltilmiş belirlilik katsayısı kullanılabilir (Munch & Branson, 2004, s. 4). (5.7) ise, Daha önce (5.2) ile verilen modelin hata teriminin standart hatası nın kestirimi 68

84 (5.8) şeklinde elde edilir (Yamane, 1973, s. 915). (5.8) ile verilen model standart hatasının kestirim formülü, regresyon katsayılarının varyans-kovaryans matrisinin kestiriminde aşağıdaki biçimde kullanılır. (5.9) Buraya kadar formülü verilen istatistikler, örneklem ile çalışılan durumlar için geçerlidir. Anakütle ile çalışılması durumunda ve kestirimleri herhangi bir düzeltme terimi gerektirmeksizin sırasıyla aşağıdaki gibi hesaplanır. (5.10) (5.11) hesaplanmaktadır. kestiriminin varyansı ise matrisinin köşegen elemanları olarak En Küçük Kareler Kestirimi En Küçük Kareler (EKK), hata kareler toplamını eniyileyecek şekilde bilinmeyen regresyon katsayılarının kestirilmesinde kullanılan bir yöntemdir. Bu bağlamda, EKK yöntemi kullanılarak regresyon katsayılarının kestiriminde eniyilenecek fonksiyon (5.12) ile ifade edilir. (5.12) (5.12) ile verilen fonksiyonun parametrelerine göre kısmi türevlerinin alınarak sıfıra eşitlenmesi ile elde edilen denklem sistemi, normal denklemler olarak adlandırılmaktadır. Normal denklemlerin çözümü ile elde edilen regresyon katsayılarının EKK kestirimleri; 69

85 (5.13) formülü ile elde edilir (Yamane, 1973, s. 945). Elde edilen regresyon katsayılarının EKK kestirimi kullanılarak, nin EKK kestirimi ise (5.14) ile verilmektedir. (5.14), nın yansız ve minimum varyanslı kestiricisi olması nedeni ile regresyon varsayımlarının sağlanması durumunda en çok başvurulan kestirim yöntemidir. Bu kısımdan itibaren formülasyonlara sadelik getirmek amacıyla EKK kestiricisi için sembolü kullanılmıştır Çoklu Doğrusal Regresyon Modelinin Varsayımları Çoklu doğrusal regresyon modelinin uygulanabilirliği bazı varsayımın sağlanmasına bağlıdır. Bu varsayımların sağlanması durumunda EKK kestiricisi yansızlık, etkinlik ve tutarlılık bakımından en iyi kestiricidir (Engle, 1982, s. 995). Yansızlık, kestirimin beklenen değerinin parametrenin gerçek değerine eşit olması, etkinlik ise kestiricinin diğer tüm yansız kestiricilerden daha küçük varyanslı olması anlamına gelmektedir. Örnek büyüklüğünün sonsuza ıraksaması durumunda kestiricinin yan ve varyansının sıfıra yakınsaması ise tutarlılık olarak adlandırılmaktadır. Buradan hareketle ÇDR modeline ait varsayımlar başlıklar halinde aşağıdaki gibi özetlenebilir (Ostrom, 1990). Doğrusallık: Açıklanan ve açıklayıcı değişkenler arasındaki ilişki doğrusaldır. İlişkinin doğrusal olmaması durumunda mümkünse, veriye uygun dönüşüm uygulanarak ilişki doğrusal hale getirilir. Dönüşümle doğrusallığı sağlamanın mümkün olmadığı durumlarda diğer istatistik modellere başvurulabilir. Ayrı ayrı her bir açıklayıcı değişkenle açıklanan değişken arasındaki saçılım grafiğine bakılarak da bu varsayımın sağlanıp sağlanmadığı ile ilgili bilgi sahibi olunabilir. Normallik: Hata terimi olacak şekilde normal dağılıma sahiptir. Bu varsayım geleneksel istatistik yöntemlerle regresyon katsayılarının anlamlılığının test 70

86 edilebilmesi için sağlanmalıdır. Bu bağlamda normallik, ÇDR nin en önemli varsayımıdır. Hataların Rastlantısallığı: Hatalar rastlantısaldır ve birbirleri ile doğrusal ilişkisizdir. şeklinde ifade edilen bu varsayım zaman serilerinde sıklıkla bozulur. Hatalarla Açıklayıcı DeğiĢkenlerin Bağımsızlığı: Hatalar ile bağımsız değişkenler birbirinden doğrusal bağımsızdır. Bu varsayım şeklinde ifade edilir. Her bir açıklayıcı değişken ile artıkların saçılım grafiğine bakılarak varlığı tespit edilebilir. Sabit Varyanslılık: Hata varyansı sabittir. Bir başka ifadeyle tahminleyicilerin değerine göre sistematik olarak değişmez. olarak ifade edilen bu varsayım da özellikle zaman serilerinde sıklıkla bozulur. Çoklu Doğrusal Bağlantı: Çoklu doğrusal regresyon analizinde kullanılan tahminleyiciler genellikle bağımsız değişkenler olarak adlandırılır. Ancak bu, ilgili değişkenlerin birbirleri ile bağımsız oldukları anlamında değildir. Aslında doğal sistemlerde değişkenler genellikle birbirleri ile oldukça ilişkilidir. Çoklu Doğrusal Bağlantı (ÇDB), bağımsız değişkenlerin kendi içinde yüksek bağlantılı olmaları durumudur. (5.8) ve (5.10) ile verilen formüllerden de anlaşılabileceği üzere, kestirilen regresyon katsayılarının varyansı, tahminleyicilerin kendi aralarındaki korelasyona bağlıdır. Bu nedenle sözü edilen varsayım, kestirimlerin etkinliği açısından oldukça önemlidir. Çoklu doğrusal bağlantı varsayımının bozulması, oluşturulan regresyon modelinin geçersiz olduğu anlamına gelmez. ÇDB altında bile eldeki veriye çok iyi uyum gösteren kestirimler elde edilebilir. Ancak ÇDB nin birçok olumsuz etkisi vardır. Bunlardan birincisi, regresyon katsayılarının varyanslarının çok yüksek çıkmasıdır. Bu durumda bağımlı değişken üzerinde büyük ölçüde açıklayıcı olan bağımsız değişkenler 71

87 için bile regresyon katsayılarının testi anlamsız sonuç verebilir. İkinci olarak, regresyon katsayılarının büyüklüğü, hatta işaretleri bile yanlış kestirilebilir. ÇDB nin üçüncü olumsuz etkisi ise modele bir değişken eklenmesi veya çıkarılması durumunda regresyon katsayılarının çok yüksek değişime uğrayacağı ve işaretinin bile değişebileceğidir (Quinn & Keough, 2001, s. 133). Çoklu doğrusal regresyon modelinin ÇDB varsayımını sağlayıp sağlamadığının belirlenmesinde sıklıkla Varyans Artış Faktörü (Variance Inflation Factor - VIF) istatistiği kullanılır (Quinn & Keough, 2001, s. 133). VIF, ÇDB nin kestirilen regresyon katsayılarının varyansı üzerindeki etkisini göstermektedir. ÇDB, yalnızca bağımsız değişkenler arasındaki ikili ilişkiye bağlı değildir. Aynı zamanda herhangi bir bağımsız değişkenin birden fazla bağımsız değişkenin kombinasyonu olarak ifade edilebilmesi de ÇDB sorununa yol açar. Bu nedenle (5.15) ile formülü verilen VIF, çoklu doğrusal regresyonda yer alan her bir değişkenin, diğer değişkenler üzerindeki çoklu belirlilik katsayısına dayanır. (5.15) Burada, inci bağımsız değişkenin diğer tüm bağımsız değişkenlerle olan belirlilik katsayısı, ise ilgili açıklayıcı değişkene ait VIF değerini ifade etmektedir (Haan, 2002). Bir bağımsız değişkenin diğerlerinden bağımsız olması durumunda ilgili değişken için hesaplanan VIF değeri 1 olur. Bununla beraber, tam bağımlılık durumunda VIF değeri sonsuza ıraksar. Böyle bir durumda kestirilen regresyon katsayılarının varyansı da sınırsız olur. Varyans artış faktörü değerlerinden en az bir tanesi büyük değer aldığında, ÇDB probleminden bahsedilebilir. Bu büyüklüğün ne kadar olduğu ise analizi yapan kişi tarafından belirlenir. Bazı araştırmacılar bu sınırı 5, bazıları ise 10 olarak kabul etmektedir. VIF için kabul görmüş olan bu 5 ve 10 değerleri sırasıyla 0.80 ve 0.90 değerlerine karşılık gelir. Bazı araştırmacılar ise herhangi bir VIF değerinin, tüm VIF 72

88 değerlerinin ortalamasından önemli ölçüde büyük olması durumunu ÇDB işareti olarak değerlendirmektedir (Haan, 2002). Hangi kriter olursa olsun, ÇDB çok güçlü bağımlılık durumunda ortaya çıkan bir sorundur. Bu bağlamda sıfır olmayan her korelasyon, ÇDB problemine yol açmamaktadır. ÇDB durumunda önerilmiş birçok yöntem olmasına rağmen, değişken seçimi ve Ridge Regresyon oldukça sıklıkla başvurulan yöntemler olarak öne çıkmaktadır. Fakat çoklu bağlantının çok güçlü olduğu ve değişkenlerin önem derecelerinin birbirine yakın olduğu durumlarda değişken seçimi için adımsal yöntemler uygun değildir. Son yıllarda değişkenler arasındaki çoklu doğrusal bağlantı durumunda kullanımı oldukça yaygın olan bir diğer yöntem ise bilgi kriterleri yardımı ile değişken seçim yöntemidir. Bu yöntemler daha detaylı olarak Bölüm 6 da ele alınmıştır. 5.2 Ridge Regresyon En küçük kareler yöntemi, tüm varsayımlarının sağlanması durumunda ÇDR modelinin kestiriminde sağlam ve kullanışlı sonuçlar üretir. Bununla beraber gerçek hayat problemlerinde veriler, her zaman bu varsayımları sağlayacak türden değildir. Uygulamalarda genellikle ÇDB olarak adlandırılan açıklayıcı değişkenlerin doğrusal bağlantılı olduğu durumla karşılaşılır. Bu durumda EKK kestirimi en iyi yansız doğrusal kestirici olmasına rağmen, regresyon katsayılarının, hatta işaretlerinin yanlış belirlenmesine neden olabilir. Çoklu doğrusal regresyon analizinde amacın yalnızca tahmin yapmak olması ve ÇDB probleminin tahminleme süreci boyunca değişmeyeceği varsayımı altında, ÇDB nin problem yaratmayacağı düşünülebilir. Bunun nedeni, ÇDB nin modelin tahminini değil sadece regresyon katsayılarının kestirimini etkileyecek olmasıdır (Koutsoyiannis, 1977). ÇDB problemi altında, model kestiriminde oldukça sıklıkla kullanılan Ridge Regresyon (RR) ilk kez Arthur Hoerl ve Robert Kennard (1970) tarafından önerilmiştir. RR, parametre kestiricilerinin varyansını düşürmek amacıyla regresyon denklemlerine 73

89 yan terimi eklenmesi esasına dayanır. En iyi ridge sabitinin belirlenmesinde kullanılan yönteme bağlı olarak, parametre kestiriminde en büyük açıklanan varyansı verecek şekilde birçok farklı yazar tarafından farklı ridge kestiricileri ortaya atılmıştır. Daha önce (5.2) ile verilen matris notasyonundaki ÇDR modelinde özellikle tahminleyici değişkenler arasında ÇDB olması durumunda karşılaşılabilecek problem, tasarım matrisi nin sütunları arasında tam ya da yaklaşık doğrusal bağımlılık olmasıdır. Bu durumda EKK kestirimine ilişkin formülünde yer alan tasarım matrisi nin determinantının sıfıra çok yakın olacağı ve dolayısıyla tersinin hesaplanamayacağı için bu formül regresyon parametrelerinin kestiriminde kullanılamaz. RR yöntemi, tasarım matrisinin, tekilliğini ortadan kaldıracak şekilde yeniden yapılandırılması esasına dayanmaktadır. Hoerl ve Kennard (1970) kestirimin sağlamlığını ve varyansını kontrol altında tutabilmek için EKK kestiricisinin genişletilmiş hali olarak olmak üzere (5.16) ile verilen kestirimi önermişlerdir. (5.16) En küçük kareler kestiricisi, durumu için ridge kestiricisinin özel bir hali olarak düşünülebilir. Ridge kestiricisi yanlı olmasına rağmen, EKK kestiriminden daha küçük hata kareler ortalamasına (HKO) sahiptir. Ayrıca (5.16) formülünde yer alan, bağımsız değişkenler matrisi in, matrisini korelasyon matrisi yapacak şekilde normalize edilmiş halidir. parametresinin herhangi bir yanlı bir kestiricisi için HKO, (5.17) şeklinde tanımlanır. Buna göre, ve vektörleri arasındaki ortalama karesel Öklid uzaklığı olarak yorumlanabilir. Bu nedenle düşük HKO değerine sahip olan bir kestirici gerçek parametreye daha yakın olacaktır (Koutsoyiannis, 1977). 74

90 En küçük kareler kestiricisinin RR literatüründe sıklıkla üzerinde durulan bir özelliği,, matrisinin en küçük özdeğeri olmak üzere, (5.18) eşitsizliğinin geçerli olmasıdır. Açıklayıcı değişkenlerin doğrusal bağlantılı olması ve dolayısıyla nin küçük değerler alması, EKK katsayılar vektörünün karesel uzunluğunun beklenen değerinin, gerçek katsayılar vektörünün karesel uzunluğundan büyük olması anlamına gelmektedir. nin değeri küçüldükçe bu fark daha da büyür. değeri, tasarım matrisi tekilliğe yaklaştıkça, diğer bir ifade ile ÇDB nin şiddetinin artmasıyla daha da küçük değerler almaktadır (Judge, Griffits, Hill, Lütkepohl, & Lee, 1985) Varlık Teoremi RR analizinin temel dayanaklarından birisi varlık teoremidir. Varlık teoremi, her zaman, (5.19) koşulunu sağlayacak pozitif gerçel sayısının bulunabileceğini iddia eder (Hoerl & Kennard, 1970, s. 62). Burada değerleri, tasarım matrisinin özdeğerlerini, fonksiyonu (5.20) ile formülasyonu verildiği gibi nın herhangi bir ve arasındaki karesel Öklid uzaklığını ifade etmektedir. kestiricisi için (5.20) (5.20) ifadesine göre, EKK kestiricisi ile, ise ridge kestiricisi ile arasındaki Öklid uzaklığını ifade etmektedir. Buradan hareketle varlık teoremi, her zaman, ridge kestiricisinin teorik değerine olan karesel Öklid uzaklığını, EKK kestiricinin değerine olan karesel Öklid uzaklığından daha küçük yapacak pozitif gerçel sayısı mevcuttur şeklinde yeniden ifade edilebilir. 75

91 Varlık teoremi ile ilgili sıkıntı, ridge sabiti nin, modelin bilinmeyen parametreleri olan ve ya bağlı olmasıdır. Bu nedenle sayısının varlığı bilinmesine rağmen, uygulama da EKK kestiriminden daha küçük bir HKO verecek bir sayısı belirlendiğinden emin olunmalıdır (Draper & Smith, 1981) Ridge Kestiricisinin Özellikleri Ridge kestiricisi halinde yazılabilir. nın bazı önemli özellikleri aşağıdaki gibi maddeler Özellik 1: Ridge kestiricisi için hesaplanan HKO, EKK kestiricisi için hesaplanan HKO değerinden daha küçüktür. (5.21) Özellik 2: için artık kareler toplamı (5.22) ile bulunur. (5.22) Özellik 3: Ridge kestiricisinin ortalaması; (5.23) şeklinde hesaplanır. (5.23) formülünden anlaşılacağı gibi durumunda, yanlı bir kestiricidir. Özellik 4: Ridge kestiricisinin yanı, (5.23) ile verilen ortalamasının kullanılması ile (5.24) deki gibi bulunur. (5.24) 76

92 Özellik 5: Ridge kestiricisinin varyans-kovaryans matrisinin, EKK kestiricisinin varyans kovaryans matrisi türünden ifadesi (5.25) ile verilir. (5.25) GenellestirilmiĢ Ridge Regresyon Yukarıda ele alınan ridge kestiricisi, tasarım matrisinin her bir satırına aynı ridge sabitinin eklendiği varsayımına dayanır ve özel olarak Global Ridge Regresyon (GRR) olarak da adlandırılır. matrisinin her bir satırına farklı bir ridge sabiti eklenmesi ile elde edilen ve Genelleştirilmiş veya Yerel Ridge Regresyon olarak adlandırılan model için parametesinin kestirimi, olmak üzere aşağıdaki şekilde formüle edilir (Hoerl & Kennard, 1970, s. 63). (5.26) 5.3 En Ġyi Ridge Sabitinin Belirlenmesi Ridge sabiti, RR modelini ÇDB probleminden korur. Ridge sabitinin değeri arttıkça, kestiricinin yanlılığı artar ancak varyansı azalır. Bu nedenle, RR uygulamasında çözülmesi gereken en önemli problemlerden birisi, ridge sabitinin belirlenmesidir. Literatürde farklı yazarlar tarafından önerilmiş birçok yöntem bulunmaktadır. Bunlar genellikle HKO ve AKT benzeri hata fonksiyonlarının eniyilenmesi gibi objektif kriterlere dayanmakla beraber, grafik üzerinden karar vermeye dayanan objektif olmayan kriterler de mevcuttur Ridge Ġzi Diyagramı Doğru parametresinin belirlenebilmesi için ridge izi diyagramından yararlanılabilir (Hoerl & Kennard, 1970, s. 65). Ridge izi, ridge kestiricileri olan lerin farklı sabiti değerleri için aldığı değerleri gösteren 2-boyutlu bir grafiktir. Başlangıçta değeri sıfırdan başlatılır. değeri arttırıldıkça kestirimler mutlak değerce daha küçük değer alır ve limit durumunda kestirimler sıfır değerine yakınsar. 77

93 Hoerl ve Kennard (1970, s. 65), ridge izi diyagramında parametre kestirimlerinin durağanlaştığı yerdeki değerinin ridge sabiti olarak belirlenmesini önermişlerdir. ġekil 5-1 Ridge Ġzi Diyagramı (Bjorksrtrom, 2001, s. 8) Ridge izi diyagramına bakılarak sabitinin değerini belirlemeye çalışmak, araştırmacının öznel yargısına dayandığından bu yöntem subjektif bir kriter olarak ele alınmaktadır. Ancak bu yöntem, ridge sabitinin yaklaşık değeri ile ilgili bir önsel bilgi elde edilmesinde kullanılabilir. Şekil 5-1 e göre aralığında bir değerde tüm ridge parametrelerinin durağanlaştığı görülmektedir. Dolayısıyla ridge sabitinin aralığında bir değer olduğu söylenebilir Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler Ridge sabitinin belirlenmesine ilişkin bu kısımda tanıtılacak yöntemler için matrisi ve vektörünün standartlaştırılmış olduğu varsayılmaktadır. Dolayısıyla matrisi bağımsız değişkenler arasındaki korelasyon matrisini ve vektörü bağımsız değişkenler ile bağımlı değişken arasındaki korelasyon vektörünü göstermektedir. 78

94 Hoerl, Kennard ve Baldwin (1975) tarafından önerilen ridge parametresi seçimi, (5.27) formülü ile verilmektedir. Burada, kestirilen parametre sayısı, sabit terim içermeyen EKK kestiricisi ve ise EKK yönteminden elde edilen tahminlenen bağımlı değişken varyansıdır. Lindley ve Smith (1972), ve önsel olasılık dağılımları varsayımı altında ridge sabitinin Bayes kestiriminin olduğunu göstermiştir. Regresyon artıklarının varyansı ve regresyon katsayılarının varyansı genellikle bilinmeyen parametreler oldukları için formülde bu varsayımların kestirimleri kullanılmaktadır. (5.28) (5.28) ile verilen yöntemlere ek olarak önerilmiş bazı teknikler ise aralığının taranarak en iyi parametresinin bulunması esasına dayanır. Ayrıca Genelleştirilmiş Çapraz Doğrulama (GÇD) yöntemi de en iyi ridge parametresinin bulunmasında sıklıkla kullanılan bir yöntemdir. Hataların sıfır ortalamalı normal dağılımlı olmasına dayanan GÇD yöntemine göre en iyi ridge sabitinin bulunması amacıyla, olmak üzere (5.29) ile verilen fonksiyon enküçüklenir (Golub, Heath, & Wahba, 1979). (5.29) Son yıllarda Bozdoğan ın bilgi kompleksliği ölçümü yaklaşımı da ridge sabiti seçimine başarı ile uyarlanmaktadır (Urmanov, Bozdogan, Gribok, Hines, & Uhrig, 2002). 79

95 5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı Hibrit RTFA modelinde gizli katmanda radyal tabanlı fonksiyonlar tarafından işlenen girdi değerlerinin oluşturduğu matrisi ile gösterilmektedir. Bu aşamada belirlenmesi gereken model parametresi, ağırlık değerleridir ve bu değerler (5.30) ile verilen doğrusal modelin çözümünden elde edilir. (5.30) Daha önce Bölüm 3 te belirtildiği üzere Hibrit RTFA modelinde sorun, tasarım matrisi nin tekil matris olmasıdır. Bu nedenle ağırlık parametreleri, EKK yöntemine dayalı, (5.31) formülü ile doğrudan hesaplanamaz. Bu aşamada Hibrit RTFA modelinin ağırlık parametrelerinin hesaplanmasında RR modeli kullanılmıştır. Buna göre Hibrit RTFA modelinin ağırlık parametreleri için kullanılan formül, (5.32) şeklindedir. (5.33) formülünde yer alan k sabiti ise daha önce açıklanan Hoerl Kennard (1970) tarafından ortaya atılan ridge kestiricisi olarak belirlenmiştir. Bu bağlamda herhangi bir girdisi için Hibrit RTFA modelinin çıktısı (5.33) formülü ile hesaplanır. (5.33) Çalışmanın bu kısmına kadar girdi katmanından modele girilen verinin çıktı katmanına kadar işlenme süreci açıklanarak Hibrit RTFA modelinin çıktısının nasıl elde edildiği üzerinde durulmuştur. Bir sonraki bölümünde ise Hibrit RTFA modelinin, bağımlı değişken üzerindeki açıklayıcılığı en yüksek bağımsız değişken alt kümesinin belirlenmesinde kullanılan değişken seçimi teknikleri ile nasıl birleştirildiği üzerinde durulmaktadır. Bu bağlamda Bölüm 6 da öncelikle bilgi kriteri kavramı ve bu kavrama 80

96 dayanan değişken seçim kriterlerinden bahsedilmiştir. Daha sonra açıklanan bu kriterler ile Hibrit RTFA modelinin entegrasyonu üzerinde durulmaktadır. 81

97 BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ Model Seçimi (Model Selection) olarak ta bilinen Değişken Seçimi (Variable Selection) ile bağımsız değişkenlerinden hangisinin ya da hangilerinin bağımlı değişken üzerinde etkili olduğu belirlenerek problemin boyutu indirgenir. Böylece hem hesaplama kolaylığı sağlanmakta hem de veri derlemesine ilişkin maliyetler azaltılmaktadır. Problem boyutunun indirgenmesinin diğer bir yararı ise, model parametrelerinin daha doğru bir şekilde kestirilmesi ve parametreler hakkında daha açık yorum yapılmasının sağlamasıdır. Bağımsız değişken sayısının çok olduğu ve ekonometrik modeller gibi model hakkında önsel bilginin bulunmadığı veya yetersiz olduğu durumlarda, en iyi bağımsız değişkenlerin belirlenmesi, tahminleme problemlerinin önündeki büyük bir sorundur. Bazı durumlarda açıklayıcı değişkenlere ilişkin alternatif seçim sayısı milyonları bulabilmektedir. Örneğin 20 açıklayıcı değişkenin bulunduğu bir problem için önsel bilginin bulunmaması durumunda farklı değişken kombinasyonu söz konusudur ve bu sayı açıklayıcı değişken sayısına bağlı olarak üstel olara artış gösterir. Dolayısıyla tüm olası açıklayıcı değişken kombinasyonlarının denenerek veriye en uygun değişkenlerin belirlenmesi oldukça maliyetli ve hatta değişken sayısına bağlı olarak imkansız olabilir. Bu bağlamda, hem alternatif değişken kombinasyonları arasından seçim yapılmasını sağlayacak değişken seçim kriterlerine hem de bu değişken seçim kriterlerine göre tüm alternatif modellerin tümünü denenmeden en iyi değişken kombinasyonunun belirlenmesini sağlayabilecek optimizasyon tekniklerine olan gereksinim ortaya çıkmaktadır (Bozdogan H., 2004). İstatistik paket programlarının çoğu, değişken seçimi için adımsal teknikler yardımı ile Değişken Seçimi seçeneğini sunarlar. Bununla birlikte, adımsal teknikler her zaman en iyi değişken kombinasyonunun bulunmasını garanti etmezler (Bozdogan H., 2004). Adımsal teknikler ile ilgili en önemli eleştiri, modele girecek ve modelden 82

98 çıkacak değişkenlerin sırasının belirlenmesinin teorik dayanaktan yoksun olması (Boyce, Farhi, & Weischedel, 1974) (Wilkinson, 1989) ve dolayısıyla doğru değişkenlerin seçilmesinin rastlantısallık içermesidir. Adımsal teknikler ile ilgili diğer bir eleştiri ise adımsal tekniklerin tamamıyla doğru değişkenleri nadiren belirleyebilmesidir (Mantel, 1970), (Hocking, 1983), (Moses, 1986). Son olarak adımsal tekniklerin belki de en zayıf yönü, sadece yerel aramaya dayalı bir algoritma olmaları nedeniyle tüm arama uzayının oldukça sınırlı bir bölgesinin taranabilmesidir. Adımsal teknikler kullanılarak en iyi ihtimalle, uygun bir model belirlenebilir (Sokal & Rohlf, 1981). Bilgi kriterlerine dayalı değişken seçimi, adımsal tekniklere alternatif oluşturmaktadır. Akaike (1973) tarafından ortaya atılan Akaike Bilgi Kriteri (Akaike s Information Criterion - AIC) bu konuda milat olarak sayılabilir. Akaike nin ilgili çalışmasını takiben AIC yi temel alan ve bu nedenle Akaike-tipi bilgi kriterleri olarak adlandırılan birçok kriter geliştirilmiştir. Schwartz (1978) tarafından geliştirilen Schwartz Bayesci Bilgi Kriteri (Schwartz s Bayesian Criterion - SBC ya da Bayesian Information Criterion - BIC), Hannan-Quinn (1979) tarafından geliştirilen Hannan- Quinn Bilgi Kriteri (Hannan & Quinn s Criterion - HQC) ve Bozdogan (1987) tarafından geliştirilen Tutarlı Akaike Bilgi Kriteri (Consistent Akaike Information Criteria - CAIC) bu kriterlerden sıklıkla kullanılanlarıdır. Değişken seçiminde ayrı bir sınıf olan ve Bozdogan (1988), (1994), (2000) tarafından geliştirilmiş olan bilgi karmaşıklığına dayalı değişken seçim kriterleri ise ICOMP (Information Complexity)- tipi kriterler olarak bilinmektedir. ICOMP-tipi kriterler, sadece uyum iyiliği ve model yalınlığını değil, model karmaşıklığını da azaltmak üzere bilgi karmaşıklığını göz önüne alırlar. Burada önemli nokta, bilginin tutarlı bir şekilde ölçülebilmesidir. Bu bağlamda değişken seçim kriterlerine geçilmeden önce bilgi ölçümü ve bilgi karmaşıklığı kavramları üzerinde durulmuştur. 83

99 6.1 Uyum Ġyiliği ve Bilgi Ölçümü Uyum iyiliği ve bilgi ölçüsünde entropi, Kullback-Leibler uzaklığı ve Fisher Bilgi Matrisi kavramları önemli bir yer tutmaktadır. Çalışmanın devam eden kısımlarına temel oluşturacak bu kavramlar sırasıyla aşağıdaki gibi özetlenebilir Entropi Bilgi kuramında Cladue E. Shannon (1951) tarafından tanıtılan entropi kavramı, bir rastlantı değişkeni için belirsizlik ölçüsü olarak tanımlanmaktadır (Wang, 2008, s. 1). Dolayısıyla herhangi bir rastlantı değişkeni için hesaplanan ve ile gösterilen entropi, rastlantı değişkeni ile ilgili bilgi ölçüsü olarak yorumlanabilir. Diğer bir ifade ile dağılım fonksiyonuna sahip olduğu varsayılan bir rastlantı değişkeni için formülü ile hesaplanan entropi, rastlantı değişkeninin dağılımına ne kadar uyduğu bilgisini vermektedir. Buradan hareketle, normal dağılıma uyan bir rastlantı değişkeni için Shannon entropisi (6.1) formülü ile hesaplanır. (6.1) (6.1) ile normal dağılan bir rastlantı değişkeni için hesaplanmış olan entropi, bilinmeyen parametre değerlerine bağlıdır ve bu parametreler örneklem yardımı ile kestirilir (Deniz, 2007) Kullback-Leibler Uzaklığı Kullback-Leibler (KL) uzaklığı tüm bilgi kriterlerinin temel çıkış noktasıdır. İlk defa Kullback ve Leibler (1951) tarafından tanıtılan KL uzaklığı, iki olasılık dağılımı 84

100 arasındaki uzaklığın ölçülmesinde kullanılır. Uygulamada ise genellikle tahminlenen ve gerçek model arasındaki uzaklığın ölçümünde kullanıldığı için ne kadar küçük değer alıyorsa gerçek modele o kadar çok yaklaşılmış demektir. fonksiyonu, verilen bir parametre vektörü için raslantı değişkeninin bileşik olasılık yoğunluk fonksiyonu olmak üzere, gerçek model fonksiyonu ile verilmiş olsun. Ayrıca gerçek model ile herhangi bir model olan arasındaki KL uzaklığı ile ifade edilsin. Bu durumda ( ) değişkenleri birbirinden bağımsız olmak üzere, KL uzaklığı (6.2) formülü ile hesaplanır. (6.2) Yukarıdaki formülde yer alan ( ), değişkeninin marjinal olasılık yoğunluk fonksiyonunu göstermektedir. Ayrıca (6.2) nin ilk terimi verilen bir içim sabit olan negatif entropi, olur. İkinci terim ise (6.3) ile ifade edilir ve (6.4) formülü uyarınca yansız olarak tahminlenir. (6.3) (6.4) Böylece, genellikle bilinmeyen doğru parametre vektörü, formülden çıkarılmış olur. (6.4) de yer alan, gözlemlerin parametresi için kestirilen log-olabilirlik fonksiyonudur. Uygulamada öncelikle, en çok olabilirlik kestirimi ile elde edilen için parametre vektörü kestirilir ve buradan, (6.5) ifadesine yakınsamak üzere en büyüklenmiş olan log-olabilirlik fonksiyonu kullanılır (Howe, 2009). 85

101 6.1.3 Fisher Bilgi Matrisi Fisher bilgisi, bir rastlantı değişkenine ait rastlantısal gözlem değerlerinin, bilinmeyen parametresi hakkında taşıdığı bilginin ölçüsüdür. Fisher bilgisi, raslantı değişkenine ait olabilirlik fonksiyonunun parametresine göre ikinci türevinin beklenen değerinin ters işaretlisi olarak tanımlanır. Fisher Bilgisine dayanan yarı pozitif tanımlı ve simetrik Fisher Bilgi Matrisi, (6.6)-(6.9) arası verilen hesaplama prosedürü yardımıyla elde edilir (Li, Asma, Qi, Bading, & Leahy, 2004). bağımsız bileşenden oluşan rastlantı değişkeninin olasılık yoğunluk fonksiyonu olmak üzere, rastlantı değişkenine ait olabilirlik fonksiyonu (6.6) şeklindedir. (6.6) Buradan log-olabilirlik fonksiyonu (6.7) formunda yazılabilir. (6.7) (6.7) ile çıkarımı verilen log-olabilirlik fonksiyonunun kullanılmasıyla Fisher bilgisinin beklenen değeri (6.8) formülü ile hesaplanır. (6.8) İstatistiksel kestirim kuramına önemli bir katkı sağlayan Fisher bilgisi, etkinlik ve yeterlilik kavramları ile yakından ilgilidir. Negatif olmayan bir değerler alan bu bilgi, parametresine ilişkin bilginin miktarını ölçer ve nın yansız kestiricisinin doğruluğu ile orantılıdır. Fisher bilgisi ile Kullback-Leibler bilgisinin yeterlilik, etkinlik, toplanabilirlik ve gözlemlerin gruplanmasına ilişkin özellikleri benzerdir (Kotz & Johnson, 1982). Fisher bilgi matrisinin tersi ile model kovaryans matrisi yakından ilişkilidir. Bu özelliği ile Fisher bilgisi, bazı değişken seçim kriterlerinde önemli rol oynamaktadır. 86

102 Kestirilen Ters-Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM), parametre kestirimi yardımı ile elde edilen kovaryans matrisi nın kullanılmasıyla, (6.9) şeklinde hesaplanır. Yukarıdaki formülde, boyutlu dublikasyon matrisi, ise nin Moore-Penrose tersi olacak şekilde formülü ile hesaplanan boyutlu matristir. işareti ise doğrudan (kronecker) çarpımı ifade etmektedir (Williams, Bozdogan, & Aiman-Smith, 1995). 6.2 Akaike-Tipi DeğiĢken Seçim Kriterleri Sonlu sayıdaki alternatif değişken kombinasyonları içinden eldeki veriye en iyi uyum gösteren değişkenlerin seçilmesinde iki tip hata dikkate alınır. Bunlardan birincisi modelleme hatası, ikincisi ise yan ve varyans kavramlarının oluşturduğu kestirim hatası denen ve parametre vektörünün kestiriminden kaynaklanan hatadır. toplam riski, modelleme riskini ve ise kestirim riskini göstermek üzere toplam risk aşağıdaki şeklide ifade edilir. Genellikle değişken seçim kriterleri kullanılırken modelin önceden belirlenen belirli bir parametrik dağılıma uyduğu varsayılarak model kestirilir. Ancak veri analizi süreci boyunca sıklıkla, eldeki veriler bilinen dağılımlara uyum göstermediği durumlarla karşılaşılır. Bu gibi durumlarda, modelin dağılımının doğru belirlenebilmesi anlamında hatalı modelleme riski ortaya çıkmaktadır. Dağılımın doğru belirlenmesi gereklidir ancak yeterli değildir. Kestirim riski ise gerçek parametre vektörünün, belirlenen model 87

103 üzerinden sınırlandırılmış bir parametre uzayı için kestirildiği durumlarda ortaya çıkar. Burada risk, kestirimde varyans bileşeni olarak adlandırılır. Gerçek parametre vektörünün, modelin sınırlandırılmış parametre uzayı tarafından içerilmediği durumda yan oluşur. Kestirimde yan ve varyansın diğer bir ifadesi ise şu şekildedir: Varyans, modelin kabul edilen parametre uzayının büyüklüğüne karşılık getirilen ceza olarak yorumlanabilirken yan, modelin gerçek parametre vektörü ile indirgenmiş parametre uzayı arasındaki uzaklıktır. Model değişkenlerinin seçiminde amaç, toplam risk nin enküçüklenmesidir. Bu bağlamda değişken seçim kriterleri, en çok olabilirlik kestirimi altında modelin toplam riskinin kestiricileridir ve başarım ölçüsü olarak adlandırılır. Akaike (1973), (1974), (1981) bu alanda yayınladığı art arda önemli makaleleri ile istatistik modelleme ve model değerlendirmesi alanındaki gelişmelere ön ayak olmuştur (Bozdogan H., 2000). AIC-tipi kriterler, AIC kriterini temel alan kriterlerin ortak adıdır. Bu kriterler için uyum eksikliği bileşeni aynı olmakla beraber, kestirilen parametre sayısının cezalandırıldığı ceza terimleri açısından farklılık gösterir Akaike Bilgi Kriteri Ortalama beklenen olabilirliğin logaritmasının katının yansız kestircisi olan AIC, kestirilen modelin uyum eksikliğinin ve kestirilen parametre sayısının cezalandırılmasına dayalı bir kriterdir. Parametre sayısının ceza terimi olarak kritere eklenmesi AIC yi farklı boyutlu modellerin karşılaştırmasında kullanılabilir hale getirmektedir (Deniz, 2007). Uyum eksikliğinin cezalandırılması ise KL uzaklığına dayanmaktadır. Buna göre, boyutlu bilinmeyen parametre vektörü,, nın en çok olabilirlik kestiricisi ve, bilinmeyen parametreli olabilirlik fonksiyonu olmak üzere AIC, (6.10) 88

104 şeklinde formüle edilir. AIC formülünün birinci terimi uyum eksikliğini, ikinci terimi ise parametre sayısını cezalandırmaktadır. (6.10) ile verilen gösterimin yanında AIC, daha açık bir formülasyonla (6.11) ile verildiği gibi de ifade edilebilir. (6.11) (6.11) de gözlem sayısını, bağımsız değişken değerleri matrisini ve ise parametre kestirimi vektörünü göstermektedir. Alternatif modeller arasından en küçük AIC değerine sahip olan model, en iyi model olarak belirlenir. Karşılaştırılan modeller için AIC değerinin enküçüklenmesiyle bir anlamda kestirilen model ile gerçek model arasındaki KL uzaklığı enküçüklenmiş olur. AIC, en çok olabilirlik kestirimi yapılması ve gerçek modeli içeren parametrik dağılımlar ailesi üzerinde çalışılması koşulları altında uygulanabilir (Deniz, 2007) Schwartz Bilgi Kriteri Bayesci Bilgi Kriteri olarak da bilinen SBC, AIC nin bir türevi olarak Schwartz (1978) tarafından ortaya atılmıştır. Bayes kuramını temel alan SBC kriterinin ceza terimi AIC nin ceza teriminden daha büyüktür. Dolayısıyla (6.12) ile formülasyonu verilen SBC ile seçilecek olan modelin, AIC ile seçilecek olan modelden daha küçük veya en azından eşit boyutlu olması beklenir. (6.12) AIC de olduğu gibi (6.12) verilen SBC formülasyonu da (6.13) ile verildiği gibi açık formda yazılabilir. (6.13) 89

105 6.2.3 Tutarlı Akaike Bilgi Kriteri (CAIC) AIC formülü, son terimi olan bilinmeyen parametrenin neden 2 ile çarpıldığının açık olmadığı noktasında eleştirilmektedir. Rissanen (1978) bu sayının rastgele seçildiğini belirtmiş, Bhansali ve Downham (1977) ise çalışmalarında 2 yerine, değeri 1 ile 4 arasında değerler alabilecek bir sabiti için genellemeler yapmıştır. CAIC, Bozdoğan (1987) tarafından AIC kriterinin bir türevi olarak ortaya atılmıştır. CAIC, AIC ye göre daha tutarlı bir kriterdir (Bozdogan H., 1987). Kestirilen parametre sayısına ilişkin ceza terimi, AIC nin ceza terimine göre oldukça fazladır. Bu özelliği ile CAIC, daha az parametreli model seçilmesini sağlamaktadır. Formülasyonu, (6.14) şeklinde verilen CAIC ye göre en iyi model, en küçük CAIC değerini veren modeldir. CAIC formülü SBC ye benzemekle beraber, CAIC nin ceza terimi SBC'nin ceza teriminden bilinmeyen parametre sayısı kadar daha fazladır. Dolayısıyla CAIC ile seçilen model SBC ye oranla da daha basit model olacaktır Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) Fisher bilgisine dayalı AIC olarak ta bilinen CAICF, ceza terimine Fisher bilgi matrisinin eklenmesiyle, CAIC ye farklı bir yaklaşım getirmektedir. Buna göre, kestirilen Fisher bilgi matrisi olmak üzere CAICF, aşağıda verildiği şekilde tanımlanır. (6.15) Bozdogan (1987) a göre AIC, CAIC ve CAICF, en iyi modelin, diğer bir ifade ile açıklayıcı değişkenlerin veriye uygun en iyi alt kümesinin belirlenmesinde etkili kriterlerdir. Ayrıca anlamlılık düzeyinin rastgele belirlenmemesi ve hesaplama kolaylığı açısından diğer yöntemlere göre üstündürler. CAIC ve CAICF kullanılması ile ezberleme olarak adlandırılan veriye aşırı bağımlılık ya da veriye aşırı uyum gösteren 90

106 model elde edilmesi olasılığı azaltılmış ve daha basit modeller elde edilmiş olur (Bozdogan H., 1987). Tutarlı kriterler için gözlem sayısı arttıkça bir modelin uyum eksikliği ya da aşırı uyum göstermesi olasılığı azalacaktır. Sonuç olarak örneklem büyüklüğünün fazla olduğu durumlarda CAIC veya CAICF, aşırı uyumun sorun olarak kabul edilmediği durumlarda ise AIC kriterinin kullanılması uygundur (Deniz, 2007). 6.3 ICOMP Tipi DeğiĢken Seçim Kriterleri Van Endem (1971) e göre -değişkenli bir Gauss dağılımı için karmaşıklığın makul bir tanımı kovaryans matrisi,, aracılığı ile yapılabilir. inci değişkene ait marjinal entropi ile ve tüm değişkenler üzerinden bileşik entropi ile gösterilmek üzere modelin karmaşıklığı (6.16) ile ifade edebilir. (6.16) Burada ile inci değişkenin varyansı ifade edilmektedir. (6.16) formülünde yer alan ın bazı karakteristik özellikleri aşağıdaki gibi sıralanabilir. Eğer köşegen matris ise eşitliği geçerlidir. Eğer ise olur. formülünün sağ tarafındaki ilk ifade ortonormal dönüşümler altında sabit değildir. 91

107 Sonuç olarak tüm sistem koordinatları üzerinden yapılan en büyükleme işlemi ile Bozdogan (1988) e göre karmaşıklığın birinci dereceden en büyük bilgi kuramsal ölçümü aşağıdaki şeklide elde edilir. (6.17) ile ölçülen kovaryans matrisi her zaman tam ranklı olmayacağı için formülde yer alan değeri genellikle olarak ile değiştirilir. e ilişkin bazı özellikler ise aşağıdaki gibi verilebilir (Howe, 2007)., özdeğerlerin aritmetik ortalamasının geometrik ortalamasına oranının logaritmasıdır., iz ve determinant gibi çok basit ölçümler yardımıyla hesaplanır. için ilişkisi geçerlidir. Değişkenler arasındaki iletişim arttıkça büyür. ICOMP genel olarak iki KL uzaklığının toplamı olacak şekilde ifade edilebilir (Bozdogan, 1988, 1994, 2000, 2004). Genel çok değişkenli doğrusal ya da doğrusal olmayan modeller için model değerinin, Ters Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM) için hesaplanan karmaşık olacak şekilde, ile kestirildiği varsayımı altında ICOMP(IFIM) kriteri, Bozdogan (1988) tarafından (5.18) ile tanımlanmıştır. (5.18) Burada kestirilen parametrenin dağılımı şeklinde ifade edilebilir. Ayrıca, (5.19) eşitliğinde verilen çok değişkenli normal dağılıma ait IFIM in karmaşıklığının en büyük teorik bilgi ölçümü değerdir. 92

108 (5.19) Yukarıdaki eşitlikte yer alan parametrelerden, şeklinde hesaplanır. Hibrit RTF modeli için IFIM ise, (6.20) şeklinde tanımlanır. Bu tanımın kullanılması ile ICOMP(IFIM), aşağıdaki biçime dönüşür. (6.21) Burada entropik karmaşıklık değeri (6.22) ile hesaplanmaktadır. (6.22) (6.21) ile tanımlanan ICOMP(IFIM) kriterinden başka, yanlış tanımlanmış modeller için ICOMP temelli Değişken Seçim kriteri ise (6.22) şekilde tanımlanır. (6.23) (6.23) ile verilen eşitlikte yer alan değeri, 93

109 (6.24) şeklinde hesaplanmaktadır. (6.25) (6.25) ile verilen formül, kovaryans matrisinin kestirimidir. Varsayılan modelin doğru olup olmamasına bağlı olmaksızın doğru varyansı verdiği için sıklıkla Sandviç Kovaryans veya Sağlam Kovaryans kestiricisi olarak adlandırılır. Modelin doğru olduğu durumda alınır ve (6.25) kovaryans formülü Fisher bilgi matrisinin tersi formülüne indirgenir (White, 1982). İlgili kovaryans matrisi basıklık ve çarpıklık değerlerini de hesaba katarken bu durum, AIC ve SBC kriterlerinin kullanıldığı durumlarda mümkün değildir. 6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin KarĢılaĢtırılması Akaike-tipi kriterlerle uyum eksikliği ve modelin kestirilen parametre sayısı cezalandırılmaktadır. Bu bağlamda Akaike-tipi kriterlere yöneltilen en önemli eleştiri, bağımsız değişkenler arasındaki korelasyonu hesaba katmamasıdır. Bu nedenle, Akaiketipi kriterler kullanılarak yapılan değişken seçimi işlemi ile birbirleriyle yüksek dereceden korelasyonlu bağımsız değişkenlerin seçilmesi olasıdır. Bu da, çoklu doğrusal bağlantı sorununa neden olabilecek bir model oluşturulması anlamına gelmektedir. Diğer bir ifade ile Akaike-tipi kriterlerle en az açıklayıcı değişken kullanılarak en iyi uyum iyiliği sağlayan model belirlenirken, seçilen değişkenler arasındaki çoklu doğrusal bağlantı ile ilgili bilgi içerilmemektedir. Yukarıda sözü edilen AIC-tipi kriterlere yöneltilen eleştiri noktasından hareketle ICOMP-tipi kriterler, uyum eksikliği ve kestirilen parametre sayısının yanında, bağımsız değişkenler arasındaki ilişkiyi de cezalandırır. Dolayısıyla ICOMP-tipi kriterler kullanılarak seçilen model, ÇDB problemi dikkate alınarak seçilmiş bir model olmaktadır. Diğer bir ifade ile ICOMP-tipi kriterler, en düşük seviyede çoklu doğrusal 94

110 bağlantılı ve mümkün en az sayıdaki değişken kullanılarak olabilecek en iyi uyum iyiliğini sağlayacak bağımsız değişkenlerin seçilmesini sağlarlar. Bu bağlamda ICOMPtipi kriterlerle belirlenen modelin, AIC-tipi kriterle belirlenen modele oranla, ÇDB problemine neden olma olasılığı daha düşük olmaktadır. Akaike-tipi kriterler karmaşıklığa sadece bilinmeyen parametre sayısı açısından duyarlıdır (Mark A. Pitt, 2002, s. 475). AIC tipi kriterler bu nedenle yetersiz kalabilir. (6.9) de bulunan IFIM nin izi ve determinantı, sırasıyla parametre duyarlılığının etkisi ve parametrelerin korelasyonunu dikkate alan karmaşık bir fonksiyonu temsil etmektedirler (Deniz, 2007). 6.5 En Ġyi Model DeğiĢkenlerinin Genetik Algoritma ile Belirlenmesi Değişken seçim kriterleri ile ilgili buraya kadar anlatılan kısımdan çıkan sonuç, hangi değişken seçim kriteri kullanılırsa kullanılsın, ilgili kriterin değerini en küçük yapacak model en iyi model olarak belirlenmesidir. Dolayısıyla en iyi açıklayıcı değişken alt kümesinin belirlenmesi işlemi, belirlenmiş olan değişken seçim kriterini amaç fonksiyonu, açıklayıcı değişkenlerin tüm olası kombinasyonlarının oluşturduğu kümeyi ise arama uzayı olarak kabul eden bir eniyileme problemi olarak düşünülebilir. Açıklayıcı değişken sayısının artışına bağlı olarak arama uzayının üstel olarak büyümesi nedeniyle tüm değişken kombinasyonlarına karşılık gelen değişken seçim kriteri değerinin hesaplanması zor hatta zaman ve maliyet açısından imkansız olabilir. Ayrıca üzerinden eniyileme eniyileme yapılacak olan değişken seçim kriterleri oldukça karmaşık fonksiyonlar oldukları için analitik yollardan enküçüklenmeleri çok zordur. Değişken sayısı arttıkça, klasik yöntemlerle değişken seçimi yapmak güç olacağı için son yıllarda oldukça popüler olan genetik algoritma yöntemi tercih edilmektedir Genetik Algoritma Evrimsel algoritmalar, gradyen temelli en iyileme algoritmalarına alternatif olarak ilk defa 1970 li yılların başında ortaya atılmıştır. Newton gibi eniyileme yöntemleri, problemin tek bir çözüm noktasının geliştirilmesi esasına dayanmaktadır. 95

111 Diğer taraftan evrimsel yaklaşım, geniş bir olası çözümler kümesinin simüle edilmesi ile çözüme ulaşılması şeklindedir. Bu olası çözümler arasında rastlantısal mutasyonlar ve en iyi uygunluk temelli seçim ile birbirleri ile etkileşime izin verilerek iteratif bir şekilde en iyi çözüme ulaşılır. Evrimsel algoritmaların bir türü olan Genetik Algoritma (GA), Holland (1975) ve öğrencileri tarafından geliştirilmiştir. Scientific American dergisinde Holland (1992) tarafından yayınlanan Genetic Algorithms isimli makale, genetik algoritmaların popüler hale geldiği yayın olarak sayılabilir. Ayrıca Vose (1999) tarafından yayınlanan The Simple Genetic Algorithm: Foundations and Theory isimli kitap GA nın matematiksel altyapısının anlaşılması için iyi bir kaynak oluşturmaktadır Genetik Algoritmanın Yapısı Genetik algoritma, biyolojik evrimden esinlenen bir rastlantısal arama algoritmasıdır. Biyolojik organizmaları belirleyen kromozomlar genetik algoritmada genellikle ikili değerlerle temsil edilir. Bu ikili değerler optimizasyon problemi için olası bir çözümün bileşenleri olarak düşünülebilir. Aşağıda genel olarak adımları verilen GA, birbirini takip eden basit süreçlerden oluşmaktadır. 1. Başlangıç çözümünü üret, 2. Mevcut çözüm popülasyonunun elamanlarını sırala, 3. Mevcut popülasyonun bir sonraki nesli üretmek üzere nasıl etkileşime gireceğini belirle, 4. Bireyleri çiftleştir; kromozomlar arası çaprazlama ve genetik mutasyon uygula, 5. Elde edilen bireyleri yeni nesle aktar, 6. Bitirme kriteri sağlanıyorsa algoritmayı bitir, sağlanmıyorsa Adım 2 ye dön. 96

112 Tablo 6-1 Genetik Algoritma Parametreleri Parametre Adı Nesil Sayısı Erken Bitirme Eşiği Popülasyon Büyüklüğü Nesil Tohumlama Türü Çaprazlama Olasılığı Mutasyon Olasılığı Elitizm Amaç Fonksiyonu Örnek parametre Değeri Rulet 0,75 0,10 Evet bilgi kriteri Genetik algoritma için, örnek değerleri Tablo 6-1 de verilen 8 ana işlevsel parametre vardır. Tablo 6-1 ile verilen GA parametrelerinin ve işlemcilerinin tanımları takip eden kısımda açıklanmaktadır. GA parametre ve işlemcilerinin temel tanımlarının verilmesinden sonra özel olarak GA nın Değişken Seçimi üzerine uygulaması üzerinde durulacaktır Genetik Algoritmanın Parametreleri Nesil Sayısı: GA da iterasyonlar, biyolojik esin kaynağına atfen, nesil olarak adlandırılır. Dolayısıyla nesil sayısı parametresi kendi kendini açıklamaktadır. Burada nesil sayısının belirlenmesi, genetik algoritma ile çözüm sürecinde oldukça önemlidir. Nesil sayısının çok büyük belirlenmesi hesaplama süresinin artmasına yol açarken yeterinden az belirlenen nesil sayısı, en iyi olmayan bir çözüm bulunması ile sonuçlanabilir (Howe, 2007). Erken Bitirme Kriteri: Bu parametre GA nın yakınsama kriteridir. Algoritmanın amaç fonksiyonunda bir iyileşme kaydetmeksizin belirli bir sayıda nesil aktarımı yapması, algoritmanın en iyi ya da en iyiye yakın bir çözüme yakınsaması olarak yorumlanır. Burada amaç fonksiyonunda ilerleme olmaksızın algoritmanın devam ettirileceği maksimum iterasyon sayısının yüksek belirlenmesi hesaplama süresinin artmasına neden olur. Diğer taraftan bu parametrenin düşük belirlenmesi, mevcut çözümden optimal çözüme geçme olasılığını azaltabilir. 97

113 Popülasyon Büyüklüğü: Bu parametre ile her bir nesilde kaç tane birey (çözüm noktası) yer alacağı kontrol edilir. Genellikle popülasyon sayısının arttırılması ile algoritmanın yakınsama süresinin azaltılması beklenir. Ancak belirli bir noktadan sonra aşırı popülasyon büyüklüğünün yol açacağı yoğun hesaplama yükü, algoritmanın iyi çalışmamasına yol açar. Bu parametrenin belirlenmesi oldukça zordur ve bu konuda önerilmiş az sayıda sezgisel yaklaşım vardır. Örneğin değişkenli bir en iyi alt kümeyi belirleme probleminde popülasyon sayısı, koşulunu sağlamalıdır (Bozdogan H., 2004, s. 37). Nesil Tohumlama Türü: Bu parametre ile gelecek neslin bireylerinin hangi tohumlama türü ile üretileceği kontrol edilir. Bu amaca yönelik sıklıkla kullanılan 3 yöntem vardır. Bunlardan en basiti, çözümlerin rastgele olarak parçalanması ve çiftleştirilmesidir. Turnuva Seçimi yönteminde, olmak üzere, sayıda çözümünden oluşan küme tek biçimli dağılıma göre rastgele olarak üretilir ve amaç fonksiyonu değerleri hesaplanır. En iyi amaç fonksiyonu değerine sahip olan iki çözüm çiftleştirilerek bir sonraki nesle aktarılır. Bu işlem, bir sonraki nesil tamamlanana kadar tekrarlanır. Turnuva seçimi yönteminin faydası, her bir iterasyonda popülasyonu oluşturan tüm bireyler için amaç fonksiyonunun hesaplanmamasıdır. Hesaplanması zor olan bir amaç fonksiyonu ile çalışılan problemlerde bu yöntem zaman kazanımı açısından oldukça etkilidir. Oldukça sıklıkla kullanılan diğer bir yöntem ise Rulet Seçimi olarak adlandırılır. Bu yöntem her bir gözesi farklı büyüklükte olan hileli bir rulet tekerleği ile rulet oynamaya benzer. Herhangi bir. çözüm için göze genişliği, olmak üzere, (6.26) formülü ile hesaplanır. Yukarıdaki formüle göre örneğin 4 kromozom için sıralanmış göze genişliklerinin hesaplanışı Tablo 6-2 de verildiği gibidir. 98

114 Tablo 6-2 Göze GeniĢlikleri Göze GeniĢliği Her bir kromozom için seçilme alt ve üst limitleri Tablo 6-3 teki gibi hesaplanır. Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları Alt ve Üst Limitler ,00 0,10 0,10 0,30 0,30 0,60 0,60 1,00 Daha geniş olan başlangıçtaki gözelere karşılık gelen kromozomlar için amaç fonksiyonu değeri en iyiye daha yakındır. Bu noktada, tek biçimli dağılımından adet rasgele sayı üretilir ve üretilen her bir sayı Tablo 6-3 ten hangi kromozomun alt ve üst sınırları arasında yer alıyorsa o kromozom seçilir. Bu yöntemle daha iyi amaç fonksiyonu değerine sahip kromozomların çiftleştirme havuzunda yer alma olasılıkları artmaktadır. Sonuç olarak çözümlerin sırası rastgele olarak değiştirilmiş olur ve çözümler sırayla eşleştirilir (Howe, 2007). Çaprazlama Türleri: Çaprazlama işleminin yürütülmesine ilişkin birçok yöntem vardır. Bunlardan başlıcaları aşağıdaki gibi sıralanabilir (Bozdogan H., 2004, s. 38). Tek Nokta Çaprazlaması: Tek nokta çaprazlamasına göre öncelikle bir çaprazlama noktası belirlenir. Daha sonra çaprazlanacak iki bireyden birincisinin çaprazlama noktasına kadar olan kromozomları ile ikincisinin çaprazlama 99

115 sonrasından sonrasındaki kromozomları birleştirilerek yeni birey oluşturulur. Bireylerin 10 kromozomlu ikili değerlerden oluşması ve çaprazlama noktasının 3 olarak belirlenmesi durumunda örnek bir çaprazlama Şekil 6-1 ile ifade edilmektedir. Birey A Birey B Yeni Birey = ġekil 6-1 Tek nokta çaprazlaması Ġki Nokta Çaprazlaması: İki nokta çaprazlamasında iki tane çaprazlama noktası belirlenir. Buna göre çaprazlamaya alınan ilk bireyin başlangıçtan ilk çaprazlama noktasına kadar olan ve ikinci çaprazlama noktasından son kromozoma kadar olan kısmı, ikinci bireyin ise iki çaprazlama noktası arasında düşen kromozomları yeni bireyin ilgili kromozomu olarak kopyalanır. Buna göre Şekil 6-1 ile verilen A ve B bireyleri için çaprazlama noktalarının 3 ve 7 olarak belirlenmesi durumunda iki nokta çaprazlaması deki gibi uygulanmaktadır. Birey A Birey B Yeni Birey = ġekil 6-2 Ġki nokta çaprazlaması Tek Biçimli Çaprazlama: Bu tip çaprazlamada kromozomlar rastgele olarak seçilerek yeni bireye aktarılır. Buna göre eşleştirilecek kromozomlu her bir birey için aralığından tek biçimli dağılıma uyan rastgele bir tamsayı üretilir. aralığı yerine kullanılması, iyi çözümlerin uç noktalarından çaprazlamaya uğratılmalarını engellemektedir. Buna göre çözümlerin sağ parçası, üretilen sayının bir fazlasına karşılık gelen kromozomdan başlayarak ayrılır. Çaprazlama Olasılığı: Çaprazlama olasılığı, yeni birey üretme sürecinin hangi sıklıkla yapılacağını kontrol eder. Bu göre eşleştirilen her bir çift için aralığından 100

116 rastgele bir sayı üretilir. Belirlenen çaprazlama olasılığından daha büyük sayı üretilen çiftler için çaprazlama uygulanır. Diğerleri ise bir sonraki nesle aynen kopyalanır. Çaprazlama olasılığı, çaprazlama sıklığını arttırmak için genellikle ten büyük seçilmektedir. Arama uzayının yeterli taranması açısından önemli bir parametredir. Genetik Mutasyon: Eşleşme ile yeni bireyler (çözümler) elde edildikten sonra bu yeni bireyler mutasyona uğratılır. İkili sistemin kullanıldığı tipik GA için mutasyon işlemi oldukça basittir. Mutasyon olasılığına bağlı olarak mutasyona uğratılacak çözümler mevcut popülasyondan tek biçimli dağılıma uyacak şekilde rastgele olarak seçilir. Mutasyon olasılığının belirlenmesi kullanıcıya bağlı olmakla beraber genellikle den küçük olarak belirlenir. Seçilen her bir kromozom için kromozomun bileşenleri rastgele olarak seçilir ve seçilen bileşen değeri ise, ise yapılır. Mutasyon, GA yı güçlü kılan en önemli özelliklerden birisidir. Mutasyonun ihmal edilmesi durumunda algoritma kolaylıkla yerel en iyi noktalardan birisine takılabilir. Bununla beraber, mutasyon işleminin algoritmaya dahil edilmesi ile algoritma arama uzayının ulaşılmamış farklı bölgelerine yönlendirilebilir. Bu anlamda GA, benzetilmiş tavlama algoritması ile benzer özellik gösterir. Amaç Fonksiyonu: İster en büyükleme ister eniyileme problemi olsun, tüm arama algoritmaları ve optimizasyon tekniklerinin yürütülebilmeleri için bir amaç fonksiyonu gerekir. GA uygulaması için en iyi amaç fonksiyonun tipi, probleme göre değişir. Bu çalışmada amaç fonksiyonu olarak Değişken Seçim kriterleri kullanılmaktadır. Elitizim: Algoritma süresince karşılaşılan iyi çözümlerin kaybedilmemesi için elitizm kuralı kullanılır. Buna göre her bir nesilde amaç fonksiyonuna en iyi değerini veren çözüm, hiç bir değişikliğe uğratılmadan bir sonraki nesle aynen aktarılır. Elitizim kuralının kullanılması, popülasyon büyüklüğünün dolayısıyla da hesaplama süresinin her bir yeni nesille beraber artması anlamına gelmektedir. Yapılan çalışmalar, rulet tekerleği tekniğinin kullanıldığı durumlarda elitizmin çok önemli olmadığını göstermektedir. 101

117 6.5.4 Hibrit RTFA Modelinde DeğiĢken Seçimi Problemi için Genetik Algoritma Hibrit RTFA modeli ile değişken seçiminde bireylerin kromozom sayısı bağımsız değişken sayısı olarak belirlenmektedir. Her bir kromozom {0,1} değerlerinden birini almaktadır. Buna göre bir kromozomun 1 değerini alması ilgili değişkenin modelde yer aldığını, 0 değerini alması ise yer almadığını ifade etmektedir. Örneğin 8 bağımsız değişken içeren bir problemde 1., 3. ve 5. bağımsız değişkenlerin modelde olduğunu ifade eden çözüme karşılık gelen kromozom aşağıdaki gibi ifade edilir. GA ile en iyi değişken alt kümesinin belirlenmesi sürecinde seçilen değişken seçim kriteri eniyilenmeye çalışılmaktadır. Bu bağlamda her bir iterasyonda mevcut çözümlere karşılık gelen bağımsız değişkenler Hibrit RTFA modelinde yerine konularak bağımlı değişken tahminlenir. Daha sonra bu tahminler değerlerinden yararlanılarak değişken seçim kriteri değerleri hesaplanır. Durma kriterlerinden biri sağlanana kadar her iterasyonda bu işlemler tekrarlanır ve sonuçta en küçük değişken seçim kriteri değerini veren değişken alt kümesi seçilir. 102

118 BÖLÜM 7 UYGULAMA Çalışmanın bu kısmına kadar Hibrit RTFA modelinin teorik altyapısı üzerinde durulmuştur. Bu bölüm ise oluşturulan modelin uygulamasına ayrılmıştır. Önerilen Hibrit RTFA modeli ile değişken seçimi ve tahminleme yapacak hazır bir paket program bulunmadığı için hesaplamalar Matlab programı üzerinde kodlanmıştır. Ayrıca Hibrit RTFA ile hem değişken seçimi hem de tahminlemenin kolaylıkla, her seferinde kodlama aşmasına girmeden yapılabilmesi için yine Matlab programı üzerinde bir kullanıcı arayüzü oluşturulmuştur. Hibrit RTFA modeli, öncelikle oldukça yüksek derecen doğrusal olmayan bir benzetim verisi üzerinde test edilmiştir. Hibrit RTFA modelinin ele alınan benzetim verisi üzerindeki başarılı performansının gösterilmesinin ardından model finansal piyasalara yönelik gerçek veri üzerinde uygulanmıştır. Bu bağlamda dolar bazında İMKB Ulusal 100 endeksinin yönü, diğer uluslararası endeksler yardımıyla tahminlenmiştir. 7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü Matlab (Matrix Laboratory), Cleve Moler tarafından 1970 yılında geliştirilmiş matris tabanlı problem çözme, istatistik işlemler ve grafik çizimi gibi çok geniş bir yelpazede kullanılan bir programdır. İlk başlarda Fortran üzerinde yazılmış olan Matlab, günümüzde C++/Java ortamında yazılmaktadır. İlk başlarda eğitim amacıyla kullanılan Matlab programı daha sonraları mühendislik alanında da oldukça yaygın olarak kullanılır hale gelmiştir. Günümüzde Matlab programının yaygın kullanımının nedenleri arasında birçok istatistik işlemin hazır fonksiyonlar yardımı ile yapılabilmesi, kolay kodlanabilirlik ve matris tabanlı işlem yapma kabiliyeti sayesinde büyük verilerle işlemlerin kolaylıkla yapılabilmesi sayılabilir. 103

119 Buraya kadar ifade edilen nedenlerden ötürü çalışmamızda Hibrit RTFA modeli Matlab programı üzerinde yazılmıştır. Yazılmış olan kodlar için bir kullanıcı arayüzü oluşturularak Hibrit RTFA modelinin kolay uygulanabilirliğinin sağlanması amaçlanmıştır. Bu bağlamda ilgili program çalıştırıldığında ilk olarak ekrana gelen arayüz aşağıda Şekil 7-1 ile verilmiştir. ġekil 7-1 Hibrit RTFA kullanıcı arayüzü karģılama ekranı Şekil 7-1 de görüldüğü gibi kullanıcı arayüzü karşılama ekranı Hibrit RTFA programı ile yapılacak olan işlemin seçildiği aşamadır. Karşılama ekranında değişken seçimi (Model Selection) ve tahminleme (Prediction) olmak üzere iki seçenek vardır. Buradan değişken seçimi seçeneği seçili iken başlat (Start) butonuna tıklandığında ekrana gelen pencere Şekil 7-2 ile verilmiştir. 104

120 ġekil 7-2 Hibrit RTFA modeli ile değiģken seçimi arayüzü Şekil 7-2 kullanıcıya iki farklı seçenek sunmaktadır. Bunlardan birincisi Model Selection for Simulated Freidman Data seçeneğidir. Bu seçenek seçili iken uygulamanın benzetim kısmında tanımlanacak olan protokolden istenen sayıda büyüklükteki (Sample Size) örnek için istenen sayıda (Number of Replication for Freidman Data) benzetim yapılabilmektedir. İkinci seçenek ise gerçek veri (Model Selection for Real Data) için değişken seçimi yapılmasıdır. Bu aşamada arayüze veriler, bağımsız değişkenler (Upload X Data) ve bağımlı değişkenler (Upload Y Data).m uzantılı olacak şekilde ayrı ayrı girilmektedir. Ayrıca model parametreleri yine arayüz üzerinde seçim yapılarak belirlenebilmektedir. İşlem süreci sonunda seçilen değişkenler sağ alttaki sonuçlar (Results) kısmına yazılmakta, genetik algoritma ile eniyileme sürecinde ilgili değişken seçim kriterinin değerlerindeki değişimler ise sağ üstte yer alan grafikte görülmektedir. Değişken seçimi aşaması gerçekleştirildikten sonra Ana Menüye Dön (Go To Main Menu) seçeneği ile karşılama ekranına buradan da tahminleme (Prediction) seçeneği seçilerek aşağıda Şekil 7-3 ile verilen ekrana ulaşılır. 105

121 ġekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü Tahminleme için verilmiş olan arayüzde benzer şekilde bir sonraki kısımda tanıtacağımız benzetim verisi (Prediction for Simulated Freidman Data) ve gerçek veri (Prediction for Real Data) için tahminleme olmak üzere iki alternatif sunmaktadır. Gerçek veri seçilmesi durumunda, girilecek veriler düzenlenirken önce eğitim verileri sonra devamına test verileri eklenerek tek bir.m dosyası hazırlanmalıdır. Burada eğitim verisinin nereden başladığının anlayabilmesi için ilgili arayüzde bulunan ilgili alanlar eğitim verisinin (Sample Size for Training Data) ve test verisinin (Sample Size for Test Data) gözlem sayıları (örnek hacimleri) yazılmalıdır. İlgili arayüzden model parametreleri de seçilebilmektedir. Yapılan tahmine ilişkin Hata Kareler Ortalamasının Karekökü (HKOK) ve Ortalama Mutlak Hata (OMH) gibi iki farklı kritere göre hesaplanan sonuçlar ilgili arayüze yazılmaktadır. Ayrıca bağımlı değişkenin gerçek 106

Daha göster