AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ * Nezih TAYYAR 1 Selin TEKİN 2 FORECASTING ISE-100 INDEX USING SUPPORT VECTOR MACHINES WITH DAILY, WEEKLY AND MONTHLY DATA Öz Bu çalışmada İstanbul Menkul Kıymetler Borsası Ulusal 100 Endeksi (İMKB- 100) hareket yönü tahmini amacıyla Destek Vektör Makineleri (DVM) yöntemi kullanılmıştır. DVM'lerin sınıflandırma başarısı çalışmada kullanılan ikinci bir yöntem olan Lojistik Regresyon (LR) yöntemi ile karşılaştırılmıştır. Çalışmada hisse senedi analizinde teknik analizin yararlandığı araçlardan biri olan teknik göstergelerden (indikatörler) yararlanılmıştır. Modellere dâhil edilen teknik göstergeler LR analizi ile incelenmiş ve LR analizinde anlamlı olan göstergeler bağımsız değişken olarak kullanılmıştır. Analiz, 03.04.1995-19.03.2012 arası dönemi kapsamaktadır. Toplam 4226 adet veri günlük, haftalık ve aylık veri setleri şeklinde düzenlenmiştir. Her veri seti için 4 model oluşturulmuş ve her model için farklı değerlendirme kriterleri uygulanarak yöntemlerin endeks hareket yönü tahmin performansları değerlendirilmiştir. Yapılan değerlendirmeler sonucunda DVM'nin oluşturulan 12 model içerisinde İMKB- 100 endeksi hareket yönünü en iyi tahminlediği modelin haftalık model 1 olduğu (%70,0) gözlenmiştir. Bu model aynı zamanda İMKB-100 endeksi artış (%82,89) ve azalış yönünü (%54,68) birbirine en yakın ve yüksek oranda tahminleyen model olarak bulunmuştur. Anahtar kelimeler: Destek Vektör Makineleri; Endeks Hareket Yönü Tahmini; Lojistik Regresyon; Sınıflandırma; İMKB-100 * Bu makale Selin Tekin in Uşak Üniversitesi Sosyal Bilimler Enstitüsü İşletme Bölümü nde sunmuş olduğu DESTEK VEKTÖR MAKİNELERİ YÖNTEMİ İLE İMKB-100 ENDEKSİ HAREKET YÖNÜ TAHMİNİ başlıklı Yüksek Lisans Tezinden yararlanılarak hazırlanmıştır. 1 Yrd. Doç. Dr., Uşak Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, İşletme Bölümü, e-posta: ntayyar@gmail.com 2 Uşak Üniversitesi, Sosyal Bilimler Enstitüsü, İşletme Bölümü, Yüksek Lisans Mezunu, e-posta: selintkn@hotmail.com 189
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Abstract This study aims to forecast the movement direction of Istanbul Stock Exchange National 100 Index (ISE-100) using Support Vector Machines (SVM). SVMs' classification performance was compared with Logistic Regression (LR), the other method used in this study, in order to forecast the movement direction of ISE-100 Index. Technical indicators that are among the devices useful for technical analysis in stock prediction were used. These indicators included in models were analysed with LR analysis and then, significant ones were used as independent variables. The analysis includes the data from 03.04.1995 to 19.03.2012. 4226 data were established as daily, weekly and monthly data sets. 4 models were built for each dataset and index movement direction forecasting performance of these methods was evaluated by applying different criteria for each model. The results of this study show that SVMs estimate the movement of ISE-100 Index best with weekly Model 1 (70.0%) among 12 models. Additionally, it is observed that this model has a high level of estimation and the closest increase (82.89%) and decrease (54.68%) direction of ISE 100 Index. Keywords: Support Vector Machines; Index Movement Direction Forecast; Logistic Regression; Classification; ISE-100 Giriş Hisse senedi getirilerinin tahmin edilebilirliği, gerek yatırımcılar gerekse araştırmacılar için büyük önem arz etmektedir. Bu durum, hisse senedi tahminine yönelik, geçmişten günümüze, farklı değerleme yöntemleri ve pek çok farklı teknik kullanılarak çok sayıda tahmin çalışması yapılmasına sebep olmuştur. Son zamanlarda bilgisayar teknolojilerindeki hızlı ilerleme ile İstanbul Menkul Kıymetler Borsası'na (İMKB) yönelik yapılan çalışmalarda kullanılan klasik yöntemlerin yanı sıra yeni nesil yöntemler olarak bilinen veri madenciliği yöntemlerinin başarılı sonuçlar vermesi bu alana olan ilgiyi artırmıştır. Veri Madenciliği (VM); büyük miktarda veri içinden, gelecek ile ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanılarak aranmasıdır (Timor ve Şimşek, 2008:5). VM'de kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki ana başlık altında incelenmektedir. VM modellerini gördükleri işlevlere göre sınıflama ve regresyon modelleri, kümeleme modelleri ve birliktelik kuralları ve ardışık zamanlı örüntüler olmak üzere üç ana başlık altında incelemek de mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir (Albayrak ve Yılmaz, 2009:33). Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve 190
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. VM'de tahmin edici modeller olarak bilinen başlıca sınıflama ve regresyon modelleri; karar ağaçları, genetik algoritmalar, K-En yakın komşu, bellek temelli nedenleme, lojistik regresyon (Akpınar, 2000:4); Bayes sınıflandırması, zaman serisi analizi, yapay sinir ağları ve destek vektör makineleridir (Kaya ve Köymen, 2008:161). Bu modellerden hisse senedi fiyat öngörüsünde sıklıkla kullanılanlar ise LR ve yapay sinir ağları (YSA)'dır. VM, veri tabanı teknolojileri, istatistik, makine öğrenmesi gibi birçok farklı disiplini içeren bir alandır (Kaya ve Köymen, 2008:159). Bu çalışmada VM'nde sınıflama ve regresyon problemlerinde başarı ile kullanılan bir makine öğrenmesi yöntemi olan DVM sonuçlarını karşılaştırmak amacıyla hisse senedi fiyat öngörüsünde sıklıkla kullanılan LR yöntemi kullanılarak İMKB-100 endeksinin hareket yönü tahmini yapılmıştır. Literatürde İMKB-100 endeksi tahminine yönelik gerek klasik teknikler ile gerek VM yöntemlerinden YSA'nın kullanıldığı çok sayıda çalışma olmasına karşın, DVM'lerin kullanıldığı sadece iki çalışmaya rastlanılmıştır. Bu nedenle bu çalışmanın amacı, oldukça yeni bir öğrenme algoritması olan DVM'lerin, teknik analizde kullanılan göstergelerden yararlanarak, hisse senedi analizlerinde diğer yöntemlere alternatif bir yöntem olarak kullanılabilirliğini göstermek ve hangi veri seti üzerinde en iyi tahmin performansı gösterdiğini belirlemektir. 2. Literatür Taraması Yapılan literatür araştırmasında, DVM'lerin uluslararası finans literatüründe hisse senedi tahmininde yaygın olarak kullanıldığı gözlenmiştir. Bu çalışmalarda, DVM'lerin tahmin performansı, farklı istatistiksel yöntemler ya da VM yöntemleri ile birleştirilerek değerlendirilmiştir. İMKB'ye yönelik yapılan tahminlerde ise hisse senedi tahminine yönelik DVM kullanılarak yapılan iki çalışmaya; Kara vd. (2011) ve Özdemir vd. ( 2011) rastlanmıştır. Bu çalışmalar haricinde, İMKB'ye yönelik yapılan çalışmaların çoğunda bilgisayar temelli öğrenme algoritmalarından YSA modellerinin kullanıldığı gözlenmiştir. 191
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Kim (2003), KOSPI endeksinin günlük yönünü tahmin etmek amacıyla 12 teknik gösterge ile DVM yöntemini kullanmıştır. Analiz dönemi Ocak 1989 - Aralık 1998 olarak belirlenmiştir. Toplam 2928 verinin %80'i (2347 tanesi) eğitim verisi, %20'si (581 tanesi) test verisi olarak kullanılmıştır. KOSPI endeksinin tahmini amacıyla ikili sınıflandırma yapılmıştır; endeks getirileri bir gün önceki gün sonu değerine göre arttığında ''1'', azaldığında ''0'' olarak sınıflandırılmıştır. DVM yöntemi, geri yayılım sinir ağları (BPNN) ve durum tabanlı çıkarsama (CBR) yöntemleri ile karşılaştırılmıştır. DVM'nin, BPNN ve CBR yöntemlerine nazaran daha iyi performans gösterdiği ve finansal zaman serileri tahmini için gelecek vadeden bir yöntem olduğu belirtilmiştir. DVM'leri, bir taraftan diğer yöntemlerden daha avantajlı özelliklere sahipken diğer taraftan bir takım dezavantajlara da sahiptir. Örneğin; veri sayısının çok fazla ve yüksek boyutlu olduğu durumlarda, DVM eğitimi zaman maliyetine yol açmaktadır. Böyle durumlarda DVM yönteminin daha çok diğer yeni nesil yöntemlerle geliştirilerek tahminlerde bulunulduğu gözlenmiştir. İncelenen bu çalışmalarda DVM'ler ile diğer yöntemlerin hibrid kullanımının sınıflama performansını ve tahmin doğruluğunu artırdığı gözlenmiştir. Pai ve Lin (2005), on şirkete ait hisse senedinin fiyat yönünü tahmin etmek amacıyla, doğrusal zaman serisi tahmininde yaygın olarak kullanılan bütünleştirilmiş otoregresif hareketli ortalama (ARIMA) ve DVM modellerini entegre eden bir tahmin modeli geliştirmişlerdir. ARIMA ve DVM yi entegre eden hibrid modelin, yalnızca ARIMA ve yalnızca DVM kullanan modellerle kıyaslandığında, tüm tahmin hatalarını anlamlı bir biçimde azalttığı gözlenmiştir. Huang vd. (2005), NIKKEI 225 endeksinin haftalık hareket yönünü tahmin etmek için DVM yöntemini kullanmışlardır. DVM'nin performansını dört farklı sınıflandırma yöntemi; rastgele yürüyüş (RW) modeli, doğrusal diskriminant analizi (LDA), kuadratik diskriminant analizi (QDA) ve Elman geri yayılım sinir ağları (EBNN) ile karşılaştırmışlardır. Aynı zamanda çalışmada bu sınıflandırma yöntemleri ile DVM'yi kombine eden bir model geliştirmişlerdir. Çalışmada S&P-500 endeksi ve Japon Yeni (JPY) girdi değişkenleri olarak belirlenmiştir. 1 Ocak 1990 31 Aralık 2002 dönemine ait toplam 676 verinin 640'ı model ve parametre özelliklerini belirlemek amacıyla, geriye kalan 36 veri performans karşılaştırması için kullanılmıştır. RW, LDA, QDA, EBNN ve DVM yöntemlerinin bireysel tahmin performansları ile tüm bu sınıflandırma yöntemlerinin entegre edilmesiyle oluşturulan kombine modelin tahmin performansları karşılaştırılmıştır. Çalışma sonucunda, NIKKEI endeksinin haftalık hareket yönü için en iyi tahmin performansının, DVM ile diğer sınıflandırma yöntemlerini entegre eden modele (%75) ait olduğu 192
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 sonucuna ulaşmışlardır. Ayrıca, bireysel performanslara bakıldığında DVM yönteminin (%73), çalışmada kullanılan diğer sınıflandırma yöntemlerinden daha başarılı performans gösterdiği, RW'nin (%50) ise en kötü performansa sahip olduğu gözlenmiştir. Perez-Cruz vd. (2003), GARCH modellerinde yaygın olarak kullanılan maksimum olabilirlik (ML) uygulaması yerine DVM'leri kullanıp daha iyi tahminlere ulaşılabileceğini göstermek amacıyla dört borsa endeksi (S&P-100, FTSE-100, IBEX-35, NIKKEI) üzerinde bir çalışma yapmışlardır. Çalışma sonucunda DVM'nin ML tahminlerine oranla daha iyi tahmin doğruluğu sağladığı saptanmıştır. Bu çalışmanın konusunu oluşturan hisse senedi analizinde kullanılan teknik analiz göstergelerinin hisse senedi tahminindeki başarısı ve DVM'nin tahminleme performansındaki etkisini araştıran çalışmalarda da DVM yönteminin diğer yöntemler ile hibrid kullanımının yaygın olduğu gözlenmiştir. Yu vd. (2005), S&P-500 endeksinin günlük değişim yönü tahminine yönelik genetik algoritma tabanlı DVM (GA-DVM) modelini kullanarak yaptıkları çalışmada, literatürde yaygın olarak kullanılan 18 teknik göstergeyi; fiyat, stokastik osilatör (SO), hareketli stokastik osilatör (MSO), yavaş stokastik osilatör (SSO), değişim oranı (ROC), momentum, hareketli ortalama (MA), varyans hareketi, varyans hareket oranı, üssel hareketli ortalama (EMA), hareketli ortalamaların birleşmesi ayrılması göstergesi (MACD), toplama/dağıtım osilatörü (A/D), kapanış fiyatının beş günlük hareketli ortalamaya oranı (D5), kapanış fiyatının on günlük hareketli ortalamaya oranı (D10), fiyat osilatörü, mal kanal endeksi (CCI), göreceli güç endeksi (RSI) ve lineer regresyon çizgisi kullanmışlardır. Tüm veri seti 1 Ocak 2000-31 Aralık 2004 dönemini kapsamaktadır. 1 Ocak 2000 31 Aralık 2003 dönemi verileri eğitim amaçlı, 1 Ocak 2004 31 Aralık 2004 verileri ise test amaçlı kullanılmıştır. S&P-500 hisse senedi günlük fiyat endeksinin tahmini için ikili sınıflama kullanılmıştır; endeks getirileri bir gün önceki gün sonu değerine göre yüksek olduğunda ''1'', düşük olduğunda ''0'' olarak sınıflandırılmıştır. Çalışmada, DVM ile RW, ARIMA, BPNN ve önerilen model GA-DVM'nin tahmin performansları değerlendirilmiştir. Bulunan sonuçlar DVM'nin tahmin performansı üzerinde GA tabanlı değişken seçiminin önemli olduğunu göstermiştir. Buna göre DVM %78,65 lik tahmin performansı sergilerken, önerilen model GA-DVM ile %84,57 lik tahmin performansına ulaşılmıştır. Huang ve Tsai (2009), borsa tahmini üzerine yaptıkları çalışmalarında kendini örgütleyen özellik haritaları (SOFM), destek vektör regresyonu (DVR) ve filtre tabanlı özellik seçimi yöntemlerinden oluşan bir hibrid model geliştirmişlerdir. Analizde kullanılan veriler 4 Ocak 2000-20 Şubat 2006 dönemini 193
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 kapsamaktadır. Veri seti beş ayrı dilime ayrılmış ve ilk beş yıl ayrı dönemler için eğitim verisi, son bir yılı da yaklaşık ikişer aylık dönemler itibariyle ayrılarak test verisi için kullanılmıştır. Çalışmada on üç bağımsız değişken; RSI, MACD, MA, Williams'ın %R göstergesi (%R), psikolojik sınır (PSY), stokastik %K, stokastik %D, yukarı yönsel gösterge (+ DI), aşağı yönsel gösterge (- DI), BIAS, hacim oranı (VR), A oranı ve B oranı kullanılmıştır. SOFM-DVR ile özellik seçimi yöntemlerinden oluşan modelin, özellik seçimi içermeyen SOFM-DVR modeline nazaran daha kesin tahmin doğruluğu sağladığı gözlenmiştir. Ardından DVR ortalama tahmin hataları, önce seçilen özellikler daha sonra tüm özellikler kullanılarak değerlendirilmiştir. Çalışmada, SOFM- DVR hibrid modelinin, DVR nin yalnız başına gösterdiği performanstan daha iyi sonuçlar verdiği sonucuna ulaşılmıştır. DVM eğitiminde çekirdek fonksiyonlarının seçimi ve seçilen çekirdek fonksiyonu için belirlenecek parametre seçimi önemli bir rol oynamaktadır. Yapılan çalışmalarda çekirdek fonksiyonları için seçilecek parametre değerlerinin seçiminin DVM'nin sınıflandırma performansına doğrudan etki ettiği gözlenmiştir. Ding vd. (2008), borsaya kote edilmiş Çin şirketlerinin finansal durumunu belirlemeye yönelik DVM ye dayalı bir tahmin modeli kullandıkları çalışmalarında, analiz dönemi olarak 2001-2006 dönemi verilerinden yararlanmışlardır. Çalışmada öncelikle 10 kat çapraz geçerleme kullanılarak en iyi parametre seçimi yapılmıştır. Ardından DVM nin dört çekirdek fonksiyonunun tahmin performansı değerlendirilmiştir ve radyal tabanlı çekirdek fonksiyonu (RBF) diğer çekirdeklerden başarılı bulunmuştur. Daha sonra DVM nin tahmin performansı üç katmanlı BPNN, çoklu diskiriminant analizi (MDA) ve LR ile istatistiksel olarak karşılaştırılmıştır. Çalışma sonucunda, RBF- DVM nin, BPNN, MDA ve LR yöntemlerinden daha iyi sonuçlar verdiği sonucuna ulaşılmıştır. Sap ve Awan (2005), KLSE üzerine yaptıkları çalışmada çekirdek fonksiyonu olarak Gaussian fonksiyonunu kullanılmışlardır. Çünkü Gaussian çekirdekleri eldeki verilere ek bir bilgi olmasa da iyi performans gösterebilmektedirler. Çalışma sonucunda DVM'nin zaman serisi tahminine iyi bir alternatif oluşturduğu saptanmıştır. Yapılan literatür incelemesinde, hisse senedi fiyatlarındaki aşırı dalgalanma nedeniyle oluşan gürültü probleminin de DVM performansını etkilediği gözlenmiştir. Gürültü içeren veriler söz konusu olduğunda kullanılan yöntemler ile ulaşılan sonuç doğru tahminleme oranını azaltmaktadır. DVM tekniğinin değerlendirildiği çalışmalarda, gürültüden arındırılmış veriler ile DVM performansının daha iyi sonuçlar verdiği 194
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 gözlenmiştir. Sui vd. (2007), SSECI tahminine yönelik olarak yaptıkları çalışmalarında, 28 Nisan 1997-12 Eylül 2006 dönemi için toplam 2261 veriden yararlanmışlardır. Verilerin 1920'si çalışma verisi olarak 341'i test verisi olarak kullanılmıştır. Finansal veriler gürültü içerdiği için veriler dalgacık sıkıştırma yöntemi ile gürültüden arındırılmıştır. DVM hem gürültü içeren hem de gürültüden arındırılmış modellere ayrı ayrı uygulanmıştır. Gürültüden arındırılmış veri setinde (%60,12), gürültü içeren veri setine göre (%54,25) daha iyi sonuçlar alınmıştır. Son zamanlarda hisse senedi piyasalarına olan ilginin artış göstermesi, gerek yatırımcıları gerekse akademik çevreyi, hisse senetlerinin gelecek değerlerini tahmin etme konusunda çalışmalar yapmaya yöneltmiştir. Türkiye'nin tek hisse senedi piyasası olan İMKB'de hisse senedi getiri tahminine yönelik özellikle son on yıllık süreçte çok sayıda çalışma yapıldığı, bu çalışmaların çoğunluğunda ise YSA yönteminin tercih edildiği gözlenmiştir. Bunlardan bazıları Akay (2009), Akcan ve Kartal (2011), Akel ve Bayramoğlu (2008), Diler (2003), Gür (2009), Haznedaroğlu ve Taş (2010), Karaatlı (2003), Kutlu ve Badur (2009), Moralı (2011), Tektaş ve Karataş (2004) ın çalışmalarıdır. Yapılan incelemede, İMKB'de hisse senedi tahminine yönelik DVM'nin kullanıldığı iki çalışmaya rastlanmıştır. Kara vd. (2011), İMKB-100 endeksinin tahmini amacıyla yaptıkları çalışmalarında YSA ve DVM'nin performanslarını karşılaştırmışlardır. Analiz için, 2 Ocak 1997-31 Aralık 2007 günlük kapanış fiyatlarını kullanmışlardır. Toplam 2733 iş gününün 1440'ı artan, 1293'ü azalan yönlüdür. Çalışmada 10 teknik gösterge; basit hareketli ortalama (SMA), ağırlıklı hareketli ortalama (WMA), momentum, stokastik %K, stokastik %D, RSI, MACD, %R, A/D osilatörü ve CCI bağımsız değişken olarak kullanılmıştır. İMKB-100 endeksi tahmini için ikili sınıflandırma kullanılmıştır. Çalışma sonucunda her iki yönteminde başarılı sonuçlar vermiş olmasına rağmen YSA'nın %75,74, DVM nin %71,52 tahmin performansına sahip olduğu bulunmuştur. Özdemir vd. (2011) hisse senedi getirilerine etki edeceği düşünülen bağımsız değişkenler kullanarak İMKB-100 endeksinin getiri yönünü tahmin ettikleri çalışmalarında, ikili sınıflandırmaya imkân tanıyan LR ve DVM yöntemlerini kullanmışlardır. Çalışmada, Şubat 1997 - Aralık 2010 dönemini kapsayan aylık verileri kullanmışlardır. Toplam 167 aylık veri setinin, modellerin kurulduğu 138 veri eğitim kümesine ve modellerin geçerliliğinin test edildiği 29 veri tahmin kümesine ayrılmıştır. LR yönteminin modelleme ve tahmin kümesi için doğru sınıflandırma oranları sırasıyla %75,4 ve %86,2'dir. DVM yönteminin ise tüm değişkenlerle oluşturulan modelde doğru sınıflandırma sonuçları eğitim kümesinde %73,9, test kümesinde %79,3 195
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 iken değişken seçimi ile kurulan modelde sırasıyla %76,1 ve %86,2 olarak gözlenmiştir. Çalışmada, yöntemlerin tahmin güçleri incelendiğinde LR'nin endeksin negatif getiri yönünü daha iyi tahminlerken, DVM yöntemiyle kurulan her iki modelde de endeksin pozitif getiri yönünü daha iyi tahmin ettiği görülmüştür. 3. Destek Vektör Makineleri (DVM) Bu bölümde yalnızca yeni bir yöntem olan DVM kısaca açıklanmıştır. Çalışmada kullanılan bir diğer yöntem olan LR; bilinen ve çok sık kullanılan bir yöntem olduğundan dolayı açıklanmamıştır. DVM'lerin temelleri istatistiksel öğrenme teorisi esas alınarak Vapnik tarafından ortaya atılmıştır (Schölkopf ve Smola, 2002). 1960'ların sonlarında Vapnik tarafından geliştirilen DVM'ler, istatistiksel öğrenme teorisi ve yapısal risk minimizasyonu ilkesine dayanan, iki sınıflı sınıflandırma ve regresyon problemlerinin çözümü amacıyla ortaya atılmış bir makine öğrenmesi yöntemidir (Vapnik 1995, 1998). DVM'lerin eğitim verileri çok az olduğu durumlarda bile genelleme kabiliyetleri iyidir. Ayrıca, hiçbir yerel minimum içermezler. DVM kuadratik programlama problemi olarak formüle edildiği için, problem kuadratik programlama teknikleri ile çözülebilir (Abe, 2005:39). Bu çalışmada İMKB-100 endeksi yönünü tahminlemek amacıyla, ikili sınıflamaya imkân tanıyan DVM kullanılmıştır, bu nedenle aşağıda yalnızca bu yöntem kısaca açıklanmıştır. DVM ile ilgili ayrıntılı bilgiye Abe (2005), Schölkopf ve Smola (2002), Suykens vd. (2002) ve Vapnik (1995, 1998) den ulaşılabilir. DVM'ler hem doğrusal olarak ayrılabilen, hem de doğrusal olarak ayrılamayan verilere uygulanabilmektedir. Doğrusal olarak ayrılabilme durumunda DVM nin amacı iki sınıfı birbirinden ayıran en iyi hiperdüzlemi bulmaktır. DVM'nin eğitimi için kullanılacak l elemandan oluşan veri kümesinin{ x, y }, i = 1,2,..., l olduğunu varsayalım. Burada y 1,1 etiket değerleri ve i durumda; i i d xi özellikler vektörüdür. Bu y i = +1 için, w. x i + b +1 (1) 196
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 y i = -1 için, w. x i + b -1 (2) Bu eşitsizlikler bir arada ifade edilecek olursa, y i (w. x i + b) +1 (3) Burada w ağırlık vektörünü ve b sabit terimi ifade eder. Denklem 3'de gösterilen ve kaldırılması, elde edilen çözümün değişmesine yol açabilen eğitim noktalarına Destek Vektörleri (DV) adı verilmektedir. Maksimum sınırın bulunması işlemi; Minimizasyon: 1 min 2 w 2 (4) Kısıt: y i (w. x i + b) +1, i (5) ile ifade edilir (Burges, 1998:128-129). Burada Denklem 4 ve Denklem 5 sırasıyla çözülecek problem ve problemin çözümü sırasında kullanılan koşuldur ve bu ifade doğrusal olmayan bir optimizasyon problemidir (Özkan, 2013:189). Bu optimizasyon problemi Lagrange fonksiyonu kullanarak çözülebilir. Problemin Lagrange fonksiyonu ise, 1 2 L w y x w b l l (6) P i i i i 2 i1 i1 şeklindedir, α i Lagrange çarpanlarını gösterir (Burges, 1998:130). Denklem 6'daki ifade Karush-Kuhn-Tucker (KKT) koşulları kullanılarak dual probleme dönüştürülür. Bu problem için KKT koşulları şöyledir (Alpaydın, 2011: 264): LP 0 w i yi xi w i (7) 197
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 LP 0 iyi 0 b i (8) Bu koşullar Denklem 6'da yerine yazılacak olursa, optimizasyon problemi dual probleme dönüşür. Elde edilen dual problem şu şekildedir: 1 L y y x x D i i j i j i j i 2 i, j (9) 0, i (10) i Bu durumda karar fonksiyonu Denklem 11 deki gibi ifade edilir (Lee, 2009:10899). l f ( x) sgn yii xi x b i1 (11) Verilerin doğrusal olarak ayrılamadığı durumlarda ise eğitim verilerinin bir kısmının optimum hiperdüzlemin diğer tarafında kalmasından kaynaklanan problem, pozitif bir gevşek değişkenin (ξ i ) ve sınırın maksimum hale getirilmesi ve yanlış sınıflandırma hatalarının minimum hale getirilmesi arasındaki dengeyi sağlayan pozitif değerler alan ve C ile gösterilen bir düzenleme parametresinin probleme eklenmesiyle çözülür. Bu durumda doğrusal olarak ayrılamayan veriler için optimizasyon problemi Denklem 12 deki gibi ifade edilir (Kavzaoğlu ve Çölkesen, 2010:76). min w 2 C 2 i1 i (12) Bu bilgilere göre Lagrange formülasyonu yeniden şu şekilde ifade edilecektir: 198
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 1 2 L w C y x w b 1 p i i i i i i i 2 i1 i i (13) Yukarıdaki formülasyonda i, i'nin pozitif olmasını sağlamak için kullanılmış olan Lagrange çarpanlarıdır. Bu Lagrange formülasyonun da çözülmesi zor olduğundan dolayı doğrusal ayrılabilir örneklerde olduğu gibi dual problemine dönüştürülmektedir (Burges, 1998:136). 1 L y y x x D i i j i j i j i 2 i, j (14) Burada Denklem 14 ile doğrusal olarak ayrılabilen durumdaki Denklem 9 benzerlik gösterse de Denklem 14 ün kısıtları Denklem 15 deki gibi tanımlanmıştır. Kısıtlar: iyi 0 ve 0 i C, i (15) i Bu problemin çözümünde, i 0 olan örnekler DV'lerdir (Alpaydın, 2011: 268). Doğrusal olarak ayrılamayan veriler söz konusu olduğunda sınıflandırma işlemi çekirdek fonksiyonları kullanılarak yüksek boyutlu bir uzaya taşınır. Çekirdek fonksiyonu Denklem 16 daki gibidir. K x, x ( x ) ( x ) (16) i j i j Denklem 16 nın uygulanması çekirdek düzenlemesi olarak bilinir. Çekirdek düzenlemesi, yüksek boyutlu özellik uzayında doğrudan hesaplama yapmak zorunda kalmadan çalışabilmemizi sağlar. Bu düzenleme ile problem primal ağırlık uzayında değil, Lagrange çarpanlarının ikili uzayında çözülür (Suykens vd., 2002:37) ve Denklem 17 deki gibi gösterilir (Lee, 2009:10899). 1 L y y k( x x ) D i i j i j i j i 2 i, j (17) 199
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Doğrusal olmayan DVM'lerde kullanılan bu çekirdek fonksiyonları Denklem 18 ve 19 da verilen Mercer Teoremi koşullarını sağlamak zorundadır (Vapnik, 1995:140): K( x, y) K( y, x) (18) K( x, y) f ( x) f ( y) dxdy 0 (19) Yaygın olarak kullanılan çekirdek fonksiyonları şunlardır (Hsu vd., 2003:2): Doğrusal Çekirdek Fonksiyonu: T K( x, x ) x x i j i j Polinom Çekirdek Fonksiyonu: T d K( x, x ) ( x x r), 0 i j i j Sigmoid Çekirdek Fonksiyonu: T K( x, x ) tanh( x x r) i j i j Radyal Tabanlı Çekirdek Fonksiyonu (RBF): K( x, x ) exp( x x ), 0 i j i j Burada, r ve d çekirdek parametreleridir. 2 Bu çalışmada çekirdek fonksiyonları arasında kullanımı en yaygın olan RBF çekirdek fonksiyonu kullanılmıştır. RBF çekirdek fonksiyonu iki parametreye sahiptir bunlar cost (C) ve gamma ( ) dır. C ve DVM lerin doğruluk oranına etki eden iki parametredir, aldıkları değerlere bağlı olarak sınıflandırma performanslarına etki ederler. Bu nedenle en iyi doğruluk oranını veren C ve parametrelerinin bulunması için çapraz geçerlilik uygulaması yapılır. 200
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 4. Veri Seti ve Analiz Bu çalışmada İMKB-100 endeksi hareket yönünün tahmin edilmesi amacıyla ikili sınıflandırmaya imkân tanıyan DVM yöntemi kullanılmıştır. DVM'nin sınıflandırma başarısı ikinci bir yöntem olarak çalışmada kullanılan LR yöntemiyle elde edilen sonuçlarla karşılaştırılmıştır. Analiz, İMKB-100 endeksinin 03.04.1995-19.03.2012 tarihlerini kapsayan açılış, kapanış, en yüksek, en düşük ve işlem hacmi verileri kullanılarak gerçekleştirilmiştir. Uygulamada kullanılan İMKB- 100 endeksi verileri, İMKB'nin resmi sitesinde yer alan veri isteme formu aracılığı ile talep edilerek edinilmiştir. Analiz dönemini kapsayan toplam 4226 veri günlük (4026), haftalık (840) ve aylık (193) olarak üç veri seti şeklinde düzenlenmiştir. Veri setleri oluşturulurken veri sayısında azalma meydana gelmiştir. Bunun nedeni basit, üssel ve ağırlıklı hareketli ortalama gibi göstergeler hesaplanırken geçmiş dönem verilerine ihtiyaç duyulmasıdır. Haftalık ve aylık veriler oluşturulurken uygulanan ortalama alma ile günlük verilerdeki aşırı dalgalanmadan kaynaklanan gürültü problemi giderilmiştir. Oluşturulan veri setlerinin %80 i eğitim kümesine (modelleme kümesi), %20 si ise modelin daha önceden karşılaşmadığı veriler üzerindeki performansını ölçebilmek için test kümesine (tahmin kümesi) ayrılmıştır. Veriler eğitim ve test kümelerine ayrılırken birbirini takip eden periyotlara göre atama yapılmamıştır, atamalar rassal olarak gerçekleştirilmiştir. Yapılan analizde endeks hareketi bir önceki değerine göre artış gösterdiğinde ''1'', azalış gösterdiğinde ''0'' olacak şekilde kodlanmıştır ve bu değerler bağımlı değişken olarak kullanılmıştır. Çalışmada teknik analizde kullanılan ve literatürde yaygın olarak kullanım alanı bulan 27 teknik gösterge; 20 ve 200 günlük basit hareketli ortalama (SMA20, SMA200), 20 ve 200 günlük üssel hareketli ortalama (EMA20, EMA200), 20 ve 200 günlük ağırlıklı hareketli ortalama (WMA20, WMA200), Aroon osilatörü, ortalama yönsel hareket (ADX), parabolik SAR, hareketli ortalamaların birleşmesi-ayrılması (MACD), değişim oranı (ROC), göreli güç endeksi (RSI), stokastik osilatör (hızlı %D, yavaş %D), stokastik momentum endeksi (SMI), Williams ın %R göstergesi (%R), mal kanal endeksi (CCI), Chande momentum osilatörü (CMO), Bollinger bantları (BB-HLC: En yüksek, en düşük ve kapanış değerleri ile hesaplanmıştır, BB-C: Kapanış değeri ile hesaplanmıştır), ortalama doğruluk aralığı (ATR), Chaikin dalgalanma göstergesi, Chaikin osilatörü (CO), toplama/dağıtım osilatörü (A/D), denge işlem hacmi (OBV), para akışı endeksi (MFI) ve Chaikin in para akışı endeksi (CMF) modele dâhil edilmiştir. Her veri seti için dört model oluşturulmuş ve her model farklı değerlendirme kriterlerine göre analiz edilmiştir. Modellerde 201
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 bağımlı değişkenin t periyodundaki değeri, bağımsız değişkenlerin t-1 periyodundaki değerleri kullanılarak tahmin edilmiştir. Değişken seçimi yapılarak uygulanan modellerde arama yöntemi olarak LR analizinden yararlanılmış ve LR ile yapılan arama sonucunda anlamlı kabul edilen değişkenler takip eden modellerde analize dâhil edilmiştir. Kurulan ilk modelde yukarıda verilen tüm göstergeler bağımsız değişken olarak alınmıştır. İkinci modelde, birinci modeldeki LR analizinde anlamlılık seviyesi 0,25 den küçük olan değişkenler analize dâhil edilmiştir. Üçüncü modelde, ikinci modeldeki LR analizinde anlamlılık seviyesi 0,05 den küçük olan değişkenler analize dâhil edilmiştir. Dördüncü modelde, üçüncü modeldeki LR analizinde anlamlılık seviyesi 0,05 den küçük olan değişkenler analize dâhil edilmiştir. DVM çekirdek tipi olarak radyal tabanlı çekirdek (RBF) kullanılmıştır. RBF parametreleri cost (C) ve gamma ( )'nın optimizasyonu için çapraz geçerlilik (cross-validation) yöntemi uygulanmıştır. Belirlenen modellerde k=10 olarak alınmıştır. Çapraz geçerlilik testinde cost (C) parametresi 10 4, 10 3, 10 2, 10 1 olmak üzere dört farklı değeri alırken, gamma ( ) parametresi 10-6, 10-5, 10-4, 10-3, 10-2, 10-1 olmak üzere altı farklı değer almıştır. Modeller çalıştırılmadan önce en uygun cost (C) ve gamma ( ) parametreleri çapraz geçerleme ile hesaplanarak en iyi doğruluk oranı tespit edilmiş ve sonrasında DVM eğitimi gerçekleştirilmiştir. Uygulama için istatistiksel veri analizleri yapan, açık kaynak kodlu programlama dili ''R'' kullanılmıştır. R dili, Bell Laboratuvarları'nda John Chambers ve arkadaşları tarafından geliştirilen S dilinin bir uzantısıdır (R Core Team, 2012). DVM paketi olarak DMwR kullanılmıştır (Torgo, 2010). DMwR birçok paketten oluşmaktadır. Bu çalışmada xts, zoo, TTR paketlerinden yararlanılmıştır. 4.1. Günlük Veriler Kullanılarak Uygulanan Analiz Bu veri seti için uygulanan analizde modellere dâhil edilen bağımsız değişkenler şöyle belirlenmiştir; model 1 de değişken seçimi uygulanmamış, 27 bağımsız değişken analize dâhil edilmiştir. Model 2 de model 1 de LR analizinde p>0,25 olan 13 bağımsız değişken atılmış, kalan değişkenler analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 7 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan 3 bağımsız değişkenden oluşur. 202
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Tablo 1'de günlük modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR eğitim kümesindeki 1699 artış verisinin 1188 tanesini doğru sınıflandırırken (%69,92), 1522 azalış verisinin 604 tanesini (%39,68) doğru sınıflandırmıştır. Test kümesinde ise, 424 artış verisinin 286 tanesini (%67,45) doğru sınıflandırırken, 381 azalış verisinin 136 tanesini (%35,70) doğru sınıflandırmıştır. Tablo 1 incelendiğinde, model 1 de LR yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %55,63, test kümesinde %52,42 oranında olduğu görülmektedir. Model 1 de DVM, eğitim kümesindeki 1699 artış verisinin 1347 tanesini (%79,28) doğru sınıflandırırken, 1522 azalış verisinin 441 tanesini (%28,98) doğru sınıflandırmıştır. Test kümesinde ise, 424 artış verisinin 323 tanesini (%76,18) doğru sınıflandırırken, 381 azalış verisinin 99 tanesini (%25,98) doğru sınıflandırmıştır. Tablo 1 incelendiğinde, model 1 DVM yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %55,51, test kümesinde %52,42 oranında olduğu görülmektedir. Model 2, 3 ve 4 ün sonuçları da Tablo 1 den görülebilir ve model 1 de olduğu gibi açıklanabilir. 203
Model 4 Model 3 Model 2 Model 1 AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Gerçek Gerçek Gerçek Gerçek Tablo 1. Günlük Modeller İçin LR ve DVM Yöntemlerinin Sınıflandırma Sonuçları* LR Eğitim LR Test DVM Eğitim DVM Test Tahmin Tahmin Tahmin Tahmin 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 604 918 39,68 136 245 35,70 441 1081 28,98 99 282 25,98 1 511 1188 69,92 138 286 67,45 352 1347 79,28 101 323 76,18 Genel DO (%) 55,63 52,42 55,51 52,42 0 550 972 36,14 119 262 31,23 505 1017 33,18 114 267 29,92 1 468 1231 72,45 117 307 72,41 436 1263 74,34 109 315 74,29 Genel DO (%) 55,29 52,92 54,89 53,29 0 376 1146 24,70 86 295 22,57 715 807 46,98 138 243 36,22 1 347 1352 79,58 97 327 77,12 454 1245 73,28 138 286 67,45 Genel DO (%) 53,65 51,30 60,85 52,67 0 338 1184 22,21 78 303 20,47 203 1319 13,34 37 344 9,71 1 310 1389 81,75 86 338 79,72 133 1566 92,17 43 381 89,86 Genel DO (%) 53,62 51,68 54,92 51,93 *DO: Doğruluk Oranı 204
AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Günlük verilerle kurulan modellerin sonuçları genel olarak incelendiğinde, model-1, model-2 ve model-4 test kümesi sonuçları İMKB-100 endeksi artış yönünü DVM'nin (%76,18, %74,29, %89,86) LR'den (%67,45, %72,41, %79,72) daha iyi sınıflandırdığını, azalış yönünü ise LR'nin (%35,70, %31,23, %20,47) DVM'den (%25,98, %29,92, %9,71) daha başarılı sınıflandırdığını göstermektedir. Model 3'te ise artış yönünü sınıflandırmada LR (%77,12) DVM'den (%67,45) daha iyiyken, azalış yönünü sınıflandırmada DVM (%36,22) LR'den (%22,57) daha başarılı bulunmuştur. Günlük verilerde DVM nin artışları, LR nin azalışları daha iyi tahmin ettiği söylenebilir. Eğitim veri setinde LR nin doğruluk oranları %53,62 ile %55,63 arasında, DVM nin ise %54,89 ile %60,85 arasındadır. Test veri setinde LR nin doğruluk oranları %51,30 ile %52,92 arasında, DVM nin ise %51,93 ile %53,29 arasındadır. DVM hem eğitim kümesinde hem de test kümesinde LR den daha iyi sonuçlar vermiştir. Açıklayıcı değişken sayısındaki azalmanın etkisi incelendiğinde tüm açıklayıcı değişkenleri kullanan model 1 den, yalnızca 3 açıklayıcı değişken kullanan model 4 e doğru gidildiğinde test veri setinde LR nin genel doğruluk oranlarında büyük farklılık olmamasına rağmen (model 1:%52,42, model 2:%52,92, model 3: %51,30 ve model 4:%51,68), azalışları tahmin performansı düşmüş (model 1:%35,70, model 2:%31,23, model 3: %22,57 ve model 4:%20,47), artışları tahmin performansı yükselmiştir (model 1:%67,45, model 2:%72,41, model 3: %77,12 ve model 4:%79,72). DVM de ise ilk üç model göz önünde bulundurulduğunda bunun tam tersi bir durum söz konusudur, artışları tahmin performansı düşerken, azalışları tahmin performansında bir yükselme gözlenmiştir. Ancak en az açıklayıcı değişkenin kullanıldığı model 4 te azalışlar %9,71 oranında doğru tahmin edilirken, artışlar %89,86 doğru tahmin edilmiştir. Günlük modeller için değişken sayısını azaltmanın genel doğruluk oranı üzerinde belirgin bir etkisi olmazken, artış ve azalışların doğruluk oranlarını etkilediğini söyleyebiliriz. Bu modeller İMKB-100 endeksini tahmin etme amaçlı kullanılmak istenirse, test verileri sonuçlarına göre karar verilmelidir. Her ne kadar eğitim verilerinde daha iyi doğruluk oranları bulunmuş olsa da, önemli olan modellerin daha önceden hiç karşılaşmadığı verilerde gösterdiği performanstır. Buna göre test verilerinde en iyi performansı veren DVM model 2, %53,29 luk doğruluk oranı ile İMKB-100 endeksi tahmininde kullanılabilir. Ancak bu modelin artış ve azalışları sırasıyla %74,29 ve %29,92 oranında tahmin ettiği, artışlarda başarılı, azalışlarda ise başarılı olmadığı göz önünde bulundurulmalıdır. Bu nedenle DVM model 3, 205
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 %52,67 doğruluk oranı ve artış ve azalışları sırasıyla %67,45 ve %36,22 oranında tahmin ettiğinden, alternatif olarak düşünülmelidir. 4.2. Haftalık Veriler Kullanılarak Uygulanan Analiz Haftalık veri seti için uygulanan analizlerde de günlük veri setlerinde olduğu gibi model 1 de tüm bağımsız değişkenler analize dâhil edilmiştir. Model 2 de, model 1 de LR analizinde p<0,25 olan 15 bağımsız değişken analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 7 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan 3 bağımsız değişkenden oluşur. Tablo 2'de haftalık modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR yöntemi, eğitim kümesindeki 408 artış verisinin 332 tanesini (%81,37) doğru sınıflandırırken, 292 azalış verisinin 167 tanesini (%57,19) doğru sınıflandırmıştır. Test kümesinde ise, 76 artış verisinin 56 tanesini (%73,68) doğru sınıflandırırken, 64 azalış verisinin 38 tanesini (%59,38) doğru sınıflandırmıştır. LR yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %71,29, test kümesinde %67,14 olduğu görülmektedir. Model 1 de DVM, eğitim kümesindeki 408 artış verisinin 344 tanesini (%84,31) doğru sınıflandırırken, 292 azalış verisinin 161 tanesini (%55,14) doğru sınıflandırmıştır. Test kümesinde ise, 76 artış verisinin 63 tanesini (%82,89) doğru sınıflandırırken, 64 azalış verisinin 35 tanesini (%54,69) doğru sınıflandırmıştır. DVM yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %72,14, test kümesinde %70,0 oranında olduğu görülmektedir. 206
Model 4 Model 3 Model 2 Model 1 AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Gerçek Gerçek Gerçek Gerçek Tablo 2. Haftalık Modeller İçin LR ve DVM Yöntemlerinin Sınıflandırma Sonuçları* LR Eğitim LR Test DVM Eğitim DVM Test Tahmin Tahmin Tahmin Tahmin 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 167 125 57,19 38 26 59,38 161 131 55,14 35 29 54,69 1 76 332 81,37 20 56 73,68 64 344 84,31 13 63 82,89 Genel DO (%) 71,29 67,14 72,14 70,00 0 168 124 57,53 34 30 53,13 126 166 43,15 31 33 48,44 1 74 334 81,86 20 56 73,68 54 354 86,76 10 66 86,84 Genel DO (%) 71,71 64,29 68,57 69,29 0 153 139 52,40 33 31 51,56 177 115 60,62 34 30 53,13 1 70 338 82,84 11 65 85,53 80 328 80,39 14 62 81,58 Genel DO (%) 70,14 70,00 72,14 68,57 0 154 138 52,74 33 31 51,56 159 133 54,45 32 32 50,00 1 68 340 83,33 14 62 81,58 67 341 83,58 14 62 81,58 Genel DO (%) 70,57 67,86 71,43 67,14 *DO: Doğruluk Oranı 207
AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Haftalık verilerle kurulan modellerin sonuçları genel olarak incelendiğinde, test kümesinde model 1 ve model 2'de, İMKB-100 endeksi artış yönünü DVM nin (%82,89, %86,84) LR'ye (%73,68, %73,68) göre daha başarılı sınıflandırdığı, azalış yönünü sınıflandırmada ise LR'nin (%59,38, %53,13) DVM'den (%54,69, %48,44) daha iyi sonuçlar verdiği görülmektedir. Model 3'te azalışları DVM (%53,13), LR'den (%51,56) daha iyi tahminlerken, artışları sınıflandırmada LR (%85,53), DVM'den (%81,58) daha başarılı bulunmuştur. Model 4'te ise azalış yönünü LR (%51,56), DVM'den (%50,0) daha iyi sınıflandırırken, artış yönünü her iki yöntemin de aynı oranda (%81,58) tahminlediği görülmektedir. Eğitim veri setinde LR nin doğruluk oranları %70,14 ile %71,71 arasında, DVM nin ise %68,57 ile %72,14 arasındadır. Test veri setinde LR nin doğruluk oranları %64,29 ile %70,00 arasında, DVM nin ise %67,14 ile %70,00 arasındadır. Sonuçlar birbirine yakın olsa da DVM nin LR den daha iyi performans gösterdiği söylenebilir. Açıklayıcı değişken sayısındaki azalmanın etkisi incelendiğinde tüm açıklayıcı değişkenleri kullanan model 1 den, yalnızca 3 açıklayıcı değişken kullanan model 4 e doğru gidildiğinde test veri setinde DVM genel doğruluk oranlarında bir azalma meydana gelmiştir. Ancak bu değişim artışlar ve azalışlar için aynı paralelde değildir, artış ve azalışların doğruluk oranlarının değişimi, modellerdeki değişken sayısı ile ilişkili değildir. LR nin genel, artış ve azalış doğruluk oranlarındaki değişim de modellerdeki değişken sayısı ile ilişkili değildir. Test verilerinde en iyi performansı veren iki model vardır, bunlar %70 doğruluk oranı ile DVM model 1 ve LR model 3 tür. DVM model 1 artış ve azalışları sırasıyla %82,89 ve %54,69 oranında tahmin ederken, LR model 3 artış ve azalışları sırasıyla %51,56 ve %85,53 oranında tahmin etmiştir. DVM model 1 artış ve azalış oranları arasındaki farkın LR model 3 den daha az olması nedeniyle İMKB-100 endeksinin haftalık yönünü tahmin etmekte kullanılabilir. 4.3. Aylık Veriler Kullanılarak Uygulanan Analiz Aylık veri seti için uygulanan analizlerde de günlük ve haftalık veri setlerinde olduğu gibi model 1 de tüm bağımsız değişkenler analize dâhil edilmiştir. Model 2 de, model 1 de LR analizinde p<0,25 olan 10 bağımsız değişken analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 2 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan yalnızca 1 bağımsız değişkenden oluşur. Tablo 3'te aylık modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR 208