İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ *

Benzer belgeler

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

A. SCI ve SCIE Kapsamındaki Yayınlar

Uzaktan Algılama Teknolojileri

CBS ve Coğrafi Hesaplama

TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MAKİNA MÜHENDİSLİĞİ ANABİLİM DALI DOKTORA PROGRAMI ŞEKİL TANIMA ÖDEV 2 KONU : DESTEK VEKTÖR MAKİNELERİ

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Zaman Serileri-1. If you have to forecast, forecast often. EDGAR R. FIEDLER, American economist. IENG 481 Tahmin Yöntemleri Dr.

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DÖNEM PROJESİ TAŞINMAZ DEĞERLEMEDE HEDONİK REGRESYON ÇÖZÜMLEMESİ. Duygu ÖZÇALIK

Türkçe Dokümanlar Ġçin Yazar Tanıma

Forex Göstergeler.

YAPAY ÖĞRENME İLE TÜRKİYE NİN KURULU GÜCÜNÜN 2023 YILINA KADAR TAHMİNİ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Kurumsal Şeffaflık, Firma Değeri Ve Firma Performansları İlişkisi Bist İncelemesi

Zeki Optimizasyon Teknikleri

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

IMKB'de Oynaklık Tahmini Üzerine Bir Çalışma

Zaman Serileri. IENG 481 Tahmin Yöntemleri Dr. Hacer Güner Gören

Örüntü Tanıma (EE 448) Ders Detayları

Destek ve sevgilerini eksik etmeyen Ailem ve sevgili yeğenlerim Emre ve Bengisu ya. iii

Zeki Optimizasyon Teknikleri

Makine Öğrenmesi 2. hafta

DEÜ MÜHENDİSLİK FAKÜLTESİ MÜHENDİSLİK BİLİMLERİ DERGİSİ Cilt: 16 Sayı: 48 sh Eylül 2014

YÖNEYLEM ARAŞTIRMASI - III

SPATIAL STATISTICAL ANALYSIS OF THE EFFECTS OF URBAN FORM INDICATORS ON ROAD-TRAFFIC NOISE EXPOSURE OF A CITY IN SOUTH KOREA

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

HİSSE SENETLERİNİN ALIM SATIM KARARLARINDA TEKNİK ANALİZ VE BİST UYGULAMASI

QUANTILE REGRESYON * Quantile Regression

Morgan Stanley Capital International Türkiye Endeksinin Yapay Sinir Ağları ile Öngörüsü

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

Fonksiyon Optimizasyonunda Genetik Algoritmalar

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

GİRİŞ... 1 I. BÖLÜM - Beklenen Fayda, Karar Verme Ve Stokastik Süreçler...5

Web Madenciliği (Web Mining)

THE EFFECT OF MACROECONOMIC FACTORS ON STOCK PRICES IN FINANCIAL CRISES PERIODS

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

Yatırım Analizi ve Portföy Yönetimi 5. Hafta

YÖNEYLEM ARAŞTIRMASI - III

HAFTALIK TEKNİK ANALİZ 11 Ocak 2016

Kısıtsız Optimizasyon OPTİMİZASYON Kısıtsız Optimizasyon

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Web Madenciliği (Web Mining)

İçindekiler. Ön Söz... xiii

Hisse Senedi Fiyat Tahmininde Genetik Algoritma ile Değişken Seçimi Feature Selection for Stock Price Predicting with Genetic Algorithms

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması

KISITLI OPTİMİZASYON

The Study of Relationship Between the Variables Influencing The Success of the Students of Music Educational Department

Destek Vektör Makineleriyle Sınıflandırma Problemlerinin Çözümü İçin Çekirdek Fonksiyonu Seçimi

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

ÖZGEÇMİŞ DİL ADI SINAV ADI PUAN SEVİYE YIL DÖNEM. İngilizce ÜDS 65 İYİ 2002 Bahar PROGRAM ADI ÜLKE ÜNİVERSİTE ALAN DİĞER ALAN BAŞ.

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Yrd. Doç. Dr. Mehmet Güçlü

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. Pamukkale University Journal of Engineering Sciences

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Fatih Kölmek. ICCI Uluslararası Enerji ve Çevre Fuarı ve Konferansı 25 Nisan 2012, İstanbul, Türkiye

Simpleks Yönteminde Kullanılan İlave Değişkenler (Eşitliğin yönüne göre):

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

Gevşek Hesaplama (COMPE 474) Ders Detayları

Matris Cebiriyle Çoklu Regresyon Modeli

2. BASİT DOĞRUSAL REGRESYON 12

İNSANSIZ HAVA ARACI PERVANELERİNİN TASARIM, ANALİZ VE TEST YETENEKLERİNİN GELİŞTİRİLMESİ

12 Ekim 2015 HİSSE ÖNERİ VE TEKNİK ANALİZ BIST-100 VIOP-30 DOW JONES XBANK / XUSIN. İNDiKATÖRLER TEKNİK ÖNERİ LİSTESİ. İndikatör Bilgilendirmesi

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örüntü Tanıma (COMPE 467) Ders Detayları

K En Yakın Komşu Methodu (KNearest Neighborhood)

İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ İŞLETME BÖLÜMÜ BÖLÜM KODU: 0207

YBS Ansiklopedi. Skorlama Algoritmaları 1 (Scoring Algorithms 1) Amine YEŞİLYURT 1, Şadi Evren ŞEKER Giriş

Sıralama Öğrenme ile Sağkalım Tahminleme

YAPAY SİNİR AĞLARI İLE FİYAT TAHMİNLEMESİ

Uluslararası Piyasalar

4 Eylül 2015 HİSSE ÖNERİ VE TEKNİK ANALİZ BIST-100 VIOP-30 DOW JONES XBANK / XUSIN. İNDiKATÖRLER TEKNİK ÖNERİ LİSTESİ. İndikatör Bilgilendirmesi

Zeki Optimizasyon Teknikleri

BARTIN ORMAN FAKÜLTESİ NİN DİĞER ORMAN FAKÜLTELERİ İLE BAZI KRİTERLERE GÖRE KARŞILAŞTIRILMASI

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

Araştırma Görevlisi İSMAİL ÇÖLKESEN

YATIRIM ARAÇLARININ GETİRİLERİ ARASINDAKİ İLİŞKİLERİN ÇOK BOYUTLU ÖLÇEKLEME YÖNTEMİ İLE ANALİZİ

Tek Değişkenli Optimizasyon OPTİMİZASYON. Gradient Tabanlı Yöntemler. Bisection (İkiye Bölme) Yöntemi

YALIN SİNİRSEL BULANIK BİR MODEL İLE İMKB 100 ENDEKSİ TAHMİNİ

VERİ MADENCİLİĞİ F A T M A İ L H A N

Uzaktan Algılama Uygulamaları

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Türkiye deki İş Kazalarının Box-Jenkins Tekniği ile İncelenmesi. Doç. Dr. Arzu ALTIN YAVUZ Ar. Gör. Barış ERGÜL Ar. Gör. Ebru GÜNDOĞAN AŞIK

15 Ekim 2015 HİSSE ÖNERİ VE TEKNİK ANALİZ BIST-100 VIOP-30 DOW JONES XBANK / XUSIN. İNDiKATÖRLER TEKNİK ÖNERİ LİSTESİ. İndikatör Bilgilendirmesi

Sağlık Kuruluşlarında Maliyet Yönetimi ve Güncel

Transkript:

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ * Nezih TAYYAR 1 Selin TEKİN 2 FORECASTING ISE-100 INDEX USING SUPPORT VECTOR MACHINES WITH DAILY, WEEKLY AND MONTHLY DATA Öz Bu çalışmada İstanbul Menkul Kıymetler Borsası Ulusal 100 Endeksi (İMKB- 100) hareket yönü tahmini amacıyla Destek Vektör Makineleri (DVM) yöntemi kullanılmıştır. DVM'lerin sınıflandırma başarısı çalışmada kullanılan ikinci bir yöntem olan Lojistik Regresyon (LR) yöntemi ile karşılaştırılmıştır. Çalışmada hisse senedi analizinde teknik analizin yararlandığı araçlardan biri olan teknik göstergelerden (indikatörler) yararlanılmıştır. Modellere dâhil edilen teknik göstergeler LR analizi ile incelenmiş ve LR analizinde anlamlı olan göstergeler bağımsız değişken olarak kullanılmıştır. Analiz, 03.04.1995-19.03.2012 arası dönemi kapsamaktadır. Toplam 4226 adet veri günlük, haftalık ve aylık veri setleri şeklinde düzenlenmiştir. Her veri seti için 4 model oluşturulmuş ve her model için farklı değerlendirme kriterleri uygulanarak yöntemlerin endeks hareket yönü tahmin performansları değerlendirilmiştir. Yapılan değerlendirmeler sonucunda DVM'nin oluşturulan 12 model içerisinde İMKB- 100 endeksi hareket yönünü en iyi tahminlediği modelin haftalık model 1 olduğu (%70,0) gözlenmiştir. Bu model aynı zamanda İMKB-100 endeksi artış (%82,89) ve azalış yönünü (%54,68) birbirine en yakın ve yüksek oranda tahminleyen model olarak bulunmuştur. Anahtar kelimeler: Destek Vektör Makineleri; Endeks Hareket Yönü Tahmini; Lojistik Regresyon; Sınıflandırma; İMKB-100 * Bu makale Selin Tekin in Uşak Üniversitesi Sosyal Bilimler Enstitüsü İşletme Bölümü nde sunmuş olduğu DESTEK VEKTÖR MAKİNELERİ YÖNTEMİ İLE İMKB-100 ENDEKSİ HAREKET YÖNÜ TAHMİNİ başlıklı Yüksek Lisans Tezinden yararlanılarak hazırlanmıştır. 1 Yrd. Doç. Dr., Uşak Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, İşletme Bölümü, e-posta: ntayyar@gmail.com 2 Uşak Üniversitesi, Sosyal Bilimler Enstitüsü, İşletme Bölümü, Yüksek Lisans Mezunu, e-posta: selintkn@hotmail.com 189

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Abstract This study aims to forecast the movement direction of Istanbul Stock Exchange National 100 Index (ISE-100) using Support Vector Machines (SVM). SVMs' classification performance was compared with Logistic Regression (LR), the other method used in this study, in order to forecast the movement direction of ISE-100 Index. Technical indicators that are among the devices useful for technical analysis in stock prediction were used. These indicators included in models were analysed with LR analysis and then, significant ones were used as independent variables. The analysis includes the data from 03.04.1995 to 19.03.2012. 4226 data were established as daily, weekly and monthly data sets. 4 models were built for each dataset and index movement direction forecasting performance of these methods was evaluated by applying different criteria for each model. The results of this study show that SVMs estimate the movement of ISE-100 Index best with weekly Model 1 (70.0%) among 12 models. Additionally, it is observed that this model has a high level of estimation and the closest increase (82.89%) and decrease (54.68%) direction of ISE 100 Index. Keywords: Support Vector Machines; Index Movement Direction Forecast; Logistic Regression; Classification; ISE-100 Giriş Hisse senedi getirilerinin tahmin edilebilirliği, gerek yatırımcılar gerekse araştırmacılar için büyük önem arz etmektedir. Bu durum, hisse senedi tahminine yönelik, geçmişten günümüze, farklı değerleme yöntemleri ve pek çok farklı teknik kullanılarak çok sayıda tahmin çalışması yapılmasına sebep olmuştur. Son zamanlarda bilgisayar teknolojilerindeki hızlı ilerleme ile İstanbul Menkul Kıymetler Borsası'na (İMKB) yönelik yapılan çalışmalarda kullanılan klasik yöntemlerin yanı sıra yeni nesil yöntemler olarak bilinen veri madenciliği yöntemlerinin başarılı sonuçlar vermesi bu alana olan ilgiyi artırmıştır. Veri Madenciliği (VM); büyük miktarda veri içinden, gelecek ile ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanılarak aranmasıdır (Timor ve Şimşek, 2008:5). VM'de kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki ana başlık altında incelenmektedir. VM modellerini gördükleri işlevlere göre sınıflama ve regresyon modelleri, kümeleme modelleri ve birliktelik kuralları ve ardışık zamanlı örüntüler olmak üzere üç ana başlık altında incelemek de mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir (Albayrak ve Yılmaz, 2009:33). Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve 190

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. VM'de tahmin edici modeller olarak bilinen başlıca sınıflama ve regresyon modelleri; karar ağaçları, genetik algoritmalar, K-En yakın komşu, bellek temelli nedenleme, lojistik regresyon (Akpınar, 2000:4); Bayes sınıflandırması, zaman serisi analizi, yapay sinir ağları ve destek vektör makineleridir (Kaya ve Köymen, 2008:161). Bu modellerden hisse senedi fiyat öngörüsünde sıklıkla kullanılanlar ise LR ve yapay sinir ağları (YSA)'dır. VM, veri tabanı teknolojileri, istatistik, makine öğrenmesi gibi birçok farklı disiplini içeren bir alandır (Kaya ve Köymen, 2008:159). Bu çalışmada VM'nde sınıflama ve regresyon problemlerinde başarı ile kullanılan bir makine öğrenmesi yöntemi olan DVM sonuçlarını karşılaştırmak amacıyla hisse senedi fiyat öngörüsünde sıklıkla kullanılan LR yöntemi kullanılarak İMKB-100 endeksinin hareket yönü tahmini yapılmıştır. Literatürde İMKB-100 endeksi tahminine yönelik gerek klasik teknikler ile gerek VM yöntemlerinden YSA'nın kullanıldığı çok sayıda çalışma olmasına karşın, DVM'lerin kullanıldığı sadece iki çalışmaya rastlanılmıştır. Bu nedenle bu çalışmanın amacı, oldukça yeni bir öğrenme algoritması olan DVM'lerin, teknik analizde kullanılan göstergelerden yararlanarak, hisse senedi analizlerinde diğer yöntemlere alternatif bir yöntem olarak kullanılabilirliğini göstermek ve hangi veri seti üzerinde en iyi tahmin performansı gösterdiğini belirlemektir. 2. Literatür Taraması Yapılan literatür araştırmasında, DVM'lerin uluslararası finans literatüründe hisse senedi tahmininde yaygın olarak kullanıldığı gözlenmiştir. Bu çalışmalarda, DVM'lerin tahmin performansı, farklı istatistiksel yöntemler ya da VM yöntemleri ile birleştirilerek değerlendirilmiştir. İMKB'ye yönelik yapılan tahminlerde ise hisse senedi tahminine yönelik DVM kullanılarak yapılan iki çalışmaya; Kara vd. (2011) ve Özdemir vd. ( 2011) rastlanmıştır. Bu çalışmalar haricinde, İMKB'ye yönelik yapılan çalışmaların çoğunda bilgisayar temelli öğrenme algoritmalarından YSA modellerinin kullanıldığı gözlenmiştir. 191

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Kim (2003), KOSPI endeksinin günlük yönünü tahmin etmek amacıyla 12 teknik gösterge ile DVM yöntemini kullanmıştır. Analiz dönemi Ocak 1989 - Aralık 1998 olarak belirlenmiştir. Toplam 2928 verinin %80'i (2347 tanesi) eğitim verisi, %20'si (581 tanesi) test verisi olarak kullanılmıştır. KOSPI endeksinin tahmini amacıyla ikili sınıflandırma yapılmıştır; endeks getirileri bir gün önceki gün sonu değerine göre arttığında ''1'', azaldığında ''0'' olarak sınıflandırılmıştır. DVM yöntemi, geri yayılım sinir ağları (BPNN) ve durum tabanlı çıkarsama (CBR) yöntemleri ile karşılaştırılmıştır. DVM'nin, BPNN ve CBR yöntemlerine nazaran daha iyi performans gösterdiği ve finansal zaman serileri tahmini için gelecek vadeden bir yöntem olduğu belirtilmiştir. DVM'leri, bir taraftan diğer yöntemlerden daha avantajlı özelliklere sahipken diğer taraftan bir takım dezavantajlara da sahiptir. Örneğin; veri sayısının çok fazla ve yüksek boyutlu olduğu durumlarda, DVM eğitimi zaman maliyetine yol açmaktadır. Böyle durumlarda DVM yönteminin daha çok diğer yeni nesil yöntemlerle geliştirilerek tahminlerde bulunulduğu gözlenmiştir. İncelenen bu çalışmalarda DVM'ler ile diğer yöntemlerin hibrid kullanımının sınıflama performansını ve tahmin doğruluğunu artırdığı gözlenmiştir. Pai ve Lin (2005), on şirkete ait hisse senedinin fiyat yönünü tahmin etmek amacıyla, doğrusal zaman serisi tahmininde yaygın olarak kullanılan bütünleştirilmiş otoregresif hareketli ortalama (ARIMA) ve DVM modellerini entegre eden bir tahmin modeli geliştirmişlerdir. ARIMA ve DVM yi entegre eden hibrid modelin, yalnızca ARIMA ve yalnızca DVM kullanan modellerle kıyaslandığında, tüm tahmin hatalarını anlamlı bir biçimde azalttığı gözlenmiştir. Huang vd. (2005), NIKKEI 225 endeksinin haftalık hareket yönünü tahmin etmek için DVM yöntemini kullanmışlardır. DVM'nin performansını dört farklı sınıflandırma yöntemi; rastgele yürüyüş (RW) modeli, doğrusal diskriminant analizi (LDA), kuadratik diskriminant analizi (QDA) ve Elman geri yayılım sinir ağları (EBNN) ile karşılaştırmışlardır. Aynı zamanda çalışmada bu sınıflandırma yöntemleri ile DVM'yi kombine eden bir model geliştirmişlerdir. Çalışmada S&P-500 endeksi ve Japon Yeni (JPY) girdi değişkenleri olarak belirlenmiştir. 1 Ocak 1990 31 Aralık 2002 dönemine ait toplam 676 verinin 640'ı model ve parametre özelliklerini belirlemek amacıyla, geriye kalan 36 veri performans karşılaştırması için kullanılmıştır. RW, LDA, QDA, EBNN ve DVM yöntemlerinin bireysel tahmin performansları ile tüm bu sınıflandırma yöntemlerinin entegre edilmesiyle oluşturulan kombine modelin tahmin performansları karşılaştırılmıştır. Çalışma sonucunda, NIKKEI endeksinin haftalık hareket yönü için en iyi tahmin performansının, DVM ile diğer sınıflandırma yöntemlerini entegre eden modele (%75) ait olduğu 192

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 sonucuna ulaşmışlardır. Ayrıca, bireysel performanslara bakıldığında DVM yönteminin (%73), çalışmada kullanılan diğer sınıflandırma yöntemlerinden daha başarılı performans gösterdiği, RW'nin (%50) ise en kötü performansa sahip olduğu gözlenmiştir. Perez-Cruz vd. (2003), GARCH modellerinde yaygın olarak kullanılan maksimum olabilirlik (ML) uygulaması yerine DVM'leri kullanıp daha iyi tahminlere ulaşılabileceğini göstermek amacıyla dört borsa endeksi (S&P-100, FTSE-100, IBEX-35, NIKKEI) üzerinde bir çalışma yapmışlardır. Çalışma sonucunda DVM'nin ML tahminlerine oranla daha iyi tahmin doğruluğu sağladığı saptanmıştır. Bu çalışmanın konusunu oluşturan hisse senedi analizinde kullanılan teknik analiz göstergelerinin hisse senedi tahminindeki başarısı ve DVM'nin tahminleme performansındaki etkisini araştıran çalışmalarda da DVM yönteminin diğer yöntemler ile hibrid kullanımının yaygın olduğu gözlenmiştir. Yu vd. (2005), S&P-500 endeksinin günlük değişim yönü tahminine yönelik genetik algoritma tabanlı DVM (GA-DVM) modelini kullanarak yaptıkları çalışmada, literatürde yaygın olarak kullanılan 18 teknik göstergeyi; fiyat, stokastik osilatör (SO), hareketli stokastik osilatör (MSO), yavaş stokastik osilatör (SSO), değişim oranı (ROC), momentum, hareketli ortalama (MA), varyans hareketi, varyans hareket oranı, üssel hareketli ortalama (EMA), hareketli ortalamaların birleşmesi ayrılması göstergesi (MACD), toplama/dağıtım osilatörü (A/D), kapanış fiyatının beş günlük hareketli ortalamaya oranı (D5), kapanış fiyatının on günlük hareketli ortalamaya oranı (D10), fiyat osilatörü, mal kanal endeksi (CCI), göreceli güç endeksi (RSI) ve lineer regresyon çizgisi kullanmışlardır. Tüm veri seti 1 Ocak 2000-31 Aralık 2004 dönemini kapsamaktadır. 1 Ocak 2000 31 Aralık 2003 dönemi verileri eğitim amaçlı, 1 Ocak 2004 31 Aralık 2004 verileri ise test amaçlı kullanılmıştır. S&P-500 hisse senedi günlük fiyat endeksinin tahmini için ikili sınıflama kullanılmıştır; endeks getirileri bir gün önceki gün sonu değerine göre yüksek olduğunda ''1'', düşük olduğunda ''0'' olarak sınıflandırılmıştır. Çalışmada, DVM ile RW, ARIMA, BPNN ve önerilen model GA-DVM'nin tahmin performansları değerlendirilmiştir. Bulunan sonuçlar DVM'nin tahmin performansı üzerinde GA tabanlı değişken seçiminin önemli olduğunu göstermiştir. Buna göre DVM %78,65 lik tahmin performansı sergilerken, önerilen model GA-DVM ile %84,57 lik tahmin performansına ulaşılmıştır. Huang ve Tsai (2009), borsa tahmini üzerine yaptıkları çalışmalarında kendini örgütleyen özellik haritaları (SOFM), destek vektör regresyonu (DVR) ve filtre tabanlı özellik seçimi yöntemlerinden oluşan bir hibrid model geliştirmişlerdir. Analizde kullanılan veriler 4 Ocak 2000-20 Şubat 2006 dönemini 193

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 kapsamaktadır. Veri seti beş ayrı dilime ayrılmış ve ilk beş yıl ayrı dönemler için eğitim verisi, son bir yılı da yaklaşık ikişer aylık dönemler itibariyle ayrılarak test verisi için kullanılmıştır. Çalışmada on üç bağımsız değişken; RSI, MACD, MA, Williams'ın %R göstergesi (%R), psikolojik sınır (PSY), stokastik %K, stokastik %D, yukarı yönsel gösterge (+ DI), aşağı yönsel gösterge (- DI), BIAS, hacim oranı (VR), A oranı ve B oranı kullanılmıştır. SOFM-DVR ile özellik seçimi yöntemlerinden oluşan modelin, özellik seçimi içermeyen SOFM-DVR modeline nazaran daha kesin tahmin doğruluğu sağladığı gözlenmiştir. Ardından DVR ortalama tahmin hataları, önce seçilen özellikler daha sonra tüm özellikler kullanılarak değerlendirilmiştir. Çalışmada, SOFM- DVR hibrid modelinin, DVR nin yalnız başına gösterdiği performanstan daha iyi sonuçlar verdiği sonucuna ulaşılmıştır. DVM eğitiminde çekirdek fonksiyonlarının seçimi ve seçilen çekirdek fonksiyonu için belirlenecek parametre seçimi önemli bir rol oynamaktadır. Yapılan çalışmalarda çekirdek fonksiyonları için seçilecek parametre değerlerinin seçiminin DVM'nin sınıflandırma performansına doğrudan etki ettiği gözlenmiştir. Ding vd. (2008), borsaya kote edilmiş Çin şirketlerinin finansal durumunu belirlemeye yönelik DVM ye dayalı bir tahmin modeli kullandıkları çalışmalarında, analiz dönemi olarak 2001-2006 dönemi verilerinden yararlanmışlardır. Çalışmada öncelikle 10 kat çapraz geçerleme kullanılarak en iyi parametre seçimi yapılmıştır. Ardından DVM nin dört çekirdek fonksiyonunun tahmin performansı değerlendirilmiştir ve radyal tabanlı çekirdek fonksiyonu (RBF) diğer çekirdeklerden başarılı bulunmuştur. Daha sonra DVM nin tahmin performansı üç katmanlı BPNN, çoklu diskiriminant analizi (MDA) ve LR ile istatistiksel olarak karşılaştırılmıştır. Çalışma sonucunda, RBF- DVM nin, BPNN, MDA ve LR yöntemlerinden daha iyi sonuçlar verdiği sonucuna ulaşılmıştır. Sap ve Awan (2005), KLSE üzerine yaptıkları çalışmada çekirdek fonksiyonu olarak Gaussian fonksiyonunu kullanılmışlardır. Çünkü Gaussian çekirdekleri eldeki verilere ek bir bilgi olmasa da iyi performans gösterebilmektedirler. Çalışma sonucunda DVM'nin zaman serisi tahminine iyi bir alternatif oluşturduğu saptanmıştır. Yapılan literatür incelemesinde, hisse senedi fiyatlarındaki aşırı dalgalanma nedeniyle oluşan gürültü probleminin de DVM performansını etkilediği gözlenmiştir. Gürültü içeren veriler söz konusu olduğunda kullanılan yöntemler ile ulaşılan sonuç doğru tahminleme oranını azaltmaktadır. DVM tekniğinin değerlendirildiği çalışmalarda, gürültüden arındırılmış veriler ile DVM performansının daha iyi sonuçlar verdiği 194

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 gözlenmiştir. Sui vd. (2007), SSECI tahminine yönelik olarak yaptıkları çalışmalarında, 28 Nisan 1997-12 Eylül 2006 dönemi için toplam 2261 veriden yararlanmışlardır. Verilerin 1920'si çalışma verisi olarak 341'i test verisi olarak kullanılmıştır. Finansal veriler gürültü içerdiği için veriler dalgacık sıkıştırma yöntemi ile gürültüden arındırılmıştır. DVM hem gürültü içeren hem de gürültüden arındırılmış modellere ayrı ayrı uygulanmıştır. Gürültüden arındırılmış veri setinde (%60,12), gürültü içeren veri setine göre (%54,25) daha iyi sonuçlar alınmıştır. Son zamanlarda hisse senedi piyasalarına olan ilginin artış göstermesi, gerek yatırımcıları gerekse akademik çevreyi, hisse senetlerinin gelecek değerlerini tahmin etme konusunda çalışmalar yapmaya yöneltmiştir. Türkiye'nin tek hisse senedi piyasası olan İMKB'de hisse senedi getiri tahminine yönelik özellikle son on yıllık süreçte çok sayıda çalışma yapıldığı, bu çalışmaların çoğunluğunda ise YSA yönteminin tercih edildiği gözlenmiştir. Bunlardan bazıları Akay (2009), Akcan ve Kartal (2011), Akel ve Bayramoğlu (2008), Diler (2003), Gür (2009), Haznedaroğlu ve Taş (2010), Karaatlı (2003), Kutlu ve Badur (2009), Moralı (2011), Tektaş ve Karataş (2004) ın çalışmalarıdır. Yapılan incelemede, İMKB'de hisse senedi tahminine yönelik DVM'nin kullanıldığı iki çalışmaya rastlanmıştır. Kara vd. (2011), İMKB-100 endeksinin tahmini amacıyla yaptıkları çalışmalarında YSA ve DVM'nin performanslarını karşılaştırmışlardır. Analiz için, 2 Ocak 1997-31 Aralık 2007 günlük kapanış fiyatlarını kullanmışlardır. Toplam 2733 iş gününün 1440'ı artan, 1293'ü azalan yönlüdür. Çalışmada 10 teknik gösterge; basit hareketli ortalama (SMA), ağırlıklı hareketli ortalama (WMA), momentum, stokastik %K, stokastik %D, RSI, MACD, %R, A/D osilatörü ve CCI bağımsız değişken olarak kullanılmıştır. İMKB-100 endeksi tahmini için ikili sınıflandırma kullanılmıştır. Çalışma sonucunda her iki yönteminde başarılı sonuçlar vermiş olmasına rağmen YSA'nın %75,74, DVM nin %71,52 tahmin performansına sahip olduğu bulunmuştur. Özdemir vd. (2011) hisse senedi getirilerine etki edeceği düşünülen bağımsız değişkenler kullanarak İMKB-100 endeksinin getiri yönünü tahmin ettikleri çalışmalarında, ikili sınıflandırmaya imkân tanıyan LR ve DVM yöntemlerini kullanmışlardır. Çalışmada, Şubat 1997 - Aralık 2010 dönemini kapsayan aylık verileri kullanmışlardır. Toplam 167 aylık veri setinin, modellerin kurulduğu 138 veri eğitim kümesine ve modellerin geçerliliğinin test edildiği 29 veri tahmin kümesine ayrılmıştır. LR yönteminin modelleme ve tahmin kümesi için doğru sınıflandırma oranları sırasıyla %75,4 ve %86,2'dir. DVM yönteminin ise tüm değişkenlerle oluşturulan modelde doğru sınıflandırma sonuçları eğitim kümesinde %73,9, test kümesinde %79,3 195

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 iken değişken seçimi ile kurulan modelde sırasıyla %76,1 ve %86,2 olarak gözlenmiştir. Çalışmada, yöntemlerin tahmin güçleri incelendiğinde LR'nin endeksin negatif getiri yönünü daha iyi tahminlerken, DVM yöntemiyle kurulan her iki modelde de endeksin pozitif getiri yönünü daha iyi tahmin ettiği görülmüştür. 3. Destek Vektör Makineleri (DVM) Bu bölümde yalnızca yeni bir yöntem olan DVM kısaca açıklanmıştır. Çalışmada kullanılan bir diğer yöntem olan LR; bilinen ve çok sık kullanılan bir yöntem olduğundan dolayı açıklanmamıştır. DVM'lerin temelleri istatistiksel öğrenme teorisi esas alınarak Vapnik tarafından ortaya atılmıştır (Schölkopf ve Smola, 2002). 1960'ların sonlarında Vapnik tarafından geliştirilen DVM'ler, istatistiksel öğrenme teorisi ve yapısal risk minimizasyonu ilkesine dayanan, iki sınıflı sınıflandırma ve regresyon problemlerinin çözümü amacıyla ortaya atılmış bir makine öğrenmesi yöntemidir (Vapnik 1995, 1998). DVM'lerin eğitim verileri çok az olduğu durumlarda bile genelleme kabiliyetleri iyidir. Ayrıca, hiçbir yerel minimum içermezler. DVM kuadratik programlama problemi olarak formüle edildiği için, problem kuadratik programlama teknikleri ile çözülebilir (Abe, 2005:39). Bu çalışmada İMKB-100 endeksi yönünü tahminlemek amacıyla, ikili sınıflamaya imkân tanıyan DVM kullanılmıştır, bu nedenle aşağıda yalnızca bu yöntem kısaca açıklanmıştır. DVM ile ilgili ayrıntılı bilgiye Abe (2005), Schölkopf ve Smola (2002), Suykens vd. (2002) ve Vapnik (1995, 1998) den ulaşılabilir. DVM'ler hem doğrusal olarak ayrılabilen, hem de doğrusal olarak ayrılamayan verilere uygulanabilmektedir. Doğrusal olarak ayrılabilme durumunda DVM nin amacı iki sınıfı birbirinden ayıran en iyi hiperdüzlemi bulmaktır. DVM'nin eğitimi için kullanılacak l elemandan oluşan veri kümesinin{ x, y }, i = 1,2,..., l olduğunu varsayalım. Burada y 1,1 etiket değerleri ve i durumda; i i d xi özellikler vektörüdür. Bu y i = +1 için, w. x i + b +1 (1) 196

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 y i = -1 için, w. x i + b -1 (2) Bu eşitsizlikler bir arada ifade edilecek olursa, y i (w. x i + b) +1 (3) Burada w ağırlık vektörünü ve b sabit terimi ifade eder. Denklem 3'de gösterilen ve kaldırılması, elde edilen çözümün değişmesine yol açabilen eğitim noktalarına Destek Vektörleri (DV) adı verilmektedir. Maksimum sınırın bulunması işlemi; Minimizasyon: 1 min 2 w 2 (4) Kısıt: y i (w. x i + b) +1, i (5) ile ifade edilir (Burges, 1998:128-129). Burada Denklem 4 ve Denklem 5 sırasıyla çözülecek problem ve problemin çözümü sırasında kullanılan koşuldur ve bu ifade doğrusal olmayan bir optimizasyon problemidir (Özkan, 2013:189). Bu optimizasyon problemi Lagrange fonksiyonu kullanarak çözülebilir. Problemin Lagrange fonksiyonu ise, 1 2 L w y x w b l l (6) P i i i i 2 i1 i1 şeklindedir, α i Lagrange çarpanlarını gösterir (Burges, 1998:130). Denklem 6'daki ifade Karush-Kuhn-Tucker (KKT) koşulları kullanılarak dual probleme dönüştürülür. Bu problem için KKT koşulları şöyledir (Alpaydın, 2011: 264): LP 0 w i yi xi w i (7) 197

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 LP 0 iyi 0 b i (8) Bu koşullar Denklem 6'da yerine yazılacak olursa, optimizasyon problemi dual probleme dönüşür. Elde edilen dual problem şu şekildedir: 1 L y y x x D i i j i j i j i 2 i, j (9) 0, i (10) i Bu durumda karar fonksiyonu Denklem 11 deki gibi ifade edilir (Lee, 2009:10899). l f ( x) sgn yii xi x b i1 (11) Verilerin doğrusal olarak ayrılamadığı durumlarda ise eğitim verilerinin bir kısmının optimum hiperdüzlemin diğer tarafında kalmasından kaynaklanan problem, pozitif bir gevşek değişkenin (ξ i ) ve sınırın maksimum hale getirilmesi ve yanlış sınıflandırma hatalarının minimum hale getirilmesi arasındaki dengeyi sağlayan pozitif değerler alan ve C ile gösterilen bir düzenleme parametresinin probleme eklenmesiyle çözülür. Bu durumda doğrusal olarak ayrılamayan veriler için optimizasyon problemi Denklem 12 deki gibi ifade edilir (Kavzaoğlu ve Çölkesen, 2010:76). min w 2 C 2 i1 i (12) Bu bilgilere göre Lagrange formülasyonu yeniden şu şekilde ifade edilecektir: 198

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 1 2 L w C y x w b 1 p i i i i i i i 2 i1 i i (13) Yukarıdaki formülasyonda i, i'nin pozitif olmasını sağlamak için kullanılmış olan Lagrange çarpanlarıdır. Bu Lagrange formülasyonun da çözülmesi zor olduğundan dolayı doğrusal ayrılabilir örneklerde olduğu gibi dual problemine dönüştürülmektedir (Burges, 1998:136). 1 L y y x x D i i j i j i j i 2 i, j (14) Burada Denklem 14 ile doğrusal olarak ayrılabilen durumdaki Denklem 9 benzerlik gösterse de Denklem 14 ün kısıtları Denklem 15 deki gibi tanımlanmıştır. Kısıtlar: iyi 0 ve 0 i C, i (15) i Bu problemin çözümünde, i 0 olan örnekler DV'lerdir (Alpaydın, 2011: 268). Doğrusal olarak ayrılamayan veriler söz konusu olduğunda sınıflandırma işlemi çekirdek fonksiyonları kullanılarak yüksek boyutlu bir uzaya taşınır. Çekirdek fonksiyonu Denklem 16 daki gibidir. K x, x ( x ) ( x ) (16) i j i j Denklem 16 nın uygulanması çekirdek düzenlemesi olarak bilinir. Çekirdek düzenlemesi, yüksek boyutlu özellik uzayında doğrudan hesaplama yapmak zorunda kalmadan çalışabilmemizi sağlar. Bu düzenleme ile problem primal ağırlık uzayında değil, Lagrange çarpanlarının ikili uzayında çözülür (Suykens vd., 2002:37) ve Denklem 17 deki gibi gösterilir (Lee, 2009:10899). 1 L y y k( x x ) D i i j i j i j i 2 i, j (17) 199

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Doğrusal olmayan DVM'lerde kullanılan bu çekirdek fonksiyonları Denklem 18 ve 19 da verilen Mercer Teoremi koşullarını sağlamak zorundadır (Vapnik, 1995:140): K( x, y) K( y, x) (18) K( x, y) f ( x) f ( y) dxdy 0 (19) Yaygın olarak kullanılan çekirdek fonksiyonları şunlardır (Hsu vd., 2003:2): Doğrusal Çekirdek Fonksiyonu: T K( x, x ) x x i j i j Polinom Çekirdek Fonksiyonu: T d K( x, x ) ( x x r), 0 i j i j Sigmoid Çekirdek Fonksiyonu: T K( x, x ) tanh( x x r) i j i j Radyal Tabanlı Çekirdek Fonksiyonu (RBF): K( x, x ) exp( x x ), 0 i j i j Burada, r ve d çekirdek parametreleridir. 2 Bu çalışmada çekirdek fonksiyonları arasında kullanımı en yaygın olan RBF çekirdek fonksiyonu kullanılmıştır. RBF çekirdek fonksiyonu iki parametreye sahiptir bunlar cost (C) ve gamma ( ) dır. C ve DVM lerin doğruluk oranına etki eden iki parametredir, aldıkları değerlere bağlı olarak sınıflandırma performanslarına etki ederler. Bu nedenle en iyi doğruluk oranını veren C ve parametrelerinin bulunması için çapraz geçerlilik uygulaması yapılır. 200

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 4. Veri Seti ve Analiz Bu çalışmada İMKB-100 endeksi hareket yönünün tahmin edilmesi amacıyla ikili sınıflandırmaya imkân tanıyan DVM yöntemi kullanılmıştır. DVM'nin sınıflandırma başarısı ikinci bir yöntem olarak çalışmada kullanılan LR yöntemiyle elde edilen sonuçlarla karşılaştırılmıştır. Analiz, İMKB-100 endeksinin 03.04.1995-19.03.2012 tarihlerini kapsayan açılış, kapanış, en yüksek, en düşük ve işlem hacmi verileri kullanılarak gerçekleştirilmiştir. Uygulamada kullanılan İMKB- 100 endeksi verileri, İMKB'nin resmi sitesinde yer alan veri isteme formu aracılığı ile talep edilerek edinilmiştir. Analiz dönemini kapsayan toplam 4226 veri günlük (4026), haftalık (840) ve aylık (193) olarak üç veri seti şeklinde düzenlenmiştir. Veri setleri oluşturulurken veri sayısında azalma meydana gelmiştir. Bunun nedeni basit, üssel ve ağırlıklı hareketli ortalama gibi göstergeler hesaplanırken geçmiş dönem verilerine ihtiyaç duyulmasıdır. Haftalık ve aylık veriler oluşturulurken uygulanan ortalama alma ile günlük verilerdeki aşırı dalgalanmadan kaynaklanan gürültü problemi giderilmiştir. Oluşturulan veri setlerinin %80 i eğitim kümesine (modelleme kümesi), %20 si ise modelin daha önceden karşılaşmadığı veriler üzerindeki performansını ölçebilmek için test kümesine (tahmin kümesi) ayrılmıştır. Veriler eğitim ve test kümelerine ayrılırken birbirini takip eden periyotlara göre atama yapılmamıştır, atamalar rassal olarak gerçekleştirilmiştir. Yapılan analizde endeks hareketi bir önceki değerine göre artış gösterdiğinde ''1'', azalış gösterdiğinde ''0'' olacak şekilde kodlanmıştır ve bu değerler bağımlı değişken olarak kullanılmıştır. Çalışmada teknik analizde kullanılan ve literatürde yaygın olarak kullanım alanı bulan 27 teknik gösterge; 20 ve 200 günlük basit hareketli ortalama (SMA20, SMA200), 20 ve 200 günlük üssel hareketli ortalama (EMA20, EMA200), 20 ve 200 günlük ağırlıklı hareketli ortalama (WMA20, WMA200), Aroon osilatörü, ortalama yönsel hareket (ADX), parabolik SAR, hareketli ortalamaların birleşmesi-ayrılması (MACD), değişim oranı (ROC), göreli güç endeksi (RSI), stokastik osilatör (hızlı %D, yavaş %D), stokastik momentum endeksi (SMI), Williams ın %R göstergesi (%R), mal kanal endeksi (CCI), Chande momentum osilatörü (CMO), Bollinger bantları (BB-HLC: En yüksek, en düşük ve kapanış değerleri ile hesaplanmıştır, BB-C: Kapanış değeri ile hesaplanmıştır), ortalama doğruluk aralığı (ATR), Chaikin dalgalanma göstergesi, Chaikin osilatörü (CO), toplama/dağıtım osilatörü (A/D), denge işlem hacmi (OBV), para akışı endeksi (MFI) ve Chaikin in para akışı endeksi (CMF) modele dâhil edilmiştir. Her veri seti için dört model oluşturulmuş ve her model farklı değerlendirme kriterlerine göre analiz edilmiştir. Modellerde 201

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 bağımlı değişkenin t periyodundaki değeri, bağımsız değişkenlerin t-1 periyodundaki değerleri kullanılarak tahmin edilmiştir. Değişken seçimi yapılarak uygulanan modellerde arama yöntemi olarak LR analizinden yararlanılmış ve LR ile yapılan arama sonucunda anlamlı kabul edilen değişkenler takip eden modellerde analize dâhil edilmiştir. Kurulan ilk modelde yukarıda verilen tüm göstergeler bağımsız değişken olarak alınmıştır. İkinci modelde, birinci modeldeki LR analizinde anlamlılık seviyesi 0,25 den küçük olan değişkenler analize dâhil edilmiştir. Üçüncü modelde, ikinci modeldeki LR analizinde anlamlılık seviyesi 0,05 den küçük olan değişkenler analize dâhil edilmiştir. Dördüncü modelde, üçüncü modeldeki LR analizinde anlamlılık seviyesi 0,05 den küçük olan değişkenler analize dâhil edilmiştir. DVM çekirdek tipi olarak radyal tabanlı çekirdek (RBF) kullanılmıştır. RBF parametreleri cost (C) ve gamma ( )'nın optimizasyonu için çapraz geçerlilik (cross-validation) yöntemi uygulanmıştır. Belirlenen modellerde k=10 olarak alınmıştır. Çapraz geçerlilik testinde cost (C) parametresi 10 4, 10 3, 10 2, 10 1 olmak üzere dört farklı değeri alırken, gamma ( ) parametresi 10-6, 10-5, 10-4, 10-3, 10-2, 10-1 olmak üzere altı farklı değer almıştır. Modeller çalıştırılmadan önce en uygun cost (C) ve gamma ( ) parametreleri çapraz geçerleme ile hesaplanarak en iyi doğruluk oranı tespit edilmiş ve sonrasında DVM eğitimi gerçekleştirilmiştir. Uygulama için istatistiksel veri analizleri yapan, açık kaynak kodlu programlama dili ''R'' kullanılmıştır. R dili, Bell Laboratuvarları'nda John Chambers ve arkadaşları tarafından geliştirilen S dilinin bir uzantısıdır (R Core Team, 2012). DVM paketi olarak DMwR kullanılmıştır (Torgo, 2010). DMwR birçok paketten oluşmaktadır. Bu çalışmada xts, zoo, TTR paketlerinden yararlanılmıştır. 4.1. Günlük Veriler Kullanılarak Uygulanan Analiz Bu veri seti için uygulanan analizde modellere dâhil edilen bağımsız değişkenler şöyle belirlenmiştir; model 1 de değişken seçimi uygulanmamış, 27 bağımsız değişken analize dâhil edilmiştir. Model 2 de model 1 de LR analizinde p>0,25 olan 13 bağımsız değişken atılmış, kalan değişkenler analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 7 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan 3 bağımsız değişkenden oluşur. 202

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Tablo 1'de günlük modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR eğitim kümesindeki 1699 artış verisinin 1188 tanesini doğru sınıflandırırken (%69,92), 1522 azalış verisinin 604 tanesini (%39,68) doğru sınıflandırmıştır. Test kümesinde ise, 424 artış verisinin 286 tanesini (%67,45) doğru sınıflandırırken, 381 azalış verisinin 136 tanesini (%35,70) doğru sınıflandırmıştır. Tablo 1 incelendiğinde, model 1 de LR yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %55,63, test kümesinde %52,42 oranında olduğu görülmektedir. Model 1 de DVM, eğitim kümesindeki 1699 artış verisinin 1347 tanesini (%79,28) doğru sınıflandırırken, 1522 azalış verisinin 441 tanesini (%28,98) doğru sınıflandırmıştır. Test kümesinde ise, 424 artış verisinin 323 tanesini (%76,18) doğru sınıflandırırken, 381 azalış verisinin 99 tanesini (%25,98) doğru sınıflandırmıştır. Tablo 1 incelendiğinde, model 1 DVM yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %55,51, test kümesinde %52,42 oranında olduğu görülmektedir. Model 2, 3 ve 4 ün sonuçları da Tablo 1 den görülebilir ve model 1 de olduğu gibi açıklanabilir. 203

Model 4 Model 3 Model 2 Model 1 AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Gerçek Gerçek Gerçek Gerçek Tablo 1. Günlük Modeller İçin LR ve DVM Yöntemlerinin Sınıflandırma Sonuçları* LR Eğitim LR Test DVM Eğitim DVM Test Tahmin Tahmin Tahmin Tahmin 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 604 918 39,68 136 245 35,70 441 1081 28,98 99 282 25,98 1 511 1188 69,92 138 286 67,45 352 1347 79,28 101 323 76,18 Genel DO (%) 55,63 52,42 55,51 52,42 0 550 972 36,14 119 262 31,23 505 1017 33,18 114 267 29,92 1 468 1231 72,45 117 307 72,41 436 1263 74,34 109 315 74,29 Genel DO (%) 55,29 52,92 54,89 53,29 0 376 1146 24,70 86 295 22,57 715 807 46,98 138 243 36,22 1 347 1352 79,58 97 327 77,12 454 1245 73,28 138 286 67,45 Genel DO (%) 53,65 51,30 60,85 52,67 0 338 1184 22,21 78 303 20,47 203 1319 13,34 37 344 9,71 1 310 1389 81,75 86 338 79,72 133 1566 92,17 43 381 89,86 Genel DO (%) 53,62 51,68 54,92 51,93 *DO: Doğruluk Oranı 204

AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Günlük verilerle kurulan modellerin sonuçları genel olarak incelendiğinde, model-1, model-2 ve model-4 test kümesi sonuçları İMKB-100 endeksi artış yönünü DVM'nin (%76,18, %74,29, %89,86) LR'den (%67,45, %72,41, %79,72) daha iyi sınıflandırdığını, azalış yönünü ise LR'nin (%35,70, %31,23, %20,47) DVM'den (%25,98, %29,92, %9,71) daha başarılı sınıflandırdığını göstermektedir. Model 3'te ise artış yönünü sınıflandırmada LR (%77,12) DVM'den (%67,45) daha iyiyken, azalış yönünü sınıflandırmada DVM (%36,22) LR'den (%22,57) daha başarılı bulunmuştur. Günlük verilerde DVM nin artışları, LR nin azalışları daha iyi tahmin ettiği söylenebilir. Eğitim veri setinde LR nin doğruluk oranları %53,62 ile %55,63 arasında, DVM nin ise %54,89 ile %60,85 arasındadır. Test veri setinde LR nin doğruluk oranları %51,30 ile %52,92 arasında, DVM nin ise %51,93 ile %53,29 arasındadır. DVM hem eğitim kümesinde hem de test kümesinde LR den daha iyi sonuçlar vermiştir. Açıklayıcı değişken sayısındaki azalmanın etkisi incelendiğinde tüm açıklayıcı değişkenleri kullanan model 1 den, yalnızca 3 açıklayıcı değişken kullanan model 4 e doğru gidildiğinde test veri setinde LR nin genel doğruluk oranlarında büyük farklılık olmamasına rağmen (model 1:%52,42, model 2:%52,92, model 3: %51,30 ve model 4:%51,68), azalışları tahmin performansı düşmüş (model 1:%35,70, model 2:%31,23, model 3: %22,57 ve model 4:%20,47), artışları tahmin performansı yükselmiştir (model 1:%67,45, model 2:%72,41, model 3: %77,12 ve model 4:%79,72). DVM de ise ilk üç model göz önünde bulundurulduğunda bunun tam tersi bir durum söz konusudur, artışları tahmin performansı düşerken, azalışları tahmin performansında bir yükselme gözlenmiştir. Ancak en az açıklayıcı değişkenin kullanıldığı model 4 te azalışlar %9,71 oranında doğru tahmin edilirken, artışlar %89,86 doğru tahmin edilmiştir. Günlük modeller için değişken sayısını azaltmanın genel doğruluk oranı üzerinde belirgin bir etkisi olmazken, artış ve azalışların doğruluk oranlarını etkilediğini söyleyebiliriz. Bu modeller İMKB-100 endeksini tahmin etme amaçlı kullanılmak istenirse, test verileri sonuçlarına göre karar verilmelidir. Her ne kadar eğitim verilerinde daha iyi doğruluk oranları bulunmuş olsa da, önemli olan modellerin daha önceden hiç karşılaşmadığı verilerde gösterdiği performanstır. Buna göre test verilerinde en iyi performansı veren DVM model 2, %53,29 luk doğruluk oranı ile İMKB-100 endeksi tahmininde kullanılabilir. Ancak bu modelin artış ve azalışları sırasıyla %74,29 ve %29,92 oranında tahmin ettiği, artışlarda başarılı, azalışlarda ise başarılı olmadığı göz önünde bulundurulmalıdır. Bu nedenle DVM model 3, 205

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 %52,67 doğruluk oranı ve artış ve azalışları sırasıyla %67,45 ve %36,22 oranında tahmin ettiğinden, alternatif olarak düşünülmelidir. 4.2. Haftalık Veriler Kullanılarak Uygulanan Analiz Haftalık veri seti için uygulanan analizlerde de günlük veri setlerinde olduğu gibi model 1 de tüm bağımsız değişkenler analize dâhil edilmiştir. Model 2 de, model 1 de LR analizinde p<0,25 olan 15 bağımsız değişken analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 7 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan 3 bağımsız değişkenden oluşur. Tablo 2'de haftalık modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR yöntemi, eğitim kümesindeki 408 artış verisinin 332 tanesini (%81,37) doğru sınıflandırırken, 292 azalış verisinin 167 tanesini (%57,19) doğru sınıflandırmıştır. Test kümesinde ise, 76 artış verisinin 56 tanesini (%73,68) doğru sınıflandırırken, 64 azalış verisinin 38 tanesini (%59,38) doğru sınıflandırmıştır. LR yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %71,29, test kümesinde %67,14 olduğu görülmektedir. Model 1 de DVM, eğitim kümesindeki 408 artış verisinin 344 tanesini (%84,31) doğru sınıflandırırken, 292 azalış verisinin 161 tanesini (%55,14) doğru sınıflandırmıştır. Test kümesinde ise, 76 artış verisinin 63 tanesini (%82,89) doğru sınıflandırırken, 64 azalış verisinin 35 tanesini (%54,69) doğru sınıflandırmıştır. DVM yönteminin, İMKB-100 endeksi hareket yönünü doğru sınıflandırma oranının; eğitim kümesinde %72,14, test kümesinde %70,0 oranında olduğu görülmektedir. 206

Model 4 Model 3 Model 2 Model 1 AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 Gerçek Gerçek Gerçek Gerçek Tablo 2. Haftalık Modeller İçin LR ve DVM Yöntemlerinin Sınıflandırma Sonuçları* LR Eğitim LR Test DVM Eğitim DVM Test Tahmin Tahmin Tahmin Tahmin 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 1 DO (%) 0 167 125 57,19 38 26 59,38 161 131 55,14 35 29 54,69 1 76 332 81,37 20 56 73,68 64 344 84,31 13 63 82,89 Genel DO (%) 71,29 67,14 72,14 70,00 0 168 124 57,53 34 30 53,13 126 166 43,15 31 33 48,44 1 74 334 81,86 20 56 73,68 54 354 86,76 10 66 86,84 Genel DO (%) 71,71 64,29 68,57 69,29 0 153 139 52,40 33 31 51,56 177 115 60,62 34 30 53,13 1 70 338 82,84 11 65 85,53 80 328 80,39 14 62 81,58 Genel DO (%) 70,14 70,00 72,14 68,57 0 154 138 52,74 33 31 51,56 159 133 54,45 32 32 50,00 1 68 340 83,33 14 62 81,58 67 341 83,58 14 62 81,58 Genel DO (%) 70,57 67,86 71,43 67,14 *DO: Doğruluk Oranı 207

AIBU Journal of Social Sciences, Spring 2013, Vol:13, Year:13, Issue:1, 13: 189-217 Haftalık verilerle kurulan modellerin sonuçları genel olarak incelendiğinde, test kümesinde model 1 ve model 2'de, İMKB-100 endeksi artış yönünü DVM nin (%82,89, %86,84) LR'ye (%73,68, %73,68) göre daha başarılı sınıflandırdığı, azalış yönünü sınıflandırmada ise LR'nin (%59,38, %53,13) DVM'den (%54,69, %48,44) daha iyi sonuçlar verdiği görülmektedir. Model 3'te azalışları DVM (%53,13), LR'den (%51,56) daha iyi tahminlerken, artışları sınıflandırmada LR (%85,53), DVM'den (%81,58) daha başarılı bulunmuştur. Model 4'te ise azalış yönünü LR (%51,56), DVM'den (%50,0) daha iyi sınıflandırırken, artış yönünü her iki yöntemin de aynı oranda (%81,58) tahminlediği görülmektedir. Eğitim veri setinde LR nin doğruluk oranları %70,14 ile %71,71 arasında, DVM nin ise %68,57 ile %72,14 arasındadır. Test veri setinde LR nin doğruluk oranları %64,29 ile %70,00 arasında, DVM nin ise %67,14 ile %70,00 arasındadır. Sonuçlar birbirine yakın olsa da DVM nin LR den daha iyi performans gösterdiği söylenebilir. Açıklayıcı değişken sayısındaki azalmanın etkisi incelendiğinde tüm açıklayıcı değişkenleri kullanan model 1 den, yalnızca 3 açıklayıcı değişken kullanan model 4 e doğru gidildiğinde test veri setinde DVM genel doğruluk oranlarında bir azalma meydana gelmiştir. Ancak bu değişim artışlar ve azalışlar için aynı paralelde değildir, artış ve azalışların doğruluk oranlarının değişimi, modellerdeki değişken sayısı ile ilişkili değildir. LR nin genel, artış ve azalış doğruluk oranlarındaki değişim de modellerdeki değişken sayısı ile ilişkili değildir. Test verilerinde en iyi performansı veren iki model vardır, bunlar %70 doğruluk oranı ile DVM model 1 ve LR model 3 tür. DVM model 1 artış ve azalışları sırasıyla %82,89 ve %54,69 oranında tahmin ederken, LR model 3 artış ve azalışları sırasıyla %51,56 ve %85,53 oranında tahmin etmiştir. DVM model 1 artış ve azalış oranları arasındaki farkın LR model 3 den daha az olması nedeniyle İMKB-100 endeksinin haftalık yönünü tahmin etmekte kullanılabilir. 4.3. Aylık Veriler Kullanılarak Uygulanan Analiz Aylık veri seti için uygulanan analizlerde de günlük ve haftalık veri setlerinde olduğu gibi model 1 de tüm bağımsız değişkenler analize dâhil edilmiştir. Model 2 de, model 1 de LR analizinde p<0,25 olan 10 bağımsız değişken analize dâhil edilmiştir. Model 3, model 2 de LR analizinde p<0,05 olan 2 bağımsız değişken ile kurulmuştur. Model 4 ise model 3 de LR analizinde p<0,05 olan yalnızca 1 bağımsız değişkenden oluşur. Tablo 3'te aylık modeller için LR ve DVM yöntemlerinin eğitim ve test veri setlerindeki doğruluk oranları verilmiştir. Model 1 de LR 208