Karar Ağaçları Destekli Vadeli Mevduat Analizi. Bank Deposit Analysis Based on Decision Tree

Benzer belgeler
Karar Ağaçları Destekli Vadeli Mevduat Analizi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Web Madenciliği (Web Mining)

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

Türkçe Dokümanlar Ġçin Yazar Tanıma

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

K En Yakın Komşu Methodu (KNearest Neighborhood)

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

Veri madenciliği yöntemleri

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Makine Öğrenmesi 3. hafta

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

tree) nedir? Karar Ağacı (Decision Decisiontree

Web Madenciliği (Web Mining)

Gözetimli & Gözetimsiz Öğrenme

Mesleki Terminoloji II Veri Madenciliği

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

VERİ MADENCİLİĞİNE BAKIŞ

Veri Madenciliği - Giriş. Erdem Alparslan

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Uzaktan Algılama Uygulamaları

VERİ MADENCİLİĞİNDE KARAR AĞACI ALGORİTMALARI İLE BİLGİSAYAR VE İNTERNET GÜVENLİĞİ ÜZERİNE BİR UYGULAMA

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği

Yard. Doç. Dr. İrfan DELİ. Matematik

VERİ MADENCİLİĞİ YÖNTEMLERİ KULLANILARAK ÇOK-BANTLI UYDU GÖRÜNTÜ VERİLERİNİN SINIFLANDIRILMASI İÇİN ALGORİTMA SEÇİMİ

Karar Ağacı Öğrenmesi(Decision Tree Learning)

Hafta 05 - Karar Ağaçları/Kümeleme

Görev Unvanı Alan Üniversite Yıl Prof. Dr. Elek.-Eln Müh. Çukurova Üniversitesi Eylül 2014

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Kelebek Görüntülerin Sınıflandırılmasında Yeni Yerel İkili Örüntüler

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Araştırma Görevlisi İSMAİL ÇÖLKESEN

YAPAY ÖĞRENME İLE TÜRKİYE NİN KURULU GÜCÜNÜN 2023 YILINA KADAR TAHMİNİ

Veri Madenciliği Karar Ağacı Oluşturma

BCA605 Bilgisayar Oyunlarında Yapay Zeka

Harran Üniversitesi Mühendislik Dergisi. Mikro-dizilim Veri Sınıflandırmasında Öznitelik Seçme Algoritmalarının Karşılaştırılması

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Nazlı Deniz ERGÜÇ 1, Hamza EROL 2, Bekir Yiğit YILDIZ 3, Vedat PEŞTEMALCI 4

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Karar Ağacı Öğrenmesi(Decision Tree Learning)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

KARAR AĞAÇI KULLANARAK SALDIRI TESPĐT SĐSTEMLERĐNĐN PERFORMANS DEĞERLENDĐRMESĐ

T.C. ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ İLERİ VERİTABANI SİSTEMLERİ DERSİ RAPORUN SUNULDUĞU TARİH

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Çok Katmanlı Algılayıcı, K-NN ve C4.5 Metotlarıyla İstenmeyen E-postaların Tespiti

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Otomatik Doküman Sınıflandırma

MÜFREDAT DERS LİSTESİ

YAPAY ZEKA (Artificial Intelligence)

SOCIAL MENTALITY AND RESEARCHER THINKERS JOURNAL

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ. Hanife GÖKER

Yönetim Bilişim Sistemleri (Karma) - 1. yarıyıl Hukukun Temelleri Fundamentals of Law TR

GAZİOSMANPAŞA ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/MATEMATİK BÖLÜMÜ/MATEMATİK PR.

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

ÖZGEÇMİŞ. 2. Doğum Yeri ve Tarihi : Washington DC - 22 Temmuz Derece Alan Üniversite Yılı Bilgisayar-Kontrol Marmara Üniversitesi

Şifrebilimde Yapay Sinir Ağları

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

MULTISPEKTRAL UYDU GÖRÜNTÜLERİ İÇİN EN UYGUN BANT SEÇİMİNİN SINIFLANDIRMA DOĞRULUĞUNA ETKİLERİNİN İNCELENMESİ

Üniversitelerde Yapılan Öğrenci Memnuniyet Anketinin Grey Evaluation Metodu ile Ölçülmesi

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

ÖZGEÇMİŞ. Dr. Aytuğ ONAN

LOCAL BINARY PATTERN YÖNTEMİ İLE YÜZ İFADELERİNİN TANINMASI

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Topluluk Algoritması Destekli Yarı-eğiticili Öğrenme Semi-supervised Learning Based on Ensemble Algorithm

SİSMİK DARBELERİN SINIFLANDIRILARAK DEPREM TEHLİKESİNİN TAHMİN EDİLMESİ

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

Transkript:

Karar Ağaçları Destekli Vadeli Mevduat Analizi Hakan Dalkılıç1, Feriştah Dalkılıç1 1 Dokuz Eylül Üniversitesi, Bilgisayar Mühendisliği Bölümü, İzmir hakand@hotmail.com, feristah@cs.deu.edu.tr Özet: C4.5 karar ağaçları günümüze kadar birçok alanda kullanılmıştır. Bankacılık sektöründe de karar ağaçlarının değişik problemlerin çözümünde kullanıldığını görmek mümkündür. Bu çalışmada özel bir bankanın verileri analiz edilerek, banka müşterileri vadeli mevduata abone olup olmama durumuna göre sınıflandırılmıştır. Sınıflandırma algoritmalarından Accord.Net C4.5 Karar Ağacı, Weka J48, Naive Bayes ve Kstar algoritmaları farklı büyüklükteki veri setleri üzerinde çalıştırılmış ve elde edilen sonuçlar karşılaştırılmıştır. Anahtar Sözcükler: Weka, Accord.Net, C4.5 Karar Ağaçları, Naive Bayes, Kstar Bank Deposit Analysis Based on Decision Tree Abstract: C4.5 decision tree algorithm has been used in many areas until today. The decision trees have been also used in the solution of various problems of the banking sector. In this study, data from a particular bank is analyzed and the bank s customers are classified according to whether they subscribe to term deposits. Accord.net C 4.5 Decision Tree, Weka J48, Naive Bayes and Kstar algorithms were run on the data sets of different sizes, and obtained results were compared. Keywords: Weka, Accord.Net, C4.5 Decision Tree, Naive Bayes, Kstar 1. Giriş Günümüzün rekabetçi piyasa koşullarında, şirketler kazançlarını ve kar oranlarını artırabilmek için değişik kampanyalar ve reklamlar ile müşteri kitlesini artırmaya çalışmaktadır. Market zincirlerinden, gayrimenkul şirketlerine, on-line satış sistemlerinden, hava yolu şirketlerine birçok farklı alanda veri madenciliği yöntemleri kullanılarak, müşteri verilerinden anlamlı bilgiler çıkartılmakta ve bu bilgiler ışığında hedef kitle belirlenerek kampanya, reklam gibi uygulamalara gidilmektedir. Bankacılık sektörü de veri madenciliğinin en yaygın kullanıldığı alanlardan birisidir. Veri madenciliği, sınıflandırma (classification) ve regresyon (regression) gibi tahmin edici (predictive) modellerden ve kümeleme (clustering), birliktelik kuralları (association rules), ardışık zamanlı örüntüler (sequential patterns) gibi tanımlayıcı (descriptive) modellerden oluşur. Bu çalışmada, veri madenciliği modellerinden biri olan sınıflama modelinin Karar Ağacı, Naive Bayes, Kstar teknikleri kullanılmıştır. Karar Ağacı algoritmalarından ise C4.5 algoritması tercih edilmiştir. Sınıflandırma ile sınıfı tanımlanmış mevcut verilerden yararlanarak, sınıfı belli olmayan bir verinin sınıfı tahmin edilmektedir. Bu çalışmada, bir bankanın verilerinden farklı büyüklükte veri setleri oluşturulmuş ve bu veri setleri üzerinde sınıflandırma teknikleri uygulanarak, banka müşterileri, vadeli mevduata abone olup olmama durumuna göre sınıflandırılmıştır. Veri büyüklüğünün algoritmaların başarıları üzerindeki etkisi incelenmiş ve algoritmaların başarıları kıyaslanmıştır. 2. Önceki Çalışmalar C4.5 karar ağacı algoritması, Quinlan tarafından ID3 algoritması genişletilerek ve geliştirilerek tasarlanmıştır bir sınıflandırma algoritmasıdır [9]. C4.5 algoritmasının ID3 algoritmasından üstün özellikleri, hem sayısal öznitelikler hem de kategorik öznitelikler ile çalışabilmesi, öğrenme verisindeki eksik verileri tolere edebilmesi ve öğrenme sonucunda ağacı budayarak sadeleştirmesidir. C4.5 algoritmasının basitliği, verimliliği ve güvenilirliği, C4.5 algoritmasını makine öğrenmesi ve sınıflandırmada en önemli algoritmalardan biri haline getirmiştir. Yapılandırılmış ağaç üzerinde, yeniden yapılandırmanın ve iyileştirmenin zor olması C4.5 Algoritmasının bir dezavantajıdır. C4.5 karar ağaçları günümüze kadar, metinlerin kategorilenmesinden [12], tıbbi tanı üretilmesine [11], spam tespitinden [13], uydu görüntülerinin sınıflandırılmasına [10] birçok alanda kullanılmıştır. Bankacılık sektöründe de karar ağaçlarının değişik problemlerin çözümünde kullanıldığını görmek mümkündür. Bunlara örnek 798

olarak aşağıdaki çalışmalar verilebilir. Wang ve Yang, kara para aklama risk kurallarının belirlenmesi için Çin de bir ticari banka müşterilerinin profilleri üzerinde karar ağaçlarını kullanmışlardır. 160 bin kayıt arasından rastgele seçilen yirmi sekiz müşteriye ait dört özellik karar ağacının oluşturulmasında ve doğrulanmasında kullanılmıştır. Üretilen kurallara bağlı olarak tüm müşterilerin %12 sinin yüksek risk grubunda olduğu saptanmış ve bu müşterilerin daha detaylı takibe tabi tutulması öngörülmüştür [1]. Ağaç yapısı, eğitim veri seti ile oluşturulduktan sonra, yeni gelen bir verinin sınıflandırılmasında kullanılır. Yeni veri, kök düğümden başlanarak, bir uç düğüme ulaşana kadar uygun dallanmaları yapar. Her bir uç düğüme kökten ulaşılabilecek tek bir yol bulunur. Ulaşılan uç düğüm, yeni verinin öngörülen sınıfına karşılık gelir. Jiang vd., C4.5 karar ağacı ve benzetilmiş tavlama (simulated annealing) algoritmalarını kullanarak yeni bir kredi değerlendirme yöntemi önermiştir [2]. Albayrak ve Yılmaz, İMKB 100 endeksinde sanayi ve hizmet sektörlerinde faaliyet gösteren 173 işletmenin 2004 2006 yıllarına ait yıllık finansal göstergeleri üzerinde karar ağaçlarını uygulamış ve firmaları ayıran en önemli değişkenleri saptanmışlardır. [14] Bozsik ve Körmendi, aynı anda büyük verileri başarıyla sınıflandırabilecek bir kredi karar sistemi geliştirmeyi amaçlamış ve yeni bir karar ağacı versiyonu geliştirmişlerdir. 17 özellik kullanılarak yapılan testlerde elde edilen en iyi sınıflandırma doğruluk oranı %96 iken ortalama doğruluk oranı %88,8 olmuştur [3]. Duman vd., özel bir Türk bankası için karar ağaçlarını da kullanarak bir dolandırıcılık tespit sistemi geliştirmiştir. Çalışma ile mevcut dolandırıcılık tespit kurallarında %80 oranında elemeye, verilen uyarılarda %50 azaltmaya gidilmesine karşın, dolandırıcılık girişimlerinin tespitinde %97 gibi bir başarıya ulaşılmıştır [4]. Tablo 1. Hava durumu verisi Şekil 1 de, Tablo 1 de verilmiş olan hava durumu verisi kullanılarak oluşturulmuş olan bir karar ağacı görülmektedir. Lang ve Sun, banka kredi riski erken uyarı problemi üzerine karar ağacı algoritmasını uygulamıştır. Deneysel sonuçlar, karar ağacı algoritmasının değişken veriler üzerinde yüksek hassasiyet gösterdiğini ortaya çıkarmıştır [5]. Her geçen gün bu örneklere yeni çalışmalar eklenmekte, karar ağaçları en çok kullanılan sınıflandırma tekniklerinden biri olmaya devam etmektedir. 3. C4.5 Karar Destek Ağacı Karar ağaçlarında her bir öznitelik, bir düğüm tarafından temsil edilir. Düğümler, kök düğümü (hava durumu), iç düğümler (nem, rüzgar) ve uç düğümlerden (evet, hayır) meydana gelir. Şekil 1. Örnek karar ağacı Sınıflandırılması gereken yeni bir verinin öznitelik değerlerinin Yağmurlu, Sıcak, nem oranının Normal ve rüzgâr şiddetinin Zayıf olduğunu kabul edelim. Bu veri için kontrol kök düğümden başlayacak ve Yağmurlu dalında ilerlenecektir. Bir sonraki düğümde Rüzgâr şiddeti karşılaştırılacak ve Zayıf olan dalda ilerlemeye devam edilecektir. Sonunda ulaşılan uç düğüm 799

Evet değerine sahip olduğu için bu verinin öngörülen sınıfı Evet olacaktır. 3.1. Karar Ağacının Oluşturulması Karar ağacı oluşturulurken aşağıdaki adımlar izlenir. 1. Adım: Veri setinden T öğrenme kümesi oluşturulur. 2. Adım: Veri setindeki en ayırt edici nitelik belirlenir ve ağacın kökü olarak alınır. Karar ağaçları oluşturulurken, ağaçtaki dallanmaların hangi niteliğe ve hangi niceliğe göre olacağının belirlenmesi gerekmektedir. ID3, C4.5 gibi karar ağacı algoritmalarında en ayırt edici niteliği belirlemek için, her bir nitelik için Bilgi Kazancı (Information Gain) hesaplanır [9]. Bilgi Kazancının hesaplanmasında Entropi kullanılır. Entropi, bir sistemdeki belirsizliğin veya düzensizliğin ölçüsüdür. Bir veri setinin {C1,C2,.,Ck} şeklinde birden fazla sınıftan oluştuğunu ve T nin sınıf değerlerini gösterdiğini düşündüğümüzde, bir sınıfa ait olasılık P i =(C i / T ) olur ve sınıflara ait entropi Formül 1 ile hesaplanır. Veri setindeki A özniteliğine göre T sınıfının değerleri T 1,T 2,,T n şeklinde alt kümelere ayrıldığını varsayalım. A öznitelik değerleri kullanılarak T sınıf değerlerinin bölünmesi sonucunda elde edeceğimiz kazancı hesaplamak için Formül 2 kullanılır. Son olarak, kazanç oranı Formül 4 ile elde edilir. Kazanç oranı, sınıflandırma işleminde kullanacağımız ayırma ile elde edilen bilgi oranını verir. Kazanç oranı en yüksek olan öznitelik, dallanma için tercih edilecek nitelik olacaktır. 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir. Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik belirlenir. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder: Örneklerin hepsinin aynı sınıfa ait olması Örnekleri bölecek özellik kalmamış olması Kalan özelliklerin değerini taşıyan örnek bulunmaması Karar ağacının oluşturulmasından sonra, Budama işlemi ile karar ağacının sınıflandırma doğruluğunu etkilemeyen veya katkısı olmayan bölümleri çıkartılır. Böylece gürültülü veriler elenmiş, daha başarılı ve karmaşıklığı daha az olan bir ağaç elde edilmiş olur. 3.2. Başarı Değerlendirme Ölçekleri Yeni bir veri, sınıflandırma algoritmasından geçirildiğinde elde edilen sonuç, öngörülen sınıfın ve doğru sınıfın değerine göre Tablo 2 de verilen dört kümeden birinde yer almaktadır. T kümesi için A özniteliğinin değerini belirlemek için Formül 3 ile hesaplanan bölümleme bilgisi kullanılır. Tablo 2. Sınıflandırma sonuç kümeleri, TP (True Positive), FN (False Negative), FP (False Positive), TN (True Negative) Sınıflandırma algoritmalarının başarısı, model başarı değerlendirme ölçekleri ile ifade edilir. Aşağıda bu ölçütler kısaca açıklanmıştır. 800

Doğruluk (Accuracy), doğru sınıflandırılmış örnek sayısının, tüm örneklerin sayısına oranıdır. Hata Oranı (Error Rate), yanlış sınıflandırılmış örnek sayısının, tüm örneklerin sayısına oranıdır. Kesinlik (Precision), doğru sınıflandırılmış pozitif örnek sayısının, pozitif sınıflandırılmış örneklerin sayısına oranıdır. Anma (Recall), doğru sınıflandırılmış pozitif örnek sayısının, pozitif örneklerin sayısına oranıdır. F-Ölçütü (F-Measure), Anma ve Kesinlik değerlerinin harmonik ortalamasıdır. 4. Vadeli Mevduat Analizi 4.1 Veri Seti Bu çalışmada kullanılan veriler, özel bir bankanın telefonla doğrudan pazarlama kampanyalarından elde edilen kayıtlarından oluşmaktadır [1]. Veri setinde 45.211 kayıt ve 17 özellik bulunmaktadır. Müşterilerin vadeli mevduata abone olma bilgisi hedef özellik olarak kullanılmaktadır. Bu özellik 39.922 kayıtta hayır (no), 5.289 kayıtta evet (yes) değerine sahiptir. Analiz için kullanılan müşteri veri setinin içerdiği özellikler Tablo 3 de verilmiştir. Tablo 3. Vadeli Mevduat Veri Seti Özellikleri 4.2 Sınıflandırmada Kullanılan Araçlar Bu çalışmada, verilerin sınıflandırılması amacıyla Weka [7] ve Accord.Net Framework [8] veri madenciliği araçları tercih edilmiştir. Her iki araç daha önce pek çok bilimsel ve akademik çalışmada kullanılmıştır. Weka: Weka (Waikato Environment for Knowledge Analysis), Waikato üniversitesinde, Java programlama diliyle geliştirilmiş ve ticari amaç gütmeden (GNU General Public License) kullanıma sunulmuş bir uygulamadır. Weka, içerisinde birçok sınıflandırma metodu barındıran bir veri madenciliği aracıdır. Bu çalışmada, Weka 3.7.11 geliştirici sürümü kullanılmıştır. Accord.NET Framework: Accord.Net, Visual Studio.NET ortamında, bilimsel hesaplama için araç 801

ve kütüphaneler sağlayan bir uygulama iskeletidir. Bu kütüphaneler şekil tanıma, istatistiki veri işleme, makine öğrenmesi gibi bilimsel hesaplama uygulamalarının geniş bir alanını kapsar. Bu çalışmada, Accord.NET Framework 2.13 sürümü kullanılmıştır. Bu framework kullanılarak, test işlemlerinin gerçekleştirileceği görsel bir ara yüz uygulaması hazırlanmıştır. 5. Deneysel Çalışmalar Çalışmada amaç, müşterilerin, veri tabanında bulunan yaş, iş, medeni durum, eğitim durumu ve buna benzer 16 özelliğini kullanarak, vadeli mevduata para yatırıp yatırmama durumlarını tespit etmektir. Deneysel çalışmaları gerçekleştirmek amacıyla veri seti içerisinden 1.000, 5.000, 10.000, 20.000 ve 40.000 kayıttan oluşan veri grupları oluşturulmuştur. Verinin sınıflara dağılımının, her veri seti için orantılı olmasına özen gösterilmiştir. Veri boyutunun büyümesinin karar ağaçlarının başarısı üzerindeki etkisi incelenmiştir. Müşterilerin sınıflandırılması için, Weka ortamında bulunan ve C4.5 karar ağacı algoritmasının gerçekleştirimi olan J48 algoritması ve Accord. net framework tarafından sağlanan C4.5 algoritması kullanılmıştır. Karar ağaçlarının başarısını karşılaştırmak için, yine Weka ortamında bulunan Naive Bayes ve Kstar algoritmaları aynı veri setleri üzerinde denenmiştir. Test yöntemi olarak Weka algoritmaları için 10-kat çapraz doğrulama (10-fold cross validation), Accord.net C4.5 algoritması için karışıklık matrisi (confusion matrix) kullanılmıştır. Elde edilen sonuçlar Tablo 4, 5, 6 ve 7 de gösterilmiştir. Sonuçlar göstermektedir ki, karar ağacı algoritmaları genel olarak Naive Bayes ve Kstar algoritmalarına göre doğruluk ve kesinlik oranları bakımından daha üstündür. Accord.Net C4.5 ve Weka J48 algoritmalarının başarı oranları birbirine yakın olsa da 1.000 ve 5.000 lik veri seti üzerinde Accord.Net C4.5 algoritması, 20.000 ve 40.000 lik veri seti üzerinde ise Weka J48 algoritması daha başarılıdır. 6. Sonuç ve Öneriler Karar ağacı algoritmalarının başarısı, kullanılan veri seti, bu veri setinin büyüklüğü ve algoritmanın gerçekleştirimine göre farklılıklar göstermektedir. Bu çalışmada, karar ağaçları Naive Bayes ve Kstar algoritmalarına göre daha başarılı sonuçlar üretmişlerdir. Sınıflandırma algoritmaları, bu çalışmada değinilen örnek problemde olduğu gibi, kampanyaların hedeflediği potansiyel müşterilerin tespit edilmesinde ve doğru kitleye hitap edilmesinde önemli bir yol göstericidir. Farklı algoritmalar bir arada kullanılarak yüksek başarı oranlarına ulaşmak mümkündür. Tablo 4. Accord.Net sonuçları C 4.5 Karar Ağacı Tablo 5. Weka Sonuçları J48 802

Tablo 6. Weka Sonuçları Naive Bayes Tablo 7. Weka Sonuçları Kstar 7. Kaynaklar [1] Wang, S.N., Yang, J.G., A Money Laundering Risk Evaluation Method Based On Decision Tree, 6th International Conference on Machine Learning and Cybernetics, Hong Kong, 283-286 (2007) [2] Jiang, Y., Chen, Y., Zeng, Z. ve He, X., A Bank Customer Credit Evaluation Based on the Decision Tree and the Simulated Annealing Algorithm, 8th IEEE International Conference on Computer and Information Technology, Sydney, NSW, 203-206 (2008) [3] Bozsik, J., Körmendi, G., Decision Treebased Credit Decision Support System, 3rd IEEE International Symposium on Logistics and Industrial Informatics, Budapest, Hungary, 189-194 (2011) [4] Duman, E., Buyukkaya, A., Elikucuk, İ., A Novel and Successful Credit Card Fraud Detection System Implemented in a Turkish Bank, 13th International Conference on Data Mining Workshops, Dallas, TX, 162-171 (2013) [5] Lang, J., Sun, J., Sensitivity of decision tree algorithm to class-imbalanced bank credit risk early warning, 7th International Joint Conference on Computational Sciences and Optimization, Beijing, 539-543 (2014) [6] Moro, S., Cortez P., Rita. P., A Data-Driven Approach to Predict the Success of Bank Telemarketing, Decision Support Systems, Elsevier, 62:22-31 (2014) [7] Witten, I.H., Frank E., Trigg L., Hall M., Holmes G., Cunningham S.J., Weka: Practical Machine Learning Tools and Techniques with Java, Computer Science Working Papers, 99/11 (1999) [8] Souza, C.R., A Tutorial on Principal Component Analysis with the Accord.NET Framework, Department of Computing, Federal University of Sao Carlos. arxiv:1210.7463. Technical Report (2012) [9] Quinlan J.R., C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, CA, (1993) [10] Kavzoğlu, T., Çölkesen, İ., Karar ağaçları ile uydu görüntülerinin sınıflandırılması: Kocaeli örneği, Harita Teknolojileri Elektronik Dergisi, 2(1),36-45, (2010). [11] Zhou, Z.H., Jiang Y., Medical Diagnosis with C4.5 Rule Preceded by Artificial Neural Network Ensemble, IEEE Transactions on Information Technology in Biomedicine, Vol. 7, No. 1, 37-42 (2003) [12] Gabrilovich, E., Markovitch, S., Text Categorization with Many Redundant Features: Using Aggressive Feature Selection to Make SVMs Competitive with C4.5, The Twenty-First International Conference on Machine Learning, 321-328, (2004) [13] Krasser, S., Yuchun, T., Gould, J., Alperovitch, D., Judge, P., Identifying Image Spam Based on Header and File Properties using C4.5 Decision Trees and Support Vector Machine 803

Learning, Information Assurance and Security Workshop, IAW 07.IEEE SMC, pp. 255-261, New York, (2007) [14] Albayrak, A.S., Yılmaz, Ş.K., Veri Madenciliği: Karar Ağacı Algoritmaları Ve İMKB Verileri Üzerine Bir Uygulama, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 14 (1) s.31-52 (2009) 804