Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması



Benzer belgeler
Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Bir Veri Seti Üzerinden Karşılaştırılması

Veri Madenciliği Araçları (Data Mining Tools)

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Veri Ambarından Veri Madenciliğine

Veri Akışı Diyagramları Tabanlı Veri Madenciliği Araçları ve Yazılım Geliştirme Ortamları

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI UYGULAMALARI

Veritabanı Uygulamaları Tasarımı

Açık Kaynak Kodlu Veri Madenciliği Programları: WEKA da Örnek Uygulama

Swing ve JDBC ile Database Erişimi

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Bölüm 1: Veritabanı Yönetim Sistemlerine Giriş

R ile Programlamaya Giriş ve Uygulamalar

Veritabanı Yönetim Sistemleri, 2. basım Zehra ALAKOÇ BURMA, 2009, Seçkin Yayıncılık

AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ PROGRAMLARI: WEKA DA ÖRNEK UYGULAMA

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

İngilizce'de Relational Database Management System (RDBMS) olarak ifade edilir.

Duvar İnşa Edilmesinde Verimliliği Etkileyen Faktörlerin Apriori Veri Madenciliği Yöntemi Kullanılarak Analizi

Bilgisayar Teknolojileri Bölümü Bilgisayar Programcılığı Programı. Öğr. Gör. Cansu AYVAZ GÜVEN

2 Temel Kavramlar (Devam) Veritabanı 1

VERİ MADENCİLİĞİNE BAKIŞ

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

1 Temel Kavramlar. Veritabanı 1

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

BIM 312 Database Management Systems. Veritabanı Kavramına Giriş

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Veritabanı. Ders 2 VERİTABANI

Veri Ambarları ve Veri Madenciliği (ISE 350) Ders Detayları

VERİ TABANI YÖNETİMİ. Yrd.Doç.Dr. Füsun BALIK ŞANLI YTÜ

1.PROGRAMLAMAYA GİRİŞ

bilişim ltd İş Zekâsı Sistemi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

VERİTABANI VERİTABANIN AVANTAJLARI ÖZET

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

Yazılım Nedir? 2. Yazılımın Tarihçesi 3. Yazılım Grupları 4 Sistem Yazılımları 4 Kullanıcı Yazılımları 5. Yazılımın Önemi 6

Veri Tabanı-I 1.Hafta

Turquaz. Açık kodlu muhasebe yazılımı Turquaz Proje Grubu

=A1+A2-A3, =A1*A2/A3,

Açık Kaynak Kodlu Yazılım

ELIF KIOTZEOGLOU RESUL MURAD MERT PACOLARI

İnternet Programcılığı

MATLAB A GİRİŞ. EE-346 Hafta-1 Dr. Ayşe DEMİRHAN

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Microsoft SQL Server 2008 Oracle Mysql (Ücretsiz) (Uygulamalarımızda bunu kullanacağız) Access

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

İNTERNET PROGRAMLAMA 2 A S P. N E T. Marmara Teknik Bilimler MYO / Hafta 5 Veri Tabanı İşlemleri

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

VERİTABANI ORGANİZASYONU

1-Veritabanı Yönetim Sistemleri /Tanım

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Asp.Net Veritabanı İşlemleri

ArcGIS Platformu Yazılım Geliştirme Çözümleri

Veri Tabanı-I 1.Hafta

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

ÖZGÜR YAZILIMLAR İLE J2EE

Akademik Dünyada Özgür Yazılım. Akademik Dünyada. Onur Tolga Şehitoğlu

Kepware Veritabanı Ürünleri. Teknolojiye Genel Bir Bakış

SEKTÖREL ÇÖZÜM GELİŞTİRME YÖNTEMLERİ

Özgür Yazılım Eğitim Yönetim Sistemleri

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

BÖLÜM 8 BİLGİSAYAR UYGULAMALARI - 2

LOGO NETSİS 3 ENTEGRE FİYAT LİSTESİ 5 Nisan 2016 tarihinden itibaren geçerlidir.

Bilgisayar Mühendisliği. Bilgisayar Mühendisliğine Giriş 1

SQL veri tabalarına erişmek ve onları kullanmak için geliştirilmiş bir lisandır.

Bilecik Üniversitesi Mühendislik Fakültesi Moodle Uzaktan Öğretim Sistemi

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

CBS Arc/Info Kavramları

Yrd.Doç. Dr. Tülin ÇETİN

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Veri Tabanı Yönetim Sistemleri Bölüm - 3

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

1C:İŞLETME Platformu ÜRETİM - TİCARET - MUHASEBE

Web adresi : MEKANSAL VERİLER İLE ÜRETİLECEK TÜM ÇÖZÜMLER İÇİN... BİLİŞİM TEKNOLOJİLERİ LTD. ŞTİ.

Yönetim Bilişim Sistemleri Alanında Metin Madenciliği ile Bilgi Haritalama

Zope Uygulama Sunucusu

Kurumsal bilgiye hızlı ve kolay erişim Bütünleşik Belge Yönetimi ve İş Akış Sistemi içinde belgeler, Türkçe ve İngilizce metin arama desteği ile içeri

VERİTABANI Temel Kavramlar

Özgeçmiş (CV) Web, Yazılım, Donanım : Samsun Barış Bilgisayar - ( )

İş Analitiği'ne Netezza ile Yüksek Performans Katın

JAVA RMI ve Hibernate teknolojileri kullanılarak çok amaçlı bir yazılım altyapısı hazırlanması

SAĞLIK BİLGİ SİSTEMLERİNİN TARİHSEL GELİŞİMİ

BLG 1306 Temel Bilgisayar Programlama

Arş. Gör. Mümine KAYA

VERİ TABANI PROGRAMCILIĞI DALI

CBS Arc/Info Kavramları

K En Yakın Komşu Methodu (KNearest Neighborhood)

Kurumsal Yönetim Sistemleri Sistemleri

Web Madenciliği (Web Mining)

Python GELECEK. Barış Metin Linux Sistemleri. Python Programlama Dili

T.C. MALTEPE ÜNĠVERSĠTESĠ MÜHENDĠSLĠK FAKÜLTESĠ ENDÜSTRĠ MÜHENDĠSLĠĞĠ BÖLÜMÜ LĠSANS PROGRAMI Güz Yarıyılı

BÜYÜK ÖLÇEKLİ VERİ TABANLARINDA BİLGİ KEŞFİ

Transkript:

Akademik Bilişim 14 - XVI. Akademik Bilişim Konferansı Bildirileri Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Mümine Kaya 1, Selma Ayşe Özel 2 1 Adana Bilim ve Teknoloji Üniversitesi, Bilgisayar Mühendisliği Bölümü, Adana 2 Çukurova Üniversitesi, Bilgisayar Mühendisliği Bölümü, Adana mkaya@adanabtu.edu.tr, saozel@cu.edu.tr Özet: Veri Madenciliği, büyük miktarda veri içinden gizli bağıntı ve kuralların, bilgisayar yazılımları ve istatiksel yöntemler kullanılarak çıkarılması işlemidir. Veri madenciliği yöntemleri ve yazılımlarının amacı büyük miktarlardaki verileri etkin ve verimli bir şekilde işlemektir. Yapılan çalışmada; açık kaynak kodlu veri madenciliği yazılımlarından Keel, Knime, Orange, R, Rapid- Miner (Yale) ve Weka karşılaştırılmıştır. Böylece kullanılacak veri kümeleri için hangi yazılımın daha etkin bir şekilde çalışacağı belirlenebilmiştir. Anahtar Sözcükler: Veri Madenciliği, Açık Kaynak, Veri Madenciliği Yazılımları. Comparison of Open Source Data Mining Software Abstract: Data Mining is a process of discovering hidden correlations and rules within large amounts of data using computer software and statistical methods. The aim of data mining methods and software is to process large amounts of data efficiently and effectively. In this study, open source data mining tools namely Keel, Knime, Orange, R, RapidMiner (Yale), and Weka were compared. As a result of this study, it is possible to determine which data mining software is more efficient and effective for which kind of data sets. Keywords: Data Mining, Open Source, Data Mining Software. 1. Giriş Günümüzde bilişim teknolojisi, veri iletişim teknolojileri ve veri toplama araçları oldukça gelişmiş ve yaygınlaşmış; bu hızlı gelişim büyük boyutlu veri kaynaklarının oluşmasına neden olmuş ve beraberinde bazı problemlere yol açmıştır [1]. Bu problemlerin başında, veritabanları içinde yer alan ancak basit SQL sorguları ile bulunamayan anlamlı ve yararlı bilginin ortaya çıkarılması gelmektedir. Bu nedenle verileri işlemek için bazı çözümleme yöntemlerine ihtiyaç duyulmuştur. Veri Madenciliği bu ihtiyacı gidermek için ortaya çıkarılmış bir yöntemdir. Veri Madenciliği daha önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veri kaynaklarından elde edilmesi işlemidir [2]. Daha da özetlemek gerekirse, veri madenciliği büyük ölçekli veriler arasından yararlı ve anlaşılır olanların bulunup ortaya çıkarılması işlemidir [1]. Veri Madenciliği ile veriler arasındaki ilişkiler ortaya koyulabilmekte ve gelecekle ilgili tahminlerde bulunulabilmektedir. Veri Madenciliğinin geleneksel veritabanı sorgularından farkı şu şekilde özetlenebilir: i) Geleneksel veri tabanlarında sorgu, SQL gibi iyi tanımlanmış bir sorgulama dili ile yapılırken, veri madenciliğinde ise sorgu iyi tanımlı ya da tam tanımlı olmayabilir; ii) Geleneksel veri tabanlarında sorgunun sonucu, veri tabanında yer alan verilerin bir alt kümesi olup, veri madenciliğinde ise çoğunlukla veri tabanının bir alt kümesi olmaz, onun yerine veri tabanındaki içeriğin bir analizi olur. 47

Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Mümine Kaya, Selma Ayşe Özel Veri Madenciliğinin amacı ham veriyi anlamlı, etkin ve yararlı olan bilgiye dönüştürebilmektir [3]. Bu amaca ulaşabilmek için de Veri Madenciliği konusunda geliştirilmiş yazılımların kullanılması veri madenciliği süreçlerini kolaylaştırmaktadır. Bugüne kadar yapılan çalışmalarda; veri madenciliği yazılımlarının bir kısmının detaya girilmeden, ya tanımlamaları ya da uygulamaları yapılmıştır [4, 5 ve 6]. Bu çalışmada ise diğer çalışmalardan farklı olarak, altı adet veri madenciliği yazılımı daha detaylı karşılaştırılmıştır. Böylece ihtiyaca göre daha etkin bir şekilde kullanılacak olan yazılımlar belirlenmiştir. Çalışmanın ikinci bölümünde veri madenciliği süreci hakkında bilgi verilmiştir. Üçüncü bölümde çalışmada kullanılan açık kaynak kodlu yazılımlar tanıtılmış olup, dördüncü bölümde bu yazılımların farklı açılardan karşılaştırılmaları yapılmıştır. Son bölümde ise sonuç ve önerilere yer verilmiştir. 2. Veri Madenciliği Süreci Veri madenciliği bilgi keşfi işleminin en önemli adımlarındandır. Bilgi keşfi adımları: Veri Temizleme, Veri Bütünleştirme, Veri Seçme, Veri Dönüşümü, Veri Madenciliği, Örüntü Değerlendirme ve Bilgi Sunumu olmak üzere 7 basamaktan oluşmaktadır [7]. dönüşümü adımında verinin veri madenciliği tekniğinde kullanılabilecek hale dönüşümü gerçekleştirilmekte; veri madenciliği adımında veri örüntülerini yakalayabilmek için akıllı metotlar uygulanmakta; örüntü değerlendirme adımında bazı ölçütlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüler tanımlanmakta ve bilgi sunumu adımında ise elde edilmiş bilginin kullanıcıya sunumu gerçekleştirilmektedir [7, 8]. Şekil 1. Bilgi Keşfi Süreci 2.1 Veri Madenciliğinin Kullanım Alanları Veri Madenciliği; bankacılık, borsa, pazarlama yönetimi, perakende satış, işaret işleme, sigortacılık, telekomünikasyon, elektronik ticaret, sağlık, tıp, biyoloji, genetik, endüstri, eğitim, istihbarat, bilim ve mühendislik gibi birçok dalda uygulama alanı bulunmaktadır [1, 2]. Şekil 1 de de görüldüğü üzere bu süreç, ele alınan problemin tanımlanması ile başlamakta ve sırasıyla; problemle ilgili verilerin toplanması, verilerin hazırlanması, verilere ve probleme uygun modelin tasarlanması, tasarımı yapılan modelin uygunluğunun ve yeterliliğinin değerlendirilmesi ile devam etmekte ve son olarak modelin uygulanmasıyla sonuca ulaştırılmaktadır. Bu sonuca ulaşırken de veri temizleme adımında gürültülü ve tutarsız veriler veri kümesinden çıkarılmakta; veri bütünleştirme adımında birçok veri kaynağından gelen farklı formatlardaki veri birleştirilebilmekte; veri seçme adımında yapılacak olan analiz ile ilgili olan veriler belirlenmekte; veri 48 2.2 Veri Madenciliği Yazılımları Veri Madenciliği konusunda geliştirilmiş birçok yazılım bulunmaktadır. Bu yazılımlardan kimisi ticari iken, kimisi açık kaynak kodludur. Bu nedenle veri madenciliği yazılımları ticari ve açık kaynak kodlu olmak üzere iki gruba ayrılmaktadır. Ticari yazılımlara SPSS Modeler (Clementine), Excel, SPSS, SAS, Angoss, KXEN, MS SQL Server, MATLAB ve Oracle ın bu amaçla geliştirdiği modülleri örnek olarak verilebilmektedir. Açık kaynak yazılımlara ise Orange, RapidMiner, WEKA, R, Keel, Knime, Tanagra, Scriptella ETL, jhepwork ve Elki örnek olarak verilebilmektedir [4, 5].

3. Açık Kaynak Kodlu Veri Madenciliği Yazılımları Bu bölümde açık kaynak kodlu ve ücretsiz olarak kullanılabilen Keel, Knime, Orange, R, RapidMiner (Yale) ve Weka yazılımları hakkında özet bilgi verilmektedir. 3.1 Keel Keel [9], İspanya Ulusal Bilim Projeleri Kurumunun desteği ile Granada Üniversitesi tarafından geliştirilen Java dilinde yazılmış bir yazılımdır. Keel, kümeleme gibi klasik veri madenciliği algoritmaları açısından zengin değildir. Bunların yerine Fuzzy sınıflandırıcılar, Yapay zekâ tabanlı sınıflandırma ve Kural tabanlı kümeleme algoritmalarının birçok çeşidini içermektedir [6]. Veri görselleştirme açısından en zayıf yazılımlardan biri Keel dir. 3.2 Knime Konstanz Information Miner (KNIME) [10], Konstanz Üniversitesi görsel veri madenciliği araştırma grubu tarafından Eclipse Rich Client Platform üzerinde geliştirilen bir yazılımdır. Knime genişletilebilme özellikleri ile ön plana çıkmaktadır. Kullanıcılara bir yazılım geliştirme kiti sunarak kullanıcıların kendi modüllerini yazabilmelerini sağlayan tek uygulamadır [6]. Kurulum şartı olmadan çalışabilmektedir. Knime yazılımı.txt uzantılı metin dosyalarından veya.arff,.table formatından veri alabilmektedir. Knime, en zengin görselleştirme araçları sunan yazılımlarından biridir. 3.3 Orange Orange [11], Slovenya Ljubljana Üniversitesi Bilgisayar ve Enformatik Bilimleri bölümü yapay zekâ araştırmaları ekibi tarafından geliştirilmiş bir yazılımdır [6]. Orange yazılımı C++ dili ile geliştirilmiştir. Yazılımın ara yüzleri ve grafik ortamı ise Qt3 kütüphanesi ve Python kullanılarak geliştirilmiştir [6]. Görselleştirme açısından zayıf bir yazılımdır. Yalnızca metin dosyalarından veri alma işlemini gerçekleştirmektedir. Akademik Bilişim 14 - XVI. Akademik Bilişim Konferansı Bildirileri 49 3.4 R Auckland Üniversitesi İstatistik Bölümü bilim adamlarından olan Robert Gentleman ve Ross Ihaka tarafından grafikler, istatistiksel hesaplamalar ve veri analizleri için geliştirilmiş bir yazılımdır [4]. R [12], Unix makinelerde yaygın olarak kullanılmaktadır. R, bir veri madenciliği yazılımı olarak çok fazla tercih edilmemektedir. 3.5 RapidMiner (Yale) RapidMiner [13], Ralf Klinkenberg, Ingo Mierswa ve Simon Fischer tarafından Dortmund Teknoloji Üniversitesi Yapay Zeka Biriminde geliştirilmiş bir yazılımdır. Yale [14] ise Yale üniversitesi bilim adamları tarafından Java dili kullanılarak geliştirilmiş bir yazılımdır. Yale 2007 yılından itibaren RapidMiner [13] adı altında yazılım olarak kullanılmaya devam etmektedir. Diğer veri madenciliği yazılımlarından farklı olarak 22 adet dosya formatındaki veriyi işleyebilmektedir. Veri Madenciliği ve Makine Öğrenme Algoritmalarını da kapsayan RapidMiner, Weka gibi oldukça fazla algoritmaya sahiptir. Veri Analizi, Önişleme, Sınıflama, Kümeleme, Birliktelik Kuralları Çıkarımı, Nitelik Seçimi işlemlerini içermektedir. Oracle, MS SQL Server, PostgreSQL, MySQL, JDBC, Sybase, Access, IBM DB2, Ingres veritabanlarını ve metin dosyalarını desteklemektedir [6]. Bu açıdan en kapsamlı yazılımlardan biridir. Excel dosyalarıyla bağlantı kurulabilmektedir. GNU/ Linux, işletim sistemlerinde kolayca ve hatasız olarak çalışabilmektedir. Görselleştirme ve grafik arayüzü açısından da en zengin yazılımlardan biridir. İçerisinden script yazılabilir. 3.6 Weka Weka [15], Waikato Environment for Knowledge Analysis kelimelerinin kısaltılmasıdır. Waikato Üniversitesinde, Java platformu üzerinde geliştirilmiş ve GNU genel kamu lisansı altında bildirilmiş açık kodlu bir veri madenciliği yazılımıdır. Java Database Connectivity (JDBC) kullanarak SQL veri tabanlarına erişim sağlar [16]. Makine öğrenmesi algoritmalarını içermektedir. İçerdiği özelliklerle veri kümeleri üzerinde önişleme, sınıflandırma, kümeleme,

Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Mümine Kaya, Selma Ayşe Özel birliktelik kuralı madenciliği, özellik seçimi ve görselleştirme yapabilmektedir. Weka ya özel olarak tasarlanmış, metin yapısında tutulan.arff (Attribute Relationship File Format) dosya formatı üzerinde çalışmaktadır. 4. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Bu çalışmada Keel, Knime, Orange, R, RapidMiner ve Weka yazılımları farklı açılardan karşılaştırılmıştır. Böylece kullanılacak veri kümesiyle ulaşılmak istenen hedef arasında en etkin sonucu sağlamaya yardımcı olacak yazılımlar Tablo 1 e göre belirlenmeye çalışılmıştır [17, 18, 19 ve 20 ]. İçerdiği Veri Madenciliği Algoritmaları açısından en kapsamlı yazılımlar Tablo 1 de de görüldüğü üzere RapidMiner ve Weka dır. En az algoritmaya sahip olan yazılım ise R dır. Makine Öğrenmesi paketleri açısından ise en güçlü yazılım Weka dır. Metin Madenciliği işlemlerini Keel, Orange, RapidMiner ve Weka kendi başlarına yapabilirlerken; Knime bir modül sayesinde, R ise paket aracılığıyla yapabilmektedirler. Biyoinformatik işlemlerini ise; Keel, R ve Weka kendi başlarına yapabilirlerken; Knime ve RapidMiner modül aracılığyla, Orange ise paket aracılığıyla yapabilmektedirler. İstatiksel hesaplama işlemlerini karşılaştırılan yazılımların hepsi yapabilmektedir. En güçlü olan yazılım ise bir istatistik yazılımı olan R dır. Orange, RapidMiner ve Weka R a göre istatiksel hesaplamada daha zayıf yazılımlar arasındadır. Bunda R ın kendi istatiksel kütüphanesinin olmasının payı çok büyüktür. Veri Analizi, Sınıflama, Kümeleme, Nitelik Seçimi işlemlerinin hepsini bütün yazılımlar gerçekleştirebilmektedirler. Birliktelik Kuralları Çıkarımı işlemini de yazılımların hepsi yapabilmektedir, ancak sadece R paketler ile birlikte yapabilmektedir. Görselleştirme açısından en iyi yazılımlar Knime, R ve RapidMiner dır. Ancak çok iyi görselleştirme sunmasının en büyük dezavantajı karmaşıklıklarını arttırmasıdır. Komut Satırı Arayüzü ile bağlantıda en iyi Weka iken, en 50 zayıf R dır. Kullanım ve öğrenim kolaylığı açısından da kompleks bir yapıya sahip olmamasından dolayı en başarılı yazılım olarak Weka bulunmuştur. En fazla dosya formatı destekleyen ise RapidMiner dır. 22 adet dosya formatını desteklemektedir. Phyton diliyle yazılmasından dolayı yazılım içerisinde script yazmada en başarılı Orange olarak tespit edilmiştir. Veri alma/ verme işlemlerini kolayca gerçekleştirmede en başarılı olan ise R dır. Çeşitli veri tabanlarıyla çalışabilmede Knime, R ve RapidMiner en başarılı yazılımlar olarak tespit edilmiştir. Excel dosyalarıyla çalışabilmede en kötü bağlantıyı Weka yapmaktadır. Keel ise import işlemi ile gerçekleştirebilmektedir. Knime ve Orange ise hiçbir şekilde çalışamamaktadır. R ve RapidMiner bu alanda en başarılı olanlarıdır. Karşılaştırılan yazılımlar arasında kurulum şartı olmadan çalışabilen tek yazılım Keel dir. Diğer yazılımların öncelikle bilgisayara kurulması gerekmektedir. Kurulabilecekleri işletim sistemleri Tablo 1 de gösterilmektedir. Bellek açısından bu 6 yazılım incelendiğinde Keel, Orange ve R ın limitli imkan sundukları gözlemlenmiştir. Knime ın kullandığı bellek boyutu ayarlanabilirken, RapidMiner da arttırma işlemi yapılabilmektedir. Weka da da bellek boyutunun ayarlanabilme/arttırılabilme özelliği mevcuttur. Sınıflandırma Algoritmaları açısından hemen hemen tüm yazılımlar birçok sınıflandırma algoritmasını içerisinde barındırmaktadır. KNN algoritması her yazılımda bulunurken sadece R da RWeka paketinde bulunmaktadır. Aynı şekilde Lazy sınıflandırıcılar da Knime ve R dışındaki tüm yazılımların içerisinde mevcutken; Knime de Weka içerisinden, R da ise RWeka içerisinden çalıştırılabilmektedir. Kümeleme Algoritmaları açısından yazılımlar karşılaştırıldığında; en popüler kümeleme algoritması olan K-Means Algoritması karşılaştırdığımız bütün yazılımlarda bulunmaktadır. Hiyerarşik Kümeleme algoritmaları ise Knime, Orange, R ve Weka da bulunurken, Keel de bulunmamaktadır. RapidMiner da ise modül olarak bulunmaktadır.

Akademik Bilişim 14 - XVI. Akademik Bilişim Konferansı Bildirileri Keel Knime Orange R RapidMiner (YALE) WEKA Veri Madenciliği Algoritmaları Var Var Var Var (En Az) Var (En Fazla) Var (En Fazla) Makine Öğrenmesi Paketleri Var Var (Güçlü) Var (Zayıf) Var (Zayıf) Var Var (Çok Güçlü) Metin Madenciliği Var Var (Modül) Var Var (Paket) Var Var Biyoinformatik Var Var (Modül) Var (Paket) Var Var (Modül) Var İstatiksel Hesaplama Var Var Var (Zayıf) Var (Çok Güçlü) Var (Zayıf) Var (Zayıf) Veri Analizi Var Var Var Var Var Var Önişleme Var Var Var Var Var Var Sınıflama Var Var Var Var Var Var Kümeleme Var Var Var Var Var Var Birliktelik Kuralları Çıkarımı Var Var Var Var (Paket Olarak) Var Var Nitelik Seçimi Var Var Var Var Var Var Görselleştirme Var Var (Çok İyi) Var (6 çeşit) Var (Çok İyi) Var (Çok İyi) Var (5 çeşit) GUI İyi Çok İyi İyi Zayıf Çok İyi İyi Grafik Var Var Var Var Var Var Komut Satırı Arayüzü Bağlantısı Var Var Var Var (Çok Zayıf) Var Var (Çok İyi) GPL Lisans Evet (GPLv3) Evet (GPLv3) Evet Evet (GPLv3) Evet Evet Genişletilebilirlik Evet Evet Evet Evet Evet Evet Esneklik Evet Evet Evet Evet Evet Evet (Az) Kullanım Kolaylığı Evet Evet Evet Evet Evet Evet (En Kolay) Öğrenim Kolaylığı Evet Evet Evet Evet Evet Evet (En Kolay) Hatasız Çalışma Evet Evet Evet (En Az) Evet Evet (En Fazla) Evet (En Az) Dokümantasyon Var Var Var Var Var Var Script Yazma Var Var Var (En İyi) Var Var Var Eklenebilir Paketler Evet Evet Evet Evet Evet Evet Veri Alma/Verme Var Var Var Var (Çok Kolay) Var Var Desteklenen Dosya Formatları Veritabanlarıyla Çalışabilme Excel Dosyalarıyla Çalışabilme.dat,.arff,.csv,.xml,.txt,.prn,.xls,.dif,.html Var (SQL Veritabanları).arff,.csv Var (Oracle, MS SQL Server, PostgreSQL, MySQL, Access, ODBC, JDBC).tab,.basket,.names,.data,.txt,.xls (.arff ve.csv sadece okuyabiliyor) Var (MySQL) 51.r,.txt,.ods,.csv,.xml Var (Informix, Oracle, Sybase, DB2, MS SQL Server, MySQL, PostgreSQL, MS Access, ODBC) Evet (import ile) Hayır Hayır Evet Evet.sml,.srff,.stt,.bib,.clm,.cms,.cri,.csv,.dat,.ioc,.log,.matte,.mode,.obf, a bar, one pair,.res,.sim,.thr,.wgt,.wls,.xrff,.arff Var (Oracle, MS SQL Server, PostgreSQL, MySQL, JDBC, Sybase, Access, IBM DB2, Ingres, Metin Dosyaları) Bellek Kullanımı Limitli Ayarlanabilir Limitli Limitli Arttrılabilir Yazıldığı Dil Java Java Phyton, C++ C, R, C++, Fortran Java Java Kurulum Şartı Yok Var Var Var Var Var Gerekli Minimum İşletim Sistemi Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması.arff,.csv Var (JDBC, JDBC aracılığıyla SQL Veritabanları) Evet (Kötü Bağlantı) Arttrılabilir/ Ayarlanabilir

Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması Mümine Kaya, Selma Ayşe Özel Birliktelik Kuralları açısından karşılaştırma yapıldığında; en popüler birliktelik kuralı algoritması olan Apriori tüm yazılımlarda bulunurken, FP-Growth Algoritması Sadece Keel, RapidMiner ve Weka da bulunmaktadır. Nitelik Seçiminde Kazanç Bilgisi, Kazanç Oranı Ki-Kare, Gini İndeks ve Genetik Algoritma gibi birçok yöntem bulunmaktadır. Bunlardan en çok kullanılanları Kazanç Bilgisi, Kazanç Oranı ve Ki-Kare dir. Bu üçünü aynı anda bulunduran yazılımların başında Weka ve Rapid- Miner gelmektedir. Veri Ön İşleme için yapılması gereken işlemlerden; Keel, RapidMiner ve Weka yazılımları, eksik değer işlemi, kesikleştirme işlemi, gürültülü veri filtreleme işlemi, normalizasyon işlemi, nominal değerden ikili değere dönüştürme işlemi, çapraz doğrulama işleminin hepsini gerçekleştirebilmektedir 5. Sonuç ve Öneriler Artan veri miktarından dolayı bilgiye ulaşmak zorlaştıkça, bilgiye ulaşmak için birçok araç geliştirilmektedir. Bu araçların en başında veri madenciliği olarak nitelendirilen büyük miktardaki veriden kullanılabilir bilgiyi üretme kavramı gelmektedir. Veri Madenciliği uygulamaları yapmak için bilgisayar yazılımlarına ihtiyaç duyulmaktadır. Bu yazılımlar birçok veri sınıflandırma, kümeleme, kural çıkarma yöntemi gibi birçok algoritmayı içermektedir. Bu yazılımların kullandıkları algoritmalar sayesinde işlenen ham verilerden, istenilen ve amaçlanan bilginin çıkarımı yapılabilmektedir. Bu çalışmada açık kaynak kodlu ve popüler olan 6 adet veri madenciliği yazılımı incelenmiştir. Kullanıcı dostluğu, desteklediği dosya formatları, içerdikleri algoritmalar ve makine öğrenmesi paketleri gibi birçok açıdan incelendiğinde tarafımızca en kullanışlı bulunan yazılımlar Weka, RapidMiner (Yale) ve Keel olmuştur. Bu 3 yazılım arasından da öğrenim ve kullanım kolaylığı açısından en 52 başarılı yazılım tarafımızca Weka yazılımı olarak belirlenmiştir. 6. Kaynaklar [1] Özkan, Y., Veri Madenciliği Yöntemleri, Papatya Yayıncılık Eğitim, İstanbul, (2008). [2] Silahtaroğlu, G., Kavram ve Algoritmalarıyla Temel Veri Madenciliği, Papatya Yayıncılık Eğitim, İstanbul, (2008). [3] Akgöbek, Ö. ve Çakır, F., Veri Madenciliğinde Bir Uzman Sistem Tasarımı, Akademik Bilişim 09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 801-806 (2009). [4] Tekerek, A., Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları, Akademik Bilişim 11 - XIII. Akademik Bilişim Konferansı Bildirileri, 2-4 Şubat, İnönü Üniversitesi, Malatya, 161-169 (2011). [5] Dener, M., Dörterler, M., Orman, A., Açık Kaynak Kodlu Veri Madenciliği Programları: Weka da Örnek Uygulama, Akademik Bilişim 09 - XI. Akademik Bilişim Konferansı Bildirileri, 11-13 Şubat Harran Üniversitesi, Şanlıurfa, 787-796 (2009). [6] Bilgin, T.T., Veri Akışı Diyagramları Tabanlı Veri Madenciliği Araçları ve Yazılım Geliştirme Ortamları, Akademik Bilişim 09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 807-814 (2009). [7] Han, J., Kamber, M., Data Mining Concepts and Techniques, Morgan Kaufmann Publishers, (2001). [8] Delen, D., Walker, G., Kadam, A., Predicting breast cancer survivability: a comparison of three data mining methods, Artificial Intelligence in Medicine, vol 34, pp113-127 (2005). [9] KEEL, http://www.keel.es/, (Erişim Tarihi: 2013).

Akademik Bilişim 14 - XVI. Akademik Bilişim Konferansı Bildirileri [10] KNIME, http://www.knime.org/, (Erişim Tarihi: 2013). [11] ORANGE, http://orange.biolab.si/, (Erişim Tarihi: 2013). [12] R, http://www.r-project.org/, (Erişim Tarihi: 2013). [13] RAPIDMINER, http://rapidminer.com/, (Erişim Tarihi: 2013). [14] YALE, http://yale.sourceforge.net/, (Erişim Tarihi: 2013). [15] WEKA, http://www.cs.waikato.ac.nz/ml/ weka/, (Erişim Tarihi: 2013). [18] Zupan B., Demsar J., Open-source tools for data mining, Clinics in Laboratory Medicine, 28(1):37-54, (2008). [19] Konjevoda P., Štambuk N., Open-Source Tools for Data Mining in Social Science, Theoretical and Methodological Approaches to Social Sciences and Knowledge Management, Asunción López-Varela (Ed.), (2012). [20] Alcalá-Fdez J., Sánchez L., García S., del Jesus M. J., Ventura S., Garrell J. M., Otero J., Romero C., Bacardit J., Rivas V. M., Fernández J. C., Herrera F.. KEEL: A Software Tool to Assess Evolutionary Algorithms to Data Mining Problems, Soft Computing, 13(3):307-318 (2009). [16] Witten, I. H., Frank, E., Datamining Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Second Edition, San Fransisco, (2005). [17] Chen X., Ye Y., Williams G., Xu X., A Survey of Open Source Data Mining Systems, Proceeding PAKDD 07 Proceedings of the 2007 international conference on Emerging technologies in knowledge discovery and data mining, Pages 3-14 (2007). 53