WEKA ile Veri Önişleme Doç. Dr. Suat Özdemir Bahar 2017 Doç. Dr. Suat Özdemir 1
Weka 3: Data Mining Software in Java Açık kaynak Veri madenciliği yazılımı (Java) İndirmek için http://www.cs.waikato.ac.nz/ml/weka/ Veri setleri http://www.cs.waikato.ac.nz/ml/weka/datasets.html Bahar 2017 Doç. Dr. Suat Özdemir 2
bank-data.csv id age sex region income married children car save_acct a unique identification number age of customer in years (numeric) MALE / FEMALE inner_city/rural/suburban/town income of customer (numeric) is the customer married (YES/NO) number of children (numeric) does the customer own a car (YES/NO) does the customer have a saving account (YES/NO) current_acct does the customer have a current account (YES/NO) mortgage pep does the customer have a mortgage (YES/NO) did the customer buy a PEP (Personal Equity Plan) after the last mailing (YES/NO) Bahar 2017 Doç. Dr. Suat Özdemir 3
Yükleme ARFF formatına ek olarak WEKA ".csv" formatlı dosyaları da okuyabilir Çoğu uygulamanın bu tarz dökümanlar oluşturması nedeni ile oldukça kullanışlı «Preprocess» ikonuna tıklayın Bahar 2017 Doç. Dr. Suat Özdemir 4
Yükleme ARFF formatında olmadığı için aşağıdaki dialog karşımıza çıkacaktır ARFF e çevirmek için Use Converter a tıklayın Bahar 2017 Doç. Dr. Suat Özdemir 5
Yükleme Çeviri işlemini tamamlamak için OK ye tıklayın. Bahar 2017 Doç. Dr. Suat Özdemir 6
Yükleme Yükleme işlemi gerçekleşirken WEKA nitelik değerlerini analiz eder. Bahar 2017 Doç. Dr. Suat Özdemir 7
Nitelikler Her bir niteliğin özelliklerini görmek için üzerine tıklayabilirsiniz. Bahar 2017 Doç. Dr. Suat Özdemir 8
Nitelik Seçme (Filtreleme) ID niteliği her kayıt için eşsiz (unique). Veri madenciliği için yararı yok. WEKA Attribute filter. «Filter» panelde «Choose» butonuna tıklayın ve «Remove» u seçin. Bahar 2017 Doç. Dr. Suat Özdemir 9
Nitelik Seçme (Filtreleme) «Choose» un yanındaki boşluğa tıklayarak, niteliğin numarası girilir ve «Apply» a tıklanır Bahar 2017 Doç. Dr. Suat Özdemir 10
Nitelik Seçme (Filtreleme) Nitelik artık değerlendirmeye alınmamaktadır Veri içerisindeki ilişkiler değişmiştir Bahar 2017 Doç. Dr. Suat Özdemir 11
Kayıt etme Veri setini bu şekilde kayıt etmek için «Save» butonuna tıklanır Bahar 2017 Doç. Dr. Suat Özdemir 12
Yeni ARFF dosyası Bahar 2017 Doç. Dr. Suat Özdemir 13
Veri Değiştirme: Ayrıklaştırma Bazı veri madenciliği yöntemleri sürekli veri ile çalışmaz (ör: birliktelik kuralları bulma) Veriyi ayrık hale getirmek gerekir Veri setimizde «age», «income» ve «children» nitelikleri sürekli veri «children» niteliği sadece 0 1 2 3 değerlerini almakta bu nedenle ARFF dosyasında sadece nitelik tipini değiştirerek ayrık hale gelebilir. Numeric {0,1,2,3} Bahar 2017 Doç. Dr. Suat Özdemir 14
Veri Değiştirme: Ayrıklaştırma Yeni veri seti bank-data2.arff olarak kayıt edilir. Bahar 2017 Doç. Dr. Suat Özdemir 15
Veri Değiştirme: Ayrıklaştırma «age» ve «income» nitelikleri için WEKA nın ayrıklaştırma özelliği kullanılır Binning metodu ile 3 aralığa böleceğiz Bahar 2017 Doç. Dr. Suat Özdemir 16
Veri Değiştirme: Ayrıklaştırma bank-data2.arff dosyası açılır Bahar 2017 Doç. Dr. Suat Özdemir 17
Veri Değiştirme: Ayrıklaştırma «children» niteliği artık kategorik (ayrık) veri Bahar 2017 Doç. Dr. Suat Özdemir 18
Veri Değiştirme: Ayrıklaştırma Filter butonundan weka.filters.unsupervised.attribute.discretize filtresi seçilir Bahar 2017 Doç. Dr. Suat Özdemir 19
Veri Değiştirme: Ayrıklaştırma «Choose» un yanındaki boşluğa tıklayarak, niteliğin numarası girilir (age için 1) Bahar 2017 Doç. Dr. Suat Özdemir 20
Veri Değiştirme: Ayrıklaştırma Apply butonuna tıkladıktan sonra bank-data3.arff olarak kayıt edilir. Yeni dosya içinde nitelikler incelenebilir Bahar 2017 Doç. Dr. Suat Özdemir 21
bank-data3.arff Bahar 2017 Doç. Dr. Suat Özdemir 22
Veri Değiştirme: Ayrıklaştırma Aynı işlem income için yapılır ve aynı dosya adı ile kayıt edilir. Bahar 2017 Doç. Dr. Suat Özdemir 23