Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Benzer belgeler
Gözetimli & Gözetimsiz Öğrenme

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Regresyon ve Sınıflandırma

Karar Ağacı Öğrenmesi(Decision Tree Learning)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Hafta 05 - Karar Ağaçları/Kümeleme

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Uzaktan Algılama Teknolojileri

Makine Öğrenmesi 3. hafta

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Karar Ağacı Öğrenmesi(Decision Tree Learning)

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

Veri Madenciliği Karar Ağacı Oluşturma

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Veri madenciliği yöntemleri

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Web Madenciliği (Web Mining)

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

K En Yakın Komşu Methodu (KNearest Neighborhood)

tree) nedir? Karar Ağacı (Decision Decisiontree

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Görüntü Sınıflandırma

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Zeki Optimizasyon Teknikleri

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

CBS ve Coğrafi Hesaplama

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5 İN İNCELENMESİ. Müh. Savaş YILDIRIM

Web Madenciliği (Web Mining)

Zeki Optimizasyon Teknikleri

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Zeki Optimizasyon Teknikleri

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

Kümeleme Algoritmaları. Tahir Emre KALAYCI

BiL416 Hafta-1 Veri Madenciliği:Giriş

Week 9: Trees 1. TREE KAVRAMI 3. İKİLİ AĞAÇ DİZİLİMİ 4. İKİLİ ARAMA AĞACI 2. İKİLİ AĞAÇ VE SUNUMU > =

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Otomatik Doküman Sınıflandırma

Kolektif Öğrenme Metotları

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Nesnelerin İnternetinde Veri Analizi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

Türkçe Dokümanlar Ġçin Yazar Tanıma

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Eş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

SPSS (Statistical Package for Social Sciences)

BCA605 Bilgisayar Oyunlarında Yapay Zeka

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama

Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Karar Ağaçları Destekli Vadeli Mevduat Analizi

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Doğal Dil İşlemede Eğilimler. Önceden: Yapay Zeka Tabanlı, tam olarak anlama. Şimdiki: Külliyat(Corpus)-tabanlı, İstatistiki, makine öğrenmesi içeren

Genel Graf Üzerinde Mutlak 1-merkez

Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği

Instance Based Learning k-nn. YZM 3226 Makine Öğrenmesi

Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Otomatik Doküman Sınıflandırma

Veri Madenciliği Eğiticili Algoritmalar. Erdem Alparslan

WEKA ile Veri Önişleme


Veri Madenciliği - Giriş. Erdem Alparslan

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

VERİ MADENCİLİĞİNDE KARAR AĞACI ALGORİTMALARI İLE BİLGİSAYAR VE İNTERNET GÜVENLİĞİ ÜZERİNE BİR UYGULAMA

VERİ MADENCİLİĞİ MODELLERİ VE UYGULAMA ALANLARI

VERI TABANLARıNDA BILGI KEŞFI

Yazılım Mühendisliği 1

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Örüntü Tanıma (EE 448) Ders Detayları

Transkript:

Bölüm 5. Sınıflandırma 1 http://ceng.gazi.edu.tr/~ozdemir

Gözetimli & Gözetimsiz Öğrenme Predictive Data Mining vs. Descriptive Data Mining Gözetimli (Supervised) öğrenme= sınıflandırma (clasification) Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu biliniyor. Gözetimsiz (Unsupervised) öğrenme = demetleme (clustering) Öğrenme kümesinde hangi nesnenin hangi sınıfta olduğu bilinmiyor. Genelde sınıf sayısı da bilinmiyor. 2 hafta sonra işleyeceğiz 2/42

Sınıflandırma ve tahmin Sınıflandırma (Classification) Kategorik sınıf etiketlerini öngörme Bir model oluşturur ve veriyi sınıflandırır Ögrenme seti (the training set) Sınıf etiketleri (class label) biliniyor Sınıfı bilinmeyen veriler (sınama seti) oluşturulan modele göre sınıflandırılır Sınıflar arasında ilişki yok Sayısal öngörü, tahmin (Numeric Prediction) Sürekli değere sahip fonksiyonları modeller Bu modellere göre bilinmeyen ya da eksik değerleri tahmin eder Öngörülen değerler arasında ilişki var 3/42

Sınıflandırma Problem/Amaç/Yöntem Sınıflandırma = ayrık değişkenlerin hangi kategoride (sınıfta) olduklarını diğer nitelikleri kullanarak tahmin etme/öngörme Girdi: Ayrık nesnelerden oluşan veri kümesi (öğrenme kümesi): Her nesne niteliklerden oluşur, niteliklerden biri sınıf bilgisidir (sınıf etiketi) Yöntem: Sınıf niteliğini belirlemek için diğer nitelikleri kullanarak bir model oluşturulur Bulunan modelin başarımı belirlenir (sınama kümesi ile) Model başarımı: doğru sınıflandırılmış sınama kümesi örneklerinin oranı Çıktı: Sınıf etiketi belli olmayan nesneler oluşturulan model kullanılarak mümkün olan en iyi şekilde doğru sınıflara atanır 4/42

Sınıflandırma Uygulamaları Kredi başvurusu değerlendirme Kredi kartı harcamasının sahtekarlık olup olmadığına karar verme Hastalık teşhisi Ses tanıma Karakter tanıma Metinleri konularına göre ayırma Kullanıcı davranışları belirleme 5/42

Sınıflandırma için Veri Önişleme Veri dönüşümü: Sürekli nitelik değeri ayrık hale getirilir 0-25 yas -> Genç 26-50 yas -> Orta yaş 51 ve ustu -> Yaşlı Normalizasyon ([-1,...,1],[0,...,1]) Veri temizleme: gürültüyü azaltma (noise reduction) gereksiz nitelikleri silme 6/42

Sınıflandırma İşlemi Sınıflandırma işlemi üç aşamadan oluşur: 1. Model oluşturma 2. Model değerlendirme 3. Modeli kullanma 7/42

Sınıflandırma İşlemi: Model Oluşturma Model Oluşturma: Her nesnenin sınıf etiketi olarak tanımlanan niteliğinin belirlediği bir sınıfta olduğu varsayılır Model oluşturmak için kullanılan nesnelerin oluşturduğu veri kümesi öğrenme kümesi olarak tanımlanır Model farklı biçimlerde ifade edilebilir IF THEN ELSE kuralları ile Karar ağaçları ile Matematiksel formüller ile 8/42

Model Oluşturma öğrenme kümesi Sınıflandırma algoritması NAME RANK YEARS TENURED Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Sınıflandırıcı (Model) IF rank = professor OR years > 6 THEN tenured = yes 9/42

Sınıflandırma İşlemi: ModelDeğerlendirme Model Değerlendirme: Modelin başarımı (doğruluğu) sınama kümesi örnekleri kullanılarak belirlenir Sınıf etiketi bilinen bir sınama kümesi örneği model kullanılarak belirlenen sınıf etiketiyle karşılaştırılır Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi örneklerinin toplam sınama kümesi örneklerine oranı olarak belirlenir Sınama kümesi model öğrenirken kullanılmaz! 10/42

Modeli değerlendirme Sınıflandırıcı IF rank = professor OR years > 6 THEN tenured = yes Sınama Kümesi NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes Model başarımı %75 11/42

Sınıflandırma İşlemi: Modeli Kullanma Modeli kullanma: Model daha önce görülmemiş örnekleri sınıflandırmak için kullanılır Örneklerin sınıf etiketlerini tahmin etme Bir niteliğin değerini tahmin etme 12/42

Modeli kullanma Sınıflandırıcı Sınama Kümesi Yeni veri (sınıflandırılmamış) (Jeff, Professor, 4) NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes Tenured? 13/42

Sınıflandırıcı Başarımını Değerlendirme Doğru sınıflandırma başarısı Hız modeli oluşturmak için gerekli süre sınıflandırma yapmak için gerekli süre Kararlı olması veri kümesinde gürültülü ve eksik nitelik değerleri olduğu durumlarda da iyi sonuç vermesi Ölçeklenebilirlik büyük miktarda veri kümesi ile çalışabilmesi Anlaşılabilir olması kullanıcı tarafından yorumlanabilir olması Kuralların yapısı birbiriyle örtüşmeyen kurallar 14/42

Sınıflandırma Yöntemleri Karar ağaçları (decision trees) Bayes sınıflandırıcılar (Bayes classifier) Yapay sinir ağları (artificial neural networks) İlişki tabanlı sınıflandırıcılar (association-based classifier) k-en yakın komşu yöntemi (k- nearest neighbor method) Destek vektör makineleri (support vector machines) Genetik algoritmalar (genetic algorithms) 15/42

Karar ağaçları Akış diyagramı şeklinde ağaç yapısı Her ara düğüm bir nitelik sınaması Nitelik Dallar sınama sonucu Yapraklar sınıflar CL 16/42

Karar Agacı Örneği - 1 10 Tid Refund Marital Status Taxable Income Cheat Splitting Attributes 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Refund Yes No MarSt Single, Divorced TaxInc < 80K > 80K YES Married Training Data Model: Decision Tree 17/42

Karar Ağacı Örneği - 2 10 Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Married MarSt Yes Single, Divorced Refund No TaxInc < 80K > 80K YES There could be more than one tree that fits the same data! 18/42

Karar Ağacı Sınıflandırma 10 10 Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Tree Induction algorithm Learn Model Apply Model Model Decision Tree 19/42

Modelin Test Verisine Uygulanması 10 Start from the root of tree. Test Data Refund Marital Status Taxable Income Cheat Refund Yes No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 20/42

Modelin Test Verisine Uygulanması 10 Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 21/42

Modelin Test Verisine Uygulanması 10 Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 22/42

Modelin Test Verisine Uygulanması 10 Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 23/42

Modelin Test Verisine Uygulanması 10 Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 24/42

Modelin Test Verisine Uygulanması 10 Test Data Refund Marital Status Taxable Income Cheat Refund No Married 80K? Yes No Single, Divorced MarSt Married Assign Cheat to No TaxInc < 80K > 80K YES 25/42

Karar Ağacı Sınıflandırma 10 10 Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Tree Induction algorithm Learn Model Apply Model Model Decision Tree 26/42

Karar Ağacı Oluşturma Ağaç top-down recursive divide-and-conquer bir yaklaşım ile oluşturulur. ağaç bütün verinin oluşturduğu tek bir düğümle başlıyor nitelikler kategorik (eğer sürekli nitelikler varsa önceden ayrıştır) eğer örnekleri hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanıyor ve sınıf etiketini alıyor eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik seçiliyor (???) işlem sona eriyor örneklerin hepsi (çoğunluğu) aynı sınıfa ait örnekleri bölecek nitelik kalmamış kalan niteliklerin değerini taşıyan örnek yok 27/42

Karar ağaçları Karar ağacı oluşturma yöntemleri genel olarak iki aşamadan oluşur: 1. ağaç oluşturma en başta bütün öğrenme kümesi örnekleri kökte seçilen niteliklere bağlı olarak örnek yinelemeli olarak bölünüyor 2. ağaç budama öğrenme kümesindeki gürültülü verilerden oluşan ve sınama kümesinde hataya neden olan dalları silme (sınıflandırma başarımını artırır) 28/42

En İyi Bölen Nitelik Hangisi? Bölmeden önce: 10 örnek C 0 sınıfında (Erkek öğrenciler) 10 örnek C 1 sınıfında (Kız öğrenciler) Arabası var? Araba tipi? Öğrenci No? Evet Hayır Sedan Hatchback Coupe c1 c20 C 0 =2 C 0 =8 C0=0 C0=8 C0=2 C0=0 C0=1 C 1 =6 C 1 =4 C1=2 C1=6 C1=2 C1=1 C1=0 29/42

En iyi bölen nitelik Greedy yaklaşım çoğunlukla aynı sınıfa ait örneklerin bulunduğu (homojen) düğümler tercih edilir Düğümün kalitesini ölçmek için bir yöntem C0=5 C0=9 C1=5 C1=1 Homojen değil (Kalitesiz) Homojen (Kaliteli) 30/42

En iyi bölen nitelik seçimi İyilik Fonksiyonu (Goodness Function) Farklı algoritmalar farklı iyilik fonksiyonları kullanabilir: Bilgi kazancı (information gain): ID3 Kazanç oranı (gain ratio): C4.5 bütün niteliklerin ayrık değerler aldığı varsayılıyor sürekli değişkenlere uygulamak için değişiklik yapılabilir Gini index: CART, IBM IntelligentMiner bütün niteliklerin sürekli değerler aldığı varsayılıyor her nitelik için farklı bölme değerleri olduğu varsayılıyor bölme değerlerini belirlemek için başka yöntemlere (demetleme gibi) ihtiyaç var ayrık değişkenlere uygulamak için değişiklik yapılabilir 31/42

Bilgi kazancı (Information gain) Bir torbadaki topların renkleri farklı ise belirsizlik fazladır Topların hepsi aynı renkte ise belirsizlik yoktur Information theory e (bilgi kuramına) dayanır The concept was introduced by Claude E. Shannon in his 1948 paper " A Mathematical Theory of Communication". The Shannon entropy (entropi) or information entropy is a measure of the uncertainty associated with a random variable. Belirsizliğin ölçütü 32/42

Entropi p 1, p 2,.., p m toplamları 1 olan olasılıklar. Entropi = p i log 2 ( p m i= 1 örnekler aynı sınıfa aitse entropi=0 örnekler sınıflar arasında eşit dağılmışsa entropi=1 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1 i ) 33

Bilgi kazanımı: Information Gain Bilgi kuramı kavramlarını kullanarak karar ağacı oluşturulur. Sınıflandırma sonucu için en az sayıda karşılaştırma yapmayı hedefler. Ağaç bir niteliğe göre dallandığında entropi ne kadar düşer? 34/42

En iyi bölen nitelik seçimi: Information Gain n n n n n Bilgi kazanımı en yüksek olan nitelik seçilir p i D öğrenme kümesindeki bir varlığın C i sınıfına ait olma olasılığı, C i,d / D olarak ifade edilir D içindeki bir varlığı sınıflandırmak için gerekli bilgi (D nin m entropisi): Info D) = p i log ( p ) ( 2 i= 1 D kümesi A niteliğine göre v parçaya bölündükten sonra D yi sınıflandırmak için gerekli olan bilgi: v D j Info A( D) = D j= 1 A niteliğine göre bölünmeden dolayı bilgi kazancı Gain(A) = Info(D) Info i Info( D A (D) j ) 35/51

Müşteri veritabanı 36/42

ÖRNEK: buys_computer sınıfı için en iyi bölen niteliği bulunuz? Info g Class P: buys_computer = yes g Class N: buys_computer = no 9 D) = I(9,5) = log 14 9 5 ( ) log 14 14 5 ( ) 14 ( 2 2 = 0.940 5 4 5 Info age ( D) = I(2,3) + I(4,0) + I(3,2) = 14 14 14 0.694 Gain( age) = Info( D) Info ( D) = Gain( income) = 0.029 Gain( student) = 0.151 Gain( credit _ rating) = 0.048 age 0.246 37/60

ÖRNEK 38/51

buys_computer sınıfı için karar ağacı 39/42

En iyi bölen nitelik seçimi: Kazanım Oranı (Gain Ratio) Bilgi kazanımı metodu çok çeşitli değerlere sahip nitelikleri seçme eğilimdedir Bu problemi çözmek için C4.5 (a successor of ID3) kazanım oranını kullanır (normalization to information gain) SplitInfo v D j ( D) = log2 D D ( j A j= 1 D GainRatio(A) = Gain(A)/SplitInfo(A) En yüksek kazanım oranına sahip nitelik seçilir ) 40

Gini index (CART, IBM IntelligentMiner) D kümesi n sınıfdan örnekler içeriyorsa, gini index, gini(d) şu şekilde ifade edilir (p j j sınıfının D kümesinde görülme sıklığıdır) gini( D) = 1 n p 2 j j= 1 D kümesi A niteliğine göre ikiye D 1 ve D 2 olarak bölünürse, gini index gini(d) şu şekilde ifade edilir D ( ) 1 D ( ) 2 gini A D = gini D1 + gini( D2) D D Kirlilikteki azalma (Reduction in Impurity) Δgini( A) = gini( D) gini ( D) En küçük gini split (D) ye sahip nitelik (or the largest reduction in impurity) bölme noktası olarak seçilir A 41

Örnek : Gini Index Önceki örnekte 9 kişi buys_computer = yes ve 5 kişi no sınıfında gini( D) = 1 9 14 2 5 14 = 0.459 income niteliğinin D yi 2 ye böldüğünü kabul edelim: 10 in D 1 : {low, medium} and 4 in D 2 :{high} gini 2 10 4 ( D) = Gini( D1 ) + Gini( 2) 14 14 income { low, medium} D Gini {low,high} is 0.458; Gini {medium,high} is 0.450. En düşük Gini index değerini verdiğinden {low,medium} (and {high}) ayrımı seçilir. 42

Quiz Aşağıdaki veritanbanında min support değeri 2 dir. 3 elemanlı yaygın öğe setini Apriori ile bularak X,Y->Z şeklinde bir kural oluşturup confidence değerini belirleyiniz. TID Items 1 1,3,4 2 2,3,5 3 1,2,3,4,5 4 2,5 43

Quiz Yandaki veri tabanında a) {B,D,E} nin destek sayısı nedir? b) B,D à E kuralı için destek ve güven değeri nedir? 44