Gözetimli & Gözetimsiz Öğrenme

Benzer belgeler

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Regresyon ve Sınıflandırma

Karar Ağacı Öğrenmesi(Decision Tree Learning)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Uzaktan Algılama Teknolojileri

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Makine Öğrenmesi 3. hafta

Hafta 05 - Karar Ağaçları/Kümeleme

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Karar Ağacı Öğrenmesi(Decision Tree Learning)

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

tree) nedir? Karar Ağacı (Decision Decisiontree

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Veri Madenciliği Karar Ağacı Oluşturma

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

K En Yakın Komşu Methodu (KNearest Neighborhood)

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Web Madenciliği (Web Mining)

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Veri madenciliği yöntemleri

Görüntü Sınıflandırma

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Web Madenciliği (Web Mining)

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Zeki Optimizasyon Teknikleri

CBS ve Coğrafi Hesaplama

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Week 9: Trees 1. TREE KAVRAMI 3. İKİLİ AĞAÇ DİZİLİMİ 4. İKİLİ ARAMA AĞACI 2. İKİLİ AĞAÇ VE SUNUMU > =

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Otomatik Doküman Sınıflandırma

Kolektif Öğrenme Metotları

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

BiL416 Hafta-1 Veri Madenciliği:Giriş

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5 İN İNCELENMESİ. Müh. Savaş YILDIRIM

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Zeki Optimizasyon Teknikleri

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Zeki Optimizasyon Teknikleri

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

SPSS (Statistical Package for Social Sciences)

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Türkçe Dokümanlar Ġçin Yazar Tanıma

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Eş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Doğal Dil İşlemede Eğilimler. Önceden: Yapay Zeka Tabanlı, tam olarak anlama. Şimdiki: Külliyat(Corpus)-tabanlı, İstatistiki, makine öğrenmesi içeren

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

Makine Öğrenmesine Giriş (Machine Learning ML)

Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

WEKA ile Veri Önişleme

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Karar Ağaçları Destekli Vadeli Mevduat Analizi

VERI TABANLARıNDA BILGI KEŞFI

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Yazılım Mühendisliği 1

Örüntü Tanıma (EE 448) Ders Detayları

Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama

Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Uzaktan Algılama Uygulamaları

Genel Graf Üzerinde Mutlak 1-merkez

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

VERİ MADENCİLİĞİNDE KARAR AĞACI ALGORİTMALARI İLE BİLGİSAYAR VE İNTERNET GÜVENLİĞİ ÜZERİNE BİR UYGULAMA

Otomatik Doküman Sınıflandırma

Nesnelerin İnternetinde Veri Analizi

Veri Madenciliği - Giriş. Erdem Alparslan

EXCEL DE BENZETİM ÖRNEKLERİ BMÜ-422 BENZETİM VE MODELLEME

Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama

Veri Madenciliği Eğiticili Algoritmalar. Erdem Alparslan

Transkript:

Bölüm 5. Sınıflandırma 1 http://ceng.gazi.edu.tr/~ozdemir Gözetimli & Gözetimsiz Öğrenme Predictive Data Mining vs. Descriptive Data Mining Gözetimli (Supervised) öğrenme= sınıflandırma (clasification) Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu biliniyor. Gözetimsiz (Unsupervised) öğrenme = demetleme (clustering) Öğrenme kümesinde hangi nesnenin hangi sınıfta olduğu bilinmiyor. Genelde sınıf sayısı da bilinmiyor. 2haftasonraişleyeceğiz 2/42 1

Sınıflandırma ve tahmin Sınıflandırma (Classification) Kategoriksınıf etiketlerini öngörme Bir model oluşturur ve veriyi sınıflandırır Ögrenmeseti(the training set) Sınıf etiketleri (class label) biliniyor Sınıfı bilinmeyen veriler (sınama seti) oluşturulan modele göre sınıflandırılır Sınıflar arasında ilişki yok Sayısal öngörü, tahmin (Numeric Prediction) Süreklideğere sahip fonksiyonları modeller Bu modellere göre bilinmeyen ya daeksik değerleriğ tahmin eder Öngörülen değerler arasında ilişki var 3/42 Sınıflandırma Problem/Amaç/Yöntem Sınıflandırma = ayrık değişkenlerin hangi kategoride (sınıfta) olduklarını diğer nitelikleri kullanarak tahmin etme/öngörme Girdi: Ayrık nesnelerden oluşan veri kümesi (öğrenme kümesi): Her nesne niteliklerden oluşur, niteliklerden biri sınıf bilgisidir (sınıf etiketi) Yöntem: Sınıf niteliğini belirlemek için diğer nitelikleri kullanarak bir model oluşturulur Bulunan modelin başarımı belirlenir (sınama kümesi ile) Model başarımı: doğru sınıflandırılmış sınama kümesi örneklerinin oranı Çıktı: Sınıf etiketi belli olmayan nesneler oluşturulan model kullanılarak mümkün olan en iyi şekilde doğru sınıflara atanır 4/42 2

Sınıflandırma Uygulamaları Kredi başvurusu değerlendirme Kredi kartı harcamasının sahtekarlık olup olmadığına karar verme Hastalık teşhisi Ses tanıma Karakter tanıma Metinleri konularına göre ayırma Kullanıcı davranışları belirleme 5/42 Sınıflandırma için Veri Önişleme Veri dönüşümü: Sürekli nitelik değeri ayrık hale getirilir 0-25 yas -> Genç 26-50 yas -> Orta yaş 51 ve ustu -> Yaşlı Normalizasyon ([-1,...,1],[0,...,1]) Veri temizleme: gürültüyü azaltma (noise reduction) gereksiz nitelikleri silme 6/42 3

Sınıflandırma İşlemi Sınıflandırma işlemi üç aşamadan oluşur: 1. Model oluşturma 2. Model değerlendirme 3. Modeli kullanma 7/42 Sınıflandırma İşlemi: Model Oluşturma Model Oluşturma: Her nesnenin sınıf etiketi olarak tanımlanan niteliğinin belirlediği birsınıfta olduğu varsayılır Model oluşturmak için kullanılan nesnelerin oluşturduğu veri kümesi öğrenme kümesi olarak tanımlanır Model farklı biçimlerde ifade edilebilir IF THEN ELSE kuralları ile Karar ağaçları ile Matematiksel formüller ile 8/42 4

Model Oluşturma öğrenme kümesi Sınıflandırma algoritması NAME RANK YEARS TENURED Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Sınıflandırıcı (Model) IF rank = professor OR years > 6 THEN tenured = yes 9/42 Sınıflandırma İşlemi: ModelDeğerlendirme Model Değerlendirme: Modelin başarımı (doğruluğu) sınama kümesi örnekleri kullanılarak belirlenir Sınıf etiketi bilinen bir sınama kümesi örneği model kullanılarak belirlenen sınıf etiketiyle karşılaştırılır Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi örneklerinin toplam sınama kümesi örneklerine oranı olarak belirlenir Sınama kümesi model öğrenirken kullanılmaz! 10/42 5

Modeli değerlendirme Sınıflandırıcı IF rank = professor OR years > 6 THEN tenured = yes Sınama Kümesi NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes Model başarımı %75 11/42 Sınıflandırma İşlemi: Modeli Kullanma Modeli kullanma: Model daha önce görülmemiş örnekleri sınıflandırmak için kullanılır Örneklerin sınıf etiketlerini tahmin etme Bir niteliğin değerini tahmin etme 12/42 6

Modeli kullanma Sınıflandırıcı Sınama Kümesi Yeni veri (sınıflandırılmamış) NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes (Jeff, Professor, 4) Tenured? 13/42 Sınıflandırıcı Başarımını Değerlendirme Doğru sınıflandırma başarısı Hız modelioluşturmak için gerekli süre sınıflandırma yapmak için gerekli süre Kararlı olması veri kümesinde gürültülü ve eksik nitelik değerleri olduğu durumlarda da iyi sonuç vermesi Ölçeklenebilirlik büyük miktarda veri kümesi ile çalışabilmesi Anlaşılabilir olması kullanıcı tarafından yorumlanabilir olması Kuralların yapısı birbiriyle örtüşmeyen kurallar 14/42 7

Sınıflandırma Yöntemleri Karar ağaçları (decision trees) Bayes sınıflandırıcılar (Bayes classifier) Yapay sinir ağları (artificial neural networks) İlişki tabanlı sınıflandırıcılar l (association-based classifier) k-en yakın komşu yöntemi (k- nearest neighbor method) Destek vektör makineleri (support vector machines) Genetik algoritmalar (genetic algorithms) 15/42 Karar ağaçları Akış diyagramı şeklinde ağaç yapısı Her aradüğüm bir nitelik sınaması Dallar sınama sonucu Yapraklar sınıflar CL Nitelik 16/42 8

10 10 Karar Agacı Örneği - 1 Tid Refund Marital Taxable Status Income Cheat Splitting Attributes 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Refund Yes No MarSt Single, Divorced TaxInc < 80K > 80K YES Married Training Data Model: Decision Tree 17/42 Karar Ağacı Örneği - 2 Tid Refund Marital Taxable Status Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Married MarSt Yes Single, Divorced Refund No TaxInc < 80K > 80K YES There could be more than one tree that fits the same data! 18/42 9

10 10 10 Karar Ağacı Sınıflandırma Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Model Decision Tree 19/42 Modelin Test Verisine Uygulanması Start from the root of tree. Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 20/42 10

10 10 Modelin Test Verisine Uygulanması Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 21/42 Modelin Test Verisine Uygulanması Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 22/42 11

10 10 Modelin Test Verisine Uygulanması Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 23/42 Modelin Test Verisine Uygulanması Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES 24/42 12

10 10 10 Modelin Test Verisine Uygulanması Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married Assign Cheat to No TaxInc < 80K > 80K YES 25/42 Karar Ağacı Sınıflandırma Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Learn Model Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Apply Modeld l Decision Tree 26/42 13

Karar Ağacı Oluşturma Ağaç top-down recursive divide-and-conquer bir yaklaşım ile oluşturulur. ağaç bütün verinin oluşturduğu tek bir düğümle başlıyor nitelikler kategorik (eğer sürekli nitelikler varsa önceden ayrıştır) eğer örnekleri hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanıyor ve sınıf etiketini alıyor eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik seçiliyor (???) işlem sona eriyor örneklerin hepsi (çoğunluğu) ğ ğ aynı sınıfa ait örnekleri bölecek nitelik kalmamış kalan niteliklerin değerini taşıyan örnek yok 27/42 Karar ağaçları Karar ağacı oluşturma yöntemleri genel olarak iki aşamadan oluşur: 1. ağaç oluşturma en başta bütün öğrenme kümesi örnekleri kökte seçilen niteliklere bağlı olarak örnek yinelemeli olarak bölünüyor 2. ağaç budama öğrenme kümesindeki gürültülü verilerden oluşan ve sınama kümesinde hataya neden olan dalları silme (sınıflandırma başarımını artırır) 28/42 14

En İyi Bölen Nitelik Hangisi? Bölmeden önce: 10 örnek C 0 sınıfında (Erkek öğrenciler) 10 örnek C 1 sınıfında (Kız öğrenciler) Arabası var? Araba tipi? Öğrenci No? Evet Hayır Sedan Hatchback Coupe c1 c20 C 0 =2 C 0 =8 C0=0 C0=8 C0=2 C0=0 C0=1 C 1 =6 C 1 =4 C1=2 C1=6 C1=2 C1=1 C1=0 29/42 En iyi bölen nitelik Greedy yaklaşım çoğunlukla aynı sınıfa ait örneklerin bulunduğu (homojen) düğümler tercih edilir Düğümün kalitesini ölçmek için bir yöntem C0=5 C0=9 C1=5 C1=1 Homojen değil (Kalitesiz) Homojen (Kaliteli) 30/42 15

En iyi bölen nitelik seçimi İyilik Fonksiyonu (Goodness Function) Farklı algoritmalar farklı iyilik fonksiyonları kullanabilir: Bilgi kazancı (information gain): ID3 Kazanç oranı (gain ratio): C4.5 bütün niteliklerin ayrık değerler aldığı varsayılıyor sürekli değişkenlere uygulamak için değişiklik yapılabilir Gini index: CART, IBM IntelligentMiner bütün niteliklerin sürekli değerler aldığı varsayılıyor her nitelik için farklı bölme değerleri olduğu varsayılıyor bölme değerlerini belirlemek için başka yöntemlere (demetleme gibi) ihtiyaç var ayrık değişkenlere uygulamak için değişiklik yapılabilir 31/42 Bilgi kazancı (Information gain) Bir torbadaki topların renkleri farklı ise belirsizlik fazladır Topların hepsiaynı renkte ise belirsizlik yoktur Information theory e (bilgi kuramına) dayanır The concept was introduced by Claude E. Shannon in his 1948 paper "A Mathematical Theory of Communication". The Shannon entropy (entropi) or information entropy is a measure of the uncertainty associated with a random variable. Belirsizliğin ölçütü 32/42 16

Entropi p 1, p 2,.., p m toplamları 1 olan olasılıklar. m Entropi p i log 2 ( p ) i 1 örnekler aynı sınıfa aitse entropi=0 örnekler sınıflar arasında eşit dağılmışsa entropi=1 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1 i 33 Bilgi kazanımı: Information Gain Bilgi kuramı kavramlarını kullanarak karar ağacı oluşturulur. Sınıflandırma sonucu için en az sayıda karşılaştırma yapmayı hedefler. Ağaç bir niteliğe göre dallandığında entropi ne kadar düşer? 34/42 17

En iyi bölen nitelik seçimi: Information Gain Bilgi kazanımı en yüksek olan nitelik seçilir p i D öğrenme kümesindeki bir varlığın C i sınıfına ait olma olasılığı, C i,d / D olarak ifade edilir D içindeki bir varlığı sınıflandırmak için gerekli bilgi (D nin m entropisi): Info D) p i log ( p ) ( 2 i 1 D kümesi A niteliğine göre v parçaya bölündükten sonra D yi sınıflandırmak için gerekli olan bilgi: v D j Info A ( D ) Info ( D j ) j 1 D A niteliğine göre bölünmeden dolayı bilgi kazancı Gain(A) Info(D) Info i A (D) 35/51 Müşteri veritabanı 36/42 18

ÖRNEK: buys_computer sınıfı için en iyi bölen niteliği bulunuz? Class P: buys_computer = yes Class N: buys_computer = no 9 9 5 5 Info ( D ) I (9,5) log ( ) log 2 ( ) 14 14 14 14 2 0.940 5 4 5 Info age ( D) I (2,3) I (4,0) I (3,2) 0.694 14 14 14 Gain ( age ) Info ( D ) Info ( D ) 0.246 Gain( income) 0.029 Gain( student) 0.151 Gain( credit _ rating) 0.048 age 37/60 ÖRNEK 38/51 19

buys_computer sınıfı için karar ağacı 39/42 En iyi bölen nitelik seçimi: Kazanım Oranı (Gain Ratio) Bilgi kazanımı metodu çok çeşitli değerlere sahip nitelikleri seçme eğilimdedir Bu problemi çözmek için C4.5 (a successor of ID3) kazanım oranını kullanır (normalization to information gain) v D j D j SplitInfoA( D) log2( ) D j 1 D GainRatio(A) = Gain(A)/SplitInfo(A) ( ) En yüksek kazanım oranına sahip nitelik seçilir 40 20

Gini index (CART, IBM IntelligentMiner) D kümesi n sınıfdan örnekler içeriyorsa, gini index, gini(d) şu şekilde ifade edilir (p j j sınıfının D kümesinde görülme sıklığıdır) gini ( D ) 1 n j 1 p 2 j D kümesi A niteliğine göre ikiye D 1 ve D 2 olarak bölünürse, gini index gini(d) şu şekilde ifade edilir D ( ) 1 D D gini ( ) 2 D1 gini ( D 2) gini A D Kirlilikteki azalma (Reduction in Impurity) D gini( A) gini( D) gini ( D) A En küçük gini split (D) ye sahip nitelik (or the largest reduction in impurity) bölme noktası olarak seçilir 41 Örnek : Gini Index Önceki örnekte 9 kişi buys_computer = yes ve 5 kişi no sınıfında 2 2 9 5 gini( D) 1 0.459 14 14 income niteliğinin D yi 2 ye böldüğünü kabul edelim: 10 in D 1 : {low, medium} and 4 in D 2 :{high} gini 10 4 ( D) Gini( D1 ) Gini( 2) 14 14 income { low, medium} D Gini {low,high} is 0.458; Gini {medium,high} is 0.450. En düşük Gini index değerini verdiğinden {low,medium} (and {high}) ayrımı seçilir. 42 21