tree) nedir? Karar Ağacı (Decision Decisiontree



Benzer belgeler
Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Makine Öğrenmesi 3. hafta

Karar Ağaçları. Karar Ağaçları. Arş. Gör. Melike ERDOĞAN

Etki Diyagramları ve Karar Ağaçları

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Gözetimli & Gözetimsiz Öğrenme

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

SİSTEM SİMÜLASYONU BENZETIM 1 SİMÜLASYON MODEL TÜRLERİ 1. STATİK VEYA DİNAMİK. Simülasyon Modelleri

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Week 9: Trees 1. TREE KAVRAMI 3. İKİLİ AĞAÇ DİZİLİMİ 4. İKİLİ ARAMA AĞACI 2. İKİLİ AĞAÇ VE SUNUMU > =

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

NIRLINE. NIRLINE ile Yeni Bir Yaklaşım: Fingerprinting

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

1- Sayı - Tam sayıları ifade etmek için kullanılır. İfade edilen değişkene isim ve değer verilir.

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

İŞLETME RİSK YÖNETİMİ. Yrd. Doç. Dr. Tülay Korkusuz Polat 1/21

Metin Sınıflandırma. Akış

ISO UYGULAMA PROSEDÜRÜ

K En Yakın Komşu Methodu (KNearest Neighborhood)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Sihirbaz Kullanarak Sorgu Oluştur : Sihirbaz sorguyu hazırlayan kişiye sorular sorar ve yanıtlarına göre sorgu oluşturur.

Veri Madenciliği Karar Ağacı Oluşturma

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

YZM YAPAY ZEKA DERS#6: REKABET ORTAMINDA ARAMA

MONTE CARLO BENZETİMİNİN BİR KARAR PROBLEMİNE UYGULANMASI

TOPSIS yönteminin adımları 5 Adım 1. Normalize karar matrisinin oluşturulması 6 Karar matrisinin normalizasyonu aşağıdaki formül kullanılarak yapılır:

BLM-431 YAPAY ZEKA. Ders-5 Bilgili Arama Yöntemleri. Yrd. Doç. Dr. Ümit ATİLA

Sistem Geliştirme Yaşam Döngüsü (The Systems Development Life Cycle) (SDLC)

KESİKLİ İŞLETİLEN PİLOT ÖLÇEKLİ DOLGULU DAMITMA KOLONUNDA ÜST ÜRÜN SICAKLIĞININ SET NOKTASI DEĞİŞİMİNDE GERİ BESLEMELİ KONTROLU

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

BİÇİMSEL YÖNTEMLER (FORMAL METHODS) Betül AKTAŞ Suna AKMELEZ

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

14.12 Oyun Teorisi Ders Notları

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

FSH BİLGİLENDİRME TOPLANTILARI

Karar Destek Sistemi

Karar Ağacı Öğrenmesi(Decision Tree Learning)

GRUP TEKNOLOJİSİ VE HÜCRESEL ÜRETİM

İŞ DEĞERLEME ve ÜCRET YÖNETİMİ

Varlık davranış modeli: Bu aşama her entity ye etki eden durumların tanımlandığı, modellendiği ve dokümante edildiği süreçtir.

BLM-431 YAPAY ZEKA. Ders-4 Bilgisiz Arama Yöntemleri. Yrd. Doç. Dr. Ümit ATİLA

Varant nedir? Varantların dayanak varlığı ne olacak? İlk uygulamada borsa endeksleri ve dolar/tl olacak.

(Fabrika Şablonu) Factory Pattern. Tasarım şablonlarının Creational (Yaratıcı) Sınıflandırmasına aittir. Fabrika(Factory) Şablonu

Uzaktan Algılama Uygulamaları

Algoritmalar ve Karmaşıklık

PROJE RISK YÖNETIMI D R. Ö Ğ R. Ü Y E S İ K E N A N G E N Ç O L

SİSTEM SİMÜLASYONU SİSTEM SİMULASYONU 1 SİMÜLASYON NEDİR? BENZETİMİN YERİ?

Bilgi Servisleri (IS)

Kısaca. Müşteri İlişkileri Yönetimi. Nedir? İçerik. Elde tutma. Doğru müşteri Genel Tanıtım

ACD TEZGAH İZLEME YAZILIMI

BIP116-H14-1 BTP104-H014-1

Verilerin Düzenlenmesi

RİSK ANALİZİ TEHLİKE VE RİSK

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

Yaprak gübresinin kullanımında avantajlar

KARAR TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

Hafta 05 - Karar Ağaçları/Kümeleme

8. SINIF YARIYIL ÇALIŞMA TESTİ

Akıllı Mürekkep Tasarrufları Kılavuzu

GİRİŞ BİRİNCİ BÖLÜM KAVRAMSAL VE KURAMSAL ÇERÇEVE: İŞLETME KULUÇKASI KAVRAMI 1.1. İŞLETME KULUÇKALARININ TANIMI... 24

FREKANS VERİLERİ. Prof.Dr. Levent ŞENYAY III - 1

6.046J/18.401J DERS 7 Kıyım Fonksiyonu (Hashing I) Prof. Charles E. Leiserson

MEDİKAL CİHAZLAR İÇİN KLİNİK VERİ DEĞERLENDİRME

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

SİSTEM ANALİZİ ve TASARIMI. ÖN İNCELEME ve FİZİBİLİTE

- Mali analizin Tanımı - Türlerine göre mali analiz - Değerlendirme Kuruluşları

Regresyon ve Sınıflandırma

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

FİLOGENİ ve HAYAT AĞACI

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5 İN İNCELENMESİ. Müh. Savaş YILDIRIM

Let s, Shall we, why don t. Let s, let us: Öneri cümlesi başlatır. Let s elim anlamına gelir. Let s play basketball. Haydi basketball oynayalım.

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Portföy Yönetimi. Yatırım Kumar Adil Oyun

Yatırım Kumar Adil Oyun

Yatırım Kumar Adil Oyun

İLK ADIMLAR SINIFI HAFTALIK BÜLTENİ

Geçici ISO Standardının Detayları

Tutum ve Tutum Ölçekleri

İÇİNDEKİLER KALİTE YE KUŞBAKIŞI

Doküman No:ITP 16.1 Revizyon No: 01 Tarih: Sayfa No: 1/5 KALİTE SİSTEM PROSEDÜRLERİ PROJE YÖNETİMİ PROSEDÜRÜ

ALGORİTMA ANALİZİ. Cumhuriyet Üniversitesi Bilgisayar Mühendisliği Bölümü

Fabrika Organizasyonu ve Yöne4mi. Hafta 2 Doç. Dr. Nevzat KONAR

Sıralı Erişimli Dosyalar. Kütük Organizasyonu 1

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

SÜRE BİLİŞİM TEKNOLOJİLERİ ÜNİTE 1-2: BİLGİSAYAR SİSTEMİ DERS SAATİ: 5. [!]: 1.2. İşletim sistemindeki dizin yapısı vurgulanır.

Transkript:

Karar Ağacı (Decision Decisiontree tree) nedir? Bir işletme yönetimi tarafından tercihlerin, risklerin, kazançların, hedeflerin tanımlanmasında yardımcı olabilen ve birçok önemli yatırım alanlarında uygulanabilen, birbirini izleyen şansa bağlı olaylarla ilgili olarak çıkan çeşitli karar noktalarını incelemek için kullanılan bir tekniktir.

KARAR AĞACI YÖNTEMİ 1. Sorunun tanımlanması 2. Karar ağacının çizilmesi / yapılandırılması 3. Olayların oluşma olasılıklarının atanması 4. Beklenen getirinin (veya faydanın) ilgili şans noktası için hesaplanması - geriye doğru, işlem 5. En yüksek beklenen getirinin (faydanın) ilgili karar noktasına atanması - geriye doğru, karşılaştırma 6. Önerinin sunulması

KARAR TABLOSUNUN KARAR AĞACINA DÖNÜŞTÜRÜLMESİ OLAYLAR SEÇENEKLER θ 1 θ 2... θ n a 1 x 11 x 12... x 1n a 2 x 21 x 22... x 2n....... a m x m1 x m2... x mn a 1 a 2 θ 1 x 11 θ n x 1n a m θ 1 x m1 θ n x mn

ÖRNEK 1 Karar noktası Küçük fabrika kur Şans noktası 1 2 Yüksek talep (0.6) Düşük talep (0.4) Yüksek talep (0.6) Düşük talep (0.4) $200.000 -$180.000 $100.000 -$20.000 $0

Karar noktası Şans noktası 1 $48.000 Küçük fabrika kur 2 $52.000 Yüksek talep (0.6) Düşük talep (0.4) Yüksek talep (0.6) Düşük talep (0.4) $200.000 -$180.000 $100.000 -$20.000 $0

ÖRNEK 2 OLAYLAR STRATEJİLER Düşüş Yükseliş Yeni donanım (S 1 ) 130 220 Fazla mesai (S 2 ) 150 210 Bir şey yapmama (S 3 ) 150 170 OLASILIKLAR 40% 60% 184 %60 %40 220 130 186 %60 210 %40 150 162 %60 170 %40 150

Karar Ağaçları Karar ağaçları eğiticili öğrenme için çok yaygın bir yöntemdir. Algoritmanın adımları: 1. T öğrenme kümesini oluştur 2. T kümesindeki örnekleri en iyi ayıran niteliği belirle 3. Seçilen nitelik ile ağacın bir düğümünü oluştur ve bu düğümden çocuk düğümleri veya ağacın yapraklarını oluştur. Çocuk düğümlere ait alt veri kümesinin örneklerini belirle 4. 3. adımda yaratılan her alt veri kümesi için Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlemi sonlandır. Diğer durumda alt veri kümesini ayırmak için 2. adımdan devam et.

Karar Ağaçları: Haftasonu örneği 1. Adım: Veri setinden T öğrenme kümesi oluşturulur. Weekend (Example) Weather Parents Money Decision (Category W1 Sunny Yes Rich Cinema W2 Sunny No Rich Tennis W3 Windy Yes Rich Cinema W4 Rainy Yes Poor Cinema W5 Rainy No Rich Stay in W6 Rainy Yes Poor Cinema W7 Windy No Poor Cinema W8 Windy No Rich Shopping W9 Windy Yes Rich Cinema W10 Sunny No Rich Tennis

Karar Ağaçları: Haftasonu örneği 2. Adım: Veri setindeki en ayırt edici nitelik belirlenir ve ağacın kökü olarak alınır. 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir.

Karar Ağaçları: En ayırt edici nitelik nasıl bulunur? Bilgi Kazancı (Information Gain):ID3, C4.5 gibi karar ağacı metotlarında en ayırt edici niteliği belirlemek için her nitelik için bilgi kazancı ölçülür. Bilgi Kazancı ölçümünde Entropykullanılır. Entropyrastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir.

Karar Ağaçları Bilgi Kazancı:Entropy

Karar Ağaçları:Entropy Haftasonu veri kümesindeki (T kümesi) 10 örnekten 6 örnek için karar sinema 2 örnek için karar tenis oynamak 1 örnek için karar evde kalmak ve 1 örnek için karar alışverişe gitmek olduğuna göre Entropy: H(T)= -(6/10) log 2 (6/10) -(2/10) log 2 (2/10) -(1/10) log 2 (1/10) -(1/10) log 2 (1/10) H(T)= 1,571

Karar Ağaçları:Bilgi Kazancı A niteliğinin T veri kümesindeki bilgi kazancı: Gain(T,A)=Entropy(T)-Σ P(v) Entropy(T(v)) v: Values of A P(v)= T(v) / T

Karar Ağaçları:Bilgi Kazancı Gain(T, weather)=? Sunny=3 (1 Cinema, 2 Tennis) Windy=4 (3 Cinema, 1 Shopping) Rainy=3 (2 Cinema, 1 Stay in) Entropy(T sunny )= -(1/3) log 2 (1/3) -(2/3) log 2 (2/3)=0,918 Entropy(T windy )= -(3/4) log 2 (3/4) -(1/4) log 2 (1/4) =0,811 Entropy(T rainy )= -(2/3) log 2 (2/3) -(1/3) log 2 (1/3) =0,918 Gain(T, weather) = Entropy(T)-((P(sunny)Entropy(T sunny ) + P(windy) Entropy(T windy )+ P(rainy) Entropy(T rainy ) ) =1,571-((3/10)Entropy(T sunny )+(4/10)Entropy(T windy )+ (3/10)Entropy(T rainy )) Gain(T, weather) =0,70

Karar Ağaçları:Bilgi Kazancı Gain(T, parents)=? Yes=5 (5 Cinema) No =5 (2 Tennis, 1 Cinema, 1 Shopping, 1 Stay in) Entropy(T yes )= -(5/5) log 2 (5/5) = 0 Entropy(T no )= -(2/5) log 2 (2/5) -3(1/5) log 2 (1/5) =1,922 Gain(T, parents) = Entropy(T)-((P(yes)Entropy(T yes ) + P(no) Entropy(T no )) =1,571-((5/10)Entropy(T yes )+(5/10)Entropy(T no )) Gain(T, parents)=0,61

Karar Ağaçları:Bilgi Kazancı Gain(T, money)=? Rich=7 (3 Cinema, 2 Tennis, 1 Shopping, 1 Stay in) Poor=3 (3 Cinema) Entropy(T rich )= 1,842 Entropy(T poor )= 0 Gain(T, money) = Entropy(T)-((P(rich)Entropy(T rich ) + P(poor) Entropy(T poor )) =1,571-((5/10)Entropy(T rich )+(5/10)Entropy(T poor )) Gain(T, money)=0,2816

Karar Ağaçları:Bilgi Kazancı Gain(T, weather) =0,70 Gain(T, parents)=0,61 Gain(T, money)=0,2816 Weather özelliği en büyük bilgi kazancını sağladığı için ağacın kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici özellik olarak bulunmuş olur.

Karar Ağaçları: 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir. Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik belirlenir.

Karar Ağaçları Yeni düğüm için en ayırt edici özellik Perentsolarak belirlenmiştir. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder Örneklerin hepsi aynı sınıfa ait Örnekleri bölecek özellik kalmamış Kalan özelliklerin değerini taşıyan örnek yok

Karar Agacıkullanarak sınıflandırma Avantajları: Karar ağacı oluşturmak zahmetsizdir Küçük ağaçları yorumlamak kolaydır Anlaşılabilir kurallar oluşturulabilinir Sürekli ve ayrık nitelik değerleri için kullanılabilir

Karar Agacıkullanarak sınıflandırma Dezavantajları: Sürekli nitelik değerlerini tahmin etmekte çok başarılı değildir Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturma çok başarılı değildir Zaman ve yer karmaşıklığı öğrenme kümesi örnekleri sayısına, nitelik sayısına ve oluşan ağacın yapısına bağlıdır Hem ağaç oluşturma karmaşıklığı hem de ağaç budama karmaşıklığı fazladır