Makine Öğrenmesi 3. hafta



Benzer belgeler
VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Veri Madenciliği Karar Ağacı Oluşturma

Makine Öğrenmesi 2. hafta

Karar Ağacı Öğrenmesi(Decision Tree Learning)

tree) nedir? Karar Ağacı (Decision Decisiontree

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Karar Ağacı Öğrenmesi(Decision Tree Learning)

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

Hafta 05 - Karar Ağaçları/Kümeleme

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

MMT 106 Teknik Fotoğrafçılık 3 Digital Görüntüleme

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Veri Madenciliği Süreci

Karar Ağaçları. Karar Ağaçları. Arş. Gör. Melike ERDOĞAN

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

4.1. Grafik Sihirbazını kullanarak grafik oluşturma

Web Madenciliği (Web Mining)

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Gözetimli & Gözetimsiz Öğrenme

Dr. Musa KILIÇ Öğretim Görevlisi

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Programlama Giriş. 17 Ekim 2015 Cumartesi Yrd. Doç. Dr. Mustafa YANARTAŞ 1

DOSYA ORGANİZASYONU. Çarpışma çözümleme yöntemleri ÖZLEM AYDIN TRAKYA ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

SİSTEM ANALİZİ ve TASARIMI. ÖN İNCELEME ve FİZİBİLİTE

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Şekil 7.1 Bir tankta sıvı birikimi

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir.


Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

ALTIN ORAN ARAMA (GOLDEN SECTION SEARCH) METODU

Ders Notlarının Creative Commons lisansı Feza BUZLUCA ya aittir. Lisans:

T.C. ESKİŞEHİR OSMANGAZİ ÜNİVERSİTESİ SAĞLIK BİLİMLERİ ENSTİTÜSÜ BİYOİSTATİSTİK ANABİLİM DALI. BiR UYGULAMA YÜKSEK LİSANS TEZİ HÜLYA YILMAZ

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

TERMODİNAMİĞİN TEMEL EŞİTLİKLERİ

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUVARI

AKIŞ ŞEMASI AKIŞ ŞEMASI AKIŞ ŞEMASI ŞEKİLLERİ GİRİŞ

VERİ MADENCİLİĞİNDE KARAR AĞACI ALGORİTMALARI İLE BİLGİSAYAR VE İNTERNET GÜVENLİĞİ ÜZERİNE BİR UYGULAMA

KARAR TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

K En Yakın Komşu Methodu (KNearest Neighborhood)

Uzaktan Algılama Teknolojileri

Türev Uygulamaları ÜNİTE. Amaçlar. İçindekiler. Yazar Prof.Dr. Vakıf CAFEROV

Zeki Optimizasyon Teknikleri

İÇERİK PROGRAMLAMAYA GİRİŞ ALGORİTMA AKIŞ DİYAGRAMLARI PROGRAMLAMA DİLLERİ JAVA DİLİNİN YAPISI JAVA DA KULLANILAN VERİ TİPLERİ JAVA DA PROGRAM YAZMA

PROGRAMLAMAYA GİRİŞ VE ALGORİTMA. Yazılım Nedir Algoritma Akış Seması Örnekler

Algoritma ve Akış Şemaları

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Son yıllarda bilgisayar teknolojisinin ilerlemesiyle ön plana çıktı.

Fonksiyon Optimizasyonunda Genetik Algoritmalar

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

9. Güç ve Enerji Ölçümü

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Altın Oran Arama Metodu(Golden Search)

Algoritmalara Giriş Ekim 17, 2005 Massachusetts Institute of Technology Profesörler Erik D. Demaine ve Charles E. Leiserson Dağıtım 15.

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.




YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Algoritmalar ve Programlama. Algoritma

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

DBYYHY 2007 ve DEPREME KARŞI DAYANIKLI YAPI TASARIMI. Onur ONAT Tunceli Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü, Tunceli

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

KABLOSUZ İLETİŞİM

Akıllı Mürekkep Tasarrufları Kılavuzu

I. Analitik duyarlılık ve özgüllük II. Klinik duyarlılık ve özgüllük III. Kesinlik tekrarlanabilirlik IV. Doğruluk V. Doğrusallık (lineerite)

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUVARI LİNEER KRİPTANALİZ

PROBLEM ÇÖZME PROGRAMLAMA ve ÖZGÜN ÜRÜN GELİŞTİRME


MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA)

Borsa verileri Çağrı merkezine gelen arama sayısı Gün içerisinde bir dükkana gelen müşteri sayısı

BİLGİSAYAR PROGRAMLAMA Araş. Gör. Ahmet ARDAHANLI. Kafkas Üniversitesi Mühendislik Fakültesi

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları


SAYISAL ÇÖZÜMLEME. Sayısal Çözümleme

BİLGİSAYAR PROGRAMLAMA. Algoritma ve Akış Şemaları

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5 İN İNCELENMESİ. Müh. Savaş YILDIRIM



ç ç ç ç ç İ ç ç ç ç ç ç

Ü İ İ İ Ü İ İ

Makine Öğrenmesi 11. hafta

İstatistik ve Olasılık

ZAMAN SERİLERİNDE REGRESYON ANALİZİ

Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

YÖNEYLEM ARAŞTIRMASI-II Hafta 14


Shannon Bilgi Kuramı

Transkript:

Makine Öğrenmesi 3. hafta Entropi Karar Ağaçları (Desicion Trees) ID3 C4.5 Sınıflandırma ve Regresyon Ağaçları (CART) Karar Ağacı Nedir? Temel fikir, giriş verisinin bir kümeleme algoritması yardımıyla tekrar tekrar gruplara bölünmesine dayanır. Grubun tüm elemanları aynı sınıf etiketine sahip olana kadar kümeleme işlemi derinlemesine devam eder.

Karar Ağacı Nedir? Nem Güneşli Hava Bulutlu Yağmurlu Rüzgar Yüksek Normal Kuvvetli Hafif Hayır Hayır 3 Karar Ağacı Tipleri Entropiye dayalı sınıflandırma ağaçları (ID3, C4.5) ve Regresyon ağaçları (CART) olmak üzere iki kategoride birçok algoritma önerilmiştir. Önce entropiye dayalı karar ağaçlarını inceleyeceğiz. Bu algoritmaları iyi anlayabilmek için önce entropiyi iyi bilmek gerekmektedir. 4

Entropi, Belirsizlik ve Enformasyon Rassal bir değişkenin belirsizlik ölçütü olarak bilinen Entropi, bir süreç için tüm örnekler tarafından içerilen enformasyonun beklenen değeridir. Enformasyon ise rassal bir olayın gerçekleşmesine ilişkin bir bilgi ölçütüdür. Eşit olasılıklı durumlar yüksek belirsizliği temsil eder. Shannon a göre bir sistemdeki durum değiştiğinde entropideki değişim kazanılan enformasyonu tanımlar. Buna göre maksimum belirsizlik durumundaki değişim muhtemelen maksimum enformasyonu sağlayacaktır. 5 Enformasyon Aslında zıt şeyleri temsil etmelerine rağmen Shannon a göre maksimum belirsizlik maksimum enformasyon sağladığı için Enformasyon ve Belirsizlik terimleri benzerdir. Enformasyon (selfinformation) formülü aşağıdaki gibidir. Shannon bilgiyi bitlerle temsil ettiği için logartimayı iki tabanında kullanımıştır. I( x) = log = logp( x) P( x) 6 3

Entropi Shannon a göre entropi, iletilen bir mesajın taşıdığı enformasyonun beklenen değeridir. Shannon Entropisi (H) adıyla anılan terim, tüm a i durumlarına ait P i olasılıklarına bağlı bir değerdir. H( X) = E( I( X)) = = n i= P( x)log i i n P( x). I( x) i i = P( x) i n i= Plog i P i 7 Entropi Bir paranın havaya atılması olayı, rassal X sürecini temsil etsin. Yazı ve tura gelme olasılıkları eşit olduğu için X sürecinin entropisi aşağıdaki gibidir. H( X) = p i logp i i= = (0.5log 0.5+ 0.5log 0.5) = Entropisi olan para atma olayı (X) gerçekleştiğinde bitlik bilgi kazanılacaktır. 8 4

Karar Ağacında Entropi Karar ağaçları çok boyutlu (özellikli) veriyi belirlenmiş özellik üzerindeki bir şart ile parçalara böler. Her seferinde verinin hangi özelliği üzerinde hangi şarta göre işlem yapacağına karar vermek çok büyük bir kombinasyonun çözümüyle mümkündür. 5 özellik ve 0 örneğe sahip bir veride 0 6 dan fazla sayıda farklı karar ağacı oluşturulabilir. Bu sebeple her parçalanmanın metodolojik olması gerekir. 9 Karar Ağacında Entropi Quinlan e göre veri, bir özelliğe göre bölündüğünde elde edilen her bir veri kümesinin belirsizliği minimum ve dolayısıyla bilgi kazancı maksimum ise en iyi seçim yapılmış demektir. Buna göre önerdiği ilk algoritma ID3 te tek tek özellik vektörleri incelenir ve en yüksek bilgi kazancına sahip özellik, ağaçta dallanma yapmak için tercih edilir. 0 5

ID3 Algoritması Sadece kategorik veri ile çalışan bir yöntemdir. Her iterasyonun ilk adımında veri örneklerine ait sınıf bilgilerini taşıyan vektörün entropisi belirlenir. Daha sonra özellik vektörlerinin sınıfa bağımlı entropileri hesaplanarak ilk adımda hesaplanan entropiden çıkartılır. Bu şekilde elde edilen değer ilgili özellik vektörüne ait kazanç değeridir. En büyük kazanca sahip özellik vektörü ağacın o iterasyonda belirlenen dallanmasını gerçekleştirir. ID3 Örneği V A B B B V C C D D S E F E F özellik vektörü (V ve V) ile S sınıf vektörüne sahip 4 örnekli veri kümesi verilmiştir. ID3 algoritması ile ilk dallanma hangi özellik üzerinde gerçekleşir? H(S) - H(V,S) H(S) - H(V,S) 6

ID3 Örneği V A B B B V Entropisi V C C D D S E F E F Sınıf Entropisi H S) = log + log ( = V Entropisi 3 H( V) = H( A) + H( B) 4 4 3 = 0 log + log 4 4 3 3 3 = 0+ H( V) = H( C) + H( D) = + = 3 0,983 4 = 0,6887 3 V seçilir... 3 C4.5 Algoritması ID3 algoritmasının nümerik özellik içeren veriye uygulanabilen şeklidir. ID3 ten tek farkı nümerik özelliklerin kategorik hale getirilebilmesini sağlayan bir eşikleme yöntemini içermesidir. Temel mantık nümerik özellik vektöründeki tüm değerler ikili olarak ele alınarak ortalamaları eşik olarak denenir. Hangi eşik değeriyle bilgi kazanımı en iyi ise o değer seçilir. Seçilen eşiğe göre ö- zellik vektörü kategorize edilir ve ID3 uygulanır. 4 7

Kayıp Veri Eğer veride bazı örneklerin bazı özellikleri kayıpsa izlenecek iki yol vardır: Kayıp özelliklere sahip örnek veriden tamamen çıkartılır. Kayıp verilerle çalışabilecek şekilde algoritma düzenlenir. Eğer kayıplı örneklerin sayısı birinci seçenek uygulanamayacak kadar çoksa ikinci seçenek uygulanmalıdır. 5 Kayıp Veri Kayıp bilgiye sahip özellik vektörü için kazanç hesaplanırken kayıplı örnekler hariç tutularak bilgi kazancı normal şekilde hesaplanır ve daha sonra F katsayısıyla çarpılır. F, kayıpsız verinin tamamına oranıdır. IG( X) = F.( H( X) H( V, X)) 6 8

Kayıp Veri Kayıp bilgiye sahip özellik vektörü içinde en sık tekrarlanan değerin kayıp bilgi yerine yazılması da önerilen yöntemlerdendir. 7 Ezber (Overfitting) Tüm makine öğrenmesi yöntemlerinde verinin ana hatlarının modellenmesi esas alındığı için öğrenme modelinde ezberden (overfitting) kaçınılmalıdır. Tüm karar ağaçları önlem alınmazsa ezber yapar. Bu yüzden ağaç oluşturulurken veya oluşturulduktan sonra budama yapılmalıdır. 8 9

Ağaç Budama Budama, sınıflandırmaya katkısı olmayan bölümlerin karar ağacından çıkarılması işlemidir. Bu sayede karar ağacı hem sade hem de anlaşılabilir hale gelir. İki çeşit budama yöntemi vardır; ön budama sonradan budama 9 Ön Budama Ön budama işlemi ağaç oluşturulurken yapılır. Bölünen nitelikler, değerleri belli bir eşik değerinin (hata toleransının) üstünde değilse o noktada ağaç bölümleme işlemi durdurulur ve o an elde bulunan kümedeki baskın sınıf etiketi, yaprak olarak oluşturulur. 0 0

Sonradan Budama Sonradan budama işlemi ağaç oluşturulduktan sonra devreye girer. Alt ağaçları silerek yaprak oluşturma, alt ağaçları yükseltme, dal kesme şeklinde yapılabilir. Ağaç Budama Nem Güneşli Hava Bulutlu Yağmurlu Rüzgar Yüksek Hayır 35 Normal 5 5 Kuvvetli Hayır 5 Hafif Hata toleransı %33 seçilirse Nem düğümünün alt dallarındaki oranı %30 dur. Bu yüzden Nem düğümü budanıp yerine Hayır yaprağı konur. 0

Ağaç Budama Hayır Güneşli Hava Bulutlu Yağmurlu Rüzgar Kuvvetli Hafif Hayır 3 Sınıflandırma ve Regresyon Ağaçları (CART) CART karar ağaçlarının temel prensibi herbir düğümde ağacı iki dala ayırmasıdır. En çok bilinen iki algoritması: Twoing algoritması Gini algoritması 4

MATLAB Uygulaması >edit C4_5_ornek.m Data isimli dataset yüklenerek üzerinde C 4.5 algoritması deneyi yapılmaktadır. Haritalama için kullanılan Matlab grafik komutlarını ve C4-5 komutu üzerinde farklı deneyler yapılarak kodlar irdelenmelidir. 5 ÖDEVLER Aşağıdaki CART algoritmalarını MATLAB de hazırlayınız. Twoing Gini 6 3