Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir



Benzer belgeler
tree) nedir? Karar Ağacı (Decision Decisiontree

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Gözetimli & Gözetimsiz Öğrenme

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

Veri madenciliği yöntemleri

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

BCA605 Bilgisayar Oyunlarında Yapay Zeka

Makine Öğrenmesi 3. hafta

Karar Ağacı Öğrenmesi(Decision Tree Learning)

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Metin Sınıflandırma. Akış

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

K En Yakın Komşu Methodu (KNearest Neighborhood)

Uzaktan Algılama Teknolojileri

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Hafta 05 - Karar Ağaçları/Kümeleme

Topluluk Algoritması Destekli Yarı-eğiticili Öğrenme Semi-supervised Learning Based on Ensemble Algorithm

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

CBS ve Coğrafi Hesaplama

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Karar Ağaçları İle Uydu Görüntülerinin Sınıflandırılması: Kocaeli Örneği

Zeki Optimizasyon Teknikleri

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Karar Ağacı Öğrenmesi(Decision Tree Learning)

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Türkçe Dokümanlar Ġçin Yazar Tanıma

2014-halen Ankara Üniversitesi, Bilgisayar Mühendisliği Yüksek Lisans halen Süleyman Demirel Üniversitesi, Bilgisayar Programcılığı

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Görüntü Sınıflandırma

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Otomatik Doküman Sınıflandırma

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Regresyon ve Sınıflandırma

Karar Ağaçları Destekli Vadeli Mevduat Analizi

Makine Öğrenmesine Giriş (Machine Learning ML)

Karar Ağaçları Destekli Vadeli Mevduat Analizi. Bank Deposit Analysis Based on Decision Tree

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

[ülke] sınırları içinde para çekersem komisyon ücreti öder miyim? Belirli bir ülkede para çekmenin komisyon ücretine tabi olup olmadığını sormak

Can I withdraw money in [country] without paying fees? Belirli bir ülkede para çekmenin komisyon ücretine tabi olup olmadığını sormak

Karaciğer Yetmezliğinin Teşhisinde Makine Öğrenmesi Algoritmalarının Kullanımı. In the Diagnosis of Liver Failure Using Machine Learning Algorithms

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

Veri Madenciliği - Giriş. Erdem Alparslan

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Araştırma Görevlisi İSMAİL ÇÖLKESEN

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Gevşek Hesaplama (COMPE 474) Ders Detayları

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

İTÜ LİSANSÜSTÜ DERS KATALOG FORMU (GRADUATE COURSE CATALOGUE FORM)

Örüntü Tanıma (COMPE 467) Ders Detayları

Uzaktan Algılama Uygulamaları

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

YAPAY ZEKA (Artificial Intelligence)

WEB SAYFALARINA İLİŞKİN YAPAY SİNİR AĞLARI İLE SINIFLANDIRMA YÖNTEMİ

A New Approach for Named Entity Recognition

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Veri Madenciliği Eğiticili Algoritmalar. Erdem Alparslan

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

ÖZGEÇMİŞ VE ESERLER LİSTESİ

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 1 ( yılı ve sonrasında birinci

Doğal Dil İşlemede Eğilimler. Önceden: Yapay Zeka Tabanlı, tam olarak anlama. Şimdiki: Külliyat(Corpus)-tabanlı, İstatistiki, makine öğrenmesi içeren

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Instance Based Learning k-nn. YZM 3226 Makine Öğrenmesi

10İşgücü Labour Force

KNN, NN, BAYES, DT ve SVM Kullanılarak EKG Vurularının Sınıflandırılması

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

MEH535 Örüntü Tanıma

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5 İN İNCELENMESİ. Müh. Savaş YILDIRIM

DAO İLE SQL KOMUTLARI. Sql komutlarını artık veri tabanında kullanmaktan başka çaremiz yok arkadaşlar. Şimdi bu sql derslerimize başlayalım.

Karar Ağaçları. Karar Ağaçları. Arş. Gör. Melike ERDOĞAN

Otomatik Doküman Sınıflandırma

ÖZGEÇMİŞ. 2. Doğum Yeri ve Tarihi : Washington DC - 22 Temmuz Derece Alan Üniversite Yılı Bilgisayar-Kontrol Marmara Üniversitesi

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

ÖZGEÇMİŞ. Doç Doçent Doktor Bilgisayar Mühendisliği GAÜ Yrd. Doç Doç. Doktor Bilgisayar Mühendisliği GAÜ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Bursa. Anket Sonuçları

Lesson 11 Weather and Seasons Hava Durumu ve Mevsimler

FARKLI YÖNTEMLERLE SINIFLANDIRILMIŞ UYDU GÖRÜNTÜLERİNİN BENZERLİK KARŞILAŞTIRMASI. Tolga BAKIRMAN 1

Transkript:

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir Eğiticisiz (unsupervised) öğrenme: Kümeleme (clustering) Hangi nesnenin hangi sınıfa ait olduğu ve grup sayısı belirsizdir. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 2

Sınıflamanın temel kuralları: Öğrenme eğiticilidir Veri setinde bulunan her örneğin bir dizi niteliği vardır ve bu niteliklerden biri de sınıf bilgisidir. Hangi sınıfa ait olduğu bilinen nesneler (öğrenme kümesi- training set) ile bir model oluşturulur Oluşturulan model öğrenme kümesinde yer almayan nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür SMY 535, Veri Madenciliği, Güz 2015, Ders #7 3

Table 3.1 The Credit Card Promotion Database Örnekler (intances, samples) Income Life Insurance Credit Card Range Promotion Insurance Sex Age 40 50K No No Male 45 30 40K Yes No Female 40 40 50K No No Male 42 30 40K Yes Yes Male 43 50 60K Yes No Female 38 20 30K No No Female 55 30 40K Yes Yes Male 35 20 30K No No Male 27 30 40K No No Male 43 30 40K Yes No Female 41 40 50K Yes No Female 43 20 30K Yes No Male 29 50 60K Yes No Female 39 40 50K No No Male 55 20 30K Yes Yes Female 19 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 4

Özellikler, nitelikler (features) Table 3.1 The Credit Card Promotion Database Income Life Insurance Credit Card Range Promotion Insurance Sex Age 40 50K No No Male 45 30 40K Yes No Female 40 40 50K No No Male 42 30 40K Yes Yes Male 43 50 60K Yes No Female 38 20 30K No No Female 55 30 40K Yes Yes Male 35 20 30K No No Male 27 30 40K No No Male 43 30 40K Yes No Female 41 40 50K Yes No Female 43 20 30K Yes No Male 29 50 60K Yes No Female 39 40 50K No No Male 55 20 30K Yes Yes Female 19 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 5

Sınıflandırma Yöntemleri: Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler:k en-yakın komşu Bayes Sınıflandırıcı (Bayes Classifier) Rule-Based Classification Support Vector Machines Genetik Algoritmalar (Genetic Algorithms) Yapay Sinir Ağları (Artificial Neural Networks) And many more SMY 535, Veri Madenciliği, Güz 2015, Ders #7 6

Table 3.1 The Credit Card Promotion Database Income Life Insurance Credit Card Range Promotion Insurance Sex Age 40 50K No No Male 45 30 40K Yes No Female 40 40 50K No No Male 42 30 40K Yes Yes Male 43 50 60K Yes No Female 38 20 30K No No Female 55 30 40K Yes Yes Male 35 20 30K No No Male 27 30 40K No No Male 43 30 40K Yes No Female 41 40 50K Yes No Female 43 20 30K Yes No Male 29 50 60K Yes No Female 39 40 50K No No Male 55 20 30K Yes Yes Female 19 Köke gelir aralığı özniteliği yerleştirilmiş bir kısmi karar ağacı 20-30K 30-40K Income Range 40-50K 50-60K 2 Yes 2 No 4 Yes 1 No 1 Yes 3 No 2 Yes SMY 535, Veri Madenciliği, Güz 2015, Ders #7 7

Table 3.1 The Credit Card Promotion Database Income Life Insurance Credit Card Range Promotion Insurance Sex Age 40 50K No No Male 45 30 40K Yes No Female 40 40 50K No No Male 42 30 40K Yes Yes Male 43 50 60K Yes No Female 38 20 30K No No Female 55 30 40K Yes Yes Male 35 20 30K No No Male 27 30 40K No No Male 43 30 40K Yes No Female 41 40 50K Yes No Female 43 20 30K Yes No Male 29 50 60K Yes No Female 39 40 50K No No Male 55 20 30K Yes Yes Female 19 Köke kredi kartı sigortası özniteliği yerleştirilmiş bir kısmi karar ağacı Credit Card Insurance No Yes 6 Yes 6 No 3 Yes 0 No SMY 535, Veri Madenciliği, Güz 2015, Ders #7 8

Karar ağaçları eğiticili öğrenme için çok yaygın bir yöntemdir. Algoritmanın adımları: 1. T öğrenme kümesini oluştur 2. T kümesindeki örnekleri en iyi ayıran niteliği belirle 3. Seçilen nitelik ile ağacın bir düğümünü oluştur ve bu düğümden çocuk düğümleri veya ağacın yapraklarını oluştur. Çocuk düğümlere ait alt veri kümesinin örneklerini belirle 4. 3. adımda yaratılan her alt veri kümesi için Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlemi sonlandır. Diğer durumda alt veri kümesini ayırmak için 2. adımdan devam et. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 9

1. Adım: Veri setinden T öğrenme kümesi oluşturulur. Weekend (Example) Weather Parents Money Decision (Category W1 Sunny Yes Rich Cinema W2 Sunny No Rich Tennis W3 Windy Yes Rich Cinema W4 Rainy Yes Poor Cinema W5 Rainy No Rich Stay in W6 Rainy Yes Poor Cinema W7 Windy No Poor Cinema W8 Windy No Rich Shopping W9 Windy Yes Rich Cinema W10 Sunny No Rich Tennis SMY 535, Veri Madenciliği, Güz 2015, Ders #7 10

2. Adım: Veri setindeki en ayırt edici nitelik belirlenir ve ağacın kökü olarak alınır. 3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 11

Bilgi Kazancı (Information Gain):ID3, C4.5 gibi karar ağacı metotlarında en ayırt edici niteliği belirlemek için her nitelik için bilgi kazancı ölçülür. Bilgi Kazancı ölçümünde Entropy kullanılır. Entropy rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 12

SMY 535, Veri Madenciliği, Güz 2015, Ders #7 13

Haftasonu veri kümesindeki (T kümesi) 10 örnekten 6 örnek için karar sinema 2 örnek için karar tenis oynamak 1 örnek için karar evde kalmak ve 1 örnek için karar alışverişe gitmek olduğuna göre Entropy: H(T)= - (6/10) log 2 (6/10) - (2/10) log 2 (2/10) - (1/10) log 2 (1/10) - (1/10) log 2 (1/10) H(T)= 1,571 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 14

A özniteliğinin T veri kümesindeki bilgi kazancı: Gain(T,A)=Entropy(T)-Σ P(v) Entropy(T(v)) v: Values of A P(v)= T(v) / T SMY 535, Veri Madenciliği, Güz 2015, Ders #7 15

Gain(T, weather)=? Sunny=3 (1 Cinema, 2 Tennis) Windy=4 (3 Cinema, 1 Shopping) Rainy=3 (2 Cinema, 1 Stay in) Entropy(T sunny )= - (1/3) log 2 (1/3) - (2/3) log 2 (2/3)=0,918 Entropy(T windy )= - (3/4) log 2 (3/4) - (1/4) log 2 (1/4) =0,811 Entropy(T rainy )= - (2/3) log 2 (2/3) - (1/3) log 2 (1/3) =0,918 Gain(T, weather) = Entropy(T)- ((P(sunny)Entropy(T sunny ) + P(windy) Entropy(T windy )+ P(rainy) Entropy(T rainy ) ) =1,571- ((3/10)Entropy(T sunny )+(4/10)Entropy(T windy )+ (3/10)Entropy(T rainy )) Gain(T, weather) =0,70 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 16

Gain(T, parents)=? Yes=5 (5 Cinema) No =5 (2 Tennis, 1 Cinema, 1 Shopping, 1 Stay in) Entropy(T yes )= - (5/5) log 2 (5/5) = 0 Entropy(T no )= - (2/5) log 2 (2/5) - 3(1/5) log 2 (1/5) =1,922 Gain(T, parents) = Entropy(T)- ((P(yes)Entropy(T yes ) + P(no) Entropy(T no )) =1,571- ((5/10)Entropy(T yes )+(5/10)Entropy(T no )) Gain(T, parents)=0,61 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 17

Gain(T, money)=? Rich=7 (3 Cinema, 2 Tennis, 1 Shopping, 1 Stay in) Poor=3 (3 Cinema) Entropy(T rich )= 1,842 Entropy(T poor )= 0 Gain(T, money) = Entropy(T)- ((P(rich)Entropy(T rich ) + P(poor) Entropy(T poor )) =1,571- ((7/10)Entropy(T rich )+(3/10)Entropy(T poor )) Gain(T, money)=0,2816 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 18

Gain(T, weather) =0,70 Gain(T, parents)=0,61 Gain(T, money)=0,2816 Weather özelliği en büyük bilgi kazancını sağladığı için ağacın kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici özellik olarak bulunmuş olur. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 19

3. Adım: Ağacın çocuk düğümü olan A düğümüne ait alt veri kümesi belirlenir. Her alt küme için tekrar bilgi kazancı hesaplanarak en ayırt edici özellik belirlenir. SMY 535, Veri Madenciliği, Güz 2015, Ders #7 20

Yeni düğüm için en ayırt edici özellik Parents olarak belirlenmiştir. Bu işlemler her düğüm için aşağıdaki durumlardan biri oluşuncaya kadar devam eder Örneklerin hepsi aynı sınıfa ait Örnekleri bölecek özellik kalmamış Kalan özelliklerin değerini taşıyan örnek yok SMY 535, Veri Madenciliği, Güz 2015, Ders #7 21

Sınıf bilgisi Buys IPad? kolonu olan aşağıdaki data tablosu için Information Gain ölçümünü kullanarak bir Karar Ağacı oluşturun. (Age=Middle, Income=Middle, Student=Yes) şeklinde verilen yeni bir örnek için, IPad satın alıp almayacağını, ürettiğiniz karar ağacını kullanarak tahmin edin. Age Income Student Buys IPad? Young High No No Middle High No Yes Old Middle No Yes Old Low Yes No Middle Low Yes Yes Young Middle No No Young Low Yes Yes Old Middle Yes Yes Young Middle Yes Yes Middle Middle No No Middle High Yes Yes Hesaplama kolayligi icin asagida verilen Entory tablosunu kullanabilirsiniz. I n, m = I m, n = n n + m log 2 n n + m m n + m log 2 m n + m n\m 0 1 2 3 4 5 6 7 8 9 10 0 1 0 1 2 0 0.918 1 3 0 0.811 0.971 1 4 0 0.722 0.918 0.985 1 5 0 0.65 0.863 0.954 0.991 1 6 0 0.592 0.811 0.918 0.971 0.994 1 7 0 0.544 0.764 0.881 0.946 0.98 0.996 1 8 0 0.503 0.722 0.845 0.918 0.961 0.985 0.997 1 9 0 0.469 0.684 0.811 0.89 0.94 0.971 0.989 0.998 1 10 0 0.439 0.65 0.779 0.863 0.918 0.954 0.977 0.991 0.998 1 SMY 535, Veri Madenciliği, Güz 2015, Ders #7 22