Veri Madenciliği. Bölüm 6. Sınıflandırma 2

Benzer belgeler

Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Gözetimli & Gözetimsiz Öğrenme

Web Madenciliği (Web Mining)

Tanı Testlerinin Değerlendirilmesi. ROC Analizi. Prof.Dr. Rian DİŞÇİ

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

K En Yakın Komşu Methodu (KNearest Neighborhood)

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Instance Based Learning k-nn. YZM 3226 Makine Öğrenmesi

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

tree) nedir? Karar Ağacı (Decision Decisiontree

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

Web Madenciliği (Web Mining)

İstatistik 1. Bölüm 5 Olasılık Teorisi ve Kesikli Olasılık Dağılımları. Ankara Üniversitesi SBF, GYY

TANI TESTLERINE GIRIŞ & ROC ANALİZİ

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Uzaktan Algılama Teknolojileri

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Hastalıklarda Risk Faktörleri ve Tarama Tanı ve Tedavi Etkinliği İstatistikleri. A.Ayça ÖZDEMİR

Veri Madenciliği Karar Ağacı Oluşturma

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Adım Adım SPSS. 1- Data Girişi ve Düzenlemesi 2- Hızlı Menü. Y. Doç. Dr. İbrahim Turan Nisan 2011

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Web Madenciliği (Web Mining)

Makine Öğrenmesi 3. hafta

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

BAYES KURAMI. Dr. Cahit Karakuş

1 I S L U Y G U L A M A L I İ K T İ S A T _ U Y G U L A M A ( 5 ) _ 3 0 K a s ı m

WEEK 11 CME323 NUMERIC ANALYSIS. Lect. Yasin ORTAKCI.

Veri Madenciliği - Giriş. Erdem Alparslan

Veri madenciliği yöntemleri

VERİ MADENCİLİĞİ Metin Madenciliği

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

BBM Discrete Structures: Final Exam Date: , Time: 15:00-17:00

Hafta 05 - Karar Ağaçları/Kümeleme

Olasılık teorisi, matematiğin belirsizlik taşıyan olaylarla ilgilenen bir dalıdır. Bu bilim dalı rasgele değişkenleri inceler.

Görüntü Sınıflandırma

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

SPSS (Statistical Package for Social Sciences)

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

Markov Zinciri Monte Carlo Yaklaşımı. Aktüeryal Uygulamaları

Unlike analytical solutions, numerical methods have an error range. In addition to this

Yarışma Sınavı A ) 60 B ) 80 C ) 90 D ) 110 E ) 120. A ) 4(x + 2) B ) 2(x + 4) C ) 2 + ( x + 4) D ) 2 x + 4 E ) x + 4

Regresyon ve Sınıflandırma

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Bölüm 6. Diziler (arrays) Temel kavramlar Tek boyutlu diziler Çok boyutlu diziler

Zeki Optimizasyon Teknikleri

A New Approach for Named Entity Recognition

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Nitel Tepki Bağlanım Modelleri

Veri Madenciliği Eğiticili Algoritmalar. Erdem Alparslan

Örnek Bir zar atıldığında zarın üstünde bulunan noktaların sayısı gözlensin. Çift sayı gelmesi olasılığı nedir? n(s) = 3 6 = 1 2

Dilbilgisi ve Diller

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Final Sınavı Örnek Soruları Bahar 2018

İstatistik ve Olasılık

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

İki Rastgele Değişken

Yüz Tanımaya Dayalı Uygulamalar. (Özet)

Mann-Whitney U ve Wilcoxon T Testleri

Appendix B: Olasılık ve Dağılım Teorisi

Appendix C: İstatistiksel Çıkarsama

Korelasyon ve Regresyon

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Týpta Karar Süreçlerinde Belirsizlik ve Bayes Yaklaþýmý

Korelasyon ve Regresyon

Exponential Distribution. diger. Probability Distributions. Sürekli Şans Değişkenleri. 0 diger. SÜREKLİ RASSAL DEĞİŞKENLER ve OLASILIK DAĞILIMLARI

Bilgisayarla Görüye Giriş

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.

BBM Discrete Structures: Midterm 2 Date: , Time: 16:00-17:30. Question: Total Points: Score:

BMÜ-111 ALGORİTMA VE PROGRAMLAMA AKIŞ KONTROLÜ YRD. DOÇ. DR. İLHAN AYDIN

Türkçe Dokümanlar Ġçin Yazar Tanıma

Sayı: / 13 Haziran 2012 EKONOMİ NOTLARI. Belirsizlik Altında Yatırım Planları

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

AYRIK YAPILAR ARŞ. GÖR. SONGÜL KARAKUŞ- FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ YAZILIM MÜHENDİSLİĞİ BÖLÜMÜ, ELAZIĞ

*Bir boyutlu veri (bir özellik, bir rasgele değişken, bir boyutlu dağılım): ( x)

Multiplication/division

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

SPPS. Verileri Düzenleme ve Değiştirme 3 - Data Menüsü. Y. Doç. Dr. İbrahim Turan Nisan 2011

Transkript:

Bölüm 6. Sınıflandırma 2 http://ceng.gazi.edu.tr/~ozdemir Karar Ağacı Örnek Algoritma: ID3 Bütün nitelikler ayrık Bir düğüm oluştur N: Eğer örneklerin hepsi C sınıfına ait ise, N düğümü C etiketli yaprak Eğer karşılaştırma yapılacak nitelik yoksa N düğümü en çok örneği olan sınıf En büyük bilgi kazancı olan niteliği bölmek için seç N yi seçilen nitelik ile etiketle Niteliğin her A i değeri için bir dal oluştur S i, örneklerin hepsinin A i değeri aldığı dal S i boş, bir yaprak oluşturup en çok örneği olan sınıfla etiketle S i boş değil, algoritmayı S i düğümü üzerinde yinele Yaprak düğümlere kadar Ayrıntılı bilgiler: http://dms.irb.hr/tutorial/tut_dtrees.php 2/84 1

Karar Ağacı Kullanarak Sınıflandırma Doğrudan sınıflandırmak istenilen örneğin nitelikleri ağaç boyunca sınanır ulaşılan yaprağın etiketi sınıf bilgisini verir Dolaylı karar ağacı sınıflandırma kurallarına dönüştürülür kökten yaprakların herbirine giden yollar için ayrı bir kural oluşturulur IF-THEN şeklinde kuralları insanlar daha kolay anlıyor Örnek: IF Outlook= sunny AND humidity= normal THEN play tennis 3/84 Karar Ağaçlarında Aşırı Öğrenme Öğrenmekümesindeki örneklerin azlığı veya gürültülü olması Aşırı öğrenmeyi engelleyen yaklaşım(budama) işlemi erken sona erdirme işlemi sona erdirmek için eşik değeri belirlemek gerekiyor karar ağacı oluştuktan sonra ağacı küçültme 4/84 2

Karar ağaçlarında aşırı öğrenme Gürültüden dolayı aşırı öğrenme Aşağıdaki öğrenme kümesinde yarasa ve balina yanlış sınıf etiketine sahiptir. Sınıf etiketi = memeli mi? Cins Vücut Sıcaklığı Doğum Yapma 4-bacaklı Kış uykusu Sınıf etiketi Kirpi Sıcakkanlı Evet Evet Evet Evet Kedi Sıcakkanlı Evet Evet Hayır Evet Yarasa Sıcakkanlı Evet Hayır Evet Hayır Balina Sıcakkanlı Evet Hayır Hayır Hayır Semender Soğukkanlı Hayır Evet Evet Hayır Komodo Ejderi Soğukkanlı Hayır Evet Hayır Hayır Piton Soğukkanlı Hayır Hayır Evet Hayır Alabalık Soğukkanlı Hayır Hayır Hayır Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır Öğrenme kümesi 5/84 Karar ağaçlarında aşırı öğrenme sıcakkanlı Vücut sıcaklığı soğukkanlı sıcakkanlı Vücut sıcaklığı soğukkanlı evet Doğum yapma Memeli değil hayır evet Doğum yapma Memeli değil hayır evet Memeli 4-bacaklı hayır Memeli değil M1 Memeli değil Memeli M2 Memeli değil Cins Vücut Sıcaklığı Doğum Yapma 4-bacaklı Kış uykusu Sınıf etiketi Kirpi Sıcakkanlı Evet Evet Evet Evet Kedi Sıcakkanlı Evet Evet Hayır Evet Yarasa Sıcakkanlı Evet Hayır Evet Hayır Balina Sıcakkanlı Evet Hayır Hayır Hayır Semender Soğukkanlı Hayır Evet Evet Hayır Komodo Ejderi Soğukkanlı Hayır Evet Hayır Hayır Piton Soğukkanlı Hayır Hayır Evet Hayır Alabalık Soğukkanlı Hayır Hayır Hayır Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır 6/84 3

Karar ağaçlarında aşırı öğrenme Model 1 (M1) öğrenme kümesinde 0 hata verirken, sınama kümesinde %40 hata verir İnsan ve yunus yanlış etiketlenir Model 2 (M2) öğrenme kümesinde %20 hata verirken, sınama kümesinde hata vermez Budanmış ağaç 4-bacaklı niteliği gürültülü veriden dolayı aşırı öğrenmeye neden olmuştur. Cins Vücut Sıcaklığı Doğum Yapma 4-bacaklı Kış uykusu Sınıf etiketi İnsan Sıcakkanlı Evet Hayır Hayır Evet Güvercin Sıcakkanlı Hayır Hayır Hayır Hayır Fil Sıcakkanlı Evet Evet Hayır Evet Yunus Sıcakkanlı Evet Hayır Hayır Evet Kaplumbağa Soğukkanlı Hayır Evet Hayır Hayır Sınama kümesi 7/84 Karar ağaçlarında aşırı öğrenme Öğrenme kümesinin küçüklüğünden dolayı aşırı öğrenme evet Memeli sıcakkanlı evet 4-bacaklı Kış uykusu hayır Memeli değil Vücut sıcaklığı Memeli değil hayır Memeli değil soğukkanlı Cins Vücut Sıcaklığı Doğum Yapma 4-bacaklı Kış uykusu Sınıf etiketi Poorwill Sıcakkanlı Hayır Hayır Evet Hayır Platypus Sıcakkanlı Hayır Evet Evet Evet Semender Soğukkanlı Hayır Evet Evet Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır Öğrenme kümesi Cins Vücut Sıcaklığı Doğum Yapma 4-bacaklı Kış uykusu Sınıf etiketi İnsan Sıcakkanlı Evet Hayır Hayır Evet Güvercin Sıcakkanlı Hayır Hayır Hayır Hayır Fil Sıcakkanlı Evet Evet Hayır Evet Yunus Sıcakkanlı Evet Hayır Hayır Evet Kaplumbağa Soğukkanlı Hayır Evet Hayır Hayır Sınama kümesi 8/84 4

Karar ağaçlarında aşırı öğrenme Oluşan karar ağacının, öğrenme kümesindeki hata oranı sıfır, test kümesinde ise %60 İnsan, fil ve yunus yanlış etiketlenir Kış uykusuna yatmayan tüm sıcakkanlılar memeli-değil olarak etiketlenir Bu duruma uyan sadece kartal vardır Öğrenme kümesi küçük olduğu için ağaç aşırı öğrenmiştir 9/84 Karar Ağaçlarında Budama Ağaç oluşturulurken budama (pre-pruning) eşikdeğer belirle Ağaç oluştuktan sonra budama (post-pruning) 10/84 5

Pre-Pruning Stop the algorithm before it becomes a fully-grown tree Typical stopping conditions for a node: Stop if all instances belong to the same class Stop if all the attribute values are the same More restrictive conditions: Stop if number of instances is less than some user-specified threshold Stop if class distribution of instances are independent of the available features (e.g., using χ 2 test) Stop if expanding the current node does not improve impurity measures (e.g., Gini or information gain). 11/84 Post-pruning Grow decision tree to its entirety Trim the nodes of the decision tree in a bottom-up fashion If generalization error improves after trimming, replace subtree by a leaf node. Class label of leaf node is determined from majority class of instances in the sub-tree 12/84 6

En iyi bölen ölçütleri - Değerlendirme Karar ağacı oluştururken en iyi bölen nitelik için 3 tane ölçüt gördük Information gain: Çok çeşitli değerler (multivalued) alan nitelikleri seçme eğilimindedir Gain ratio: Dengesiz bölünmeler yapma eğilimindedir (one partition is much smaller than the others) Giniindex: Çok çeşitli değerler (multivalued) alan nitelikleri seçme eğilimindedir Dengeli bölünmeler yapar (hem boyut hem de saflık açısından) Sınıf sayısı çok olduğunda iyi çalışmayabilir 13/84 Karar Ağacı Kullanarak Sınıflandırma- Değerlendirme Avantajları: Karar ağacı oluşturmak zahmetsiz Küçük ağaçları yorumlamak kolay Anlaşılabilir kurallar oluşturulabilir Sürekli ve ayrık nitelik değerleri için kullanılabilir Dezavantajları: Sürekli nitelik değerlerini tahmin etmekte çok başarılı değil Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturma çok başarılı değil Zamanveyerkarmaşıklığıöğrenmekümesiörneklerisayısına(q), nitelik sayısına(h) ve oluşan ağacın yapısına bağlı. Büyük öğrenme kümeleri için ağaçoluşturmakarmaşıklığıfazla, ağaç budama karmaşıklığı fazla 14/84 7

İstatistik ve Olasılık 15/84 Random Variables / Rasgele Değişkenler Random variable olasılığın temel elemanı. Çıktısı belirsizlik içeren olay havaya atılan para olayı bir random variable dır. 16/84 8

Boolean Random Variables Boolean random variables Trueya dafalsedeğeri alırlar Bir olayın olması ya da olmaması Örnek(A bir Boolean random variable): A= Paranın yazı gelmesi A= Bugün yağmur yağacak 17/84 Olasılık P(A = true)ifadesia = trueolma olasılığını ifade eder. Olasılık: It is the relative frequency with which an outcome would be obtained if the process were repeated a large number of times under similar conditions Kırmızı ve mavi alanın toplamı 1 P(A = true) P(A = false) 18/84 9

Koşullu olasılık P(A = true B = true) =B nin doğru olduğu durumların kaç tanesinde aynı zamanda A da doğru. Probability of Aconditioned on B or Probability of Agiven B P(F = true) P(H = true) H = Baş ağrısı F = Nezle olmak P(H = true) = 1/10 P(F = true) = 1/40 P(H = true F = true) = 1/2 19/84 Koşullu olasılık P(A = true, B = true)ifadesi A = trueveb = true olma olasılığını ifade eder. P(F = true) P(H = true) P(H=true F=true) Area of "H and F" region = Area of "F" region P(H = true,f = true) = P(F = true) P(X Y)=P(X,Y)/P(Y) 20/84 10

Ortak olasılık dağılımı Örnek: P(A = true, B = true, C = true) Her kombinasyon için sonuç gösterilir Tüm kombinasyonların olasılıklarının toplamı 1 dir A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true 0.15 Toplam 1 21/84 Ortak olasılık dağılımı Ortak olasılık dağılım tablosu oluşturulduktan sonra A, B, and C yi içeren tüm olayların olasılığı hesaplanabilir. A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true 0.15 Örnek: P(A=true) = sum of P(A,B,C) in rows with A=true P(A=true, B = true C=true) = P(A = true, B = true, C = true) / P(C = true) 22/84 11

Ortak olasılık dağılımı: Problem Çok fazla hesaplanacak olasılık var. k tane Boolean random variable için2 k tane olasılık hesaplanır. Azaltmak için bağımsızlık konsepti kullanılır A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true 0.15 23/84 Bağımsızlık AveBdeğişkenleri aşağıdakilerden birisi doğru olduğunda bu iki olay birbirinden bağımsızdır. P(A,B)= P(A)P(B) P(A B)= P(A) P(B A)= P(B) Anın sonucunu bilmek Bhakkında hiçbir bilgi vermiyor. 24/84 12

Bağımsızlık Neden bağımsızlık işe yarıyor? Bir parayı ndefa attığımızı ve P(C 1,, C n )yi hesaplamak istediğimizi düşünelim. Para atışları bağımsız değilse, 2 n tane değer tabloda hesaplanmak zorunda. Para atışları bağımsız ise, sadece P( C n 1,..., Cn) = P( C i ) i= 1 değerini hesaplamak yetecektir. 25/84 Koşullu bağımsızlık Aşağıdakilerden birisi doğru ise Ave Bdeğişkenleri Cye göre koşullu olarak bağımsızdır. P(A, B C)= P(A C)P(B C) P(A B, C)= P(A C) P(B A, C)= P(B C) 26/84 13

İstatistiksel Modelleme- Bayes Bayes teoremini kullanan istatistiksel sınıflandırıcı Örneklerin hangi sınıfa hangi olasılıkla ait olduklarını hesaplar Naïve Bayes sınıflandırıcı niteliklerin hepsi aynı derecede önemli nitelikler birbirinden bağımsız bir niteliğin değeri başka bir nitelik değeri hakkında bilgi içermiyor 27/84 Bayesian Teori Xveri örneği: sınıf etiketi bilinmiyor (Sadece age ve income niteliklerinden oluşan bir kişi: age:youth,income:medium ) H bir hipotez: X kişisi C sınıfına aittir Sınıflandırma: P(H X) değerini (X veri örneği için H hipotezinin tutma ihtimalini) belirlemek. P(H) önceki olasılık (prior probability) Herhangi bir örnek için hipotezin tutma olasılığı. Herhangi bir örneğin bilgisayar alacaklar sınıfına ait olma olasılığı (diğer niteliklerden bağımsız olarak) P(X)X in olma olasılığı Veri setindeki herhangi bir insanın youth ve medium income sahibi olma olasılığı. P(X H) sonrakiolasılık(posteriori probability), Hipotez H nin tutması durumunda X in olma olasılığı X in bilgisayar alacaklar sınıfında olduğu biliniyor, Xin youth ve medium income sahibi olma olasılığı. 28/84 14

Bayesian Teori Gözlemlenen örnek verix için, hipotez H nin sonraki olasılığı, P(H X), Bayes teoremi ile şöyle ifade edilir P ( H X) = P( X H) P( H) P( X) Veri madenciliği açısından, eğer P(C i X) diğer bütün P(C k X) değerlerinden büyükse örnek veri XC i sınıfına aittir Çok sayıda olasılığı önceden kestirmek gerekiyor, çok fazla hesap gerektirir Naïve Bayes Sınıflandırıcı X=(x 1,x 2,...x n ) örneğininc sınıfındaolmaolasılığı (P(C X)) nedir? P( X C ) P( C ) P ( C X) = i i değerini en büyük değere getir i P( X) P(X) her birsınıf için sabit P( C X ) = P( X C ) P( C ) i i i değerini en büyük değere getir 15

Naïve Bayes Sınıflandırıcı Basit bir kabul: nitelikler birbirinden bağımsız n P( X Ci) = P( x k = 1 Ci) = P( x Kategorik veri için P(C i )= S i / S, S i : C i sınıfınaaitörneklerinsayısı P(x k C i )=s ik / s i Hesaplama maliyetini azaltıyor, sadece sınıf dağılımları hesaplanıyor Naïve: nitelikler bağımsız k 1 Ci) P( x 2 Ci)... P( x n Ci) Naïve Bayes Sınıflandırıcı Sürekli veri için P(x k C i ) Gaussian dağılımıkullanılarakbulunur(μ=ortalama, σ=standart sapma) g ( x µ ) 1 2 2σ (, µ, σ ) x = e 2πσ P( X Ci) = g( x k, µ C i, σc ) i 2 32/84 16

Örnek(Kategorik veri) Sınıf: C1:buys_computer = yes C2:buys_computer = no Örnek veri X = (age = youth, Income = medium, Student = yes Credit_rating = Fair) 33/60 Örnek(devam) P(C i ): P(buys_computer= yes ) = 9/14 = 0.64 P(buys_computer = no ) = 5/14= 0.357 Her sınıf için P(X k C i ) yihesapla P(age = youth buys_computer= yes ) = 2/9 = 0.222 P(age = youth buys_computer= no ) = 3/5 = 0.6 P(income = medium buys_computer= yes ) = 4/9 = 0.444 P(income = medium buys_computer= no ) = 2/5 = 0.4 P(student = yes buys_computer= yes) = 6/9 = 0.667 P(student = yes buys_computer= no ) = 1/5 = 0.2 P(credit_rating = fair buys_computer = yes ) = 6/9 = 0.667 P(credit_rating= fair buys_computer= no ) = 2/5 = 0.4 X = (age =youth, income = medium, student = yes, credit_rating = fair) P(X C i ) :P(X buys_computer= yes ) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X buys_computer= no ) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X C i )*P(C i ) : P(X buys_computer= yes ) * P(buys_computer= yes ) = 0.028 P(X buys_computer = no ) * P(buys_computer = no ) = 0.007 Bu yüzden, X örnegi buys_computer = yes sınıfına aittir. 34/84 17

Örnek-2 X={E,65,172} verisinin beden sınıfını bayesiankuralına göre bulunuz? 35/84 Örnek-2 (devam) Veri önişleme -boy 150-160 arası 1. grup 161-170 arası 2. grup 171-180 arası 3. grup 181-190 arası 4. grup 190 ve üzeri 5. grup Veri önişleme -kilo 45-55 arası 1. grup 56-65 arası 2. grup 66-75 arası 3. grup 76-85 arası 4. grup 86-98 arası 5. grup 99 ve üzeri 6. grup Yeni tablo 36/84 18

Örnek-2 (devam) Kategorik hale getirildikten sonra: X={E, 65,172} X={E,2,3} P(C j ) değerleri P(küçük)=4/15=0.267, P(orta)=8/15=0.534, P(büyük)=3/15=0.2 Her sınıf için P(X k C i ) yi hesapla P(E Orta) = 3/8 = 0.375 P(E Küçük) = 3/4 = 0.75 P(E Büyük) = 2/3 = 0.667 P(3 Orta) = 2/8 = 0.25 P(3 Küçük) = 1/4 = 0.25 P(3 Büyük) = 1/3 = 0.333 P(2 Orta) = 4/8 = 0.5 P(2 Küçük) = 2/4 = 0.5 P(2 Büyük) = 0/3 = 0 X = (Cinsiyet=E, Kilo= 2, Boy= 3) P(X C i ) :P(X Beden= Orta ) = 0.375x 0.25x 0.5= 0.047 P(X Beden= Küçük ) = 0.75x 0.25x 0.5= 0.093 P(X Beden= Büyük ) = 0.667 x 0.333x 0 = 0 P(X C i )*P(C i ) : P(X Beden = Orta ) * P(Beden = Orta ) = 0.047*0.534= 0.025 P(X Beden = Küçük ) * P(Beden = Küçük ) = 0.093*0.267= 0.0248 P(X Beden= Büyük ) * P(Beden= Büyük ) = 0*0.2= 0 X örneği Orta bedene sahiptir. 37/84 Olasılığın Sıfır Olması Naïve Bayesian prediction her bir olasılığın sıfırdan büyük olmasınıgerektirir, aksitaktirdebütün olasılık sıfır olur n P( X Ci) = P( xk Ci) k = 1 Örnek: 1000 örneklikbirverisetinde, eğerincome=low (0), income= medium (990), veincome = high (10)ise Laplacian correction (Laplacian estimator) kullanılır Her birduruma1 eklenir Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 Veriseticokbüyük olduğu icinçok farketmez 19

Bayes Sınıflandırıcılar- Değerlendirme Avantajları: gerçeklemesi kolay çoğu durumda iyi sonuçlar Dezavantajları varsayım: sınıf bilgisi verildiğinde nitelikler bağımsız gerçek hayatta değişkenler birbirine bağımlı değişkenler arası ilişki modellenemiyor Çözüm: Bayes ağları 39/84 Bayes Ağları Bir hastanın akciğer şarbonu olup olmadığı araştırılıyor. Hastada aşağıdaki semptomlar gözleniyor: Öksürme Ateş Nefes almada güçlük 40/42 20

Bayes Ağları Bu semptomlar dahilinde hastanın akciğer şarbonu olma ihtimalini bulmaya çalışıyoruz. Semptomlara rağmen %100 emin olmadığımız için bir belirsizlik var. 41/42 Bayes Ağları X-ray sonucunda hastanın akciğerleri arasında genişleme olduğunu gördünüz. Şimdi hastanın şarbon olma olasılığına olan inancınız daha yüksek. Gözlemleriniz hastanın şarbon olmasına dair fikriniz etkiledi. Reasoning with uncertainty 42/42 21

Bayes Ağları Şarbon Öksürük Ateş Nefes Darlığı Geniş Akciğer Boşluğu 43/84 Örnek Bayes Ağı Bir Bayes Ağı aşağıdakilerden oluşur 1. Directed Acyclic Graph A B C D 2. Graphdaki her düğüm için bir tablo A P(A) false 0.6 true 0.4 A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 B D P(D B) false false 0.02 false true 0.98 true false 0.05 true true 0.95 B C P(C B) false false 0.4 false true 0.6 true false 0.9 true true 0.1 44/60 22

A Directed Acyclic Graph Her düğüm bir random variable A Ais a parent of B B C D Bden Cye olan ok işareti Bnin C üzerinde bir etkisi olduğunu gösterir 45/60 Her düğüm için bir tablo A P(A) false 0.6 true 0.4 A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 Her düğüm X i Parentlerinin etkisini gösteren P(X i Parents(X i )) koşullu olasılık tablosuna sahiptir. B C P(C B) false false 0.4 false true 0.6 true false 0.9 true true 0.1 C A B D B D P(D B) false false 0.02 false true 0.98 true false 0.05 true true 0.95 46/60 23

Bayes Ağları İki önemli özelliğe sahiptirler: 1. Değişkenler arasındaki koşullu olasılık ilişkilerini bir graph yapısı üzerinde tutar 2. Değişkenler arasındaki Ortak olasılık dağılımının kompakt bir gösterimidir. 47/84 Koşullu bağımsızlık Markov koşulu given its parents (P 1, P 2 ),a node (X) is conditionally independent of its nondescendants (ND 1, ND 2 ) olduğunu gösterir. P 1 P 2 ND 1 X ND 2 C 1 C 2 48/84 24

Ortak olasılık dağılımı Markov koşuluna göre Bayes ağındaki tüm X i düğümlerinin ortak olasılığı aşağıdaki formüle göre bulunabilir: n P( X1 = x1,..., X = x ) = P( X = x Parents( X )) n n i= 1 i i i Parents(X i ) ifadesi graphda X i nin Parentleridir 49/84 Bayes Ağı: Örnek P(A = true, B = true, C = true, D = true)hesaplanacak: P(A = true, B = true, C = true, D = true) = P(A = true) * P(B = true A = true) * P(C = true B = true)* P( D = true B = true) = (0.4)*(0.3)*(0.1)*(0.95) A B C D 50/84 25

Bayes Ağı: Örnek P(A = true, B = true, C = true, D = true) = P(A = true) * P(B = true A = true) * P(C = true B = true)*p( D = true B = true) = (0.4)*(0.3)*(0.1)*(0.95) Graph yapısından A Tablolardan alınan değerler B C D 51/84 Çıkarım Bayes ağlarında olasılık hesabı çıkarım olarak adlandırılır. Genel ifadesi: P( X E ) E = Belirtiler / evidence variable(s) X = Sorgu / query variable(s) 52/84 26

Çıkarım Şarbon Öksürük Ateş Nefes Darlığı Geniş Akciğer Boşluğu Örnek: P( şarbonvar= true ateşvar= true, öksürükvar = true) 53/84 Ağ oluşturma Bayes ağı nasıl oluşturulur? Alandaki bir uzman Veri incelemesi 54/84 27

Diğer Sınıflandırma Yöntemleri Örnek Tabanlı Yöntemler(tembel-lazy yöntemler) Öğrenmekümesinisaklar. Sınıflandırılacak yeni bir örnek geldiğinde öğrenme kümesi sınıf etiketini öngörmek için kullanılır Örnek yöntemler: k-en yakın komşu yöntemi(k-nearest neighbor approach) Her veri uzayda bir nokta olarak tanımlanır. Case-based reasoning yöntemi Uses symbolic representations and knowledge-based inference 55/84 k-en yakın komşu yöntemi(knn) Unknown record Requires three things The set of stored records Distance Metric to compute distance between records The value of k, the number of nearest neighbors to retrieve 56/42 28

En yakın komşu tanımı X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor x verisinin k-en yakın komşusu x e uzaklığı en küçük olan k veridir. 57/42 k-en yakın komşu yöntemi Temel yaklaşım: Sınıflandırılmak istenen örneğe en yakın örnekleri bul. Örnek: ördek gibi yürüyor, ördek gibi bağırıyor => büyük olasılıkla ördek 58/84 29

k-en yakın komşu yöntemi Nesneler arası yakınlıklar (uzaklıklar) öklid uzaklığı ile ifade edilir. Nitelik değerleri normalize edilerek kullanılır. Nümerik olmayan nitelikler? k değeri nasıl belirlenecek? 59/84 k-en yakın komşu yöntemi Bütün örnekler n-boyutlu uzayda bir noktaya karşı düşürülür Nesnelerarasındakiuzaklık(Ökliduzaklığı) dist(x 1, X 2 ) Öğrenilen fonksiyon ayrık değerli veya gerçel değerli olabilir Ayrık değerli fonksiyonlarda, k komşu algoritması öğrenme örneğindeen çokgörülenx q örneğineen yakınsınıfdeğerini verir Sürekli değerli fonksiyonlarda en yakın k öğrenme örneğinin ortalaması alınır +. + x q + X q örneği 1-en yakın komşuya göre pozitif olarak, 5-en yakın komşuya göre negatif olarak sınıflandırılır 60/84 30

k-en yakın komşu yöntemi Compute distance between two points: Euclidean distance/öklid uzaklığı d( p, q) = i ( p i q i 2 ) Determine the class from nearest neighbor list take the majority vote of class labels among the k-nearest neighbors Weigh the vote according to distance weight factor, w = 1/d 2 61/84 k-en yakın komşu yöntemi Choosing the value of k: If k is too small, sensitive to noise points If k is too large, neighborhood may include points from other classes 62/84 31

k-en yakın komşu yöntemi Scaling issues Attributes may have to be scaled to prevent distance measures from being dominated by one of the attributes Example: height of a person may vary from 1.5m to 1.8m weight of a person may vary from 90lb to 300lb income of a person may vary from $10K to $1M 63/84 k-en yakın komşu yöntemi Problem with Euclidean measure: High dimensional data curse of dimensionality Solution: Normalize the vectors to unit length 64/84 32

Diğer Sınıflandırma Yöntemleri Yapay Sinir Ağları ile Sınıflandırma İnsan beynindeki sinir hücrelerinin işlevini modelleyen bir yapı GenetikAlgoritmalar Optimizasyon amaçlı. Bir başlangıç çözümü öneriyor, tekrarlanan her ara adımda daha iyi çözüm üretmeye çalışıyor. Doğalevrimeveen iyiolanınyaşamını sürdürmesine dayanıyor 65/84 Yapay Sinir Ağı(YSA) X 1 X 2 X 3 Y 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 1 1 0 0 0 0 Eğer girdilerden (X) en az 2 tanesi 1 ise çıktı Y=1 66/84 33

Yapay Sinir Ağı(YSA) Girdiler için ağırlıklandırma yapılabilir. X 1 X 2 X 3 Y 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 1 1 0 0 0 0 Y = I ( 0.3 X 1 + 0.3 X 2 + 0.3 X 3 1 if z is true where I ( z) = 0 otherwise 0.4 > 0) 67/84 Yapay Sinir Ağı(YSA) Model bağlı düğümler ve ağırlıklandırılmış bağlantılardan oluşur Çıktı değeri girdilerin bağlantılarla tanımlanmış toplamına eşittir Çıktı değeri daha önceden tanımlı bir eşik değer ile karşılaştırılarak karar verilir Perceptron Model Y = I ( wi X i t) i Y = sign( wi X i t) i or 34

Yapay Sinir Ağı(YSA) Genel Yapı YSA nın eğitilmesi düğümlerin ağırlık değerlerinin öğrenilmesini içerir 69/60 YSA Öğrenmesi Başlangıç ağırlık değerlerini belirle (w 0, w 1,, w k ) Ağırlıkları YSA çıktısı öğrenme kümesinde yer alan örneklerin sınıf etiketleri ile uyumlu olacak şekilde güncelle Amaç fonksiyonu (Objective function): E = [ Y (, )] 2 i f wi X i i Amaç fonksiyonunu en küçük yapacak w i ağırlıklarını belirle Örnek: backpropagation algorithm 70/84 35

Sınıflandırma Modelini Değerlendirme Model başarımını değerlendirme ölçütleri nelerdir? Hataoranı Anma Duyarlılık F-ölçütü ROC eğrileri Modelin sınıfladırma yeteneğine odaklanılır. Hız ölçeklenebilirlik gibi diğer metrikler ikincil öneme sahiptir. 73/84 Sınıflandırma Modelini Değerlendirme Sınıflandırma yöntemlerinin hatalarını ölçme başarı: örnek doğru sınıfa atandı hata: örnek yanlış sınıfa atandı hata oranı: hata sayısının toplam örnek sayısına bölünmesi Hata oranı sınama kümesi kullanılarak hesaplanır 74/84 36

Sınıflandırma Modelini Değerlendirme Model başarımını değerlendirme ölçütleri modelin ne kadar doğru sınıflandırma yaptığını ölçer hız, ölçeklenebilirlik gibi özellikleri değerlendirmez Karışıklık matrisi: a: TP (true positive) b: FN (false negative) c: FP (false positive) d: TN (true negative) Gerçek sınıf Class=Yes Class=No Tahmin edilen sınıf Class=Yes a (TP) c (FP) Class=No b (FN) d (TN) 75/84 Sınıflandırma Modelini Değerlendirme Gerçek sınıf Tahmin edilen sınıf Class=Yes Class=No Class=Yes a (TP) c (FP) Class=No b (FN) d (TN) En çok kullanılan metrik: doğruluk (accuracy) a + d TP + TN Accuracy = = a + b + c + d TP + TN + FP + FN Hata oranı = 1-Accuracy 76/84 37

Sınıflandırma Modelini Değerlendirme Hangi sınıflandırıcı daha iyi? B ve C, A dandaha iyi bir sınıflandırıcı B, C dendaha iyi bir sınıflandırıcı mı? 77/84 Limitation of Accuracy Consider a 2-class problem Number of Class 0 examples = 9990 Number of Class 1 examples = 10 If model predicts everything to be class 0, accuracy is 9990/10000 = 99.9 % Accuracy is misleading because model does not detect any class 1 example 78/84 38

Cost Matrix PREDICTED CLASS C(i j) Class=Yes Class=No ACTUAL CLASS Class=Yes C(Yes Yes) C(No Yes) Class=No C(Yes No) C(No No) C(i j): Cost of misclassifying class j example as class i 79/42 Computing Cost of Classification Cost Matrix ACTUAL CLASS PREDICTED CLASS C(i j) + - + -1 100-1 0 Model M 1 PREDICTED CLASS Model M 2 PREDICTED CLASS ACTUAL CLASS + - + 150 40-60 250 ACTUAL CLASS + - + 250 45-5 200 Accuracy = 80% Cost = 3910 Accuracy = 90% Cost = 4255 80/42 39

Cost-Sensitive Measures a Precision (p) = a + c a Recall (r) = a + b 2rp 2a F - measure (F) = = r + p 2a + b + c Gerçek sınıf Class=Yes Class=No Tahmin edilen sınıf Class=Yes a (TP) c (FP) Class=No b (FN) d (TN) Precision is biased towards C(Yes Yes) & C(Yes No) Recall is biased towards C(Yes Yes) & C(No Yes) F-measure is biased towards all except C(No No) w a + w d 1 4 Weighted Accuracy = w a + w b + w c + w d 1 2 3 4 81/42 Classifier Evaluation Metrics: Example Actual Class\Predicted class cancer = yes cancer = no Total cancer = yes 90 210 300 cancer = no 140 9560 9700 Total 230 9770 10000 Duyarlılık -Precision= 90/230 = 39.13% Pozitif olarak bulunmuş örneklerden yüzde kaçı gerçekten pozitif Recall= 90/300 = 30.00% Pozitif örneklerden yüzde kaçı doğru olarak bulunabilmiş. 82 40

Sınıflandırma Modelini Değerlendirme A modeli B modelinden daha iyi recall ve duyarlılık (precision) değerine sahipse A modeli daha iyi bir sınıflandırıcıdır. Duyarlılık (precision) ve recall arasında ters orantı var. 83/84 Sensitivity- specificity sensitivityor true positive rate (TPR)Daha çok biomedikal alanında kullanılır Recall Sensitivity=TP/(TP+FN) = a/(a+b) Hasta birini hasta olarak etiketleme olasılığı specificity(spc) or true negative rate(tnr) Specifity= TN/(TN+FP) = d/(c+d) Hasta olmayan birisini hasta değil olarak etiketleme olasılığı Tahmin edilen sınıf Class=Yes Class=No Gerçek sınıf Class=Yes Class=No a (TP) c (FP) b (FN) d (TN) 84/84 41

Receiver Operating Characteristic(ROC) Eğrisi 85/84 Non-diseased cases Diseased cases Threshold Test result value or subjective judgement of likelihood that case is diseased 42

Non-diseased cases Diseased cases more typically: Test result value or subjective judgement of likelihood that case is diseased Non-diseased cases Diseased cases Threshold TPF, sensitivity less aggressive mindset FPF, 1-specificity 43

Non-diseased cases Diseased cases Threshold TPF, sensitivity moderate mindset FPF, 1-specificity Non-diseased cases Diseased cases Threshold TPF, sensitivity more aggressive mindset FPF, 1-specificity 44

Non-diseased cases Entire ROC curve Diseased cases Threshold TPF, sensitivity FPF, 1-specificity Entire ROC curve TPF, sensitivity Reader Skill and/or Level of Technology FPF, 1-specificity 45