Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

Transkript

1 Bölüm 6. Sınıflandırma 2

2 Karar Ağacı Örnek Algoritma: ID3 Bütün nitelikler ayrık Bir düğüm oluştur N: Eğer örneklerin hepsi C sınıfına ait ise, N düğümü C etiketli yaprak Eğer karşılaştırma yapılacak nitelik yoksa N düğümü en çok örneği olan sınıf En büyük bilgi kazancı olan niteliği bölmek için seç N yi seçilen nitelik ile etiketle Niteliğin her A i değeri için bir dal oluştur S i, örneklerin hepsinin A i değeri aldığı dal S i boş, bir yaprak oluşturup en çok örneği olan sınıfla etiketle S i boş değil, algoritmayı S i düğümü üzerinde yinele Yaprak düğümlere kadar Ayrıntılı bilgiler: 2/84

3 Karar Ağacı Kullanarak Sınıflandırma Doğrudan sınıflandırmak istenilen örneğin nitelikleri ağaç boyunca sınanır ulaşılan yaprağın etiketi sınıf bilgisini verir Dolaylı karar ağacı sınıflandırma kurallarına dönüştürülür kökten yaprakların herbirine giden yollar için ayrı bir kural oluşturulur IF-THEN şeklinde kuralları insanlar daha kolay anlıyor Örnek: IF Outlook= sunny AND humidity= normal THEN play tennis 3/84

4 Karar Ağaçlarında Aşırı Öğrenme Öğrenme kümesindeki örneklerin azlığı veya gürültülü olması Aşırı öğrenmeyi engelleyen yaklaşım (budama) işlemi erken sona erdirme işlemi sona erdirmek için eşik değeri belirlemek gerekiyor karar ağacı oluştuktan sonra ağacı küçültme 4/84

5 Karar ağaçlarında aşırı öğrenme Gürültüden dolayı aşırı öğrenme Aşağıdaki öğrenme kümesinde yarasa ve balina yanlış sınıf etiketine sahiptir. Sınıf etiketi = memeli mi? Cins Vücut Sıcaklığı Doğum Yapma 4- bacaklı Kış uykusu Sınıf e>ke> Kirpi Sıcakkanlı Evet Evet Evet Evet Kedi Sıcakkanlı Evet Evet Hayır Evet Yarasa Sıcakkanlı Evet Hayır Evet Hayır Balina Sıcakkanlı Evet Hayır Hayır Hayır Semender Soğukkanlı Hayır Evet Evet Hayır Komodo Ejderi Soğukkanlı Hayır Evet Hayır Hayır Piton Soğukkanlı Hayır Hayır Evet Hayır Alabalık Soğukkanlı Hayır Hayır Hayır Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır Öğrenme kümesi 5/84

6 Karar ağaçlarında aşırı öğrenme sıcakkanlı Vücut sıcaklığı soğukkanlı sıcakkanlı Vücut sıcaklığı soğukkanlı evet Doğum yapma Memeli değil hayır evet Doğum yapma Memeli değil hayır evet Memeli 4-bacaklı hayır Memeli değil M1 Memeli değil Memeli M2 Memeli değil Cins Vücut Sıcaklığı Doğum Yapma 4- bacaklı Kış uykusu Sınıf e>ke> Kirpi Sıcakkanlı Evet Evet Evet Evet Kedi Sıcakkanlı Evet Evet Hayır Evet Yarasa Sıcakkanlı Evet Hayır Evet Hayır Balina Sıcakkanlı Evet Hayır Hayır Hayır Semender Soğukkanlı Hayır Evet Evet Hayır Komodo Ejderi Soğukkanlı Hayır Evet Hayır Hayır Piton Soğukkanlı Hayır Hayır Evet Hayır Alabalık Soğukkanlı Hayır Hayır Hayır Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır 6/84

7 Karar ağaçlarında aşırı öğrenme Model 1 (M1) öğrenme kümesinde 0 hata verirken, sınama kümesinde %40 hata verir İnsan ve yunus yanlış etiketlenir Model 2 (M2) öğrenme kümesinde %20 hata verirken, sınama kümesinde hata vermez Budanmış ağaç 4-bacaklı niteliği gürültülü veriden dolayı aşırı öğrenmeye neden olmuştur. Cins Vücut Sıcaklığı Doğum Yapma 4- bacaklı Kış uykusu Sınıf e>ke> İnsan Sıcakkanlı Evet Hayır Hayır Evet Güvercin Sıcakkanlı Hayır Hayır Hayır Hayır Fil Sıcakkanlı Evet Evet Hayır Evet Yunus Sıcakkanlı Evet Hayır Hayır Evet Kaplumbağa Soğukkanlı Hayır Evet Hayır Hayır Sınama kümesi 7/84

8 Karar ağaçlarında aşırı öğrenme Öğrenme kümesinin küçüklüğünden dolayı aşırı öğrenme sıcakkanlı evet Kış uykusu Vücut sıcaklığı soğukkanlı Memeli değil hayır Cins Vücut Sıcaklığı Doğum Yapma 4- bacaklı Kış uykusu Sınıf e>ke> Poorwill Sıcakkanlı Hayır Hayır Evet Hayır Platypus Sıcakkanlı Hayır Evet Evet Evet Semender Soğukkanlı Hayır Evet Evet Hayır Kartal Sıcakkanlı Hayır Hayır Hayır Hayır Lepistes Soğukkanlı Evet Hayır Hayır Hayır evet Memeli 4-bacaklı hayır Memeli değil Memeli değil Öğrenme kümesi Cins Vücut Sıcaklığı Doğum Yapma 4- bacaklı Kış uykusu Sınıf e>ke> İnsan Sıcakkanlı Evet Hayır Hayır Evet Güvercin Sıcakkanlı Hayır Hayır Hayır Hayır Fil Sıcakkanlı Evet Evet Hayır Evet Yunus Sıcakkanlı Evet Hayır Hayır Evet Kaplumbağa Soğukkanlı Hayır Evet Hayır Hayır Sınama kümesi 8/84

9 Karar ağaçlarında aşırı öğrenme Oluşan karar ağacının, öğrenme kümesindeki hata oranı sıfır, test kümesinde ise %60 İnsan, fil ve yunus yanlış etiketlenir Kış uykusuna yatmayan tüm sıcakkanlılar memeli-değil olarak etiketlenir Bu duruma uyan sadece kartal vardır Öğrenme kümesi küçük olduğu için ağaç aşırı öğrenmiştir 9/84

10 Karar Ağaçlarında Budama Ağaç oluşturulurken budama (pre-pruning) eşikdeğer belirle Ağaç oluştuktan sonra budama (post-pruning) 10/84

11 Pre-Pruning Stop the algorithm before it becomes a fully-grown tree Typical stopping conditions for a node: Stop if all instances belong to the same class Stop if all the attribute values are the same More restrictive conditions: Stop if number of instances is less than some user-specified threshold Stop if class distribution of instances are independent of the available features (e.g., using χ 2 test) Stop if expanding the current node does not improve impurity measures (e.g., Gini or information gain). 11/84

12 Post-pruning Grow decision tree to its entirety Trim the nodes of the decision tree in a bottom-up fashion If generalization error improves after trimming, replace subtree by a leaf node. Class label of leaf node is determined from majority class of instances in the sub-tree 12/84

13 En iyi bölen ölçütleri - Değerlendirme Karar ağacı oluştururken en iyi bölen nitelik için 3 tane ölçüt gördük Information gain: Çok çeşitli değerler (multivalued) alan nitelikleri seçme eğilimindedir Gain ratio: Dengesiz bölünmeler yapma eğilimindedir (one partition is much smaller than the others) Gini index: Çok çeşitli değerler (multivalued) alan nitelikleri seçme eğilimindedir Dengeli bölünmeler yapar (hem boyut hem de saflık açısından) Sınıf sayısı çok olduğunda iyi çalışmayabilir 13/84

14 Karar Ağacı Kullanarak Sınıflandırma - Değerlendirme Avantajları: Karar ağacı oluşturmak zahmetsiz Küçük ağaçları yorumlamak kolay Anlaşılabilir kurallar oluşturulabilir Sürekli ve ayrık nitelik değerleri için kullanılabilir Dezavantajları: Sürekli nitelik değerlerini tahmin etmekte çok başarılı değil Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturma çok başarılı değil Zaman ve yer karmaşıklığı öğrenme kümesi örnekleri sayısına (q), nitelik sayısına (h) ve oluşan ağacın yapısına bağlı. Büyük öğrenme kümeleri için ağaç oluşturma karmaşıklığı fazla, ağaç budama karmaşıklığı fazla 14/84

15 İstatistik ve Olasılık 15/84

16 Random Variables / Rasgele Değişkenler Random variable olasılığın temel elemanı. Çıktısı belirsizlik içeren olay havaya atılan para olayı bir random variable dır. 16/84

17 Boolean Random Variables Boolean random variables True ya da false değeri alırlar Bir olayın olması ya da olmaması Örnek (A bir Boolean random variable): A = Paranın yazı gelmesi A = Bugün yağmur yağacak 17/84

18 Olasılık P(A = true) ifadesi A = true olma olasılığını ifade eder. Olasılık: It is the relative frequency with which an outcome would be obtained if the process were repeated a large number of times under similar conditions Kırmızı ve mavi alanın toplamı 1 P(A = true) P(A = false) 18/84

19 Koşullu olasılık P(A = true B = true) = B nin doğru olduğu durumların kaç tanesinde aynı zamanda A da doğru. Probability of A conditioned on B or Probability of A given B P(F = true) P(H = true) H = Baş ağrısı F = Nezle olmak P(H = true) = 1/10 P(F = true) = 1/40 P(H = true F = true) = 1/2 19/84

20 Koşullu olasılık P(A = true, B = true) ifadesi A = true ve B = true olma olasılığını ifade eder. P(F = true) P(H = true) P(H=true F=true) Area of "H and F" region = Area of "F" region P(H = true,f = true) = P(F = true) P(X Y)=P(X,Y)/P(Y) 20/84

21 Ortak olasılık dağılımı Örnek: P(A = true, B = true, C = true) Her kombinasyon için sonuç gösterilir Tüm kombinasyonların olasılıklarının toplamı 1 dir A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true 0.15 Toplam 1 21/84

22 Ortak olasılık dağılımı Ortak olasılık dağılım tablosu oluşturulduktan sonra A, B, and C yi içeren tüm olayların olasılığı hesaplanabilir. A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true 0.15 Örnek: P(A=true) = sum of P(A,B,C) in rows with A=true P(A=true, B = true C=true) = P(A = true, B = true, C = true) / P(C = true) 22/84

23 Ortak olasılık dağılımı: Problem Çok fazla hesaplanacak olasılık var. k tane Boolean random variable için 2 k tane olasılık hesaplanır. Azaltmak için bağımsızlık konsepti kullanılır A B C P(A,B,C) false false false 0.1 false false true 0.2 false true false 0.05 false true true 0.05 true false false 0.3 true false true 0.1 true true false 0.05 true true true /84

24 Bağımsızlık A ve B değişkenleri aşağıdakilerden birisi doğru olduğunda bu iki olay birbirinden bağımsızdır. P(A,B) = P(A) P(B) P(A B) = P(A) P(B A) = P(B) A nın sonucunu bilmek B hakkında hiçbir bilgi vermiyor. 24/84

25 Bağımsızlık Neden bağımsızlık işe yarıyor? Bir parayı n defa attığımızı ve P (C 1,, C n ) yi hesaplamak istediğimizi düşünelim. Para atışları bağımsız değilse, 2 n tane değer tabloda hesaplanmak zorunda. Para atışları bağımsız ise, sadece P( C n = 1,..., Cn) P( C i ) i= 1 değerini hesaplamak yetecektir. 25/84

26 Koşullu bağımsızlık Aşağıdakilerden birisi doğru ise A ve B değişkenleri C ye göre koşullu olarak bağımsızdır. P(A, B C) = P(A C) P(B C) P(A B, C) = P(A C) P(B A, C) = P(B C) 26/84

27 İstatistiksel Modelleme - Bayes Bayes teoremini kullanan istatistiksel sınıflandırıcı Örneklerin hangi sınıfa hangi olasılıkla ait olduklarını hesaplar Naïve Bayes sınıflandırıcı niteliklerin hepsi aynı derecede önemli nitelikler birbirinden bağımsız bir niteliğin değeri başka bir nitelik değeri hakkında bilgi içermiyor 27/84

28 Bayesian Teori X veri örneği: sınıf etiketi bilinmiyor (Sadece age ve income niteliklerinden oluşan bir kişi: age:youth,income:medium ) H bir hipotez: X kişisi C sınıfına aittir Sınıflandırma: P(H X) değerini (X veri örneği için H hipotezinin tutma ihtimalini) belirlemek. P(H) önceki olasılık (prior probability) Herhangi bir örnek için hipotezin tutma olasılığı. Herhangi bir örneğin bilgisayar alacaklar sınıfına ait olma olasılığı (diğer niteliklerden bağımsız olarak) P(X) X in olma olasılığı Veri setindeki herhangi bir insanın youth ve medium income sahibi olma olasılığı. P(X H) sonraki olasılık (posteriori probability), Hipotez H nin tutması durumunda X in olma olasılığı X in bilgisayar alacaklar sınıfında olduğu biliniyor, X in youth ve medium income sahibi olma olasılığı. 28/84

29 Bayesian Teori Gözlemlenen örnek veri X için, hipotez H nin sonraki olasılığı, P(H X), Bayes teoremi ile şöyle ifade edilir P ( H X) = P( X H) P( H) P( X) Veri madenciliği açısından, eğer P(C i X) diğer bütün P(C k X) değerlerinden büyükse örnek veri X C i sınıfına aittir Çok sayıda olasılığı önceden kestirmek gerekiyor, çok fazla hesap gerektirir

30 Naïve Bayes Sınıflandırıcı X=(x 1,x 2,...x n ) örneğinin C sınıfında olma olasılığı (P(C X)) nedir? P( X C ) P( C ) P ( C X) = i i değerini en büyük değere getir i P( X) P(X) her bir sınıf için sabit P( C X ) = P( X C ) P( C ) i i i değerini en büyük değere getir

31 Naïve Bayes Sınıflandırıcı Basit bir kabul: nitelikler birbirinden bağımsız n P( X Ci) = P( x k = 1 Ci) = Kategorik veri için P( x P(C i )= S i / S, S i : C i sınıfına ait örneklerin sayısı P(x k C i )=s ik / s i Hesaplama maliyetini azaltıyor, sadece sınıf dağılımları hesaplanıyor Naïve: nitelikler bağımsız k 1 Ci) P( x 2 Ci)... P( x n Ci)

32 Naïve Bayes Sınıflandırıcı Sürekli veri için P(x k C i ) Gaussian dağılımı kullanılarak bulunur (µ=ortalama, σ=standart sapma) g ( x µ ) 1 2 2σ ( x, µ, σ ) = e 2πσ 2 P( X Ci) = g( x k, µ C i, σ Ci ) 32/84

33 Örnek (Kategorik veri) Sınıf: C1:buys_computer = yes C2:buys_computer = no Örnek veri X = (age = youth, Income = medium, Student = yes Credit_rating = Fair) 33/60

34 Örnek (devam) P(C i ): P(buys_computer = yes ) = 9/14 = 0.64 P(buys_computer = no ) = 5/14= Her sınıf için P(X k C i ) yi hesapla P(age = youth buys_computer = yes ) = 2/9 = P(age = youth buys_computer = no ) = 3/5 = 0.6 P(income = medium buys_computer = yes ) = 4/9 = P(income = medium buys_computer = no ) = 2/5 = 0.4 P(student = yes buys_computer = yes) = 6/9 = P(student = yes buys_computer = no ) = 1/5 = 0.2 P(credit_rating = fair buys_computer = yes ) = 6/9 = P(credit_rating = fair buys_computer = no ) = 2/5 = 0.4 X = (age =youth, income = medium, student = yes, credit_rating = fair) P(X C i ) : P(X buys_computer = yes ) = x x x = P(X buys_computer = no ) = 0.6 x 0.4 x 0.2 x 0.4 = P(X C i )*P(C i ) : P(X buys_computer = yes ) * P(buys_computer = yes ) = P(X buys_computer = no ) * P(buys_computer = no ) = Bu yüzden, X örnegi buys_computer = yes sınıfına aittir. 34/84

35 Örnek-2 X={E,65,172} verisinin beden sınıfını bayesian kuralına göre bulunuz? 35/84

36 Örnek-2 (devam) Veri önişleme - boy arası 1. grup arası 2. grup arası 3. grup arası 4. grup 190 ve üzeri 5. grup Veri önişleme -kilo arası 1. grup arası 2. grup arası 3. grup arası 4. grup arası 5. grup 99 ve üzeri 6. grup Yeni tablo 36/84

37 Örnek-2 (devam) Kategorik hale getirildikten sonra: X={E, 65,172} à X={E,2,3} P(C j ) değerleri P(küçük)=4/15=0.267, P(orta)=8/15=0.534, P(büyük)=3/15=0.2 Her sınıf için P(X k C i ) yi hesapla P(E Orta) = 3/8 = P(E Küçük) = 3/4 = 0.75 P(E Büyük) = 2/3 = P(3 Orta) = 2/8 = 0.25 P(3 Küçük) = 1/4 = 0.25 P(3 Büyük) = 1/3 = P(2 Orta) = 4/8 = 0.5 P(2 Küçük) = 2/4 = 0.5 P(2 Büyük) = 0/3 = 0 X = (Cinsiyet =E, Kilo = 2, Boy = 3) P(X C i ) : P(X Beden = Orta ) = 0.375x 0.25 x 0.5 = P(X Beden= Küçük ) = 0.75 x 0.25 x 0.5 = P(X Beden= Büyük ) = x x 0 = 0 P(X C i )*P(C i ) : P(X Beden = Orta ) * P(Beden = Orta ) = 0.047*0.534= P(X Beden = Küçük ) * P(Beden = Küçük ) = 0.093*0.267= P(X Beden = Büyük ) * P(Beden = Büyük ) = 0*0.2= 0 X örneği Orta bedene sahiptir. 37/84

38 Olasılığın Sıfır Olması Naïve Bayesian prediction her bir olasılığın sıfırdan büyük olmasını gerektirir, aksi taktirde bütün olasılık sıfır olur P( X Ci) = k n = P( xk Ci) 1 Örnek: 1000 örneklik bir veri setinde, eğer income=low (0), income= medium (990), ve income = high (10) ise Laplacian correction (Laplacian estimator) kullanılır Her bir duruma 1 eklenir Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 Veri seti cok büyük olduğu icin çok farketmez

39 Bayes Sınıflandırıcılar - Değerlendirme Avantajları: gerçeklemesi kolay çoğu durumda iyi sonuçlar Dezavantajları varsayım: sınıf bilgisi verildiğinde nitelikler bağımsız gerçek hayatta değişkenler birbirine bağımlı değişkenler arası ilişki modellenemiyor Çözüm: Bayes ağları 39/84

40 Bayes Ağları Bir hastanın akciğer şarbonu olup olmadığı araştırılıyor. Hastada aşağıdaki semptomlar gözleniyor: Öksürme Ateş Nefes almada güçlük 40/42

41 Bayes Ağları Bu semptomlar dahilinde hastanın akciğer şarbonu olma ihtimalini bulmaya çalışıyoruz. Semptomlara rağmen %100 emin olmadığımız için bir belirsizlik var. 41/42

42 Bayes Ağları X-ray sonucunda hastanın akciğerleri arasında genişleme olduğunu gördünüz. Şimdi hastanın şarbon olma olasılığına olan inancınız daha yüksek. Gözlemleriniz hastanın şarbon olmasına dair fikriniz etkiledi. Reasoning with uncertainty 42/42

43 Bayes Ağları Şarbon Öksürük Ateş Nefes Darlığı Geniş Akciğer Boşluğu 43/84

44 Örnek Bayes Ağı Bir Bayes Ağı aşağıdakilerden oluşur 1. Directed Acyclic Graph A B C D 2. Graphdaki her düğüm için bir tablo A P(A) A B P(B A) B D P(D B) B C P(C B) false 0.6 false false 0.01 false false 0.02 false false 0.4 true 0.4 false true 0.99 false true 0.98 false true 0.6 true false 0.7 true false 0.05 true false 0.9 true true 0.3 true true 0.95 true true /60

45 A Directed Acyclic Graph Her düğüm bir random variable A A is a parent of B B C D B den C ye olan ok işareti B nin C üzerinde bir etkisi olduğunu gösterir 45/60

46 Her düğüm için bir tablo A P(A) false 0.6 true 0.4 A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 Her düğüm X i Parentlerinin etkisini gösteren P(X i Parents(X i )) koşullu olasılık tablosuna sahiptir. B C P(C B) false false 0.4 false true 0.6 A true false 0.9 true true 0.1 B C D B D P(D B) false false 0.02 false true 0.98 true false 0.05 true true /60

47 Bayes Ağları İki önemli özelliğe sahiptirler: 1. Değişkenler arasındaki koşullu olasılık ilişkilerini bir graph yapısı üzerinde tutar 2. Değişkenler arasındaki Ortak olasılık dağılımının kompakt bir gösterimidir. 47/84

48 Koşullu bağımsızlık Markov koşulu given its parents (P 1, P 2 ), a node (X) is conditionally independent of its nondescendants (ND 1, ND 2 ) olduğunu gösterir. P 1 P 2 ND 1 X ND 2 C 1 C 2 48/84

49 Ortak olasılık dağılımı Markov koşuluna göre Bayes ağındaki tüm X i düğümlerinin ortak olasılığı aşağıdaki formüle göre bulunabilir: n P( X1 = x1,..., X n = xn) = P( X i = xi Parents ( X i )) i= 1 Parents(X i ) ifadesi graphda X i nin Parentleridir 49/84

50 Bayes Ağı: Örnek P(A = true, B = true, C = true, D = true) hesaplanacak: P(A = true, B = true, C = true, D = true) = P(A = true) * P(B = true A = true) * P(C = true B = true) * P( D = true B = true) = (0.4)*(0.3)*(0.1)*(0.95) A B C D 50/84

51 Bayes Ağı: Örnek P(A = true, B = true, C = true, D = true) = P(A = true) * P(B = true A = true) * P(C = true B = true)* P( D = true B = true) = (0.4)*(0.3)*(0.1)*(0.95) Graph yapısından A Tablolardan alınan değerler B C D 51/84

52 Çıkarım Bayes ağlarında olasılık hesabı çıkarım olarak adlandırılır. Genel ifadesi: P( X E ) E = Belirtiler / evidence variable(s) X = Sorgu / query variable(s) 52/84

53 Çıkarım Şarbon Öksürük Ateş Nefes Darlığı Geniş Akciğer Boşluğu Örnek: P( şarbonvar = true ateşvar = true, öksürükvar = true) 53/84

54 Ağ oluşturma Bayes ağı nasıl oluşturulur? Alandaki bir uzman Veri incelemesi 54/84

55 Diğer Sınıflandırma Yöntemleri Örnek Tabanlı Yöntemler (tembel-lazy yöntemler) Öğrenme kümesini saklar. Sınıflandırılacak yeni bir örnek geldiğinde öğrenme kümesi sınıf etiketini öngörmek için kullanılır Örnek yöntemler: k-en yakın komşu yöntemi (k-nearest neighbor approach) Her veri uzayda bir nokta olarak tanımlanır. Case-based reasoning yöntemi Uses symbolic representations and knowledge-based inference 55/84

56 k-en yakın komşu yöntemi (KNN) Unknown record Requires three things The set of stored records Distance Metric to compute distance between records The value of k, the number of nearest neighbors to retrieve 56/42

57 En yakın komşu tanımı X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor x verisinin k-en yakın komşusu x e uzaklığı en küçük olan k veridir. 57/42

58 k-en yakın komşu yöntemi Temel yaklaşım: Sınıflandırılmak istenen örneğe en yakın örnekleri bul. Örnek: ördek gibi yürüyor, ördek gibi bağırıyor => büyük olasılıkla ördek 58/84

59 k-en yakın komşu yöntemi Nesneler arası yakınlıklar (uzaklıklar) öklid uzaklığı ile ifade edilir. Nitelik değerleri normalize edilerek kullanılır. Nümerik olmayan nitelikler? k değeri nasıl belirlenecek? 59/84

60 k-en yakın komşu yöntemi Bütün örnekler n-boyutlu uzayda bir noktaya karşı düşürülür Nesneler arasındaki uzaklık (Öklid uzaklığı) dist(x 1, X 2 ) Öğrenilen fonksiyon ayrık değerli veya gerçel değerli olabilir Ayrık değerli fonksiyonlarda, k komşu algoritması öğrenme örneğinde en çok görülen X q örneğine en yakın sınıf değerini verir Sürekli değerli fonksiyonlarda en yakın k öğrenme örneğinin ortalaması alınır _ + _. x q + + X q örneği 1-en yakın komşuya göre pozitif olarak, 5-en yakın komşuya göre negatif olarak sınıflandırılır 60/84

61 k-en yakın komşu yöntemi Compute distance between two points: Euclidean distance /Öklid uzaklığı d( p, q) = i ( p q i i ) 2 Determine the class from nearest neighbor list take the majority vote of class labels among the k-nearest neighbors Weigh the vote according to distance weight factor, w = 1/d 2 61/84

62 k-en yakın komşu yöntemi Choosing the value of k: If k is too small, sensitive to noise points If k is too large, neighborhood may include points from other classes X 62/84

63 k-en yakın komşu yöntemi Scaling issues Attributes may have to be scaled to prevent distance measures from being dominated by one of the attributes Example: height of a person may vary from 1.5m to 1.8m weight of a person may vary from 90lb to 300lb income of a person may vary from $10K to $1M 63/84

64 k-en yakın komşu yöntemi Problem with Euclidean measure: High dimensional data curse of dimensionality Solution: Normalize the vectors to unit length 64/84

65 Diğer Sınıflandırma Yöntemleri Yapay Sinir Ağları ile Sınıflandırma İnsan beynindeki sinir hücrelerinin işlevini modelleyen bir yapı Genetik Algoritmalar Optimizasyon amaçlı. Bir başlangıç çözümü öneriyor, tekrarlanan her ara adımda daha iyi çözüm üretmeye çalışıyor. Doğal evrime ve en iyi olanın yaşamını sürdürmesine dayanıyor 65/84

66 Yapay Sinir Ağı (YSA) X 1 X 2 X 3 Y Input X 1 X 2 X 3 Black box Output Y Eğer girdilerden (X) en az 2 tanesi 1 ise çıktı Y=1 66/84

67 Yapay Sinir Ağı (YSA) Girdiler için ağırlıklandırma yapılabilir. X 1 X 2 X 3 Y Input nodes X 1 X 2 X 3 Black box S 0.3 t=0.4 Output node Y Y = I( 0.3X X X 3 1 if z is true where I( z) = 0 otherwise 0.4 > 0) 67/84

68 Yapay Sinir Ağı (YSA) Model bağlı düğümler ve ağırlıklandırılmış bağlantılardan oluşur Çıktı değeri girdilerin bağlantılarla tanımlanmış toplamına eşittir Çıktı değeri daha önceden tanımlı bir eşik değer ile karşılaştırılarak karar verilir Input nodes X 1 X 2 X 3 Y Black box w 2 w 3 w 1 Perceptron Model Y = I( wi X i t) i = sign( wi X i t) i S t Output node Y or

69 Yapay Sinir Ağı (YSA) Genel Yapı x 1 x 2 x 3 x 4 x 5 Input Layer Input Neuron i Output Hidden Layer I 1 I 2 I 3 w i1 w i2 w i3 S i Activation function g(s i ) O i O i threshold, t Output Layer y YSA nın eğitilmesi düğümlerin ağırlık değerlerinin öğrenilmesini içerir 69/60

70 YSA Öğrenmesi Başlangıç ağırlık değerlerini belirle (w 0, w 1,, w k ) Ağırlıkları YSA çıktısı öğrenme kümesinde yer alan örneklerin sınıf etiketleri ile uyumlu olacak şekilde güncelle Amaç fonksiyonu (Objective function): E = i [ Y f ( w, X )] 2 i i i Amaç fonksiyonunu en küçük yapacak w i ağırlıklarını belirle Örnek: backpropagation algorithm 70/84

71 Diğer Sınıflandırma Yöntemleri Genetik Algoritmalar Optimizasyon amaçlı. Bir başlangıç çözümü öneriyor, tekrarlanan her ara adımda daha iyi çözüm üretmeye çalışıyor. Doğal evrime ve en iyi olanın yaşamını sürdürmesine dayanıyor 71/84

72 Diğer Sınıflandırma Yöntemleri Bulanık Küme Sınıflandırıcılar Bulanık mantık 0.0 ve 1.0 arasında gerçel değerler kullanarak üyelik dereceleri hesaplar Nitelik değerleri bulanık değerlere dönüştürülür Kurallar kümesi oluşturulur Yeni bir örneği sınıflandırmak için birden fazla kural kullanılır Her kuraldan gelen sonuç toplanır 72/84

73 Sınıflandırma Modelini Değerlendirme Model başarımını değerlendirme ölçütleri nelerdir? Hata oranı Anma Duyarlılık F-ölçütü ROC eğrileri Modelin sınıfladırma yeteneğine odaklanılır. Hız ölçeklenebilirlik gibi diğer metrikler ikincil öneme sahiptir. 73/84

74 Sınıflandırma Modelini Değerlendirme Sınıflandırma yöntemlerinin hatalarını ölçme başarı: örnek doğru sınıfa atandı hata: örnek yanlış sınıfa atandı hata oranı: hata sayısının toplam örnek sayısına bölünmesi Hata oranı sınama kümesi kullanılarak hesaplanır 74/84

75 Sınıflandırma Modelini Değerlendirme Model başarımını değerlendirme ölçütleri modelin ne kadar doğru sınıflandırma yaptığını ölçer hız, ölçeklenebilirlik gibi özellikleri değerlendirmez Karışıklık matrisi: Tahmin edilen sınıf Class=Yes Class=No a: TP (true positive) b: FN (false negative) c: FP (false positive) d: TN (true negative) Gerçek sınıf Class=Yes Class=No a (TP) c (FP) b (FN) d (TN) 75/84

76 Sınıflandırma Modelini Değerlendirme Gerçek sınıf Tahmin edilen sınıf Class=Yes Class=No Class=Yes a (TP) c (FP) Class=No b (FN) d (TN) En çok kullanılan metrik: doğruluk (accuracy) a + Accuracy = a + b + Hata oranı = 1- Accuracy d TP + TN = c + d TP + TN + FP + FN 76/84

77 Sınıflandırma Modelini Değerlendirme Hangi sınıflandırıcı daha iyi? B ve C, A dan daha iyi bir sınıflandırıcı B, C den daha iyi bir sınıflandırıcı mı? 77/84

78 Limitation of Accuracy Consider a 2-class problem Number of Class 0 examples = 9990 Number of Class 1 examples = 10 If model predicts everything to be class 0, accuracy is 9990/10000 = 99.9 % Accuracy is misleading because model does not detect any class 1 example 78/84

79 Cost Matrix C(i j) PREDICTED CLASS Class=Yes Class=No ACTUAL CLASS Class=Yes C(Yes Yes) C(No Yes) Class=No C(Yes No) C(No No) C(i j): Cost of misclassifying class j example as class i 79/42

80 Computing Cost of Classification Cost Matrix ACTUAL CLASS PREDICTED CLASS C(i j) Model M 1 PREDICTED CLASS Model M 2 PREDICTED CLASS ACTUAL CLASS ACTUAL CLASS Accuracy = 80% Cost = 3910 Accuracy = 90% Cost = /42

81 Cost-Sensitive Measures Precision (p) = a a Recall (r) = a + b F - measure (F) = a + c 2rp r + p = 2a 2a + b + Gerçek c sınıf Class=Yes Class=No Tahmin edilen sınıf Class=Yes a (TP) c (FP) Class=No b (FN) d (TN) Precision is biased towards C(Yes Yes) & C(Yes No) Recall is biased towards C(Yes Yes) & C(No Yes) F-measure is biased towards all except C(No No) Weighted Accuracy = w a 1 w a w b + 2 w d 4 w c + 3 w d 4 81/42

82 Classifier Evaluation Metrics: Example Actual Class\Predicted class cancer = yes cancer = no Total cancer = yes cancer = no Total Duyarlılık - Precision = 90/230 = 39.13% Pozitif olarak bulunmuş örneklerden yüzde kaçı gerçekten pozitif Recall = 90/300 = 30.00% Pozitif örneklerden yüzde kaçı doğru olarak bulunabilmiş. 82

83 Sınıflandırma Modelini Değerlendirme A modeli B modelinden daha iyi recall ve duyarlılık (precision) değerine sahipse A modeli daha iyi bir sınıflandırıcıdır. Duyarlılık (precision) ve recall arasında ters orantı var. 83/84

84 Sensitivity - specificity sensitivity or true positive rate (TPR) Daha çok biomedikal alanında kullanılır Recall Sensitivity=TP/(TP+FN) = a/(a+b) Hasta birini hasta olarak etiketleme olasılığı specificity (SPC) or true negative rate (TNR) Specifity= TN/(TN+FP) = d/(c+d) Hasta olmayan birisini hasta değil olarak etiketleme olasılığı Tahmin edilen sınıf Class=Yes Class=No Gerçek sınıf Class=Yes Class=No a (TP) c (FP) b (FN) d (TN) 84/84

85 Receiver Operating Characteristic (ROC) Eğrisi 85/84

86 Non-diseased cases Diseased cases Threshold Test result value or subjective judgement of likelihood that case is diseased

87 Non-diseased cases Diseased cases more typically: Test result value or subjective judgement of likelihood that case is diseased

88 Non-diseased cases Diseased cases Threshold TPF, sensitivity less aggressive mindset FPF, 1-specificity

89 Non-diseased cases Diseased cases Threshold TPF, sensitivity moderate mindset FPF, 1-specificity

90 Non-diseased cases Diseased cases Threshold TPF, sensitivity more aggressive mindset FPF, 1-specificity

91 Non-diseased cases Entire ROC curve Diseased cases Threshold TPF, sensitivity FPF, 1-specificity

92 Entire ROC curve TPF, sensitivity Reader Skill and/or Level of Technology FPF, 1-specificity

93 Sınıflandırma Modelini Değerlendirme Doğruluk en basit ölçüt Duyarlılık ve recall daha iyi ölçme sağlıyor Model A nın duyarlılığı model B den daha iyi ancak model B nin recall değeri model A dan daha iyi olabilir. 93/84

94 Sınıflandırma Modelini Değerlendirme F-ölçütü: Duyarlılık ve recall değerlerinin harmonik ortalamasıdır. F-ölçütü= 2*duyarlılık*recall duyarlılık + recall Büyük F-ölçütü değeri duyarlılık ve recall değerlerinin iksinin birden büyük olması anlamına gelir. 94/84