Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1



Benzer belgeler
Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Gözetimli & Gözetimsiz Öğrenme

K En Yakın Komşu Methodu (KNearest Neighborhood)

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Uzaktan Algılama Teknolojileri

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Görüntü Sınıflandırma

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Markov Zinciri Monte Carlo Yaklaşımı. Aktüeryal Uygulamaları

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Regresyon ve Sınıflandırma

Zeki Optimizasyon Teknikleri

BULANIK MANTIK VE SİSTEMLERİ BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

Veri Madenciliği. Bölüm 6. Sınıflandırma 2

Web Madenciliği (Web Mining)

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI

İlk Yapay Sinir Ağları. Dr. Hidayet Takçı

Ders 1 Minitab da Grafiksel Analiz-I

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

YÖNEYLEM ARAŞTIRMASI - III

Web Madenciliği (Web Mining)

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

YATIRIM. Ders 3: Portföy Teorisi. Bölüm 1: Problemi Oluşturmak

Örnek 4: Örnek Özyinelemeli fonksiyon örneği Bölüm 9. C++ programlama dilinde Nesne ve sınıf

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

İstatistik Nedir? Ders 1 Minitab da Grafiksel Analiz-I ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. İstatistiğin Konusu Olan Olaylar

DOĞRUSAL PROGRAMLAMADA DUALİTE (DUALITY)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

BiL416 Hafta-1 Veri Madenciliği:Giriş

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

EM302 Yöneylem Araştırması 2. Dr. Özgür Kabak

Hafta 05 - Karar Ağaçları/Kümeleme

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

EM302 Yöneylem Araştırması 2 Çok değişkenli DOP ların çözümü. Dr. Özgür Kabak

Makine Öğrenmesi 2. hafta

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Genel Graf Üzerinde Mutlak 1-merkez

Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

Dr. Hidayet Takçı. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI

Mann-Whitney U ve Wilcoxon T Testleri

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Şartlı Olasılık. Pr[A A ] Pr A A Pr[A ] Bir olayın (A 1 ) olma olsılığı, başka bir olayın (A 2 ) gerçekleştiğinin bilinmesine bağlıysa;

METASEZGİSEL YÖNTEMLER

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA

K-S Testi hipotezde ileri sürülen dağılımla örnek yığılmalı dağılım fonksiyonunun karşılaştırılması ile yapılır.

Yazılım Nedir? 2. Yazılımın Tarihçesi 3. Yazılım Grupları 4 Sistem Yazılımları 4 Kullanıcı Yazılımları 5. Yazılımın Önemi 6

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

T.C. KIRIKKALE ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ YAPAY SİNİR AĞLARI. Doç.Dr. Necaattin BARIŞÇI FİNAL PROJESİ

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

Veri Madenciliği Karar Ağacı Oluşturma

EME Sistem Simülasyonu. Giriş. Olasılık Dağılımı. Rassal Degiskenler

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Veriye Dayalı Karar Verme (Bölüm 2) Can Akkan

Yrd. Doç. Dr. A. Burak İNNER

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

BENZETİM. Prof.Dr.Berna Dengiz. 4. Ders Modelleme yaklaşımları Benzetim yazılımlarında aranan özellikler M/M/1 Kuyruk Sistemi benzetimi

İSTATİSTİK 2. Hipotez Testi 21/03/2012 AYŞE S. ÇAĞLI.

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN


YÖNEYLEM ARAŞTIRMASI - III

İçindekiler. Ön Söz... xiii

ÖRNEK 1: Verilen iki sayının toplamının bulunmasının algoritması aşağıdaki gibi yazılır:

Alıştırma 1: Yineleme

BİL-341 ALGORİTMALAR BÜYÜK O NOTASYONU AHMET ATAKAN atakanahmet@hotmail.com KIRGIZİSTAN-TÜRKİYE MANAS ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

ÜÇGENLER ÜNİTE 4. ÜNİTE 4. ÜNİTE 4. ÜNİTE 4. ÜNİT

Şartlı Olasılık. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

SÜREKLİ OLASILIK DAĞILIŞLARI

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Bilgisayarla Görüye Giriş

Adım Adım SPSS. 1- Data Girişi ve Düzenlemesi 2- Hızlı Menü. Y. Doç. Dr. İbrahim Turan Nisan 2011

Veri madenciliği yöntemleri

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

HİPOTEZ TESTLERİ. Yrd. Doç. Dr. Emre ATILGAN

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

EM302 Yöneylem Araştırması 2 Doğrusal Olmayan Programlamaya Giriş. Dr. Özgür Kabak

Transkript:

Besinci Saat Sınıflandırma: Alternatif Teknikler Dr. Hidayet Takçı Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Kural tabanlı Sınıflayıcı if then şeklinde ifade edilebilecek kurallarının bir koleksiyonu kullanılarak kayıtlar sınıflandırılır. Kural: (şart) y burada şart; öznitelikler birleşimidir y sınıf etiketidir LHS: kural öncesi veya şart (kuralın sol tarafı) RHS: kural sonrası (kuralın sağ tarafı) Sınıflandırma kurallarına örnekler: (kan tipi=sıcak) (yassı yumurta=evet) Birds (vergiye tabi gelir < 50K) (geri ödeme=yes) hileci=hayır Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 2

Kural tabanlı Sınıflayıcı(örnek) Name Blood Type Give Birth Can Fly Live in Water Class human warm yes no no mammals python cold no no no reptiles salmon cold no no yes fishes whale warm yes no yes mammals frog cold no no sometimes amphibians komodo cold no no no reptiles bat warm yes yes no mammals pigeon warm no yes no birds cat warm yes no no mammals leopard shark cold yes no yes fishes turtle cold no no sometimes reptiles penguin warm no no sometimes birds porcupine warm yes no no mammals eel cold no no yes fishes salamander cold no no sometimes amphibians gila monster cold no no no reptiles platypus warm no no no mammals owl warm no yes no birds dolphin warm yes no yes mammals eagle warm no yes no birds R1: (doğurganlık = no) (uçabilme = yes) Birds R2: (doğurganlık = no) (suda yaşama = yes) Fishes R3: (doğurganlık = no) (uçabilme = no) Reptiles (sürüngenler) R4: (suda yaşama = sometimes) Amphibians (hem suda hem dışarıda yaşayanlar) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 3

Kural Tabanlı Sınıflayıcının Uygulaması Eğer örneğe ait öznitelikler kuralın şartını sağlıyorsa r kuralı bir x örneğine karşı gelir. R1: (doğurganlık = no) (uçabilme = yes) Birds R2: (doğurganlık = no) (suda yaşama = yes) Fishes R3: (doğurganlık = yes) (kan tipi = warm) Mammals R4: (doğurganlık = no) (uçabilme = no) Reptiles R5: (suda yaşama = sometimes) Amphibians Name Blood Type Give Birth Can Fly Live in Water Class hawk warm no yes no? grizzly bear warm yes no no? R1 kuralı sayesinde atmaca => Bird olarak bulunur R3 kuralı gri ayı => Mammal olarak bulunur Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 4

10 Kurala Ayrılan Yer/Zaman ve Doğruluk Bir kuralın kapsamı: Kayıtların bir bölümü kuralın sol tarafını verir Bir kuralın doğruluğu: Kayıtların bir bölümü ise kuralın hem öncesini hem de sonrasını verir Coverage : Single değerlerinin, bütün içindeki oranı Accuracy : single olanlar içinde single=yes olanların oranı Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes (Status=Single) No Coverage = 40%, Accuracy = 50% Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 5

Kural Tabanlı Sınıflayıcı Nasıl Çalışır? R1: (doğurganlık = no) (uçabilme = yes) Birds R2: (doğurganlık = no) (suda yaşama = yes) Fishes R3: (doğurganlık = yes) (kan tipi = warm) Mammals R4: (doğurganlık = no) (uçabilme = no) Reptiles R5: (suda yaşama = sometimes) Amphibians Name Blood Type Give Birth Can Fly Live in Water Class lemur warm yes no no? turtle cold no no sometimes? dogfish shark cold yes no yes? Bir lemur (maymun) 3. kuralı tetikler, böylece o mammals olarak sınıflandırılır Bir kaplumbağa hem 4. kuralı hem de 5. kuralı tetikler Bir köpek balığı kuralların hiçbirini tetiklemez Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 6

Kural Tabanlı Sınıflayıcının Karakteristikleri Karşılıklı özel kurallar Eğer kurallar birbirinden bağımsız ise sınıflayıcı karşılıklı özel kurallar içerir Her bir kayıt en fazla bir kural tarafından kapsanır Ayrıntılı kurallar Eğer sınıflayıcı öznitelik değerlerinin olası bütün kombinasyonları için hesaplama yaparsa sınıflayıcının ayrıntılı kuralları vardır Her bir kayıt en az bir kural tarafından kapsanır Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 7

Karar Ağaçlarından Kurallara Classification Rules Yes NO Refund {Single, Divorced} Taxable Income No Marital Status < 80K > 80K {Married} NO (Refund=Yes) ==> No (Refund=No, Marital Status={Single,Divorced}, Taxable Income<80K) ==> No (Refund=No, Marital Status={Single,Divorced}, Taxable Income>80K) ==> Yes (Refund=No, Marital Status={Married}) ==> No NO YES Kurallar karşılıklı olarak özel ve ayrıntılıdır Kural kümesi ağaç kadar fazla bilgi içerir Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 8

10 Kurallar Basitleştirilebilir Yes NO NO Refund {Single, Divorced} Taxable Income No Marital Status < 80K > 80K YES {Married} NO Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Başlangıç Kuralı : (Refund=No) (Status=Married) No Basitleştirilmiş Kural : (Status=Married) No Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 9

Sıralı Kural Kümesi Kurallar önceliklerine bağlı olarak düzenlenmiş sıradadır Bir sıralı kural kümesi karar listesi olarak bilinir Bir test kaydı sınıflayıcıya sunulduğunda O kayıt, en yüksek sıra değerini veren tetiklenmiş kuralın sınıf etiketine atanır Eğer kuralların hiç biri tetiklenmiyorsa o kayıt geçerli sınıfa atanır. R1: (doğurganlık = no) (uçabilme = yes) Birds R2: (doğurganlık = no) (suda yaşam = yes) Fishes R3: (doğurganlık = yes) (kan tipi = warm) Mammals R4: (doğurganlık = no) (uçabilme = no) Reptiles R5: (suda yaşam = sometimes) Amphibians Name Blood Type Give Birth Can Fly Live in Water Class turtle cold no no sometimes? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 10

Kural Sırası Şemaları Kural tabanlı sıralama Bireysel kurallar onların kalitesine dayalı olarak sıralıdır Kural kalitesi önemli olduğu için sınıf sırası {No,No,Yes,No} Sınıf tabanlı sıralama Aynı sınıfa ait kurallar birlikte meydana gelir Sınıf bilgisi önemli olduğu için sınıf sırası {No,No,No,Yes} Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 11

Sınıflandırma Kuralları İnşası Doğrudan Metot: Kurallar doğrudan veriden çıkarılır Örnek: RIPPER, CN2, Holte s 1R Dolaylı Metot: Kurallar diğer sınıflandırma modellerinden çıkarılır (örnek: karar ağaçları, yapay sinir ağları v.s.) Örnek: C4.5 kuralları Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 12

Kural Genişlemesi İki genel strateji Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 13

Kural Budama ve Durma Kriteri Durma kriteri Bilgi kazancı hesap edilir Eğer bilgi kazancı önemli değilse yeni kural devre dışı bırakılır Kural budama Azaltılmış hata budama: Kuraldaki kümelerden birini sil Budama öncesi ve sonrası doğrulama kümesindeki hata oranını karşılaştır Eğer hata artıyorsa kümeyi buda Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 14

Kural Tabanlı Sınıflayıcıların Avantajları Karar ağaçları kadar anlaşılırdır Yorumlama kolaydır Genelleştirme kolaydır Yeni örnekler hızlıca sınıflanabilir Karar ağaçları ile karşılaştırma mümkündür Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 15

Örnek Tabanlı Sınıflayıcılar Set of Stored Cases Atr1... AtrN Class A B B C A C B Eğitim kayıtlarını depola Önceden görülmeyen olayların sınıfını tahmin için eğitim kayıtlarını kullan Unseen Case Atr1... AtrN Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 16

Örnek Tabanlı Sınıflayıcılar Örnekler: Ezber-öğrenici Ezberler eğitim verisine girer ve eğitim örneklerinden mükemmel şekilde eşleşen biri ile sınıflandırma yerine getirilir. En yakın komşu Sınıflandırmayı yerine getirmek için k adet en kapalı nokta (en yakın komşular) kullanılır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 17

En yakın Komşu Sınıflayıcılar Temel fikir: Eğer bilinmeyen bir canlı, bir ördeğe benzer şekilde hareket eder ve sesi de ördeğinkine benzerse onun ördek olma ihtimali vardır. Uzaklığı hesap et Test kaydı Eğitim kayıtları En yakın komşulardan k tanesini seç Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 18

En yakın Komşu Sınıflayıcılar Unknown record Üç şeye ihtiyaç vardır: Kaydedilmiş veriler Kayıtlar arasındaki mesafeyi ölçme için bir uzaklık ölçümü k değeri, alınıp getirilecek komşuların adedi Bilinmeyen bir kaydı sınıflandırmak için : Diğer eğitim kayıtlarına uzaklık hesaplanır k tane en yakın komşu belirlenir Bilinmeyen kaydın sınıfını belirlemek için en yakın komşuların sınıf etiketleri kullanılır Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 19

En yakın Komşu Tanımı X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor Bir x kaydının k-en yakın komşusu; x değerine en küçük mesafede yer alan k tane veri noktasıdır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 20

1 en yakın komşu (k=1) Voronoi Diyagram Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 21

En yakın Komşu Sınıflandırması İki nokta arasındaki mesafe hesabı: Öklidyen uzaklık d( p, q) = i ( p q i i ) 2 En yakın komşu listesinden sınıfı belirle k-en yakın komşu arasından çoğunluk oylaması yoluyla sınıf etiketini al Mesafeye göre oylara ağırlık ver ağırlık faktörü, w = 1/d 2 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 22

En yakın Komşu Sınıflandırması k değerinin seçimi: Eğer k çok küçük ise gürültülü noktalara karşı duyarlı olmak lazım Eğer k çok büyük ise, komşuluk diğer sınıflardan noktaları içerebilir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 23

En yakın Komşu Sınıflandırması Ölçekleme konuları Özniteliklerden birisi tarafından diğerlerinin pasif bırakılmaması için özniteliklerde ölçek uygulamak gerekebilir. Örnek: bir kişinin boyu genellikle 1.50 metre ile 1.90 metre arasında değerler alır ağırlık 40 kg ile 100 kg arasında değerler alır bir kişinin geliri ise yıllık 10000 dolar ile 1 milyon dolar arasında değişebilir Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 24

En yakın Komşu Sınıflandırması Ökllidyen ölçümü ile ilgili problem: Yüksek boyutlu veri boyutların aşırı fazlalığı Sezgisel sonuçlar elde edilebilir 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 vs 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 d = 1.4142 d = 1.4142 Çözüm: birim boyut ile vektörler normalize edilir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 25

En yakın Komşu Sınıflandırması k-nn sınıflayıcılar tembel öğrencilerdir Modeller belirgin olarak inşa edilemez Kural tabanlı sistemler ve karar ağacı tümevarımı gibi istekli öğrenici değildir Bilinmeyen kayıtların sınıflandırılması bağıl olarak maliyetlidir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 26

Örnek: PEBLS PEBLS: paralel örnekleyici tabanlı öğrenim sistemi (Cost & Salzberg) Sürekli ve nominal özelliklerin her ikisi ile birden çalışır nominal özellikler için, iki nominal değer arasındaki mesafe düzeltilmiş değer fark ölçümü ile hesaplanır (MVDM) Her bir kayıt bir ağırlık faktörüne eşlenir En yakın komşuların sayısı, k = 1 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 27

1 0 Örnek: PEBLS Class Yes Tid Refund Marital Status Single 2 Marital Status Married 0 Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Divorced 1 Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Class Yes Nomimal öznitelik değerleri arasındaki mesafe : d(single,married) = 2/4 0/4 + 2/4 4/4 = 1 d(single,divorced) = 2/4 1/2 + 2/4 1/2 = 0 d(married,divorced) = 0/4 1/2 + 4/4 1/2 = 1 d(refund=yes,refund=no) = 0/3 3/7 + 3/3 4/7 = 6/7 Yes 0 Refund No 3 d ( V1, V2 ) = n 1i n i 1 n n 2i 2 No 2 4 1 No 3 4 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 28

10 Örnek: PEBLS Tid Refund Marital Status Taxable Income Cheat X Yes Single 125K No Y No Married 100K No X ve Y kayıtları arasındaki mesafe: where: ( X w X =, Y ) = w X w Y d i= 1 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 29 d ( X i, Y Number of times X is used for prediction Number of times X predicts correctly w X 1 eğer X genellikle doğru tahmin sonuçları veriyorsa w X > 1 eğer X tahmin için güvenilir sonuçlar vermiyorsa i 2 )

Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 30 Bayes Sınıflayıcı Sınıflandırma problemlerini çözmek için bir olasılık tabanlı bir çerçeve. Şartlı olasılık: Bayes teoremi: ) ( ) ( ) ( ) ( A P C P C A P A C P = ) ( ), ( ) ( ) ( ), ( ) ( C P A C P C A P A P A C P A C P = =

Bayes Teoreminin Örneği Veriler: Bir doktor, menenjit hastalığına yakalanan hastaların % 50 sinde boyun tutulması meydana geldiğini biliyor. Herhangi bir hastanın menenjit olma olasılığı ise bütün hastalar içinde 1/50,000 Herhangi bir hastanın boyun tutulması hastalığına sahip olma olasılığı 1/20 Eğer bir hasta boyun tutulması ise onun menenjit olma olasılığı nedir? P( S M ) P( M ) 0.5 1/ 50000 P( M S) = = = P( S) 1/ 20 0.0002 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 31

Bayesian Sınıflayıcılar Her bir öznitelik ve sınıf etiketinin rasgele değişkenler olduğunu varsayalım, Verilen bir kayıt için öznitelikler (A 1, A 2,,A n ) olsun Hedef C sınıfını tahmin etmek. Özellikle, biz P(C A 1, A 2,,A n ) değerini maksimize edecek değeri bulmak istiyoruz. Doğrudan veriden P(C A 1, A 2,,A n ) değerini tahmin edebilir miyiz? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 32

Bayesian Sınıflayıcılar Yaklaşım: Bayes teoremi kullanarak C nin bütün değerleri için P(C A 1, A 2,, A n ) öncel olasılıkları hesap edilir. P ( C A 1 A 2 Κ A ) = n P ( A A Κ 1 2 P ( A A C ) P ( C ) n A Κ A ) P(C A 1, A 2,, A n ) değerini maksimize edecek C değerini seçilir. Karşılık olarak P(A 1, A 2,, A n C) P(C) değerini maksimize edecek C değerini seçin. 1 2 n Nasıl P(A 1, A 2,, A n C ) değerini tahmin ederiz? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 33

Naïve Bayes Sınıflayıcı Sınıf verildiğinde A i öznitelikleri arasında bağımsızlık olduğunu varsayalım: P(A 1, A 2,, A n C) = P(A 1 C j ) P(A 2 C j ) P(A n C j ) Bütün A i ve C j değerleri için P(A i C j ) değerlerini hesap edebilir miyiz. Eğer P(C j ) Π P(A i C j ) çarpımları maksimum ise yeni nokta C j sınıfına atanır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 34

10 Veriden Olasılıkları Nasıl Tahmin Ederiz? categorica l Tid Refund Marital Status categorica l Taxable Income continuous 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Evade 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes class Sınıf: P(C) = N c /N Örnek, P(No) = 7/10, P(Yes) = 3/10 Ayrık öznitelikler için: P(A i C k ) = A ik / N c A ik, C k sınıfı ve A i özniteliğine sahip örneklerin adedidir. Örnekler: P(Status=Married No) = 4/7 P(Refund=Yes Yes)=0 k Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 35

Veriden Olasılıkları Nasıl Tahmin Ederiz? Sürekli öznitelikler için: Aralık kutulara ayrıklaştırılır her bir kutu için bir sıralı öznitelik kullanılır İki yollu bölünme: (A < v) veya (A > v) sadece iki bölünmeden birisi yeni öznitelik için seçilir. Olasılık yoğunluk tahmini: Bir normal dağılımı takip eden öznitelik varsayalım Dağılımın parametrelerini tahmin için veri kullanılır (örnek, ortalama ve standart sapma) önce olasılık dağılımı bilinir, bu bilgiyi şartlı olasılığı tahmin için kullanabilir miyiz? P(A i c) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 36

1 0 Veriden Olasılıkları Nasıl Tahmin Ederiz? categorical Tid Refund Marital Status categorica l Taxable Income continuous 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Evade 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes P( Income = 120 No) class = Normal dağılım: P( A Her bir (A i,c i ) çifti için bir tane (Income, Class=No) için: Eğer sınıf=no 1 2 2πσ örnek ortalaması = 110 örnek varyansı = 2975 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 37 i c 1 2π (54.54) j ) e = (120 110 ) 2 ( 2975) 2 = ij e ( A i µ ) 2σ 0.0072 ij 2 ij 2

Naïve Bayes Sınıflayıcı için Örnek Verilen bir test kaydı: X = ( Refund = No,Married,Income = 120K) naive Bayes Classifier: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No)=1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/7 P(Marital Status=Divorced Yes)=1/7 P(Marital Status=Married Yes) = 0 For taxable income: If class=no: sample mean=110 sample variance=2975 If class=yes: sample mean=90 sample variance=25 P(X Class=No) = P(Refund=No Class=No) P(Married Class=No) P(Income=120K Class=No) = 4/7 4/7 0.0072 = 0.0024 P(X Class=Yes) = P(Refund=No Class=Yes) P(Married Class=Yes) P(Income=120K Class=Yes) = 1 0 1.2 10-9 = 0 P(X No)P(No) > P(X Yes)P(Yes) O yüzden P(No X) > P(Yes X) => Class = No Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 38

Naïve Bayes Sınıflayıcının Örneği Name Give Birth Can Fly Live in Water Have Legs Class human yes no no yes mammals python no no no no non-mammals salmon no no yes no non-mammals whale yes no yes no mammals frog no no sometimes yes non-mammals komodo no no no yes non-mammals bat yes yes no yes mammals pigeon no yes no yes non-mammals cat yes no no yes mammals leopard shark yes no yes no non-mammals turtle no no sometimes yes non-mammals penguin no no sometimes yes non-mammals porcupine yes no no yes mammals eel no no yes no non-mammals salamander no no sometimes yes non-mammals gila monster no no no yes non-mammals platypus no no no yes mammals owl no yes no yes non-mammals dolphin yes no yes no mammals eagle no yes no yes non-mammals A: öznitelikler M: memeliler N: memeli olmayanlar 6 6 2 2 P( A M ) = = 0.06 7 7 7 7 1 10 3 4 P( A N) = = 0.0042 13 13 13 13 7 P( A M ) P( M ) = 0.06 = 0.021 20 13 P( A N) P( N ) = 0.004 = 0.0027 20 Give Birth Can Fly Live in Water Have Legs Class yes no yes no? P(A M)P(M) > P(A N)P(N) => Memeliler Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 39

Yapay Sinir Ağları (ANN) X 1 X 2 X 3 Y 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 1 1 0 0 0 0 Eğer üç girişten en az ikisi 1 değerine eşit ise Y çıkışı 1 değerine eşit olur. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 40

Yapay Sinir Ağları (ANN) X 1 X 2 X 3 Y 1 0 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 1 1 0 0 0 0 Y = I ( 0.3 X 1 + 0.3X 2 + 0.3X 3 0.4 > 0) 1 if z is true where I ( z) = 0 otherwise Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 41

Yapay Sinir Ağları (ANN) Model; bağlı düğümler ve ağırlık ile yüklenmiş bağlantıların bir toplamıdır Çıkış düğümü, onun giriş bağlantı ağırlıklarına bağlı olarak giriş değerlerinin her birini toplar. Perceptron Model Çıkış düğümü bazı eşik (t) değerleri ile karşılaştırılır Y Y = I( wi X i t) i = sign( wi X i t) i veya Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 42

Yapay Sinir Ağlarının Genel Yapısı ANN eğitimi nöron ağırlıklarının öğrenilmesi manasına gelir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 43

ANN Öğrenimi için Algoritma Ağırlıklara başlangıç değerleri ver (w 0, w 1,, w k ) Çıkışı; eğitim örneklerinin sınıf etiketleriyle uyumlu ANN nin ağırlıklarını ayarla. Amaç fonksiyonu: = Yukarıdaki amaç fonksiyonunu minimize edecek ağırlıkları (w i ) bul. E örnek, backpropagation algoritması i [ Y f ( w, X )] 2 i i i Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 44

Destek Vektör Makineleri Veriyi ayıracak doğrusal bir hiper düzlem bul (karar sınırı) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 45

Destek Vektör Makineleri Bir olası çözüm Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 46

Destek Vektör Makineleri Diğer bir olası çözüm Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 47

Destek Vektör Makineleri Diğer olası çözümler Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 48

Destek Vektör Makineleri Hangisi daha iyidir? B1 veya B2? Daha iyi nasıl tanımlanabilir? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 49

Destek Vektör Makineleri Margin değerini maksimize edecek hiper düzlemi bul => B1, B2 den daha iyidir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 50

Destek Vektör Makineleri w ρ x ρ + b = 0 w ρ x ρ + b = 1 w ρ x ρ + b = + 1 ρ ρ ρ 1 if w x + b 1 ( x ) = ρ ρ 1 if w x + b 1 2 Margin = w ρ f 2 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 51

Destek Vektör Makineleri Margin değerini maksimize etmek istiyoruz 2 ρ 2 Margin = 2 w ρ w L( w) = 2 Fakat aşağıdaki kısıtlar geçerlidir: ρ ρ ρ 1 if w x i + b 1 f ( x i ) = ρ ρ 1 if w x i + b 1 bu bir kısıtlanmış optimizasyon problemidir. Problemi çözmek için sayısal yaklaşımlar vardır (örnek, quadratic programlama) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 52

Destek Vektör Makineleri Eğer doğrusal olarak ayırım mümkün değilse ne yapmak lazımdır? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 53

Destek Vektör Makineleri Eğer doğrusal olarak ayırım mümkün değilse ne yapmak lazımdır? Başka değişkenler kullanırız ρ 2 N w minimizasyon ihtiyacı: = + k L( w) C ξi 2 i= 1 Subject to: f ( ρ x i ) = 1 1 ρ ρ if w x i + b 1 - ξ i ρ ρ if w x + b 1 + ξ i i Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 54

Doğrusal Olmayan Destek Vektör Makineleri Doğrusal olmayan durumlarda karar sınırı nedir? Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 55

Doğrusal Olmayan Destek Vektör Makineleri Veri daha yüksek boyutlu bir uzaya dönüştürülür Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 56