Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Benzer belgeler
Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Teknolojileri

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

EME Sistem Simülasyonu. Giriş. Olasılık Dağılımı. Rassal Degiskenler

K En Yakın Komşu Methodu (KNearest Neighborhood)

İçindekiler. Ön Söz... xiii

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Zeki Optimizasyon Teknikleri

Makine Öğrenmesi 2. hafta

CBS ve Coğrafi Hesaplama

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

TANIMLAYICI İSTATİSTİKLER

GENETİK ALGORİTMALAR BÜŞRA GÜRACAR

MEH535 Örüntü Tanıma

Zeki Optimizasyon Teknikleri

Gözetimli & Gözetimsiz Öğrenme

Görüntü Sınıflandırma

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Bilgisayarla Görüye Giriş

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Google Maps ve Genetik Algoritmalarla GSP Çözümü İçin Öneri

DOĞRUSAL OLMAYAN PROGRAMLAMA -I-

VERİ KÜMELERİNİ BETİMLEME

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

METASEZGİSEL YÖNTEMLER

İÇİNDEKİLER ÖN SÖZ...

METASEZGİSEL YÖNTEMLER. Genetik Algoritmalar

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

TANI TESTLERINE GIRIŞ & ROC ANALİZİ

SÜREKLİ OLASILIK DAĞILIŞLARI

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

Esnek Hesaplamaya Giriş

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

Kolektif Öğrenme Metotları

VERİ MADENCİLİĞİ Metin Madenciliği

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

BİYOİSTATİSTİK Bazı Olasılık Dağılışları Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#2: ALGORİTMA ANALİZİ

Olasılık ve Normal Dağılım

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

GridAE: Yapay Evrim Uygulamaları için Grid Tabanlı bir Altyapı

SÜREKLİ ŞANS DEĞİŞKENLERİ. Üstel Dağılım Normal Dağılım

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

13. Olasılık Dağılımlar

OLASILIK ve KURAMSAL DAĞILIMLAR

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

Genetik Algoritmalar (GA) Genetik Algoritmalar Đçerik Nesin Matematik Köyü E rim Ç lı l ş ı ta t yı Nisan, 2012 Mustafa Suphi Erden

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Doğrusal Programlama. Prof. Dr. Ferit Kemal Sönmez

Fonksiyon Optimizasyonunda Genetik Algoritmalar

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

SÜREKLĠ OLASILIK DAĞILIMLARI

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

YÖNEYLEM ARAŞTIRMASI - III

Simülasyonda İstatiksel Modeller

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

Okut. Yüksel YURTAY. İletişim : (264) Sayısal Analiz. Giriş.

YZM VERİ YAPILARI DERS#9: HASH FONKSİYONLARI

Boosting. Birol Yüceoğlu Migros T.A.Ş.

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

DERS 2 : BULANIK KÜMELER

ERCİYES ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ SİVİL HAVACILIK ANABİLİM DALI YENİ DERS ÖNERİSİ/ DERS GÜNCELLEME

KESİKLİ DÜZGÜN DAĞILIM

SÜREKLİ RASSAL DEĞİŞKENLER

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Transkript:

VERİ MADENCİLİĞİ Farklı Sınıflandırma Yöntemleri Yrd. Doç. Dr. Şule Gündüz Öğüdücü Örnek tabanlı yöntemler ken Yakın Komşu Yöntemi Genetik Algoritmalar Karar Destek Makinaları Bulanık Küme Sınıflandırıcılar Öngörü Eğri Uydurma Öğrenme, sınama, geçerleme kümelerini oluşturma Örnek Tabanlı Yöntemler Örnek Tabanlı Yöntemler Örnek tabanlı sınıflandırma: Öğrenme kümesi saklanır Sınıflandırılacak yeni bir örnek geldiğinde öğrenme kümesi sınıf etiketini öngörmek için kullanılır (tembel (lazy) yöntemler) Yöntemler ken yakın komşu yöntemi Öğrenme Kümesi Nit... NitN Sınıf A B B C A C B 3 4 En Yakın Komşu Yöntemi En Yakın Komşu Sınıflandırıcı Temel yaklaşım: Sınıflandırılmak istenen örneğe en yakın örnekleri bul. Örnek: ördek gibi yürüyor, ördek gibi bağırıyor => büyük olasılıkla ördek Öğrenme Örnekleri Uzaklık hesapla en yakın k adet örnek seç Sınama Örneği Bütün örnekler nboyutlu uzayda bir noktaya karşı düşürülür Nesneler arasındaki uzaklık (Öklid uzaklığı) Öğrenilen fonksiyon ayrık değerli veya gerçel değerli olabilir Ayrık değerli fonksiyonlarda k komşu algoritması Xq örneğine en yakın k öğrenme örneğinde en çok görülen sınıf değerini verir Sürekli değerli fonksiyonlarda en yakın k öğrenme örneğinin ortalaması alınır 5 6

KEn Yakın Komşu Yöntemi KEn Yakın Komşu Yöntemi. xq _ Xq örneği en yakın komşuya göre pozitif olarak, 5en yakın komşuya göre negatif olarak sınıflandırılır _..... Voronoi diyagramları: Her öğrenme örneğini çevreleyen dışbükey çokgenlerden oluşan karar yüzeyi Uzaklıkağırlıklı ken yakın komşu algoritması Öğrenme kümesindeki örneklere (x ), i sınıflandırılmak istenen örneğe (x q ) olan uzaklıklarına göre ağırlıklar verilmesi w yakın örneklerin ağırlığı daha fazla dxq (, x i ) ken yakın komşunun ortalaması alındığı için gürültülü veriden az etkileniyor İlgisiz nitelikler uzaklığı etkileyebilir bu nitelikler uzaklık hesaplarken kullanılmayabilir 7 8 Genetik Algoritmalar Örnek tabanlı yöntemler ken Yakın Komşu Yöntemi Genetik Algoritmalar Karar Destek Makinaları Bulanık Küme Sınıflandırıcılar Öngörü Eğri Uydurma Öğrenme, sınama, geçerleme kümelerini oluşturma Optimizasyon amaçlı Bir başlangıç çözümü öneriyor, tekrarlanan her ara adımda daha iyi çözüm üretmeye çalışıyor. Doğal evrime ve en iyi olanın yaşamını sürdürmesine dayanıyor Çözümü birey olarak sunuyor. Birey: I=I,I,,I n I j kullanılan alfabenin bir karakteri gen: I j Toplum: Bireylerden oluşan küme 9 0 Genetik Algoritmalar Çaprazlama Örnekleri Genetik Algoritmalar (GA) 5 parçadan oluşuyor: Bireylerden oluşan bir başlangıç kümesi, P Çaprazlama (Crossover): Bir anne babadan yeni bireyler üretmek için yapılan işlem Mutasyon: Bir bireyi rastgele değiştirme Uygunluk (fitness): En iyi bireyleri belirleme Çaprazlama ve mutasyon tekniklerini uygulayan ve uygunluk fonksiyonuna göre toplum içindeki en iyi bireyleri seçen algoritma 000 000 000 000 Parents Children a) Single Crossover 000 000 00 000 00 000 Parents Children a) Multiple Crossover

Genetik Algoritma GA Avantajlar, Dezavantajlar Avantaj Paralel çalışabilir NP karmaşık problem çözümlerine uygun Dezavantaj Son kullanıcının modeli anlaması güç Problemi GA ile çözmeye uygun hale getirmek zor Uygunluk fonksiyonunu belirlemek zor Çaprazlama ve mutasyon tekniklerini belirlemek zor 3 4 Örnek tabanlı yöntemler ken Yakın Komşu Yöntemi Genetik Algoritmalar Karar Destek Makinaları Bulanık Küme Sınıflandırıcılar Öngörü Eğri Uydurma Öğrenme, sınama, geçerleme kümelerini oluşturma B (Support Vector Machines SVM): Veriyi ayıracak doğrusal bir sınır 5 6 B B Bir çözüm Başka bir çözüm 7 8 3

Diğer çözümler Hangisi daha iyi? B mi, B mi? Daha iyi nasıl tanımlanır? 9 0 B w r x r b = w r x r b = y i = (w x) b, y i = (w x) b, y i = =>y i (w x b) B b b x x. w (w x )b=y i = (w x )b=y i = margin b y i = w r x r b = 0 =>w (x x )= => w (x x )= w w b Farklı sınıftan örnekler arasındaki uzaklığı enbüyüten düzlemi bul => B, B den daha iyi Eniyileme Problemi Çözümü enbüyük olması isteniyor w w y i (w x b) olacak şekilde enküçük olmalı kısıtlı eniyileme (constraint optimization) problem Problem Lp = w N αi i= [ y ( w x b) ] α α N bulunması Σα i ½ΣΣα i α j y i y j x it x j en büyük olacak kısıtlar: () Σα i y i = 0 () α i 0, α i i i Çözüm w =Σα i y i x i b= y k w T x k x k, α k 0 Sınıflandırma fonksiyonu f(x) = Σα i y i x it x b f(x) = ise x pozitif olarak, diğer durumlarda negatif olarak sınıflandırılıyor. 3 4 4

Öğrenme kümesi doğrusal olarak ayrılamıyor ξ i değişkenleri ekleniyor ξ i ξ i (w x) b ξ i, y i = (w x) b ξ i, y i = =>y i (w x b) ξ i ξ i 0, i N Lp = w C ξi i= Problem: α α N bulunması Σα i ½ΣΣα i α j y i y j x it x j en büyük olacak kısıtlar: () Σα i y i = 0 () 0 α i C, α i k Çözüm Eniyileme Problemi Çözümü w =Σα i y i x i b= y k ( ξ k ) w T x k, k = argmax α k Sınıflandırma fonksiyonu f(x) = Σα i y i x it x b 5 6 SVM Uygulamaları Boser, Guyon ve Vapnik tarafından 99 yılında önerildi. 990 ların sonlarına doğru yaygın olarak kullanılmaya başlandı SVM için en yaygın eniyileme algoritmaları SMO [Platt 99] ve SVM light [Joachims 99] Örnek tabanlı yöntemler ken Yakın Komşu Yöntemi Genetik Algoritmalar Karar Destek Makinaları Bulanık Küme Sınıflandırıcılar Öngörü Eğri Uydurma Öğrenme, sınama, geçerleme kümelerini oluşturma 7 8 Bulanık Küme Sınıflandırıcılar Bulanık mantık 0.0 ve.0 arasında gerçel değerler kullanarak üyelik dereceleri hesaplar Nitelik değerleri bulanık değerlere dönüştürülür Kurallar kümesi oluşturulur Yeni bir örneği sınıflandırmak için birden fazla kural kullanılır Her kuraldan gelen sonuç toplanır Örnek tabanlı yöntemler ken Yakın Komşu Yöntemi Genetik Algoritmalar Karar Destek Makinaları Bulanık Küme Sınıflandırıcılar Öngörü Eğri Uydurma Öğrenme, sınama, geçerleme kümelerini oluşturma 9 30 5

Öngörü Sınıflandırma problemleriyle aynı yaklaşım model oluştur bilinmeyen değeri hesaplamak için modeli kullan eğri uydurma doğrusal doğrusal olmayan Sınıflandırma ayrık değerli Öngörü sürekli değerli 3 Eğri Uydurma Doğrusal eğri uydurma: en basit eğri uydurma yöntemi veri doğrusal bir eğri ile modellenir. veri kümesindeki niteliklerin doğrusal fonksiyonu y = w0 wa wa... w k a k öğrenme kümesindeki y i sınıfından bir x i örneği için çıkış y = w0 xi0 w xi w xi... wk x karesel hatayı enküçültecek ağırlıkları bulma y i i= j= 0 n k w jxij ik = k j= 0 w x j ij 3 Hata oranı Anma Duyarlılık Fölçütü ROC eğrileri Öğrenme, sınama, geçerleme kümelerini oluşturma Sınıflandırma Modelini Değerlendirme Model başarımını değerlendirme ölçütleri nelerdir? Hata oranı Anma Duyarlılık Fölçütü Farklı modellerin başarımı nasıl karşılaştırılır? ROC 33 34 Sınıflandırma Hatası Model Başarımını Değerlendirme nin hatalarını ölçme başarı: örnek doğru sınıfa atandı hata: örnek yanlış sınıfa atandı hata oranı: hata sayısının toplam örnek sayısına bölünmesi Hata oranı sınama kümesi kullanılarak hesaplanır Model başarımını değerlendirme ölçütleri modelin ne kadar doğru sınıflandırma yaptığını ölçer hız, ölçeklenebilirlik gibi özellikleri değerlendirmez Karışıklık matrisi: DOĞRU SINIF Sınıf = Sınıf = ÖNGÖRÜLEN SINIF Sınıf= a c Sınıf= b d a: TP (true positive) b: FN (false negative) c: FP (false positive) d: TN (true negative) 35 36 6

Model Başarımını Değerlendirme: Doğruluk Örnek DOĞRU SINIF ÖNGÖRÜLEN SINIF a (TP) c (FP) b (FN) d (TN) Sınıflandırıcı A Sınıflandırıcı B Sınıflandırıcı C TP=5 FN=5 TP=50 FN=0 TP=5 FN=5 FP=5 TN=5 FP=5 TN=5 FP=0 TN=50 Doğruluk=%50 Doğruluk=%75 Doğruluk=%75 Modelin başarımı: a d TP TN Dogruluk = = a b c d TP TN FP FN b c FN FP Hata Orani = = a b c d TP TN FP FN 37 Hangi sınıflandırıcı daha iyi? B ve C, A dan daha iyi bir sınıflandırıcı B, C den daha iyi bir sınıflandırıcı mı? 38 Model Başarımını Değerlendirme: Duyarlılık Model Başarımını Değerlendirme: Anma DOĞRU SINIF ÖNGÖRÜLEN SINIF a (TP) c (FP) b (FN) d (TN) DOĞRU SINIF ÖNGÖRÜLEN SINIF a (TP) c (FP) b (FN) d (TN) Doğru sınıflandırılmış pozitif örnek sayısı Duyarlılık = Pozitif sınıflandırılmış örneklerin sayısı TP = TP FP Doğru sınıflandırılmış pozitif örnek sayısı Anma = Doğru pozitif oranı Pozitif örneklerin sayısı TP = TP FN 39 40 Anma / Duyarlılık Sınıflandırıcıları Karşılaştırma A modeli B modelinden daha iyi anma ve duyarlılık değerine sahipse A modeli daha iyi bir sınıflandırıcıdır. Duyarlılık ve anma arasında ters orantı var. duyarlılık Doğruluk en basit ölçüt Duyarlılık ve anma daha iyi ölçme sağlıyor Model A nın duyarlılığı model B den daha iyi ancak model B nin anma değeri model A dan daha iyi olabilir. anma 4 4 7

Model Başarımını Değerlendirme: Fölçütü Fölçütü: Anma ve duyarlılığın harmonik ortalamasını alır. Fölçütü = * duyarlılık * anma duyarlılık anma ROC (Receiver Operating Characteristic) İşaret işlemede bir sezicinin, gürültülü bir kanalda doğru algılama oranının yanlış alarm oranına karşı çizdirilen grafiği (algılayıcı işletim eğrisi) Farklı sınıflandırıcıları karşılaştırmak için ROC eğrileri Doğru pozitif (TPR y ekseni) oranının yanlış pozitif (FPR x ekseni) oranına karşı çizdirilen grafiği TPR = TP / (TP FN) FPR = FP / (TN FP) ROC üzerindeki her nokta bir sınıflandırıcının oluşturduğu bir modele karşı düşer 43 44 ROC Eğrisi ROC Eğrisi iki sınıftan oluşan tek boyutlu bir veri kümesi (positive negative) x > t için her örnek pozitif olarak sınıflandırılıyor (FPR,TPR) (0,0): Bütün örneklerin negatif sınıflandırılması (,): Bütün örneklerin pozitif sınıflandırılması (0,): ideal durum Çapraz çizgi: Rastlantısal tahmin t eşik değeri için: TPR=0.5, FNR=0.5, FPR=0., FNR=0.88 45 46 ROC Eğrilerinin Kullanılması ROC Eğrisinin Çizilmesi Farklı modelleri karşılaştırmak için M veya M birbirlerine üstünlük sağlamıyor küçük FPR değerleri için M daha iyi büyük FPR değerleri için M daha iyi ROC eğrisi altında kalan alan ideal = Rastlantısal tahmin=0.5 Her örnek için P( A) olasılığı hesaplanır P( A) değeri azalarak sıralanır Her farklı P( A) değeri için bir eşik değeri uygulanır Her eşik değeri için TP, FP, TN, FN hesaplanır Örnek 3 4 5 6 7 8 9 0 P( A) 0.95 0.93 0.87 0.85 0.85 0.85 0.76 0.53 0.43 0.5 Sınıf 47 48 8

ROC Eğrisinin Çizilmesi Model Parametrelerini Belirleme Class 0.5 0.43 0.53 0.76 0.85 0.85 0.85 0.87 0.93 0.95.00 TP 5 4 4 3 3 3 3 0 FP 5 5 4 4 3 0 0 0 TN 0 0 3 4 4 5 5 5 FN 0 3 3 4 5 TPR 0.8 0.8 0.6 0.6 0.6 0.6 0.4 0.4 0. 0 FPR 0.8 0.8 0.6 0.4 0. 0. 0 0 0 ROC Eğrisi: Sınama kümesi sınıflandırıcı oluşturmak için kullanılmaz Bazı sınıflandırıcılar modeli iki aşamada oluşturur modeli oluştur parametreleri ayarla Sınama kümesi parametreleri ayarlamak için kullanılmaz Uygun yöntem üç veri kümesi kullanma: öğrenme, geçerleme, sınama geçerleme kümesi parametre ayarlamaları için kullanılır model oluşturulduktan sonra öğrenme ve geçerleme kümesi son modeli oluşturmak için kullanılabilir 49 50 Sınıflandırma: Öğrenme, Geçerleme, Sınama Model Başarımını Tahmin Etme Veri Sınıflar Sınama Kümesi Geçerleme Kümesi Y N Öğrenme kümesi Değerlendirme Model Oluşturma Sınıflandırma Son model hata oranı Model Oluşturma 5 Örnek: Doğruluğu %5 olan bir modelin gerçek başarımı ne kadardır? Sınama kümesinin büyüklüğüne bağlı Sınıflandırma (hileli) yazı tura atmaya benziyor tura doğru sınıflandırma (başarı), yazı yanlış sınıflandırma (başarısızlık) İstatistikte birbirinden bağımsız olayların başarı ya da başarısızlıkla sonuçlanmaları Bernoulli dağılımı ile modellenir. Gerçek başarı oranını belirlemek için istatistikte güven aralıkları tanımlanmıştır. 5 Güven Aralığı p belli bir güvenle belli bir aralıkta bulunmaktadır. Örnek: N=000 olayda S=750 başarı sağlanmış. Tahmin edilen başarı oranı: 75% Gerçek başarıya ne kadar yakın %80 güven ile p [73, 76,7] Örnek: N=00 olayda S=75 başarı sağlanmış. Tahmin edilen başarı oranı: 75% Gerçek başarıya ne kadar yakın %80 güven ile p [69, 80,] Ortalama Değer ve Varyans Başarı oranı p olan tek bir Bernoulli olayının ortalama değeri ve varyansı: p, p ( p) N kere tekrarlanan Bernoulli olayının beklenen başarı oranı f=s/n Büyük N değerleri için, f normal dağılım f için ortalama değer ve varyans: p, p ( p)/n Ortalama değeri 0 ve varyansı olan X rastlantı değişkeninin %c güven aralığı : Pr[ z X z]=c Simetrik bir dağılım için: Pr[ z X z]= *Pr [X z] 53 54 9

Güven Sınırları Dönüşüm Ortalama değeri 0 ve varyansı olan bir normal dağılımın güven sınırları Pr[X z] 0.% 0.5% % 5% 0% z 3.09.58.33.65.8 f in ortalama değerinin 0, varyansının olacak şekilde dönüştürülmesi için f p p( p) / N Güven aralığı f p Pr z z = c p p N ( ) / 0.65 0.65 Pr[,65 X,65]=90% f in ortalama değerinin 0, varyansının olacak şekilde dönüştürülmesi gerekir. 0% 40% 0.84 0.5 p nin değeri z p = f ± z N f N f z N 4N z N 55 56 Örnek f = 75%, N = 000, c = 80% (z =.8): p [0,73 0,767] f = 75%, N = 00, c = 80% (z =.8): p [0,69 0,80] Öğrenme, sınama, geçerleme kümelerini oluşturma holdout kkat çapraz geçerleme Bootstrap 57 58 Verinin Dengesiz Dağılımı Dengeli Dağılım Nasıl Sağlanır? Küçük veya dengesiz veri kümeleri için örnekler tanımlayıcı olmayabilir Veri içinde bazı sınıflardan çok az örnek olabilir tıbbi veriler: %90 sağlıklı, %0 hastalık elektronik ticaret: %99 alışveriş yapmamış, % alışveriş yapmış güvenlik: %99 sahtekarlık yapmamış, % sahtekarlık yapmış Örnek: Sınıf: 9990 örnek, Sınıf: 0 örnek bütün örnekleri sınıf e atayan bir sınıflandırıcının hata oranı: 9990 / 0000= %99,9 hata oranı yanıltıcı bir ölçüt olabilir Veri kümesinde iki sınıf varsa iki sınıfın eşit dağıldığı bir veri kümesi oluştur Az örneği olan sınıftan istenen sayıda rasgele örnekler seç Çok örneği olan sınıftan aynı sayıda örnekleri ekle Veri kümesinde iki sınıftan fazla sınıf varsa Öğrenme ve sınama kümesini farklı sınıflardan aynı sayıda örnek olacak şekilde oluştur 59 60 0

0 0 Örnek Büyük Veri Kümelerinde Değerlendirme Tid Nit Nit Nit3 Sınıf Büyük 5K 0 0 Orta 00K 0 3 0 Küçük 70K 0 4 Orta 0K 0 5 0 Büyük 95K 6 0 Orta 60K 0 7 Büyük 0K 0 8 0 Küçük 85K 9 0 Orta 75K 0 0 0 Küçük 90K Öğrenme Kümesi Tid Nit Nit Nit3 Sınıf 0 Küçük 55K? Orta 80K? 3 Büyük 0K? 4 0 Küçük 95K? 5 0 Büyük 67K? Sınama Kümesi Öğrenme Algoritması Öğrenme Uygulama holdout repeated holdout kfold cross validation bootstrapping Model 6 Veri dağılımı dengeli ise: Veri kümesindeki örnek sayısı ve her sınıfa ait örnek sayısı fazla ise basit bir değerlendirme yeterli holdout yöntemi: Belli sayıda örnek sınama için ayrılır, geriye kalan örnekler öğrenme için kullanılır genelde veri kümesinin /3 ü öğrenme, /3 i sınama kümesi olarak ayrılır öğrenme kümesi kullanılarak model oluşturulur ve sınama kümesi kullanılarak model değerlendirilir 6 Tekrarlı Holdout Yöntemini Veri kümesini farklı altkümelere bölerek holdout yöntemini tekrarlama Her eğitme işleminde veri kümesinin belli bir bölümü öğrenme kümesi olarak rasgele ayrılır Modelin hata oranı, işlemler sonunda elde edilen modellerin hata oranlarının ortalaması Problem: Farklı eğitme işlemlerindeki sınama kümeleri örtüşebilir kkat Çapraz Geçerleme Veri kümesi eşit boyutta k adet farklı gruba ayrılır. Bir grup sınama, diğerleri öğrenme için ayrılır. Sınama Kümesi Her grup bir kere sınama kümesi olacak şekilde deneyler k kere tekrarlanır. 63 64 Biri Hariç Çapraz Geçerleme Bootstrap Yöntemi kkat çapraz geçerlemenin özel hali k sayısı veri kümesindeki örnek sayısına (N) eşit Model N örnek üzerinde eğitilir, dışarıda bırakılan örnek üzerinde sınanır Bu işlem her örnek kez sınama için kullanılacak şekilde tekrarlanır model N kez eğitilir Model başarımı denemelerin başarımının ortalaması Verinin en etkin şekilde kullanımı Veri kümesinden yerine koyma yöntemi ile örnekler seçilerek öğrenme kümesi oluşturulur N örnekten oluşan veri kümesinden yerine koyarak N örnek seçilir Bu küme öğrenme kümesi olarak kullanılır Öğrenme kümesinde yer almayan örnekler sınama kümesi olarak kullanılır Veri Örnek Örnek Örnek 3 Örnek 4 Öğrenme Kümesi() Örnek Örnek Örnek 3 Örnek 3 Sınama Kümesi() Örnek Örnek 4 Örnek 5 Örnek 5 65 66

0.63 bootstrap Bootstrap Yönteminde Model Hatasını Belirleme N örnekten oluşan bir veri kümesinde bir örneğin seçilmeme olasılığı: N Sınama kümesinde yer alma olasılığı: e n = 0.368 Öğrenme kümesi veri kümesindeki örneklerin %63, sinden oluşuyor n Model başarımını sadece sınama kümesi kullanarak belirleme kötümser bir yaklaşım model örneklerin sadece ~%63 lük bölümüyle eğitiliyor Model başarımı hem öğrenme kümesindeki hem de sınama kümesindeki başarım ile değerlendirilir hata = 0,63 hata (sınama) 0,368 hata (öğrenme) İşlem birkaç kez tekrarlanarak hatanın ortalaması alınır. 67 68 Model Başarımını Artırma Öğrenme, sınama, geçerleme kümelerini oluşturma Bagging Boosting Veri Öğrenme K.() Öğrenme K.() Öğrenme K.(3) Bir grup sınıflandırıcı kullanma Bagging Boosting : Öğrenme K.(k) Sınıflandırıcı() Sınıflandırıcı() Sınıflandırıcı(3) Sınıflandırıcı(k) Model Yeni Veri 69 70 Bagging Boosting N örnekten oluşan bir veri kümesinde bootstrap yöntemi ile T örnek seç Bu işlemi k öğrenme kümesi oluşturmak üzere tekrarla Aynı sınıflandırma algoritmasını k öğrenme kümesi üzerinde kullanarak k adet sınıflandırıcı oluştur Yeni bir örneği sınıflandırmak için her sınıflandırıcının sonucunu öğren Yeni örnek en çok hangi sınıfa atanmışsa o sınıfın etiketiyle etiketlendir. Öğrenme kümesindeki her örneğin bir ağırlığı var Her öğrenme işleminden sonra, her sınıflandırıcı için yapılan sınıflandırma hatasına bağlı olarak örneklerin ağırlığı güncelleniyor Yeni bir örneği sınıflandırmak için her sınıflandırıcının doğruluğuna bağlı olarak ağırlıklı ortalaması alınıyor. 7 7