Web Madenciliği (Web Mining)

Benzer belgeler
Web Madenciliği (Web Mining)

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Web Madenciliği (Web Mining)

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

MEH535 Örüntü Tanıma

Uzaktan Algılama Teknolojileri

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Zeki Optimizasyon Teknikleri

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Kolektif Öğrenme Metotları

Web Madenciliği (Web Mining)

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Mesleki Terminoloji II Veri Madenciliği

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ. Hanife GÖKER

AST416 Astronomide Sayısal Çözümleme - II. 6. Monte Carlo

Büyük Veri Analitiği (Big Data Analytics)

DENEY 0. Bölüm 1 - Ölçme ve Hata Hesabı

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Appendix C: İstatistiksel Çıkarsama

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Örnekleme Yöntemleri

Büyük Veri Analitiği (Big Data Analytics)

Uzaktan Algılama Uygulamaları

Hastalıklarda Risk Faktörleri ve Tarama Tanı ve Tedavi Etkinliği İstatistikleri. A.Ayça ÖZDEMİR

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Boosting. Birol Yüceoğlu Migros T.A.Ş.

Nesne Yönelimli Programlama

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#2: ALGORİTMA ANALİZİ

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Programlama Dilleri 1. Ders 3: Rastgele sayı üretimi ve uygulamaları

İSTATİSTİK. Bölüm 1 Giriş. Ankara Üniversitesi SBF İstatistik 1 Ders Notları Prof. Dr. Onur Özsoy 4/4/2018

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

VERİ MADENCİLİĞİ Metin Madenciliği

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

Makine Öğrenmesi 8. hafta

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek...3 : Aşağıdaki ifadelerden hangileri bir dizinin genel terim i olabilir? Örnek...4 : Genel terimi w n. Örnek...1 : Örnek...5 : Genel terimi r n

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Şekil Tanıma Final Projesi. Selçuk BAŞAK

ALANSAL VARİOGRAM YÖNTEMİ İLE KISA SÜRELİ RÜZGAR ENERJİSİ TAHMİNİ 4. İZMİR RÜZGAR SEMPOZYUMU

Power BI. Neler Öğreneceksiniz?

BİL-142 Bilgisayar Programlama II

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

AHP ANALİTİK HİYERARŞİ PROSESİ AHP AHP. AHP Ölçeği AHP Yönteminin Çözüm Aşamaları

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

BİL-142 Bilgisayar Programlama II

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Nitel Araştırmada Geçerlik ve Güvenirlik

İSTATİSTİK II. Hipotez Testleri 1

14. LİSELERARASI MATEMATİK YARIŞMASI EKİP FİNAL SORULARI

ÇOK KRİTERLİ KARAR VERME TEKNİKLERİ. Dersin Amacı Çok Kriterli Karar Verme Yaklaşımının Genel Yapısı. Dr.Öğr.Üyesi Gökçe BAYSAL TÜRKÖLMEZ

Küme temel olarak belli nesnelerin ya da elamanların bir araya gelmesi ile oluşur

Prof.Dr.İhsan HALİFEOĞLU

KULLANICI TARAFINDAN TESTİN DOĞRULANMASI (VERİFİKASYON) Dr. Murat Öktem Düzen Laboratuvarlar Grubu

İŞLEM KAVRAMI - 2. Çarpma-Bölme

**MAN 502T ĠĢletme Yönetimi için AraĢtırma Yöntemleri**

TANI TESTLERINE GIRIŞ & ROC ANALİZİ

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ

Zeki Optimizasyon Teknikleri

8.Konu Vektör uzayları, Alt Uzaylar

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

2016 YILI AKTÜERLİK SINAVLARI: İSTATİSTİK OLASILIK

Büyük Veri Analitiği (Big Data Analytics)

Araştırmada Evren ve Örnekleme

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

TANIMLAYICI İSTATİSTİKLER

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

Görüntü Sınıflandırma

2. Aşağıdaki pseudocode ile verilen satırlar işletilirse, cnt isimli değişkenin son değeri ne olur?

ÖRNEKLEME TEORİSİ 1/30

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

MATE211 BİYOİSTATİSTİK

BM-311 Bilgisayar Mimarisi

Arama metodlarında temel işlem anahtarları karşılaştırmaktır.

BÜYÜK VERI UYGULAMALARı DERS 5-6. Doç. Dr. Yuriy Mishchenko

Örnek...3 : Aşağıdaki ifadelerden hangileri bir dizinin genel terim i olabilir?

BİL-142 Bilgisayar Programlama II

EVREN, ÖRNEK, TEMSİLİYET. Prof. Mustafa Necmi İlhan

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

Algoritma Analizi. Özelliklerinin analizi Algoritmanın çalışma zamanı Hafızada kapladığı alan

AOS TESTİ UYGULAMA PROSEDÜRÜ

Fonksiyon Optimizasyonunda Genetik Algoritmalar

BM-311 Bilgisayar Mimarisi. Hazırlayan: M.Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü

BİR ÖRNEKLEM İÇİN T TESTİ İLİŞKİSİZ ÖRNEKLEMLER İÇİN T-TESTİ

Transkript:

Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 2 1

Sınıflandırıcıların Değerlendirilmesi Bir sınıflandırıcı geliştirildiğinde doğruluk değerinin belirlenmesi gereklidir. Doğruluğu test edilmeden bir sınıflandırıcı gerçek hayattaki problemlerde kullanılamaz. Bir sınıflandırıcının değerlendirilmesi için çok sayıda farklı yöntem ve ölçüt vardır. Temel değerlendirme ölçütü sınıflandırmadaki doğruluk oranıdır (accuracy). 3 Sınıflandırıcıların Değerlendirilmesi Bazı uygulamalarda hata oranı (error rate) değeri kullanılmaktadır. error rate 1 accuracy Bir problem için birden fazla sınıflandırıcı varsa doğruluk oranı yüksek olan seçilir. Genellikle istatistiksel testler kullanılarak farklı sınıflandırıcıların hangisinin daha uygun olduğuna karar verilebilir. Birden fazla sınıflandırıcının değerlendirilmesi için aynı eğitim verisi ve aynı test verisi kullanılarak doğruluk oranları elde edilir. 4 2

Sınıflandırıcıların Değerlendirilmesi Sınıflandırma probleminde, giriş değerleri ile çıkış sınıfları arasında ilişkilendirme yapan bir fonksiyon bulunur. 5 Sınıflandırıcıların Değerlendirilmesi Eğitim kümesinde girişler ve çıkış/lar arasında ilişkilendirmeler sağlanır. 6 3

Sınıflandırıcıların Değerlendirilmesi Sınıflandırma modeli, eğitim kümesinde giriş/ler ile çıkış/lar arasında bir fonksiyon oluşturur. 7 Sınıflandırıcıların Değerlendirilmesi Sınıflandırma modeli, yeni girişler için anlamlı sınıflandırma etiketleri belirler. 8 4

Sınıflandırıcıların Değerlendirilmesi Farklı sınıflandırma yaklaşımları kullanılabilir. 9 Sınıflandırıcıların Değerlendirilmesi Underfit, fit ve overfit Underfit, eğitim kümesi için iyi düzeyde sınıflandırma yapamaz. Fit, hem eğitim kümesi hem de test kümesi için iyi düzeyde sınıflandırma yapabilir. Overfit, eğitim kümesi için iyi sınıflandırma yapar ancak test kümesi için iyi sınıflandırma yapamaz. 10 5

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 11 Skorlar Bir sınıflandırıcının ne derece doğru sınıflandırma yaptığının gerçek uygulamada kullanılmasından önce belirlenmesi gereklidir. Farklı eğitim kümeleri için bazı sınıflandırıcılar daha iyi çözüm üretebilir. Aynı eğitim kümesi için de farklı sınıflandırıcılar farklı çözüm üretebilir ve bunların en uygun olanının seçilmesi gereklidir. Bir eğitim kümesi için aynı sınıflandırıcı modeli, farklı parametre değerleri için de farklı çözümler üretebilir. Uygun parametre değerlerinin belirlenmesi gereklidir. Sınıflandırıcıların kullanım amaçlarına, problemin büyüklüğüne ve beklenen doğruluk düzeyine göre farklı skor değerleri kullanılarak sınıflandırıcılar değerlendirilebilir. 12 6

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 13 Karışıklık matrisi Karışıklık (confusion) matrisi örnek kümesindeki gerçek sınıf etiketi ile tahmin edilen sınıf etiketi sayılarını içerir. İki sınıf için örnek aşağıdadır. 14 7

Karışıklık matrisi Çok sayıdaki sınıf için örnek aşağıdadır. 15 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 16 8

Accuracy Bir sınıflandırıcının doğru sınıflandırdığı örnek sayısının toplam örnek sayısına oranıdır. Doğruluk değerlendirmesi test kümesi kullanılarak hesaplanır. Eğitim sırasında kullanılmayan test verilerinde doğru sınıflandırdığı örnek sayısı alınarak doğruluk düzeyi hesaplanır. 17 Accuracy İyi bir sınıflandırıcının test kümesindeki tüm sınıfları doğru tahmin etmesi beklenir. 18 9

Accuracy İki sınıfa sahip bir sınıflandırıcı örneği. 19 Accuracy İki sınıfa sahip bir sınıflandırıcı örneği. Accuracy = ( + TN) / (N) = (10 + 8) / 22 = 0,82 Hata = (FP + FN) / (N) = (2 + 2) / 22 = 0,18 20 10

Accuracy 21 Accuracy İki sınıfa sahip bir sınıflandırıcı örneği. Accuracy = ( + TN) / (N) = (0 + 993) / 1005= 0,99 Hata = (FP + FN) / (N) = (7 + 5) / 1005 = 0,01 (Çok düşük hata!!!) 22 11

Accuracy İki sınıfa sahip bir sınıflandırıcı örneği. Accuracy = ( + TN) / (N) = (0 + 1000) / 1005= 0,995 Hata = (FP + FN) / (N) = (0 + 5) / 1005 = 0,005 (Çok daha düşük hata!!!) 23 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 24 12

Precision Precision, gerçek değeri pozitif olup pozitif değere sınıflandırılan sayısının, pozitif değere sınıflandırılanların toplamına oranıdır. Precision FP 25 Precision Precision FP 0 0 7 0 (Çok kötü precison değeri!!!) 26 13

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 27 Recall Recall, gerçek değeri pozitif olup pozitif değere sınıflandırılan sayısının, gerçek değeri pozitif olanların tümüne oranıdır. Recall FN 28 14

Recall Recall FN 0 0 5 0 (Çok kötü recall değeri!!!) 29 Precision ve Recall Karşılaştırma Spam filtreleme Precision: spam kutusuna alınanlardan gerçekte spam olanların sayısının spam kutusundaki tüm mesajlara oranıdır. Recall: gerçekte spam olup da spam kutusuna alınan mesajların, tüm spam mesajlara oranıdır. Duygu analizi Precision: gerçekte pozitif olup da pozitif sınıflandırılanların sayısının tüm pozitif sınıflandırılanlara oranıdır. Recall: gerçekte pozitif olup da pozitif sınıflandırılanların sayısının tüm pozitif olanlara oranıdır. Precision FP Recall FN 30 15

Precision ve Recall Karşılaştırma 31 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 32 16

Specificity Specifity, gerçek değeri negatif olup negatif sınıflandırılan sayısının, gerçek değeri negatif olanların tümüne oranıdır. TN Specificity TN FP 33 Specificity Specificity TN TN FP 993 993 7 0,99 34 17

Specificity Specificity TN TN FP 1000 1000 0 1,00 35 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 36 18

F-Score F 1 -score (Harmonic mean), iki sınıflandırıcının tek ölçüt ile değerlendirilmesi için kullanılır. 2 ( 1)Precision.Recall F score 2 (Precision Recall) 2.Precision.Recall F1 score Precision Recall x harmonic mean n n k1 Harmonic mean 1 x k 2 1 Precision 1 Recall 2.Precision.Recall Precision Recall x ve y için f 1 -score değişimi 37 F-Score F 1 2.Precision.Recall -score Precision Recall 2.0.0 0 0 0 38 19

20 39 F-Score 1 1 1 2.1.1 Recall Precision 2.Precision.Recall -score F 1 1 0 10 10 Recall FN 1 0 10 10 Precision FP 40 F-Score 0 0 0 2.0.0 Recall Precision 2.Precision.Recall -score F 1 0 10 0 0 Recall FN 0 5 0 0 Precision FP

21 41 F-Score 0,5 0,5 0,5 2.(0,5).(0,5) Recall Precision 2.Precision.Recall -score F 1 0,5 5 5 5 Recall FN 0,5 5 5 5 Precision FP 42 F-Score 0,4 1 0,25 2.(0,25).1 Recall Precision 2.Precision.Recall -score F 1 1 0 5 5 Recall FN 0,25 15 5 5 Precision FP

F-Score x gm n n k 1 x k x 1 n am x k n k1 x n hm n 1 x k k1 43 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 44 22

Eğitim ve Test Kümeleri Bir sınıflandırıcının eğitimi ve testi için sınırlı sayıda veri elde edilebilir. Eğitim verisi arttıkça daha iyi öğrenme ve genelleme sağlanabilmektedir. Test verisi arttıkça sınıflandırıcının hata olasılığı daha iyi tahmin edilebilmektedir. Eğitim ve test verileri birbirinden farklı oluşturulmalıdır. Bir eğitim döngüsü içerisinde aynı değerlere sahip eğitim ve test veri kümesi kullanılmamalıdır. 45 Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 46 23

Hold-out set Kullanılabilir veri kümesi D, eğitim (D train ) ve test (D test ) olmak üzere iki ayrı kümeye ayrılır. D = D train D test, D train D test = Oluşturulan test kümesi holdout set olarak adlandırılır. Bu yöntem veri kümesi D büyükse kullanılabilir. D veri kümesindeki tüm veriler bir sınıf etiketine atanmıştır. Train set sınıflandırıcının eğitimi için, test set ise sınıflandırıcının değerlendirilmesi için kullanılır. Train set için yüksek doğruluk oranına sahip olan sınıflandırıcı, test set için düşük doğruluk düzeyine sahipse overfit yapılmıştır. İki küme için %50 şer veya 2/3 train ve 1/3 test için alınabilir. 47 Hold-out set Kullanılabilir veri kümesi D, eğitim (D train ) ve test (D test ) olmak üzere iki ayrı kümeye ayrılır. 48 24

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 49 Multiple random sampling Kullanılabilir veri kümesi D çok küçük boyutta ise, test kümesi çok daha küçük boyutta olacağından güvenilir sonuç vermez. Veri kümesinin küçük boyutta olduğu bu gibi durumlarda n kez rastgele örnekleme ile eğitim ve test kümesi oluşturulur. Bu durumda n tane doğruluk değeri elde edilir. Sonuç doğruluk değeri, elde edilen doğruluk değerlerinin ortalaması alınarak hesaplanır. 50 25

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 51 k-fold cross validation Veri kümesi D küçük boyutta olduğunda sık kullanılan yöntemdir. Bu yöntemde veri kümesi D, k adet eşit boyutta disjoint alt kümeye bölünür. Her (k-1) küme eğitim için kullanılırken kalan bir küme test için kullanılır. Bu işlem k kez tekrarlanır ve k adet doğruluk değeri elde edilir. Sonuç doğruluk değeri tüm doğruluk değerlerinin ortalaması alınarak hesaplanır. 5-fold ve 10-fold cross-validation literatürde farklı uygulamalarda yaygın kullanılmaktadır. Hold-out set yöntemine göre daha iyi sonuç vermektedir. 52 26

k-fold cross validation 53 k-fold cross validation 54 27

k-fold cross validation 55 k-fold cross validation Leaving-one-out cross validation k-fold cross validation yönteminin özel durumudur. Eğitim kümesi, örnek sayısı kadar alt kümeye (k=n) bölünür. Her iterasyonda 1 eleman dışarıda tutularak diğerlerinin tümü eğitim için kullanılır. Kalan 1 eleman ise test için kullanılır. Sonuç doğruluk değeri tüm doğruluk değerlerinin toplamı alınarak hesaplanır. 56 28

Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall Specificity F-Score Eğitim ve Test Kümeleri Hold-out set Multiple random sampling k-fold cross validation Bootstrap 57 Bootstrap Veri kümesi D içerisinden belirli sayıda değer rastgele seçilerek bir altküme elde edilir. Elde edilen her altküme için ayrı model oluşturulur ve her birisinin doğruluk değeri ayrı ele alınır. Sonuç doğruluk değeri ise tüm modellerden elde edilen doğruluk değerlerinin ortalaması alınarak hesaplanır. Test ve eğitim verileri tekrarlı olabilir. Overfit olma olasılığı vardır. 58 29

Bootstrap 59 Ödev Sınıflandırıcıların değerlendirilmesi hakkında bir araştırma ödevi hazırlayınız. 60 30