Instance Based Learning k-nn. YZM 3226 Makine Öğrenmesi

Benzer belgeler
Unlike analytical solutions, numerical methods have an error range. In addition to this

WEEK 11 CME323 NUMERIC ANALYSIS. Lect. Yasin ORTAKCI.

NATURAL LANGUAGE PROCESSING

Yüz Tanımaya Dayalı Uygulamalar. (Özet)

A New Approach for Named Entity Recognition

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

CmpE 320 Spring 2008 Project #2 Evaluation Criteria

BBM Discrete Structures: Final Exam Date: , Time: 15:00-17:00

K En Yakın Komşu Methodu (KNearest Neighborhood)

GAZİOSMANPAŞA ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/MATEMATİK BÖLÜMÜ/MATEMATİK PR.

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

CS 553 INTELLIGENT DATA ANALYSIS PROJECT WORKSHOP ORHUN ALP ORAL

BBM Discrete Structures: Final Exam - ANSWERS Date: , Time: 15:00-17:00

WEEK 4 BLM323 NUMERIC ANALYSIS. Okt. Yasin ORTAKCI.

Araştırma Görevlisi İSMAİL ÇÖLKESEN

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

ATILIM UNIVERSITY Department of Computer Engineering

4. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Multiplication/division

1 I S L U Y G U L A M A L I İ K T İ S A T _ U Y G U L A M A ( 5 ) _ 3 0 K a s ı m

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Veri Madenciliği Eğiticili Algoritmalar. Erdem Alparslan

:fä I μ ί 0 ϊ Κ fä I Τ i Я ій?-í í г T

BBM Discrete Structures: Midterm 2 Date: , Time: 16:00-17:30. Question: Total Points: Score:

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

a, ı ı o, u u e, i i ö, ü ü şu that (something relatively nearby) şu ekmek o that (something further away) o dondurma

Yard. Doç. Dr. İrfan DELİ. Matematik

Hafta 13 - Adversarial ML

Makine Öğrenmesi 2. hafta

A Y I K BOYA SOBA SOBA =? RORO MAYO MAS A A YÖS / TÖBT

First Stage of an Automated Content-Based Citation Analysis Study: Detection of Citation Sentences

Gözetimli & Gözetimsiz Öğrenme

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

Veri Madenciliği - Giriş. Erdem Alparslan

Engineering Mechanics: Statics in SI Units, 12e. Equilibrium of a Particle

Bölüm 6. Diziler (arrays) Temel kavramlar Tek boyutlu diziler Çok boyutlu diziler

ÖRNEK TABANLI K-STAR ALGORİTMASI İLE UZAKTAN ALGILANMIŞ GÖRÜNTÜLERİN SINIFLANDIRILMASI

Curriculum Vitae. Degree Profession University Year. MSc Remote Sensing Gebze Institute of Technology 2009

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

.. ÜNİVERSİTESİ UNIVERSITY ÖĞRENCİ NİHAİ RAPORU STUDENT FINAL REPORT

CHAPTER 7: DISTRIBUTION OF SAMPLE STATISTICS. Sampling from a Population

Gelir Dağılımı ve Yoksulluk

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Şekil Tanıma Final Projesi. Selçuk BAŞAK

Korelasyon ve Regresyon

CENTROID SINIFLAYICILAR YARDIMIYLA MEME KANSERİ TEŞHİSİ

İstanbul Şehir Üniversitesi Bahar

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

PROFESSIONAL DEVELOPMENT POLICY OPTIONS

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

Mezun ( ) Sınav Salon Numarası GENEL AÇIKLAMA (GENERAL INSTRUCTIONS) In the test,

Korelasyon ve Regresyon

12. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

Yarışma Sınavı A ) 60 B ) 80 C ) 90 D ) 110 E ) 120. A ) 4(x + 2) B ) 2(x + 4) C ) 2 + ( x + 4) D ) 2 x + 4 E ) x + 4

Web Madenciliği (Web Mining)

PCC 6505 PROFILE CUTTING LINE

EXAM CONTENT SINAV İÇERİĞİ

Determinants of Education-Job Mismatch among University Graduates

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Türkçe Dokümanlar Ġçin Yazar Tanıma

İŞLETMELERDE KURUMSAL İMAJ VE OLUŞUMUNDAKİ ANA ETKENLER

UBE Machine Learning. Kaya Oguz

IDENTITY MANAGEMENT FOR EXTERNAL USERS

Virtualmin'e Yeni Web Sitesi Host Etmek - Domain Eklemek

Level Test for Beginners 2

Uzaktan Algılama Teknolojileri

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Mart Ayı Değerler Eğitimi. Samimiyet

k-en Yakın Komşu Algoritması ve Bir Uygulama (Kredi Riskini Sınıflandırma)

Matematik Mühendisliği - Mesleki İngilizce

Do not open the exam until you are told that you may begin.

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

LANDSCALE landscape sequences. [Enise Burcu Derinbogaz]

THE IMPACT OF AUTONOMOUS LEARNING ON GRADUATE STUDENTS PROFICIENCY LEVEL IN FOREIGN LANGUAGE LEARNING ABSTRACT

Bu durumda ya cozum yoktur veya sonsuz cozum vardir. KIsaca cozum tek degildir. Veya cozumler birbirine lineer bagimlidir.

Veri madenciliği yöntemleri

Argumentative Essay Nasıl Yazılır?

BAŞKENT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BENZER SÜREÇLERDE ÜRETİLEN ÜRÜNLER İÇİN YAPAY ZEKA İLE ZAMAN TAHMİNİ SONER ŞÜKRÜ ALTIN

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

ÖNEMLİ PREPOSİTİONAL PHRASES

THE DESIGN AND USE OF CONTINUOUS GNSS REFERENCE NETWORKS. by Özgür Avcı B.S., Istanbul Technical University, 2003

COĞRAFİ BİLGİ SİSTEMLERİ 3D&Spatial Analyst ve ModelBuilder Eğitimi

THESIS EVALUATION FORM ...

Seri kablo bağlantısında Windows95/98/ME'ten Windows 2000'e bağlantı Windows95/98/ME - NT4 bağlantısına çok benzer.

SBR331 Egzersiz Biyomekaniği

Çoklu Kordinat Sistemi

Context-Free Grammars and Languages

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

ÖNEMLİ PREPOSİTİONAL PHRASES

SİSMİK DARBELERİN SINIFLANDIRILARAK DEPREM TEHLİKESİNİN TAHMİN EDİLMESİ

Properties of Regular Languages. Mart 2006 Ankara Üniversitesi Bilgisayar Mühendisliği - TY 1


Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

Bilgisayar ne elde eder (görüntüden)? Dijital Görüntü İşleme Fevzi Karslı, KTÜ. 08 Ekim 2013 Salı 51

TEOG 1. MERKEZİ ORTAK SINAVLAR İNGİLİZCE DERSİ BENZER SORULARI

Doğal Dil İşlemede Eğilimler. Önceden: Yapay Zeka Tabanlı, tam olarak anlama. Şimdiki: Külliyat(Corpus)-tabanlı, İstatistiki, makine öğrenmesi içeren

Veri Madenciliği. Bölüm 6. Sınıflandırma 2. Doç. Dr. Suat Özdemir.

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Transkript:

Instance Based Learning k-nn YZM 3226 Makine Öğrenmesi

Outline Eager vs. Lazy Learning Instance Based Learning K-Nearest Neighbor Algorithm Nearest Neighbor Approach Basic k-nearest Neighbor Classification Distance Formula k-nn Variations k-nn Time Complexity Discussion: Advantages / Disadvantages

Eager vs. Lazy Learning Eager learning (eg. Decision trees, SVM, NN): Bir örneklemin sınıflandırılmasından önce, training set verilerine göre sınıflandırma modelinin oluşturulması. Lazy learning (e.g., instance-based learning): Bir örnek sınıflandırılacağı anda tarining veri setinin kullanılması.

Eager Learning Any random movement =>It s a mouse I saw a mouse!

Lazy Learning Its very similar to a Desktop!!

Eager Learning Bir örneklemin sınıflandırılmasından önce, training set verilerine göre sınıflandırma modelinin oluşturulması. Example models: Decision tree Neural Network Support Vector Machine

Lazy Learning Sınıflandırılacak bir örneklem gelene kadar training verisi saklanır. Training süresi kısa fakat tahminleme/sınıflandırma süresi daha fazladır.

Example Lazy Learning Study Learning of a Control Task for a LEGO Mindstorms Mobile Robot

Lazy Learner: Instance-Based Methods Instance-based learning is a kind of lazy learning.

Instance Based Learning No model is learned The training instances which have been stored in memory themselves represent the knowledge Training instances are searched for instance that most closely resembles new instance

Instance Based Learning Typical approaches k-nearest Neighbor Weighted regression Case-based reasoning

k-nearest Neighbor

k-nearest Neighbor Basit bir instance-based learning algoritması örneğidir. Özellikler Tüm kayıtlar n boyutlu bir uzay üzerinde temsil edilir. Yeni bir örneklem geldiği anda training veri setine bakılarak sınıflandırma işlemi gerçekleştirilir. Yeni gelen örneklemin vektör değerleri ile uzaydaki tüm kayıtların vektör değerleri karşılaştırılır. +. + _ + x q _ +

k-nearest Neighbor Classification Sınıflandırmada (classification) kullanılan bu algoritmaya göre, sınıflandırma sırasında çıkarılan özelliklerden (feature extraction), sınıflandırılmak istenen yeni bireyin daha önceki bireylerden k tanesine yakınlığına bakılmasıdır.

k-nearest Neighbor Genelde real valued attributeleri destekler. Genelde Euclidean distance formülü kullanılır. dist(x,y) (x i y i ) 2 Örneklemin sınıfı, kendisine en yakın k komşunun sahip olmuş olduğu çoğunluk sınıfıdır. m i 1 ^ f (xq ) argmax v V k i 1 (v, f (x i )) where (x,y) = 1 if x = y, else 0.

k-nearest Neighbor All instances correspond to points in the n-d space The nearest neighbor are defined in terms of Euclidean distance, dist(x 1, X 2 ) X Stored training set patterns X Input pattern for classification --- Euclidean distance measure to the nearest three patterns

k-nearest Neighbor Classification Training method: Training verileri sakla Tahminleme zamanında: X örneklemine en yakın k training örneği ((x 1,y 1 ), (x k,y k ) ) bul. Tüm bu k örnek içerisindeki sınıf çoğunluğunu tahminle.

Example Application Document Classification (k=6) P(science )? Government Science Arts

Example Application Digit Recognition Yann LeCunn MNIST Digit Recognition Handwritten digits 28x28 pixel images: d = 784 60,000 training samples 10,000 test samples Nearest neighbour is competitive

5-nearest neighbors: q1 is classified as negative Distance Formula Euclidian distance: square root of sum of squares of differences for two features: ( x) 2 + ( y) 2 Intuition: similar samples should be close to each other + - - - + q1 - + - + -

Other Distance Measures City-block distance (Manhattan dist) Cosine similarity Jaccard distance Others

Other Distance Measures

Non-Numeric Data Peki özellik değerleri sayısal değilse? Example Boolean values: Yes or no, presence or absence of an attribute Categories: Colors, educational attainment, gender Uzaklık nasıl hesaplanacak?

Dealing with Non-Numeric Data If the attribute a is discrete, then : da(xi,x j ) Boolean values => convert to 0 or 1 Applies to yes-no/presence-absence attributes 0, if a( xi ) a( x j ) 1, otherwise. Non-binary characterizations Use natural progression when applicable; e.g., educational attainment: GS, HS, College, MS, PHD => 1,2,3,4,5 Assign arbitrary numbers but be careful about distances; e.g., color: red, yellow, blue => 1,2,3 How about unavailable data? (0 value not always the answer)

Examples

X1 X2 Y 8 4? Euclidean distance dist(x,y) (x i y i ) 2 m i 1

K=3 X1 X2 Y 8 4?

K=3 X1 X2 Y 6 3 GOOD 10 2 BAD 9 7 BAD New instance X1 X2 Y 8 4 BAD

Discussion on k-nn

k-nn Time Complexity Suppose there are m instances and n features in the dataset Nearest neighbor algorithm requires computing m distances Each distance computation involves scanning through each feature value Running time complexity is proportional to m X n

Advantages Learning is very simple (fast learning) Robust to noisy data by averaging k-nearest neighbors Scales well with large number of classes In most cases it s more accurate than NB or Rocchio Easy to understand which facilitates implementation and modification.

Disadvantages Classification is time consuming Have to calculate the distance of the test case from all training cases Memory intensive: require significant storage The accuracy of the algorithm degrades with increase of irrelevant attributes.