K En Yakın Komşu Methodu (KNearest Neighborhood)

Benzer belgeler
K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Makine Öğrenmesi 2. hafta

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Teknolojileri

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

CBS ve Coğrafi Hesaplama

Kümeleme Algoritmaları. Tahir Emre KALAYCI

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Veri madenciliği yöntemleri

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4410

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Uzaktan Algılama Uygulamaları

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Hafta 05 - Karar Ağaçları/Kümeleme

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Türkçe Dokümanlar Ġçin Yazar Tanıma

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

TOPSIS yönteminin adımları 5 Adım 1. Normalize karar matrisinin oluşturulması 6 Karar matrisinin normalizasyonu aşağıdaki formül kullanılarak yapılır:

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Metin Sınıflandırma. Akış

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

11. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ MATEMATİK MÜHENDİSLİĞİ PROGRAMI

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA)

Görüntü Sınıflandırma

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

DERS SEÇİM KILAVUZU. Sınıf Dönemi Kodu Adı Sınıf Dönemi Kodu Adı. Nesne Yönelimli Programlama. Yazılım Tasarımı ve Mimarisi

Örüntü Tanıma (EE 448) Ders Detayları

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Tutum ve Tutum Ölçekleri

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

YOĞUN GÖRÜNTÜ EŞLEME ALGORİTMALARI İLE ÜRETİLEN YÜKSEK ÇÖZÜNÜRLÜKLÜ SAYISAL YÜZEY MODELİ ÜRETİMİNDE KALİTE DEĞERLENDİRME VE DOĞRULUK ANALİZİ

BÖLÜM 9 NORMAL DAĞILIM

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

KONU2 MERKEZİ EĞİLİM ÖLÇÜLERİ EĞİLİM ÖLÇÜLERİ ANALİTİK ORTALAMALAR ANALİTİK OLMAYAN MERKEZİ. Aritmetik ortalama **Medyan(median)

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Veri Madenciliği Karar Ağacı Oluşturma

BÖLÜM 12 STUDENT T DAĞILIMI

Görüntü Segmentasyonu (Bölütleme)

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

BULANIK MANTIK VE SİSTEMLERİ BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

ALGORİTMA VE PROGRAMLAMA I

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

Alanya Alaaddin Keykubat UniversityInternational Relations Office

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

İstatistik ve Olasılık

Makine Öğrenmesi 3. hafta

12. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

Eskişehir Teknik Üniversitesi Mühendislik Fakültesi Endüstri Mühendisliği Bölümü. Doç. Dr. Nil ARAS ENM411 Tesis Planlaması Güz Dönemi

Prof.Dr.İhsan HALİFEOĞLU

Esnek Hesaplamaya Giriş

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

13. Olasılık Dağılımlar

İçindekiler. Ön Söz... xiii

İÇİNDEKİLER ÖN SÖZ...

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

VERİ MADENCİLİĞİ Metin Madenciliği

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Sürekli Rastsal Değişkenler

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Makine Öğrenmesi (COMPE 565) Ders Detayları

YZM YAPAY ZEKA DERS#6: REKABET ORTAMINDA ARAMA

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Transkript:

K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre belirlendiği bir sınıflandırma yöntemidir. Bu algoritma, en iyi bilinen, eski, basit ve etkili örüntü sınıflandırma yöntemlerinden biridir ve makine öğrenme algoritmaları arasında popüler olarak kullanılmaktadır. Nesnelerin sınıflandırılması önemli bir araştırma alanıdır ve örüntü tanıma, veri madenciliği, yapay zekâ, istatistik, bilişsel psikoloji, tıp, biyoinformatik gibi çok çeşitli alanlarda uygulanmaktadır. K-NN Avantajları Eğitiminin olmaması, Gerçekleştiriminin kolay, Analitik olarak izlenebilir, Yerel bilgilere uyarlanabilir, Paralel gerçekleştirime uygun, Gürültülü eğitim verilerine karşı dirençli olması, gibi avantajları ile sınıflandırma uygulamalarında özellikle tercih edilmektedir. K-NN Dezavantajları Bu avantajlara rağmen, Yüksek miktarda bellek alanına gereksinim duyması, Veri seti ve öznitelik boyutu arttıkça işlem yükünün ve maliyetin önemli ölçüde yükselmesi, Performansın k komşu sayısı, uzaklık ölçütü ve öznitelik sayısı gibi parametre ve özelliklere bağlı olarak etkilenmesi

gibi birtakım dezavantajları da beraberinde getirmektedir. K-NN algoritması, en temel örnek tabanlı öğrenme algoritmaları arasındadır. Örnek tabanlı öğrenme algoritmalarında, öğrenme işlemi eğitim setinde tutulan verilere dayalı olarak gerçekleştirilmektedir. Yeni karşılaşılan bir örnek, eğitim setinde yer alan örnekler ile arasındaki benzerliğe göre sınıflandırılmaktadır. K-NN algoritmasında, eğitim setinde yer alan örnekler n boyutlu sayısal nitelikler ile belirtilir. Her örnek n boyutlu uzayda bir noktayı temsil edecek biçimde tüm eğitim örnekleri n boyutlu bir örnek uzayında tutulur. Bilinmeyen bir örnek ile karşılaşıldığında, eğitim setinden ilgili örneğe en yakın k tane örnek belirlenerek yeni örneğin sınıf etiketi, k en yakın komşusunun atanır. sınıf etiketlerinin çoğunluk oylamasına göre K-NN Parametreleri K-NN algoritmasının performansında etkili ve önemli parametreler uzaklık ölçütü, komşu sayısı (k) ve ağırlıklandırma yöntemidir. K-NN algoritmasının performansı için kritik öneme sahip noktalardan birisi örnekler arası yakınlığın nasıl ölçümleneceğidir. Yakınlık, Öklid uzaklığı ya da bir başka uzaklık ölçütü kullanılarak hesaplanabilir. K-NN algoritması basit bir yapıya sahiptir ve az sayıda parametre gerektirmektedir. Temel K-NN algoritmasında, sınıf etiketinin çoğunluk oylamasına dayalı olarak belirlenmesi, simetrik olmayan dağılıma sahip veri setlerinde sıklıkla görülen sınıfların, yeni örneklerin sınıf etiketlerinin belirlenmesinde daha baskın bir role sahip olmalarına neden olmaktadır. Bu nedenle, temel K-NN algoritmasının uzaklık ölçütünün etki değerine farklı şekillerde ağırlık değeri atayan

yöntemler bulunmaktadır. Uzaklık ölçütleri olarak, Minkowski, Öklid, Manhattan, Chebyschev ve Dilca uzaklığı kullanılmaktadır. Öklid Uzaklığı Öklid uzaklığı, sınıflandırma ve kümeleme algoritmalarında en sık kullanılan uzaklık ölçütüdür. Öklid uzaklığı, iki nokta arasındaki doğrusal uzaklık olup herhangi iki nokta, P ve Q arasındaki Öklid uzaklığı P=(x1, x2,, xn) ve Q=(y1, y2,, yn) olmak üzere, Eşitlik bu şekilde sıralanır : Öklid uzaklığı, K-ortalama kümeleme algoritması, temel K-NN algoritması gibi sınıflandırma ve kümeleme algoritmalarında yakınlığın ölçümlenmesi için kullanılan temel uzaklık ölçütüdür.

Manhattan Uzaklığı Manhattan uzaklığı, n boyutlu iki nokta arasındaki farkların mutlak değerlerinin toplamıdır. Herhangi iki nokta, P ve Q arasındaki Manhattan uzaklığı P=(x1, x2,, xn) ve Q=(y1, y2,, yn) olmak üzere, Eşitlik şu şekilde hesaplanır: Bu formül bize şu yolların uzunluğunu hesaplayacaktır:

Minkowski Uzaklığı Minkowski uzaklığı, Öklid uzayında tanımlı bir dizidir. Sınıflandırma, kümeleme gibi makine öğrenmesi, veri madenciliği uygulamalarında sıklıkla kullanılan Öklid uzaklığı, Manhattan uzaklığı gibi uzaklık ölçütlerinin genelleştirilmiş halidir. Herhangi iki nokta P ve Q arasındaki Minkowski uzaklığı P=(x1, x2,, xn) ve Q=(y1, y2,, yn) olmak üzere : Bu örnekte minkowski uzaklığının öklid ve manhattan uzaklığından nasıl evrimleştiğini görebiliriz:

Manhattan uzaklığı bize iki nokta arasındaki bir yayın uzunluğunu hesaplayacaktır: Chebyschev Uzaklığı Chebyschev uzaklığı (maksimum değer uzaklığı), Minkowski uzaklığının, n olduğu özel durum olup, iki nokta arasındaki

farkların mutlak değerlerinin maksimumu olarak tanımlanmaktadır. Herhangi iki nokta, P ve Q arasındaki Chebyschev uzaklığı P=(x1, x2,, xn) ve Q=(y1, y2,, yn) olamk üzere eşitlik şu şekilde hesaplanır: Chebyschev uzaklığını satrançta bir şah ın hamlesi gibi düşünebiliriz: Dilca Uzaklığı Dilca (Distance Learning in Categorical Attribute) uzaklığı, kategorik öznitelik değerleri arasındaki uzaklığı ölçümlemek için kullanılan iki aşamalı bir ölçüttür. Bu ölçütte öncelikle, simetrik belirsizlik katsayısı yöntemi kullanılarak öznitelik seçimi işlemi gerçekleştirilerek eş-oluşum tablosu oluşturulmaktadır. Ardından, eş-oluşum tablosu üzerinde koşullu olasılık ve Öklid uzaklığına dayalı hesaplama gerçekleştirilerek uzaklık ölçümlenmektedir. Bilgi kazancı, yüksek değer içeren özniteliklere karşı taraflıdır. Simetrik belirsizlik katsayısı (symmetrical uncertainty), bilgi

kazancının (information gain) bu problemi ortadan kaldırmak için bilgi kazancının X ve Y özniteliklerinin entropi değerleri toplamına bölünmesi ile belirler. Komşu Sayısı K-NN algoritmasında, komşu sayısı (k) parametresinin değerine dayalı olarak sınıflandırma yapılmaktadır. Sınıflandırma sürecinde k=1 için, sadece en yakın komşunun bulunduğu sınıfa atanırken, k sayısı örnek sayısına (N) yaklaştıkça veri setinde yer alana tüm veriler dikkate alınmakta ve oylamaya göre seçim yapılmaktadır. Ağırlıklandırma Komşular için ağırlık değerleri atanması ile sınıflandırılmakta olan örneğe daha yakın olan komşu örneklerin, çoğunluk oylamasına daha fazla katkı koyması amaçlanır. En çok kullanılan ağırlık değeri atama yöntemleri, her bir komşunun ağırlığının, d, komşular arası uzaklık olmak üzere, 1/d ya da 1/d2 şeklinde alınmasıdır. Örnek KNN Performansları

Weka da KNN Uygulanması:

K-NN Algoritmasının Uygulanmasını Java Üzerinde Gösteren Programım: GITHUB Kaynakça 1. W i k i p e d i a, K-Nearest Neighborhood, https://en.wikipedia.org/wiki/k-nearest_neighbors_algori thm 2. Ş a d i Evren Şeker, KNN, http://bilgisayarkavramlari.sadievrenseker.com/2008/11/1 7/knn-k-nearest-neighborhood-en-yakin-k-komsu/ 3. Erdal Taşçı, Aytuğ Onan, K-En Yakın Komşu Algoritması, http://ab.org.tr/ab16/bildiri/102.pdf 4. L y f a t, Distances, https://lyfat.wordpress.com/2012/05/22/euclidean-vs-cheb

yshev-vs-manhattan-distance/