Makine Öğrenmesi 2. hafta

Benzer belgeler
YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

K En Yakın Komşu Methodu (KNearest Neighborhood)

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Makine Öğrenmesi 3. hafta

Web Madenciliği (Web Mining)

Makine Öğrenmesi 11. hafta

Kümeleme Algoritmaları. Tahir Emre KALAYCI

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Teknolojileri

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Web Madenciliği (Web Mining)

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

ISK116 - Bölüm 1. Grup Teknolojisi

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

CBS ve Coğrafi Hesaplama

SAYISAL ÇÖZÜMLEME. Sayısal Çözümleme

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Fonksiyon Minimizasyonunda Simulated Annealing Yöntemi

Görüntü Sınıflandırma

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Tek Değişkenli Optimizasyon OPTİMİZASYON. Gradient Tabanlı Yöntemler. Bisection (İkiye Bölme) Yöntemi

METASEZGİSEL YÖNTEMLER

YÖNEYLEM ARAŞTIRMASI - III

Metin Sınıflandırma. Akış

Zeki Optimizasyon Teknikleri

ALTIN ORAN ARAMA (GOLDEN SECTION SEARCH) METODU

Hafta 05 - Karar Ağaçları/Kümeleme

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

Uzaktan Algılama Uygulamaları

10.Hafta Minimum kapsayan ağaçlar Minimum spanning trees (MST)

Lineer Denklem Sistemleri Kısa Bilgiler ve Alıştırmalar

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

RASSAL SAYI ÜRETİLMESİ

Algoritma Analizi. Özelliklerinin analizi Algoritmanın çalışma zamanı Hafızada kapladığı alan

VERİ MADENCİLİĞİNİN GÖREVLERİ

Makine Öğrenmesi 8. hafta

Yrd. Doç. Dr. A. Burak İNNER Bilgisayar Mühendisliği

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Bilgisayarla Görme. Final

Altın Oran Arama Metodu(Golden Search)

Veri madenciliği yöntemleri

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Analog Alçak Geçiren Filtre Karakteristikleri

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

VERİ SETİNE GENEL BAKIŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Yüzey Doldurma Teknikleri

Görüntü Segmentasyonu (Bölütleme)

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

Fonksiyon Optimizasyonunda Genetik Algoritmalar

Dersin Sorumlusu: Yrd. Doç. Dr. Birol SOYSAL. Sunumları Hazırlayan: Doç. Dr. Bülent ÇAKMAK

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Kısıtsız Optimizasyon OPTİMİZASYON Kısıtsız Optimizasyon

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Özyineleme (Recursion)

Bir Doğrusal Programlama Modelinin Genel Yapısı

Büyük Veri Analitiği (Big Data Analytics)

İLERİ ALGORİTMA ANALİZİ TABU ARAMA ALGORİTMASI (TABU SEARCH)

GÖRÜNTÜ İŞLEME - (7.Hafta) KENAR BELİRLEME ALGORİTMALARI

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

Giriş Düzeyinde Örnek Bir Veri Madenciliği Projesi-1

Karar Destek Sistemi

Erzurum Teknik Üniversitesi Mühendislik Mimarlık Fakültesi Bilgisayar Programlama Dersi Ödevi Soru

Projenin Adı: Matrisler ile Diskriminant Analizi Yaparak Sayı Tanımlama. Giriş ve Projenin Amacı:

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

AGREGA GRONULÜMETRİSİ. Sakarya Üniversitesi

MATEMATİK MÜHENDİSLİĞİ BÖLÜMÜ

BİLGİSAYAR PROGRAMLAMA Araş. Gör. Ahmet ARDAHANLI. Kafkas Üniversitesi Mühendislik Fakültesi

Fen ve Mühendislik Uygulamalarında MATLAB

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Bilgisayarla Görüye Giriş

Dr. Y. İlker TOPCU. Dr. Özgür KABAK web.itu.edu.tr/kabak/

Şekil Tanıma Dersi 1. Ödev Raporu

Üç Boyutlu Serpilme (Saçılım) Grafikleri

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

OPTİMİZASYON TEKNİKLERİ. Kısıtsız Optimizasyon

Sıralı Erişimli Dosyalar. Kütük Organizasyonu 1

Zeki Optimizasyon Teknikleri

Okut. Yüksel YURTAY. İletişim : (264) Sayısal Analiz. Giriş.

Özyineleme (Recursion)

Transkript:

Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde birarada tutmaktır. Benzerlik kavramı çoğu kez uzaklığın tersiyle ifade edilir. Farklı hesaplara dayanan birçok sınıflandırma veya kümeleme algoritmalarından bazıları uzaklık ölçütü ile gruplandırma yapar. 2 1

Benzerlik 3 Benzerlik vs. Uzaklık Uzaklık için en çok kullanılan ölçüt Öklit (Euclidean distance) uzaklığıdır. İki nokta (n boyutlu) arasındaki uzaklık şöyle hesaplanır: d ab = a b = 2 2 2 ( a1 b1) + ( a2 b2) +... + ( an bn) Benzerlik ise genellikle uzaklığın tersidir. s ab 1 = 1 + a b 4 2

Benzerlik vs. Uzaklık Fakat uzaklık hesabı için Öklit dışında önerilmiş Mahalanobis, Manhattan ve Chebyshev gibi farklı birçok ölçüt bulunmaktadır. Benzerlik ölçütü de her zaman uzaklık ile ilişkili olmak zorunda değildir. Literatürde uzaklığa dayalı, olasılıksal ve özellik tabanlı gibi farklı temellere dayanan birçok benzerlik ölçütü önerilmiştir. 5 Uzaklığa dayalı kümeleme Kümeleme, sınıf bilgisi içermeyen veri içerisinde benzerliği yüksek noktaları gruplama işlemidir. Bu tanımdaki benzerliği yüksek terimini benzersizliği düşük şeklinde değiştirebiliriz. Böylece benzersizlik için uzaklık ölçütü kullanılabilir. Uzaklığı kullanarak kümeleme yapan en popüler ve çoğunlukla en başarılı yöntem K- means algoritmasıdır. 6 3

K Ortalamalar (K-means) Veri içerisinden rasgele seçilen K adet noktaya küme merkezi gözüyle bakılır. Tüm veri noktaları bu küme merkezlerine uzaklıklarına göre gruplanır. Her gruplamadan sonra küme merkezleri tekrar hesaplanır. 7 K Ortalamalar (K-means) Her gruplama ve küme merkezinin tekrar hesabı işlemi bir iterasyon içerisinde gerçekleştirilir. Algoritmanın kaç iterasyon yapacağı çoğu kez J maliyet fonksiyonu ile tespit edilir. K 2 J = x k c i i= 1 k Maliyet fonksiyonu tüm küme merkezlerinin en uygun konumda olduğu durumda minimum değerde olmalıdır. 8 4

K-means Algoritması 1. Rasgele K adet küme merkezi belirle. 2. Her veri noktasını en yakın küme merkezine göre bir gruba yerleştir. 3. Her gruba atanan tüm veri noktalarının ortalamasını alarak küme merkezini güncelle. 4. Grup üyelerinde değişim olmayana kadar 2. adıma git. Bazen değişim, sıfıra yakın bir değerde uzun zaman sürebilir. O zaman maliyet fonksiyonu belirli bir değere düşünce veya toplam iterasyon sayısı belirli bir değere ulaşınca algoritma durdurulur. 9 K-means Dezavantajları Rasgele noktalar ile başladığından elde edilen her sonuç kararlı değildir. Küme sayısı birçok kümeleme algoritmasında olduğu gibi dışarıdan istenilir. Konkav (konvex olmayan) küme şekillerinde başarılı değildir. Keskin kümeleme yapar. Ama uygulamada gruplar genelde içiçedir (overlapping). Aykırı değerlere (outlier) karşı hassastır. 10 5

MATLAB Uygulaması >edit Kmeans_ornek.m Rasgele oluşturulmuş bir dataset üzerinde K-means algoritması deneyi yapılmaktadır. Matlab grafik komutları ve kmeans komutu üzerinde değişiklikler yapılarak kodlar irdelenmelidir. 11 ÖDEVLER Agglomerative Divisive BIRCH STING Chameleon OPTICS CURE DBSCAN CLARANS 12 6

Uzaklığa dayalı sınıflandırma Sınıflandırma, veri içerisindeki noktaları hem özellik uzayındaki hem de sınıf bilgisindeki benzerliklere göre gruplama işlemidir. Daha önce bahsedildiği gibi yüksek benzerlik terimi düşük uzaklık olarak kullanılmaktadır. Veri noktaları arasındaki uzaklıkları kullanarak sınıflandırma yapan en popüler yöntem K en yakın komşu (K-NN) yöntemidir. 13 K en yakın komşu (K-NN) Bir a noktasının sınıfını belirlemek için veride bulunan tüm x i noktaları kullanılır. K değeri, bilinmeyen noktaya en yakın kaç adet sınıflı noktanın kullanılacağını belirler. Örneğin 1-NN için hedef sınıf, bilinmeyen noktaya en yakın sınıflı veri noktası tarafından belirlenir. 3-NN için hedef sınıf ise bilinmeyen noktaya en yakın 3 adet sınıflı noktadan çoğunluğu sağlayan sınıf olmalıdır. 14 7

K en yakın komşu (K-NN) Farklı K değerleri için 15 K-NN Algoritması K değeri dışarıdan istenir. Sınıfı bilinmeyen noktaya sınıflı veri noktalarının uzaklıkları hesaplanır. Genelde Öklit uzaklığı kullanılır. Hesaplanan uzaklıklar sıralanır. En küçük uzaklığa sahip (en yakın) K adet sınıflı veri noktası tespit edilir. Seçilen K adet sınıflı veri noktası içerisinde çoğunluğa sahip sınıf belirlenir. Bu sınıf, bilinmeyen nokta için kestirim sonucudur. 16 8

K-NN Dezavatajları Bellek tabanlı bir sınıflayıcıdır. Sınıflı veri noktaları sürekli hafızada tutulmalıdır. Veri kümesi çok büyük olduğunda hesaplama süresi de kötüleşir. Hesaplamaya tüm özellikler katıldığı için gereksiz veya ilgisiz özellikler sınıflandırmayı kötü yönde etkileyebilir. Sınıflandırma başarısı açısından genellikle yapay sinir ağları gibi gelişmiş sınıflandırma tekniklerinin gerisinde kalır. 17 MATLAB Uygulaması >edit KNN_ornek.m Rasgele oluşturulmuş bir dataset üzerinde K-NN algoritması deneyi yapılmaktadır. Farklı K değerleri için yöntem bazı datasetlerde farklı sonuçlar üretebilmektedir. Matlab grafik komutları ve knnclassify komutu üzerinde değişiklikler yapılarak kodlar irdelenmelidir. 18 9

ÖDEV Herhangi bir sınıflandırma örneğini K-NN ile sınıflandırmada aşağıdaki uzaklık ölçütlerini karşılaştırınız. Euclid Manhattan Chebyshev Mahalanobis 19 10