Kümeleme Algoritmaları. Tahir Emre KALAYCI

Benzer belgeler
VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

K En Yakın Komşu Methodu (KNearest Neighborhood)

Makine Öğrenmesi 2. hafta

Büyük Veri ve Endüstri Mühendisliği

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Uzaktan Algılama Uygulamaları

Veri madenciliği yöntemleri

Örüntü Tanıma (EE 448) Ders Detayları

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

CBS ve Coğrafi Hesaplama

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Metin Sınıflandırma. Akış

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

KISIM 5 COĞRAFİ BİLGİ SİSTEMİ (GIS) ANALİZİ KISIM 5: GIS ANALİZİ 1

Ders Adı : Nesne Tabanlı Programlama-I Ders No : Teorik : 3 Pratik : 1 Kredi : 3.5 ECTS : 4. Ders Bilgileri.

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Mesleki Terminoloji II Veri Madenciliği

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma

K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

VERİ MADENCİLİĞİNİN GÖREVLERİ

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

TS EN ISO EŞLEŞTİRME LİSTESİ

Uzaktan Algılama Teknolojileri

1 BILGI TEKNOLOJILERI VE YÖNETIM

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ MATEMATİK MÜHENDİSLİĞİ PROGRAMI

T I M U R K A R A Ç AY - H AY D A R E Ş C A L C U L U S S E Ç K I N YAY I N C I L I K A N K A R A

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

Karar Destek Sistemleri

Görüntü Sınıflandırma

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

İçindekiler. Sayfa. vii

Copyr i g ht 2015, SAS Ins titut e Inc. All rights res er ve d. ADRES DOĞRULAMA VE ZENGİNLEŞTİRME

WEB BELGELERİ KÜMELEMEDE BENZERLİK VE UZAKLIK ÖLÇÜTLERİ BAŞARILARININ KARŞILAŞTIRILMASI

Parçacık Sürü Optimizasyonu İle Küme Sayısının Belirlenmesi

VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Parçacık Sürü Optimizasyonu ile Küme Sayısının Belirlenmesi

MOODLE UZAKTAN ÖĞRETİM SİSTEMİ

BÖLÜMLEYCİ KÜMELEME ALGORİTMALARININ FARKLI VERİ YOĞUNLUKLARINDA KARŞILAŞTIRMASI. Hussein Ali Ridha AL-ZAND YÜKSEK LİSANS TEZİ BİLGİSAYAR BİLİMLERİ

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Büyük boyutun laneti (Curse of Dimensionality)

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4410

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Mekatronik Bileşenler (MECE 302) Ders Detayları

Gözetimli & Gözetimsiz Öğrenme

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi

BiL416 Hafta-1 Veri Madenciliği:Giriş

Sigortacılık Sektöründe Müşteri İlişki Yönetimi İçin Kümeleme Analizi

Nesnelerin İnternetinde Veri Analizi

Proje Adı : MATLAB Real-Time Windows Target toolbox kullanımı ve ilişkili bir uygulama geliştirilmesi

NORMAL ÖĞRETİM DERS PROGRAMI

VERİ MADENCİLİĞİ Metin Madenciliği

Veri Madenciliği - Giriş. Erdem Alparslan

İçerik. Giriş 1/23/13. Giriş Problem Tanımı Tez Çalışmasının Amacı Metodoloji Zaman Çizelgesi. Doktora Tez Önerisi

Genel Graf Üzerinde Mutlak 1-merkez

Büyük Veri Analitiği (Big Data Analytics)

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

KLASİK FRAKTALLAR, FRAKTAL ÖZELLİKLERİ VE BOYUT ( C L A S S I C A L F R AC TA L S, F R AC TA L P R O P E R T I E S AND D I M E N S I O N )

Çok İşlemcili Yapılarda Sinyal İşleme Yazılımlarının Geliştirilmesi Uygulaması. Sinan Doğan, Esra Beyoğlu

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

T.C. PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI

Doğal Dil İşleme Nedir? Doğal Dil İşleme

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

MEH535 Örüntü Tanıma. 6. Boyut Azaltımı (Dimensionality Reduction)

Türkiye'de Bilimsel Elektronik Dergiler

BENZERSİZ SORUNLARA BENZERSİZ ÇÖZÜMLER

Bilimsel Görselleştirme. Tahir Emre KALAYCI. Bilgisayar Grafikleri

Parametrik doğru denklemleri 1

Ölçme ve Değerlendirmenin. Eğitim Sistemi Açısından. Ölçme ve Değerlendirme. TESOY-Hafta Yrd. Doç. Dr.

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Bilgisayarla Görme. Vize. İris Segmentation. Selçuk BAŞAK

Desenli Hücreler. Aşağıdaki şekilde görüldüğü gibi Bilge Kunduz elektronik tablonun sütunlarına desenler yerleştirmiştir.

AVRASYA ÜNİVERSİTESİ

GES Sistemlerinde Sigorta Açısından Performans Kaybının Değerlendirilmesi

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

MİM310 Rölöve-Restorasyon Stüdyosu

SELÇUK ÜNİVERSİTESİ SEYDİŞEHİR MESLEK YÜKSEKOKULU BİLGİSAYAR TEKNOLOJİLERİ BÖLÜMÜ BİLGİSAYAR PROGRAMCILIĞI PROGRAMI DERS DAĞILIM ÇİZELGESİ (2010)

IE 303 SİSTEM BENZETİMİ

Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009

Transkript:

Tahir Emre KALAYCI 2010

Gündem

En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla ilgilenmektedir Kümelemeyi basitçe nesneleri benzerliklerine göre belli gruplar halinde düzenleme işi olarak tanımlayabiliriz Bilgisayarlar yardımıyla görüntüler oluşturulmasıdır Küme bu tanımdan yola çıkarsak aynı kümedeki nesnelerle benzer, diğer kümelere ait nesnelerle benzer olmayan nesnelerin kolleksiyonu anlamına gelmiş olur

İki türdür : uzaklık tabanlı kümeleme, kavramsal kümeleme Kümelemenin hedefi: Kümelemenin hedefi elimizdeki etiketsiz verilerin içsel gruplarını belirlemektir Peki iyi kümelemeyi oluşturanlara nasıl karar veririz

Uygulama alanları Pazarlama: müşteri özelliklerini ve geçmiş alışverişlerini barındıran geniş bir veritabanından benzer davranışları sergileyen müşterilerin gruplandırılması Biyoloji: bitkilerin ve havyanların verilen özelliklerine göre sınıflandırılması Kütüphaneler: kitapların düzenlenmesi Sigortacılık: motor sigorta poliçe sahiplerinin ortalama maliyetlerinin hesaplanması için, sahtekarlıkların belirlenmesi için gruplandırılması Şehir plancılığı: tiplerine, değerlerine ve coğrafik konumlarında göre evlerin gruplandırılması Deprem araştırmaları: gözlenen deprem merkezlerinin gruplanarak tehlikeli bölgelerin belirlenmesi WWW: belge sınıflandırma, benzer erişim desen gruplarının tespiti için web kaydı verilerinin kümelenmesi

Gereksinimler Bir kümeleme algoritmasının barındırması gereken özellikler şu şekildedir: ölçeklenebilirlik farklı tipteki özellikleri destekleme farklı büyüklüklerdeki kümeleri belirleyebilme girdi parametrelerini belirlemeye yönelik alan bilgisi için minimal gereksinimler sapkınlık ve gürültüyle başa çıkabilme girdi kayıtlarını düzenlemek için duyarsızlık yüksek boyutluluk yorumlanabilirlik ve kullanışlılık

Problemler Kümelemenin bir çok problemi vardır: var olan kümeleme teknikleri tüm gereksinimleri yeterince karşılamıyor çok sayıda boyutla ve çok sayıda veri öğesiyle uğraşmak zaman karmaşıklığından dolayı problematiktir uzaklık tabanlı kümelemeler için yöntemin verimliliği uzaklık ın tanımına bağlıdır eğer açık bir uzaklık tanımı yoksa bizim tanım lamamız gerekiyor, ki bu genellikle kolay değildir, özellikle çok boyutlu uzaylarda kümeleme algoritmasının sonucu farklı şekillerde yorumlanabilir

Kümeleme algoritmaları Sınıflandırma Dışlayan (exlusive) kümeleme: eğer bir veri bir kümeye aitse başka bir kümeye ait olamaz (K-means) Örtüşüm (overlapping) kümeleme: verinin kümelenmesi için bulanık kümeler kullanılıyor, böylece her bir nokta iki veya daha fazla kümeye farklı derecelerde üye olabilirler (C-means) Sıradüzensel kümeleme: en yakın iki kümenin birleşimine dayanmaktadır (sıradüzensel - hierarhical) Olasılıksal kümeleme: tamamen olasılıksal yaklaşımı kullanır (Gaussianların karışımı - mix of gaussians)

Kümeleme algoritmaları Uzaklık ölçütü Kümeleme algoritmalarının önemli bir bileşeni veri noktaları arasındaki uzaklık ölçütüdür Eğer veri örneği vektör bileşenlerinin hepsi de aynı fiziksel birimde ise basit Öklit uzaklığı ölçütü benzer veri örneklerini gruplamak için yeterli olacaktır Ancak, bu durumda bile Öklit uzaklığı yanıltıcı olabilir Her iki ölçümde aynı fiziksel birimde alınmış olsa da, karar ölçeklemeye uygun olarak yapılmalıdır. Farklı ölçeklemeler farklı kümelemelere neden olacaktır

Kümeleme algoritmaları Uzaklık ölçütü

Kümeleme algoritmaları Minkowski ölçütü Yüksek boyutlu veri için popüler bir ölçüt Minkowski ölçütüdür ( d ) 1 p d p (x i, x j ) = x ik x jk p K=1 d verinin boyutluluğudur. Öklit uzaklığı p=2 olan özel bir durumdur, Manhattan ölçütü için p=1 dir. Herşeye rağmen verilen bir uygulama için ölçüt seçmeye yönelik herhangi bir teorik rehber yoktur. Sıklıkla karşılaşılan başka bir durum veri özellik vektörlerinin karşılaştırılabilir olmamasıdır. Bileşenler sürekli değişkenler (uzunluk gibi) değil de kategoriler olabilir (haftanın günleri gibi). Bu durumda uygun bir ölçüt için formül üretmede alan bilgisi mutlaka kullanılmalıdır.

Kümeleme algoritmaları Kaynaklar Matteo Matteucci, A Tutorial on Clustering Algorithms, http://home.dei.polimi.it/matteucc/clustering/tutorial html/ Tariq Rashid, Clustering http://www.cs.bris.ac.uk/home/tr1690/documentation/fuzzy cluster Osmar R. Zaïane, Principles of Knowledge Discovery in Databases - Chapter 8: Data Clustering http://www.cs.ualberta.ca/ zaiane/courses/cmput690/slides/chapter8/index.html