Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Benzer belgeler
VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Web Madenciliği (Web Mining)

Makine Öğrenmesi 2. hafta

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Hafta 05 - Karar Ağaçları/Kümeleme

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

K En Yakın Komşu Methodu (KNearest Neighborhood)

CBS ve Coğrafi Hesaplama

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Uzaktan Algılama Teknolojileri

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Genel Graf Üzerinde Mutlak 1-merkez

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Uzaktan Algılama Uygulamaları

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Metin Sınıflandırma. Akış

Görüntü Segmentasyonu (Bölütleme)

Görüntü Sınıflandırma

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Zeki Optimizasyon Teknikleri

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Görüntü Segmentasyonu (Bölütleme) Dijital Görüntü İşleme Fevzi Karslı, KTÜ Segmentasyon, görüntüyü aynı cinsten obje ve bölgelere ayırmaktır.

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür.

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

YZM VERİ YAPILARI DERS#9: HASH FONKSİYONLARI

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Web Madenciliği (Web Mining)

Şartlı Olasılık. Pr[A A ] Pr A A Pr[A ] Bir olayın (A 1 ) olma olsılığı, başka bir olayın (A 2 ) gerçekleştiğinin bilinmesine bağlıysa;

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

EM302 Yöneylem Araştırması 2. Dr. Özgür Kabak

TRAFİK KAZA VERİLERİNİN KÜMELEME ANALİZİ YÖNTEMİ İLE İNCELENMESİ

Veri madenciliği yöntemleri

köşe (vertex) kenar (edg d e)

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

TEMEL BAZI KAVRAMLAR. Uzay: İçinde yaşadığımız sonsuz boşluktur. Uzay, bir noktalar kümesidir. Uzay, bütün varlıkları içine alır.

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

BÖLÜMLEYCİ KÜMELEME ALGORİTMALARININ FARKLI VERİ YOĞUNLUKLARINDA KARŞILAŞTIRMASI. Hussein Ali Ridha AL-ZAND YÜKSEK LİSANS TEZİ BİLGİSAYAR BİLİMLERİ

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

Ara Sınav 1. Algoritmalara Giriş 14 Ekim 2005 Massachusetts Institute of Technology Profesörler Erik D. Demaine ve Charles E. Leiserson Kitapçık 14

YZM 2116 Veri Yapıları

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Ders 4: Diziler (Arrays( Arrays) barisgokce.com


Bilgisayarla Görüye Giriş

MAT355 Kompleks Fonksiyonlar Teorisi I Hafta 3

Bulanık Küme Kavramı BULANIK KÜME. Sonlu ve Sonsuz Bulanık Kümeler. Sonlu ve Sonsuz Bulanık Kümeler

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

YZM YAPAY ZEKA DERS#4: BİLGİSİZ ARAMA YÖNTEMLERİ

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

TÜRKİYE CUMHURİYETİ DEVLETİNİN temellerinin atıldığı Çanakkale zaferinin 100. yılı kutlu olsun.

SÜREKLĠ OLASILIK DAĞILIMLARI

Kapasite kısıtlı araç rotalama probleminin çözümü için yeni bir algoritma geliştirilmesi: bir süpermarket zincirinde uygulanması

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

Bilgisayarla Görüye Giriş

RASSAL SAYI ÜRETİLMESİ

MAK Makina Dinamiği - Ders Notları -1- MAKİNA DİNAMİĞİ

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

RİJİT CİSİMLERİN DÜZLEMSEL KİNEMATİĞİ

TRİGONMETRİK FONKSİYONLAR: DİK ÜÇGEN YAKLAŞIMI

11.Hafta En kısa yollar I-II-III Devam. Negatif Ağırlıklı En Kısa Yollar Doğruluk Çözümleme

Dijital (Sayısal) Fotogrametri

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

FABRİKA ORGANİZASYONU Üretim Planlama ve Yönetimi 2. Uygulama: Sipariş ve Parti Büyüklüğü Hesaplama

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

İleri Diferansiyel Denklemler

GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi VERİ YAPILARI. Bilgisayar Mühendisliği ÖĞR.GÖR.GÜNAY TEMÜR 1

STATİK. Ders_9. Doç.Dr. İbrahim Serkan MISIR DEÜ İnşaat Mühendisliği Bölümü. Ders notları için: GÜZ

Nokta uzayda bir konumu belirtir. Noktanın 0 boyutlu olduğu kabul edilir. Herhangi bir büyüklüğü yoktur.

DAO İLE SQL KOMUTLARI. Sql komutlarını artık veri tabanında kullanmaktan başka çaremiz yok arkadaşlar. Şimdi bu sql derslerimize başlayalım.

SAF MADDE VE KARIŞIMLAR

GÖRÜNTÜ İŞLEME HAFTA 2 SAYISAL GÖRÜNTÜ TEMELLERİ

Kolektif Öğrenme Metotları

Çok işlemli (multitasking) sistemlerde işlemler (process) kısıtlı kaynakları kullanmak zorundadırlar.

Ayrık Fourier Dönüşümü

İleri Diferansiyel Denklemler

2012 LYS MATEMATİK SORU VE ÇÖZÜMLERİ Niyazi Kurtoğlu

TOPSIS yönteminin adımları 5 Adım 1. Normalize karar matrisinin oluşturulması 6 Karar matrisinin normalizasyonu aşağıdaki formül kullanılarak yapılır:

HSancak Nesne Tabanlı Programlama I Ders Notları

Matematiksel Optimizasyon ve Yapay Öğrenme

VERİ YAPILARI. GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1

PARÇA MEKANİĞİ UYGULAMA 1 ŞEKİL FAKTÖRÜ TAYİNİ

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b

MAK 4026 SES ve GÜRÜLTÜ KONTROLÜ. 10. Hafta Şartlandırılmış Akustik Odalardaki Ölçümler

ÖLÇME VE DEVRE LABORATUVARI DENEY: 6. --Thevenin Eşdeğer Devresi--

RASTGELE SAYI ÜRETİMİ VE UYGULANAN TESTLER HAZIRLAYAN: ÖZLEM AYDIN

2. BASKI. 2.a. Ofset Baskı 2.b. Tipo Baskı 2.c. Flekso Baskı 2.d. Tifdruk Baskı 2.e. Serigrafi Baskı

GİRİŞ. Bilimsel Araştırma: Bilimsel bilgi elde etme süreci olarak tanımlanabilir.

BURULMA (TORSİON) Dairesel Kesitli Çubukların (Millerin) Burulması MUKAVEMET - Ders Notları - Prof.Dr. Mehmet Zor

Transkript:

Kümeleme Analizi: Temel Kavramlar ve Algoritmalar

Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş olsun, kümelemenin amacı; aşağıdaki özellikleri sağlayan kümeleri bulmaktır. Küme içi uzaklıklar minimize edilir Kümeler arası uzaklıklar maksimize edilir

Kümeleme Analizi Ne Değildir? Denetimli sınıflandırma Sınıf etiketi bilgisine sahip Basit bölümleme Soyadına göre farklı kayıt gruplarının alfabetik olarak bölünmesi Bir sorgunun sonuçları Bir şarta göre gruplamaların elde edilmesi

Kümeleme tipleri Bölümlemeli Kümeleme Veri nesnelerinin, birbirini kapsamayan alt kümelere ayrılmasıdır. Her bir veri nesnesi altkümelerden sadece birinde yer alır. Hiyerarşik Kümeleme Bir hiyerarşik ağaç gibi iç içe kümelerin dizisidir.

Bölümlemeli Kümeleme Orijinal noktalar Bir bölümlemeli kümeleme

Hiyerarşik Kümeleme p1 p3 p4 p2 p1 p2 p3 p4 Geleneksel Hiyerarşik ik Kümeleme Geleneksel Dendrogram p1 p3 p4 p2 p1 p2 p3 p4 Geleneksel olmayan Hiyerarşik Kümeleme Geleneksel olmayan Dendrogram

Kümelerin Tipleri İyi dağıtılmış kümeler (Well-separated clusters) Merkez tabanlı kümeler(center-based clusters) Bitişik Kümeler (Contiguous clusters) Yoğunluk tabanlı kümeler (Density-based clusters)

İyi dağıtılmış kümeler İyi dağıtılmış kümeler: Her bir nokta; kendi kümesindeki diğer noktalara daha yakın, başka kümeden noktalara ise daha uzaktır. Böylesi kümeler iyi dağıtılmış kümelerdir. 3 iyi dağıtılmış küme

Merkez tabanlı Merkez tabanlı Küme içindeki bir nokta, kendi küme merkezine diğer küme merkezlerine oranla daha yakın (veya daha benzer) ise bu küme merkez tabanlı bir kümedir. Bir kümenin merkezi sıklıkla, ya kümedeki bütün noktaların bir ortalaması olan centroid ile yada kümeyi sunmak için en uygun nokta olan medoid ile sunulur. 4 center-based clusters

Yoğunluk tabanlı Yoğunluk tabanlı Daha düşük yoğunluklu bölgelerden ayrılan daha yüksek yoğunluklu noktaların bir kümesidir. Kümeler; düzensiz, birbirine karışmış veya gürültülü olduğunda kullanılır. 6 density-based clusters

Kümeleme Algoritmaları K-means ve onun çeşitleri Hiyerarşik kümeleme Yoğunluk tabanlı kümeleme

K-means Kümeleme Bölümlemeli kümeleme yaklaşımıdır Her bir küme bir centroid ile uyumludur (merkez nokta) Her bir nokta kendisine en yakın centroid ile uyumlu kümeye atanır Kümelerin sayısı, K, belirlenmelidir Temel algoritma çok basittir

K-means Kümeleme Detaylar Başlangıç merkez noktaları sıklıkla rastgele seçilir. Kümeler bir çalıştırmadan diğerine değişebilir. Centroid tipik olarak kümedeki noktaların bir ortalamasıdır. Yakınlık Euclidean uzaklığı, cosine benzerliği, correlation, v.s. ile hesaplanabilir. K-means yukarıdaki benzerlik ölçümlerini bir noktada bir araya getirecektir. araya getirecektir. Hesaplamalar centroid sabit kalana kadar devam eder.

ÖRNEK Alttaki veri setini k=2 şeklinde iki ayrı guruba ayırmaya çalıştığımızı varsayalım.

Adım 1- İki farklı guruba ayırmak istediğimiz için. C1 ve C2 adında rastgele iki sınıf merkezi belirleriz. Adım 2- Her bir kaydın(noktanın) bu noktalara uzunluğunu hesaplayarak C1 nolu merkeze yakın ise 1, C2 nolu merkeze yakın ise altta görüldüğü gibi 2 şeklinde etiketleriz.

Adım 3- Daha sonra mavi noktaların ağırlık merkezi bulunur ve bu nokta yeni merkez olur. Kırmızı noktaların ağırlık merkezi bulunur ve bu nokta yeni merkez kabul edilir. bu işlemler yeniden yapılır ve üyeler bu yeni merkezlere göre yeniden kümelere ayrılır. Bu merkez güncelleme işlemi alttaki gibi resmedilebilir.

K-means Örnek 3 Iteration 1 3 Iteration 2 3 Iteration 3 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x 3 Iteration 4 3 Iteration 5 3 Iteration 6 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x

K-means algoritmasının avantajları-dezavantajları Gerçeklemesi kolay Karmaşıklığı diğer kümeleme yöntemlerine göre az K-Means algoritması bazı durumlarda iyi sonuç vermeyebilir Veri grupları farklı boyutlarda ise Veri gruplarının yoğunlukları farklı ise Veri gruplarının şekli küresel değilse Veri içinde aykırılıklar varsa

Sınırlılıklar - 1 Original Points K-means (3 Clusters)

Sınırlılıklar - 2 Original Points K-means (2 Clusters)

Hiyerarşik Kümeleme Hiyerarşik ağaç şeklinde organize edilmiş iç içe kümeler üretir. Dendrogram olarak görselleştirilebilir. Birleşme veya ayrılma sıralarını kaydeden ağaç benzeri diyagrama denir. 6 5 0.2 0.15 0.1 4 3 4 2 5 2 0.05 3 1 1 0 1 3 2 5 4 6

Hiyerarşik Kümelemenin Güçlü Yanları Küme sayısının belirlenmesine gerek yoktur Uygun bir seviyeden dendrogramı keserek istenilen sayıda küme bulunabilir Anlamlı taksonomilere karşılık gelebilir Biyolojik bilimlerdekiler örnek verilebilir (örnek, hayvanlar alemi, filogeni rekonstrüksiyon, )

Hiyerarşik Kümeleme Hiyerarşik kümelemenin iki ana çeşidi vardır Aglomeratif (Agglomerative): Herbir nokta küme kabul edilerek başlanır Herbir adımda, en sonda tek küme (veya k küme) kalacak şekilde en yakın küme çiflerini birleştir Bölücü (Divisive): Tek küme ile başla Herbir adımda, herbir kümede tek nokta kalana kadar (veya k küme kalana kadar) kümeyi böl. Geleneksel hiyerarşik algoritmalar benzerlik veya uzaklık matrisi kullanırlar. Her adımda bir küme birleştir veya böl

Aglomeratif Kümeleme Algoritması En pobüler hiyerarşik kümeleme tekniğidir. Temel algoritma basittir 1. Yakınlık matrisini hesapla 2. Herbir noktayı bir küme olarak alcluster 3. Tekrar 4. En yakın iki kümeyi birleştir 5. Yakınlık matrisini güncelle 6. tek küme kalana kadar İki kümenin yakınlığını hesaplamak önemli işlemdir. Kümeler arasındaki mesafeyi tanımlamada kullanılan farklı yaklaşımlar algoritmaları birbirlerinden ayırır

Başlangıç Durumu Herbir noktanın kendi kümesi ile ve yakınlık matrisi ile başla p1 p2 p3 p4 p5.. p1 p2 p3 p4 p5.... Yakınlık Matrisi... p1 p2 p3 p4 p9 p10 p11 p12

Ara Durum Birkaç birleştirme adımından sonra, bazı kümeler oluşur C1 C2 C3 C4 C5 C1 C3 C4 C1 C2 C3 C4 C5 Yakınlık Matrisi C2 C5... p1 p2 p3 p4 p9 p10 p11 p12

Ara Durum İki en yakın kümeyi (C2 ve C5) birleştirmek ve yakınlık matrisini güncellemek istiyoruz. C1 C2 C1 C2 C3 C4 C5 C1 C3 C4 C3 C4 C5 Yakınlık Matrisi C2 C5... p1 p2 p3 p4 p9 p10 p11 p12

Birleştirmeden Sonra Soru Yakınlık matrisinin nasıl güncelleneceğidir? C1 C2 U C5 C3 C4 C1? C3 C4 C2 U C5 C3 C4?????? C1 Yakınlık Matrisi C2 U C5... p1 p2 p3 p4 p9 p10 p11 p12

Küme-arası Mesafe Nasıl Tanımlanır p1 p2 p3 p4 p5... Benzerlik? p1 p2 p3 p4 p5. MİN MAX Grup Ortalama Ağırlık Merkezleri Arasındaki Mesafe.. Yakınlık Matrisi

Küme-arası Benzerlik Nasıl Tanımlanır p1 p2 p3 p4 p5... p1 p2 p3 p4 p5. MİN MAX Grup Ortalama Ağırlık Merkezleri Arasındaki Mesafe.. Yakınlık Matrisi

Küme-arası Benzerlik Nasıl Tanımlanır p1 p2 p3 p4 p5... p1 p2 p3 p4 p5. MİN MAX Grup Ortalama Ağırlık Merkezleri Arasındaki Mesafe.. Yakınlık Matrisi

Küme-arası Benzerlik Nasıl Tanımlanır p1 p2 p3 p4 p5... p1 p2 p3 p4 p5. MİN MAX Grup Ortalama Ağırlık Merkezleri Arasındaki Mesafe.. Yakınlık Matrisi

Küme-arası Benzerlik Nasıl Tanımlanır p1 p1 p2 p3 p4 p5... p2 p3 p4 p5. MIN MAX Grup Ortalama Ağırlık Merkezleri Arasındaki Mesafe.. Yakınlık Matrisi

Hiyerarşik Kümeleme: MİN 3 5 1 5 2 2 3 1 6 0.2 0.15 0.1 4 4 0.05 0 3 6 2 5 4 1 İçiçe kümeler Dendrogram

Hiyerarşik Kümeleme: MAX 5 4 1 2 5 2 3 6 3 1 4 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 3 6 4 1 2 5 İçiçe Kümeler Dendrogram

Hiyerarşik Kümeleme: Grup Ortalaması 5 4 1 5 2 2 4 3 3 1 6 0.25 0.2 0.15 0.1 0.05 0 3 6 4 1 2 5 İçiçe Kümeler Dendrogram

Hiyerarşık Kümeleme: Problemler ve Eksiklikler İki kümenin birleştirilmesine karar verildikten sonra geri al yapılamaz. Aşağıdakilerin biri veya birkaçı için farklı durumlarda problem oluşabilir: Gürültü ve aykırılıklara duyarlıdır. Büyük kümeleri bölebilir

DBSCAN DBSCAN yoğunluk-tabanlı algoritmadır. Yoğunluk = Verilen bir yarıçap (Eps) içerisinde olan nokta sayısıdır Eğer bir noktanın Eps yarıçapında verilen minimum nokta sayısından (MinPts) daha fazla nokta varsa o noktaya merkez nokta denir. Bu noktalar kümenin iç bölgelerinde bulunan noktalardır. Eğer bir noktanın Eps yarıçapında verilen minimum nokta sayısından (MinPts) daha az nokta varsa ve o nokta bir merkez noktanın komşuluğunda ise noktaya sınır nokta denir. Ne merkez nokta ne de sınır nokta olan noktaya gürültü nokta denir.

DBSCAN gürültü sınır merkez Eps = 1cm MinPts = 5

DBSCAN: Merkez, Sınır ve Gürültü Noktaları Orjinal Noktalar Nokta tipleri: merkez, sınır ve gürültü Eps = 10, MinPts = 4

DBSCAN iyi çalıştığı zaman Orjinal Noktalar Kümeler Gürültüye dirençlü Farklı şekil ve boyutlardaki kümeleri bulabilir.