VERİ MADENCİLİĞİ Demetleme Yöntemler Yrd Doç Dr Şule ündüz Öğüdücü http://wwwnnovatuedutr/etmdeta asp?eid/ Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler Herarşk Yöntemler Demetleme Demetleme Nesneler demetlere (ruplara) aırma Demet: brbrne benzeen nesnelerden oluşan rup Anı demettek nesneler brbrne daha çok benzer Farklı demetlerdek nesneler brbrne daha az benzer Anı demet çndek nesneler arasındak uzaklığı en küçültme Farklı demetlerdek nesneler arasındak uzaklığı en büütme özetmsz öğrenme: Han nesnenn han sınıfa at olduğu ve sınıf saısı bell değl Uulamaları: vernn dağılımını anlama başka ver madenclğ uulamaları çn ön hazırlık Demetleme Uulamaları Ver Madenclğnde Demetleme Örüntü tanıma örüntü şleme Ekonom Akırılıkları belrleme WWW Doküman demetleme Kullanıcı davranışlarını demetleme Kullanıcıları demetleme Dğer ver madenclğ alortmaları çn br önşleme adımı Ver azaltma demet çndek nesnelern temsl edlmes çn demet merkezlernn kullanılması Ölçekleneblrlk Farklı tptek ntelklerden oluşan nesneler demetleme Farklı şekllerdek demetler oluşturablme En az saıda rş parametres ereksnm Hatalı verler ve akırılıklardan en az etklenme Model oluşturma sırasında örneklern sırasından etklenmeme Çok boutlu verler üzernde çalışma Kullanıcıların kısıtlarını öz önünde bulundurma Sonucun orumlanablr ve anlaşılablr olması
İ Demetleme Farklı Demetler İ demetleme öntemle elde edlen demetlern özellkler anı demet çndek nesneler arası benzerlk fazla farklı demetlerde bulunan nesneler arası benzerlk az Oluşan demetlern kaltes seçlen benzerlk ölçütüne ve bu ölçütün erçeklenmesne bağlı Uzaklık / Benzerlk nesnelern ntelk tpne öre değşr Nesneler arası benzerlk: s(,j) Nesneler arası uzaklık: d(,j) s(,j) İ br demetleme öntem ver çnde zlenmş örüntüler bulablmel Ver ruplama çn uun demetleme krter bulunmalı demetleme anı demettek nesneler arası benzerlğ en büüten, farklı demetlerdek nesneler arası benzerlğ en küçülten fonkson Demetleme sonucunun kaltes seçlen demetlern şeklne ve temsl edlme öntemne bağlı Demet saısı demet demet demet Temel Demetleme Yaklaşımları Bölünmel öntemler: Ver bölerek, her rubu belrlenmş br krtere öre değerlendrr Herarşk öntemler: Ver kümelern (a da nesneler) önceden belrlenmş br krtere öre herarşk olarak aırır Yoğunluk tabanlı öntemler: Nesnelern oğunluğuna öre demetler oluşturur Model tabanlı öntemler: Her demetn br modele uduğu varsaılır Amaç bu modellere uan verler ruplamak Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler K-means demetleme öntem K-medods demetleme öntem Herarşk Yöntemler Bölünmel Yöntemler Bölünmel Demetleme Amaç: n nesneden oluşan br ver kümesn (D) k (k n) demete aırmak her demette en az br nesne bulunmalı her nesne sadece br demette bulunmalı Yöntem: Demetleme krtern en büütücek şeklde D ver kümes k ruba aırma lobal çözüm: Mümkün olan tüm ruplamaları aparak en sn seçme (NP karmaşık) Sezsel çözüm: k-means ve k-medods k-means (MacQueen ): Her demet kend merkez le temsl edlr k-medods vea PAM (Partton around medods) (Kaufman & Rousseeuw ): Her demet, demette bulunan br nesne le temsl edlr Ver kümes Bölünmel demetleme
K-means Demetleme K-means Demetleme Yöntem Blnen br k değer çn k-means demetleme alortmasının aşaması vardır: Ver kümes k altkümee arılır (her demet br altküme) Her demetn ortalaması hesaplanır: merkez nokta (demettek nesnelern ntelklernn ortalaması) Her nesne en akın merkez noktanın olduğu demete dahl edlr Nesnelern demetlenmesnde değşklk olmaana kadar adım e er dönülür Örnek k k noktaı demetlern merkez olarak rasele seç Her nesne en akın merkez olan demete dahl et enden demetle demet merkezlern enden hesapla demet merkezlern enden hesapla enden demetle k-means Demetleme Yöntem K-Means: İk Farklı Demetleme Demet saısının belrlenmes erekr Başlanıçta demet merkezler rasele belrlenr Her uulamada farklı demetler oluşablr Uzaklık ve benzerlk Ökld uzaklığı, kosnüs benzerlğ b öntemlerle ölçüleblr Az saıda tekrarda demetler oluşur Yakınsama koşulu çoğunlukla az saıda nesnenn demet değştrmes şeklne dönüştürülür Karmaşıklığı: Yer karmaşıklığı - O((n+k) d) Zaman karmaşıklığı - O(ktnd) k: demet saısı, t: tekrar saısı, n: nesne saısı, d: ntelk saısı - - - - Ver Kümes - - - - Optmal Demetleme - - - - Lokal optmum K-Means Demetleme Yöntemn Değerlendrme Merkez Noktaların Seçm Yaın olarak kullanılan öntem hataların karelernn toplamı (Sum of Squared Error SSE) Nesnelern bulundukları demetn merkez noktalarına olan uzaklıklarının karelernn toplamı K SSE dst ( m, ) C : C demetnde bulunan br nesne, m : C demetnn merkez noktası Hataların karelernn toplamını azaltmak çn k demet saısı artırılablr Küçük k le br demetleme, büük k le kötü br demetlemeden daha az SSE değerne sahp olablr Başlanıç çn farklı merkez noktaları seçerek farklı demetlemeler oluşturulur En az SSE değern sahp olan demetleme seçlr Iteraton - - - -
Merkez Noktaların Seçm Merkez Noktaların Seçm Iteraton Iteraton Iteraton Iteraton - - - - - - - - - - - - Iteraton Iteraton Iteraton - - - - - - - - - - - - - - - - Merkez Noktaların Seçm K-Means Demetleme Çeştler Iteraton - - - - Iteraton - - - - Iteraton - - - - Iteraton - - - - Iteraton - - - - K-Means demetlemee başlamadan önce apılanlar Ver kümesn örnekleerek herarşk demetleme ap Oluşan k demetn ortalamasını başlanıç çn merkez nokta seç Başlanıçta k dan fazla merkez nokta seç Daha sonra bunlar arasından k tane seç K-Means demetleme şlem sonrasında apılanlar Küçük demetler en akın başka demetlere dahl et En büük toplam karesel hataa sahp olan demet böl Merkez noktaları brbrne en akın demetler brleştr Toplam karesel hatada en az artışa neden olacak k demet brleştr K-Means Demetleme Alortmasının Özellkler erçeklemes kola Karmaşıklığı dğer demetleme öntemlerne öre az K-Means alortması bazı durumlarda sonuç vermeeblr Ver rupları farklı boutlarda se Ver ruplarının oğunlukları farklı se Ver ruplarının şekl küresel değlse Ver çnde akırılıklar varsa Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler K-means demetleme öntem K-medods demetleme öntem Herarşk Yöntemler
K-Medods Demetleme Yöntem Her demet temsl etmek çn demet çnde orta nokta olan nesne seçlr,,,, ortalama:,,,, ortalama,,,, orta nokta K-Medods Demetleme Yöntem PAM (Parttonn Araound Medods ) Başlanıçta k adet nesne demetler temsl etmek üzere rasele seçlr k Kalan nesneler en akın merkez nesnenn bulunduğu demete dahl edlr Merkez nesne olmaan rasele br nesne seçlr rk rk merkez nesne olursa toplam karesel hatanın ne kadar değştğ bulunur TC k n k nk ( k jk ) j j TC k < se O rk merkez nesne olarak atanır Demetlerde değşklk oluşmaana kadar adıma er dlr Küçük ver kümeler çn sonuç vereblr, ancak büük ver kümeler çn uun değl CLARA (Kaufmann & Rousseeuw, ) ( ) CLARANS (N & Han, ) rk jk n k : k demet çndek nesne saısı jk : k demet çndek j nesne Herarşk Demetleme Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler Herarşk Yöntemler Demet saısının belrlenmesne erek ok Sonlanma krter belrlenmes erekor Adım Adım Adım Adım Adım a b c d e a b d e c d e Adım Adım Adım Adım a b c d e alomeratve: Aşağıdan ukarıa (ANES) dvsve: ukarıdan aşağıa (DIANA) Herarşk Yöntemler Herarşk Yöntemler ANES (Alomeratve NEStn): Kaufmann ve Rousseeuw tarafından ılında önerlmştr Brnc adımda her nesne br demet oluşturur Aralarında en az uzaklık bulunan demetler her adımda brleştrlr Bütün nesneler tek br demet çnde kalana kadar a da stenen saıda demet elde edene kadar brleştrme şlem devam eder DIANA (DIvsve ANAlss): Kaufmann ve Rousseeuw tarafından ılında önerlmştr ANES n aptığı şlemlern tersn apar En sonunda her nesne br demet oluşturur Her nesne arı br demet oluşturana a da stenlen demet saısı elde edene kadar arılma şlem devam eder
Herarşk Demetleme Dendoram: Demetler herarşk olarak ağaç apısı şeklnde örüntüleneblr Ara düğümler çocuk düğümlerdek demetlern brleşmesle elde edlr Kök: bütün nesnelerden oluşan tek demet Yapraklar: br nesneden oluşan demetler Dendoram stenen sevede keslerek demetler elde edlr Aşağıdan Yukarıa Demetleme Alortma Uzaklık matrsn hesapla Her nesne br demet Tekrarla En akın k demet brleştr Uzaklık matrsn enden hesapla Sonlanma: Tek br demet kalana kadar Uzaklık matrsn hesaplarken farklı öntemler farklı demetleme sonuçlarına neden olurlar Demetler Arası Uzaklık p p p p p p Demetler Arası Uzaklık p p p p p p Benzerlk p p p p p p p Uzaklık Matrs p Uzaklık Matrs Demetler Arası Uzaklık p p p p p p p p p Demetler Arası Uzaklık p p p p p p p p p p Uzaklık Matrs p Uzaklık Matrs
Demetler Arası Uzaklık p p p p p p p p p p Uzaklık Matrs Farklı Uzaklık Yöntemlernn Etks MIN MAX Ortalama Herarşk Demetleme Yöntemlernn Özellkler Demetleme krter ok Demet saılarının belrlenmesne erek ok Akırılıklardan ve hatalı verlerden etklenr Farklı bouttak demetler oluşturmak probleml olablr Yer karmaşıklığı O(n ) Zaman karmaşıklığı O(n l on) n : nesne saısı Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler Herarşk Yöntemler Yoğunluk Tabanlı Yöntemler DBSCAN Demetleme nesnelern oğunluğuna öre apılır Başlıca özellkler: Rasele şekllerde demetler üretleblr Akırı nesnelerden etklenmez Alortmanın son bulması çn oğunluk parametresnn verlmes erekr Başlıca oğunluk tabanlı öntemler: DBSCAN: Ester, et al (KDD ) OPTICS: Ankerst, et al (SIMOD ) DENCLUE: Hnnebur & D Kem (KDD ) CLIQUE: Arawal, et al (SIMOD ) İk parametre: Eps: En büük komşuluk arıçapı MnPts: Eps arıçaplı komşuluk bölesnde bulunan en az nesne saısı N eps (p): {q D d(p,q) Eps} Doğrudan erşleblr nesne: Eps ve MnPts koşulları altında br q nesnesnn doğrudan erşleblr br p nesnes şu şartları sağlar: p N eps (q) q nesnesnn çekrdek nesne koşulunu sağlaması N eps (q) MnPts p q MnPts Eps cm
DBSCAN Yoğunluk Tabanlı Yöntemler: DBSCAN Erşleblr nesne: Eps ve MnPts koşulları altında q nesnesnn erşleblr br p nesnes olması çn: p,p,,p n nesne zncr olması, pq, pnp, p nesnesnn doğrudan erşleblr nesnes:p + Yoğunluk bağlantılı Nesne: Eps ve MnPts koşulları altında q nesnesnn oğunluk bağlantılı nesnes p şu koşulları sağlar: p ve q nesneler Eps ve MnPts koşulları altında br o nesnesnn erşleblr nesnesdr q p p o p q Ver tabanındak her nesnenn Eps arıçaplı komşuluk böles araştırılır Bu bölede MnPts den daha fazla nesne bulunan p nesnes çekrdek nesne olacak şeklde demetler oluşturulur Çekrdek nesnelern doğrudan erşleblr nesneler bulunur Yoğunluk bağlantılı demetler brleştrlr Hçbr en nesne br demete eklenmezse şlem sona erer Yer karmaşıklığı O(n) Zaman karmaşıklığı O(nlon) n: nesne saısı Model Tabanlı Demetleme Yöntemler Demetleme şlemler Demetleme uulamaları Demetleme Yöntemler Bölünmel Yöntemler Herarşk Yöntemler Ver kümes çn önörülen matematksel model en uun hale etrlor Vernn enel olarak bell olasılık dağılımlarının karışımından eldğ kabul edlr Model tabanlı demetleme öntem Modeln apısının belrlenmes Modeln parametrelernn belrlenmes Örnek EM (Epectaton Mamzaton) Alortması Model Tabanlı Demetleme Yöntemler Model Tabanlı Demetleme Problem İstatstksel aklaşım: K nesneden oluşan br ver kümes D{,,, K } her ( [,K]) nesnes Θ parametre kümesle tanımlanan br olasılık dağılımından oluşturulur Olasılık dağılımının, c j C{c, c,,c } şeklnde adet bleşen vardır Her Θ, [,,] parametre kümes bleşennn olasılık dağılımını belrleen, Θ kümesnn arışık br alt kümesdr Herhan br nesnes öncelkle, c Θ) τ, (Σ τ olacak şeklde) bleşen katsaısına (a da bleşenn seçlme olasılığına) öre br bleşene atanır Bu bleşen c ; Θ ) olasılık dağılımına öre değşkenn oluşturur Bölece br nesnesnn bu model çn olasılığı bütün bleşenlern olasılıklarının toplamıla fade edleblr: Θ) Θ) c Θ) c ; Θ ) τ c ; Θ ) Model parametrelernn belrlenmes Mamum Lkelhood (ML) aklaşımı ML K,, Θ; τ,, τ D) c, Θ ) l ( Θ τ Mamum Aposteror (MAP) aklaşımı l MAP ( Θ,, Θ ; τ,, τ D) Uulamada her ksnn loartması L( Θ,, Θ ; τ,, τ D) τ c, Θ ) Θ) K L( Θ,, Θ; τ,, τ D) ln τ c, Θ ) + ln Θ) K D) K ln ( τ c, Θ )) ( )
EM Alortması Ver kümes: D{,,, K } zl değşkenler H{z,z,,z K } (her nesnenn han demete dahl olduğu bls) Vernn eksk olduğu durumda, tam vernn beklenen değer hesaplanır: Q( Θ, Θ') E[ L ( D, H Θ) D, Θ') EM Alortmasının adımları: Θ çn başlanıç değerler atama c )[ln c ) + lnτ ] (E) Epectaton: Q(Θ Θ ) hesaplanması (M) Mamzaton: arma Q(Θ Θ ) K c