VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Transkript

1 T.C. PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Yüksek Lisans Tezi DENİZLİ 2005

2 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Pamukkale Üniversitesi Fen Bilimleri Enstitüsü Tarafından Kabul Edilen Elektrik-Elektronik Mühisliği Anabilim Dalı Yüksek Lisans Tezi Mustafa Seçkin DURMUŞ Tez Savunma Tarihi: DENİZLİ 2005

3

4 IV TEŞEKKÜR Yüksek lisans tez çalışmalarım süresince kıymetli zamanını ben esirgemeyen, bilgi ve tecrübesi ile her konuda bana yön gösteren, düşünce ufkumu her yönüyle genişleten ve tezimin çok daha iyi olmasını sağlayan değerli danışman hocam Yrd. Doç. Dr. Serdar İPLİKÇİ ye teşekkürlerimi sunarım. Tez çalışması süresince fikirleri ile destek olan, yardımlarını esirgemeyen Öğretim Görevlisi Önder ÇİVRİL e, Tel Aviv üniversitesinden Prof Dr. David HORN a, Ofer PASTERNAK a, California üniversitesinden Dr. Eamonn KEOGH a, Bilgisayar Mühisi Dursun GÜNDOĞAN a, değerli bölüm öğretim üyelerim ve çalışma arkadaşlarım, Remzi ARSLANALP a, Hilal Ezercan KAYIR a, Ö. Önder KARAKILINÇ a, Engin ÇETİN e, Hüsnü ŞENTÜRK e, Adem ÜKTE ye, Ahmet ÇİFTÇİ ye ve Mehmet ÜNAL a, tezimin daha da mükemmel olmasını sağlayan Yrd. Doç. Dr. Özcan MUTLU ve Yrd. Doç. Dr. Sezai TOKAT a teşekkürü bir borç bilirim. Hayatımın her alanında olduğu gibi tez çalışma sürecinin her safhasında da yanımda olan anneme, babama, kardeşime sonsuz teşekkür ederim. Ayrıca çalışma tempoma hız katan, motivasyonumu artıran kıymetlime şükranlarımı sunarım. Mustafa Seçkin DURMUŞ

5 V ÖZET Bu tezde, Veri Madenciliği metotlarından biri olan kümeleme tekniklerinden farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırma yapmak için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB simülasyon programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır. Anahtar kelimeler: Veri Madenciliği, veri kümeleme, kümeleme algoritmaları, çizge yapıları, en yakın komşu, en küçük tarama ağacı, karşılıklı komşuluk, destek vektörleri.

6 VI ABSTRACT In this study, a comparative study on performances of different data clustering algorithms which is a way of data mining method is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their urance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data depent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results. Keywords: Data mining, data clustering, clustering algorithms, graph structures, nearest neighbor, minimum spanning tree, mutual neighborhood, support vectors.

7 VII İÇİNDEKİLER Sayfa İçindekiler... VII Şekiller Dizini... XI Çizelgeler Dizini...XIV Simgeler Dizini...XV Birinci Bölüm GİRİŞ 1. GİRİŞ Literatür Özeti ve Kümelemeye Genel Bir Bakış Tez Tanıtımı...6 İkinci Bölüm TANIMLAR 2. TANIMLAR Örnek Yakınlık Matrisleri Veri Tipleri Yakınlık İfadeleri Ortak Kovaryans Matrisi Çizge Kuramı Ultrametrik Eşitsizlik Kophenetik Matris Ve Kophenetik Uzaklık Kernel Fonksiyonları...18

8 VIII 2.9 Gürültü Oranı (SNR) Kümeleme Problemi Kümeleme İşleminin Bölümleri Uzmanın Önemi Kümelerin Gösterimi...21 Üçüncü Bölüm KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI Kümeleme Yöntemleri Özel ve Özel-Olmayan Sınıflandırma Harici ve Dahili Sınıflandırma Sıradüzensel ve Paylaştırmalı Sınıflandırma Toplayıcı ve Bölücü Algoritmalar Seri ve Eşzamanlı Algoritmalar Monothetic ve Polythetic Algoritmalar Çizge Kuramı ve Matris Cebri Sert ve Bulanık Algoritmalar Artan ve Artmayan Algoritmalar Sıradüzensel Kümeleme Algoritmaları Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Toplayıcı Algoritma (Tek-Bağ Kümeleme) Toplayıcı Algoritma (Tam-Bağ Kümeleme) Çizge Kuramı Algoritmaları Matris Güncelleme Algoritmaları Johnson Algoritması Yakınlık Matrisinde Bulunan Bağlar Genelleştirilmiş Matris Güncelleme Algoritmaları...41

9 IX Drogramlarda Geçitler ve Monotonluk Paylaştırmalı Kümeleme Algoritmaları Karesel-Hata Kümeleme Metotları k-yol Algoritması Karışım-Ayırma ile Kümeleme Yoğunluk-Tahmini veya Durum-Arama Bulanık Kümeleme Yapay Sinir Ağları (YSA) ile Kümeleme Medoidler Etrafında Gruplama CLARA Algoritması CLARANS Algortiması BEA Algoritması Büyük Veri Tabanlarında Kümeleme BIRCH DBSCAN CURE Algoritması Kategorik Özellikler İle Kümeleme ROCK Algoritması...64 Dördüncü Bölüm TEZDE KULLANILAN ALGORİTMALAR 4.TEZDE KULLANILAN ALGORİTMALAR En Küçük Tarama Ağacı Algoritması Bağıl Komşuluk Değeri Ve Gabriel Çizge Algoritmaları Delaunay Üçgen Metodu En Yakın Komşu Kümeleme Algoritması Karşılıklı Komşuluk Değeri Kümeleme Algoritması Destek Vektörleri İle Kümeleme...75

10 X Beşinci Bölüm BENZETİM SONUÇLARI 5. BENZETİM SONUÇLARI Algoritma Benzetim Sonuçları En Yakın Komşu Algoritması İçin Sonuçlar En Küçük Tarama Ağacı (MST) Algoritması İçin Sonuçlar Delaunay Üçgen (DT) Algoritması İçin Sonuçlar Bağıl Komşuluk Değeri (RNG) Algoritması İçin Sonuçlar Gabriel Çizge (GG) Algoritması İçin Sonuçlar Karşılıklı Komşuluk Değeri (MNV) Algoritması İçin Sonuçlar Destek Vektörleri (SVC)Algoritması İçin Sonuçlar...94 Altıncı Bölüm SONUÇLAR VE YORUMLAR 6 SONUÇLAR VE YORUMLAR...96 Kaynaklar Ekler Özgeçmiş...119

11 XI ŞEKİLLER DİZİNİ Şekil 1.1: Veri Madenciliği...2 Şekil 1.2 Verilerin Kümelere Ayrılması...3 Şekil 2.1: Veri Tipleri...9 Şekil 2.2: Minkowski Ölçekleri...10 Şekil 2.3: Çizge Tanımlamaları...13 Şekil 2.4: Alt Çizgeler...14 Şekil 2.5: Çizgelerin Özellikleri...15 Şekil 2.6 Ağaçlar...16 Şekil 2.7: Kümeleme Adımları...19 Şekil 2.8: Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar (outlier) ile Gösterim)...21 Şekil 2.9: Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi...22 Şekil 2.10: Saçılmış Veriler...23 Şekil 2.11: Kümelere Ayrılmış Veriler...23 Şekil 3.1: Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri...24 Şekil 3.2: Monothetic Paylaştırmalı Kümeleme...27 Şekil 3.3: Noktaların Farklı Kümelere Ayrılması...29 Şekil 3.4: Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram...29 Şekil 3.5: Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)...30 Şekil 3.6: Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *)...31 Şekil 3.7: Eşmerkezli İki Küme...31 Şekil 3.8: İkili İlişkiler ve Başlangıç Grafiği...32 Şekil 3.9: Eşik Çizgeleri ve Sıradüzensel Kümeleme İçin Drogramlar...34 Şekil 3.10: MST Prensibine Göre, Tek-Bağ Kümeleme Metodu İçin Toplayıcı ve Bölücü Algoritmaların Uygulanması...36 Şekil 3.11: Tek-Bağ ve Tam-Bağ Metotları İçin Matris Güncelleme Algoritmasının Kullanımı...38

12 XII Şekil 3.12: Yakınlık Matrisinde Bulunan Bağların Tek-Hat ve Tam-Hat Kümeleme Üzerindeki Etkisi, (a) Eşik Çizgeleri, (b) Yakınlık Drogramları, (c) Değiştirilmiş Yakınlık Matrisi ve Drogramlar...40 Şekil 3.13: Matris Güncelleme Algoritmaları İçin Oluşturulan Drogramlar...45 Şekil 3.14: Drogramlarda Bulunan Geçitler...48 Şekil 3.15: Karesel-Hatanın Hesaplanmasında Kullanılan Uzaklıklar...52 Şekil 3.16: k-yol Algoritması ile Oluşturulan Kümeler...53 Şekil 3.17 (a): İyi Ayrılmış Kümeler, (b) İç içe Geçmiş Kümeler...57 Şekil 3.18 (a): Saçılmış Noktalar...58 Şekil 3.18 (b): Amaç Fonksiyonunun Grafiği...59 Şekil 3.18 (c): Bulanık Kümelere Ayrılmış Noktalar...59 Şekil 4.1: MST ile Kümelerin Oluşturulması...67 Şekil 4.2: RNG ve GG için Etki Bölgeleri...68 Şekil 4.3: Dirichlet Mozaiği (Voronoi Diyagramı)...69 Şekil 4.4: Kümelenecek Olan Veri Noktaları...70 Şekil 4.5: MST...71 Şekil 4.6: RNG...71 Şekil 4.7: GG...72 Şekil 4.8: DT...72 Şekil 4.9: Saçılmış Durumda Bulunan Veriler...79 Şekil 4.10 (a): q = 0.3 İçin Destek Vektörleri...79 Şekil 4.10 (b): q = 3 İçin Destek Vektörleri...80 Şekil 4.10 (c): q =10 İçin Destek Vektörleri...80 Şekil 4.11 (a): q = 0.3 Kümelere Ayrılmış Veriler (4 küme)...81 Şekil 4.11 (b): q = 3 Kümelere Ayrılmış Veriler (7 küme)...81 Şekil 4.11 (c): q =10 Kümelere Ayrılmış Veriler (10 küme)...82 Şekil 5.1: İris Setosa...84 Şekil 5.2: İris Versicolor...85 Şekil 5.3: İris Virginica...85 Şekil 5.4: Avustralya Kaya Yengeci...85 Şekil 5.5: Iris Veri Seti...86 Şekil 5.6: Avustralya Kaya Yengeci Veri Seti...87

13 XIII Şekil 5.7: Rasgele Oluşturulmuş Veriler...87 Şekil 6.1 Iris Veri Seti İçin FLOP Sayıları...97 Şekil 6.2 Crab Veri Seti İçin FLOP Sayıları...98 Şekil 6.3 Data Veri Seti İçin FLOP Sayıları...99 Şekil 6.4 Data Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.5 Iris Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.6 Crab Veri Seti İçin Küme Sayılarının Değişimi...102

14 XIV ÇİZELGELER DİZİNİ Çizelge 3.1 SAHN Matris Güncelleme Algoritması İçin Farklı Parametre Değerleri...43 Çizelge 3.2 Kümeleme Algoritmalarının Karşılaştırılması...65 Çizelge 5.1 En Yakın Komşu Algoritması İçin Sonuçlar...89 Çizelge 5.2 En Küçük Tarama Ağacı Algoritması İçin Sonuçlar...90 Çizelge 5.3 Delaunay Üçgen Metodu İçin Sonuçlar...91 Çizelge 5.4 Bağıl Komşuluk Değeri Metodu İçin Sonuçlar...92 Çizelge 5.5 Gabriel Çizge Algoritması İçin Sonuçlar...93 Çizelge 5.6 Karşılıklı Komşuluk Değeri Algoritması İçin Sonuçlar...94 Çizelge 5.7 Destek Vektörleri Algoritması İçin Sonuçlar...95

15 XV SİMGELER DİZİNİ x x X Skaler gösterimi Vektör gösterimi Matris gösterimi D ( i, j) Yakınlık matrisi ( i, j) d x x İki nokta arasındaki uzaklık C G q K ( xi, x j) Kovaryans matrisi Çizge gösterimi Gaussian kernel fonksiyonunun genişlik değeri Kernel fonksiyonu 2 Öklit uzaklığı Φ L ξ i Noktaları daha büyük boyutlu uzaya taşımak için kullanılan dönüşüm Lagrange ifadesi Gevşek değişkenler µ, β Lagrange katsayıları i W 2 σ v i Lagrange ifadesinin ikincil durumu Veri setlerinin bileşenlerinin değişkesi 2 σ η Veri setlerinin bileşenlerine eklenen gürültünün değişkesi

16 BİRİNCİ BÖLÜM GİRİŞ 1. GİRİŞ Günümüzde firmaların veri tabanı boyutları terabaytlar cinsinden ifade edilmektedir. İstenilen ise bu büyük veri tabanından amaç doğrultusunda bilginin elde edilmesidir. Bilgi ise herhangi bir amaca yönelik veri olarak tanımlanmaktadır. Veriyi bilgiye çevirme işine de Veri Analizi denilmektedir. Bilgi kelimesi aynı zamanda herhangi bir soruya yanıt verebilmek için veriden çıkarılan sonuç olarak da tanımlanmaktadır. Tüm bu açıklamalar doğrultusunda Veri Madenciliği, büyük miktarda veri içerisinden, önceden bilinmeyen fakat potansiyel olarak kullanışlı bilginin bilgisayar programları kullanılarak aranmasıdır şeklinde tanımlanabilir. Veri madenciliği de kümeleme, veri özetleme, sınıflandırma, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımın kullanılmasıyla gerçekleştirilmektedir. Veri madenciliğinde verinin önemi (ne kadar çok örnek toplanırsa o kadar iyi sonuçlar elde edilmektedir), uzmanın önemi (algoritma seçiminde ve elde edilen sonuçların değerlirilmesinde önemli rol oynamaktadır) ve sabrın önemi (çok büyük ver tabanları ile işlem yapıldığından dolayı sonuçlara ulaşmak için zamana ihtiyaç duyulmaktadır) kavramları dikkat edilmesi gereken üç önemli husustur. Şekil 1.1 de veri madenciliği kavramında izlenmesi gereken yol görülmektedir. Veriler hazır olarak veri ambarlarından alınabileceği gibi dış veri kaynaklarından da alınabilmektedir. Fakat dışarıdan alınan veriler doğrudan modelin kurulması amacıyla kullanılamamaktadır. Bu nedenle modelde kullanılmak üzere hazırlanmaktadırlar. Model kurulduktan sonra farklı kriterlere göre incelemeler yapılıp önceden tanımlanmış probleme bu kurulan model uygulanmaktadır.

17 2 VERİ KAYNAKLARI Eski Saklama Ortamından Toplanan Veriler Fonksiyonel Departman Verileri ERP Sistem Verileri Diğer Veri Hareketleri Dış Kaynaklı Veriler TOPLAMA BİRLEŞTİRME ve TEMİZLEME DEĞER BİÇME SEÇİM DÖNÜŞTÜRME VERİLERİN HAZIRLANMASI SINIFLANDIRMA REGRESYON KÜMELEME BİRLİKTELİK ARDIŞIKLIK MODELİN KURULMASI VERİ AMBARI BASİT GEÇERLİLİK ÇAPRAZ GEÇERLİLİK N-KATLI GEÇELİLİK BOOTSTRAPPING KALDIRAÇ (LIFT) ROI PROBLEMİN TANIMLANMASI MODELİN DEĞERLENDİRİLMESİ Şekil 1.1 Veri Madenciliği Kümeleme, bir çeşit sınıflandırmadır (Jain ve Dubes, 1988). Diğer bir ifadeyle, önceden elde edilmiş nesnelerin (öznitelik vektörleri, gözlemler veya veri öğeleri), farklı gruplara (kümelere), herhangi bir öğretici olmadan (Öğreticisiz Öğrenme) sınıflandırılmasıdır. Oluşturulmuş herhangi bir kümede bulunan nesneler, farklı kümelerde bulunan nesnelere göre birbirlerine daha fazla benzemektedir. Nesneler arasındaki ilişkiler, satır ve sütunları nesnelerden oluşan yakınlık matrisi ile ifade edilmektedir. Bu nesneler örnek (pattern) olarak tanımlanmış ise, aralarında bulunan yakınlık, uzaklıklar şeklinde ifade edilebilmektedir (Öklit Uzaklığı-Euclidean Distance gibi). Nesneler arasında herhangi bir uzaklık ölçümü yapılamıyorsa veya yakınlık değerleri bulunamıyorsa, kümelirme yapılması imkansız olmaktadır. Küme Analizi (Clustering Analysis) örneklerin (örnekler genellikle çok boyutlu uzayda bulunan noktalar veya bir ölçüm sonunda elde edilen noktalar şeklinde ifade edilmektedir),

18 3 birbirlerine olan benzerlikleri göz önünde bulundurularak, bir araya toplanması olarak tanımlanmaktadır (Jain ve diğerleri, 1999). Kümelirme ve Diskriminant Analiz birbirine karıştırılmamalıdır. Diskriminant Analiz yapılırken, önceden sınıflandırılmış örnekler ile işlem yapılmaktadır. Amaç, yeni karşılaşılan ve önceden sınıflandırılmamış örneklerin sınıflandırılmaya dahil edilmesidir. Özetle, önceden sınıflandırılmış örnekleri kullanarak yeni örneklerin bu sınıflardan herhangi birine dahil edilmesi işlemidir. Kümelirme ise, verilen örneklerin ön sınıflandırma yapılmadan Şekil 1.2 deki gibi anlamlı kümelere ayrılmasıdır, burada doğrudan veriler üzerinde işlem yapılmaktadır. Şekil 1.2 Verilerin Kümelere Ayrılması 1.1 Literatür Özeti ve Kümelemeye Genel Bir Bakış İlk olarak 70 li yılların başında, verimliliği arttırmak amacı ile çalışmalara başlanmıştır. İlerleyen zamanlarda veri madenciliği ve kümeleme üzerine yazılan ilk kitaplardan biri olan fakat tek bir yaklaşımın kullanıldığı bir kitap yazılmıştır Cluster Analysis (Tryon&Bailey, 1970). Buna ek olarak, daha çok kümeleme işleminin matematik kısmının inceliği Mathematical Taxonomy (Jardine&Sibson, 1971), veri madenciliği ve kümeleme üzerine yazılmış olan en kapsamlı kitap Cluster Analysis for Applications (Anderberg, 1973), sıradüzensel kümelemenin anlatıldığı bir çalışma, Numerical Taxonomy (Sneath&Sokal, 1973), değişik projelerin toplandığı

19 4 bir kitap olan, Clustering Algorithms (Hartigan-1975), Algorithms for Clustering Data (Jain&Dubes, 1988) geniş kapsamlı bir kitap ve 1990 dan itibaren konu ile ilgili olarak çok farklı uygulamalar ve kitaplar ortaya konulmuştur. Farklı uygulamalarda kullanılabilen çok çeşitli kümeleme algoritmaları bulunmaktadır. Literatürde birçok yeni kümeleme algoritmaları ortaya çıkmaya devam etmektedir. Genel olarak bu algoritmalar iki başlıkta toplanmaktadır: Geleneksel Algoritmalar ve Yeni Nesil Algoritmalardır. Geleneksel algoritmalar da Sıradüzensel ve Paylaştırmalı algoritmalar şeklinde iki alt gruba ayrılmaktadır. Sıradüzensel algoritmalar, veriyi iç içe sıralı diziler haline getirmektedir ve bu sıralı diziler drogramlar (sıradüzensel yapıyı gösteren çizimler) ile gösterilmektedir. Bu gösterimden kümeleri elde edebilmek için örnekler arasında bulunan yakınlık değerlerine göre bir eşik değeri (threshold) seçilmeli ve drogramlar bu seçilen eşik değerlerine göre kesilerek, kümeler belirlenmelidir. Farklı toplayıcı sıradüzensel algoritmalar, örnek ve küme arasında veya iki küme arasında bulunan yakınlık değerlerinin tanımlanmasına göre birbirlerinden farklılık göstermektedirler. Paylaştırmalı algoritmalarda ise küme içi dağılımı en aza indiren veya kümeler arası dağılımı en yüksek değere çıkaran paylaşımlar elde edilmektedir. Genel en uygun bir sonuç elde edebilmeyi garantilemek için, uygun olmayan olası tüm paylaşımlar tespit edilmelidir. Sıradüzensel yöntemler, biyolojik, sosyal ve davranışsal bilim dallarında yaygın olarak kullanılmaktadır. Paylaştırmalı yöntemler ise, daha çok mühislik alanlarında kullanılmaktadır (En Küçük Tarama Ağacı (Minimum Spanning Tree), Karesel-Hata Metodu (Squared Error Method), K-Yol algoritması (K Means), En Yakın Komşu Algoritması (Nearest Neighbor), PAM, CLARANS, Genetik Algoritmalar, Yapay Sinir Ağları, v.b.). Yeni nesil algoritmalarda veritabanı, boyutundan bağımsız olarak sıkıştırılabilen veya budanabilen veri belleğine yerleştirilir. Geniş veritabanlarında kümeleme yapmak için bazı ölçütler belirlenmiştir. Bunlar, veritabanının bir kez veya daha az taranması, çevrimiçi çalışabilme özelliği, askıya alınabilme, durdurulabilme ve geri dönülebilir

20 5 olma özellikleri, veri ekleme veya çıkarma sonucunda güncelleme imkanı, kısıtlı bellek ile çalışabilme, tarama sırasında farklı teknikler kullanabilme ve bir kaydın sadece bir kez işlenmesi şeklindedir (BIRCH, DBSCAN, CURE, ROCK, v.b.). Mevcut verileri kümelere ayıracak tek bir algoritma bulunmamaktadır bu nedenle çeşitli algoritmalar denenmelidir. Küme analizi keşifsel veri analizinde kullanılan araçlardan sadece bir tanesidir. Verilerin toplanması ve sunulması, kümeleme sonuçlarının değerlirilmesi ve bulunan kümelerin tanımlanması en az kümeleme stratejisinin seçimi kadar önemlidir. Uygulama alanlarına kısaca değinecek olursak, pazar bölümlerinin ayrılması, müşteri değerlirme ve çapraz satış analizleri (pazarlama), risk analizleri, usulsüzlüklerin tespiti, müşteri kazanma ve mevcut müşterileri elde tutma analizleri (bankacılık, daha çok veri madenciliğinin bir alt koludur), ana giderlerin azaltılması, poliçe fiyatlarının belirlenmesi (sigortacılık), satış noktası veri analizleri, alış-veriş sepeti analizleri (perakecilik), hisse senedi fiyat tahmini, genel piyasa analizleri, en iyi alım-satım stratejilerinin belirlenmesi (borsa), hatların yoğunluk tahminleri (haberleşme), test sonuçlarının tahmini, ürün geliştirme, ilaçlarda kullanılan maddelerin sınıflandırılması (ilaç sanayi), tıbbi teşhis, uygun tedavi sürecinin belirlenmesi (sağlık), kalite kontrol, lojistik, üretim süreçlerinin en iyileştirilmesi (üstri) gözlemsel veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi, çeşitli tahminler ve sınıflandırma problemlerinin ayrıştırılarak çözümlenmesi (bilim ve mühislik) şeklinde sıralamak mümkündür (Hartigan, 1975). Kümeleme çeşitli keşifsel örnek analizlerinde (Exploratory Data Analysis) de kullanılmaktadır. Bunlar, veri madenciliği, dokümanların tekrar kazanılması, örnek sınıflandırma ve görüntülerin parçalara ayrılması konularının da içinde bulunduğu, gruplama, makine öğrenmesi ve karar verme sistemleridir. Her araştırma sahasının kine özgü terimleri, metotları ve algoritmaları bulunmaktadır.

21 6 1.2 Tez Tanıtımı Bölüm 2 de kümeleme işlemlerinde dikkat edilmesi gereken hususlar, sıkça kullanılan tanımlamalar ve karşılıkları bulunmaktadır. Bölüm 3 te literatürde bulunan kümeleme algoritmaları anlatılmaktadır. Bölüm 4 te tezde kullanılan kümeleme algoritmaları tanımlanmaktadır. Bölüm 5 te kullanılan veri setleri ve simülasyon sonuçları bulunmaktadır. Son olarak, Bölüm 6 da elde edilen sonuçlar, değerlirmeler ve bir önceki bölümde elde edilen simülasyon sonuçlarına ilişkin yorumlar bulunmaktadır.

22 İKİNCİ BÖLÜM TANIMLAR 2. TANIMLAR 2.1 Örnek Örnek (Pattern), kümeleme algoritması tarafından kullanılan veri öğeleridir ve genellikle yapılan ölçümlerin sonuçlarını içermektedir. Örnek vektörünün her bir sayısal elemanı da (x i ), yani verilerin uzaklık bileşenleri, öznitelik (attribute) olarak tanımlanmaktadır. x i x1 x = 2 M xd, ( i = 1, 2,..., n ) (2.1) kümesi, Buradaki d örnek uzayının boyutunu, n örnek sayısını ifade etmektedir. Örnek [ L ] x x L x x x L x n n2 = 1 2 n = M M O M X x x x X x x L x 1d 2d nd (2.2) ile gösterilmektedir. Örnek dizisi n x d örnek matrisi (pattern matrix) olarak da ifade edilebilmektedir. Bu matrisin her satırı örnekleri ve her sütunu da öznitelikleri veya ölçümleri ifade etmektedir. Kullanılan veriler buna benzer olarak tanımlanmıştır fakat ayrı ayrı öznitelikler şeklinde tanımlanmamıştır (Jain ve Dubes, 1988).

23 8 2.2 Yakınlık Matrisleri Kümeleme metotları veri çiftleri arasındaki yakınlıkları, benzerlikleri veya ilişkileri oluşturulabilmek için bir göstergeye ihtiyaç duymaktadır. Yakınlık Matrisi (Proximity Matrix), D ( i, j), ile ifade edilen, satır ve sütunlarında örnek numaralarının bulunduğu ve köşegen üzerinde bulunan tüm değerlerin sıfır olduğu simetrik bir matristir. Tüm yakınlık matrisleri simetriktir. Yakınlık değeri ne kadar büyük olursa o değere karşılık gelen satır ve sütunda bulunan örneklerin birbirlerine olan benzerlikleri de büyük olmaktadır (Jain ve diğerleri, 1999). d11 d12 L d1 m 0 d12 L d1 m d21 d22 d 2m d21 0 d 2 ( i, j) L L m D = = M M O M M M O M dn1 dn2 L dnm dn1 dn2 L 0 (2.3) 2.3 Veri Tipleri Elde bulunan mevcut verinin tipi (Data Type) ve değişim aralığı kümeleme algoritmasının belirlenmesinde kullanılmaktadır. Veri tipi ile belirtilmek istenen veri miktarının derecesidir. Öznitelik, ikili (binary), ayrık (discrete) veya sürekli (continuous) şekilde tanımlanabilir. İkili öznitelikler evet-hayır sorularında olduğu gibi iki değere sahiptir. Ayrık veriler genellikle küçük ve sonlu değerlerdir. Sürekli veriler ise belirli sınırlar dahilinde gerçek değerlere sahiptirler. Yakınlık matrislerinde bulunan değerler, Şekil 2.1 de de görüldüğü gibi, yakınlık matrisinde bulunan değerler yukarıda tanımlanan üç farklı tipte de olabilmektedir. İkinci bir özellik ise verilerin sayıların karşılıklı ilişkilerini gösterecek şekilde ölçeklenmesidir. Veriler nitel (qualitative) ve nicel (quantitative) olmak üzere iki şekilde ölçeklenmektedir. Nitel özellikler bir sıra (ordinal) veya sayı (nominal) değeri gösterirken, nicel ifadeler ise bir aralık değeri (interval) veya bir oran (ratio) ifade etmektedir.

24 9 Örneğin evet-hayır sorusu (0-1) veya (50-100) şeklinde ifade edilebilmektedir (nominal ölçekleme). Sayıların kileri anlamsızdır. Sıraya göre ölçekleme de ise sayılar arasındaki ilişkilere dikkat edilir (1-2-3 veya veya gibi). Aralık değerleri ile ölçekleme yapılırken istenilen aralık değerleri veriler üzerine uygulanır mesela 100 kişilik bir gruptaki insanlara boylarına göre arası puan verilmesi bu tip ölçeklemeye örnektir. En çok kullanılan ölçekleme tipi oransal ölçeklemedir, bu tip ölçeklemede sayılar tam değerlere sahiptir. Mesela iki şehir arasında bulunan mesafe metre, mil ve inç cinsinden ayrı ayrı ölçülebilmektedir, bu iki şehrin birinden diğerine araba ile giden bir insana göre gittiği yol değişmemektedir, benzer şekilde bir insanın gelirinin iki katına çıkarılması hangi para birimi kullanılırsa kullanılsın satın alma gücünü iki katına çıkaracaktır. Veri tipinin belirlenmesi, yakınlık matrisinin oluşturulmasında ve küme analizi sonuçlarının gösterilmesinde önemli rol oynamaktadır. İnsanlar ikili, nitel verileri üretmede iyi iken aygıtlar sürekli nicel verilere ihtiyaç duymaktadır. Verinin güvenilirliği veri tipine ve ölçeklenmesine bağlıdır (Jain ve Dubes, 1988). VERİ SUNUMU Örnek Matrisi Yakınlık Matrisi Tip İkili Ayrık Sürekli Tip Benzerlik Farklılık Ölçekleme Ölçekleme Nicel Nitel Nicel Nitel Sayı Sıra Aralık Oran Sıra Aralık Oran Şekil 2.1 Veri Tipleri

25 Yakınlık İfadeleri Bu bölümde çok kullanılan yakınlık ifadelerine yer verilmektedir. örnekler arasında bulunan yakınlık değeri şartları sağlamalıdır: dik (, ) i. ve k. ile gösterilmektedir ve aşağıdaki (i) Tüm i değerleri için, dii (,) = 0 (ii) Tüm (, ik ) değerleri için, dik (, ) = dki (,) (iii) Tüm (, ik ) değerleri için, dik (, ) 0 olmalıdır. Yakınlık değerleri çeşitli şekillerde ifade edilmektedir. En çok kullanılan yakınlık değerleri aşağıda gösterilmektedir. Bunlara Minkowski Ölçütleri (Minkowski Metrics) de denilmektedir (Şekil 2.2). Tüm Minkowski Ölçütleri yukarıda bulunan üç şarta ek olarak aşağıdaki iki şartı da sağlamalıdır: (iv) Sadece xi = xk durumunda dik (, ) = 0olur. (v) Tüm i,k ve m değerleri için, dik (, ) dim (, ) + dmk (, ) x 12 x 1 d d ÖKLİT MANHATTAN ( x, x ) = = ( x, x ) = = d SUP ( x, x ) 1 2 = max(4, 2) = 4 x 22 x 2 2 x x Şekil 2.2 Minkowski Ölçekleri

26 11 Minkowski ölçütlerinin genel hali (2.5) de görülmektedir: 1/ r d r dik (, ) = xij xkj ; r 1 (2.4) j= 1 Denklem 2.5 de r = 2 ( ile de gösterilmektedir ): seçilirse, Öklit Uzaklığı (Euclidean Distance) elde edilir d dik (, ) = x x = j= 1 1/2 2 T ij kj ( xi xk) ( xi x k) (2.5) Denklem 2.5 de r = 1 seçilirse, Manhattan Uzaklığı elde edilir: d dik (, ) = xij xkj (2.6) j= 1 Denklem 2.5 de r = seçilirse, Supremium Uzaklığı (Sup distance) elde edilir: dik (, ) = maxx ij x kj (2.7) 1 j d Bunlar arasında en sık kullanılan uzaklık ölçümü öklit uzaklık ölçümüdür. Eğer tüm uzaklık değerleri ikili (binary) ise Manhattan Uzaklığı na Hamming Uzaklığı denilmektedir. Mahalanobis Uzaklığı ise kullanılan ortak kovaryans matrisi (covariance matrix) nin kullanılmasıyla öklit uzaklığından farklılık göstermektedir ve aşağıdaki gibi hesaplanır: T -1 ( ) ( ) dik (, ) = x x C x x (2.8) i k i k Bu tanımlanan uzaklık yöntemleri dışında daha pek çok uzaklık ölçüm yöntemi bulunmaktadır (

27 Ortak Kovaryans Matrisi Herhangi bir M matrisinin kovaryans matrisi (Covariance Matrix) aşağıdaki formül ile elde edilmektedir. Aşağıdaki ifadede bulunan x vektörü ortalama değerlerin bulunduğu vektördür ve her sütunun (örneğin) ortalama değerini içermektedir ( n 1 = T C ( M i x)( Mi x) n 1 i= 1 (2.9) M = (2.10) [ ] x = (2.11) C = (2.12) 2.5 Çizge Kuramı Çizge (Graph), kümeleme işlemlerinde çok farklı uygulama alanlarına sahip matematiksel bir yapıdır. Bu bölümde kısaca bu tanımlamalar incelenmiştir. Bir çizge G ile gösterilmektedir (Şekil 2.3). G çizgesi, düğümlerden ( V ), kenarlardan ( E ) ve bunların birbirleri ile olan ilişkilerini gösteren bir fonksiyondan ( f ) oluşmaktadır ve G=<V',E',f'> ile gösterilmektedir. Kümeleme işlemlerinde kullanılan çizgilerin öz çevrimlere sahip olmadıkları kabul edilmektedir. Ayrıca kenarların yönleri önemli olmadığından dolayı yönsüz (undirected) çizgeler olarak da nitelirilmektedirler.

28 13 Kümeleme işlemlerinde kenarlar iki düğüm (örnek nokta) arasında bulunan uzaklık değerini ifade etmektedir. Alt çizge, asıl çizgeden elde edilmektedir ve G =<V',E',f'> ile ifade edilmektedir. Bir alt çizge asıl çizgenin tüm noktalarını içermelidir. Şekil 2.4 de alt çizge olan (b, d, e) ve olmayan (c) çizgeler verilmektedir. Diğer çizgenin alt çizge olmamasının sebebi asıl çizgede olmayan bir kenar içermesidir. Yine bu alt çizge tanımına benzer olarak yol ifadesi tanımlanmıştır. Yol ise, yine bir alt çizgedir fakat bu alt çizgede öz çevrim ve tekrarlanan kenar bulunmamaktadır (Şekil 2.5). Her yol bir alt çizgedir fakat her alt çizge bir yol değildir. Bir çizgede bulunan herhangi iki düğüm arasında bir yol bulunuyorsa bağlı (connected) ifadesi kullanılmaktadır. Bileşen (component) ise bağlı çizgenin azami (maximal) parçasıdır. Eğer bir kenar tüm düğümlere bağlı ise tam (complete) çizge olarak adlandırılmaktadır. kenar içermektedir. n düğüme sahip bir tam çizge nn ( 1)/2 Şekil 2.3 Çizge Tanımlamaları

29 14 5 Düğümlü ve 6 Kenarlı bir Çizge v 1 e 1 v 2 e 2 e 3 v 5 e 4 e 5 e 6 v 3 v 4 f(e 4 ) = (v 4,v 2 ) a v 1 v 2 e 1 v 1 e 1 v 2 v 5 e 3 v 5 e 4 e 6 e 6 v 4 Bağlı Alt Çizge b v 3 v 4 İki Bileşenli Alt Çizge d v 2 v 1 v 1 v 2 e 2 v 5 v 5 v 3 v 4 v 3 v 4 Üç Bileşenli Alt Çizge e 5 Alt Çizge Değil c Şekil 2.4 Alt Çizgeler e

30 15 v 1 v 2 v 5 Referans Çizge v 3 v 4 a v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Yol Belirten Alt Çizgeler b v 3 v 4 e v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Referans Çizgede Bir Yol Belirtmemektedir c v 3 v 4 Yol Değildir (Tekrarlanan Kenar Bulunmaktadır) f v 1 v 2 v 1 v 2 v 1 v 2 v 5 v 5 v 5 v 3 v 4 v 3 v 4 Referans Çizgede Birer Tane Döngü Belirtmektedir d v 3 v 4 Referans Çizgede Bir Döngü Belirtmemektedir g Şekil 2.5 Çizgelerin Özellikleri Döngü (cycle) tanımı ise yol tanımına benzemektedir fakat burada başlangıç düğümü ile bitiş düğümü aynıdır. Ağaç, çizge kuramında döngü içermeyen bağlı grafiklere

31 v 4 a 16 verilen isimdir. Eğer bir alt çizge m tane düğüme sahip ise, oluşturulan ağacın tam olarak m 1 tane kenarı bulunmaktadır. Tarama Ağacı (spanning tree), çizgede bulunan tüm düğümleri kapsayan ağaçtır. Çizgede bulunan kenarlara birer uzaklık (ağırlık) değeri verilirse, ağacın ağırlığı (uzunluklar toplamı) kenarlara verilen uzaklık değerlerinin toplanması ile elde edilmektedir. En Küçük Tarama Ağacı (minimum spanning tree - mst), çizgeden faydalanılarak oluşturulabilen ağaçlar arasında ağırlıklar toplamı en küçük olan ağaçtır. v 1 v 2 a v 5 Referans Çizge v 3 v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 b Farklı Ağaçlar v 3 v 4 d v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 c Ağaç Olmayan Alt Çizgeler v 3 v 4 e Şekil 2.6 Ağaçlar Şekil 2.6 da farklı ağaç yapıları görülmektedir (Zahn C. T., 1970, Jain ve Dubes, 1988,

32 Ultrametrik Eşitsizlik Üçgen eşitsizliğinin farklı bir uyarlaması olan aşağıdaki eşitsizliği tüm x, y, z değerleri için sağlayan uzunluk ölçütüne ultrametrik denilmektedir ( ( ) (, ) max (, ), (, ) d x z d x y d y z (2.13) ( ) ) d y z) ( d x, z, d( x, y ve (, çiftlerinden en az ikisi aynı olmalıdır). 2.7 Kophenetik Matris Ve Kophenetik Uzaklık Kophenetik mesafe (cophenetic distance, d C ) denklem 2.13 de tanımlanan ultrametrik eşitsizliği sağlayan yakınlık değerleridir. Yani x i ve x j elemanlarının ilk olarak aynı kümeye yerleştirilme seviyelerini ifade etmektedir ( d i, j L k ). Kophenetik matris (cophenetic matrix) ise bu yakınlık değerlerinden oluşan matrise verilen isimdir. Aşağıda sırasıyla verilen yakınlık matrisi için önce tek-bağ (single-lik) daha sonra tam-bağ (complete-link) algoritmalarına göre elde edilmiş kophenetik matrisler görülmektedir. C ( ) = ( ij) x1 x 2 D = x3 x D Cs 4 x1 x 2 = x3 x 4 x x x x x x x x (2.14) (2.15)

33 18 D Cc x1 x 2 = x3 x 4 x x x x (2.16) Tek-hat ve tam-hat algoritmalarının her ikisi de bu oluşturulan matrisler için aynı drogramlara sahiptirler. Tam-hat yapıya sahiptir ( D Cc matrisi mükemmel bir sıradüzensel 2.8 Kernel Fonksiyonları 4. bölüm de anlatılan Destek Vektör Makineleri ile kümeleme yönteminde, veri setinde bulunan noktalar önce daha büyük boyutlu bir uzaya taşınmakta ve bu uzayda kümeleme işlemleri yapılmaktadır. Bu işlemler sırasında iç çarpımların hesabına ihtiyaç duyulmaktadır. Bu nedenle, iç çarpımları daha basit hale getirebilmek amacıyla kernel fonksiyonlarından yararlanılmaktadır. (, ) ( ) ( ) K xz = Φ x Φ z (2.17) Φ( x) ifadesi, x noktalarını daha büyük boyutlu uzaya taşımak için kullanılan dönüşümü ifade etmektedir. Kernel fonksiyonu simetrik olmalıdır. Bu şartı sağlayan kernel fonksiyonlarına literatürde Mercer Kernel Fonksiyonları da denilmektedir. Tüm bu koşulları sağlayan kernel fonksiyonları ile yeni kernel fonksiyonları da türetilebilmektedir (Cristianini ve Taylor, 2003). Bu tezde 2.18 de verilen Gaussian (RBF) kernel fonksiyonu kullanılmıştır. 2 q i j K e x x ( i, j) x x = (2.18)

34 Gürültü Oranı (SNR) Veri setlerine eklenecek olan gürültü oranını ifade etmektedir ve denklem 2.19 daki ifade ile belirlenir: 2 σ v SNR = 10log (2.19) 10 2 ση Bu ifadede, 2 σ v veri setlerinin bileşenlerinin, 2 σ η ise eklenen gürültünün değişkesidir (variance) Kümeleme Problemi Kümeleme İşleminin Bölümleri Klasik bir örnek kümeleme işleminde takip edilmesi gereken adımlar şunlardır: 1) Örneklerin sunulması, 2) Örneklerin uzaklık ölçümlerinin veri tabanına uygun olarak tanımlanması, 3) Kümeleme veya gruplama, 4) Veri ayıklama (gerekli olduğu durumlarda yapılmaktadır), 5) Çıkışın değerlirilmesi (gerekli olduğu durumlarda yapılmaktadır). Yukarıda bulunan ilk üç adım Şekil 2.7 de görülmektedir. Geri besleme, kümeleme sonucunda elde edilen çıkışın, örnek uzaklık ölçümlerine ve özniteliklerin çıkarılmasına etki etmektedir. Örnekler Öznitelik Seçimi\Çıkarımı Örnek Sunumları Örnek Benzerliği Gruplama Kümeler Geri Besleme Çevrimi Şekil 2.7 Kümeleme Adımları

35 20 Örnek Sunumu, özniteliklerin sayısına, tipine ve kullanılabilecek örnek sayısı ile ilgilidir. Bu bilgilerden bazıları kullanıcı tarafından kontrol edilememektedir. Öznitelik Seçimi, kümelemede kullanılacak olan özniteliklerden oluşan en etkili alt kümenin belirlenmesi işlemidir. Öznitelik Çıkarımı, yeni öznitelikler oluşturabilmek amacı ile giriş özniteliklerinin bir veya daha fazla dönüşümlerinin kullanılmasıdır. Bu iki teknik, kümeleme işlemlerinde en uygun özniteliklerin ortaya çıkarılmasını sağlamaktadır. Örnek Yakınlıkları, örnek çiftlerine göre tanımlanmış bir uzaklık fonksiyonu ile belirlenmektedir. Bunlar arasında en yaygın olarak kullanılan uzaklık fonksiyonu Öklit fonksiyonudur. Gruplandırma, birkaç farklı yöntem ile yapılabilmektedir. Çıkış kümelirmeleri zor (verilerin gruplara ayrılması) veya bulanık (her bir verinin farklı kümelerde değişken üyelik derecesine sahip olması) olabilir. Sıradüzensel (Hierarchical) kümeleme algoritmaları sıralı bölümler serisinden meydana gelmektedir. Paylaştırmalı (Partitional) kümeleme algoritmaları ise herhangi bir kümeleme kriterini en iyi hale getiren bölümler belirlenmektedir. Bunlar dışında, olasılıksal, çizge tabanlı kümeleme algoritmaları da bulunmaktadır. İlerleyen bölümlerde bu konu daha detaylı biçimde incelenecektir. Veri Çıkarımı, veri setinin basit ve öz gösteriminin çıkarılması işlemidir (Jain ve diğerleri, 1999) Uzmanın Önemi Literatürde çok fazla kümeleme algoritması bulunduğundan dolayı, elde bulunan problemin çözümü için gerekli olan algoritmanın seçimi çok zor olmaktadır. Bu sorunu ortadan kaldırmak amacı ile algoritmaları birbirleriyle karşılaştırmada kullanılan çeşitli kriterler belirlenmiştir. Bu kriterler, (i) Kümeleri oluşturma tarzı, (ii) Verilerin yapısı (iii) Kümeleme tekniğinin verilerin yapısı üzerinde herhangi bir etkisi olmayan

36 21 değişiklikler karşısındaki hassasiyeti şeklindedir. Farklı yapılardaki veri setlerine uygulanabilecek tek bir kümeleme algoritması bulunmamaktadır. Bunun nedeni algoritmaların kümeleme yaparken izledikleri kriterlerden kaynaklanmaktadır (uzaklık ölçümleri, gruplandırma teknikleri gibi). Herhangi bir kümeleme tekniği kullanılırken, tekniğin işletilmesi dışında, verilerin elde edilme yöntemi ve uzman görüşleri de önemlidir. Kullanıcı ne kadar fazla bilgiye sahip ise kümeleme daha verimli ve etkili olmaktadır (Jain ve Dubes, 1988) Kümelerin Gösterimi Kümelerin veya sınıfların belirlenmesi gereken uygulamalarda, veri dizisinin paylaştırılması gerekmektedir. Bu paylaşım, veri noktalarının kümelere ayrılabilirliği hakkında bilgi vermektedir. Bunun yanı sıra, birçok uygulamada sonuç olarak ortaya çıkan kümeler, verilerin elde edilebilmesi amacıyla daha kısa ve öz olarak sunulmalı veya tanımlanmalıdır. Karar verme mekanizmalarında kümelerin gösterimi önemli bir adım olduğu halde araştırmacılar tarafından detaylı olarak incelenmemektedir. Buna göre, kümelerin gösterimi aşağıdaki üç şekilde yapılabilmektedir: (i) Noktaların bulunduğu kümeler, merkezleri ile veya kümede bulunan en dış noktalar ile temsil edilebilmektedir (Şekil 2.8). Şekil 2.8 Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar İle Gösterim) (ii) Kümeler, sınıflandırma ağacında bulunan düğümler ile ifade edilebilmektedir. (iii) Bağlayıcı mantık ifadeleri ile de kümeler temsil edilebilmektedir. Şekil 2.9 da bulunan [ x 3][ x ] > <2 ifadesi, x 1 büyük 3 ve x 2 küçük 2 anlamına gelmektedir. 1 2

37 22 Şekil 2.9 Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi Kümelerin merkezlerine göre temsil edilmesi en çok kullanılan yöntemdir, bu yöntem kümelerin yoğun ve aynı karakteristiğe sahip (izotropik) olmaları durumunda daha verimli olmaktadır. Bununla birlikte, kümelerin farklı karakteristiğe sahip olmaları durumunda bu metot kümeleri tam anlamıyla ifade edememektedir. Böyle bir durumda, kümenin sınır noktaları ile ifadesi daha elverişlidir. Bir kümeyi temsil ederken kullanılan noktaların sayısı, küme şeklinin karmaşıklığının artmasıyla artmaktadır. Şekil 2.9 da gösterilen iki farklı gösterimde birbiriyle eşdeğerdir. Sınıflandırma ağacında, kök düğüm ile yaprak düğüm arasında bulunan her yol bağlayıcı ifadeyi temsil etmektedir. Bu tez çalışmasında kullanılan veriler, küme sayısının önceden belli olmadığı farklı algoritmalar yardımı ile kümelere ayrılmış ve bu algoritmaların performansları, işlemler esnasında kullanılan bellek, gürültüye dayanıklılık ve işlemler esnasında kullanılan flop sayısı (MATLAB programının işlemleri gerçekleştirirken kullandığı adım sayısı) gibi kriterlere göre incelenmiştir. Verileri kümelere ayırmamızın asıl amacı, daha sonraki aşamalarda kullanılacak olan öğrenebilen sistemlere (yapay sinir ağı veya destek vektörleri makinesi modellerine) verileri daha kolay ve hızlı bir şekilde öğretebilmektir. Dağınık verileri öğrenmektense kümeler halindeki verileri öğrenmek daha hızlı ve verimli olmaktadır. Bu nedenle kümeleme işlemi yapılmaktadır. Şekil 2.10 da dağınık ve Şekil 2.11 de kümelenmiş veriler görülmektedir.

38 23 Şekil 2.10 Saçılmış Veriler Şekil 2.11 Kümelere Ayrılmış Veriler

39 ÜÇÜNCÜ BÖLÜM KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ ve ALGORİTMALARI 3.1. Kümeleme Yöntemleri Verilerin kümelere ayrılmasında kullanılan çok çeşitli algoritmalar ve yöntemler bulunmaktadır. Bu bölümde en çok kullanılan algoritma çeşitleri ve yöntemleri tanımlanmaktadır. Birinci bölümde kümeleme işlemi, bir çeşit sınıflandırma olarak tanımlanmıştır. Sınıflandırma (Classification) Özel (Exclusive) Özel Olmayan (Non-Exclusive) Öğreticili (Supervised, Extrinsic) Öğreticisiz (Unsupervised, Intrinsic) Geleneksel Algoritmalar Kümeleme (Clustering) (Dahili Sınıflandırma) Yeni Nesil Algoritmalar Sıradüzensel (Hierarchical) Paylaştırmalı (Partitional) Büyük VT Large DB Kategorik Categorical Tek Bağ (Single Link) Kip Arama (Mode Seeking) k-yol Tam Bağ (Complete Link) Karesel Hata Karışım Ayırma (Mixture Resolving) Çizge Kuramlı (Graph Theoretic) Beklenti Maksimizasyonu (Expectation Maximization) Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri

40 Özel ve Özel-Olmayan Sınıflandırma Özel Sınıflandırma, nesnelerin bölümlere ayrılmasıdır. Her nesne, tamamen tek bir kümeye veya altkümeye aittir. Özel-Olmayan (örtüşen) Sınıflandırma ise, bir nesneyi birden fazla sınıfa dahil etmektedir. Örneğin, insanları boy veya göz renklerine göre sınıflandırma özel sınıflandırma iken, insanları geçirdikleri hastalıklara göre sınıflandırma özel-olmayan sınıflandırmadır (bir insan birden fazla hastalık geçirmiş olabilir). Bulanık kümeleme, nesnelerin birden fazla kümeye (derecelerine göre) üye olduğu bir çeşit özel-olmayan sınıflandırmadır (Jain ve Dubes, 1988) Harici ve Dahili Sınıflandırma Dahili Sınıflandırma da sadece yakınlık matrisi (proximity matrix) kullanılmaktadır. Aynı zamanda, sınıflandırma yapılırken ön bilgiye sahip olunmadığından dolayı, Öğreticisiz Öğrenme olarak da adlandırılmaktadır. Harici Sınıflandırma ise, yakınlık matrisi dışında, nesnelerin kategori niteliklerini de kullanmaktadır. Örneğin, sigara kullanan ve kullanmayan insanlardan oluşan bir topluluk göz önünde bulundurulursa, dahili sınıflandırma, bireyleri sağlık durumlarına göre ayırır ve sigara içmenin çeşitli hastalıklara yakalanmadaki etkisini inceler. Harici sınıflandırma ise, sigara içenleri ve içmeyenleri sağlık durumlarına göre sınıflandırır. Verilerin kümelere ayrılması da dahili sınıflandırmadır ve küme analizi konusunun özünü oluşturmaktadır Sıradüzensel ve Paylaştırmalı Sınıflandırma Sıradüzensel sınıflandırma, iç içe sıralanmış bölümlerden oluşmaktadır. Paylaştırmalı Sınıflandırma ise tek bölümden oluşmaktadır. Bu nedenle sıradüzensel sınıflandırma, paylaştırmalı sınıflandırmanın özel bir durumudur. Bu iki konu daha detaylı olarak ilerleyen sayfalarda incelenmektedir.

41 Toplayıcı ve Bölücü Algoritmalar Toplayıcı (Agglomerative) algoritmalarda, başlangıçta her bir veri bir küme olarak kabul edilmektedir ve kademe kademe bu altkümeler, tek bir küme oluşturuluncaya kadar birleştirilir. Bölücü (Divisive) algoritmalarda ise, tüm veriler tek bir küme olarak kabul edilir ve bu küme kademe kademe alt kümelere ayrılır Seri ve Eşzamanlı Algoritmalar Seri (Serial) algoritmalar veriler üzerinde tek tek işlem yapmaktadır. Eşzamanlı (Simultaneous) algoritmalar ise, tüm veriler üzerinde aynı anda işlem yapmaktadır Monothetic ve Polythetic Algoritmalar Bu algoritmalar genellikle, nesnelerin örnekler veya belirli bir uzayda tanımlanmış noktalar olarak tanımlandığı, taksonomi (cinsine göre sınıflandırma) problemlerinde kullanılmaktadır. Monothetic algoritmalar öznitelikleri tek tek kullanmasına rağmen (tek bir karakteristiğe göre gruplandırmaktadır), Polythetic algoritmalar tüm öznitelikleri aynı anda kullanmaktadır (birden fazla karakteristiğe göre gruplandırmaktadır). Algoritmaların çoğu Polythetic tir bunun nedeni, noktalar arasındaki uzaklıklar hesaplanırken kullanılan özniteliklerin hepsi bu uzaklıklara dayanmaktadır. Şekil 3.2 de noktalar x 1 özniteliği kullanılarak iki gruba ayrılmıştır, dikey V çizgisi ayırma düzlemidir. Bu iki küme daha sonra x 2 özniteliğini kullanarak iki gruba daha ayrılabilmektedir ( ve H yatay çizgileri). H1 2

42 27 Şekil 3.2 Monothetic Paylaştırmalı Kümeleme Çizge Kuramı ve Matris Cebri Bilgisayarda herhangi bir algoritma gerçekleştirilirken, sayısal verimliliğe dikkat edilmelidir. Çizge kuramında, eksiksizlik (completeness) ve bağlanmışlık (connectedness) gibi terimler göz önünde bulundurulmaktadır. Diğer algoritmalarda ise, karesel hata değeri gibi cebrik ifadeler yer almaktadır. Kümelenecek olan örneklerin düğümlerle ve örnekler arasındaki ilişkilerin kenarlar ile ifade edildiği yapılara çizge denilmektedir. Kenarların ağırlık değerleri örnekler arasındaki uzaklık değerlerini ifade etmektedir. Kümelemenin amacına uygun olarak; aynı kümede bulunan noktalar farklı kümelerde bulunan noktalara göre birbirlerine daha yakındır. Kümeleme metotları, uyuşmayan kenarları belirleyerek ve silerek çizgeleri bağlanmış elemanlar haline getirirler. Her eleman bir kümeyi temsil etmektedir. Çizge kuramına ait daha detaylı bilgi ikinci bölümde yer almaktadır Katı ve Bulanık Algoritmalar Katı (Hard) kümeleme algoritmalarında her veri ayrı bir kümeye ait olmaktadır. Bulanık kümelemede ise bir veri birden fazla kümeye ait olabilmektedir. Bulanık (Fuzzy) kümeleme, noktaların en yüksek üyelik derecesine sahip kümelere yerleştirilmesiyle sert kümelemeye dönüştürülebilmektedir.

43 Artan ve Artmayan Algoritmalar Veri setinin çok büyük olduğu, işlem zamanının ve kullanılan hafızanın algoritma üzerinde kısıtlamalara sebep olduğu durumlarda kullanılmaktadır. Kullanılan ilk algoritmalar büyük boyutlu veriler için tasarlanmamıştır, fakat veri madenciliğinin gelişmesi algoritmalarında geliştirilmesine yardımcı olmuştur. 3.2 Sıradüzensel Kümeleme Algoritmaları Sıradüzensel kümeleme (Hierarchical Clustering), verilerin birbirlerine olan uzaklıklarından oluşturulmuş yakınlık matrisini iç içe sıralı bölümler şekline dönüştüren bir metottur. Sıradüzensel kümeleme algoritması ise, sıradüzensel kümeleme yapabilmek için gerekli olan adımların tanımlanmasıdır. Kümelenecek n adet veri x vektörü ile gösterilmektedir. x x1 x = 2 M xn T (3.1) B kümesinin tüm elemanları, L kümesinin bir alt kümesi ise, B kümesi, L kümesinin içine yuvalanmıştır. Aşağıdaki örnekte daha açık şekilde görülmektedir. {(,,, ), (,,, ), (, 9 10) } B = x x x x x x x x x x (3.2) {(, 1 3),(, ), 5 7 ( 2), (,, 4 6 8), (, 9 10)} L= x x x x x x x x x x (3.3) {(,,, ),(,,, ), (, 9 10)} M = x x x x x x x x x x (3.4) B ve L kümelerinden hiçbiri M kümesinin içine yuvalanmamıştır, benzer şekilde M kümesi de B ve L kümelerinden hiçbirinin içine yuvalanmamıştır. Şekil 3.3 de iki boyutlu bir veri setinin kümelenmesi görülmektedir. Burada A, B, C, D, E, F ve G

44 29 noktaları üç ayrı kümeye ayrılmıştır. Bu iç içe sıralı grupları gösterebilmek amacı ile Drogram olarak adlandırılan gösterim şekli kullanılmaktadır. Sıradüzensel kümelemenin en büyük özelliği, verilerin çok rahat bir şekilde gözlemlenebilmesini sağlayan, Şekil 3.4 deki gibi şekillerin olmasıdır. Drogram, sıradüzensel kümelemeye ait özel bir gösterim şeklidir ve kümelerin ifade edildiği, farklı seviyelerde bulunan düğümlerden oluşmaktadır. Düğümleri birleştiren çizgiler ise birbiri içine yuvalanmış kümeleri ifade etmektedir. Drogram istenilen seviyelerden kesilebilmekte ve o seviyede kaç farklı küme olduğu görülebilmektedir. Yakınlık çizgesi (proximity graph), her kenarın birbirine olan yakınlıklarına göre belli ağırlıklara sahip olduğu eşik çizgeleridir (threshold graph). Yakınlık matrisine göre çizilen drogramlar, yakınlık drogramları olarak adlandırılmaktadır ve aynı anda hem kümeleri ve yakınlık değerlerini içermektedir. Yakınlık drogramları, yakınlık değerlerinin aralık değerleri veya oransal değerler olduğu durumlarda daha kullanışlıdır. Şekil 3.3 Noktaların Farklı Kümelere Ayrılması Şekil 3.4 Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram

45 30 Sıradüzensel kümeleme algoritmalarının çoğu, tek-bağ (single-link), tam-bağ (complete-link) veya minimum-değişke (minimum-variance) algoritmalarından oluşmaktadır. Bunlardan en çok kullanılan algoritmalar tek-bağ ve tam-bağ algoritmalarıdır. Bu iki algoritma, küme çiftleri arasındaki benzerlikleri modelleme yapılarına göre farklılık göstermektedir. Tek-Bağ algoritmalarında, iki küme arasında bulunan uzaklık, Şekil 3.5 deki gibi tüm veri çiftleri arasındaki uzaklıklardan en küçük değerde olanıdır. Tam-Bağ algoritmalarda ise Şekil 3.6 daki gibi, uzaklıklar arasından en büyük değerde olanıdır. Her iki durumda da kümeler, en kısa uzaklık kriterine bağlı olarak daha büyük bir küme oluşturabilmek amacıyla birleştirilmektedir. Tam-Bağ algoritmasıyla oluşturulan kümelere Tek-Bağ ile oluşturulan kümelere göre daha kısa ve yoğun olmaktadır. Tek-Bağ algoritması, Tam-Bağ algoritmasına göre çok yönlüdür. Şekil 3.7 de görülen eşmerkezli iki küme Tek-Bağ algoritmaları ile kümelere ayrılabilir fakat Tam-Bağ algoritmaları ile işlem yapılamamaktadır. Bununla birlikte, sebep-sonuç ilişkisine dayalı çalışmalarda Tam-Bağ algoritması daha kullanışlı hiyerarşiler meydana getirmektedir. Şekil 3.5 Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)

46 31 Şekil 3.6 Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *) Şekil 3.7 Eşmerkezli İki Küme Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Bu algoritmaların uygulanabilmesi için öncelikle, simetrik, matrisinin elde edilmesi gerekmektedir ( D d ( i, j ) ) = matrisi ve başlangıç çizgesi (eşik çizgesi) gösterilmektedir. nn x boyutlu yakınlık. Aşağıda örnek bir yakınlık 5 x x x x x x x D = x x x ; n= 5 (3.5) Başlangıç çizgesi, yönü kesin olarak belli olmayan, ağırlıkları bulunmayan ve iç çevrime sahip olmayan çizgedir ve G ( v) ile ifade edilmektedir (v, farklılık değerini

47 32 belirtmektedir). G ( v), ikili ilişkileri tanımlamaktadır. Eğer (, ) düşük ise ve sadece d( i, j) i j değeri, değerinden i ve j arasına kenar (edge) yerleştirilmektedir. Kısaca, ( i, j) G ( v) sadece v durumu için geçerlidir. Şekil 3.8 de v = 5 eşik değeri için yakınlık matrisi ve başlangıç çizgesi görülmektedir. v Şekil 3.8 İkili İlişkiler ve Başlangıç Grafiği Bu eşik çizgesine bağlı olarak çok farklı algoritmalar türetilmiştir bunlar ilerleyen sayfalarda anlatılmaktadır. Her iki çeşit algoritma da, derece belirten farklılık matrisine dayanarak işlem yapmaktadır ve sonuç olarak, drogramlarla ifade edilebilen, iç içe sıralanmış kümeler meydana getirmektedir Toplayıcı Algoritma (Tek-Bağ Kümeleme) ( ) 1) G 0 eşik çizgesi ile belirtilen, her noktayı ki kümesine yerleştiren ve kenarları bulunmayan ayrık kümeler ile başlanır ve G ( ) G ( k ) 2) k eşik çizgesi oluşturulur. Eğer, k = 1 olarak belirlenir. nın elemanlarının sayısı (en fazla bağlı alt çizge maximally connected subgraph) o anda bulunan kümelerin sayısından az ise, G ( k ) tekrar tanımlanır. nın her bir elemanını ayrı bir küme olarak belirlenir ve kümeleme işlemini ( ) 3) Eğer G k, tekli bağlanmış çizge içeriyorsa işleme son verilir. Değilse, k k+ 1 yapılır ve 2. adıma dönülür.

Daha göster