VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA"

Transkript

1 T.C. PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Yüksek Lisans Tezi DENİZLİ 2005

2 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Pamukkale Üniversitesi Fen Bilimleri Enstitüsü Tarafından Kabul Edilen Elektrik-Elektronik Mühisliği Anabilim Dalı Yüksek Lisans Tezi Mustafa Seçkin DURMUŞ Tez Savunma Tarihi: DENİZLİ 2005

3

4 IV TEŞEKKÜR Yüksek lisans tez çalışmalarım süresince kıymetli zamanını ben esirgemeyen, bilgi ve tecrübesi ile her konuda bana yön gösteren, düşünce ufkumu her yönüyle genişleten ve tezimin çok daha iyi olmasını sağlayan değerli danışman hocam Yrd. Doç. Dr. Serdar İPLİKÇİ ye teşekkürlerimi sunarım. Tez çalışması süresince fikirleri ile destek olan, yardımlarını esirgemeyen Öğretim Görevlisi Önder ÇİVRİL e, Tel Aviv üniversitesinden Prof Dr. David HORN a, Ofer PASTERNAK a, California üniversitesinden Dr. Eamonn KEOGH a, Bilgisayar Mühisi Dursun GÜNDOĞAN a, değerli bölüm öğretim üyelerim ve çalışma arkadaşlarım, Remzi ARSLANALP a, Hilal Ezercan KAYIR a, Ö. Önder KARAKILINÇ a, Engin ÇETİN e, Hüsnü ŞENTÜRK e, Adem ÜKTE ye, Ahmet ÇİFTÇİ ye ve Mehmet ÜNAL a, tezimin daha da mükemmel olmasını sağlayan Yrd. Doç. Dr. Özcan MUTLU ve Yrd. Doç. Dr. Sezai TOKAT a teşekkürü bir borç bilirim. Hayatımın her alanında olduğu gibi tez çalışma sürecinin her safhasında da yanımda olan anneme, babama, kardeşime sonsuz teşekkür ederim. Ayrıca çalışma tempoma hız katan, motivasyonumu artıran kıymetlime şükranlarımı sunarım. Mustafa Seçkin DURMUŞ

5 V ÖZET Bu tezde, Veri Madenciliği metotlarından biri olan kümeleme tekniklerinden farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırma yapmak için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB simülasyon programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır. Anahtar kelimeler: Veri Madenciliği, veri kümeleme, kümeleme algoritmaları, çizge yapıları, en yakın komşu, en küçük tarama ağacı, karşılıklı komşuluk, destek vektörleri.

6 VI ABSTRACT In this study, a comparative study on performances of different data clustering algorithms which is a way of data mining method is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their urance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data depent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results. Keywords: Data mining, data clustering, clustering algorithms, graph structures, nearest neighbor, minimum spanning tree, mutual neighborhood, support vectors.

7 VII İÇİNDEKİLER Sayfa İçindekiler... VII Şekiller Dizini... XI Çizelgeler Dizini...XIV Simgeler Dizini...XV Birinci Bölüm GİRİŞ 1. GİRİŞ Literatür Özeti ve Kümelemeye Genel Bir Bakış Tez Tanıtımı...6 İkinci Bölüm TANIMLAR 2. TANIMLAR Örnek Yakınlık Matrisleri Veri Tipleri Yakınlık İfadeleri Ortak Kovaryans Matrisi Çizge Kuramı Ultrametrik Eşitsizlik Kophenetik Matris Ve Kophenetik Uzaklık Kernel Fonksiyonları...18

8 VIII 2.9 Gürültü Oranı (SNR) Kümeleme Problemi Kümeleme İşleminin Bölümleri Uzmanın Önemi Kümelerin Gösterimi...21 Üçüncü Bölüm KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI Kümeleme Yöntemleri Özel ve Özel-Olmayan Sınıflandırma Harici ve Dahili Sınıflandırma Sıradüzensel ve Paylaştırmalı Sınıflandırma Toplayıcı ve Bölücü Algoritmalar Seri ve Eşzamanlı Algoritmalar Monothetic ve Polythetic Algoritmalar Çizge Kuramı ve Matris Cebri Sert ve Bulanık Algoritmalar Artan ve Artmayan Algoritmalar Sıradüzensel Kümeleme Algoritmaları Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Toplayıcı Algoritma (Tek-Bağ Kümeleme) Toplayıcı Algoritma (Tam-Bağ Kümeleme) Çizge Kuramı Algoritmaları Matris Güncelleme Algoritmaları Johnson Algoritması Yakınlık Matrisinde Bulunan Bağlar Genelleştirilmiş Matris Güncelleme Algoritmaları...41

9 IX Drogramlarda Geçitler ve Monotonluk Paylaştırmalı Kümeleme Algoritmaları Karesel-Hata Kümeleme Metotları k-yol Algoritması Karışım-Ayırma ile Kümeleme Yoğunluk-Tahmini veya Durum-Arama Bulanık Kümeleme Yapay Sinir Ağları (YSA) ile Kümeleme Medoidler Etrafında Gruplama CLARA Algoritması CLARANS Algortiması BEA Algoritması Büyük Veri Tabanlarında Kümeleme BIRCH DBSCAN CURE Algoritması Kategorik Özellikler İle Kümeleme ROCK Algoritması...64 Dördüncü Bölüm TEZDE KULLANILAN ALGORİTMALAR 4.TEZDE KULLANILAN ALGORİTMALAR En Küçük Tarama Ağacı Algoritması Bağıl Komşuluk Değeri Ve Gabriel Çizge Algoritmaları Delaunay Üçgen Metodu En Yakın Komşu Kümeleme Algoritması Karşılıklı Komşuluk Değeri Kümeleme Algoritması Destek Vektörleri İle Kümeleme...75

10 X Beşinci Bölüm BENZETİM SONUÇLARI 5. BENZETİM SONUÇLARI Algoritma Benzetim Sonuçları En Yakın Komşu Algoritması İçin Sonuçlar En Küçük Tarama Ağacı (MST) Algoritması İçin Sonuçlar Delaunay Üçgen (DT) Algoritması İçin Sonuçlar Bağıl Komşuluk Değeri (RNG) Algoritması İçin Sonuçlar Gabriel Çizge (GG) Algoritması İçin Sonuçlar Karşılıklı Komşuluk Değeri (MNV) Algoritması İçin Sonuçlar Destek Vektörleri (SVC)Algoritması İçin Sonuçlar...94 Altıncı Bölüm SONUÇLAR VE YORUMLAR 6 SONUÇLAR VE YORUMLAR...96 Kaynaklar Ekler Özgeçmiş...119

11 XI ŞEKİLLER DİZİNİ Şekil 1.1: Veri Madenciliği...2 Şekil 1.2 Verilerin Kümelere Ayrılması...3 Şekil 2.1: Veri Tipleri...9 Şekil 2.2: Minkowski Ölçekleri...10 Şekil 2.3: Çizge Tanımlamaları...13 Şekil 2.4: Alt Çizgeler...14 Şekil 2.5: Çizgelerin Özellikleri...15 Şekil 2.6 Ağaçlar...16 Şekil 2.7: Kümeleme Adımları...19 Şekil 2.8: Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar (outlier) ile Gösterim)...21 Şekil 2.9: Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi...22 Şekil 2.10: Saçılmış Veriler...23 Şekil 2.11: Kümelere Ayrılmış Veriler...23 Şekil 3.1: Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri...24 Şekil 3.2: Monothetic Paylaştırmalı Kümeleme...27 Şekil 3.3: Noktaların Farklı Kümelere Ayrılması...29 Şekil 3.4: Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram...29 Şekil 3.5: Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)...30 Şekil 3.6: Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *)...31 Şekil 3.7: Eşmerkezli İki Küme...31 Şekil 3.8: İkili İlişkiler ve Başlangıç Grafiği...32 Şekil 3.9: Eşik Çizgeleri ve Sıradüzensel Kümeleme İçin Drogramlar...34 Şekil 3.10: MST Prensibine Göre, Tek-Bağ Kümeleme Metodu İçin Toplayıcı ve Bölücü Algoritmaların Uygulanması...36 Şekil 3.11: Tek-Bağ ve Tam-Bağ Metotları İçin Matris Güncelleme Algoritmasının Kullanımı...38

12 XII Şekil 3.12: Yakınlık Matrisinde Bulunan Bağların Tek-Hat ve Tam-Hat Kümeleme Üzerindeki Etkisi, (a) Eşik Çizgeleri, (b) Yakınlık Drogramları, (c) Değiştirilmiş Yakınlık Matrisi ve Drogramlar...40 Şekil 3.13: Matris Güncelleme Algoritmaları İçin Oluşturulan Drogramlar...45 Şekil 3.14: Drogramlarda Bulunan Geçitler...48 Şekil 3.15: Karesel-Hatanın Hesaplanmasında Kullanılan Uzaklıklar...52 Şekil 3.16: k-yol Algoritması ile Oluşturulan Kümeler...53 Şekil 3.17 (a): İyi Ayrılmış Kümeler, (b) İç içe Geçmiş Kümeler...57 Şekil 3.18 (a): Saçılmış Noktalar...58 Şekil 3.18 (b): Amaç Fonksiyonunun Grafiği...59 Şekil 3.18 (c): Bulanık Kümelere Ayrılmış Noktalar...59 Şekil 4.1: MST ile Kümelerin Oluşturulması...67 Şekil 4.2: RNG ve GG için Etki Bölgeleri...68 Şekil 4.3: Dirichlet Mozaiği (Voronoi Diyagramı)...69 Şekil 4.4: Kümelenecek Olan Veri Noktaları...70 Şekil 4.5: MST...71 Şekil 4.6: RNG...71 Şekil 4.7: GG...72 Şekil 4.8: DT...72 Şekil 4.9: Saçılmış Durumda Bulunan Veriler...79 Şekil 4.10 (a): q = 0.3 İçin Destek Vektörleri...79 Şekil 4.10 (b): q = 3 İçin Destek Vektörleri...80 Şekil 4.10 (c): q =10 İçin Destek Vektörleri...80 Şekil 4.11 (a): q = 0.3 Kümelere Ayrılmış Veriler (4 küme)...81 Şekil 4.11 (b): q = 3 Kümelere Ayrılmış Veriler (7 küme)...81 Şekil 4.11 (c): q =10 Kümelere Ayrılmış Veriler (10 küme)...82 Şekil 5.1: İris Setosa...84 Şekil 5.2: İris Versicolor...85 Şekil 5.3: İris Virginica...85 Şekil 5.4: Avustralya Kaya Yengeci...85 Şekil 5.5: Iris Veri Seti...86 Şekil 5.6: Avustralya Kaya Yengeci Veri Seti...87

13 XIII Şekil 5.7: Rasgele Oluşturulmuş Veriler...87 Şekil 6.1 Iris Veri Seti İçin FLOP Sayıları...97 Şekil 6.2 Crab Veri Seti İçin FLOP Sayıları...98 Şekil 6.3 Data Veri Seti İçin FLOP Sayıları...99 Şekil 6.4 Data Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.5 Iris Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.6 Crab Veri Seti İçin Küme Sayılarının Değişimi...102

14 XIV ÇİZELGELER DİZİNİ Çizelge 3.1 SAHN Matris Güncelleme Algoritması İçin Farklı Parametre Değerleri...43 Çizelge 3.2 Kümeleme Algoritmalarının Karşılaştırılması...65 Çizelge 5.1 En Yakın Komşu Algoritması İçin Sonuçlar...89 Çizelge 5.2 En Küçük Tarama Ağacı Algoritması İçin Sonuçlar...90 Çizelge 5.3 Delaunay Üçgen Metodu İçin Sonuçlar...91 Çizelge 5.4 Bağıl Komşuluk Değeri Metodu İçin Sonuçlar...92 Çizelge 5.5 Gabriel Çizge Algoritması İçin Sonuçlar...93 Çizelge 5.6 Karşılıklı Komşuluk Değeri Algoritması İçin Sonuçlar...94 Çizelge 5.7 Destek Vektörleri Algoritması İçin Sonuçlar...95

15 XV SİMGELER DİZİNİ x x X Skaler gösterimi Vektör gösterimi Matris gösterimi D ( i, j) Yakınlık matrisi ( i, j) d x x İki nokta arasındaki uzaklık C G q K ( xi, x j) Kovaryans matrisi Çizge gösterimi Gaussian kernel fonksiyonunun genişlik değeri Kernel fonksiyonu 2 Öklit uzaklığı Φ L ξ i Noktaları daha büyük boyutlu uzaya taşımak için kullanılan dönüşüm Lagrange ifadesi Gevşek değişkenler µ, β Lagrange katsayıları i W 2 σ v i Lagrange ifadesinin ikincil durumu Veri setlerinin bileşenlerinin değişkesi 2 σ η Veri setlerinin bileşenlerine eklenen gürültünün değişkesi

16 BİRİNCİ BÖLÜM GİRİŞ 1. GİRİŞ Günümüzde firmaların veri tabanı boyutları terabaytlar cinsinden ifade edilmektedir. İstenilen ise bu büyük veri tabanından amaç doğrultusunda bilginin elde edilmesidir. Bilgi ise herhangi bir amaca yönelik veri olarak tanımlanmaktadır. Veriyi bilgiye çevirme işine de Veri Analizi denilmektedir. Bilgi kelimesi aynı zamanda herhangi bir soruya yanıt verebilmek için veriden çıkarılan sonuç olarak da tanımlanmaktadır. Tüm bu açıklamalar doğrultusunda Veri Madenciliği, büyük miktarda veri içerisinden, önceden bilinmeyen fakat potansiyel olarak kullanışlı bilginin bilgisayar programları kullanılarak aranmasıdır şeklinde tanımlanabilir. Veri madenciliği de kümeleme, veri özetleme, sınıflandırma, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımın kullanılmasıyla gerçekleştirilmektedir. Veri madenciliğinde verinin önemi (ne kadar çok örnek toplanırsa o kadar iyi sonuçlar elde edilmektedir), uzmanın önemi (algoritma seçiminde ve elde edilen sonuçların değerlirilmesinde önemli rol oynamaktadır) ve sabrın önemi (çok büyük ver tabanları ile işlem yapıldığından dolayı sonuçlara ulaşmak için zamana ihtiyaç duyulmaktadır) kavramları dikkat edilmesi gereken üç önemli husustur. Şekil 1.1 de veri madenciliği kavramında izlenmesi gereken yol görülmektedir. Veriler hazır olarak veri ambarlarından alınabileceği gibi dış veri kaynaklarından da alınabilmektedir. Fakat dışarıdan alınan veriler doğrudan modelin kurulması amacıyla kullanılamamaktadır. Bu nedenle modelde kullanılmak üzere hazırlanmaktadırlar. Model kurulduktan sonra farklı kriterlere göre incelemeler yapılıp önceden tanımlanmış probleme bu kurulan model uygulanmaktadır.

17 2 VERİ KAYNAKLARI Eski Saklama Ortamından Toplanan Veriler Fonksiyonel Departman Verileri ERP Sistem Verileri Diğer Veri Hareketleri Dış Kaynaklı Veriler TOPLAMA BİRLEŞTİRME ve TEMİZLEME DEĞER BİÇME SEÇİM DÖNÜŞTÜRME VERİLERİN HAZIRLANMASI SINIFLANDIRMA REGRESYON KÜMELEME BİRLİKTELİK ARDIŞIKLIK MODELİN KURULMASI VERİ AMBARI BASİT GEÇERLİLİK ÇAPRAZ GEÇERLİLİK N-KATLI GEÇELİLİK BOOTSTRAPPING KALDIRAÇ (LIFT) ROI PROBLEMİN TANIMLANMASI MODELİN DEĞERLENDİRİLMESİ Şekil 1.1 Veri Madenciliği Kümeleme, bir çeşit sınıflandırmadır (Jain ve Dubes, 1988). Diğer bir ifadeyle, önceden elde edilmiş nesnelerin (öznitelik vektörleri, gözlemler veya veri öğeleri), farklı gruplara (kümelere), herhangi bir öğretici olmadan (Öğreticisiz Öğrenme) sınıflandırılmasıdır. Oluşturulmuş herhangi bir kümede bulunan nesneler, farklı kümelerde bulunan nesnelere göre birbirlerine daha fazla benzemektedir. Nesneler arasındaki ilişkiler, satır ve sütunları nesnelerden oluşan yakınlık matrisi ile ifade edilmektedir. Bu nesneler örnek (pattern) olarak tanımlanmış ise, aralarında bulunan yakınlık, uzaklıklar şeklinde ifade edilebilmektedir (Öklit Uzaklığı-Euclidean Distance gibi). Nesneler arasında herhangi bir uzaklık ölçümü yapılamıyorsa veya yakınlık değerleri bulunamıyorsa, kümelirme yapılması imkansız olmaktadır. Küme Analizi (Clustering Analysis) örneklerin (örnekler genellikle çok boyutlu uzayda bulunan noktalar veya bir ölçüm sonunda elde edilen noktalar şeklinde ifade edilmektedir),

18 3 birbirlerine olan benzerlikleri göz önünde bulundurularak, bir araya toplanması olarak tanımlanmaktadır (Jain ve diğerleri, 1999). Kümelirme ve Diskriminant Analiz birbirine karıştırılmamalıdır. Diskriminant Analiz yapılırken, önceden sınıflandırılmış örnekler ile işlem yapılmaktadır. Amaç, yeni karşılaşılan ve önceden sınıflandırılmamış örneklerin sınıflandırılmaya dahil edilmesidir. Özetle, önceden sınıflandırılmış örnekleri kullanarak yeni örneklerin bu sınıflardan herhangi birine dahil edilmesi işlemidir. Kümelirme ise, verilen örneklerin ön sınıflandırma yapılmadan Şekil 1.2 deki gibi anlamlı kümelere ayrılmasıdır, burada doğrudan veriler üzerinde işlem yapılmaktadır. Şekil 1.2 Verilerin Kümelere Ayrılması 1.1 Literatür Özeti ve Kümelemeye Genel Bir Bakış İlk olarak 70 li yılların başında, verimliliği arttırmak amacı ile çalışmalara başlanmıştır. İlerleyen zamanlarda veri madenciliği ve kümeleme üzerine yazılan ilk kitaplardan biri olan fakat tek bir yaklaşımın kullanıldığı bir kitap yazılmıştır Cluster Analysis (Tryon&Bailey, 1970). Buna ek olarak, daha çok kümeleme işleminin matematik kısmının inceliği Mathematical Taxonomy (Jardine&Sibson, 1971), veri madenciliği ve kümeleme üzerine yazılmış olan en kapsamlı kitap Cluster Analysis for Applications (Anderberg, 1973), sıradüzensel kümelemenin anlatıldığı bir çalışma, Numerical Taxonomy (Sneath&Sokal, 1973), değişik projelerin toplandığı

19 4 bir kitap olan, Clustering Algorithms (Hartigan-1975), Algorithms for Clustering Data (Jain&Dubes, 1988) geniş kapsamlı bir kitap ve 1990 dan itibaren konu ile ilgili olarak çok farklı uygulamalar ve kitaplar ortaya konulmuştur. Farklı uygulamalarda kullanılabilen çok çeşitli kümeleme algoritmaları bulunmaktadır. Literatürde birçok yeni kümeleme algoritmaları ortaya çıkmaya devam etmektedir. Genel olarak bu algoritmalar iki başlıkta toplanmaktadır: Geleneksel Algoritmalar ve Yeni Nesil Algoritmalardır. Geleneksel algoritmalar da Sıradüzensel ve Paylaştırmalı algoritmalar şeklinde iki alt gruba ayrılmaktadır. Sıradüzensel algoritmalar, veriyi iç içe sıralı diziler haline getirmektedir ve bu sıralı diziler drogramlar (sıradüzensel yapıyı gösteren çizimler) ile gösterilmektedir. Bu gösterimden kümeleri elde edebilmek için örnekler arasında bulunan yakınlık değerlerine göre bir eşik değeri (threshold) seçilmeli ve drogramlar bu seçilen eşik değerlerine göre kesilerek, kümeler belirlenmelidir. Farklı toplayıcı sıradüzensel algoritmalar, örnek ve küme arasında veya iki küme arasında bulunan yakınlık değerlerinin tanımlanmasına göre birbirlerinden farklılık göstermektedirler. Paylaştırmalı algoritmalarda ise küme içi dağılımı en aza indiren veya kümeler arası dağılımı en yüksek değere çıkaran paylaşımlar elde edilmektedir. Genel en uygun bir sonuç elde edebilmeyi garantilemek için, uygun olmayan olası tüm paylaşımlar tespit edilmelidir. Sıradüzensel yöntemler, biyolojik, sosyal ve davranışsal bilim dallarında yaygın olarak kullanılmaktadır. Paylaştırmalı yöntemler ise, daha çok mühislik alanlarında kullanılmaktadır (En Küçük Tarama Ağacı (Minimum Spanning Tree), Karesel-Hata Metodu (Squared Error Method), K-Yol algoritması (K Means), En Yakın Komşu Algoritması (Nearest Neighbor), PAM, CLARANS, Genetik Algoritmalar, Yapay Sinir Ağları, v.b.). Yeni nesil algoritmalarda veritabanı, boyutundan bağımsız olarak sıkıştırılabilen veya budanabilen veri belleğine yerleştirilir. Geniş veritabanlarında kümeleme yapmak için bazı ölçütler belirlenmiştir. Bunlar, veritabanının bir kez veya daha az taranması, çevrimiçi çalışabilme özelliği, askıya alınabilme, durdurulabilme ve geri dönülebilir

20 5 olma özellikleri, veri ekleme veya çıkarma sonucunda güncelleme imkanı, kısıtlı bellek ile çalışabilme, tarama sırasında farklı teknikler kullanabilme ve bir kaydın sadece bir kez işlenmesi şeklindedir (BIRCH, DBSCAN, CURE, ROCK, v.b.). Mevcut verileri kümelere ayıracak tek bir algoritma bulunmamaktadır bu nedenle çeşitli algoritmalar denenmelidir. Küme analizi keşifsel veri analizinde kullanılan araçlardan sadece bir tanesidir. Verilerin toplanması ve sunulması, kümeleme sonuçlarının değerlirilmesi ve bulunan kümelerin tanımlanması en az kümeleme stratejisinin seçimi kadar önemlidir. Uygulama alanlarına kısaca değinecek olursak, pazar bölümlerinin ayrılması, müşteri değerlirme ve çapraz satış analizleri (pazarlama), risk analizleri, usulsüzlüklerin tespiti, müşteri kazanma ve mevcut müşterileri elde tutma analizleri (bankacılık, daha çok veri madenciliğinin bir alt koludur), ana giderlerin azaltılması, poliçe fiyatlarının belirlenmesi (sigortacılık), satış noktası veri analizleri, alış-veriş sepeti analizleri (perakecilik), hisse senedi fiyat tahmini, genel piyasa analizleri, en iyi alım-satım stratejilerinin belirlenmesi (borsa), hatların yoğunluk tahminleri (haberleşme), test sonuçlarının tahmini, ürün geliştirme, ilaçlarda kullanılan maddelerin sınıflandırılması (ilaç sanayi), tıbbi teşhis, uygun tedavi sürecinin belirlenmesi (sağlık), kalite kontrol, lojistik, üretim süreçlerinin en iyileştirilmesi (üstri) gözlemsel veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi, çeşitli tahminler ve sınıflandırma problemlerinin ayrıştırılarak çözümlenmesi (bilim ve mühislik) şeklinde sıralamak mümkündür (Hartigan, 1975). Kümeleme çeşitli keşifsel örnek analizlerinde (Exploratory Data Analysis) de kullanılmaktadır. Bunlar, veri madenciliği, dokümanların tekrar kazanılması, örnek sınıflandırma ve görüntülerin parçalara ayrılması konularının da içinde bulunduğu, gruplama, makine öğrenmesi ve karar verme sistemleridir. Her araştırma sahasının kine özgü terimleri, metotları ve algoritmaları bulunmaktadır.

21 6 1.2 Tez Tanıtımı Bölüm 2 de kümeleme işlemlerinde dikkat edilmesi gereken hususlar, sıkça kullanılan tanımlamalar ve karşılıkları bulunmaktadır. Bölüm 3 te literatürde bulunan kümeleme algoritmaları anlatılmaktadır. Bölüm 4 te tezde kullanılan kümeleme algoritmaları tanımlanmaktadır. Bölüm 5 te kullanılan veri setleri ve simülasyon sonuçları bulunmaktadır. Son olarak, Bölüm 6 da elde edilen sonuçlar, değerlirmeler ve bir önceki bölümde elde edilen simülasyon sonuçlarına ilişkin yorumlar bulunmaktadır.

22 İKİNCİ BÖLÜM TANIMLAR 2. TANIMLAR 2.1 Örnek Örnek (Pattern), kümeleme algoritması tarafından kullanılan veri öğeleridir ve genellikle yapılan ölçümlerin sonuçlarını içermektedir. Örnek vektörünün her bir sayısal elemanı da (x i ), yani verilerin uzaklık bileşenleri, öznitelik (attribute) olarak tanımlanmaktadır. x i x1 x = 2 M xd, ( i = 1, 2,..., n ) (2.1) kümesi, Buradaki d örnek uzayının boyutunu, n örnek sayısını ifade etmektedir. Örnek [ L ] x x L x x x L x n n2 = 1 2 n = M M O M X x x x X x x L x 1d 2d nd (2.2) ile gösterilmektedir. Örnek dizisi n x d örnek matrisi (pattern matrix) olarak da ifade edilebilmektedir. Bu matrisin her satırı örnekleri ve her sütunu da öznitelikleri veya ölçümleri ifade etmektedir. Kullanılan veriler buna benzer olarak tanımlanmıştır fakat ayrı ayrı öznitelikler şeklinde tanımlanmamıştır (Jain ve Dubes, 1988).

23 8 2.2 Yakınlık Matrisleri Kümeleme metotları veri çiftleri arasındaki yakınlıkları, benzerlikleri veya ilişkileri oluşturulabilmek için bir göstergeye ihtiyaç duymaktadır. Yakınlık Matrisi (Proximity Matrix), D ( i, j), ile ifade edilen, satır ve sütunlarında örnek numaralarının bulunduğu ve köşegen üzerinde bulunan tüm değerlerin sıfır olduğu simetrik bir matristir. Tüm yakınlık matrisleri simetriktir. Yakınlık değeri ne kadar büyük olursa o değere karşılık gelen satır ve sütunda bulunan örneklerin birbirlerine olan benzerlikleri de büyük olmaktadır (Jain ve diğerleri, 1999). d11 d12 L d1 m 0 d12 L d1 m d21 d22 d 2m d21 0 d 2 ( i, j) L L m D = = M M O M M M O M dn1 dn2 L dnm dn1 dn2 L 0 (2.3) 2.3 Veri Tipleri Elde bulunan mevcut verinin tipi (Data Type) ve değişim aralığı kümeleme algoritmasının belirlenmesinde kullanılmaktadır. Veri tipi ile belirtilmek istenen veri miktarının derecesidir. Öznitelik, ikili (binary), ayrık (discrete) veya sürekli (continuous) şekilde tanımlanabilir. İkili öznitelikler evet-hayır sorularında olduğu gibi iki değere sahiptir. Ayrık veriler genellikle küçük ve sonlu değerlerdir. Sürekli veriler ise belirli sınırlar dahilinde gerçek değerlere sahiptirler. Yakınlık matrislerinde bulunan değerler, Şekil 2.1 de de görüldüğü gibi, yakınlık matrisinde bulunan değerler yukarıda tanımlanan üç farklı tipte de olabilmektedir. İkinci bir özellik ise verilerin sayıların karşılıklı ilişkilerini gösterecek şekilde ölçeklenmesidir. Veriler nitel (qualitative) ve nicel (quantitative) olmak üzere iki şekilde ölçeklenmektedir. Nitel özellikler bir sıra (ordinal) veya sayı (nominal) değeri gösterirken, nicel ifadeler ise bir aralık değeri (interval) veya bir oran (ratio) ifade etmektedir.

24 9 Örneğin evet-hayır sorusu (0-1) veya (50-100) şeklinde ifade edilebilmektedir (nominal ölçekleme). Sayıların kileri anlamsızdır. Sıraya göre ölçekleme de ise sayılar arasındaki ilişkilere dikkat edilir (1-2-3 veya veya gibi). Aralık değerleri ile ölçekleme yapılırken istenilen aralık değerleri veriler üzerine uygulanır mesela 100 kişilik bir gruptaki insanlara boylarına göre arası puan verilmesi bu tip ölçeklemeye örnektir. En çok kullanılan ölçekleme tipi oransal ölçeklemedir, bu tip ölçeklemede sayılar tam değerlere sahiptir. Mesela iki şehir arasında bulunan mesafe metre, mil ve inç cinsinden ayrı ayrı ölçülebilmektedir, bu iki şehrin birinden diğerine araba ile giden bir insana göre gittiği yol değişmemektedir, benzer şekilde bir insanın gelirinin iki katına çıkarılması hangi para birimi kullanılırsa kullanılsın satın alma gücünü iki katına çıkaracaktır. Veri tipinin belirlenmesi, yakınlık matrisinin oluşturulmasında ve küme analizi sonuçlarının gösterilmesinde önemli rol oynamaktadır. İnsanlar ikili, nitel verileri üretmede iyi iken aygıtlar sürekli nicel verilere ihtiyaç duymaktadır. Verinin güvenilirliği veri tipine ve ölçeklenmesine bağlıdır (Jain ve Dubes, 1988). VERİ SUNUMU Örnek Matrisi Yakınlık Matrisi Tip İkili Ayrık Sürekli Tip Benzerlik Farklılık Ölçekleme Ölçekleme Nicel Nitel Nicel Nitel Sayı Sıra Aralık Oran Sıra Aralık Oran Şekil 2.1 Veri Tipleri

25 Yakınlık İfadeleri Bu bölümde çok kullanılan yakınlık ifadelerine yer verilmektedir. örnekler arasında bulunan yakınlık değeri şartları sağlamalıdır: dik (, ) i. ve k. ile gösterilmektedir ve aşağıdaki (i) Tüm i değerleri için, dii (,) = 0 (ii) Tüm (, ik ) değerleri için, dik (, ) = dki (,) (iii) Tüm (, ik ) değerleri için, dik (, ) 0 olmalıdır. Yakınlık değerleri çeşitli şekillerde ifade edilmektedir. En çok kullanılan yakınlık değerleri aşağıda gösterilmektedir. Bunlara Minkowski Ölçütleri (Minkowski Metrics) de denilmektedir (Şekil 2.2). Tüm Minkowski Ölçütleri yukarıda bulunan üç şarta ek olarak aşağıdaki iki şartı da sağlamalıdır: (iv) Sadece xi = xk durumunda dik (, ) = 0olur. (v) Tüm i,k ve m değerleri için, dik (, ) dim (, ) + dmk (, ) x 12 x 1 d d ÖKLİT MANHATTAN ( x, x ) = = ( x, x ) = = d SUP ( x, x ) 1 2 = max(4, 2) = 4 x 22 x 2 2 x x Şekil 2.2 Minkowski Ölçekleri

26 11 Minkowski ölçütlerinin genel hali (2.5) de görülmektedir: 1/ r d r dik (, ) = xij xkj ; r 1 (2.4) j= 1 Denklem 2.5 de r = 2 ( ile de gösterilmektedir ): seçilirse, Öklit Uzaklığı (Euclidean Distance) elde edilir d dik (, ) = x x = j= 1 1/2 2 T ij kj ( xi xk) ( xi x k) (2.5) Denklem 2.5 de r = 1 seçilirse, Manhattan Uzaklığı elde edilir: d dik (, ) = xij xkj (2.6) j= 1 Denklem 2.5 de r = seçilirse, Supremium Uzaklığı (Sup distance) elde edilir: dik (, ) = maxx ij x kj (2.7) 1 j d Bunlar arasında en sık kullanılan uzaklık ölçümü öklit uzaklık ölçümüdür. Eğer tüm uzaklık değerleri ikili (binary) ise Manhattan Uzaklığı na Hamming Uzaklığı denilmektedir. Mahalanobis Uzaklığı ise kullanılan ortak kovaryans matrisi (covariance matrix) nin kullanılmasıyla öklit uzaklığından farklılık göstermektedir ve aşağıdaki gibi hesaplanır: T -1 ( ) ( ) dik (, ) = x x C x x (2.8) i k i k Bu tanımlanan uzaklık yöntemleri dışında daha pek çok uzaklık ölçüm yöntemi bulunmaktadır (

27 Ortak Kovaryans Matrisi Herhangi bir M matrisinin kovaryans matrisi (Covariance Matrix) aşağıdaki formül ile elde edilmektedir. Aşağıdaki ifadede bulunan x vektörü ortalama değerlerin bulunduğu vektördür ve her sütunun (örneğin) ortalama değerini içermektedir ( n 1 = T C ( M i x)( Mi x) n 1 i= 1 (2.9) M = (2.10) [ ] x = (2.11) C = (2.12) 2.5 Çizge Kuramı Çizge (Graph), kümeleme işlemlerinde çok farklı uygulama alanlarına sahip matematiksel bir yapıdır. Bu bölümde kısaca bu tanımlamalar incelenmiştir. Bir çizge G ile gösterilmektedir (Şekil 2.3). G çizgesi, düğümlerden ( V ), kenarlardan ( E ) ve bunların birbirleri ile olan ilişkilerini gösteren bir fonksiyondan ( f ) oluşmaktadır ve G=<V',E',f'> ile gösterilmektedir. Kümeleme işlemlerinde kullanılan çizgilerin öz çevrimlere sahip olmadıkları kabul edilmektedir. Ayrıca kenarların yönleri önemli olmadığından dolayı yönsüz (undirected) çizgeler olarak da nitelirilmektedirler.

28 13 Kümeleme işlemlerinde kenarlar iki düğüm (örnek nokta) arasında bulunan uzaklık değerini ifade etmektedir. Alt çizge, asıl çizgeden elde edilmektedir ve G =<V',E',f'> ile ifade edilmektedir. Bir alt çizge asıl çizgenin tüm noktalarını içermelidir. Şekil 2.4 de alt çizge olan (b, d, e) ve olmayan (c) çizgeler verilmektedir. Diğer çizgenin alt çizge olmamasının sebebi asıl çizgede olmayan bir kenar içermesidir. Yine bu alt çizge tanımına benzer olarak yol ifadesi tanımlanmıştır. Yol ise, yine bir alt çizgedir fakat bu alt çizgede öz çevrim ve tekrarlanan kenar bulunmamaktadır (Şekil 2.5). Her yol bir alt çizgedir fakat her alt çizge bir yol değildir. Bir çizgede bulunan herhangi iki düğüm arasında bir yol bulunuyorsa bağlı (connected) ifadesi kullanılmaktadır. Bileşen (component) ise bağlı çizgenin azami (maximal) parçasıdır. Eğer bir kenar tüm düğümlere bağlı ise tam (complete) çizge olarak adlandırılmaktadır. kenar içermektedir. n düğüme sahip bir tam çizge nn ( 1)/2 Şekil 2.3 Çizge Tanımlamaları

29 14 5 Düğümlü ve 6 Kenarlı bir Çizge v 1 e 1 v 2 e 2 e 3 v 5 e 4 e 5 e 6 v 3 v 4 f(e 4 ) = (v 4,v 2 ) a v 1 v 2 e 1 v 1 e 1 v 2 v 5 e 3 v 5 e 4 e 6 e 6 v 4 Bağlı Alt Çizge b v 3 v 4 İki Bileşenli Alt Çizge d v 2 v 1 v 1 v 2 e 2 v 5 v 5 v 3 v 4 v 3 v 4 Üç Bileşenli Alt Çizge e 5 Alt Çizge Değil c Şekil 2.4 Alt Çizgeler e

30 15 v 1 v 2 v 5 Referans Çizge v 3 v 4 a v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Yol Belirten Alt Çizgeler b v 3 v 4 e v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Referans Çizgede Bir Yol Belirtmemektedir c v 3 v 4 Yol Değildir (Tekrarlanan Kenar Bulunmaktadır) f v 1 v 2 v 1 v 2 v 1 v 2 v 5 v 5 v 5 v 3 v 4 v 3 v 4 Referans Çizgede Birer Tane Döngü Belirtmektedir d v 3 v 4 Referans Çizgede Bir Döngü Belirtmemektedir g Şekil 2.5 Çizgelerin Özellikleri Döngü (cycle) tanımı ise yol tanımına benzemektedir fakat burada başlangıç düğümü ile bitiş düğümü aynıdır. Ağaç, çizge kuramında döngü içermeyen bağlı grafiklere

31 v 4 a 16 verilen isimdir. Eğer bir alt çizge m tane düğüme sahip ise, oluşturulan ağacın tam olarak m 1 tane kenarı bulunmaktadır. Tarama Ağacı (spanning tree), çizgede bulunan tüm düğümleri kapsayan ağaçtır. Çizgede bulunan kenarlara birer uzaklık (ağırlık) değeri verilirse, ağacın ağırlığı (uzunluklar toplamı) kenarlara verilen uzaklık değerlerinin toplanması ile elde edilmektedir. En Küçük Tarama Ağacı (minimum spanning tree - mst), çizgeden faydalanılarak oluşturulabilen ağaçlar arasında ağırlıklar toplamı en küçük olan ağaçtır. v 1 v 2 a v 5 Referans Çizge v 3 v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 b Farklı Ağaçlar v 3 v 4 d v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 c Ağaç Olmayan Alt Çizgeler v 3 v 4 e Şekil 2.6 Ağaçlar Şekil 2.6 da farklı ağaç yapıları görülmektedir (Zahn C. T., 1970, Jain ve Dubes, 1988,

32 Ultrametrik Eşitsizlik Üçgen eşitsizliğinin farklı bir uyarlaması olan aşağıdaki eşitsizliği tüm x, y, z değerleri için sağlayan uzunluk ölçütüne ultrametrik denilmektedir ( ( ) (, ) max (, ), (, ) d x z d x y d y z (2.13) ( ) ) d y z) ( d x, z, d( x, y ve (, çiftlerinden en az ikisi aynı olmalıdır). 2.7 Kophenetik Matris Ve Kophenetik Uzaklık Kophenetik mesafe (cophenetic distance, d C ) denklem 2.13 de tanımlanan ultrametrik eşitsizliği sağlayan yakınlık değerleridir. Yani x i ve x j elemanlarının ilk olarak aynı kümeye yerleştirilme seviyelerini ifade etmektedir ( d i, j L k ). Kophenetik matris (cophenetic matrix) ise bu yakınlık değerlerinden oluşan matrise verilen isimdir. Aşağıda sırasıyla verilen yakınlık matrisi için önce tek-bağ (single-lik) daha sonra tam-bağ (complete-link) algoritmalarına göre elde edilmiş kophenetik matrisler görülmektedir. C ( ) = ( ij) x1 x 2 D = x3 x D Cs 4 x1 x 2 = x3 x 4 x x x x x x x x (2.14) (2.15)

33 18 D Cc x1 x 2 = x3 x 4 x x x x (2.16) Tek-hat ve tam-hat algoritmalarının her ikisi de bu oluşturulan matrisler için aynı drogramlara sahiptirler. Tam-hat yapıya sahiptir ( D Cc matrisi mükemmel bir sıradüzensel 2.8 Kernel Fonksiyonları 4. bölüm de anlatılan Destek Vektör Makineleri ile kümeleme yönteminde, veri setinde bulunan noktalar önce daha büyük boyutlu bir uzaya taşınmakta ve bu uzayda kümeleme işlemleri yapılmaktadır. Bu işlemler sırasında iç çarpımların hesabına ihtiyaç duyulmaktadır. Bu nedenle, iç çarpımları daha basit hale getirebilmek amacıyla kernel fonksiyonlarından yararlanılmaktadır. (, ) ( ) ( ) K xz = Φ x Φ z (2.17) Φ( x) ifadesi, x noktalarını daha büyük boyutlu uzaya taşımak için kullanılan dönüşümü ifade etmektedir. Kernel fonksiyonu simetrik olmalıdır. Bu şartı sağlayan kernel fonksiyonlarına literatürde Mercer Kernel Fonksiyonları da denilmektedir. Tüm bu koşulları sağlayan kernel fonksiyonları ile yeni kernel fonksiyonları da türetilebilmektedir (Cristianini ve Taylor, 2003). Bu tezde 2.18 de verilen Gaussian (RBF) kernel fonksiyonu kullanılmıştır. 2 q i j K e x x ( i, j) x x = (2.18)

34 Gürültü Oranı (SNR) Veri setlerine eklenecek olan gürültü oranını ifade etmektedir ve denklem 2.19 daki ifade ile belirlenir: 2 σ v SNR = 10log (2.19) 10 2 ση Bu ifadede, 2 σ v veri setlerinin bileşenlerinin, 2 σ η ise eklenen gürültünün değişkesidir (variance) Kümeleme Problemi Kümeleme İşleminin Bölümleri Klasik bir örnek kümeleme işleminde takip edilmesi gereken adımlar şunlardır: 1) Örneklerin sunulması, 2) Örneklerin uzaklık ölçümlerinin veri tabanına uygun olarak tanımlanması, 3) Kümeleme veya gruplama, 4) Veri ayıklama (gerekli olduğu durumlarda yapılmaktadır), 5) Çıkışın değerlirilmesi (gerekli olduğu durumlarda yapılmaktadır). Yukarıda bulunan ilk üç adım Şekil 2.7 de görülmektedir. Geri besleme, kümeleme sonucunda elde edilen çıkışın, örnek uzaklık ölçümlerine ve özniteliklerin çıkarılmasına etki etmektedir. Örnekler Öznitelik Seçimi\Çıkarımı Örnek Sunumları Örnek Benzerliği Gruplama Kümeler Geri Besleme Çevrimi Şekil 2.7 Kümeleme Adımları

35 20 Örnek Sunumu, özniteliklerin sayısına, tipine ve kullanılabilecek örnek sayısı ile ilgilidir. Bu bilgilerden bazıları kullanıcı tarafından kontrol edilememektedir. Öznitelik Seçimi, kümelemede kullanılacak olan özniteliklerden oluşan en etkili alt kümenin belirlenmesi işlemidir. Öznitelik Çıkarımı, yeni öznitelikler oluşturabilmek amacı ile giriş özniteliklerinin bir veya daha fazla dönüşümlerinin kullanılmasıdır. Bu iki teknik, kümeleme işlemlerinde en uygun özniteliklerin ortaya çıkarılmasını sağlamaktadır. Örnek Yakınlıkları, örnek çiftlerine göre tanımlanmış bir uzaklık fonksiyonu ile belirlenmektedir. Bunlar arasında en yaygın olarak kullanılan uzaklık fonksiyonu Öklit fonksiyonudur. Gruplandırma, birkaç farklı yöntem ile yapılabilmektedir. Çıkış kümelirmeleri zor (verilerin gruplara ayrılması) veya bulanık (her bir verinin farklı kümelerde değişken üyelik derecesine sahip olması) olabilir. Sıradüzensel (Hierarchical) kümeleme algoritmaları sıralı bölümler serisinden meydana gelmektedir. Paylaştırmalı (Partitional) kümeleme algoritmaları ise herhangi bir kümeleme kriterini en iyi hale getiren bölümler belirlenmektedir. Bunlar dışında, olasılıksal, çizge tabanlı kümeleme algoritmaları da bulunmaktadır. İlerleyen bölümlerde bu konu daha detaylı biçimde incelenecektir. Veri Çıkarımı, veri setinin basit ve öz gösteriminin çıkarılması işlemidir (Jain ve diğerleri, 1999) Uzmanın Önemi Literatürde çok fazla kümeleme algoritması bulunduğundan dolayı, elde bulunan problemin çözümü için gerekli olan algoritmanın seçimi çok zor olmaktadır. Bu sorunu ortadan kaldırmak amacı ile algoritmaları birbirleriyle karşılaştırmada kullanılan çeşitli kriterler belirlenmiştir. Bu kriterler, (i) Kümeleri oluşturma tarzı, (ii) Verilerin yapısı (iii) Kümeleme tekniğinin verilerin yapısı üzerinde herhangi bir etkisi olmayan

36 21 değişiklikler karşısındaki hassasiyeti şeklindedir. Farklı yapılardaki veri setlerine uygulanabilecek tek bir kümeleme algoritması bulunmamaktadır. Bunun nedeni algoritmaların kümeleme yaparken izledikleri kriterlerden kaynaklanmaktadır (uzaklık ölçümleri, gruplandırma teknikleri gibi). Herhangi bir kümeleme tekniği kullanılırken, tekniğin işletilmesi dışında, verilerin elde edilme yöntemi ve uzman görüşleri de önemlidir. Kullanıcı ne kadar fazla bilgiye sahip ise kümeleme daha verimli ve etkili olmaktadır (Jain ve Dubes, 1988) Kümelerin Gösterimi Kümelerin veya sınıfların belirlenmesi gereken uygulamalarda, veri dizisinin paylaştırılması gerekmektedir. Bu paylaşım, veri noktalarının kümelere ayrılabilirliği hakkında bilgi vermektedir. Bunun yanı sıra, birçok uygulamada sonuç olarak ortaya çıkan kümeler, verilerin elde edilebilmesi amacıyla daha kısa ve öz olarak sunulmalı veya tanımlanmalıdır. Karar verme mekanizmalarında kümelerin gösterimi önemli bir adım olduğu halde araştırmacılar tarafından detaylı olarak incelenmemektedir. Buna göre, kümelerin gösterimi aşağıdaki üç şekilde yapılabilmektedir: (i) Noktaların bulunduğu kümeler, merkezleri ile veya kümede bulunan en dış noktalar ile temsil edilebilmektedir (Şekil 2.8). Şekil 2.8 Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar İle Gösterim) (ii) Kümeler, sınıflandırma ağacında bulunan düğümler ile ifade edilebilmektedir. (iii) Bağlayıcı mantık ifadeleri ile de kümeler temsil edilebilmektedir. Şekil 2.9 da bulunan [ x 3][ x ] > <2 ifadesi, x 1 büyük 3 ve x 2 küçük 2 anlamına gelmektedir. 1 2

37 22 Şekil 2.9 Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi Kümelerin merkezlerine göre temsil edilmesi en çok kullanılan yöntemdir, bu yöntem kümelerin yoğun ve aynı karakteristiğe sahip (izotropik) olmaları durumunda daha verimli olmaktadır. Bununla birlikte, kümelerin farklı karakteristiğe sahip olmaları durumunda bu metot kümeleri tam anlamıyla ifade edememektedir. Böyle bir durumda, kümenin sınır noktaları ile ifadesi daha elverişlidir. Bir kümeyi temsil ederken kullanılan noktaların sayısı, küme şeklinin karmaşıklığının artmasıyla artmaktadır. Şekil 2.9 da gösterilen iki farklı gösterimde birbiriyle eşdeğerdir. Sınıflandırma ağacında, kök düğüm ile yaprak düğüm arasında bulunan her yol bağlayıcı ifadeyi temsil etmektedir. Bu tez çalışmasında kullanılan veriler, küme sayısının önceden belli olmadığı farklı algoritmalar yardımı ile kümelere ayrılmış ve bu algoritmaların performansları, işlemler esnasında kullanılan bellek, gürültüye dayanıklılık ve işlemler esnasında kullanılan flop sayısı (MATLAB programının işlemleri gerçekleştirirken kullandığı adım sayısı) gibi kriterlere göre incelenmiştir. Verileri kümelere ayırmamızın asıl amacı, daha sonraki aşamalarda kullanılacak olan öğrenebilen sistemlere (yapay sinir ağı veya destek vektörleri makinesi modellerine) verileri daha kolay ve hızlı bir şekilde öğretebilmektir. Dağınık verileri öğrenmektense kümeler halindeki verileri öğrenmek daha hızlı ve verimli olmaktadır. Bu nedenle kümeleme işlemi yapılmaktadır. Şekil 2.10 da dağınık ve Şekil 2.11 de kümelenmiş veriler görülmektedir.

38 23 Şekil 2.10 Saçılmış Veriler Şekil 2.11 Kümelere Ayrılmış Veriler

39 ÜÇÜNCÜ BÖLÜM KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ ve ALGORİTMALARI 3.1. Kümeleme Yöntemleri Verilerin kümelere ayrılmasında kullanılan çok çeşitli algoritmalar ve yöntemler bulunmaktadır. Bu bölümde en çok kullanılan algoritma çeşitleri ve yöntemleri tanımlanmaktadır. Birinci bölümde kümeleme işlemi, bir çeşit sınıflandırma olarak tanımlanmıştır. Sınıflandırma (Classification) Özel (Exclusive) Özel Olmayan (Non-Exclusive) Öğreticili (Supervised, Extrinsic) Öğreticisiz (Unsupervised, Intrinsic) Geleneksel Algoritmalar Kümeleme (Clustering) (Dahili Sınıflandırma) Yeni Nesil Algoritmalar Sıradüzensel (Hierarchical) Paylaştırmalı (Partitional) Büyük VT Large DB Kategorik Categorical Tek Bağ (Single Link) Kip Arama (Mode Seeking) k-yol Tam Bağ (Complete Link) Karesel Hata Karışım Ayırma (Mixture Resolving) Çizge Kuramlı (Graph Theoretic) Beklenti Maksimizasyonu (Expectation Maximization) Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri

40 Özel ve Özel-Olmayan Sınıflandırma Özel Sınıflandırma, nesnelerin bölümlere ayrılmasıdır. Her nesne, tamamen tek bir kümeye veya altkümeye aittir. Özel-Olmayan (örtüşen) Sınıflandırma ise, bir nesneyi birden fazla sınıfa dahil etmektedir. Örneğin, insanları boy veya göz renklerine göre sınıflandırma özel sınıflandırma iken, insanları geçirdikleri hastalıklara göre sınıflandırma özel-olmayan sınıflandırmadır (bir insan birden fazla hastalık geçirmiş olabilir). Bulanık kümeleme, nesnelerin birden fazla kümeye (derecelerine göre) üye olduğu bir çeşit özel-olmayan sınıflandırmadır (Jain ve Dubes, 1988) Harici ve Dahili Sınıflandırma Dahili Sınıflandırma da sadece yakınlık matrisi (proximity matrix) kullanılmaktadır. Aynı zamanda, sınıflandırma yapılırken ön bilgiye sahip olunmadığından dolayı, Öğreticisiz Öğrenme olarak da adlandırılmaktadır. Harici Sınıflandırma ise, yakınlık matrisi dışında, nesnelerin kategori niteliklerini de kullanmaktadır. Örneğin, sigara kullanan ve kullanmayan insanlardan oluşan bir topluluk göz önünde bulundurulursa, dahili sınıflandırma, bireyleri sağlık durumlarına göre ayırır ve sigara içmenin çeşitli hastalıklara yakalanmadaki etkisini inceler. Harici sınıflandırma ise, sigara içenleri ve içmeyenleri sağlık durumlarına göre sınıflandırır. Verilerin kümelere ayrılması da dahili sınıflandırmadır ve küme analizi konusunun özünü oluşturmaktadır Sıradüzensel ve Paylaştırmalı Sınıflandırma Sıradüzensel sınıflandırma, iç içe sıralanmış bölümlerden oluşmaktadır. Paylaştırmalı Sınıflandırma ise tek bölümden oluşmaktadır. Bu nedenle sıradüzensel sınıflandırma, paylaştırmalı sınıflandırmanın özel bir durumudur. Bu iki konu daha detaylı olarak ilerleyen sayfalarda incelenmektedir.

41 Toplayıcı ve Bölücü Algoritmalar Toplayıcı (Agglomerative) algoritmalarda, başlangıçta her bir veri bir küme olarak kabul edilmektedir ve kademe kademe bu altkümeler, tek bir küme oluşturuluncaya kadar birleştirilir. Bölücü (Divisive) algoritmalarda ise, tüm veriler tek bir küme olarak kabul edilir ve bu küme kademe kademe alt kümelere ayrılır Seri ve Eşzamanlı Algoritmalar Seri (Serial) algoritmalar veriler üzerinde tek tek işlem yapmaktadır. Eşzamanlı (Simultaneous) algoritmalar ise, tüm veriler üzerinde aynı anda işlem yapmaktadır Monothetic ve Polythetic Algoritmalar Bu algoritmalar genellikle, nesnelerin örnekler veya belirli bir uzayda tanımlanmış noktalar olarak tanımlandığı, taksonomi (cinsine göre sınıflandırma) problemlerinde kullanılmaktadır. Monothetic algoritmalar öznitelikleri tek tek kullanmasına rağmen (tek bir karakteristiğe göre gruplandırmaktadır), Polythetic algoritmalar tüm öznitelikleri aynı anda kullanmaktadır (birden fazla karakteristiğe göre gruplandırmaktadır). Algoritmaların çoğu Polythetic tir bunun nedeni, noktalar arasındaki uzaklıklar hesaplanırken kullanılan özniteliklerin hepsi bu uzaklıklara dayanmaktadır. Şekil 3.2 de noktalar x 1 özniteliği kullanılarak iki gruba ayrılmıştır, dikey V çizgisi ayırma düzlemidir. Bu iki küme daha sonra x 2 özniteliğini kullanarak iki gruba daha ayrılabilmektedir ( ve H yatay çizgileri). H1 2

42 27 Şekil 3.2 Monothetic Paylaştırmalı Kümeleme Çizge Kuramı ve Matris Cebri Bilgisayarda herhangi bir algoritma gerçekleştirilirken, sayısal verimliliğe dikkat edilmelidir. Çizge kuramında, eksiksizlik (completeness) ve bağlanmışlık (connectedness) gibi terimler göz önünde bulundurulmaktadır. Diğer algoritmalarda ise, karesel hata değeri gibi cebrik ifadeler yer almaktadır. Kümelenecek olan örneklerin düğümlerle ve örnekler arasındaki ilişkilerin kenarlar ile ifade edildiği yapılara çizge denilmektedir. Kenarların ağırlık değerleri örnekler arasındaki uzaklık değerlerini ifade etmektedir. Kümelemenin amacına uygun olarak; aynı kümede bulunan noktalar farklı kümelerde bulunan noktalara göre birbirlerine daha yakındır. Kümeleme metotları, uyuşmayan kenarları belirleyerek ve silerek çizgeleri bağlanmış elemanlar haline getirirler. Her eleman bir kümeyi temsil etmektedir. Çizge kuramına ait daha detaylı bilgi ikinci bölümde yer almaktadır Katı ve Bulanık Algoritmalar Katı (Hard) kümeleme algoritmalarında her veri ayrı bir kümeye ait olmaktadır. Bulanık kümelemede ise bir veri birden fazla kümeye ait olabilmektedir. Bulanık (Fuzzy) kümeleme, noktaların en yüksek üyelik derecesine sahip kümelere yerleştirilmesiyle sert kümelemeye dönüştürülebilmektedir.

43 Artan ve Artmayan Algoritmalar Veri setinin çok büyük olduğu, işlem zamanının ve kullanılan hafızanın algoritma üzerinde kısıtlamalara sebep olduğu durumlarda kullanılmaktadır. Kullanılan ilk algoritmalar büyük boyutlu veriler için tasarlanmamıştır, fakat veri madenciliğinin gelişmesi algoritmalarında geliştirilmesine yardımcı olmuştur. 3.2 Sıradüzensel Kümeleme Algoritmaları Sıradüzensel kümeleme (Hierarchical Clustering), verilerin birbirlerine olan uzaklıklarından oluşturulmuş yakınlık matrisini iç içe sıralı bölümler şekline dönüştüren bir metottur. Sıradüzensel kümeleme algoritması ise, sıradüzensel kümeleme yapabilmek için gerekli olan adımların tanımlanmasıdır. Kümelenecek n adet veri x vektörü ile gösterilmektedir. x x1 x = 2 M xn T (3.1) B kümesinin tüm elemanları, L kümesinin bir alt kümesi ise, B kümesi, L kümesinin içine yuvalanmıştır. Aşağıdaki örnekte daha açık şekilde görülmektedir. {(,,, ), (,,, ), (, 9 10) } B = x x x x x x x x x x (3.2) {(, 1 3),(, ), 5 7 ( 2), (,, 4 6 8), (, 9 10)} L= x x x x x x x x x x (3.3) {(,,, ),(,,, ), (, 9 10)} M = x x x x x x x x x x (3.4) B ve L kümelerinden hiçbiri M kümesinin içine yuvalanmamıştır, benzer şekilde M kümesi de B ve L kümelerinden hiçbirinin içine yuvalanmamıştır. Şekil 3.3 de iki boyutlu bir veri setinin kümelenmesi görülmektedir. Burada A, B, C, D, E, F ve G

44 29 noktaları üç ayrı kümeye ayrılmıştır. Bu iç içe sıralı grupları gösterebilmek amacı ile Drogram olarak adlandırılan gösterim şekli kullanılmaktadır. Sıradüzensel kümelemenin en büyük özelliği, verilerin çok rahat bir şekilde gözlemlenebilmesini sağlayan, Şekil 3.4 deki gibi şekillerin olmasıdır. Drogram, sıradüzensel kümelemeye ait özel bir gösterim şeklidir ve kümelerin ifade edildiği, farklı seviyelerde bulunan düğümlerden oluşmaktadır. Düğümleri birleştiren çizgiler ise birbiri içine yuvalanmış kümeleri ifade etmektedir. Drogram istenilen seviyelerden kesilebilmekte ve o seviyede kaç farklı küme olduğu görülebilmektedir. Yakınlık çizgesi (proximity graph), her kenarın birbirine olan yakınlıklarına göre belli ağırlıklara sahip olduğu eşik çizgeleridir (threshold graph). Yakınlık matrisine göre çizilen drogramlar, yakınlık drogramları olarak adlandırılmaktadır ve aynı anda hem kümeleri ve yakınlık değerlerini içermektedir. Yakınlık drogramları, yakınlık değerlerinin aralık değerleri veya oransal değerler olduğu durumlarda daha kullanışlıdır. Şekil 3.3 Noktaların Farklı Kümelere Ayrılması Şekil 3.4 Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram

45 30 Sıradüzensel kümeleme algoritmalarının çoğu, tek-bağ (single-link), tam-bağ (complete-link) veya minimum-değişke (minimum-variance) algoritmalarından oluşmaktadır. Bunlardan en çok kullanılan algoritmalar tek-bağ ve tam-bağ algoritmalarıdır. Bu iki algoritma, küme çiftleri arasındaki benzerlikleri modelleme yapılarına göre farklılık göstermektedir. Tek-Bağ algoritmalarında, iki küme arasında bulunan uzaklık, Şekil 3.5 deki gibi tüm veri çiftleri arasındaki uzaklıklardan en küçük değerde olanıdır. Tam-Bağ algoritmalarda ise Şekil 3.6 daki gibi, uzaklıklar arasından en büyük değerde olanıdır. Her iki durumda da kümeler, en kısa uzaklık kriterine bağlı olarak daha büyük bir küme oluşturabilmek amacıyla birleştirilmektedir. Tam-Bağ algoritmasıyla oluşturulan kümelere Tek-Bağ ile oluşturulan kümelere göre daha kısa ve yoğun olmaktadır. Tek-Bağ algoritması, Tam-Bağ algoritmasına göre çok yönlüdür. Şekil 3.7 de görülen eşmerkezli iki küme Tek-Bağ algoritmaları ile kümelere ayrılabilir fakat Tam-Bağ algoritmaları ile işlem yapılamamaktadır. Bununla birlikte, sebep-sonuç ilişkisine dayalı çalışmalarda Tam-Bağ algoritması daha kullanışlı hiyerarşiler meydana getirmektedir. Şekil 3.5 Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)

46 31 Şekil 3.6 Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *) Şekil 3.7 Eşmerkezli İki Küme Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Bu algoritmaların uygulanabilmesi için öncelikle, simetrik, matrisinin elde edilmesi gerekmektedir ( D d ( i, j ) ) = matrisi ve başlangıç çizgesi (eşik çizgesi) gösterilmektedir. nn x boyutlu yakınlık. Aşağıda örnek bir yakınlık 5 x x x x x x x D = x x x ; n= 5 (3.5) Başlangıç çizgesi, yönü kesin olarak belli olmayan, ağırlıkları bulunmayan ve iç çevrime sahip olmayan çizgedir ve G ( v) ile ifade edilmektedir (v, farklılık değerini

47 32 belirtmektedir). G ( v), ikili ilişkileri tanımlamaktadır. Eğer (, ) düşük ise ve sadece d( i, j) i j değeri, değerinden i ve j arasına kenar (edge) yerleştirilmektedir. Kısaca, ( i, j) G ( v) sadece v durumu için geçerlidir. Şekil 3.8 de v = 5 eşik değeri için yakınlık matrisi ve başlangıç çizgesi görülmektedir. v Şekil 3.8 İkili İlişkiler ve Başlangıç Grafiği Bu eşik çizgesine bağlı olarak çok farklı algoritmalar türetilmiştir bunlar ilerleyen sayfalarda anlatılmaktadır. Her iki çeşit algoritma da, derece belirten farklılık matrisine dayanarak işlem yapmaktadır ve sonuç olarak, drogramlarla ifade edilebilen, iç içe sıralanmış kümeler meydana getirmektedir Toplayıcı Algoritma (Tek-Bağ Kümeleme) ( ) 1) G 0 eşik çizgesi ile belirtilen, her noktayı ki kümesine yerleştiren ve kenarları bulunmayan ayrık kümeler ile başlanır ve G ( ) G ( k ) 2) k eşik çizgesi oluşturulur. Eğer, k = 1 olarak belirlenir. nın elemanlarının sayısı (en fazla bağlı alt çizge maximally connected subgraph) o anda bulunan kümelerin sayısından az ise, G ( k ) tekrar tanımlanır. nın her bir elemanını ayrı bir küme olarak belirlenir ve kümeleme işlemini ( ) 3) Eğer G k, tekli bağlanmış çizge içeriyorsa işleme son verilir. Değilse, k k+ 1 yapılır ve 2. adıma dönülür.

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma Akademik Bilişim 07 - IX. Akademik Bilişim Konferansı Bildirileri 31 Ocak - Şubat 007 Dumlupınar Üniversitesi, Kütahya Veri leme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma Pamukkale

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME YZM 317 YAPAY ZEKA DERS#10: KÜMELEME Sınıflandırma (Classification) Eğiticili (supervised) sınıflandırma: Sınıflandırma: Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğunu bilinir Eğiticisiz (unsupervised)

Detaylı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kümeleme Algoritmaları. Tahir Emre KALAYCI Tahir Emre KALAYCI 2010 Gündem En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla

Detaylı

Çizgeler (Graphs) Doç. Dr. Aybars UĞUR

Çizgeler (Graphs) Doç. Dr. Aybars UĞUR Çizgeler (Graphs) ve Uygulamaları Doç. Dr. Aybars UĞUR Giriş Şekil 12.1 : Çizge (Graph) Çizge (Graph) : Köşe (vertex) adı verilen düğümlerden ve kenar (edge) adı verilip köşeleri birbirine bağlayan bağlantılardan

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

VERİ YAPILARI. GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1

VERİ YAPILARI. GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1 VERİ YAPILARI GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1 GRAPH (ÇİZGE - GRAF) Terminoloji Çizge Kullanım Alanları Çizge Gösterimi Komşuluk Matrisi Komşuluk Listesi Çizge Üzerinde

Detaylı

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok 8.0.0 Şebeke Kavramları BÖLÜM III: Şebeke Modelleri Şebeke (Network) Sonlu sayıdaki düğümler kümesiyle, bunlarla bağlantılı oklar (veya dallar) kümesinin oluşturduğu yapı şeklinde tanımlanabilir ve (N,A)

Detaylı

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları 1 Veri Tabanı, Veri Ambarı, Veri Madenciliği Bilgi Keşfi Aşamaları Apriori Algoritması Veri Madenciliği Yöntemleri Problemler Veri Madenciliği Uygulama Alanları 2 Bir bilgisayarda sistematik şekilde saklanmış,

Detaylı

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi Graf Veri Modeli Graf, bir olay veya ifadenin düğüm ve çizgiler kullanılarak gösterilme şeklidir. Fizik, Kimya gibi temel bilimlerde ve mühendislik uygulamalarında ve tıp biliminde pek çok problemin çözümü

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

BMT 206 Ayrık Matematik. Yük. Müh. Köksal GÜNDOĞDU 1

BMT 206 Ayrık Matematik. Yük. Müh. Köksal GÜNDOĞDU 1 BMT 206 Ayrık Matematik Yük. Müh. Köksal GÜNDOĞDU 1 Graph (Çizge) Yük. Müh. Köksal GÜNDOĞDU 2 Graph (Çizge) Köşe (vertex) adı verilen düğümlerden ve kenar (edge) adı verilip köşeleri birbirine bağlayan

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

Uzaktan Algılama Uygulamaları

Uzaktan Algılama Uygulamaları Aksaray Üniversitesi Uzaktan Algılama Uygulamaları Doç.Dr. Semih EKERCİN Harita Mühendisliği Bölümü sekercin@aksaray.edu.tr 2010-2011 Bahar Yarıyılı Uzaktan Algılama Uygulamaları GÖRÜNTÜ İŞLEME TEKNİKLERİ

Detaylı

YZM 2116 Veri Yapıları

YZM 2116 Veri Yapıları YZM 2116 Veri Yapıları Yrd. Doç. Dr. Deniz KILINÇ Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi Yazılım Mühendisliği BÖLÜM - 11 Bu bölümde, Graph (Çizge - Graf) Terminoloji Çizge Kullanım

Detaylı

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ 1 BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ Veri seti; satırlarında gözlem birimleri, sütunlarında ise değişkenler bulunan iki boyutlu bir matristir. Satır ve sütunların kesişim bölgelerine 'hücre

Detaylı

köşe (vertex) kenar (edg d e)

köşe (vertex) kenar (edg d e) BÖLÜM 7 köşe (vertex) kenar (edge) Esk den Ank ya bir yol (path) Tanım 7.1.1: Bir G çizgesi (ya da yönsüz çizgesi) köşelerden oluşan bir V kümesinden ve kenarlardan oluşan bir E kümesinden oluşur. Herbir

Detaylı

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım;

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım; İÇ ÇARPIM UZAYLARI 7. BÖLÜM İÇ ÇARPIM UZAYLARI Genel: Vektörler bölümünde vektörel iç çarpım;.= 1 1 + + Açıklanmış ve bu konu uzunluk ve uzaklık kavramlarını açıklamak için kullanılmıştır. Bu bölümde öklit

Detaylı

2. Klasik Kümeler-Bulanık Kümeler

2. Klasik Kümeler-Bulanık Kümeler 2. Klasik Kümeler-Bulanık Kümeler Klasik Küme Teorisi Klasik kümelerde bir nesnenin bir kümeye üye olması ve üye olmaması söz konusudur. Bu yaklaşıma göre istediğimiz özelliğe sahip olan bir birey, eleman

Detaylı

Genel Graf Üzerinde Mutlak 1-merkez

Genel Graf Üzerinde Mutlak 1-merkez Genel Graf Üzerinde Mutlak 1-merkez Çözüm yöntemine geçmeden önce bazı tanımlara ihtiyaç vardır. Dikkate alınan G grafındaki düğümleri 1 den n e kadar numaralandırın. Uzunluğu a(i, j)>0 olarak verilen

Detaylı

CBS ve Coğrafi Hesaplama

CBS ve Coğrafi Hesaplama Yıldız Teknik Üniversitesi CBS ve Coğrafi Hesaplama 2. Bölüm Yrd. Doç. Dr. Alper ŞEN Harita Mühendisliği Bölümü Kartografya Anabilim Dalı web: http://www.yarbis.yildiz.edu.tr/alpersen/ E mail: alpersen@yildiz.edu.tr

Detaylı

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. Veri Madenciliği Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. istatistik + makine öğrenmesi + yapay zeka = veri madenciliği Veri madenciliği süreçleri CRISP-DM

Detaylı

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz? KÜMELEME Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları Neleri göreceğiz? Tanımı Veriyi birbirlerine benzeyen elemanlardan oluşan kümelere ayırarak, heterojen bir

Detaylı

İSTATİSTİKTE TEMEL KAVRAMLAR

İSTATİSTİKTE TEMEL KAVRAMLAR İSTATİSTİKTE TEMEL KAVRAMLAR 1. ve 2. Hafta İstatistik Nedir? Bir tanım olarak istatistik; belirsizlik altında bir konuda karar verebilmek amacıyla, ilgilenilen konuya ilişkin verilerin toplanması, düzenlenmesi,

Detaylı

Görüntü Sınıflandırma

Görüntü Sınıflandırma Görüntü Sınıflandırma Chapter 12 https://www.google.com.tr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0 CBwQFjAA&url=http%3A%2F%2Ffaculty.une.edu%2Fcas%2Fszeeman%2Frs%2Flect%2FCh%2 52012%2520Image%2520Classification.ppt&ei=0IA7Vd36GYX4Uu2UhNgP&usg=AFQjCNE2wG

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Bulanık Mantık Tabanlı Uçak Modeli Tespiti Bulanık Mantık Tabanlı Uçak Modeli Tespiti Hüseyin Fidan, Vildan Çınarlı, Muhammed Uysal, Kadriye Filiz Balbal, Ali Özdemir 1, Ayşegül Alaybeyoğlu 2 1 Celal Bayar Üniversitesi, Matematik Bölümü, Manisa

Detaylı

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem 3.2. DP Modellerinin Simpleks Yöntem ile Çözümü 3.2.1. Primal Simpleks Yöntem Grafik çözüm yönteminde gördüğümüz gibi optimal çözüm noktası, her zaman uygun çözüm alanının bir köşe noktası ya da uç noktası

Detaylı

İçindekiler. Pazarlama Araştırmalarının Önemi

İçindekiler. Pazarlama Araştırmalarının Önemi İçindekiler Birinci Bölüm Pazarlama Araştırmalarının Önemi 1.1. PAZARLAMA ARAŞTIRMALARININ TANIMI VE ÖNEMİ... 1 1.2. PAZARLAMA ARAŞTIRMASI İŞLEVİNİN İŞLETME ORGANİZASYONU İÇİNDEKİ YERİ... 5 1.3. PAZARLAMA

Detaylı

Yrd. Doç. Dr. A. Burak İNNER

Yrd. Doç. Dr. A. Burak İNNER Yrd. Doç. Dr. A. Burak İNNER Kocaeli Üniversitesi Bilgisayar Mühendisliği Yapay Zeka ve Benzetim Sistemleri Ar-Ge Lab. http://yapbenzet.kocaeli.edu.tr Ders Adı : Bilgisayar Mühendisliğinde Matematik Uygulamaları

Detaylı

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

İKİ BOYUTLU ÇUBUK SİSTEMLER İÇİN YAPI ANALİZ PROGRAM YAZMA SİSTEMATİĞİ

İKİ BOYUTLU ÇUBUK SİSTEMLER İÇİN YAPI ANALİZ PROGRAM YAZMA SİSTEMATİĞİ İKİ BOYUTLU ÇUBUK SİSTEMLER İÇİN YAPI ANALİZ PROGRAM YAZMA SİSTEMATİĞİ Yapı Statiği nde incelenen sistemler çerçeve sistemlerdir. Buna ek olarak incelenen kafes ve karma sistemler de aslında çerçeve sistemlerin

Detaylı

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN Giriş Bilgi teknolojisindeki gelişmeler ve verilerin dijital ortamda saklanmaya başlanması ile yeryüzündeki bilgi miktarı her 20 ayda iki katına

Detaylı

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ MAK 210 SAYISAL ANALİZ BÖLÜM 5- SONLU FARKLAR VE İNTERPOLASYON TEKNİKLERİ Doç. Dr. Ali Rıza YILDIZ MAK 210 - Sayısal Analiz 1 İNTERPOLASYON Tablo halinde verilen hassas sayısal değerler veya ayrık noktalardan

Detaylı

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA i GENETİK ALGORİTMA YAKLAŞIMIYLA ATÖLYE ÇİZELGELEME Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2005 ANKARA ii Serdar BİROĞUL tarafından hazırlanan

Detaylı

Hafta 05 - Karar Ağaçları/Kümeleme

Hafta 05 - Karar Ağaçları/Kümeleme BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr İstanbul Şehir Üniversitesi 2018 - Bahar İçindekiler

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Akademik Bilişim 2013 Akdeniz Üniversitesi, Antalya, 23-25 Ocak 2013 Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Oğuz Akpolat 1 *, Sinem Çağlar Odabaş 2, Gülçin Özevci 3, Nezahat İpteş 4 1 Muğla

Detaylı

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ YZM 3207- ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ Azalt ve Fethet Algoritmaları Problemi daha küçük bir örneğine çevir: Küçük örneği çöz Çözümü asıl probleme genişlet 3 tipi vardır:

Detaylı

BIP116-H14-1 BTP104-H014-1

BIP116-H14-1 BTP104-H014-1 VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Nilay Kurşunoğlu, PwC Yönetim Danışmanlığı Biz Kimiz? Orhan Cem Sorumlu

Detaylı

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR YZM 3207- ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR Aç Gözlü (Hırslı) Algoritmalar (Greedy ) Bozuk para verme problemi Bir kasiyer 48 kuruş para üstünü nasıl verir? 25 kuruş, 10 kuruş,

Detaylı

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş Mühendislik Mekaniği Statik Yrd.Doç.Dr. Akın Ataş Bölüm 2 Kuvvet Vektörleri Kaynak: Mühendislik Mekaniği: Statik, R.C.Hibbeler, S.C.Fan, Çevirenler: A. Soyuçok, Ö.Soyuçok. 2 Kuvvet Vektörleri Bu bölümde,

Detaylı

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi Erdal TAŞCI* Aytuğ ONAN** *Ege Üniversitesi Bilgisayar Mühendisliği Bölümü **Celal Bayar Üniversitesi

Detaylı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER ÖN SÖZ... İÇİNDEKİLER ÖN SÖZ... v GİRİŞ... 1 1. İSTATİSTİK İN TARİHÇESİ... 1 2. İSTATİSTİK NEDİR?... 3 3. SAYISAL BİLGİDEN ANLAM ÇIKARILMASI... 4 4. BELİRSİZLİĞİN ELE ALINMASI... 4 5. ÖRNEKLEME... 5 6. İLİŞKİLERİN

Detaylı

4. Bulanık Sayılar- Üyelik Fonksiyonları

4. Bulanık Sayılar- Üyelik Fonksiyonları 4. Bulanık Sayılar- Üyelik Fonksiyonları Bulanık Sayı Normal ve dışbükey bir bulanık kümenin alfa kesimi kapalı bir küme ise bulanık sayı olarak adlandırılmaktadır. Her bulanık sayı dış bükey bir bulanık

Detaylı

GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi VERİ YAPILARI. Bilgisayar Mühendisliği ÖĞR.GÖR.GÜNAY TEMÜR 1

GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi VERİ YAPILARI. Bilgisayar Mühendisliği ÖĞR.GÖR.GÜNAY TEMÜR 1 VERİ YAPILARI GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi Bilgisayar Mühendisliği ÖĞR.GÖR.GÜNAY TEMÜR 1 GRAPH (ÇİZGE - GRAF) Terminoloji Çizge Kullanım Alanları Çizge Gösterimi Komşuluk Matrisi Komşuluk

Detaylı

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ İÇİNDEKİLER ÖNSÖZ... v TEŞEKKÜR... vi İKİNCİ BASKIYA ÖNSÖZ VE TEŞEKKÜR... vii İÇİNDEKİLER... ix ŞEKİLLER LİSTESİ... xviii TABLOLAR LİSTESİ... xx BİRİNCİ KISIM: TASARIM BİRİNCI BÖLÜM PAZARLAMA ARAŞTIRMASINA

Detaylı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ - 150110046 İÇERİK Uygulama ve uygulamaya ilişkin temel kavramların tanıtımı Uygulamanın yapısı Ön yüz Veritabanı Web Servisler K-Means Algoritması ile kategori

Detaylı

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Graflar bilgi parçaları arasındaki ilişkileri gösterirler. Graflar (Graphs) Graf gösterimi Uygulama alanları Graf terminolojisi Depth first dolaşma Breadth first dolaşma Topolojik sıralama Yrd.Doç.Dr. M. Ali Akcayol Graflar Graflar bilgi parçaları arasındaki ilişkileri

Detaylı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel

Detaylı

Veri Yapıları Laboratuvarı

Veri Yapıları Laboratuvarı 2013 2014 Veri Yapıları Laboratuvarı Ders Sorumlusu: Yrd. Doç. Dr. Hakan KUTUCU Lab. Sorumlusu: Arş. Gör. Caner ÖZCAN İÇİNDEKİLER Uygulama 1: Diziler ve İşaretçiler, Dinamik Bellek Ayırma... 4 1.1. Amaç

Detaylı

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ Yasemin ŞİŞMAN, Ülkü KIRICI Sunum Akış Şeması 1. GİRİŞ 2. MATERYAL VE METHOD 3. AFİN KOORDİNAT DÖNÜŞÜMÜ 4. KALİTE KONTROL 5. İRDELEME

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

8. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

8. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI. 8. HAFTA BLM323 SAYISAL ANALİZ Okt. Yasin ORTAKCI yasinortakci@karabuk.edu.tr Karabük Üniversitesi Uzaktan Eğitim Uygulama ve Araştırma Merkezi 2 MATRİSLER Matris veya dizey, dikdörtgen bir sayılar tablosu

Detaylı

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta SAYISAL ÇÖZÜMLEME Yrd.Doç.Dr.Esra Tunç Görmüş 1.Hafta Sayısal çözümleme nümerik analiz nümerik çözümleme, approximate computation mühendislikte sayısal yöntemler Computational mathematics Numerical analysis

Detaylı

Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997

Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997 Mühendislik Fakültesi Endüstri Mühendisliği Bölümü Doç. Dr. Nil ARAS ENM411 Tesis Planlaması 2016-2017 Güz Dönemi Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997 2 Tesis Yer Seçimi Problemi (TYSP) TEK AMAÇLI

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan.   blog.mustafabaydogan. Veri Madenciliği Yrd. Doç. Dr. Mustafa Gökçe Baydoğan mustafa.baydogan@boun.edu.tr www.mustafabaydogan.com blog.mustafabaydogan.com İçerik p Veri Madenciliği nedir? n Bir örnek p Boğaziçi Üniversitesi

Detaylı

YZM 2116 Veri Yapıları

YZM 2116 Veri Yapıları YZM 2116 Veri Yapıları Yrd. Doç. Dr. Deniz KILINÇ Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi Yazılım Mühendisliği BAŞLAMADAN ÖNCE Bu dersi alan öğrencilerin aşağıdaki konuları bildiği

Detaylı

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI İÇİNDEKİLER IX İÇİNDEKİLER 1 GİRİŞ 1 Kitabın Amacı 1 Algoritmanın Önemi 2 Bilgisayarın Doğuşu ve Kullanım Amaçları 3 Programlama Dili Nedir? 3 Entegre Geliştirme Ortamı (IDE) Nedir? 4 2 ALGORİTMA VE AKIŞ

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX XI İÇİNDEKİLER ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX 1. GİRİŞ... 1 2. PLANLAMANIN TARİHÇESİ... 7 2.1 Literatürdeki Planlayıcılar ve Kullandıkları Problem... Gösterimi

Detaylı

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler Lineer Cebir Doç. Dr. Niyazi ŞAHİN TOBB İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler Bölüm 1 - Lineer Eşitlikler 1.1. Lineer Eşitliklerin Tanımı x 1, x 2,..., x

Detaylı

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak 10.Konu İç çarpım uzayları ve özellikleri 10.1. ve üzerinde uzunluk de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor teoreminden dir. 1.Ö.: [ ] ise ( ) ( ) ve ( ) noktaları gözönüne alalım.

Detaylı

İç-Çarpım Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv. Dr. Nevin ORHUN

İç-Çarpım Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv. Dr. Nevin ORHUN İç-Çarpım Uzayları Yazar Öğr. Grv. Dr. Nevin ORHUN ÜNİTE Amaçlar Bu üniteyi çalıştıktan sonra; R n, P n (R), M nxn vektör uzaylarında iç çarpım kavramını tanıyacak ve özelliklerini görmüş olacaksınız.

Detaylı

BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ

BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ Frekans dağılımlarının betimlenmesinde frekans tablolarının kullanılmasının yanı sıra grafik gösterimleri de sıklıkla kullanılmaktadır. Grafikler, görselliği

Detaylı

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( ) www.tubiad.org ISSN:2148-3736 El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 (315-323) El-Cezerî Journal of Science and Engineering Vol: 3, No: 2, 2016 (315-323) ECJSE Makale / Research Paper

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

Bölüm 2: Kuvvet Vektörleri. Mühendislik Mekaniği: Statik

Bölüm 2: Kuvvet Vektörleri. Mühendislik Mekaniği: Statik Bölüm 2: Kuvvet Vektörleri Mühendislik Mekaniği: Statik Hedefler Kuvvetleri toplama, bileşenlerini ve bileşke kuvvetlerini Paralelogram Kuralı kullanarak belirleme. Diktörtgen (Cartesian) koordinat sistemi

Detaylı

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2 Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM 2116- Veri Yapıları Dersi Proje#2 İkili Arama Ağacı, Heap, Hash Tabloları ve Çizgeler Veriliş Tarihi: 24.04.2018 Son Teslim Tarihi: 25.05.2018

Detaylı

Özdeğer ve Özvektörler

Özdeğer ve Özvektörler Özdeğer ve Özvektörler Yazar Öğr.Grv.Dr.Nevin ORHUN ÜNİTE 9 Amaçlar Bu üniteyi çalıştıktan sonra; bir lineer dönüşümün ve bir matrisin özdeğer ve özvektör kavramlarını anlayacak, bir dönüşüm matrisinin

Detaylı

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b Bölüm 1 Temel Kavramlar Bu bölümde bağıntı ve fonksiyon gibi bazı temel kavramlar üzerinde durulacak, tamsayıların bazı özellikleri ele alınacaktır. Bu çalışma boyunca kullanılacak bazı kümelerin gösterimleri

Detaylı

BİLGİSAYAR PROGRAMLAMA DERSİ

BİLGİSAYAR PROGRAMLAMA DERSİ BİLGİSAYAR PROGRAMLAMA DERSİ Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü DERS NOTU 5 KONU: Matlab de Diziler ve Matrisler İÇ İÇE FOR DÖNGÜSÜ

Detaylı

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 İÇİNDEKİLER Önsöz. V BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 BÖLÜM II KÜMELER 17 2.1.Küme Tanımı ve Özellikleri 18 2.2 Kümelerin Gösterimi 19 2.2.1 Venn Şeması Yöntemi 19 2.2.2 Liste Yöntemi

Detaylı

8.Konu Vektör uzayları, Alt Uzaylar

8.Konu Vektör uzayları, Alt Uzaylar 8.Konu Vektör uzayları, Alt Uzaylar 8.1. Düzlemde vektörler Düzlemdeki her noktası ile reel sayılardan oluşan ikilisini eşleştirebiliriz. Buna P noktanın koordinatları denir. y-ekseni P x y O dan P ye

Detaylı

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz. MATEMATİK. DENEME ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI. f : X tanımlı y = f() fonksiyonu için lim f ( ) = L ise aşağıdaki önermelerden kaç tanesi kesinlikle doğrudur? 0 I. X dir. 0 II. f() fonksiyonu

Detaylı

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli Graf, matematiksel anlamda, düğümler ve bu düğümler arasındaki ilişkiyi gösteren kenarlardan oluşan bir kümedir; mantıksal ilişki düğüm ile düğüm

Detaylı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Oğuz Akpolat 1 *, Sinem Çağlar Odabaş 2, Gülçin Özevci 3, Nezahat Đpteş 4 1 Muğla SKÜ, Fen Fakültesi, Kimya Bölümü, Muğla, Türkiye 2 Muğla SKÜ Fen Bilimleri

Detaylı

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş Mühendislik Mekaniği Statik Yrd.Doç.Dr. Akın Ataş Bölüm 2 Kuvvet Vektörleri Kaynak: Mühendislik Mekaniği: Statik, R.C.Hibbeler, S.C.Fan, Çevirenler: A. Soyuçok, Ö.Soyuçok. 2 Kuvvet Vektörleri Bu bölümde,

Detaylı

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines) Destekçi Vektör Makineleri Destekçi Vektör Makineleri(Support Vector Machines) Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için önerilmiş bir makine öğrenmesi

Detaylı

Ağaç (Tree) Veri Modeli

Ağaç (Tree) Veri Modeli Ağaç (Tree) Veri Modeli 1 2 Ağaç Veri Modeli Temel Kavramları Ağaç, bir kök işaretçisi, sonlu sayıda düğümleri ve onları birbirine bağlayan dalları olan bir veri modelidir; aynı aile soyağacında olduğu

Detaylı

ISK116 - Bölüm 1. Grup Teknolojisi

ISK116 - Bölüm 1. Grup Teknolojisi ISK - Bölüm Grup Teknolojisi Grup Teknolojisi (GT) Grup teknolojisi benzerliklerden faydalanarak büyük ve karmaşık bir üretim sisteminin, küçük ve kolay kontrol edilebilir sistemlere dönüştürülmesi hedeflenmektedir.

Detaylı

YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM

YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM Yavaş değişen akımların analizinde kullanılacak genel denklem bir kanal kesitindeki toplam enerji yüksekliği: H = V g + h + z x e göre türevi alınırsa: dh d V = dx dx

Detaylı

Yrd. Doç. Dr. A. Burak İNNER

Yrd. Doç. Dr. A. Burak İNNER Yrd. Doç. Dr. A. Burak İNNER Kocaeli Üniversitesi Bilgisayar Mühendisliği Yapay Zeka ve Benzetim Sistemleri Ar-Ge Lab. http://yapbenzet.kocaeli.edu.tr Doğrusal Ara Değer Hesabı Lagrance Polinom İnterpolasyonu

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

MAKİNE ELEMANLARI DERS SLAYTLARI

MAKİNE ELEMANLARI DERS SLAYTLARI MAKİNE ELEMANLARI DERS SLAYTLARI TOLERANSLAR P r o f. D r. İ r f a n K A Y M A Z P r o f. D r. A k g ü n A L S A R A N A r ş. G ör. İ l y a s H A C I S A L I H O Ğ LU Tolerans Gereksinimi? Tasarım ve üretim

Detaylı

İş Zekâsı Sistemi Projesi

İş Zekâsı Sistemi Projesi BI İş Zekâsı Sistemi Projesi Ulaş Kula, Bilişim Ltd. Esinkap 5. Ar-Ge Proje Pazarı 31 Mayıs 2012 Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza

Detaylı

SİSTEM SİMÜLASYONU BENZETIM 1 SİMÜLASYON MODEL TÜRLERİ 1. STATİK VEYA DİNAMİK. Simülasyon Modelleri

SİSTEM SİMÜLASYONU BENZETIM 1 SİMÜLASYON MODEL TÜRLERİ 1. STATİK VEYA DİNAMİK. Simülasyon Modelleri SİSTEM SİMÜLASYONU SİMÜLASYON MODELİ TÜRLERİ BİR SİMÜLASYON ÇALIŞMASINDA İZLENECEK ADIMLAR ve SİMÜLASYON MODEL TÜRLERİ Simülasyon Modelleri Üç ana grupta toplanabilir; 1. Statik (Static) veya Dinamik (Dynamic),

Detaylı