VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA"

Transkript

1 T.C. PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Yüksek Lisans Tezi DENİZLİ 2005

2 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Pamukkale Üniversitesi Fen Bilimleri Enstitüsü Tarafından Kabul Edilen Elektrik-Elektronik Mühisliği Anabilim Dalı Yüksek Lisans Tezi Mustafa Seçkin DURMUŞ Tez Savunma Tarihi: DENİZLİ 2005

3

4 IV TEŞEKKÜR Yüksek lisans tez çalışmalarım süresince kıymetli zamanını ben esirgemeyen, bilgi ve tecrübesi ile her konuda bana yön gösteren, düşünce ufkumu her yönüyle genişleten ve tezimin çok daha iyi olmasını sağlayan değerli danışman hocam Yrd. Doç. Dr. Serdar İPLİKÇİ ye teşekkürlerimi sunarım. Tez çalışması süresince fikirleri ile destek olan, yardımlarını esirgemeyen Öğretim Görevlisi Önder ÇİVRİL e, Tel Aviv üniversitesinden Prof Dr. David HORN a, Ofer PASTERNAK a, California üniversitesinden Dr. Eamonn KEOGH a, Bilgisayar Mühisi Dursun GÜNDOĞAN a, değerli bölüm öğretim üyelerim ve çalışma arkadaşlarım, Remzi ARSLANALP a, Hilal Ezercan KAYIR a, Ö. Önder KARAKILINÇ a, Engin ÇETİN e, Hüsnü ŞENTÜRK e, Adem ÜKTE ye, Ahmet ÇİFTÇİ ye ve Mehmet ÜNAL a, tezimin daha da mükemmel olmasını sağlayan Yrd. Doç. Dr. Özcan MUTLU ve Yrd. Doç. Dr. Sezai TOKAT a teşekkürü bir borç bilirim. Hayatımın her alanında olduğu gibi tez çalışma sürecinin her safhasında da yanımda olan anneme, babama, kardeşime sonsuz teşekkür ederim. Ayrıca çalışma tempoma hız katan, motivasyonumu artıran kıymetlime şükranlarımı sunarım. Mustafa Seçkin DURMUŞ

5 V ÖZET Bu tezde, Veri Madenciliği metotlarından biri olan kümeleme tekniklerinden farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırma yapmak için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB simülasyon programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır. Anahtar kelimeler: Veri Madenciliği, veri kümeleme, kümeleme algoritmaları, çizge yapıları, en yakın komşu, en küçük tarama ağacı, karşılıklı komşuluk, destek vektörleri.

6 VI ABSTRACT In this study, a comparative study on performances of different data clustering algorithms which is a way of data mining method is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their urance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data depent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results. Keywords: Data mining, data clustering, clustering algorithms, graph structures, nearest neighbor, minimum spanning tree, mutual neighborhood, support vectors.

7 VII İÇİNDEKİLER Sayfa İçindekiler... VII Şekiller Dizini... XI Çizelgeler Dizini...XIV Simgeler Dizini...XV Birinci Bölüm GİRİŞ 1. GİRİŞ Literatür Özeti ve Kümelemeye Genel Bir Bakış Tez Tanıtımı...6 İkinci Bölüm TANIMLAR 2. TANIMLAR Örnek Yakınlık Matrisleri Veri Tipleri Yakınlık İfadeleri Ortak Kovaryans Matrisi Çizge Kuramı Ultrametrik Eşitsizlik Kophenetik Matris Ve Kophenetik Uzaklık Kernel Fonksiyonları...18

8 VIII 2.9 Gürültü Oranı (SNR) Kümeleme Problemi Kümeleme İşleminin Bölümleri Uzmanın Önemi Kümelerin Gösterimi...21 Üçüncü Bölüm KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI Kümeleme Yöntemleri Özel ve Özel-Olmayan Sınıflandırma Harici ve Dahili Sınıflandırma Sıradüzensel ve Paylaştırmalı Sınıflandırma Toplayıcı ve Bölücü Algoritmalar Seri ve Eşzamanlı Algoritmalar Monothetic ve Polythetic Algoritmalar Çizge Kuramı ve Matris Cebri Sert ve Bulanık Algoritmalar Artan ve Artmayan Algoritmalar Sıradüzensel Kümeleme Algoritmaları Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Toplayıcı Algoritma (Tek-Bağ Kümeleme) Toplayıcı Algoritma (Tam-Bağ Kümeleme) Çizge Kuramı Algoritmaları Matris Güncelleme Algoritmaları Johnson Algoritması Yakınlık Matrisinde Bulunan Bağlar Genelleştirilmiş Matris Güncelleme Algoritmaları...41

9 IX Drogramlarda Geçitler ve Monotonluk Paylaştırmalı Kümeleme Algoritmaları Karesel-Hata Kümeleme Metotları k-yol Algoritması Karışım-Ayırma ile Kümeleme Yoğunluk-Tahmini veya Durum-Arama Bulanık Kümeleme Yapay Sinir Ağları (YSA) ile Kümeleme Medoidler Etrafında Gruplama CLARA Algoritması CLARANS Algortiması BEA Algoritması Büyük Veri Tabanlarında Kümeleme BIRCH DBSCAN CURE Algoritması Kategorik Özellikler İle Kümeleme ROCK Algoritması...64 Dördüncü Bölüm TEZDE KULLANILAN ALGORİTMALAR 4.TEZDE KULLANILAN ALGORİTMALAR En Küçük Tarama Ağacı Algoritması Bağıl Komşuluk Değeri Ve Gabriel Çizge Algoritmaları Delaunay Üçgen Metodu En Yakın Komşu Kümeleme Algoritması Karşılıklı Komşuluk Değeri Kümeleme Algoritması Destek Vektörleri İle Kümeleme...75

10 X Beşinci Bölüm BENZETİM SONUÇLARI 5. BENZETİM SONUÇLARI Algoritma Benzetim Sonuçları En Yakın Komşu Algoritması İçin Sonuçlar En Küçük Tarama Ağacı (MST) Algoritması İçin Sonuçlar Delaunay Üçgen (DT) Algoritması İçin Sonuçlar Bağıl Komşuluk Değeri (RNG) Algoritması İçin Sonuçlar Gabriel Çizge (GG) Algoritması İçin Sonuçlar Karşılıklı Komşuluk Değeri (MNV) Algoritması İçin Sonuçlar Destek Vektörleri (SVC)Algoritması İçin Sonuçlar...94 Altıncı Bölüm SONUÇLAR VE YORUMLAR 6 SONUÇLAR VE YORUMLAR...96 Kaynaklar Ekler Özgeçmiş...119

11 XI ŞEKİLLER DİZİNİ Şekil 1.1: Veri Madenciliği...2 Şekil 1.2 Verilerin Kümelere Ayrılması...3 Şekil 2.1: Veri Tipleri...9 Şekil 2.2: Minkowski Ölçekleri...10 Şekil 2.3: Çizge Tanımlamaları...13 Şekil 2.4: Alt Çizgeler...14 Şekil 2.5: Çizgelerin Özellikleri...15 Şekil 2.6 Ağaçlar...16 Şekil 2.7: Kümeleme Adımları...19 Şekil 2.8: Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar (outlier) ile Gösterim)...21 Şekil 2.9: Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi...22 Şekil 2.10: Saçılmış Veriler...23 Şekil 2.11: Kümelere Ayrılmış Veriler...23 Şekil 3.1: Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri...24 Şekil 3.2: Monothetic Paylaştırmalı Kümeleme...27 Şekil 3.3: Noktaların Farklı Kümelere Ayrılması...29 Şekil 3.4: Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram...29 Şekil 3.5: Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)...30 Şekil 3.6: Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *)...31 Şekil 3.7: Eşmerkezli İki Küme...31 Şekil 3.8: İkili İlişkiler ve Başlangıç Grafiği...32 Şekil 3.9: Eşik Çizgeleri ve Sıradüzensel Kümeleme İçin Drogramlar...34 Şekil 3.10: MST Prensibine Göre, Tek-Bağ Kümeleme Metodu İçin Toplayıcı ve Bölücü Algoritmaların Uygulanması...36 Şekil 3.11: Tek-Bağ ve Tam-Bağ Metotları İçin Matris Güncelleme Algoritmasının Kullanımı...38

12 XII Şekil 3.12: Yakınlık Matrisinde Bulunan Bağların Tek-Hat ve Tam-Hat Kümeleme Üzerindeki Etkisi, (a) Eşik Çizgeleri, (b) Yakınlık Drogramları, (c) Değiştirilmiş Yakınlık Matrisi ve Drogramlar...40 Şekil 3.13: Matris Güncelleme Algoritmaları İçin Oluşturulan Drogramlar...45 Şekil 3.14: Drogramlarda Bulunan Geçitler...48 Şekil 3.15: Karesel-Hatanın Hesaplanmasında Kullanılan Uzaklıklar...52 Şekil 3.16: k-yol Algoritması ile Oluşturulan Kümeler...53 Şekil 3.17 (a): İyi Ayrılmış Kümeler, (b) İç içe Geçmiş Kümeler...57 Şekil 3.18 (a): Saçılmış Noktalar...58 Şekil 3.18 (b): Amaç Fonksiyonunun Grafiği...59 Şekil 3.18 (c): Bulanık Kümelere Ayrılmış Noktalar...59 Şekil 4.1: MST ile Kümelerin Oluşturulması...67 Şekil 4.2: RNG ve GG için Etki Bölgeleri...68 Şekil 4.3: Dirichlet Mozaiği (Voronoi Diyagramı)...69 Şekil 4.4: Kümelenecek Olan Veri Noktaları...70 Şekil 4.5: MST...71 Şekil 4.6: RNG...71 Şekil 4.7: GG...72 Şekil 4.8: DT...72 Şekil 4.9: Saçılmış Durumda Bulunan Veriler...79 Şekil 4.10 (a): q = 0.3 İçin Destek Vektörleri...79 Şekil 4.10 (b): q = 3 İçin Destek Vektörleri...80 Şekil 4.10 (c): q =10 İçin Destek Vektörleri...80 Şekil 4.11 (a): q = 0.3 Kümelere Ayrılmış Veriler (4 küme)...81 Şekil 4.11 (b): q = 3 Kümelere Ayrılmış Veriler (7 küme)...81 Şekil 4.11 (c): q =10 Kümelere Ayrılmış Veriler (10 küme)...82 Şekil 5.1: İris Setosa...84 Şekil 5.2: İris Versicolor...85 Şekil 5.3: İris Virginica...85 Şekil 5.4: Avustralya Kaya Yengeci...85 Şekil 5.5: Iris Veri Seti...86 Şekil 5.6: Avustralya Kaya Yengeci Veri Seti...87

13 XIII Şekil 5.7: Rasgele Oluşturulmuş Veriler...87 Şekil 6.1 Iris Veri Seti İçin FLOP Sayıları...97 Şekil 6.2 Crab Veri Seti İçin FLOP Sayıları...98 Şekil 6.3 Data Veri Seti İçin FLOP Sayıları...99 Şekil 6.4 Data Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.5 Iris Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.6 Crab Veri Seti İçin Küme Sayılarının Değişimi...102

14 XIV ÇİZELGELER DİZİNİ Çizelge 3.1 SAHN Matris Güncelleme Algoritması İçin Farklı Parametre Değerleri...43 Çizelge 3.2 Kümeleme Algoritmalarının Karşılaştırılması...65 Çizelge 5.1 En Yakın Komşu Algoritması İçin Sonuçlar...89 Çizelge 5.2 En Küçük Tarama Ağacı Algoritması İçin Sonuçlar...90 Çizelge 5.3 Delaunay Üçgen Metodu İçin Sonuçlar...91 Çizelge 5.4 Bağıl Komşuluk Değeri Metodu İçin Sonuçlar...92 Çizelge 5.5 Gabriel Çizge Algoritması İçin Sonuçlar...93 Çizelge 5.6 Karşılıklı Komşuluk Değeri Algoritması İçin Sonuçlar...94 Çizelge 5.7 Destek Vektörleri Algoritması İçin Sonuçlar...95

15 XV SİMGELER DİZİNİ x x X Skaler gösterimi Vektör gösterimi Matris gösterimi D ( i, j) Yakınlık matrisi ( i, j) d x x İki nokta arasındaki uzaklık C G q K ( xi, x j) Kovaryans matrisi Çizge gösterimi Gaussian kernel fonksiyonunun genişlik değeri Kernel fonksiyonu 2 Öklit uzaklığı Φ L ξ i Noktaları daha büyük boyutlu uzaya taşımak için kullanılan dönüşüm Lagrange ifadesi Gevşek değişkenler µ, β Lagrange katsayıları i W 2 σ v i Lagrange ifadesinin ikincil durumu Veri setlerinin bileşenlerinin değişkesi 2 σ η Veri setlerinin bileşenlerine eklenen gürültünün değişkesi

16 BİRİNCİ BÖLÜM GİRİŞ 1. GİRİŞ Günümüzde firmaların veri tabanı boyutları terabaytlar cinsinden ifade edilmektedir. İstenilen ise bu büyük veri tabanından amaç doğrultusunda bilginin elde edilmesidir. Bilgi ise herhangi bir amaca yönelik veri olarak tanımlanmaktadır. Veriyi bilgiye çevirme işine de Veri Analizi denilmektedir. Bilgi kelimesi aynı zamanda herhangi bir soruya yanıt verebilmek için veriden çıkarılan sonuç olarak da tanımlanmaktadır. Tüm bu açıklamalar doğrultusunda Veri Madenciliği, büyük miktarda veri içerisinden, önceden bilinmeyen fakat potansiyel olarak kullanışlı bilginin bilgisayar programları kullanılarak aranmasıdır şeklinde tanımlanabilir. Veri madenciliği de kümeleme, veri özetleme, sınıflandırma, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımın kullanılmasıyla gerçekleştirilmektedir. Veri madenciliğinde verinin önemi (ne kadar çok örnek toplanırsa o kadar iyi sonuçlar elde edilmektedir), uzmanın önemi (algoritma seçiminde ve elde edilen sonuçların değerlirilmesinde önemli rol oynamaktadır) ve sabrın önemi (çok büyük ver tabanları ile işlem yapıldığından dolayı sonuçlara ulaşmak için zamana ihtiyaç duyulmaktadır) kavramları dikkat edilmesi gereken üç önemli husustur. Şekil 1.1 de veri madenciliği kavramında izlenmesi gereken yol görülmektedir. Veriler hazır olarak veri ambarlarından alınabileceği gibi dış veri kaynaklarından da alınabilmektedir. Fakat dışarıdan alınan veriler doğrudan modelin kurulması amacıyla kullanılamamaktadır. Bu nedenle modelde kullanılmak üzere hazırlanmaktadırlar. Model kurulduktan sonra farklı kriterlere göre incelemeler yapılıp önceden tanımlanmış probleme bu kurulan model uygulanmaktadır.

17 2 VERİ KAYNAKLARI Eski Saklama Ortamından Toplanan Veriler Fonksiyonel Departman Verileri ERP Sistem Verileri Diğer Veri Hareketleri Dış Kaynaklı Veriler TOPLAMA BİRLEŞTİRME ve TEMİZLEME DEĞER BİÇME SEÇİM DÖNÜŞTÜRME VERİLERİN HAZIRLANMASI SINIFLANDIRMA REGRESYON KÜMELEME BİRLİKTELİK ARDIŞIKLIK MODELİN KURULMASI VERİ AMBARI BASİT GEÇERLİLİK ÇAPRAZ GEÇERLİLİK N-KATLI GEÇELİLİK BOOTSTRAPPING KALDIRAÇ (LIFT) ROI PROBLEMİN TANIMLANMASI MODELİN DEĞERLENDİRİLMESİ Şekil 1.1 Veri Madenciliği Kümeleme, bir çeşit sınıflandırmadır (Jain ve Dubes, 1988). Diğer bir ifadeyle, önceden elde edilmiş nesnelerin (öznitelik vektörleri, gözlemler veya veri öğeleri), farklı gruplara (kümelere), herhangi bir öğretici olmadan (Öğreticisiz Öğrenme) sınıflandırılmasıdır. Oluşturulmuş herhangi bir kümede bulunan nesneler, farklı kümelerde bulunan nesnelere göre birbirlerine daha fazla benzemektedir. Nesneler arasındaki ilişkiler, satır ve sütunları nesnelerden oluşan yakınlık matrisi ile ifade edilmektedir. Bu nesneler örnek (pattern) olarak tanımlanmış ise, aralarında bulunan yakınlık, uzaklıklar şeklinde ifade edilebilmektedir (Öklit Uzaklığı-Euclidean Distance gibi). Nesneler arasında herhangi bir uzaklık ölçümü yapılamıyorsa veya yakınlık değerleri bulunamıyorsa, kümelirme yapılması imkansız olmaktadır. Küme Analizi (Clustering Analysis) örneklerin (örnekler genellikle çok boyutlu uzayda bulunan noktalar veya bir ölçüm sonunda elde edilen noktalar şeklinde ifade edilmektedir),

18 3 birbirlerine olan benzerlikleri göz önünde bulundurularak, bir araya toplanması olarak tanımlanmaktadır (Jain ve diğerleri, 1999). Kümelirme ve Diskriminant Analiz birbirine karıştırılmamalıdır. Diskriminant Analiz yapılırken, önceden sınıflandırılmış örnekler ile işlem yapılmaktadır. Amaç, yeni karşılaşılan ve önceden sınıflandırılmamış örneklerin sınıflandırılmaya dahil edilmesidir. Özetle, önceden sınıflandırılmış örnekleri kullanarak yeni örneklerin bu sınıflardan herhangi birine dahil edilmesi işlemidir. Kümelirme ise, verilen örneklerin ön sınıflandırma yapılmadan Şekil 1.2 deki gibi anlamlı kümelere ayrılmasıdır, burada doğrudan veriler üzerinde işlem yapılmaktadır. Şekil 1.2 Verilerin Kümelere Ayrılması 1.1 Literatür Özeti ve Kümelemeye Genel Bir Bakış İlk olarak 70 li yılların başında, verimliliği arttırmak amacı ile çalışmalara başlanmıştır. İlerleyen zamanlarda veri madenciliği ve kümeleme üzerine yazılan ilk kitaplardan biri olan fakat tek bir yaklaşımın kullanıldığı bir kitap yazılmıştır Cluster Analysis (Tryon&Bailey, 1970). Buna ek olarak, daha çok kümeleme işleminin matematik kısmının inceliği Mathematical Taxonomy (Jardine&Sibson, 1971), veri madenciliği ve kümeleme üzerine yazılmış olan en kapsamlı kitap Cluster Analysis for Applications (Anderberg, 1973), sıradüzensel kümelemenin anlatıldığı bir çalışma, Numerical Taxonomy (Sneath&Sokal, 1973), değişik projelerin toplandığı

19 4 bir kitap olan, Clustering Algorithms (Hartigan-1975), Algorithms for Clustering Data (Jain&Dubes, 1988) geniş kapsamlı bir kitap ve 1990 dan itibaren konu ile ilgili olarak çok farklı uygulamalar ve kitaplar ortaya konulmuştur. Farklı uygulamalarda kullanılabilen çok çeşitli kümeleme algoritmaları bulunmaktadır. Literatürde birçok yeni kümeleme algoritmaları ortaya çıkmaya devam etmektedir. Genel olarak bu algoritmalar iki başlıkta toplanmaktadır: Geleneksel Algoritmalar ve Yeni Nesil Algoritmalardır. Geleneksel algoritmalar da Sıradüzensel ve Paylaştırmalı algoritmalar şeklinde iki alt gruba ayrılmaktadır. Sıradüzensel algoritmalar, veriyi iç içe sıralı diziler haline getirmektedir ve bu sıralı diziler drogramlar (sıradüzensel yapıyı gösteren çizimler) ile gösterilmektedir. Bu gösterimden kümeleri elde edebilmek için örnekler arasında bulunan yakınlık değerlerine göre bir eşik değeri (threshold) seçilmeli ve drogramlar bu seçilen eşik değerlerine göre kesilerek, kümeler belirlenmelidir. Farklı toplayıcı sıradüzensel algoritmalar, örnek ve küme arasında veya iki küme arasında bulunan yakınlık değerlerinin tanımlanmasına göre birbirlerinden farklılık göstermektedirler. Paylaştırmalı algoritmalarda ise küme içi dağılımı en aza indiren veya kümeler arası dağılımı en yüksek değere çıkaran paylaşımlar elde edilmektedir. Genel en uygun bir sonuç elde edebilmeyi garantilemek için, uygun olmayan olası tüm paylaşımlar tespit edilmelidir. Sıradüzensel yöntemler, biyolojik, sosyal ve davranışsal bilim dallarında yaygın olarak kullanılmaktadır. Paylaştırmalı yöntemler ise, daha çok mühislik alanlarında kullanılmaktadır (En Küçük Tarama Ağacı (Minimum Spanning Tree), Karesel-Hata Metodu (Squared Error Method), K-Yol algoritması (K Means), En Yakın Komşu Algoritması (Nearest Neighbor), PAM, CLARANS, Genetik Algoritmalar, Yapay Sinir Ağları, v.b.). Yeni nesil algoritmalarda veritabanı, boyutundan bağımsız olarak sıkıştırılabilen veya budanabilen veri belleğine yerleştirilir. Geniş veritabanlarında kümeleme yapmak için bazı ölçütler belirlenmiştir. Bunlar, veritabanının bir kez veya daha az taranması, çevrimiçi çalışabilme özelliği, askıya alınabilme, durdurulabilme ve geri dönülebilir

20 5 olma özellikleri, veri ekleme veya çıkarma sonucunda güncelleme imkanı, kısıtlı bellek ile çalışabilme, tarama sırasında farklı teknikler kullanabilme ve bir kaydın sadece bir kez işlenmesi şeklindedir (BIRCH, DBSCAN, CURE, ROCK, v.b.). Mevcut verileri kümelere ayıracak tek bir algoritma bulunmamaktadır bu nedenle çeşitli algoritmalar denenmelidir. Küme analizi keşifsel veri analizinde kullanılan araçlardan sadece bir tanesidir. Verilerin toplanması ve sunulması, kümeleme sonuçlarının değerlirilmesi ve bulunan kümelerin tanımlanması en az kümeleme stratejisinin seçimi kadar önemlidir. Uygulama alanlarına kısaca değinecek olursak, pazar bölümlerinin ayrılması, müşteri değerlirme ve çapraz satış analizleri (pazarlama), risk analizleri, usulsüzlüklerin tespiti, müşteri kazanma ve mevcut müşterileri elde tutma analizleri (bankacılık, daha çok veri madenciliğinin bir alt koludur), ana giderlerin azaltılması, poliçe fiyatlarının belirlenmesi (sigortacılık), satış noktası veri analizleri, alış-veriş sepeti analizleri (perakecilik), hisse senedi fiyat tahmini, genel piyasa analizleri, en iyi alım-satım stratejilerinin belirlenmesi (borsa), hatların yoğunluk tahminleri (haberleşme), test sonuçlarının tahmini, ürün geliştirme, ilaçlarda kullanılan maddelerin sınıflandırılması (ilaç sanayi), tıbbi teşhis, uygun tedavi sürecinin belirlenmesi (sağlık), kalite kontrol, lojistik, üretim süreçlerinin en iyileştirilmesi (üstri) gözlemsel veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi, çeşitli tahminler ve sınıflandırma problemlerinin ayrıştırılarak çözümlenmesi (bilim ve mühislik) şeklinde sıralamak mümkündür (Hartigan, 1975). Kümeleme çeşitli keşifsel örnek analizlerinde (Exploratory Data Analysis) de kullanılmaktadır. Bunlar, veri madenciliği, dokümanların tekrar kazanılması, örnek sınıflandırma ve görüntülerin parçalara ayrılması konularının da içinde bulunduğu, gruplama, makine öğrenmesi ve karar verme sistemleridir. Her araştırma sahasının kine özgü terimleri, metotları ve algoritmaları bulunmaktadır.

21 6 1.2 Tez Tanıtımı Bölüm 2 de kümeleme işlemlerinde dikkat edilmesi gereken hususlar, sıkça kullanılan tanımlamalar ve karşılıkları bulunmaktadır. Bölüm 3 te literatürde bulunan kümeleme algoritmaları anlatılmaktadır. Bölüm 4 te tezde kullanılan kümeleme algoritmaları tanımlanmaktadır. Bölüm 5 te kullanılan veri setleri ve simülasyon sonuçları bulunmaktadır. Son olarak, Bölüm 6 da elde edilen sonuçlar, değerlirmeler ve bir önceki bölümde elde edilen simülasyon sonuçlarına ilişkin yorumlar bulunmaktadır.

22 İKİNCİ BÖLÜM TANIMLAR 2. TANIMLAR 2.1 Örnek Örnek (Pattern), kümeleme algoritması tarafından kullanılan veri öğeleridir ve genellikle yapılan ölçümlerin sonuçlarını içermektedir. Örnek vektörünün her bir sayısal elemanı da (x i ), yani verilerin uzaklık bileşenleri, öznitelik (attribute) olarak tanımlanmaktadır. x i x1 x = 2 M xd, ( i = 1, 2,..., n ) (2.1) kümesi, Buradaki d örnek uzayının boyutunu, n örnek sayısını ifade etmektedir. Örnek [ L ] x x L x x x L x n n2 = 1 2 n = M M O M X x x x X x x L x 1d 2d nd (2.2) ile gösterilmektedir. Örnek dizisi n x d örnek matrisi (pattern matrix) olarak da ifade edilebilmektedir. Bu matrisin her satırı örnekleri ve her sütunu da öznitelikleri veya ölçümleri ifade etmektedir. Kullanılan veriler buna benzer olarak tanımlanmıştır fakat ayrı ayrı öznitelikler şeklinde tanımlanmamıştır (Jain ve Dubes, 1988).

23 8 2.2 Yakınlık Matrisleri Kümeleme metotları veri çiftleri arasındaki yakınlıkları, benzerlikleri veya ilişkileri oluşturulabilmek için bir göstergeye ihtiyaç duymaktadır. Yakınlık Matrisi (Proximity Matrix), D ( i, j), ile ifade edilen, satır ve sütunlarında örnek numaralarının bulunduğu ve köşegen üzerinde bulunan tüm değerlerin sıfır olduğu simetrik bir matristir. Tüm yakınlık matrisleri simetriktir. Yakınlık değeri ne kadar büyük olursa o değere karşılık gelen satır ve sütunda bulunan örneklerin birbirlerine olan benzerlikleri de büyük olmaktadır (Jain ve diğerleri, 1999). d11 d12 L d1 m 0 d12 L d1 m d21 d22 d 2m d21 0 d 2 ( i, j) L L m D = = M M O M M M O M dn1 dn2 L dnm dn1 dn2 L 0 (2.3) 2.3 Veri Tipleri Elde bulunan mevcut verinin tipi (Data Type) ve değişim aralığı kümeleme algoritmasının belirlenmesinde kullanılmaktadır. Veri tipi ile belirtilmek istenen veri miktarının derecesidir. Öznitelik, ikili (binary), ayrık (discrete) veya sürekli (continuous) şekilde tanımlanabilir. İkili öznitelikler evet-hayır sorularında olduğu gibi iki değere sahiptir. Ayrık veriler genellikle küçük ve sonlu değerlerdir. Sürekli veriler ise belirli sınırlar dahilinde gerçek değerlere sahiptirler. Yakınlık matrislerinde bulunan değerler, Şekil 2.1 de de görüldüğü gibi, yakınlık matrisinde bulunan değerler yukarıda tanımlanan üç farklı tipte de olabilmektedir. İkinci bir özellik ise verilerin sayıların karşılıklı ilişkilerini gösterecek şekilde ölçeklenmesidir. Veriler nitel (qualitative) ve nicel (quantitative) olmak üzere iki şekilde ölçeklenmektedir. Nitel özellikler bir sıra (ordinal) veya sayı (nominal) değeri gösterirken, nicel ifadeler ise bir aralık değeri (interval) veya bir oran (ratio) ifade etmektedir.

24 9 Örneğin evet-hayır sorusu (0-1) veya (50-100) şeklinde ifade edilebilmektedir (nominal ölçekleme). Sayıların kileri anlamsızdır. Sıraya göre ölçekleme de ise sayılar arasındaki ilişkilere dikkat edilir (1-2-3 veya veya gibi). Aralık değerleri ile ölçekleme yapılırken istenilen aralık değerleri veriler üzerine uygulanır mesela 100 kişilik bir gruptaki insanlara boylarına göre arası puan verilmesi bu tip ölçeklemeye örnektir. En çok kullanılan ölçekleme tipi oransal ölçeklemedir, bu tip ölçeklemede sayılar tam değerlere sahiptir. Mesela iki şehir arasında bulunan mesafe metre, mil ve inç cinsinden ayrı ayrı ölçülebilmektedir, bu iki şehrin birinden diğerine araba ile giden bir insana göre gittiği yol değişmemektedir, benzer şekilde bir insanın gelirinin iki katına çıkarılması hangi para birimi kullanılırsa kullanılsın satın alma gücünü iki katına çıkaracaktır. Veri tipinin belirlenmesi, yakınlık matrisinin oluşturulmasında ve küme analizi sonuçlarının gösterilmesinde önemli rol oynamaktadır. İnsanlar ikili, nitel verileri üretmede iyi iken aygıtlar sürekli nicel verilere ihtiyaç duymaktadır. Verinin güvenilirliği veri tipine ve ölçeklenmesine bağlıdır (Jain ve Dubes, 1988). VERİ SUNUMU Örnek Matrisi Yakınlık Matrisi Tip İkili Ayrık Sürekli Tip Benzerlik Farklılık Ölçekleme Ölçekleme Nicel Nitel Nicel Nitel Sayı Sıra Aralık Oran Sıra Aralık Oran Şekil 2.1 Veri Tipleri

25 Yakınlık İfadeleri Bu bölümde çok kullanılan yakınlık ifadelerine yer verilmektedir. örnekler arasında bulunan yakınlık değeri şartları sağlamalıdır: dik (, ) i. ve k. ile gösterilmektedir ve aşağıdaki (i) Tüm i değerleri için, dii (,) = 0 (ii) Tüm (, ik ) değerleri için, dik (, ) = dki (,) (iii) Tüm (, ik ) değerleri için, dik (, ) 0 olmalıdır. Yakınlık değerleri çeşitli şekillerde ifade edilmektedir. En çok kullanılan yakınlık değerleri aşağıda gösterilmektedir. Bunlara Minkowski Ölçütleri (Minkowski Metrics) de denilmektedir (Şekil 2.2). Tüm Minkowski Ölçütleri yukarıda bulunan üç şarta ek olarak aşağıdaki iki şartı da sağlamalıdır: (iv) Sadece xi = xk durumunda dik (, ) = 0olur. (v) Tüm i,k ve m değerleri için, dik (, ) dim (, ) + dmk (, ) x 12 x 1 d d ÖKLİT MANHATTAN ( x, x ) = = ( x, x ) = = d SUP ( x, x ) 1 2 = max(4, 2) = 4 x 22 x 2 2 x x Şekil 2.2 Minkowski Ölçekleri

26 11 Minkowski ölçütlerinin genel hali (2.5) de görülmektedir: 1/ r d r dik (, ) = xij xkj ; r 1 (2.4) j= 1 Denklem 2.5 de r = 2 ( ile de gösterilmektedir ): seçilirse, Öklit Uzaklığı (Euclidean Distance) elde edilir d dik (, ) = x x = j= 1 1/2 2 T ij kj ( xi xk) ( xi x k) (2.5) Denklem 2.5 de r = 1 seçilirse, Manhattan Uzaklığı elde edilir: d dik (, ) = xij xkj (2.6) j= 1 Denklem 2.5 de r = seçilirse, Supremium Uzaklığı (Sup distance) elde edilir: dik (, ) = maxx ij x kj (2.7) 1 j d Bunlar arasında en sık kullanılan uzaklık ölçümü öklit uzaklık ölçümüdür. Eğer tüm uzaklık değerleri ikili (binary) ise Manhattan Uzaklığı na Hamming Uzaklığı denilmektedir. Mahalanobis Uzaklığı ise kullanılan ortak kovaryans matrisi (covariance matrix) nin kullanılmasıyla öklit uzaklığından farklılık göstermektedir ve aşağıdaki gibi hesaplanır: T -1 ( ) ( ) dik (, ) = x x C x x (2.8) i k i k Bu tanımlanan uzaklık yöntemleri dışında daha pek çok uzaklık ölçüm yöntemi bulunmaktadır (http://mathworld.wolfram.com).

27 Ortak Kovaryans Matrisi Herhangi bir M matrisinin kovaryans matrisi (Covariance Matrix) aşağıdaki formül ile elde edilmektedir. Aşağıdaki ifadede bulunan x vektörü ortalama değerlerin bulunduğu vektördür ve her sütunun (örneğin) ortalama değerini içermektedir (http://planetmath.org). n 1 = T C ( M i x)( Mi x) n 1 i= 1 (2.9) M = (2.10) [ ] x = (2.11) C = (2.12) 2.5 Çizge Kuramı Çizge (Graph), kümeleme işlemlerinde çok farklı uygulama alanlarına sahip matematiksel bir yapıdır. Bu bölümde kısaca bu tanımlamalar incelenmiştir. Bir çizge G ile gösterilmektedir (Şekil 2.3). G çizgesi, düğümlerden ( V ), kenarlardan ( E ) ve bunların birbirleri ile olan ilişkilerini gösteren bir fonksiyondan ( f ) oluşmaktadır ve G=<V',E',f'> ile gösterilmektedir. Kümeleme işlemlerinde kullanılan çizgilerin öz çevrimlere sahip olmadıkları kabul edilmektedir. Ayrıca kenarların yönleri önemli olmadığından dolayı yönsüz (undirected) çizgeler olarak da nitelirilmektedirler.

28 13 Kümeleme işlemlerinde kenarlar iki düğüm (örnek nokta) arasında bulunan uzaklık değerini ifade etmektedir. Alt çizge, asıl çizgeden elde edilmektedir ve G =<V',E',f'> ile ifade edilmektedir. Bir alt çizge asıl çizgenin tüm noktalarını içermelidir. Şekil 2.4 de alt çizge olan (b, d, e) ve olmayan (c) çizgeler verilmektedir. Diğer çizgenin alt çizge olmamasının sebebi asıl çizgede olmayan bir kenar içermesidir. Yine bu alt çizge tanımına benzer olarak yol ifadesi tanımlanmıştır. Yol ise, yine bir alt çizgedir fakat bu alt çizgede öz çevrim ve tekrarlanan kenar bulunmamaktadır (Şekil 2.5). Her yol bir alt çizgedir fakat her alt çizge bir yol değildir. Bir çizgede bulunan herhangi iki düğüm arasında bir yol bulunuyorsa bağlı (connected) ifadesi kullanılmaktadır. Bileşen (component) ise bağlı çizgenin azami (maximal) parçasıdır. Eğer bir kenar tüm düğümlere bağlı ise tam (complete) çizge olarak adlandırılmaktadır. kenar içermektedir. n düğüme sahip bir tam çizge nn ( 1)/2 Şekil 2.3 Çizge Tanımlamaları

29 14 5 Düğümlü ve 6 Kenarlı bir Çizge v 1 e 1 v 2 e 2 e 3 v 5 e 4 e 5 e 6 v 3 v 4 f(e 4 ) = (v 4,v 2 ) a v 1 v 2 e 1 v 1 e 1 v 2 v 5 e 3 v 5 e 4 e 6 e 6 v 4 Bağlı Alt Çizge b v 3 v 4 İki Bileşenli Alt Çizge d v 2 v 1 v 1 v 2 e 2 v 5 v 5 v 3 v 4 v 3 v 4 Üç Bileşenli Alt Çizge e 5 Alt Çizge Değil c Şekil 2.4 Alt Çizgeler e

30 15 v 1 v 2 v 5 Referans Çizge v 3 v 4 a v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Yol Belirten Alt Çizgeler b v 3 v 4 e v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Referans Çizgede Bir Yol Belirtmemektedir c v 3 v 4 Yol Değildir (Tekrarlanan Kenar Bulunmaktadır) f v 1 v 2 v 1 v 2 v 1 v 2 v 5 v 5 v 5 v 3 v 4 v 3 v 4 Referans Çizgede Birer Tane Döngü Belirtmektedir d v 3 v 4 Referans Çizgede Bir Döngü Belirtmemektedir g Şekil 2.5 Çizgelerin Özellikleri Döngü (cycle) tanımı ise yol tanımına benzemektedir fakat burada başlangıç düğümü ile bitiş düğümü aynıdır. Ağaç, çizge kuramında döngü içermeyen bağlı grafiklere

31 v 4 a 16 verilen isimdir. Eğer bir alt çizge m tane düğüme sahip ise, oluşturulan ağacın tam olarak m 1 tane kenarı bulunmaktadır. Tarama Ağacı (spanning tree), çizgede bulunan tüm düğümleri kapsayan ağaçtır. Çizgede bulunan kenarlara birer uzaklık (ağırlık) değeri verilirse, ağacın ağırlığı (uzunluklar toplamı) kenarlara verilen uzaklık değerlerinin toplanması ile elde edilmektedir. En Küçük Tarama Ağacı (minimum spanning tree - mst), çizgeden faydalanılarak oluşturulabilen ağaçlar arasında ağırlıklar toplamı en küçük olan ağaçtır. v 1 v 2 a v 5 Referans Çizge v 3 v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 b Farklı Ağaçlar v 3 v 4 d v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 c Ağaç Olmayan Alt Çizgeler v 3 v 4 e Şekil 2.6 Ağaçlar Şekil 2.6 da farklı ağaç yapıları görülmektedir (Zahn C. T., 1970, Jain ve Dubes, 1988,

32 Ultrametrik Eşitsizlik Üçgen eşitsizliğinin farklı bir uyarlaması olan aşağıdaki eşitsizliği tüm x, y, z değerleri için sağlayan uzunluk ölçütüne ultrametrik denilmektedir (http://mathworld.wolfram.com). ( ) (, ) max (, ), (, ) d x z d x y d y z (2.13) ( ) ) d y z) ( d x, z, d( x, y ve (, çiftlerinden en az ikisi aynı olmalıdır). 2.7 Kophenetik Matris Ve Kophenetik Uzaklık Kophenetik mesafe (cophenetic distance, d C ) denklem 2.13 de tanımlanan ultrametrik eşitsizliği sağlayan yakınlık değerleridir. Yani x i ve x j elemanlarının ilk olarak aynı kümeye yerleştirilme seviyelerini ifade etmektedir ( d i, j L k ). Kophenetik matris (cophenetic matrix) ise bu yakınlık değerlerinden oluşan matrise verilen isimdir. Aşağıda sırasıyla verilen yakınlık matrisi için önce tek-bağ (single-lik) daha sonra tam-bağ (complete-link) algoritmalarına göre elde edilmiş kophenetik matrisler görülmektedir. C ( ) = ( ij) x1 x 2 D = x3 x D Cs 4 x1 x 2 = x3 x 4 x x x x x x x x (2.14) (2.15)

33 18 D Cc x1 x 2 = x3 x 4 x x x x (2.16) Tek-hat ve tam-hat algoritmalarının her ikisi de bu oluşturulan matrisler için aynı drogramlara sahiptirler. Tam-hat yapıya sahiptir (http://planetmath.org). D Cc matrisi mükemmel bir sıradüzensel 2.8 Kernel Fonksiyonları 4. bölüm de anlatılan Destek Vektör Makineleri ile kümeleme yönteminde, veri setinde bulunan noktalar önce daha büyük boyutlu bir uzaya taşınmakta ve bu uzayda kümeleme işlemleri yapılmaktadır. Bu işlemler sırasında iç çarpımların hesabına ihtiyaç duyulmaktadır. Bu nedenle, iç çarpımları daha basit hale getirebilmek amacıyla kernel fonksiyonlarından yararlanılmaktadır. (, ) ( ) ( ) K xz = Φ x Φ z (2.17) Φ( x) ifadesi, x noktalarını daha büyük boyutlu uzaya taşımak için kullanılan dönüşümü ifade etmektedir. Kernel fonksiyonu simetrik olmalıdır. Bu şartı sağlayan kernel fonksiyonlarına literatürde Mercer Kernel Fonksiyonları da denilmektedir. Tüm bu koşulları sağlayan kernel fonksiyonları ile yeni kernel fonksiyonları da türetilebilmektedir (Cristianini ve Taylor, 2003). Bu tezde 2.18 de verilen Gaussian (RBF) kernel fonksiyonu kullanılmıştır. 2 q i j K e x x ( i, j) x x = (2.18)

34 Gürültü Oranı (SNR) Veri setlerine eklenecek olan gürültü oranını ifade etmektedir ve denklem 2.19 daki ifade ile belirlenir: 2 σ v SNR = 10log (2.19) 10 2 ση Bu ifadede, 2 σ v veri setlerinin bileşenlerinin, 2 σ η ise eklenen gürültünün değişkesidir (variance) Kümeleme Problemi Kümeleme İşleminin Bölümleri Klasik bir örnek kümeleme işleminde takip edilmesi gereken adımlar şunlardır: 1) Örneklerin sunulması, 2) Örneklerin uzaklık ölçümlerinin veri tabanına uygun olarak tanımlanması, 3) Kümeleme veya gruplama, 4) Veri ayıklama (gerekli olduğu durumlarda yapılmaktadır), 5) Çıkışın değerlirilmesi (gerekli olduğu durumlarda yapılmaktadır). Yukarıda bulunan ilk üç adım Şekil 2.7 de görülmektedir. Geri besleme, kümeleme sonucunda elde edilen çıkışın, örnek uzaklık ölçümlerine ve özniteliklerin çıkarılmasına etki etmektedir. Örnekler Öznitelik Seçimi\Çıkarımı Örnek Sunumları Örnek Benzerliği Gruplama Kümeler Geri Besleme Çevrimi Şekil 2.7 Kümeleme Adımları

35 20 Örnek Sunumu, özniteliklerin sayısına, tipine ve kullanılabilecek örnek sayısı ile ilgilidir. Bu bilgilerden bazıları kullanıcı tarafından kontrol edilememektedir. Öznitelik Seçimi, kümelemede kullanılacak olan özniteliklerden oluşan en etkili alt kümenin belirlenmesi işlemidir. Öznitelik Çıkarımı, yeni öznitelikler oluşturabilmek amacı ile giriş özniteliklerinin bir veya daha fazla dönüşümlerinin kullanılmasıdır. Bu iki teknik, kümeleme işlemlerinde en uygun özniteliklerin ortaya çıkarılmasını sağlamaktadır. Örnek Yakınlıkları, örnek çiftlerine göre tanımlanmış bir uzaklık fonksiyonu ile belirlenmektedir. Bunlar arasında en yaygın olarak kullanılan uzaklık fonksiyonu Öklit fonksiyonudur. Gruplandırma, birkaç farklı yöntem ile yapılabilmektedir. Çıkış kümelirmeleri zor (verilerin gruplara ayrılması) veya bulanık (her bir verinin farklı kümelerde değişken üyelik derecesine sahip olması) olabilir. Sıradüzensel (Hierarchical) kümeleme algoritmaları sıralı bölümler serisinden meydana gelmektedir. Paylaştırmalı (Partitional) kümeleme algoritmaları ise herhangi bir kümeleme kriterini en iyi hale getiren bölümler belirlenmektedir. Bunlar dışında, olasılıksal, çizge tabanlı kümeleme algoritmaları da bulunmaktadır. İlerleyen bölümlerde bu konu daha detaylı biçimde incelenecektir. Veri Çıkarımı, veri setinin basit ve öz gösteriminin çıkarılması işlemidir (Jain ve diğerleri, 1999) Uzmanın Önemi Literatürde çok fazla kümeleme algoritması bulunduğundan dolayı, elde bulunan problemin çözümü için gerekli olan algoritmanın seçimi çok zor olmaktadır. Bu sorunu ortadan kaldırmak amacı ile algoritmaları birbirleriyle karşılaştırmada kullanılan çeşitli kriterler belirlenmiştir. Bu kriterler, (i) Kümeleri oluşturma tarzı, (ii) Verilerin yapısı (iii) Kümeleme tekniğinin verilerin yapısı üzerinde herhangi bir etkisi olmayan

36 21 değişiklikler karşısındaki hassasiyeti şeklindedir. Farklı yapılardaki veri setlerine uygulanabilecek tek bir kümeleme algoritması bulunmamaktadır. Bunun nedeni algoritmaların kümeleme yaparken izledikleri kriterlerden kaynaklanmaktadır (uzaklık ölçümleri, gruplandırma teknikleri gibi). Herhangi bir kümeleme tekniği kullanılırken, tekniğin işletilmesi dışında, verilerin elde edilme yöntemi ve uzman görüşleri de önemlidir. Kullanıcı ne kadar fazla bilgiye sahip ise kümeleme daha verimli ve etkili olmaktadır (Jain ve Dubes, 1988) Kümelerin Gösterimi Kümelerin veya sınıfların belirlenmesi gereken uygulamalarda, veri dizisinin paylaştırılması gerekmektedir. Bu paylaşım, veri noktalarının kümelere ayrılabilirliği hakkında bilgi vermektedir. Bunun yanı sıra, birçok uygulamada sonuç olarak ortaya çıkan kümeler, verilerin elde edilebilmesi amacıyla daha kısa ve öz olarak sunulmalı veya tanımlanmalıdır. Karar verme mekanizmalarında kümelerin gösterimi önemli bir adım olduğu halde araştırmacılar tarafından detaylı olarak incelenmemektedir. Buna göre, kümelerin gösterimi aşağıdaki üç şekilde yapılabilmektedir: (i) Noktaların bulunduğu kümeler, merkezleri ile veya kümede bulunan en dış noktalar ile temsil edilebilmektedir (Şekil 2.8). Şekil 2.8 Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar İle Gösterim) (ii) Kümeler, sınıflandırma ağacında bulunan düğümler ile ifade edilebilmektedir. (iii) Bağlayıcı mantık ifadeleri ile de kümeler temsil edilebilmektedir. Şekil 2.9 da bulunan [ x 3][ x ] > <2 ifadesi, x 1 büyük 3 ve x 2 küçük 2 anlamına gelmektedir. 1 2

37 22 Şekil 2.9 Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi Kümelerin merkezlerine göre temsil edilmesi en çok kullanılan yöntemdir, bu yöntem kümelerin yoğun ve aynı karakteristiğe sahip (izotropik) olmaları durumunda daha verimli olmaktadır. Bununla birlikte, kümelerin farklı karakteristiğe sahip olmaları durumunda bu metot kümeleri tam anlamıyla ifade edememektedir. Böyle bir durumda, kümenin sınır noktaları ile ifadesi daha elverişlidir. Bir kümeyi temsil ederken kullanılan noktaların sayısı, küme şeklinin karmaşıklığının artmasıyla artmaktadır. Şekil 2.9 da gösterilen iki farklı gösterimde birbiriyle eşdeğerdir. Sınıflandırma ağacında, kök düğüm ile yaprak düğüm arasında bulunan her yol bağlayıcı ifadeyi temsil etmektedir. Bu tez çalışmasında kullanılan veriler, küme sayısının önceden belli olmadığı farklı algoritmalar yardımı ile kümelere ayrılmış ve bu algoritmaların performansları, işlemler esnasında kullanılan bellek, gürültüye dayanıklılık ve işlemler esnasında kullanılan flop sayısı (MATLAB programının işlemleri gerçekleştirirken kullandığı adım sayısı) gibi kriterlere göre incelenmiştir. Verileri kümelere ayırmamızın asıl amacı, daha sonraki aşamalarda kullanılacak olan öğrenebilen sistemlere (yapay sinir ağı veya destek vektörleri makinesi modellerine) verileri daha kolay ve hızlı bir şekilde öğretebilmektir. Dağınık verileri öğrenmektense kümeler halindeki verileri öğrenmek daha hızlı ve verimli olmaktadır. Bu nedenle kümeleme işlemi yapılmaktadır. Şekil 2.10 da dağınık ve Şekil 2.11 de kümelenmiş veriler görülmektedir.

38 23 Şekil 2.10 Saçılmış Veriler Şekil 2.11 Kümelere Ayrılmış Veriler

39 ÜÇÜNCÜ BÖLÜM KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ ve ALGORİTMALARI 3.1. Kümeleme Yöntemleri Verilerin kümelere ayrılmasında kullanılan çok çeşitli algoritmalar ve yöntemler bulunmaktadır. Bu bölümde en çok kullanılan algoritma çeşitleri ve yöntemleri tanımlanmaktadır. Birinci bölümde kümeleme işlemi, bir çeşit sınıflandırma olarak tanımlanmıştır. Sınıflandırma (Classification) Özel (Exclusive) Özel Olmayan (Non-Exclusive) Öğreticili (Supervised, Extrinsic) Öğreticisiz (Unsupervised, Intrinsic) Geleneksel Algoritmalar Kümeleme (Clustering) (Dahili Sınıflandırma) Yeni Nesil Algoritmalar Sıradüzensel (Hierarchical) Paylaştırmalı (Partitional) Büyük VT Large DB Kategorik Categorical Tek Bağ (Single Link) Kip Arama (Mode Seeking) k-yol Tam Bağ (Complete Link) Karesel Hata Karışım Ayırma (Mixture Resolving) Çizge Kuramlı (Graph Theoretic) Beklenti Maksimizasyonu (Expectation Maximization) Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri

40 Özel ve Özel-Olmayan Sınıflandırma Özel Sınıflandırma, nesnelerin bölümlere ayrılmasıdır. Her nesne, tamamen tek bir kümeye veya altkümeye aittir. Özel-Olmayan (örtüşen) Sınıflandırma ise, bir nesneyi birden fazla sınıfa dahil etmektedir. Örneğin, insanları boy veya göz renklerine göre sınıflandırma özel sınıflandırma iken, insanları geçirdikleri hastalıklara göre sınıflandırma özel-olmayan sınıflandırmadır (bir insan birden fazla hastalık geçirmiş olabilir). Bulanık kümeleme, nesnelerin birden fazla kümeye (derecelerine göre) üye olduğu bir çeşit özel-olmayan sınıflandırmadır (Jain ve Dubes, 1988) Harici ve Dahili Sınıflandırma Dahili Sınıflandırma da sadece yakınlık matrisi (proximity matrix) kullanılmaktadır. Aynı zamanda, sınıflandırma yapılırken ön bilgiye sahip olunmadığından dolayı, Öğreticisiz Öğrenme olarak da adlandırılmaktadır. Harici Sınıflandırma ise, yakınlık matrisi dışında, nesnelerin kategori niteliklerini de kullanmaktadır. Örneğin, sigara kullanan ve kullanmayan insanlardan oluşan bir topluluk göz önünde bulundurulursa, dahili sınıflandırma, bireyleri sağlık durumlarına göre ayırır ve sigara içmenin çeşitli hastalıklara yakalanmadaki etkisini inceler. Harici sınıflandırma ise, sigara içenleri ve içmeyenleri sağlık durumlarına göre sınıflandırır. Verilerin kümelere ayrılması da dahili sınıflandırmadır ve küme analizi konusunun özünü oluşturmaktadır Sıradüzensel ve Paylaştırmalı Sınıflandırma Sıradüzensel sınıflandırma, iç içe sıralanmış bölümlerden oluşmaktadır. Paylaştırmalı Sınıflandırma ise tek bölümden oluşmaktadır. Bu nedenle sıradüzensel sınıflandırma, paylaştırmalı sınıflandırmanın özel bir durumudur. Bu iki konu daha detaylı olarak ilerleyen sayfalarda incelenmektedir.

41 Toplayıcı ve Bölücü Algoritmalar Toplayıcı (Agglomerative) algoritmalarda, başlangıçta her bir veri bir küme olarak kabul edilmektedir ve kademe kademe bu altkümeler, tek bir küme oluşturuluncaya kadar birleştirilir. Bölücü (Divisive) algoritmalarda ise, tüm veriler tek bir küme olarak kabul edilir ve bu küme kademe kademe alt kümelere ayrılır Seri ve Eşzamanlı Algoritmalar Seri (Serial) algoritmalar veriler üzerinde tek tek işlem yapmaktadır. Eşzamanlı (Simultaneous) algoritmalar ise, tüm veriler üzerinde aynı anda işlem yapmaktadır Monothetic ve Polythetic Algoritmalar Bu algoritmalar genellikle, nesnelerin örnekler veya belirli bir uzayda tanımlanmış noktalar olarak tanımlandığı, taksonomi (cinsine göre sınıflandırma) problemlerinde kullanılmaktadır. Monothetic algoritmalar öznitelikleri tek tek kullanmasına rağmen (tek bir karakteristiğe göre gruplandırmaktadır), Polythetic algoritmalar tüm öznitelikleri aynı anda kullanmaktadır (birden fazla karakteristiğe göre gruplandırmaktadır). Algoritmaların çoğu Polythetic tir bunun nedeni, noktalar arasındaki uzaklıklar hesaplanırken kullanılan özniteliklerin hepsi bu uzaklıklara dayanmaktadır. Şekil 3.2 de noktalar x 1 özniteliği kullanılarak iki gruba ayrılmıştır, dikey V çizgisi ayırma düzlemidir. Bu iki küme daha sonra x 2 özniteliğini kullanarak iki gruba daha ayrılabilmektedir ( ve H yatay çizgileri). H1 2

42 27 Şekil 3.2 Monothetic Paylaştırmalı Kümeleme Çizge Kuramı ve Matris Cebri Bilgisayarda herhangi bir algoritma gerçekleştirilirken, sayısal verimliliğe dikkat edilmelidir. Çizge kuramında, eksiksizlik (completeness) ve bağlanmışlık (connectedness) gibi terimler göz önünde bulundurulmaktadır. Diğer algoritmalarda ise, karesel hata değeri gibi cebrik ifadeler yer almaktadır. Kümelenecek olan örneklerin düğümlerle ve örnekler arasındaki ilişkilerin kenarlar ile ifade edildiği yapılara çizge denilmektedir. Kenarların ağırlık değerleri örnekler arasındaki uzaklık değerlerini ifade etmektedir. Kümelemenin amacına uygun olarak; aynı kümede bulunan noktalar farklı kümelerde bulunan noktalara göre birbirlerine daha yakındır. Kümeleme metotları, uyuşmayan kenarları belirleyerek ve silerek çizgeleri bağlanmış elemanlar haline getirirler. Her eleman bir kümeyi temsil etmektedir. Çizge kuramına ait daha detaylı bilgi ikinci bölümde yer almaktadır Katı ve Bulanık Algoritmalar Katı (Hard) kümeleme algoritmalarında her veri ayrı bir kümeye ait olmaktadır. Bulanık kümelemede ise bir veri birden fazla kümeye ait olabilmektedir. Bulanık (Fuzzy) kümeleme, noktaların en yüksek üyelik derecesine sahip kümelere yerleştirilmesiyle sert kümelemeye dönüştürülebilmektedir.

43 Artan ve Artmayan Algoritmalar Veri setinin çok büyük olduğu, işlem zamanının ve kullanılan hafızanın algoritma üzerinde kısıtlamalara sebep olduğu durumlarda kullanılmaktadır. Kullanılan ilk algoritmalar büyük boyutlu veriler için tasarlanmamıştır, fakat veri madenciliğinin gelişmesi algoritmalarında geliştirilmesine yardımcı olmuştur. 3.2 Sıradüzensel Kümeleme Algoritmaları Sıradüzensel kümeleme (Hierarchical Clustering), verilerin birbirlerine olan uzaklıklarından oluşturulmuş yakınlık matrisini iç içe sıralı bölümler şekline dönüştüren bir metottur. Sıradüzensel kümeleme algoritması ise, sıradüzensel kümeleme yapabilmek için gerekli olan adımların tanımlanmasıdır. Kümelenecek n adet veri x vektörü ile gösterilmektedir. x x1 x = 2 M xn T (3.1) B kümesinin tüm elemanları, L kümesinin bir alt kümesi ise, B kümesi, L kümesinin içine yuvalanmıştır. Aşağıdaki örnekte daha açık şekilde görülmektedir. {(,,, ), (,,, ), (, 9 10) } B = x x x x x x x x x x (3.2) {(, 1 3),(, ), 5 7 ( 2), (,, 4 6 8), (, 9 10)} L= x x x x x x x x x x (3.3) {(,,, ),(,,, ), (, 9 10)} M = x x x x x x x x x x (3.4) B ve L kümelerinden hiçbiri M kümesinin içine yuvalanmamıştır, benzer şekilde M kümesi de B ve L kümelerinden hiçbirinin içine yuvalanmamıştır. Şekil 3.3 de iki boyutlu bir veri setinin kümelenmesi görülmektedir. Burada A, B, C, D, E, F ve G

44 29 noktaları üç ayrı kümeye ayrılmıştır. Bu iç içe sıralı grupları gösterebilmek amacı ile Drogram olarak adlandırılan gösterim şekli kullanılmaktadır. Sıradüzensel kümelemenin en büyük özelliği, verilerin çok rahat bir şekilde gözlemlenebilmesini sağlayan, Şekil 3.4 deki gibi şekillerin olmasıdır. Drogram, sıradüzensel kümelemeye ait özel bir gösterim şeklidir ve kümelerin ifade edildiği, farklı seviyelerde bulunan düğümlerden oluşmaktadır. Düğümleri birleştiren çizgiler ise birbiri içine yuvalanmış kümeleri ifade etmektedir. Drogram istenilen seviyelerden kesilebilmekte ve o seviyede kaç farklı küme olduğu görülebilmektedir. Yakınlık çizgesi (proximity graph), her kenarın birbirine olan yakınlıklarına göre belli ağırlıklara sahip olduğu eşik çizgeleridir (threshold graph). Yakınlık matrisine göre çizilen drogramlar, yakınlık drogramları olarak adlandırılmaktadır ve aynı anda hem kümeleri ve yakınlık değerlerini içermektedir. Yakınlık drogramları, yakınlık değerlerinin aralık değerleri veya oransal değerler olduğu durumlarda daha kullanışlıdır. Şekil 3.3 Noktaların Farklı Kümelere Ayrılması Şekil 3.4 Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram

45 30 Sıradüzensel kümeleme algoritmalarının çoğu, tek-bağ (single-link), tam-bağ (complete-link) veya minimum-değişke (minimum-variance) algoritmalarından oluşmaktadır. Bunlardan en çok kullanılan algoritmalar tek-bağ ve tam-bağ algoritmalarıdır. Bu iki algoritma, küme çiftleri arasındaki benzerlikleri modelleme yapılarına göre farklılık göstermektedir. Tek-Bağ algoritmalarında, iki küme arasında bulunan uzaklık, Şekil 3.5 deki gibi tüm veri çiftleri arasındaki uzaklıklardan en küçük değerde olanıdır. Tam-Bağ algoritmalarda ise Şekil 3.6 daki gibi, uzaklıklar arasından en büyük değerde olanıdır. Her iki durumda da kümeler, en kısa uzaklık kriterine bağlı olarak daha büyük bir küme oluşturabilmek amacıyla birleştirilmektedir. Tam-Bağ algoritmasıyla oluşturulan kümelere Tek-Bağ ile oluşturulan kümelere göre daha kısa ve yoğun olmaktadır. Tek-Bağ algoritması, Tam-Bağ algoritmasına göre çok yönlüdür. Şekil 3.7 de görülen eşmerkezli iki küme Tek-Bağ algoritmaları ile kümelere ayrılabilir fakat Tam-Bağ algoritmaları ile işlem yapılamamaktadır. Bununla birlikte, sebep-sonuç ilişkisine dayalı çalışmalarda Tam-Bağ algoritması daha kullanışlı hiyerarşiler meydana getirmektedir. Şekil 3.5 Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)

46 31 Şekil 3.6 Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *) Şekil 3.7 Eşmerkezli İki Küme Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Bu algoritmaların uygulanabilmesi için öncelikle, simetrik, matrisinin elde edilmesi gerekmektedir ( D d ( i, j ) ) = matrisi ve başlangıç çizgesi (eşik çizgesi) gösterilmektedir. nn x boyutlu yakınlık. Aşağıda örnek bir yakınlık 5 x x x x x x x D = x x x ; n= 5 (3.5) Başlangıç çizgesi, yönü kesin olarak belli olmayan, ağırlıkları bulunmayan ve iç çevrime sahip olmayan çizgedir ve G ( v) ile ifade edilmektedir (v, farklılık değerini

47 32 belirtmektedir). G ( v), ikili ilişkileri tanımlamaktadır. Eğer (, ) düşük ise ve sadece d( i, j) i j değeri, değerinden i ve j arasına kenar (edge) yerleştirilmektedir. Kısaca, ( i, j) G ( v) sadece v durumu için geçerlidir. Şekil 3.8 de v = 5 eşik değeri için yakınlık matrisi ve başlangıç çizgesi görülmektedir. v Şekil 3.8 İkili İlişkiler ve Başlangıç Grafiği Bu eşik çizgesine bağlı olarak çok farklı algoritmalar türetilmiştir bunlar ilerleyen sayfalarda anlatılmaktadır. Her iki çeşit algoritma da, derece belirten farklılık matrisine dayanarak işlem yapmaktadır ve sonuç olarak, drogramlarla ifade edilebilen, iç içe sıralanmış kümeler meydana getirmektedir Toplayıcı Algoritma (Tek-Bağ Kümeleme) ( ) 1) G 0 eşik çizgesi ile belirtilen, her noktayı ki kümesine yerleştiren ve kenarları bulunmayan ayrık kümeler ile başlanır ve G ( ) G ( k ) 2) k eşik çizgesi oluşturulur. Eğer, k = 1 olarak belirlenir. nın elemanlarının sayısı (en fazla bağlı alt çizge maximally connected subgraph) o anda bulunan kümelerin sayısından az ise, G ( k ) tekrar tanımlanır. nın her bir elemanını ayrı bir küme olarak belirlenir ve kümeleme işlemini ( ) 3) Eğer G k, tekli bağlanmış çizge içeriyorsa işleme son verilir. Değilse, k k+ 1 yapılır ve 2. adıma dönülür.

Çizgeler (Graphs) Doç. Dr. Aybars UĞUR

Çizgeler (Graphs) Doç. Dr. Aybars UĞUR Çizgeler (Graphs) ve Uygulamaları Doç. Dr. Aybars UĞUR Giriş Şekil 12.1 : Çizge (Graph) Çizge (Graph) : Köşe (vertex) adı verilen düğümlerden ve kenar (edge) adı verilip köşeleri birbirine bağlayan bağlantılardan

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

VERİ YAPILARI. GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1

VERİ YAPILARI. GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1 VERİ YAPILARI GRAPH LAR Düzce Üniversitesi Teknoloji Fakültesi ÖĞR.GÖR.GÜNAY TEMÜR 1 GRAPH (ÇİZGE - GRAF) Terminoloji Çizge Kullanım Alanları Çizge Gösterimi Komşuluk Matrisi Komşuluk Listesi Çizge Üzerinde

Detaylı

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları 1 Veri Tabanı, Veri Ambarı, Veri Madenciliği Bilgi Keşfi Aşamaları Apriori Algoritması Veri Madenciliği Yöntemleri Problemler Veri Madenciliği Uygulama Alanları 2 Bir bilgisayarda sistematik şekilde saklanmış,

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

İÇİNDEKİLER İÇİNDEKİLER KODLAB

İÇİNDEKİLER İÇİNDEKİLER KODLAB İÇİNDEKİLER IX İÇİNDEKİLER 1 GİRİŞ 1 Kitabın Amacı 1 Algoritmanın Önemi 2 Bilgisayarın Doğuşu ve Kullanım Amaçları 3 Programlama Dili Nedir? 3 Entegre Geliştirme Ortamı (IDE) Nedir? 4 2 ALGORİTMA VE AKIŞ

Detaylı

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ 1 BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ Veri seti; satırlarında gözlem birimleri, sütunlarında ise değişkenler bulunan iki boyutlu bir matristir. Satır ve sütunların kesişim bölgelerine 'hücre

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

Görüntü Sınıflandırma

Görüntü Sınıflandırma Görüntü Sınıflandırma Chapter 12 https://www.google.com.tr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0 CBwQFjAA&url=http%3A%2F%2Ffaculty.une.edu%2Fcas%2Fszeeman%2Frs%2Flect%2FCh%2 52012%2520Image%2520Classification.ppt&ei=0IA7Vd36GYX4Uu2UhNgP&usg=AFQjCNE2wG

Detaylı

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım;

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım; İÇ ÇARPIM UZAYLARI 7. BÖLÜM İÇ ÇARPIM UZAYLARI Genel: Vektörler bölümünde vektörel iç çarpım;.= 1 1 + + Açıklanmış ve bu konu uzunluk ve uzaklık kavramlarını açıklamak için kullanılmıştır. Bu bölümde öklit

Detaylı

İçindekiler. Pazarlama Araştırmalarının Önemi

İçindekiler. Pazarlama Araştırmalarının Önemi İçindekiler Birinci Bölüm Pazarlama Araştırmalarının Önemi 1.1. PAZARLAMA ARAŞTIRMALARININ TANIMI VE ÖNEMİ... 1 1.2. PAZARLAMA ARAŞTIRMASI İŞLEVİNİN İŞLETME ORGANİZASYONU İÇİNDEKİ YERİ... 5 1.3. PAZARLAMA

Detaylı

İSTATİSTİKTE TEMEL KAVRAMLAR

İSTATİSTİKTE TEMEL KAVRAMLAR İSTATİSTİKTE TEMEL KAVRAMLAR 1. ve 2. Hafta İstatistik Nedir? Bir tanım olarak istatistik; belirsizlik altında bir konuda karar verebilmek amacıyla, ilgilenilen konuya ilişkin verilerin toplanması, düzenlenmesi,

Detaylı

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA i GENETİK ALGORİTMA YAKLAŞIMIYLA ATÖLYE ÇİZELGELEME Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2005 ANKARA ii Serdar BİROĞUL tarafından hazırlanan

Detaylı

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem 3.2. DP Modellerinin Simpleks Yöntem ile Çözümü 3.2.1. Primal Simpleks Yöntem Grafik çözüm yönteminde gördüğümüz gibi optimal çözüm noktası, her zaman uygun çözüm alanının bir köşe noktası ya da uç noktası

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Bulanık Mantık Tabanlı Uçak Modeli Tespiti Bulanık Mantık Tabanlı Uçak Modeli Tespiti Hüseyin Fidan, Vildan Çınarlı, Muhammed Uysal, Kadriye Filiz Balbal, Ali Özdemir 1, Ayşegül Alaybeyoğlu 2 1 Celal Bayar Üniversitesi, Matematik Bölümü, Manisa

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ MAK 210 SAYISAL ANALİZ BÖLÜM 5- SONLU FARKLAR VE İNTERPOLASYON TEKNİKLERİ Doç. Dr. Ali Rıza YILDIZ MAK 210 - Sayısal Analiz 1 İNTERPOLASYON Tablo halinde verilen hassas sayısal değerler veya ayrık noktalardan

Detaylı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Akademik Bilişim 2013 Akdeniz Üniversitesi, Antalya, 23-25 Ocak 2013 Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Oğuz Akpolat 1 *, Sinem Çağlar Odabaş 2, Gülçin Özevci 3, Nezahat İpteş 4 1 Muğla

Detaylı

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Nilay Kurşunoğlu, PwC Yönetim Danışmanlığı Biz Kimiz? Orhan Cem Sorumlu

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ İÇİNDEKİLER ÖNSÖZ... v TEŞEKKÜR... vi İKİNCİ BASKIYA ÖNSÖZ VE TEŞEKKÜR... vii İÇİNDEKİLER... ix ŞEKİLLER LİSTESİ... xviii TABLOLAR LİSTESİ... xx BİRİNCİ KISIM: TASARIM BİRİNCI BÖLÜM PAZARLAMA ARAŞTIRMASINA

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997

Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997 Mühendislik Fakültesi Endüstri Mühendisliği Bölümü Doç. Dr. Nil ARAS ENM411 Tesis Planlaması 2016-2017 Güz Dönemi Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997 2 Tesis Yer Seçimi Problemi (TYSP) TEK AMAÇLI

Detaylı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ - 150110046 İÇERİK Uygulama ve uygulamaya ilişkin temel kavramların tanıtımı Uygulamanın yapısı Ön yüz Veritabanı Web Servisler K-Means Algoritması ile kategori

Detaylı

8. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

8. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI. 8. HAFTA BLM323 SAYISAL ANALİZ Okt. Yasin ORTAKCI yasinortakci@karabuk.edu.tr Karabük Üniversitesi Uzaktan Eğitim Uygulama ve Araştırma Merkezi 2 MATRİSLER Matris veya dizey, dikdörtgen bir sayılar tablosu

Detaylı

BIP116-H14-1 BTP104-H014-1

BIP116-H14-1 BTP104-H014-1 VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Veri Yapıları Laboratuvarı

Veri Yapıları Laboratuvarı 2013 2014 Veri Yapıları Laboratuvarı Ders Sorumlusu: Yrd. Doç. Dr. Hakan KUTUCU Lab. Sorumlusu: Arş. Gör. Caner ÖZCAN İÇİNDEKİLER Uygulama 1: Diziler ve İşaretçiler, Dinamik Bellek Ayırma... 4 1.1. Amaç

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX XI İÇİNDEKİLER ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX 1. GİRİŞ... 1 2. PLANLAMANIN TARİHÇESİ... 7 2.1 Literatürdeki Planlayıcılar ve Kullandıkları Problem... Gösterimi

Detaylı

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi Erdal TAŞCI* Aytuğ ONAN** *Ege Üniversitesi Bilgisayar Mühendisliği Bölümü **Celal Bayar Üniversitesi

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN Giriş Bilgi teknolojisindeki gelişmeler ve verilerin dijital ortamda saklanmaya başlanması ile yeryüzündeki bilgi miktarı her 20 ayda iki katına

Detaylı

İç-Çarpım Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv. Dr. Nevin ORHUN

İç-Çarpım Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv. Dr. Nevin ORHUN İç-Çarpım Uzayları Yazar Öğr. Grv. Dr. Nevin ORHUN ÜNİTE Amaçlar Bu üniteyi çalıştıktan sonra; R n, P n (R), M nxn vektör uzaylarında iç çarpım kavramını tanıyacak ve özelliklerini görmüş olacaksınız.

Detaylı

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta SAYISAL ÇÖZÜMLEME Yrd.Doç.Dr.Esra Tunç Görmüş 1.Hafta Sayısal çözümleme nümerik analiz nümerik çözümleme, approximate computation mühendislikte sayısal yöntemler Computational mathematics Numerical analysis

Detaylı

YZM 2116 Veri Yapıları

YZM 2116 Veri Yapıları YZM 2116 Veri Yapıları Yrd. Doç. Dr. Deniz KILINÇ Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi Yazılım Mühendisliği BAŞLAMADAN ÖNCE Bu dersi alan öğrencilerin aşağıdaki konuları bildiği

Detaylı

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 İÇİNDEKİLER Önsöz. V BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 BÖLÜM II KÜMELER 17 2.1.Küme Tanımı ve Özellikleri 18 2.2 Kümelerin Gösterimi 19 2.2.1 Venn Şeması Yöntemi 19 2.2.2 Liste Yöntemi

Detaylı

Özdeğer ve Özvektörler

Özdeğer ve Özvektörler Özdeğer ve Özvektörler Yazar Öğr.Grv.Dr.Nevin ORHUN ÜNİTE 9 Amaçlar Bu üniteyi çalıştıktan sonra; bir lineer dönüşümün ve bir matrisin özdeğer ve özvektör kavramlarını anlayacak, bir dönüşüm matrisinin

Detaylı

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI İÇİNDEKİLER IX İÇİNDEKİLER 1 GİRİŞ 1 Kitabın Amacı 1 Algoritmanın Önemi 2 Bilgisayarın Doğuşu ve Kullanım Amaçları 3 Programlama Dili Nedir? 3 Entegre Geliştirme Ortamı (IDE) Nedir? 4 2 ALGORİTMA VE AKIŞ

Detaylı

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( ) www.tubiad.org ISSN:2148-3736 El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 (315-323) El-Cezerî Journal of Science and Engineering Vol: 3, No: 2, 2016 (315-323) ECJSE Makale / Research Paper

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ

BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ Frekans dağılımlarının betimlenmesinde frekans tablolarının kullanılmasının yanı sıra grafik gösterimleri de sıklıkla kullanılmaktadır. Grafikler, görselliği

Detaylı

YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM

YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM YAVAŞ DEĞİŞEN ÜNİFORM OLMAYAN AKIM Yavaş değişen akımların analizinde kullanılacak genel denklem bir kanal kesitindeki toplam enerji yüksekliği: H = V g + h + z x e göre türevi alınırsa: dh d V = dx dx

Detaylı

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz. MATEMATİK. DENEME ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI. f : X tanımlı y = f() fonksiyonu için lim f ( ) = L ise aşağıdaki önermelerden kaç tanesi kesinlikle doğrudur? 0 I. X dir. 0 II. f() fonksiyonu

Detaylı

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR VERİ MADENCİLİĞİ İSİMLER BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR MOLEKÜLER BİYOLOJİ ve GENETİK GEBZE TEKNİK ÜNİVERSİTESİ ARALIK 2015 İçindekiler ÖZET... iii 1.GİRİŞ... 1 1.1 Veri Ambarı, Veri

Detaylı

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli Graf, matematiksel anlamda, düğümler ve bu düğümler arasındaki ilişkiyi gösteren kenarlardan oluşan bir kümedir; mantıksal ilişki düğüm ile düğüm

Detaylı

Ağaç (Tree) Veri Modeli

Ağaç (Tree) Veri Modeli Ağaç (Tree) Veri Modeli 1 2 Ağaç Veri Modeli Temel Kavramları Ağaç, bir kök işaretçisi, sonlu sayıda düğümleri ve onları birbirine bağlayan dalları olan bir veri modelidir; aynı aile soyağacında olduğu

Detaylı

Yazarlar hakkında Editör hakkında Teşekkür

Yazarlar hakkında Editör hakkında Teşekkür İÇİNDEKİLER Yazarlar hakkında Editör hakkında Teşekkür XIII XIV XV Giriş 1 Kitabın amaçları 1 Öğretmen katkısı 2 Araştırma katkısı 2 Yansıma için bir ara 3 Sınıf etkinlikleri 3 Terminoloji üzerine bir

Detaylı

ÇİZGE KURAMI KESİKLİ MATEMATİKSEL YAPILAR GÜZ

ÇİZGE KURAMI KESİKLİ MATEMATİKSEL YAPILAR GÜZ ÇİZGE KURAMI KESİKLİ MATEMATİKSEL YAPILAR 2012-2013 GÜZ Çizgeler Yollar ve Çevrimler Çizge Olarak Modelleme Çizge Olarak Modelleme Yönlü Çizge Kenar - Köşe 2 / 90 Çizgeler Yollar ve Çevrimler Çizge Olarak

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

İş Zekâsı Sistemi Projesi

İş Zekâsı Sistemi Projesi BI İş Zekâsı Sistemi Projesi Ulaş Kula, Bilişim Ltd. Esinkap 5. Ar-Ge Proje Pazarı 31 Mayıs 2012 Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza

Detaylı

Math 103 Lineer Cebir Dersi Final Sınavı

Math 103 Lineer Cebir Dersi Final Sınavı Haliç Üniversitesi, Uygulamalı Matematik Bölümü Math 3 Lineer Cebir Dersi Final Sınavı 3 Araliık 7 Hazırlayan: Yamaç Pehlivan Başlama saati: : Bitiş Saati: 3:4 Toplam Süre: Dakika Lütfen adınızı ve soyadınızı

Detaylı

ERCİYES ÜNİVERSİTESİ KİMYA ANABİLİM DALI

ERCİYES ÜNİVERSİTESİ KİMYA ANABİLİM DALI İlaç Tasarımında Yeni Yazılımların Geliştirilmesi: Elektron Konformasyonel-Genetik Algoritma Metodu ile Triaminotriazin Bileşiklerinde Farmakofor Belirlenmesi ve Nicel Biyoaktivite Hesabı; ERCİYES ÜNİVERSİTESİ

Detaylı

MAKİNE ELEMANLARI DERS SLAYTLARI

MAKİNE ELEMANLARI DERS SLAYTLARI MAKİNE ELEMANLARI DERS SLAYTLARI TOLERANSLAR P r o f. D r. İ r f a n K A Y M A Z P r o f. D r. A k g ü n A L S A R A N A r ş. G ör. İ l y a s H A C I S A L I H O Ğ LU Tolerans Gereksinimi? Tasarım ve üretim

Detaylı

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ Yasemin ŞİŞMAN, Ülkü KIRICI Sunum Akış Şeması 1. GİRİŞ 2. MATERYAL VE METHOD 3. AFİN KOORDİNAT DÖNÜŞÜMÜ 4. KALİTE KONTROL 5. İRDELEME

Detaylı

8.Konu Vektör uzayları, Alt Uzaylar

8.Konu Vektör uzayları, Alt Uzaylar 8.Konu Vektör uzayları, Alt Uzaylar 8.1. Düzlemde vektörler Düzlemdeki her noktası ile reel sayılardan oluşan ikilisini eşleştirebiliriz. Buna P noktanın koordinatları denir. y-ekseni P x y O dan P ye

Detaylı

m=n şeklindeki matrislere kare matris adı verilir. şeklindeki matrislere ise sütun matrisi denir. şeklindeki A matrisi bir kare matristir.

m=n şeklindeki matrislere kare matris adı verilir. şeklindeki matrislere ise sütun matrisi denir. şeklindeki A matrisi bir kare matristir. Matrisler Satır ve sütunlar halinde düzenlenmiş tabloya matris denir. m satırı, n ise sütunu gösterir. a!! a!" a!! a!" a!! a!! a!! a!! a!" m=n şeklindeki matrislere kare matris adı verilir. [2 3 1] şeklinde,

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi YRD. DOÇ. DR. HÜSEYİN GÜRÜLER MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ, TEKNOLOJİ FAKÜLTESİ, BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ Meslek Seçimi Meslek Seçimi

Detaylı

Matris Cebiriyle Çoklu Regresyon Modeli

Matris Cebiriyle Çoklu Regresyon Modeli Matris Cebiriyle Çoklu Regresyon Modeli Hüseyin Taştan Mart 00 Klasik Regresyon Modeli k açıklayıcı değişkenden oluşan regresyon modelini her gözlem i için aşağıdaki gibi yazabiliriz: y i β + β x i + β

Detaylı

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma... İçindekiler İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii BÖLÜM 1 Ölçme, İstatistik ve Araştırma...1 Ölçme Nedir?... 3 Ölçme Süreci... 3 Değişkenler

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Graflar bilgi parçaları arasındaki ilişkileri gösterirler. Graflar (Graphs) Graf gösterimi Uygulama alanları Graf terminolojisi Depth first dolaşma Breadth first dolaşma Topolojik sıralama Yrd.Doç.Dr. M. Ali Akcayol Graflar Graflar bilgi parçaları arasındaki ilişkileri

Detaylı

Lineer Dönüşümler ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv.Dr. Nevin ORHUN

Lineer Dönüşümler ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv.Dr. Nevin ORHUN Lineer Dönüşümler Yazar Öğr. Grv.Dr. Nevin ORHUN ÜNİTE 7 Amaçlar Bu üniteyi çalıştıktan sonra; Vektör uzayları arasında tanımlanan belli fonksiyonları tanıyacak, özelliklerini öğrenecek, Bir dönüşümün,

Detaylı

UZAKTAN EĞİTİM MERKEZİ

UZAKTAN EĞİTİM MERKEZİ ÜNİTE 2 VERİ TABANI İÇİNDEKİLER Veri Tabanı Veri Tabanı İle İlgili Temel Kavramlar Tablo Alan Sorgu Veri Tabanı Yapısı BAYBURT ÜNİVERSİTESİ UZAKTAN EĞİTİM MERKEZİ BİLGİSAYAR II HEDEFLER Veri tabanı kavramını

Detaylı

SINAV YÖNERGESİ. Numarası : CEVAP. Adı Soyadı : ANAHTARI A) 512 B) 513 C) 256 D) 1024 E) 1025 A) 252 B) 256 C) 3024 D) 126 E) =?

SINAV YÖNERGESİ. Numarası : CEVAP. Adı Soyadı : ANAHTARI A) 512 B) 513 C) 256 D) 1024 E) 1025 A) 252 B) 256 C) 3024 D) 126 E) =? Ayrık Hesaplama Yapıları A GRUBU 0.0.01 Numarası Adı Soyadı : CEVAP : ANAHTARI SINAV YÖNERGESİ İşaretlemelerinizde kurşun kalem kullanınız. Soru ve cevap kağıtlarına numaranızı ve isminizi mürekkepli kalem

Detaylı

OYUN TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

OYUN TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü OYUN TEORİSİ Özlem AYDIN Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü TANIM ''Oyun Teorisi'', iki yada daha fazla rakibi belirli kurallar altında birleştirerek karşılıklı olarak çelişen olasılıklar

Detaylı

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ Özlem AYDIN Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü ULAŞTIRMA MODELİNİN TANIMI Ulaştırma modeli, doğrusal programlama probleminin özel bir şeklidir.

Detaylı

Üç Boyutlu Serpilme (Saçılım) Grafikleri

Üç Boyutlu Serpilme (Saçılım) Grafikleri Üç Boyutlu Serpilme (Saçılım) Grafikleri 3D Scatterplot of boy vs kol vs bacak 90 boy 0 70 0 90 70 00 0 bacak 0 0 90 kol 3D Scatterplot of kol vs omuz vs kalca 90 kol 0 70 00 kalca 0 0 0 0 00 omuz Merkez

Detaylı

MATLAB. Fen ve Mühendislik Uygulamaları ile. Doç. Dr. M. Akif CEVİZ. MATLAB de Dizi Kavramı

MATLAB. Fen ve Mühendislik Uygulamaları ile. Doç. Dr. M. Akif CEVİZ. MATLAB de Dizi Kavramı Fen ve Mühislik Uygulamaları ile MATLAB Doç. Dr. M. Akif CEVİZ Atatürk Üniversitesi Mühislik Fakültesi Makine Mühisliği Bölümü MATLAB de Diziler; Vektörler ve MAtrisler Skaler, Dizi, Matrix Sklaer, bir

Detaylı

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir. ÇELĐK YÜZEYLERĐN SINIFLANDIRILMASI * Cem ÜNSALAN ** Aytül ERÇĐL * Ayşın ERTÜZÜN *Boğaziçi Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü unsalan@boun.edu.tr **Boğaziçi Üniversitesi, Endüstri Mühendisliği

Detaylı

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ 1 BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel

Detaylı

bilişim ltd İş Zekâsı Sistemi

bilişim ltd İş Zekâsı Sistemi BI İş Zekâsı Sistemi Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza atan öncü bir yazılımevi ve danışmanlık kurumu dur. Önemli kuruluşların bilgi

Detaylı

Math 103 Lineer Cebir Dersi Final Sınavı

Math 103 Lineer Cebir Dersi Final Sınavı Haliç Üniversitesi, Uygulamalı Matematik Bölümü Math 3 Lineer Cebir Dersi Final Sınavı 8 Ocak 28 Hazırlayan: Yamaç Pehlivan Başlama saati: 4: Bitiş Saati: 5:5 Toplam Süre: Dakika Lütfen adınızı ve soyadınızı

Detaylı

MAT223 AYRIK MATEMATİK

MAT223 AYRIK MATEMATİK MAT223 AYRIK MATEMATİK Çizgeler 7. Bölüm Emrah Akyar Anadolu Üniversitesi Fen Fakültesi Matematik Bölümü, ESKİŞEHİR 2014 2015 Öğretim Yılı Çift ve Tek Dereceler Çizgeler Çift ve Tek Dereceler Soru 51 kişinin

Detaylı

HSancak Nesne Tabanlı Programlama I Ders Notları

HSancak Nesne Tabanlı Programlama I Ders Notları DİZİLER Bellekte ard arda yer alan aynı türden nesneler kümesine dizi (array) denilir. Bir dizi içerisindeki bütün elemanlara aynı isimle ulaşılır. Yani dizideki bütün elemanların isimleri ortaktır. Elemanlar

Detaylı

ELN1002 BİLGİSAYAR PROGRAMLAMA 2

ELN1002 BİLGİSAYAR PROGRAMLAMA 2 ELN1002 BİLGİSAYAR PROGRAMLAMA 2 VERİ YAPILARI Sunu Planı Kendini-gösteren Yapılar Dinamik Bellek Tahsisi Bağlı Listeler Yığınlar Kuyruklar Ağaçlar 1 Veri Yapıları Şu ana kadar, diziler, matrisler ve yapılar

Detaylı

Görüntü Segmentasyonu (Bölütleme)

Görüntü Segmentasyonu (Bölütleme) Görüntü Segmentasyonu (Bölütleme) Segmentasyon, görüntüyü aynı cinsten obje ve bölgelere ayırmaktır. 20 Aralık 2014 Cumartesi 1 Görüntü Segmentasyonu 20 Aralık 2014 Cumartesi 2 Gestalt kanunları Görüntü

Detaylı

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR İÇİNDEKİLER ÖNSÖZ III Bölüm 1 KÜMELER 11 1.1. Küme 12 1.2. Kümelerin Gösterimi 13 1.3. Boş Küme 13 1.4. Denk Küme 13 1.5. Eşit Kümeler 13 1.6. Alt Küme 13 1.7. Alt Küme Sayısı 14 1.8. Öz Alt Küme 16 1.9.

Detaylı

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak 10.Konu İç çarpım uzayları ve özellikleri 10.1. ve üzerinde uzunluk de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor teoreminden dir. 1.Ö.: [ ] ise ( ) ( ) ve ( ) noktaları gözönüne alalım.

Detaylı

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL VERİ MADENCİLİĞİ Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL SPRINT Algoritması ID3,CART, ve C4.5 gibi algoritmalar önce derinlik ilkesine göre çalışırlar ve en iyi dallara ayırma kriterine

Detaylı

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER SPSS in üzerinde işlem yapılabilecek iki ana ekran görünümü vardır. DATA VIEW (VERİ görünümü) VARIABLE VIEW (DEĞİŞKEN görünümü) 1 DATA VIEW (VERİ görünümü) İstatistiksel

Detaylı

VEKTÖR UZAYLARI 1.GİRİŞ

VEKTÖR UZAYLARI 1.GİRİŞ 1.GİRİŞ Bu bölüm lineer cebirin temelindeki cebirsel yapıya, sonlu boyutlu vektör uzayına giriş yapmaktadır. Bir vektör uzayının tanımı, elemanları skalar olarak adlandırılan herhangi bir cisim içerir.

Detaylı

YAPAY BAĞIŞIKLIK SİSTEMİ. Arş. Gör. Burcu ÇARKLI YAVUZ

YAPAY BAĞIŞIKLIK SİSTEMİ. Arş. Gör. Burcu ÇARKLI YAVUZ YAPAY BAĞIŞIKLIK SİSTEMİ Arş. Gör. Burcu ÇARKLI YAVUZ İnsanoğlu doğadaki müthiş uyumu yıllar önce keşfetmiş ve doğal sistemlerin işleyişini günümüz karmaşık problemlerinin çözümünde uygulayarak, karmaşık

Detaylı

Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi. R. Haluk KUL TC Beykent Üniversitesi, hkul@beykent.edu.

Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi. R. Haluk KUL TC Beykent Üniversitesi, hkul@beykent.edu. Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi R. Haluk KUL TC Beykent Üniversitesi hkul@beykent.edu.tr ÖZET Uydu Kentlerin tasarımında kullanılmak üzere önerilen

Detaylı

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir. BÖLÜM 1: FREKANS DAĞILIMLARI 1.1. Giriş İstatistik, rasgelelik içeren olaylar, süreçler, sistemler hakkında modeller kurmada, gözlemlere dayanarak bu modellerin geçerliliğini sınamada ve bu modellerden

Detaylı

BENZETİM. Prof.Dr.Berna Dengiz

BENZETİM. Prof.Dr.Berna Dengiz Prof.Dr.Berna Dengiz 2. Ders Sistemin Performans.. Ölçütleri Sistem Türleri Benzetim Modelleri Statik veya Dinamik Deterministik ( belirli ) & Stokastik ( olasılıklı) Kesikli & Sürekli Sistemin Performans

Detaylı

YÖNEYLEM ARAŞTIRMASI - III

YÖNEYLEM ARAŞTIRMASI - III YÖNEYLEM ARAŞTIRMASI - III Prof. Dr. Cemalettin KUBAT Yrd. Doç. Dr. Özer UYGUN İçerik Hessien Matris-Quadratik Form Mutlak ve Bölgesel Maksimum-Minimum Noktalar Giriş Kısıtlı ve kısıtsız fonksiyonlar için

Detaylı

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI Araştırmalarda incelenen olaylar göstermektedir ki tek değişkenli istatistiklerin kullanılması problemi açıklamakta yetersiz ve eksik kalmaktadır.

Detaylı

Makine Elemanları I. Toleranslar. Prof. Dr. İrfan KAYMAZ. Erzurum Teknik Üniversitesi. Mühendislik Fakültesi Makine Mühendisliği Bölümü

Makine Elemanları I. Toleranslar. Prof. Dr. İrfan KAYMAZ. Erzurum Teknik Üniversitesi. Mühendislik Fakültesi Makine Mühendisliği Bölümü Makine Elemanları I Prof. Dr. İrfan KAYMAZ Mühendislik Fakültesi Makine Mühendisliği Bölümü İçerik Toleransın tanımı Boyut Toleransı Geçme durumları Tolerans hesabı Yüzey pürüzlülüğü Örnekler Tolerans

Detaylı

Büyük Veri ve Endüstri Mühendisliği

Büyük Veri ve Endüstri Mühendisliği Büyük Veri ve Endüstri Mühendisliği Mustafa Gökçe Baydoğan Endüstri Mühendisliği Bölümü Boğaziçi Üniversitesi İstanbul Yöneylem Araştırması/Endüstri Mühendisliği Doktora Öğrencileri Kolokyumu 21-22 Nisan

Detaylı

VEKTÖRLER. 1. Skaler Büyüklükler

VEKTÖRLER. 1. Skaler Büyüklükler VEKTÖRLER Fizikte bazı büyüklükler sayılarla ifade edilebildiği halde, bazılarının ifade edilebilmesinde sayılar yeterli olmamaktadır. Sayılarla birlikte yönün de belirtilmesi gerekir. Bu nedenle fizikte

Detaylı

RASSAL SAYI ÜRETİLMESİ

RASSAL SAYI ÜRETİLMESİ Dr. Mehmet AKSARAYLI Ekonometri Böl. Simülasyon Ders Notları Rassal Sayı Üretilmesi RASSAL SAYI ÜRETİLMESİ Simülasyon analizinde kullanılacak az sayıda rassal sayı üretimi için ilkel yöntemler kullanılabilir.

Detaylı

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21 İçindekiler Önsöz İkinci Basım için Önsöz Türkçe Çeviri için Önsöz Gösterim xiii xv xvii xix 1 Giriş 1 1.1 Yapay Öğrenme Nedir?......................... 1 1.2 Yapay Öğrenme Uygulamalarına Örnekler...............

Detaylı

Koordinat Dönüşümleri (V )

Koordinat Dönüşümleri (V ) KOORDİNAT DÖNÜŞÜMLERİ ve FARKLI KOORDİNAT SİSTEMLERİ İLE ÇALIŞMA FieldGenius ile birden fazla koordinat sistemi arasında geçiş yaparak çalışmak mümkündür. Yaygın olarak kullanılan masaüstü harita ve CAD

Detaylı

a) Çıkarma işleminin; eksilen ile çıkanın ters işaretlisinin toplamı anlamına geldiğini kavrar.

a) Çıkarma işleminin; eksilen ile çıkanın ters işaretlisinin toplamı anlamına geldiğini kavrar. 7. SINIF KAZANIM VE AÇIKLAMALARI M.7.1. SAYILAR VE İŞLEMLER M.7.1.1. Tam Sayılarla Toplama, Çıkarma, Çarpma ve Bölme İşlemleri M.7.1.1.1. Tam sayılarla toplama ve çıkarma işlemlerini yapar; ilgili problemleri

Detaylı

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr 1 Araştırmalarda

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı