VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA"

Transkript

1 T.C. PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Yüksek Lisans Tezi DENİZLİ 2005

2 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Pamukkale Üniversitesi Fen Bilimleri Enstitüsü Tarafından Kabul Edilen Elektrik-Elektronik Mühisliği Anabilim Dalı Yüksek Lisans Tezi Mustafa Seçkin DURMUŞ Tez Savunma Tarihi: DENİZLİ 2005

3

4 IV TEŞEKKÜR Yüksek lisans tez çalışmalarım süresince kıymetli zamanını ben esirgemeyen, bilgi ve tecrübesi ile her konuda bana yön gösteren, düşünce ufkumu her yönüyle genişleten ve tezimin çok daha iyi olmasını sağlayan değerli danışman hocam Yrd. Doç. Dr. Serdar İPLİKÇİ ye teşekkürlerimi sunarım. Tez çalışması süresince fikirleri ile destek olan, yardımlarını esirgemeyen Öğretim Görevlisi Önder ÇİVRİL e, Tel Aviv üniversitesinden Prof Dr. David HORN a, Ofer PASTERNAK a, California üniversitesinden Dr. Eamonn KEOGH a, Bilgisayar Mühisi Dursun GÜNDOĞAN a, değerli bölüm öğretim üyelerim ve çalışma arkadaşlarım, Remzi ARSLANALP a, Hilal Ezercan KAYIR a, Ö. Önder KARAKILINÇ a, Engin ÇETİN e, Hüsnü ŞENTÜRK e, Adem ÜKTE ye, Ahmet ÇİFTÇİ ye ve Mehmet ÜNAL a, tezimin daha da mükemmel olmasını sağlayan Yrd. Doç. Dr. Özcan MUTLU ve Yrd. Doç. Dr. Sezai TOKAT a teşekkürü bir borç bilirim. Hayatımın her alanında olduğu gibi tez çalışma sürecinin her safhasında da yanımda olan anneme, babama, kardeşime sonsuz teşekkür ederim. Ayrıca çalışma tempoma hız katan, motivasyonumu artıran kıymetlime şükranlarımı sunarım. Mustafa Seçkin DURMUŞ

5 V ÖZET Bu tezde, Veri Madenciliği metotlarından biri olan kümeleme tekniklerinden farklı veri kümeleme algoritmaları performanslarına göre karşılaştırmalı olarak incelenmiştir. Sık kullanılan kümeleme algoritmaları tanımlanmış ve bu algoritmalar arasından, kümeleme işlemi sonunda oluşacak küme sayısının ve hangi verinin hangi kümeye yerleştirileceğinin önceden bilinmediği (öğreticisiz öğrenme) algoritmalar karşılaştırma yapmak için seçilmiştir. Seçilen bu algoritmalar farklı üç veri seti üzerinde (MATLAB ortamında oluşturulan rasgele veri seti, iris çiçeği veri seti ve Avustralya yengeçlerinden oluşturulmuş veri seti) gürültüye dayanıklılık, işlemler için kullanılan hafıza, işlem süresi ve işlemler esnasında kullandıkları flop sayılarına göre karşılaştırılmışlardır. Tüm kümeleme algoritmaları veriye bağlıdır ve herhangi bir kümeleme algoritması tüm veri setleri için her zaman en iyi kümeleri oluşturmamaktadır. Bu nedenle, seçilen veriye en uygun algoritma belirlenmelidir. Bu karşılaştırmalı çalışma için seçilen algoritmalar MATLAB simülasyon programı kullanılarak gerçekleştirilmiş ve her üç veri seti için seçilen tüm algoritmalar farklı eşik değerleri için denenmiştir. Sonuçlar arasında karşılaştırmalar yapılmıştır. Anahtar kelimeler: Veri Madenciliği, veri kümeleme, kümeleme algoritmaları, çizge yapıları, en yakın komşu, en küçük tarama ağacı, karşılıklı komşuluk, destek vektörleri.

6 VI ABSTRACT In this study, a comparative study on performances of different data clustering algorithms which is a way of data mining method is considered. Commonly used clustering algorithms are defined and among these algorithms in which resulting cluster number and which data is going to be placed in which cluster (unsupervised learning) are not to be known before clustering, were chosen for comparative study. These algorithms are examined on three different data sets (A random data set generated by MATLAB, the iris data set and the Australian crab data set) for their urance of noise, memory used for processes, process time and flop numbers. All clustering algorithms are data depent and an algorithm is not being always capable for all data sets. Therefore, the most suitable algorithm must be determined for the chosen data set. Algorithms for this comparative study are realized by MATLAB and all algorithms are tested for different threshold values. Comparisons were made between different results. Keywords: Data mining, data clustering, clustering algorithms, graph structures, nearest neighbor, minimum spanning tree, mutual neighborhood, support vectors.

7 VII İÇİNDEKİLER Sayfa İçindekiler... VII Şekiller Dizini... XI Çizelgeler Dizini...XIV Simgeler Dizini...XV Birinci Bölüm GİRİŞ 1. GİRİŞ Literatür Özeti ve Kümelemeye Genel Bir Bakış Tez Tanıtımı...6 İkinci Bölüm TANIMLAR 2. TANIMLAR Örnek Yakınlık Matrisleri Veri Tipleri Yakınlık İfadeleri Ortak Kovaryans Matrisi Çizge Kuramı Ultrametrik Eşitsizlik Kophenetik Matris Ve Kophenetik Uzaklık Kernel Fonksiyonları...18

8 VIII 2.9 Gürültü Oranı (SNR) Kümeleme Problemi Kümeleme İşleminin Bölümleri Uzmanın Önemi Kümelerin Gösterimi...21 Üçüncü Bölüm KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI Kümeleme Yöntemleri Özel ve Özel-Olmayan Sınıflandırma Harici ve Dahili Sınıflandırma Sıradüzensel ve Paylaştırmalı Sınıflandırma Toplayıcı ve Bölücü Algoritmalar Seri ve Eşzamanlı Algoritmalar Monothetic ve Polythetic Algoritmalar Çizge Kuramı ve Matris Cebri Sert ve Bulanık Algoritmalar Artan ve Artmayan Algoritmalar Sıradüzensel Kümeleme Algoritmaları Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Toplayıcı Algoritma (Tek-Bağ Kümeleme) Toplayıcı Algoritma (Tam-Bağ Kümeleme) Çizge Kuramı Algoritmaları Matris Güncelleme Algoritmaları Johnson Algoritması Yakınlık Matrisinde Bulunan Bağlar Genelleştirilmiş Matris Güncelleme Algoritmaları...41

9 IX Drogramlarda Geçitler ve Monotonluk Paylaştırmalı Kümeleme Algoritmaları Karesel-Hata Kümeleme Metotları k-yol Algoritması Karışım-Ayırma ile Kümeleme Yoğunluk-Tahmini veya Durum-Arama Bulanık Kümeleme Yapay Sinir Ağları (YSA) ile Kümeleme Medoidler Etrafında Gruplama CLARA Algoritması CLARANS Algortiması BEA Algoritması Büyük Veri Tabanlarında Kümeleme BIRCH DBSCAN CURE Algoritması Kategorik Özellikler İle Kümeleme ROCK Algoritması...64 Dördüncü Bölüm TEZDE KULLANILAN ALGORİTMALAR 4.TEZDE KULLANILAN ALGORİTMALAR En Küçük Tarama Ağacı Algoritması Bağıl Komşuluk Değeri Ve Gabriel Çizge Algoritmaları Delaunay Üçgen Metodu En Yakın Komşu Kümeleme Algoritması Karşılıklı Komşuluk Değeri Kümeleme Algoritması Destek Vektörleri İle Kümeleme...75

10 X Beşinci Bölüm BENZETİM SONUÇLARI 5. BENZETİM SONUÇLARI Algoritma Benzetim Sonuçları En Yakın Komşu Algoritması İçin Sonuçlar En Küçük Tarama Ağacı (MST) Algoritması İçin Sonuçlar Delaunay Üçgen (DT) Algoritması İçin Sonuçlar Bağıl Komşuluk Değeri (RNG) Algoritması İçin Sonuçlar Gabriel Çizge (GG) Algoritması İçin Sonuçlar Karşılıklı Komşuluk Değeri (MNV) Algoritması İçin Sonuçlar Destek Vektörleri (SVC)Algoritması İçin Sonuçlar...94 Altıncı Bölüm SONUÇLAR VE YORUMLAR 6 SONUÇLAR VE YORUMLAR...96 Kaynaklar Ekler Özgeçmiş...119

11 XI ŞEKİLLER DİZİNİ Şekil 1.1: Veri Madenciliği...2 Şekil 1.2 Verilerin Kümelere Ayrılması...3 Şekil 2.1: Veri Tipleri...9 Şekil 2.2: Minkowski Ölçekleri...10 Şekil 2.3: Çizge Tanımlamaları...13 Şekil 2.4: Alt Çizgeler...14 Şekil 2.5: Çizgelerin Özellikleri...15 Şekil 2.6 Ağaçlar...16 Şekil 2.7: Kümeleme Adımları...19 Şekil 2.8: Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar (outlier) ile Gösterim)...21 Şekil 2.9: Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi...22 Şekil 2.10: Saçılmış Veriler...23 Şekil 2.11: Kümelere Ayrılmış Veriler...23 Şekil 3.1: Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri...24 Şekil 3.2: Monothetic Paylaştırmalı Kümeleme...27 Şekil 3.3: Noktaların Farklı Kümelere Ayrılması...29 Şekil 3.4: Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram...29 Şekil 3.5: Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)...30 Şekil 3.6: Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *)...31 Şekil 3.7: Eşmerkezli İki Küme...31 Şekil 3.8: İkili İlişkiler ve Başlangıç Grafiği...32 Şekil 3.9: Eşik Çizgeleri ve Sıradüzensel Kümeleme İçin Drogramlar...34 Şekil 3.10: MST Prensibine Göre, Tek-Bağ Kümeleme Metodu İçin Toplayıcı ve Bölücü Algoritmaların Uygulanması...36 Şekil 3.11: Tek-Bağ ve Tam-Bağ Metotları İçin Matris Güncelleme Algoritmasının Kullanımı...38

12 XII Şekil 3.12: Yakınlık Matrisinde Bulunan Bağların Tek-Hat ve Tam-Hat Kümeleme Üzerindeki Etkisi, (a) Eşik Çizgeleri, (b) Yakınlık Drogramları, (c) Değiştirilmiş Yakınlık Matrisi ve Drogramlar...40 Şekil 3.13: Matris Güncelleme Algoritmaları İçin Oluşturulan Drogramlar...45 Şekil 3.14: Drogramlarda Bulunan Geçitler...48 Şekil 3.15: Karesel-Hatanın Hesaplanmasında Kullanılan Uzaklıklar...52 Şekil 3.16: k-yol Algoritması ile Oluşturulan Kümeler...53 Şekil 3.17 (a): İyi Ayrılmış Kümeler, (b) İç içe Geçmiş Kümeler...57 Şekil 3.18 (a): Saçılmış Noktalar...58 Şekil 3.18 (b): Amaç Fonksiyonunun Grafiği...59 Şekil 3.18 (c): Bulanık Kümelere Ayrılmış Noktalar...59 Şekil 4.1: MST ile Kümelerin Oluşturulması...67 Şekil 4.2: RNG ve GG için Etki Bölgeleri...68 Şekil 4.3: Dirichlet Mozaiği (Voronoi Diyagramı)...69 Şekil 4.4: Kümelenecek Olan Veri Noktaları...70 Şekil 4.5: MST...71 Şekil 4.6: RNG...71 Şekil 4.7: GG...72 Şekil 4.8: DT...72 Şekil 4.9: Saçılmış Durumda Bulunan Veriler...79 Şekil 4.10 (a): q = 0.3 İçin Destek Vektörleri...79 Şekil 4.10 (b): q = 3 İçin Destek Vektörleri...80 Şekil 4.10 (c): q =10 İçin Destek Vektörleri...80 Şekil 4.11 (a): q = 0.3 Kümelere Ayrılmış Veriler (4 küme)...81 Şekil 4.11 (b): q = 3 Kümelere Ayrılmış Veriler (7 küme)...81 Şekil 4.11 (c): q =10 Kümelere Ayrılmış Veriler (10 küme)...82 Şekil 5.1: İris Setosa...84 Şekil 5.2: İris Versicolor...85 Şekil 5.3: İris Virginica...85 Şekil 5.4: Avustralya Kaya Yengeci...85 Şekil 5.5: Iris Veri Seti...86 Şekil 5.6: Avustralya Kaya Yengeci Veri Seti...87

13 XIII Şekil 5.7: Rasgele Oluşturulmuş Veriler...87 Şekil 6.1 Iris Veri Seti İçin FLOP Sayıları...97 Şekil 6.2 Crab Veri Seti İçin FLOP Sayıları...98 Şekil 6.3 Data Veri Seti İçin FLOP Sayıları...99 Şekil 6.4 Data Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.5 Iris Veri Seti İçin Küme Sayılarının Değişimi Şekil 6.6 Crab Veri Seti İçin Küme Sayılarının Değişimi...102

14 XIV ÇİZELGELER DİZİNİ Çizelge 3.1 SAHN Matris Güncelleme Algoritması İçin Farklı Parametre Değerleri...43 Çizelge 3.2 Kümeleme Algoritmalarının Karşılaştırılması...65 Çizelge 5.1 En Yakın Komşu Algoritması İçin Sonuçlar...89 Çizelge 5.2 En Küçük Tarama Ağacı Algoritması İçin Sonuçlar...90 Çizelge 5.3 Delaunay Üçgen Metodu İçin Sonuçlar...91 Çizelge 5.4 Bağıl Komşuluk Değeri Metodu İçin Sonuçlar...92 Çizelge 5.5 Gabriel Çizge Algoritması İçin Sonuçlar...93 Çizelge 5.6 Karşılıklı Komşuluk Değeri Algoritması İçin Sonuçlar...94 Çizelge 5.7 Destek Vektörleri Algoritması İçin Sonuçlar...95

15 XV SİMGELER DİZİNİ x x X Skaler gösterimi Vektör gösterimi Matris gösterimi D ( i, j) Yakınlık matrisi ( i, j) d x x İki nokta arasındaki uzaklık C G q K ( xi, x j) Kovaryans matrisi Çizge gösterimi Gaussian kernel fonksiyonunun genişlik değeri Kernel fonksiyonu 2 Öklit uzaklığı Φ L ξ i Noktaları daha büyük boyutlu uzaya taşımak için kullanılan dönüşüm Lagrange ifadesi Gevşek değişkenler µ, β Lagrange katsayıları i W 2 σ v i Lagrange ifadesinin ikincil durumu Veri setlerinin bileşenlerinin değişkesi 2 σ η Veri setlerinin bileşenlerine eklenen gürültünün değişkesi

16 BİRİNCİ BÖLÜM GİRİŞ 1. GİRİŞ Günümüzde firmaların veri tabanı boyutları terabaytlar cinsinden ifade edilmektedir. İstenilen ise bu büyük veri tabanından amaç doğrultusunda bilginin elde edilmesidir. Bilgi ise herhangi bir amaca yönelik veri olarak tanımlanmaktadır. Veriyi bilgiye çevirme işine de Veri Analizi denilmektedir. Bilgi kelimesi aynı zamanda herhangi bir soruya yanıt verebilmek için veriden çıkarılan sonuç olarak da tanımlanmaktadır. Tüm bu açıklamalar doğrultusunda Veri Madenciliği, büyük miktarda veri içerisinden, önceden bilinmeyen fakat potansiyel olarak kullanışlı bilginin bilgisayar programları kullanılarak aranmasıdır şeklinde tanımlanabilir. Veri madenciliği de kümeleme, veri özetleme, sınıflandırma, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımın kullanılmasıyla gerçekleştirilmektedir. Veri madenciliğinde verinin önemi (ne kadar çok örnek toplanırsa o kadar iyi sonuçlar elde edilmektedir), uzmanın önemi (algoritma seçiminde ve elde edilen sonuçların değerlirilmesinde önemli rol oynamaktadır) ve sabrın önemi (çok büyük ver tabanları ile işlem yapıldığından dolayı sonuçlara ulaşmak için zamana ihtiyaç duyulmaktadır) kavramları dikkat edilmesi gereken üç önemli husustur. Şekil 1.1 de veri madenciliği kavramında izlenmesi gereken yol görülmektedir. Veriler hazır olarak veri ambarlarından alınabileceği gibi dış veri kaynaklarından da alınabilmektedir. Fakat dışarıdan alınan veriler doğrudan modelin kurulması amacıyla kullanılamamaktadır. Bu nedenle modelde kullanılmak üzere hazırlanmaktadırlar. Model kurulduktan sonra farklı kriterlere göre incelemeler yapılıp önceden tanımlanmış probleme bu kurulan model uygulanmaktadır.

17 2 VERİ KAYNAKLARI Eski Saklama Ortamından Toplanan Veriler Fonksiyonel Departman Verileri ERP Sistem Verileri Diğer Veri Hareketleri Dış Kaynaklı Veriler TOPLAMA BİRLEŞTİRME ve TEMİZLEME DEĞER BİÇME SEÇİM DÖNÜŞTÜRME VERİLERİN HAZIRLANMASI SINIFLANDIRMA REGRESYON KÜMELEME BİRLİKTELİK ARDIŞIKLIK MODELİN KURULMASI VERİ AMBARI BASİT GEÇERLİLİK ÇAPRAZ GEÇERLİLİK N-KATLI GEÇELİLİK BOOTSTRAPPING KALDIRAÇ (LIFT) ROI PROBLEMİN TANIMLANMASI MODELİN DEĞERLENDİRİLMESİ Şekil 1.1 Veri Madenciliği Kümeleme, bir çeşit sınıflandırmadır (Jain ve Dubes, 1988). Diğer bir ifadeyle, önceden elde edilmiş nesnelerin (öznitelik vektörleri, gözlemler veya veri öğeleri), farklı gruplara (kümelere), herhangi bir öğretici olmadan (Öğreticisiz Öğrenme) sınıflandırılmasıdır. Oluşturulmuş herhangi bir kümede bulunan nesneler, farklı kümelerde bulunan nesnelere göre birbirlerine daha fazla benzemektedir. Nesneler arasındaki ilişkiler, satır ve sütunları nesnelerden oluşan yakınlık matrisi ile ifade edilmektedir. Bu nesneler örnek (pattern) olarak tanımlanmış ise, aralarında bulunan yakınlık, uzaklıklar şeklinde ifade edilebilmektedir (Öklit Uzaklığı-Euclidean Distance gibi). Nesneler arasında herhangi bir uzaklık ölçümü yapılamıyorsa veya yakınlık değerleri bulunamıyorsa, kümelirme yapılması imkansız olmaktadır. Küme Analizi (Clustering Analysis) örneklerin (örnekler genellikle çok boyutlu uzayda bulunan noktalar veya bir ölçüm sonunda elde edilen noktalar şeklinde ifade edilmektedir),

18 3 birbirlerine olan benzerlikleri göz önünde bulundurularak, bir araya toplanması olarak tanımlanmaktadır (Jain ve diğerleri, 1999). Kümelirme ve Diskriminant Analiz birbirine karıştırılmamalıdır. Diskriminant Analiz yapılırken, önceden sınıflandırılmış örnekler ile işlem yapılmaktadır. Amaç, yeni karşılaşılan ve önceden sınıflandırılmamış örneklerin sınıflandırılmaya dahil edilmesidir. Özetle, önceden sınıflandırılmış örnekleri kullanarak yeni örneklerin bu sınıflardan herhangi birine dahil edilmesi işlemidir. Kümelirme ise, verilen örneklerin ön sınıflandırma yapılmadan Şekil 1.2 deki gibi anlamlı kümelere ayrılmasıdır, burada doğrudan veriler üzerinde işlem yapılmaktadır. Şekil 1.2 Verilerin Kümelere Ayrılması 1.1 Literatür Özeti ve Kümelemeye Genel Bir Bakış İlk olarak 70 li yılların başında, verimliliği arttırmak amacı ile çalışmalara başlanmıştır. İlerleyen zamanlarda veri madenciliği ve kümeleme üzerine yazılan ilk kitaplardan biri olan fakat tek bir yaklaşımın kullanıldığı bir kitap yazılmıştır Cluster Analysis (Tryon&Bailey, 1970). Buna ek olarak, daha çok kümeleme işleminin matematik kısmının inceliği Mathematical Taxonomy (Jardine&Sibson, 1971), veri madenciliği ve kümeleme üzerine yazılmış olan en kapsamlı kitap Cluster Analysis for Applications (Anderberg, 1973), sıradüzensel kümelemenin anlatıldığı bir çalışma, Numerical Taxonomy (Sneath&Sokal, 1973), değişik projelerin toplandığı

19 4 bir kitap olan, Clustering Algorithms (Hartigan-1975), Algorithms for Clustering Data (Jain&Dubes, 1988) geniş kapsamlı bir kitap ve 1990 dan itibaren konu ile ilgili olarak çok farklı uygulamalar ve kitaplar ortaya konulmuştur. Farklı uygulamalarda kullanılabilen çok çeşitli kümeleme algoritmaları bulunmaktadır. Literatürde birçok yeni kümeleme algoritmaları ortaya çıkmaya devam etmektedir. Genel olarak bu algoritmalar iki başlıkta toplanmaktadır: Geleneksel Algoritmalar ve Yeni Nesil Algoritmalardır. Geleneksel algoritmalar da Sıradüzensel ve Paylaştırmalı algoritmalar şeklinde iki alt gruba ayrılmaktadır. Sıradüzensel algoritmalar, veriyi iç içe sıralı diziler haline getirmektedir ve bu sıralı diziler drogramlar (sıradüzensel yapıyı gösteren çizimler) ile gösterilmektedir. Bu gösterimden kümeleri elde edebilmek için örnekler arasında bulunan yakınlık değerlerine göre bir eşik değeri (threshold) seçilmeli ve drogramlar bu seçilen eşik değerlerine göre kesilerek, kümeler belirlenmelidir. Farklı toplayıcı sıradüzensel algoritmalar, örnek ve küme arasında veya iki küme arasında bulunan yakınlık değerlerinin tanımlanmasına göre birbirlerinden farklılık göstermektedirler. Paylaştırmalı algoritmalarda ise küme içi dağılımı en aza indiren veya kümeler arası dağılımı en yüksek değere çıkaran paylaşımlar elde edilmektedir. Genel en uygun bir sonuç elde edebilmeyi garantilemek için, uygun olmayan olası tüm paylaşımlar tespit edilmelidir. Sıradüzensel yöntemler, biyolojik, sosyal ve davranışsal bilim dallarında yaygın olarak kullanılmaktadır. Paylaştırmalı yöntemler ise, daha çok mühislik alanlarında kullanılmaktadır (En Küçük Tarama Ağacı (Minimum Spanning Tree), Karesel-Hata Metodu (Squared Error Method), K-Yol algoritması (K Means), En Yakın Komşu Algoritması (Nearest Neighbor), PAM, CLARANS, Genetik Algoritmalar, Yapay Sinir Ağları, v.b.). Yeni nesil algoritmalarda veritabanı, boyutundan bağımsız olarak sıkıştırılabilen veya budanabilen veri belleğine yerleştirilir. Geniş veritabanlarında kümeleme yapmak için bazı ölçütler belirlenmiştir. Bunlar, veritabanının bir kez veya daha az taranması, çevrimiçi çalışabilme özelliği, askıya alınabilme, durdurulabilme ve geri dönülebilir

20 5 olma özellikleri, veri ekleme veya çıkarma sonucunda güncelleme imkanı, kısıtlı bellek ile çalışabilme, tarama sırasında farklı teknikler kullanabilme ve bir kaydın sadece bir kez işlenmesi şeklindedir (BIRCH, DBSCAN, CURE, ROCK, v.b.). Mevcut verileri kümelere ayıracak tek bir algoritma bulunmamaktadır bu nedenle çeşitli algoritmalar denenmelidir. Küme analizi keşifsel veri analizinde kullanılan araçlardan sadece bir tanesidir. Verilerin toplanması ve sunulması, kümeleme sonuçlarının değerlirilmesi ve bulunan kümelerin tanımlanması en az kümeleme stratejisinin seçimi kadar önemlidir. Uygulama alanlarına kısaca değinecek olursak, pazar bölümlerinin ayrılması, müşteri değerlirme ve çapraz satış analizleri (pazarlama), risk analizleri, usulsüzlüklerin tespiti, müşteri kazanma ve mevcut müşterileri elde tutma analizleri (bankacılık, daha çok veri madenciliğinin bir alt koludur), ana giderlerin azaltılması, poliçe fiyatlarının belirlenmesi (sigortacılık), satış noktası veri analizleri, alış-veriş sepeti analizleri (perakecilik), hisse senedi fiyat tahmini, genel piyasa analizleri, en iyi alım-satım stratejilerinin belirlenmesi (borsa), hatların yoğunluk tahminleri (haberleşme), test sonuçlarının tahmini, ürün geliştirme, ilaçlarda kullanılan maddelerin sınıflandırılması (ilaç sanayi), tıbbi teşhis, uygun tedavi sürecinin belirlenmesi (sağlık), kalite kontrol, lojistik, üretim süreçlerinin en iyileştirilmesi (üstri) gözlemsel veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi, çeşitli tahminler ve sınıflandırma problemlerinin ayrıştırılarak çözümlenmesi (bilim ve mühislik) şeklinde sıralamak mümkündür (Hartigan, 1975). Kümeleme çeşitli keşifsel örnek analizlerinde (Exploratory Data Analysis) de kullanılmaktadır. Bunlar, veri madenciliği, dokümanların tekrar kazanılması, örnek sınıflandırma ve görüntülerin parçalara ayrılması konularının da içinde bulunduğu, gruplama, makine öğrenmesi ve karar verme sistemleridir. Her araştırma sahasının kine özgü terimleri, metotları ve algoritmaları bulunmaktadır.

21 6 1.2 Tez Tanıtımı Bölüm 2 de kümeleme işlemlerinde dikkat edilmesi gereken hususlar, sıkça kullanılan tanımlamalar ve karşılıkları bulunmaktadır. Bölüm 3 te literatürde bulunan kümeleme algoritmaları anlatılmaktadır. Bölüm 4 te tezde kullanılan kümeleme algoritmaları tanımlanmaktadır. Bölüm 5 te kullanılan veri setleri ve simülasyon sonuçları bulunmaktadır. Son olarak, Bölüm 6 da elde edilen sonuçlar, değerlirmeler ve bir önceki bölümde elde edilen simülasyon sonuçlarına ilişkin yorumlar bulunmaktadır.

22 İKİNCİ BÖLÜM TANIMLAR 2. TANIMLAR 2.1 Örnek Örnek (Pattern), kümeleme algoritması tarafından kullanılan veri öğeleridir ve genellikle yapılan ölçümlerin sonuçlarını içermektedir. Örnek vektörünün her bir sayısal elemanı da (x i ), yani verilerin uzaklık bileşenleri, öznitelik (attribute) olarak tanımlanmaktadır. x i x1 x = 2 M xd, ( i = 1, 2,..., n ) (2.1) kümesi, Buradaki d örnek uzayının boyutunu, n örnek sayısını ifade etmektedir. Örnek [ L ] x x L x x x L x n n2 = 1 2 n = M M O M X x x x X x x L x 1d 2d nd (2.2) ile gösterilmektedir. Örnek dizisi n x d örnek matrisi (pattern matrix) olarak da ifade edilebilmektedir. Bu matrisin her satırı örnekleri ve her sütunu da öznitelikleri veya ölçümleri ifade etmektedir. Kullanılan veriler buna benzer olarak tanımlanmıştır fakat ayrı ayrı öznitelikler şeklinde tanımlanmamıştır (Jain ve Dubes, 1988).

23 8 2.2 Yakınlık Matrisleri Kümeleme metotları veri çiftleri arasındaki yakınlıkları, benzerlikleri veya ilişkileri oluşturulabilmek için bir göstergeye ihtiyaç duymaktadır. Yakınlık Matrisi (Proximity Matrix), D ( i, j), ile ifade edilen, satır ve sütunlarında örnek numaralarının bulunduğu ve köşegen üzerinde bulunan tüm değerlerin sıfır olduğu simetrik bir matristir. Tüm yakınlık matrisleri simetriktir. Yakınlık değeri ne kadar büyük olursa o değere karşılık gelen satır ve sütunda bulunan örneklerin birbirlerine olan benzerlikleri de büyük olmaktadır (Jain ve diğerleri, 1999). d11 d12 L d1 m 0 d12 L d1 m d21 d22 d 2m d21 0 d 2 ( i, j) L L m D = = M M O M M M O M dn1 dn2 L dnm dn1 dn2 L 0 (2.3) 2.3 Veri Tipleri Elde bulunan mevcut verinin tipi (Data Type) ve değişim aralığı kümeleme algoritmasının belirlenmesinde kullanılmaktadır. Veri tipi ile belirtilmek istenen veri miktarının derecesidir. Öznitelik, ikili (binary), ayrık (discrete) veya sürekli (continuous) şekilde tanımlanabilir. İkili öznitelikler evet-hayır sorularında olduğu gibi iki değere sahiptir. Ayrık veriler genellikle küçük ve sonlu değerlerdir. Sürekli veriler ise belirli sınırlar dahilinde gerçek değerlere sahiptirler. Yakınlık matrislerinde bulunan değerler, Şekil 2.1 de de görüldüğü gibi, yakınlık matrisinde bulunan değerler yukarıda tanımlanan üç farklı tipte de olabilmektedir. İkinci bir özellik ise verilerin sayıların karşılıklı ilişkilerini gösterecek şekilde ölçeklenmesidir. Veriler nitel (qualitative) ve nicel (quantitative) olmak üzere iki şekilde ölçeklenmektedir. Nitel özellikler bir sıra (ordinal) veya sayı (nominal) değeri gösterirken, nicel ifadeler ise bir aralık değeri (interval) veya bir oran (ratio) ifade etmektedir.

24 9 Örneğin evet-hayır sorusu (0-1) veya (50-100) şeklinde ifade edilebilmektedir (nominal ölçekleme). Sayıların kileri anlamsızdır. Sıraya göre ölçekleme de ise sayılar arasındaki ilişkilere dikkat edilir (1-2-3 veya veya gibi). Aralık değerleri ile ölçekleme yapılırken istenilen aralık değerleri veriler üzerine uygulanır mesela 100 kişilik bir gruptaki insanlara boylarına göre arası puan verilmesi bu tip ölçeklemeye örnektir. En çok kullanılan ölçekleme tipi oransal ölçeklemedir, bu tip ölçeklemede sayılar tam değerlere sahiptir. Mesela iki şehir arasında bulunan mesafe metre, mil ve inç cinsinden ayrı ayrı ölçülebilmektedir, bu iki şehrin birinden diğerine araba ile giden bir insana göre gittiği yol değişmemektedir, benzer şekilde bir insanın gelirinin iki katına çıkarılması hangi para birimi kullanılırsa kullanılsın satın alma gücünü iki katına çıkaracaktır. Veri tipinin belirlenmesi, yakınlık matrisinin oluşturulmasında ve küme analizi sonuçlarının gösterilmesinde önemli rol oynamaktadır. İnsanlar ikili, nitel verileri üretmede iyi iken aygıtlar sürekli nicel verilere ihtiyaç duymaktadır. Verinin güvenilirliği veri tipine ve ölçeklenmesine bağlıdır (Jain ve Dubes, 1988). VERİ SUNUMU Örnek Matrisi Yakınlık Matrisi Tip İkili Ayrık Sürekli Tip Benzerlik Farklılık Ölçekleme Ölçekleme Nicel Nitel Nicel Nitel Sayı Sıra Aralık Oran Sıra Aralık Oran Şekil 2.1 Veri Tipleri

25 Yakınlık İfadeleri Bu bölümde çok kullanılan yakınlık ifadelerine yer verilmektedir. örnekler arasında bulunan yakınlık değeri şartları sağlamalıdır: dik (, ) i. ve k. ile gösterilmektedir ve aşağıdaki (i) Tüm i değerleri için, dii (,) = 0 (ii) Tüm (, ik ) değerleri için, dik (, ) = dki (,) (iii) Tüm (, ik ) değerleri için, dik (, ) 0 olmalıdır. Yakınlık değerleri çeşitli şekillerde ifade edilmektedir. En çok kullanılan yakınlık değerleri aşağıda gösterilmektedir. Bunlara Minkowski Ölçütleri (Minkowski Metrics) de denilmektedir (Şekil 2.2). Tüm Minkowski Ölçütleri yukarıda bulunan üç şarta ek olarak aşağıdaki iki şartı da sağlamalıdır: (iv) Sadece xi = xk durumunda dik (, ) = 0olur. (v) Tüm i,k ve m değerleri için, dik (, ) dim (, ) + dmk (, ) x 12 x 1 d d ÖKLİT MANHATTAN ( x, x ) = = ( x, x ) = = d SUP ( x, x ) 1 2 = max(4, 2) = 4 x 22 x 2 2 x x Şekil 2.2 Minkowski Ölçekleri

26 11 Minkowski ölçütlerinin genel hali (2.5) de görülmektedir: 1/ r d r dik (, ) = xij xkj ; r 1 (2.4) j= 1 Denklem 2.5 de r = 2 ( ile de gösterilmektedir ): seçilirse, Öklit Uzaklığı (Euclidean Distance) elde edilir d dik (, ) = x x = j= 1 1/2 2 T ij kj ( xi xk) ( xi x k) (2.5) Denklem 2.5 de r = 1 seçilirse, Manhattan Uzaklığı elde edilir: d dik (, ) = xij xkj (2.6) j= 1 Denklem 2.5 de r = seçilirse, Supremium Uzaklığı (Sup distance) elde edilir: dik (, ) = maxx ij x kj (2.7) 1 j d Bunlar arasında en sık kullanılan uzaklık ölçümü öklit uzaklık ölçümüdür. Eğer tüm uzaklık değerleri ikili (binary) ise Manhattan Uzaklığı na Hamming Uzaklığı denilmektedir. Mahalanobis Uzaklığı ise kullanılan ortak kovaryans matrisi (covariance matrix) nin kullanılmasıyla öklit uzaklığından farklılık göstermektedir ve aşağıdaki gibi hesaplanır: T -1 ( ) ( ) dik (, ) = x x C x x (2.8) i k i k Bu tanımlanan uzaklık yöntemleri dışında daha pek çok uzaklık ölçüm yöntemi bulunmaktadır (http://mathworld.wolfram.com).

27 Ortak Kovaryans Matrisi Herhangi bir M matrisinin kovaryans matrisi (Covariance Matrix) aşağıdaki formül ile elde edilmektedir. Aşağıdaki ifadede bulunan x vektörü ortalama değerlerin bulunduğu vektördür ve her sütunun (örneğin) ortalama değerini içermektedir (http://planetmath.org). n 1 = T C ( M i x)( Mi x) n 1 i= 1 (2.9) M = (2.10) [ ] x = (2.11) C = (2.12) 2.5 Çizge Kuramı Çizge (Graph), kümeleme işlemlerinde çok farklı uygulama alanlarına sahip matematiksel bir yapıdır. Bu bölümde kısaca bu tanımlamalar incelenmiştir. Bir çizge G ile gösterilmektedir (Şekil 2.3). G çizgesi, düğümlerden ( V ), kenarlardan ( E ) ve bunların birbirleri ile olan ilişkilerini gösteren bir fonksiyondan ( f ) oluşmaktadır ve G=<V',E',f'> ile gösterilmektedir. Kümeleme işlemlerinde kullanılan çizgilerin öz çevrimlere sahip olmadıkları kabul edilmektedir. Ayrıca kenarların yönleri önemli olmadığından dolayı yönsüz (undirected) çizgeler olarak da nitelirilmektedirler.

28 13 Kümeleme işlemlerinde kenarlar iki düğüm (örnek nokta) arasında bulunan uzaklık değerini ifade etmektedir. Alt çizge, asıl çizgeden elde edilmektedir ve G =<V',E',f'> ile ifade edilmektedir. Bir alt çizge asıl çizgenin tüm noktalarını içermelidir. Şekil 2.4 de alt çizge olan (b, d, e) ve olmayan (c) çizgeler verilmektedir. Diğer çizgenin alt çizge olmamasının sebebi asıl çizgede olmayan bir kenar içermesidir. Yine bu alt çizge tanımına benzer olarak yol ifadesi tanımlanmıştır. Yol ise, yine bir alt çizgedir fakat bu alt çizgede öz çevrim ve tekrarlanan kenar bulunmamaktadır (Şekil 2.5). Her yol bir alt çizgedir fakat her alt çizge bir yol değildir. Bir çizgede bulunan herhangi iki düğüm arasında bir yol bulunuyorsa bağlı (connected) ifadesi kullanılmaktadır. Bileşen (component) ise bağlı çizgenin azami (maximal) parçasıdır. Eğer bir kenar tüm düğümlere bağlı ise tam (complete) çizge olarak adlandırılmaktadır. kenar içermektedir. n düğüme sahip bir tam çizge nn ( 1)/2 Şekil 2.3 Çizge Tanımlamaları

29 14 5 Düğümlü ve 6 Kenarlı bir Çizge v 1 e 1 v 2 e 2 e 3 v 5 e 4 e 5 e 6 v 3 v 4 f(e 4 ) = (v 4,v 2 ) a v 1 v 2 e 1 v 1 e 1 v 2 v 5 e 3 v 5 e 4 e 6 e 6 v 4 Bağlı Alt Çizge b v 3 v 4 İki Bileşenli Alt Çizge d v 2 v 1 v 1 v 2 e 2 v 5 v 5 v 3 v 4 v 3 v 4 Üç Bileşenli Alt Çizge e 5 Alt Çizge Değil c Şekil 2.4 Alt Çizgeler e

30 15 v 1 v 2 v 5 Referans Çizge v 3 v 4 a v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Yol Belirten Alt Çizgeler b v 3 v 4 e v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 Referans Çizgede Bir Yol Belirtmemektedir c v 3 v 4 Yol Değildir (Tekrarlanan Kenar Bulunmaktadır) f v 1 v 2 v 1 v 2 v 1 v 2 v 5 v 5 v 5 v 3 v 4 v 3 v 4 Referans Çizgede Birer Tane Döngü Belirtmektedir d v 3 v 4 Referans Çizgede Bir Döngü Belirtmemektedir g Şekil 2.5 Çizgelerin Özellikleri Döngü (cycle) tanımı ise yol tanımına benzemektedir fakat burada başlangıç düğümü ile bitiş düğümü aynıdır. Ağaç, çizge kuramında döngü içermeyen bağlı grafiklere

31 v 4 a 16 verilen isimdir. Eğer bir alt çizge m tane düğüme sahip ise, oluşturulan ağacın tam olarak m 1 tane kenarı bulunmaktadır. Tarama Ağacı (spanning tree), çizgede bulunan tüm düğümleri kapsayan ağaçtır. Çizgede bulunan kenarlara birer uzaklık (ağırlık) değeri verilirse, ağacın ağırlığı (uzunluklar toplamı) kenarlara verilen uzaklık değerlerinin toplanması ile elde edilmektedir. En Küçük Tarama Ağacı (minimum spanning tree - mst), çizgeden faydalanılarak oluşturulabilen ağaçlar arasında ağırlıklar toplamı en küçük olan ağaçtır. v 1 v 2 a v 5 Referans Çizge v 3 v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 b Farklı Ağaçlar v 3 v 4 d v 1 v 2 v 1 v 2 v 5 v 5 v 3 v 4 c Ağaç Olmayan Alt Çizgeler v 3 v 4 e Şekil 2.6 Ağaçlar Şekil 2.6 da farklı ağaç yapıları görülmektedir (Zahn C. T., 1970, Jain ve Dubes, 1988,

32 Ultrametrik Eşitsizlik Üçgen eşitsizliğinin farklı bir uyarlaması olan aşağıdaki eşitsizliği tüm x, y, z değerleri için sağlayan uzunluk ölçütüne ultrametrik denilmektedir (http://mathworld.wolfram.com). ( ) (, ) max (, ), (, ) d x z d x y d y z (2.13) ( ) ) d y z) ( d x, z, d( x, y ve (, çiftlerinden en az ikisi aynı olmalıdır). 2.7 Kophenetik Matris Ve Kophenetik Uzaklık Kophenetik mesafe (cophenetic distance, d C ) denklem 2.13 de tanımlanan ultrametrik eşitsizliği sağlayan yakınlık değerleridir. Yani x i ve x j elemanlarının ilk olarak aynı kümeye yerleştirilme seviyelerini ifade etmektedir ( d i, j L k ). Kophenetik matris (cophenetic matrix) ise bu yakınlık değerlerinden oluşan matrise verilen isimdir. Aşağıda sırasıyla verilen yakınlık matrisi için önce tek-bağ (single-lik) daha sonra tam-bağ (complete-link) algoritmalarına göre elde edilmiş kophenetik matrisler görülmektedir. C ( ) = ( ij) x1 x 2 D = x3 x D Cs 4 x1 x 2 = x3 x 4 x x x x x x x x (2.14) (2.15)

33 18 D Cc x1 x 2 = x3 x 4 x x x x (2.16) Tek-hat ve tam-hat algoritmalarının her ikisi de bu oluşturulan matrisler için aynı drogramlara sahiptirler. Tam-hat yapıya sahiptir (http://planetmath.org). D Cc matrisi mükemmel bir sıradüzensel 2.8 Kernel Fonksiyonları 4. bölüm de anlatılan Destek Vektör Makineleri ile kümeleme yönteminde, veri setinde bulunan noktalar önce daha büyük boyutlu bir uzaya taşınmakta ve bu uzayda kümeleme işlemleri yapılmaktadır. Bu işlemler sırasında iç çarpımların hesabına ihtiyaç duyulmaktadır. Bu nedenle, iç çarpımları daha basit hale getirebilmek amacıyla kernel fonksiyonlarından yararlanılmaktadır. (, ) ( ) ( ) K xz = Φ x Φ z (2.17) Φ( x) ifadesi, x noktalarını daha büyük boyutlu uzaya taşımak için kullanılan dönüşümü ifade etmektedir. Kernel fonksiyonu simetrik olmalıdır. Bu şartı sağlayan kernel fonksiyonlarına literatürde Mercer Kernel Fonksiyonları da denilmektedir. Tüm bu koşulları sağlayan kernel fonksiyonları ile yeni kernel fonksiyonları da türetilebilmektedir (Cristianini ve Taylor, 2003). Bu tezde 2.18 de verilen Gaussian (RBF) kernel fonksiyonu kullanılmıştır. 2 q i j K e x x ( i, j) x x = (2.18)

34 Gürültü Oranı (SNR) Veri setlerine eklenecek olan gürültü oranını ifade etmektedir ve denklem 2.19 daki ifade ile belirlenir: 2 σ v SNR = 10log (2.19) 10 2 ση Bu ifadede, 2 σ v veri setlerinin bileşenlerinin, 2 σ η ise eklenen gürültünün değişkesidir (variance) Kümeleme Problemi Kümeleme İşleminin Bölümleri Klasik bir örnek kümeleme işleminde takip edilmesi gereken adımlar şunlardır: 1) Örneklerin sunulması, 2) Örneklerin uzaklık ölçümlerinin veri tabanına uygun olarak tanımlanması, 3) Kümeleme veya gruplama, 4) Veri ayıklama (gerekli olduğu durumlarda yapılmaktadır), 5) Çıkışın değerlirilmesi (gerekli olduğu durumlarda yapılmaktadır). Yukarıda bulunan ilk üç adım Şekil 2.7 de görülmektedir. Geri besleme, kümeleme sonucunda elde edilen çıkışın, örnek uzaklık ölçümlerine ve özniteliklerin çıkarılmasına etki etmektedir. Örnekler Öznitelik Seçimi\Çıkarımı Örnek Sunumları Örnek Benzerliği Gruplama Kümeler Geri Besleme Çevrimi Şekil 2.7 Kümeleme Adımları

35 20 Örnek Sunumu, özniteliklerin sayısına, tipine ve kullanılabilecek örnek sayısı ile ilgilidir. Bu bilgilerden bazıları kullanıcı tarafından kontrol edilememektedir. Öznitelik Seçimi, kümelemede kullanılacak olan özniteliklerden oluşan en etkili alt kümenin belirlenmesi işlemidir. Öznitelik Çıkarımı, yeni öznitelikler oluşturabilmek amacı ile giriş özniteliklerinin bir veya daha fazla dönüşümlerinin kullanılmasıdır. Bu iki teknik, kümeleme işlemlerinde en uygun özniteliklerin ortaya çıkarılmasını sağlamaktadır. Örnek Yakınlıkları, örnek çiftlerine göre tanımlanmış bir uzaklık fonksiyonu ile belirlenmektedir. Bunlar arasında en yaygın olarak kullanılan uzaklık fonksiyonu Öklit fonksiyonudur. Gruplandırma, birkaç farklı yöntem ile yapılabilmektedir. Çıkış kümelirmeleri zor (verilerin gruplara ayrılması) veya bulanık (her bir verinin farklı kümelerde değişken üyelik derecesine sahip olması) olabilir. Sıradüzensel (Hierarchical) kümeleme algoritmaları sıralı bölümler serisinden meydana gelmektedir. Paylaştırmalı (Partitional) kümeleme algoritmaları ise herhangi bir kümeleme kriterini en iyi hale getiren bölümler belirlenmektedir. Bunlar dışında, olasılıksal, çizge tabanlı kümeleme algoritmaları da bulunmaktadır. İlerleyen bölümlerde bu konu daha detaylı biçimde incelenecektir. Veri Çıkarımı, veri setinin basit ve öz gösteriminin çıkarılması işlemidir (Jain ve diğerleri, 1999) Uzmanın Önemi Literatürde çok fazla kümeleme algoritması bulunduğundan dolayı, elde bulunan problemin çözümü için gerekli olan algoritmanın seçimi çok zor olmaktadır. Bu sorunu ortadan kaldırmak amacı ile algoritmaları birbirleriyle karşılaştırmada kullanılan çeşitli kriterler belirlenmiştir. Bu kriterler, (i) Kümeleri oluşturma tarzı, (ii) Verilerin yapısı (iii) Kümeleme tekniğinin verilerin yapısı üzerinde herhangi bir etkisi olmayan

36 21 değişiklikler karşısındaki hassasiyeti şeklindedir. Farklı yapılardaki veri setlerine uygulanabilecek tek bir kümeleme algoritması bulunmamaktadır. Bunun nedeni algoritmaların kümeleme yaparken izledikleri kriterlerden kaynaklanmaktadır (uzaklık ölçümleri, gruplandırma teknikleri gibi). Herhangi bir kümeleme tekniği kullanılırken, tekniğin işletilmesi dışında, verilerin elde edilme yöntemi ve uzman görüşleri de önemlidir. Kullanıcı ne kadar fazla bilgiye sahip ise kümeleme daha verimli ve etkili olmaktadır (Jain ve Dubes, 1988) Kümelerin Gösterimi Kümelerin veya sınıfların belirlenmesi gereken uygulamalarda, veri dizisinin paylaştırılması gerekmektedir. Bu paylaşım, veri noktalarının kümelere ayrılabilirliği hakkında bilgi vermektedir. Bunun yanı sıra, birçok uygulamada sonuç olarak ortaya çıkan kümeler, verilerin elde edilebilmesi amacıyla daha kısa ve öz olarak sunulmalı veya tanımlanmalıdır. Karar verme mekanizmalarında kümelerin gösterimi önemli bir adım olduğu halde araştırmacılar tarafından detaylı olarak incelenmemektedir. Buna göre, kümelerin gösterimi aşağıdaki üç şekilde yapılabilmektedir: (i) Noktaların bulunduğu kümeler, merkezleri ile veya kümede bulunan en dış noktalar ile temsil edilebilmektedir (Şekil 2.8). Şekil 2.8 Kümelerin Noktalar İle Gösterimi (Merkez (center) ve En Dış Noktalar İle Gösterim) (ii) Kümeler, sınıflandırma ağacında bulunan düğümler ile ifade edilebilmektedir. (iii) Bağlayıcı mantık ifadeleri ile de kümeler temsil edilebilmektedir. Şekil 2.9 da bulunan [ x 3][ x ] > <2 ifadesi, x 1 büyük 3 ve x 2 küçük 2 anlamına gelmektedir. 1 2

37 22 Şekil 2.9 Sınıflandırma Ağacı ve Bağlayıcı İfadeler ile Kümelerin Gösterilmesi Kümelerin merkezlerine göre temsil edilmesi en çok kullanılan yöntemdir, bu yöntem kümelerin yoğun ve aynı karakteristiğe sahip (izotropik) olmaları durumunda daha verimli olmaktadır. Bununla birlikte, kümelerin farklı karakteristiğe sahip olmaları durumunda bu metot kümeleri tam anlamıyla ifade edememektedir. Böyle bir durumda, kümenin sınır noktaları ile ifadesi daha elverişlidir. Bir kümeyi temsil ederken kullanılan noktaların sayısı, küme şeklinin karmaşıklığının artmasıyla artmaktadır. Şekil 2.9 da gösterilen iki farklı gösterimde birbiriyle eşdeğerdir. Sınıflandırma ağacında, kök düğüm ile yaprak düğüm arasında bulunan her yol bağlayıcı ifadeyi temsil etmektedir. Bu tez çalışmasında kullanılan veriler, küme sayısının önceden belli olmadığı farklı algoritmalar yardımı ile kümelere ayrılmış ve bu algoritmaların performansları, işlemler esnasında kullanılan bellek, gürültüye dayanıklılık ve işlemler esnasında kullanılan flop sayısı (MATLAB programının işlemleri gerçekleştirirken kullandığı adım sayısı) gibi kriterlere göre incelenmiştir. Verileri kümelere ayırmamızın asıl amacı, daha sonraki aşamalarda kullanılacak olan öğrenebilen sistemlere (yapay sinir ağı veya destek vektörleri makinesi modellerine) verileri daha kolay ve hızlı bir şekilde öğretebilmektir. Dağınık verileri öğrenmektense kümeler halindeki verileri öğrenmek daha hızlı ve verimli olmaktadır. Bu nedenle kümeleme işlemi yapılmaktadır. Şekil 2.10 da dağınık ve Şekil 2.11 de kümelenmiş veriler görülmektedir.

38 23 Şekil 2.10 Saçılmış Veriler Şekil 2.11 Kümelere Ayrılmış Veriler

39 ÜÇÜNCÜ BÖLÜM KÜMELEME YÖNTEMLERİ VE ALGORİTMALARI 3. KÜMELEME YÖNTEMLERİ ve ALGORİTMALARI 3.1. Kümeleme Yöntemleri Verilerin kümelere ayrılmasında kullanılan çok çeşitli algoritmalar ve yöntemler bulunmaktadır. Bu bölümde en çok kullanılan algoritma çeşitleri ve yöntemleri tanımlanmaktadır. Birinci bölümde kümeleme işlemi, bir çeşit sınıflandırma olarak tanımlanmıştır. Sınıflandırma (Classification) Özel (Exclusive) Özel Olmayan (Non-Exclusive) Öğreticili (Supervised, Extrinsic) Öğreticisiz (Unsupervised, Intrinsic) Geleneksel Algoritmalar Kümeleme (Clustering) (Dahili Sınıflandırma) Yeni Nesil Algoritmalar Sıradüzensel (Hierarchical) Paylaştırmalı (Partitional) Büyük VT Large DB Kategorik Categorical Tek Bağ (Single Link) Kip Arama (Mode Seeking) k-yol Tam Bağ (Complete Link) Karesel Hata Karışım Ayırma (Mixture Resolving) Çizge Kuramlı (Graph Theoretic) Beklenti Maksimizasyonu (Expectation Maximization) Şekil 3.1 Sınıflandırma ve Kümeleme Çeşitleri

40 Özel ve Özel-Olmayan Sınıflandırma Özel Sınıflandırma, nesnelerin bölümlere ayrılmasıdır. Her nesne, tamamen tek bir kümeye veya altkümeye aittir. Özel-Olmayan (örtüşen) Sınıflandırma ise, bir nesneyi birden fazla sınıfa dahil etmektedir. Örneğin, insanları boy veya göz renklerine göre sınıflandırma özel sınıflandırma iken, insanları geçirdikleri hastalıklara göre sınıflandırma özel-olmayan sınıflandırmadır (bir insan birden fazla hastalık geçirmiş olabilir). Bulanık kümeleme, nesnelerin birden fazla kümeye (derecelerine göre) üye olduğu bir çeşit özel-olmayan sınıflandırmadır (Jain ve Dubes, 1988) Harici ve Dahili Sınıflandırma Dahili Sınıflandırma da sadece yakınlık matrisi (proximity matrix) kullanılmaktadır. Aynı zamanda, sınıflandırma yapılırken ön bilgiye sahip olunmadığından dolayı, Öğreticisiz Öğrenme olarak da adlandırılmaktadır. Harici Sınıflandırma ise, yakınlık matrisi dışında, nesnelerin kategori niteliklerini de kullanmaktadır. Örneğin, sigara kullanan ve kullanmayan insanlardan oluşan bir topluluk göz önünde bulundurulursa, dahili sınıflandırma, bireyleri sağlık durumlarına göre ayırır ve sigara içmenin çeşitli hastalıklara yakalanmadaki etkisini inceler. Harici sınıflandırma ise, sigara içenleri ve içmeyenleri sağlık durumlarına göre sınıflandırır. Verilerin kümelere ayrılması da dahili sınıflandırmadır ve küme analizi konusunun özünü oluşturmaktadır Sıradüzensel ve Paylaştırmalı Sınıflandırma Sıradüzensel sınıflandırma, iç içe sıralanmış bölümlerden oluşmaktadır. Paylaştırmalı Sınıflandırma ise tek bölümden oluşmaktadır. Bu nedenle sıradüzensel sınıflandırma, paylaştırmalı sınıflandırmanın özel bir durumudur. Bu iki konu daha detaylı olarak ilerleyen sayfalarda incelenmektedir.

41 Toplayıcı ve Bölücü Algoritmalar Toplayıcı (Agglomerative) algoritmalarda, başlangıçta her bir veri bir küme olarak kabul edilmektedir ve kademe kademe bu altkümeler, tek bir küme oluşturuluncaya kadar birleştirilir. Bölücü (Divisive) algoritmalarda ise, tüm veriler tek bir küme olarak kabul edilir ve bu küme kademe kademe alt kümelere ayrılır Seri ve Eşzamanlı Algoritmalar Seri (Serial) algoritmalar veriler üzerinde tek tek işlem yapmaktadır. Eşzamanlı (Simultaneous) algoritmalar ise, tüm veriler üzerinde aynı anda işlem yapmaktadır Monothetic ve Polythetic Algoritmalar Bu algoritmalar genellikle, nesnelerin örnekler veya belirli bir uzayda tanımlanmış noktalar olarak tanımlandığı, taksonomi (cinsine göre sınıflandırma) problemlerinde kullanılmaktadır. Monothetic algoritmalar öznitelikleri tek tek kullanmasına rağmen (tek bir karakteristiğe göre gruplandırmaktadır), Polythetic algoritmalar tüm öznitelikleri aynı anda kullanmaktadır (birden fazla karakteristiğe göre gruplandırmaktadır). Algoritmaların çoğu Polythetic tir bunun nedeni, noktalar arasındaki uzaklıklar hesaplanırken kullanılan özniteliklerin hepsi bu uzaklıklara dayanmaktadır. Şekil 3.2 de noktalar x 1 özniteliği kullanılarak iki gruba ayrılmıştır, dikey V çizgisi ayırma düzlemidir. Bu iki küme daha sonra x 2 özniteliğini kullanarak iki gruba daha ayrılabilmektedir ( ve H yatay çizgileri). H1 2

42 27 Şekil 3.2 Monothetic Paylaştırmalı Kümeleme Çizge Kuramı ve Matris Cebri Bilgisayarda herhangi bir algoritma gerçekleştirilirken, sayısal verimliliğe dikkat edilmelidir. Çizge kuramında, eksiksizlik (completeness) ve bağlanmışlık (connectedness) gibi terimler göz önünde bulundurulmaktadır. Diğer algoritmalarda ise, karesel hata değeri gibi cebrik ifadeler yer almaktadır. Kümelenecek olan örneklerin düğümlerle ve örnekler arasındaki ilişkilerin kenarlar ile ifade edildiği yapılara çizge denilmektedir. Kenarların ağırlık değerleri örnekler arasındaki uzaklık değerlerini ifade etmektedir. Kümelemenin amacına uygun olarak; aynı kümede bulunan noktalar farklı kümelerde bulunan noktalara göre birbirlerine daha yakındır. Kümeleme metotları, uyuşmayan kenarları belirleyerek ve silerek çizgeleri bağlanmış elemanlar haline getirirler. Her eleman bir kümeyi temsil etmektedir. Çizge kuramına ait daha detaylı bilgi ikinci bölümde yer almaktadır Katı ve Bulanık Algoritmalar Katı (Hard) kümeleme algoritmalarında her veri ayrı bir kümeye ait olmaktadır. Bulanık kümelemede ise bir veri birden fazla kümeye ait olabilmektedir. Bulanık (Fuzzy) kümeleme, noktaların en yüksek üyelik derecesine sahip kümelere yerleştirilmesiyle sert kümelemeye dönüştürülebilmektedir.

43 Artan ve Artmayan Algoritmalar Veri setinin çok büyük olduğu, işlem zamanının ve kullanılan hafızanın algoritma üzerinde kısıtlamalara sebep olduğu durumlarda kullanılmaktadır. Kullanılan ilk algoritmalar büyük boyutlu veriler için tasarlanmamıştır, fakat veri madenciliğinin gelişmesi algoritmalarında geliştirilmesine yardımcı olmuştur. 3.2 Sıradüzensel Kümeleme Algoritmaları Sıradüzensel kümeleme (Hierarchical Clustering), verilerin birbirlerine olan uzaklıklarından oluşturulmuş yakınlık matrisini iç içe sıralı bölümler şekline dönüştüren bir metottur. Sıradüzensel kümeleme algoritması ise, sıradüzensel kümeleme yapabilmek için gerekli olan adımların tanımlanmasıdır. Kümelenecek n adet veri x vektörü ile gösterilmektedir. x x1 x = 2 M xn T (3.1) B kümesinin tüm elemanları, L kümesinin bir alt kümesi ise, B kümesi, L kümesinin içine yuvalanmıştır. Aşağıdaki örnekte daha açık şekilde görülmektedir. {(,,, ), (,,, ), (, 9 10) } B = x x x x x x x x x x (3.2) {(, 1 3),(, ), 5 7 ( 2), (,, 4 6 8), (, 9 10)} L= x x x x x x x x x x (3.3) {(,,, ),(,,, ), (, 9 10)} M = x x x x x x x x x x (3.4) B ve L kümelerinden hiçbiri M kümesinin içine yuvalanmamıştır, benzer şekilde M kümesi de B ve L kümelerinden hiçbirinin içine yuvalanmamıştır. Şekil 3.3 de iki boyutlu bir veri setinin kümelenmesi görülmektedir. Burada A, B, C, D, E, F ve G

44 29 noktaları üç ayrı kümeye ayrılmıştır. Bu iç içe sıralı grupları gösterebilmek amacı ile Drogram olarak adlandırılan gösterim şekli kullanılmaktadır. Sıradüzensel kümelemenin en büyük özelliği, verilerin çok rahat bir şekilde gözlemlenebilmesini sağlayan, Şekil 3.4 deki gibi şekillerin olmasıdır. Drogram, sıradüzensel kümelemeye ait özel bir gösterim şeklidir ve kümelerin ifade edildiği, farklı seviyelerde bulunan düğümlerden oluşmaktadır. Düğümleri birleştiren çizgiler ise birbiri içine yuvalanmış kümeleri ifade etmektedir. Drogram istenilen seviyelerden kesilebilmekte ve o seviyede kaç farklı küme olduğu görülebilmektedir. Yakınlık çizgesi (proximity graph), her kenarın birbirine olan yakınlıklarına göre belli ağırlıklara sahip olduğu eşik çizgeleridir (threshold graph). Yakınlık matrisine göre çizilen drogramlar, yakınlık drogramları olarak adlandırılmaktadır ve aynı anda hem kümeleri ve yakınlık değerlerini içermektedir. Yakınlık drogramları, yakınlık değerlerinin aralık değerleri veya oransal değerler olduğu durumlarda daha kullanışlıdır. Şekil 3.3 Noktaların Farklı Kümelere Ayrılması Şekil 3.4 Tek-Bağ Algoritmasına Göre Belirlenmiş Drogram

45 30 Sıradüzensel kümeleme algoritmalarının çoğu, tek-bağ (single-link), tam-bağ (complete-link) veya minimum-değişke (minimum-variance) algoritmalarından oluşmaktadır. Bunlardan en çok kullanılan algoritmalar tek-bağ ve tam-bağ algoritmalarıdır. Bu iki algoritma, küme çiftleri arasındaki benzerlikleri modelleme yapılarına göre farklılık göstermektedir. Tek-Bağ algoritmalarında, iki küme arasında bulunan uzaklık, Şekil 3.5 deki gibi tüm veri çiftleri arasındaki uzaklıklardan en küçük değerde olanıdır. Tam-Bağ algoritmalarda ise Şekil 3.6 daki gibi, uzaklıklar arasından en büyük değerde olanıdır. Her iki durumda da kümeler, en kısa uzaklık kriterine bağlı olarak daha büyük bir küme oluşturabilmek amacıyla birleştirilmektedir. Tam-Bağ algoritmasıyla oluşturulan kümelere Tek-Bağ ile oluşturulan kümelere göre daha kısa ve yoğun olmaktadır. Tek-Bağ algoritması, Tam-Bağ algoritmasına göre çok yönlüdür. Şekil 3.7 de görülen eşmerkezli iki küme Tek-Bağ algoritmaları ile kümelere ayrılabilir fakat Tam-Bağ algoritmaları ile işlem yapılamamaktadır. Bununla birlikte, sebep-sonuç ilişkisine dayalı çalışmalarda Tam-Bağ algoritması daha kullanışlı hiyerarşiler meydana getirmektedir. Şekil 3.5 Tek-Bağ Kümeleme (1, 2 ve gürültü örnekleri,*)

46 31 Şekil 3.6 Tam-Bağ Kümeleme (1, 2 ve gürültü örnekleri, *) Şekil 3.7 Eşmerkezli İki Küme Tek-Bağ, Tam-Bağ ve Grup Ortalama Algoritmaları Bu algoritmaların uygulanabilmesi için öncelikle, simetrik, matrisinin elde edilmesi gerekmektedir ( D d ( i, j ) ) = matrisi ve başlangıç çizgesi (eşik çizgesi) gösterilmektedir. nn x boyutlu yakınlık. Aşağıda örnek bir yakınlık 5 x x x x x x x D = x x x ; n= 5 (3.5) Başlangıç çizgesi, yönü kesin olarak belli olmayan, ağırlıkları bulunmayan ve iç çevrime sahip olmayan çizgedir ve G ( v) ile ifade edilmektedir (v, farklılık değerini

47 32 belirtmektedir). G ( v), ikili ilişkileri tanımlamaktadır. Eğer (, ) düşük ise ve sadece d( i, j) i j değeri, değerinden i ve j arasına kenar (edge) yerleştirilmektedir. Kısaca, ( i, j) G ( v) sadece v durumu için geçerlidir. Şekil 3.8 de v = 5 eşik değeri için yakınlık matrisi ve başlangıç çizgesi görülmektedir. v Şekil 3.8 İkili İlişkiler ve Başlangıç Grafiği Bu eşik çizgesine bağlı olarak çok farklı algoritmalar türetilmiştir bunlar ilerleyen sayfalarda anlatılmaktadır. Her iki çeşit algoritma da, derece belirten farklılık matrisine dayanarak işlem yapmaktadır ve sonuç olarak, drogramlarla ifade edilebilen, iç içe sıralanmış kümeler meydana getirmektedir Toplayıcı Algoritma (Tek-Bağ Kümeleme) ( ) 1) G 0 eşik çizgesi ile belirtilen, her noktayı ki kümesine yerleştiren ve kenarları bulunmayan ayrık kümeler ile başlanır ve G ( ) G ( k ) 2) k eşik çizgesi oluşturulur. Eğer, k = 1 olarak belirlenir. nın elemanlarının sayısı (en fazla bağlı alt çizge maximally connected subgraph) o anda bulunan kümelerin sayısından az ise, G ( k ) tekrar tanımlanır. nın her bir elemanını ayrı bir küme olarak belirlenir ve kümeleme işlemini ( ) 3) Eğer G k, tekli bağlanmış çizge içeriyorsa işleme son verilir. Değilse, k k+ 1 yapılır ve 2. adıma dönülür.

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

İÇİNDEKİLER İÇİNDEKİLER KODLAB

İÇİNDEKİLER İÇİNDEKİLER KODLAB İÇİNDEKİLER IX İÇİNDEKİLER 1 GİRİŞ 1 Kitabın Amacı 1 Algoritmanın Önemi 2 Bilgisayarın Doğuşu ve Kullanım Amaçları 3 Programlama Dili Nedir? 3 Entegre Geliştirme Ortamı (IDE) Nedir? 4 2 ALGORİTMA VE AKIŞ

Detaylı

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım;

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= 1 1 + + Genel: Vektörler bölümünde vektörel iç çarpım; İÇ ÇARPIM UZAYLARI 7. BÖLÜM İÇ ÇARPIM UZAYLARI Genel: Vektörler bölümünde vektörel iç çarpım;.= 1 1 + + Açıklanmış ve bu konu uzunluk ve uzaklık kavramlarını açıklamak için kullanılmıştır. Bu bölümde öklit

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Akademik Bilişim 2013 Akdeniz Üniversitesi, Antalya, 23-25 Ocak 2013 Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Oğuz Akpolat 1 *, Sinem Çağlar Odabaş 2, Gülçin Özevci 3, Nezahat İpteş 4 1 Muğla

Detaylı

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması Nilay Kurşunoğlu, PwC Yönetim Danışmanlığı Biz Kimiz? Orhan Cem Sorumlu

Detaylı

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Bulanık Mantık Tabanlı Uçak Modeli Tespiti Bulanık Mantık Tabanlı Uçak Modeli Tespiti Hüseyin Fidan, Vildan Çınarlı, Muhammed Uysal, Kadriye Filiz Balbal, Ali Özdemir 1, Ayşegül Alaybeyoğlu 2 1 Celal Bayar Üniversitesi, Matematik Bölümü, Manisa

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX

ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX XI İÇİNDEKİLER ÖZET...V ABSTRACT...VII TEŞEKKÜR... IX ŞEKİLLER DİZİNİ... XIV SÖZLÜK... XIX 1. GİRİŞ... 1 2. PLANLAMANIN TARİHÇESİ... 7 2.1 Literatürdeki Planlayıcılar ve Kullandıkları Problem... Gösterimi

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

İş Zekâsı Sistemi Projesi

İş Zekâsı Sistemi Projesi BI İş Zekâsı Sistemi Projesi Ulaş Kula, Bilişim Ltd. Esinkap 5. Ar-Ge Proje Pazarı 31 Mayıs 2012 Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza

Detaylı

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14

BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 İÇİNDEKİLER Önsöz. V BÖLÜM I MATEMATİK NEDİR? 13 1.1. Matematik Nedir? 14 BÖLÜM II KÜMELER 17 2.1.Küme Tanımı ve Özellikleri 18 2.2 Kümelerin Gösterimi 19 2.2.1 Venn Şeması Yöntemi 19 2.2.2 Liste Yöntemi

Detaylı

Veri Yapıları Laboratuvarı

Veri Yapıları Laboratuvarı 2013 2014 Veri Yapıları Laboratuvarı Ders Sorumlusu: Yrd. Doç. Dr. Hakan KUTUCU Lab. Sorumlusu: Arş. Gör. Caner ÖZCAN İÇİNDEKİLER Uygulama 1: Diziler ve İşaretçiler, Dinamik Bellek Ayırma... 4 1.1. Amaç

Detaylı

BIP116-H14-1 BTP104-H014-1

BIP116-H14-1 BTP104-H014-1 VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN Giriş Bilgi teknolojisindeki gelişmeler ve verilerin dijital ortamda saklanmaya başlanması ile yeryüzündeki bilgi miktarı her 20 ayda iki katına

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

bilişim ltd İş Zekâsı Sistemi

bilişim ltd İş Zekâsı Sistemi BI İş Zekâsı Sistemi Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza atan öncü bir yazılımevi ve danışmanlık kurumu dur. Önemli kuruluşların bilgi

Detaylı

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI

2 ALGORİTMA VE AKIŞ DİYAGRAMLARI İÇİNDEKİLER IX İÇİNDEKİLER 1 GİRİŞ 1 Kitabın Amacı 1 Algoritmanın Önemi 2 Bilgisayarın Doğuşu ve Kullanım Amaçları 3 Programlama Dili Nedir? 3 Entegre Geliştirme Ortamı (IDE) Nedir? 4 2 ALGORİTMA VE AKIŞ

Detaylı

ERCİYES ÜNİVERSİTESİ KİMYA ANABİLİM DALI

ERCİYES ÜNİVERSİTESİ KİMYA ANABİLİM DALI İlaç Tasarımında Yeni Yazılımların Geliştirilmesi: Elektron Konformasyonel-Genetik Algoritma Metodu ile Triaminotriazin Bileşiklerinde Farmakofor Belirlenmesi ve Nicel Biyoaktivite Hesabı; ERCİYES ÜNİVERSİTESİ

Detaylı

8.Konu Vektör uzayları, Alt Uzaylar

8.Konu Vektör uzayları, Alt Uzaylar 8.Konu Vektör uzayları, Alt Uzaylar 8.1. Düzlemde vektörler Düzlemdeki her noktası ile reel sayılardan oluşan ikilisini eşleştirebiliriz. Buna P noktanın koordinatları denir. y-ekseni P x y O dan P ye

Detaylı

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Graflar bilgi parçaları arasındaki ilişkileri gösterirler. Graflar (Graphs) Graf gösterimi Uygulama alanları Graf terminolojisi Depth first dolaşma Breadth first dolaşma Topolojik sıralama Yrd.Doç.Dr. M. Ali Akcayol Graflar Graflar bilgi parçaları arasındaki ilişkileri

Detaylı

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI Araştırmalarda incelenen olaylar göstermektedir ki tek değişkenli istatistiklerin kullanılması problemi açıklamakta yetersiz ve eksik kalmaktadır.

Detaylı

OYUN TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

OYUN TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü OYUN TEORİSİ Özlem AYDIN Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü TANIM ''Oyun Teorisi'', iki yada daha fazla rakibi belirli kurallar altında birleştirerek karşılıklı olarak çelişen olasılıklar

Detaylı

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ Yasemin ŞİŞMAN, Ülkü KIRICI Sunum Akış Şeması 1. GİRİŞ 2. MATERYAL VE METHOD 3. AFİN KOORDİNAT DÖNÜŞÜMÜ 4. KALİTE KONTROL 5. İRDELEME

Detaylı

Üç Boyutlu Serpilme (Saçılım) Grafikleri

Üç Boyutlu Serpilme (Saçılım) Grafikleri Üç Boyutlu Serpilme (Saçılım) Grafikleri 3D Scatterplot of boy vs kol vs bacak 90 boy 0 70 0 90 70 00 0 bacak 0 0 90 kol 3D Scatterplot of kol vs omuz vs kalca 90 kol 0 70 00 kalca 0 0 0 0 00 omuz Merkez

Detaylı

MAKİNE ELEMANLARI DERS SLAYTLARI

MAKİNE ELEMANLARI DERS SLAYTLARI MAKİNE ELEMANLARI DERS SLAYTLARI TOLERANSLAR P r o f. D r. İ r f a n K A Y M A Z P r o f. D r. A k g ü n A L S A R A N A r ş. G ör. İ l y a s H A C I S A L I H O Ğ LU Tolerans Gereksinimi? Tasarım ve üretim

Detaylı

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ Metin Madenciliği VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki

Detaylı

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER SPSS in üzerinde işlem yapılabilecek iki ana ekran görünümü vardır. DATA VIEW (VERİ görünümü) VARIABLE VIEW (DEĞİŞKEN görünümü) 1 DATA VIEW (VERİ görünümü) İstatistiksel

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir. ÇELĐK YÜZEYLERĐN SINIFLANDIRILMASI * Cem ÜNSALAN ** Aytül ERÇĐL * Ayşın ERTÜZÜN *Boğaziçi Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü unsalan@boun.edu.tr **Boğaziçi Üniversitesi, Endüstri Mühendisliği

Detaylı

UZAKTAN EĞİTİM MERKEZİ

UZAKTAN EĞİTİM MERKEZİ ÜNİTE 2 VERİ TABANI İÇİNDEKİLER Veri Tabanı Veri Tabanı İle İlgili Temel Kavramlar Tablo Alan Sorgu Veri Tabanı Yapısı BAYBURT ÜNİVERSİTESİ UZAKTAN EĞİTİM MERKEZİ BİLGİSAYAR II HEDEFLER Veri tabanı kavramını

Detaylı

Görüntü Segmentasyonu (Bölütleme)

Görüntü Segmentasyonu (Bölütleme) Görüntü Segmentasyonu (Bölütleme) Segmentasyon, görüntüyü aynı cinsten obje ve bölgelere ayırmaktır. 20 Aralık 2014 Cumartesi 1 Görüntü Segmentasyonu 20 Aralık 2014 Cumartesi 2 Gestalt kanunları Görüntü

Detaylı

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak 10.Konu İç çarpım uzayları ve özellikleri 10.1. ve üzerinde uzunluk de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor teoreminden dir. 1.Ö.: [ ] ise ( ) ( ) ve ( ) noktaları gözönüne alalım.

Detaylı

ÜAS DA SUNULAN BİLDİRİLER KAPSAMINDA İMALAT İŞLETMELERİNİN ÜRETİM SORUNLARINA BAKIŞI

ÜAS DA SUNULAN BİLDİRİLER KAPSAMINDA İMALAT İŞLETMELERİNİN ÜRETİM SORUNLARINA BAKIŞI V. Ulusal Üretim Araştırmaları Sempozyumu, İstanbul Ticaret Üniversitesi, 25-27 Kasım 2005 ÜAS DA SUNULAN BİLDİRİLER KAPSAMINDA İMALAT İŞLETMELERİNİN ÜRETİM SORUNLARINA BAKIŞI Halil SAVAŞ Pamukkale Üniversitesi

Detaylı

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL VERİ MADENCİLİĞİ Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL SPRINT Algoritması ID3,CART, ve C4.5 gibi algoritmalar önce derinlik ilkesine göre çalışırlar ve en iyi dallara ayırma kriterine

Detaylı

Mühendislikte Sayısal Çözüm Yöntemleri NÜMERİK ANALİZ. Prof. Dr. İbrahim UZUN

Mühendislikte Sayısal Çözüm Yöntemleri NÜMERİK ANALİZ. Prof. Dr. İbrahim UZUN Mühendislikte Sayısal Çözüm Yöntemleri NÜMERİK ANALİZ Prof. Dr. İbrahim UZUN Yayın No : 2415 İşletme-Ekonomi Dizisi : 147 5. Baskı Eylül 2012 - İSTANBUL ISBN 978-605 - 377-438 - 9 Copyright Bu kitabın

Detaylı

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi İçindekiler 1 Özet... 2 2 Giriş... 3 3 Uygulama... 4 4 Sonuçlar... 6 1 1 Özet Web sunucu logları üzerinde veri madenciliği yapmanın temel

Detaylı

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU Dersin Adı-Kodu: BİS 601 Örnek Genişliği ve Güç Programın Adı: Biyoistatistik Dersin düzeyi Doktora Ders saatleri ve Teori Uyg. Lab. Proje/Alan Çalışması

Detaylı

2. SÜREKLİ DENETİME İLİŞKİN GENEL BİLGİLER

2. SÜREKLİ DENETİME İLİŞKİN GENEL BİLGİLER İÇİNDEKİLER İÇİNDEKİLER... v TABLO LİSTESİ... xi ŞEKİL LİSTESİ... xiii KISALTMALAR... xiv 2. SÜREKLİ DENETİME İLİŞKİN GENEL BİLGİLER... 4 2.1. SÜREKLİ DENETİMİN TANIMI... 4 2.2. SÜREKLİ DENETİM İLE GELENEKSEL

Detaylı

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21 İçindekiler Önsöz İkinci Basım için Önsöz Türkçe Çeviri için Önsöz Gösterim xiii xv xvii xix 1 Giriş 1 1.1 Yapay Öğrenme Nedir?......................... 1 1.2 Yapay Öğrenme Uygulamalarına Örnekler...............

Detaylı

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr 1 Araştırmalarda

Detaylı

VEKTÖR UZAYLARI 1.GİRİŞ

VEKTÖR UZAYLARI 1.GİRİŞ 1.GİRİŞ Bu bölüm lineer cebirin temelindeki cebirsel yapıya, sonlu boyutlu vektör uzayına giriş yapmaktadır. Bir vektör uzayının tanımı, elemanları skalar olarak adlandırılan herhangi bir cisim içerir.

Detaylı

SÜREKLİ RASSAL DEĞİŞKENLER

SÜREKLİ RASSAL DEĞİŞKENLER SÜREKLİ RASSAL DEĞİŞKENLER Sürekli Rassal Değişkenler Sürekli Rassal Değişken: Değerleriölçümyadatartımla elde edilen, bir başka anlatımla sayımla elde edilemeyen, değişkene sürekli rassal değişken denir.

Detaylı

CAEeda ÇÖZÜMÜ YAPILMIŞ NACA 0012 KANADI İÇİN 2B ÇİZİM EĞİTİM NOTU. EDA Tasarım Analiz Mühendislik

CAEeda ÇÖZÜMÜ YAPILMIŞ NACA 0012 KANADI İÇİN 2B ÇİZİM EĞİTİM NOTU. EDA Tasarım Analiz Mühendislik CAEeda TM ÇÖZÜMÜ YAPILMIŞ NACA 0012 KANADI İÇİN 2B ÇİZİM EĞİTİM NOTU EDA Tasarım Analiz Mühendislik 1. Kapsam Çözümü yapılmış *.pos.edf dosyasında bulunan çözümağını al. Sonlu eleman modeli üzerinde bulunan

Detaylı

Algoritmalar ve Karmaşıklık

Algoritmalar ve Karmaşıklık Algoritmalar ve Karmaşıklık Ders 11 Algoritma Ayrık matematikte karşılaşılan bir çok problem sınıfı mevcuttur. Örneğin, verilen tamsayı grubu içindeki en büyük olanının bulunması, verilen bir kümenin bütün

Detaylı

Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi. R. Haluk KUL TC Beykent Üniversitesi, hkul@beykent.edu.

Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi. R. Haluk KUL TC Beykent Üniversitesi, hkul@beykent.edu. Şehir ve Bölge Planlamada Tasarım Değişkeni Boğuculuk Fonksiyonu için Değişkeleme Önerisi R. Haluk KUL TC Beykent Üniversitesi hkul@beykent.edu.tr ÖZET Uydu Kentlerin tasarımında kullanılmak üzere önerilen

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

BİLGİSAYAR DESTEKLİ TASARIM HAFTA 6 COSMOSWORKS İLE ANALİZ

BİLGİSAYAR DESTEKLİ TASARIM HAFTA 6 COSMOSWORKS İLE ANALİZ BİLGİSAYAR DESTEKLİ TASARIM HAFTA 6 COSMOSWORKS İLE ANALİZ Makine parçalarının ve/veya eş çalışan makine parçalarından oluşan mekanizma veya sistemlerin tasarımlarında önemli bir aşama olan ve tasarıma

Detaylı

ELN1002 BİLGİSAYAR PROGRAMLAMA 2

ELN1002 BİLGİSAYAR PROGRAMLAMA 2 ELN1002 BİLGİSAYAR PROGRAMLAMA 2 VERİ YAPILARI Sunu Planı Kendini-gösteren Yapılar Dinamik Bellek Tahsisi Bağlı Listeler Yığınlar Kuyruklar Ağaçlar 1 Veri Yapıları Şu ana kadar, diziler, matrisler ve yapılar

Detaylı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. Örnek Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. i. ii. X 1 2 3 4 1 2 3 4 Y 2 3 4 5 4 3 2 1 Örnek Aşağıdaki veri

Detaylı

Excel de Pivot Tablolar Tasarım ve Kullanımı

Excel de Pivot Tablolar Tasarım ve Kullanımı FARUK ÇUBUKÇU EXCEL AKADEMİ Excel de Pivot Tablolar Tasarım ve Kullanımı Pivot tablolar; satışlar, siparişler gibi verileri gruplamayı, alt toplamlarını almayı ve filtreleme işlemleri yapmayı sağlayan

Detaylı

İRİSTEN KİMLİK TANIMA SİSTEMİ

İRİSTEN KİMLİK TANIMA SİSTEMİ ÖZEL EGE LİSESİ İRİSTEN KİMLİK TANIMA SİSTEMİ HAZIRLAYAN ÖĞRENCİLER: Ceren KÖKTÜRK Ece AYTAN DANIŞMAN ÖĞRETMEN: A.Ruhşah ERDUYGUN 2006 İZMİR AMAÇ Bu çalışma ile, güvenlik amacıyla kullanılabilecek bir

Detaylı

Kalite Kontrol Yenilikler

Kalite Kontrol Yenilikler Kalite Kontrol Yenilikler Amaç ve Fayda Kalite Kontrol modülünde ISO 2859 standardının desteklenmesine, kullanımın daha fonksiyonel ve rahat olabilmesine yönelik bazı iyileştirme çalışmaları yapılmıştır.

Detaylı

2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics

2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics 2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics Özet: Bulanık bir denetleyici tasarlanırken karşılaşılan en önemli sıkıntı, bulanık giriş çıkış üyelik fonksiyonlarının

Detaylı

Algoritmaların Karşılaştırılması. Doç. Dr. Aybars UĞUR

Algoritmaların Karşılaştırılması. Doç. Dr. Aybars UĞUR Algoritmaların Karşılaştırılması Doç. Dr. Aybars UĞUR Giriş Bir programın performansı genel olarak programın işletimi için gerekli olan bilgisayar zamanı ve belleğidir. Bir programın zaman karmaşıklığı

Detaylı

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİNE BAKIŞ VERİ MADENCİLİĞİNE BAKIŞ İçerik Veri Madenciliği Neden Veri Madenciliği? Veri ve Veri Madenciliğinin Önemi Günümüzde Kullanılan Veri Madenciliğinin Çeşitli İsimleri Veri Madenciliği Nedir? Neden Veri Madenciliği?

Detaylı

BENZETİM. Prof.Dr.Berna Dengiz

BENZETİM. Prof.Dr.Berna Dengiz Prof.Dr.Berna Dengiz 2. Ders Sistemin Performans.. Ölçütleri Sistem Türleri Benzetim Modelleri Statik veya Dinamik Deterministik ( belirli ) & Stokastik ( olasılıklı) Kesikli & Sürekli Sistemin Performans

Detaylı

İstatistiksel Kalite Kontrol BBY 374 TOPLAM KALİTE YÖNETİMİ 18 NİSAN 2014

İstatistiksel Kalite Kontrol BBY 374 TOPLAM KALİTE YÖNETİMİ 18 NİSAN 2014 İstatistiksel Kalite Kontrol BBY 374 TOPLAM KALİTE YÖNETİMİ 18 NİSAN 2014 İstatistiksel kalite kontrol o Üretim ve hizmet süreçlerinin ölçülebilir veriler yardımıyla istatistiksel yöntemler kullanılarak

Detaylı

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI .. MAK MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI Polinom MATLAB p=[8 ] d=[ - ] h=[ -] c=[ - ] POLİNOMUN DEĞERİ >> polyval(p, >> fx=[ -..9 -. -.9.88]; >> polyval(fx,9) ans =. >> x=-.:.:.; >> y=polyval(fx,;

Detaylı

EXCEL DE BENZETİM ÖRNEKLERİ BMÜ-422 BENZETİM VE MODELLEME

EXCEL DE BENZETİM ÖRNEKLERİ BMÜ-422 BENZETİM VE MODELLEME EXCEL DE BENZETİM ÖRNEKLERİ BMÜ-422 BENZETİM VE MODELLEME GİRİŞ Bu bölümde benzetim için excel örnekleri önerilmektedir. Örnekler excel ile yapılabileceği gibi el ile de yapılabilir. Benzetim örnekleri

Detaylı

(a,b) şeklindeki ifadelere sıralı ikili denir. Burada a'ya 1. bileşen b'ye 2. bileşen denir.

(a,b) şeklindeki ifadelere sıralı ikili denir. Burada a'ya 1. bileşen b'ye 2. bileşen denir. BĞANTI - FONKSİYON 1. Sıralı İkili : (a,b) şeklindeki ifadelere sıralı ikili denir. Burada a'ya 1. bileşen b'ye 2. bileşen denir.! (x 1,x 2, x 3,x 4,...x n ) : sıralı n li denir. Örnek, (a,b,c) : sıralı

Detaylı

C PROGRAMLAMA YRD.DOÇ.DR. BUKET DOĞAN PROGRAM - ALGORİTMA AKIŞ ŞEMASI

C PROGRAMLAMA YRD.DOÇ.DR. BUKET DOĞAN PROGRAM - ALGORİTMA AKIŞ ŞEMASI C PROGRAMLAMA DİLİ YRD.DOÇ.DR. BUKET DOĞAN 1 PROGRAM - ALGORİTMA AKIŞ ŞEMASI Program : Belirli bir problemi çözmek için bir bilgisayar dili kullanılarak yazılmış deyimler dizisi. Algoritma bir sorunun

Detaylı

Algoritma ve Akış Diyagramları

Algoritma ve Akış Diyagramları Algoritma ve Akış Diyagramları Bir problemin çözümüne ulaşabilmek için izlenecek ardışık mantık ve işlem dizisine ALGORİTMA, algoritmanın çizimsel gösterimine ise AKIŞ DİYAGRAMI adı verilir 1 Akış diyagramları

Detaylı

BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı BULANIK MANTIK VE SİSTEMLERİ 2014 2015 BAHAR DÖNEMİ ÖDEV 1 Müslüm ÖZTÜRK 148164001004 Bilişim Teknolojileri Mühendisliği ABD Doktora Programı Mart 2015 0 SORU 1) Bulanık Küme nedir? Bulanık Kümenin (fuzzy

Detaylı

Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri. BBY606 Araştırma Yöntemleri 2013-2014 Bahar Dönemi 13 Mart 2014

Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri. BBY606 Araştırma Yöntemleri 2013-2014 Bahar Dönemi 13 Mart 2014 Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri BBY606 Araştırma Yöntemleri 2013-2014 Bahar Dönemi 13 Mart 2014 1 Konum ölçüleri Merkezi eğilim ölçüleri Verilerin ortalamaya göre olan gruplanması nasıl?

Detaylı

DARÜŞŞAFAKA LİSESİ SALİH ZEKİ LİSE ÖĞRENCİLERİ ARASI MATEMATİK PROJELERİ YARIŞMASI

DARÜŞŞAFAKA LİSESİ SALİH ZEKİ LİSE ÖĞRENCİLERİ ARASI MATEMATİK PROJELERİ YARIŞMASI DARÜŞŞAFAKA LİSESİ SALİH ZEKİ LİSE ÖĞRENCİLERİ ARASI MATEMATİK PROJELERİ YARIŞMASI PROJENİN ADI: OYUN TEORİSİ İLE İSTANBUL TRAFİĞİNİN İNCELENMESİ HAZIRLAYANLAR: ECE TUNÇKOL-BERKE OĞUZ AKIN MEV KOLEJİ ÖZEL

Detaylı

Verilerin Özetlenmesinde Kullanılan Tablolar ve Grafiksel Yöntemler

Verilerin Özetlenmesinde Kullanılan Tablolar ve Grafiksel Yöntemler Verilerin Özetlenmesinde Kullanılan Tablolar ve Grafiksel Yöntemler Frekans Dağılımları Verilerin Düzenlenmesi Sıralı dizi bir dizi verinin küçükten büyüğe yada büyükten küçüğe göre sıralanması Dağılı

Detaylı

İÇİNDEKİLER. Bölüm 2 CEBİR 43

İÇİNDEKİLER. Bölüm 2 CEBİR 43 İÇİNDEKİLER ÖNSÖZ III Bölüm 1 SAYILAR 13 1.1 Doğal Sayılar 15 1.1.1. Tek ve Çift Sayılar 15 1.1.2. Asal Sayılar 15 1.1.3 Doğal Sayıların Özellikleri 15 1.1.4 Doğal Sayılarda Özel Toplamlar 16 1.1.5. Faktöriyel

Detaylı

İş Analitiği'ne Netezza ile Yüksek Performans Katın

İş Analitiği'ne Netezza ile Yüksek Performans Katın İş Analitiği'ne Netezza ile Yüksek Performans Katın Umut ŞATIR İleri Analitik Çözüm Mimarı 2012 IBM Corporation Netezza and IBM Business Analytics Baştan sona bir İş Analitiği çözümü Performans Kolaylık

Detaylı

EXCEL 2007 ELEKTRONİK ÇİZELGE

EXCEL 2007 ELEKTRONİK ÇİZELGE EXCEL 2007 ELEKTRONİK ÇİZELGE Excel, Microsoft Office paketinde yer alan ve iş hayatında en sık kullanılan programlardandır. Bir hesap tablosu programıdır. Excel, her türlü veriyi (özellikle sayısal verileri)

Detaylı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI 10 Aralık 2011, Cumartesi Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler İçerik

Detaylı

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Yrd. Doç. Dr. Emre ATILGAN 1 RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Olasılığa ilişkin olayların çoğunluğunda, deneme sonuçlarının bir veya birkaç yönden incelenmesi

Detaylı

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Büyük miktardaki veriler içerisinden önemli olanlarını bulup çıkarmaya veri Madenciliği denir. Veri madenciliği bir sorgulama işlemi

Detaylı

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması,

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması, Projenin Amacı DSİ Genel Müdürlüğünde, Bölge Vaziyet Planı çalışmaları kapsamında üretilen ve mevcut DSİ faaliyetlerini içeren CBS veri setleri ile CBS Veritabanının incelenerek yine mevcut CBS donanım,

Detaylı

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste 3. sınıf 5. Yarıyıl (Güz Dönemi) Bilgi Kaynaklarının Tanımlanması ve Erişimi I (AKTS 5) 3 saat Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste Kütüphane Otomasyon

Detaylı

BÖLÜM 1: MADDESEL NOKTANIN KİNEMATİĞİ

BÖLÜM 1: MADDESEL NOKTANIN KİNEMATİĞİ BÖLÜM 1: MADDESEL NOKTANIN KİNEMATİĞİ 1.1. Giriş Kinematik, daha öncede vurgulandığı üzere, harekete sebep olan veya hareketin bir sonucu olarak ortaya çıkan kuvvetleri dikkate almadan cisimlerin hareketini

Detaylı

1 ÜRETİM VE ÜRETİM YÖNETİMİ

1 ÜRETİM VE ÜRETİM YÖNETİMİ İÇİNDEKİLER ÖNSÖZ III Bölüm 1 ÜRETİM VE ÜRETİM YÖNETİMİ 13 1.1. Üretim, Üretim Yönetimi Kavramları ve Önemi 14 1.2. Üretim Yönetiminin Tarihisel Gelişimi 18 1.3. Üretim Yönetiminin Amaçları ve Fonksiyonları

Detaylı

K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ

K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ Fen Bilimleri Enstitüsü Dergisi, 22 (2) -8 Marmara Üniversitesi K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ Meltem IŞIK ve Ali Yılmaz ÇAMURCU 2 Şişli Endüstri Meslek Lisesi, Bilgisayar

Detaylı

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Birliktelik Kurallarının Tanımı Destek ve Güven Ölçütleri Apriori Algoritması Birliktelik Kuralları (Association

Detaylı

18.034 İleri Diferansiyel Denklemler

18.034 İleri Diferansiyel Denklemler MIT AçıkDersSistemi http://ocw.mit.edu 18.034 İleri Diferansiyel Denklemler 2009 Bahar Bu bilgilere atıfta bulunmak veya kullanım koşulları hakkında bilgi için http://ocw.mit.edu/terms web sitesini ziyaret

Detaylı

Dağıtık Sistemler CS5001

Dağıtık Sistemler CS5001 Dağıtık Sistemler CS5001 Th. Letschert Çeviri: Turgay Akbaş TH Mittelhessen Gießen University of Applied Sciences Biçimsel model nedir Biçimsel model matematiksel olarak tanımlanmış olan bir modeldir.

Detaylı

MATEMATÝK TEMEL SEVÝYE DEVLET OLGUNLUK SINAVI. Testin Çözme Süresi: 180 dakika ADAY ÝÇÝN AÇIKLAMALAR - YÖNERGE DEVLET SINAV MERKEZÝ ADAYIN ÞÝFRESÝ

MATEMATÝK TEMEL SEVÝYE DEVLET OLGUNLUK SINAVI. Testin Çözme Süresi: 180 dakika ADAY ÝÇÝN AÇIKLAMALAR - YÖNERGE DEVLET SINAV MERKEZÝ ADAYIN ÞÝFRESÝ ADAYIN ÞÝFRESÝ BURAYA YAPIÞTIR DEVLET OLGUNLUK SINAVI DEVLET SINAV MERKEZÝ MATEMATÝK - TEMEL SEVÝYE MATEMATÝK TEMEL SEVÝYE Testin Çözme Süresi: 180 dakika Haziran, 2009 yýlý BÝRÝNCÝ deðerlendiricinin þifresi

Detaylı

Math 103 Lineer Cebir Dersi Final Sınavı

Math 103 Lineer Cebir Dersi Final Sınavı Haliç Üniversitesi, Uygulamalı Matematik Bölümü Math 3 Lineer Cebir Dersi Final Sınavı 3 Araliık 27 Hazırlayan: Yamaç Pehlivan Başlama saati: 2: Bitiş Saati: 3:4 Toplam Süre: Dakika Lütfen adınızı ve soyadınızı

Detaylı

FMEA. Hata Türleri ve Etkileri Analizi

FMEA. Hata Türleri ve Etkileri Analizi FMEA Hata Türleri ve Etkileri Analizi 2007 FMEA Tanımı FMEA (HTEA), bir ürün veya prosesin potansiyel hatalarını ve bunların sonucu olabilecek etkilerini tanımlama, değerlendirme, potansiyel hatanın ortaya

Detaylı

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN Tanımlayıcı İstatistikler Yrd. Doç. Dr. Emre ATILGAN 1 Tanımlayıcı İstatistikler Yer Gösteren Ölçüler Yaygınlık Ölçüleri Merkezi Eğilim Ölçüleri Konum Ölçüleri 2 3 Aritmetik Ortalama Aritmetik ortalama,

Detaylı

CETP KOMPOZİTLERİN DELİNMELERİNDEKİ İTME KUVVETİNİN ANFIS İLE MODELLENMESİ MURAT KOYUNBAKAN ALİ ÜNÜVAR OKAN DEMİR

CETP KOMPOZİTLERİN DELİNMELERİNDEKİ İTME KUVVETİNİN ANFIS İLE MODELLENMESİ MURAT KOYUNBAKAN ALİ ÜNÜVAR OKAN DEMİR CETP KOMPOZİTLERİN DELİNMELERİNDEKİ İTME KUVVETİNİN ANFIS İLE MODELLENMESİ MURAT KOYUNBAKAN ALİ ÜNÜVAR OKAN DEMİR Çalışmanın amacı. SUNUM PLANI Çalışmanın önemi. Deney numunelerinin üretimi ve özellikleri.

Detaylı

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım Mehmet Ali Aytekin Tahir Emre Kalaycı Gündem Gezgin Satıcı Problemi GSP'yi Çözen Algoritmalar Genetik Algoritmalar

Detaylı

DOĞRUSAL OLMAYAN PROGRAMLAMA -I-

DOĞRUSAL OLMAYAN PROGRAMLAMA -I- DOĞRUSAL OLMAYAN PROGRAMLAMA -I- Dışbükeylik / İçbükeylik Hazırlayan Doç. Dr. Nil ARAS Anadolu Üniversitesi, Endüstri Mühendisliği Bölümü İST38 Yöneylem Araştırması Dersi 0-0 Öğretim Yılı Doğrusal olmayan

Detaylı

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay.

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay. PROGRAMLAMAYA GİRİŞ Öğr. Gör. Ayhan KOÇ Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay., 2007 Algoritma ve Programlamaya Giriş, Ebubekir YAŞAR, Murathan Yay., 2011

Detaylı

Ders 1 Minitab da Grafiksel Analiz-I

Ders 1 Minitab da Grafiksel Analiz-I ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI Ders 1 Minitab da Grafiksel Analiz-I İstatistik Nedir? İstatistik kelimesi ilk olarak Almanyada devlet anlamına gelen status kelimesine dayanılarak kullanılmaya

Detaylı

2 Tarihsel, Kültürel ve Yasal/Etik Konular 35

2 Tarihsel, Kültürel ve Yasal/Etik Konular 35 İçİndekİler Önsöz xiii K I S I M I Genel Bir Bakış 1 Psikolojik Test ve Değerleme 1 Test ve Değerleme 1 Psikolojik Test ve Değerleme 1 Psikolojik Değerleme Araçları 5 Testler 5 Görüşme 7 Portfolyo 9 Vaka

Detaylı

x 2i + A)( 1 yj 2 + B) u (v + B), y 1

x 2i + A)( 1 yj 2 + B) u (v + B), y 1 Ders 11: Örnekler 11.1 Kulplarla inşalar Bu bölümde kulpları birbirine yapıştırıp tanıdık manifoldlar elde edeceğiz. Artık bu son ders. Özellikle dersin ikinci bölümünde son meyveleri toplamak adına koşarak

Detaylı

EM302 Yöneylem Araştırması 2. Dr. Özgür Kabak

EM302 Yöneylem Araştırması 2. Dr. Özgür Kabak EM302 Yöneylem Araştırması 2 Dr. Özgür Kabak GAMS Giriş GAMS (The General Algebraic Modeling System) matematiksel proglamlama ve optimizasyon için tasarlanan yüksek seviyeli bir dildir. Giriş dosyası:

Detaylı

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition Dersi Veren Birim: Fen Bilimleri Enstitüsü Dersin Türkçe Adı: Örüntü Tanıma Dersin Orjinal Adı: Pattern Recognition Dersin Düzeyi:(Ön lisans, Lisans, Yüksek Lisans, Doktora) Lisansüstü Dersin Kodu: CSE

Detaylı

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3 KİTABIN İÇİNDEKİLER BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3 BÖLÜM-2.BİLİMSEL ARAŞTIRMA Belgesel Araştırmalar...7 Görgül Araştırmalar Tarama Tipi Araştırma...8

Detaylı

BIL684 Nöron Ağları Dönem Projesi

BIL684 Nöron Ağları Dönem Projesi BIL684 Nöron Ağları Dönem Projesi SNNS Uygulama Parametrelerinin bir Örnek Aracılığı ile İncelenmesi Kerem ERZURUMLU A0064552 Bu rapor ile Bil684 Nöron Ağları dersi kapsamında gerçekleştirilmiş olan SNNS

Detaylı

BİR OFİS İÇİN TERMAL KONFOR ANALİZİNİN HESAPLAMALI AKIŞKANLAR DİNAMİĞİ YÖNTEMİ İLE MODELLENMESİ VE SAYISAL ÇÖZÜMÜ

BİR OFİS İÇİN TERMAL KONFOR ANALİZİNİN HESAPLAMALI AKIŞKANLAR DİNAMİĞİ YÖNTEMİ İLE MODELLENMESİ VE SAYISAL ÇÖZÜMÜ BİR OFİS İÇİN TERMAL KONFOR ANALİZİNİN HESAPLAMALI AKIŞKANLAR DİNAMİĞİ YÖNTEMİ İLE MODELLENMESİ VE SAYISAL ÇÖZÜMÜ Hazırlayan : Kadir ÖZDEMİR No : 4510910013 Tarih : 25.11.2014 KONULAR 1. ÖZET...2 2. GİRİŞ.........3

Detaylı