Örneklemeli K-ortalama Algoritması Kmeans with Sampling



Benzer belgeler
Veride etiket bilgisi yok Denetimsiz öğrenme (unsupervised learning) Neden gereklidir?

MIT Açık Ders Malzemeleri Bu materyallerden alıntı yapmak veya Kullanım Koşulları hakkında bilgi almak için

DENEY TASARIMI VE ANALİZİ

Programı : Elektronik Müh.

DENEY TASARIMI VE ANALİZİ

dir. Bir başka deyişle bir olayın olasılığı, uygun sonuçların sayısının örnek uzaydaki tüm sonuçların sayısına oranıdır.

NOT: Deney kılavuzunun Dönme Dinamiği Aygıtının Kullanımı İle İlgili Bilgiler Başlıklı Bölümü okuyunuz.

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

Bilgisayarla Görüye Giriş

Sıklık Tabloları ve Tek Değişkenli Grafikler

5.3. Tekne Yüzeylerinin Matematiksel Temsili

BÖLÜM 5 İKİ VEYA DAHA YÜKSEK BOYUTLU RASGELE DEĞİŞKENLER İki Boyutlu Rasgele Değişkenler

Makine Öğrenmesi Dersi Arasınavı Sorular aşağıda isimleriyle verilen veri kümeleri üzerinde çözülecektir.

Makine Öğrenmesi 10. hafta

Seralarda Isıtma Kapasitelerinin Hesaplanmasına Yönelik Bir Bilgisayar Programı

A İSTATİSTİK. 4. X kesikli rasgele (random) değişkenin moment çıkaran. C) 4 9 Buna göre, X in beklenen değeri kaçtır?

Korelasyon ve Regresyon

PARÇALI DOĞRUSAL REGRESYON

PARABOLİK KISMİ DİFERANSİYEL DENKLEMLER İÇİN İKİ ZAMAN ADIMLI YAKLAŞIMLAR ÜZERİNE BİR ÇALIŞMA. Gamze YÜKSEL 1, Mustafa GÜLSU 1, *

K-Ortalamalar Yöntemi ile Yıllık Yağışların Sınıflandırılması ve Homojen Bölgelerin Belirlenmesi *

SAKLI MARKOV MODEL KULLANILARAK GORUNTUDEN GERCEK ZAMANLI TURK ISARET DILI TANIMA SISTEMI

BÖLÜM 9 İKİ BOYUTLU PANEL YÖNTEMLERİ

Lineer Olmayan Yapı Sistemlerinin Analizi İçin Yay-Boyu Metodu

EMG İşaretlerinin K-Ortalama Algoritması Kullanılarak Öbekleştirilmesi. EMG Signal Analysis Using K-Means Clustering

Merkezi Eğilim (Yer) Ölçüleri

Dolar Kurundaki Günlük Hareketler Üzerine Bazı Gözlemler

DENEY 4: SERİ VE PARALEL DEVRELER,VOLTAJ VE AKIM BÖLÜCÜ KURALLARI, KIRCHOFF KANUNLARI

Ayhan Topçu Accepted: January ISSN : ayhan_topcu@hotmail.com Ankara-Turkey

Otomatik Kontrol Ulusal Toplantısı, TOK2013, Eylül 2013, Malatya DOĞRUSAL OLMAYAN KONTROL SİSTEMLERİ

ELM201 ELEKTRONİK-I DERSİ LABORATUAR FÖYÜ

X, R, p, np, c, u ve diğer kontrol diyagramları istatistiksel kalite kontrol diyagramlarının

Makine Öğrenmesi 6. hafta

kadar ( i. kaynağın gölge fiyatı kadar) olmalıdır.

HAFTA 13. kadın profesörlerin ortalama maaşı E( Y D 1) erkek profesörlerin ortalama maaşı. Kestirim denklemi D : t :

ÇEV 314 Yağmursuyu ve Kanalizasyon. Nüfus Projeksiyonları

KOCAELİ ÜNİVERSİTESİ Mühendislik Fakültesi Makina Mühendisliği Bölümü Mukavemet I Vize Sınavı (2A)

BİRİM YÜKLENME PROBLEMİNİN ÜÇ FARKLI YÖNTEM KULLANILARAK KARŞILAŞTIRMALI ÇÖZÜMLENMESİ

BİR BOYUTLU HAREKET FİZİK I. Bir Boyutlu Hareket? Hız ve Sürat. 1 boyut (doğru) 2 boyut (düzlem) 3 boyut (hacim) 0 boyut (nokta)

Doğrusal Korelasyon ve Regresyon

Journal of Engineering and Natural Sciences Mühendislik ve Fen Bilimleri Dergisi

Sürekli Olasılık Dağılım (Birikimli- Kümülatif)Fonksiyonu. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

Tek Yönlü Varyans Analizi (ANOVA)

EMO İSTANBUL ŞUBESİ TARAFINDAN HOBİ ELEKTRONİK KURSU İÇİN DERLENMİŞTİR. BOBİNLER

alphanumeric journal The Journal of Operations Research, Statistics, Econometrics and Management Information Systems

AKIŞKAN ÇAMUR TABAKASIYLA YÜZEY DALGALARININ ETKİLEŞİMİNİN SAYISAL MODELLENMESİ

YÖNETİM VE EKONOMİ Yıl:2006 Cilt:13 Sayı:1 Celal Bayar Üniversitesi İ.İ.B.F. MANİSA

Summary. Orijinal araştırma (Original article)

KONYA İLİ SICAKLIK VERİLERİNİN ÇİFTDOĞRUSAL ZAMAN SERİSİ MODELİ İLE MODELLENMESİ

İÇME SUYU ŞEBEKELERİNİN GÜVENİLİRLİĞİ

GM-220 MÜH. ÇALIŞ. İSTATİSTİKSEL. Frekans Dağılımı Oluşturma Adımları VERİLERİN SUNUMU. Verilerin Özetlenmesi ve Grafikle Gösterilmesi

Kİ-KARE TESTLERİ. şeklinde karesi alındığında, Z i. değerlerinin dağılımı ki-kare dağılımına dönüşür.

Standart Model (SM) Lagrange Yoğunluğu. u, d, c, s, t, b. e,, Şimdilik nötrinoları kütlesiz Kabul edeceğiz. Kuark çiftlerini gösterelim.

Mamografide Şüpheli Kitle Adayı Bölgelerin Belirlenmesi

ZAMAN SERİSİ VERİ MADENCİLİĞİ VE DESTEK VEKTÖR MAKİNALAR KULLANAN YENİ BİR AKILLI ARIZA SINIFLANDIRMA YÖNTEMİ

Metin Madenciliği ile Soru Cevaplama Sistemi

T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

SEK Tahmincilerinin Arzulanan Özellikleri. SEK Tahmincilerinin Arzulanan Özellikleri. Ekonometri 1 Konu 9 Sürüm 2,0 (Ekim 2011)

Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ

ERS-2 Raw Datası için Dönüşüme Dayalı Sıkıştırma

III - ELEKTROMAGNETİK GENELLEŞTİRME

Basel II Geçiş Süreci Sıkça Sorulan Sorular

GRUPLARDA VE YARIGRUPLARDA ETKİNLİK(EFFICIENCY) The Efficiency Of Groups And Semigroups *

Tek Yönlü Varyans Analizi

4) Seyrek rastlanılan bir hastalık için belli bir zaman araalığında bu hastalığa yakalananların sayısının gözlenmesi,

3. Parçaları Arasında Aralık Bulunan Çok Parçalı Basınç Çubukları

PARAMETRİK OLMAYAN HİPOTEZ TESTLERİ Kİ-KARE TESTLERİ

Deney No: 2. Sıvı Seviye Kontrol Deneyi. SAKARYA ÜNİVERSİTESİ Dijital Kontrol Laboratuvar Deney Föyü Deneyin Amacı

Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Y.2008, C.13, S.1 s

Kİ KARE ANALİZİ. Doç. Dr. Mehmet AKSARAYLI Ki-Kare Analizleri

Avrupa Birliği ve Türkiye de Mali Saydamlığın Panel Veri Yöntemi ile Analizi

Öğr. Gör. Selçuk ŞİMŞEK İlköğretim Bölümü Sınıf Öğretmenliği Ana Bilim Dalı Eğitim Fakültesi.Pamukkale Üniversitesi

ÖRNEKLEME YÖNTEMLERİ ve ÖRNEKLEM GENİŞLİĞİ

ELEKTRİK DEVRE TEMELLERİ

Çok Barajlı Sistemde Gerçek Zamanlı Optimal İşletme *

TOZ DETERJAN İÇİN ÜRETİM PLANLAMA VE ÇİZELGELEME SİSTEMİ TASARIMI

2 MANYETİZMA. 7. Etki ile mıknatıslanmada mıknatısın 5. K L M F F S N S N S N

Rasgele Değişken Üretme Teknikleri

İMKB BİLEŞİK 100 ENDEKSİ GETİRİ VOLATİLİTESİNİN ANALİZİ ANALYSIS OF ISTANBUL STOCK EXCHANGE 100 INDEX S RETURN VOLATILITY ABSTRACT

Farklı Varyans. Var(u i X i ) = Var(u i ) = E(u i2 ) = s 2 Eşit Varyans

YÜKSEK PLANLAMA KURULU

OLASILIK. Bölüm 4. Temel Tanımlar ve Kavramlar-I. Olasılık

MEH535 Örüntü Tanıma

alphanumeric journal The Journal of Operations Research, Statistics, Econometrics and Management Information Systems

Adi Diferansiyel Denklemler NÜMERİK ANALİZ. Adi Diferansiyel Denklemler. Adi Diferansiyel Denklemler

ARAŞTIRMA MAKALESİ/RESEARCH ARTICLE TEK ÇARPIMSAL SİNİR HÜCRELİ YAPAY SİNİR AĞI MODELİNİN EĞİTİMİ İÇİN ABC VE BP YÖNTEMLERİNİN KARŞILAŞTIRILMASI ÖZ

VERİ MADENCİLİĞİ Demetleme Yöntemleri

a IIR süzgeç katsayıları ve N ( M) de = s 1 (3) 3. GÜRÜLTÜ GİDERİMİ UYGULAMASI

Cebir Notları. Karmaşık Sayılar Testi z = 1 2i karmaşık sayısının çarpmaya göre tersinin eşleniğinin sanal kısmı kaçtır?

TEMEL BAZI KAVRAMLAR. Uzay: İçinde yaşadığımız sonsuz boşluktur. Uzay, bir noktalar kümesidir. Uzay, bütün varlıkları içine alır.

BÖLÜM 1 1.GİRİŞ: İSTATİSTİKSEL DOĞRUSAL MODELLER

YÜKSEK LİSANS TEZİ Savaş OK. Anabilim Dalı : Makina Mühendisliği. Programı : Sistem Dinamiği ve Kontrol

PROJE SEÇİMİ VE KAYNAK PLANLAMASI İÇİN BİR ALGORİTMA AN ALGORITHM FOR PROJECT SELECTION AND RESOURCE PLANNING

( ) 3.1 Özet ve Motivasyon. v = G v v Operasyonel Amplifikatör (Op-Amp) Deneyin Amacı. deney 3

VEKTÖRLER VE VEKTÖREL IŞLEMLER

ENDÜSTRİNİN DEĞİŞİK İŞ KOLLARINDA İHTİYAÇ DUYULAN ELEMANLARIN YÜKSEK TEKNİK EĞİTİM MEZUNLARINDAN SAĞLANMASINDAKİ BEKLENTİLERİN SINANMASI

DEÜ MÜHENDİSLİK FAKÜLTESİ MÜHENDİSLİK BİLİMLERİ DERGİSİ Cilt: 12 Sayı: 3 sh Ekim 2010

"SERVİS TORK ANAHTARI" CT, Nm

bir yol oluşturmaktadır. Yine i 2 , de bir yol oluşturmaktadır. Şekil.DT.1. Temel terimlerin incelenmesi için örnek devre

BİRİM KÖK TESTLERİNDE YAPISAL KIRILMA ZAMANININ İÇSEL OLARAK BELİRLENMESİ PROBLEMİ: ALTERNATİF YAKLAŞIMLARIN PERFORMANSLARI

Transkript:

Örneklemel K-oralama Algorması Kmeans wh Samplng Mehme Fah Amasyalı Blgsayar Mühendslğ Bölümü Yıldız Teknk Ünverses mfah@ce.yldz.edu.r Öze K-oralama algorması, kümeleme prolemlernn çözümünde en çok kullanılan yönemlerden rdr. Ancak K- oralama nın sonucu, lk değer aamalarına ağlı olduğundan lokal mnmumlara akılma prolem vardır. Opmzasyon leraüründe, lokal mnmumlara akılma prolemnn çözümü çn rasgelelğn kullanımı öneml r yer umakadır. Bu çalışmada K-oralama algormasına r örnekleme adımı eklenmşr. Örnekleme yapmak arama uzayında küme merkezlern yönlendrlmş r rasgelelkle hareke ermek olarak düşünülelr. Bu harekeler sayesnde lokal mnmumlardan kurulmak mümkün olalmekedr. Çalışmada ayrıca önerlen yönemn orjnal algormadan daha y çalışalmes çn gerekl olan ölgesel seçmler yapma dnamkler de ncelenmşr. Yapılan deneylerde önerlen algormanın, orjnalnden hem daha aşarılı hem de daha hızlı olduğu görülmüşür. Asrac One of he mos popular cluserng algorhms s K-means. However, can ge suck n a local mnmum, ecause K- means resul reles on s random nal pons. In leraure, randomness s ofen used o avod local mnmums. In hs paper, a random samplng sep s added o he K-means. Samplng can e hough as a dreced random movemen. These movemens make possle o avod local mnmums. Dynamcs of local samplng (necessary for avodng local mnmums) s also nvesgaed. Our expermenal resuls showed ha he proposed algorhm (K-means wh samplng) s very fas and has more local mnmum avodance capaly han he orgnal K-means.. Grş Küme, rrne r şeklde enzer örneklerden oluşan oplulukur. Dğer r deyşle r kümedek elemanlar rrlerne aşka r kümenn elemanlarına göre daha çok enzerler. Br frmanın elndek müşer lglern kullanarak enzer müşer profller oluşurması ya da r resmdek farklı renk nı azalarak resmn sıkışırılması verler kümelemenn yaygın uygulamalarıdır. Bu uygulamalarda eldek verlern ekeler / sınıfları yokur. Bu seeple u ür verlern kümelemes eğcsz öğrenme olarak da anılır. Burada öğrenlen, kümelern merkezlerdr. Kümeleme algormaları emelde emsl edenle (küme merkezler), emsl edlen (o kümedek örnekler) arasındak farkların oralamasını (H) mnmze emeye çalışırlar. H ın hesaplanması Eşlk de verlmşr []. k x m = = H = () 0 f x m = mn else j x m Eşlk de; : örnek nı, k: küme nı, x :.örneğ, m :. merkez, :. örneğ. merkezn emsl edp emedğn gösermekedr.. örneğe en yakın merkez. merkez se değer, aks durumda 0 olmakadır. Eşlk dek haa fonksyonu sadece küme merkezlernn değerne ağlıdır. Dolayısıyla kümeleme algormaları, küme merkezlernn değerlernn olduğu r arama uzayın Eşlk n mnmum değern aramakadırlar. Arama uzayının lokal mnmumlara sahp olduğu durumlarda opmal sonuca erşlemeyelmekedr. Kümeleme algormalarında kaç ade küme merkeznn olacağını ya kullanıcı arafından elrlenr ya da algorma kends elrler. Küme nı oomak elrleyen algormalarda kullanıcıdan r eşk değer eklemekedr. Dolayısıyla kümeleme algormalarında küme nı kullanıcı doğrudan ya da dolaylı olarak elrlemekedr. Doğru küme ekeler ya da doğru küme merkezler elde olmadığından kümeleme algormalarının performanslarının rryle karşılaşırılması sınıflandırma ya da regresyon prolemlernde olduğu kadar kolay değldr. Aynı sayıda küme üreen algormaların performanslarının karşılaşırılması manıklıdır. Leraürde Eşlk dek formül, slue genşlğ [], Daves-Bouldn Index [3] g çeşl merkler önerlmşr. K-oralama algorması aslğ ve kaul edlelr performansı seeyle en yaygın kullanılan kümeleme algormasıdır. Toplu (Bach) ve ekl (onlne) olmak üzere j ()

k ürü ulunan algormanın oplu hal Şekl de verlmşr. Tekl hal çn [] ncelenelr. -Küme merkezlernn m {=..k} lk değerlern elrle -For a=:maksmum erasyon For =: ler Eşlk ye göre hesapla For =:k m = = = x Şekl : Toplu K-oralama Algorması. Algorma ncelendğnde küme merkezlernn lk değerler aandıkan sonra herhang r rasgelelk çermedğnden sonuçak küme merkezlernn değerlernn deermnsk olarak elrlendğ görülmekedr. Đlk değerlern farklı seçlmes durumunda se arama uzayının şeklne göre farklı sonuçlara varılalr. Şekl de aynı dağılımdan ürelmş ver kümes üzernde farklı lk değerlerle erşlen sonuçlar görülmekedr. Şekllerde küme merkezlernn aşlangıç (o) ve ş ( ) değerler ve erasyonlar oyunca aldıkları değerler (mav çzgler) göserlmşr. Şekl ncelendğnde alak lk değerlern lokal r mnmuma akıldığı görülmekedr.. Lokal Mnmumlardan Kurulmak Opmzasyon leraüründe, lokal mnmumlardan kurulmak çn sseme rasgelelk kaılması en yaygın kullanılan yönemlerdendr. Benzeml Tavlama da [4], olası güncellemelerden her zaman en ysnn seçlmes yerne elrl r olasılıkla daha köüsünün seçlmesne zn verlr. Genek algormalardak muasyon şlem de sseme rasgelelk kama şlemdr [5]. Baggng [] algorması da, eğcl öğrenmede, üm verlerle eğlen ek r öğrenc yerne rasgele örnekleme le seçlmş al ver kümeleryle eğlen çok sayıda öğrencnn kararlarının rleşrlmesn önerr. Bu sayede karar sınırı ölgelerndek marjn arırılmaka ve es kümes üzernde daha aşarılı sonuçlar alınalmekedr. Sseme rasgelelk kamanın u aşarılı örnekler seeyle, u çalışmada, aynı manığın (rasgele örnekleme yapmak) lokal mnmumlara akılalen K-oralama algorması çn de r yleşme sağlama poansyel ncelenmşr. Lokal mnmumdan kurulmak çn ne yapmalı? Şekl 3 e küme merkezlernn lokal mnmumdan kurulalmes çn nasıl r örneklemeye hyaç olduğu göserlmşr...4..8..4. 0.8 0.4 0. 0.8..4..8..4 Şekl 3: Şekl () dek lokal mnmumdan kurulmak çn olası seçmlerden r (syah elpsn olduğu ölgeden yoğun r seçlm, dğer ölgelerden seyrek r seçlm).4..8..4. 0.8 0. 0.4 0.4 0. 0.8..4..8..4 Şekl : Farklı aşlangıç değerler çn k-oralama algormasının çalışması Merkezlern mevcu değerler ( ), Şekl 3 ek g olduğunda eğer erasyonda üm örnekler kullanılırsa küme merkezlernde anlamlı r değşm olmayacak nolu merkez soldak k kümey rden emsl emeye devam edecekr. Ancak syah elps le göserlen ölgeden yoğun, dğer ölgelerden seyrek r seçlm yapılırsa, nolu küme merkez seçmn yoğun yapıldığı ölgeye yukarıya doğru kayacakır. Bu sayede sol alak kümenn örnekler ya da 3 nolu merkezlerle emsl edleleceklerdr. Şekl 3 ek seçlm ncelendğnde rörnek (unform) r seçlm olmadığı görülmekedr. Bu seeple öyles seçlm ürüne ölgesel seçlm dyelm. Bölgesel seçlmn özellğ, küme merkezn hareke erelmesdr. Özel seçlme olasılıkları vermeden, Baggng de önerlen amamen rasgele r örnekleme öyle ölgesel seçmler üreelr m? Üreme

kapases nelere ağlıdır? Bu soruya cevap vermek çn Gaussan dağılıma sahp yapay r ver kümesnde denemeler yapılmışır. Bölgesel seçlmn yapıldığının ölçüü (S), seçlen örneklern oralamasının, gerçek oralamadan sapma üyüklüğüdür. Eğer üyük r sapma olduysa, ölgesel seçlm yapılmışır dyelrz. Şekl 4 e rasgele k örnekleme sonucunda seçlen örnekler ve her rndek sapma mkarları verlmşr. Dağılımın oralaması (+), seçlen örneklern oralaması ( ), örnekler (o) le göserlmşr. orjnal K-oralama algormasına r örnekleme adımı eklenmş ve öylece lokal mnmumlardan kurulma hmal arırılmışır. Örnekleme şlemnde, her erasyonun aşında, orjnal örneklerden SS oranında yerne koymalı r seçlm yapılmakadır. Kümelere a örneklern elrlenmes ve küme merkezlernn güncellenmes orjnal örneklere göre değl, u seçlen örneklere göre yapılmakadır. Sadece son erasyonda, küme merkezlernn daha y elrlenmes çn örnekleme yapılmamakadır. Şekl 5 e aynı ver kümes ve aynı aşlangıç değerler çn orjnal ve örneklemel k-oralama algormalarının erşkler sonuç küme değerler verlmşr. 4 Şekl 4: Aynı dağılımdan ürelmş rasgele örnek kümes Şekl 4 e soldak seçlm, küme merkezn dğerne göre daha fazla hareke erecekr. Şekl 4 ek seçlmler, amamen rasgele ürelmşr. Buna göre. sorumuza cevap olarak, amamen rasgele r seçlmn ölgesel seçlmler üreeldğ söylenelr. Rasgele seçlmn ölgesel seçlm üreme dnamkler nelere ağlıdır? Bunun çn, dağılımları üremeke kullandığımız üm paramereler ncelenmeldr. Dağılımdak örnek nın sonsuz olduğu durumda, ürelen örneklern oralaması, dağılımın gerçek oralamasının (µ) aynısı olacakır (Eşlk 3). µ = lm x (3) = Eşlk 3 e x, D(µ,σ ) normal dağılımından ürelen örnekler gösermekedr. Sonuç olarak az sayıda örnek varken ölgesel seçlm olma olasılığı daha yüksekr. Rasgele örnekleme oranının (SS) eks, dağılımdak örnek yla aynıdır. e kadar az oranda örnekleme yapılırsa doğal olarak ölgesel seçlm olasılığı o kadar aracakır. Özellklern sandar sapması ne kadar fazla olursa örnekler o kadar dağınık olacak ve ölgesel seçlm olasılığı o kadar aracakır. Özellklern korelasyonlarının fazla olması örneklern rasgelelğn azalacak ve ölgesel seçlm olasılığını azalacakır. Dağılıma her yen eklenen özellk, önceklere dk r sapma daha ekleyeceğnden oplam sapma (gerçek oralamadan sapma) aracakır. Dğer r fadeyle özellk arıkça, ölgesel seçlm olma hmal de aracakır. Küme (dağılım) nın arışı örneklern sandar sapmasını arıracak ve dolayısıyla ölgesel seçlm hmaln arıracakır. Elde edlen sonuçlar özelenrse, ölgesel seçlm olasılığı dağılımdak örnek, örnekleme oranı, özellklern korelasyonuyla ers, özellklern ve küme yla doğru oranılıdır. 3. Örneklemel K-oralama Algorması Verlen r ver kümesnde örnek, özellk, özellklern korelasyonu, küme değşrlemez. Ancak ver kümes üzernde örnekleme yapılalr. Bu seeple 0 - -4 - -8-0 - -4-8 - -4-0 4 8 4 0 - -4 - -8-0 - -4-8 - -4-0 4 8 Şekl 5: Aynı ver kümes ve aynı aşlangıç değerler çn orjnal (yukarıda) ve örneklemel (aşağıda) k- oralama algormalarının erşkler sonuç küme değerler. Şekl 5 ek ver kümes her r 00 er örnek çeren 4 normal dağılımdan oluşmakadır. 50 erasyon sonundak değerler verlmşr. Örnekleme oranı olarak 0. alınmışır. Orjnal algorma lokal r mnmuma akılmışken, örneklemel k-oralama kurulmuşur. Bölgesel seçlmle, u kuruluşun lgs düşünüldüğünde şu sonuca ulaşılmışır: Temsl ememes gerekenler emsl eden küme merkezlernn örneklernde ölgesel seçlm olasılığı, y oluşmuş kümelern örneklerne göre daha fazladır. Çünkü

örneklernn sandar sapması daha fazladır. Dolayısıyla, köü küme merkezlernn, ylere göre kayma olasılığı daha fazladır k u da lokal mnmumlardan kurulmanın anaharıdır. Leraürde, yaklaşımımıza en yakın çalışma, L ve arkadaşları [7] arafından yapılan çalışmadır. Bu çalışmada, K-oralama algorması Baggng le rlke kullanarak (örnekleme oranı =, opluluk oyuu = küme ) r kümeleyc opluluğu oluşurmuşlardır. 5 ver kümes üzernde orjnal k-oralamadan daha y sonuçlar üremşler ancak şlem zamanı olarak opluluğun oyuu oranında r arışa seep olmuşlardır. Başarılı sonuçlar elde emelerne rağmen, algorma küme kez K-oralama algormasının çalışırılmasına hyaç duyduğundan hesaplama karmaşıklığı yüksekr. Bzm çalışmamızda se, çok düşük r oranda örnekleme yapıldığından, orjnal K-oralama algormasından le daha hızlı çalışmakadır. 4. Deneysel Sonuçlar Bu ölümde K-oralamanın lokal mnmuma akılma olasılığı nedr? Bu olasılığın ağlı olduğu paramereler nelerdr? Örneklemel K-oralama, orjnal K-oralamaya göre ne kadar yleşme sağlıyordur? sorularına cevap ulmak çn deneyler asarlanmışır. Soruların cevapları düşünüldüğünde şu hpoezlere ulaşılmışır: Küme yla, lokal mnmuma akılma hmalnn doğrudan lşkl olduğu görülecekr. Çünkü ne kadar çok lokal mnmum varsa o kadar çok unlara akılma hmal olacakır. Dağılımlardak örnek ne kadar çok olursa, o dağılımın algılanma olasılığı o kadar fazladır. Bu nedenle örnek azalınca, lokal mnmumlara akılma olasılığı aracakır. Dağılımlardak özellk da aynı şeklde düşünülelr. Eş örnek na sahp dağılımlarda ne kadar çok özellk olursa dağılımın algılanma olasılığı o kadar düşecek ve lokal mnmumlara akılma hmal aracakır. Bu hpoezlern doğrulanması çn çeşl sayılarda Gaussan dağılım çeren ver kümeler ürelmşr. Dağılımların ve 3 özellkller çn kovaryans mars olarak sırasıyla [0.05 0; 0 0.05] ve [0.05 0 0; 0 0.05 0; 0 0 0.05] marsler kullanılmışır. Bu ver kümelernde küme merkezlernn 00 farklı aşlangıç değernn her r çn 50 erasyonluk denemeler yapılmışır. Her k algormanın da aynı lk küme merkez değerlernden aşlaması sağlanmışır. Her k algormanın da sonuça erşğ haalar ulunmuş ve oralamaları alınmışır. Ölü r merkez oluşma durumunda her k algormada da, ölü merkez, orjnal örneklerden rasgele seçlen rnn değerne eşlenmşr. Çzelge de çeşl krerlere göre orjnal algorma ve önerlen algormanın haa değerlernn oralamaları ve sandar sapmaları oralama haa(sandar sapma) formaında verlmşr. Haa ölçümü Eşlk de verlen H le hesaplanmışır. Örnekleme oranı (SS), 5 no lu deneyde (örnek çok az olduğundan) 0.95, dğer üm deneylerde 0. olarak kullanılmışır. SS, 0. olarak seçldğnde her adımda oplam örnek nın %0 u şleme kaıldığından, örneklemel k-oralama, orjnal k-oralamaya göre yaklaşık 0 ka daha hızlı çalışmakadır. Çzelge : Çeşl Krerlere Göre Algormaların Performans Karşılaşırması Deney no Đncelenen krer Krer değer Küme 9 3 Đlk değer elrleme 4 yönem Orjnalle rden seç Rasgele seç. 5 Küme aşına 0 örnek 00 7 Özellk 8 3 Orjnal K- oralama 0.409 (0.03) 0.59 0.59 0.553 (0.0303) 0.59 (0.03) 0.59 0.59 0.88 (0.039) Örneklemel K-oralama Đyleşme oranı (%) 0.999 (0.00) 7 0.3 (0.00) 8 0.3 (0.00) 8 0.08 (0.095) 8 0.945 (0.09) 5 0.3 (0.00) 8 0.3 (0.00) 8 0.5 (0.03) Talo da, ve no lu deneylerde, küme merkezlernn lk değer elrleme yönem olarak orjnal örneklerden seçlm, küme aşına örnek 00, özellk olarak elrlenmşr. 3 ve 4 no lu deneylerde, küme, küme aşına örnek 00, özellk olarak elrlenmşr. 5 ve no lu deneylerde, küme, küme merkezlernn lk değer elrleme yönem olarak orjnal örneklerden seçlm, özellk olarak elrlenmşr. 7 ve 8 no lu deneylerde, küme özellk çn, özellk 3 çn 8, küme merkezlernn lk değer elrleme yönem orjnal örneklerden seçlm, küme aşına örnek 00 olarak elrlenmşr. Çzelge ncelendğnde üm durumlarda önerlen algormanın daha az haaya (daha aşarılı) ve sandar sapmaya (daha güvenlr) sahp olduğu görülmekedr. Talonun son süununda orjnal algormaya göre % kaç oranında yleşme sağlandığı verlmşr. Bu yleşmenn sasksel olarak anlamlı olup olmadıklarının ölçümü çn ve, 3 ve 4, 5 ve, 7 ve 8 nolu deneyler arasında kl -es yapılmış, üm eslerde %5 anlamlılık ölçüsünde önerlen algormanın orjnal algormadan daha y olduğu görülmüşür. Bu ölümün aşında sunduğumuz hpoezlermz, deney sonuçlarıyla uarlıdır. Opmal haa değerler;, 3, 4, ve 7. deneyler çn 0.9,. deney çn 0.937, 5. deney çn 0.75, 8. deney çn 0.504 ür. Opmal haa, örneklern gerçeke a oldukları küme merkezne olan uzaklıkları kullanılarak hesaplanmışır. Elde edlen oralama sonuçlara akıldığında örneklemel K- oralamanın orjnal K-oralamaya göre lokal mnmumlardan daha kolay kaçaldğ görülmekedr. Algormaların denemelern yüzde kaçında lokal mnmum a akıldığını görelmek çn Şekl da.deney de elde edlen 00 er sonuç verlmşr.

0.35 0.3 0.5 Örneklemel K-oralama Orjnal K-oralama Opmum Haa Gelecek r çalışma olarak, genel opmzasyon yönemlernde (epe ırmanma, enzeml avlama, genek algorma v.) o ank durum ya da durumların değerlendrlmesnde üm örneklern kullanılması yerne, r al kümesnn kullanımı düşünülelr. 0. 0 0 0 30 40 50 0 70 80 90 00 Şekl : Lokal mnmuma akılma oranları Şekl ncelendğnde orjnal K-oralamanın 00 denemenn sında opmal haaya erşemedğ (lokal r mnmuma akıldığı), örneklemel K-oralamanın se 00 denemenn sadece 9 unda lokal r mnmuma akıldığı görülmekedr. Algormanın üs-parameres olan örnekleme oranının (SS), performansa eksn ncelemek çn küme 9 ve, küme aşına örnek 00, küme merkezlernn lk değer elrleme yönem olarak orjnal örneklerden seçlm, özellk olarak elrlenerek 50 erasyonluk, 00 farklı aşlangıç değeryle denemeler yapılmışır. Şekl 7 de, farklı örnekleme oranları {0.05, 0., 0., 0.5, 0.75,, } çn yapılan denemelern oralama değerler verlmşr.. Kaynaklar [] Alpaydın, E., "Inroducon o Machne Learnng", The MIT Press, 004.. [] Rousseeuw P.J., "Slhouees: a graphcal ad o he nerperaon and valdaon of cluser analyss", Journal of Compuaonal and Appled Mahemacs, 0, 987, pp. 53-5. [3] Daves D.L., Bouldn D.W., "A cluser separaon measure", IEEE Trans. Paern Anal. Machne Inell., 979, pp.4-7. [4] Van Laarhoven, Peer JM, ve Emle HL Aars. "Smulaed annealng". Sprnger eherlands, 987. [5] Golderg, D. E., "Genec algorhm n search. Opmzaon and Machne Learnng", 989. [] Breman, L., "Baggng predcors", Machne Learnng, 4(), 99. [7] L, Ha-Guang, e al. "K-means cluserng wh aggng and mapreduce", Sysem Scences (HICSS), 44h Hawa Inernaonal Conference on. IEEE, 0. 0. 0.5 0.4 0.3 0. 0. Örneklemel K-oralama 9 küme Örneklemel K-oralama küme Orjnal K-oralama 9 küme Orjnal K-oralama 9 küme 0. 0 0. 0.4 0. 0.8..4..8 Şekl 7: Örnekleme oranının (SS), haaya eks Şekl 7 ncelendğnde, her küme çnde, örnekleme oranının 0. (örneklern rasgele %0 unun seçlmes) olduğu durumda en y performansın elde edldğ görülmekedr. Örnekleme oranı arıkça örneklemel K-oralamanın performansı, orjnal K-oralamaya yaklaşmakadır. 5. Sonuç K-oralama algormasının lokal mnmumlara akılma prolemne r çözüm olarak, u çalışmada orjnal algormaya r örnekleme adımı eklenmşr. Sonuçlara göre önerlen algorma (örneklemel K-oralama) hem daha aşarılı hem daha hızlıdır. Çalışmada u avanajların dnamkler de ncelenmşr. Algormanın ek dezavanajı orjnal algormaya göre fazladan r hper-paramereye (örnekleme oranı) sahp olmasıdır.