KABA KÜME YAKLAŞIMI KULLANILARAK VERİ MADENCİLİĞİ PROBLEMLERİNDE SINIFLANDIRMA AMAÇLI YAPILMIŞ OLAN ÇALIŞMALAR

KABA KÜME YAKLAŞIMI KULLANILARAK VERİ MADENCİLİĞİ PROBLEMLERİNDE SINIFLANDIRMA AMAÇLI YAPILMIŞ OLAN ÇALIŞMALAR Emel Kızılkaya AYDOĞAN 1 Cevriye GENCER 2 ÖZET Veri madenciliği, büyük veri kümeleri içindeki anlamlı bilgiyi ortaya çıkarma sürecidir. Sınıflandırma veri madenciliğinde önemli bir kavramdır. Kaba küme teorisi büyük miktarlarda ve eksik veri kümelerinden bilgi keşfi için güçlü bir araçtır. Kaba küme teorisi temelinde sınıflandırma amaçlı birçok algoritma ve sistem geliştirilmiştir. Bu çalışmada kaba küme teorisinin temel kavramları sunulmuş ve veri madenciliğinde sınıflandırma amaçlı yapılmış olan çalışmalar hakkında bilgi verilmiştir. Anahtar Kelimeler : Veri Madenciliği, Kaba Küme Yaklaşımı, Sınıflandırma, Melez Algoritmalar LITERATURE REVIEW OF STUDIES USING ROUGH SET THEORY ON CLASSIFICATION ORIENTED DATA MINING PROBLEMS ABSTRACT Data mining is the process of finding hidden and unknown patterns in huge amounts of data. Classification is an important theme in data mining. Rough set methodology provides a powerful tool for knowledge discovery from large and incomplete sets of data. A number of algorithms and systems have been developed based on the rough set theory, which may induce a set of decision rules from given data and may use induced rules to classify future examples. In the article, we present the basic concepts of rough set theory and point out some rough set based research directions and applications for classification in data mining. Keywords: Data Mining, Rough Set Theory, Classification, Hybrid Algorithms 1. GİRİŞ Veri tabanlarından bilgi keşfi son zamanlarda oldukça popüler bir yaklaşım olarak ön plana çıkmaktadır. Kaba küme teorisi verinin oldukça 1 Arş. Gör., Endüstri Mühendisliği Bölümü,Gazi Üniversitesi, 06570, Ankara, ekizilkaya@gazi.edu.tr 2 Prof. Dr., Endüstri Mühendisliği Bölümü, Gazi Üniversitesi, 06570, Ankara, ctemel@gazi.edu.tr 17

büyük ve eksik olduğu durumlarda veri tabanlarından bilgi keşfinde güçlü bir araç olarak kullanılmaktadır. Veri madenciliği problemleri için kaba küme teorisi temelinde birçok algoritma geliştirilmiştir. Bu algoritmaların çoğu verinin indirgenmesi, niteliklerin minimal alt kümelerinin bulunması, kuralların en iyi minimal kümesinin hesaplanması, verinin sınıflandırılması amacıyla kullanılmıştır. Bunlardan verinin sınıflandırılması amacıyla kaba küme yaklaşımının kullanılması son yıllarda oldukça önem kazanmıştır. Literatürde mevcut olan sezgisel yöntemlerle (genetik algoritma, genetik programlama, bulanık küme, karar ağaçları, bayes yaklaşımı vb.) kaba küme yaklaşımı entegre edilerek yeni algoritmalar geliştirilmiştir. Çalışmanın amacı da veri madenciliğinde sınıflandırma yaklaşımı için günümüze kadar yapılmış olan çalışmalarla ilgili literatür taraması sunularak yapılacak olan yeni çalışmalara ışık tutmaktır. 2. KABA KÜME TEORİSİ VE TEMEL KAVRAMLARI Kaba Küme (KK) kuramı, kümenin tek olarak elemanları ile tanımlandığı ve kümenin elemanları hakkında ilave hiçbir bilginin bulunmadığı klasik küme kuramının aksine, bir kümenin tanımlanması için başlangıçta evrenin elemanları hakkında bazı bilgilere gereksinim olduğu varsayımına dayanan yaklaşımdır. Nesneler aynı bilgi ile nitelendiriliyorlarsa nesneler aynıdır veya ayırt edilemezdir. Ortaya konulan ayırt edilememe ilişkisi, KK kuramının temelini oluşturur. Bütün aynı nesnelerin kümesine elemanter küme denir ve bilginin temel taşını oluştururlar. Elemanter kümelerin herhangi birleşimine kesin (crisp) küme adı verilir, aksi takdirde bir küme kabadır (rough, imprecise). Her KK nin kesinlikle kümenin kendisinin ya da tümleyen kümesinin elemanları olarak sınıflandırılamayan elemanları (sınır hattı elemanları) vardır (Binay, 2002: 23). Nesnelerin mevcut enformasyon ile görülebileceği varsayımı bilginin taneli bir yapısı olduğu görüşünü ortaya koyar. KK yaklaşımında herhangi bir muğlak kavram, bir kesin kavramlar çifti ile karakterize edilir ve bunlara muğlak kavramın alt ve üst yaklaşımları denir. Alt yaklaşım (lower approximation) kesin olarak kavrama ait olan bütün nesnelerden oluşur. Üst yaklaşım (upper approximation) ise kavrama ait olması muhtemel bütün nesneleri içerir. Alt ve üst yaklaşımlar arasındaki fark sınır bölgesini oluşturur ( Pawlak ve Skowron, 1994: 72). 18

KK yaklaşımı kullanılarak çözülebilen ana problemler; özellik değerleri cinsinden nesnelerin kümesinin tanımı, özellikler arasındaki tam veya kısmi bağımlılıkların belirlenmesi, özelliklerin indirgenmesi, özelliklerin öneminin ortaya konulması ve karar kurallarının oluşturulmasıdır (Pawlak, 1991: 248). KK kuramının kullanılabileceği ana problemler; verilerin indirgenmesi, bağımlılıklarının keşfi, verilerin öneminin tahmini, verilerden karar (kontrol) algoritmalarının oluşturulması, verilerin yaklaşık sınıflaması, verilerdeki benzerlik ve farklılıkların keşfi, verilerdeki örüntülerin keşfi, neden-sonuç ilişkilerinin keşfini kapsamaktadır (Pawlak ve Slowinski, 1994: 443-459). 2.1. Enformasyon Sistemi KK analizi için veriler, her satırı bir nesneyi (veya örneği), her sütunu nesneyi nitelendiren bir özelliği gösteren bir özellik-değer tablosu biçiminde gösterilirler. Özelliklerin değerleri ya ölçüm ile ya da insan deneyimi ile elde edilir. Böyle bir tabloya enformasyon sistemi adı verilir. Bir enformasyon sistemi A, A=(U,A) şeklinde tanımlanır. U, A'nın evreni adı verilen nesnelerin boş olmayan sonlu kümesi A, özelliklerin boş olmayan sonlu kümesidir Herhangi bir a özelliği ise a:u V a şeklinde tanımlanır.v a kümesine a nın değer kümesi denir. 2.2. Karar Sistemi Birçok durumda sınıflamanın sonucu, yani tahmin edilecek kavramlar ailesi bir uzmandan gelen ilave bilgi tarafından sağlanır ve karar özelliği denilen ayrı bir özellik ile gösterilir. Bilinen bir sınıflama sonucunun varlığı durumunda süreç denetimli öğrenme olarak bilinir. Bu tür enformasyon sistemlerine karar sistemleri adı verilir. Bir karar sistemi A=(U,A {d}) biçiminde tanımlanan bir enformasyon sistemidir. Burada d A, karar özelliğidir. A nın elemanlarına koşul özellikleri veya kısaca koşullar adı verilir (Pawlak ve Slowinski, 1994: 443-459). 2.3 Ayırt Edilemezlik Bir karar sistemi (veya tablosu) model hakkındaki bütün bilgiyi açıklar. Bu tablo gereksiz yere büyük olabilir. Aynı veya ayırt edilemeyen nesneler birden fazla gösterilmiş olabilir veya bazı özellikler gereksiz ve fazladan olabilir. 19

Bir R X x X ikili bağıntısı, yansıyan (yani bir nesne kendisi ile ilişkili xrx), simetrik (xry ise yrx) ve geçişken (xry ve yrz ise xrz) ise, denklik bağıntısı (equivalence relation) adı verilir. Bir x X elemanının denklik sınıfı (equivalence class), xry olan bütün y X nesnelerinden meydana gelir. A=(U,A) bir enformasyon sistemi ise, herhangi bir B A için, B özelliklerinin her alt kümesi ayırt edilemezlik bağıntısı (indiscernibility relation) adı verilen U evreninin bir denklik bağıntısını tanımlar. (x,y), U dan nesne çiftleri olmak üzere, aşağıda tanımlanan bir IND A (B) denklik bağıntısına B-ayırt edilemezlik bağıntısı denir. 2 IND A (B)={(x,y) U a B a (x)= a (y)} (1) Ayırt edilemezlik bağıntısındaki A alt indisi, hangi enformasyon sisteminin kastedildiği açıksa genellikle ihmal edilir. Eğer (x,y) IND A (B) ise, x ve y nesneleri B'ye göre ayırt edilemezdirler. 2.4. Ayırt Edilebilirlik Nesnelerin ayırt edilebilirliliği çoğu kez özelliklerin değerlerinden daha ilgi çekicidir. Bu durumlarda bir enformasyon sistemi bir ayırt edilebilirlik matrisi ile gösterilebilir. Skowron ve Rauszer, verilen bir enformasyon sistemindeki bütün kavramları tanımlamak için yeterli minimal özellik alt kümelerinin oluşturulması ile ilgili etkin algoritmalar oluşturmaya yardımcı olmak üzere ayırt edilebilirlik matrisini ve ayırt edilebilirlik fonksiyonunu ortaya koymuşlardır. 2.4.1. Ayırt Edilebilirlik Matrisi A, n adet nesnesi olan bir enformasyon sistemi olsun. A'nın ayırt edilebilirlik (discernibility) matrisi, M A aşağıda verilen c ij elemanları olan simetrik bir nxn matristir. Bu matrisin her c ij elemanı, x i ve x j nesnelerini farklı kılan özellikler kümesinden oluşmaktadır (Polkowski ve Skowron, 1998: 11-15). { a A a x ) a( x )} i,j=1,2,,n (2) c ij ( i j 2.4.2. Ayırt Edilebilirlik Fonksiyonları Bir nesne veya nesneler kümesinin, nesneler evreninin belirli bir alt kümesinden nasıl ayırt edilebileceğini ifade eden bir fonksiyonudur ve Boole toplamlarının çarpımıdır. Bir M A ayırt edilebilirlik matrisinden bir x U nesnesine göre aşağıda gösterildiği gibi ayırt edilebilirlik fonksiyonu oluşturulabilir. 20

Bir enformasyon sistemi için ayırt edilebilirlik fonksiyonu f A, a 1,..., a m özelliklerine karşılık gelen m adet a * * 1, a m Boole değişkeninin bir Boole fonksiyonudur (Cios ve arkadaşları, 2000: 33)): f A (a * 1,,a * * * m )= c 1 j i n c } (3) { ij Burada c * ij ={ a * :a } 2.5. Karar Sınıfları cij d karar özelliği U nesneler evreninin bir bölüntüsünü tüme varır. Genellemeyi bozmadan V d nin {l,...,r(d)} tamsayılar kümesi olduğu kabul edilebilir. Burada r(d), d nin "rank"ıdır. Dolayısıyla tüme varılan bölüntüler; {X 1,...,X r ( d ) } "karar sınıfları" denilen denklik sınıflarının bütünüdür. Burada iki nesne karar özelliği için aynı değere sahipse, aynı karar sınıfına ait oldukları söylenir. X i ={x U d(x)=i} (4) Bir A karar sistemi ve B A ise, A nın B-genelleştirilmiş kararı adı verilen U P( V ) fonksiyonu şöyle tanımlanır: B : d ' ' ( x) { v V : x U ( x IND ( B x ve d( x )=v )} (5) B d A ) A A-genelleştirilmiş kararına A nın genelleştirilmiş kararı denir. Bir A karar sistemi, ancak herhangi bir x U için (x A ) =1 ise tutarlıdır, aksi takdirde tutarlı değildir. Buradan bir A karar tablosu ancak ve ancak POS A (d)=u ise tutarlı olduğu kolaylıkla görülebilir (Komorowski ve arkadaşları, 1998: 9). 2.6. Küme Yaklaşımları KK'lerin arkasındaki temel fikir, IND(B) ikili bağıntısını kullanarak kümelerin yaklaşımlarını oluşturmaktır. Eğer X, A özelliklerini kullanarak kesin bir biçimde tanımlanamıyorsa alt ve üst yaklaşımlar ile gösterilebilir. A=(U,A) bir enformasyon sistemi, B A ve X U olsun. X, sırasıyla B X ve B X ile gösterilen X in B-alt ve B-üst yaklaşımları oluşturulması suretiyle sadece B de bulunan enformasyon kullanılarak yaklaştırılabilir: B X={x [x] B X } (6) B X={x [x] B X } (7) 21, ij

B X teki nesneler B deki bilgi temeline göre kesin olarak X in elemanları iken, B X teki nesneler B deki bilgi temeline göre sadece X in muhtemel elemanlarıdır. BN B (X)= B X - B X kümesine X'in B-sınır bölgesi adı verilir ve üst ve alt yaklaşımlar arasındaki fark olarak tanımlanır. Bu küme, B' deki bilgi temeline göre kesin olarak X'e ait olarak sınıflanamayan nesnelerden meydana gelir. Yani, sınır bölgesi, X'in elemanı olup olmadığına karar verilemeyen nesnelerden oluşur. Bir kümenin sınır bölgesi boş ise kesin (crisp) küme denir. Sınır bölgesi boş değil ise kaba küme adı verilir, çünkü sadece yaklaşık olarak nitelendirilebilir. X'in üst yaklaşımı, sınır bölgesi ile alt yaklaşımının birleşimidir. X kümesinin yaklaşık nitelendirmesini sağlayan üst ve alt yaklaşımlar ile sınır bölgesine ayırt edilebilirlik (discernibility) bölgeleri denir (Bazan, 1998: 325). U- B X kümesine X in B-dış bölgesi denir ve B deki bilgi temeline göre kesinlikle X e ait olmayan nesnelerden oluşur. POS(X)=X;NEG(X)=U- X ;BND(X)= X -X (8) 2.7. Tahmin Doğruluğu Kuralların gücünün ve kavramların yakınlığının değerlendirilmesinde kullanılan tahmin doğruluğu aşağıdaki kat sayı ile nitelendirilir; BX B ( X ) (9) BX Burada X, X in eleman sayısıdır. 0 ( X ) 1 dir. B ( X ) 1 ise, X B ye göre kesin, aksi takdirde B ( X ) 1ise, X B ye göre kabadır. 2.8. Özelliklerin Bağımlılığı Veri analizindeki diğer bir önemli husus özellikler arasındaki bağımlılıkların keşfedilmesidir. Sezgisel olarak, eğer bir D özellikler kümesinden olan özellikler tek olarak bir C özellikler kümesinden özelliklerin değerleri tarafından belirleniyorsa, D tamamı ile C'ye bağımlıdır ve C => D 22 B

şeklinde gösterilir. Diğer bir deyişle, D ve C'nin değerleri arasında fonksiyonel bir iliski varsa, D tamamı ile C'ye bağımlıdır. C ve D, A'nın alt kümeleri olsun. Eğer k aşağıda gösterildiği gibi hesaplanan bir değerse, D'nin bir k (0 k 1) derecesinde C'ye bağımlıdır denir ve C => k D şeklinde gösterilir. POS C ( D) k= ( C, D) (10) U Burada POS C (D), U/D bölüntüsünün C ye göre pozitif bölgesidir ve U nun C vasıtasıyla bir tek U/D bölüntüsünün bloklarına sınıflanabilen tüm elemanlarının kümesidir: POS C (D)= X U / D ( C, D) C (X) (11) X U / D C( X ) U (12) k=1 ise D tamamı ile C ye bağımlıdır, k<1 ise D kısmen C ye bağımlıdır. ( C, D), U/D bölüntüsünün yakınlığını ve C deki koşullara göre tahminini tanımlar. k kat sayısı ise bağımlılık derecesini gösterir. D tamamı ile C ye bağımlı ise IND(C) IND(D) ilişkisi gözlenir (Szladow ve Ziarko, 1993: 36-41). 2.9. İndirgenmiş Özellik Kümeleri B A özellik alt kümesi IND A (A) ayırt edilemezlik bağıntısını muhafaza ediyorsa A-B özellikleri atılabilir. Bu özellikler fazlalıktır ve atılmaları sınıflandırmayı kötüleştirmez. Bütün en küçük yani atılabilir özellik içermeyen alt kümelere indirgenmiş özellik kümeleri denir. A=(U,A) enformasyon sisteminin indirgenmiş özellik kümesi IND(B)=IND(A)ve (13) IND(B-{a}) IND(A) (14) olacak şekilde bir B A en küçük özellikler kümesidir. Bütün indirgenmiş özellik kümelerinin kesişimine çekirdek (core) adı verilir. Çekirdek boş küme olabilir. Bir A enformasyon sisteminin bütün indirgenmiş özellik kümelerinin kümesi RED(A) ile gösterilir. 23

Belirli bir nesneye göre indirgenmiş özellik kümeleri, belirli nesneyi diğer bütün ayırt edilebilir nesnelerden ayırt etmek için ihtiyaç duyulan minimum miktarda enformasyonu gösterirler. Bir A enformasyon sisteminin bir x nesnesine göre olan bütün indirgenmiş özellik kümelerinin kümesi RED (A,x) ile belirtilir (Komorowski ve arkadaşları, 2000: 134-149). 3. KABA KÜME YAKLAŞIMI KULLANILARAK VERİ MADENCİLİĞİ PROBLEMLERİNDE SINIFLANDIRMA AMAÇLI YAPILMIŞ OLAN ÇALIŞMALAR Aşağıda veri madenciliği problemlerinde sınıflandırma amaçlı yapılmış olan önemli çalışmalar özetlenmiştir. Pawlak (1983) kaba sınıflandırma adında yaptığı çalışmada yine kendisi tarafından tanımlanan (1982) kaba küme temelinde nesnelerin yaklaşık sınıflandırmasıyla ilgilenmiştir. Chan (1998) veri madenciliğinde nitelik oluşturmak için kaba küme yaklaşımı önermiştir. Yapılan çalışmada yeni bir niteliğin eklenmesi ve çıkarılması durumunda alt yaklaşımların güncellenmesi, yeni bir niteliğin eklenmesi çıkarılması durumunda üst yaklaşımların güncellenmesi sonuçlarına dayanan veriden öğrenen sınıflandırma kuralları (learning clasification rules) için yukarı-aşağı (top-down) algoritması geliştirmişlerdir. Algoritma kurallar oluşturmak için LERS öğrenen algoritmaları kullanır, bu yüzden öğrenilen kurallar hedef sınıfların minimal diskriminantına ayıran açıklamalarıdır. Tablo tutarsız olduğunda algoritma alt yaklaşımlardan kesin kuralları, üst yaklaşımlardan da muhtemel kuralları öğrenir. Tablolar tutarlı ise yalnızca tek bir kurallar kümesi vardır. Yaklaşım dinamik nitelik oluşturmak için etkili bir araç olarak kullanılabilir. Önerilen yöntem ve LERS tümevarım öğrenme algoritmasının birleşimiyle veri tabanlarından sınıflandırma kuralları öğrenmek için quasi incremental algoritması verilmiştir (Chan, 1998: 169-176). Felix ve Ushio (1999) kaba kümeleri kullanarak eksik ve tutarsız veriden kural indirgeme yaklaşımı önermişlerdir. Bu çalışmada kaba küme teorisine dayanan tutarsız ve eksik bir bilgi sisteminde minimal kuralları üreten iki yöntem önerilmiştir. Her iki yöntemde de ikili ayırt edilebilirlik matrisinin tanımlaması kullanılarak minimal örtülerin (minimal coverings) aramasında ikil-akıllı (bit-wise) işlemler kullanılmış ve kümelerdeki işlemler yeniden düzenlenmiştir. İlk yöntem örtülerin geniş bir aramasıdır 24

(exhaustive search of coverings), ikinci yöntem genetik algoritma tabanlı bir arama kullanır. Tutarsızlıklar alt ve üst yaklaşımlarla çözülür ve tamamlanmamış problem kaba ayırt edilebilir durumdaki örnek çiftleri arasındaki ayırt edilebilirliğin tanımının modifiye edilmesiyle çözülür (Felix ve Ushio, 1999: 154-158). Kusiak ve arkadaşları (2000) veri madenciliği yaklaşımında kaba küme teorisi, kümeleme analizi, ölçü teorisine dayanan bağımsız karar alma için bir çalışma yapmışlardır. Eğitim kümesinden karar kurallarının çıkartılması için iki algoritma önermişlerdir. Nitelik çıkarım algoritması (feature extraction algorithm) çoklu nitelik kümeleri oluşturabilir. Bu nitelik kümeleri ana ve doğrulama algoritmalarıyla (primary and confirmation algorithms) bir nesnenin çıktısını tahmin etmek için kullanılabilirler. Ana karar alma algoritması karar kurallarının nitelikleriyle yeni bir nesnenin nitelik değerlerini karşılaştırır. Eşleştirme kriteri ile karşılaşıldığı zaman nesnenin kararı eşleştirme karar kuralına eşit atanır ve doğrulama algoritmasına yardım için başvurulur. Özdeş iki algoritmayla kararlara ulaşıldığı zaman son karara da ulaşılmış olur. Yüksek doğruluklu kararlara ulaşmada bu iki yaklaşımın birleşimi etkilidir. Klinik verilerine uygulandığında çok iyi doğruluk derecesi elde edilmiştir. Yüksek doğruluklu bağımsız tanı için niteliklerin sayısının orijinal veri kümesindekinden küçük olması önemlidir. Niteliklerin indirgenmiş sayısı test etme maliyetlerini azaltır. Noninvasif testlerdeki veri teşhis için kullanıldığından hastaların mortalite ve morbidite riskleri önemli derecede azalır (Kusiak ve arkadaşları, 2000: 274-284). Pawlak (2000) karar algoritmalarında kaba kümeler ve bayes teoremi arasındaki ilişkiyi incelemiştir. Bayes teoremine dayanan kaba küme teoremi önceki veya sonraki (prior or posterior) olasılıklara başvurmaksızın karar kurallarından şartlar ve kararlar arasındaki ilişkiyi açıklar. Klasik Bayes nedenlemesi (classical Bayesian reasoning)nin tersine karar algoritmalarındaki şartlar ve kararlar arasındaki probabilistik ilişkiyi tanımlar. Bu yaklaşım, iki yaklaşımın tek başına kullanılmasından daha iyi sonuç vermiştir (Pawlak, 2000: 181-189). Breault (2001) tarafından diyabetik veri tabanlarındaki veri madenciliği yaklaşımında kaba kümeler incelenmiş ve ROSETTA programı kullanılmıştır. Kaba kümeler diyabetik veri tabanlarının analizinde oldukça etkili olmuştur (Breault, 2001). Pawlak (2001) tarafından 2000 yılındaki çalışmasının bir devamı olarak yapılan çalışmada, Bayes kuralının anlamı istatistiksel çıkarımdan 25

farklı anlamda kullanılmıştır. İstatistiksel çıkarım Bayes kuralına dayalı olarak veri hakkında bilgi olmaksızın bazı parametreler hakkında öncelikli bilgi, yani öncelikli olasılık (prior probability) sunar. Daha sonra veri, mevcut olduğu zaman sonraki (posterior) olasılık hesaplanır. Sonraki olasılık önceki olasılığı doğrulamak için kullanılır. Kaba kümede kesinlik (certainty) ve kapsam (coverage) faktörleri olarak isimlendirilen iki şart olasılığı her karar kuralıyla atanır. Bu iki faktör kaba küme teorisi temelinde bir kümenin alt ve üst yaklaşımlarıyla yakından ilişkilidir. Öncelikli ve sonralıklı olasılıklara başvurulmaksızın Bayes kuralı uygulanarak karar kuralı tersine (invert) çevrilir (Pawlak, 2001: 401-408). Zhong ve Skowron (2001) veri tabanlarından sınıflandırma kurallarının keşfi için kaba küme yaklaşımı temelinde bir kural keşif süreci önermişlerdir. Prosesin çekirdeğini, belirsiz ve eksik veriyi içeren veri tabanlarından sınıflandırma kurallarının keşfi için genelleştirilmiş dağılım tablosu (generalized distribution table,gdt) ve kaba küme sistemlerinden oluşan soft indirgeme sistemi (GDT-RS) oluşturur. Yapılan çalışmada slope-collapse veri tabanı kullanılmıştır. Sonuçlar diskriminant analizi kullanarak aynı veri üzerinde aynı işi yapan bir uzman tarafından hesaplanmıştır. Öngörülen yaklaşım kullanılarak seçilen nitelikler uzman tarafından seçilen çok önemli niteliklerle aynı çıkmıştır (Zhong ve Skowron, 2001: 429-457). Ananthanarayana ve arkadaşları (2002) tarafından kaba kümeler kullanılarak kaba PC ağaç (rough PC tree) yapısı önerilmiştir. Bu yaklaşımla işlem zamanı ve hafıza gereksinimleri sınıflandırma doğruluğu değişmeksizin azalmıştır (Ananthanarayana ve arkadaşları, 2002: 851-862). Dai ve Li (2002) kaba küme teorisi temelinde karar sisteminde minimal indirgeme için sezgisel bir genetik algoritma önermişlerdir. Geliştirilen algoritmaya yeni bir operatör olarak değiştirme (modify) operatörü eklenmiştir. Popülasyon çaprazlama, mutasyona tabi tutulduktan sonra değiştirme operatörüne de tabi tutulmaktadır. Bu yeni operatör şart nitelikleriyle aynı karar kabiliyetine sahip her bir kromozomu garanti etmektedir (Dai ve Li, 2002: 833-836). Hassan ve arkadaşları (2002) kaba küme ve sinir ağlarını birleştirerek kaba sinir ağları sınıflandırması adı altında bir yapı geliştirmişlerdir. Kaba kümeler veri analizi ve sinir ağlarıyla nitelik seçimi için kullanılmaktadır. Kaba küme teorisi, veri içinde doğru olmayan bağımlılıkların açıklanması için araçlar sağlar. Verinin ön işlenmesi adımında kullanılmaktadır. İndirgenmiş özelliklerin kümesi hesaplandıktan 26

sonra girdi vektör değerlerinin çıkartılmasıyla indirgenmiş veri kümesine göre kaba nöronlar kullanılarak sinir ağı modelinin yapısı oluşturulur. Geliştirilen algoritma prostat kanseri ve biyopsi veri setlerine uygulanmıştır. Yöntem ağın öğrenme zamanını ve sınıflandırma hata oranını oldukça azaltmıştır. Kaba kümeler kullanılarak standart sinir ağı yapısından farklı bir yapı geliştirilmiştir (Hassan ve arkadaşları, 2002: 470-475). Zhong ve arkadaşları (2003) genelleştirilmiş dağılım tablosu ve kaba küme (generalized distribution table and rough set, GDT-RS), Boolean nedenlemesiyle kaba kümeler (rough sets with Boolean reasoning, RSBR) olarak isimlendirilen iki kaba küme temelli melez sistemi menenjit veri kümesine uygulamışlardır. RSBR, GDT-RS başlamadan önce verinin ön işlenmesi adımında gerçek değerli niteliklerin kesikleştirilmesi için kullanılmıştır. RSBR yalnızca kesikleştirilmiş nitelik değerlerinin etkisini incelemekle kalmaz, GDT-RS nin de performansını etkiler. GDT-RS belirsiz ve tamamlanmamış veri tabanlarından sınıflandırma kurallarının keşfi için kullanılan soft melez bir indirgeme sistemidir. Geniş gerilimli (large strength) kurallar kümesinin üretilmesinde etkilidir. Sonuçlar göstermektedir ki RSBR ve GDT-RS melez sisteminin kullanılması özellikle niteliklerin karışık tipte bulunduğu veri tabanlarından kural keşfinde iyi bir yöntemdir (Zhong ve arkadaşları, 2003: 887-894). Hassan ve Tazaki (2003) yapmış oldukları çalışmada kaba küme teorisini kullanarak karar tablosundan veriyi analiz etmişlerdir. C4.5 algoritması kullanarak başlangıç popülasyonu oluşturmuş daha sonra tekrar kaba küme yaklaşımı kullanarak değerlendirme yapıp, genetik programlama operatörleri kullanarak modifikasyonlar oluşturup en etkin kurallar kümesi elde etmeye çalışmışlardır. Elde edilen sonuçlar C4.5 ve standart kaba küme yaklaşımıyla karşılaştırılmış ve bu yaklaşımlardan daha iyi sonuçlar elde edilmiştir (Hassan ve Tazaki, 2003: 617-643). Li ve Wang (2003) kaba küme ve sinir ağları yaklaşımlarının avantajlarını birleştirerek, karar tablolarından etkin sınıflandırma kuralları oluşturan bir melez sistem sunmuşlardır. Kaba kümeler daha önceki çalışmalarda sadece veri madenciliğinde sinir ağlarının kullanım sürecini basitleştirmek ya da hızlandırmak için kullanılırken; bu çalışmada karar tablolarını indirgemek ve eğitilmiş bir sinir ağından kural çekme esnasında gürültüleri süzmek için kullanılmışlardır. Karar tablosundaki nitelikler iki adımda indirgenmektedir. Birinci adımda, sınıflama bilgisi kaybı olmadan kaba küme yaklaşımı ile tablodan fazla ve gereksiz nitelikler uzaklaştırılmakta, ikinci adımda istenen sınıflama doğruluğu korunurken; tablodan gürültülü nitelikleri silmek için sinir ağları yaklaşımı 27

kullanılmaktadır. Melez sistemde sinir ağları sadece karar tablosunu indirgemek ve gürültüyü süzmek için bir araç olarak kullanılmaktadır. İndirgenmiş karar tablosundan sınıflama kuralları üretilirken, kaba küme teorisi kullanılmaktadır. Hem yapay problemleri hem de gerçek dünya problemlerini içeren bir dizi deney yapılmıştır. Geleneksel yöntemlerle karşılaştırmak için üç veri madenciliği problemine uygulanmış, dört adet standart veri tabanı kullanılmıştır. İkinci olarak, sistemi gürültülü koşullarda test etmek için veriye farklı düzeylerdeki gürültü rassal olarak eklenerek MONK3 veri kümesi üzerinde deneyler yapılmıştır. Karşılaştırma deneyleri geleneksel sinir ağları ve kaba küme yaklaşımından daha özlü ve doğru kurallar sağlamıştır. Deney sonuçları farklı gürültü seviyeleri altında bu yaklaşımın iyi bir şekilde çalıştığını göstermektedir (Li ve Wang, 2003: 439-448). Stepaniuk ve Kierzkowska (2003) tarafından önerilen kaba küme ve yapay sinir ağları temelinde melez sınıflandırma yaklaşımında sistem iki parçaya bölünmüştür: karar tablosunun dönüşümü ve yapay sinir ağlarının uygulaması. Eğitim tablosu olarak isimlendirilen karar tablosu ikiye bölünmüştür: DT 1 =(U 1,A {d}) ve DT 2 =(U 2,A {d}). Kural kümesini içeren kurallar DT1 den üretilmiştir. DT 2 tablosu ConRes programı kullanılarak yeni tablo DT 2 =(U 2,A kural kümesi {d}) elde edilmiştir, niteliklerin değerleri dönüşüm esnasında hesaplanmıştır. Yapay sinir ağlarının yapılandırılması için eğitim tablosu DT 2 =(U 2,A kural kümesi {d}) dir. ConRes programıyla sınıflandırma sonuçları sunulmuştur. Iris, Diyabet ve Australian verileri kullanılmış ve sınıflandırmadan önce Rosetta programı kullanılarak kümeler ikiye bölünmüştür. Boolean nedenleme algoritması kullanılarak kesikli hâle getirme işlemi yapılmıştır. Alt kümelerden birisiyle kurallar oluşturulmuş ve bu alt küme ağın öğrenmesinde kullanılmıştır. İkinci alt küme sınıflandırmayı test etmek için kullanılmıştır. Melez sistem yapay sinir ağlarının tek başına kullanılmasından çok daha iyi sonuç vermiştir (Stepaniuk ve Kierzkowska, 2003: 235-245). Hassanien (2004) medikal veri kümelerinin bir kümesinden nitelik indirgeme ve sınıflandırma kurallarının oluşturulması için bir kaba küme yaklaşımı önermiştir. Bu amaçla sınıflandırma için bir sınıfa atanan niteliklerin minimal alt kümesini içeren verinin tüm indirgenmiş kümelerini (reduct) bulan kaba küme indirgeme tekniği kullanmıştır. Hassanien in indirgeme algoritması (reduct algorithm) olarak kullandığı algoritma aslında Jensen ve arkadaşları tarafından yapılan SAT ile kaba küme indirgemelerinin bulunması çalışmasında geçen hızlı indirgeme algoritmasıyla (Quick reduct algorithm) aynıdır. Niteliklerin yaklaşım kalitesi temelinde kuralların geçerliliği hesaplanmıştır. Sonuçlar ID3 sınıflandırma 28

algoritmasıyla karşılaştırılmış ve oldukça iyi çıkmıştır (Hassanien, 2004: 954-962). Jerzy ve arkadaşları (2004) eksik veriden kural indirgemek için kaba küme yaklaşımını önermiştir. Karar tablolarında bazı nitelik değerleri eksik olduğu zaman karar tabloları tamamlanmamış durumda olur. Eksik nitelik değerlerinin iki ana durumu incelenmiştir: kayıp (orijinal değer silinmiş) ve ilişkisiz (orijinal değer ilişkisiz). Nitelik-değer çifti blokları karakteristik kümelerin yapılandırılmasında, karakteristik ilişkiler ve eksik nitelik değerli karar tabloları için alt ve üst yaklaşımlar kullanmıştır. LEM2 kural indirgeme algoritmasının değiştirilmiş bir biçimi kullanılmıştır. Sonuçlar göstermektedir ki; eksik nitelik değerleri kayıp olarak değerlendirmeye alındığında sınıflandırmadaki hata oranı oldukça azalmaktadır (Jerzy ve arkadaşları, 2004: 923-930). Wang (2005) kaba küme temelinde gürültülü veriden sınıflandırma bilgisi elde etmek adlı çalışmasında gürültülü bilgi sistemlerini analiz etmek için yalnızca kaba küme teorisinin kullanılmasının iyi olmadığını vurgulamıştır. Bulanık alt yaklaşıma (fuzzy lower approximation) dayanan toleranslı yaklaşım (tolerant approximation) gürültülü veriden etkili kuralların keşfiyle ilgili bir kavramdır. Toleranslı alt yaklaşım temelinde etkili bir kural indirgeme algoritması önerilmiştir. Geliştirilen algoritma bazı bilinen veri tabanlarında denenmiş, IBM Intelligent Miner daki deneysel (empirical) sınıflandırma algoritması kullanılarak karşılaştırmalar yapılmıştır. Etkinlik ölçütleri; tahmin doğruluğu, maliyet oranı ve randomizasyon analizi temelinde kural geçerlilik oranını içermektedir. Sonuçlar göstermektedir ki, geliştirilen algoritma oldukça iyi sonuçlar üretmiştir (Wang, 2005: 49-64). Kaba küme teorisi ve genetik algoritmanın avantajına dayanan hata tespiti çıkarım modeli öneren bir yaklaşım C.L.Huang ve arkadaşları(2005) tarafından ortaya konulmuştur. Entegre yaklaşım üç ana modülü içermektedir: Önişleme ve kesikleştirme, GA tabanlı indirgeme ve indirgenmiş özellik seçimi, kural oluşturucu-seçici. Kaba küme tabanlı program ROSETTA girdi nitelik kümesinin indirgenmesinde ve GA nın optimizasyon operasyonunun yürütülmesinde kullanılmıştır. Bu yaklaşım temelinde, minimal şart değişken alt kümeleri ve atama kuralları kurulmuş ve hata tanısı test eden anakart elektromagnetik girişim (motherboard electromagnetic interference-emi) için bir uygulama kullanılarak örneklendirilmiştir. Sonuçlar göstermektedir ki; önerilen metod anakart EMI hata tanısında kullanılan şart niteliklerinin sayısını azaltmakta ve kabul edilebilir bir sınıflandırma doğruluğu (%80) göstermektedir ki bu da melez 29

modelin EMI tanı destek sistemleri için ümit verici bir yaklaşım olduğunun göstergesidir (Huang ve arkadaşları, 2005: 119-127). 4. SONUÇLAR Bu makalede kaba küme teorisi ile ilgili temel kavramlar anlatılmış olup veri madenciliği problemlerinde kaba küme yaklaşımıyla yapılan melez çalışmalar üzerinde durulmuştur. Genel olarak; karar sistemleri biçiminde tablolaştırılabilecek verilerin analizinde kaba küme yaklaşımından başarılı bir şekilde yararlanılabileceği, bu yaklaşımın özellikle belirsizlik ve muğlaklık durumlarında verilecek önemli kararlara bilimsel bir destek sağlayabileceği değerlendirilmektedir. Bu yaklaşım, karara etki eden ana faktörleri açık olarak ortaya koymaktadır. Yapılan çalışmalar göstermektedir ki veri madenciliği problemlerinde tek bir algoritma yerine melez bir yaklaşımın kullanılması daha iyi sonuçlar vermektedir. Bunun en önemli nedeni de mevcut bir algoritmanın eksik kalan kısmını diğer algoritmanın tamamlayabilme yeteneğinin olmasıdır. KAYNAKÇA Ananthanarayana, V.S., Murty, M.N., Subramanian, D.K., 2002. Tree Structure for Efficient Data Mining Using Rough Sets. Pattern Recognition Letters, v. 24, s. 851-862. Bazan, J.G., 1998. A Comparison of Dynamic and Non-dynamic Rough Set Methods for Extracting Laws from Decision Tables. L. Polkowski ve A. Skowron (ed), Rough Sets in Knowledge Discovery, New York, Physica-Verlag, s. 325. Binay, H.S., 2002. Yatırım Kararlarında Kaba Küme Yaklaşımı. Doktora Tezi. Breault, J.L., 2001. Data Mining Diabetic Databases: Are Rough Sets a Useful Addition. In Proc. 33rd Symposium on the Interface, Computing Science and Statistics, Fairfax, VA. Chan,Chin-Chung, 1998. A Rough Set Approach to Attribute Generalization in Data Mining. Journal of Information Sciences, v 107, s. 169-176. Cios, K., Pedrycz, W., Swiniarski, R., 2000. Data Mining Methods for Knowledge Discovery. ABD, Kluwer Academic Publishers, s. 33. Dai, J.ve Li, Y., 2002. Heuristic Genetic Algorithm for Minimal Reduct in Decision System Based on Rough Set Theory. Proceedings of 2002 30

International Conference on Machine Learning and Cybernetics, v 2, s. 833-836. Felix, R. ve Ushio, T., 1999. Rule Induction from Inconsistent and Incomplete Data Using Rough Sets. IEEE International Conference on Systems, v 5, s. 154-158. Hassan, Y., Tazaki, E., Egava, S., Suyama, K., 2002. Rough Neural Classifier System, Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, v 5, s. 470-475. Hassan, Y., Tazaki, E., 2003. Induction of Knowledge Using Evolutionary Rough Set Theory. Cybernetics and Systems:An International Journal, v 34, s. 617-643. Hassanien, A., 2004. Rough Set Approach for Attribute Reduction and Rule Generation: A Case of Patients With Suspected Breast Cancer. Journal of the American Society for Information Science and Technology, v 55, s. 954-962. Huang, C.L., Li, T.S., Peng, T.K., 2005. A Hybrid Approach of Rough Set Theory and Genetic Algorithm for Fault Diagnosis. Int.J.Adv. Manuf.Technol, v 27, s. 119-127. Jerzy, W., Busse, G., Siddhaye, S., 2004. Rough Set Approaches to Rule Induction from Incomplete Data, Uncertainty in Knowledge-Based Systems, v 2, s. 923-930. Komorowski, J., Pawlak, Z., Polkowski, L., Skowron, A. 1998. Rough Sets: A Tutorial. S.K. Pal, A. Skowron (ed.), Rough-Fuzzy Hybridization: A New Method for Decision Making, Singapur, Springer-Verlag, s. 9. Komorowski, J., Pawlak, Z., Polkowski, L., Skowron, A., 2000. A Rough Set Perspective On Data and Knowledge. Handbook of Data Mining and Knowledge Discovery, Oxford University Pres, s. 134-149. Kusiak, A., Kern, J.A., Kernstine, K.H., Tseng, T.L., 2000. Autonomous Decision-Making: A Data Mining Approach. IEEE Transactions on Information Technology in Biomedicine, v 4, s. 274-284. Li, R. ve Wang, Z., 2003. Mining Classification Rules Using Rough Sets and Neural Networks, Computing, Artificial Intelligence and Information Technology, v 157, s. 439-448. Pawlak, Z., 1983. Rough Classificaton. Int.J.Human-Computer Studies, v 51, s. 369-383. Pawlak, Z., 1991. Rough Sets Theoretical Aspects of Reasoning about Data. Kluwer Academic Publishers, Pawlak, Z. ve Skowron, A., 1994. Rough Set Rudiments. The International Workshop on Rough Sets and Soft Computing, San Jose, California, s. 72. 31

Pawlak, Z. ve Slowinski, R., 1994. Rough Set Approach to Multi-attribute Decision Analysis. Europan Journal Of Operational Research, v 72, s. 443-459. Pawlak, Z., 2000. Rough Sets, Decision Algorithms and Bayes Theorem. European Journal of Operational Research, v 136, s. 181-189. Pawlak, Z., 2001. Combining Rough Sets and Bayes Rule. Computational Intelligence, v 17, s. 401-408. Polkowski, L. ve Skowron A., 1998. Rough Sets in Knowledge Discovery. Springer-Verlag Publishers. Stepaniuk, J. ve Kierzkowska, K., 2003. Hybrid Classifier Based on Rough Sets and Neural Networks, Electronic Notes in Theoretical Computer Science, v 82, s. 235-245. Szladow, A., Ziarko, W., 1993. Rough Sets: Working with Imperfect Data. AI Expert, v 8, s. 36-41. Wang, F., 2005. On Acquiring Classification Knowledge from Noisy Data Based on Rough Set. Expert Systems with Applications, v 29, s. 49-64. Zhong, N., Skowron, A., 2001. A Rough Set-Based Knowledge Discovery Process. Int. J. Appl. Math. Comput. Sci., v. 11, s. 603-619. Zhong, N., Dong, J., Ohsuga, S., 2003. Menengitis Data Mining by Cooperatively Using GDT-RS and RSBR. Pattern Recognition Letters, v 24, s. 887-894. 32