- PDF Ücretsiz indirin

Transkript

1 ÖZET...4 TEŞEKKÜR VERİ MADENCİLİĞİ Veri Madenciliğinde Karşılaşılan Problemler Veritabanı Boyutu Gürültülü Veri Boş Değerler Eksik Veri Artık Veri Dinamik Veri Farklı tipteki verileri ele alma Veri Madenciliği Algoritmaları Hipotez Testi Sorgusu Sınıflama Sorgusu Güdümsüz Gruplama Sorgusu Ardışık Örüntüler Eşleştirme Sorgusu Eşleştirme Algoritmaları METİN VERİ MADENCİLİĞİ Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı Metin Çıkartımı İçin Temel Ölçümler Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı Metin Verilerinin Heterojenliği METİN SINIFLANDIRMA Metin Madenciliğinin Ön Aşamaları ve Sınıflama Ayrıştırma Durdurma Kelimelerinin Çıkarılması Gövdeleme Metin Gösterimi Vektör Uzayı Modeli Boyut Küçültme Özellik Seçimi Doküman Frekans Eşikleme Bilgi Kazanımı Yöntemi χ2 (chi kare) İstatistiği Yeniden Değiştirgeleme Ağırlıklandırma Boole Ayırma Kelime Frekans Ağırlıklandırma tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency) tfc-ağırlıklandırma (Term Frequency Component) ltc Ağırlıklandırma (Logarithmic Term Component) Metin Madenciliği Algoritmaları Rocchio Algoritması Naive Bayes Karar Ağacı Ağacı Oluşturma (CART) Ağacın Budanması Destek Yöney Makineleri Ayrılabilir Durumlarda Destek Yöney Makineleri Ayrılamaz Durumlarda Destek Yöney Makineleri Bayesian Ağları

2 4 KÜMELEME ANALİZİ Kümeleme Analizi Uygulamaları Kümeleme Analizinde Veri Tipleri Aralık Ölçekli Değişkenler İkili Değişkenler Nominal (ada bağlı), Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler Karışık Tipteki Değişkenler Ana Kümeleme Yöntemlerinin Kategorilendirilmesi Bölümlendirme Metodu Klasik Bölümlendirme Metotları: k-means, k-medoids Büyük Veritabanlarında k-medoid ten CLARA ya Grid Temelli Metodlar STING (Statistical Information Grid- İstatiksel Bilgi Grid) WaveCluster: Wavelet Dönüşümü Kullanarak Kümeleme CLIQUE (Clustering High-Dimensional Space- Yüksek Boyutlu Alanda Kümeleme) Model Tabanlı Kümeleme Metodları İstatistiksel Yaklaşım Sıradışılık Analizi İstatistiksel Tabanlı Sıradışılık Denetimi Uzaklık-tabanlı Sıradışılık Denetimi Sapma Tabanlı Sıradışılık Denetimi OTOMATİK HABER METİNLERİ SINIFLANDIRMA UYGULAMASI Önerilen Sistem Kullanılan Parser ve Gerekliliği Karar mekanizmasında kullanılan yöntemler Destekleyici Öğrenme (Learning Vector Quantization-LVQ) Naive Bayes Vektörel metinlerde boyut azaltma çalışmaları Principle Component Anaysisl(PCA) Informaiton Gain(IG) Uygulama Sonuçları Sonuç...63 KAYNAKÇA

3 ÖZET İletişim ve bilgisayar teknolojilerindeki gelişmeler, veri toplamak için bilgi teknolojilerinin daha çok ve daha yaygın bir şekilde kullanılmasına, bu yolla toplanan verilerde inanılmaz bir artışa neden olmuştur. Varolan verilerden bilgiyi elde etmeye geniş çapta ihtiyaç duyulmuştur. Bu ihtiyacı gidermek için araştırma kurumları ve üniversiteler çalışmalarıyla yeni disiplinler ortaya çıkarmıştır. Veri madenciliği bu yeni disiplinlerden biridir. Veri madenciliğinin veri tabanları üzerine uygulanmasıyla Veri Tabanında Bilgi Keşfi (VTBK) ortaya çıkmıştır. Veri seçimi, veri temizleme, veri ön işleme, veri indirgeme, veri madenciliği algoritmasının uygulanması ve sonuçların değerlendirilmesi VTBK yi oluşturan basamaklardır. Veri madenciliği üzerindeki eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı gibi yapısal veriler üzerine yoğunlaşmıştır. Ancak, WWW de inanılmaz gelişmeler sonucu gerçekte elde edilebilir bilginin büyük bir çoğunluğu metin veri tabanları üzerinde saklanmaktadır. Bu veri tabanları, makaleler, araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli kaynaklardan, büyük ölçekli doküman koleksiyonlarından oluşmaktadır. Geleneksel bilgi kazanım teknikleri, metin verilerinden bilgi çıkarımında etkisiz kalmış ve bunun sonucu olarak da metin veri madenciliği çalışmaları hızla yayılmıştır. Anahtar Kelimeler: Metin madenciliği, metin sınıflandırma algoritmaları, metin kümeleme. 4

4 TEŞEKKÜR Proje hazırlama çalışmalarım sırasındaki yönlendirici önerilerinden ve gerekli kaynak teminindeki katkılarından, ayrıca kaliteli bir Yüksek Lisans Eğitimi almama vesile olan Proje Danışmanım Sayın Dr. Yalçın ÖZKAN a teşekkür ederim. Ek olarak, eğitim dönemindeki ve proje hazırlamam esnasında bana her türlü manevi desteği veren eşim ve çocuklarıma minnettarım. 5

5 GİRİŞ Veri Madenciliği, önceden öngörülemeyen ve saklı durumdaki değerli bilgi ya da bilgilerin, eldeki verilerden, matematiksel yöntemler ile süzülerek, anlamlı şekilde ortaya çıkarılması sürecidir. Bilişim teknolojisinin gelişmediği yıllarda insanlar sınırlı sayıdaki basılı kaynak arasında, kütüphanelerde yazar adı, konu ve kitap başlığına göre arama yapabilirken, günümüzün bilgileri daha çok sayısal metinler olarak saklanmaya doğru yöneldiğinden, bilgi saklama ve bilgiye erişim daha farklı, daha çok seçenek sunabilen ve daha karmaşık bir hal almıştır. Sayısal dokümanların miktarının artmasının nedenleri; Hızla gelişen teknoloji sayesinde, kağıt üzerindeki metinlerin sayısal ortamlara geçirilmesi kolaylaşmış, kelime işlemcilerin üstün yetenekleri sayesinde dokümanların sayısal olarak hazırlanması ve saklanması yaygınlaşmış ve İnternet in popüler olması, bu dokümanların paylaşılmalarını arttırmıştır. İnternet teki ve diğer sayısal ortamlardaki bilgiler hızla çoğaldıkça, insanların bu bilgileri daha iyi düzenleme, bilgilere daha kolay ulaşma ve aradığı bilgiyi daha çabuk bulma ihtiyacı da artar. Çünkü fazlalaşan dokümanlar, kullanıcının aradığı bilgiye ulaşmasını zorlaştırır. Bu problemi ortadan kaldırmak için, bilgisayarın yeteneklerinden ve bilgisayar biliminin bir alt dalı olan bilgi erişimi yöntemlerinden faydalanılır (Bolat 2003). Bilgi erişimi yöntemleri, bilgisayar biliminin yapay zeka, çoklu ortam sistemleri, paralel hesaplama gibi alt dallarını kullanır. Metin Madenciliği, bir sistem yardımıyla kullanıcı ihtiyaçlarının bir sorgu şeklinde alınması ve çok sayıda metin dokümanı olan bir veri tabanı içinden dokümanların kullanıcı isteklerine olan benzerliklerine göre sıralanmış bir liste halinde sunulması işlemidir. Günümüzün arama motorları metin erişimine örnek olarak verilebilir. 6

6 1 VERİ MADENCİLİĞİ Bilgi teknolojilerindeki gelişme, bilgisayarların ve otomatik veri toplama araçlarının geniş bir alanda uygulanmasını sağlamıştır. Yaygın bilgisayar kullanımı sonucunda, çeşitli ortamlarda ve/veya biçimlerde çok büyük ölçekli işletimsel veri birikmiştir. Büyüme işlevleri cinsinden ifade edecek olursak, veri saklama kapasitesi her 9 ayda bir tahmini ikiye katlanmaktadır. Buna karşılık ise, aynı periyotta, Moore kanununa göre hesaplama gücü iki kat daha az büyümektedir. Bu aradaki fark, veriyi yakalama ve saklama oranının onu işleme ve kullanma yeteneğimizi/oranını çoktan geçtiğini göstermektedir. Bir başka deyişle, bir kısım veri nihai olarak bir daha hiç erişilmemek/işlenmemek üzere saklanabilir ki bu durum daha çok veritabanının dışsal boyutu, yani varlıkların ya da nesnelerin sayıları, ile ilgilidir. Sorun, yalnızca, veri yakalama/saklama kapasitesinin ve hesaplama gücünün büyüme oranları arasındaki teknolojik boyutlu üssel fark değildir. Örnek olarak, verinin dışsal ve içsel boyutu ile ilgili mutlak rakamlar verelim. Astronomi veritabanlarında tutanak sayısı lere ulaşırken, sağlık sektöründeki uygulamalarda öznitelik sayısı 10 2 ila 10 3 arasında değişmektedir (Sever vd. 2002). Veritabanının içsel boyutu ile kastedilen, veri sözlüğü ile ilişkilidir; yani, varlıkların tanımı ve veri hacmindeki büyüme oranı her ikisinin ortasında seyretmektedir. 90 ların başında yapılan bir tahmine göre büyüme oranı her bir 20 ayda ikiye katlanmaktadır. Buna karşılık, Internetteki web sayfalarındaki ve sunucu bilgisayarlarındaki artış oranlarına baktığımızda, 90 ların sonu itibariyle rakamlar her bir yılda ikiye katlamaktadır. İşletimsel kaygılardan yola çıkılarak tanımlanmış öz niteliklerin yeniden bilgi keşfetme açısından düzenlenmesi de günümüz veritabanı teknolojilerinin önündeki en büyük meydan okumalardan birisidir. Gerek bilimsel veritabanlarında gerekse de günlük iş aktiviteleri etrafında modellenmiş ticari veritabanlarında bu çok büyük hacimli verilerin analizi alan uzmanlarının kapasitesini çoktan aşmıştır. Bu nedenle gerçek hayat verilerinin otomatik veya yarı otomatik tekniklerle kullanıcı açısından ilginç ve önemli bilgilere dönüştürülmesi ihtiyacı doğmuştur ki bu, bugünün veritabanı yönetim sistemlerinin tipik işlevleriyle gerçekleştirilemez. Bunun en önemli nedeni VTYS ler çevrimiçi oturum işleme (ÇOİ - On Line Transaction Processing, OLTP) göz önünde bulundurularak geliştirilmişlerdir. İşletimsel veri tabanı (VT) üzerinde konuşlanan ÇOİ tipikçe kısa süre gerektiren (örneğin, saniyede 10 lar veya 100 ler mertebesinde işlenebilen oturumlar) ve yapısal ve kodlama bilgisi bilinen alanlara (örneğin, ad/soyad, tarih, ısmarlama no, vs.) göre akort edilmişlerdir. Burada söz konusu olan, oturumların aşağıdakileri sağlamasıdır: (a) ya gerçekleşti ya da gerçekleşmedi (atomik) işlemi, (b) önceki tutarlılığın oturum sonucunda korunması, (c) işlem bir kere istendiğinde sonuç değişikliklerin sürekli olması, (d) izole olması, ve (e) eş zamanlı oturumların veri tabanına etkisinin serileştirilebilir olması. Gerçekte, veri analizini konu alan karar destek uygulamaları, doğası gereği ne kısa süreli olması ne de yapısal bilgileri kullanması gerekmektedir. Bunun ötesinde, karar destek uygulamaları için işletimsel veriler tek başlarına yeterli değillerdir ki bunlar dış veri kaynakları ile birleştirilir. Bu bağlamda birleşik VTYS lerin tek bir küresel sorgu cümlesi ile sorgulanması için oluşturulan birleştirilmiş kavramsal şema 7

7 ile ilgili zorluklar ve meydan okuyucu noktalar karar destek modellerinin oluşturulması esnasında da geçerlidir (Sever vd. 2002). Literatürde, işletimsel veri içinden faydalı örüntülerin bulunması işlemine pek çok terim karşılık gelmektedir. Bunlardan birkaçı veritabanlarında bilgi keşfi (VTBK - Knowledge Discovery From Databases), veri madenciliği (Data Mining), bilgi harmanlama (Information Harvesting) dır. Yeni gelişmekte olan her araştırma dalında olduğu gibi, VTBK nın tanımı ve faaliyet alanının ne olacağı konusunda farklı görüşler vardır. Bazı kaynaklara göre; VTBK daha geniş bir disiplin olarak görülmektedir ve veri madenciliği terimi sadece bilgi keşfi metodlarıyla uğraşan VTBK sürecinde yer alan bir adımdır. VTBK sürecinde yer alan adımlar şöyledir(sever vd.2002): 1 Veri Seçimi (Data Selection): Bu adım birkaç veri kümesini birleştirerek, sorguya uygun örneklem kümesini elde etmeyi gerektirir. 2 Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen örneklemde yer alan hatalı tutanakların çıkarıldığı ve eksik nitelik değerlerinin değiştirildiği aşamadır. Bu aşama keşfedilen bilginin kalitesini arttırır. 3 Veri İndirgeme (Data Reduction): Seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı tutanakların ayıklandığı adımdır. Bu aşama seçilen veri madenciliği sorgusunun çalışma zamanını iyileştirir. 4 Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun (sınıflama, güdümsüz öbekleme, eşleştirme, vb.) işletilmesidir. 5 Değerlendirme (Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik kıstaslarına göre değerlendirilmesi aşamasıdır. 6 VTBK sistemlerinde kullanılan veri çevrimiçi veya çevrimdışı işletimsel veridir. İşletimsel veri organizasyonel aktiviteler düşünülerek düzenlenir ve normalleştirilir. Bu bilgi keşfi süreci için gerekli verilerin ya bir arada bulunmamasına, ya hiç tutulmamasına ya da ilgili veri içeriğinin birden fazla yorumlanmasına yol açar. Bu yüzden bilgi keşfi açısından işletimsel veri ister çevrimiçi ister çevrimdışı olsun işlenmemiş/ham veri olarak kabul edilir. Şekil 1.1 de VTBK sürecinde yer alan adımlar gösterilmiştir(sever vd. 2002). 8

8 Şekil 1.1: VTBK Adımında Yer Alan Süreçler Veri Madenciliği için yapılan diğer tanımlardan bir kaçı şöyledir: Önceden bilinmeyen ve potansiyel olarak faydalı olabilecek, veri içinde gizli bilgilerin çıkarılmasına veri madenciliği denir. Diğer bir tanım ise, veri madenciliği, büyük veri kümesi içinde saklı olan genel örüntülerin ve ilişkilerin bulunmasıdır. Aktif araştırma alanlarından biri olan veri tabanlarında bilgi keşfi disiplini (VTBK), çok büyük hacimli verileri tam ya da yarı otomatik bir biçimde analiz eden yeni kuşak araç ve tekniklerin üretilmesi ile ilgilenen son yılların gözde araştırma konularından biridir. VTBK, veri seçimi, veri temizleme ve ön işleme, veri indirgeme, veri madenciliği ve değerlendirme aşamalarından oluşan bir süreçtir. Veri Madenciliği, önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan VTBK süreci içinde bir adımdır (Sever vd. 2002). Veri madenciliği, makina öğrenimi, istatistik, veritabanı yönetim sistemleri, veri ambarlama, koşut programlama gibi farklı disiplinlerde kullanılan yaklaşımları birleştirmektedir. Makina öğrenimi, istatistik ve veri madenciliği arasındaki yakın bağ kolaylıkla görülebilir. Bu üç disiplin veri içindeki ilginç düzenlilikleri ve örüntüleri bulmayı amaçlar. Makina öğrenimi yöntemleri veri madenciliği algoritmalarında kullanılan yöntemlerin çekirdeğini oluşturur. Makina öğreniminde 9

9 kullanılan karar ağacı, kural tümevarımı pek çok veri madenciliği algoritmasında kullanılmaktadır. Makina öğrenimi ile veri madenciliği arasında benzerliklerin yanısıra farklılıklar da göze çarpmaktadır. Öncelikle veri madenciliği algoritmalarında kullanılan örneklem boyutu, makina öğreniminde kullanılan veri boyutuna nazaran çok büyüktür. Genellikle makina öğreniminde kullanılan örneklem boyu 100 ile 1000 arasında değişirken veri madenciliği algoritmaları milyonlarca gerçek hayat nesneleri üzerinde uğraşmaktadır ki bunların karakteristiği boş (boş), artık, eksik, gürültülü değerler olarak belirlenebilir. Aynı zamanda veri madenciliği algoritmaları bilgi keşfetmeye uygun nesne niteliklerinin elde edilme sürecindeki karmaşıklıkla baş etmek zorundadır(sever vd. 2002). Olasılıksal veri nedenlemede veri madenciliği, istatistik alanındaki bir çok metodu kullanmasına rağmen, nesnelerin nitelik ve değerlerine bağlı çıkarsama yapmada bilinen istatistiksel metodlardan ayrılmaktadır. Örneğin, x-kare veya t testi gibi istatistiksel test yöntemleri birden fazla nitelik arasında korelasyon derecesini belirli bir güvenlik arasında verebilmesine karşılık, belirli nitelik değerleri arasındaki ilişkinin derecesini açığa çıkaramazlar. İstatistiksel yöntemler karar verme mekanizmasında veri madenciliği disiplini ortaya çıkmadan önce çok sık kullanılırdı. Ancak bu yöntemlerin kullanım zorluğu (uzman kişileri tutma/başvurma), veri madenciliği algoritmalarının uygulama kolaylılığı ile karşılaştırıldığında, veri nedenleme sürecindeki en güç adımı oluşturuyordu. Veritabanı yönetim sistemleri (VTYS) büyük miktardaki yapısal bilgiyi saklama ve etkin bir biçimde erişim sağlamakla yükümlüdür. VTYS lerde veri düzenlemesi, ilgili organizasyonun işletimsel veri ihtiyacı doğrultusunda gerçekleştirilir ki bu her zaman bilgi keşfi perspektifi ile bire-bir çakışmaz. Bu açıdan veritabanındaki veriler temizleme, boyut indirgeme, transfer, vb. işlemlerinden geçirilerek veri madenciliği kullanımına sunulurlar. veri madenciliği teknikleri ayrı araç olarak sağlanabileceği gibi bir VTYS ile de entegre olabilirler. Örneğin, veri kileri, çevrim içi analitik işleme ya da kısaca OLAP. Veri madenciliğinde analitik modelleme, öngörüsel modelleme, tanımsal modelleme, OLAP, sorgulama ve raporlama gibi aşamalardan oluşturulabilir. 10

10 Şekil 1.2 Modelleme Aşamaları 1.1 Veri Madenciliğinde Karşılaşılan Problemler Küçük veri kümelerinde hızlı ve doğru bir biçimde çalışan bir sistem, çok büyük veritabanlarına uygulandığında tamamen farklı davranabilir. Bir veri madenciliği sistemi, tutarlı veri üzerinde mükemmel çalışırken, aynı veriye gürültü eklendiğinde kayda değer bir biçimde kötüleşebilir. İzleyen kesimde günümüz veri madenciliği sistemlerinin karşı karşıya olduğu problemler incelenecektir Veritabanı Boyutu Veritabanı boyutları inanılmaz bir hızla artmaktadır. Pek çok makina öğrenimi algoritması bir kaç yüz tutanaklık oldukça küçük örneklemleri ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların yüz binlerce kat büyük örneklemlerde kullanılabilmesi için çok büyük dikkat gerekmektedir. Örneklemin büyük olması, örüntülerin gerçekten var olduğunu göstermesi açısından bir avantajdır ancak böyle bir örneklemden elde edilebilecek olası örüntü sayısı çok büyüktür. Bu yüzden veri madenciliği sistemlerinin karşı karşıya olduğu en önemli sorunlardan biri veritabanı boyutunun çok büyük olmasıdır. Dolayısıyla veri madenciliği yöntemleri ya sezgisel/buluşsal bir yaklaşımla arama uzayını taramalıdır ya da örneklemi yatay/dikey olarak indirgemelidir. Yatay indirgeme çeşitli biçimlerde gerçekleştirilebilir. İlkinde, belirli bir niteliğin alan değerleri önceden sıradüzensel olarak sınıflandırılır (ya da kategorize edilir) ki buna genelleştirme işlemi de denilmektedir. Sonrasında ise, ilgili niteliğin değerleri önceden belirlenmiş genelleme sıradüzeninden aşağıdan yukarıya doğru seviye seviye günlenir (yani, üst nitelik değeri ile değiştirilir) ve tekrarlı çoklular çıkarılır (Sever vd. 2002). İkincisinde, oldukça sağlam olan örnekleme kuramı kullanılarak çok 11

11 büyük hacimli veri öyle bir boyuta indirgenir ki hem kaynak veri belirli bir güven aralığında temsil edebilir hem de indirgenen veri kümesinin hacmi makine öğrenimi algoritmalarınca işlenebilir olması olurlu olabilir. Sonuncusunda ise, sürekli değerlerden oluşan bir alana sahip nitelik üzerine kesikleştirme tekniğinin uygulanmasıdır. Sürekli değerlerin belirli aralık değerlerine dönüştürülmesi ile tekrarlılık arz eden çoklular ortadan kaldırılarak yatay indirgeme sağlanabilir. Aslında bu kesikleştirme tekniği, sürekli sayısal değerler için geçerli olmıyan makine öğrenim algoritmaları için bir önkoşul ya da ön işlemedir ki bu konu ayrı bir alt başlık olarak verilecektir. Dikey indirgeme, artık niteliklerin indirgenmesi işlemidir ki bu artık işleme alt başlığında tartışılacaktır Gürültülü Veri Büyük veritabanlarında pek çok niteliğin değeri yanlış olabilir. Bu hata, veri girişi sırasında yapılan insan hataları veya girilen değerin yanlış ölçülmesinden kaynaklanır. Veri girişi ya da veri toplanması sırasında oluşan sistem dışı hatalara gürültü adı verilir. Ancak günümüzde kullanılan ticari ilişkisel veritabanları veri girişi sırasında oluşan hataları otomatik biçimde gidermek konusunda az bir destek sağlamaktadır. Hatalı veri gerçek dünya veritabanlarında ciddi problem oluşturabilir. Bu durum, bir veri madenciliği yönteminin kullanılan veri kümesinde bulunan gürültülü verilere karşı daha az duyarlı olmasını gerektirir. Gürültülü verinin yol açtığı problemler tümevarımsal karar ağaçlarında uygulanan metodlar bağlamında kapsamlı bir biçimde araştırılmıştır (Sever vd. 2002). Eğer veri kümesi gürültülü ise sistem bozuk veriyi tanımalı ve ihmal etmelidir. Quinlan, gürültünün sınıflama üzerindeki etkisini araştırmak için bir dizi deney yapmıştır. Deneysel sonuçlar, etiketli öğrenmede etiket üzerindeki gürültü öğrenme algoritmasının performansını doğrudan etkileyerek düşmesine sebeb olmuştur. Buna karşın eğitim kümesindeki nesnelerin özellikleri/nitelikleri üzerindeki en çok %10 luk gürültü miktarı ayıklanabilmektedir. Gürültünün etkisini analiz etmek için istatiksel yöntemler kullanmışlardır Boş Değerler Bir veritabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş değer tanımı gereği kendisi de dahil olmak üzere hiç bir değere eşit olmayan değerdir. Bir çokluda eğer bir nitelik değeri boş ise o nitelik bilinmeyen ve uygulanamaz bir değere sahiptir. Bu durum ilişkisel veritabanlarında sıkça karşımıza çıkmaktadır. Bir ilişkide yer alan tüm çoklular aynı sayıda niteliğe, niteliğin değeri boş olsa bile, sahip olmalıdır. Örneğin kişisel bilgisayarların özelliklerini tutan bir ilişkide bazı model bilgisayarlar için ses kartı modeli niteliğinin değeri boş olabilir. Lee, boş değeri, (1) bilinmeyen, (2) uygulanamaz, ve (3) bilinmeyen veya uygulanamaz olacak biçimde üçe ayıran bir yaklaşımı ilişkisel veritabanlarını genişletmek için öne sürmüştür. Mevcut boş değer taşıyan veri için herhangi bir çözüm sunmayan bu yaklaşımın dışında bu konuda sadece bilinmeyen değer üzerinde çalışmalar yapılmıştır. Boş değerli nitelikler veri kümesinde bulunuyorsa, ya bu çoklular tamamıyla ihmal edilmeli ya da bu çoklularda niteliğe olası en yakın değer atanmalıdır(sever vd. 2002). 12

12 1.1.4 Eksik Veri Evrendeki her nesnenin ayrıntılı bir biçimde tanımlandığı ve bu nesnelerin alabileceği değerler kümesinin belirli olduğu varsayılsın. Verilen bir bağlamda her bir nesnenin tanımı kesin ve yeterli olsa idi, sınıflama işlemi basitçe nesnelerin alt kümelerinden faydalanılarak yapılırdı. Bununla birlikte, veriler kurum ihtiyaçları gözönünde bulundurularak düzenlenip, toplandığından, mevcut veri gerçek hayatı yeterince yansıtmayabilir. Örneğin hastalığın tanısını koymak için kurallar sadece çok yaşlı insanların belirtilerinin bulunduğu bir veri kümesi kullanılarak üretilseydi, bu kurallara dayanarak bir çocuğa tanı koymak pek doğru olmazdı. Bu gibi koşullarda bilgi keşfi modeli belirli bir güvenlik (ya da doğruluk) derecesinde tahmini kararlar alabilmelidir (Sever vd. 2002) Artık Veri Verilen veri kümesi, eldeki probleme uygun olmayan veya artık nitelikler içerebilir. Bu durum pek çok işlem sırasında karşımıza çıkabilir. Örneğin, eldeki problem ile ilgili veriyi elde etmek için iki ilişkiyi ortak nitelikler üzerinden birleştirirsek sonuç ilişkide kullanıcının farkında olmadığı artık nitelikler bulunur. Artık nitelikleri elemek için geliştirilmiş algoritmalar özellik seçimi olarak adlandırılır (Sever vd. 2002). Özellik seçimi, tümevarıma dayalı öğrenmede budama öncesi yapılan bir işlemdir. Başka bir deyişle, özellik seçimi, verilen bir ilişkinin içsel tanımını, dışsal tanımın taşıdığı (veya içerdiği) bilgiyi bozmadan onu eldeki niteliklerden daha az sayıdaki niteliklerle (yeterli ve gerekli) ifadeleyebilmektir. Özellik seçimi yalnızca arama uzayını küçültmekle kalmayıp, sınıflama işleminin kalitesini de arttırır Dinamik Veri Kurumsal çevrim-içi veritabanları dinamiktir, yani içeriği sürekli olarak değişir. Bu durum, bilgi keşfi metodları için önemli sakıncalar doğurmaktadır. İlk olarak sadece okuma yapan ve uzun süre çalışan bilgi keşfi metodu bir veritabanı uygulaması olarak mevcut veri tabanı ile birlikte çalıştırılırdığında mevcut uygulamanın da performansı ciddi ölçüde düşer. Diğer bir sakınca ise, veritabanında bulunan verilerin kalıcı olduğu varsayılıp, çevrimdışı veri üzerinde bilgi keşif metodu çalıştırıldığında, değişen verinin elde edilen örüntülere yansıması gerekmektedir. Bu işlem, bilgi keşfi metodunun ürettiği örüntüleri zaman içinde değişen veriye göre sadece ilgili örüntüleri yığmalı olarak günleme yeteneğine sahip olmasını gerektirir. Aktif veritabanları tetikleme mekanizmalarına sahiptir ve bu özellik bilgi keşif metodları ile birlikte kullanılabilir (Sever vd. 2002). Bir ilişki (ya da veri kümesi), içsel ve dışsal olmak üzere iki şekilde tanımlanabilir. İçsel tanım ilişkinin özellikleri ve dışsal tanım varlıkları ile ilgilidir. Örneğin, bir kitap ilişkisinin içsel tanımını K ile ve dışsal 13

13 tanımını i ile gösterelim. O zaman, K(Başlık, Yazarlar, Yayıncı, Yıl, Adres, ISBN) şeması içsel tanımı, ve <Türkçe Arama Motorlarında Performans Değerlendirme, {Y. Tonta, Y. Bitirim, H. Sever}, Total Bilişim, 2002, Ankara, > varlığı i(k) ilişkisinin bir üyesi olarak görülebilir Farklı tipteki verileri ele alma Gerçek hayattaki uygulamalar makina öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri türleri değil, fakat aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafik bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir. Kullanılan verinin saklandığı ortam, düz bir kütük veya ilişkisel veritabanında yer alan tablolar olacağı gibi, nesneye yönelik veritabanları, çoklu ortam veritabanları, coğrafik veritabanları vb. olabilir. Saklandığı ortama göre veri, basit tipte olabileceği gibi karmaşık veri tipleri (çoklu ortam verisi, zaman içeren veri, yardımlı metin, coğrafik, vb.) de olabilir. Bununla birlikte veri tipi çeşitliliğinin fazla olması bir veri madenciliği algoritmasının tüm veri tiplerini ele alabilmesini olanaksızlaştırmaktadır. Bu yüzden veri tipine özgü adanmış veri madenciliği algoritmaları geliştirilmektedir. 1.2 Veri Madenciliği Algoritmaları Veri madenciliği süreci sonunda elde edilen örüntüler kurallar biçiminde ifade edilir. Elde edilen kurallar, (1) koşul yan tümcesi ile sonuç arasındaki eşleştirme derecesini gösterir (if <koşul tümcesi>, then <sonuç>, derece (0..1)), ya da (2) veriyi önceden tanımlanmış sınıflara bölüntüleyebilir ya da (3) veriyi bir takım kriterlere göre sonlu sayıda kümeye ayırır. Bu kurallar veri üzerinde belirli bir tekniğin (algoritmanın) sonlu sayıda yinelenmesiyle elde edilir. Elde edilen bilginin kalitesi veri analizi için kullanılan algoritmaya büyük ölçüde bağlıdır. Veri madenciliği algoritmaları iki grupta toplanabilir (Sever vd. 2002). Bunlar doğrulamaya dayalı algoritmalar ve keşfe dayalı algoritmalardır. Doğrulamaya dayalı veri madenciliği algoritmasında, kullanıcı bir hipotez öne sürer ve sistem bu hipotezi kanıtlamaya çalışır. Doğrulamaya dayalı veri madenciliği algoritmalarının en yaygın olarak kullanıldığı yerler, istatiksel ve çokboyutlu analizlerdir. Öte yandan keşfe dayalı algoritmalar otomatik olarak yeni bilgi çıkarırlar. Aşağıda veri madenciliği sistemlerinde kullanılan algoritmalardan önemli olanları incelenecektir Hipotez Testi Sorgusu Hipotez testi sorgusu algoritması, doğrulamaya dayalı bir algoritmadır. Bir hipotez öne sürülür ve seçilen veri kümesinde hipotez doğruluğu test edilir. Öne sürülen hipotez genellikle belirli bir örüntünün veritabanındaki varlığıyla ilgili bir tahmindir (Sever vd. 2002). Bu tip bir analiz özellikle keşfedilmiş bilginin genişletilmesi veya rötuşlanması işlemleri sırasında yararlıdır. 14

14 Hipotez ya mantıksal bir kural ya da mantıksal bir ifade ile gösterilir. Her iki biçimde de seçilen veritabanındaki nitelik alanları kullanılır. X ve Y birer mantıksal ifade olmak üzere IF X THEN Y biçiminde bir hipotez öne sürülebilir. Verilen hipotez seçilen veritabanında doğruluk ve destek kıstasları baz alınarak sistem tarafından sınanır Sınıflama Sorgusu Sınıflama sorgusu, yeni bir veri elemanını daha önceden belirlenmiş sınıflara atamayı amaçlar (Sever vd. 2002). Veritabanında yer alan çoklular bir sınıflama fonksiyonu yardımıyla kullanıcı tarafından belirlenmiş ya da karar niteliğinin bazı değerlerine göre anlamlı ayrık alt sınıflara ayırır. Bu yüzden sınıflama, denetimli öğrenmeye (supervised learning) girer. Sınıflama algoritması bir sınıfı diğerinden ayıran örüntüleri keşfeder. Sınıflama algoritmaları iki şekilde kullanılır. 1 Karar Değişkeni ile Sınıflama: Seçilen bir niteliğin aldığı değerlere göre sınıflama işlemi yapılır. Seçilen nitelik karar değişkeni adını alır ve veritabanındaki çoklular karar değişkeninin değerlerine göre sınıflara ayrılır. Bir sınıfta yer alan çoklular karar değişkeninin değeri açısından özdeştir. 2 Örnek ile Sınıflama : Bu biçimdeki sınıflamada veritabanındaki çoklular iki kümeye ayrılır. Kümelerden biri pozitif, diğeri negatif çokluları içerir. Yaygın kullanım alanları, banka kredisi onaylama işlemi, kredi kartı sahteciliği tesbiti ve sigorta risk analizidir. Koşul ve sonuç yan tümceleri kural içindeki işlevlerine göre daha önce tanımlanmıştı. Benzer şekilde, bir ilişkinin içsel tanımı (ya da şeması) koşul ve karar niteliklerce karşılıklı dışlayan bir şekilde bölütlenebilir. Böylece, dışsal tanım içindeki varlıklar karar niteliğinin alan değerlerine göre sınıflara ayrılabilir. Her bir sınıf içindeki varlıkların ortak olarak paylaştığı koşul nitelik değerleri ise, o sınıfı belirleyen özellikleri teşkil eder(sever vd. 2002) Güdümsüz Gruplama Sorgusu Gruplama (clustering) algoritması veritabanını alt kümelere ayırır. Her bir kümede yer alan elemanlar dahil oldukları grubu diğer gruplardan ayıran ortak özelliklere sahiptir. Bu yüzden kümeleme, güdümsüz öğrenmeye girer. Güdümsüz (veya etiketsiz) gruplama, güdümlü (veya etiketli) sınıflama için ön işlem olarak da çok sıkça kullanılır. Gruplama konusuna bilgi geri erişim disiplininde oldukça fazla çalışılmıştır ve bu çalışmalar gömü adı altında toplanabilir. Tipik bir bilgi geri erişim sistemi için gömü, terimlerin belli bir ilişkiye göre düzenlenmesidir. Gömü, dizinleme ve erişim hizmetlerinde terimlerin kullanımına rehberlik eder. Bu özelliği ile bir yetke kütüğü olduğu söylenebilir. Gömü ile amaçlanan; kullanıcı sorgusunu, sorguda kullanmadığı ama bilgi ihtiyacı ile ilişkili terimler ile genişletmektir. Sorgu genişletmede kullanılacak terimler gömü ile belirlenir. Böylece sorgular 15

15 kullanıcının ifade şeklinden kısmen bağımsızlaştırılır ve sorguya eklenen terimler ile daha fazla ilgili belgeye erişme imkanı ortaya çıkar. Bir gömünün performansı da dizinleme ve/veya erişim aşamasında kullanıldığı ve kullanılmadığı durumlarda anma ve duyarlılık parametrelerinin karşılaştırılması ile ölçülür. Bu alanda yapılan çalışmalar gömünün üretildiği derleme benzer derlemlerde kullanılması şartıyla anma değerinde %20 lere yaklaşan artışlar elde edilebildiğini göstermiştir (Sever vd. 2002) Ardışık Örüntüler Ardışık örüntü keşfi, bir zaman aralığında sıklıkla gerçekleşen olaylar kümelerini bulmayı amaçlar. Bir ardışık örüntü örneği şöyle olabilir: Bir yıl içinde Orhan Pamuk un Benim Adım Kırmızı romanını satın alan insanların %70 i Buket Uzuner in Güneş Yiyen Çingene adlı kitabını satın almıştır. Bu tip örüntüler perakende satış, telekomünikasyon ve tıp alanlarında yararlıdır Eşleştirme Sorgusu Eşleştirme sorguları, bir ilişkide bir niteliğin aldığı değerler arasındaki bağımlılıkları, anahtarda yer almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur. Bir eşleştirme kuralı örneği şöyle olabilir: Orhan Pamuk un Benim Adım Kırmızı romanını satın alan insanların %40 ı aynı alışverişte Buket Uzuner in Güneş Yiyen Çingene adlı kitabını da satın almıştır. Bu örnekten de görülebileceği gibi, sınıflama ile eşleştirme arasında çok yakın bir ilişki vardır (Ali vd.1997). Yaygın kullanım alanları katalog tasarımı, mağaza ürün yerleşim planı, müşteri kesimleme, telekomünikasyon vb. dir (Sever vd. 2002) Eşleştirme Algoritmaları Geçmiş tarihli hareketleri analiz etmek, karar destek sistemlerinde karar verme aşamasında verilen kararların kalitesini arttırmak için izlenen bir yaklaşımdır. Bununla birlikte, 1990 lı yılların başına kadar, teknik yetersizlikten dolayı, kurumlarda satış yapıldığı anda değil belirli bir zaman aralığı bazında (günlük, aylık, haftalık, yıllık) gerçekleşen satış hareketlerinin tamamına ilişkin genel veriler elektronik ortamda tutulmaktaydı. Otomatik tanıma ve veri toplama uygulamalarındaki gelişme firmaların satış noktalarında barkod/otomat kullanımını yaygınlaştırmıştır. Bu gelişme, bir harekete ait verilerin satış hareketi oluştuğu anda toplanmasına ve elektronik ortama aktarılmasına olanak tanımıştır. Genellikle büyük süpermarketlerde satış noktalarında otomat kullanımı yaygındır, bu nedenle oluşan veriye market - sepeti verisi adı verilir. Market-sepeti verisinde yer alan bir tutanakta, hareket numarası, biriciktir, hareket tarihi ve satın alınan ürünlere ilişkin veriler ( ürün kodu, miktar, fiyat ) yer alır. Başarılı kuruluşlar bu tip bilgileri içeren veritabanlarını pazarlama alt yapısının önemli parçalarından biri olarak görürler. Bu firmalar bilgi teknolojisine dayalı pazarlama sürecini, veri madenciliği ve veritabanı metodlarından faydalanarak kurumsallaştırma çabasındadır. 16

16 Market-sepeti verisi üzerinde eşleştirme kurallarının çıkarımı problemi ilk olarak 1993 yılında ele alınmıştır (Sever vd. 2002). Eşleştirme sorgusu, bir ilişkide bir niteliğin aldığı değerler arasındaki bağımlılıkları, anahtarda yer almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur. Keşfedilen örüntüler örneklemde sıklıkla birlikte geçen nitelik değerleri arasındaki ilişkiyi gösterir. Bir eşleştirme kuralı örneği şöyle olabilir: Ekmek ve yağ satın alınan satış hareketlerinin %90 nında süt de satın alınmıştır. Bu tür eşleştirme örüntüleri ancak, örüntüde yer alan öğelerin birden fazla harekette tekrarlandığında potansiyel olarak mevcut olabilirler. Eşleştirme kurallarının çıkarımı katalog tasarımı, müşterilerin satın alma alışkanlarına göre sınıflandırılması, mağaza ürün yerleşim planı gibi pek çok uygulama alanında kullanılabilir. Gerçek hayattaki uygulamalarda veri madenciliği teknikleri milyonlarca çoklu üzerinde uygulandığından eşleştirme sorgusu sırasında kullanılan algoritmalar hızlı olmalıdır. Diğer veri madenciliği tekniklerinde olduğu gibi, eşleştirme sorguları etkinlik, ölçeklenebilirlik, kullanılabilirlik ve anlaşılabilirlik gibi önemli ölçütleri karşılamalıdır. 17

17 2 METİN VERİ MADENCİLİĞİ Veri madenciliği üzerindeki en eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı verileri gibi yapısal veriler üzerine yoğunlaşmıştır. Fakat gerçekte, elde edilebilir bilginin büyük bir çoğunluğu metin veri tabanları (doküman veri tabanları) üzerinde saklanmaktadır. Bu veri tabanları, makaleler, araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli kaynaklardan, geniş ölçekli doküman koleksiyonlarından oluşmaktadır. Metin veri tabanları, elektronik yayınlar, e-posta, CD_ROM lar ve internet gibi elektronik formda elde edilebilir bilgilerin artması nedeniyle çok hızlı büyümektedir (Bolat 2003). Metin veri tabanları saklanan verilerin hemen hepsi ne tamamen yapısal, ne de tamamen yapısallıktan uzak olan yarı yapısal verilerdir. Örneğin, bir doküman başlık, yazarlar, yayım tarihi, boyut, kategori vb. olmak üzere çok az yapısal alan, fakat özet ve içerik gibi büyük boyutlarda yapısal olmayan metin bileşenleri içerir. Son zamanlarda veri tabanı araştırmalarında yarı yapısal verilerin modellenmesi ve uyarlanması üzerinde geniş ölçekli çalışmalar yapılmaktadır. Daha da ötesi, yapısal olmayan verileri işlemek için metin indisleme metotları gibi bilgi kazanım teknikleri geliştirilmiştir. Geleneksel bilgi kazanım teknikleri, metin verilerinin büyük boyutlarda artışı karşısında etkisiz kalmaktadır. Tipik olarak, çoğu elde edilebilir dokumanın yalnızca küçük bir kısmı verilen kullanıcı ile ilişkili olmaktadır. Dokümanların içerisinde ne bulunabileceğini bilmeden verilerin çözümlenmesi ve kullanışlı bilginin çıkarılması için etkili sorgular oluşturmak oldukça zor olmaktadır. Kullanıcılar, farklı dokümanları karşılaştırmak, önemlerine göre derecelendirmek ve ilişki kurmak veya çoklu dokümanlar arasından örnekleri ve eğilimleri bulmak için bazı araçlara ihtiyaç duymaktadırlar. Böylece, metin madenciliği veri madenciliği içerisinde esas temayı oluşturmakta ve git gide popüler olmaktadır. Son zamanlarda elektronik olarak kullanılabilecek olan dijital bilgilerin bolluğu metinsel bilgilerin önemli bir görev içerisine organize edilmesini sağlamıştır. Metin inceleme, metin verilerinden bilginin keşfedilmesi amaçlı yeni bir teknolojidir. World Wide Web de mevcut olan sayfaların sayısının hızlı bir şekilde artışı ile, metin incelemesi enformasyonun ve bilginin yönetilmesinde anahtar bir rol oynamaya başlamıştır ve bu nedenle de gittikçe daha fazla dikkat çekmektedir (Berry 2003). 2.1 Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı Bilgi çıkarımı nedir?. Bilgi kazanımı yıllardır veri tabanı sistemleri ile paralel olarak geliştirilmektedir. Yapısal veriler üzerinde sorgu ve işlembilgi işleme üzerine odaklanan veri tabanı sistemlerinin aksine bilgi çıkarımı organizasyon ile ilgili olup, metin tabanlı dokümanlardan bilginin çıkarılmasıdır. Tipik bir bilgi çıkartımı problemi anahtar kelimeler veya örnek dokumanlar vb. kullanıcı girişlerine bağlı olarak 18

18 ilişkili dokümanların bulunmasıdır. Tipik bilgi çıkartım sistemleri, çevrim içi kütüphane katalog sistemleri ve çevrim içi doküman yönetim sistemlerini içerir. Madem bilgi çıkartımı ve veri tabanı sistemlerinin her biri farklı tipte veriyi işlemektedirler; uyumluluk kontrolü, geri kazanım, işlembilgi yönetimi ve güncelleme gibi bazı veri tabanı sistemi problemleri, genellikle bilgi çıkartımı sistemlerinde bulunmazlar. Ayrıca yapısal olmayan dokümanlar, anahtar kelimelere bağlı olarak yaklaşıklık taraması ve anlamlılık vb. gibi bazı ortak bilgi çıkartımı problemlerine genellikle, geleneksel veri tabanı sistemlerinde rastlanmaz Metin Çıkartımı İçin Temel Ölçümler Varsayalım ki bir metin çıkartımı sistemi sorgu formundaki bir girişimize bağlı olarak birçok doküman getirmiş olsun. Peki, sistemin doğru çalışıp çalışmadığını nasıl değerlendireceğiz? Sorgu ile ilişkili doküman kümesini [Relevant] olarak ve sonuçta elde edilen dokümanları ise [Retrieved] olarak adlandıralım. Hem ilişkili hem de elde edilen dokümanları Venn şemasında görüldüğü gibi [Relevant] [Retrieved] olarak adlandıralım. Burada metin çıkarımının kalitesini değerlendirmek için iki temel ölçümümüz bulunmaktadır(nahm 2004). Hassasiyet: Sorgu ile ilişkili elde edilen dokümanların, elde edilen dokümanlara olan oranının yüzdesidir (örn. doğru sonuçlar ). [ Relevant] [ Retrieved ] [ Retrieved ] hassasiyet =. (2.1) Çağırma: Sorgu ile ilişkili elde edilen dokümanların, ilişkili olan dokümanlara olan oranının yüzdelik ifadesidir. [ Relevant] [ Retrieved ] [ Relevant] cagirma =. (2.2) Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı Bilgi çıkarımı için hangi metotlar bulunmaktadır? Tüm bilgi çıkarım sistemleri anahtar kelime tabanlı ve/veya benzerlik tabanlı çıkarımı destekler. Anahtar kelime tabanlı bilgi çıkarımında, bir doküman anahtar kelimelerden oluşan bir dizgi ile temsil edilir. Kullanıcı anahtar bir kelime veya araç ve tamirhaneler, çay ve kahve, Oracle ın haricindeki veri tabanı sistemleri gibi anahtar kelimelerden oluşan bir küme ifadesi sağlar. İyi bir bilgi çıkarım sistemi bu tür sorgularda eş anlamlı sözcükleri de dikkate almalıdır. Örneğin, araba kelimesi girildiğinde eş anlamlıları olan araç ve otomobil gibi 19

19 kelimeleri de dikkate almalıdır. Anahtar kelime tabanlı sistem iki önemli zorlukla karşı karşıya gelen basit bir sistem modelidir. Bunların ilki eş anlam problemidir: örneğin yazılım ürünü gibi anahtar bir kelime doküman gerçekten bir yazılım ürünü ile ilişkili olsa dokümanın her hangi bir bölümünde bulunmayabilir. İkicisi ise, çokanlamlılıktır; aynı kelime içerik olarak farklı anlamlarda kullanılmış olabilir. Benzerlik tabanlı çıkarım sistemleri ortak anahtar kelimeler kümesini temel alarak benzer dokümanları bulmaktadır. Bu tür bir çıkarımın çıktısı kelimelere yakınlığı, kelimelerin bağıl frekanslarını temel alan bir ölçüm ile belirlenen ilişki derecesini temel almaktadır. Çoğu durumda, anahtar kelime kümeleri arasındaki ilişkinin derecesinin hassasiyet ölçümünü belirlemek zor olmaktadır. Anahtar kelime ve benzerlik tabanlı bilgi çıkarım sistemleri nasıl çalışmaktadır?. Bir metin çıkarım sistemi bir dur listesi ile bir doküman kümesini ilişkilendirir. Bir dur listesi bir kelime kümesini konu ile ilişkisi olmayan olarak addeder. Örneğin bir, nin, için, ile gibi kelimeler sıklıkla karşılaşılmalarına rağmen dur kelimeleridir. Doküman kümeleri değiştikçe dur listeleri de değişmektedir. Örneğin veri tabanı sistemleri bir gazete içerisinde önemli bir kelime olabilir. Bununla beraber, veri tabanı sistemleri konferansında yayınlanan makaleler kümesi içerisinde bir dur kelimesi olarak değerlendirilebilir. Farklı kelimelerden oluşan bir grup, aynı kelime gövdesini paylaşabilir. Bir metin çıkarım sistemi, bir grup içerisindeki kelimelerin diğer kelimelere olan küçük söz dizimsel değişimlerinden oluşan kelimeleri tanımlama ihtiyacı duyar ve her grup için ortak kelime gövdesini derler. Örneğin, drug, drugged ve drugs kelime grubu, aynı drug kelime gövdesini paylaşmakta ve aynı kelimenin farklı bulunma durumlarını gösterebilmektedir. Bilgi çıkarımını gerçekleştirmek için bir dokümanı nasıl modelleyebiliriz? Bir d doküman kümesi ve t terim kümesi ile başlayarak, her dokümanı t boyutlu R t uzayında v vektörü ile modelleyebiliriz. v vektörünün j. koordinatı verilen dokuman için j. terimin ilişkisini ölçen bir sayıdır: bu değer eğer dokuman terimi içermiyorsa genellikle 0, içeriyorsa sıfırdan farklıdır. Bu vektörde sıfırdan farlı girişler için terim ağırlıklandırma tanımlamanın farklı yolları bulunur. Örneğin, eğer j. terime dokuman içerisinde rastlanmış ise v j = 1 olarak tanımlanır veya t i teriminin dokuman içerisinde karşılaşılma sayısı direk olarak kullanılarak v j terim frekansı, terimin karşılaşılma sayısının toplam terimlere oranı kullanılarak göreli frekans değeri olarak kullanılabilir. Veri Madenciliği veya Veri tabanlarında Bilgi Keşfi, verilerdeki yeni ve anlaşılabilir biçimlerin tanımlanması işlemidir(berry 2003). Veri inceleme yalnızca enformasyon veya kullanıcının halihazırda sormayı bildiği sorulara yanıtlar aramakla kalmaz aynı zamanda veriler içerisine gömülmüş olan derin bilgileri de keşfeder. Bunu yapmak için veri inceleme işleminde hesaplama teknikleri kullanılır, bunlar genellikle bir öğrenme algoritması biçimindedir ve verideki potansiyel olarak yararlı biçimlerin 20

20 bulunması amacını taşır. Mevcut veri inceleme yaklaşımlarının büyük bölümü verilerin ilişkisel bir tablosu içerisindeki biçimleri arar. Metin inceleme veya metin verisi inceleme, yararlı veya ilginç biçimlerin, modellerin, yönlerin, eğilimlerin veya kuralların yapılandırılmamış metinden bulunması işlemi, veri inceleme tekniklerinin metinden bilginin otomatik olarak bulunması amaçlı veri inceleme tekniklerinin uygulanmasının açıklanması amacıyla kullanılır. Genellikle metin inceleme işlemine, veri incelemenin doğal bir uzantısı olarak bakılır (Nahm 2004). Bu durum, metin incelemenin bulunmasının, büyük ölçüde veri incelemenin filizlendiği alanı temel alır. Bununla birlikte, ya ilişkisel veri tabanlarında ya da veri depolarında mevcut olan iyi yapılandırılmış koleksiyonlar üzerinde odaklanan veri incelemeden farklı olarak, metin inceleme çok daha az yapılandırılmış olan verileri açığa çıkartır. Bugünün elektronik verilerinin büyük bölümü geleneksel ilişkisel veritabanlarında bulunmaz, bunlar Web de ve doğal dilli dokümanlarda gizlenmiştir. Bu çalışmada geleneksel veri inceleme ve Enformasyon Çıkartılmasının (IE) entegrasyonunu temel alan metin incelemesi için yapılan çalışmalardan sözedilecektir. Bir IE sisteminin amacı doğal dilli metinler içerisindeki özel verilerin bulunmasıdır. Çıkartılacak olan veriler tipik olarak, dokümandan alınan alt dizilerle doldurulacak olan bir yuvalar listesi belirleyen bir şablonla verilir. IE bir dizi uygulama için yararlıdır, özellikle de son zamanlarda Internet in ve web dokümanlarının çoğalması göz önüne alındığında. Yakın zamandaki uygulamalar kurs ve araştırma projesi ana sayfalarını, seminer duyurularını, daire kiralama ilanlarını, iş ilanlarını, coğrafi web dokümanlarını, hükümet raporlarını ve tıbbi özetleri kapsamaktadır (Nahm 2004). Geleneksel veri inceleme işleminde incelenecek olan enformasyonun halihazırda bir ilişkisel veri tabanı biçiminde olduğu varsayılır. Ne yazık ki birçok uygulama için elektronik enformasyon yapılandırılmış veri tabanlarından çok, yalnızca yapılandırılmamış doğal dilli dokümanlar halindedir. IE metinsel dokümanların bir külliyatının daha yapılandırılmış bir veritabanına dönüştürülmesi sorununu hedef alır ve böylece standart VTBK yöntemleri ile birleştirildiğinde metin incelemesinde oynanabilecek olan açık bir rol ortaya koyar. Bu çalışmada, bir IE modülünün ham metin içerisindeki özel veri bölümlerinin konumlandırılması ve sonuçta ortaya çıkan veritabanının kural incelemesi için VTBK modülüne sağlanması amacıyla kullanımı anlatılmaktadır Metin Verilerinin Heterojenliği İlişkisel veri tabanları ile karşılaştırıldığında, Internet üzerinde mevcut olan doğal dilli çoğunlukla heterojen ve gürültülüdür. Birçok metinsel veri tabanı alanına yapılan girişler inceleme algoritmalarının önemli düzenlilikleri keşfetmesine engel olabilecek küçük farklılıklar gösterebilir. Farklılıklar tipografik hatalardan, yanlış yazımlardan, kısaltmalardan ve diğer kaynaklardan kaynaklanabilir. 21

21 Farklılıklar özellikle yapılandırılmamış veya yarı-yapılandırılmış dokümanlardan veya web sayfalardan otomatik olarak çıkartılan verilerde ifade edilir. Örneğin, haber grubu postalarından otomatik olarak çıkardığımız yerel iş olanakları konusundaki verilerde, Windows işletim sistemi değişik şekillerde Microsoft Windows, MS Windows, Windows 95/98/ME vb. şekillerde adlandırılmaktadır(nahm 2004). Daha önce yapılmış olan işlerin bir bölümü benzer veya çoğaltılmış kayıtların tanımlanması sorununu hedef almıştır, bu işlem kayıtların bağlantılandırılması, birleştirme/ayırma sorunu, çoğaltma algılaması yumuşak veri tabanlarının sertleştirilmesi ve referans uyumlandırması olarak adlandırılmıştır. Tipik olarak, sabit bir metinsel benzerlik ölçümü, iki değerin veya kaydın kopya olmak için yeterince benzer olup olmadığının belirlenmesinde kullanılmıştır. Bu yaklaşımda, Microsoft Windows, MS Windows ve Windows 95/98/ME işlem öncesi bir basamak olarak tek bir terim içerisine haritalandırılmıştır(nahm 2004). Ataları ve ardılları veritabanı girişlerine yeterli benzerlik temelinde değerlendirilen yumuşak uyumlandırma kurallarının keşfedilmesi yoluyla kirli verilerin direkt olarak bulunması biçimindeki alternatif yöntemlerden ilerleyen sayfalarda anlatılacaktır. Metnin benzerliği standart kelimeler çantası ölçümleri kullanılarak veya düzenleme-mesafe ölçümleri kullanılarak ölçülebilir; diğer standart benzerlik ölçümleri nümerik ve ek veri türleri için kullanılabilir. Örneğin, Windows bir iş için gerekli becerilerin listesiyse, o zaman bu iş için IIS bilgisi de gereklidir gibi yumuşak uyumlandırma kuralları bir dizi iş ilanından keşfedilir. Bu durumda, Windows ve IIS, sırasıyla MS Windows veya IIS Hizmetleri gibi benzer dizilere uyumlandırılabilir. 22

22 3 METİN SINIFLANDIRMA Sınıf olmak için her kaydın belli ortak özellikleri olması gerekir. Ortak özelliklere sahip olan kayıtların hangi özellikleriyle bu sınıfa girdiğini belirleyen algoritma, sınıflama algoritmasıdır. Sınıflama algoritması, denetimli öğrenme kategorisine giren bir öğrenme biçimidir. Denetimli öğrenme, öğrenme ve test verilerinin hem girdi hem de çıktıyı içerecek şekilde olan verileri kullanmasıdır. Sınıflama sorgusuyla, bir kaydın önceden belirlenmiş bir sınıfa girmesi amaçlanmaktadır (Bolat 2003). Bir kaydın önceden belirlenmiş bir gruba girebilmesi için sınıflama algoritması ile öğrenme verileri kullanılarak hangi sınıfların var olduğu ve bu sınıflara girmek için bir kaydın hangi özelliklere sahip olması gerektiği otomatik olarak keşfedilir. Test verileriyle de bu öğrenmenin testi yapılarak ortaya çıkan kurallar optimum sayısına getirilir. Sınıflama algoritmasının kullanım alanları sigorta risk analizi, banka kredi kartı sınıflaması, sahtecilik tespiti, vb. alanlardır. Metin Sınıflandırma, eldeki sınıflardan birine ait olduğu bilinen bir dokümanın, hangi sınıfa girdiğinin bulunması işlemidir. Günlük hayatta bir gazete ya da bir kitap okunduğunda, bu metinlerde geçen olaylar daha önceden bilinen birtakım olaylara bağlanır. Bir konunun nasıl anlaşıldığı da bu bilgilerin kendi aralarında nasıl bağlandığına ve her konunun içine konduğu sınıflara bağlıdır. Otomatik metin sınıflandırma işlemi de günlük hayattaki bu uygulamanın bilgisayar dünyasındaki karşılığıdır (Bolat 2003). Metin süzme (MS), dokümanların sisteme girmesiyle birlikte denetlenmesi ve kullanıcı sorgusuna uygun olanların seçilmesi işlemidir. MS uygun/uygun olmayan şeklinde karar verirken aslında dokümanları belli sınıflara ayırır. Bu yüzden MS bir sınıflandırma işlemi olarak da görülebilir(sever vd. 2002). Bu bakımdan ele alındığında dosyaların veya elektronik mektupların konularına göre önceden belirlenmiş klasörlere taşınmasında, belirli bir konuya özgün çalışmalarda, konunun belirlenmesinde ve yapısal aramalarda da kullanılabilir. Bir çok alanda yeni metinlerin sınıflandırılmasında profesyonel insanlar rol alır. Metin sınıflandırma çok zaman ve paraya mal olan bir işlemdir. Bundan dolayı otomatik metin süzme ve sınıflandırma işlemlerinde hızla gelişen teknolojiye ve uygulamalara bir ilgi vardır. Bağlanım modelleri, en yakın komşu sınıflandırıcıları, karar ağaçları, Bayesian sınıflandırıcıları, destek yöney makineleri, kural öğrenme algoritmaları, ilgililik geri besleme ve yapay sinir ağları gibi pek çok istatistiksel, matematiksel ve otomatik öğrenme teknikleri bu ilgiden kaynaklanmıştır. 23

23 3.1 Metin Madenciliğinin Ön Aşamaları ve Sınıflama İster Metin Madenciliği, ister metin erişimi olsun, tüm bu konulara ait tekniklerin kullandıkları ortak yöntemler vardır. Bu bölümde bu yöntemlerden bahsedilecektir Ayrıştırma Metin veri madenciliğinde yapılan ilk işlem, karakter dizileri olan metinlerin öğrenme algoritmaları ve sınıflandırma işlemleri için uygun bir hale getirilmesidir. Bunun için ilk önce metindeki XML (EXtensible Markup Language) ve HTML (Hyper Text Markup Language) gibi her türlü etiket kelimesinin çıkarılması gerekir. Ardından harf olmayan karakterler boşluklarla yer değiştirir. Tek harfli sözcükler silinir. Bütün karakterler küçük harflere çevrilir (Tonta 2002) Durdurma Kelimelerinin Çıkarılması Önişlemle, kullanılacak sözcüklerin ortaya çıkmasından sonra, dokümanın içerisinde çokça geçen fakat kendi başlarına bir anlamları olmayan ve dokümanlara fazla anlam katmayan (ve, sonra, ile... gibi) durdurma kelimeleri çıkarılır. Durdurma kelimelerinin bilgi erişim sistemlerinde gerekli olmadığı, bu sistemlerle ilgili çalışmalarının ilk günlerinden beri bilinmektedir. Bu kelimelerle yapılacak herhangi bir sorgunun, eldeki veri kümesinin her elemanını sonuç olarak döndüreceğinden, bu kelimelerin ayrım yaptırma güçleri zayıftır. Ayrıca durdurma kelimeleri, dokümanlarda çok fazla yer tutarak sistemin hantallaşmasına neden olur. Bu kelimeler, her doküman kümesinde istatistiksel yöntemlerle bulunabilse de, genelde tek bir durdurma kelimesi listesi kullanılır. Bu liste bir adres hesaplama tablosunda (hash table) da tutulabilir Gövdeleme Durdurma kelimelerinin çıkarılmasının ardından, her kelimenin eklerinin çıkarılmasıyla kelime kökleri bulunur. Kelime köklerinin bulunması, kelimelerin biçimsel benzerlerinin bulunması anlamına gelir. Böylece, koşucular, koşucu, koşmak, koş, koşuyorum gibi aynı anlam grubundaki kelimeler bir araya getirilmiş olur. Kök bulmada karşılaşılabilecek iki sorun vardır; Birincisi, bu işlemde çok ileri giderek birbirinden anlamca çok farklı kelimelerin aynı anlam grubuna bağlanmasıdır. Bu durumda sistem, konuya uygun olmayan dokümanları da konuyla ilgili şeklinde yorumlayabilir. Diğer bir sorun da, kelimelerin köklerine ulaşılmaya çalışılırken çok az ekin çıkarılması işlemidir. Bu durumda da sistem konuya uygun dokümanları, uygun olmayan dokümanlar olarak algılayabilir. 24

24 Gövdelemeye yarayan pek çok farklı algoritma vardır. Bu yöntemlerden biri tüm dizin sözcüklerinin ve köklerinin Tablo 3.1. deki gibi bir tabloda tutulmasıdır. Tablo 3.1 Kelimelerin ve Köklerinin Bir Tabloda Tutulması Gizlemek Gizlenmek Gizle Gizle Gizle Gizle Bu yöntemin dezavantajı, çok fazla saklama alanına gereksinim duyması ve böyle bir tablonun yaratılmasının zor olmasıdır. Diğer bir yöntem de, eldeki dokümanlardan oluşturulan bir sözlüğün içindeki her kelimenin, her harfinin tek tek ele alınarak ardıl farklılıklarının incelenmesiyle yapılır. Kökü bulunacak kelimenin sözlük içinde farklı bir kelime olarak bulunabilen ilk n harfi, kelimenin kökü olarak alınır. Mesela sözlüğün içerisinde koş ve koşucu kelimeleri olsun. Koşucu kelimesinin kökünü bulmak için, k, ko, koş kelimelerine ulaşılır. Koş sözcüğünün sözlükte bir kelime olarak görülmesiyle kelimenin kökü bulunmuş olur. Yukarıdaki yöntemler her dil için geçerli olan yöntemlerdir. Veri kümesi İngilizce metinlerden oluşan çalışmalarda, Porter Stemmer algoritması, daha basit ve hızlı olmasına rağmen diğerleriyle performans bakımından farkı olmaması nedeniyle, bu konu için en çok kullanılan algoritmadır(bolat 2003) Metin Gösterimi Metinler sayısal ortamlarda saklanırken, en çok, doğal yazının sayısal ortamdaki şekli halinde bulunur. Fakat metin halinde depolanan dokümanların üzerinde hesaplamaya dayanan işlemler yapmak zor olduğu için, dokümanlar farklı gösterim şekillerine dönüştürülür. Aşağıda bu gösterim şekillerinden birisi olan vektör uzayı modeli açıklanmıştır Vektör Uzayı Modeli Bu konudaki en çok bilinen yöntem vektör uzayı modelidir. Bu modele sahip bir dokümanlar kümesinde, her doküman MxN kelime vektörleriyle ifade edilir. M tüm dokümanlardaki her bir farklı kelime ve N de elde bulunan tüm dokümanların sayısıdır. Bu vektördeki her girdi, bir kelimenin o dokümandaki kullanılma sıklığını ifade eder. Mesela A=(a ik) (3.1) 25

25 ifadesinde A bir doküman matrisi, a ik ise dokümanlar topluluğundaki her kelimenin içinde bulunduğu bir sözlükte, i numaralı sırada bulunan kelimenin, k numaralı dokümandaki ağırlığını belirtir. Bu yöntem modern bilgi erişiminin babası olarak kabul edilen Gerard Salton tarafından bilim dünyasına sunulmuştur (Bolat 2003). Metin sınıflama sistemleri bir dokümana ait kelimelerin frekanslarını kullanarak çalışır. Eğitim kümesi elemanlarından çeşitli ağırlıklar bulur ve bu ağırlıkları sisteme yeni giren dokümanların kategorilerini bulmakta kullanır. Vektör uzayı modelinde, yazılışları aynı fakat farklı anlamlara gelen kelimelerin sorun yaratabileceği fikri akla gelebilir. Mesela yüz kelimesi, yüzme, 100 veya insan yüzü anlamlarında kullanılmış olabilir. Bu sorun metin sınıflama tekniklerinde ortadan kalkar. Bunun sebebi; sistem, ağırlıkları belirlerken, gerekirse yüz kelimesinin ağırlığını düşürür ve diğer kelimelerin ağırlıklarını arttırır Boyut Küçültme Her kelime, her dokümanda geçmediği için, yukarıda A ile gösterilen matris genellikle seyrek matristir. Matristeki satır sayısı M, sözlükteki kelime sayısına eşit olduğu için M çok büyük bir sayı olabilir. Bu da matrisin büyümesine ve işlemler sırasında gereksiz zaman ve iş kaybı anlamına gelir. Bu problemi aşmak için farklı algoritmalar uygulanabilir (Bolat 2003) Özellik Seçimi Bütün boyut küçültme algoritmalarında, tüm dokümanlardaki kelimeler bir sözlüğün içinde toplanır. Daha sonra küçültme algoritmalarından çıkan sonuçlara göre bu sözlükten bazı kelimeler çıkarılır. Eldeki dokümanlar tekrar gözden geçirilerek sadece sözlükte bulunan kelimeler kullanılır Doküman Frekans Eşikleme Bir kelimenin doküman frekansı, o kelimenin geçtiği doküman sayısıdır. Doküman frekans eşikleme, sözlükteki her kelimenin doküman frekansını bulur ve belirli bir sayının altında doküman frekansına sahip olan kelimeleri sözlükten çıkarır. Bu yöntem, belirli bir sayı altında dokümanda geçen kelimelerin kümede belirleyici bir role sahip olmadığı ve kategori belirlemede yetersiz olduğu fikrine dayanır(bolat 2003) Bilgi Kazanımı Yöntemi Bu yöntem, her kelimenin, varlığının ve yokluğunun, kategori seçimi üzerindeki etkilerine dayanır. c 1...c K dokümanın ait olabileceği muhtemel kategoriler olsun. Kelime w nin bilgi kazanımı değeri IG(w,) aşağıdaki formül ile bulunur. 26

26 K IG( w) = P( c )log P( c ) + P( w) P( c w)log P( c w) j j j j j= 1 j= 1 K + P( w) P( c w)log P( c w) j= 1 j j K (3.2) Burada P ( c j ) değeri bir dokümanın tüm kategoriler içinde c j kategorisine ait olma olasılığı, P (w) değeri topluluktaki tüm dokümanlar içindeki bir dokümanın içinde w kelimesinin geçme olasılığı, P( c j w) c j kategorisindeki dokümanlardan birinde en az bir kere w kelimesinin geçme olasılığı P( c j w) değeri de c j kategorisindeki dokümanlardan birinde hiç w kelimesinin bulunmaması olasılığıdır. Bilgi kazanımı değeri, koleksiyondaki her eğitim dokümanı kelimesi için hesaplanır ve belli bir değerin altındaki kelimeler koleksiyondan çıkarılır χ 2 (chi kare) İstatistiği χ 2 istatistiği, kelime w ile kategori c j arasındaki bağımsızlığı ölçer ve şu şekilde gösterilir: 2 N *( AD CB) = χ ( w, cj ) ( A + C ) *( B + D)* ( A + B ) * ( C + D ) 2 (3.3) Burada; A c j kategorisindeki içinde w kelimesi geçen doküman sayısı B içinde w kelimesi geçen fakat c j kategorisine ait olmayan doküman sayısı C c j kategorisine ait ve içinde w kelimesi geçmeyen doküman sayısı D c j kategorisine ait olmayan ve içinde w kelimesi geçmeyen doküman sayısı N koleksiyondaki toplam doküman sayısıdır. χ 2 istatistiğine dayanan iki ölçme yöntemi ise; 2 χ ( w) 2 veya χ ( ) max K 2 = P( cj ) χ ( w, cj ) j= 1 2 w = max j χ ( w, cj ) dir. ( ) (3.4) (3.5) 27

27 Eğer χ 2 istatistiği sonucunda ortaya çıkan değer belli bir limitin altındaysa, kelime w sözlükten çıkarılır(bolat 2003) Yeniden Değiştirgeleme Yeniden değiştirgeleme, eldeki özelliklerin yeniden yapılandırılması veya birleştirilmesiyle yeni özellikler yaratılmasına dayanır. Bu yöntemde, kelimelerin arasında gizli bir ilişki olduğu kabul edilir ve bu ilişkiyi ortaya çıkarmak için, Gizli Anlambilimsel Dizinleme (Latent Semantic Indexing) gibi birtakım istatistiksel yöntemler kullanılır Ağırlıklandırma Yukarıda belirtilen A matrisinin taşıdığı ağırlık değerlerinin belirlenmesinde pek çok yöntem kullanılır.fakat bu yöntemlerin hemen hemen hepsi iki önemli noktaya dayanır; Bir sözcük, bir dokümanın içinde ne kadar çok sayıda geçerse, o dokümanın bir kategoriye atanmasında o kadar etkili olur. Bir sözcük ne kadar çok farklı dokümanda bulunursa, o sözcüğün ayırt edici özelliği o kadar azdır. Aşağıda kısaca açıklanacak olan bu yöntemlerde kullanılan temel değişkenler f ik, i indisli kelimenin k metni içerisindeki kullanım sayısı, N toplam doküman sayısı, M toplam sözcük sayısı, n i bu sözcüğe sahip olan doküman sayısına karşılık gelir Boole Ayırma En basit yaklaşım olan Boole ayırma, eğer kelime dokümanda varsa ağırlık değerini 1 e, eğer yoksa 0 a eşitler. a ik 1 eğer fik > 0 = 0 diğer durumlar (3.6) Kelime Frekans Ağırlıklandırma Diğer bir basit yöntem olan kelime frekans ağırlığında, ağırlık kelimenin doküman içerisindeki ham frekansına eşitlenir. a ik = f ik (3.7) 28

28 3.2.3 tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency) Yukarıdaki iki ağırlıklandırma yöntemi, sözcüğün tüm dokümanlar içerisindeki etkilerini incelemeden ağırlık değerini belirliyordu. tf x idf yöntemi ise, eldeki tüm metinleri göz önüne alarak ağırlıklandırma yapar. Bu yöntem, eğer bir kelime az sayıda dokümanda geçiyorsa, kelimenin o dokümanın kategorisinin belirlenmesinde önemli olduğu, eğer bir kelime çok sayıda dokümanda kullanılıyorsa, kelimenin ayırt edici gücünün az olduğu fikriyle açıklanabilir. Yeni ağırlık değeri, formülüyle hesaplanır. a = f *log( N / n ) ik ik i (3.8) tfc-ağırlıklandırma (Term Frequency Component) Uzun dokümanlar, içlerinde daha çok sözcük tuttuklarından, bu dokümanlarda pek çok farklı sözcüğün geçmesi ve bu sözcüklerin frekanslarının da küçük dokümanlara göre daha fazla olma ihtimali fazladır. tfc ağırlıklandırma [16] tf x idf nin bu ihtimal göz önüne alınarak bir düzgeleme işleminden geçirilmesinden oluşur. tf x idf formülünde geçen, kelimenin tüm dokümanlarda kullanılma sayısı olan n i sözlük tablosundan, her bir dokümanda kelimenin kullanılma sayıları ise doküman vektöründen alınmıştır. a ik = = N f jk *log 1 n j M j f ik log N n i 2 (3.9) ltc Ağırlıklandırma (Logarithmic Term Component) tcf nin biraz daha değiştirilmiş hali olan ltc ağırlıklandırma yöntemi, ham frekanslar yerine logaritma kullanarak, frekanslardaki büyük değişiklerin etkilerini azaltır. a ik = = N log( f ik + 1)*log 1 n j M j log( f ik + 1) log N n i 2 (3.10) 29

29 3.3 Metin Madenciliği Algoritmaları Metinler vektör uzayına geçirilip gerekli ağırlık değerleri değişikliklerinin yapılmasının ardından, artık üzerlerinde Metin Madenciliği algoritmaları kullanılabilir hale gelirler. Bu aşamada daha önce kullanılmış birkaç algoritma açıklanacaktır. Bu açıklamalarda kullanılacak olan bazı gösterimler şu şekildedir; d = ( t1,..., t M ) sınıflara ayrılması gereken dokümanlar kümesi ve t ise o dokumandaki terimlerden birisi,. c,..., 1 c K ise olası kategoriler olsun. Ayrıca d,..., 1 d N elimizdeki dokümanların tamamı, y,..., 1 y N ise bu dokümanların ait olduğu sınıflar, N j de c j kategorisine giren dokümanların sayısı olsun Rocchio Algoritması Rocchio yönteminde, her kategori için, o kategoriye ait eğitim örneklerinin ortalaması alınarak prototip bir doküman vektörü oluşturulur. Hangi kategoriye ait olduğu bulunmaya çalışılan dokümanın, oluşturulan prototipe olan mesafesine bakılarak süzme işlemi gerçekleştirilir. Bu oldukça hızlı bir şekilde eğitilebilen ve pekçok türevi olan bir yöntemdir. Bu tez çalışmasında kullanılan EHİ algoritması da, Rocchio algoritmasının türevlerinden birisidir Naive Bayes Naive Bayes yöntemi, bir dokümanın içindeki özellikleri birbirinden bağımsız düşünerek çalışır. Yani bir dokümanın sözcüklerinin birbirleriyle olan kombinasyonları, Naive Bayes yönteminde önemli değildir. Bu bağımsızlık fikri her ne kadar doğru değilmiş gibi görünse de, Naive Bayes büyük bir doğruluk oranı gösterir. Naive Bayes, eğitim kümesi verilerinin ve yeni girilen dokümanın verilerinin her birini tek tek kullanarak, yeni dokümandaki her sözcüğün kategoriyi etkileme ihtimallerini hesaplayarak tahminde bulunmaya çalışır. Naive Bayes formülü olasılıklara dayanır(bolat 2003). P( c d) = j P( c ) P( d c ) j P( d) j (3.11) P ( c j ) değeri bir dokümanın tüm kategoriler içinde c j kategorisine ait olma olasılığıdır. 30

30 (4.10) formülünün payda kısmı kategoriden kategoriye değişmediği için çıkarılabilir. Ayrıca dokümandaki tüm kelimeler birbirinden bağımsız olduğu fikri düşünüldüğü için, M P( d c ) = P( t c ) olarak düşünülebilir. Bu durumda formül; j i j i= 1 M P( c d) = P( c ) P( t c ) j j i j i= 1 (3.12) şekline dönüşür. Burada P( c j ) değerinin yaklaşık hesaplanması olan P ~ ( c j ) değeri, c j kategorisine ait eğitim dokümanlarının tüm dokümanlara olan oranıyla hesaplanabilir. Ayrıca ~ N ( ) j P cj = N (3.13) ~ P( t c ) = M 1+ N ij i j M + k = 1 N kj (3.14) N ij değeri, i kelimesinin kullanıldığı c j kategorisine ait dokümanların sayısı, M ise kullanılan toplam kelime sayısıdır Karar Ağacı Bu yöntemde doküman vektörü d, eğitim kümesi dokümanlarıyla oluşturulan bir karar ağacıyla karşılaştırılarak, kullanıcı için uygun ya da uygun olmadığı anlaşılır. Bu karar ağacının oluşturulmasında farklı algoritmalar kullanılsa da, bu ağacın her yaprağı farklı bir kategoriyi temsil eder. Kullanılan her algoritmanın amacı, yeni bir dokümanı en doğru biçimde bir kategoriye atayabilecek karar ağacını oluşturmaktır (Sebatiani,2005). Aşağıda bu yöntemlerin en popülerlerinden birisi olan, CART yöntemi açıklanacaktır Ağacı Oluşturma (CART) CART, ikili karar ağaçları oluştururken eğitimde kullanılan her bir vektörü, içindeki elemanlarından birini kullanarak, bir fonksiyon yardımıyla, ikiye ayırır. Bu yüzden, ilk karar verilmesi gereken, hangi elemanın en iyi ayrıştırıcı olduğunun saptanmasıdır. En iyi ayrıştırıcı, kümeyi en türdeş biçimde 31

31 ayırabilen ayrıştırıcıdır. Dolayısıyla eğitim kümesindeki çeşitlemeyi en aza indirebilen ayrıştırıcı, en iyi ayrıştırıcıdır. En iyi ayrıştırıcının, aşağıdaki değeri en yüksek seviyede vermesi gerekir. Çeşitlilik (ayırmadan önce) [çeşitlilik (sol çocuk (left child)) +çeşitlilik(sağ çocuk (right child))] En çok kullanılan çeşitlilik hesaplaması yöntemlerinden birisi, entropi yöntemidir. K j= 1 p( c t)log p( c t) j j (4.14) (3.15) p( cj t ), c j kategorisine ait eğitim kümesi elemanının t boğumuna (node) gelme olasılığıdır. Bu olasılık şu şekilde hesaplanabilir. Burada, N j ( t) p( cj t) = N( T) N j ( t ), c j kategorisine ait olan dokümanlar sayısıdır. N( T ) t boğumundaki toplam doküman sayısıdır. (3.16) Ağaçtaki her boğumda en iyi ayrıştırıcıyı bulmak için, doküman vektörünün her elemanı ele alınır. Çeşitlilikteki azalmayı iyilik ölçütü alarak yapılan ikili aramayla, en iyi ayrım değeri bulunmaya çalışılır. Çeşitliliği en aza indiren eleman, o boğum için ayrıştırıcı olarak atanır. Bu işlem hiçbir küme daha fazla ayrılamayacak duruma gelene kadar devam eder. Bu ağacın en altta kalan boğumları yaprak olarak adlandırılır ve her yaprak bir kategoriyle eşleştirilir. Fakat bir yaprağa ulaşan her doküman, o yaprağa ait kategoriye girmek zorunda değildir. Bir dokümanın bir yaprağa yanlış olarak gelme ihtimali hata oranıdır. Bir ağacın hata oranı E( T ), her yaprağın hata oranlarının ağırlıklı toplamıdır. Her yapraktaki hata oranı, yapılan yanlış sınıflamaların tüm sınıflamalardaki oranıyla hesaplanabilir Ağacın Budanması Eğitim kümesini kullanırken hata oranı en aza indirilmiş olsa da, yeni gelen verilerin kategorilere atanmasında en iyi sonucu vermeyebilir. Ağaç tamamen eğitim kümesi elemanlarıyla örtüştüğü için, ağacın yeni verilere uygun olması budanma ile sağlanır. Budama işleminin amacı, her yaprak için en az ayırımcı güce sahip dalların çıkarılmasıdır. Bu dalları bulmak için ağaç T nin ayarlanmış hata oranı bulunur. 32

32 E ( T) = E( T) + αn ( T) α yapraklar (3.17) Nyapraklar ( T ) ağacın yapraklarının sayısı, ve α ise bir parametredir. Başka bir deney kümesi kullanılarak, ağacın kendisi ve alt ağaçlarının tek tek ayarlanmış hata oranları bulunur. Sonuçta en iyi sonucu veren ağaç kullanılır Destek Yöney Makineleri Destek yöney makineleri, metin sınıflamada olduğu kadar diğer pek çok geniş alanda da başarı göstermiştir. Vladimir Vapnik in verilerin dağılımıyla ilgili olan yapısal risk enküçültmesi teorisine dayanır. Destek yöney makineleri yöntemi sadece ikili sınıflamalar yapabildiği için bütün sistem çok sayıdaki ikili kararların birleşmesinden oluşur(bolat 2003). Destek yöney makinesi d vektörünü -1 veya 1 olarak bir kategoriyle ilişkilendirmek için aşağıdaki eşitliği kullanır; ve N T s = w φ( d) + b = αiyik( d, di ) + b y 1 i=1 0 = 1 eğer s > s diğerdurumlar (3.18) Burada { ( 1,1 ) i d } N i i 1 yi = 1 = eğitim kümesi dokümanları, { } N i bu dokümanların ait oldukları kategorilerdir y. K( d, d ) değerine kernel adı verilir ve c ninci dereceden bir polinom olarak gösterilir. i T K( d, d ) = ( d d + 1) i i c (3.19) Destek yöney makinelerinin eğitimindeki amaç, eğitim kümesindeki iki farklı eğitim kümesi elemanının arasındaki en uzak mesafeden geçen w vektörünü bulmaktır. Aşağıda bu işlemlerin nasıl yapılabildiği açıklanacaktır Ayrılabilir Durumlarda Destek Yöney Makineleri Eldeki verilerin doğrusal olarak ayrılabildiği durumlarda, { bir skaler b bulunur. d } N i i= 1 için aşağıdaki gibi bir w vektörü ve de 33

33 T w φ( d) + b 1 eğer y = 1 T w φ( d) + b 1 eğer y = 1 i i (3.20) T Destek yöney makinesi, iki sınıf arasındaki uzaklığı en üst düzeye çıkarabilecek bir w φ ( d) + b hiper düzlemi (hyperplane) bulur. En iyi hiperdüzlem, bulunacak en iyi w vektörünün 2 w değerini en aza indirmekle bulunabilir. En iyi w vektörü, şeklinde ( d ) N i= 1 α y φ( d ) φ ların doğrusal kombinasyonları şeklinde yazılabilir. Burada { α i} i 1 i i i N = nın bulunması da, T 1 Λ 1 Λ T QΛ 2 (3.21) nın en büyütülmesiyle gerçekleştirilir. Bu eşitlikte Λ 0 ve Λ T Y = 0 şartları aranır. Burada Y = { y... y } ve Q ise aşağıdaki elemanlara sahip bir simetrik matristir. i N T Q = y y K( d, d ) = y y φ( d ) φ( d ) ij i j i j i j i j (3.22) Sadece eğitim kümesinin karar verme sınırlarında olan αideğerleri sıfırdan büyük olur. Karar verme sınırları Şekil 3.1 Doğrusal Olarak Ayrılabilen Destek Yöney Makineleri 34

34 Ayrılamaz Durumlarda Destek Yöney Makineleri İki küme vektörlerinin doğrusal olarak ayrılamadığı durumlarda, ayrılabilir durumlarda kullanılan w 2 değeri, yerini 1 2 w 2 N + C ξi i= 1 (3.23) ifadesine bırakır. ξ i değerinin aşağıdaki şartları sağlaması gerekir: T w φ( d) + b 1 ξ eğer y = 1 T w φ( d) + b 1+ ξ eğer y = 1 w vektörünün boyutunun en büyütülmesinde ise, kullanıcı tarafından belirlenen bir C değeri ile aranan şartlar aşağıdaki gibi değiştirilir: i i i i (3.24) 0 Λ C1 ve Λ T Y = 0 (3.25) Bayesian Ağları Bayesian Ağları, pek çok değişken ve çok sayıdaki olasılığın geçerli olduğu bir uzayın yoğunlaştırılmasıyla ilgilidir. Yönlendirilmiş çevrimsiz çizge (directed acyclic graph) (DAG) ile ilişkiler tanımlanır. Her özellik X i, ağın içerisinde bir boğum olarak gösterilir. Her boğum arasındaki yay ise, iki özelliğin birbirleriyle olasılıksal bağımlılıklarını gösterir. Yani iki boğum arasında bir yay olmaması, bu iki boğumun birbirinden bağımsız olduğu anlamına gelir. Boğumlar, sadece alt boğumlarıyla ve bir yayla bağlandıkları boğumlarla ilişkilendirilebilir. Her boğum kendisinin üstündeki Π( X i ) boğumda kendisi için saklanan olasılık değerlerini alır. Üst boğuma sahip olmayan boğumlar, sadece altlarındaki X i boğumları için önsel olasılık dağılımlarına sahiptir. Bayes ağları, dokümanlar için düşünülecek olursa, dokümandaki her terim için bir ikili değer verilerek dokümanın içinde hangi kelimelerin geçtiği ve hangilerinin geçmediği hakkında bir bilgi tutulabilir. Diğer bir deyişle; Bayes ağının içindeki tüm boğumlar bir vektörün içinde toplanmış olur. Şekil 4.2. de 6 terime sahip bir dokümanın Bayes ağ yapısı örneği gösterilmiştir. Bu örnekte, görülmesi beklenen kelimeler arasındaki bağımlılık olasılıkları da belirtilmiştir. Eğer bu 6 boğumun aralarındaki ilişkiler ele alınmazsa elimizde 2 6 =64-1=63 tane kelimeler arası bağıntı olasılığı olur. Diğer bir yöntem ile, ağ içerisinde gösterilen bağlantılar kullanılarak, bu 6 kelime için şu dağılım gerçekleştirilebilir, 35

35 Astronomi X 1 Bilgisayar X 2 Güneş X 3 Bilim X 4 Sistem X 5 Programlama X 6 Şekil 3.2. Bayes Ağları P( X, X, X, X, X, X ) = P( X ). P( X ). P( X X ). P( X X, X ). P( X X, X ). P( X X, X ) Buradan, dağılım çarpanlarının =16 olarak bulunulduğu ve bu sayının da kelimeler arasında bağıntı olmaması düşünüldüğünde çıkan değerin çok altında olduğu görülebilir. Bayes ağlarının da aralarında bağıntı olduğu bilinen kelimeler bir öğrenme algoritmasına gerek kalmadan ağlar içerisine eklenebilir. Ayrıca Bayes ağları şekilsel olduğu için insanlar tarafından da kolaylıkla anlaşılabilir. Bayes ağları oluşturulduktan sonra Naive Bayes yönteminde kullanılan hesaplamalarla en iyi olasılık değerini veren kategori seçimi yapılabilir. 36

36 4 KÜMELEME ANALİZİ Kümeleme algoritması denetimsiz öğrenme kategorisine giren bir algoritmadır. Kümeleme algoritmasındaki amaç verileri alt kümelere ayırmaktır. Sınıflama algoritmasında olduğu gibi ortak özellikleri olan veriler bir kümeye girer. Alt kümelere ayrılmak için keşfedilen kurallar yardımıyla bir kaydın hangi alt kümeye girdiği kümeleme algoritması sayesinde bulunur(jiawei 2001). Kümeleme, fiziksel ya da soyut nesnelerin benzerliklerine göre gruplanmasıdır. Küme, benzer nesnelerin oluşturduğu bir gruptur. Kümeleme analizi pratikte birçok aktivitede kullanılır. Desen tanımlama, veri analizi, resim işleme, pazar araştırması bunların arasındadır. Kümeleyerek, datalar arasındaki ilginç desenler yakalanabilir. 4.1 Kümeleme Analizi Uygulamaları Pazarlamacıların kendi müşterileri arasındaki farklı grupları karakterize etmesini sağlayabilir. Biyolojide bitki ve hayvan taksonomilerini genlere göre sınıflandırmada kullanılır. Yeryüzü incelemelerinde belli toprak parçalarını tanımlamak için kullanılır. Aynı zamanda web deki dokümanları sınıflamakta kullanılır. Veri kümeleme çok hızlı bir gelişim içindedir. Uygulama alanları hızlı bir şekilde genişlemektedir. Yıllar geçtikçe analiz edilecek veri miktarı da sürekli arttığı için çok kullanılacak bir yöntemdir. Kümelemenin sınıflandırmadan farkı sınıflandırmadaki gibi önceden tanımlı sınıf etiketlerinin olmamasıdır. Bu sebeple kümelemede, sınıflandırmadaki gibi örnekleyerek öğrenme yerine gözlemleyerek öğrenme kavramı geçerlidir. Genel olarak 2 tip kümeleme vardır: 1) Geleneksel Kümeleme Nesnelerin geometrik yapısını baz alarak kümeleme yapar. 2) Kavramsal Kümeleme 2 parçadan oluşur: Birincisi; nesneleri farklılıklarına göre gruplar İkincisi; sınıflamada olduğu gibi o her sınıf için bir açıklama oluşturup, nesneleri bu açıklamaya göre sınıflar. Kümelemenin veri madenciliği alanında, daha çok geniş veritabanları üzerinde gruplama yapabilmek için kullanılır. Kümeleme metotlarının ölçeklendirilmesi çok önemlidir. Ölçeklendirme, çok küçük veya çok büyük veriler üzerinde de metodun yapısının değiştirilmeden kullanılabilmesidir. 37

37 Veri madenciliği alanında kümeleme yapabilmek için bazı gereksinimlerin sağlanmış olması gerekir. Ölçeklendirilebilme: Kümelendirme algoritması küçük çaplı nesneler üzerinde çalışabilmesine rağmen büyük veriler üzerinde çok performanslı olmayabilir. Bu durumlarda ölçeklendirme algoritmalarına ihtiyaç vardır. Değişik Nesne Tiplerine Göre Çalışabilme: Günümüzde birçok kümelendirme algoritması sayısal veriler üzerinde çalışması için geliştirilmiştir. Ancak sayısal olmayan ve ikili veriler üzerinde de çalışacak algoritmalara ihtiyaç gittikçe artmaktadır. Farklı Tipteki Nesneleri Ayırabilme: Birçok kümelendirme algoritması nesneler arasında Euclidean ve Manhattan ölçütlerine göre ayrım yapabilmektedir. Bu tür algoritmalar benzer boyuttaki ve benzer yoğunluktaki nesneleri ayırt edebilmektedir. Fakat çok değişik tipte, boyutlarda nesneler olabileceğinden algoritmanın buna uygun olarak çalışması gerekmektedir. En Az Miktarda Alan Bilgisi Gerektirmesi: Birçok kümeleme algoritması kullanıcı girişlerine ihtiyaç duyar. Kümeleme sonucu da bu parametrelere karşı hassastır ve bunlara göre değişiklik gösterir. Algoritma sonucu parametrelere bu kadar bağımlı olmamalı ve sonuç bu derece hassas olmamalıdır. Bu, parametreyi girecek kullanıcılar için büyük bir sıkıntıdır ve analizin sonucunu kontrol etmeyi zorlaştırır. Çöp Veri Ayıklayabilme: Gerçek hayatta kullanılan birçok veritabanı; eksik, tanımlanmamış, ayrık veriler içerir. Kümelendirme algoritmaları bu çöp verilerden dolayı kötü sonuçlar verebilir. Bu sebeple, algoritma bu çöp verileri ayıklayabilmelidir. Algoritma, Verilen Parametrelerin Sırasına Duyarsız Olmalıdır: Bazı algoritmalarda girilen parametrelerin sırası değiştiğinde algoritma sonucu bundan etkilenir. İstenmeyen bu durumun oluşmaması için, algoritmada girilen parametrelerin sırası önemsiz olmalıdır. Yüksek Boyutluluk: Birçok algoritma 2 ya da 3 boyutlu veriler üzerinde iyi çalışır. İnsan gözü de en çok 3 boyutlu veriyi anlayabilecek yapıdadır. Fakat kümeleme algoritması daha fazla boyutta çalışabilmelidir. Kısıtlama Bazlı Kümeleme: Günümüz ihtiyaçlarına cevap verebilecek bir algoritma çeşitli kısıtlamalarla çalışabilmelidir. Yani sonuca yansıyacak veriler filtrelenebilmelidir. 4.2 Kümeleme Analizinde Veri Tipleri Günümüzde kümeleme algoritmaları genel olarak 2 tip veri yapısıyla çalışırlar. Veri Matrisi: Bu tip veri yapısında n tane nesne, p tane değişken olur. Örneğin nesneler; insanlar, evler, araçları temsil ediyorsa, değişkenler; bir insanın yaş, boy, ağırlığını temsil etmektedir. 38

38 n x p boyutlu bir matris elde edilir. (4.1) Benzersizlik Matrisi: Nesnelerin, yine nesnelerle eşlenmesi söz konusudur. Nesnelerin özellikleri bulunmaz. (4.2) Nesneler eşlendikten sonra, oluşturulan nesne gruplarının benzerlikleri karşılaştırılır. İlk metot olan Veri Matrisi metodu, 2 modlu matris olarak da bilinir. (nesne, özellik) İkinci metot olan Benzersizlik Matrisi de tek modlu matris olarak bilinir. (nesne) Birçok algoritma 2. yapı ile çalışır. Eğer veriler ilk yapıdaki gibiyse, önce ikinci yapıdaki duruma çevrilir, daha sonra işlenir Aralık Ölçekli Değişkenler Tam olarak kesin belirlenmiş değerlerden çok, belli bir aralık şeklinde belirlenen verilerde geçerlidir. Ölçümde kullanılan birim çok önemlidir. Birimin değişmesi, analizin sonucunu etkiler. Sonucun kafa karıştırıcı olmaması için analize giren verilerin de standart olması gerekir (verilerin bir kısmı kg, diğerleri gr. olmamalıdır). Standartlaştırmadan sonra Benzersizlik Matrisi ile analiz yapılır. Bu analiz için 2 metot kullanılır: 1) Euclidian (4.3) 2) Manhattan (4.4) İkili Değişkenler Bir ikili değişkenin 0 ve 1 olmak üzere 2 durumu vardır. 0 yok, 1 var anlamında kullanılır. Aralık ölçeklinin tersine, kesin ve net sonuçların olduğu analizlerde kullanılır. Örneğin; yolcu sigara içiyor mu? 39

39 Sorusunun karşılığı, eğer içiyorsa 1, içmiyorsa 0 dır. Yani örnekte cevap olarak bir aralık çıkmamakta, kesin bir cevap alınmaktadır. q: ortak olan 1 lerin sayısı, r: ilk nesne için 1, ikinci nesne için 0 olanların sayısı s: ilk nesne için 0, ikinci nesne için 1 olanların sayısı (4.5) Nominal (ada bağlı), Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler Nominal değişkenler İkili değişkenlere benzer ancak çok sayıda seçeneği olan değişkenlerdir. Örneğin renk değişkeni nominal bir değişkense kırmızı, yeşil, mavi vs. seçenekleri belirlenir. Nominal değer formülü: p: toplam değişken sayısı m: ortak 1 lerin sayısı (4.6) Ordinal Değişkenler Nominal değişkenlerden farklı olarak sırasının önemli olmasıdır. Nominal gibi, belli alanları, seçenekleri olur ve bunların sıraları önemlidir. Altın, gümüş, bronz veya Profesör, Öğretim Üyesi, Asistan gibi. (4.7) Ondalıklı Değişkenler Üstel olarak artan verilerin benzerliğinin bulunmasında kullanılır. Ör: Bakteri popülasyonunu artışı. Ae Bt veya Ae -Bt (4.8.) Karışık Tipteki Değişkenler Birçok gerçek veritabanında değişik tipte veriler bulunur. ikili, nominal, ordinal. Bunların hepsinin bir arada analiz edilmesi gerekir. 40

40 (4.9) 4.3 Ana Kümeleme Yöntemlerinin Kategorilendirilmesi Birçok kümeleme algoritması vardır ve bunlar analiz edilecek olan verinin yapısına göre belirlenir. Kümeleme metotları genel olarak şunlardır: Bölümlendirme Metodu: n tane nesnenin olduğu veritabanında, nesneler mantıksal gruplara ayrılarak analiz edilir. Küçük ve orta boyutlu veritabanlarında birkaç grup olabilirken, veritabanının büyüklüğü arttığında daha çok grup oluşabilir. Gruplandırma yapılırken değişik kriterler değerlendirilebilir. Yapılan gruplandırma analizin kalitesine etki eder. Hiyerarşik Metot: Analiz etmeden önce nesneler, hiyerarşik bir yapıya göre düzenlenir. Veriyi hiyerarşik bir yapıya çevirmek için değişik yöntemler kullanılır. Bunların arasında BIRCH ve CURE yöntemleri bulunur. Yoğunluk Bazlı Metot: Birçok kümeleme yöntemi nesnelerin birbirleri arasındaki farklılıklarına göre kümeleme yaparken, bu metot nesnelerin yoğunluğuna göre gruplama yapar. Yoğunluktan kasıt, analiz edilen nesnelerin sayısıdır. Yoğunluk bazlı metotlara örnek olarak DBscan verilebilir. Grid Bazlı Metot: Nesneleri grid yapısı oluşturacak şekilde sayılarına göre sınıflandırır. Temel avantajı hızlı tamamlanması ve nesnelerin sayısından bağımsız olmasıdır. Bu tipteki metotlara örnek olarak Sting verilebilir. Model Bazlı Metot: Her küme için bir model belirlenir ve bu modele uyan veriler uygun kümeye yerleştirilir Bölümlendirme Metodu n tane nesnesi olan ve k sayıda küme tanımlanmış bir veritabanı düşünelim. Bu durumda bölümlendirme metodu tüm nesneleri k adet kümeye ayıracaktır. Kümeler, nesneler arasındaki benzersizliklere göre oluşturulur Klasik Bölümlendirme Metotları: k-means, k-medoids k-means (orta değer) Bu algoritma şu parametreleri alır: k: kaç küme olacak d: kaç nesne olacak 41

41 Bu nesneler benzersizliklerine göre kümeleme yapılıp geri verilir. Bu algoritmada kümeler arasındaki benzerlik düşük olur. Bu algoritma öncelikle rasgele şekilde k tane nesne seçer. Bunların her birinin orta değeri kendisidir. Kalan nesnelerin tümünü bu seçilen nesnelere yakın olanlara göre kümelere dahil eder ve her defasında yeni mean (orta değer) hesaplar. Her nesnenin bir hata kriter değeri (E) vardır. Algoritma: k-orta değer : k sayıda kümelendirme algoritması Girişler: nesne sayısı (n) ve küme sayısı (k) Çıkış: k sayıdaki minimum hata ile oluşturulmuş kümeler Algoritma: 1. kabaca n tane nesne seç 2. tekrarla 3. değişken benzerliklerine göre grupları oluştur ve her grup için bir ortalama değer hesapla 4. bu ortalama değeri uygun olan kümelere yerleştir 5. yerleştirme bittikten sonra ortalama değerleri güncelle 6. bir değişiklik olmayana dek tekrarla Bu metot ölçeklendirilebilir bir metottur ve çok geniş veritabanları üzerinde de uygulanabilir. Çünkü karmaşıklığı oldukça azdır. Şekil 4.1 k-mean metodu ile kümeleme Şekilde bir nesne setinin k-mean metodu ile kümelenmesi gösterilmiştir. Her bir kümenin orta değeri + ile işaretlenmiştir. Aşağıdaki şekillerde k-means ile kümelenin adımları gösterilmiştir. 42

42 Şekil 4.2. Başlangıç Kümeleri Şekil 4.3 Kümelerde Mesafelerin Ölçümü 43

43 Şekil 4.4.Kümelerde İlk çözümün oluşturulması Şekil 4.5.Kümelerde Mesafeleri Merkeze Öteleme 44

44 Şekil 4.6.Küme Oluşturulması SON ÇÖZÜM k-medoids Çok yüksek değerdeki nesneler, küme dağılımını olumsuz etkiler. Çünkü k-means tüm değerlere karşı duyarlıdır. k-medoid de, k-means gibi tek tek hesaplamak yerine; 1. Her bir küme için kabaca bir temsilci nesne belirlenir (medoid) 2. Kalan her nesneyi bu medoid le karşılaştırır ve benzerliğine göre o nesne kümeye dahil edilir. 3. Bir kümedeki nesneyi alarak, daha yüksek kaliteyi elde edene dek kümeler arasında iteratif olarak yer değiştirme yapılır Şekil 4.7. k-metoids Kümeleme İşlemi + küme merkezi yer değiştirmeden önce --- yer değiştirmeden sonra Algoritma: 1. k tane nesne seç (medoid) 2. tekrarla 3. nesneleri onlara en yakın medoidlere at 4. medoid olmayan rasgele bir nesne seçilir 5. bu nesne bir medoidmiş gibi ele alınıp toplam performans hesaplanır 45

Daha göster