Kavram Çıkarma Çalışmalarında Terim Benzerliklerinin Bulunması

Kavram Çıkarma Çalışmalarında Terim Benzerliklerinin Bulunması Kerime BALKAN Türkiye Bilimsel ve Teknolojik Araştırma Kurumu, Kocaeli, Türkiye kerime.balkan@bte.tubitak.gov.tr Hidayet TAKÇI Gebze Yüksek Teknoloji Enstitüsü, Kocaeli, Türkiye htakci@gyte.edu.tr Özet: Kavram çıkarma; bir veri madenciliği uygulaması olan kavram madenciliğinin bir alt alanıdır. Kavram çıkarma çalışması; karmaşıklığı oldukça yüksek, terim tabanlı metin madenciliği çalışmalarının performansını artırmayı vaat etmektedir. Kavram çıkarmanın ilk aşaması dokümanları temsil edecek belli sıklıktaki terimlerin belirlenmesidir. Daha sonra bu terimler gruplanarak kavramlaşma yolunda önemli bir işlev yerine getirilecektir. Terimlerden kavramlara geçiş; terimlerin, benzerliklerine göre kümelenmesi ve bu kümelerin uzman tarafından etiketlenmesi ile yapılabilecek bir çalışmadır. Bu aşamanın başarısı, veri setinin kalitesi ve seçilecek yöntemler ile yakından ilgilidir. Bu çalışmada kavram çıkarmanın bir aşaması olan terim benzerliklerine dayalı kümelemede kullanılan üç yöntem incelenmiş ve en başarılı yöntem bulunmaya çalışılmıştır. Çalışma Türkçe dili üzerinde yerine getirilmiştir. Anahtar Kelimeler : Metin madenciliği, Kavram çıkarma, Terim benzerliği Abstract: The concept extraction is a sub-area of the concept mining which is a data mining application. Concept extraction work, promises to improve the performance of the term-based text mining work which complexity is very high. The first phase of the concept extraction is to detect the terms have notable frequency to represent the documents.after an important function on the way conception will be implemented with grouping these terms. Transition from terms to concepts; by clustering the terms according to similarities in terms, and then by labeling these clusters with an expert. The parameters of clustering algorithm and the quality of the data set will affect the success of this process. In this study, the three methods for term similarity are examined and the the most successful one is tried to find. Study is performed on Turkish language. Keywords : Text mining, Concept Extraction, Term similarity 1. Giriş Metin madenciliği çalışmalarına her geçen gün artan ihtiyacın karşısında çok ciddi bir problem vardır, o da performans. Bir metnin terimlere dayalı olarak işlenmesi, metinden anlamlar çıkarılması, metnin sınıflandırılması gibi işlemler binlerce terim kullanılarak yapıldığında ciddi performans sorunları meydana gelmektedir. Performansı artırmak amacıyla özellik seçimi gibi yöntemler sıklıkla kullanılmıştır. Bu problemin bir çözümü de terimlerin kavramlara dönüştürülmesi ve ardından kavram seviyesinde metin madenciği yapılmasıdır. Çalışmamız, terimlerden kavramlara geçişin nasıl olabileceği ve bu geçiş sırasında kullanılabilecek algoritmaların karşılaştırması üzerine bir çalışmadır. Konunun anlaşılabilmesi için kavram çıkarmanın da içinde yer aldığı kavram madenciliği bilinmelidir. Kavram madenciliğinin amacı bilgisayarın hızı ve doğruluğunu insanın anlama yöntemiyle birleştirip teknoloji üretmektir. Kavram madenciliği metnin altındaki anlamla ilgilenir. Kullandığımız her kelime birden çok anlama sahip olabilir, ve anlamdaki muğlaklığı ortadan kaldırmak için kavramı kullanırız [9]. Kavram madenciliği dört aşama ile yapılır [7]. Sözdizimsel Analiz : Verilen dil bilgisi kurallarına göre kelimelerden oluşan bir metni analiz edebilmek için parçalamayı sağlar. Anlamsal Analiz : Büyük doküman kümelerinden kavramları ifade edecek yapıları belirlemeyi sağlar. Genellikle dokümanlar için daha önceden belirlenmiş anlamsal bilgileri kullanmaz. İlişkilerin belirlenmesi : Anlamsal analiz ile elde edilen kavramların birbirleriyle ilişkilerini belirlemeyi sağlar. Bu aşamada kavram haritası madenciliği kullanılır. Tasnif : Elde edilen kavramlar ve bu kavramlar arasındaki ilişkiler kullanılarak dokümanların dizinlenmesini ve sınıflandırılmasını sağlar. Bu dört aşamanın sonunda sunulan başarılı değerlendirme sonuçları, sistemin kavramları ve ilişkileri öğrendiğini gösterir ve bu kavramlar dokümanları dizinlemede kullanılabilirler [7]. Çalışmamız, kavram madenciliği aşamalarından ilk ikisi olan sözdizimsel analiz ve anlamsal analiz adımlarını kapsamaktadır. Çalışmamızın sözdizimsel analiz aşamasında dokümanlardaki kelimeler ayrıştırılacak ve belli sıklıktaki olanları seçilecektir. Sözdizimsel analiz aslında bir tür veri önişleme adımıdır. Anlamsal analiz aşamasında ise terim benzerliği yöntemleri araştırılarak, en iyi terim benzerliği yöntemi ile terimlerden kavramlara geçişe yardımcı olunacaktır. Makine öğrenmesi algoritmaları ile dokümanlar üzerinde sınıflandırma veya kümeleme yapılmadan evvel dokümanlarda

yer alan terimleri kavramlar şeklinde belirlenerek yapısal olarak düzenlenmesi performansı artıracaktır. Kavramlar dokümanın konusunun ne olduğu hakkında bilgi veren doğal dildeki kelimeler ya da kelime öbekleridir, dokümanlarda bire bir olarak geçebilir veya başka kelimeler ile anlatılabilir [2]. Bir kavramın birden çok terim ile anlatıldığı durumda, hangi terimlerin hangi kavrama denk geldiğini bulma anlamsal analizin konusudur. Anlamsal analiz, dokümanlarda kullanılan terimlerin kavramı belirtecek şekilde kümelenmesini gerekmektedir. Kümeleme işlemi ise terim benzerliklerine dayalı olarak yerine getirilecektir. Çünkü genellikle, benzer içeriğe sahip terimler kavramları oluştururlar ve benzer terimler dokümanlarda daha sık birlikte yer alırlar. Bu yüzden, dokümanlardan çıkarılan terimlerin benzerliklerine dayalı olarak kümelenmesi terimlerden kavramlara geçişte önemli bir adımdır. Dolayısıyla en iyi kümelenmeyi verecek terim benzerliği yönteminin tespit edilmesi çalışmanın başarısı açısından elzemdir. Terim benzerliklerine dayalı olarak kümeleme için üç algoritma tercih edilmiştir. Bunlardan ilki LSA yöntemidir. LSA tabanlı yöntem, terimler arasındaki anlamsal benzerliği ortaya çıkarma yeteneğinden dolayı terim benzerlikleri için kullanılabilir bir yöntemdir [10]. Diğeri EMIM tabanlı benzerlik hesaplama yöntemidir [1]. EMIM tabanlı yöntem kullanılırken brute force hesaplamalar yapıldığı için, büyük dokümanlarda daha verimli çalışacak şekilde algoritmanın gelişmiş hali Sezgisel Quadtree (Quadtree Heuristic) de kullanılabilir. Ancak Sezgisel Quadtree yöntemi kısa dokümanlar için zahmetli olduğundan dolayı bu çalışmada bu yöntemle ilgilenilmemiştir. Bu arada; kavramlar arasındaki ilişkileri otomatik olarak elde etmeyi planlayan Kavram Haritası madenciliği (Concept Map Mining) aşamalarından birisi de kavram çıkarmadır. Diğer aşamalar ise İlişki Çıkarma ve Topoloji Çıkarmadır [10]. Kavram çıkarma kendi içinde; kavramların tanımlanması ve önemli kavramların dokümanlardan seçilmesi olarak 2 parçaya ayrılabilir. Önemli kavramların dokümanlardan seçilmesi işlemi, yani özetleme Gizli Anlamsal Analiz (LSA) tekniği ile yapılabilir [10]. Özetleme ayrıca uygunluk ölçütü (Relevant Measure) kullanılarak da yapılabilir [4]. Uygunluk ölçütü yöntemi dokümanı tekil cümlelere bölerek her cümlenin tüm doküman üzerindeki uygunluk ölçütünü hesaplayıp, uygunluk skoru en yüksek olanı kavram olarak ayırmak amacındadır. Çalışmanın planı şu şekildedir. İkinci bölümde kavram çıkarma aşamasının ilk adımı olan belli sıklıktaki terimlerin seçilmesi yöntemi anlatılacak, bölüm 3 de kavram çıkarma işinde kullanılabilecek terim benzerliği yöntemleri verilecek ve dördüncü bölümde yöntemler karşılaştırıldıktan sonra sonuç ve gelecek çalışmalar beşinci bölümde sunulacaktır. 2. Terim Seçimi İşlem yükünü azaltmak için belirli bir sıklığın altındaki terimlerin eliminasyonu uygun olacaktır. Veri madenciliğinde belli sıklıktaki öğelerin diğerleri arasından seçilmesi genel olarak birliktelik kuralları analizi ve minsup eşiği ile yapılmaktadır. Ancak bu çalışmada terim seçimi için Gizli Anlam Analizi (LSA Latent Semantic Analysis) yöntemi kullanılacaktır. Bu yöntemin seçilmesinin amacı, kavram fikrine daha yakın bir terim seçme yöntemi olmasıdır. LSA yöntemi ile birliktelik kuralları ile fark edilemeyen bağlantılar da gözlemlenebilecektir. Ayrıca daha hızlı ve verimli sonuçlar elde edilecektir. Terim seçimi yaparken ilk seçim terim türü bazında yapılmış ve bütün terimler yerine, isim kökenli terimler seçilmiştir. Bu işlemi gerçekleştirmedeki varsayımımız kavramların isim kökenli kelimelerde gizli olduğudur. Bir terimin türünü belirleme konusunda açık kaynak kodlu zemberek (http://code.google.com/p/zemberek/) kütüphanesinden faydalanılmıştır. Veri setinde yer alan dokümanların, isim türündeki sözcükleri ile bir sözlük oluşturularak, bu sözlük yardımıyla önce terim uzayı ardından da doküman terim matrisi elde edilmiştir. Terim1 Terim2 Terimj Terimm Dok 1 A11 A12 A1j A1m Dok 2 A21 A22 A2j A2m Dok i Ai1 Ai2 Aij Aim Dok n An1 An2 Anj Anm Tablo 1: Doküman terim matrisi (A) Sözlük oluşturulurken isim türündeki sözcüklerin sadece kökleri kullanılmıştır. Frekans hesabı da sözcüğün kök hali ile yapılmıştır. Bu durumda; ağaçlar, ağacı, ağaçta, ağaçtaki, ağacın, ağaçlarımız gibi sözcükler sadece ağaç sözcüğü ile ilişkilendirilmiş ve hepsi ağaç teriminin frekansı olarak hesap edilmiştir. Amaç kavram olacak sözcükleri elde etmek olduğundan sözcüklerin çekim eklerinin atılması sonuca etki etmeyecektir. Ancak sözcüğün gövdesini değiştiren yapım ekleri atılmamalıdır. Örneğin kitap ve kitaplık farklı kavramları ifade edebilirler. Doküman terim matrisindeki her A(i,j) hücresinde j.nci terimin i.nci dokümandaki geçme sıklığı (frekansı) bulunmaktadır. Geçme sıklığının hesabında kullanılan formül: A(i,j)=( j.nci terimin i.nci dokümandaki geçme sayısı) / (i.nci dokümandaki toplam sözcük sayısı) Gizli Anlam Analizi yönteminin 2. Aşamasında; doküman terim matrisi (A), U ve V ortagonal vektörleri ve S özvektörüne ayrıştırılır. Elde edilecek ortagonal vektörlerden U dokümanlar arasındaki korelasyonu ifade ederken V matrisi terimler arasındaki korelasyonu verir. Ayrıştırma işlemi için Tekil Değer Ayrıştırması (SVD - Singular Value Decomposition) kullanılır. Bu ayrıştırmanın sonunda; elimizde artık üç adet vektör bulunmaktadır. A= U * S * V T (1) Elde edilen S matrisi bir özvektördür, U ve V matrisleri ise ortogonal vektörlerdir. S matrisi ayrımın özdeğerlerini tutar, ve büyükten küçüğe doğru sıralıdır. Dolayısı ile eğer S matrisinin ilk değeri ile işlem yaparsak vektörler arasındaki ayrımın maksimuma ulaştığını görürüz. Belli sıklıktaki terimleri seçmek için S matrisinin en büyük değerleri ile işlem yapmalıyız. Bu arada önemli bir konu; veri setinde yer alan dokümanların

yapısına bağlı olarak seçilecek terim sayısının belirlenmesidir. İlk aşamada 25 terim seçilmesi hedeflenmiş ve S matrisindeki ilk 25 değer kullanılmıştır. Bu aşamadan sonra artık her dokümanı 25 terim ile temsil edilecektir. Dolayısıyla terim seçme işlemi ardından her dokümanı temsil edecek 25 adet terim bulunmuştur. Bu aşamada dokümanlar için elde edilen terim kümeleri, dokümanlar hakkında bilgi vermekten uzaktır. Halbuki bu terimlerin anlamsal yakınlıklarına göre kavramlar şeklinde ifade edilmesi lazımdır. Bu sebeple her dokümanı tanıtıcı terimler kullanılarak bunlar arasındaki benzerlikler bulunacak ve birbirine benzer terimlerin gruplarından kavramlara ulaşılacaktır. Bu aşamada kullanılacak terim benzerliği yöntemi performansı etkileyecektir. 2. Terim Benzerliği Yöntemleri Çalışmamızda terim benzerliği yöntemi olarak LSA tabanlı yöntem, EMIM algoritması ve k-means kullanılacaktır. 2.1. LSA Tabanlı yöntem Bu yöntem dokümanlardan oluşturulan doküman terim matrisinin SVD yöntemi ile parçalanması sonucu elde edilen U matrisi üzerinde, öklid uzaklık yöntemi ile benzerlikleri bulmayı amaçlar. Bazı kaynaklarda [10] LSA matrisinin bu amaçla kullanılabileceği söylense de bu konuda yapılmış bir çalışma bulunmamaktadır. Terimlerin ilk seçiminde de bu yaklaşım kullanıldığından dolayı, bu yaklaşımı terim benzerliği yöntemimiz olarak sunulmuştur. Terimler bu uzaklık değerlerine göre, kümeleneceklerdir. Kümeleme işleminde kaç adet küme olacağı seçimi uzmana bırakılmıştır. Terim_LSA_Matris = SIK_TERIMLER_ICIN _LSA_MATRISI_AL(Ana_LSA_Matris, Terimler) Her terim_bir : Terimler için Her terim_iki : Terimler için Benzerlik[terim1,terim2] = ÖKLİD_HESAPLA (Terim_LSA_Matris[terim_bir], Terim_LSA_Matris[terim_iki]) ÇIKTI(Benzerlik) Tablo 2: LSA Benzerlik Hesaplama sözde kodu 2.2. kmeans Kümeleme yöntemi kmeans veri madenciliği ve istatistik alanlarında en çok kullanılan kümeleme algoritmalarından biridir. [3 ; 5].Yöntemin uygulaması basittir ve büyük veri setlerinde başarılıdır. Çalışmalarda görülmüştür ki özellikle metin kümelemede kmeans iyi sonuçlar vermektedir [6]. kmeans algoritması, veri setini k adet kümeye ayırır. Bunun için öncelikle rastgele k adet küme merkezi belirlenir. Veri setindeki her bir elemanın küme merkezine uzaklığı öklid yöntemi ile hesaplandıktan sonra veri hangi küme merkezine daha yakınsa veri o kümeyle eşleştirilir. Bu işlemleri kümeler stabil hale gelene kadar devam eder. k = AL(k degeri) Veriseti = AL (veriseti) Veri_Kümeleri = VERI_KUMELERINI_ILKLE(veriseti) Kume_merkezleri=RASTGELE_KUME_MERKEZLERI_ATA(k) değişim=doğru değişim= doğru olduğu sürece devam et değişim=yanlış Her veri : Veriseti için Her küme_merkezi : Küme_merkezleri için Uzaklık[küme_merkezi] = ÖKLID_HESAPLA(veri,küme_merkezi) En_yakin_Küme = EN_YAKIN_KUMEYI_AL(Uzaklık) Eğer Veri_Kümeleri[veri]!=En_yakin_Küme değişim=doğru Veri_Kümeleri[veri] = En_yakin_Küme ÇIKTI(Veri_Kümeleri) Tablo 3: kmeans kümeleme yöntemi sözde kodu Terim benzerliği için diğer kümeleme algoritmalarının yerine kmeans seçilmesinin önemli bir sebebi vardır o da veriye uygunluk. Çalıştığımız verinin nitelikleri sürekli değerlerden oluştuğu için kmeans algoritması seçilmiştir. kmeans yöntemini kullanmak için terim sıklıklarına göre doküman terim matrisi elde edilmeli; ve bu matris kmeans için eğitim veri seti olarak kullanılmalıdır. 2.3. EMIM tabanlı benzerlik yöntemi Bein ve arkadaşları tarafından [1] önerilen beklenen ortak bilgi ölçütü (EMIM - Expected Mutual Information Measure) yönteminde EMIM değerini hesaplamadan önce her k terimi için t vektörü elde edilir. T vektöründe her doküman için k teriminin o dokümanda bulunup bulunmadığı bilgisi vardır. Her k terimi için, k teriminin bulunduğu, ve k teriminin bulunmadığı olarak 2 adet f değeri de hesaplanır. Sonrasında her ikili terim k ve l için, 4 adet n değeri hesaplanır. n değeri, terimlerin birlikte bulunup bulunmama durumlarını vermektedir. n Açıklama K ve l terimlerinin ikisinin de bulunmadıkları doküman sayısı K teriminin bulunmayıp l teriminin bulunduğu K teriminin bulunup l teriminin bulunmadığı K ve l terimlerinin ikisinin de bulunduğu Tablo 4: Terimler arasındaki ilişkiyi gösteren n değerleri hesaplama yöntemi (2) (3) (4)

Bu değerler arasındaki ilişki şekildeki gibi verilebilir. Bu durumda fk(1) ve nkl(1,1) hesaplanırsa diğer değerler bu değerlerden elde edilebilir. Bu değerlerin hesaplanmasından sonra terim benzerliklerini ifade edebileceğimiz EMIM değeri hesaplanabilir. EMIM değeri yüksek olan ikili en çok benzer terimler olacaktır. Dokümanlar = AL (Doküman Kümesi) Her terim : Terimler için F1[terim] = TERIM_GECEN_DOKUMAN_ SAYISI_HESAPLA(terim,Dokümanlar) Her terim_bir : Terimler için Her terim_iki : Terimler için N11[terim_bir,terim_iki] = TERIMLERIN_ORTAK_GECTIGI _DOKUMAN_SAYISI_HESAPLA (terim_bir, terim_iki, Dokümanlar) Benzerlik[terim_bir,terim_iki] = EMIM_BENZERLİK_HESAPLA (F1[terim_bir],F1[terim_iki], N11[terim_bir, terim_iki]) ÇIKTI(Benzerlik) Tablo 5: EMIM tabanlı benzerlik yöntemi sözde kodu 2.4. LSA ve EMIM tabanlı benzerlik yöntemleri sonrasında kullanılan kümeleme yöntemi Benzerlikler hesaplandıktan sonra, bu değerlere göre kümeleme yapılmalıdır. Bu çalışmada olasılıkların hepsini denemek suretiyle (brute force yöntemi) kümeleme işlemi yapılmıştır. Benzerlikler = AL (Terim benzerlikleri) Her terim : Terimler için KümeT=KUME_OLUSTUR(terim) Küme_Listesi= KUME_LISTESINE_EKLE(Küme_Listesi,KümeT) Küme_Sayısı= KUME_ADEDİ_AL(Küme_Listesi) Küme_Sayısı > 10 olduğu sürece devam et Küme1,Küme2 = EN_BENZER_KUMELERI_BUL (Benzerlikler) Küme_Listesi = KUME_LISTESINDEN_CIKART (Kume_Listesi,Küme1,Küme2) Küme3=BIRLESTIR(Küme1,Küme2) Küme_Listesi = KUME_LISTESINE_EKLE(Küme_Listesi,Küme3) Küme_Sayısı= KUME_ADEDİ_AL(Küme_Listesi) ÇIKTI(Küme_Listesi) Tablo 6: Kümeleme yöntemi sözde kodu (5) (6) 3. Deneysel Çalışma Yapmış olduğumuz deneysel çalışmanın amacı kavram madenciliği için en uygun terim benzerliği yönteminin bulunmasıdır. Çalışmamızda; kavram çıkarmaya yardımcı üç farklı terim benzerliği yöntemi kullanılmıştır. En uygun yöntem belirlendikten sonra performansı yüksek veri madenciliği mümkün hale gelecektir. Terim benzerliği yöntemleri kümeleme tabanlıdır. Kümeleme algoritmaları için sonuçların değerlendirilmesi ise büyük bir problemdir. Bugüne kadar objektif değerlendirme kriterleri tam olarak geliştirilmemiştir. Sıklıkla kullanılan yöntemlerden birisi, elde edilen sonuçların konu uzmanı tarafından değerlendirilmesidir. Çalışmamız için de en büyük sıkıntı uzman görüşü ve veri setinin probleme uygunluğu konusunda ortaya çıkmıştır. Kümelemenin başarısı için veri setinin yeteri kadar veriye sahip olması, küme sayısı ve küme merkezlerinin tayini önemli problemlerdir. Terim benzerliği yöntemlerinin karşılaştırılmasında sonuçları kolayca inceleyebilmek için 11 dokümandan oluşan küçük bir veriseti kullanılmıştır. Dokümanların hepsi eğitim konusundadır. Deneylere başlamadan önce her bir dokümanı sunacak terim özellik seti çıkarılmıştır. Bunun için LSA algoritması kullanılmış ve derlem içerisinde sık geçen terimler dokümanları sunmada kullanılmıştır. Terimler belirlendikten sonra ise her bir doküman terim uzayında, terim sıklıkları ile sunulmuştur. Çalışmamız iki aşamalı olarak yülütülmüştür. Çalışmanın ilk aşamasında 11 adet doküman ve 25 adet terim kullanılarak kümeleme yapılmıştır. Ancak elde edilen terim kümesindeki sonuçların uzman tarafından değerlendirilmesi efektif olmadığından ve uzun sürdüğünden veri seti küçültülmüştür. Çalışmanın ikinci aşamasında uzmanın iş yükünü hafifletmek ve daha net sonuçlar elde etmek için doküman sayısı aynı tutulmuş fakat seçilen terim sayısını doküman başına 10 olarak belirlenmiştir. Dokümanlardan gelen terimler tek bir kavram sözlüğüne yerleştirilmiştir. Çakışmalar ortadan kaldırıldıktan sonra derlemdeki dokümanları sunmak için toplam terim sayısı 52 olarak belirlenmiştir. Terim benzerlikleri tabanlı kümelemede üç adet algoritma kullanılmış ve bu algoritmaların kullanımı esnasında bazı karakteristik özelliklere rastlanmıştır. Bir tablo şeklinde sunmak gerekirse; LSA tabanlı yöntem EMIM tabanlı yöntem Kmeans yöntemi İkili olarak terimlerin benzerlik hesabında diğer algoritmalara göre daha başarılı olsa da, kümeleme sonucunda terimlerin kümelere dağılımı homojen olmamıştır, birkaç küme üzerinde yığılmalar gözlemlenmiştir. İkili karşılaştırmalarda LSA tabanlı yönteme benzer sonuçlar üretmiştir, sonuçta elde edilen kümelerde bir kaç küme üzerinde yığılmalar gözlense de LSA sonuçlarından daha homojen olduğu söylenebilir En homojen sonucu kmeans yöntemi üretmiştir. Ancak ikili karşılaştırmalarda ürettiği değerler LSA ve EMIM yöntemlerinden daha kötüdür

Tablo 7: Yöntemlerin sonuçlarının genel değerlendirilmesi Soru, bu üç algoritmadan hangisinin en iyi olduğudur. Performans kriterimiz homojen olarak terimlerin dokümanlara dağılması ise en başarılı algoritma K-means algoritmasıdır. Ancak amacımız kavram oluşturabilecek terim kümelerini elde etmek olduğundan sonuçları değerlendirirken bu kritere çok önem vermemekteyiz. Türk dili uzmanlarına göre bazı durumlarda tek bir terim bile bir kavramı ifade edebilirken, bazı durumlarda bir çok kelime kavramı ifade etmede yetersiz kalabilmektedir [8]. Karşılaştırma sonuçlarını daha net sunabilmek için algoritmaların çıktıları üzerinde doğrulama işlemi yapılmıştır. Bir uzman yardımıyla her kelimenin, algoritma tarafından atandığı kümeye ait olup olmadığı belirlenmiştir. Bu aşamada kümelerin bütün olarak doğru şekilde ayrılmasından ziyade terimlerin tek olarak küme içindeki diğer kelimelerle ilişkilerini göz önünde bulundurulmuştur. Sonrasında ise her algoritma için doğru kümelenmiş kelime sayısı elde edilmiştir. K-means algoritmasını oluşturduğu kümelerin kavram mantığından uzak olmasından dolayı elemek mümkün olacaktır. Geriye kalan iki yöntem LSA ve EMIM tabanlı yöntemlerdir. Eldeki veri seti ile bu iki yöntemin karşılaştırılması zor görülmektedir. Sonuçlar benzerdir ve uzmanın hangisinin daha iyi olduğuna karar verebilmesi zordur. Ancak genel karşılaştırma değerlendirmesinden de anlaşılacağı gibi LSA tabanlı yöntemde kümelere dağılım çok orantısızdır. Sonuçların değerlendirilmesinde bu orantı çok önemli olmamakla birlikte bu aşamada EMIM tabanlı yöntemin daha güvenilir sonuç verdiğini söylemek mümkündür. Ancak bu değerlendirmeler veri setinin kalitesiyle birebir alakalı olduğundan dolayı başka veri setlerinde aynı sonuçları elde edeceğimizi iddia edemeyiz. Kmeans Yöntemi EMIM Tabanlı Yöntem LSA Tabanlı Yöntem Şekil 1 : Üç algoritma için doğru kümelenmiş terim sayısı Bu çalışma bize göstermiştir ki, terim benzerliklerini hesaplarken metin madenciliğine özel yöntemler kullanılmalıdır, geleneksel veri madenciliği yöntemleri terimlerin anlamlarını ifade etmede yetersiz kalmıştır. LSA tabanlı yöntem ve EMIM 28 35 36 0 20 40 LSA Tabanlı Yöntem EMIM Tabanlı Yöntem Kmeans Yöntemi tabanlı yöntem de terim benzerliklerini hesaplamada tercih edilebilir. Belki terim benzerlikleri hesaplama yönteminin ardından kullanılan kümeleme yöntemi iyileştirilerek kümelerin daha güvenilir olması sağlanabilir. 4. Sonuç ve Gelecek Çalışmalar Terim benzerliklerine göre terimler kümelendikten sonra, elde edilen kümeler uzman yardımıyla etiketlenecektir. Terim kümelerine verilen etiketler bizim için kavramlar olacaktır. Bir kavramın birden fazla kelime ile sunulduğu ve benzer terimlerin aynı kavramları anlatmak için benzer dokümanlarda kullanıldığı bilindiğinden çalışma bu yönde ilerleyecektir. Projenin son aşaması kavramlara dayalı veri madenciliği uygulanmasıdır. Klasik veri madenciliği yöntemleri ile dokümanlar özetlenebilecek, sınıflandırılabilecek ve birbiriyle ilişkili kavramlar ortaya çıkarılabilecektir. Kaynakça 1. Bein, W. W., Coombs, J. S., & Taghva, K. (2003). A method for calculating term similarity on large document collections. In Int. conf. on information technology: Computers and communications (pp. 199-207). 2. Colleen Crangle, Alex Zbyslaw, J. Michael Cherry, Eurie L. Hong. (2004). Concept Extraction and Synonymy Management for Biomedical Information Retrieval. ConverSpeech LLC, Palo Alto, California Department of Genetics, Stanford University, California, TREC 2004. 3. Duda, R. O. & Hart, P. E. (1973). Pattern Classification and Scene Analysis. New York, NY,USA: J. Wiley & Sons. 4. Gong Y. & Liu X. (2001). Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis in International conference on Research and development in information retrieval. pp. 19--25. 5. Hartigan, J. (1975). Clustering Algorithms. John Wiley and Sons, New York. 6. Hotho, A., Nürnberger, A., and Paaß, G. (2005). A Brief Survey of Text Mining. LDV-Forum, 20(1):19 62. 7. I. Bichindaritz and S. Akkineni (2005). Concept Mining for Indexing Medical literature, Lecture Notes in Computer Science, vol. 3587, pp. 682--692, 2005. 8. Lovins, J.B. (1968). Development of a stemming algorithm. Mechanical Translation and Computational Linguistics, 11, 22-31. 9. Shady Shehata (2009). Concept Mining:A Conceptual Understanding based Approach, a thesis presented to the University of Waterloo 10. Villalón J.J & Calvo R.A. (2009). Concept Extraction from Student Essays, Towards Concept Map Mining. ICALT 2009. pp. 221-225.