Metin Madenciliği ile Soru Cevaplama Sistemi

Metn Madenclğ le Soru Cevaplama Sstem Sevnç İlhan 1, Nevchan Duru 2, Şenol Karagöz 3, Merve Sağır 4 1 Mühendslk Fakültes Blgsayar Mühendslğ Bölümü Kocael Ünverstes slhan@kocael.edu.tr, nduru@kocael.edu.tr, senol.karagoz@hotmal.com, mervesagr@gmal.com Özet Baş döndürücü hızla büyüyen blg teknolojler alanında gderek artan verlerden kullanışlı blg elde etmek önem gderek artan br konu olarak karşımıza çıkmaktadır. Blgy elde etmede en az malyetl, en y sonucu veren metotlar terch edlmeye başlanmıştır. Bu bağlamda doğal dl şleme, metn madenclğ çn öneml br dspln halne gelmştr. Doğal dl şlemenn çalışma alanlarından br olan soru cevap sstemlernn gerek dünyada gerek ülkemzde gderek popülerlğ artmaya başlamıştır. Ancak bugün gelnen nokta ble Doğal dl şleme alanında daha çok kat edecek yolun olduğunu göstermektedr. Türkçe nn sondan eklemel br dl olması da dl şlemey güçleştrmektedr. Bu çalışma kapsamında, doğal dl şleme ve metn madenclğ teknkler kullanılarak kullanıcıdan alınan soruya en uygun cevabı çeren metn keşfedlmeye çalışılmıştır. Kullanıcıdan alınan soru, ver madenclğnn br aşaması olan ön şlemeden geçrlp anahtar sözcükler belrlenmekte ve her anahtar sözcüğün metn çndek önemne göre uygun cevap bulunmaya çalışılmaktadır. Abstract In Informaton Technologes area, whch are rsng ncreasngly, extractng useful nformaton from the ncreasng data s became the vtal ssue. The methods that gves less cost, better performance and the best results are preferred for extractng the nformaton. In ths context, natural language processng s became the mportant dscplne for text mnng. Queston answerng systems, whch s the one of the areas of natural language processng, are ncreasngly becomng popular n the world and n our country. However, today there are much thngs to do n natural language processng. Natural processng becomes hard, because of Turksh s an agglutnatve language. In ths paper, the most approprate text to the questoner s tryng to be dscovered as an answer by usng natural language processng and text mnng technques. The queston has taken from the user s preprocessed. The key words are become defnte and accordng to the mportance degree of key words n the texts; the approprate answer s to be shearched. 1.Grş Ver madenclğ, eldek verlerden çok net olmayan, önceden blnmeyen ancak potansyel olarak kullanışlı blgnn çıkarılması yaklaşımıdır. Ver madenclğnn alt dalı olarak ele alınan metn madenclğ se yazılmış farklı dokümanlardan yen, önceden blnmeyen blglern blgsayar tarafından otomatk br şeklde keşfedlmesdr. Metn madenclğn ver madenclğnden ayıran en büyük fark metn madenclğnde kalıpların düzgün vertabanlarından çok, doğal dl metnlernden çıkarılmasıdır. Metn madenclğnde, verden blg çıkarma yöntemlernden br olan doğal dl şleme dspln le blg çıkarımında daha anlamlı sonuçlar elde edlmeye başlanmıştır. Doğal Dl İşleme (DDİ), ana şlev br doğal dl çözümleme, anlama, yorumlama ve üretme olan blgsayar sstemlernn tasarımını konu alan br mühendslk alanıdır [1]. Doğal dl şleme çalışmaları sayesnde nsan-blgsayar etkleşmnn arttırılması başarılmıştır. Soru cevaplama sstemler, blgye ulaşma htyacı le ortaya çıkmış olan ve genelde blgsayar destekl yapılardır. Sorucevap benzerlklern karşılaştırılarak ya da varolan kaynaklar üzernde yapay zeka gb nsan türev teknkler uygulanarak, sorulara yen cevaplar üretmeye çalışan sstemler gelştrlmştr. Soru-cevaplama sstemler ncelenrken kend çnde kye ayrılması gerekmektedr. Bçmsel ve anlamsal yönden karşılaştırma yapılarak soru cevap metnler arasında benzerlk aranmaktadır. Bu bldrde Türkçe çn Doğal Dl İşleme dsplnnde bçmsel analz yöntemne göre kullanıcıdan alınan soru şlenmştr. Kullanıcıdan alınan soru, vektör uzay modelnde gösterlerek vertabanındak cevaplar le karşılaştırılması yapılmış ve kosnüs benzerlğ teoremne göre benzerlk oranı hesaplanmıştır. 2. Ön İşleme Ver madenclğnde analz edlecek grş verlernn belrl br formata sahp olması ayrıca bozuk veya gereksz verlerden temzlenmş olması gerekmektedr. Metn madenclğnn en büyük sorunu, şleyeceğ ver kümesnn yapısal olmamasıdır. Genellkle doğal dl kullanılarak yazılmış dokümanlar üzernde çalışılan metn madenclğ alanında ön şleme aşaması, ver temzlemenn yanında very uygun formata getrme şlemn de gerçekleştrmektedr [5].

Çalışma kapsamında gerçekleştrlen ön şleme adımlarında; kullanılan soru ve cevap metnler, sözcüklerne ayrılarak ön şlemenn formatlama aşaması gerçeklenmştr. Ön şlemenn temzleme aşamasında se, sözcüklerne ayrılan metnlerdek noktalama şaretler, edatlar, bağlaçlar, zamrler ve fller gb Türkçe de sık kullanılan sözcüklern çıkarılması şlemler gerçekleştrlmştr. Metnn sözcüklere ayrılma aşamasında Java dlnn StrngTokenzer sınıfı kullanılmıştır. Bu sınıf kullanılırken ayıraç olarak noktalama şaretler alınmıştır, temzleme aşaması çn XML dosya yapısında metnden çıkarılması düşünülen sözcükler tutulmuştur. Bu dosyadak sözcükler le metndek her sözcük karşılaştırılarak metn çnde ve XML dosyasında bulunan sözcükler değerlendrmeye alınmamıştır. Fl tpndek sözcükler se Zemberek [2] DDİ kütüphanesnn sağladığı sözcük türü bulma özellğ le tespt edlmş ve metnden çıkarılmıştır. 3. Vektör Uzay Model Kullanımı Vektör uzay modelnde her nesne, vektör yapısında tanımlanmaktadır. Nesnelern sahp olduğu farklı özellkler, vektör uzayının eksenlern oluşturmakta ve her nesne sahp olduğu özellklere göre vektör uzayında bell br konuma sahp olmaktadır. 3.1 Vektör Oluşturma Vektör uzay model, çalışma çersnde, doğal dl kullanılarak yazılmış metnlere uygulanmış ve yapısal olmayan bu nesneler yapısal hale getrlmştr. Üzernde çalışılan soru ve cevap metnler, seçlen anahtar sözcükler kullanılarak vektör olarak tanımlanmıştır. Br metnn, vektör olarak fade edleblmes çn 3 farklı yöntem yer almaktadır. [3]. Yöntemler le lgl örnekler tablo 1 dek metnlere göre verlmştr. Tablo 1: Örnek Metnler Metnler 1 Grbe yakalanan hasta grp olduğunu anlamamıştı. İlacını almamıştı. 2 İlacını aksatanlar hastalığa davetye çıkarırlar. 3 Yıllık enflasyon oranı bu senede yükselşte 4 Tarımla uğraşanlar bu yıl tarımdan zarar edecekler. 5 Hakemn gözü önünde olmasına rağmen hakem penaltı çalmadı. (Spor) 6 Taraftarlara erken gelen gol laç gb geld ve taraftarlar golden sonra hç susmadı. (Spor) 3.1.1. Btsel Tanımlama Anahtar sözcük sözlüğünde yer alan sözcüklern metnde yer alıp almadığı gösteren vektörel br gösterge oluşturulmaktadır. Yukarıdak örnek metnler çn oluşturulmuş olan sözlük ve metnlern anahtar kelmelere göre btsel tanımlamaları aşağıda görülmektedr. Sözlük={enflasyon, grp, hakem, laç, taraftar, tarım} D1=(0,1,0,1,0,0) D2=(0,0,0,1,0,0) D3=(1,0,0,0,0,0) D4=(0,0,0,0,0,1) D5=(0,0,1,0,0,0) D6=(0,0,0,1,1,0) 3.1.2. Frekansa Göre Tanımlama Sözcüklern metnlerde kaç defa kullanıldığına dayanan br yöntemdr. Örnek metnler çn oluşturulmuş olan sözlük ve metnlern anahtar kelmelere göre frekans tanımlamaları aşağıda görülmektedr. Sözlük={enflasyon, grp, hakem, laç, taraftar, tarım} D1=(0,2,0,1,0,0) D2=(0,0,0,1,0,0) D3=(1,0,0,0,0,0) D4=(0,0,0,0,0,2) D5=(0,0,2,0,0,0) D6=(0,0,0,1,2,0) 3.1.1. Tf-f Ağırlıklandırma Yöntemne Göre Tanımlama Tf-f ağırlıklandırmasında her br dokümandak sözcüklern frekansı rol oynamaktadır. Böylece dokümanda daha fazla geçen (Tf değer büyük sözcükler) o doküman çn daha değerl olmaktadır. Ayrıca f tüm dokümanlarda seyrek geçen sözcükler le lgl br ölçü vermektedr. Bu değer tüm eğtm dokümanları ele alınarak hesaplanmaktadır. Bu yüzden eğer br sözcük dokümanlarda sık geçyorsa, o doküman çn belrleyc olmadığı düşünüleblr. Eğer sözcük dokümanlarda çok sık geçmyorsa o sözcüğün o doküman çn belrleyc özellğ olduğu kabul edleblr. 3.2 Anahtar Sözcük Seçm ve Ağırlıklandırma Dokümanlar arasında kullanımı az olan ve dokümanların ayırt edleblmesn sağlayacak özellktek sözcükler, anahtar sözcük olarak ntelendrlmektedrler. Dokümanlar arasında sadece br dokümanda geçen sözcük veya sözcükler, o doküman çn en verml anahtar sözcükler olarak kabul edlr. Bu anahtar sözcükler kullanılarak yapılan sorgu şlemler, elemanı oldukları dokümana ulaşmanın en güçlü yolu olacaktır. Anahtar sözcük seçm çalışmanın en öneml noktasını oluşturmaktadır. Anahtar sözcük seçm sürec; ön şleme aşamasındak anahtar sözcük olamayacak belrl sözcüklern metnden çıkarılması le başlamakta, vektör oluşturma aşamasındak gövde bulma ve aynı gövdeye sahp olan sözcüklern aynı anahtar sözcük olarak kabul edlmesyle devam etmektedr. Ön şleme aşamasında metnden çıkarılan, ayırt edlclk özellğ olmayan sözcüklern tesptnde, sözcüklern Türkçe dl yapısına göre cümlede kullanılma olasılıkları göz önünde bulundurulmuştur. Çıkarılacak sözcük sınıfları olarak edatlar,

bağlaçlar, zamrler ve fller seçlmştr. Edat, bağlaç ve zamr sözcük türlernn, soru ve cevap metnlernde sıkça kullanılableceğ ve metnler çn ayırt edc olamayacakları düşünülmüştür. Fllern se, soru cümlelernde nadr kullanıldığı; soru cümlelernn genellkle nedr, kmdr gb soru sözcükler le oluşturulduğu göz önünde bulundurularak temzlenmesne karar verlmştr. Cevap metnnde olup soru metnnde olmayan fller, cevap vektörünün uzunluğunu arttırmakta ve benzerlk oranını düşürmektedr. Vektör oluşturma aşamasında se ön şleme aşamasından sonra elde edlen sözcük lsteler kullanılmaktadır. Bu aşamada sözcükler tekrar şlenmekte ve sözcüklern gövdelerne ulaşılmaya çalışılmaktadır. Sözcük gövdelerne ulaşablmek çn TÜBİTAK ın Zemberek [2] sml DDİ kütüphanes kullanılmıştır. Zemberek kütüphanes le her sözcüğün gövdeler elde edlmekte ve bu gövdeler arasında en uzun olanı sözcüğün kullanılacak gerçek gövdes olarak seçlmektedr. gözlükçüler göz-lük-çü-ler Gözlükçüler sözcüğü, anahtar kelme havuzuna gözlükçü şeklnde eklenmştr. Lteratürde ncelenen çalışmalarda, anahtar sözcük seçmnn statk olarak yapıldığı görülmüştür. Fakat sstem çersndek çok sayıda soru ve cevap metnler çn anahtar sözcük havuzunun statk br şeklde oluşturulması hem zahmetl hem de vermsz olmaktadır. Bu nedenle dnamk br yapı oluşturulmaya çalışılmış ve vertabanındak tüm cevaplar şlenp, cevaplar çersnde anahtar sözcük özellğ taşıyan sözcükler seçlmştr. Bu şlem ssteme soru sorulması aşamasında değl cevap ekleme aşamasında gerçekleştrldğ çn sstemn soru cevaplama performansını etklememştr. Bçmsel olarak karşılaştırılan soru ve cevap metnlernn yakınlığının daha hassas br şeklde nceleneblmes çn kullanılan ağırlık mantığına göre, metnlerde geçen her sözcük aynı değerde değldr. Brkaç cevapta geçen br sözcük, sadece br cevapta geçen sözcükten daha az öneme sahptr. Bu nedenle cevaplara özel sözcüklern daha büyük ağırlık değer taşıması gerekmektedr. bütün metnlerde geçtğn ve metnler ayırt etme aşamasında hç br etksnn olmadığını göstermektedr. Sözcüğün aynı metn çndek geçş sayısı tf se, oluşturulan vektörler arasındak uzaklığın hesaplanması aşamasında kullanılmaktadır. Metnler arasındak ayırt edclk değer IDF, anahtar sözcüğün aynı metn çnde kaç defa geçtğn gösteren değer le çarpılarak, sözcüğün metn çn toplam ağırlığı (w ) bulunmaktadır. Bu değer vektörün o sözcük boyutundak değern vermektedr. Kares alınarak vektör uzunluğu değerne ve soru vektöründek aynı sözcük boyutunun değer le çarpılarak da vektörlern ç çarpımı değerne eklenmektedr. Bu yöntem le tablo 2 dek cevap metnlernde geçen sözcüklern ağırlıklandırılması gerçekleştrlmekte ve sonuçlar tablo 3 de gösterlmektedr. Tablo 2: Örnek Cevap Metnler Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. Tablo 3: Sözcük Ağırlıkları Sözcük Ağırlık Bölge 0.1761 Kent 0.4771 Ankara 0 Türkye 0 Başkent 0 O 0.4771 En 0.4771 İç 0.1761 Anadolu 0.1761 Kalabalık 0.4771 Bölge 0.1761 Kent 0.4771 Ankara 0 w = tf IDF (1) 4. Benzerlk Hesaplanması IDF = log D (2) df (1) ve (2) formüller anahtar kelmenn ağırlığının hesaplanmasında kullanılmaktadır. Ağırlıkların hesaplanmasında sözcüklern metnler çndek geçş durumu ön plandadır. Sözcüğün kaç adet metnde geçtğ blgs df, toplam metn sayısı D, arasındak ayırt edc özellğn ortaya koymaktadır. Bu değern yüksek olması az sayıda metnde geçtğn göstermektedr ve hesaplamada daha büyük öneme sahp olmasını sağlamaktadır. Az sayıda olursa da brçok metnde geçtğ anlaşılmaktadır. Sıfır çıkması se Vektör uzayında tanımlanan nesneler belrl konumlara sahptr. Nesnelern konumlarını gösteren vektörler kullanılarak, nesnelern brbrlerne yakınlıkları hesaplanablmektedr. Vektörler arasındak yakınlığı hesaplamak çn kosnüs benzerlğ yöntem kullanılmıştır. Bu yöntem le vektörler arasındak açının, kosnüs değer hesaplanmakta ve bu değer vektörler arasındak yakınlık değer olarak alınmaktadır. Çalışma kapsamındak soru ve cevap metnlernn de vektör uzayına taşınmış olması aralarındak benzerlğn hesaplanmasında kosnüs benzerlğ yöntemnn kullanılablmesn sağlamıştır. Bu yöntem le karşılaştırılacak

her br soru ve cevap vektörü arasındak açının kosnüs değer hesaplanmaktadır. Cos(S,) = S / S * = ((1*0) * (1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) ((1*0) + (1*0) + (1*0)) / ( 0 * 0) Cos(S,) = S / S * = ((1*0) * (1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) * ((1*0) + (1*0) + (1*0) + (1*0.1761) + (1*0.1761) + (1*0.1761)) / ( 0 * 0. 0.305) Şekl 1: Cevap Vektörler. ( D, D2) Cos( Q) Cos = 1 (3) D1 ve D2 k vektörsel doküman olmak üzere, Cos ( D1, D2) D1 D2 D1 = (4) D2 Formül 4, vektörler arasındak açının kosnüs değern vermektedr. Her vektör kls çn bulunan açı değerler karşılaştırılarak en yakın dokümanlar belrlenmektedr [4]. Formülü 4 ün matematksel yapısı ncelendğnde, soru ve cevap vektörler arasındak ç çarpım değer ve her br vektörün uzunluk değernn, vektörler arasındak benzerlk sonucunu doğrudan etkledğ anlaşılmaktadır. İç çarpım değer sonuç le doğru orantılı, vektörlern uzunluk değerlernn çarpımı se ters orantılıdır. Bu yüzden vektörler arasındak ortak sözcük sayısının arttırılması, vektör uzunluklarını etkleyen yan k vektör arasında ortak olmayan sözcüklern se azaltılması gerekmektedr. Benzerlk sonucunun verml olablmes adına anahtar sözcük sözlüğüne cevaplar çersnde geçen her sözcük alınmamıştır. Her br cevap çn bulunan anahtar sözcükler, anahtar sözcük sözlüğünde toplanmaktadır. Kullanıcıdan alınan sorular bu sözlüktek anahtar sözcüklere göre vektör halne getrlmektedr. Vektör oluşturma aşamasında, aynı köke sahp sözcükler çn ortak olan en uzun gövde seçlerek heps çn tek br anahtar sözcük vertabanına yazılmaktadır. Bu aşamalardan geçen anahtar sözcük sözlüğü le daha hassas hesaplamalar yapılmıştır. Soru: Türkye' nn başkent neresdr? Tablo 4: Türkye nn Başkent Neresdr? Metnnn ı Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. Cos(S,) = S / S * = ((1*0)*(1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) * ((1*0) + (1*0) + (1*0) + (1*0.1761) + (1*0.1761) + (1*0.1761) + (1*0.4771) + (1*0.4771) + (1*0.4771)) / ( 0 * 1.1096) Yukarıdak hesaplama adımlarında vektörler arasındak açının kosnüs değer hesaplanmıştır. Vektörler oluşturan sözcüklern frekans ve ağırlıkları da hesaplamaya katılmıştır. Fakat Türkye, başkent ve Ankara sözcüklernn ağırlıkları sıfır olduğundan sonuç sıfır bulunmuştur. Bu sözcüklern ağırlıklarının sıfır oluşu br öncek ağırlıklandırma bölümünde anlatılmıştır. Türkye, başkent ve Ankara sözcükler 3 cevapta da kullanıldıkları çn ağırlık hesabında sıfır değern almışlardır. Bu durumun düzeltleblmes çn ver tabanına yen br cevap daha eklenmştr. Yen cevap tablo 5 de görülmektedr. Tablo 5: Türkye nn Başkent Neresdr? Metnnn Yen ı C4 Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. İstanbul nüfusu en yüksek kentmzdr. Son eklenen cevaptan (C4) sonra sözcüklern ağırlıkları değşmştr. Sözcük ağırlıklarının son hal tablo 6 da verlmştr. Tablo 6: Sözcük Ağırlıkları Sözcük Ağırlık Bölge 0.301 Kent 0.301 Ankara 0.1249 Türkye 0.1249 Başkent 0.1249 Olan 0.6021 En 0.301 İç 0.301 Anadolu 0.301

Kalabalık 0.6021 stanbul 0.6021 nüfus 0.6021 yüksek 0.6021 Yenden hesaplanan ağırlık değerlernden sonra benzerlk hesaplaması aşağıdak sonuçları vermektedr. S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249)).0312 / ( 0.1766 * 0.2163 ).8168 S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249) + (1*0.301) + (1*0.301) + (1*0.301)).0312 / ( 0.1766 * 0.5644 ).313 S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249) + (1*0.301) + (1*0.301) + (1*0.301) + (1*0.301) + (1*0.6021) + (1*0.301)).0312 / ( 0.1766 * 1.1067 ).1596 S / S *.0 / ((1*0.1249) + (1*0.1249)) * ((1*0.6021) + (1*0.6021) + (1*0.301) + (1*0.6021) + (1*0.301)).0 / ( 0.1766 * 1.1264 ).0 Yen hesaplamalar sonucunda Türkye nn başkent neresdr? sorusuna en yakın cevap olarak Türkye nn başkent Ankara dır şeklndek 1. cevap bulunmuştur. Soru le cevap metnler arasındak ortak sözcük sayısının lk 3 cevapta aynı olmasına karşılık, vektör uzunluklarının farklı olması sonucu değştrmştr. Son cevap da se ortak hçbr sözcük olmadığından sıfır sonucu dönmüştür. katılmaktadır. Fakat soru metnler kullanıcıdan çalışma anında alınan verler olduğundan, her soru hesaplamaya katılmadan önce vektör olarak tanımlanmaktadır. Cevap metnlernn vertabanında vektörler halnde tutulması ve sorulan sorunun br kez vektöre çevrlp her cevapla karşılaştırmada bu vektörün kullanılması performans açısından önemldr. Sstem çersnde kullanıcıdan alınan her soru, vektör halne getrldkten sonra tüm cevaplar le karşılaştırılmaktadır. Sstemde anahtar sözcük seçm şlem dnamk olarak yapılmakta ve vertabanına yazılmaktadır. Yapılan her sorguda, vertabanında hazır bulunan anahtar sözcükler le vektör uzayında gösterlen sorgu karşılaştırılmaktadır. Vertabanında anahtar sözcüklern hazır olarak bulundurulması performansı artırmaktadır. Bu çalışma, lerde yapılacak soru cevaplama sstemler çn dokümanlar arası benzerlk arama gb çalışmalara br kaynak ntelğ taşımaktadır. Bçmsel analz yönünden kullanılablecek bu sstem, anlamsal yönden desteklendğnde daha doğru sonuçların çıkarılacağı düşünülmektedr. 6.Kaynaklar [1] Rch E. Artfcal Intellgence, McGraw Hll Inc., Second Edton, Newyork, 1991. [2]https://zemberek.dev.java.net/surumler/v04/zemberek_0.4. 0.html [3] Plavcılar İ.F., Metn Madenclğ le Metn Sınıflandırma, Yıldız Teknk Ünv. FBE, Yüksek Lsans Tez, 2007. [4] http://www.mslta.com/term-vector/term-vector-3.html [5] Feldman, R., Sanger, J., 2007. The Text Mnng HandBook Advanced Approaches n Advanced Approaches n Analyzng Unstructured Data. Yukarıdak hesaplamalar göz önünde bulundurulduğunda, br soruya verlen doğru cevaplar arasında detayı en az olan cevap doğru cevap olarak getrlecektr. 5.Sonuçlar Bu makalede, Doğal Dl İşleme dspln altında yer alan bçmsel analz yöntemne göre kullanıcıdan alınan soru metn şlenmektedr. Kullanıcıdan alınan soru metn çn anahtar sözcükler belrlenp bu sözcüklern her metn çn ağırlığı belrlenmektedr. Bu ağırlık vektör uzay modelnde gösterlmektedr. Vektör uzay model blg çıkarımı, blg fltreleme, ndeksleme gb alanlarda kullanılan cebrsel br modeldr. Doğal dl belgelernn çok boyutlu uzayda özel br anlamını smgelemektedr [3]. Cevap metnler vertabanında vektörsel halde tutulmaktadır. Bu sayede hesaplamada sadece bu vektörsel yapılar