Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme



Benzer belgeler
VERİ MADENCİLİĞİ Metin Madenciliği

Web Madenciliği (Web Mining)

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

Bilgi Erişimi (COMPE 507) Ders Detayları

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

Kelime Gösterimleri (Word Representation Word Embeddings)

VERİ MADENCİLİĞİ (Web Madenciliği)

Birbirine bağlı milyarlarca bilgisayar sisteminin oluşturduğu, dünya çapında bir iletişim ağıdır.

PAPERWORK TEKNİK MİMARİ

Veritabanı Uygulamaları Tasarımı

Üst Düzey Programlama

BioAffix Ones Technology nin tescilli markasıdır.

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Bölüm 1: Veritabanı Yönetim Sistemlerine Giriş

Web Madenciliği (Web Mining)

Öğr. Gör. Serkan AKSU 1

Bilgisayar Teknolojileri Bölümü Bilgisayar Programcılığı Programı. Öğr. Gör. Cansu AYVAZ GÜVEN

DUYGULU Projesi Tasarım Raporu

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

T.C. NAMIK KEMAL ÜNİVERSİTESİ ÇORLU MÜHENDİSLİK FAKÜLTESİ

VERİ TABANI YÖNETİM SİSTEMLERİ

Veri Tabanı Yönetim Sistemleri Bölüm - 3

PHP I PHP I. E. Fatih Yetkin. 26 Eylül 2011

SE4SEE A Grid-Enabled Search Engine for

Metin Sınıflandırma. Akış

TS EN ISO EŞLEŞTİRME LİSTESİ

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay.

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

ISI Web of Knowledge EndNote Web Copyright 2007 Thomson Corporation

1 Temel Kavramlar. Veritabanı 1

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

VERİ TABANI UYGULAMALARI

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

Hafta 10 - Vektör Uzay Modelleri

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

4. Bölüm Programlamaya Giriş

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

TEMEL BİLGİTEKNOLOJİLERİ

Büyük Veri Analitiği (Big Data Analytics)

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Doküman No.: P510 Revizyon No: 00

VERİ TABANI YÖNETİM SİSTEMLERİ

IEEE Online Mühendislikte Günümüz Araştırmacılarının Temel Bilgi Kaynağı. UASL Eğitim Programı. 10 Mayıs, 2006

BioAffix Ones Technology nin tescilli markasıdır.

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Electronic Letters on Science & Engineering 2(2) (2011) Available online at

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Bilgi Erişim Performans Ölçüleri

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

BIM 312 Database Management Systems. Veritabanı Kavramına Giriş

İşletim Sistemlerine Giriş

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

BÝLDÝRÝ KÝTABI EJER CONGRESS 2014 EJER CONGRESS 2014 CONFERENCE PROCEEDINGS NISAN 2014 Istanbul Üniversitesi Kongre Merkezi

Mamografi Raporları için Mantıksal Bilgi Erişim Sistemi A Boolean Information Retrieval System For Mammography Reports

Veritabanı. Ders 2 VERİTABANI

BioAffix Ones Technology nin tescilli markasıdır.

Akıllı Ofisler ve verimli çalışanlar için En kısa yol : Lotus Symphony

Metin Madenciliği Kullanarak Yazılım Kullanımına Dair Bulguların Elde Edilmesi

Eğitim Semineri Araştırmacının Alet Kutusu: Mendeley

Temel Kavramlar-2. Aşağıda depolama aygıtlarının kapasitelerini inceleyebilirsiniz.

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta

WEB TASARIMIN TEMELLERİ

ÇOMÜ Kütüphaneleri. Kütüphane ve Elektronik Yayınların Kullanımı

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması,

Fiziksel Veritabanı Modelleme

Değerlendirme Araçları Projesi

TS EN ISO KONTROL LİSTESİ ŞABLONU

BİYOMETRİK İRİS SINIFLANDIRMA SİSTEMLERİ

Bİ LGİ SAYARDA, JEODEZİ VE FOTOGRAMETRİ MESLEKİ TERİ MLERİ SÖ ZLÜĞ Ü

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

R. Orçun Madran & Yasemin Gülbahar BAŞKENT ÜNİVERSİTESİ

T.C. KIRIKKALE ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ YAPAY SİNİR AĞLARI. Doç.Dr. Necaattin BARIŞÇI FİNAL PROJESİ

UZAKTAN EĞİTİM MERKEZİ

Bilimsel Bilgiye Erişim. Yrd. Doç. Dr. Coşkun POLAT


Renk kalitesi kılavuzu

MOODLE UZAKTAN ÖĞRETİM SİSTEMİ

Basit Mimari, Katmanlı Mimari ve doğrudan çalıştırma olarak üçe ayrılır.

Türkiye Barolar Birliği internet sitesi

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi

E-Dönüþüme Giden Yolda Belge Yönetim ve Ýþ Akýþ Sistemleri

Beyhan KARPUZ, Uzman Kütüphaneci Karadeniz Teknik Üniversitesi 2016

İNFOSET İNFOSET Ses Kayıt Sistemi v2.0. Sistem Kataloğu

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Veritabanı Yönetim Sistemleri, 2. basım Zehra ALAKOÇ BURMA, 2009, Seçkin Yayıncılık

Çevrimiçi Kütüphane Kataloglarının Sosyal Ağlarla Yeniden Yapılandırılması: Yazılımlar ve Projeler

VERİ TABANI SİSTEMLERİ

Java Temel Özellikleri

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Yazılım Nedir? 2. Yazılımın Tarihçesi 3. Yazılım Grupları 4 Sistem Yazılımları 4 Kullanıcı Yazılımları 5. Yazılımın Önemi 6

Transkript:

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme M. Erkan YÜKSEL 1, Özgür Can TURNA 1, M. Ali ERTÜRK 1 1 İstanbul Üniversitesi, Bilgisayar Mühendisliği Bölümü, İstanbul {eyuksel, ozcantur}@istanbul.edu.tr, merturk@ogr.iu.edu.tr Özet: İnternetin bilgiye erişimde sağladığı büyük kolaylıklar beraberinde faydalı bilgiye erişim problemlerini de doğurmuştur. Bu anlamda, bilgiye erişim sistemlerinde doküman arama ve eşleştirme algoritmalarının önemi gün geçtikçe artmaktadır. Bu çalışmada yapısal olmayan Türkçe dokümanlar için bir arama ve eşleştirme algoritması sunulmuştur. Bu makalede, doküman doğrusallaştırma (document linearization), kök bulma (stemming), ağırlık verme (weighting) ve kosinüs benzerliği (cosine similarity) teknikleri dokümanların karşılaştırılmasında ve eşleştirilmesinde kullanılmıştır. Anahtar Kelimeler: IR, Doküman Doğrusallaştırma, kök bulma, ağırlık verme, eşletirme Data searching and matching in Information Retrieval Systems Abstract: Although Internet is a powerful tool for accessing information it brings some problems such as finding useful information. This issue highlights the importance of document searching and matching algorithms in information retrieval systems. In this study we present a method for document matching on unstructured Turkish documents. In this paper; document linearization, stemming, weighting and cosine similarity algorithms are used to compare documents similarity. Keywords: IR, document linearization, stemming, term weighting, cosine similarity, matching 1. Giriş Genel olarak arama algoritmaları; herhangi bir doküman içerisinde, bir kelimenin ya da metnin bir ya da daha fazla kez bulunup bulunmadığını arar. Bu çalışmada, metin olarak arama yapmak yerine, var olan dokümanları birer vektör olarak tasvir edip, kosinüs benzerliğinden yararlanarak vektörler arasındaki ilişki yorumlanmaktadır. Vektörler arasındaki bu ilişki, bize dokümanların birbiri ile olan benzerlikleri hakkında bilgi vermektedir. Bunu gerçekleştirebilmek için: 1. Doküman doğrusallaştırma 2. Kök bulma 3. Ağırlık verme 4. Kosinüs benzerliği teknikleri kullanılmıştır. Bilgiye erişim sistemlerinde kullanılan doküman doğrusallaştırma, dokümanların etiket ve noktalama işaretlerinden temizlenmesinde kullanılmıştır. Temizlenen dokümanlar kök bulma algoritmasından geçirilerek, dokümanı oluşturan en anlamlı terimlere indirgenmiştir. Bu terimlerin doküman içindeki tekrar sıklığından yararlanılarak, terimlere ağırlıklar atanıp vektörsel olarak tasvir edilmiştir. Dokümanlar arasındaki ilişkiyi yorumlamak için, vektörlerin kosinüs benzerliğinden yararlanılmıştır [1]. 2. Doküman Doğrusallaştırma Elimizde bulunan veri setlerimizi birer doküman olarak tasvir edebiliriz. Örnek; Microsoft Windows Vista'nın çekirdeğinde başka hata bulundu., Microsoft'un Web

tabanlı Office'i internet üzerinden dosya saklama olanağı sunuyor....v.b. Doküman doğrusallaştırma işlemi var olan bir dokümanın, terimlerine kadar indirgenmesi işlemine denir. Genelde iki aşamadan oluşur: 1. Format çıkartma (Markup & Format Removal) işlemi: Dokümanı oluşturan etiket ve özel formatların dokümandan çıkartılması işlemidir. 2. Belirtkeleme (Tokenization): Bu işlemde tüm metin küçük harflere çevrilir ve noktalama işaretleri çıkartılır. İlk olarak, tüm dokümanlar bir ön işlemden geçirilir, dokümanda bulunan özel formatlar ve etiketler çıkartılır. Daha sonra Türkçeye özel bir belirtkeleme işlemine tabi tutulur. Bu durumda Türkçe kelimeler dil yapısına uygun olarak küçük harflere çevrilir ( ı I ve i İ... v.s.) ve aynı şekilde noktalama işaretlerinden temizlenir. 3. Kök Bulma Türemiş ya da değişmiş bir kelimenin orijinal haline (köküne) indirgeme işlemlerine kök bulma (stemming) denilir. Kök bulma işleminin sonucunda elde edilen kelime, dilin morfolojik yapısıyla aynı olmak zorunda değildir; genellikle aynı köke eşleştirilen alakalı kelimeler yeterli olmaktadır. Türkçe bir kelime için kök bulma işlemine örnek verecek olursak: farklı eklerle çekimlenmiş gitmiş, gidecek, gitmek kelimelerin kökünü git ; türetilerek oluşturulmuş gözlük kelimesinin kökünü göz oluşturmaktadır. Kök bulma tekniğinin aramalarda sağladığı en önemli fayda, aranmak istenilen kelime ile sınırlı kalmayıp benzer sonuçların da bulunmasıdır. Örneğin gitti kelimesini arayan kullanıcıya ek olarak git ile alakalı sonuçların da sunulmasıdır. Aynı zamanda son kullanıcı tarafından yapılan hataları da en aza indirgeme hedeflenir. Günümüzde dilin morfolojik yapısına bağlı kalan kök bulma algoritmalarının yanı sıra kelimelerin anlamlarını, içeriğini inceleyen ve buna göre kök bulma işlemlerini gerçekleştiren algoritmalar da kullanılmaktadır (İçeriğe Duyarlı Kök Bulma - Context Sensitive Stemming) [2]. Bu çalışmanın devamı olarak içeriğe duyarlı kök bulma algoritmalarının kullanılması düşünülmektedir. Snowball: Bilgiye erişim sistemlerinde kök bulma algoritmalarını oluşturmak amacıyla tasarlanmış küçük bir karakter işleme dilidir. Snowball kullanılarak birçok dil için kök bulma algoritmaları geliştirilmiştir [3,4]. Türkçe için snowball kullanılarak geliştirilen kök bulma algoritmaları Evren (Kapusuz) Çilden tarafından yürütülmektedir [5]. Bu araştırmada Türkçe kök bulma teknikleri, doküman doğrusallaştırma işleminden geçen dokümanlarda uygulanmıştır. Bu işlem ayrıca stop-words ayrıştırma işlemini de içerir. Stop-words: Sıklıkla tekrar eden ve genellikle tek başına kullanıldıklarında anlam taşımayan kelimelere stop-words denir. 4. Ağırlık Verme Bilgiye erişim sistemlerinde ağırlık verme önemli bir rol oynar. Birçok farklı ağırlık verme modeli geliştirilmiştir. En yaygın olarak kullanılan model; yerel (local) ve genel (global) ağırlık verme şemalarının bir arada kullanılmasıdır. Yerel ağırlık vermede terim frekansı (term frequency-tf), genel ağırlık vermede ise ters doküman frekansı (inverse document frequency-idf) kullanılır. Terim Frekansı (tf): Bir doküman içerisinde bir terimin tekrar sıklığıdır [6,7]. Ters Doküman Frekansı (idf): Bir terimin bütün doküman koleksiyonu içindeki

önemidir [8]. Bu aşağıdaki şekilde hesaplanır: idft = log N / dft (1) w = tft idft (2) Ağırlık: Bu çalışmada (2) numaralı formül ile gösterilen ağırlık verme yöntemi kullanılmıştır. 5. Kosinüs Benzerliği İki doküman arasındaki benzerliği karşılaştırmakta kullanılır. n boyutlu iki vektör arasındaki açının bulunmasıyla elde edilir. A ve B iki vektör olmak üzere kosinüs benzerliği aşağıdaki gibi tanımlanabilir: Θ = arccos ((A. B) / ( A B )) (3) 6. Model ve Ortam Model: Algoritmayı nesne yönelimli bir ortamda gerçekleştirebilmek için platformdan bağımsız bir model geliştirilmiştir. Bu model Şekil 1 de gösterilmiştir. Platform: Uygulamamız JEE 5 platformunda JDK 1.6.0_11 ile Glassfish-v2ur2 uygulama sunucusu üzerinde geliştirilmiş ve test edilmiştir. Ubuntu 9.10 ana işletim sistemi ve MySQL 5.0 ise ana veritabanı sunucusu olarak kullanılmıştır [9,10,11]. Kütüphaneler: Uygulamamızda kullanılan üçüncü parti açık kaynak kodlu kütüphaneler htmlparser, JScience, snowball ve crawler kütüphaneleridir [4,12,13,14]. Uygulamamızı test etmeye başlamak için seçilen bazı web sitelerinin web sayfa içerikleri ham veri olarak saklanmıştır. 7. Algoritma Algoritma üç ana safhadan oluşmaktadır. İlk aşamada var olan dokümanlar analiz edilerek doküman doğrusallaştırma ve kök bulma işlemleri uygulanır. Bu iki işlemin sonunda var olan veriler indekslere dönüştürülmüş olur. İkinci aşamada, oluşturulan indeksten terimlerin yerel ağırlıkları hesaplanır. Son safhada ise daha önceden oluşturulmuş verilerin yardımı ile dokümanlar birer vektör olarak tasvir edilir ve bu vektörler karşılaştırılarak dokümanlar arasındaki benzerlik hesaplanır. 7.1. Birinci Safha Bu adımın amacı etiket, noktalama işaretleri v.s. gibi gereksiz verileri temizleyerek var olan dokümanı daha anlamlı terimlere indirgemektir. Bu aşama iki ana işlemden oluşur; doğrusallaştırma ve kök bulma. Doğrusallaştırma işlemini uygulamak için, aşağıdaki adımlar izlenir: 1. Veritabanından işlenmemiş bir doküman çekilir. 2. Gereksiz etiketler ve noktalama işaretleri çıkartılır. Şekil 1. Platformdan bağımsız model 3. Temizlenmiş veriler küçük harflere dönüştürülür. Bu işlem yapılırken

Türkçe dilinin yapısına uygun olmasına dikkat edilir. Ör: İ harfinden i harfine Yukarıdaki işlemlerin ardından, verilere kök bulma işlemi uygulanabilir. Kök bulma işleminde kullanılan yöntem Türkçeye has olup, kelimeler Türkçe dilinin yapısına göre incelenerek işlenir. Bu işlem için aşağıdaki adımlar izlenir: 1. Dokümanı oluşturan veriler kelimelere ayrılır. 2. Bu kelimelerden Türkçe stop-words kelimeler çıkartılır. 3. Geriye kalan her bir kelime için kök bulma işlemi uygulanır. Yukarıdaki işlemler uyguladıktan sonra veriler terim indeksleri şeklinde veritabanında saklanabilir. vektörsel bir şekilde tasvir edebilmek için gerekli olan verinin hazırlanmasından oluşmaktadır. Bu safha için aşağıdaki adımlar izlenir: 1. Ağırlık verme algoritması ve terim frekansı kullanılarak terimlerin global ağırlıkları hesaplanır. 2. Hesaplanan ağırlıklar kullanılarak dokümanlar vektörsel bir biçimde tasvir edilir. Dokümanlar vektörsel bir biçimde tanımlandıktan sonra kosinüs benzerliği kullanılarak dokümanlar arasında ilişki incelenir. Bu durumda vektörler arasındaki kosinüs benzerliği 1 e yakın olan vektörler diğerlerine oranla birbirlerine daha çok benzerdir. Aynı zamanda bu benzerlik, dokümanların içeriklerinin benzerliği olarak yorumlanır. Genel işlemler Şekil 2 de özetlenmiştir. 7.2. İkinci Safha Buraya kadar olan kısım veri toplamakla ilgiliydi. Bu aşamada ise toplanan verilerin yerel ağırlıkları hesaplanır. Yerel ağırlık hesaplamada ele alınan temel yöntem terim frekansıdır. Terim frekansını hesaplamak için aşağıdaki adımlar izlenir: 1. Doküman için indekslenmiş terimler veritabanından çekilir. 2. Her terimin kendi dokümanı içindeki tekrar sıklığı belirlenir. 3. Hesaplanan terim frekansı saklanır. Bu işlem, bir doküman içindeki her terim için yerel ağırlığı belirler. Hesaplanan terim frekansı her doküman için ayrı olduğundan, yerel ağırlık olarak adlandırılmıştır. 7.3. Üçüncü Safha 1. ve 2. aşamadaki işlemler verinin hazırlanmasıyla ilgi olup, dokümanları Şekil 2. Algoritma akış şeması

8. Algoritmanın Test Edilmesi Tablo 1. Terim doküman matrisi Sunmuş olduğumuz algoritmayı test etmek için bir uygulama geliştirilmiştir. Bu bölümün birinci kısımda yapılan testlerin çalışma şekli örneklendirilmiştir. İkinci kısmında ise test sonuçları hakkında yorumlar bulunmaktadır. 8.1. Test Örnek: Aşağıdaki dört dokümanı ele alırsak: - Doküman 1: Microsoft Windows Vista'nın çekirdeğinde başka hata bulundu. - Doküman 2: Microsoft'un Web tabanlı Office'i internet üzerinden dosya saklama olanağı sunuyor. - Doküman 3: Yapılan ölçümlere göre Microsoft Kasım ayında PC pazarında düşüş yaşadı. - Doküman 4: Microsoft'un internet tarayıcısının kullanım oranı %68.15 e düştü. Yukarıdaki dokümanlara algoritmanın 1. adımı uygulanırsa sonuç olarak dokümanlar aşağıdaki formu alır. - Doküman 1 : [çekirdek, bul, vista, windows, başka, ha, microsoft] - Doküman 2: [olanak, sunuyor, sakla, office, dosya, üzer, internet, tabanlı, microsoft] - Doküman 3: [düşüş, ay, kas, gör, yapıla, yaşadı, ölçüm, pazar, microsoft] - Doküman 4: [düş, ora, kulla, tarayıcı, internet, microsoft] Terim doküman matrisi terimlerin dokümanlar arsındaki ilişkisiyle ilgilidir ve kosinüs benzerliğini hesaplamak için yeterlidir. Hesaplanmış benzerlik değerleri Tablo 2 de gösterilmiştir. Bu değerler bize 2 numaralı doküman ile 4 numaralı dokümanın, diğerlerine göre bir birine daha yakın olduğunu göstermektedir. Tüm dokümanlar terimlerine indirgenmiştir. Bu aşamadan sonra algoritmanın diğer adımları uygulanarak dokümanlardan bir terim matrisi oluşturulur (Tablo 1).

Tablo 2: Benzerlik değerleri Document 1 Document 2 0.125988158 Document 1 Document 3 0.125988158 Document 1 Document 4 0.15430335 Document 2 Document 1 0.125988158 Document 2 Document 3 0.111111111 Document 2 Document 4 0.272165527 Document 3 Document 1 0.125988158 Document 3 Document 2 0.111111111 Document 3 Document 4 0.136082763 Document 4 Document 1 0.15430335 Document 4 Document 2 0.272165527 Document 4 Document 3 0.136082763 8.2. Yorumlar Algoritmanın uygulanabilirliğini test etmek için internet üzerinden haber yayını yapan farklı web sitelerinden toplam 1000 sayfa seçildi. Seçilen bu sayfalar test dokümanlarını oluşturmaktadır. Kullanılan dokümanların birbirinden tamamen faklı olmasıyla birlikte benzer konuları içeren dokümanlar da bulunmaktadır. Tasarlanan algoritma gerçek hayatta gerçekleştirilerek dokümanların birbirleriyle karşılaştırılması sonucunda şu veriler elde edilmiştir: - Toplam 1000 doküman içinde 230873 terim, 14457 köküne indirgenmiş tekil terimden oluşmaktadır. - Bu veriler ışığında birbiri ile karşılaştırılan dokümanlardan benzerlik değeri 0,3 seviyesinde olan dokümanlar farklı konulardan oluşmaktadır. - Birbiri ile benzer konular taşıyan ama birbirinden farklı olan dokümanların benzerlik değerleri ise 0,7 0,8 civarındadır. Örnek olarak teknoloji ile ilgili dokümanların benzerlik değerleri bu aralıktadır. - İçerik bakımından da aynı konuları kapsayan dokümanların benzerlik değerleri ise 0.94 ve üzeridir. 9. Sonuç Bu çalışmada, yapısal olmayan Türkçe dokümanların aranması ve eşleştirilmesi için bir uygulama geliştirilmiştir. Uygulamanın amacı doküman benzerliği,kök bulma, ağırlık verme ve kosinüs benzerliği kullanılarak dokümanların karşılaştırılmasıdır.bu modelde öncelikli olarak Türkçe diline özel kök bulma ve ağırlık verme yöntemleri üzerinde durulmuştur.çalışmanın ana sonuçları olumlu yönde olup bazı geliştirilmelere ihtiyaç vardır. Algoritmada kullanılan kök bulma tekniği dilin morfolojik yapısı üzerinde durmaktadır. Dilin morfolojik yapısından ziyade içeriğe duyarlı bir kök bulma algoritmasının kullanılmasıyla, araştırmanın devamında yapılacak olan çalışmalarda daha verimli sonuçlar elde edilmesi hedeflenmektedir. Bu çalışmanın devamında, klasik ve semantik sorgu genişletme algoritmalarına yer verilerek kullanılan yöntemin performansı ve başarı oranının arttırılması hedeflenmektedir. 10. Kaynaklar [1] Christopher D. Manning, Stanford University. Prabhakar Raghavan, Yahoo! Research. Hinrich Schütze, University of Stuttgart, Introduction to Information Retrieval, 2008 [2] Fuchun Peng, Nawaaz Ahmed,Xin Li Yumao Lu,Yahoo! Inc. Context Sensitive Stemming for Web Search, www.ee.ucla.edu/~luym/pengahmedlilu20 07SIGIR.pdf, 2007 [3] M. Porter, An Algorithm for Suffix Stripping, Program, vol. 14, no. 3, pp. 130-137, 1980 [4] Snowball,http://snowball.tartarus.org/algo rithms/porter/stemmer.html

[5] Stemming Turkish Words Using Snowball, Evren (Kapusuz) Çilden (Dec 21, 2006),http://snowball.tartarus.org/algorithms/ turkish/stemmer.html [6] G. Salton and C. Yang, On the Specification of Term Values in Automatic Indexing, Journal of Documentation, vol. 29, no. 4, pp. 351-372, 1973. [7] G. Salton and C. Buckley, Term - Weighting Approaches in Automatic Text Retrieval, Information Processing and Management, vol. 24, no. 5, pp. 513-523, 1988. [8] G.Salton, and C.Buckley. Term- Weighting Approaches in Automatic Text Retrieval. Information Processing and Management, 1988, 24(5), 513-523. [9] Java, Sun Microsystems, http://java.sun.com/ [10] Ubuntu, http://www.ubuntu.com/ [11] MySQL, http://www.mysql.com/ [12] Java crawler, https://crawler.dev.java.net/ [13] Htmlparser, http://htmlparser.sourceforge.net/ [14] JScience, http://jscience.org/