Metin Madenciliği ile Soru Cevaplama Sistemi



Benzer belgeler
5.3. Tekne Yüzeylerinin Matematiksel Temsili

Türk Dilinin Biçimbilim Yapısından Yararlanarak Türkçe Metinlerin Farklı İmgelere Ayrılarak Kodlanması ve Sıkıştırılması

X, R, p, np, c, u ve diğer kontrol diyagramları istatistiksel kalite kontrol diyagramlarının

ENDÜSTRİNİN DEĞİŞİK İŞ KOLLARINDA İHTİYAÇ DUYULAN ELEMANLARIN YÜKSEK TEKNİK EĞİTİM MEZUNLARINDAN SAĞLANMASINDAKİ BEKLENTİLERİN SINANMASI

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

MIT Açık Ders Malzemeleri Bu materyallerden alıntı yapmak veya Kullanım Koşulları hakkında bilgi almak için

( ) 3.1 Özet ve Motivasyon. v = G v v Operasyonel Amplifikatör (Op-Amp) Deneyin Amacı. deney 3

Sürekli Olasılık Dağılım (Birikimli- Kümülatif)Fonksiyonu. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

Sıklık Tabloları ve Tek Değişkenli Grafikler

YAYILI YÜK İLE YÜKLENMİŞ YAPI KİRİŞLERİNDE GÖÇME YÜKÜ HESABI. Perihan (Karakulak) EFE

4.5. SOĞUTMA KULELERİNİN BOYUTLANDIRILMASI İÇİN BİR ANALIZ

Communication Theory

2005 Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Dergisi Sayı:16, s31-46

QKUIAN. SAĞLIK BAKANLIĞI_ KAMU HASTANELERİ KURUMU Trabzon Ili Kamu Hastaneleri Birliği Genel Sekreterliği Kanuni Eğitim ve Araştırma Hastanesi

VEKTÖRLER VE VEKTÖREL IŞLEMLER

PARÇALI DOĞRUSAL REGRESYON

Deney No: 2. Sıvı Seviye Kontrol Deneyi. SAKARYA ÜNİVERSİTESİ Dijital Kontrol Laboratuvar Deney Föyü Deneyin Amacı

Doğrusal Korelasyon ve Regresyon

TEKLİF MEKTUBU SAĞLIK BAKANLIĞI_. '.. m

bir yol oluşturmaktadır. Yine i 2 , de bir yol oluşturmaktadır. Şekil.DT.1. Temel terimlerin incelenmesi için örnek devre

İÇME SUYU ŞEBEKELERİNİN GÜVENİLİRLİĞİ

kadar ( i. kaynağın gölge fiyatı kadar) olmalıdır.

NİTEL TERCİH MODELLERİ

PARMAKİZİ RESİMLERİNİN YAPAY SİNİR AĞLARI İLE TEMİZLENMESİ VE İYİLEŞTİRİLMESİ

BÖLÜM 5 İKİ VEYA DAHA YÜKSEK BOYUTLU RASGELE DEĞİŞKENLER İki Boyutlu Rasgele Değişkenler

T.C. ULUDAĞ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KONUŞMACI TANIMA YÖNTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ. Cemal HANİLÇİ

Soğutucu Akışkan Karışımlarının Kullanıldığı Soğutma Sistemlerinin Termoekonomik Optimizasyonu

Biyomedikal Amaçlı Basınç Ölçüm Cihazı Tasarımı

TÜRKİYE DEKİ 380 kv LUK 14 BARALI GÜÇ SİSTEMİNDE EKONOMİK YÜKLENME ANALİZİ

BAŞKENT ÜNİVERSİTESİ MAKİNE MÜHENDİSLİĞİ BÖLÜMÜ MAK MAKİNE MÜHENDİSLİĞİ LABORATUVARI DENEY - 8

Fumonic 3 radio net kablosuz duman dedektörü. Kiracılar ve mülk sahipleri için bilgi

Sistemde kullanılan baralar, klasik anlamda üç ana grupta toplanabilir :

Okullarda Coğrafi Bilgi Sistem Destekli Öğrenci Kayıt Otomasyon Sistemi Uygulaması: Trabzon Kenti Örneği

BETONARME YAPI TASARIMI

MESLEK SEÇİMİ PROBLEMİNDE ÇOK ÖZELLİKLİ KARAR VERME VE ÇÖZÜME YÖNELİK GELİŞTİRİLEN BİREYSEL KARİYER PLANLAMA PROGRAMI

Veride etiket bilgisi yok Denetimsiz öğrenme (unsupervised learning) Neden gereklidir?

dir. Bir başka deyişle bir olayın olasılığı, uygun sonuçların sayısının örnek uzaydaki tüm sonuçların sayısına oranıdır.

EMG İşaretlerinin K-Ortalama Algoritması Kullanılarak Öbekleştirilmesi. EMG Signal Analysis Using K-Means Clustering

SEK Yönteminin Güvenilirliği Sayısal Bir Örnek. Ekonometri 1 Konu 11 Sürüm 2,0 (Ekim 2011)

3. Parçaları Arasında Aralık Bulunan Çok Parçalı Basınç Çubukları

a IIR süzgeç katsayıları ve N ( M) de = s 1 (3) 3. GÜRÜLTÜ GİDERİMİ UYGULAMASI

Bulanık Mantık ile Hesaplanan Geoid Yüksekliğine Nokta Yüksekliklerinin Etkisi

Bilgisayarla Görüye Giriş

ENDÜSTRİYEL BİR ATIK SUYUN BİYOLOJİK ARITIMI VE ARITIM KİNETİĞİNİN İNCELENMESİ

UYGULAMA 2. Bağımlı Kukla Değişkenli Modeller

Korelasyon ve Regresyon

TEKNOLOJĐK ARAŞTIRMALAR

Otomatik Kontrol Ulusal Toplantısı, TOK2013, Eylül 2013, Malatya DOĞRUSAL KONTROL SİSTEMLERİ

T. C. GÜMÜŞHANE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ MAKİNE MÜHENDİSLİĞİ BÖLÜMÜ MAKİNE MÜHENDİSLİĞİ DENEYLER 1 ÇOKLU ISI DEĞİŞTİRİCİSİ DENEYİ

Asimetri ve Basıklık Ölçüleri Ortalamalara dayanan (Pearson) Kartillere dayanan (Bowley) Momentlere dayanan asimetri ve basıklık ölçüleri

VERİ MADENCİLİĞİ Metin Madenciliği

Toplam Eşdeğer Deprem Yükünün Hesabı Bakımından 1975 Deprem Yönetmeliği İle 2006 Deprem Yönetmeliğinin Karşılaştırılması

ELM201 ELEKTRONİK-I DERSİ LABORATUAR FÖYÜ

2 MANYETİZMA. 7. Etki ile mıknatıslanmada mıknatısın 5. K L M F F S N S N S N

AĞIR BİR NAKLİYE UÇAĞINA AİT BİR YAPISAL BİLEŞENİN TASARIMI VE ANALİZİ

SAYISAL ANALİZ. Doç.Dr. Cüneyt BAYILMIŞ. Sayısal Analiz. Doç.Dr. Cüneyt BAYILMIŞ

TRANSPORT PROBLEMI için GELIsTIRILMIs VAM YÖNTEMI

Basel II Geçiş Süreci Sıkça Sorulan Sorular

Deprem Tepkisinin Sayısal Metotlar ile Değerlendirilmesi (Newmark-Beta Metodu) Deprem Mühendisliğine Giriş Dersi Doç. Dr.

FLYBACK DÖNÜŞTÜRÜCÜ TASARIMI VE ANALİZİ

PARAMETRİK OLMAYAN HİPOTEZ TESTLERİ Kİ-KARE TESTLERİ

ANADOLU ÜNivERSiTESi BiliM VE TEKNOLOJi DERGiSi ANADOLU UNIVERSITY JOURNAL OF SCIENCE AND TECHNOLOGY CiltNol.:2 - Sayı/No: 2 : (2001)

Denklem Çözümünde Açık Yöntemler

Tek Yönlü Varyans Analizi

SAYISAL ÇÖZÜMLEME. Sayısal Çözümleme

POLİNOMLARLA VE BULANIK MANTIK İLKELERİNE GÖRE GEOİT BELİRLEMENİN PRESİZYONA ETKİSİ

TRAFİK İŞARETLERİNİN HOUGH DÖNÜŞÜMÜ VE DVM KULLANILARAK SINIFLANDIRILMASI TRAFFIC SIGN CLASSIFICATION USING HOUGH TRANSFORM AND SVM

SEK Tahmincilerinin Arzulanan Özellikleri. SEK Tahmincilerinin Arzulanan Özellikleri. Ekonometri 1 Konu 9 Sürüm 2,0 (Ekim 2011)

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

Cebir Notları. Karmaşık Sayılar Testi z = 1 2i karmaşık sayısının çarpmaya göre tersinin eşleniğinin sanal kısmı kaçtır?

TEMEL DEVRE KAVRAMLARI VE KANUNLARI

Şiddet-Süre-Frekans Bağıntısının Genetik Algoritma ile Belirlenmesi: GAP Örneği *

MASAÜSTÜ CNC EKSEN KARTLARI İÇİN TEST DEVRESİ TASARIMI

ALGILANAN HİZMET KALİTESİ VE LOJİSTİK REGRESYON ANALİZİ İLE HİZMET TERCİHİNE ETKİSİNİN BELİRLENMESİ. Özet

DARBELİ RADARLARDA HEDEF SINIFLAMA İÇİN AR MODELİNİN GÜÇ SPEKTRUMU VE YAPAY SİNİR AĞI TEMELLİ ÖZELLİK ÇIKARMA YÖNTEMİ ÖZET

Kİ-KARE VE KOLMOGOROV SMİRNOV UYGUNLUK TESTLERİNİN SİMULASYON İLE ELDE EDİLEN VERİLER ÜZERİNDE KARŞILAŞTIRILMASI

Aerodinamik Akışların Modellenmesinde Döngülü Olan ve Olmayan 7 Yaklaşımın Uygulanması

Calculating the Index of Refraction of Air

OTOMATİK PARMAKİZİ TANIMA SİSTEMLERİNDE ÖZELLİK NOKTALARININ TESPİTİNDE YAPAY SİNİR AĞLARININ KULLANILMASI

TÜKETİCİ TATMİNİ VERİLERİNİN ANALİZİ: YAPAY SİNİR AĞLARI ve REGRESYON ANALİZİ KARŞILAŞTIRMASI

PROJE SEÇİMİ VE KAYNAK PLANLAMASI İÇİN BİR ALGORİTMA AN ALGORITHM FOR PROJECT SELECTION AND RESOURCE PLANNING

ARAŞTIRMA MAKALESİ/RESEARCH ARTICLE TEK ÇARPIMSAL SİNİR HÜCRELİ YAPAY SİNİR AĞI MODELİNİN EĞİTİMİ İÇİN ABC VE BP YÖNTEMLERİNİN KARŞILAŞTIRILMASI ÖZ

PRODUCTION PLANNING BASED ON GOAL PROGRAMMING FOR MASS CUSTOMIZATION IN A COMPANY

ENERJİ. Isı Enerjisi. Genel Enerji Denklemi. Yrd. Doç. Dr. Atilla EVCİN Afyon Kocatepe Üniversitesi 2007

Merkezi Eğilim (Yer) Ölçüleri

K-Ortalamalar Yöntemi ile Yıllık Yağışların Sınıflandırılması ve Homojen Bölgelerin Belirlenmesi *

CuEEG: EEG Verilerinin Hızlı İşlenmesi için GPU Tabanlı Bir Yaklaşım CuEEG: A GPU-Based Approach for Fast Processing of EEG Data

11. z = 1 2i karmaşık sayısının çarpmaya göre tersinin eşleniğinin sanal kısmı kaçtır? 14. eşitliğini sağlayan z karmaşık sayısı kaçtır? 15.

KIRIKKALE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ ENDÜSTRİ MÜHENDİSLİĞİ ÇOK KRİTERLİ KARAR VERME YÖNTEMLERİNDEN AHP VE TOPSIS İLE KAMP YERİ SEÇİMİ

GÜÇ KALİTESİNDEKİ BOZULMA TÜRLERİNİN SINIFLANDIRILMASI İÇİN BİR ÖRÜNTÜ TANIMA YAKLAŞIMI

DENEY TASARIMI VE ANALİZİ

6. NORMAL ALT GRUPLAR

TE 06 TOZ DETERJAN ÜRETİM TESİSİNDEKİ PÜSKÜRTMELİ KURUTMA ÜNİTESİNDE EKSERJİ ANALİZİ

MİNİMAL SİSTEMLERDE DURUM GERİBESLEMESİ İLE KUTUP ATAMA PROBLEMİNİN NÜMERİK ANALİZİ

YAPAY ZEKA YÖNTEMLERİYLE BİTKİ YAPRAK İMGELERİNDE PAS HASTALIKLARININ TESPİTİ. Emrullah ACAR

3 SORU 1 SORU 4 SORU 2 SORU. TARİH GENEL KÜLTÜR ORTA ASYA TÜRK TARİHİ

'~'l' SAYı : i ı 1-1 C _:J /2013 KONU : Kompozisyon Yarışması. T.C SINCAN KAYMAKAMllGI Ilçe Milli Eğitim Müdürlüğü

KARMAŞIK SAYILAR. Derse giriş için tıklayın...

Transkript:

Metn Madenclğ le Soru Cevaplama Sstem Sevnç İlhan 1, Nevchan Duru 2, Şenol Karagöz 3, Merve Sağır 4 1 Mühendslk Fakültes Blgsayar Mühendslğ Bölümü Kocael Ünverstes slhan@kocael.edu.tr, nduru@kocael.edu.tr, senol.karagoz@hotmal.com, mervesagr@gmal.com Özet Baş döndürücü hızla büyüyen blg teknolojler alanında gderek artan verlerden kullanışlı blg elde etmek önem gderek artan br konu olarak karşımıza çıkmaktadır. Blgy elde etmede en az malyetl, en y sonucu veren metotlar terch edlmeye başlanmıştır. Bu bağlamda doğal dl şleme, metn madenclğ çn öneml br dspln halne gelmştr. Doğal dl şlemenn çalışma alanlarından br olan soru cevap sstemlernn gerek dünyada gerek ülkemzde gderek popülerlğ artmaya başlamıştır. Ancak bugün gelnen nokta ble Doğal dl şleme alanında daha çok kat edecek yolun olduğunu göstermektedr. Türkçe nn sondan eklemel br dl olması da dl şlemey güçleştrmektedr. Bu çalışma kapsamında, doğal dl şleme ve metn madenclğ teknkler kullanılarak kullanıcıdan alınan soruya en uygun cevabı çeren metn keşfedlmeye çalışılmıştır. Kullanıcıdan alınan soru, ver madenclğnn br aşaması olan ön şlemeden geçrlp anahtar sözcükler belrlenmekte ve her anahtar sözcüğün metn çndek önemne göre uygun cevap bulunmaya çalışılmaktadır. Abstract In Informaton Technologes area, whch are rsng ncreasngly, extractng useful nformaton from the ncreasng data s became the vtal ssue. The methods that gves less cost, better performance and the best results are preferred for extractng the nformaton. In ths context, natural language processng s became the mportant dscplne for text mnng. Queston answerng systems, whch s the one of the areas of natural language processng, are ncreasngly becomng popular n the world and n our country. However, today there are much thngs to do n natural language processng. Natural processng becomes hard, because of Turksh s an agglutnatve language. In ths paper, the most approprate text to the questoner s tryng to be dscovered as an answer by usng natural language processng and text mnng technques. The queston has taken from the user s preprocessed. The key words are become defnte and accordng to the mportance degree of key words n the texts; the approprate answer s to be shearched. 1.Grş Ver madenclğ, eldek verlerden çok net olmayan, önceden blnmeyen ancak potansyel olarak kullanışlı blgnn çıkarılması yaklaşımıdır. Ver madenclğnn alt dalı olarak ele alınan metn madenclğ se yazılmış farklı dokümanlardan yen, önceden blnmeyen blglern blgsayar tarafından otomatk br şeklde keşfedlmesdr. Metn madenclğn ver madenclğnden ayıran en büyük fark metn madenclğnde kalıpların düzgün vertabanlarından çok, doğal dl metnlernden çıkarılmasıdır. Metn madenclğnde, verden blg çıkarma yöntemlernden br olan doğal dl şleme dspln le blg çıkarımında daha anlamlı sonuçlar elde edlmeye başlanmıştır. Doğal Dl İşleme (DDİ), ana şlev br doğal dl çözümleme, anlama, yorumlama ve üretme olan blgsayar sstemlernn tasarımını konu alan br mühendslk alanıdır [1]. Doğal dl şleme çalışmaları sayesnde nsan-blgsayar etkleşmnn arttırılması başarılmıştır. Soru cevaplama sstemler, blgye ulaşma htyacı le ortaya çıkmış olan ve genelde blgsayar destekl yapılardır. Sorucevap benzerlklern karşılaştırılarak ya da varolan kaynaklar üzernde yapay zeka gb nsan türev teknkler uygulanarak, sorulara yen cevaplar üretmeye çalışan sstemler gelştrlmştr. Soru-cevaplama sstemler ncelenrken kend çnde kye ayrılması gerekmektedr. Bçmsel ve anlamsal yönden karşılaştırma yapılarak soru cevap metnler arasında benzerlk aranmaktadır. Bu bldrde Türkçe çn Doğal Dl İşleme dsplnnde bçmsel analz yöntemne göre kullanıcıdan alınan soru şlenmştr. Kullanıcıdan alınan soru, vektör uzay modelnde gösterlerek vertabanındak cevaplar le karşılaştırılması yapılmış ve kosnüs benzerlğ teoremne göre benzerlk oranı hesaplanmıştır. 2. Ön İşleme Ver madenclğnde analz edlecek grş verlernn belrl br formata sahp olması ayrıca bozuk veya gereksz verlerden temzlenmş olması gerekmektedr. Metn madenclğnn en büyük sorunu, şleyeceğ ver kümesnn yapısal olmamasıdır. Genellkle doğal dl kullanılarak yazılmış dokümanlar üzernde çalışılan metn madenclğ alanında ön şleme aşaması, ver temzlemenn yanında very uygun formata getrme şlemn de gerçekleştrmektedr [5].

Çalışma kapsamında gerçekleştrlen ön şleme adımlarında; kullanılan soru ve cevap metnler, sözcüklerne ayrılarak ön şlemenn formatlama aşaması gerçeklenmştr. Ön şlemenn temzleme aşamasında se, sözcüklerne ayrılan metnlerdek noktalama şaretler, edatlar, bağlaçlar, zamrler ve fller gb Türkçe de sık kullanılan sözcüklern çıkarılması şlemler gerçekleştrlmştr. Metnn sözcüklere ayrılma aşamasında Java dlnn StrngTokenzer sınıfı kullanılmıştır. Bu sınıf kullanılırken ayıraç olarak noktalama şaretler alınmıştır, temzleme aşaması çn XML dosya yapısında metnden çıkarılması düşünülen sözcükler tutulmuştur. Bu dosyadak sözcükler le metndek her sözcük karşılaştırılarak metn çnde ve XML dosyasında bulunan sözcükler değerlendrmeye alınmamıştır. Fl tpndek sözcükler se Zemberek [2] DDİ kütüphanesnn sağladığı sözcük türü bulma özellğ le tespt edlmş ve metnden çıkarılmıştır. 3. Vektör Uzay Model Kullanımı Vektör uzay modelnde her nesne, vektör yapısında tanımlanmaktadır. Nesnelern sahp olduğu farklı özellkler, vektör uzayının eksenlern oluşturmakta ve her nesne sahp olduğu özellklere göre vektör uzayında bell br konuma sahp olmaktadır. 3.1 Vektör Oluşturma Vektör uzay model, çalışma çersnde, doğal dl kullanılarak yazılmış metnlere uygulanmış ve yapısal olmayan bu nesneler yapısal hale getrlmştr. Üzernde çalışılan soru ve cevap metnler, seçlen anahtar sözcükler kullanılarak vektör olarak tanımlanmıştır. Br metnn, vektör olarak fade edleblmes çn 3 farklı yöntem yer almaktadır. [3]. Yöntemler le lgl örnekler tablo 1 dek metnlere göre verlmştr. Tablo 1: Örnek Metnler Metnler 1 Grbe yakalanan hasta grp olduğunu anlamamıştı. İlacını almamıştı. 2 İlacını aksatanlar hastalığa davetye çıkarırlar. 3 Yıllık enflasyon oranı bu senede yükselşte 4 Tarımla uğraşanlar bu yıl tarımdan zarar edecekler. 5 Hakemn gözü önünde olmasına rağmen hakem penaltı çalmadı. (Spor) 6 Taraftarlara erken gelen gol laç gb geld ve taraftarlar golden sonra hç susmadı. (Spor) 3.1.1. Btsel Tanımlama Anahtar sözcük sözlüğünde yer alan sözcüklern metnde yer alıp almadığı gösteren vektörel br gösterge oluşturulmaktadır. Yukarıdak örnek metnler çn oluşturulmuş olan sözlük ve metnlern anahtar kelmelere göre btsel tanımlamaları aşağıda görülmektedr. Sözlük={enflasyon, grp, hakem, laç, taraftar, tarım} D1=(0,1,0,1,0,0) D2=(0,0,0,1,0,0) D3=(1,0,0,0,0,0) D4=(0,0,0,0,0,1) D5=(0,0,1,0,0,0) D6=(0,0,0,1,1,0) 3.1.2. Frekansa Göre Tanımlama Sözcüklern metnlerde kaç defa kullanıldığına dayanan br yöntemdr. Örnek metnler çn oluşturulmuş olan sözlük ve metnlern anahtar kelmelere göre frekans tanımlamaları aşağıda görülmektedr. Sözlük={enflasyon, grp, hakem, laç, taraftar, tarım} D1=(0,2,0,1,0,0) D2=(0,0,0,1,0,0) D3=(1,0,0,0,0,0) D4=(0,0,0,0,0,2) D5=(0,0,2,0,0,0) D6=(0,0,0,1,2,0) 3.1.1. Tf-f Ağırlıklandırma Yöntemne Göre Tanımlama Tf-f ağırlıklandırmasında her br dokümandak sözcüklern frekansı rol oynamaktadır. Böylece dokümanda daha fazla geçen (Tf değer büyük sözcükler) o doküman çn daha değerl olmaktadır. Ayrıca f tüm dokümanlarda seyrek geçen sözcükler le lgl br ölçü vermektedr. Bu değer tüm eğtm dokümanları ele alınarak hesaplanmaktadır. Bu yüzden eğer br sözcük dokümanlarda sık geçyorsa, o doküman çn belrleyc olmadığı düşünüleblr. Eğer sözcük dokümanlarda çok sık geçmyorsa o sözcüğün o doküman çn belrleyc özellğ olduğu kabul edleblr. 3.2 Anahtar Sözcük Seçm ve Ağırlıklandırma Dokümanlar arasında kullanımı az olan ve dokümanların ayırt edleblmesn sağlayacak özellktek sözcükler, anahtar sözcük olarak ntelendrlmektedrler. Dokümanlar arasında sadece br dokümanda geçen sözcük veya sözcükler, o doküman çn en verml anahtar sözcükler olarak kabul edlr. Bu anahtar sözcükler kullanılarak yapılan sorgu şlemler, elemanı oldukları dokümana ulaşmanın en güçlü yolu olacaktır. Anahtar sözcük seçm çalışmanın en öneml noktasını oluşturmaktadır. Anahtar sözcük seçm sürec; ön şleme aşamasındak anahtar sözcük olamayacak belrl sözcüklern metnden çıkarılması le başlamakta, vektör oluşturma aşamasındak gövde bulma ve aynı gövdeye sahp olan sözcüklern aynı anahtar sözcük olarak kabul edlmesyle devam etmektedr. Ön şleme aşamasında metnden çıkarılan, ayırt edlclk özellğ olmayan sözcüklern tesptnde, sözcüklern Türkçe dl yapısına göre cümlede kullanılma olasılıkları göz önünde bulundurulmuştur. Çıkarılacak sözcük sınıfları olarak edatlar,

bağlaçlar, zamrler ve fller seçlmştr. Edat, bağlaç ve zamr sözcük türlernn, soru ve cevap metnlernde sıkça kullanılableceğ ve metnler çn ayırt edc olamayacakları düşünülmüştür. Fllern se, soru cümlelernde nadr kullanıldığı; soru cümlelernn genellkle nedr, kmdr gb soru sözcükler le oluşturulduğu göz önünde bulundurularak temzlenmesne karar verlmştr. Cevap metnnde olup soru metnnde olmayan fller, cevap vektörünün uzunluğunu arttırmakta ve benzerlk oranını düşürmektedr. Vektör oluşturma aşamasında se ön şleme aşamasından sonra elde edlen sözcük lsteler kullanılmaktadır. Bu aşamada sözcükler tekrar şlenmekte ve sözcüklern gövdelerne ulaşılmaya çalışılmaktadır. Sözcük gövdelerne ulaşablmek çn TÜBİTAK ın Zemberek [2] sml DDİ kütüphanes kullanılmıştır. Zemberek kütüphanes le her sözcüğün gövdeler elde edlmekte ve bu gövdeler arasında en uzun olanı sözcüğün kullanılacak gerçek gövdes olarak seçlmektedr. gözlükçüler göz-lük-çü-ler Gözlükçüler sözcüğü, anahtar kelme havuzuna gözlükçü şeklnde eklenmştr. Lteratürde ncelenen çalışmalarda, anahtar sözcük seçmnn statk olarak yapıldığı görülmüştür. Fakat sstem çersndek çok sayıda soru ve cevap metnler çn anahtar sözcük havuzunun statk br şeklde oluşturulması hem zahmetl hem de vermsz olmaktadır. Bu nedenle dnamk br yapı oluşturulmaya çalışılmış ve vertabanındak tüm cevaplar şlenp, cevaplar çersnde anahtar sözcük özellğ taşıyan sözcükler seçlmştr. Bu şlem ssteme soru sorulması aşamasında değl cevap ekleme aşamasında gerçekleştrldğ çn sstemn soru cevaplama performansını etklememştr. Bçmsel olarak karşılaştırılan soru ve cevap metnlernn yakınlığının daha hassas br şeklde nceleneblmes çn kullanılan ağırlık mantığına göre, metnlerde geçen her sözcük aynı değerde değldr. Brkaç cevapta geçen br sözcük, sadece br cevapta geçen sözcükten daha az öneme sahptr. Bu nedenle cevaplara özel sözcüklern daha büyük ağırlık değer taşıması gerekmektedr. bütün metnlerde geçtğn ve metnler ayırt etme aşamasında hç br etksnn olmadığını göstermektedr. Sözcüğün aynı metn çndek geçş sayısı tf se, oluşturulan vektörler arasındak uzaklığın hesaplanması aşamasında kullanılmaktadır. Metnler arasındak ayırt edclk değer IDF, anahtar sözcüğün aynı metn çnde kaç defa geçtğn gösteren değer le çarpılarak, sözcüğün metn çn toplam ağırlığı (w ) bulunmaktadır. Bu değer vektörün o sözcük boyutundak değern vermektedr. Kares alınarak vektör uzunluğu değerne ve soru vektöründek aynı sözcük boyutunun değer le çarpılarak da vektörlern ç çarpımı değerne eklenmektedr. Bu yöntem le tablo 2 dek cevap metnlernde geçen sözcüklern ağırlıklandırılması gerçekleştrlmekte ve sonuçlar tablo 3 de gösterlmektedr. Tablo 2: Örnek Cevap Metnler Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. Tablo 3: Sözcük Ağırlıkları Sözcük Ağırlık Bölge 0.1761 Kent 0.4771 Ankara 0 Türkye 0 Başkent 0 O 0.4771 En 0.4771 İç 0.1761 Anadolu 0.1761 Kalabalık 0.4771 Bölge 0.1761 Kent 0.4771 Ankara 0 w = tf IDF (1) 4. Benzerlk Hesaplanması IDF = log D (2) df (1) ve (2) formüller anahtar kelmenn ağırlığının hesaplanmasında kullanılmaktadır. Ağırlıkların hesaplanmasında sözcüklern metnler çndek geçş durumu ön plandadır. Sözcüğün kaç adet metnde geçtğ blgs df, toplam metn sayısı D, arasındak ayırt edc özellğn ortaya koymaktadır. Bu değern yüksek olması az sayıda metnde geçtğn göstermektedr ve hesaplamada daha büyük öneme sahp olmasını sağlamaktadır. Az sayıda olursa da brçok metnde geçtğ anlaşılmaktadır. Sıfır çıkması se Vektör uzayında tanımlanan nesneler belrl konumlara sahptr. Nesnelern konumlarını gösteren vektörler kullanılarak, nesnelern brbrlerne yakınlıkları hesaplanablmektedr. Vektörler arasındak yakınlığı hesaplamak çn kosnüs benzerlğ yöntem kullanılmıştır. Bu yöntem le vektörler arasındak açının, kosnüs değer hesaplanmakta ve bu değer vektörler arasındak yakınlık değer olarak alınmaktadır. Çalışma kapsamındak soru ve cevap metnlernn de vektör uzayına taşınmış olması aralarındak benzerlğn hesaplanmasında kosnüs benzerlğ yöntemnn kullanılablmesn sağlamıştır. Bu yöntem le karşılaştırılacak

her br soru ve cevap vektörü arasındak açının kosnüs değer hesaplanmaktadır. Cos(S,) = S / S * = ((1*0) * (1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) ((1*0) + (1*0) + (1*0)) / ( 0 * 0) Cos(S,) = S / S * = ((1*0) * (1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) * ((1*0) + (1*0) + (1*0) + (1*0.1761) + (1*0.1761) + (1*0.1761)) / ( 0 * 0. 0.305) Şekl 1: Cevap Vektörler. ( D, D2) Cos( Q) Cos = 1 (3) D1 ve D2 k vektörsel doküman olmak üzere, Cos ( D1, D2) D1 D2 D1 = (4) D2 Formül 4, vektörler arasındak açının kosnüs değern vermektedr. Her vektör kls çn bulunan açı değerler karşılaştırılarak en yakın dokümanlar belrlenmektedr [4]. Formülü 4 ün matematksel yapısı ncelendğnde, soru ve cevap vektörler arasındak ç çarpım değer ve her br vektörün uzunluk değernn, vektörler arasındak benzerlk sonucunu doğrudan etkledğ anlaşılmaktadır. İç çarpım değer sonuç le doğru orantılı, vektörlern uzunluk değerlernn çarpımı se ters orantılıdır. Bu yüzden vektörler arasındak ortak sözcük sayısının arttırılması, vektör uzunluklarını etkleyen yan k vektör arasında ortak olmayan sözcüklern se azaltılması gerekmektedr. Benzerlk sonucunun verml olablmes adına anahtar sözcük sözlüğüne cevaplar çersnde geçen her sözcük alınmamıştır. Her br cevap çn bulunan anahtar sözcükler, anahtar sözcük sözlüğünde toplanmaktadır. Kullanıcıdan alınan sorular bu sözlüktek anahtar sözcüklere göre vektör halne getrlmektedr. Vektör oluşturma aşamasında, aynı köke sahp sözcükler çn ortak olan en uzun gövde seçlerek heps çn tek br anahtar sözcük vertabanına yazılmaktadır. Bu aşamalardan geçen anahtar sözcük sözlüğü le daha hassas hesaplamalar yapılmıştır. Soru: Türkye' nn başkent neresdr? Tablo 4: Türkye nn Başkent Neresdr? Metnnn ı Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. Cos(S,) = S / S * = ((1*0)*(1*0) + ((1*0) * (1*0)) / ((1*0) + (1*0)) * ((1*0) + (1*0) + (1*0) + (1*0.1761) + (1*0.1761) + (1*0.1761) + (1*0.4771) + (1*0.4771) + (1*0.4771)) / ( 0 * 1.1096) Yukarıdak hesaplama adımlarında vektörler arasındak açının kosnüs değer hesaplanmıştır. Vektörler oluşturan sözcüklern frekans ve ağırlıkları da hesaplamaya katılmıştır. Fakat Türkye, başkent ve Ankara sözcüklernn ağırlıkları sıfır olduğundan sonuç sıfır bulunmuştur. Bu sözcüklern ağırlıklarının sıfır oluşu br öncek ağırlıklandırma bölümünde anlatılmıştır. Türkye, başkent ve Ankara sözcükler 3 cevapta da kullanıldıkları çn ağırlık hesabında sıfır değern almışlardır. Bu durumun düzeltleblmes çn ver tabanına yen br cevap daha eklenmştr. Yen cevap tablo 5 de görülmektedr. Tablo 5: Türkye nn Başkent Neresdr? Metnnn Yen ı C4 Türkye' nn başkent Ankara' dır. Ankara, Türkye' nn başkentdr ve İç Anadolu Bölges' nde bulunmaktadır. Türkye' nn başkent olan Ankara, İç Anadolu Bölges' nn en kalabalık kentdr. İstanbul nüfusu en yüksek kentmzdr. Son eklenen cevaptan (C4) sonra sözcüklern ağırlıkları değşmştr. Sözcük ağırlıklarının son hal tablo 6 da verlmştr. Tablo 6: Sözcük Ağırlıkları Sözcük Ağırlık Bölge 0.301 Kent 0.301 Ankara 0.1249 Türkye 0.1249 Başkent 0.1249 Olan 0.6021 En 0.301 İç 0.301 Anadolu 0.301

Kalabalık 0.6021 stanbul 0.6021 nüfus 0.6021 yüksek 0.6021 Yenden hesaplanan ağırlık değerlernden sonra benzerlk hesaplaması aşağıdak sonuçları vermektedr. S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249)).0312 / ( 0.1766 * 0.2163 ).8168 S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249) + (1*0.301) + (1*0.301) + (1*0.301)).0312 / ( 0.1766 * 0.5644 ).313 S / S * = ((1*0.1249) * (1*0.1249) + ((1*0.1249) (1*0.1249) + (1*0.1249) + (1*0.301) + (1*0.301) + (1*0.301) + (1*0.301) + (1*0.6021) + (1*0.301)).0312 / ( 0.1766 * 1.1067 ).1596 S / S *.0 / ((1*0.1249) + (1*0.1249)) * ((1*0.6021) + (1*0.6021) + (1*0.301) + (1*0.6021) + (1*0.301)).0 / ( 0.1766 * 1.1264 ).0 Yen hesaplamalar sonucunda Türkye nn başkent neresdr? sorusuna en yakın cevap olarak Türkye nn başkent Ankara dır şeklndek 1. cevap bulunmuştur. Soru le cevap metnler arasındak ortak sözcük sayısının lk 3 cevapta aynı olmasına karşılık, vektör uzunluklarının farklı olması sonucu değştrmştr. Son cevap da se ortak hçbr sözcük olmadığından sıfır sonucu dönmüştür. katılmaktadır. Fakat soru metnler kullanıcıdan çalışma anında alınan verler olduğundan, her soru hesaplamaya katılmadan önce vektör olarak tanımlanmaktadır. Cevap metnlernn vertabanında vektörler halnde tutulması ve sorulan sorunun br kez vektöre çevrlp her cevapla karşılaştırmada bu vektörün kullanılması performans açısından önemldr. Sstem çersnde kullanıcıdan alınan her soru, vektör halne getrldkten sonra tüm cevaplar le karşılaştırılmaktadır. Sstemde anahtar sözcük seçm şlem dnamk olarak yapılmakta ve vertabanına yazılmaktadır. Yapılan her sorguda, vertabanında hazır bulunan anahtar sözcükler le vektör uzayında gösterlen sorgu karşılaştırılmaktadır. Vertabanında anahtar sözcüklern hazır olarak bulundurulması performansı artırmaktadır. Bu çalışma, lerde yapılacak soru cevaplama sstemler çn dokümanlar arası benzerlk arama gb çalışmalara br kaynak ntelğ taşımaktadır. Bçmsel analz yönünden kullanılablecek bu sstem, anlamsal yönden desteklendğnde daha doğru sonuçların çıkarılacağı düşünülmektedr. 6.Kaynaklar [1] Rch E. Artfcal Intellgence, McGraw Hll Inc., Second Edton, Newyork, 1991. [2]https://zemberek.dev.java.net/surumler/v04/zemberek_0.4. 0.html [3] Plavcılar İ.F., Metn Madenclğ le Metn Sınıflandırma, Yıldız Teknk Ünv. FBE, Yüksek Lsans Tez, 2007. [4] http://www.mslta.com/term-vector/term-vector-3.html [5] Feldman, R., Sanger, J., 2007. The Text Mnng HandBook Advanced Approaches n Advanced Approaches n Analyzng Unstructured Data. Yukarıdak hesaplamalar göz önünde bulundurulduğunda, br soruya verlen doğru cevaplar arasında detayı en az olan cevap doğru cevap olarak getrlecektr. 5.Sonuçlar Bu makalede, Doğal Dl İşleme dspln altında yer alan bçmsel analz yöntemne göre kullanıcıdan alınan soru metn şlenmektedr. Kullanıcıdan alınan soru metn çn anahtar sözcükler belrlenp bu sözcüklern her metn çn ağırlığı belrlenmektedr. Bu ağırlık vektör uzay modelnde gösterlmektedr. Vektör uzay model blg çıkarımı, blg fltreleme, ndeksleme gb alanlarda kullanılan cebrsel br modeldr. Doğal dl belgelernn çok boyutlu uzayda özel br anlamını smgelemektedr [3]. Cevap metnler vertabanında vektörsel halde tutulmaktadır. Bu sayede hesaplamada sadece bu vektörsel yapılar