Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Benzer belgeler
Sözlük kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme: Bir Uygulama

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Sözlük Tabanlı Kavram Madenciliği: Türkçe için bir Uygulama

BLM 426 YAZILIM MÜHENDİSLİĞİ BAHAR Yrd. Doç. Dr. Nesrin AYDIN ATASOY

KONU: KURUMSAL YÖNETİM İLKELER (KURUMSAL YÖNETİM TEBLİĞİ SERİ II NO:17.1)

İnsan Kaynakları Yönetimine İş Süreçleri Yaklaşımı

BEACON İŞARETÇİLERİ KULLANILARAK GERÇEKLEŞTİRİLEN ÖĞRENCİ YOKLAMA SİSTEMİ

BİLGİSAYAR DESTEKLİ TASARIM FİNAL PROJE ÖDEVİ

Ygs-Lys dan itibaren üniversitelere öğrenci seçimi iki aşamalı sınav uygulanarak yapılacaktır.

EYLÜL 2012 EXCEL Enformatik Bölümü

Algoritma, Akış Şeması ve Örnek Program Kodu Uygulamaları Ünite-9

DENEY-3. Devre Çözüm Teknikleri

T.C. SAKARYA ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ MATEMATİK BÖLÜMÜ DIŞ PAYDAŞ ANKET FORMU

DİNAMİK İNŞ2009 Ders Notları

DESTEK DOKÜMANI. 1 Ocak 2010 tarihinden itibaran banka hesap numarası yerine IBAN numarası kullanılacaktır.

Kanal Veri Kartı Eleman Bilgileri Ekranı Kullanım Kılavuzu

TÜRKİYE TENİS FEDERASYONU DOĞU KULÜPLERİ ARASI TENİS LİGİ TALİMATI. İlk Yayın Tarihi Değişiklik Tarihi Talimat Seri Numarası

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

T.C. NEVŞEHİR ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ MÜDÜRLÜĞÜ EĞİTİM-ÖĞRETİM YILI İLANI

BLM 426 YAZILIM MÜHENDİSLİĞİ BAHAR Yrd. Doç. Dr. Nesrin AYDIN ATASOY

Kelime Gösterimleri (Word Representation Word Embeddings)

I. YILLIK BEYANA TABĠ MENKUL SERMAYE GELĠRLERĠ VE DEĞER ARTIġ KAZANÇLARI

DAVRANIŞ KURALLARI VE ETİK DEĞERLER HEDİYE & EĞLENCE ETKİNLİKLERİ İLE İLGİLİ İLKELER

IBF, PIRI Group ve Jacobs & Associates Konsorsiyumu DEA REHBERİ

Uzaktan Eğitim. Web Tabanlı Kurumsal Eğitim

KAHRAMANMARAŞ SÜTÇÜ İMAM ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ MÜDÜRLÜĞÜ'NE

VERİ MADENCİLİĞİ Metin Madenciliği

KURUMSAL WEB TASARIM Proje Teklifi

Hızlı Kullanım Kılavuzu. 1. Sistem Gereksinimleri. 2. Kurulum ve Etkinleştirme. Kurulum. Etkinleştirme

TÜBİTAK DESTEKLERİ ve ÖDÜLLERİ DESTEKLER

İLAÇ KULLANIM BİLGİLERİNİ (PROSPEKTÜS) MUTLAKA OKUYUN

Ekonomi, Toplum ve Kültür Sempozyumu Şubat Amasya/TÜRKİYE

Oyun Nintendo tarafından yapıldı ve ilk olarak Nintendo DS için piyasaya sürüldü.

Dış yardım sözleşmeleri

Kentsel Planlama ve Kentsel Altyapı İlişkisinde Yeni bir Dönem; Kentsel Dönüşüm

İndirilecek KDV Listesi Uygulaması

Sığa ve Dielektrik. Bölüm 25

Metin Sınıflandırma. Akış

Çizelge 1. Yeraltısuyu beslenim sıcaklığı ve yükseltisi tahmininde kullanılan yöntemlerin karşılaştırılması

DAVRANIŞ KURALLARI VE ETİK DEĞERLER Tekel Karşıtı ve Rekabet İlkeleri

T.C. MİMAR SİNAN GÜZEL SANATLAR ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ LİSANS DERS TANITIM FORMU

BİL 354 Veritabanı Sistemleri. Entity-Relationship Model

Bilgi Formları ve Ticari Elektronik İleti Gönderimi ile İlgili Bilgilendirme

TED KOCAELİ KOLEJİ. GĠRĠġ. Bu kılavuz, TED Kocaeli Kolejine kayıt yaptırmak isteyen öğrenci velilerini bilgilendirmek amacıyla hazırlanmıştır.

VARANT AKADEMİ. Eğitimin Konusu: Eğitimin Amacı: Kimler İçin Uygundur: Varantın İpuçları

HACETTEPE ÜNİVERSİTESİ YABANCI DİLLER YÜKSEKOKULU İNGİLİZCE HAZIRLIK BİRİMİ AKADEMİK YILI ÖĞRENCİ BİLGİLENDİRME EL KİTABI

S3 - Bir ABD Adresi ve/veya ABD Telefon Numarasına İlişkin Yazılı Açıklama

Rapor Yazımı MÜDEK Öğrenci Değerlendiriciler Eğitim Çalıştayı 22 Kasım 2014, MÜDEK Ofisi, İstanbul

ÜNİVERSİTEYE YOLCULUK TERCİH YAPIYORUM /2017

ENERJİ SİSTEMLERİNDE KESME YÖNTEMİ İLE GÜVENİLİRLİK ANALIZI

PROSteel 2016 ÇELİK YAPI TASARIMI ÖĞRENCİ YARIŞMASI Semt Pazar Yeri" Tasarımı

T.C. AMASYA ÜNİVERSİTESİ REKTÖRLÜĞÜ Basın Yayın ve Halkla İlişkiler Müdürlüğü

EYLÜL 2012 WORD Enformatik Bölümü

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Bölüm 1. Tasarım. Bölüm 1. Makine Mühendisliği Tasarımına Giriş

MATEMATÝK GEOMETRÝ DENEMELERÝ

TÜRK DÜNYASI BASIN SEMPOZYUMU Mart 2019/AMASYA

BİLGİ TEKNOLOJİLERİ VE UYGULAMALARI WORD 2010 ÖĞR. GÖR. HASAN ALİ AKYÜREK.

DAVRANIŞ KURALLARI VE ETİK DEĞERLER HEDİYE & EĞLENCE ETKİNLİKLERİ İLE İLGİLİ İLKELER

ULUSLARARASI GÖÇ VE KÜLTÜR SEMPOZYUMU ÇAĞRI METNİ ARALIK 2016 /AMASYA

T.C. AMASYA ÜNİVERSİTESİ REKTÖRLÜĞÜ Basın Yayın ve Halkla İlişkiler Müdürlüğü. Sayı : Konu : Ekonomi, Toplum ve Kültür Sempozyumu

MÜFREDAT DERS LİSTESİ

MERKEZİ KAYIT KURULUŞU A.Ş. MERKEZİ KAYDİ SİSTEM İŞ VE BİLİŞİM UYGULAMA İLKE VE KURALLARI YÖNERGESİ A. GENEL İLKELER

T.C. MİLLÎ EĞİTİM BAKANLIĞI ÖLÇME, DEĞERLENDİRME VE SINAV HİZMETLERİ GENEL MÜDÜRLÜĞÜ SINIF DEĞERLENDİRME SINAVI - 2

DeLone ve McLean Bilgi Sistemleri Başarı Modeli (IS Success Model)

MIM_TKY_ARAÇLAR_BN/2: KIYASLAMA ( benchmarking )

TEST 1 ÇÖZÜMLER ÖZEL GÖRELİLİK

MKT Risk Yönetimi Genel Uygulama Esasları

Orta Ölçekli Yazılım Firmaları İçin İdeal Bağımsız Doğrulama ve Geçerleme Organizasyon Yaklaşımı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

ANKARA SAĞLIK BİLİMLERİ DERGİSİ YAZAR REHBERİ

Motivasyon Matrislerde Satır İşlemleri Eşelon Matris ve Uygulaması Satırca İndirgenmiş Eşelon Matris ve Uygulaması Matris Tersi ve Uygulaması Gauss

YAKIN RESİM FOTOGRAMETRİSİ YÖNTEMLERİYLE KOORDİNAT BELİRLEME

A. BİÇİME İLİŞKİN ANALİZ VE DEĞERLENDİRME

T.C. AMASYA ÜNİVERSİTESİ REKTÖRLÜĞÜ Basın Yayın ve Halkla İlişkiler Müdürlüğü

AB 7. ÇERÇEVE PROGRAMI İŞBİRLİĞİ ÖZEL PROGRAMI VE KAPASİTELER ÖZEL PROGRAMI PROJE TEKLİFİ DEĞERLENDİRME KRİTERLERİ. İçindekiler:

SÜLEYMAN DEMİ REL ÜNİ VERSİ TESİ MÜHENDİ SLİ K-Mİ MARLIK FAKÜLTESİ MAKİ NA MÜHENDİ SLİĞİ BÖLÜMÜ MEKANİK LABORATUARI DENEY RAPORU

DGridSim Gerçek Zamanlı Veri Grid Simülatörü. Veri Grid Sistem Modelleri Dokümanı v

Temel Denklemler, Mutlak Entropi ve Termodinamiğin Üçüncü Yasası

SteelPRO 2017 ÇELİK YAPI TASARIMI ÖĞRENCİ YARIŞMASI

BLM 426 YAZILIM MÜHENDİSLİĞİ BAHAR Yrd. Doç. Dr. Nesrin AYDIN ATASOY

Fotovoltaj Güneş Pilleri : Uygulama Örnekleri

AKILLI GİYSİLER PROJESİ

İLGİLİ DİĞER KAR ARLAR

SBS MATEMATİK DENEME SINAVI

E-SERTİFİKA KULLANIMININ YAYGINLAŞTIRILMASINDA ÜNİVERSİTENİN ROLÜ: BİR DERS ÖRNEĞİ

2011 yılı abone olunan veritabanlarımız WEB Sayfası düzenlenme işlemi devam ettiğinden aşağıda

Değerlendirme erlendirme Süreci: S

DESTEK DOKÜMANI E-BĐLDĐRGE UYGULAMASI

T.C. KOCAELİ ÜNİVERSİTESİ Mühendislik Fakültesi Dekanlığı

TÜSİAD SERMAYE PİYASASI ARAÇLARININ SATIŞ YÖNTEMLERİ VE DAĞITIMI İLE TESLİM ESASLARI TEBLİĞİ TASLAĞI NA İLİŞKİN GÖRÜŞLER

K O Ç Ü N İ V E R S İ T E S İ G Ö Ç A R A Ş T I R M A L A R I P R O G R A M I. M i R e K o c

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

EXCEL - EYLÜL Genel Bilgiler

Lojistik & Tedarik Zinciri Projesi / B.Arda Dedekoca

DAVRANIŞ KURALLARI VE ETİK DEĞERLER TEKEL KARŞITI & REKABET İLKELERİ

Görevde Yükselme Eğitimi Başvuru Kılavuzu 2011 GÖREVDE YÜKSELME EĞİTİMİ BAŞVURU KILAVUZU

Gazi Üniversitesi Teknoloji Fakültesi Endüstriyel Tasarım Mühendisliği Bölüm Tanıtımı

VESTEL ELEKTRONİK A.Ş. KURUMSAL YÖNETİM UYUM RAPORU

Transkript:

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme 1. Giriş Kavram, bir kelimenin daha syutsal ve genel anlamını ifade eden kelimeye denir. Kavramlar syut veya smut kelimeler labilir. İnsanlar algıladığı nesne veya lgunun kavramını klayca çıkarabilmektedir; ama bilgisayarlar insan beyninin karmaşık ve üstün nöral algılama sistemine sahip lmadığı için kavram çıkarma bu makineler için daha zr lmaktadır. Bunun için makine öğrenme ve yapay zeka uygulamalarından faydalanılmaktadır. Akademik Bilişim 14 - XVI. Akademik Bilişim Knferansı Bildirileri 5-7 Şubat 2014 Mersin Üniversitesi Cem Rıfkı Aydın 1, Ali Erkan 1, Tunga Güngör 1, Hidayet Takçı 2 1 Bğaziçi Üniversitesi, Bilgisayar Mühendisliği Bölümü, İstanbul 2 Cumhuriyet Üniversitesi, Bilgisayar Mühendisliği Bölümü, Sivas cemrifkiaydin@gmail.cm, alierkan@gmail.cm, gungrt@bun.edu.tr, htakci@gmail.cm Özet: Kavram madenciliği yazınsal, görsel veya işitsel metinlerden anlamlı kavramlar çıkarma işlemine denir. Başta İngilizce lmak üzere yaygın larak knuşulan Batı dillerinde bu alanda ldukça fazla sayıda çalışma yürütülmüş lsa da Türkçe de şu ana kadar kavram madenciliği üzerine geliştirilmiş çk iyi başarı ranı veren bir çalışma yktur. Bu çalışmada metinlerden kavram çıkarmak için yapay zeka algritmalarının kullanımı yanında en çk yararlanılan, kelimelerin birbiriyle lan ilişkilerini hiyerarşik bir düzen içinde içeren veritabanı lan WrdNet yerine şu ana kadar denenmemiş bir yl larak TDK sözlüğü kullanılmıştır. Bir kelimenin sözlükteki kelime tanımı içerisinde yer alan kelimeler, kelimenin kavramıyla alakalı sözcükler labildiğinden anlamlı snuçlar çıkarılmıştır. Başarı ranları, daha önce Türkçe de kavram madenciliği üzerine geliştirilmiş çalışmaların verdiği snuçlardan daha iyidir. Anahtar Sözcükler: Kavram Madenciliği, Bağlamsal Analiz, Sözlüksel İlişkiler, Türkçe Derlem Develping Cncept Mining Methds in Turkish Using Dictinary Abstract: Cncept Mining is a prcess, thrugh which expressive cncepts are extracted frm textual, visual, r audi artifacts. Althugh there have been develped many methdlgies in this dmain, mainly fr English amngst many Western languages, there has been n wrk develped in Turkish s far in this dmain, that has high success rates. In this wrk, instead f using Wrd- Net, a lexical database which has synset relatins defining the hierarchical relatinships between wrds besides artificial intelligence methds, TDK dictinary is made use f, a nvel apprach. Since the wrds in this dictinary s wrd definitin may be relevant t the cncept f that wrd, expressive results culd be achieved. Success rates fr this wrk are seen t be higher than that which have been develped fr cncept mining dmain in Turkish s far. Keywrds: Cncept Mining, Cntext Analysis, Lexical Relatinships, Turkish Crpra 801 Kavram madenciliği her ne kadar genel larak yazınsal metinlerden anlamlı kavramlar çıkarma larak tanımlansa da görsel ve işitsel metinlerden de kavram çıkarma işlemleri vardır. Bu çalışmada ise sadece yazınsal metinlerden kavram çıkarılmıştır. Kavram madenciliği zr; ama bir kadar kullanımı ve yararlılığı fazla lan bir alandır. Örneğin tıp alanında hastaların ve hastalıkların sınıflandırılmasında yardımcı bir rl üstlenebilirken [1] [2], hukuksal alanda ise davaları sınıflandırmakta kullanılabilmektedir [3]. Diğer kullanım alanlarına örnek

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme Cem Rıfkı Aydın, Ali Erkan, Tunga Güngör, Hidayet Takçı larak açık uçlu anketlerin değerlendirilmesi, dkümanların sınıflandırılması ve müşteri prfillerinin değerlendirilmesi verilebilir. Şu ana kadar yabancı dillerde kavram madenciliği üzerine çğunlukla WrdNet sözlüğünden faydalanılmıştır. WrdNet kelimelerine birbiriyle lan ilişkisini ifade eden synset adlı kümeleri barındıran bir veritabanıdır. Bu küme içinde eşanlamlılık (synnymy), zıt anlamlılık (antnymy), genel anlamlılık (hypernymy) gibi bir sürü ilişki barınmaktadır, kavram bir kelimenin daha syutsal ve genel anlamını ifade ettiğinden, bu veritabanındaki hypernymy özelliğinden faydalanılmaktadır. Örneğin kedi kelimesinin WrdNet veritabanında hypernym i karşılığına bakarak bu kelimenin kavramı hayvan larak belirlenebilir. Her ne kadar İngilizce de WrdNet veritabanı ldukça gelişmiş lsa da, Türkçe için geliştirilmiş lan WrdNet veritabanı ldukça eksik ve emekleme aşamasındadır. Bu yüzden bu çalışmada WrdNet yerine TDK (Türk Dil Kurumu) sözlüğü kullanılmıştır. TDK sözlüğü sözcüklerin anlam cümlelerini içermektedir ve bu anlam cümlesindeki kelimelerle sözcük arasında birçk ilişki bulunmaktadır. Bu ilişkiler arasında, aynı WrdNet te lduğu gibi eşanlamlılık, genel anlamlılık, nedensellik gibi özellikler bulunmaktadır. Bu ilişkiler sözcüğün kavramıyla alakalı labileceğinden, sözlüğün kullanımı başarılı snuçlar vermiştir. TDK sözlüğüyle yürütülen bu çalışmada kavram çıkarma algritması, daha önce Türkçe de bu alan üzerine yapılan çalışmalardan daha başarılı snuçlar vermiştir. Çalışmanın ikinci bölümünde literatür araştırması üzerine değinilmiş, kavram madenciliği üzerine yapılan çalışmalardan kısaca bahsedilmiştir. Üçüncü bölümde geliştirdiğimiz algritma(lar) anlatılmıştır. Dördüncü bölümde değerlendirme snuçlarına yer verilirken, sn bölümde ise snuç ve öneriler verilmiştir. 2. Literatür Araştırması Şu ana kadar kavram madenciliği üzerine yapılan çalışmaların çğunda yapay zeka algritmaları ve WrdNet kullanılmaktadır. Türkçe üzerine yapılan çalışmalar çk kısıtlı lmakla beraber yapay zeka algritmaları kullanılmış; fakat Türkçe de kavram madenciliği üzerine WrdNet kullanımına pek başvurulmamıştır. Bir çalışmada web sitelerinden kavram çıkartılmaya çalışılmıştır. Önce stp-wrd lan sözcükler elenmiş, ardından frekansı belli bir eşik değeri aşan kelimeler kavram setine atanmıştır. <html>, <bdy> ve <title> gibi etiketlere (tag) de belli katsayılar atanmış ve bu etiketlerin temsil ettiği kelimelerin kavram lup lmayacağının belirlenmesinde bu katsayı skrları da etkili lmuştur. Örneğin <b> ve <title> etiketlerine daha yüksek değerli katsayılar atanmıştır; çünkü bunlar daha yüksek öneme sahiptir. Bu çalışma bag-f-wrds özelliğine sahiptir. [4] Diğer bir çalışmada WrdNet içinde bulunan synset ilişkileri kullanılarak kümeleme (clustering) algritması izlenmiştir. Burada bütün synset ilişkilerinin hesaba katılmasının kümeleme üzerinde başarısız snuçlara neden lduğu gözlenmiştir. [5] Bir çalışmada ise kavramlar dkümandaki frekans, çap gibi özelliklerine bakılarak çıkarılmış, ardından bunun üzerine metin sınıflandırılması yapılmaya çalışılmıştır. Ancak bu kavram çıkarma işleminde kavramlar dkümanlardaki kelimelerden birisi labilmekte, dkümanda geçmeyen bir kelime kavram larak belirlenememektedir, bu da pek başarılı snuçlar vermemektedir. [6] Diğer bir çalışmada bir yapay zeka uygulaması lan Latent Dirichlet Allcatin kullanılmıştır. Bu algritma her ne kadar dkümanlardan knu (tpic) çıkarmak için geliştirilmiş bir mett lsa da, bu çalışmada kavram çıkarmada elde edilen başarı yüksektir. [7] 802

Akademik Bilişim 14 - XVI. Akademik Bilişim Knferansı Bildirileri 5-7 Şubat 2014 Mersin Üniversitesi Türkçe üzerine yürütülen bir çalışmada ise kümeleme (clustering) algritması izlenmiştir. [8] Kümeleme algritması izlenirken, ilk önce manüel larak kümelere kelimeler atanmış, snra dkümanlara da bu kümeler atanarak kavram çıkarılmaya çalışılmıştır. Geliştirilen bu algritmanın başarı ranı %51 dir. Bizim geliştirdiğimiz algritmaya göre ise ne yapay zeka algritmaları, ne de WrdNet kullanılmış, nun yerine sözlük kullanılarak istatistiksel bir mett izlenmiştir. 3. Sözlük Kullanımı Şu ana kadar kavram madenciliği üzerine geliştirilmiş istatistiksel mettlar arasında en çk başvurulan yöntem WrdNet kullanımıdır. Kavramlar bir kelimenin genel anlamını ifade ettiği ve WrdNet te bulunan hipernimi özelliği de bir kelimenin genel anlamını belirttiği için bu veritabanının kullanımı ldukça faydalı snuçlar vermiştir. Fakat yalnızca hipernimi özelliğinin hesaba katılıp, diğer ilişkilerin gözardı edilmesi başarı ranlarını düşürebilmektedir. Örneğin bir dkümanda talebe kelimesi çk sık geçiyrsa, bu kelimenin yaygın kullanılan eşanlamlı kelimesi lan öğrenci sözcüğü bu dkümanın kavramı larak belirlenebilmelidir. Türkçe sözlüğündeki anlam cümlelerinde bir sürü anlam ilişkisinin varlığını ve Türkçe WrdNet veritabanının pek gelişmiş lmadığını hesaba kattığımızda, TDK sözlüğünü kullanmamız mantıklı gelmekte, snuçlar da başarılı çıkmaktadır. Bu çalışmada dkümanlardan anlamlı kavramlar çıkarmak için TDK sözlüğünün elektrnik XML frmatından yararlanılmıştır. Sözlükteki bir kelimenin XML frmatındaki özellikleri aşağıdaki gibidir. <name>: Kelimenin ismini, <affix>: Kelimenin sn eki lup lmadığını, <lex_class>: Kelimenin grubunu (isim, sıfat, vb.), <stress>: Kelimenin hangi hecesinin vurgu-landığını, <prnunciatin>: Kelimenin telaffuzunu, <rigin>: Kelimenin geldiği dili, <meaning>: Kelimenin anlamını, <qutatin>: Kelimenin kullanıldığı bir alıntı cümleyi, <ataszu_deyim_bilesik>: Kelimenin hangi ata-sözü, deyim veya bir bileşik isimde kullanıldığını belirtir. Bu çalışmada, sözlükten faydalanılırken göz önünde bulundurulan özellikler <name>, <lex_class> ve <meaning_text> tag leridir. Bu kelimeler arasından sadece isim lanlar hesaba katılmış diğerleri elenmiştir, çünkü kavramlar çğunlukla isim larak düşünülmektedir. Diğer etiketlerin (tag) pek bir önemi yktur, örneğin bir kelimenin hangi dilden geldiğinin (<rigin> etiketi) bu kelimenin kavramıyla hiçbir ilişkisi yktur. Anlam cümlelerindeki kelimeler de (çekim) eklerinden ayrılıp işlenmelidir. Dikkat edilmesi gereken bir nkta da bir kelimenin (dernek kelimesi gibi) birden çk anlama sahip labilmesidir, bunun için bağlamsal analiz gerçekleştirilerek, dkümandaki kelimenin hangi anlamının kullanıldığı tespit edilmektedir. Dkümandaki sözcüğün ve bu sözcüğün sözlükteki anlam cümlesinde geçen kelimeler arasında birçk anlamsal ilişki vardır, bunlardan bazıları aşağıda açıklanmıştır. Kavram çıkarmada en çk kullanılan anlamsal ilişki daha önce bahsedildiği gibi hipernimi özelliğidir. Şu ana kadar özellikle İngilizce de kavram madenciliği alanında yürütülen çalışmalarda hipernimi dışında bir anlamsal ilişkiden pek faydalanılmamıştır, bunun nedeni ise kavramın bir sözcüğün genelde syut anlamını ifade etmesi ve hipernimi özelliğinin bu anlamı içermesidir. WrdNet in hipernimi anlamsal ilişkisi (synset) bir genel anlam sözcüğü döndürebilirken, sözlük tanımlarında birden fazla hipernim kelimesi döndürülebilmektedir. Örneğin aslan kelimesinin sözlük tanımında kedigiller ve hayvan gibi iki hipernim kelime 803

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme Cem Rıfkı Aydın, Ali Erkan, Tunga Güngör, Hidayet Takçı labilir, bu da WrdNet teki aslan kelimesinin tek hipernim kelimesine sahip lmasına kıyasla daha başarılı snuçlar verebilmektedir. Hipernimi özelliği yanında sinnimi (eş anlamlılık) özelliği de kavram belirlemede bir rl ynayabilir, örneğin bir dkümanda hekim kelimesi çk geçiyrsa bu dkümanın dktrlar ile ilgili bir knu işlediği kanısına varabiliriz, dlayısıyla bu dkümanın kavramı dktr diyebiliriz. Kavram çıkarmada kullanılabilecek lan başlıca iki anlamsal ilişki hipernimi ve sinnimi lsa da diğer anlamsal ilişkilerden de (zıt anlam hariç) bu süreçte faydalanılabilir. Diğer anlam ilişkilerinden bazıları mernimi (bileşen anlam ilişkisi), hipnimi (daha dar kavram anlam ilişkisi) ve zıt anlamdır (antnimi), bunlardan mernimi özelliği kavram çıkarmada kullanılabilir (bir dkümanda parmak kelimesi sık geçiyrsa, parmak kelimesinin bileşeni lduğu el sözcüğü kavram larak belirlenebilir). Ayrıyeten sözlük anlam cümlelerinde kullanabilirlik (sabun-yıkama), yer (mutfak-ev), etki (kaza yapmak-yaralanmak), altlay (uyumakhrlamak), önkşul (işe gitmek-uyanmak) gibi WrdNet te synset larak bulunmayan anlamsal ilişkilerin bulunması, sözlük kullanımı ile daha başarılı snuçlara ulaşılabilmesini sağlar. 804 Bu anlam benzerlikleri (zıt anlam hariç) kelimeleri birbiriyle ilişkilendirerek, birçk alanda kullanılabilir. Kümeleme yöntemi uygulanacak lursa benzer anlamlara sahip kelimeler aynı kümeye atanabilir. (Örneğin karanfil kelimesi ile gül kelimesinin TDK anlam cümlelerinde rtak kelimeler lduğu için bitki gibi- bunlar aynı kümeye atanabilir.) Bu çalışmanın ana algritmasından ayrı larak bu yöntem uygulanmış; fakat çk başarılı snuçlar elde edilmemiştir (kümeleme yöntemi ile kesinlik başarı ranı %40.17 larak tespit edilmiştir), bunun nedeni ise bütün derlem dküman kelimeleri ile luşturulan büyük veri seti matrislerinin (satırların dküman kelimelerini, sütunların ise dküman kelimelerinin sözlük tanım cümlelerindeki sözcükleri temsil ettiği) ldukça fazla sayıda 0 değeri içermesidir. PCA (Principal Cmpnent Analysis) uygulanarak byut azaltılmaya çalışılmış ve 3 ile 4 seviyeli hiyerarşik mettlarla matrisler luşturulmuştur. Fakat daha snra kümeleme yerine daha basit bir istatistiksel mett izlenmiş, snuçların daha başarılı lduğu gözlenmiştir. 3.1. Kelime Anlamının Tespiti CnceptNet [9], WrdNet [10] gibi sözlükler yapısal (structured) bir özelliğe sahip lması nedeniyle bir ön-işleme sürecine tabîi tutulmak zrunda değildir; fakat TDK Sözlüğü için durum farklıdır. Anlam cümlelerindeki kelimeler genelde çekim ekleriyle birlikte bulunmaktadır ve kavramlar bu çalışmada isim larak düşünüldüğü için Bğaziçi Üniversitesi nde geliştirilen BMrP ve BDis araçları kullanılmıştır. [11] [12] Bu araçlarla kelimeler çekim eklerinden ayrılarak kelimelerin kökleri elde edilmektedir ve kelime grupları (isim, sıfat vb.) belirlenebilmektedir. Bir dkümanda geçen kelimenin TDK sözlüğünde birden çk anlamı bulunabilmektedir, bu durumda hangi anlamının kullanıldığı sözlüğe bakılarak belirlenebilir. Bunun için birden çk sözcük anlamı bulunan kelimelerin 30 kelimelik bağlamlarına bakılmıştır. Buna göre kelimenin dkümanda sağında geçen 15 ve slunda geçen 15 kelimeye bakılmıştır. Sözlük anlam cümlelerinden hangisinde bağlamlarda geçen rtak kelime frekansı nrmalize edilmiş (sözcük anlam cümlesi uzunluğuyla bölünerek) haliyle en fazlaysa, anlam cümlesi kullanılmakta lan anlam larak belirlenmektedir. Bu muğlaklık gidermenin frmülü aşağıda verilmiştir. Bu frmülde m sözlük anlam cümlesini, c w ise w kelimesinin derlemdeki bağlamını (cntext) belirtmektedir. 3.2. Kavramların Çıkarılması Bu çalışmada iki farklı algritma geliştirilmiş, ikinci algritmanın daha başarılı lduğu gözlenmiştir. Geliştirdiğimiz algritmalara göre,

bir dkümanın lası kavramları çıkarılırken, dkümanda en sık geçen kelimelerin daha fazla bir ağırlığı lmalıdır. Örneğin bir dkümanda çk sayıda vleybl kelimesi geçiyrsa, dkümanın lası kavramlarından birisini spr larak atayabiliriz. Bizim geliştirdiğimiz algritmada aşağıdaki frmül kavram atamada kullanılmıştır: Yukarıdaki frmülde Sıklık bir kelimenin frekansını, Knum kelimenin dkümanda bulunduğu ilk knumu (dkümanda baştan kaçıncı kelime lduğunu), Kapsam ise kelimenin bir dkümanda ilk geçtiği yerle sn geçtiği yer arasının kapsadığı kelime sayısının tplam dküman kelime sayısına bölünmesiyle elde edilen değeri ifade eder. Örneğin hekim kelimesi dkümanın ilk kelimesi ve sn kelimesiyse, bu dkümandaki kapsamı en fazla lan kelime budur. Eğer bir kelime dkümanın başlarında geçiyrsa, bu kelimenin öneminin daha fazla lduğu anlaşılabilir, örneğin başlık kelimeleri dkümanın genel kavramını ifade edebileceği için bunların ağırlığı snlara dğru geçen kelimelere ranla daha fazla lmalıdır. Aynı zamanda bir kelimenin ilk ve sn geçtiği yerler dkümanın ransal larak çğunu kapsıyrsa, bu kelime dkümanın lası kavramlardan biri labilmektedir, yüzden kapsamı geniş lan kelimelerin de ağırlığı daha fazla lmalıdır. Yukarıdaki frmüle göre ham frekanslar hesaba katılırken, diğer faktörlerin lgaritmik değerleri kullanılmıştır; çünkü bir kelimenin, kelimenin geçtiği dkümandaki frekansı diğer faktörlere göre daha önemlidir, dlayısıyla katsayısı da daha fazla lmalıdır. Bu frmülün ürettiği değerler göz önünde bulundurularak bir matris luşturulur ve matris hücreleri bu değerlerle dldurulur. Bu matriste satırı temsil eden kelimeler, dkümanda bulunan kelimeler, sütunları temsil eden kelimeler ise dküman kelimelerinin sözlük anlam cümlesi kelimeleridir. Her satır ve sütun kelimesi matriste en fazla bir defa bulunmaktadır. Akademik Bilişim 14 - XVI. Akademik Bilişim Knferansı Bildirileri 5-7 Şubat 2014 Mersin Üniversitesi 805 Örneğin dkümanda geçen kelimelerden birisi vleybl ise matrisin bir satırı vleybl kelimesini etmekte, bu kelimenin sözlükte geçen anlam cümlesi kelimelerinden yun, spr ve takım kelimeleri ise üç sütunu temsil etmektedir. Dkümandaki diğer kelimeler de hesaba katılıp matris değerleri frmül 1 e göre luşturulan değerlerle dldurulur ve sütun değerleri tplanır. Hangi sütun değeri en fazlaysa sütunu temsil eden kelime dkümanın kavramı larak belirlenebilir. Matristeki bazı hücrelerin değerinin 0 lması, satırı temsil eden kelimenin sözlük anlam cümlesinde sütunu temsil eden kelimenin bulunmadığı anlamına gelmektedir. Tabl 1 e göre bir dkümanda iki tane isim lduğu (kaplan ve maymun) farz edilirse ve bu kelimelerin frekansları sırasıyla 2 ve 3 ise, bu dkümanın kavramının hayvan lduğu görülebilmektedir. (Hayvan kelimesi her iki dküman sözcüğünün de sözlük anlam cümlesinde geçmektedir ve bu kelimeye denk düşen sütunun değeri diğer sütun tplamlarından daha fazladır.) Kedigiller Pst Hayvan Kuyruk Kap-lan May-mun Kaplan 2 2 2 0 2 0 Maymun 0 0 3 3 0 3 Tplam 2 2 5 3 2 3 Tabl 1. Genel sözlük algritmasına göre kelimeleri kaplan ve maymun lan dkümanın kavramı hayvan larak belirlenmektedir Yukarıda anlatılan algritmaya göre iki seviyeli bir mett izlenmiştir. İki seviyeli algritmaya göre dkümanlardaki kelimeler birinci seviyede, kelimenin anlam cümlesindeki kelimeler ise ikinci seviyede yer almaktadır. Ayrıyeten üç seviyeli yapılar da geliştirilerek kavram atama işlemi yapılmıştır, buna göre birinci seviyede dkümandaki kelime, ikinci seviyede kelimenin anlam cümlesindeki kelimeler, üçüncü seviyede anlam cümlesindeki kelimelerin anlam cümlesindeki kelimeleri geçmektedir. Bu hiyerarşik yapıya bir örnek Şekil 1 de verilmiştir.

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme Cem Rıfkı Aydın, Ali Erkan, Tunga Güngör, Hidayet Takçı Jaguar [1] Hayvan [0.44] Kedigiller [0.44] Pst [0.44] Organizma [0.26] Yaratık [0.26] Duygu [0.26] İçgüdü [0.26] Kedi [0.26] Sy [0.26] Sınıf [0.26] Hayvan [0.26] Tüy [0.26] Hayvan (Elenir) Deri [0.26] Şekil 1. Jaguar kelimesinin 3-seviyeli hiyerarşik yapısı Burada kelimelerinin yanındaki sayısal değerler, matriste bu kelimelere denk düşen hücrelerin çarpılacak katsayılarıdır. Örneğin en üst seviyedeki kelimenin katsayısı 1 iken, ikinci seviyenin katsayısı 0.44, üçüncü seviyenin katsayısı ise 0.26 labilmektedir. Bu katsayı atama mantığının nedeni hiyerarşik yapıda üstten aşağıdaki seviyelere inildikçe anlamsal ilişkinin zayıflamasıdır, katsayılar ise bir seviye aşağı inince kelimelerin genelde gemetrik larak artışından dlayı gemetrik larak azalır. Eğer bir kelime hiyerarşik yapıda birden fazla defa görülüyrsa en üst seviyedeki krunur, diğerleri elenir. (Şekil 1 de hayvan kelimesi iki defa göründüğü için alt seviyedeki elenir.) En başarılı snuçların iki seviye için çıktığı, üç seviyeli yapının yalnızca bir derlemde daha başarılı lduğu, dört seviyeli yapının başarısız snuçlar verdiği gözlenmiştir. Sözlükte en çk geçen %1 lik kelime stp-wrds larak belirlenmiş, bunlar elenmiştir. Bu algritmaya göre bir dkümanın kavramı belirlenirken, kavram kelimesi dkümanda geçmek zrunda değildir. Bir dkümandan çıkarılan kavramın dkümanda bulunmak zrunda lmayışı dğru ve faydalı bir yaklaşımdır; çünkü sadece dkümanda bulunan önemli kelimeleri çıkarma işlemi lan anahtar kelime çıkarımı ile kavram çıkarımı 806 arasındaki en büyük fark budur. Bu algritmanın psödkdu Şekil 2 de verilmiştir. Yukarıda anlatılan genel sözlük algritmasının (DictAlg) büyük derlemlerin ve uzun dkümanların kavramlarını çıkarmada başarılı lduğu gözlense de kısa dküman veya metinlerden kavram çıkarmada başarısız lduğu gözlenmiştir. Bunun nedeni ise bir kelimenin kavramının nun sözlük tanımındaki bütün kelimelerle alakalı lmamasıdır. Girdi F1: Derlem dkümanları Output F2: Dküman kavramları Başla 1: L <- F1 i listeye ata 2: her L dkümanı için 3: Matris <- Ø 4: dküman i deki her j kelimesi için 5: 6: Dkümanda j kelimesinin kullanıldığı bağlamdaki anlam cümlesi kelimelerini Anlam a ekle j kelimesini Anlam a ekle 7: Anlam daki her k kelimesi için 8: 9: 10: 11: 12: 13: 14: 15: 16: Bitim Matris(j, k) = Sıklık( j) * Knum(j) * Kapsam(j) döngü bitimi döngü bitimi Matrisin bş hücrelerini sıfır değeriyle dldur Matris <- Aynı lan satır ve sütunları sil Liste <- tpla(matris sütunları) Liste <- sırala(liste) En yüksek değere sahip Liste elemanlarını F2 ye ekle döngü bitimi Şekil 2. Genel sözlük algritması Geliştirilen ikinci algritmaya göre dkümandaki kelimelerin bütün derlemde bulunan 30 kelime byutlu bağlamlarına (kayan pencere),

yani 15 sağındaki, 15 slundaki kelimeye ve kelimenin kendisine bakılmıştır. Hangi kelimeler hem bu bağlamlarda, hem de sözcüğün sözlük anlam cümlelerinde geçiyrsa nlar hesaba katılmış, diğerleri göz ardı edilmiştir. Bu derlem-bazlı yaklaşım mantıklıdır; çünkü büyük derlemlerde kelimeler, bağlamlarında genelde bu sözcüklerin genel anlamını ifade eden, yani kavramlarıyla birlikte geçer. Bu algritma için de iki alt-algritma geliştirilmiştir, nlar da aşağıdaki gibidir: Yğun kayan pencere algritması: Buna göre 30-kelimelik bağlamlarda (kayan pencere) ve sözlük anlam cümlelerinde geçen rtak kelimelerin hepsi hesaba katılıp, matris değerleri na göre dldurulmaktadır. Seyrek kayan pencere algritması: Bu algritmaya göre 30-kelimelik bağlamlarla sözlük tanım cümlelerinde geçen rtak kelimelerden hangisinin bütün derlem bağlamlarında frekansı en yüksekse sadece hesaba katılmıştır, yani önceki alt-algritmaya göre kısıtlı larak bir kelimenin bağlamlarından en fazla bir kelime (sözlük anlam cümlesinde de geçiyrsa) göz önünde bulundurulmaktadır. Bu algritmaya göre dkümandaki her kelime için iki kelime hesaba katılmıştır: Dkümandaki kelimenin kendisi ve bu kelimenin bağlamlarında, sözlük anlam cümlesinde de geçme şartıyla, en sık geçen kelime. Matris değerleri de buna göre dldurulmuştur. Yukarıda anlatılan iki alt-bağlam algritmasını genel sözlük algritmasına göre daha başarılı snuçlar verdiği gözlenmiştir; çünkü bir kelimenin sözlük tanımındaki her sözcük kelimenin kavramıyla, yani genel anlamıyla ilişkilendirilemez. 4. Deneyler ve Snuçlar Akademik Bilişim 14 - XVI. Akademik Bilişim Knferansı Bildirileri 5-7 Şubat 2014 Mersin Üniversitesi 807 Bu çalışma için dört derlemdeki tplam 368 dkümandan geliştirilen üç algritmaya göre kavramlar çıkarılmıştır. Bu derlemler Gazi Üniversitesi derlemi (Gazi Unv.), spr haberleri derlemi (Sprt News), yargıtay kararları derlemi (Frensic) ve yargıtay haberleri derlemidir (Frensic News). Başarıyı ölçmek için dkümanlardan manüel larak kavramlar çıkarılmış, bunlar algritmanın çıkardığı kavramlarla kıyaslanmıştır. Kavramlar hem algritmik, hem de manüel larak belirlenirken önem sırasına göre çıkarılmıştır, ilk 3, 5, 7, 8, 9, 10 ve 15 kavramlar kıyaslanmıştır. Örneğin Tabl 2 ye göre birinci dküman için manüel larak çıkarılan (önem sırasına göre) ilk üç kavramdan ikisi (spr ve karşılaşma), algritmik larak çıkarılan ilk üç kavramda yer aldığı için başarı ranı 2 / 3, yani 0.66 dır. Dküman 2 de ise baş 3 kavram arasında sadece bir rtak kelime lduğu için başarı ranı 0.33 larak bulunabilmektedir. Dkümanlar Algritma Manüel Dküman 1 Dküman 2 Spr, Oyun, Karşılaşma Mahkeme, Avukat, Hakim Spr, Karşılaşma, Plitika Avukat, Sanık, Karşılaşma Tabl 2. İki dkümanın baş üç kavramı İlk kavramları kıyaslama yanında izlenen diğer bir başarı ölçme metriği ise algritmik larak çıkarılan ilk kavramları, dkümandan manüel larak çıkarılan bütün kavramlarla kıyaslama yludur. Bu yöntem çk daha yüksek başarı ranları vermektedir. Başarı snuçları Tabl 3 te verilmektedir. Bu snuçlara göre genel sözlük algritmasında (birinci algritma) en başarılı snuçlara 2-seviyeli hiyerarşik yapıda, frekans ve diğer faktörler göz önünde bulundurularak dldurulan matris ile ulaşılmaktadır. 3-seviyeli hiyerarşik yapılı ve sadece 0-1 değerleriyle (frekans ve diğer faktörler göz ardı edilerek) dldurulan matris ile kavram çıkarma işlemi göreceli daha başarısız snuçlar vermektedir. En başarılı snuçlara ikinci algritma ile (bağlam tabanlı) ulaşılmıştır. Bazı derlemlerde snuçların daha başarısız çıkmasının sebebi bu derlemlerin bir sürü farklı knuda dkümanları içermesidir,

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme Cem Rıfkı Aydın, Ali Erkan, Tunga Güngör, Hidayet Takçı dlayısıyla bir kelimenin bağlamlarından nun genel anlamını ifade eden kavramını çıkarmada zrluk çıkmaktadır. Örnek amacıyla Tabl 4 te birinci algritmanın bütün alt-mettlarıyla ikinci algritmanın bütün derlemler için k değerinin üç larak hesaba katılmasıyla elde edilen başarı snuçlarının kıyaslaması verilmiştir. Genel sözlük algritmasına (İki-seviye, 1-0) göre frekans ve diğer faktörler gözardı edilerek matris hücreleri sadece kln hücreleri satır hücrelerinin sözlük tanım cümlelerinde geçip geçmemesine göre 0 ve 1 değerleriyle dldurulmuştur. Genel sözlük algritmasına göre (İki-seviye, faktör) ise öncekinden farklı larak frekans, ilk knum ve kapsam faktörleri, genel sözlük algritmasına (üç-seviye, katsayı) göre ise üç-seviyeli hiyerarşik yapı hesaba katılmıştır. İkinci algritma ise seyrek kayan pencere algritmasıdır. Tabl 3. Dört derlem için elde edilen başarı yüzdeleri Tabl 4. Birinci algritma alt-mettları ile ikinci alt-algritma (seyrek kayan pencere) snuçlarının kıyaslanması 808

Akademik Bilişim 14 - XVI. Akademik Bilişim Knferansı Bildirileri 5-7 Şubat 2014 Mersin Üniversitesi 5. Snuç ve Öneriler Bu çalışmada daha önce Türkçe de kavram madenciliği üzerine denenmemiş bir yl larak sözlük tabanlı bir algritma izlenmiş ve başarılı snuçlar elde edilmiştir. WrdNet in sadece bir özelliği (hipernimi) hesaba katılarak kavram çıkarma yöntemi yetersiz kalabilmektedir. Bu sözlük tabanlı kavram çıkarma algritması ile dkümanlarda geçmeyen kelimeler de kavram larak belirlenebilmektedir. Geliştirilen alt-mettlardan en başarılısı ikinci algritmadır; çünkü bir kelimenin kavramı nun sözlük tanımı kelimelerinin hepsiyle alakalı değildir, dlayısıyla bazı sözlük anlam cümlesi kelimelerinin elenmesi mantıklı snuçlar dğurmuştur. Gelecek çalışmalarda, kavram madenciliği üzerine bu makalede anlatılan algritmanın çıkardığı kavramlarla metin sınıflandırması (text categrizatin) üzerine çalışılacaktır. Ayrıca arama mtru snuçlarında dkümanlardan çıkarılan kavramlara göre sayfa sıralamasının (page ranking) düzenlenmesinin başarı ranını artırıp artırmayacağı incelenecektir. 6. Teşekkür Bu çalışma 5187 nay numarasıyla Bğaziçi Üniversitesi Araştırma Fnu ve 110E162 nay numarasıyla TÜBİTAK tarafından desteklenmiştir. Cem Rıfkı Aydın TÜBİTAK BİDEB 2210 bursuyla Yüksek Lisans öğrenimi süresince desteklenmiştir. Haşim Sak a Biçimbirimsel Analiz ve Muğlaklık giderici araçlarını bize sağladığı için teşekkür ederiz. 7. Kaynaklar [1] Faber, V., Hchberg, J.G., Kelly, P.M., Thmas, T.R. &White, J.M., Cncept Extractin a datamining technique, Ls Alams Science, (1994). [2] Bennett, N.A., He, Q. Chang, C.T.K. & Schatz, B.R., Cncept Extractin in the Interspace Prttype, Technical Reprt, Dept. f Cmputer Science, University f Illinis at Urbana-Champaign, Champaign, IL, (1999). [3] Mens, M. & Angheluta, R., Cncept Extractin frm Legal Cases: The Use f a Statistic f Cincidence, Internatinal Cnference n Artificial Intelligence and Law, ICAIL, ACM, (2003). [4] Ramirez, P. M. & Mattmann, C. A., ACE: Imprving Search Engines via Autmatic Cncept Extractin, Infrmatin Reuse and Integratin, (2004). [5] Pennck, D., Dave, K. & Lawrence S., Mining the Peanut Gallery: Opinin Extractin and Semantic Classificatin f Prduct Reviews, Twelfth Internatinal Wrld Wide Web Cnference (WWW 2003), ACM, (2003). [6] Chengzhi, Z. ve Dan, W., Cncept Extractin and Clustering fr Tpic Digital Library Cnstructin, Internatinal Cnference n Web Intelligence and Intelligent Agent Technlgy, IEEE/WIC/ACM, (2008). [7] AlSumait, L., Barbar a, D. ve Dmenicni, C., OnLine LDA: Adaptive Tpic Mdels fr Mining Text Streams with Applicatins t Tpic Detectin and Tracking, Prceedings f the 2008 Eighth IEEE Internatinal Cnference n Data Mining, ICDM, (2008). [8] Uzun, M., Develping a cncept extractin system fr Turkish, Internatinal Cnference n Artificial Intelligence, ICAI, (2011). [9] CnceptNet, http://cnceptnet5.media.mit. edu/, 8 Ocak 2014. 809

Sözlük Kullanarak Türkçe için Kavram Madenciliği Mettları Geliştirme Cem Rıfkı Aydın, Ali Erkan, Tunga Güngör, Hidayet Takçı [10] WrdNet, http://wrdnet.princetn.edu/, 8 Ocak 2014. [11] Sak, H., Güngör, T. ve Saraçlar, M, Mrphlgical disambiguatin f Turkish text with perceptrn algrithm, CICLing 2007, vl. LNCS 4394, pp. 107-118, (2007). [12] Sak, H., Güngör, T. ve Saraçlar, M., Turkish Language Resurces: Mrphlgical Parser, Mrphlgical Disambiguatr and Web Crpus, GTAL 2008, vl. LNCS 5221, pp. 417-427, Springer, (2008). 810