TÜRKÇE ULUSAL DİL DERLEMİ PROJESİ BİÇİMBİRİM ÇALIŞMALARINDA BELİRSİZLİKLERİN SINIFLANDIRILMASI VE DAĞILIMI

Benzer belgeler
BİÇİMBİRİM AÇIMLAMA VE BELİRGİNLEŞTİRME. Ümit MERSİNLİ, Mustafa AKSAN Mersin Üniversitesi

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

TÜRKÇENİN BİÇİMBİRİM VE SÖZCÜK TÜRÜ İŞARETLEMESİ 1. Ümit MERSİNLİ ve Mustafa AKSAN Mersin Üniversitesi


TS Corpus Türkçe Derlemi *

TÜRKÇENİN DERLEM-TEMELLİ SIKLIK SÖZLÜĞÜ: TEMEL İLKELER VE UYGULAMA

Türkçe Dokümanlar Ġçin Yazar Tanıma

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

Biçimbirim Dizilerinin Farklı Metin Türlerindeki Görünümleri *

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜRKÇE İÇİN BİÇİMBİRİMSEL BELİRSİZLİK GİDERİCİ. YÜKSEK LİSANS TEZİ Müh. Z.

Yeşim AKSAN ve Yılmaz YALDIR Mersin Üniversitesi

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ Metin Madenciliği

Doç. Dr. Bülent ÖZKAN Mersin Üniversitesi

Türkçe için Karşılaştırmalı bir Kelime Anlamı Belirginleştirme Uygulaması

YÖK tarafından ülkemizdeki yükseköğretim kurumlarının akademik ve idari hizmetlerinin kalite düzeylerinin iyileştirilmesine yönelik olarak

YÖK DOKÜMANTAYON MERKEZİ HİZMETLERİ

İLKÖĞRETİM TÜRKÇE DERS KİTAPLARI DERLEMİ VE TÜRKÇE ULUSAL DİL DERLEMİ ÖRNEKLEMİNDEKİ SÖZCÜK SIKLIKLARI 1

Geçmişten Günümüze Kastamonu Üniversitesi Dergisi: Yayımlanan Çalışmalar Üzerine Bir Araştırma 1

Kelime Gösterimleri (Word Representation Word Embeddings)

İNGİLİZCE HAZIRLIK PROGRAMI SEVİYE 1 DERS MÜFREDATI

Kullanım Kılavuzu Aralık 2017

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

İLKÖCRETİM TÜRKÇE DERS KİTAPLARI DERLEMİ VE TÜRKÇE ULUSAL DİL DERLEMİ ÖRNEKLEMİNDEKİ SÖZCÜK SIKLIKLARı i

ULUSLARARASI ANTALYA ÜNİVERSİTESİ AKADEMİK YAYINLARI TEŞVİK YÖNERGESİ BİRİNCİ BÖLÜM

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Kullanım Kılavuzu Eylül 2018


Kullanım Kılavuzu Aralık 2017

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Yönetim Anasayfa : Tanımlar : Parametreler : Seo yolu izlenerek dinamik seo modülüne erişebilirsiniz.

BĠYOLOJĠ EĞĠTĠMĠ LĠSANSÜSTÜ ÖĞRENCĠLERĠNĠN LĠSANSÜSTÜ YETERLĠKLERĠNE ĠLĠġKĠN GÖRÜġLERĠ

TS Corpus: Herkes için Türkçe derlem. Taner Sezer * Bengü Sever Sezer ** Mersin Ünivesitesi

Eğitim Bağlamında Oyunlaştırma Çalışmaları: Sistematik Bir Alanyazın Taraması

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Sağlık Bilimleri Türkçe Derlemi

ÖZGEÇMİŞ Doç. Dr. BÜLENT ÖZKAN

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

e-öğrenme Hizmetlerinde Bütünsellik, Kalite ve Sürdürülebilirlik

DİYETİSYEN OTOMASYONU ÖĞRETİM TASARIMI RAPORU ÜYELER 1) BÜŞRA KORKMAZ 2) NURCAN YILDIRIM

Türkçe ve Doğal Dil İşleme Turkish Natural Language Processing. Özet. Kemal Oflazer Carnegie Mellon Üniversitesi - Katar Doha, Katar ko@cs.cmu.

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Uygur Tümcesinin Bilgisayar ile Çözümlenmesi

Dağıtık Sistemler CS5001

İDV ÖZEL BİLKENT ORTAOKULU SINIFLARINA KONTENJAN DAHİLİNDE ÖĞRENCİ ALINACAKTIR.

ÜNİBİLGİ. Ankara Üniversitesi Kütüphane ve Dokümantasyon Daire Başkanlığı

BÖLÜM 1 ÖLÇME VE DEĞERLENDİRMEDE TEMEL KAVRAMLAR

PSİKOLOJİDE ÖLÇEK KAVRAMI VE ÖLÇEK TÜRLERİ /11 Bogardus Tutum Ölçeği /12 Thurston Ölçeği /13 Likert Tipi Ölçekler /13 Guttmann Tutum Ölçeği /15

Öğrencilerin Üst Düzey Zihinsel Becerilerinin Belirlenmesi. Öğrenci Portfolyoları

KKTC de ilkokulda zihin engelli öğrencilere okuma öğretiminde uygulanan yöntem cümle çözümleme yöntemidir. Bu yöntem Türkiye deki Eğitim Uygulama

KOCAELİ ÜNİVERSİTESİ UZAKTAN EĞİTİM ARAŞTIRMA VE UYGULAMA MERKEZİ DESTEK DOKÜMANLARI

Deneysel Verilerin Değerlendirilmesi. Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR. Prof. Dr. Murat ELİBOL FİNAL SINAVI

İRİSTEN KİMLİK TANIMA SİSTEMİ

Veri Tabanı Yönetim Sistemleri Bölüm - 5

Koşullu Rastgele Alanlar ile Türkçe Haber Metinlerinin Etiketlenmesi (Labelling Turkish News Stories with Conditional Random Fields)

5.3 Elektronik kaynaklar Elektronik sözlükler. (a) elektronik sözlükler, (b) metin bütünceleri.

adresinden ÖĞRETİM ÜYESİ GİRİŞİ

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

ÖĞRETMEN ADAYLARININ PROBLEM ÇÖZME BECERİLERİ

YZM Biçimsel Diller ve Otomata Teorisi. Ders#06

1. VERİ TABANI KAVRAMLARI VE VERİ TABANI OLUŞTUMA

Gazi Üniversitesi Merkez Kütüphanesi

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

İŞ VE MESLEK DANIŞMANLIĞI HİZMETLERİ

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

Veri Madenciliği Karar Ağacı Oluşturma

Bölüm 2 Varlık-İlişki Veri Modeli: Araçlar ve Teknikler. Fundamentals, Design, and Implementation, 9/e

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Ulusal Yeterlilikler Çerçevesine Dayalı AKTS Uygulamaları. Prof. Dr. Oğuz ESEN

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Açıköğretim Uygulamaları ve Araştırmaları Dergisi AUAd

UZAKTAN EĞİTİM MERKEZİ

Şekil 1. Sitiller ve biçimlendirme

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

TAGEM AÇIK ARŞİV SİSTEMİ BİLGİ NOTU

UYGULAMALI BİLİMLER FAKÜLTESİ

TS Corpus: Herkes için Türkçe Derlem

Anlam Belirsizliği İçeren Türkçe Sözcüklerin Hesaplamalı Dilbilim Uygulamalarıyla Belirginleştirmesi

BÖLÜM 13 HİPOTEZ TESTİ

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Sisteme giriş yapıldığında ana sayfa üzerinde işlem menüleri, Hızlı erişim butonları ve mail gönderim istatistikleri yer alır.

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU

TÜRKİYE DEKİ ÜNİVERSİTE KÜTÜPHANELERİNDE KULLANILAN TÜRKÇE KONU BAŞLIKLARI UYGULAMASI. ŞULE YILMAZ Kadir Has Üniversitesi

Ders 9 Hastanelerde Veri Toplama Yöntemleri

Moodle-IST Kullanım Klavuzu

Uygulamalı Meta-Analiz

EKLER VE SÖZCÜĞÜN YAPISI

MİNİ MBA LİDERLİK AKADEMİSİ. NMT Danışmanlık ve Eğitim Merkezi- Koşuyolu Cad. Salih Omurtak Sok. No:5 Kadıköy/İST (216)

ANKARA ÜNİVERSİTESİ EĞİTİM BİLİMLERİ ENSTİTÜSÜ TEZ ÖNERİSİ YAZIM KILAVUZU

Resim 7.20: Yeni bir ileti oluşturma

ÖZEL BİLGE İLKOKULU EĞİTİM-ÖĞRETİM YILI 3. SINIFLAR VELİ BİLGİLENDİRME BÜLTENİ

A New Approach for Named Entity Recognition

Transkript:

TÜRKÇE ULUSAL DİL DERLEMİ PROJESİ BİÇİMBİRİM ÇALIŞMALARINDA BELİRSİZLİKLERİN SINIFLANDIRILMASI VE DAĞILIMI Yeşim AKSAN, Ümit MERSİNLİ, Yılmaz YALDIR ve Umut Ufuk DEMİRHAN Mersin Üniversitesi yesim.aksan@gmail.com, umit@mersinli.org, yilmazyaldir@gmail.com, umutufuk@gmail.com 1. GİRİŞ 1.1. Alanyazın Türkçe için yapılan biçimbirim belirginleştirme çalışmaları incelendiğinde Oflazer ve Kuruöz (1994) ün Tagging and Morphological Disambiguation of Turkish Text başlıklı çalışmalarında Türkçenin iki düzeyli biçimbilimsel bir tanımının PC-KIMMO yazılımına Türkçe kural setlerini tanımlanarak yapıldığı gözlenmektedir. Uyarlanan açımlayıcı, olasılık temelli bilgi toplanması ve kullanımı, çok sözcüklü yapı tanıma ve kısıtlama ve sözcük türü belirginleştirme çözümleyicisi ile genişletilmiştir. Sözcük kullanım sıklıklarıyla ilgili hesaplamalı bilgiler, belirsizliklerin çözümlenmesinde kullanılmaktadır. İstatistiki bilgilerin kullanıldığı yerlerden biri de, bir sözcüğün çok ender kullanılan anlamlarının elenmesidir. Oflazer ve Kuruöz (1994) bu istatistiklerin toplanmasının yanı sıra, işaretleyicinin kullanıcı tarafından belirtilen hatalı ayrıştırmalarını da kayda geçirdiğini ve böylelikle biçimbilimsel çözümleyicinin düzeltilebildiğini ifade etmektedir. Biçimbirimsel belirsizlik, istatistiki bilgi kullanılarak, otomatik olarak çözümlenemezse, bu belirsizlikleri çözmek için sözdizimsel bağlamlara gitmek durumunda kalınacaktır. Bir sözcüğün çoklu açımlamalarının belirginleştirilmesi için, sözcüğün yerel bağlamı üzerindeki kısıtlamaların neler olduğu saptanmaktadır. Tür (1996) ün Using Multiple Sources of Information for Constraint-Based Morphological Disambiguation başlıklı çalışması otomatik belirginleştirme yöntemini kullanarak; eğitici derlemden (training corpus), eğiticisiz öğrenme (unsupervised learning) yoluyla öğrenilen elle hazırlanmış kısıtlama kurallarını, biçimbilimsel belirginleştirilmesi yapılan derlemden elde edilen ek olasılıksal bilgiyle birleştirmektedir. Elle oluşturulmuş kuralların geri çağırmadan (recall) kısıtlama yapmaksızın, kesinlik (precision) artıracak şekilde düzenlenen dilbilimsel kurallar olduğu bildirilmektedir. Geri çağırma doğru olarak işaretlenmiş örnekçe sayısının, işaretlenen toplam örnekçe sayısına bölünmesiyle elde edilen orandır. Kesinlik ise işaretleyicinin metinden attığı istenmeyen işaret sayısıdır. Tür (1996) de tanıtılan bu çözümleyici %93-94 lük bir kesinlik ve örnekçe başına 1.02-1.03 lük çözümleme (parse) oranındaki belirsizlikle, %96-97 lik geri çağırmaya sahiptir. Yüret ve Türe (2006) nin Learning Morphological Disambiguation Rules for Turkish adlı çalışması Türkçe metinlerin kural temelli bir biçimbirimsel belirginleştirme çalışmasıdır. Çalışma karar listelerini temel alan yeni bir yöntem kullanmaktadır. Karar listeleri, sıralanmış kural dizileridir. Her bir kural ise bir örüntü (pattern) ve bir sınıflandırmadan (classification) meydana gelmiştir. Bu kurallar, kural-temelli denetlemeli çalıştırma yöntemi (supervised learning) kullanan algoritma tarafından üretilmektedir. Algoritma, bir problemin çözümünde kullanılan işlemler dizisidir. Yeni karar listesi öğrenebilen bu algoritma ile 126 biçimbirimsel özelliğin her biri için farklı bir model eğitilmiş, elde edilen karar listeleriyle bir sözcüğün olası ayrıştırılmalarına olasılık değeri verilerek son işaretleme yapılmıştır. Çalışmada en iyi çözümü seçmek üzere her bir karar listesinin doğruluğu da hesaba katılarak sonuçlar olasılık temelinde birleştirilmiştir. Yüret & Türe (2006) modellerinin doğruluk oranını %96 olarak vermekte ve bu oranın kendilerinden önceki bildirilmiş en iyi doğruluk oranlarından biraz daha yüksek olduğunu ifade etmektedirler. Daybelge ve Çiçekli (2007) Türkçe için kural-temelli bir biçimbilimsel belirginleştirici geliştirmiştir. Geliştirdikleri biçimbirimsel belirginleştirici İngilizce ile Türkçe arasında örnektemelli makine-çeviri sisteminin bir parçası olarak kullanılmak üzere planlanmıştır. Bu kural-

temelli biçimbirimsel belirginleştiriciyi değerlendirmek üzere internet ortamından rastgele seçilmiş 15 makaleyi içeren bir test kümesi hazırlamışlardır. Farklı işlem basamakları sonucunda ulaştıkları duyarlık düzeyi % 81,2 ve geri çağırma oranıda % 98,5 olmuştur. Morphological Disambiguation of Turkish Text with Perceptron Algorithm adlı çalışmada Sak vd. (2007) ise Türkçe metinlerin biçimbilimsel işaretlemesini ve biçimbilimsel belirginleştirilmesini olasılık temelli Perceptron Algoritması kullanarak yapmıştır. Bu çalışmanın en önemli özelliği Türkçe metinlerin biçimbilimsel belirginleştirilmesi için perceptron algoritmasını uygulamasıdır. Perceptron terimi, insan beyninin tanıma ve ayırtetme yetilerini taklit etmeye çalışan modeller için kullanılmaktadır. Sak vd. (2007) ne göre biçimbilimsel belirginleştirme yapmak üzere eğitilmiş perceptron, temel modelin doğruluk derecesini % 93,61 den % 96,80 e yükseltmektedir. Perceptron un sözcük türü işaretleyicisi olarak eğitildiği durumda ise doğruluk oranı % 98,27 olarak bildirilmektedir. Elde edilen Türkçenin biçimbilimsel belirginleştirilmesi ve sözcük türü işaretlemesi sonuçlarının bugüne kadar bildirilen en iyi sonuçlar olduğu vurgulanmaktadır. 1.2. Biçimbirim Açımlamada Kullanılan Temel Kavramlar Biçimbirim açımlamada sıklıkla kullanılan temel kavramlar Belirsizlik (ambiguity), Belirginleştirme (disambiguation), Kural tabanlı belirginleştirme (rule-based disambiguation), Olasılığa dayalı belirginleştirme (probabilistic disambiguation) olarak sıralanabilir. 1.2.1. Belirsizlik Kullanılan temel kavramlardan ilki belirsizlik kavramıdır. Derlem açımlamada, belirsizliğin ortaya çıktığı durumlar, bir derlem metni içinde herhangi bir noktada iki ya da daha fazla işaretleme seçeneğinin bulunduğu durumlardır. Örneğin; sözcük türü işaretlemede, bazı sözcüklerin dilbilgisel ulamlarını belirlemek kolay değildir. Bazı durumlarda belirsizliği gidermek için ikili işaret (portmanteau tag) kullanılabilir. Sözcüğün içinde bulunduğu bağlamın incelenmesi de belirsizliği gidermede kullanılmaktadır (Baker vd., 2006). 1.2.2. Belirginleştirme Belirginleştirme, derlem açımlamada, metnin verili bir noktasında, mümkün olan bir grup işaret arasından doğru açımlamanın seçilme işlemidir. Bu işlem elle veya otomatik olarak yapılabilir. Sözcük türü işaretlemeye yönelik pek çok yaklaşım belirginleştirme yapmaya odaklanmıştır. Belirginleştirme yapılırken, öncelikle, her bir örnekçeye, işaretleme sözlüğüne bakarak ya da bir biçimbilimsel çözümleyici kullanarak farklı bağlamlarda alabileceği bütün işaretler atanır. Belirginleştirme yazılımı doğru işareti seçmek için çoğunlukla bağlamı kullanır. Belirginleştirme; kural-tabanlı ya da olasılık temelli yaklaşımlarla, çoğu zaman da bunların karması olan melez yaklaşımlarla gerçekleştirilir (Baker vd., 2006). 1.2.2. Kural tabanlı belirginleştirme Derlemdeki bir ögenin doğru işaretinin belirlenmesinde olasılıktan çok, kuralları kullanan bir işaretleme tekniğidir. Örneğin, ad ya da eylem olma ihtimali bulunan bir sözcükten hemen önce bir sıfat geliyorsa ya da bir eylem tarafından takip ediliyorsa, bu sözcüğün ad olarak işaretlenmesinin anlamlı olacağını söyler (Baker vd., 2006). 1.2.3.Olasılığa dayalı belirginleştirme Olasılığa dayalı belirginleştirme, otomatik derlem açımlamada iki ya da daha fazla alternatif arasından doğru işareti seçmek amacıyla, doğru işaretlemenin ne olabileceğine ilişkin iyi bir

tahmin yapmak üzere geliştirilmiş; olasılık ya da istatistik hesaplarına dayanan bir dizi yönteme verilen addır. Olasılığa dayalı belirginleştirmede kullanılan bu istatistikler temelde sözcük sıklıklarıdır. İstatistikler, çoğunlukla işaretlenmemiş metinler üzerinde ileride bir çözümlemenin yapılabilmesi için, daha önceden açımlanmış derlemlerden türetilmektedirler (Baker vd., 2006). 2. AMAÇ Bu çalışmanın amacı Türkçe Ulusal Derlemi (TUDD) Oluşturma Projesi kapsamında oluşturulan, 5 milyon sözcüklük, biçimbirim açımlaması yapılmış bir alt derlem kullanarak; biçimbirim açımlamada ortaya çıkan belirsizlik türlerini sınıflandırmak, sınıflandırılan türlerin gözlenen sıklıklarını belirlemek ve belirsizlik türlerini ortadan kaldırabilecek kural tabanlı belirginleştirme örnekleri sunmaktır. 3. YAZILIM Türkçe Ulusal Dil Derlemi Projesi Biçimbirim Çalışmalarında Belirsizliklerin Sınıflandırılması ve Dağılımı adlı bu çalışma Silberztein (2003) tarafından ayrıntılandırılan NooJ uygulamasının Türkçe Eklentisi aracılığıyla yapılmıştır. Türkçe eklentisi, uygulamanın Türkçe için uyarlanmış sözlüklerini ve kural dosyalarını içermektedir. 4. VERİ Çalışma öncesinde yapılan pilot uygulama kapsamında TUDD Oluşturma Projesi veri tabanları kullanılarak hazırlanan 250 bin sözcüklük alt derlemden belirsizlik listeleri alınmıştır. Pilot çalışma sonucunda gözlemlenen yanlış işaretlemeleri içeren çizelgeler düzeltilmiş, yapay belirsizlikler kaldırılmış ve çalışmada kullanılacak 5 milyon sözcüklük derlem üzerinde çalışma tamamlanmıştır. Oluşturulan 5 milyon sözcüklük, 1990-2009 yıllarında yayınlanmış metin örneklerinden oluşan alt derlem aşağıda belirtilen yayın türlerini ve sözcük sayılarını kapsamaktadır: Bilgilendirici Metin (1 milyon sözcük) Kurgusal Metin (1 milyon sözcük) Süreli Yayın (2 milyon sözcük) Yazılı / Basılmamış Metin (500.000 sözcük) Sözlü Metin (500.000 sözcük) 5. YÖNTEM Çalışmanın ilk aşamasını; 5 milyon sözcükten oluşan alt derlemin NooJ uygulamasının Türkçe Eklentisi ile işaretlenmesi oluşturmuştur. İşaretlenen alt derlemin belirsizlik listeleri yine aynı uygulama yardımıyla alınmış ve gözlenen sıklık değeri 100 den fazla olan belirsizlikler çalışma kapsamına alınmıştır. Gözlenen sıklık değeri 100 den fazla olan belirsizlik sınıfları aşağıda belirtilen başlıklar altında File Maker Pro 8.5 aracılığıyla sınıflandırılmıştır: Eşyazımlı başsözcükler et (V), et (N) Eşyazımlı ekler defter+in (p2s), defter+in (gen) Ekleme sonucu oluşan eşyazımlılıklar birlikte (AV), birlik+te(loc) Eşyazımlı ek-ek birleşimleri taşı+makta (cont), taşı+mak (nz1)+ta(loc) 6. BELİRSİZLİKLERİN SINIFLANDIRILMASI TUDD Oluşturma projesi kapsamında 5 milyon sözcüklük veri tabanı kullanılarak yapılan çalışmanın bu bölümünde ortaya çıkan belirsizlik türleri ve gözlenen sıklık değerleri belirtilecektir. NooJ Türkçe Eklentisi kullanılarak yapılan çalışma sonucunda eşyazımlı

başsözcükler, eşyazımlı ekler, ekleme sonucu ortaya çıkan eşyazımlılıklar ve eşyazımlı ek-ek birleşimleri olmak üzere 4 farklı belirsizlik türü ortaya çıkmıştır. Ortaya çıkan eşyazımlı başsözcüklere ait belirsizlik türlerinin İngilizce-Türkçe gösterimleri ve kısaltmaları Tablo 1 de ve eşyazımlı eklerle ilgili belirsizlik türlerine ait İngilizce-Türkçe gösterimler ve kısaltmalar ise Tablo 2 de yer almaktadır. Tablo 1 Eşyazımlı başsözcüklerin NooJ Türkçe Eklentisindeki İngilizce-Türkçe gösterimleri ve kısaltmaları İngilizce Noun Türkçe Ad Gösterim N Verb Eylem V Adjective Sıfat A Pronoun Adıl PN Adverb Belirteç AV Postposition İlgeç PP Determiner Belirleyici DT Tablo 2 Eşyazımlı eklerin NooJ Türkçe Eklentisindeki İngilizce-Türkçe gösterimleri ve kısaltmaları Biçimbirim Açıklama (Türkçe) Gösterim I Belirtme durumu acc In Tamlayan durumu gen Im Kişi Eki c1s m İyelik Eki p1s I(n) İyelik Eki p2s I İyelik Eki p3s mak Adlaştırıcı nz1 AcAk Adlaştırıcı pc1 A Yönelme Durumu dat da Kalma Durumu loc ile Araç Durumu ins DAn Çıkma Durumu abl Belirtecimsi AV0* r z Geniş Zaman aor DI Bitmişlik / Geçmiş past An Sıfatlaştırıcı pc3 DIr Koşaç cop In 2. çoğul Emir Kipi imp I Ara ses I bfi n Ara ses n bfn 6.1. Eşyazımlı Başsözcükler Çalışma sonucunda; eşyazımlı başsözcükler ulamında en sık belirsizlik oluşturan sözcük türleri; belirleyici (determiner) ve adıl (pronoun) olarak ortaya çıkmıştır. Eşyazımlı başsözcüklerle ilgili oluşan belirsizlik ulamında karşılaşılan belirsizliklerin gözlenen sıklık değeri 94.860 tır. İkinci sırada; ad (N) - eylem (V) belirsizliği gelmektedir ve gözlenen sıklık değeri 75.072 dir. Belirteç

(AV) ve belirleyici (DT) belirsizliği üçüncü sırada karşımıza çıkmış ve 36.138 sıklık değerine sahiptir. Dördüncü sırada yer alan bir diğer belirsizlik türü ise sıfat(a) ve ad (N) belirsizliğidir. İlgili belirsizliğin gözlenen sıklık değeri 27.806 dır. Eşyazımlı başsözcükler ulamında yer alan diğer belirsizlik türleri Şekil 1 de yer almaktadır. Şekil 1: Sözcük türlerine göre eşyazımlı başsözcükler Eşyazımlı başsözcükler ulamında 1. sırada yer alan belirleyici (DT) ve adıl (PN) belirsizliğine ait bağlam içi örnek (1) ve (2) de gösterilmektedir: (1) 1950 lerde liberal ekonomi anlayışının tekrar uygulanmaya konulması ile ilgili bir çaba sarfedilse de bu (PN) çok uzun sürmedi. (2) Maliye Bakanlığı bu (DT) konuda gerekli düzenlemeleri yapmaya yetkilidir. Eşyazımlı başsözcükler ulamında 2. sırada yer alan ad (N) ve eylem (V) belirsizliği ile ilgili belirsizliğin bağlam içi örneği ise (3) ve (4) te yer almaktadır: (3) İşte bunları duyunca ona yeniden yol göründü. Önce Marmaris, sonra Gökova Akyaka Köyü İzmir in kurtuluş günü 9 Eylül de oraya vardı (V). (4) Bu sefer aile üyeleri yerine sanatçı arkadaşları, Suna Yıldızoğlu, Çetin Alp, Perihan Sözen vardı (N) yanlarında Yukarıda adı geçen ve 4. sırada yer alan ad (N) ve sıfat (A) belirsizliğine ait bağlam içi örnekler (5) ve (6) daki gibidir: (5) Fonlar ın finansman dengesinin 1998 yılında 76 trilyon Türk lirası açık (N) vererek, GSMH ya oranının binde 1 düzeyinde olması beklenmektedir. (6) Birim hissesinin getirisi konusunda açık (A), şeffaf ve geniş katılım içeren usul ve esaslarla tamamen üniversitelerce yapılması öngörülmektedir. 6.2. Eşyazımlı Ekler Çalışmanın sonunda en sık karşılaşılan belirsizlik ulamı 3. tekil kişi iyelik eki (p3s) ve belirtme durum ekinde (acc) göze çarpmaktadır. İkinci sırada 2. tekil iyelik eki (p2s) ve 3. tekil kişi iyelik eki (p3s) belirsizliği gelmektedir. Bu bağlamda, eşyazımlı eklerin oluşturduğu belirsizlik türleri incelendiğinde Tablo 3 teki bulgulara erişilmiştir:

Tablo 3 Eşyazımlı eklerin oluşturduğu belirsizlik türleri ve sayıları 3. Tekil Kişi iyelik eki (p3s) belirtme durum eki (acc) 176.126 2. Tekil Kişi iyelik eki (p2s) 3. Tekil Kişi iyelik eki (p3s) 50.822 2. Tekil Kişi iyelik eki (p2s) Tamlayan durum eki (gen) 38.369 2. Tekil Kişi iyelik eki (p2s) Ara ses n (bfn) 10.676 Kişi eki (c1s) 1. Tekil Kişi iyelik eki (p1s) 3.840 Bitmemişlik / sürerlilik eki (cont) - Adlaştırıcı (nz1) (-mak) 1.661 Diğerleri 7.288 Yukarıda adı geçen belirsizliklerden ilk sıradaki 3. tekil iyelik eki (p3s) ve belirtme durum ekinin (acc) oluşturduğu belirsizliğin bağlam içi örüntülerine aşağıdaki örnekler verilebilir: (7) Kimsenin işi (iş,n+ p3s (3. tekil iyelik eki) kimseyi ilgilendirmez. (8) İşi (iş,n+acc (belirtme durum eki) aldığımı biliyorum. 6.3. Ekleme Sonucu Oluşan Eşyazımlılıklar Ekleme sonucu oluşan eşyazımlılık ulamları incelendiğinde ise ilk üç sırada yer alan sözcüklerin yönelme durum eki (dat), 2. tekil kişi iyelik eki (p2s) ve 1. tekil kişi iyelik ekinin tek harfli morfemler ile çekimlenerek, 4. ve 5. sıradaki sözcüklerin ise kalma durum eki (loc) ve araç durum (ins) ekiyle çekimlenerek belirsizlik oluşturduğu söylenebilir. Şekil 3 ekleme sonucu oluşan eşyazımlılıkların dağılımını göstermektedir. Şekil 2: Ekleme sonucu oluşan eşyazımlılıkların belirsizlik türleri Ekleme sonucu oluşan belirsizlik türlerinden sıfatlaştırıcı (-An (pc3)) ekin sözcüğe eklendiğinde oluşturduğu belirsizlik türü aşağıdaki bağlam içi örnekte görünmektedir. (9) Birinci basamak sınavından (ÖSS) en az 120 puan alan (-An (pc3)) öğrenciler, ikinci basamak sınavı olarak bilinen Öğrenci Yerleştirme Sınavı'na (ÖYS) girmeye hak kazanmaktadırlar.

(10) Öğrenciler, çeşitli alan (Ad (N)) bilgisi testlerinden oluşan ikinci basamak sınavı sonuçlarına göre lisans düzeyindeki örgün öğretim programlarına (fakülteler ve 4 yıllık yüksekokullar) yerleştirilmektedir. 6.4. Eşyazımlı Ek-Ek Birleşimleri Son olarak; eşyazımlı ek-ek birleşimleri ulamları incelendiğinde ise belirtecimsi (AV08) ve adlaştırıcı+çıkma durum eki (nz2+abl) birleşimi saptanmıştır (Örneğin, bilmeden). Bu belirsizlik ulamının gözlenen sıklık değerinin toplamda 672, bitmemişlik/sürerlik eki ve adlaştırıcı+kalma durum eki+koşaç birleşiminin (Örneğin, taşımaktadır) gözlenen sıklık değerinin 330 olduğu çalışma sonunda ortaya çıkmıştır. Her iki belirsizlik türü toplamda 1.002 olarak belirlenmiştir. Belirtecimsi (AV08) ve adlaştırıcı+çıkma durum ekinin (nz2+abl) oluşturduğu bağlam içi örnekler aşağıda yer almaktadır: (11) Batıdaki pek çok insan doğuyu, orada gerçekte ne olup bittiğini bilmeden (belirtecimsi (AV08)) ve anlamadan yargılıyor. (12) Biz Müslümanlar bu gerçekleri bilmeden (adlaştırıcı+çıkma durum eki (nz2+abl)) önce de iman edip misvağı kullandık. 6. BELİRGİNLEŞTİRME ÇALIŞMALARI Bu bölümde, yukarıda dizinlenen belirsizliklerin giderilmesi konusunda yararlanılan araçların kullanımına kısaca değinilecektir. Öncelikle eşyazımlı başsözcükler konusunda, elde edilen çoklu açımlamaların gözlenen sıklık değerleri arasında belirgin bir fark görüldüğünden (en, AV/N gibi) birden çok sözlük oluşturularak, işlemlemede öncelik sırası belirlemek uygun görünmektedir. Eşyazımlı ekler konusunda ise oluşturulan çizelgelerde belirleyici bağlam bulunmaması durumunda, sözdizimsel kural yazımına gidilmesi yolu benimsenmiştir. Kural yazımı Şekil 4 teki gibi çizelgelerle yapılmaktadır. Şekil 3. Örnek belirginleştirme çizelgesi

Yukarıdaki örnekte, öyle, böyle, şöyle sözcüklerinin belirteç ve belirleyici kullanımları arasındaki bağlam farklılığı gösterilerek, açımlamada söz konusu bağlamın gözetilmesi sağlanmaktadır. Yine aynı belirginleştirme, metinsel kural yazımı yoluyla (13) deki gibi gerçekleştirilebilmektedir. (13) A = (öyle böyle şöyle)/<av> (<V> <AJ>) ; B = (öyle böyle şöyle)/<dt> (<N> <PN>) ; NooJ v3 (Silberztein, 2003) te, belirsizliğin araştırmacı tarafından giderilmesi de mümkün olmaktadır. Böylece özellikle eğitici-derlem oluşturmada araştırmacılar tarafından kullanılabilir bir araç olmaktadır. 7. SONUÇ Bu çalışmada Doğal Dil İşleme çalışmaları için yararlı olabileceğini düşündüğümüz, Türkçedeki belirsizlik kaynaklarının bir dökümü sunulmuştur. Yine gözlenen sıklık değerlerine yer verilerek Türkçede odaklanılması gereken yapılar sunulmaya çalışılmıştır. Yapılan sınıflama kural-tabanlı belirsizlik giderme çalışmalarında kullanılabilecektir. Türkçe Ulusal Derlemi Oluşturma Projesi kapsamında yürütülen kural-tabanlı belirginleştirme çalışmalarında da bu bildiride ayrıntılandırılan bulgulardan yararlanılmıştır ve bu konudaki çalışmalar sürmektedir. Notlar Bu bildiri TÜBİTAK 108K242; BAP-FEF (SYA) 2010-3 A ve BAP-FEF İDE (MŞA) 2010-5 A no lu projeler kapsamında hazırlanmıştır. Katkılarından dolayı TÜBİTAK a ve Mersin Üniversitesi Bilimsel Araştırma Projeleri Birimine teşekkür ederiz. Kaynakça Baker, P. A. Hardie & T. McEnery 2006. A Glossary of Corpus Linguistics. Edinburgh University Press. Biber, D.,S. Conrad & V. Cortes 2004. If you look at Lexical Bundles in University Teaching and Textbooks. Applied Linguistics 25 (3), 401-315. Daybelge, T. & İ. Çiçekli 2007. A Rule-Based Morphological Disambiguator for Turkish. Proceedings of Recent Advances in Natural Language Processing (RANLP 2007). Oflazer, K. & İ.Kuruöz 1994. Tagging and Morphological Disambiguation of Turkish Text. Proceedings of the 4th Applied Natural Language Processing Conference. Sak, H., T. Güngör & M. Saraçlar 2007. Morphological Disambiguation of Turkish Text with Perceptron Algorithm. Gelbukh, A. (Haz.), Proceedings of International Conference on Intelligent Text Processing and Computational Linguistics. Springer. Silberztein, M. 2003. Nooj Manual. Erişim Tarihi: 13 Mayıs 2010. http://www.nooj4nlp.net Tür, G. 1996. Using Multiple Sources of Information for Constraint-Based Morphological Disambiguation. Yüksek Lisans Tezi. Bilkent Üniversitesi. Ankara. Yuret. D. & Türe, F. 2006. Learning Morphological Disambiguation Rules for Turkish. Proceedings of HLT-NAACL 2006 Türkçe Ulusal Derlemi Oluşturma Projesi. http://www.tnc.org.tr/ http://www.tudd.org.tr