IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU

Transkript

1 IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU 10A303 ANLAMSAL TÜRKÇE ARAMA MOTORU Doç.Dr. Olcay Taner YILDIZ

2 İÇİNDEKİLER 1. GENEL ÖZET 2. HARCAMALAR LİSTESİ 3. TEKNİK RAPOR 4. ÜRÜNLER LİSTESİ 5. EKLER

3 GENEL ÖZET SAYFASI Proje Kodu: 10A303 Proje Adı: ANLAMSAL TÜRKÇE ARAMA MOTORU Proje Yürütücüsü (ünvan belirtilerek): Doç. Dr. Olcay Taner YILDIZ Proje Ekibi: Doç. Dr. Olcay Taner YILDIZ, Ar. Gör. Onur GÖRGÜN, Ar. Gör. Yasin Ozan KILIÇ, Ar. Gör. Koray AK Ayrılan Toplam Ödenek: TL Gerçekleşen Toplam Harcama: 17864,50 TL Kalan Ödenek: 2135,50 TL Raporun Gönderildiği Tarih:

4 HARCAMALAR LİSTESİ SAYFASI Seyahat Giderleri: Seyahat gideri bulunmamaktadır. Hizmet Giderleri: Hizmet gideri bulunmamaktadır. Sarf Giderleri: Sarf malzeme giderleri aşağıdaki tabloda belirtilmiştir. Cins Birim Fiyat (USD) Adet Toplam KDV Dahil USB BELLEK(SANDISK 16GB USB) 35, ,00 FOTOKOPİ KAĞIDI XEROX A4 3,45 10 (pak.) 64,50 TONER HP Q2612A 77,24 4 (pak.) 578,00 DVD TDK 4,7GB 100'LÜ 33,00 1 (pak.) 62,00 964,50 Makine-Teçhizat Giderleri: Makine-Teçhizat giderleri aşağıdaki tabloda belirtilmiştir. Cins Birim Fiyat (USD) Adet Toplam KDV Dahil MACBOOK 13'' 2,26 GHZ 1255, ,00 NOTEBOOK(LENOVA SL510)) 549, ,00 SERVER(HP ML350G6) 2850, ,00 SERVER (HP STORAGEWORKS MSA) 3109, ,00 HP 2GB RAM 315, ,00 HP SPS-FAN 92MM 60, , ,00 Yazılım Giderleri: Yazılım gideri bulunmamaktadır.

5 PROJENİN TEKNİK RAPORU 1. Giriş İnternet kullanımının artması ve buna bağlı olarakta bilgiye erişimin kolaylaşması beraberinde bazı sorunları da getirmektedir. Kaliteli bilgiye erişim önem arz eden bir konu haline gelir iken, bu olanakları kullanıcalara sağlayacak en önemli unsur arama motorlarıdır. Anlamlı bilginin çıkarımının yanısıra, bu bilginin son kullanıcıya sunumu da önem arz etmektedir. Anlamlı ve doğru bilgi çıkarımı her dil için farklı yöntemler kullanmayı gerektirmektedir. Bunun en önemli nedeni ise, her dilin farklı anlamsal ve sözdizimsel yapıya sahip olmasıdır. Günümüzde en büyük veri kaynağı olan dil İngilizce dir. Bunun en büyük nedeni ise, sanal doku yöreleri arasında en yaygın dilin yine İngilizce olmasıdır. Bu sebeplerden ötürü ise, arama motorları üzerinde yapılan iyileştirme çalışmalar İngilizce üzerinde olmaktadır. Türkçe gibi daha az Internet içeriğine sahip diller ise bilgi erişimi konusunda araştırma eksikliği içerisindedir. Projenin temel amacı, Türkçe dilbilgisi ve biçimbilimsel kuralları dikkate alan bir anlamsal arama motoru gerçeklemektir. Bu doğrultuda, dile özgü içeriği yoğunlukla barındıran haber, günce ve forum siteleri taranarak indisleme yapılacaktır. Bu indisler yardımı Türkçe dökümanlar sorguda aranan kavramlara yakınlık seviyelerine göre kullanıcıya sunulacaktır. Arama motoru kapsamında, Soru Yanıtlama Sistemi de gerçeklenecektir. Projenin sonunda varılmak istenilen nokta, ek özellikler desteklenmiş bir arama motoru ve bilgi erişim sistemi tasarlamaktır. Bu amaca ulaşmak adına yapılan çalışmalar ikinci bölümde bileşen bazında, şematik ve özet olarak sunulmuştur. 2. Kullanılan Araçlar ve Yöntemler Proje kapsamında gerçeklenmesi düşünülen sisteme ait genel akış şeması (Şekil 1), gerçeklenen parçalar ve gerçeklenme detayları ile sunulmaktadır. (1) Arama motoru altyapısını oluşturan etmenler ve indisleme işlemleri: Arama motorunun altyapısı Apache Foundation tarafından geliştirilmekte olan ve yine bir Apache Foundation kütüphanesi olan Lucene temelli bir arama motoru mimarisi olan Nutch seçilmiştir. Sistemin kurulumu sunucu bilgisayar üzerine kurularak gerekli bütün düzenlemeler yapılmıştır. Sisteme yapılan katkılardan en önemlisi ise Lucene yapısı bünyesinde gerçeklenen ve sadece Türkçe içerikli sayfaları tarama ve indisleme imkanı veren bir ara modülün gerçeklenmesidir. Bu sayede araştırma kapsamında istenildiği üzere sadece Türkçe içerik ayıklanmış ve indislenmeye hazır hale getirilmiştir. Bu bölüm şema üzerinde (1) olarak işaretlenmiştir ve indisleme modülünün bir parçası olarak çalışmaktadır.

6 Türkçe dökümanlar içerisinden yer alan kelimelerin kelime formları biçiminde indislenmesi mümkündür. Ancak bu durum aynı kökten gelen kelimelerin farklı kelimeler olarak değerlendirilmelerine neden olmaktadır. Örnek olarak, masal, masallar, masalların kelimeleri farklı kelimeler gibi görülmekle birlikte masal kökünden türemiş farklı kelime biçimleridir. Bu kelime biçimlerinin aynı kelime olarak nitelendirilmesi arama başarımı açısından önemlidir. Bu sebeple, Türkçe dökümanlarda kullanılmak üzere, verilen kelime biçimini kök ve eklerine ayırma işlemi yapılmalıdır. Bu işlemin adına biçimbilimsel çözümleme adı verilmektedir. Bu konuda yapılmış çalışmalar olmakla birlikte, bu proje kapsamında bir doğal dil işleme kütüphanesi geliştirilmiştir. Biçimbilimsel çözümleme bu kütüphanenin bir parçası olan çözümleyici tarafından yapılabilmektedir. Ayrıca bu alanda denetimsiz bir bölütleyici de tasarlanmıştır. Bu denetimsiz çözümleyici araştırıcı Koray Ak ın yüksek lisans tezini oluşturmakta olup, ayrıca bu çalışmanın bir parçası uluslarası bir konferans bildirisi olarak yayınlanmıştır. Yine bu çalışmanın tamamı bir hakemli dergisiye iletilmiş ancak eksiklikleri sebebi ile kabul görmemiştir. Bu çalışmalara ürünler bölümüne ait eklerde yer verilmiştir. 3 Şekil 1 Arama motoru projesi kapsamında gerçeklenmesi ve kurulumu planlanan bileşenler ve sisteme genel bakış.

7 Biçimbilimsel çözümleme, özellikle Türkçe için birden fazla kökten türemiş çok sayıda çözümleme ile sonuçlanabilir. Bu durumda hangi çözümlemenin doğru olduğu sorusu ortaya çıkmaktadır. Bu problem literatürde biçimbilimsel anlamsızlık giderme olarak tanımlanmaktadır. Yine bu özellikle Türkçe için yapılmış başarılı çalışmalar mevcuttur. Gerçeklenmiş olan yazılım kütüphanesinde bu probleme çözüm bulmak amacı ile makine öğrenmesi temelli bir biçimbilimsel anlamsızlık giderici kodlanmıştır. Bu çalışmada uluslararası bir konferansta sunulmak üzere kabul görmüş ve bildiri olarak yayınlanmıştır. Aynı çalışmanın genişletilmiş hali uluslararası hakemli bir dergiye iletilmiş ancak kabul görmemiştir. Yine bu çalışmalar ekler bölümünde sunulmuştur. Gerek biçimbilimsel çözümleyiciler gerekse biçimbilimsel anlamsızlık giderici, akış şemasının (1) ve (3) ile numaralandırılmış kesimlerinde kullanılmaktadır. Üç çalışma ile ilgili ek çalışmalar ise hala devam etmektedir. Yine (3) numaralı bölgede kullanılmak üzere bir makine çeviri sistemi tasarlanmıştır. Bu çalışma ile hedeflenen ise İngilizce-Türkçe yönünde ve sorgu seviyesinde çeviri yapabilen bir çeviri sistemi tasarlamak, bu sayede de arama motoruna çoklu dil desteği katabilmektir. Bu konuda yapılan çalışmalar araştırıcı Onur Görgün ün doktora çalışmaları kapsamında devam etmektedir. Yine bu konudaki çalışmaların ilk ürünü ise ulusal bir kongrede sözlü sunulmak üzere kabul edilmiştir ve yakın tarihte bildiri olarak yayınlanacaktır. (2) Arama sonuçlarının ilgililik seviyelerine göre sıralanması: Kullanıcı tarafından yapılan sorguya ilgililik açısından en yakın dökümanların gösterilmesi önemli bir problemdir. Bilgi erişimi alanında üzerinde çalışma yapılan en önemli konulardan bir tanesi bu sıralama işlemidir. Bu amaçla ve arama motoru altyapısı ile birleştirilmek üzere bir sıralayıcı tasarlanmıştır. Çalışma temel olarak, mevcut çalışmaları inceleme ve bu çalışmalar ışığında bir sıralama algoritması gerçeklemeyi hedeflemektedir. Bu konuda yapılan çalışmalar araştırıcı Yasin Ozan Kılıç ın yüksek lisans tezini oluşturmuştur. 3. Bilimsel bulgular ve sonuçlar Proje kapsamında gerçekleştirilen, yayına dönüşen çalışmalar aşağıdaki bölümlerde ayrıntıları ile açıklanmıştır. Yine bu çalışmalara ait daha detaylı bilgiler Ürünler bölümünde yer almaktadır. 1. KELİME BÖLÜTLEMEDE ÖNEK AĞACI KULLANIMI 1.1. Giriş Doğal Dil İşleme (DDİ), bilsiyar bilimlerinin bir dalı olarak bilgisayar ve dil arasındaki etkileşimi ele almaktadır. Alanda yapılan çalışmaların esas amacı hem

8 insan tarafından okunabilir anlamlı yazılı bilgi oluşturabilme hemde insan dilini makinelerin anlayabileceği bir biçimde sunabilmektir. Biçimbilimsel çözümleme, kelime biçimi bölütleme, cümlenin öğelerine ayrılması, kelime anlamı belirsizliği ve makine çevirisi bu konuda ortaya konulan önemli problemlerden bazıları olarak sayılabilir. Biçimbilimsel çözümleme veya bölütleme kelimelerin yapılarının incelenmesi ve kelimeye ait eklerin belirlenmesi temeline dayanmaktadır. Türkçe de bütün kelime biçimleri, bir kök kelime ve ona ağlı eklerin bütününden oluşmaktadır. Örnek olarak, İngilizece enumaration kelimesi e+number+ate+ion şeklinde ayrıştırılabilir. Yine aynın şekilde Türkçe isteyenlerle kelimesi de iste+yen+ler+le şeklinde ifade edilebilir. Kelimeler dilin en küçük parçası olarak tanımlanırken, ekler ise dile ait en küçük sözdizimsel parçalardır ve kelime biçimlerinin birbirleri ile ilişkisini ortaya koymaktadırlar. Bu bağlamda, biçimbilimsel çözümleme bu yapıları inceleyerek bir kurallar zinciri oluşturmaya çalışmaktadır. anguage. Biçimbilimsel çözümleme ve bölütleme konuşma tanımlama, makine çevirisi, bilgi erişim sistemleri, metin algılama ve istatistiksel dil modelleme de yaygın ihtiyaç duyulan bir önişleme sürecidir. Türkçe, Fince,Çekçe gibi sondan eklemeli dillerde ise bu konu yazılı metinlerde karşılaşılan kelime biçimi çeşitliliği göz önüne alındığında oldukça ciddi bir problemdir. Yine Türkçe ve Fince gibi çekimsel çeşitliliğin çok olduğu dillerde ekleme kuralları kullanılarak aynı kökten teorik olarak sınırsız sayıda değişik kelime biçimi elde edilebilmekte ve bu durum istatistiksel bir model oluşturmayı zorlaştırmaktadır. Denetimsiz ve etiketlenmiş bir eğitim kümesine ihtiyaç duymadan otomatik çözümleme sistemleri üzerinde durulan önemli konulardan bir tanesidir. Yaklaşımın en büyük artısı, dil bağımsız bir bölütleme çabası olmasıdır. Bu çalışmanın amacı bu amaca hizmet etmek olan değişik yaklaşımlar önermektir. Bu amaçlar, önek ağaç yapısı kullanılarak kelimeler, karakterler ve bu karakterlere ait sıklıklar şeklinde ifade edilmiştir.rec-trie algoritması, bu yapıyı kullanarak ve baştan sonra yollar takip ederek, karakter sıklıklarını baz alan bir kök bulur. Kök bulunduktan sonra, kalan kelime parçaları kullanılarak yeni bir önek ağacı oluşturulur ve bütün ekler başka kelime parçası kalmayacak şekilde kök bulma işlevi takip edilerek tespit edilir. İkinci algoritma olan REVERSE-TRIE, REC-TRIE ile aynı yöntemi tersten takip takip etmektedir. Üçüncü ve son yaklaşım olan HYBRID-TRIE ise REC-TRIE ve REVERSE-TRIE nin bir karışımıdır. Kök bulma işlemi REC-TRIE mantığı ile, eklerin tespiti ise REVERSE-TRIE işlevi ile yapılmaktadır.

9 1.2. İlgili Çalışmalar MorphoChallenge [1], EU Network of Excellence PASCAL2 Challenge Program kapsamında 2005 yılından beri yapılmakta olan denetimsiz biçimbilimsel çözümleme ve bölütleme uygulamarının yarıştığı bir etkinliktir. Amaç, kelimeleri kökler ve ekleri şeklinde bölütleyebilen ve dil bağımsız yaklaşımların oluşturulmasını teşvik etmektir. Bu etkinlik çerçevesinde birçok algoritma önerilmiş ve literatürdeki yerlerini almıştır. Bernhard [2], bu amaçla altkelimeler arasındaki geçişleri olasılıksal olarak değerlendiren ve kök ve eklerin ayrımını uzunluk baz alarak çözmeye çalışan bir çalışmadır. Keshava [3], yine aynı mantıkla, altkelimeleri bulunması ve bunların birbirlerinin ardı ardına gelme olasılıklarını temel alan bir çalışma sunmuştur. Özellikle Türkçe için Zeman[4], paradigma temelli bir yaklaşım önermiştir. Bu yaklaşımda bütün ek-kök eşleri paradigmalar altında gruplandırılmıştır. Bütün bölütleme noktaları göz önünde bulundurulduğundan paradigma sayısı yüksektir. Bölütleme işlemi sırasında bütün paradigmalar karşılaştırılarak doğru bölütleme tespit edilmeye çalışılmaktadır. ParaMor [5], MorphoChallenge 2008 e damgasını vuran bir çalışmadır. Her kelime biçimi karakter sınırlarından bölütlenmiştir. Aynı son altkelime ile biten kelimeler için algoritma bir paradigma yaratmaktadır. Bu paragimalar, eklemelerde hesaba katılarak daha gerçek hallerini almaktadır yılında Monson ve diğerleri [6] ParaMor un gelişmiş bir halini önermişlerdir. ParaMor temel olarak bölütleme kararlarına puan atamamaktadır. Bu amaçla, araştırıcılar doğal dil işaretleyici eğitmişler ve her bölütleme sınırına ait bir puan atamışlardır. Bu puan göz önüne alınarak, ParaMor un bölütleme sınırlarının belirleme başarımı değerlendirilmiş ve doğru veya yanlış bölütlemeler tespit edilebilmiştir Önerilen Yöntemler Bu bölümde çalışma kapsamında öerilen yöntemler ve bu yöntemlere ait detaylar açıklanmaktadır RecTRIE Kelime listesi algoritmaya girdi olarak verilir ve veri kümesi içerisinde en az 5 kere tekrar etmekte olan kelimeler önek ağacına yerleştirilir. Kelimelere ait karakterler herbiri bir düğüme karşılık gelecek şekilde önek ağacına kaydedilir. Kelimedeki karakter sayısı o kelimeye ait daldaki derinliği verir. Yeni gelen kelimeler önceden gelen kelimelerle aynı öneklere sahiplerse, bu daldaki karakter sıklıkları güncellenir. İlk aşamada kelimelere ait kökler tespit edilir ve bu kökler bir tabloya kayıt edilirler. Bir sonraki aşamada kökler haricinde kalan kelime parçaları yeni bir önek ağacına yerleştirilirler. Bu aşamalarda dikkat edilmesi gereken nokta, farklı düğümler olarak ifade edilen karakterlerin birleştirilerek tek bir düğüm olarak ifade edilmeleridir.

10 Algoritma önek ağacında tek bir eleman kalmayana kadar devam eder. Şekil 1.1 de algoritmanın çalışmasına ilişkin bir örnek sunulmuştur Reverse-TRIE Şekil 1.1 Rec-TRIE algoritmasının çalışması üzerine bir örnek. Reverse-TRIE, Rec-TRIE algoritmasının ters yönde çalıştırılan versiyonudur. Kök ve bölütleme sınırı bulma işlemleri Rec-TRIE algoritmasında olduğu gibi yapılmakta olup radikal bir değişiklik yoktur. Yöntemin öncelikle ortak eklerin tespit edilmesi amaçlamaktadır. Diğer bir husus ise bölütleme elde edilmeden önce ve sonrasında kelimeleri ters çevirme önişlemine ihtiyaç duyulmasıdır. Algoritmanın çalışmasına dair örnek Şekil 1.2 de sunulmuştur. Şekil 1.2 Reverse-TRIE algoritmasının çalışması üzerine bir örnek.

11 Hybrid-TRIE Algoritma, Rec-TRIE ve Reverse-TRIE yaklaşımlarının birleşini şeklinde düşünülebilir. Kök bulma işlemi Rec-TRIE işlevinde olduğu gibi yapılmakta, geriye kalan kelime parçaları ise ters çevirilerek Reverse-TRIE işlevinde olduğu gibi önek ağacına yerleştirilmektedir. Parçalar bulundukça, bölütlenmiş kök ve ekler için ayrılmış olan tablo yapısına kaydedilmektedir. Bu aşamada yapılacak bir diğer işlemde, tersten ifade edilen eklerin, tekrar çevirilmesi işlemine tabi tutulmalarıdır. Algoritmanın sözde kodu Şekil 1.3 te sunulmuştur Deneyler Şekil 1.3 Hybrid-TRIE algoritmasına ait sözde kod. MorphoChallenge algoritma analizi için iki adet Perl betiği sağlamaktadır. Bu betikler, verilen bir altın standart ile algoritma çıktılarını karşılaştırarak başarım değerlendirmesi yapmaktadırlar. Bu çalışmada veri kümesi olarak yarışma tarafından sağlanılan Türkçe, İngilizce ve Fince ye ait veri kümeleri alınmış ve gerçek veri kümelerinin alt kümeleri kullanılmıştır. Algoritma başarımı F-Measure metriği ile ölçülmüştür. Bu metric aşağıdaki gib hesaplanmaktadır. (1.1)

12 Vuruş (H): Kelime doğru yerden bölütlenmiş. Ekleme (I): Kelime yanlış yerden bölütlenmiş. Çıkartma (D): Doğru bölütleme es geçilmiş. Veri kümesi olarak MorphoChallenge 2009 veri kümesi kullanılarak, önerilen yaklaşımları başarımları İngilizce, Türkçe ve Fince için sınanmıştır. Performans değerledirmeleri yine MorphoChallenge tarafından verilen Perl betikleri ile yapılmış ve deney sonuçları Tablo 1.1, 1.2 ve 1.3 te sunulmuştur. Tablo 1.1 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının Türkçe için Precision(P), Recall (R) ve F-Measure (F) değerleri. Tablo 1.2 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının İngilizce için Precision(P), Recall (R) ve F-Measure (F) değerleri. Tablo 1.3 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının Fince için Precision(P), Recall (R) ve F-Measure (F) değerleri.

13 Sonuçlar göstermektedir ki, Türkçe ve İngilizce için en iyi performansı Rec-TRIE göstermiş olup, diğer algoritmalar vasat bir performans sergilemiştir. Rec-TRIE Türkçe kökler açısından başarılı bir performans göstermiştir. Algoritmaları temel özelliği, her adımda bir karaktere bakarak kök ve ek bulmalarıdır. Bu sebeple Fince gibi uzun köklere sahip diller için başarım düşük olarak gözlemlenmiştir. Çıkartma değerleri de özellikle Fince için yüksek çıkmakta ve bu da Recall değerinin ve buna bağlı olarakta F-Measure değerinin düşmesine neden olmaktadır. Fince için performans artışı Hybrid-TRIE ile sağlanmıştır Tartışma ve Gelecek Çalışmalar Çalışmada önerilen algoritmalar basit ve kolay uygulanabilir olmalarına rağmen sonuçlar umut vericidir. Algoritmalar 2009 yarışmacılarının aynı veri kümesi üzerindeki performansları ile karşılaştırıldıklarında Türkçe için 4., İngilizce için 12. Ve Fince için 8. Sırada yer bulmuşlardır. Recall değerleri göstermektedir ki özellikle Fince için algoritmamız bölütleme sınırlarını es geçmektedir. Ancak bu durum Hybrid-TRIE ile belirli oranda düzeltilmiştir. Algoritmalar önek algılama (İngilizce ve Fince için gerekli) mekanizmasına sahip değildir ve ses düşmesi, sessiz yumuşaması gibi kural dışı konuları algılayamamaktadır. Gelecek çalışmalar bu konuları da göz önünde bulundurarak daha iyi bir performans sergilemek adına olacaktır. Kaynakça [1] Kurimo, M., Lagus, K., Virpioja, S., Turunen, V., Morpho challenge. [2] Bernhard, D., Unsupervised morphological segmentation based on segment predictability and word segments alignment. In: Proceedings of the PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes, [3] Keshava, S., A simpler, intuitive approach to morpheme induction. In: Proceedings of the PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes, [4] Zeman, D., Unsupervised acquiring of morphological paradigms from tokenized text. In: Advances in Multilingual and Multimodal Information Retrieval. vol pp , [5] Monson, C., Carbonell, J., Lavie, A., Levin, L., Paramor and morpho challenge In: Proceedings of the 9th Cross-language evaluation forum

14 conference on Evaluating systems for multilingual and multimodal information access. Cross-Language Evaluation Forum'08 pp , [6] Monson, C. Hollingshead, K., Roark, B., Probabilistic paramor. In: Morpho Challenge 2009, [7] Solak, A., Oazer, K., Design and implementation of a spelling checker for turkish. In: Literary andlinguistic Computing. vol. 8., TÜRKÇE BİÇİMBİLİMSEL ANLAMSIZLIK GİDERME İÇİN YENİ BİR YAKLAŞIM 2.1. Giriş Biçimbilimsel çözümleme problemi, bir kelime biçimine ait olası çözümlemeler arasından doğru olanın belirlenmesi işlemi olarak tanımlanmaktadır. Çekimsel ve ses kuralları göz önünde bulundurulduğunda bir kelimenin farklı kökten türemiş birden çok çözümlemesi olabilmektedir. Bu durum Türkçe gibi biçimbilimsel ve çekimsel olarak zengin diller için oldukça bir problem teşkil etmektedir. Özellilke Türkçe de çeşitliliği sağlayan birçok etiket ve bu etiketlerin belirli kurallar çerçevesinde sınırsız sayıda kelime biçiminin türetilmesine izin vermesidir. Biçimbilimsel çözümleme konusunda literatürde pek çok çalışma mevcuttur. Bu çalışmalar iki temel başlık altında toplanabilir: kural-tabanlı yaklaşımlar ve istatistiksel yaklaşımlar. İstatistiksel yaklaşımlar yüksek boyutlu veri kümesi kullanarak bir model oluşturmakta ve belirsizlik giderme işlemi bu model ile gerçekleştirilmektedir [1]. Ancak özellikle Türkçe deki kelime biçimlerinin çokluğu istatistiksel modellerin başarımını düşürmektedir. Bu soruna çözüm olarak, kelime biçimleri daha küçük gruplar olan çekimsel gruplar halinde ifade edilmektedir [2]. Bu konudaki en güncel çalışma Sak [3] tarafından önerilmiştir. Türkçe için kural tabanlı yaklaşımlarda öerilmiştir [4, 5]. Bu çalışmada sınıflandırma tabanlı bir anlamsızlık giderme algoritması önerilmektedir. Çalışmanın temeli şu şekilde açıklanabilir: iki veya daha çok kelime biçimi, kök kelimeler dışarıda bırakıldığında aynı çekimsel grupları içermektedirler. Aynı çekimsel grupları içeren her bir çözümleme bir sınıflandırma problemi olarak ifade edilmektedir. Herbir elemanı biçimbilimsel öğelerin varlığı baz alınarak öznitelik vektörleri elde edilmiş ve sınıflandırıcılar bu eğitim kümeleri ile eğitilmiştir. Çalışmanın diğer bölümlerinde problemin ayrıntılı tanımı ve deneylere yer verilmiştir.

15 2.2. Biçimbilimsel Anlamsızlık Giderme Bir önceki bölümde belirtildiği üzere anlamsızlık giderme işlemi bir kelime biçimine için verilen olası çözümlemeler içerisinden doğru olanını seçmektir. Bu çözümlemeler için ise biçimbilimsel çözümleyicilere [6, 7] ihtiyaç duyulmaktadır. Aşağıda bir üzerine kelimesine ait bir çözümleme sonucu görülmektedir. Örnekte görüldüğü üzere üz ve üzer köklerinden türetiş olan 4 farklı çözümleme görülmektedir. + işaretleri ile birbirinden ayrılan parçalar biçimbiliseml dil öğelerini ^DB ise türetim sınılarını göstermektedir. Türetim sınırına ulaşıldığında kelime ilk halinde farklı bir görevle cümle içerisinde yer alabilir. Örnek olarak, üz fiili ile başlayan üçüncü kelime biçimi ilk türetim sınırından sonra sıfat haline dönüşmektedir. Her ^DB arasında kalan öğeler dizisi ise çekimsel grup olarak adlandırılmaktadır. Problemi çözümü Bayes istatistiği yardımı ile çözülebilmektedir ve aşağıdaki gibi ifade edilebilir. (2.1) 2.3. İlgili Çalışmalar Bu çalışmada başarım karşılaştırılması için üç önemli Türkçe anlamsızlık giderme algoritması tartışılmıştırtartışılmaktadır. Bu çalışmalardan ilki Üççekidek-Tabanlı Temel Model dir. Bu modelde n-gram tabanlı bir istatistiksel model oluşturulmaktadır. Modelin oluşturulmasında iki önemli ksıtas vardır: (1) sıradaki kelime kökü sadece kendisinden önceki iki kelimenin köküne bağımlıdır, (2) sıradaki kelimenin çekimsel grupları kelimenin kendinden önceki iki kelimenin çekimsel gruplarına bağımlıdır. Alandaki diğer çalışma Yüret tarafından önerilmiştir. Çalışma kural tabanlı bir çalışma olup, Greedy Prepend algiromasının üzerine kurulmuştur. Kökler ve ekleme kuralları bazında kalıp çıkarımları yapılmış. Algoritma kendisinden iki önceki ve iki sonraki kelimeleri baz alarak öznitelik vektörleri oluşturmakta ve bu örnekler ile karar listeleri elde edilmektedir. Bu devrede Greedy Prepend algoritması uygulanarak karar listeleri en çok kalıbı tanımlayacak genellemeye çekilmiştir.

16 Bu alandaki en son ve en başarılı çalışma Sak tarafından önerilen ise bir makine öğrenme yaklaşımıdır. n-gram tabanlı öznitelik çıkarımları yapılarak model eğitimi yapılmıştır Önerilen Yöntem Önceki çalışmalarda önerilen yöntemler kök kelimeyi de anlamsızlık giderme işlemine katmaktadırlar. Diğer yandan, farklı kökten türemiş kelimelerde olsalar, ayrı kelimeler aynı çözümlemelere sahip olabilirler. Bu durumda farklı kelimeler aynı sınıflandırıcının eğitim kümesine ait örnekler olarak sayılabilirler. Bu durumda başlangıçta her bir kelime biçimi bir problem teşkil ederken, farklı kelimelerin aynı sınıflandırma problemi kapsamında değerlendirilmeleri ile problem sayısı önemli ölçüde azalmaktadır. Bu aşamaya problem indirgeme safhası denir. Düşük sayılara indirgenen problemler için eğitim kümesi oluşturmak anlam kazanır. Eğitim kümesi, seçilen kelimenin iki kelime öncesi gözönünde bulundurularak oluşturulan öznitelik vektörlerinden oluşur. Bu veri kümesi ile eğitilen sınıflandırıcılar ile belirsizlik giderme işlemi gerçekleştirilir. Şekil 2.1 de algoritmanın çalışma prensibi görsel olarak yansıtılmaktadır 2.5. Deneyler ve Sonuçlar Şekil 2.1 Çalışmada öerilen algoritmaya genel bir bakış Önerilen yöntemin başarım ölçümleri için oldukça yaygın bir veri kümesi kullanılmış [6] ve bilinen çalışmalarla başarım karşılaştırılması yapılmıştır.

17 Oluşturulan veri kümeleri ile Weka kütüphanesi kullanılarak on farklı sınıflandırıcı eğitilmiş ve başarımları hem kendi aralarında hemde diğer bilinen yöntemlerle karşılaştırılmıştır. Çalışma sonuçları göstermiştirki, önerilen yaklaşım, Üççekirdek Tabanlı Temel Model e oranla daha iyi bir performans sergilemiş, ancak diğer iki algoritmaya başarım açısından üstünlük sağlayamamıştır. Deney sonuçları Tablo 2.1 de sunulmuştur Tartışma ve Gelecek Çalışmalar Çalışma sonuçları göstermiştir ki en başarılı sınıflandırıcı J48 dir. Temel Model başarım olarak geçilmesine rağmen diğer çalışmaların başarımı yakalanamamıştır. Ancak öznitelik vektörlerinin arttırımı ile daha iyi sonuçlar elde edilebileceği düşünülmektedir ve gelecek çalışmalar bu kapsamda düzenlenecektir. Kaynakça Tablo 2.1 Deney sonuçlarına ilişkin sonuç tablosu. [1] Hakkani-Tür, D. Z.,Oflazer, K.,Tür, G.: Statistical Morphological isambiguation for Agglutinative Languages, In: Computers and the Humanities 36(4), pp , [2] Oflazer, K., Hakkani-Tür, D. Z., Tür, G., Design for a turkish treebank. In: Proceedings of the Workshop on Linguistically Interpreted Corpora, [3] Sak, H., Güngör, T., Saraçlar, M., Morphological Disambiguation of Turkish Text with Perceptron Algorithm. In: Gelbukh, A. (ed.) CICLING 2007, LNCS 4394, pp , 2007.

18 [4] Yüret, D., Türe, F., Learning Morphological Disambiguation Rules for Turkish, In: Proceedings of HLT-NAACL, [5] Oflazer, K., Kuruöz, I.: Tagging and morphological disambiguation of turkish text. In: Proceedings of the 4 th Applied Natural Language Processing Conference, pp , [6] Oflazer, K.: Two-level Description of Turkish Morphology. In: Literary and Linguistic Computing, 9(2), pp , [7] Sak, H., Güngör, T., Saraçlar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and Web Corpus. In: GoTAL 2008, volume 5221 of LNCS, pp , Springer, İNGİLİZCE-TÜRKÇE İSTATİSTİKSEL MAKİNE ÇEVİRİSİNDE BİÇİMBİLİM KULLANIMI 3.1. Giriş Makine Çevirisi (MÇ) alanındaki çalışmaların istatistiksel yaklaşıma dönüşümü IBM in CANDIDE sisteminin temel kural-tabanlı yaklaşıma olan üstünlüğünün kanıtlanması ile başlamaktadır. Hesaplama gücünün ve buna bağlı olarak paralel dil verisine ulaşımın kolaylaşması araştırmacıların bu alana olan eğilimlerine destek vermiştir. Ancak bu çeviri denemelerinin büyük bir çoğunluğunu kısıtlı sözcük dizimine ve kısıtlı çekimsel biçimbilime sahip dil ikilileri üzerine yapılan çalışmalar oluşturmaktadır. İngilizce-Türkçe dil ikilisi için yapılan çalışmaların azlığı, makine çevirisi probleminin biçimbilimsel olarak farklı özelliklere sahip diller için zorluğu ve yine aynı dil ikilisi için mevcut paralel metinlerin azlığı ile açıklanabilir. Başarılı bir istatistiksel çeviri modeli oluşturmak için yeterli büyüklükte ve kalitede paralel metin kullanmak gerekmektedir. Çeviri modelinde kullanılacak olan paralel metin, kaynak dildeki cümleler ve bu cümlelere ait hedef dildeki çevirilerden oluşmaktadır. Birçok dil çifti için nitelikli ve büyük boyutlarda paralel metin bulmak mümkünken, İngilizce-Türkçe çifti için paralel metin eksikliği bilinen bir problemdir. Hem istatistiksel veri seyrekliği problemine çözüm olarak, hem de biçimbilimsel ve çekimsel olarak farklı dil çiftlerinde bire-çok hizalama kalitesini arttırabilmek adına, yapısal olarak güçlü olan dil tarafında alt-sözcüksel gösterimlere ihtiyaç olduğuna dikkat çekilmektedir [1]. Bu gösterimlerin elde edilebilmesi için ise dil çiftinin biçimbilimsel analiz ve biçimbilimsel anlamsızlık giderme işlemlerinden geçirilmesi gerekmektedir. Özellikle Türkçe gibi sondan eklemeli diller için literatürde

19 biçimbilimsel çözümleyiciler [2, 3] ve anlamsızlık gidericilerin [4, 5, 6, 7] varlığı hedeflenen gösterimlerin elde edilmesini de mümkün kılmaktadır. Bu bildiride yapılan çalışma, bu konuda literatürde başarılı bir yaklaşım olan ve Türkçe altsözcüksel ifadelerin çeviri modeline katılması ile başarım oranının yükseleceğini ifade eden çalışmayı [1] kendisine temel alarak, tarihleri arasındaki SIU konferanslarına ait bildirilerden oluşan bir dil verisi üzerinde çeviri yapmayı hedeflemektedir. Deneyler için elde edilen paralel metin ile bu çalışmanın bir diğer amacı olan İngilizce-Türkçe çifti için bilimsel dile sahip nitelikli bir eğitim kümesi oluşturulmaktır. Bildirinin genel akışı şu şekildedir. İkinci bölümde, istatistiksel makine çevirisi presipleri anlatılmakta bu alanda yapılmış olan ve İngilizce-Türkçe dil çifti için literatürde kendisine yer bulmuş çalışmalar sunulmaktadır. Üçüncü bölümde, benimsenen yaklaşım temel alınarak önerilen yöntem sunulmakta ve SIU verisi üzerinden örneklenerek açıklanmaktadır. Dördüncü bölümde, deney verisi için yapılan ön çalışmalara ve modellerin oluşturulmasına ilişkin detaylar sunulmuştur. Bildiri sonuçlar ve tartışma bölümü ile son bulmaktadır İlgili Çalışmalar İstatistiksel Makine Çevirisi alanında ilk çalışmalar kelime-tabanlı denemelerdir. Bu çalışmalar, çeviri temel birimi olarak kelimeleri kullanarak, her iki dile ait kelimeler arasında ki en olası eşleşmeleri bulmayı hedeflemektedir [8]. Bu işleme kelime eşleme adı verilmektedir. Ancak bu modeller, özellikle farklı biçimbilimsel özellikler gösteren (İngilizce-Türkçe) diller için bire-çok eşleşmelerde yetersiz kalmaktadır. Özellikle Türkçe de tek bir kelimenin İngilizce bir kelime grubuna karşılık geldiği durumlarda bu açık bir şekilde görülmektedir. Bu yetersizliği aşmak adına, temel çeviri Şekil 1. Faktörlü çeviri yaklaşımı. biriminin değiştirilmesi gerekliliği duyulmuş ve araştırma çabaları kelime grubu tabanlı çeviriye yöneltilmiştir. Gerek kelime gerekse kelime grubu tabanlı bir çalışma olsun, istatistiksel makine çevirisinde iki konuya özen gösterilmektedir: uygunluk ve akıcılık. Uygunluk ölçütü

20 eşleştirme sonucunda sağlanırken, akıcılık için hedef dile ait n-gram temelli bir dil modeline ihtiyaç duyulur. İngilizce-Türkçe dil ikilisi için yapılan çalışmalar 1981 tarihine dayanmaktadır [9]. Yine aynı dil çifti için ilk yapısal eşleştirme denemesi [10] ve kural-tabanlı yaklaşım da [11] bu çalışmayı takiben önerilmiştir. Önerilen bu sistemlerin ortak noktası yoğun bir kural oluşturma yöntemini benimsemeleri ve kısıtlı bir alana yönelik olmalarıdır. Kelime grubu tabanlı modeller makine çevirisi konusunda en popüler çeviri yaklaşımlarıdır ve İngilizce-Türkçe çifti için de başarılı denemeler bu alanda olmuştur [1][12]. Veri seyrekliği probleminin çözümü için, biçimbilimsel olarak zengin olan Türkçe tarafı için biçimbilimsel çözümleme teknikleri kullanılmış ve yine bu sebeple sesteş ekler sözlüksel ifadeler şeklinde ifade edilmiştir. İngilizce tarafında ise dilin yapısı gereği kısıtlı bir çözümleme yapılmıştır. Temel olarak bu modeller literatürde faktörlü yaklaşımlar olarak sınıflandırılmış (Şekil 1) olup, hem biçimbilimsel öğelerin hem de kelime köklerinin ayrı olarak eşleştirilmesini gerektirmektedir. Ancak araştırmacılar bu yöntemin bütün kurallarını takip etmemişlerdir. Deneysel çalışmalar göstermektedir ki, yapısal olarak fakir-zengin dil çiftleri için faktörlü yaklaşımlar düşük başarım sergilemektedir. Bu nedenle, söz konusu çalışmalarda ekler veya ek grupları ayrı kelimeler olarak değerlendirmiş, kelime ve kelime grubu eşlemeleri bu şekilde yapılmıştır. Bu sayede Türkçe ek ve ek gruplarının İngilizce ek veya kelimelerle eşlenmesi sağlanmaktadır. Ancak kelime biçimi elde edilirken ek bazında çalışan bir başka dil modeline ihtiyaç duyulmaktadır. Ek-temelli dil modeli, kök ve ekler halinde ifade edilen çevirinin kelime biçimine çevirimi için gereklidir Kullanılan Yöntem Giriş bölümünde bahsedildiği üzere, bu çalışma da daha önce önerilmiş olan sözdizimsel yaklaşımla zenginleştirilmiş sözcük grubu tabanlı çalışma [1] temel alınmaktadır. Bu bölümde çalışmamızda kullandığımız bu temel modellere ait detaylar aktarılmakta, kendi işlem ve önişlem detayları ile birlikte sunulmaktadır. Bu çalışmada temel olarak 4 farklı gösterim kullanılmakta ve bu gösterimlerle oluşturulan çeviri modellerinin performans değerlendirmeleri yapılmaktadır. Ön işlem olarak kelime biçimlerine, çevirinin Türkçe tarafı için biçimbilimsel çözümleme ve biçimbilimsel belirsizlik giderme, İngilizce tarafı içinse cümlenin öğelerinin bulunması işlemi uygulanmıştır. Ancak sözdizimsel olarak katkı sağlamayan etiketler (NN, isim etiketi) eğitim kümesine dâhil edilmemiştir. (Orjinal çalışma İngilizce tarafı için kısıtlı bir biçimbilimsel çözümleme de kullanmaktadır.)

21 Gösterim 1: Kelime, çözümleme yapılmadan kelime biçimi olarak sunulmaktadır. Gösterim 2: Kelime kökü ve biçimbilimsel çözümleme elemanları ile birlikte kelime olarak sunulmaktadır. ( bir+laş+dhr+ma ) Gösterim 3: Kelime kökü ayrı, biçimbilimsel çözümleme elemaları eklenmiş bir şekilde sunulmaktadır. ( bir +laş+dhr+ma ) Gösterim 4: Kelime kökü ve biçimbilimsel çözümleme elemanları ayrı kelimeler olarak sunulmaktadır. ( bir +laş +DHr +ma ) Açıklanmış olan gösterimlerle 4 farklı eğitim kümesi oluşturulmuş ve bu eğitim kümeleri kullanılarak 4 farklı çeviri modeli elde edilmiştir. Yine bu gösterimlerle oluşturulmuş test kümeleri ile başarımlar hesaplanmıştır Deneyler Deney Verisi ve Düzeneği Bu çalışmada, IEEE de yayınlanan PDF formatındaki bildiriler toplanmış ve PDF dokümanlarından metin çıkarımı işlemi uygulanmıştır. Dil kodlama problemi olan ve her iki dilde özetçesi olmayan dokümanlar elendiğinde elde kalan doküman sayısı 634 olmaktadır. Bu dokümanlar üzerinde Microsoft Proofing Tools ile yazım denetimi işlemi uygulanmıştır. Dokümanların makine çevirisinde kullanılabilmesi için paragraf ve cümle bazında hizalanmış olması gerekmektedir. Bildirilere ait özetçeler genel olarak tek paragraftan oluştuğundan paragraf hizalama işlemi yapılmamıştır. Cümle hizalama işlemi için cümle karakter uzunluğunu temel alan Church&Gale [13] e ait cümle hizalama algoritması kullanılmıştır. Algoritmanın hata yaptığı hizalamalar el ile düzeltilerek, hizalama doğruluğu arttırılmıştır. Hizalama işlemleri şematik olarak Şekil 2 de sunulmuştur. Hizalanmış cümleler, üçüncü bölümde belirtilen gösterime ulaşmak adına dil işleme için gerekli önişlemlere tabi tutulmuştur. Türkçe cümleler için Oflazer in iki-seviyeli modeli [2] üzerine kurulmuş olan biçimbilimsel çözümleyici, biçimbilimsel belirsizlik giderme işlemi için de kural tabanlı bir anlamsızlık giderici [5] kullanılmıştır. İngilizce tarafı için sadece TreeTagger [14] yazılımı kullanılmış ve biçimbilimsel olarak anlam ifade etmeyen etiketler çıkarılmıştır. Bir önceki bölümde ifade edilen gösterimler kullanılarak, bu gösterimleri karşılayan ve 3075 cümleden oluşan 4 farklı veri kümesi elde edilmiştir. Eğitim kümesi oluşturulduktan sonra, kelime hizalama ve kelime grubu hizalama işlemleri gerçekleştirilmiştir. Kelime hizalama için GIZA++ [15] ve MKCLS yazılımları [16], kelime grubu temelli çeviri modeli oluşturmak için Moses [17] makine çevirisi yazılımı kullanılmıştır. Türkçe ye ait dil modeli oluşturmak için El- Kahlout tarafından sunulmakta olan Türkçe dil modeli eğitim kümesi kullanılmıştır. Uygulanan ön işlemler serisi şematik olarak Şekil 3 te sunulmuştur.

22 Test kümesi olarak, 2011 yılı SIU bildirilerinin bir altkümesi kullanılmıştır. Test kümesine ait cümleler de aynı eğitim kümesinde olduğu gibi biçimbilimsel çözümleme, biçimbilimsel anlamsızlık giderme işlemlerinden geçirilmiştir. Her bir gösterim tarzı için farklı bir test kümesi oluşturulmuş olup, bu test kümeleri ile deneyler gerçekleştirilmiştir. Başarım ölçütü olarak konum bağımsız bir kelime hata oranı (KHO) türevi olan BLEU metriği kullanılmaktadır. KHO dan farklı olarak, temel ölçüm birimi olarak kelimeleri baz almayan BLEU, değişik uzunluklardaki n-gram öbekleri kullanılır ve arasında derecelendirilir Deney Sonuçları Deney sonuçları Tablo 2 de gösterilmiştir. Sonuçlar göstermektedir ki, sadece kelime biçimlerinin kullanıldığı gösterim en düşük performansı kaydetmiştir. Gösterim 3, kelime biçimlerine göre göreceli %21 lik bir performans artışı sağlamıştır. Eğitim kümesinin küçüklüğü ve buna bağlı olarak, ek bazında hizalama sonuçlarının başarısızlığı nedeni ile Gösterim 4 performans artışına beklenilen katkıyı gösterememiştir. Bu yetersizliğin bir diğer nedeni de ek bazında çalışan bir dil modeli kullanılmamasıdır. Aynı test kümeleri kullanılarak Google Translate ile çeviri yapılmıştır. Bu çeviri sonucunda İngilizce-Türkçe yönünde BLEU puanı elde edilmiştir. Gösterim Google Translate Tablo 1 Aday çevirilerin ve Google Translate çevirisinin BLEU metriği kullanılarak hesaplanan başarımları Sonuçlar ve Tartışma Deneyler sonunda karşılaşılan düşük başarım SIU dermecesinin yapısı ile ilintilidir. Seçilen eğitim kümesinde çeşitlilik bulunduğundan kelime hizalama performansı düşüktür. Bir diğer çıkarım ise biçimbilimsel çözümlemenin istenilen katkıyı yapamamasıdır. Biçimbilimsel çözümleme çözümlenecek kelimenin kökü tespit edilerek ve olası ek dizilimleri çıkartılarak yapılmaktadır. SIU dermecesinde yer alan kelimeler ise çözümleyici kök veritabanı için yeni kelimeler olup, biçimbilimsel çözümlemesi yapılamamaktadır. Bu durum kelime-ek hizalaması başarımını etkilediği gibi, kaliteli bir ek-tabanlı dil modelinin oluşturulmasını zorlaştırmaktadır. Bu kelimelere ait çözümlemelerin yapılabilmesi terimler sözlüğü oluşturulması ve biçimbilimsel çözümleme kuralları ile başarılabilir. Ayrıca, kelime ve kelime grubu hizalama işlemlerinde yüksek başarım yakalayabilmek için mevcut veri kümesinin kelime ve kelime grupları eşleşmeleri ile zenginleştirilmesi gerekmektedir. Devam eden çalışmaların zenginleştirme konusu üzerine olması planlanmaktadır.

23 Kaynakça [1] El-Kahlout, İ. D.: Exploring Different Representational Units in English-to- Turkish Statistical Machine Translation, In: Proceedings of the Second Workshop on Statistical Machine Translation, pp (2007). [2] Oflazer, K.: Two-level Description of Turkish Morphology. Literary and Linguistic Computing 9, pp (1994). [3] Hakkani-Tür, D. Z., Oflazer, K.,Tür, G.: Statistical Morphological Disambiguation for Agglutinative Languages. In: Computers and the Humanities 36(4), pp (2002). [4] Sak, H., Güngör, T., Saraçlar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and Web Corpus. In: GoTAL 2008, vol.5221 of LNCS, Springer, pp (2008). [5] Yüret, D., Türe, F.: Learning Morphological Disambiguation Rules for Turkish. In: Proceedings of HLT-NAACL, pp (2006). [6] Görgün, O., Yıldız, O. T.: A Novel Approach to Morphological Disambiguation for Turkish. In: Proceedings of International Symposium on Computer and Information Sciences (ISCIS), pp (2011). [7] Sak, H., Güngör, T., Saraçlar, M.: Morphological Disambiguation of Turkish Text with Perceptron Algorithm. In: Gelbukh, A. (ed.) CICLING 2007, LNCS 4394, pp (2007). [8] Hutchinson, J. : The Georgetown-IBM Demonstration. MT News International, no.8, pp (1994). [9] Sagay, Z.: A Computer Translation from English to Turkish: Masters Thesis, METU, Department of Computer Engineering (1981). [10] Keyder Turhan, C.: An English to Turkish Machine Translation System Using Structural Mapping. In: Proceedings of the Applied Natural Language Processing, Washington, DC, p (1997). [11] Hakkani, D. Z., Tür, G., Oflazer, K., Mitamura, T., Nyberg, E.: An Englishto-Turkish Interlingual MT System. In: AMTA, pp (1998). [12] Yeniterzi, R., Oflazer, K.: Syntax-to-Morphology Mapping in Factored Phrase-based Statistical Machine Translation from English to Turkish. In:

24 Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), pp (2010). [13] Gale, W.A., Church, K. W.: A program for aligning sentences in bilingual corpora. Computational Linguistics, 19(1), pp (1993). [14] Schmid, H. : Probabilistic part-of-speech tagging using decision trees. In: Proceedings of International Conference on New Methods in Language Processing (1994). [15] Och, F. J., Ney, H.: A systematic comparison of various statistical alignment models, Computational Linguistics, Vol. 29, No.1, pp (2003). [16] Och, F. J.: An Efficient Method for Determining Bilingual Word Classes. In: Ninth Conf. of the Europ. Chapter of the Association for Computational Linguistics, pp (1999). [17] Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Zens, R., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Dyer, C., Bojar, O., Herbst, E., Moses: Open Source Toolkit for Statistical Machine Translation. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Companion Volume, pp (2007). 4. SIRALAMAYI ÖĞRENME 4.1. Giriş Sıralama, bilgi erişim sistemleri konusundaki önemli problemlerden birisidir. Döküman erişimi, işbirlikçi süzgeçleme [1], anahtar terim özütleme [2], tanımlama bulma [3], önemli eposta yol atama [4], duygu çözümleme [5], ürün değerleme[6] ve istenmeyen sanal doku iletişimi[7]. Bu çalışmanın amacı döküman erişimi konusundaki sıralama problemleridir. Bu konudaki sıralama problemleri şöyle özetlenebilir. Dökümanlar sadece sorguya olan yakınlıklarına göre sıralanmaktadır. İlişkisel sıralama [8] sorgunun sanal doku yöresinin yapısına ve belgenin bütünlüğüne önem vermektedir. Birden fazla sıralama aday listesinin birleşimi daha iyi bir sıralama sonucu ortaya koymaktadır. Bu birleşik indise ilişkin sonuçlar kullanıcıya sunulmaktadır.

25 Bir sanal doku yöresinin hangi özellikleri sıralama sonuçlarını etkilemektedir. Bu yaklaşıma arama motoru eniyileme literatüründe tersine mühendislik adı verilmektedir. Dökümana erişimde sıralama oldukça zor bir problem olup, bu konuda birçok algoritma önerilmiştir. Son yıllarda araştırıcılar, özellikle makine öğrenme tekniklerini kullanarak daha iyi sıralama teknikleri geliştirmek adına çalışmaktadırlar. Bu amaçla büyük boyutlardaki eğitim kümeleri üzerinde çalışılmaktadır. Eğitim kümesi yardımı ile sıralama modeli oluşturma yaklaşımına Sıralamayı Öğrenme adı verilmektedir. Temel olarak bu yaklaşım, dökümanlara ait özniteliklerin kullanılarak bir sıralama modeli oluşturulmasını hedeflemektedir. Daha da genellemek gerekirse, bir sıralama algoritmasının sıralamayı öğrenme yaklaşımı sayılabilmesi için şu iki özelliği taşıması gereklidir: Yöntem öznitelik tabanlı bir yaklaşım ise: Sorgu dökümanları öznetlik vektörleri şeklinde ifade edilirler. En popüler öznitelikler, sorgu terimlerinin sıklık sayıları, PageRank ve BM25 puanı. Eğitim içeriyorsa: Modelin öğrenimi dört aşamalı bir süreçtir;; girdi, çıktı, kuram uzayı ve kayıp işlevi (loss function). Bazı aramayı öğrenme algoritmaları özellikle ticari arama motorları tarafından tercih edilmekte olan çevrimiçi öğrenme yöntemlerini kullanmaktadır. Sıralamayı öğrenme konusu araştırma konusu olarak son yılların en popüler konularından bir tanesi olmuş ve bu konuda birçok algoritma önerilmiştir [9-26]. Araştırıcılar arasında bu algoritmalara ilişkin çeşitli sorular tartışılmaktadır: Sıralamayı öğrenme algoritmalarının ortak ve ayrık özellikleri nelerdir? Hangi algorima en iyi başarımı sergilemektedir? Algoritmaların başarım karşılaştırmaları hangi kıstaslar ile yapılmalıdır? Sıralama yeni bir makine öğrenme problemi olarak kabul edilmelidir, yoksa varolan bir makine öğrenme problemi midir? Bu çalışmada sıralamayı öğrenme algoritmalarının birinci soru ışığında tartışılması ve performans değerlendirilmesi yapılmıştır. Ayrıca, sıralama problemi 2 boyutlu bir sınıflama problemi olarak ifade edilmekte ve k-enyakın Komşuluk algoritması ile çözülmüştür Bilgiye Erişimde Sıralama Modelleri Bilgiye erişimde pekçok sıralama modeli mevcuttur. Basit bir yaklaşım olduğu düşünülerek, modeller iki temel başlık altında sunulmuştur: sorgu-bağımlı ve sorgu bağımsız sıralama modelleri.

26 Sorgu-Bağımlı Sıralama Modelleri İlk soralama modelleri sorgu terimlerinin sonuç dökümanlardaki rastlanma sıklığını baz alarak çalışmaktadır. Bu modellerde dökümanlar ve sorgular Euclid uzayında vektörler olarak ifade edilir. Bu iki vektörün iç çarpımı bize sorgu ile dökümanın yakınlığını gösterir. Bu amaçla Terim Sıklığı-Ters Döküman Sıklığı (TF-IDF) ağırlıklandırma kullanılır. Terim sıklığı vektörü, bir t teriminin döküman içerisindeki rastlanım sıklığının düzgelenmiş ifadesidir. Ters Döküman sıklığı ise: (4.1) N sayısı döküman sayısını ifade ederken, n(t) ise t terimini içeren döküman sayısıdır. Buna ek olarak, bir diğer sıralama prensibi ise olasılıksal bir yaklaşım olan BM25 tir. Bu yaklaşımda dökümanlar benzerliklerinin logaritmik tahmini görecelilik oranlarına göre sıralanmaktadır. Temel olarak başarılı bir yaklaşım olmamakla birlikte, birçok değişik sıralama modeline ait parametrelerin birleşimi olarak ifade edilebilir. (4.2) q, t 1,...,t M terimlerinden oluşan sorguyu, d dökümanı TF(t,d) t teriminin d dökümanı içerisindeki rastlanma sıklığını, LEN(d) d dökümanın terim bazında uzunluğunu, avdl ana indisin ortalama döküman uzunluğunu, k 1 ve b özgür parametreleri, IDF ise t teriminin ters döküman rastlanma sıklığını ifade etmektedir. Bilgiye erişimde istatistiksel bir dil modeli kullanmak bir başka sıralama yaklaşımıdır. Bu yaklaşımda terimlerine olasılıksal değerler atanır ve dil modeli döküman ile ilişkilendirilir. Sorgu terimleri, dökümanlara ait dil modelleri ile elde edilmeye çalışılır. Dökümanlar sorgu terimlerini istenilen sırada içerme oluşturma performanslarına göre sıralanır. Bu olaslık şu şekilde ifade edilebilir. (4.3) Dökümana ait dil modelinin oluşturulması enyüksek olabilirlik yöntemine göre sağlanır. Bu konuda dikkat edilmesi gereken konu ise kestirimin yumuşatılmasıdır. Bu durum sıfır olasılıklı terimleri dizisinin oluştuğu durumlarda gereklidir. Bu amaçla, arkaplan dil modeli tüm indis kullanılarak kestirilir.

27 (4.4) Burada, ) arkaplan dil modeli olup, yumuşatma etmenidir ve aralığında değerler alır Sorgu-Bağımsız Sıralama Modelleri Bir önceki bölümde bahsedilen sıralama modelleri, sorgunun içerdiği terimleri ve bunların sıralanışını baz alınarak, bu etmenlerin dökümanlara olan benzerliklerini değerlendirmekte bir sıralama sonucu sunmaktaydı. Diğer yandan, sorgu bağımsız modeller, dökümanları diğer dökümanlara oranla önemlerine göre sıralamaktadır. Bu konuda PageRank[27] örnek gösterilebilir. PageRank sanal doku yöresi hiperbağ yapısını kullanmasından ötürü sanal doku aramasında tercih edilmektedir. Modelde, bir kullanıcının herhangi bir sayfa bağına rastgele tıklama olasılığı şeklinde tanımlanır: (4.5) Modele göre d sayfasının PageRank sayısal değeri,, ya bağlı sayfalar derlemi, ise den dışarıya olan bağların sayısıdır. Kullanıcının sanal doku yöresini bir bağ a tıklayarak değilde, direkt olarak sayfayı ziyaret etmesi olasılığı da modele dahil edildiği model ise aşağıdaki gibi ifade edilebilir: (4.6), sönüm etmenini ve N ise indis teki toplam sayfa sayısını ifade etmektedir Sıralamayı Öğrenme Sıralamayı öğrenme modelleri pekçok değişik yöntem kullanılarak oluşturulabilmektedir. Ancak literatüre bakıldığında, sıralamayı öğrenme modellerinin üç ana başlık altında toplanabilir. Bu yöntemler, girdi, çıktı, kuram uzayı ve kayıp işlevi bakımından farklılık gösterirler. Bu bölümde, bu yöntemler ve uygulama örneklerini açıkmaya çalışacağız Nokta Tabanlı Yaklaşım Bu yaklaşımda esas amaç, her dökümanın ilgililik derecesinin belirlenmesidir. Bu amaçla bütün dökümanların öznitelik vektörlerinden oluşan bir girdi uzayı

28 oluşturulur. Çıktı uzayı ise derlemdeki bütün dökümanların ilgililik dereceleri ile oluşturulur. Dökümanlara ait öznitelik girdi olarak alarak ilgililik derecelerini çıktı olarak oluşturan işlevler bütünü ise modele ait kuram uzayını oluşturur. Nokta tabanlı yaklaşımlara örneklere literatürde rastlanmaktadır [17, 19, 22-24, 25]. Bu yaklaşımlar ise iki ana başlık altında özetlenebilir: sıralama için çoklu-sınıf sınıflandırma ve bağlanımlı altküme sıralama. Çoklu-sınıf sınıflandırma için en bilinen örnek McRank tir [22]. Bu modelde sıralama problemi çok sınıflı bir sınıflandırma problemi olarak ifade edilir ve bu sınıflar yardımı ile sıralama modeli oluşturulur. Sınıflandırma sonuçlarını sıralama puanlarına dönüştürmek için olasılıksal dağılım kullanılır. Bu dağılım o dökümanın hangi kategoriye ait olduğunu ifade etmektedir. Sonuç olarak skorlama işlevi aşağıdaki gibi tanımlanabilir. (4.7) Altsınıf sıralama yaklaşımı ilk olarak Cossock ve Zahn tarafından önerilmiş olup, sıralama probleminin bağlanım problemi olarak yeniden ifade edilmesidir. Skorlama işlevi f, şeklinde ifade edilen dökümanların q sorgusuna ait ve şeklinde ifade edilen ilgililik etiketlerini kullanarak dökümanları sıralar. Kayıp işlevi ise aşağıdaki gibi tanımlanabilir. (4.8) Bu ana yaklaşımlar haricinde bu modellerin uzantısı veya bu modellerin birleşimi olan modellerde önerilmiştir [17, 23] İkili Karşılaştırmalı Yaklaşım İkili karşılaştırmalı yaklaşımlar bütün dökümanların birbirlerine göre ilgililik sırasını bulmak yerine, dökümanların ikili olarak göreli sıralamalarını bulmak prensibini takip eder. Sıralam problemi, ikili dökümanlar arasında bir sınıflandırma problemi olarak ifade edilir. Amaç ikili dökümanlar arasında enküçük hatalı sınıfladırma sayısına ulaşmaktır. Eğer bütün ikililer doğru olarak sınıfladırıldılar ise, q sorgusuna ait bütün dökümanlar doğru olarak sıralanmış sayılır. Dökümanlar öznitelik vektörleri şeklinde algoritmaya sunulurlar. Literatürde bu kategoriye ait bir çok çalışma mevcuttur [9, 11, 12, 15, 19, 26]. Bu kategoride bir AdaBoost türevi olan RankBoost [18] önemli bir yer teşkil etmektedir. Atasından farklı olarak RankBoost, herbir dökümanı döküman ikilileri bazında sınıflandırır.

29 Destek Vektör Makinesi(SVM) ile sıralama [20] sınıflandırma için destek vektör makinesi kullanma üzerine kuruludur. SVM üzerine kurulu bir sıralama yaklaşımı olduğundan birçok özelliğini SVM iskeletinden miras almaktadır ve oldukça iyi bir genelleme başarımına sahiptir ve karmaşık doğrusal olmayan problemleri de çözebilir Liste Tabanlı Yaklaşım Tekli veya ikili dökümanlar bazında öngörmelerde bulunan yaklaşımlardan farklı olarak, liste tabanlı yaklaşımlar, gerçke doğru ile sıralama sonuçları arasındaki farkı enküçüklemeye çalışırlar. Yaklaşımda girdi uzayı, q sorgusunun sonucu olan dökümanlar kümesidir. Çıktı ise bu sorguya sonuç olacak sıralamalar kümesidir. Doğru sıralamayı bulmaya çalışan işlevler bütünü ve gerçek sıralama ile çıktı uzayı arasındaki farklılık hesabını yapan işlevler sırası ile kuram uzayı ve kayıp işlevidir. Bu bağlamda literatürde pekçok çalışmaya rastlanmaktadır [10, 13, 24]. Liste tabanlı yaklaşımlar arasında en çok üstünde durulan yöntem kayıp işlevi olarak eşdikmelik benzerliği kullanan RankCosine dır. ListNet [13] popüler olarak kullanılan liste tabanlı bir başka yaklaşımdır. Bu yaklaşım temel olarak dizilimlere bağlı olasılıksal dağılımlar üzerinden kayıp hesaplamakta ve bunnu için Luce modelini kullanmaktadır. Çıktı uzayını oluşturan çıktı listeleri, dökümanları içeren değişik sıralamalar olarak düşünülebileceğinden, bu yaklaşım problem için kolaylıkla uygulanabilir Sınıfladırmalı Çizge Sıralama (GRwC) Bu bölüm geliştirdiğim sıralamayı öğrenme yaklaşımına ait detayları içermektedir. Temel olarak, sıralama problemi iki sınıflı bir sınıflandırma problemine dönüştürülmekte ve k-enyakın Komşuluk algoritması ile çözülmektedir. Her q sorgusu doğrusal olarak veya ilgililik seviyesine göre etiketlenmiş ve kendileri ile ilişkilendirilmiş dökümanlara X sahiptir. Her döküman sıralama modelinin bir parçası olan sayısal değerlere sahip özniteliklere sahiptir. Hedeflene ise, her özniteliğe ait ağırlık değerlerini hesaplamak ve doğrusal olarak birleştirmektir. Sınıflayıcının eğitimi aşamasında veri setinin hazırlanması gerekmektedir. Bu amaçla eğitim kümesi pozitif ve negatif örnekler olarak işaretlenmiştir. Bu gruplara ait herbir girdi, iki dökümana ait ve öznitelik bazında eşleştirilmiş bir vektördür. Eğer bir girdi + olarak işaretlendirilmiş ise, birinci dökümanın sıralaması ikinciden yüksektir. Aynı durum olarak işartelenmiş girdi için diğer yönlüdür. Eşlenecek dökümanlar, aynı sorguya ait olmalı, farklı sorgulardan gelen döküman vektörleri eşleştirilmemeli ve eğitim kümesi katılmamalıdır.

Daha göster