Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi



Benzer belgeler
SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

B DĠJĠTAL TAKOMETRE KULLANIM KILAVUZU

HEMŞİRE İNSANGÜCÜNÜN YETİŞTİRİLMESİ VE GELİŞTİRİLMESİ

BİLGİSAYAR DESTEKLİ BİR DİL PROGRAMI -Türkçe Konuşma - Tanıma Sistemi-

TEKNİK RESİM. Ders Notları: Mehmet Çevik Dokuz Eylül Üniversitesi. Görünüşler - 1

1 OCAK 31 ARALIK 2009 ARASI ODAMIZ FUAR TEŞVİKLERİNİN ANALİZİ

MÜDEK 01 Mayıs Eyl 2016

WCDMA HABERLEŞMESİNDE PASİF DAĞITILMIŞ ANTEN SİSTEMLERİ KULLANILARAK BİNA İÇİ HÜCRE PLANLAMA. Ferhat Yumuşak 1, Aktül Kavas 1, Betül Altınok 2

BİLGİ BELGE MERKEZİ VE YAYIN HİZMETLERİ

Analiz aşaması sıralayıcı olurusa proje yapımında daha kolay ilerlemek mümkün olacaktır.

5. ÜNİTE KUMANDA DEVRE ŞEMALARI ÇİZİMİ

BİR SAYININ ÖZÜ VE DÖRT İŞLEM

TURBOCHARGER REZONATÖRÜ TASARIMINDA SES İLETİM KAYBININ NÜMERİK VE DENEYSEL İNCELENMESİ

TÜBİTAK BİDEB YİBO ÖĞRETMENLERİ

VEZNE PROGRAMINDA POSTA ÜCRETİ İLE İLGİLİ YAPILAN DÜZENLEMELER (Vezne Sürüm: )

ELEKTRİK ÜRETİM SANTRALLERİNDE KAPASİTE ARTIRIMI VE LİSANS TADİLİ

Son yıllarda Türkiye de artan enerji talebiyle birlikte

2008 YILI MERKEZİ YÖNETİM BÜTÇESİ ÖN DEĞERLENDİRME NOTU

1.Temel Kavramlar 2. ÆÍlemler

Dairesel Dalga Kılavuzlarının 2 Boyutlu FDTD Yöntemi le Modellenmesi

İngilizce İletişim Becerileri II (ENG 102) Ders Detayları

B02.8 Bölüm Değerlendirmeleri ve Özet

Halkla İlişkiler ve Organizasyon

Üniversitelerde Yabancı Dil Öğretimi

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

2. KIRSAL KALKINMA MALİ DESTEK PROGRAMI İLE İLGİLİ SORULAR

DERS BİLGİLERİ. Ders Kodu Yarıyıl T+U Kredi AKTS BORÇLAR HUKUKU Ön Koşul Dersleri. Dersin Dili. Türkçe.

Metal Kesme Teorisi (MFGE 541) Ders Detayları

KADININ STATÜSÜ GENEL MÜDÜRLÜĞÜ. Tarımda Kadınların Finansmana Erişimi Esra ÇADIR

TÜS AD Yönetim Kurulu Ba kanı Arzuhan Do an Yalçında ın Rotary Bölge Asamblesi Konu ması

Mikrodenetleyici Tabanlı, Otomatik Kontrollü Çöp Kamyonu Tasarımı

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

17-19 EYLÜL 2010 TARİHLERİ ARASINDA MEHMET AKİF ERSOY ÜNİVERSİTESİN DE YAPILAN ADIM ÜNİVERSİTELERİ İDARİ GRUP TOPLANTI KARARLARI

İngilizce Öğretmenlerinin Bilgisayar Beceri, Kullanım ve Pedagojik İçerik Bilgi Özdeğerlendirmeleri: e-inset NET. Betül Arap 1 Fidel Çakmak 2

OKUL BAZLI BÜTÇELEME KILAVUZU

TEŞEKKÜR Bizler anne ve babalarımıza, bize her zaman yardım eden matematik öğretmenimiz Zeliha Çetinel e, sınıf öğretmenimiz Zuhal Tek e, arkadaşımız

1. YAPISAL KIRILMA TESTLERİ

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

YEDİNCİ KISIM Kurullar, Komisyonlar ve Ekipler

ÇEVRE KORUMA TEMEL ALAN KODU: 85

ULAKBİM Danışma Hizmetlerinde Yeni Uygulamalar: Makale İstek Sistemi ve WOS Atıf İndeksleri Yayın Sayıları Tarama Robotu

EĞİTİM BİLİMİNE GİRİŞ 1. Ders- Eğitimin Temel Kavramları. Yrd. Doç. Dr. Melike YİĞİT KOYUNKAYA

DENEY 2: PROTOBOARD TANITIMI VE DEVRE KURMA

SERMAYE PİYASASI KURULU İKİNCİ BAŞKANI SAYIN DOÇ. DR. TURAN EROL UN. GYODER ZİRVESİ nde YAPTIĞI KONUŞMA METNİ 26 NİSAN 2007 İSTANBUL

BÖLÜM 3 : SONUÇ VE DEĞERLENDİRME BÖLÜM

BINGOL VALILIGI ii Milli Eğitim Müdürlüğü ...,... "" EGITIM-OGRETIM YILI ÇALIŞMA TAKVIMI. BiNGÖL

Faliyet Raporları. Toplu İş Sözleşmesi Çalışanlarımızın özlük haklarını düzenleyen Toplu İş Sözleşmesinin geliştirilerek uygulanmasına devam edilecek.


İşin Adı: KÜTÜPHANE ve DOKÜMANTASYON DAİRE BAŞKANLIĞI. İşin Kodu: İşi Yapan İşgörenin Bağlı Bulunduğu İlk Yönetici: Genel Sekreter Tarih:








Ş Ç İ İ İ Ç Ş












Ç Ö Ş Ş Ç Ü Ş Ş Ö Ü






ğ ğ Ö ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ Ö ğ ğ ğ ğ






Ö





Ö Ç Ö







Ç Ç Ş Ö






İ İ

İ İ Ö Ö

Transkript:

Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi lknur Durgar El-Kahlout ve Kemal Oflazer Mühendislik ve Do a Bilimleri Fakültesi Sabancı Üniversitesi stanbul, 34956, Türkiye ilknurdurgar@su.sabanciuniv.edu, oflazer@sabanciuniv.edu http://www.hlst.sabanciuniv.edu Özetçe. Bu bildiride, Türkçe ngilizce dil çifti için istatistiksel bilgisayarlı çeviri sistemi anlatılmaktadır. ki dil arasındaki yapısal farklılıklardan kaynaklanan problemler, biçimbirimsel analiz yapılarak eklerin ayrı gösterimi ile ortadan kaldırılmı tır. Yakla ım sözcük öbe i tabanlı çözücü ile test edilmi tir. Sistem performansı, eklerin bigram tabanlı gruplandırılması ile iyile tirilmi tir. Önerilen metot ile standart modele kıyasla daha iyi sonuçlar elde edilmi tir. 22000 cümlelik paralel metinler ile olu turulan sistemin performansı tatmin edici olmasa da bir ba langıçdır. 1 Giri Bir dilin (kaynak dil) di er bir dile (hedef dil) otomatik olarak çevrilmesi di er adıyla bilgisayarlı çeviri (BÇ) bilgisayar bilimlerinin ve do al dil i lemenin çok eskiden bu yana ilgilendi i konulardan biridir. Bu tür bir çalı manın yapılabilmesi için bilgisayarın her iki dili, dillerdeki e anlamlı sözcükleri, sözcük öbeklerini ve gramerlerini bilmesi gerekir. BÇ için uygulanabilecek yakla ımlardan biri dilbilimcilerin gerekli bilgileri kurallar kümesi olarak bilgisayara tanımlamasıdır ki bu uzun zaman alacak emek yo un bir i tir ve de temelde u ana kadar belli-ba lı birkaç dil çifti dı ında çok da ba arılı olamamı tır. Daha yeni bir yakla ım ise cümle bazında e le tirilmi birbiri ile aynı içeri i ta ıyan iki farklı dilde yazılmı paralel metinlerin bilgisayara yüklenmesi ve bilgisayarın istatistiksel metotlar ile bu bilgiden yola çıkarak di er tüm bilgileri otomatik olarak ö renmesine dayanmaktadır. statistiksel Bilgisayarlı Çeviri ( BÇ) yakla ımının popüler olmasının sebebi, paralel metinler dı ında ekstra bir dil bilgisine ba vurmadan etkili sonuçlar üretmesidir. BÇ çeviri i lemini gürültülü kanal sinyal geri elde etme problemine benzer olarak çözmektedir [1, 2]. Örne in, bir ngilizce tümce e, birçok Türkçe tümceye çevrilebilir. statistiksel çeviri ilk adımda bütün Türkçe tümcelerin, bütün ngilizce tümcelerin çevirisi oldu unu kabul eder fakat her ngilizce tümcenin, Türkçe tümcenin çevirisi olmasının belirli bir olasılı ı vardır. Herhangi bir sözcük öbek çifti (t,e) için, Pr(t e) verilen ngilizce tümce e'nin, çevrildi i zaman Türkçe tümce t'yi üretme olasılı ıdır. Çeviri sisteminin amacı, verilen e için, bir çevirmenin üretece i en yüksek olasılıklı t öbe ini bulmaktır; 125

t* argmax Pr( t e) (1) t Tümceler do ru yapılanmı ve yanlı yapılanmı olarak iki gruba ayrılabilir. Örne in, ya mur ya dı ı için maç iptal edildi ve he is not here cümleleri do ru yapılanmı cümleler iken, için edildi maç ya dı ı iptal ya mur ve here is he not cümleleri yanlı yapılanmı cümlelerdir. Do ru bir çeviride sadece kaynak dilde bulunan sözcüklerin do ru hedef dil sözcüklerine birebir çevrilmesi yeterli de ildir. Bunun yanısıra do ru sözcük sıralaması beklenir. Hedef dilde üretilecek söz öbe inin, belirli bir olasılı ı olmalıdır. Üretilecek olan söz öbe inin olasılı ını hesaplayabilmek için Pr(t e) Bayes kanunu kullanılarak yeniden yazıldı ında, belirli bir ngilizce söz öbe i e için payda kaynak söz öbe i t den, ba ımsız oldu undan istatistiksel bilgisayarlı çevirinin temel denklemi; Pr(e t) Pr(t) t* arg max arg max Pr( e t)pr( t) t Pr(e) t (2) eklinde yazılmaktadır. Denklemdeki Pr(t) hedef dildeki söz öbe inin olasılı ını, Pr(e t) ise çeviri olasılı ını ifade etmektedir. Pr(t) dil modeli, Pr(e t) ise çeviri modeli olarak adlandırılmaktadır. lk BÇ sitemleri, dillerin biçimbirimsel veya sözdizimsel özelliklerine dikkat etmeksizin, salt kelime-tabanlı yakla ımları kullanan sistemlerdir [2]. Takip eden yakla ımlar, biçimbirimsel ve sözdizimsel özelliklerin bir ekilde modellere dahil edilmesini göstererek kullanmı lardır [1, 3-5]. BÇ sistemleri dil ve çeviri modeli parametrelerini cümle bazında e le tirilmi paralel metinlerden tahmin eder [1]. Do ru parametreleri elde edebilmek için sistemler olabildi ince çok paralel metine ihtiyaç duymaktadır. Fakat yeterli derecede paralel metin elde etmek bazı diller için mümkün de ildir. Bazı dillerde ise yeterli miktarda paralel metin bulunsa bile dilin biçimbirimsel yapısı parametreleri yakla ık ekilde elde etmeye uygun de ildir. Türkçe'nin dil yapısı günümüze kadar geli tirilmi olan BÇ sistemlerinde kullanılan dillerden oldukça farklı oldu u için, varolan yakla ımlar Türkçe için birebir kullanıma uygun de ildir. Türkçe'nin eklemeli bir dil olması çeviri modeli parametrelerini do ru ekilde elde etmeye engeldir. Türkçe'ye özel problemlere uygun yakla ımlar üretilerek özgün bir çalı ma yapılması gerekmektedir. Bu bildiride, Türkçe ngilizce dil çifti için paralel metinlerin e le tirilmesinden çıkan sonuçlar, sistemin son durumu ve çözümlenmesi planlanan problemler anlatılmaktadır. Çalı mada, Lee ni çalı masına [4] benzer bir biçimbirimsel yakla ım kullanılmı, ve yakla ım daha da genelle tirilerek daha yakla ık sonuçlar elde edilmi tir. 126

2 Türkçe nin Dil Yapısına Genel Bakı Türkçe Ural-Altay dil ailesine ait sondan eklemeli bir dildir. Sözcü ün anlamı ngilizce gibi dillere göre oldukça farklıdır. Sözcükler bir çok çekim ve yapım eklerinin kök sözcü e eklenmesi ile olu ur. Her biçimbirim farklı bir bilgi ta ımaktadır. Kök sözcüklere biçimbirimler eklenerek binlerce yeni sözcük türetilebilir. Çe itli kurallar, biçimbirimlerin de i ik sözcüklerde de i ik biçimler almasına sebep olur. Türkçe bir sözcük kimi zaman ngilizce bir cümleyi ifade edebilir. Örne in, sa lamla tırdı ımızdaki 1 sözcü ü sa lam +la +tır +dı +ımız +da +ki 2 eklinde ayrı tırabilir. Bir adım öteye ta ıyarak sözcüksel biçimi sa lam +la +DHr +DHk +HmHz +DA +ki olarak ifade edilir [6]. Bu gösterimde örne in +DHr, fiil yapım ekleri +dır, +dir, +dur, +dür, +tır, +tir, +tur, +tür'ü temsil etmektedir. Gösterimin amacı, dil kuralları gere i farklı biçimler alan fakat aynı bilgiyi ta ıyan biçimbirimleri tek bir ekilde ifade etmektir. Örne in, yüzey biçimleri farklı olan defterinde ve masasında sözcükleri, sözcüksel biçimde defter+sh+nda ve masa+sh+nda eklinde ifade edildi inde iki sözcü ün aynı biçimbirimler ile türetildi i görülmektedir. 3 Türkçe- ngilizce Paralel Metinlerin Kelime bazında E le tirilmesi "Aradı ında okuldan eve gidiyorum" ve "When he called, i was going home from the school" cümle çifti için sözcük tabanlı bir e le tirme yapıldı ında, ekil 1'e benzer bir sonuç elde edilir. ekilde de görüldü ü üzere, bir Türkçe sözcük ngilizce birçok sözcük ile e le mektedir. Bu tarz bir e le tirmenin problemi, ngilizce paralel metinde yüksek frekanslarda bulunan bir sözcük Türkçe paralel metinde daha dü ük frekansta bulunması ya da hiç bulunmamamasıdır. Buna ra men sözcü ün de i ik biçimleri metinde olabilir. Tablo 1 faaliyet sözcü ünün farklı biçimlerinin örnek bir ngilizce - Türkçe paralel metinin Türkçe kısmındaki frekanslarını vermektedir. Tablo 1 de, faaliyet sözcü ünün de i ik biçimleri toplamda 41 kez bulunmasına ra men, her biri çok dü ük frekanslarda bulunur. Sözcük biçimlerinin paralel metinlerde analiz edilmeden kullanılması iki probleme yol açmaktadır. Birincisi, Türkçe sözcüklerin de i ik biçimleri yüzünden Türkçe ve ngilizce kök sözcüklerin do ru ekilde e le tirilememesi, ikincisi ise, ngilizce i levsel sözcükler ile Türkçe eklerin e le tirilememesidir. Her iki problemin çözümü için biçimbirimsel çözümleme yapılması gerekmektedir. Örne in, faaliyetleriyle sözcü ü faaliyet +ler + i +yle eklinde kök sözcük ve yüzey eklerine bölünerek Türkçe paralel metinde ifade edilmelidir. Bu ekilde faaliyet sözcü ü ne kadar farklı formlarda bulunursa bulunsun, activity sözcü ü ile e le me olasılı ı çok yüksek olacaktır. Yanısıra, biçimbirimsel analiz yapılmazsa, çevirisi için ele alınan yeni bir cümlede kelimenin sistemde kullanılan paralel metinlerde 1 ngilizce çevirisi (the thing existing) at the time we caused (something) to become strong eklinde yapılabilir. 2 Ekler daha sonraki kullanımlarda kolaylık sa lamak için ba larında '+' i areti ile ifade edilmi tir. 127

geçmeyen bir formu varsa (örne in, faaliyetlerindeki) kelimenin bu formu çevrilemeyecektir. Biçimbirimsel çözümleme, hem kök kelimenin hem de eklerin birbirinden ba ımsız olarak e le mesini sa lamakta ve sistemin performansını arttırmaktadır. ekil 1. Türkçe ve ngilizce Cümleler için E le tirme Biçimbirimsel çözümlemede yüzey ekler kullanıldı ında, aynı bilgiyi ta ıyan eklerin farklı biçimlerinin oldu u dikkat çekmektedir. Örne in, bulunma hal eki dört farklı yüzey biçimi {+de, +da, +te, +ta} ile ifade edilmektedir. Eklerin yüzey biçimleri yerine sözcüksel biçimlerinin kullanılması ile aynı bilgiyi ta ıyan ekler tek biçimde ifade edilmesini sa lar. Bunu yapmaktaki amaç, eklerin birden çok olan yüzey biçimlerini tek bir sözcüksel biçim ile ifade ederek, hem çeviri olasılıklarını iyile tirmek hem de çeviri sırasında kelime köküne eklenecek ekin yüzey biçimini bulma görevini çözücüye yüklememektir. Kelime kökü ve eklerin sözcüksel biçimleri birbirinden ba ımsız olarak çevrildikten sonra, yapılacak ek bir çalı ma ile köke uygun ekin yüzey biçimi bulunabilir. Sözcüksel biçimler kullanılarak, faaliyetleriyle sözcü ü, faaliyet +lar +sh +yla eklinde ifade edilir. Tablo 1. faaliyet kelimesinin de i ik formları Kelime Formu Sayı Anlamı faaliyet 3 'activity' faaliyete 1 'to the activity' faaliyetinde 1 'in its activity' faaliyetler 3 'activities' faaliyetlere 6 'to the activities' faaliyetleri 7 'their activities' faaliyetlerin 7 'of the activities' faaliyetlerinde 1 'in their activities' faaliyetlerine 5 'to their activities' faaliyetlerini 1 'their activities (accusative)' faaliyetlerinin 2 'of their activities' faaliyetleriyle 1 'with their activities' faaliyette 2 'in (the) activity' faaliyetteki 1 'that which is in activity' Toplam 41 Benzer biçimde, ngilizce metinler için de biçimbirimsel analiz yapılmı tır. ngilizce biçimbirimsel analiz TreeTagger [7] kullanılarak yapılmı tır. ngilizce 128

metinlerde tüm etiketleri kullanmak yerine sadece biçimbirimsel bilgi ta ıyan etiketler kullanılmı tır. Örne in, ço ul eki için NNS, geçmi zaman eki için VVD kullanılmı tır. Biçimbirimsel analiz ile activities sözcü ü activity +NNS eklinde ifade edilmektedir Her iki metin için de biçimbirimsel analiz yapılmasının sebebi, kısıtlı olan metinlerden olabilecek en yüksek faydayı sa lamaktır. Analiz tamamlandıktan sonra ekil 1 de verilen cümle çifti için elde etmeyi planladı ımız e le tirme ekil 2 de gösterilmektedir. Biçimbirimsel çözümleme Türkçe ve ngilizce arasındaki yapısal farklılıkları ortadan kaldırmakla beraber, sistem e itimi sonrasında otomatik olarak yaptı ı kelime bazlı e le tirmelerde, gerçe e yakın olmayan karma ık kelime e le tirmeleri bulunmaktadır. Eklerin ayrı olarak gösterilmesi ile hem Türkçe hem de ngilizce metinlerdeki cümlelerde kelime artı ı olmu tur. Detaylı analiz, özellikle Türkçe metinlerde birçok ekin ortaya çıkması ile Türkçe - nglizce metinlerinde kelime uzunluklarında büyük bir orantısızlı a sebeb olmu, bu da kelimelerin kaydırma olasılıklarını dü ürmü ve üretkenlik olasılıklarını çok yükseltmi tir. Eklerin gösteriminde bir iyile tirme çalı masının yapılması gerekti i çok açıktır. ekil 2. Ayrı tırılmı ekler ile cümle e le mesi Yapılan çalı malarda birbirini takip eden Türkçe eklerin, birbirini takip eden ngilizce ek ve i levsel sözcüklere denk geldi i görülmü tür. Ayrıca ekler, yakınlarında bulunan eklere göre farklı anlamlar ifade etmektedir. Örne in +DHr ekinin +DHr +ma ve +yacak +DHr ek öbeklerinde anlamları farklıdır. Bu gibi ek ve i levsel sözcük öbeklerini bulmak için söz öbekleri bulma algoritmaları yerine daha basit iki a amalı bir yöntem kullandık. lk önce her iki dil metinlerinde bigramlar üretildi. Yüksek frenkslı ek öbekleri elde edilip birle tirildi. Günümüz BÇ sistemlerinde söz öbeklerini elde etmek için en fazla dört sözcük kullanıldı ı göz önüne alınarak birle tirilmi paralel metinler için tekrar bigram üretildi ve yüksek frekanslı ek öbekleri tekrar elde edilerek birle tirildi. Sonuç olarak 2, 3 ve 4 ek ve sözcükten olu an öbekler elde edildi. Basit olmasına kar ın, uygulanan metot ile metinlerdeki kelime sayısı azaltılmı tır. Tablo 2 sistemin performansındaki artı ı göstermektedir. 129

4 Performans Sistem 22000 cümlelik ngilizce - Türkçe paralel metin ile e itilmi tir. Model parametreleri GIZA++ IBM 4 [8] modeli ile elde edilmi tir. Yeni cümlelerin çevirisi için sözcük öbe i tabanlı [9] çeviriler için kullanılan Pharaoh Decoder [10] kullanılmı tır. Sistemin testi günümüz BÇ sistemlerinde yaygın olarak kullanılan BLEU [11] de erlendirme aracı ile elde edilmi tir. Sistemin testi için 500 cümle kullanılmı tır. Çözücü çıktısı Türkçe çevirilerde ekler köklere birle tirilirken köke uygun ekler eçilerek birle tirilmi, köke eklenmeyen ekler atılmı tır. Tablo 2 sistemin sadece biçimbirimsel analizi ile ve ek öbekleri elde edildikten sonraki performansını gösterilmektedir. Tablo 2. ngilizce Türkçe BÇ sistemi için istatistikler Metot BLEU sonuçları Standart 11.33 Biçimbirimsel Analiz 10.58 Biçimbirimsel Analiz 13.41 + n-gram Analizi Tablo 3 sistem e itildikten sonra test a amasında denenen bazı ngilizce cümlelerin Türkçe çevirilerini göstermektedir. Tablo 3. Çeviri Çıktıları Girdi: international terrorism also remains to be an important issue Standart çeviri çıktısı: ulus+lararası terörizm de önem+li kal+mı +tır. bir konu ol+acak+tır Kök birle tirme olmaksızın çeviri çıktısı: ulus+lararası terörizm de ol+ma+ya devam et+mek+te+dir önem+li bir sorun+dur Kök birle tirmesi ile çeviri çıktısı: ulus+lararası terörizm de önem+li bir sorun ol+ma+ya devam et+mek+te+dir Referans cümle: ulus+lararası terörizm de önem+li bir sorun ol+ma+ya devam et+mek+te+dir Girdi: the initiation of negotiations will represent the beginning of a next phase in the process of accession Standart çeviri çıktısı: müzakere+ler+in gör+ü +me+ler yap+ıl+acak bir der+ken a ama+nın hasar+ı sürec+i ba langıc+ı+nı 15+'i Kök birle tirme olmaksızın çeviri çıktısı: müzakere+ler temsil ed+il+me+si+nin ba langıc+ı bir a ama+sı+nda katılım sürec+i+nin ertesi Kök birle tirmesi ile çeviri çıktısı: müzakere+ler+in ba la+ma+sı+nın ba langıc+ı+nı temsil ed+ecek+tir katılım sürec+i+nin bir sonra+ki a ama Referans cümle: müzakere+ler+in ba la+ma+sı, katılım sürec+i+nin bir sonra+ki a ama+sı+nın ba langıc+ı+nı temsil ed+ecek+tir 130

5 leri Konular Çalı manın amacı Türkçe ngilizce dil çifti için ba arılı bir istatistiksel bilgisayarlı sistemi geli tirmektir. Sistemin eklerin ayrı gösterilmesini temel almaktadır. Üzerinde çalı ılması dü ünülen konular iki ana ba lıkta toplanabilir. leride bu yönde çalı malar yapılacaktır. Birinci olarak, çözücü her ne kadar do ru kelime ve kökleri bulsa da sıralamalarında hatalar vardır. Çözücüden sonra yapılacak ek bir çalı ma ile do ru ek ve köklerin birle tirilmesi gerekmektedir. kinci olarak, de erlendirme kriteri olarak kullanılan BLEU aracı Türkçe için uygun olmadı ından de erlendirme kriterleri üzerinde çalı malar yapılması gerekmektedir. 6 Sonuçlar Bu bildiride, Türkçe - ngilizce dil çifti için istatistiksel bilgisayarlı çeviri sistemi için yapılan çalı malar anlatılmı tır. Var olan paralel metinlerden en yüksek verimi almak ve diller arasındaki yapısal farklılıkları en aza indirmek için biçimbirimsel analiz yapılarak ekler kelime köklerinden ayrı olarak ifade edilmi, kök ve eklerin birbirinden ba ımsız olarak çeviri olasılıkları hesaplanmı tır. Türkçe metinlerde birçok ek ortaya çıktı ı için sistemin ba arı dü mü, bu dü me birbirini takip eden yüksek frekanslı eklerin birbirine ba lanması ile sistemin ba arısı arttırılmı tır. Ek Bilgi. Yapılan çalı ma, 105E025 numaralı ngilizce-türkçe statistiksel Bilgisayarlı Çeviri Sistemi projesi dahilinde TÜBITAK tarafından desteklenmektedir. Referanslar 1. Brown, P.F., Della Pietra, S.A., Della Pietra, V.J., Lafferty, J.D., Mercer, R.L.: Analysis, statistical transfer, and synthesis in machine translation. In: Proceeding of TMI: Fourth International Conference on Theoretical and Methodological Issues in MT. (1992) 83 100 2. Brown, P.F., Della Pietra, S.A., Della Pietra, V.J., Mercer, R.L.: The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19 (1993) 263 311 3. Yamada, K., Knight, K.: A syntax-based statistical translation model. In: Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, Toulouse (2001) 00 00 4. Lee, Y.S.: Morphological analysis for statistical machine translation. In: Proceedings of HLT-NAACL 2004 - Companion Volume. (2004) 57 60 5. Niessen, S., Ney, H.: Statistical machine translation with scarce resources using morphosyntatic information. Computational Linguistics 30 (2004) 181 204 6. Oflazer, K.: Two-level description of Turkish morphology. Literary and Linguistic Computing 9 (1994) 137 148 7. Schmid,H.: Probabilistic part-of-speech tagging using decision trees. In Proceedings of International Conference on New Methods in Language Processing (1994). 8. Och, F.J., Ney, H.: Improved statistical alignment models. In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong (2000) 440 447 131

9. Och, F.J., Ney, H.: The alignment template approach to statistical machine translation. Computational Linguistics 30 (2004) 417 449 10. Koehn, P., Och, F.J., Marcu, D.: Statistical phrase-based translation. In: Proceedings of HLT/NAACL. (2003) 11. Papineni, K., Roukos, S., Ward, T., Zhu, W.: BLEU: a method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia (2002) 311-318 132