T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DÜZLEMSEL HOMOTETİK HAREKETLER ALTINDAT.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Benzer belgeler

Đstatiksel Bilgisayarlı Çeviride Paralel Derlemin Büyüklüğünün ve Kalitesinin Etkileri

YD 101 İngilizce-I (A1) 4+0 English-I (A1) 4 YD 107 Almanca-I (A-1) 4+0 German-I (A-1) 4 I. Yarıyıl Toplam Kredi 17 I. Yarıyıl Toplam AKTS 30

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

ÖZET OTOMATİK KÖKLENDİRME SİSTEMİNDE ORTAM NEMİNİN SENSÖRLERLE HASSAS KONTROLÜ. Murat ÇAĞLAR

T.C. SÜLEYMAN DEMİREL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ISPARTA İLİ KİRAZ İHRACATININ ANALİZİ

Türkçe Dokümanlar Ġçin Yazar Tanıma

Bilgisayar Kavramına Giriş, Bilgisayar Kullanımı ile İlgili Temel Kavramlar

1.1. Yazılım Geliştirme Süreci

daha çok göz önünde bulundurulabilir. Öğrencilerin dile karşı daha olumlu bir tutum geliştirmeleri ve daha homojen gruplar ile dersler yürütülebilir.

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

DYNAMIC BUSINESS ENGLISH

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/YÜKSEKOKULU BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ/PROGRAMI MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

MESLEKİ TERMİNOLOJİ I 1. HAFTA YAZILIM MÜH. TEMEL KAVRAMLAR

DYNAMIC BUSINESS ENGLISH

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DÖNEM PROJESİ TAŞINMAZ DEĞERLEMEDE HEDONİK REGRESYON ÇÖZÜMLEMESİ. Duygu ÖZÇALIK

İngilizce-Türkçe, Türkçe-İngilizce Makine Çevirisinde Yazılımların Karşılaştırılması

VERİ MADENCİLİĞİ Metin Madenciliği

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Web Madenciliği (Web Mining)

A UNIFIED APPROACH IN GPS ACCURACY DETERMINATION STUDIES

HUNGAROLOJİ ANABİLİM DALI EĞİTİM ÖĞRETİM ÖĞRETİM YILI GÜZ PROGRAMI

UYGURCADAN TÜRKÇEYE BĠLGĠSAYARLI ÇEVĠRĠ. DOKTORA TEZĠ Murat ORHUN

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü

Doğal Dil İşleme Nedir? Doğal Dil İşleme

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

MÜFREDAT DERS LİSTESİ

Bilgisayar Mühendisliği

EGE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ (YÜKSEK LİSANS TEZİ)

TAM METİN YAZIM KURALLARI

BASKETBOL OYUNCULARININ DURUMLUK VE SÜREKLİ KAYGI DÜZEYLERİNİN BELİRLENMESİ

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Üniversiteyi Kazanan Öğrencilerin Temel Bilgi Teknolojilerini Kullanabilme Düzeylerinin Bölgesel Analizi

İŞLETMELERDE KURUMSAL İMAJ VE OLUŞUMUNDAKİ ANA ETKENLER

Kelime Gösterimleri (Word Representation Word Embeddings)

Doç. Dr. Ender ATEŞMAN

SİSTEMLERİNDE ALAN UYARLAMASI İLE BAŞARININ ARTIRILMASI YÜKSEK LİSANS TEZİ. Ezgi YILDIRIM. Bilgisayar Mühendisliği Anabilim Dalı

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ LİSANS EĞİTİM BAHAR DÖNEMİ PROGRAMI

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

BAŞKENT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BENZER SÜREÇLERDE ÜRETİLEN ÜRÜNLER İÇİN YAPAY ZEKA İLE ZAMAN TAHMİNİ SONER ŞÜKRÜ ALTIN

Teknik Yazım ve Çeviri (ETI421) Ders Detayları

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ (Web Madenciliği)

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

YAŞAR ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ 4 YILLIK EĞİTİM PLANI ( AKADEMİK YILINDAN İTİBAREN GEÇERLİDİR)

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

MONTE CARLO BENZETİMİ

Teknik Çeviri (ETI320) Ders Detayları

UÇAK MÜHENDİSİ TANIM A- GÖREVLER

Web Tabanlı CMMI Süreç Yönetimi Uygulamalarının Süreç ve Yazılım Geliştirme Performansına Pozitif Etkileri

ALIŞTIRMA-UYGULAMA YAZILIMLARI

BİLİMSEL ARAŞTIRMA NASIL YAPILIR II YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

T.C. GALATASARAY ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ İŞLETME ANABİLİM DALI

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ FRANSIZCA MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

Üniversite Sanayi İşbirliği Başarılı Uygulamalar Çalıştayı

MATEMATİK VE FEN BİLİMLERİ EĞTİMİ ANABİLİM DALI MATEMATİK EĞİTİMİ BİLİM DALI TEZLİ YÜKSEK LİSANS PROGRAMI

Yaşam Temelli Öğrenme. Yazar Figen Çam ve Esra Özay Köse

PHP 1. Hafta 2.Sunum

KENT BİLGİ SİSTEMİNİN BİR ALT SİSTEMİ OLARAK İSTATİSTİKSEL BİLGİ SİSTEMİ VE TÜRKİYE İÇİN 2008 YILINDA İSTATİSTİKSEL BİLGİ SİSTEMİ KULLANIM DURUMU *

ORTAÖĞRETİM İNGİLİZCE ÖĞRETMENİ ÖZEL ALAN YETERLİKLERİ

Kurumlar, Bölümler ya da Diğer kuruluşlar için Kalite ve Mükemmelliyet Kriterleri 1

Kurumlarda Terminoloji Politikası ve Terminoloji Planlaması

SINIR TENORUNUN EKONOMİK BAKIR MİKTARI TAHMİN HASTASINA ETKİSİ

Bilgisayar Mühendisliği. Bilgisayar Mühendisliğine Giriş 1

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Bilgisayarlı Çeviri (ETI415) Ders Detayları

MÜTERCİM -TERCÜMANLIK BÖLÜMÜ

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Güz Dönemi Zorunlu Dersleri

Web Madenciliği (Web Mining)

Araştırma Teknikleri

ANKARA ÜNİVERSİTESİ ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

İçindekiler. Üçüncü baskıya önsöz... xi Teşekkür... xiii Genel bakış... xv

T.C. NAMIK KEMAL ÜNİVERSİTESİ ÇORLU MÜHENDİSLİK FAKÜLTESİ

2000 li yıllardan itibaren teknolojinin hızlı gelişiminden belki de en büyük payı alan akıllı telefon ve tabletler gibi kablosuz iletişim olanağı

TÜRK DİL BİLGİSİ ÖĞRETİMİNDE ÜNLÜLERİN SINIFLANDIRILMASINA YÖNELİK ELEŞTİREL BİR DEĞERLENDİRME. 2. Araştırmanın Kapsamı ve Kaynakları

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

Bahar Dönemi Fizik Bölümü Fizik II Dersi Çıktılarının Gerçekleşme Derecesi Program Çıktılarının Ders Kazanımlarına Katkısı Anketi

(THE SITUATION OF VALUE ADDED TAX IN THE WORLD IN THE LIGHT OF OECD DATA)

VERI TABANLARıNDA BILGI KEŞFI

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

TED ÜNİVERSİTESİ İNGİLİZCE YETERLİLİK SINAVI (TEDÜ - İYS)

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Metin Sınıflandırma. Akış

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Çeviriye önsöz... xi Önsöz... xii Teşekkür... xv Kitabı kullanmanın yolları... xvii. Ortamı hazırlamak... 1

K U L L A N I M B İLGİLERİ

İletişim ve Medya Çevirisi (ETI310) Ders Detayları

TMMOB Harita ve Kadastro Mühendisleri Odası Ulusal Coğrafi Bilgi Sistemleri Kongresi 30 Ekim 02 Kasım 2007, KTÜ, Trabzon

Başlıca Ürün-Bilgi Sistemleri

RUS DİLİ VE EDEBİYATI ANABİLİM DALI EĞİTİM-ÖĞRETİM YILI BAHAR PROGRAMI

Yüz Tanımaya Dayalı Uygulamalar. (Özet)

Yazılım Mühendisliği 1

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

YARASA VE ÇİFTLİK GÜBRESİNİN BAZI TOPRAK ÖZELLİKLERİ ve BUĞDAY BİTKİSİNİN VERİM PARAMETRELERİ ÜZERİNE ETKİSİ

Transkript:

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DÜZLEMSEL HOMOTETİK HAREKETLER ALTINDAT.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ İNGİLİZCEDEN TÜRKÇE YE İSTATİKSEL BİLGİSAYARLI ÇEVİRİ SİSTEMLERİNDE PARALEL DERLEM BOYUTU ve KALİTESİNİN ETKİLERİ ERAY YILDIZ DANIŞMANNURTEN BAYRAK YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI BİLGİSAYAR MÜHENDİSLİĞİ PROGRAMI YÜKSEK LİSANS TEZİ ELEKTRONİK VE HABERLEŞME MÜHENDİSLİĞİ ANABİLİM DALI HABERLEŞME PROGRAMI DANIŞMAN DOÇ. DR. BANU DİRİ EŞ DANIŞMAN İSTANBUL, 2011DANIŞMAN YRD. DOÇ. DR. A. CÜNEYD TANTUĞ DOÇ. DR. SALİM YÜCE İSTANBUL, 2014

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ İNGİLİZCEDEN TÜRKÇE YE İSTATİKSEL MAKİNE ÇEVİRİSİ SİSTEMLERİNDE PARALEL DERLEM BOYUTU ve KALİTESİNİN ETKİLERİ Eray Yıldız tarafından hazırlanan tez çalışması 08.07.2014 tarihinde aşağıdaki jüri tarafından Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Tez Danışmanı Doç. Dr. Banu DİRİ Yıldız Teknik Üniversitesi Eş Danışman Yrd. Doç. Dr. A. Cüneyd TANTUĞ İstanbul Teknik Üniversitesi Jüri Üyeleri Doç. Dr. Banu DİRİ Yıldız Teknik Üniversitesi Doç. Dr. Songül ALBAYRAK Yıldız Teknik Üniversitesi Yrd. Doç. Dr. A. Cüneyd TANTUĞ İstanbul Teknik Üniversitesi Yrd. Doç. Dr. Gülşen Eryiğit İstanbul Teknik Üniversitesi Yrd. Doç. Dr. Arzucan ÖZGÜR Boğaziçi Üniversitesi

ÖNSÖZ Bu tez çalışmasının gerçekleşmesinde değerli bilgilerinden ve yardımlarından yararlandığım, bana her daim yol gösteren ve yardımcı olan danışman hocalarım Yrd. Doç. Dr. A. Cüneyd Tantuğ a ve Doç. Dr. Banu Diri ye, çalışmalarımı inceleme ve takip etme nezaketini gösteren Prof. Dr. Eşref Adalı ya sonsuz teşekkürlerimi bir borç bilirim. Desteklerini benden esirgemeyen Ezgi ve İsmail başta olmak üzere tüm laboratuvar arkadaşlarıma, yaşadığım her türlü sıkıntıyı, zorluğu ve sevinci benimle yaşayan değerli arkadaşım Duygu ya ve tüm eğitim hayatım boyunca her zaman yanımda olan ve bana destek veren aileme çok teşekkür ederim. Temmuz, 2014 Eray Yıldız

İÇİNDEKİLER iv Sayfa KISALTMA LİSTESİ...vii ŞEKİL LİSTESİ... viii ÇİZELGE LİSTESİ...ix ÖZET... x ABSTRACT... xii BÖLÜM 1 GİRİŞ... 1 BÖLÜM 2 1.1 Literatür Özeti... 2 1.2 Tezin Amacı... 6 1.3 Hipotez... 8 BİLGİSAYARLI ÇEVİRİ... 9 2.1 Doğal Dil İşleme... 10 2.1.1 Doğal Dil İşleme Bilgi Seviyeleri... 11 2.1.1.1 Sesbilim... 11 2.1.1.2 Biçimbilimsel Seviye... 11 2.1.1.3 Sözlüksel Seviye... 11 2.1.1.4 Sözdizimsel Seviye... 12 2.1.1.5 Anlamsal Seviye... 12 2.1.1.6 Söylemsel Seviye... 13 2.2 Bilgisayarlı Çeviri Tarihçesi... 13 2.3 Bilgisayarlı Çeviri Uygulamaları... 15 2.4 Bilgisayarlı Çeviri Yöntemleri... 16 2.4.1 Kural Tabanlı Sistemler... 16 2.4.1.1 Doğrudan Aktarım... 17 2.4.1.2 Sözdizimsel Aktarım... 17 2.4.1.3 Anlamsal Aktarım... 18

BÖLÜM 3 2.4.1.4 Dilden Bağımsız Anlamsal Gösterimin Aktarımı... 18 2.4.2 Derlem Tabanlı Yöntemler... 18 2.4.2.1 Örnek Tabanlı Yöntemler... 19 2.4.2.2 İstatiksel Yöntemler... 21 2.4.2.2.1 Dil Modeli... 23 2.4.2.2.2 Aktarım Modeli... 23 2.4.2.2.3 Arama veya Kod Çözme Algoritması... 25 2.4.3 Melez Yöntemler... 26 2.5 Akraba Diller Arasında Bilgisayarlı Çeviri... 26 2.6 İngilizceden Türkçeye Bilgisayarlı Çeviri... 27 2.7 Çeviri Kalitesinin Değerlendirilmesi... 29 2.7.1 İnsanlar Tarafından Puanlama... 29 2.7.2 Çeviri Kalitesini Otomatik Değerlendiren Yöntemler... 29 2.7.2.1 BLEU / NIST... 29 2.7.2.2 F Ölçütü... 31 2.7.2.3 Meteor... 31 PARALEL DERLEM OLUŞTURMA ve FİLTRELEME... 32 3.1 Paralel Derlem Oluşturma... 33 3.1.1 Paralel Metin Toplama... 33 3.1.2 Cümle Bölüştürme... 36 3.1.3 Cümle Hizalama... 36 3.1.3.1 Türkçe İngilizce Paralel Metinler için Cümle Hizalama Yöntemlerinin Karşılaştırılması... 37 3.2 Paralel Derlem Filtreleme... 40 3.3 Türkçe - İngilizce Dillerinde Paralel Derlemler... 41 3.3.1 Erişime Açık Türkçe İngilizce Paralel Derlemler... 42 3.3.1.1 SETimes Paralel Derlemi... 42 3.3.1.2 OpenSubtitles Paralel Derlemi... 42 3.3.1.3 Diğer Erişime Açık Türkçe İngilizce Paralel Derlemler... 43 3.3.2 Çalışma Kapsamında Oluşturulan Türkçe İngilizce Derlemler... 44 3.3.2.1 Yazınsal Derlem... 44 3.3.2.2 Akademik Derlem... 44 3.3.2.3 Web Derlemi... 45 3.3.2.4 Yeminli Sözlük Paralel Derlemi... 46 3.3.2.5 Wikipedia Delemi... 46 3.3.2.6 İncil... 47 3.4 Türkçe İngilizce Paralel Derlemlerin Karşılaştırılması... 47 3.5 Türkçe İngilizce Paralel Derlem Filtresi... 49 3.5.1 Sınıflandırma İşlemi için Kullanılan Özellikler... 49 3.5.2 Eğitim Verisi... 52 3.5.3 Sınıflandırma İşlemi... 53 3.5.4 Sınıflandırıcı Seçimi... 54 3.5.5 Filtre Mimarisi... 55 v

BÖLÜM 4 DENEYSEL SONUÇLARIN DEĞERLENDİRİLMESİ... 57 BÖLÜM 5 4.1 Deneylerde Kullanılan Araçlar ve Fiziksel Kaynaklar... 57 4.2 Deneylerde Kullanılan Eğitim Verileri... 58 4.3 Türkçe İngilizce İstatiksel Bilgisayarlı Çeviri Sistemlerinde Paralel Derlem Büyüklüğünün Etkisi... 58 4.4 Türkçe İngilizce İstatiksel Bilgisayarlı Çeviri Sistemlerinde Paralel Derlem Kalitesinin Etkisi... 59 4.5 Türkçe İngilizce Yönünde Deneyler... 62 4.6 Deneysel Sonuçların Değerlendirilmesi... 63 SONUÇLAR ve ÖNERİLER... 65 KAYNAKLAR... 68 ÖZGEÇMİŞ... 74 vi

KISALTMA LİSTESİ ALPAC AMD BÇ B BLEU BSA DARPA DDİ DVM ENIAC F1 FAHQT GB IBM İBÇ LDC MAT METEOR NB ÖTBÇ RKO RTF SETimes T WEKA YSA Automatic Language Processing Advisory Committee Advanced Micro Devices Bilgisayarlı Çeviri Bulma BiLingual Evaluation Understudy Bilingual Sentence Aligner Defense Advanced Research Projects Agency Doğal Dil İşleme Destek Vektör Makineleri Electronical Numerical Integrator and Calculator F1 Ölçütü Fully Automatic - High Quality output -unrestricted Text Gigabyte International Business Machines İstatiksel Bilgisayarlı Çeviri Linguistic Data Consortium Machine Asisted Translation Method for Evaluation of Translation with Explicit Reordering Naive Bayes Örnek Tabanlı Bilgisayarlı Çeviri Rastsal Karar Ormanı Radyal Tabanlı Fonksiyon South-East European Times Tutturma Waikato Environment for Knowledge Analysis Yapay Sinir Ağı vii

ŞEKİL LİSTESİ Sayfa Şekil 2.1 Türkçe bir sözcüğün biçimbilimsel gösterimi... 11 Şekil 2.2 Türkçe bir cümlenin sözdizim ağacı... 12 Şekil 2.3 Bilgi Tabanlı Yöntemlerin Sınıflandırılması-Vauqouis Üçgeni... 17 Şekil 2.4 Sözdizimsel Aktarım... 18 Şekil 2.5 ÖTBÇ ye uyarlanmış Vauquois üçgeni... 19 Şekil 2.6 İBÇ için gürültülü kanal modeli... 22 Şekil 2.7 İBÇ nin bileşenleri... 22 Şekil 2.8 Faktörlü İBÇ yaklaşımı... 22 Şekil 2.9 İBÇ modelllerinin mimarisi... 26 Şekil 2.10 Yüzeysel biçimde hizalama ve ayrıştırılmış ekler ile hizalama... 28 Şekil 3.1 Web den paralel metin toplayan sistem... 35 Şekil 3.2 Çok dilli internet sitelerinden paralel derlem elde eden sistem... 45 Şekil 3.3 Eğitim için Kullanılan Örneklerin Özelliklere göre Dağılımı... 50 Şekil 3.4 İngilizce Cümle Uzunluğu ve N-Gram Puanı Özelliklerine göre Eğitim Verisinin Dağılımı... 51 Şekil 3.5 İngilizce Cümle Uzunluğu ve Hatalı Sözcük Sayısı Özelliklerine göre Eğitim Verisinin Dağılımı... 52 Şekil 3.6 Gürültülü Paralel Derlem Filtresi Mimarisi... 55 Şekil 4.1 Farklı üyüklüklerde eğitim verisi ile yapılan deney sonuçları... 59 Şekil 4.2 Farklı büyüklüklerde Eğitim verisi ve Filtrelenmiş Kısımlarıyla Yapılan Deneylerin Sonuçları... 61 Şekil 4.3 Türkçeden İngilizceye Sonuçlar... 63 viii

ÇİZELGE LİSTESİ Sayfa Çizelge 3.1 Türkçe İngilizce Dilleri için Cümle Hizalama Yöntemlerinin Karşılaştırılması... 38 Çizelge 3.2 Türkçe İngilizce Paralel Derlemlerin Karşılaştırmalı Özellikleri... 48 Çizelge 3.3 Eşit büyüklükte paralel derlemlerin ve ortak test kümesi üzerinde sistem performansları... 49 Çizelge 3.4 Paralel Cümle Sınıflandırıcı Eğitim Kümesi... 53 Çizelge 3.5 Sınıflandırma Algoritmalarının Başarıları... 55 Çizelge 4.1 Farklı üyüklüklerde eğitim verisi ile yapılan deney sonuçları... 59 Çizelge 4.2 150 Binlik Eğitim verileri ve Filtrelenmiş Kaliteli Kısımları ile Yapılan Deneylerin Sonuçları... 60 Çizelge 4.3 Farklı büyüklüklerde Eğitim verisi ve Filtrelenmiş Kısımlarıyla Yapılan Deneylerin Sonuçları... 60 Çizelge 4.4 Ham ve Filtrelenmiş Verilerin Eğitim Sürelieri... 62 Çizelge 4.5 Türkçeden İngilizceye Sonuçlar... 63 ix

ÖZET İNGİLİZCE DEN TÜRKÇE YE İSTATİKSEL BİLGİSAYARLI ÇEVİRİ SİSTEMLERİNDE PARALEL DERLEM BOYUTU ve KALİTESİNİN ETKİLERİ Eray YILDIZ Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi Tez Danışmanı: Doç. Dr. Banu DİRİ Eş Danışman: Yard. Doç. Dr. A. Cüneyd TANTUĞ Bilgisayalı Çeviri (BÇ) bir dilde yazılmış bir ifadenin başka bir dile bilgisayar tarafından otomatik olarak çevrilmesi işlemidir. BÇ konusunda yapılan çalışmalar 1950 lerin ilk yıllarında başlamıştır. İkinci Dünya Savaşı sonrası önemi arttığı düşünülen bu alana siyasal, sosyal ve ticari sebeplerden oldukça fazla yatırım yapılmış; birçok araştırmacı bu konuda çalışmıştır. Takip eden yıllarda ise yine birçok akademik ve ticari çevrelerde önemli çalışmalar yapılmasına, büyük bütçeler ayrılmasına rağmen beklentileri karşılayan sonuçlar alınamamış ve 1960 lı yılların ortalarından itibaren bu alana yapılan yatırımlar ve bu konuda çalışmalar azalmaya başlamıştır. BÇ ile ilgili olarak kalite, maliyet, öngörüler, beklentiler ve ihtiyaçlar konusunda çalışmalar yapan Automatic Language Processing Advisory Committee (ALPAC) kuruluşunun 1964 yılında yayınladığı olumsuz rapor sonrasında bu alanda motivasyon ve yatırım kaybı oluşmuştur. BÇ nin ilk dönemi olarak görülen bu dönemde sistemler daha çok çeşitli dilbilgisel düzeylerde (biçimbilimsel, sözdizimsel, anlamsal) çalışan kural tabanlı sistemler olarak gerçekleştirilmiştir. 1990 lı yıllardan itibaren gelişen internet teknolojisinin etkisiyle öne çıkan istatiksel yöntemler, ses işleme, doğal dil işleme konularında da değerlendirilmeye başlanmıştır. IBM in öncülüğünde yapılan İBÇ (İstatiksel Bilgisayarlı Çeviri) çalışmaları BÇ alanındaki duraksamayı ortadan kaldırmış; birçok araştırmacı gelişen bu yeni alanda çalışmalara başlamıştır. Yine 90 lı yıllardan sonra ortaya çıkan veriye dayalı diğer bir yöntem de örnek tabanlı BÇ yöntemidir. x

Günümüzde çeşitli kaynaklardan BÇ için veri elde etme nisbeten daha kolay olduğu için istatiksel yöntemlerin de katkısıyla BÇ çalışmaları belirli bir başarıya ulaşmış ve çeşitli alanlardaki uygulamaları giderek artmıştır. Fakat bir BÇ sisteminden beklenen özelliklerin hepsini birlikte başaran sistemler üzerine araştırma-geliştirme faaliyetleri hızla devam etmektedir. BÇ sisteminden beklenen bu özellikler: anlaşılır ve aslına uygun çeviri yapabilmesi, insan etkisi olmadan otomatik çeviri yapabilmesi ve belirli bir konuya bağlı olmadan genel amaçlı çeviri yapabilmesi olarak sıralanabilir. Örnek tabanlı ve istatiksel yöntemlerin eğitim için kullandığı verilerden en önemlisi paralel derlemlerdir. Birbirinin çevirisi olan metinlerden oluşan ve cümle seviyesinde hizalanmış olan paralel derlemler BÇ nin yanı sıra sözcük belirsizliği giderme, bilgi erişimi gibi diğer doğal dil işleme alanlarında da kullanılmaktadır. Bu çalışmada BÇ tarihi, yöntemleri hakkında genel bilgiler toparlanılmış; İBÇ yöntemlerinin günümüzde geldiği nokta araştırılmıştır. Ayrıca, erişilebilir Türkçe- İngilizce paralel derlemler incelenmiş ve çeşitli kaynaklardan yeni paralel derlemler oluşturularak Türkçe-İngilizce paralel derlem sayısının artmasına katkıda bulunulmuştur. İngilizce den Türkçe ye istatistiksel BÇ sistemleri üzerinde paralel derlemin büyüklüğünün ve kalitesinin etkisi araştırılmıştır. Paralel cümle çiftlerinin kalitesininin otomatik ölçülebilmesi için cümle çiftlerinden çeşitli özellikler çıkaran makine öğrenmesi yöntemleri kullanılarak cümle çiftlerini kaliteli ve kalitesiz olarak sınıflandıran bir sınıflandırıcı geliştirilmiştir. Yapılan deneylerde elimizdeki paralel derlemlerden oluşturulan farklı boyutlarda paralel derlemlerle İBÇ sistemleri eğitilerek paralel derlemin büyüklüğünün etkisini araştırmak amacıyla başarıları karşılaştırılmıştır. Daha sonra paralel derlemin kalitesinin etkilerini gözlemleyebilmek için farklı boyutlardaki her bir derlemin sadece sınıflandırıcının kaliteli olarak işaretlediği örnekleri kullanarak İBÇ sistemleri eğitilmiştir. Paralel derlemin boyutu arttıkça daha yüksek başarılara ulaşıldığı gösterilirken; içerisinde hatalı veya kalitesiz örnekleri temizlenmiş daha az sayıda örnek içeren paralel derlemler ile aynı veya daha yüksek başarılara ulaşıldığı gösterilmiştir. Anahtar Kelimeler: Makine Öğrenmesi, Yapay Zeka, Doğal Dil İşleme, Makine Çevirisi, Bilgisayarlı Çeviri, İstatiksel Bilgisayarlı Çeviri, Paralel Derlem, Paralel Derlem Filtreleme, Örnek Seçimi YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ xi

ABSTRACT THE EFFECT OF PARALLEL CORPUS QUALITY VS SIZE IN ENGLISH-TO- TURKISH STATISTICAL MACHINE TRANSLATION Eray Yıldız Department of Computer Engineering MSc. Thesis Adviser: Assoc.Prof. Banu DİRİ Co-Adviser: Assist.Prof. A. Cüneyd TANTUĞ Machine Translation (MT) is the process of translating an expression to another language automatically with the aid of computers. MT has been studied since the early 1950s. MT, which is thought to increase in importance after World War 2, has been invested due to political, social and economic facts. Although, many important studies have been conducted in the following years, the results couldn t meet expectations. The investments and studies in this field began to decline from the middle of 1960. The Automatic Language Processing Advisory Committee (ALPAC) which studies about costs, projections, expectations and requirements about MT, has issued a negative report about MT and caused loss of motivation and investment in MT field. During this first period of MT studies, MT was primarily performed using rule based transfers of some representation levels like morphological, syntactical or semantic representations. The statistical approaches which are developep under the fluence of internet and big data technologies have started to be utilized in signal processing and natural language processing. The hesitancy in MT has eliminated by Statistical Machine Translation (SMT) studies pioneered by IBM and many researchers has started to work in developing this new field. Another MT approach that based on training data is example based machine translation (EBMT). Nowadays, MT systems have reached a certain success and its applications in various fields have steadily increased because of the convenience of data acquisition. But, the xii

research and development activities on the systems that are able to combine all of the features expected, is proceeding rapidly. The featetures that expected from a successful MT system are as follws: ability to process understandable and literal translations, ability to process automatic translations without any human intervention and ability to process general-purpose texts without any domain restriction. The most important training data for example based MT models and statistical MT models are parallel corpus. Parallel Corpus are consist of texts that translation of each other and aligned at sentence level. In addition to MT, parallel corpus are widely utilized in word disambiguation, information retrieval and some of other natural language processing fields. In this study, general information about history of MT and methods are presented, the point reached by SMT is investigated. Furthermore, publicly avaible parallel corpus between Turkish and English languages are studied and severalturkish - English parallel corpus are constructed from various sources. The aim of this study is to figure out the effects of parallel corpus size and quality in statistical machine translation between Turkish and English languages. In this study, a machine learning based classifier is developed to classify parallel sentence pairs in a parallel corpus as high-quality or poor quality. This calassifier has been applied to a parallel corpus contains 1 million parallel English Turkish sentence pairs and 600K high-quality parallel sentence pairs were obtained. The multiple SMT systems with various sizes of entire raw parallel corpus and filtered high quality corpus, their performances are evaluated in our experiments. As expected, the experiments show that the size of parallel corpus is a major factor in translation performance. However, instead of extended corpus with all available socalled parallel data, a better translation performance and reduced time-complexity can be achieved with a smaller high-quality corpus using a quality filter. Keywords: Machine Learning, Artificial Intelligence, Natural Language Processing, Machine Translation, Statistical Machine Translation, Parallel Corpus, Parallel Corpus Filtering, Data Selection xiii YILDIZ TECHNICAL UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES

BÖLÜM 1 GİRİŞ Küreselleşme ve internet çağında iletişim birçok alanda çok önemli bir konuma sahip olmuştur. Günümüzde teknoloji ve bilgi sistemleri siyasal, sosyal ve gündelik hayatın her alanına nüfus ederek insanların organizasyonunda çok önemli bir rol oynamaya başlamıştır. Özellikle iletişim teknolojileri sayesinde birbirinden çok uzakta olan insanların ticari, eğitimsel ve sosyal birçok konuda organize olabilmesi giderek kolaylaşmaktadır. Küreselleşen ve günümüz dünyasında iletişim ve etkileşimin daha gelişmesi ve pratikleşmesi yolunda aşılmaya çalışılan bir engel de farklı coğrafyalarda çok değişik biçimlerde kullanılan diller arası farklılıklardır. Diller arasındaki bu farklılıklar, dilin bilgisayarlar tarafından işlenmesi konusunda her dil için özel bir çaba gereksimine yol açmıştır [1]. İngilizce, Fransızca, Almanca gibi diller üzerinde oldukça fazla çalışma varken son yıllarda Çince, Arapça, Japonca gibi diller üzerinde de birçok çalışma yapılmıştır. Bu konuda Türkçe üzerinde yapılan çalışmaların son on yılda hız kazandığı söylenebilir. Türkçe kendine özgü yapısal ve dilbilgisel özellikleri sebebiyle bilgisayar tarafından işlenebilmesi için birçok zorluk içermekte ve dolayısıyla özel bir ilgi ve çaba gerektirmektedir. Doğal dilleri otomatik olarak çözümlemeyi, anlamayı, yorumlamayı ve üretmeyi amaçlayan Doğal Dil İşleme konusu, yapay zeka ve dilbilimi alanlarının bir alt dalı olarak görülmektedir[1]. Bilgisayarlar ile Doğal Dil İşleme çok değişik alanlarda uygulama bulmaktadır. Hatalı yazılmış sözcüklerin bulunması ve düzeltilmesi, doğal dilde cümle ve metin üretmek, diller arası metin çevirisi bunlardan bazılarıdır. Doğal Dil İşlemenin bir diğer önemli özelliği ise Dilbilimine deney ortamı sunmasıdır. Bu sebeple Doğal Dil 1

İşleme Bilgisayar bilimcilerinin ve Dilbilimcilerinin ortak çalışması gereken bir alandır. Doğal Dil İşleme alanındaki bütün uygulamaların en büyük sıkıntısı dillerdeki karmaşıklık ve belirsizliktir. İnsanlar arasında dahi iletişim güçlüklerine ve yanlış anlaşılmalara yol açan dildeki bu belirsizlikler ve karışıklıklar, bilgisayar ortamında doğal dillerin modellenmesinin önündeki en büyük engeli oluşturmaktadır [1]. BÇ doğal dil işlemenin en popüler ve güncel konularından biridir. Küresel iletişimin önündeki dil engelini ortadan kaldıracak BÇ uygulamaları günümüz dünyasında çok önemli bir ihtiyacı giderecektir. BÇ alanındaki gelişmelere baktığımızda oldukça yol kat edildiği görülmekle beraber genel amaçlı ve yüksek başarımlı BÇ sistemlerine henüz ulaşılamamıştır. BÇ çalışmaları genellikle yaygın dil çiftleri arasında yapıldığı için birçok dil için yeterli çalışma bulunmamaktadır. Son yıllarda ise yeni dil çiftleri üzerinde yapılan çalışmaların yoğunlaştığı söylenebilir. 1.1 Literatür Özeti BÇ tarihine bakıldığında; ilk dönemi temsil eden 1950-1970 arası yıllarda kural tabanlı sistemler gerçeklenmiştir. 1954 te 6 dilbilgisi kuralı ve 250 sözcük için sözlük girdisi içeren; Georgetown Üniversitesi ve IBM ortaklığıyla gerçekleştirilen Georgetown Deneyi altmıştan fazla Rusça cümlenin İngilizce ye tam otomatik çevirisini kapsıyordu. Bu deney büyük bir başarıydı ve yarattığı iyimser havayla bilgisayarlı çeviri araştırmasına büyük kaynakların aktarılmasının sebep olmuştur [2]. Sözlük yardımıyla insanlar tarafından oluşturulan çeviri ve dilbilgisi kuralları üzerine inşa edilen bu sistemler ilk çalışmalarda umut vadeden sonuçlar vermiş olsa da 1960 lı yılların sonuna doğru yapılan yatırımların ve çalışmaların büyüklüğü göz önüne alındığında bu yıllarda yapılan çalışmaların sonuçları umut vermekten çok uzaktadır. On yıllık araştırmanın hayalleri gerçekleştirmede başarısız olduğunu ortaya koyan 1966 daki ALPAC (Automatic Language Processing Advisory Committee) Raporu ndan sonra bu alana yapılan yatırım belirgin ölçüde azaltıldı [3]. Yine de 1980 li yılların sonuna kadar kural tabanlı sistemler geliştirilmeye devam etmiştir. 1990 lı yıllardan itibaren elektronik ortamdaki metinlerin ve kullanılabilirliğinin artmasıyla beraber istatiksel ve örnek tabanlı yöntemler yaygınlaşmıştır [1]. 2

İstatiksel ve örnek tabanlı yöntemler insan çevirilerinden oluşan, birbirinin çevirisi olan metinlerden modeller üretirler. Bu iki dilli metin derlemlerine paralel derlem denir ve istatiksel ve örnek tabanlı BÇ nin eğitim verisini oluştururlar [4]. Paralel derlemler BÇ nin yanı sıra sözcük belirsizliği giderme, bilgi erişimi gibi diğer doğal dil işleme alanlarında da kullanılmaktadır. Paralel derlem elde etmek için birbirinin çevirisi olan metinleri elde etmek ve daha sonra cümle seviyesinde hizalamak gereklidir. İnsan eliyle paralel derlem oluşturma işlemi pratik olarak mümkün olmadığından otomatik paralel metin elde etme işlemi özellikle son yıllarda başlı başına bir çalışma alanı olarak görülmektedir. Web den paralel metin toplama, cümle hizalama, gürültülü paralel kaynaklardan filtreleme ile paralel olanları ayıklama gibi alt çalışma alanlarından oluşmaktadır. İBÇ paralel derlemden yola çıkarak kaynak dildeki bir metinden hedef dildeki bir metine aktarımı için çeviri modeli denilen olasılık dağılımını üretir [4]. Buna ek olarak İBÇ tek dilli derlemlerden yararlanarak çevirisi yapılan metnin hedef dilde karşılaşılabilen bir metin olma olasılığının dağılımını üretir. Bu model ise dil modeli olarak adlandırılır [4]. Kısaca İBÇ bütün Türkçe cümlelerin, bütün İngilizce cümlelerin çevirisi olduğunu kabul eder ve en yüksek olasılıklı çeviriyi bulmaya çalışır. Fikir olarak 1950 li yıllarda temelleri atılmış olsa da, İBÇ özellikle IBM in katkılarıyla 90 lı yıllardan itibaren gelişmeye başlamıştır. Son yıllarda İstatiksel Bilgisayarlı Çeviri (İBÇ) olan ilgi hızla artmış ve en fazla uygulanan yöntemlerden biri haline gelmiştir. Tüm bu gelişmelere ve çalışmalara karşın arzulanan, otomatik, aslına uygun ve genel amaçlı olma özelliklerinin tümüne sahip olan başarımı yüksek bir sisteme halen ulaşılamamıştır [1]. Geliştirilen sistemler içerisinde, yapısal olarak birbirine benzeyen dil çiftleri arasında çeviri yapan sistemlerin sonuçlarının, yapısal farklılıklar içeren diğer dil çiftleri arası çevirilerden daha kaliteli olduğu görülmektedir. Örneğin, aynı dil ailesinde sınıflandırılan İngilizce ve Almanca arasında gerçeklenen çeviri sistemlerinin başarısı, farklı dil ailelerinde olan İngilizce ve Japonca arasındaki bilgisayarlı çeviri sistemlerinin başarısından daha yüksektir [1]. Türkçe Ural-Altay dil ailesine ait sondan eklemeli bir dildir. Sözcüğün anlamı İngilizce gibi dillere göre oldukça farklıdır. Sözcükler birçok çekim ve yapım eklerinin kök sözcüğe eklenmesi ile oluşur. Her biçimbirim farklı bir bilgi taşımaktadır. Kök sözcüklere 3

biçimbirimler eklenerek binlerce yeni sözcük türetilebilir [5]. Türkçe biçimsel olarak İngilizceden oldukça farklı bir yapıdadır. İBÇ sistemleri paralel metinler dışında ekstra bir dil bilgisine başvurmadan etkili sonuçlar üretmektedir ancak, Türkçe-İngilizce, Japonca-İngilizce, Çince-İngilizce gibi birbirine uzak ailelerden olan diller arasındaki başarıları birbirine yakın dillere göre daha düşüktür. Bu sebepten Türkçe-İngilizce İBÇ sistemlerine Türkçe nin biçimsel özelliklerinin de ilave edilmeyi amaçlayan çalışmalar mevcuttur [5], [6], [7]. İngilizce-Türkçe dil çifti için yapılan çalışmalar 1981 tarihine dayanmaktadır [8]. 1997 yılında Turhan tarafından [9] İngilizce-Türkçe yapısal eşleştirme yapan bir BÇ sistemi geliştirilmiştir. Hakkani vd. [10] 1998 yılında geliştirdikleri kural tabanlı BÇ sisteminde İnterlingua denilen diller arası aktarımda ara bir uluslararası gösterim kullanımını denemişlerdir. Bu yaklaşıma göre her kaynak dildeki ifade biçimbirimsel, sözdizimsel ve anlamsal analizler sonucunda aynı ifadeyi aktaran İnterlingua ifadesine dönüştürülür ve hedef dildeki ifadenin elde edilebilmesi için anlamsal, sözdizimsel ve biçimbirimsel sentezleyiciden geçirilir. İngilizce den Türkçe ye BÇ için yapılan bu ilk çalışmalar genellikle kural tabanlı yaklaşımlarda yoğunlaşmışlardır. 2006 yılında El-Kahlout ve Oflazer İngilizce-Türkçe İBÇ sisteminin başarısını artırmak için eğitim verisinin Türkçe tarafında biçimbirimsel analiz yaparak bazı ekleri ayrı yazılmasını denemişler ve yeterince tatmin edici olmasa da iyileştirme sağlamışlardır [5]. Yenitrezi ve Oflazer [7] 2010 yılında İBÇ sistemlerinde yeni bir yaklaşım olan eğitim versindeki sözcüklerin yüzeysel biçimlerinin yanısıra cümle biçimbirimsel analizi ile elde edilen sözcük türü, kökü, aldığı ekler vb. bilgileri de kullanan bir model üzerine çalışmışlar ve göreceli olarak %38 iyileşme sağlamayı başarmışlardır. Akraba veya yakın diler arasında çeviri amaçlı geliştirilen sistemler, farklılıkların büyük olduğu, Türkçe-İngilizce gibi diller arasında BÇ için gerek duyulan karmaşık yöntem-lere göre, daha basit ve kolay gerçeklenebilir yöntemler kullanmaktadırlar. Birçok yönden benzerlikler gösteren Türk Dil Ailesi için de BÇ çalışmaları yapılmıştır [11], [12], [13], [14]. Hamzaoğlu [11] 1993 yılında Türkçe den Azerice ye; 2000 yılında Altıntaş [14] Türkçe den Kırım Tatarcası na sözcük bazında işlem yapan kural tabanlı BÇ sistemleri geliştirmişlerdir. Tantuğ vd. tarafından [12] 2008 yılında geliştirilen Türkçe den 4

Türkmence ye BÇ sisteminde Tantuğ [1] tarafından önerilen kural tabanlı ve istatiksel yöntemleri birleştiren Akraba ve Bitişken Diller Arasında Bilgisayarlı Çeviri İçin Karma Bir Model kullanılmıştır. Türkçe dili için yapılan bu BÇ çalışmaları dikkate alındığında başarılı BÇ sistemleri tasarlamak için BÇ yöntemlerinin gelişimi incelenmeli ve ilerleme kaydeden yeni yöntemler kullanılmalıdır. Ancak, Türkçe nin kendine has özelliklerini de dikkate alan ve güncel İBÇ yöntemlerini Türkçe ye özgü doğal dil işleme tekniklerinin de kullanımıyla zenginleştiren yöntemlerin daha yüksek başarılara ulaşabileceği görülmektedir. Bir İBÇ sisteminin başarısını modelin etkisi haricinde, eğitim verisi de oldukça etkilemektedir. İngilizce, Almanca, Fransızca vb. diller arasında yeterli miktarlarda paralel veriler kullanılabilir durumdayken, birçok dil çifti için paralel veri miktarlı kısıtlıdır. İnsan emeği ile paralel derlem oluşturmak çok fazla zaman ve kaynak isteyen güç bir işlem olduğu için otomatik paralel metin toplayan sistemler, paralel metinlerde cümle bazında otomatik hizalama yapan yöntemler üzerine çalışmalar yoğunlaşmıştır. Ayrıca, eğitim verisinin temiz ve kaliteli olması da İBÇ sisteminin performansını oldukça etkilemektedir. Gürültülü paralel derlemlerden gürültüyü ayıklamak veya paralel olmayan çift dilli kaynaklardan paralel cümleler çıkarmak gibi paralel derlem filtreleme çalışmalarına da son dönemlerde ihtiyaç giderek artmaktadır. Yüksek başarılı bir Türkçe den İngilizce ye İBÇ sistemi için temiz, kaliteli ve yeterli miktarda paralel derlem kullanılması son derece önemlidir. Bu çalışmanın odaklandığı nokta Türkçe-İngilizce dil çifti için daha başarılı İBÇ sistemlerine ulaşabilmek amacıyla mevcut kullanılabilir paralel derlemleri filtreleyerek kaliteli derlemler elde etmek ve çeşitli kaynaklardan yeni paralel derlemler üretmektir. Çeşitli dil çiftleri için paralel derlem elde etmek için çeşitli kaynaklar ve yöntemler kullanılmaktadır. Resmi kurumların yayınları [15], dini kitaplar[16], kullanma kılavuzları [17], film alt yazıları [18], farklı dillerde yayımlanmış kitaplar [19], farklı dillerde yayın yapan haber siteleri [20] ve web sayfaları [21] gibi kaynaklardan paralel derlemler elde edilmiştir. Toplanılan paralel metinler doküman olarak ayrılmışsa; paralel derlem oluşturmak için önce doküman seviyesinde hizalama daha sonra da cümle bazında hizalama yapılması gereklidir. Resnik ve Noah ın çalışmasındaki [21] gibi internet 5

üzerinde çoklu dil ile yayın yapan siteleri elde etme için arama motorlarında çoklu dil ile yayın yapan siteleri döndürmesi muhtemel olan sorguların sonuçlarındaki sitelerin kontrolü yapılır. Sonraki işlemler ise; web sayfasını html, javascript gibi kodlardan temizlemek, sayfa hizalamak ve son olarak cümle seviyesinde hizalama yapılması gelir. Paralel derlem filtreleme çalışmaları paralel metin madenciliğinin son işleme adımı olarak düşünülebilir. Gale ve Church [22] 1993 yılında cümle hizalama işlemi için geliştirdikleri programda paralel cümlelerin uzunluklarının oranını ölçmüşlerdir. Uzunluk tabanlı yaklaşımlar Fransızca-İngilizce gibi cümle uzunlukları korelasyonu yüksek dil çiftlerinde oldukça iyi çalışabilirlerken; İngilizce-Çince gibi korelasyonu düşük dil çiftlerinde performans oldukça düşmektedir [23]. Chen ve Nie [24] 2000 yılında İngilizce-Çince paralel metinleri toplamak için bir sistem geliştirmişler ve topladıkları veriyi temizlemek için cümle uzunlukları ve dil belirleme işlemiyle elde ettikleri özelliklerden yararlanmışlardır. Resnik ve Smith [21] da 2003 yılında webden paralel metin toplayan bir sistem üzerine çalışmışlar ve çeviri benzerliği puanı ile topladıkları veriyi temizlemişlerdir. Bu çeviri benzerliği kaynak cümledeki sözcüklerin ne kadarının sözlük karşılıklarının hedef cümlede yer aldığına bakarak elde edilmektedir. Otomatik olarak üretilmiş derlemlerdeki gürültü, kaynak ve hedef dokümandaki farklılıklardan, aslına uygun olmayan çevirilerden veya cümle hizalama hatalarından kaynaklanabilir. Büyük bir derlemde bu hataları elle gidermek oldukça güçtür. Bu sebeple paralel cümle çiftlerini değerlendirecek otomatik sistemlere ihtiyaç duyulmuştur. Bazı çalışmalar paralel derlemleri temizlemek, daha kaliteli hale getirmek üzerine yoğunlaşırken [25], [26] bazı çalışmalar ise paralel olmayan çok dilli kaynaklardan paralel cümleleri çıkarma amacındadır [27], [28]. Bu çalışmalarda genellikle paralel cümle çiftine ait uzunluk oranları, farkı, sözcük eşleşme oranları, benzerlik hesapları vb. özellikler çıkarılarak makine öğrenmesi tabanlı filtreler geliştirilmiştir. 1.2 Tezin Amacı İBÇ sistemlerinin başarısını etkileyen en önemli etkenlerden biri paralel derlemdir. Çünkü İBÇ çeviri sırasında kullanacağı parametreleri eğitim sırasında paralel derlemden çıkarmaktadır. Paralel derlemin BÇ açısından kalitesi için şu özellikler sıralanabilir: 6

Çeviri denkiliği: İki paralel cümlenin birbirinin çeviri olması ve doğru ve eksiksiz bir şekilde aktarılmış olması Cümlelerin dilbilgisi kurallarına uygun olarak kurulmuş olması ve yazım hataları içermemesi Dilde görülme olasılığı yüksek akıcı cümleler olması Farklı alanlara ait örnekler barındırması; kapsayıcılık ve genel amaçlılık Bu çalışmada paralel derlem büyüklüğünün İBÇ sisteminin başarısına etkisini araştırmak için farklı kaynaklardan oluşan 1M cümlelik karma bir paralel derlemin farklı boyutlarda alt kümeleri ile İBÇ sistemleri eğitilmiştir. Ve paralel derlemin kalitesinin ve temiz olmasının İBÇ sisteminin başarısına nasıl bir etki yapacağını gözlemlemek amacıyla Türkçe-İngilizce paralel çiftlerinin kalitesinin ölçülmesi konusunda deneyler yapılmış ve paralel derlemden kalitesiz çiftlerin elenmesiyle kaliteli bir paralel derlemin elde edilmesini sağlayan bir sistem üzerine çalışılmıştır. Daha sonra aynı deneyler bu filtrelenmiş temiz derlem üzerinde yapılmış ve paralel derlemin kalitesinin de İBÇ sisteminin başarısına olumlu yöndeki katkıları gözlemlenmiştir. Tüm deneylerden elde edilen sonuçlar Bölüm 4 te ayrıntılarıyla gösterilmiş ve yorumlanmıştır. Türkçe-İngilizce için kullanıma açık paralel kaynaklar sınırlı da olsa mevcuttur. Ayrıca bu çalışma kapsamında Türkçe için yapılacak çalışmalara kaynak olabilmesi için Türkçe- İngilizce paralel metinler toplanılarak yeni derlemler üretilmiştir ve paralel metin toplama, cümle hizalama gibi konularda var olan yöntemler incelenmiş; Türkçe için en uygun yöntemler deneyler sonucunda belirlenmiş; Türkçe nin biçimbilimsel yapısı göz önüne alınarak yöntemlerde Türkçeye uygun değişiklikler yapılmıştır. Bölüm 3 de paralel derlem oluşturma, kalitesini ölçme, cümle hizalama gibi konularda bilgi verilmiş; kullanıma açık kaynaklar tanıtılmış ve yeni oluşturulan derlemler tanıtılmıştır. Yapılan her çalışmanın temel noktası Türkçe-İngilizce dilleri arasında çalışan İBÇ sistemlerinin başarılı sonuçlar üretebilmesi için kaynak oluşturmak ve dolayısıyla Türkçe için BÇ ve doğal dil işleme dünyasına katkı sunmaktır. 7

1.3 Hipotez Günümüzde BÇ çalışmaları istatiksel yöntemlerde yoğunlaşmaktadır. Dilden bağımsız, veriye dayalı model olan istatistiksel modellerin başarısı ise eğitim verisinin büyüklüğü ve kalitesiyle doğrudan ilişkilidir. Bu çalışmada İngilizce den Türkçe ye İBÇ sistemi, farklı büyüklüklerde eğitim verisi ile çalışılmış ve paralel derlemin büyüklüğü artıkça aynı oranda sistemin başarısının da arttığı gösterilmiştir. 100 bin paralel cümlelik eğitim verisinden 1 milyon paralel cümleye kadar yapılan testlerde başarıdaki artış aynı hızla devam etmektedir. Bu durum başarılı bir İBÇ sistemi için eğitim verisinin büyüklüğünün mümkün olduğunca fazla olması gerektiğini göstermektedir. Eğitim verisi yüksek boyutlara ulaştıkça fiziksel kaynakların kısıtlılığı ve çok uzun süren eğitim süreleri ortaya çıkmaktadır. Bu çalışma kapsamında geliştirilen paralel derlem filtresi ile gürültülü bir paralel derlemden hatalı olan paralel cümle çiftlerinin ve dilbilgisel olarak bozukluklar içeren çiftlerin elenmesiyle elde edilen güvenilir bir eğitim verisiyle; daha az kaynak ve zamanla neredeyse aynı sonuçlar elde edilebileceği gösterilmiştir. Paralel derlem filtresi kullanarak paralel derlemdeki gürültü ve hata oranına göre başarıyı yükseltebileceği de görülmektedir. Türkçe-İngilizce dil çifti için paralel metin kaynaklarının kısıtlılığı düşünüldüğünde; film altyazıları, Wikipedia sayfaları; web sayfaları gibi güvenilir olmayan kaynakların İBÇ sistemlerindeki eğitim verisi kaynağı olarak kullanılabilmesi ihtiyacı söz konusudur. Geliştirilen bu paralel cümle çiftlerinin doğruluğunu ve kalitesini ölçen filtre ile bu kaynaklardan Türkçe- İngilizce dil çifti için güvenilir, kaliteli paralel derlemler elde etmek mümkün olacaktır. Çalışmalar göstermiştir ki; bütün bir derlemin eğitim verisi olarak kullanılmasındansa ayıklayıcı tarafından seçilmiş örneklerin kullanılması daha az veriyle; daha az kaynak ve zamanla daha yüksek başarılar elde etmek mümkündür. 8

BÖLÜM 2 BİLGİSAYARLI ÇEVİRİ Bir dilin (kaynak dil) diğer bir dile (hedef dil) otomatik olarak çevrilmesi diğer adıyla Bilgisayarlı Çeviri (BÇ) bilgisayar bilimlerinin ve doğal dil işlemenin çok eskiden bu yana ilgilendiği konulardan biridir. Bu tür bir çalışmanın yapılabilmesi için bilgisayarın her iki dili, dillerdeki eşanlamlı sözcükleri, sözcük öbeklerini ve gramerlerini bilmesi gerekir [5]. Ancak günümüz teknolojisi ve teknikleri ile yetkin bir çeviri sisteminin gerçeklenmesi çok zordur. Yetkin bir bilgisayarlı çeviri sisteminin temelde şu üç özelliği barındırması beklenir: 1. Otomatiklik: İnsan müdahalesine gerek kalmadan sonuç üretebilmeli 2. Kaliteli Çeviri Yapabilme: Sistemin ürettiği çıktılar anlaşılabilir ve asıllarına uygun olmalı 3. Geniş Kapsamlılık: Çeviri sistemi her türlü konuyu içeren genel metinler (makale, haber, hikâye, mektup vs.) üzerinde işlem görebilmeli Bu üç özellik İngilizcede FAHQT (Fully Automatic - High Quality output -unrestricted Text) olarak geçmektedir [1]. Her ne kadar bilgisayarlı çeviri ile istenilen noktalara ulaşılamamışsa da çeşitli hata oranlarıyla çeviri yapan ve yaygın kullanılan sistemler mevcuttur. Bazı sistemler kapsamı daraltılarak belirli konularda çalışması sağlanmıştır. Bu sistemlere örnek olarak İngilizce-Fransızca arasında hava tahminlerini çeviren Météo sistemi örnek gösterilebilir [1]. Bazı sistemlerde ise otomatiklikten ödün vermişlerdir. Bu sistemler 9

insan eliyle yapılan çeviri faaliyetinin kolaylaştırılması için tasarlanmış ve sistem çıktıları çevirmenler tarafından düzenlenen sistemlerdir. İnternet ortamından bilgi toplama gibi çeviri kalitesinden ödün verilebilecek uygulama alanları olması sebebiyle bazı sistemler de kaliteden ödün vererek yüzeysel bir çeviri yapmaktadır. 2.1 Doğal Dil İşleme BÇ Doğal Dil İşleme (DDİ) alanının bir alt dalı olarak görülmektedir. Liddy e göre [29] DDİ nin motivasyonu uygulamaların insanlar gibi dil işleyebilmesi amacıyla hesaplama teknikleri ile doğal dillerde yazılmış metinleri bir veya daha fazla dilsel çözümleme seviyelerinde çözümlemesi veya üretmesidir. DDİ kapsamında aşağıdaki konular üzerine çalışmalar yürütülmektedir Yazım yardımcı araçlarının geliştirilmesi Yazım yanlışlarının düzeltilmesi Bul ve değiştir Basılı bir metni okuma (optik olarak metin okuma) ve okuma yanlışlarını düzeltme Bir metnin özetini çıkarma Metnin içerdiği bilgiyi çıkarma Bilgiye erişim Metni anlama Bilgisayarla sesli etkileşim Bilgisayarın konuşması (metni seslendirme) Konuşmayı anlama (konuşmayı metne dönüştürme) Soru yanıt dizgeleri Yabancı dil okuma yardımcı araçları Yabancı dilde yazma yardımcı araçları Doğal diller arası çeviri 10

2.1.1 Doğal Dil İşleme Bilgi Seviyeleri DDİ nin her seviyesi farklı seviyelerde dilsel olarak anlamlı öğeler üretmekten ve çözümlemekten sorumludurlar. Tüm seviyeleri uygulamak zorunlu değildir fakat daha başarılı aktarımlar, daha derinlemesine çözümlemelerle mümkün olmaktadır [29]. 2.1.1.1 Sesbilim Sesbilim (Phonology) sözcüklerin içerisindeki ve arasındaki sesleri yorumlamaktan sorumlu olan seviyedir. Fonetik (phonetic), fonemik (phonemic) ve prosodik (prosodic) kurallar olmak üzere 3 tipte kuralı yönetir. Fonetik kurallar sözcüklerin içerisinde bir araya gelen sabitleri tanımlayan kurallarken, fonemik kurallar sözcükler bir araya gelince oluşan telaffuz varyasyonlarını tanımlar. Prosodik kurallar ise sözcüklerin yükseltme, alçaltma veya vurgulama biçimlerini tanımlayan kurallardır [29]. 2.1.1.2 Biçimbilimsel Seviye Biçimbilimsel seviye (morphology) sözcükler üzerine yapılan çalışmalardan sorumlu olan seviyedir ve bu seviyede yapılan çözümleme sonucu bir sözcüğün anlamlı en küçük birimleri (morphems) bulunur [29]. Şekil 2.1 de aklımdan sözcüğünün biçimbirimsel gösterimi yer almaktadır. Yapısal Biçim: akıl + AD + TEKİL + 1. TEKİL ŞAHIS İYELİK + YÖNELME HALİ Yüzeysel Biçim: aklımdan Şekil 2.1 Türkçe bir sözcüğün biçimbilimsel gösterimi 2.1.1.3 Sözlüksel Seviye Sözcüksel seviye (lexical level) sözcüklerin anlamlarının yorumlanmasından sorumlu olan seviyedir. Sözcükleri en olası anlamını ve cümle içerisindeki görevini (part-of- 11

speech tags) bularak haritalandırır. Sözlüksel seviyedeki işlemler sözlük gerektirebilmektedir [29]. 2.1.1.4 Sözdizimsel Seviye Sözdizimsel seviye (syntactic) bir cümle içerisindeki sözcüklerin dilbilgisel yapıyı ortaya çıkarmak için nasıl bir araya geldiklerini çalışan seviyedir. Sözcük dizileri dilbilgisel kurallar ve doğal dil sabitleri kullanılarak sözdizimsel ağaçlara aktarılır [29]. Şekil 2.2 de Aşçı güzel yemek pişirmiş. Cümlesinin sözdizimsel ağacı gösterilmiştir. Şekil 2.2 Türkçe bir cümlenin sözdizim ağacı 2.1.1.5 Anlamsal Seviye Anlamsal (semantic) çözümleme cümlelerin anlamları üzerine çalışır ve cümle yapısına, diğer bir ifadeyle sözdizimsel ağaca anlamsal görevlerin yüklenmesi işlemini yerine getirir. Birden fazla anlama sahip olan sözcüklerin sebep olduğu belirsizliği gidermek üzerine çalışan anlamsal belirsizlik gidericiler de bu seviyenin parçalarındandır [29]. 12

2.1.1.6 Söylemsel Seviye Bu seviyede cümleler arasındaki ilişkilere odaklanarak; bir cümlenin anlamının içerisinde yer aldığı metnin içindeki diğer cümleler tarafından etkileşimleri incelenmektedir [29]. 2.2 Bilgisayarlı Çeviri Tarihçesi 1930 lu yıllarda başlayan çeviri denemeleri, 1946 da ENIAC (Electronical Numerical Integrator and Calculator) adı verilen elektronik çeviri cihazının İkinci Dünya Savaşı sonrasındaki yeniden yapılanma sürecinde önemli bir rol oynaması, çeviri alanına elektroniğin ve bilgisayarın girmesine öncülük etmiştir. MAT (Machine Assisted Translation) adı verilen bu sistemler kendi başına çeviri yapamasalar da, bitmiş bir çeviriyi belleğinde bulunan sözcük yapıları ile karşılaştırarak hata ayıklayabilmektedirler. Yine de çevirmenlerin işini biraz da olsa hafifletmişlerdir [30]. 1954 te yapılan Georgetown Deneyi (Georgetown Üniversitesi ve IBM ortaklığıyla gerçekleştirilmiş bu çeviride IBM 701 bilgisayarı kullanılmıştır ve sistemin hafızasında sadece 6 gramer kuralı ve 250 sözcük vardı) altmıştan fazla Rusça cümlenin İngilizce ye tam otomatik çevirisini kapsıyordu. Bu deney büyük bir başarıydı ve bilgisayarlı çeviri araştırmasına yatırım dönemini başlattı [31]. Yazarlar, üç veya beş yıl içerisinde bilgisayarlı çeviri sorununun çözülebileceğini iddia ediyordu. Ne var ki, gerçek anlamda ilerleme çok daha yavaştı ve on yıllık araştırmanın hayalleri gerçekleştirmede başarısız olduğunu ortaya koyan 1966 daki ALPAC (Automatic Language Processing Advisory Committee) Raporu ndan sonra bu alana yapılan yatırım belirgin ölçüde azaltıldı. Bu rapor, o dönemde, Akademi tarafından oluşturulan, Automatic Language Processing Advisory Committee (ALPAC) kuruluşuna aitti. Bu kuruluşun amacı, BÇ ile ilgili olarak kalite, maliyet, öngörüler, beklentiler ve ihtiyaçlar konusunda çalışmalar yapmaktı. ALPAC raporu, insan çevirmenler konusunda bir yetersizlik olmadığını, genel bilimsel metinlerin çevirisinde kullanılabilecek bir BÇ nin öngörülmediğini belirtmişti. Bu rapor, ABD hükümetinin BÇ için sağladığı fonun sanal olarak sonu oldu. Daha da kötüsü, sektörde genel bir moral kaybına neden oldu [32]. 13

Yine de, Kanada ve Avrupa da bu alanda çalışmalara devam edildi. Hava durumu raporlarını İngilizce den Fransızca ya çeviren ilk başarılı sistemlerden Meteo 1990 lı yıllara kadar kullanılmıştır. Aynı zamanlarda en popüler ve başarılı kural tabanlı sistemlerden SYSTRAN geliştirilmeye başlanmıştır. SYSTRAN 20 dil arasında doğrudan aktarım modeliyle çalışmaktadır ve Google gibi arama motorlarında; Avrupa Birliği, NATO gibi kurumlarda kullanılmaktadır [33]. Kural tabanlı sistemler özel konularda iyi sonuçlar üretebilmelerine karşın geniş kapsamlı bir çalışma için çok sayıda insan emeğiyle yazılan kurallara ve sözlük kayıtlarına ihtiyaç duymaktadır. Bu da oldukça fazla zaman ve maliyet gerektiren bir durum oluşturmaktadır. Bir dil çifti için yazılan bu kurallar başka dil çiftleri için geçerli olmamakta; genel amaçlı çeviri sistemleri ihtiyacını giderememektedir. Genel kabul, Bilgi Çağı nın başlangıcının internetin yaygın olarak kullanılmaya başlandığı 1991 yılı olduğu şeklindedir. Silikon çiplerin çok yüksek miktarda sayısal veriyi muhafaza edebilmeleri, yapay zeka çalışmalarının hızlı gelişimi BÇ ye de yeni olanaklar sunar [34]. Ses işleme ve tanıma gibi alanlarda başarısı kanıtlanmış olan istatistiksel yöntemlerin BÇ alanında da denenmesi yoluna gidilmiştir. IBM in önderliğini yaptığı bu çalışmalar sonucunda elde edilen başarılar, kural tabanlı sistemlerde tıkanan ve ileri gidemeyen çalışmaların büyük bir bölümünü derlem tabanlı sistemlere yöneltmiştir. Paralel derlemleri eğitim verisi olarak kullanan ilk yöntem olan örnek tabanlı BÇ yöntemi 1980 li yılların ortalarında öne sürülmüştür. Paralel derlemdeki paralel cümle çiftlerini çeviri örnekleri olarak kullanan örnek tabanlı BÇ yöntemi sözcük ve sözcük öbeği çevirilerini kendisine en çok benzeyen örneklerden çalışma süresi içerisinde öğrenmektedir. En büyük dezavantajı ise çok büyük ve hatasız eğitim verisine ihtiyaç duymaktadır. Son 20 yılda BÇ konusunda en yaygın kullanılan yöntem ise İBÇ (İstatiksel Bilgisayarlı Çeviri) yöntemidir. IBM in yeni ufuklar açan çalışmaları BÇ ye ilgi duyan araştırmacıları etkilemiş ve istatiksel yöntemlere yöneltmiştir. Daha az emek ile daha yüksek başarı getirdiği söylenen İBÇ yönteminin ilk yaklaşımı IBM in sade sözcük tabanlı yöntemidir. SYSTRAN ve IBM in BÇ sistemi (CANDIDE) arasında yapılan deneylerde istatiksel yöntemlerin kural tabanlı yöntemleri aştığı görülmüştür. Üstelik yeni bir yöntem olan İBÇ nin diğer konulara ve dil çiftlerine aktarımının oldukça kolay olması BÇ alanındaki ilginin büyük bir kısmını İBÇ ye 14

yöneltmiştir. İBÇ sistemlerinin ihtiyaç duyduğu eğitim verisi dilbilgisel olarak iyi ve çeviri açısından da doğru örneklerden oluşan paralel metinlerdir. 2.3 Bilgisayarlı Çeviri Uygulamaları Giderek yaygınlaşan BÇ sistemleri düz metinleri; dokümanları, elektronik postaları, web sayfalarını, yazılım ara yüzlerini, anlık çeviri için sesleri çevirmek için, çevirmenlere yardımcı olmak için kullanılmaktadır. BÇ nin en büyük kurumsal kullanıcısı kurum içi kullanım için belgelerin ilk taslaklarının büyük bölümünün otomatik çevirisini yapmak için ticari amaçlı bilgisayarlı çeviri sistemi olan SYSTRAN nın üst düzey sürümünü kullanan Avrupa Komisyonu dur [35]. Kural tabanlı olarak geliştirilen ticari bir BÇ sistemi olan SYSTRAN 1 yazılımına akıcılığı ve esnekliği artırmak için istatiksel yöntemler de eklenmiş ve 52 dil arasında çeviri yapabilen bir sistem haline getirilmiştir. Bir Danimarka çeviri ajansı olan Lingtech A/S, Trados ticari CAT araç sistemine dayalı çeviri hafızasıyla birlikte çalışarak PaTrans adlı tecilli, kurallara dayalı bilgisayarlı çeviri sistemini kullanarak 1993 ten beri İngilizce den Danimarkaca ya patent uygulamalarını çevirmektedir. İspanya nın günlük gazetesi Periodico de Catalunya, bir bilgisayarlı çeviri sistemiyle İspanyolca dan İngilizce ye çevrilmektedir. Google, tecilli istatiksel bilgisayarlı çeviri motoru kullanarak umut verici sonuçların elde edildiğini bildirmiştir. Bu motor halen, yakında daha fazla dil çiftleri SYSTRAN motorundan Google motoruna alınmak üzere, Arapça - İngilizce ve Çince - İngilizce çevirileri için halen Google Çeviri araçlarında kullanılmaktadır. Uwe Muegge, İngilizce, Almanca ve Fransızca web sayfalarının tam otomatik, yüksek kalitede bilgisayarlı çeviri yapmak amacıyla Google motoruyla birlikte kontrollü bir dil kullanan bir demo websayfası uygulamaya koymuştur. Son zamanlarda terörizme yoğunlaşarak, Amerika daki askeri kaynaklar doğal dil mühendisliğine büyük miktarda para yatırmaktadır. In-Q-Tel (özel sektör girişimcileri vasıtasıyla yeni teknolojileri teşvik etmek amacıyla Amerikan İstihbarat Topluluğu 1 http://www.systransoft.com/ 15

tarafından büyük ölçüde finansmanı sağlanan bir risk sermayesi fonu), Language Weaver gibi şirketler oluşturmuştur. Şu an Amerika daki askeri kesim Arapça, Paştu ve Dari gibi dillerin çevirisine ve işlemine ilgi duymaktadır. DARPA daki (Defense Advanced Research Projects Agency) Bilgi İşleme Teknoloji Ofisi, TIDES ve Babylon Çeviri gibi programlara ev sahipliği yapmaktadır. Amerika Hava Kuvvetleri bir dil çeviri teknolojisi geliştirmek için 1 milyon dolarlık bir sözleşme yapmıştır [35]. Google Translate 1 istatiksel bilgisayarlı çevirinin popüler, ücretsiz ve çevrimiçi bir uygulamasıdır. Diğer bir ücretsiz, çevrimiçi istatiksel bilgisayarlı çeviri uygulaması ise Microsoft tarafından geliştirilen Bing 2 uygulamasıdır. Koehn ve diğerleri [36] kullanıcıların istatiksel bilgisayarlı çeviri uygulamaları geliştirebilmesi için tasarlanmış MOSES 3 isimli için ücretsiz bir araç seti geliştirmişlerdir. Bu çalışmada yapılan deneylerde bu araç setinden faydalanılmıştır. 2.4 Bilgisayarlı Çeviri Yöntemleri BÇ amacıyla kullanılan yöntemler kural tabanlı, örnek tabanlı ve istatistiksel yöntemler olmak üzere 3 grupta incelenmektedir. Hangi yöntemin kullanılacağı seçilirken üzerine çalışılan dil çifti; BÇ siteminin kapsamı gibi faktörler göz önüne alınmalıdır. 2.4.1 Kural Tabanlı Sistemler Kural tabanlı çeviri yöntemlerinde, kaynak tümcesinin çeşitli bilgi seviyelerinde gösterimlerini oluşturduktan sonra bu bilgi seviyesinde aktarım yapılmasını öngören bir dizi yöntem kullanır. Bu yöntemleri görselleştirmek için Vauquois Üçgeni yaygın olarak kullanılır (Şekil 2.1) [37]. 1 http://translate.google.com 2 www.bing.com/translator 3 www.statmt.org/moses/ 16

Şekil 2.3 Bilgi Tabanlı Yöntemlerin Sınıflandırılması-Vauqouis Üçgeni 2.4.1.1 Doğrudan Aktarım Vauqouis Üçgeninin en altındaki aktarım en temel çeviri türüdür. Kaynak dildeki sözcüklerin karşılıklarının bulunarak hedef dile çevrilmesidir. Bu basit çeviri türünde bile tam sözcük karşılığının bulunmaması, farklı anlamlar içeren sözcüğün hangi anlamda kullanıldığı gibi sıkıntılar ortaya çıkmaktadır. Dolayısıyla sözcüklerdeki bu belirsizliklerin giderilmesi gerekmektedir. Her ne kadar doğrudan aktarım yönteminde tümce üzerinde çözümleme yapılması gerekmese de birçok uygulamada biçimbilimsel çözümleme yapılır [1]. 2.4.1.2 Sözdizimsel Aktarım Sözdizim aşamasında biçimbilimsel çözümleyicide ayrıştırılan sözcükler kullanılarak cümledeki öğelerin (isim, sıfat, zarf,...) dizimsel formülleri oluşturulur [38]. Sözdizimsel çözümlemesi yapılan kaynak dildeki ifadenin sözcükler arası bağlantıları gösteren ağaç verisi elde edilir ve hedef dile bu ağaç aktarılır. Sözdizimsel yapı aktarıldıktan sonra, doğrudan aktarım yönteminde olduğu gibi sözcükler de aktarılır (Şekil 2.4). 17

Şekil 2.4 Sözdizimsel Aktarım 2.4.1.3 Anlamsal Aktarım Anlambilim aşamasında, sözdizimsel çözümleme sonucu üretilen sözdizim ağacına anlamsal görevler de yüklenerek anlamsal gösterim oluşturulur. Anlamsal gösterim kaynak dilden hedef dile aktarılarak; anlamsal üretim; sözdizimsel ve biçimbilimsel üretim gerçekleştirilerek hedef dilde cümle elde edilir. 2.4.1.4 Dilden Bağımsız Anlamsal Gösterimin Aktarımı Anlambilim aşamasında, doğal dillerde kullanılan cümleler İnterlingua adı da verilen, cümlenin anlamını dilden bağımsız bir yapıda ifade eden diller arası bir formata çevrilir. Bu sayede cümlelerin diğer dillere ya da makine diline çevrilebilmesi mümkün olur. En önemli özelliği; her dil için geliştirilen DDİ araçları ile o dilden bağımsız anlamsal gösterimi oluşturmak ve bu gösterimden ifadeyi üretme işlemi gerçekleştirildiğinde BÇ için ayrı bir çabaya gerek duyulmayacak olmasıdır. Yani, her dil çifti için ayrı ayrı çalışmak yerine; dilleri bilgi seviyelerinde çözümlemesini ve üretimini gerçekleştirecek araçlara sahip olmak yeterli olacaktır. Fakat diller arası var olan büyük farklılıklar dilden bağımsız gösterimin nasıl sağlanabileceği konusu henüz üzerinde anlaşmaya varılmış bir problem değildir. 2.4.2 Derlem Tabanlı Yöntemler 90 lı yılların başlarında, bilgisayar teknolojilerindeki gelişme ve büyük miktardaki çevrimiçi metinlere ulaşmanın kolaylaşması sonucu derlem tabanlı yöntemler 18