Benzer belgeler
TEMEL AFET BİLİNCİ, AFET TOPLANMA MERKEZLERİ AFET HAZIRLIK MÜDAHALE KURULU NUN AMAÇLARI VE ÇALIŞMALARI

YENİ KENT MERKEZİNDE YAPILACAK YÜKSEK BİNALAR İÇİN HAZIRLANAN TEKNİK ÖNERMELER

3. Snf Sözdizim Sunumu

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

MÜTERCİM -TERCÜMANLIK BÖLÜMÜ

MER A YLETRME ve EROZYON ÖNLEME ENTEGRE PROJES (YENMEHMETL- POLATLI)

Sunum İçeriği: I. Dilbilim Hk. II. Bölüm Hk.

İZMİR İN OTOPARK SORUNU. Doç.Dr. Serhan TANYEL

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/YÜKSEKOKULU BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ/PROGRAMI MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

Bölüm 8 Ön Ürün ve Hzl Uygulama Gelitirme. 8lk Kullanc Tepkileri. Dört Çeit Ön Ürün. Ana Konular. Yamal Ön Ürün. Ön Ürün Gelitirme

MESLEK HASTALIKLARI YÖNÜNDEN İZMİR ANALİZİ. Saadet ÇAĞLIN

UTEK2007. Bildiriler. Türkçenin Söz Dizimi ve Türk Edebiyatında Üsh1p Arayışları Ağustos Editör Hayati DEVELi

UNI-101 Üniversite Yaşamına Giriş Dersi İNGİLİZ DİLBİLİMİ BÖLÜMÜ

T.C. YALOVA ÜNİVERSİTESİ Strateji Geliştirme Daire Başkanlığı. İÇ KONTROL ve RİSK YÖNETİMİ 1 İÇ İÇ KONTROL

WATTPILOTE ÖLÇME VE KONTROL SİSTEMLERİ.

I. SINIF-GÜZ DÖNEMİ DİLBİLİME GİRİŞ I (3+0) 3 AKTS 6

BOĞAZİÇİ ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ DİLBİLİM BÖLÜMÜ

ANKARA ÜNİVERSİTESİ DİL ve TARİH-COĞRAFYA FAKÜLTESİ DİLBİLİM BÖLÜMÜ LİSANS PROGRAMI DERS İÇERİĞİ

EKOLOJİK TASARIM KRİTERLERİNE GÖRE KENT PARKI İYİLEŞTİRME MODELİ: İZMİR KÜLTÜRPARK ÖRNEĞİ. Ayşe KALAYCI Araşt rma Görevlisi

Uygur Tümcesinin Bilgisayar ile Çözümlenmesi


Boğ aziçi Üniversitesi Fen-Edebiyat Fakültesi Çeviribilim Bölümü LİSANS PROGRAMI

TDE 101 Türkiye Türkçesi I Turkey Turkish I TDE 102 Türkiye Türkçesi II Turkey Turkish II

YD 101 İngilizce-I (A1) 4+0 English-I (A1) 4 YD 107 Almanca-I (A-1) 4+0 German-I (A-1) 4 I. Yarıyıl Toplam Kredi 17 I. Yarıyıl Toplam AKTS 30

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

17 AĞUSTOS ETKİNLİKLERİ VE YAPILAN ANKET ÇALIŞMALARININ DEĞERLENDİRİLMESİ. Abdullah İNCİR İnşaat Mühendisi

Çeviride Bilgisayar Teknolojileri Kullanımı (ETI314) Ders Detayları

Simülasyon Modelleme. Contents. 1 Simülasyon Nedir? Doç. Dr. Mustafa Yüzükrmz myuzukirmizi@meliksah.edu.tr. Ders -5: Simülasyon A³amalar.

TUTANAK 13/05/2015. : Türkiye Kooperatif İstatistiklerinin Geliştirilmesi Projesi. : ILO Türkiye Ofisi, Ankara

Köy Hizmetleri Genel Müdürlüğü APK Dairesi Başkanlığı Toprak ve Su Kaynaklar ı Araştırma Şube Müdürlüğü

References. 2 Sistem Kavram. 2.1 Tanmlar. Ders Kitab

BAYINDIRLIK LER BRM FYAT ANALZLERNDEK GÜCÜ VERMLLKLERNN RDELENMES. M.Emin ÖCAL, Ali TAT ve Ercan ERD Ç.Ü., naat Mühendislii Bölümü, Adana / Türkiye

T.C. YALOVA ÜNİVERSİTESİ Strateji Geliştirme Daire Başkanlığı. İÇ KONTROL ve RİSK YÖNETİMİ 2 İÇ RİSK YÖNETİMİ

İZMİR KENT SORUNLARININ ÇÖZÜMÜNDE YAYGIN VE KURUMSAL EĞİTİMLERİN ÖNEMİ. Ali ÖZDERE Makina Mühendisi

ANKARA GÖÇ ANALİZİ.

ANKARA ÜNİVERSİTESİ ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

ÖZET. Anahtar kelimeler: Akıllı tahta, bilgi ve iletişim teknolojilerine karşı tutum, hücre bölünmesi

ÇOCUK DOSTU KENT ÜZERİNE STRATEJİLER. Yard. Doç. Dr. Hikmet SİVRİ GÖKMEN

KARA YOLLARINDA TRAFiK GÜVENLİGİ VE TRAFiK KAZALARlN EKONOMİK AÇlDAN BİR DEGERLENDİRMESİ

VT Sistem Gerçeklemesi. Ders Notları- #8

READING WRITING ORAL COMMUNICATIO N SKILLS BASIC INFORMATION TECHNOLOGIES INTRODUCTION TO EDUCATION

MÜTERCĐM TERCÜMANLIK BÖLÜMÜ ĐNTĐBAK ÇĐZELGESĐ

Simülasyon Modellemesi

Söylem Çözümlemesi (ETI205) Ders Detayları

Türkçe Eğitimi Anabilim Dalı- Tezli Ortak Yüksek Lisans Programı Ders İçerikleri

DERS İÇERİKLERİ ZORUNLU DERSLER

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

İÇİNDEKİLER 1 Genel Bilgiler 1.1 Hakk m zda 1.2 Vizyon-Misyon 1.3 Hesap Dönemi 1.4 Şirket Ünvan 1.5 Sermayesi ve Toplam Hisse Senedi 1.

Ders Kodu Dersin Adı Teo. Uyg.

ENSTTÜ PROGRAMLARINA BAVURABLMEK ÇN GEREKL GENEL KOULLAR

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ FRANSIZCA MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

YÖNETMELİK Sanayi ve Ticaret Bakanlığından: SANAYİ VE TİCARET BAKANLIĞI PİYASA GÖZETİMİ VE DENETİMİ YÖNETMELİĞİ

Karar Sayısı : KHK/641

Yaz m Testi Sürecine TEC in (Test Expert Committee) Katk lar TEC Contributions to the Software Testing Process

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

5. Sınıf (Hazırlık) 5. Sınıf 6. Sınıf 7. Sınıf 8. Sınıf Story Time My Word Bank

Çapa ve CerrahpaĢa YerleĢkelerinin Yeniden Yapılanması Kapsamında Master Plan ÇalıĢması ve Problemler

Doç. Dr. Emine Yarar

HACETTEPE ÜNVERSTES. l e t i i m. : H. Ü. Fen Fakültesi Aktüerya Bilimleri Bölümü Beytepe/Ankara. Telefon :

HUNGAROLOJİ ANABİLİM DALI EĞİTİM ÖĞRETİM ÖĞRETİM YILI GÜZ PROGRAMI

Dilbilim Nedir? .Dili bir araştırma konusu olarak ele alan ilk çalışmalara Grek, Hint, Çin, Arap uygarlıklarında rastlanmaktadır.

T.C. SAĞLIK BAKANLIĞI Strateji Geliştirme Başkanlığı. (Đl Sağlık Müdürlüğü) GENELGE 2009/64

Ş ş Ç Ş ğ ğ ş ğ öğ ü ü ö ş ş Öğ

Bilgisayarlı Çeviri (ETI415) Ders Detayları

Sigorta irketlerinin Yaps ve Aktüerin Rolü. Aktüerler Derneği Nisan 2010

Türkçe Eğitimi Anabilim Dalı- Tezli Yüksek Lisans Programı Ders İçerikleri

Sa lk Ekonomisi. Berk KÜSBEC Bozok Üniversitesi Berk KÜSBEC (BOZOK) KT / 18

SOSYOLOJİ BÖLÜMÜ EĞİTİM-ÖĞRETİM YILI BAHAR DÖNEMİ DERS KATALOĞU

Yayınlanmış eski sınav soruları htttp://eogrenme.anadolu.edu.tr adresinde yer alann deneme sınavı hizmetinde öğrencilerimize sunulmaktadır.

Doç. Dr. Emine Yarar

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

T.C KÜLTÜR VE TURZM BAKANLII Strateji Gelitirme Bakanl!"! (1. sayfa) ZEYLNAME

MÜFREDAT DERS LİSTESİ

27. ULUSAL DİLBİLİM KURULTAYI BİLDİRİLERİ

Yayınlanmış eski sınav soruları htttp://eogrenme.anadolu.edu.tr adresinde yer alann deneme sınavı hizmetinde öğrencilerimize sunulmaktadır.

Gramer Geliştirilmesi

Türkçe ve Doğal Dil İşleme Turkish Natural Language Processing. Özet. Kemal Oflazer Carnegie Mellon Üniversitesi - Katar Doha, Katar ko@cs.cmu.

Düzenlilik Denetimi Rehberi

MESLEKi EGiTiM MERKEZLERİNDE OTO MOTOR TAMİRCİLiG-i MESLEK BİLGİSİ DERSİ PROGRAMI UYGULANABİLİRLİK ANALİZİ

TÜRKÇE BİÇİM KISA ÖZET.

RUS DİLİ VE EDEBİYATI ANABİLİM DALI EĞİTİM-ÖĞRETİM YILI BAHAR PROGRAMI

Facebook. 1. Grup ve Sayfalar. Facebook ta birçok grup ve sayfa üzerinden İngilizce öğrenen kişilerle iletişime geçebilir ve

Bilgisayar Mühendisliği. Bilgisayar Mühendisliğine Giriş 1

BİÇİMBİRİM AÇIMLAMA VE BELİRGİNLEŞTİRME. Ümit MERSİNLİ, Mustafa AKSAN Mersin Üniversitesi

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

3. Günal, E. (2005). Türkiye de Seçim Sistemlerinin Siyasal Kurumlar Üzerindeki Etkileri,

Ders Kodu Dersin Adı Teo. Uyg.

YEŞIL MIMARLIKTA TEKNOLOJI VE MALZEME SEÇIMI

Üretici Dilbilgisi I

DERS BİLGİ FORMU. Okul Eğitimi Süresi

5.3 Elektronik kaynaklar Elektronik sözlükler. (a) elektronik sözlükler, (b) metin bütünceleri.

LEVENT KOLEJ BURS SINAVI ÖRNEK TÜRKÇE SORULARI

KIRGIZİSTAN TÜRKİYE MANAS ÜNİVERSİTESİ MODERN DİLLER YÜKSEK OKULU MÜTERCİM - TERCÜMANLIK BÖLÜMÜ LİSANS PROGRAMI

Sözdizimsel Analiz (Syntactic Analysis)

İletişim ve Medya Çevirisi (ETI310) Ders Detayları

Doğal Dil Đşleme (DDĐ) Natural Language Processing (NLP)

NEDEN BOĞAZİÇİ? Özgür düşünceli Araştırmacı Kendine güvenen Önyargısız Topluma saygılı Girişimci. bireyler

Türkiye'de Engelli Kad na Yönelik Şiddet Raporu ENGELLİ KADIN DERNEĞİ

Güz Dönemi Ara Sınav Programı

Transkript:

Turkce Dogal Dil _Isleme OZET Bu bildiri, Turkce dogal dil isleme konusunda baslanan genis kapsaml bir arastrma projesini ozetlemektedir. Projenin amac, dogal dil isleme ve bilgisayarl dilbilim calsmalarna temel olacak yontem, kaynak ve yazlm teknolojilerini gelistirmektir. Natural Language Processing in Turkish OZGECM_IS Kemal Oazer Kemal Oazer 1978 ve 1979 yllarnda ODT U'den lisans ve Y.lisans dereceleri, 1987'de Carnegie-Mellon Universitesinden doktora derecesi almstr. Oazer, halen Bilkent Universitesinde ogretim uyesidir.. Cem Bozsahin Cem Bozsahin 1982 ve 1984 yllarnda ODT U'den lisans ve Y.lisans dereceleri, 1990'da Arizona State Universitesinden doktora derecesi almstr. 1992 yl sonuna kadar Ohio Universitesinde ogretim uyesi olarak calsan Bozsahin, halen ODT U'de ogretim uyesidir. ABSTRACT This paper describes a comprehensive research program on Turkish natural language processing (NLP). The goals of the project are to study methods and resources for NLP research in Turkish, and to design software systems based on the re-usable tools for parsing, analysis, and generation.

1 Giris Dogal dil isleme (natural language processing) onumuzdeki yllarda insanlarn bilgisayarlar ile etkilesimlerinde temel bir takm degisiklikler getirmeye aday teknolojilerden biridir. Bilgisayarlar ile dogal dil isleme cok degisik alanlarda uygulama bulmaktadr. Ornegin cogumuzun kullandg sozcuk islemci gibi programlarda bulunan hatal yazlms sozcuklerin bulunmas ve duzeltilmesi islevi bu tip uygulamalarn en basitlerinden bir tanesidir. Burada, bilgisayar cesitli nedenlerle (hzl yazma srasnda hata, dogru yazm bilmeme, vb.) olusan yazm hatalarn tespit etmekte ve eger istenirse kullancya duzeltmede kullanlmak icin dogru sozcukler onermektedir. Daha karmask bir uygulama olarak bir veri tabanna, SQL ile degil de, ornegin Turkce ile sorgu yoneltmeyi ve sistemin bunu cozumleyerek bir SQL sorgusuna donusturup isledikten sonra sonuclar kullancya vermesini gosterebiliriz. Bilgisayar yardm ile dilden dile (yar-)otomatik bir sekilde metin cevirisi yapmak, bilgisayar yardm ile dil ogretmek, bilgisayarlarn yardm ile tek veya cok dilli sozluklere erismek, dogal dilde cumle ve metin uretmek gibi uygulamalar dogal dil islemenin en onemli ornekleri olarak gorebiliriz. Cok daha genis bir baks acs ile de konusma tanma ve konusma uretmeyi de kullandklar temel teknolojiler oldukca farkl olsa da bu alan icinde gormek olasdr. Ornegin teknolojinin bugun geldigi noktada, ABD, AlmanyaveJaponya'daki arastrmaclar, telefon ile konusan iki kisinin konusmalarn annda tanyp karssndaki kisinin diline ceviren, onun anlayabilecegi konusmay ureten sistemlerin prototiplerinin gosterebilmislerdir. Ancak bu gibi sistemlerin gunluk hayatta etkin olarak kullanmlar icin aradan daha fazla bir surenin gecmesi gerekecektir. Dogal dil islemenin bir diger onemli yonu de, dilbilim kuramlarna deney ortam yaratarak daha kapsaml ve cabuk snanmalarn saglamaktr. Bu acdan, dogal dil isleme teknolojisi dilbilimcileri ve bilgisayar bilimcilerini ortak calsmaya yonlendirmektedir. 2 Dogal Dil _ Isleme Dogal dil isleme, ana islevi dogal bir dili cozumleme, anlama, yorumlama ve uretme olan bilgisayar sistemlerinin tasarmn ve gerceklestirilmesini konu alan bir bilim vemuhendislik alandr. Dogal dil isleme, yapay zeka (bilgi gosterimi, planlama, akl yurutme, vb.), bicimsel diller kuram (dil cozumleme), kuramsal dilbilim ve bilgisayar destekli dilbilim, bilissel psikoloji gibi cok degisik alanlarda gelistirilmis kuram, yontem ve teknolojileri bir araya getirir. 1950 ve 1960'larda yapay zekann kucuk bir alt alan olarak gorulen bu konu, arastrmaclarn ve gerceklestirilen uygulamalarn elde ettigi basarlar sonunda artk bilgisayar bilimlerinin temel bir disiplini olarak kabul edilmektedir. Dogal dil isleme alanndaki arastrmalarda temel amaclar genellikle sunlar olmustur: dogal dillerin islev ve yapsn daha iyi anlamak, bilgisayarlar ile insanlar arasndaki arabirim olarak dogal dil kullanmak ve bu sekilde bilgisayar ile insanlar arasndaki iletisimi kolaylastrmak, ve bilgisayar ile dil cevirisi yapmak. Japonya, ABD, Ingiltere _ Almanya, ollanda, Fransa gibi ulkelerde bu teknolojiyi kullanan cesitli yazlmlar ve bilgisayar sistemleri kullanclarn hizmetine sunulmustur. Bilim ve is alannda her yerde gecerli bir dil olmas acsndan Ingilizce _ bu gibi urunlerin en fazla uygulandg dil olmustur. Ancak bu teknolojilerin meyvelerini Turkce'ye uygulamak ve Turkce'de de arastrma altyaps olusturmak icin daha cok calsma yaplmas gerekmektedir. Dogal dil isleme ve yakn alanlarda yaplan arastrmalar, bir yanda islenen dilin yapsal ozelliklerinden bagmsz olma iddiasnda kuramlar gelistirirken, bir yandan da bunlarn genis kapsaml olarak uygulanmas icin islenecek dillere ozel kaynaklarn uzerinde yogunlasmaktadr. Ancak su ana kadar gelistirilen kuramlarn cogu genelde _ Ingilizce ve benzeri dilleri temel uygulama alan aldg icin, cesitli ozellikleri ile bu tip dillerden farkl dillere uygulanmalarnda sorunlar ckabilmektedir. 3 Turkce Turkce, Ural-Altay dil grubuna giren bir dildir. Yapsal olarak Turkce'nin dogal dil islemede ilginc sorunlar iceren ozellikleri vardr. Oncelikle, sozcuk yaps ve uretimi acsndan Turkce

bitisken (agglutinative) bir dildir. Bu acdan Turkce ornegin Fince ve Macarca'ya benzemektedir. Bu tip dillerde sozcukler bir kok sozcuge sanki tespih taneleri gibi eklenen (ancak eklenirken, unlu uyumu, unsuz degismesi, unlu ve unsuz dusmesi gibi nedenlerle degisiklige ugrayan) bicimbirimlerden (morpheme) olusurlar. Bu bicimbirimler eklendikleri kok veya govdenin anlamn, sozcuk turunu, veya sozdizimsel islevini degistirebilirler. Bu nedenle, Turkce'de bu sekilde kurulan bir sozcuk ile ifade edilen kavram, bazen baska bir dilde ancak bir cumle ile ifade edilebilir. Buna abartl bir ornek olarak yerlestirilemeyeceklerindendir sozcugunu verebiliriz. Koku yer olan bu sozcugun bicimbirimleri su sekilde gosterilebilir: yer+les+tir+il+e+meye+cek+ler+in+den+dir Turkce'nin hemen her dilbilimi ders kitabnda incelenmesinin nedeni, dilin birtakm dilbilimsel olgularda tipik bir ornek olusturmasdr, ornegin ses uyumu, bitisken sozcuk yaps, sozdizimindeki serbestlik, ve obek yaplarnda (phrase structure) tamlayanlarn her zaman tamlanandan (head) once gelmesi gibi. Dogal dil islemede karslaslan sorunlara sk tutmas icin Turkce'nin temel ozellikleri soyle sralanabilir. 3.1 Bicimbilimsel Ozellikleri Turkce'nin sozcuk yaps, koklere yapm (derivation) ve cekim (inection) eklerinin sonek (sux) olarak eklenmesine dayanr. Cekim soneklerinin bollugu, yapm soneklerinin cok uretken olmas, ve soneklerin sozdizime (syntax) olan dogrudan etkisi, bilgisayarl bicimbilim cozumlemesinde ilginc sorunlar ortaya ckarmaktadr. Ornegin, (1) cicekleri cozumleme ornek kullanm a. kok+cogul+3.tekil-iyelik Bunlar Mehmet'in cicekleri. b. kok+3.cogul-iyelik Arkadaslarmn ciceklerini sulamalym. c. kok+cogul+durum Ayse cicekleri sulad. Cozumlemedeki bu cesit belirsizlikler (ambiguity), bazen obek ve cumle duzeyinde incelemeyle giderilebilir. Ornegin, Mehmet'lerin cicekleri soldu cumlesinde cicekleri sozcugu, oznedeki iyelik sonekinden dolay kok+3.coguliyelik olarak cozumlenir. Sozdizim duzeyinde inceleme her zaman belirsizlikleri eleyemeyebilir, ornegin cicekleri solmus cumlesi "onun cicekleri solmus" ya da "onlarn cicekleri solmus" olarak anlaslabilir. Bicimbilim cozumlemesindeki belirsizlikler, sozcuk turlerini bulmakta da sorunlar ckarabilir. Ornegin, (2) gider cozumleme ornek kullanm a. ad Bu gider tablosu cok detayl hazrlanms. b. eylem+zaman Ayse her gun okula gider. C ekim soneklerinin varlg durumunda bu belirsizliklerin cozulebilmesi icin daha fazla bilgi vardr, ornegin giderlerim sozcugunde kok adl olmak durumundadr cunku ad cekimi almstr. Bicimbilimden baska, Turkce'de bulunan sozluksel (lexical) belirsizlikler ve obek yaps belirsizlikleri de dil islemede cozulmesi gereken sorunlardr. Ornegin, Burada icilebilecek su bulabilecegimi sanmakla yanlmsm cumlesinde burada belirteci, icmek, bulmak, sanmak eylemlerini belirleyebilir, ama en olas cozum bulmak eylemini belirlemesidir. _Istanbul'da tandgm bir avukata rastladm cumlesinde _Istanbul'da, ilgec obegi (postpositional phrase) olarak, tanmak ya da rastlamak eylemlerini belirleyebilir: _I O _Istanbul'da tandgm E O E O Bel bir Blr O _I O _Istanbul'da A avukata E O tandgm bir avukata E rastladm E rastladm Benzer belirsizlikler bilesik ad obeklerinde de gorulebilir, ornegin, siyah komur kamyonu soforu gibi. Bu tip sorunlar bilgisayarla cozumlemede bir yandan hzl cozumleme, diger yandan sozluk dilbilgisinin zenginligi acsndan cozum

Tablo 1. Cesitli sozcuk sralamalarnn Turkce'deki kullanm Cocuk Yetiskin ONY 46% 48% NOY 7% 8% OYN 17% 25% NYO 20% 13% YON 10% 6% YNO 0% 0% bekleyen arastrma konulardr. 3.2 Sozcuk dizimi (word order) Turkce'nin diger bir ozelligi de cumlelerde sozcuk srasnn oldukca esnek olmasdr. Tablo 1'de cesitli sozcuk dizimlerinin kullanm yuzdeleri verilmistir. Cumle ogelerinin sralans acsndan Turkce bir ozne{nesne{yuklem ( ONY) sral dil olarak kabul edilebilir. Adlar durum sonekleri almadgnda ONY dizimi varsaylr. Ancak Turkce cumle ogelerinin srasn degistirmemize olanak tanmaktadr[1]. Bu acdan Turkce, Fince ve Japonca'ya benzemektedir. Bu esnekligin en onemli nedenlerinden biri Turkce'nin ozne, nesne diye adlandrdgmz sozdizimsel birimleri sozcuklere dogrudan durum ekleri getirerek gostermesidir. Bu islevler ise Fince'de Turkce'deki gibi eklerle, Japonca'da sozcukleri takip eden ilgecler ile belirtilmektedirler. Buna karslk bu islevleri yuklenen sozcukler, ornegin _Ingilizce'de sozcugun cumledeki yeri ile belirlenmekte ve dolays ile Ingilizce'de _ sozcuk sras son derece kat olmaktadr. Bu nedenle Ingilizce _ gibi bir dil icin gelistirilen sozdizim cozumleme yontemleri Turkce gibi sozcuk sras oldukca esnek diller icin kolaylkla uygulanamamaktadr. Turkce'de sozcuk dizimindeki cesitlemeler vurgulama islevini gorur. Genellikle, vurgulanmak istenen obek, yuklemden onceye gelir. Ornegin, (3) Ben cocuga kitab verdim. (4) C ocuga kitab ben verdim. (5) Ben kitab cocuga verdim. Dizimdeki serbestlik durum sonekleri kullanlmadgnda azalmaktadr, ornegin, ben cocuga kitap verdim cumlesinin obekleri cocuga kitap ben verdim seklinde sralanamaz. Serbestligin kstl oldugu bir diger nokta da belirteclerdir. Sra degisimi anlam degistirebilir, Ornegin, (6) Snav zor yetistirdim. (7) Zor snav yetistirdim. (8) Zor snav yetistirdim. Ayrca, (7) de zor sozcugu belirtec degil sfat ozelligi tasmaktadr. Turkce'nin sozdiziminin yapsal cozumlemesinde sorun yaratan diger bir olgu da, obek ogelerinin ardsk olmama olaslgdr (discontinuous constituents). Ornegin, sahagn eskiden cok renkli yanlar vard cumlesinde eskiden belirteci, tamladg eylemin yannda degil, ad obeginin icinde yeralmaktadr. Obek Yaps Gramerleri (phrase structure grammars) bu cesit orneklerde sorunlarla karslasmaktadr. Bicimbilimsel ve sozdizimsel cozumlemeleri gerceklestiren ayrstrclarda (parser) aranmas gereken bir diger onemli ozellik te, yanls veri verildiginde tan yapabilmeleri ve mumkunse oneride bulunabilmeleridir. Ornegin, veri sorun (9)* zormuslast sra ve ses uyumu (10)* zormslast sra (11)* agacn unlu-unsuz degisimi Benzer sekilde, bir sozdizimsel ayrstrc asagdaki yanlslar bulmak durumundadr: (12)* sevmedigim birine gordum. (13)* tanmadgm bir adama dovustum. 4 Turkce Dogal Dil Isleme _ Projesi Turkce dilbilim acsndan oldukca ilginc bir dil oldugu icin dilbilimciler tarafndan yogun olarak incelenmistir. 1980'lerin basndan beri iki ylda bir Turkce'nin dilbilimi uzerine konferanslar duzenlenmektedir. Ancak Turkce'nin bilgisayar ortamnda islenmesi konusunda yaplms olan calsmalar son zamanlara kadar snrl kalmstr. Bu konudaki ilk calsmalardan biri Aydn Koksal'in 1976 yllnda, Turkce sozcuklerinin bicimbirimlerinin bilgisayarla cozumlemesi uzerinde acettepe Universitesi'de tamamlams oldugu doktora tezidir[4]. 1981'de ODTU'de Zeki Sagay tarafndan Ingilizce'den _ Turkce'ye bilgisayarla ceviriyi konu alan bir yuksek lisans tezi calsmas yaplmstr[6]. Son yllardaki calismalara ornek olarak, ABD'de Jorge ankamer'in Turkce'nin bicimbilim co-

zumlemesi uzerine calsmasn[3], ollanda'da Albert Stoop'un ollandaca ile Turkce arasnda bilgisayarla ceviri konusundaki calsmasn[7], Altay Guvenir'in, amac yabanclara Turkce ogretme olan bir yazlmn[2], ve Kemal Oazer'in Turkce'nin bicimbilimsel cozumlemesi icin iki-duzeyli bicimbilim yaklasmn kullanan cozumleyicisini[5] sayabiliriz. Ayrca 1993'ten itibaren Turkce Dogal Dil Isleme _ projesine hazrlk amacyla ODTUve Bilkent'te bir dizi yuksek lisans ve doktora calsmalar baslatlmstr. 1993 yl icinde, Bilkent Universitesi Bilgisayar ve Enformatik Muhendisligi Bolumu ve ODTU Bilgisayar Muhendisligi Bolumu'ndeki bir grup arastrmac, alc Bilgisayar Sirketi'nin de katlm ile, Turkce dogal dil isleme konusunda bilgisayar ortam uzerinde bir dizi temel dilbilimsel kaynak ve uygulama gelistirilmesi amacna yonelik cok kapsaml bir proje onerisi hazrladlar. Bu proje onerisi NATO Science for Stability Program'na kabul edildi ve bu kuruluslarda proje amaclarna yonelik alt yap kurma ve arastrma calsmalar baslad. Projenin genel yaps Sekil 1'de gosterilmistir. Bu projenin temel amaclar sunlardr: 1. Turkce uzerinde dogal dil isleme ve bilgisayarla dilbilim calsmalarna temel olacak yontem, kaynak ve yazlm teknolojilerini gerceklestirmek, 2. Bu yontem, kaynak ve yazlm teknolojilerini kullanarak dogal dil isleme alannda bir dizi uygulamay gerceklestirmek, 3. Gelistirilen teknoloji ve bilgiyi, bunlar gelecekteki pazar taleplerine yonelik urunlere donusturmeyi planlayan sirketlere aktarmak, ve 4. Bilgisayar ortamnda gelistirilen dilbilim kaynaklarn, benzer konularda Turkiye'de ve baska ulkelerde calsan arastrmaclarn kullanmna sunmak. Proje surecinde ilk olarak bir dizi uygulamaya ortak temel olusturacak dilbilimsel kaynak ve yazlm teknolojileri gelistirilecektir. Bu kapsamda yaplacak calsmalarn arasnda sunlar sayabiliriz: 1. Turkce icin bilgisayar ortamndaki cesitli yazlmlarn tanmlanmas ve snanmasnda kullanlacak bir dilbilimsel tanmlamann gelistirilmesi, 2. Turkce sozcuk yaplarnn bicimbilimsel cozumlemesi ve uretilmesini eldeki diger cozumleyicilerden cok daha hzl bir sekilde gerceklestirecek bir cozumleyici ve ureticinin gelistirilmesi, 3. Turkce cumlelerin yapsal cozumlemesini cok daha kapsamlca yapacak bir cumle cozumleyicisinin gelistirilmesi, 4. Turkce cumlelerin anlambilimsel cozumlemesini belli bir bilgi gosterimi cercevesi icinde yapacak bir anlambilim cozumleyicisinin gelistirilmesi, 5. Belli bir bilgi gosterimi cercevesinde gosterilmis bir bilgi yapsndan Turkce bir cumle uretecek bir dil ureticisinin gelistirilmesi, 6. Bilgisayar ortamnda saklanacak ve erisilecek kapsaml bir Turkce sozlugun olusturulmas, 7. Bu sozlugu kaynak olarak kullanarak, bilgisayarla kapsaml bir es ve karst anlaml sozcukler dizininin hazrlanmas, 8. Cumle cozumleyiciler ve ureticiler tarafndan kullanlacak ve cok kapsaml dilbilimsel ve anlambilimsel bilgi icerecek tahmini olarak 1000{1500 sozcukten olusacak bir sozcuk bilgi yapsnn (lexicon) ve kavram bilgi yapsnn (ontology) olusturulmas, 9. Bilgisayarl ceviri sistemleri tarafndan kullanlacak ve oncelikle _ Ingilizce ile Turk- ce arasnda sozcuk ve sozcuk gruplarnn karslklarn iceren cift yonlu bir aktarma bilgi yapsnn (transfer lexicon) olusturulmas, 10. Turkce'nin cagdas kullanmndan ornekler iceren, dil kullanm hakknda dilbilimcilere kaynak olacak ve yaklask 10 milyon sozcukten olusmas beklenen bir metin veri tabannn olusturulmas. Yukardaki alt yapy kullanarak gelistirilmesi planlanan uygulamalar ise sunlardr: 1. _ Ingilizce{Turkce arasnda (kullanc yardm ile) yar otomatik ceviri yapacak bilgisayarla ceviri uygulamas, 2. Turkce ogrenmek isteyenlerin kullanabilece- gi, bicimbilim, sozdizim, anlambilim alanlarnda kullancya gerekli kuramsal ve pratik kullanmlar ogretecek, ve coklu medya olanaklarn dil ogretimi kuramlaryla

birlestirecek bir Turkce ogretme uygulamas, 3. Bilgisayar ortamndaki Turkce bir sozluge erisimi saglayacak bir uygulama, 4. Turkce metinlerdeki sozcukleri sozdizimsel bilgiler ile isaretleyecek bir metin isaretleyicisi (corpus tagger) gelistirilmesi. Bu uygulamalardan birincisi hakknda biraz daha ayrntl bilgi vermek iyi olacaktr. Bilgisayar kullanarak dilden dile ceviri yapabilmek 1950'lerden beri dogal dil alannda arastrma yapanlarn en buyuk amaclarndan biridir. Ancak, en genis anlamda bunu tamamen otomatik olarak yapabilmek son derece karmask bir sorundur. alen bu sorunu cozmus herhangi bir sistem yoktur ve daha uzun bir sure de olmayacag varsaylmaktadr. Buna karsn, arastrmaclar ozellikle islenecek dilin yaps ve dilin kullanlacag alan uzerine snrlar koyarak sorunun karmasklgn bir miktar azaltp oldukca basarl sistemler gelistirebilmislerdir. Dili bu sekilde snrlamak dogal dil islemenin en zor sorunlarndan olan sozluksel belirsizlik (lexical ambiguity) ve cok yapllk (structural ambiguity) sorunlarna biraz olsun bir rahatlama getirmektedir. Dili bu sekilde snrlayan yaklasmlara alt dil temelli ceviri denmektedir. Ornegin Kanada'da Montreal Universitesi'nde gelistirilen TAUM- METEO sistemi ksa hava raporu metinlerini _Ingilizce ile Franszca arasnda oldukca basarl bir sekilde cevirebilmektedir. Burada kullanlan sozcukler snrl, sozcuklerin anlamlar belli, cumle yaplar ise oldukca basittir. Projemizdeki uygulamann amac Ingilizce{Turk- _ ce arasnda kullanlabilecek, snrl bir alt dil uzerinde calsacak ve cesitli zorluklar ile karslasldgnda kullancnn yardmn isteyecek bir sistem gelistirmektir. Burada dikkat edilmesi gereken nokta secilecek alt dilin ve konu kapsamnn pek ise yaramayacak kadar kucuk olmamas, ve oldukca buyuk hacimli bir ceviri gereksinmesine uygulanabilecek olmasdr. Dusunulebilecek ceviri uygulamalar olarak bilgisayar kullanc kitaplarn veya teknik cihazlarn kullanma kitapcklarnn cevirisini sayabiliriz. Bunlarn her birinin kendine gore bir alt dili ve konu kapsam olacaktr. 5 Sonuc Kabul edilmelidir ki yukarda ksaca degindigimiz uygulamalar dogal dil isleme konularndaki uygulamalarn sadece bazlardr. Bu projede oncelikle boyle bir arastrma ve gelistirme calsmasnn alt yapsn gelistirmenin cok onemli oldugu dusunduk. Cunku dogal dil uygulamalarnda basarnn sart, dile ozel kaynaklarn (sozdizim tanm, sozcuk bilgi yaplar ve anlambilimsel kaynaklar) son derece kapsaml olmasdr. Dogal dil uygulamalar olarak da, gerceklestirildiginde Turkiye'de buyuk boyutta uygulama alan bulacak sistemlere oncelik vermek istedik. Ayrca Turkce'nin yeni dilbilim modelleri sgnda incelenmesine katkda bulunmay amaclyoruz. Bu proje basarl bir sekilde tamamlannca elde edilen deneyim ve bilgiler sayesinde daha ilerdeki yllarda bir dizi baska uygulamann da gelistirilmesi olanakl olacaktr. 6 Kaynakca [1] Eser Erguvanl The Function of Word Order in Turkish Grammar, Doktora Tezi, Dilbilim Bolumu, University of California, Los Angeles, 1979. [2]. Altay Guvenir, Drill and Practice for Turkish Grammar, Intelligent Tutoring Systems for Foreign Language Learning. The Bridge to International Communication, NATO ASI Serisi, Springer-Verlag, Berlin, 1992. [3] Jorge ankamer,finite state morphology and left-to-right morphology, West Coast Conference on Formal Linguistics, Bildiri Kitab, 1986. [4] Aydn Koksal, Turkce'nin Ozdevimli Bicimbirim Cozumlemesi, Doktora tezi, acettepe Universitesi, Ankara, 1976. [5] Kemal Oazer, Two-level specication of Turkish Morphology, European Chapter of the Association of Computational Linguistics Konferans Bildiriler Kitab, Utrecht, ollanda, 1993. [6] Zeki Sagay, A computer translation from English to Turkish. Yuksek Lisans Tezi, Bilgisayar Muhendisligi Bolumu, ODT U, Ankara, 1981. [7] Albert Stoop, TRANSIT in the world of Machine Translation: Towards an automatic translator for Dutch and Turkish. 3. Turkce Dilbilimi Konferans Bildiri Kitab, Tilburg, ollanda 1987.