DO AL D L LEME LE TÜRKÇE YAZIM HATALARININ DENETLENMES. YÜKSEK L SANS TEZ Müh. Aynur DEL BA



Benzer belgeler
DOĞAL DİL İŞLEME İLE TÜRKÇE YAZIM HATALARININ DENETLENMESİ. YÜKSEK LİSANS TEZİ Müh. Aynur DELİBAŞ Anabilim Dalı: Bilgisayar Mühendisliği

YAPI ve DEPREM MÜHENDİSLİĞİNDE MATRİS YÖNTEMLER. Prof. Dr. Hikmet Hüseyin ÇATAL. Prof. Dr. Hikmet Hüseyin ÇATAL. (III. Baskı)

BİLİNÇLİ ELEKTRİK TÜKETİMİ KONULU WEB SAYFASI

ÖZEL EGE LKÖ RET M OKULU DO RULARIN DANSI HAZIRLAYAN: YANKI TURGUT DANI MAN Ö RETMEN: AY EGÜL GÜRKAN

Giderilmesinde Farklı Uygulamalar

ken Türkçe de ulaç kuran bir ektir. Bu çal ma konumuzu seçerken iki amac m z vard. Bunlardan birincisi bu konuyu seçmemize sebep olan yabanc ö

I. Sabit Kaynaklar, bunlar ısınma ve üretim amaçlı faaliyetlerin yapıldı ı yerlerdir.

1.Temel Kavramlar 2. ÆÍlemler

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

BİLGİSAYAR DESTEKLİ BİR DİL PROGRAMI -Türkçe Konuşma - Tanıma Sistemi-

Oksijen, flor ve neon elementlerinin kullanıldığı alanları araştırınız.

ODTÜ KUZEY KIBRIS KAMPUSU ENERJİ TOPLULUĞU TÜZÜĞÜ

BİREYSELLEŞTİRİLMİŞ TÜRKÇE DERSİ EĞİTİM PLANI

BÜRO YÖNETİMİ VE SEKRETERLİK ALANI HIZLI KLAVYE KULLANIMI (F KLAVYE) MODÜLER PROGRAMI (YETERLİĞE DAYALI)

ÖĞRENME FAALĠYETĠ 6 ÖĞRENME FAALĠYETĠ NESNE ĠġLEMLERĠ

Tasarım Raporu. Grup İsmi. Yasemin ÇALIK, Fatih KAÇAK. Kısa Özet

4. B LG LEM MÜDÜRLÜ Ü. Görev Tan m : Bilgisayar Donan mlar Bak m ve Geli tirme

Giresun Üniversitesi Akademik Değerlendirme Ve Kalite Geliştirme Uygulama Yönergesi

Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi

3. Snf Sözdizim Sunumu

ÖZEL EGE L SES. HAZIRLAYAN Ö RENC LER: Tayanç HASANZADE Ahmet Rasim KARSLIO LU. DANI MAN Ö RETMEN: Mesut ESEN Dr. ule GÜRKAN

Heceleme Yöntemiyle Kök Sözcük Üretme

Ara tırma Yöntem ve Teknikleri. Ay e Cabi

29 Ocak 2015 Senato Sayı : 123 YÖNERGE

SANAT VE TASARIM GUAJ BOYA RESĠM MODÜLER PROGRAMI (YETERLĠĞE DAYALI)

BİLGİ TEKNOLOJİLERİ VE İLETİŞİM KURULU KARARI

TESİSAT TEKNOLOJİSİ VE İKLİMLENDİRME ÇELİK BORU TESİSATÇISI MODÜLER PROGRAMI (YETERLİĞE DAYALI)

Deri, vücudun sa lam ve koruyucu dı örtüsüdür. Salgı bezleri, tırnaklar,tüyler ile deri bir organ ve sistemdir. En geni organdır (Yakla ık 1.

Türkçede heceler şöyle meydana gelmiştir.

KİTAP İNCELEMESİ. Matematiksel Kavram Yanılgıları ve Çözüm Önerileri. Tamer KUTLUCA 1. Editörler. Mehmet Fatih ÖZMANTAR Erhan BİNGÖLBALİ Hatice AKKOÇ

BÖLÜM 1: Ö RENMEN N NÖROF ZYOLOJ S... 1 Prof. Dr. Nazan Dolu

ÇEVRE KORUMA TEMEL ALAN KODU: 85

ÜNLÜLER BÜYÜK ÜNLÜ UYUMU. Türkçe bir sözcükte kalın ünlülerden sonra kalın, ince ünlülerden sonra ince ünlülerin gelmesine büyük ünlü uyumu denir.

DERS BİLGİLERİ. Ders Kodu Yarıyıl T+U Kredi AKTS BORÇLAR HUKUKU Ön Koşul Dersleri. Dersin Dili. Türkçe.

PROGRAMLANAB L R DENETLEY C LER. DERS 02 Sayı Sistemleri

ÖZNES GÖSTER LMEYEN B R CÜMLE T P DAHA

KİŞİSEL GELİŞİM VE EĞİTİM İŞ GÜVENLİĞİ VE İŞÇİ SAĞLIĞI MODÜLER PROGRAMI (YETERLİĞE DAYALI)

Ulakbim Ulusal Veri Tabanlar

GİYİM ÜRETİM TEKNOLOJİSİ. GALOŞ ve BONE DİKİMİ MODÜLER PROGRAMI (YETERLİĞE DAYALI)

T.C. EGE ÜNİVERSİTESİ URLA DENİZCİLİK MESLEK YÜKSEKOKULU STAJ YÖNERGESİ

GİYİM ÜRETİM TEKNOLOJİSİ ÇOCUK DIŞ GİYSİLERİ DİKİMİ (CEKET- MONT- MANTO) MODÜLER PROGRAMI (YETERLİĞE DAYALI)

Akreditasyon Çal malar nda Temel Problemler ve Organizasyonel Bazda Çözüm Önerileri

KAVRAMLAR. Büyüme ve Gelişme. Büyüme. Büyüme ile Gelişme birbirlerinden farklı kavramlardır.

Türkçe Dokümanlar Ġçin Yazar Tanıma

BİLGİ TEKNOLOJİLERİ VE İLETİŞİM KURULU KARARI

SÜRE BİLİŞİM TEKNOLOJİLERİ ÜNİTE 1: : BİLGİ VE TEKNOLOJİ DERS SAATİ: 7

Fizik ve Ölçme. Fizik deneysel gözlemler ve nicel ölçümlere dayanır

Kentli Haklar El Kitab

SANAL DĠLĠN DĠLĠMĠZDE YOL AÇTIĞI YOZLAġMA HAZIRLAYAN: CoĢkun ZIRAPLI Ġsmail ÇEVĠK. DANIġMAN: Faik GÖKALP

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

E T M Ö RET M YILINDA MU LA SA LIK YÜKSEKOKULUNDA OKUYAN Ö RENC LER N N HASTA HAKLARI KONUSUNDA B LG DÜZEYLER N N BEL RLENMES

İÇ KONTROL. ç Kontrol Dairesi. I lda Arslan. 2 ubat 2009 / ISPART A

BİÇİMBİRİMSEL BUL VE DEĞİŞTİR. YÜKSEK LİSANS TEZİ Figen ŞENTÜRK

Taş, Yaman ve Kayran. Altan KAYRAN. ÖZET

Zeus tarafından yazıldı. Cumartesi, 09 Şubat :20 - Son Güncelleme Pazartesi, 15 Şubat :23

BİLGİSAYAR PROGRAMLARI YARDIMIYLA ŞEV DURAYLILIK ANALİZLERİ * Software Aided Slope Stability Analysis*

İngilizce İletişim Becerileri II (ENG 102) Ders Detayları

İçinde x, y, z gibi değişkenler geçen önermelere açık önerme denir.

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü

Üst düzey dillerden biri ile yazılmış olan bir programı, makine diline çeviren programa derleyici denir. C++ da böyle bir derleyicidir.

İÇ KONTROL STANDARTLARI UYUM EYLEM PLANI GERÇEKLEŞME SONUÇLARI RAPORU 2017 HAZİRAN BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ

Olasılık ve İstatistik Dersinin Öğretiminde Deney ve Simülasyon

Bilgisayar Destel~li Dil Bilimi ve

SAB 103 TEMEL BİLGİSAYAR KULLANIMI

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Tanıtım - De erlendirme / Reviews

LİSE ÖĞRENCİ BİRLİĞİ POLİTİKASI

KURUL GÖRÜ Ü. TFRS 2 Hisse Bazl Ödemeler. Görü ü Talep Eden Kurum : Güreli Yeminli Mali Mü avirlik ve Ba ms z Denetim Hizmetleri A..

YÖNETMELİK. a) Çocuk: Daha erken yaşta ergin olsa bile 18 yaşını doldurmamış kişiyi,

ÖZEL GÜVEN TIP MERKEZİ

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

MEHMET ÇEKİÇ ORTAOKULU

BİREYSELLEŞTİRİLMİŞ TÜRKÇE DERSİ EĞİTİM PLANI

BİT ini Kullanarak Bilgiye Ulaşma ve Biçimlendirme (web tarayıcıları, eklentiler, arama motorları, ansiklopediler, çevrimiçi kütüphaneler ve sanal

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

KONUTTA YENİ FİKİRLER

AIMCO AIMCO. Kullanım Kılavuzu. Mayıs 2016

CMK 135 inci maddesindeki amir hükme rağmen, Mahkemenizce, sanığın telekomünikasyon yoluyla iletişiminin tespitine karar verildiği görülmüştür.

MAT223 AYRIK MATEMATİK

SU ÜRÜNLER B LG S STEM (SUB S)

Buna göre, eşitliği yazılabilir. sayılara rasyonel sayılar denir ve Q ile gösterilir. , -, 2 2 = 1. sayıdır. 2, 3, 5 birer irrasyonel sayıdır.

Üniversitelerde Yabancı Dil Öğretimi

KAR YER GÜNLER PROJES. Murat F DAN

KIRILMA MEKANİĞİ Prof.Dr. İrfan AY MALZEME KUSURLARI

T.C. MALTEPE ÜNİVERSİTESİ Güz Yarıyılı. Dersin adı : TÜRK DİLİ 1

BASIN DUYURUSU 2001 YILI PARA VE KUR POLİTİKASI

Yolsuzlukla Mücadele Politikası

Analiz aşaması sıralayıcı olurusa proje yapımında daha kolay ilerlemek mümkün olacaktır.

Ar. Gör. Cemil OSMANO LU Erciyes Üniversitesi lahiyat Fakültesi Din E itimi Anabilim Dal

TÜRKÇE METİNLERDEKİ YAZIM YANLIŞLARINA YÖNELİK OTOMATİK DÜZELTME MODELİ

Dil Gelişimi. temel dil gelişimi imi bilgileri

SÜRE BĠLĠġĠM TEKNOLOJĠLERĠ ÜNĠTE 1: ĠLETĠġĠM DERS SAATĠ: 1. Gelecekteki bilişim teknoloji

İstemci Yönetimi ve Mobile Printing (Mobil Baskı) Çözümleri

Oyun Teorisi IENG 456 Karar Vermede Analitik Yaklaşımlar

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

IPv6 ve UlakNet Geçi planı. Hayrettin BUCAK TÜB TAK - ULAKB M

I. EIPA Lüksemburg ile İşbirliği Kapsamında 2010 Yılında Gerçekleştirilen Faaliyetler

BİÇİMBİRİMLER. Türetim ve İşletim Ardıllarının Sözlü Dildeki Kullanım Sıklığı. İslam YILDIZ Funda Uzdu YILDIZ V. Doğan GÜNAY

tarih ve 06 sayılı Akademik Kurul tutanağının I nolu ekidir. İSTANBUL BİLGİ ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ TEZ YAZIM KILAVUZU

Key words: Transport sector, greenhouse gas emissions, road transport

Transkript:

STANBUL TEKN K ÜN VERS TES FEN B L MLER ENST TÜSÜ DO AL D L LEME LE TÜRKÇE YAZIM HATALARININ DENETLENMES YÜKSEK L SANS TEZ Müh. Aynur DEL BA Anabilim Dalı : B LG SAYAR MÜHEND SL Programı : B LG SAYAR MÜHEND SL HAZ RAN 2008

STANBUL TEKN K ÜN VERS TES FEN B L MLER ENST TÜSÜ DO AL D L LEME LE TÜRKÇE YAZIM HATALARININ DENETLENMES YÜKSEK L SANS TEZ Müh. Aynur DEL BA 504051504 Tezin Enstitüye Verildi i Tarih : 5 Mayıs 2008 Tezin Savunuldu u Tarih : 11 Haziran 2008 Tez Danı manı : Di er Jüri Üyeleri Prof.Dr. E ref ADALI Doç.Dr. Zehra ÇATALTEPE (.T.Ü.) Yrd.Doç.Dr. Banu D R (Y.T.Ü.) HAZ RAN 2008 ii

ÖNSÖZ Tez çalı mam boyunca her zaman bana destek olan ve vakit ayıran tez danı manım Prof. Dr. E ref Adalı ya sonsuz te ekkürlerimi sunarım. Kendisi gibi i ine de er veren ve i ini çok seven bir hoca ile çalı mı olmanın bana çok ey kattı ını vurgulamak isterim. Tez çalı mam süresince vermi oldu u teknik desteklerinden ötürü Türk Dil Kurumu Sözlük Uzmanı Sayın Belgin Aksu ya te ekkürlerimi iletirim. Hayatımın her a amasında bana destek olan ve inanan, beni yaptı ım her i te yüreklendiren ve ba arıya ula mamı sa layan aileme bana güvendikleri ve her zaman yanımda oldukları için çok te ekkür ediyorum. Ayrıca tez çalı mam süresince göstermi oldu u sabır ve anlayı ı için sevgili Kamil Yıldırgan a te ekkürü bir borç bilirim. Mayıs 2008 Aynur DEL BA iii

Ç NDEK LER KISALTMALAR TABLO L STES EK L L STES ÖZET SUMMARY v vi vii ix x 1. G R 1 1.1 Do al Dilin Temel Özellikleri 1 1.2 Do al Dil lemenin Temel Elemanları 2 1.3 Do al Dil lemenin Uygulama Alanları 4 1.4 Türkçe Dili ve Biçim Birimsel ncelenmesi 6 1.5 Benzer Çalı malar 7 1.6 Tezin Amacı, Kapsamı ve Katkısı 12 1.7 Tezin Bölümleri 13 2. TÜRKÇE N N SES B LG S YAPISI 15 2.1 Türkçe nin Ses Özellikleri 15 2.2 Türkçe de Sesler 17 2.2.1 Sesli Harfler 17 2.2.2 Sessiz Harfler 18 2.3 Türkçe de Ses Olayları 18 2.3.1 Türkçe de Bulunan ve Bulunmayan Sesler 19 2.3.2 Sesli Uyumları 19 2.3.3 Sessiz Uyumu 21 2.3.4 Sessiz Yumu aması 22 2.3.5 Sessiz Benze mesi 23 2.3.6 Ses De i meleri 24 2.3.7 Sesliler Çatı masının Giderilmesi 24 2.3.8 Ses Dü meleri 24 2.4 Heceler 25 2.4.1 Türkçe de Hece Yapısı 26 2.5 Sözcükler 27 2.6 Kökler ve Ekler 28 2.6.1 Anlamlı Birimler 28 iv

2.6.2 Anlamsız veya Görevli Birimler 28 3. GEL T R LEN YÖNTEMLER VE ALGOR TMALAR 30 3.1 Sözlük Yapısı 30 3.2 Heceleme Algoritması 33 3.3 Kök Bulma Algoritması 35 3.3.1 Yönlü Döngüsüz Kelime Çizgesi Yapısı 36 3.3.2 Yönlü Döngüsüz Kelime Çizgesi Olu turma 37 3.3.3 A aç Üzerinde Kök Bulma 39 3.4 Sözcü ün Biçim Birimsel Çözümlenmesi 40 3.4.1 Ekler 40 3.4.2 Ayrı tırma Algoritması 41 3.5 Türkçe Denetimi 43 3.5.1 Sözcük Ba ı Sessiz Denetimi 44 3.5.2 Sözcük Sonu Sessiz Denetimi 44 3.5.3 Sözcük çi Sessiz Denetimi 46 3.5.4 Sesli Uyumları 48 3.5.5 Sessiz Uyumu 50 3.6 Ses Bilgisi Açısından Sözcük Denetimi 51 3.6.1 Sessiz Yumu aması Denetimi 52 3.6.2 Sesli Dü mesi Denetimi 53 3.7 Sözcük Önerme 56 3.7.1 Sözlükte Bulunan Sözcükler çin Önerme 56 3.7.2 Sözlükte Bulunmayan Sözcükler çin Önerme 57 4. TEZ N BA ARIMI VE SINAMA SONUÇLARI 60 4.1 Bilerek Hata Olu turma Yöntemiyle Yazılımın Sınanması 60 4.1.1 Sınama Verisi Üzerinde Hata Olu turulması 60 4.1.2 Sınama Sonuçları 61 4.1.3 Sistemin Ba arımının Ölçülmesi 61 4.2 Sınama leminin Farklı Sınama Verileri Üzerinde Gerçekle tirilmesi 63 4.2.1 Sınama Sonuçları 63 4.2.2 Sistemin Buldu u Hataların Da ılımı 65 4.2.3 Sistemin Ba arımının Ölçülmesi 66 5. SONUÇLAR VE ÖNER LER 67 KAYNAKLAR 68 EK A. TÜRKÇE SÖZCÜKLERE EKLENEN ÇEK M EKLER 71 v

EK B. TÜRKÇE SÖZCÜKLERE EKLENEN YAPIM EKLER 73 ÖZGEÇM 78 vi

KISALTMALAR DD DLD DAWG NLP TDK SS YSB YSM : Do al Dil leme : Damerau-Levenshtein Distance : Directed Acyclic Word Graph : Natural Language Processing : Türk Dil Kurumu : Sert Sessiz Harfler : Sert Kar ılı ı Bulunan Yumu ak Sessiz Harfler : Sert Kar ılı ı Bulunmayan Yumu ak Sessiz Harfler vii

TABLO L STES Sayfa No Tablo 1.1 çiçekleri kelimesi için biçim birimsel çözümleme sonuçları... 6 Tablo 1.2 gider kelimesi için sözcük türü sonuçları... 7 Tablo 2.1 Harflerin Türkçe deki kullanım sıklıkları... 16 Tablo 2.2 Dillerin sesli ve sessiz harf kullanım oranları... 16 Tablo 2.3 Türkçe deki sesli harflerin sınıflandırılması... 18 Tablo 2.4 Türkçe deki sessiz harflerin sınıflandırılması... 18 Tablo 2.5 Türkçe de sessiz uyumu için sessiz harflerin sınıflandırılması... 21 Tablo 2.6 Türkçe de sözcük ve hece sonunda çift sessiz kuralı... 22 Tablo 2.7 Türkçe de isim soylu sözcüklere eklenebilecek çekim ekleri... 29 Tablo 2.8 Türkçe de eylem soylu sözcüklere eklenebilecek çekim ekleri... 29 Tablo 4.1 Yazılım sınama sonuçları... 61 Tablo 4.2 Makaleler için yapılan sınama sonuçları.. 64 Tablo 4.3 Masallar için yapılan sınama sonuçları 64 Tablo 4.4 Elektronik kitaplar için yapılan sınama sonuçları 64 Tablo 4.5 Tez dokümanı için yapılan sınama sonuçları... 65 Tablo 4.6 Sistemin buldu u hataların da ılımı. 65 viii

EK L L STES ekil 1.1 ekil 1.2 ekil 2.1 ekil 2.2 ekil 2.3 ekil 2.4 ekil 3.1 ekil 3.2 ekil 3.3 ekil 3.4 ekil 3.5 ekil 3.6 ekil 3.7 ekil 3.8 ekil 3.9 ekil 3.10 ekil 3.11 ekil 3.12 ekil 3.13 ekil 3.14 ekil 3.15 ekil 3.16 ekil 3.17 ekil 3.18 ekil 3.19 ekil 4.1 Sayfa No : Do al dil i leme sistemlerinin genel blok diyagramı... 2 : Ayrı tırma a acı örne i... 3 : Türkçe de seslilerin dizili ini gösteren sonlu durum makinesi... 20 : Türkçe de sessizlerin dizili ini gösteren sonlu durum makinesi.. 22 : Türkçe de bir sesin bo umlanması... 26 : Türkçe hece yapısında ses ini ve çıkı ları... 27 : Heceleme algoritması akı diyagramı... 35 : BAL ve BAS sözcükleri için yönlü döngüsüz kelime çizgesi.. 36 : BOL ve KOL sözcükleri için yönlü döngüsüz kelime çizgesi37 : BAL ve SAL sözcükleri için a aç olu umu... 37 : balta sözcü ünün a aca yerle tirilmesi. 38 : Sözcük sonlarının ortak dü ümlere ba lanması... 38 : A aç üzerinde kök bulma.. : Ayrı tırma algoritması akı diyagramı... : Türkçe denetimi akı diyagramı : Sözcük ba ı sessiz harf sayısı denetimi için akı diyagramı. : Sözcük sonu sessiz harf sayısı denetimi için akı diyagramı : Sözcük içindeki sessiz harf sayısı denetimi için akı diyagramı... : Büyük sesli uyumu akı diyagramı... : Küçük sesli uyumu akı diyagramı... : Sessiz uyumu akı diyagramı : Sessiz yumu aması algoritması akı diyagramı : Sesli dü mesi algoritması akı diyagramı. : Sözcük önerme algoritması akı diyagramı... : DLD algoritması sözde kod gösterilimi : Karma ıklık matrisi... 39 42 43 44 46 47 49 50 51 53 55 56 59 62 ix

DO AL D L LEME LE TÜRKÇE YAZIM HATALARININ DENETLENMES ÖZET Do al dil i leme, ana i levi, do al bir dili çözümleme, anlama, yorumlama ve üretme olan bilgisayar sistemlerinin tasarımını ve gerçekle tirilmesini konu alan bir bilim ve mühendislik alanıdır. DD, yapay zeka, biçimsel diller kuramı, kuramsal dilbilim ve bilgisayar destekli dilbilim gibi çok de i ik alanlarda geli tirilmi kuram, yöntem ve teknolojileri bir araya getirir. 1960 lı yıllarda yapay zekanın bir alt alanı olarak görülen bu konu, ara tırmacıların ve gerçekle tirilen uygulamaların elde etti i ba arılar sonucunda artık bilgisayar bilimlerinin konusu olarak kabul edilmektedir. DD alanındaki ara tırmalarda temel amaçlar u ekildedir: Do al dillerin i lev ve yapısını daha iyi anlamak Bilgisayarlar ile insanlar arasında arabirim olarak do al dil kullanmak ve bilgisayar ile insan arasındaki ileti imi kolayla tırmak Bilgisayar ile dil çevirisi yapmak Do al dillerin yapısının anla ılması için do al dilin ayrıntılı bir çözümlemesinin yapılması ve matemati inin çıkarılması gerekmektedir. Bu nedenle, dilin kuralları mühendisçe bir yakla ımla ele alınmakta ve dilin genel yapısı, kuralları ve aykırılıkları ortaya çıkarılmaktadır. Bu tez çalı masında, Türk dilinin matemati inin çıkarılması ve biçimbirimsel analizinin yapılması üzerinde çalı ılmı tır. Tez çalı masındaki hedef, girilen bir Türkçe metnin yazım hatalarının ayıklanması ve düzeltilmesidir. Bunun için, girilen metnin Türkçe nin ses ve dilbilgisi kurallarına uygun olup olmadı ının ara tırması yapılmı tır. Tez kapsamında girilen metindeki tümcelerde bulunan her kelimenin köklerinin bulunması, eklerinin ayrı tırılması, kelimenin do ru mu yanlı mı yazılmı oldu una karar verilmesi, yanlı yazılmı kelimeler için sözcük önerilmesi ve Türkçe olmayan yabancı kelimeler için sözlü e ekleme yapılması gerçeklenmi tir. x

TURKISH SPELL CHECK WITH NATURAL LANGUAGE PROCESSING SUMMARY Natural Language Processing is a science and engineering area which designes and applies computer systems that are used in parsing, understanding, processing and producing of natural languages. NLP covers lots of theories, methods and technologies that are developed in different areas such as artificial intelligence, theory of morphological languages, theoritical linguistics and computer supported linguistics. This science area which was a sub topic of artificial intelligence in 1960s, is now a part of computer science with the success of researchers and applications succeeded. Following items shows the fundamental purposes of researches in NLP area: Understanding the structure and functionality of natural languages Using natural languages as interface between people and computers; so that making the communication better between people and computers Translating words from one language to another using computers In order to understand the structure of a natural language, the natural language needs to be analysed and its mathematical structure needs to be clarified. As a result of this situation, the rules of language is analysed with a view of engineer and the general structure, rules and exceptions of language are defined. In this study, it was worked on to clarify the mathematical model of Turkish language and to analyse its morphological structure. The purpose of this thesis is to make spell check for a given Turkish text and to correct the faulty situations. For this purpose, Turkish text is examined in order to check if it obeys the rules of Turkish grammer or not. It was worked on findind roots of each word, parsing suffixes from roots, checking words in order to decide whether they are written truly or not, making word suggestion for the words which are not written truly and adding words which do not belong to Turkish language to a newly created lexicon by user. xi

1. G R nsanlar arasındaki haberle mede en büyük faktör ku kusuz dildir. Do al dil i leme çalı maları dil faktörünün insan-bilgisayar haberle mesinde en etkili biçimde kullanılmasını amaçlar. 1.1 Do al Dilin Temel Özellikleri Bütün do al dil i leme çalı maları uygulamada farklılıklar göstermesine ra men temelde aynı adımlardan geçer. Do al dil i leme alanındaki çalı malar dört ana ba lık altında incelenebilir: Sesbilim: Harflerin seslerini ve bunların dil içinde nasıl kullanıldı ını inceler. Tüm dillerin bir alfabesi vardır ve her harfin sesi di erlerinden farklıdır. Sesbilimde amaç, konu ulan dili yazılı dile çevirmektir. Sesler sözcükler haline getirilmeye çalı ılır. Biçim birim: Bu a amada sözcükler tek ba larına ele alınırlar ve dilin kurallarına uygun ekilde sözcü ün yapısı incelenir. Bu incelemenin sonunda herbir sözcü ün her parçasının çözümlemesi yapılmı olur. Ekler, kökler, bunlara ili kin kurallar ve bu yapıların sınıflandırılmaları biçimbirim kapsamında ele alınır. Sözdizimi: Sözcüklerin cümle olu turmak için ne ekilde sıralanmaları gerekti ini inceler. Bu a amada analizi tamamlanmı olan sözcükler, dilin daha büyük elemanları olan tümceleri ve metinleri olu turacak ekilde birle tirilirler. Anlambilim: Dilin gerçek dünyayla ileti im kurmasını sa lar. Cümle yapısının anla ılması ve bunun sonucunda eyleme geçilmesi bu a amada olur. Dilde sözcüklerin dizili lerinin cümlelere kazandırdı ı anlamların incelenmesi ve bu yolla anlam kazandırılması temel i levdir. Bilgisayarın matematiksel mantı ıyla çok ba da mayan bu i lem, birçok olasılık göz önüne alınarak matematiksel yakla ımla çözülmeye çalı ılır. 1

1.2 Do al Dil lemenin Temel Elemanları Do al dil i lemede amaç, bilgisayar ile do al dilde ileti imin sa lanması oldu u için bilgisayarın do al dil kurallarını ö renmesi gerekmektedir. Bunun için bilgisayar genel bir sözlü e ve bu sözlü ü kullanabilmek için çe itli algoritmalara ihtiyaç duyar. Bilgisayarın dil ile ilgili genel bilgilerin yanında, ihtiyaç duydu u ve dilin genel yapısından ba ımsız olarak algılanması gereken alana ya da göreve özel bir bilgi tabanına da gereksinimi vardır. Do al dil i leme sisteminde genel olarak be temel eleman bulunur. Bunlar, ayrı tırıcı (parser), sözlük (lexicon), anlayıcı, bilgi tabanı ve üreticidir. ekil 1.1 de bu be elemanın birbirleriyle etkile imi görülmektedir [1]. ekil 1.1 Do al dil i leme sistemlerinin genel blok diyagramı [1] Ayrı tırıcı, do al dil i lemenin en temel elemanıdır. Ayrı tırıcı verilen cümleyi sözdizimsel olarak analiz eder ve ayrı tırıcı a acını olu turur. Ayrı tırma alanında en yaygın tanınan yakla ımlardan biri, öbek yapısal gramerlerdir. Bu yakla ım Chomsky nin üretimsel dönü ümlü dilbilgisi kuramına dayanır. Tümceleri öbeklere bölerek öbeklemeyi hedeflemektedir. Bu yakla ıma göre dilin temel ve kurucu birimi tümcedir. Tümce, ad öbe i ve eylem öbe i olmak üzere iki temel yapıdan olu ur. Bu öbekler de kendi içlerinde daha küçük öbeklere bölünürler. ekil 1.1 de örnek bir tümcenin bu yakla ıma göre gösterimi verilmi tir [2]. 2

ekil 1.2 Ayrı tırma a acı örne i [2] Ayrı tırma i leminden sonra görevleri belirlenen kelimeler, anlamsal analiz i leminden geçirilerek giri tümcesine göre bir çıkı tümcesi olu turulur. Sözlük, program tarafından tanınması istenen tüm sözcükleri içinde barındıran bir yapıdır. Ayrı tırıcı, sözlük ile sözdizimsel analiz yaparak çalı ır. Sözlük, her kelimenin do al dil i leme sistemi tarafından tanınması istenen kök ve anlamlarını içerir [1]. Sözlük üzerinde yapılan i lemler temel olarak dört bölümde incelenebilir: Jeton seçme (Tokanizasyon): Giri cümlesi belirli jetonlar kullanılarak bölümlenir. Bu jetonlar genellikle kelimeler ve noktalama i aretleridir. Ancak jetonların seçiminde dilin yapısı dikkate alınmalıdır. Örne in Türkçe de bo luk jeton olarak seçilebilirken Japonca da seçilemez. Çünkü Japonca da kelimeler arasında bo luk bulunmamaktadır [1]. Köksel analiz: Bu a amada kelime hecelerine bölünür ve böylece kelimenin köküne ula ılır. Hecelere bölünerek köksel analiz yapılması Türkçe ve Fince gibi sondan eklemeli dillerde büyük önem ta ımaktadır [1]. Sözlü e bakma: Bulunan kök kelime sözlükte aranır ve ne anlama geldi i bilgisine ula ılır. Hata dönü ümü: Aranan kök sözlük içerisinde bulunamazsa bir hata söz konusudur. Bu hatalar genellikle, kelimenin yanlı hecelenmesinden, özel isimlerin do ru tespit edilememesinden ya da kelimenin yazım biçiminden kaynaklanır [1]. 3

Do al dil i leme sistemlerinde kullanılan sözlüklerdeki kelime sayıları dikkate alınacak olursa, sözlü ün oldukça büyük ve karma ık bir yapı oldu u ve sözlük olu turmanın büyük bir yatırım ve zaman gerektirdi i görülür. Anlayıcı bilgi tabanı ile birlikte cümlenin ne anlama geldi ini tespit etmeye çalı ır. Bilgi tabanı kavramsal olarak genel bilgi tabanı ve görev ba ımlı bilgi tabanı olmak üzere iki alt ö eden olu ur. Anlayıcının temel görevi olu turulan ayrı tırıcı a acının bilgi tabanındaki kar ılı ını bulmaktır. Anlayıcı girilen cümleye uygun cevabı hazırlar [1]. Do al dil i leme alanında kullanılan en temel üretici sistem, belli kelime ve cümleler için depolanmı belli kalıpların kullanıcıya gösterilmesidir. 1.3 Do al Dil lemenin Uygulama Alanları Do al dil i lemenin yaygın olarak kullanıldı ı uygulama alanları unlardır: Çeviri: Bilgisayarların geli im süreci içerisinde bilgisayarlardan en fazla beklenen i lerden biri de bir dilden di er dile çeviri yapılmasıydı. Zamanla böyle bir i in do al dil i leme sistemlerinin kullanılmasıyla gerçeklenebilece i anla ılmı tır. Bir dilden di er bil dile bilgisayarla çeviri yapılmasındaki en önemli nokta, verilen cümlenin iyi anla ılması ve anlam kaybına u ramadan di er dilde ifade edilmesidir. Montreal Üniversitesi nde geli tirilen ve TAUM-METEO adı verilen sistem bu tür yazılımlara örnektir. Bu yazılım ngilizceden Fransızcaya resmi raporların çevirisinin yapılmasında kullanılmı tır. Do ruluk oranı oldukça yüksektir. Bu oranın yüksek olmasının nedeni, resmi raporlarda kullanılan dilin ve formatın formalize edilmi olmasıdır. Bu tür sistemlere bir di er örnek ise SPANAM adı verilen bir yazılımdır. spanyolcadan ngilizceye çeviri yapan bu yazılım, anla ılır bir çeviri yapsa da dilbilgisi yönünden do ru bir çözüm sunamamaktadır; bu nedenle de do ruluk oranı TAUM-METEO ya göre oldukça dü üktür [1]. Görüldü ü gibi, bilgisayarla bir dilden ba ka bir dile çeviri yapmak henüz tam anlamıyla gerçeklenememi tir. Bunun en büyük nedeni de, do al dilin yapısının matematiksel mantıkla uyu mamasıdır. Bu nedenle gerçeklenen çeviri sistemlerinde de kısıtlı dil kullanılmı tır. Kısıtlı dil, kullanılabilecek kelimelerin ve dilbilgisi yapılarının belirlenmesiyle olu turulur. Dilin bu ekilde kısıtlanarak kullanılması çeviri i lemlerindeki karma ıklı ı azaltırken do rulu u artırır. Avrupadakiler ba ta olmak üzere birçok hükümet, bu kısıtlandırılmı dilin uluslararası ticarette kullanılması için kurallar getirmeye ba lamı lardır. 4

Dilbilgisi analizi: Do al dil i leme sistemlerinin bir di er uygulama alanı olan dilbilgisi analizi sistemlerinde girilen yazı öncelikle yazım hatalarına kar ı denetlenir. Metin içerisinde yanlı kelime ya da deyim kullanılmı sa bunların düzeltilmesi için önerilerde bulunur. Yanlı kullanılmamı kelimelerin yerine daha uygun kelimeler varsa bu kelimeler için de önerilerde bulunur. MS Word ve WordPerfect programları bu sistemlere örnek olarak gösterilebilir. Bazı dilbilgisi analiz sistemleri metnin tüm ayrı tırma a acını çıkartabilmektedir. Bu tür sistemlere UNIX üzerinde çalı tırılmak üzere Bell laboratuvarlarında geli tirilen Writer s Workbench ile IBM sistemleri üzerinde çalı an EPISTLE örnek olarak verilebilir [1]. Veritabanı Yönetimi: Do al dil i leme sistemleri, üzerinde büyük ve geni veri dosyalarının depolandı ı ve depolanan bu dosyalar üzerinde çe itli i lemlerin gerçekle tirildi i veritabanlarının yönetimlerinde de kullanılırlar. Bu kullanımların en ilginçlerinden biri NASA tarafından co rafik veritabanı üzerinde kullanılan ve LUNAR adı verilen sistemdir. Bu sistem %75-%80 do ruluk oranlarında çalı maktaydı. Bu çalı manın bir benzeri yine co rafik veritabanı üzerinde 1983 yılında geli tirilen CHAT adı verilen sistemdir. Veritabanı yönetiminde kullanılan bir di er sistem ise IBM i letim sistemleri üzerinde çalı an INTELLECT adı verilen sistemdir. Bu yazılım kullanıcıya veritabanı üzerinde do al dili kullanarak sorgulama yapıp rapor hazırlamasını sa lar [1]. Belge Yönetimi: Belge yönetim sistemleri çok fazla sayıda belgenin bulundu u ortamlarda, verilen anahtar kelimelere göre belgeler arasında ara tırma yaparak belgelerin özetini hazırlayabilirler. Bu i lem dört a amada gerçekle ir. lk a amada uygun doküman bulunur; ikinci a amada doküman sınıflandırılır; üçüncü a amada istenen veri çıkarılır ve son a amada bu veriden do al dilde cevap üretilir. SCISOR isimli belge yönetim yazılımı bu tür yazılımlara bir örnektir [1]. Konu ma Tanıma: Do al dil i lemeyle ilgili bir yapay zeka alanıdır. Yapay zeka yazılımları bilgisayar sistemine sesli giri yapabilecek ekilde tasarlanabilirler. Sesli giri sonrasında elde edilen girdi do al dil i leme sisteminde kullanılabilir ve sistemin verece i cevap sesli ekilde kullanıcıya iletilebilir. Örne in, teknolojinin bugün gelmi oldu u noktada ABD, Almanya ve Japonya daki ara tırmacılar telefon ile konu an iki ki inin konu malarını anında tanıyıp kar ısındaki ki inin diline çeviren, onun anlayabilece i konu mayı üreten sistemlerin prototiplerini gösterebilmi lerdir. Ancak bu gibi sistemlerin günlük hayatta yaygın olarak kullanılması için aradan bir süre daha geçmesi gerekecektir [3]. Do al dil i leme sistemlerinin hayatımıza girmesi hiç üphesiz ya amımız oldukça kolayla tıracaktır. Ancak, do al dil i leme sistemlerinin eklendi i yazılımların daha 5

karma ık, daha maliyetli oldukları ve daha fazla belle e ihtiyaç duydukları da bilinen bir gerçektir. 1.4 Türkçe Dili ve Biçim Birimsel ncelenmesi Türkçe dili Ural-Altay dil ailesinin bir üyesidir. Yapısal olarak Türkçe nin do al dil i lemede ilginç sorunlar içeren özellikleri vardır. Sözcük yapısı ve üretimi açısından Türkçe biti ken bir dildir. Bu açıdan Türkçe, Fince ve Macarca ya benzemektedir. Bu gibi dillerde sözcükler bir kök sözcü e eklenen biçibirimlerden olu urlar. Bu biçibirimler eklendikleri kök veya gövdenin anlamını, sözcük türünü veya sözdizimsel i levini de i tirebilirler. Bu nedenle, Türkçe de bu ekilde kurulan bir sözcük ile ifade edilen kavram, bazen ba ka bir dilde ancak bir cümle ile ifade edilebilir [3]. Türkçe de bir sözcü ün ekler yardımı ile dönü türülebilece i farklı sözcük sayısı kuramsal olarak sonsuzdur. Bu duruma abartılı bir örnek olarak Osmanlıla tıramadıklarımızdanmı sınızcasına kelimesi verilebilir [2]. Türkçe nin hemen her dilbilimi ders kitabında incelenmesinin nedeni, dilin bir takım dilbilgisel olgularda tipik bir örnek olu turmasıdır; örne in ses uyumu, biti ken sözcük yapısı, sözdizimindeki serbestlik ve öbek yapılarında tamlayanların her zaman tamlanandan önce gelmesi gibi [3]. Türkçe nin sözcük yapısı, köklere yapım ve çekim eklerinin sonek olarak eklenmesine dayanır. Çekim soneklerinin bollu u, yapım soneklerinin çok üretken olması ve soneklerin sözdizime olan do rudan etkisi bilgisayarlı biçim birim çözümlemesinde ilginç sonuçlar ortaya çıkarmaktadır. Örne in, çiçekleri kelimesi için olası çözümleme sonuçları Tablo 1.1 deki gibidir: Tablo 1.1 çiçekleri kelimesi için biçim birimsel çözümleme sonuçları Çözümleme: Kök + ço ul + 3.tekil-iyelik Kök + 3.ço ul-iyelik Kök + ço ul + durum Örnek kullanım: Bunlar Mehmet in çiçekleri. Arkada larımın çiçeklerini sulamalıyım. Ay e çiçekleri suladı. 6

Çözümlemedeki bu gibi belirsizlikler bazen öbek ve cümle düzeyinde incelemeyle giderilebilir. Örne in, Mehmetlerin çiçekleri soldu cümlesinde çiçekleri sözcü ü öznedeki iyelik sonekinden dolayı kök + 3.ço ul-iyelik olarak çözümlenir. Sözdizim düzeyinde inceleme her zaman belirsizlikleri gideremeyebilir. Örne in çiçekleri solmu cümlesi onun çiçekleri solmu ya da onların çiçekleri solmu olarak anla ılabilir [3]. Biçim birimsel çözümlemedeki belirsizlikler sözcük türlerinin bulunmasında da sorunlar çıkarabilir. gider kelimesi için olası sözcük türleri Tablo 1.2 de görülmektedir [3]. Tablo 1.2 gider kelimesi için sözcük türü sonuçları Çözümleme: Ad Eylem + zaman Örnek kullanım: Bu gider tablosu çok detaylı hazırlanmı. Ay e her gün okula gider. Çekim soneklerinin varlı ı durumunda bu belirsizlik giderilebilir; örne in giderlerim sözcü ünde kök adıl olmak durumundadır, çünkü ad çekimi almı tır. Örneklerden de görülece i gibi Türkçe, ayrı tırma alanında ngilizce gibi üzerinde yo un olarak çalı ılmı birçok dilden farklı özellikler ta ımaktadır. Bu niteli i ile benzer özellikler gösteren bir sınıf dilin temsilcisi olarak görülebilir. Bu dillere örnek olarak di er Türki diller, Fince, Macarca, Japonca ve Korece gösterilebilir [3]. Günümüzde do al dil i leme alanındaki çalı maların büyük bir bölümü, bilim ve i alanında her yerde geçerli bir dil olması açısından ngilizce üzerinde yapılmaktadır. Türkçe dili üzerinde do al dil i leme alanında teorik olarak çalı malar yapılmı olsa da pratikte yapılmı olan çalı maların sayısı oldukça sınırlı kalmaktadır. Bu nedenle Türkçe de ara tırma alt yapısı olu turmak için daha çok çalı ma yapılması gerekmektedir. 1.5 Benzer Çalı malar Bu bölümde ilk olarak yazım denetimi konusunda Türkçe dı ındaki dillerde yapılmı olan çalı malar ve gerçeklenen yazılımlarla ilgili bilgilendirme yapılmı tır. Sonrasında ise Türkçe üzerine yapılan çalı malar incelenmi tir. 7

Yazım denetimi konusunda ana bilgisayarlar (mainframe) üzerinde gerçeklenen ilk çalı malar 1970 li yılların sonuna rastlar. Ki isel bilgisayarlar için geli tirilen yazım denetleme yazılımları ise 1980 yılında ortaya çıkmı tır ve bunu 1981 yılında IBM PC nin bu alanda olu turdu u yazılım paketleri izlemi tir. Bu dönemde Maria-Mariani, Soft-Art, Microlytics, Proximity, Circle Noetics ve Reference Software gibi geli tiricilerin üretti i yazılımlar son kullanıcı ürünleri olarak hızla yazılım pazarında yerini almı tır. Ancak bu yazılımlar pazarda kısa süreli olarak yer almı lardır. 1980 li yılların ortalarında WordStar ve WordPerfect gibi geli tiriciler kendi üretmi oldukları yazılım paketlerinin içine yukarıda adları verilen üreticilerin geli tirdikleri yazım denetimi paketlerini de eklemi ler ve ba ta ngilizce olmak üzere Avrupa dillerinin ço unu kapsayacak ekilde yazım denetimi konusunda ilerleme kaydedilmesini sa lamı lardır. Ancak Macarca ve Fince gibi yapısı Avrupa dillerinden farklı olan dillerde bu anlamda çok fazla geli me sa lanamamı tır. lk olu turulan yazım denetimi yazılımlarında sadece yanlı yazılmı olan sözcükler bulunuyordu; ancak bu sözcükler için öneri yapılmıyordu. Günümüzde ise geli tirilen yazılımların ço unda yanlı yazılmı sözcükler için öneri yapılmaktadır. Hatta bazı yazılımlar dilbilgisi hatalarının bir kısmını da yakalayabilmektedir. Yazım denetimi konusunda geli tirilen yazılımların ço u ba ta ngilizce olmak üzere Avrupa dillerinde gerçeklenmi tir. Bu dillerde sözcükler ya çok az sayıda ek almakta ya da hiç ek almamaktadır. Örne in; ngilizcede sözcüklerin çok büyük bir kısmı cümlede yazıldıkları ekilde sözlükte yer almaktadır; dolayısıyla sözcüklerin biçim birimsel çözümlemesi oldukça basite indirgenmi olmaktadır. Oysaki Türkçe de sözcükler çok sayıda ek alabildikleri için ve ekler sözcüklerin sonuna ulandıkları için biçim birimsel çözümlemenin yapılması oldukça karma ık bir i halini almaktadır. Bu nedenle ngilizce ve benzeri dillerde geli tirilen yazım denetimi araçlarının sayısı oldukça fazla olmasına ra men; Türkçe için birkaç araç dı ında örnek bulmak mümkün de ildir. Çünkü Türkçe çok farklı kurallara ve sorunlara sahip bir dildir. Eklerin yanlı sıralarla köke ulanması ya da sesli uyumuna uygun olmayan ekin köke ulanması bu gibi durumlara örnek olarak verilebilir. Alman dili için Gabriele Kodydek tarafından yapılmı olan sözcük çözümleme çalı masında Alman dilindeki en küçük anlamlı parçalar atom olarak nitelendirilmi tir. Gerçeklenen sözcük çözümleme sistemi iki ana kısımdan olu turulmu tur. Bunlar atom tablosu ve özyineleyici çözülme (recursive decomposition algorithm) algoritmasıdır. Yakla ık olarak 6000 atom içeren atom tablosu Almanca daki tüm sözcükleri içermektedir. Özyineleyici çözülme algoritması Alman dilinin kurallarına uygun olarak sözcükleri atomlarına ayırır. Bu 8

çalı mada atomlar i levlerine göre önek, gövde ya da ek olarak sınıflandırılmı lardır. Her atom kendi sınıfına ait davranı a göre atom tablosuna yerle tirilir. Örne in; end gövde olarak kullanılabilir ve enden halini alır ya da ek olarak kullanılarak gehend halini alır. Özyineleyici çözülme algoritması, girilen sözcü ün atom tablosundaki tüm alt sözcüklerini (substring) bulmaya çalı ır ve Alman dilinin dilbilgisi kurallarına göre bulunan tüm atomları birle tirir. Bu sözcük çözümleme çalı masında gerçekle tirilen yazım denetimi kısıtlıdır. E er girilen sözcük, sözcük çözümleme düzene ine göre atomlarına ayrılamıyorsa ya yanlı yazılmı demektir ya da atom tablosunda bulunmayan atomları içermektedir. Örne in; girilen isim yabancı sözcük ise ya da co rafik bir isim ise atom tablosunda bulunmaz. Bu durumda atom, atom tablosuna eklenebilir. Gerçeklenen bu sistem tüm yazım hatalarını bulamamaktadır; çünkü sistem bazı durumlarda yanlı yazılmı olan sözcükler için (sözcükler anlamsız olmasına ra men) çözümleme yapabilmektedir [4]. Fransızca için geli tirilen yazım denetimi aracı olan FipsOrtho, Fransızca ö renenlere yönelik olarak geli tirilmi olan bir yazılımdır. Bu yazılımda yanlı yazılmı olan sözcükleri bulmak ve düzeltmek için kullanılan yöntemler alpha-code yöntemi, ses bilimsel inceleme yöntemi ve ad-hoc kuralları yöntemidir. Alpha-code yönteminde sözcükte bulunan harfler vurgularına göre tekrar sıralanırlar ve tekrarlanan harfler bire indirgenir. Aynı alpha-code çözümlemesine sahip olan sözcükler benzerdir. Hatalı olan sözcük için alpha-code çözümlemesi yapılır ve bu alpha-code çözümlemesine uygun olan di er sözcükler bulunur. Bulunan sözcükler arasında Levenshtein-Damerau edit distance hesaplaması yapılır ve uzaklı ı en küçük olan sözcük ya da sözcükler do ru sözcük olarak önerilir. Örne in; ennumération sözcü ün Fransızcadaki do ru yazılımı énumération eklindedir. Bu sözcük için alpha-code mnrtaeiou eklindedir ve bu alpha-code çözümlemesine sahip olan di er sözcükler içinden aranan sözcü e en yakın uzaklı a sahip olan sözcük seçilir. Ses bilimsel inceleme yönteminde girilen sözcü ü söyleyi ekline dönü türen bir uzman (expert) sistem kullanılmı tır. Sözlükte bu söyleni ekline sahip olan sözcükler arasında arama yapılır ve bulunan sonuçlar öneri olarak sunulur. Örne in; girilen sözcük puit ise öncelikle bu sözcü ün söyleni biçimi bulunur ve bu da /pyi/ eklindedir. Bu söyleni biçimine uygun olan puis ve puits sözcükleri öneri olarak sunulur. Üçüncü yöntem olan ad-hoc kuralı ise biçim birimsel hataya sahip olan sözcüklerin bulunmasında kullanılır; ancak kullanım alanı oldukça sınırlıdır. Bu yöntemde sözcük sonlarına gelen eklerin bazılarının do ru yazılıp yazılmadı ı denetlenir. Örne in; -ails ve -als eklerinin yerine ço ul eki olarak - aux eki getirilir. générals sözcü ü için üretilen öneri généraux eklindedir [5]. 9

Hascheck(Hrvatski akademski spelling checker) Hırvat dili için yazılan ilk yazım denetimi aracıdır. Hascheck ö renme algoritmasına dayalı bir yapıya sahiptir. Yanlı yazılmı olan sözcüklerin de erlendirilmesinde bulanık mantık ve yapay zeka yöntemlerini (n-gram) kullanır. Bu çalı ma kapsamında kullanılan sözlük ngilizce- Hırvatça derleminden türetilmi tir ve yakla ık bir milyon sözcük içermektedir [6,7]. Hindistanda geli tirilen yazım denetimi aracı olan tamil yazım denetleyicisi Tamil dili için geli tirilmi tir. Bu dil Hindistan ın güneyinde kullanılan bir dildir ve biçim birimsel açıdan zengin bir yapıya sahiptir. Gerçeklenen bu yazılımda girilen metindeki sözcükler sırayla sözlükte aranır. Sözlükte bulunamayan sözcük için hata düzeltme yöntemi uygulanır. Geli tirilen yazım denetleyicisi, sözcük çözümleme, sözcüklerin yazım denetimini yapma ve yanlı yazılmı sözcükler için öneride bulunma i lemlerini gerçekle tirmektedir. Girilen metindeki her sözcük biçim birimsel çözümleme ile parçalara ayrılır. Parçalara ayrılamayan sözcükler yanlı yazılmı demektir ve bu sözcükler için hata düzeltme i lemi yapılır. E er sözcük do ru bir ekilde kök ve eklerine ayrılabiliyorsa, kök sözcük sözlükte aranır; sözlükte bulunamayan sözcükler için o sözcü e en yakın olan sözcükler önerilir [8]. Türkçe için geli tirilen az sayıdaki yazım denetimi araçlarından biri Ay in Solak ve Kemal Oflazer tarafından gerçeklenmi tir [9,10]. Gerçeklenen bu yazılımın kullanmı oldu u sözlük 23.000 sözcük içermektedir. Sözlükteki her bir kök sözcük sözcü e ait özellikleri simgeleyen bayraklarla i aretlenmi tir. Sözlükteki herhangi bir sözcük 64 farklı bayrak ile i aretlenebilir. Ancak geli tirilen yazılımda bu bayrakların 41 tanesi kullanılmı tır. Kök bulma algoritmasının temeli sözlükte arama yapma i lemine dayanmaktadır. Bu algoritmaya göre sözcük sözlükte aranır ve bulunursa hiç ek almamı demektir; dolayısıyla çözümlemeye gerek yoktur. Sözcü ün sözlükte bulunamaması durumunda sözcü ün sa ından bir harf çıkarılır ve sözcü ün kalan kısmı sözlükte aranır. Bu i lem sözcük sözlükte bulunana kadar devam eder. E er sözcü ün ilk harfine gelinmi se; ancak kök sözlükte bulunamamı sa sözcük yanlı yazılmı demektir. Harf çıkarılarak sözlükte bulunan en uzun sözcük her zaman aranan kök olmayabilir. Bu durumda en son sözlükte bulunan kök üzerinden devam edilerek yeni kök sözlükte aranır. Örne in; yapıldın sözcü ü için ilk olarak yapı isim soylu kökü bulunur. Ancak sözcü ün kalanına bakıldı ında eklerin isim soylu sözcüklere eklenebilecek ekler olmadı ı görülür ve dolayısıyla yapı sözcü ünden bir harf daha çıkarılarak sözlükte arama yapılır ve yap eylem soylu kökü bulunur [9,10]. Kök bulma i lemi kök sözcük de i ime u radı ı durumlarda sorunlara yol açmaktadır. Örne in, o lumuz sözcü ü için kök o ul dur ve köke birinci ço ul 10

ahıs eki ulandı ında kök sözcük de i ime u rayarak o l haline dönü mektedir. Ancak o l sözlükte bulunamayaca ı için burada bir denetleme i lemi yapılır. Son iki harf sessiz ve ilk harf sesli oldu u için kök sözcü ün de i ime u ramı olma olasılı ı yüksektir. ile l harfleri arasına sesli uyumuna uyacak ekilde ı ve u harfleri getirilerek yeni aday kökler olu turulur ve sözlükte aranır. o ul kökü sözlükte bulunur ve bu kökün sesli dü mesi bayra ına sahip olup olmadı ına bakılır. Kök sesli dü mesi bayra ına sahip oldu u için aranan kök bulunmu demektir. Kök sözcü ün de i mesi durumu için bir ba ka örnek ise sessiz yumu aması durumunun olu masıdır. Örne in; taba ım sözcü ü için sözlükte aranan kök taba olacaktır; ancak bu sözcük sözlükte bulunmadı ı için burada da bir denetleme yapmak gereklidir. Ek sesli harf ile ba ladı ı için ve son harf ( ) b, c, d, g, harflerinden biri oldu u için sessiz yumu aması durumunun olması söz konusu olabilir. Sözcük -lo eki ile bitmedi i için, son harften bir önceki harf n harfi olmadı ı için harfinin yerine k harfi konur ve tabak sözcü ü sözlükte bulunur. Sözcük sessiz yumu aması bayra ına sahip oldu undan dolayı aranan kök bulunmu demektir [9,10]. Oflazer ve Solak ın bu çalı malarında sesli uyumu ile ilgili denetimler de yer almaktadır. Ayrıca ekler sınıflandırılmı ve bu sayede çözümlemenin daha kolay hale gelmesi sa lanmı tır. Di er yazım denetimi araçlarında oldu u gibi, geli tirilen bu yazılımda da sözcük bazında denetleme yapılmı ; cümle bazında denetleme yapılmamı tır. Ayrıca yanlı yazılmı olan sözcükler için öneri yapma sistemi mevcut de ildir [9,10]. Türkçe de yazım hatalarının düzeltilmesi ile ilgili bir çalı ma Kemal Oflazer ve Cemalettin Güzey tarafından yapılmı tır. Bu çalı ma iki seviyeli bir biçimbirimsel incelemeye ve dinamik programlama tabanlı bir arama algoritmasına dayanmaktadır. Yazım hatalarının düzeltilmesi ile ilgili olarak yapılan bu çalı mada, sorun iki ayrı ana ba lık altında de erlendirilmi tir. lk olarak yapılan i lem, yanlı yazılmı sözcük için sözlükten tüm aday köklerin bulunmasıdır. Burada zor olan nokta, köklerin yanlı yazılma sonucunda mı yoksa ses de i imlerine u rayarak mı de i mi oldu una karar vermektir. kinci adım ise sorunun esas kısmını olu turmaktadır; bu da bulunan tüm aday köklerden olası tüm sözcüklerin türetilmesidir. Bunu gerçeklemek için de edit distance metric olarak bilinen iki sözcük arasındaki uzaklı ı bulma yolundan yararlanılmı tır. Bu çalı mada iki sözcü ün birbirine ne kadar benzer oldu unu bulmak için q gram yöntemi kullanılmı tır. Yapılan sınama sonuçlarına göre yanlı yazılmı olan bir sözcü ün düzeltilmesi %95 ba arıyla gerçekle tirilmektedir [11,12]. 11

Türkçe de yanlı yazılmı sözcüklerin bulunması ile ilgili bir ba ka çalı ma Rıfat A liyan, Korhan Günel ve Tatyana Yakhno tarafından gerçekle tirilmi tir. Bu çalı manın amacı girilen bir Türkçe metindeki sözcüklerin do ru yazılıp yazılmadı ına karar vermektir. Sistem girilen Türkçe metindeki sözcükleri giri olarak almakta ve n-gram frequency yöntemini kullanarak olasılık da ılımı hesabı yapmaktadır. E er bir sözcü ün olasılık da ılımı sıfır ise o sözcü ün yanlı yazılmı oldu una karar verilir. Sistemi sınamak için aynı sözcükleri içeren metinlerden olu an iki farklı veritabanı hazırlanmı tır. Bunlardan biri 685 tane yanlı yazılmı ; di eri ise 685 tane do ru yazılmı sözcük içermektedir. Sistemin yanlı yazılmı olan sözcükleri bulma ba arımı %97 olarak verilmi tir [13]. 1.6 Tezin Amacı, Kapsamı ve Katkısı Yazım hatalarının denetlenmesi ve düzeltilmesi konusunda yapılmı çalı malara bakıldı ında, bu çalı maların ço unun Hint-Avrupa dil ailesi üzerindeki dillerde özellikle de ngilizce üzerinde yapıldı ı görülmektedir. Ancak, Ural-Altay dil ailesi üyesi olan Türkçe üzerinde yapılan çalı maların da sayısı giderek artmaktadır. Hint- Avrupa dillerinin yapısı ile Ural-Altay dillerinin yapısı biririnden farklı oldu u için ngilizce için ya da di er Hint-Avrupa dilleri için yapılmı olan çalı malar Türkçe için anlam ifade etmemektedir. Bu tez çalı masının amacı, Türkçe metinlerdeki yazım hatalarının bulunmasını ve bulunan hataların en yüksek ba arımla düzeltilmesini gerçeklemektir. Bu amaçla; Türkçe metinlerdeki yazım hatalarının denetlenmesi, Türkçe metinlerdeki yabancı sözcüklerin bulunması, Bulunan yabancı sözcükler için Türkçe kar ılıklarının önerilmesi, Yanlı yazılmı sözcükler için sözcük önerilmesi, Bulunan yazım hatalarının düzeltilmesi üzerinde çalı ılmı tır. Türkçe metinlerdeki yazım hatalarının denetlenmesi ve yabancı sözcüklerin bulunması için yapılan çalı malarda sözcüklerin Türkçe ses bilgisi kurallarına uygun olup olmadı ının sınaması yapılmı tır. Bu sınamanın yapılabilmesi için ilk olarak heceleme algoritması yardımıyla sözcüklerin hecelenebilir olup olmadı ının denetimini yapmak gereklidir. Bu denetimi geçemeyen sözcükler Türkçe hece yapısına uygun olmadıkları için do rudan elenirler. 12

Türkçe metinlerdeki yabancı sözcüklerin bulunması için sözcüklerin Türkçe ses bilgisi ve hece yapısı kurallarına uygunluklarının denetlenmesi yeterlidir. Ancak yazım hatalarının bulunabilmesi için biçim birimsel çözümlemeye ihtiyaç duyulmaktadır. Bu nedenle tez kapsamında gerçeklenen biçim birimsel çözümleme sayesinde sözcükler kök ve eklerine ayrılarak yazım hataları üzerinde denetleme yapılması gerçekle tirilmi tir. Yazım hatasının kök sözcükten mi yoksa kök sözcü e ulanan eklerden mi oldu unu anlamak için biçim birimsel çözümlemeye ihtiyaç vardır. Biçim birimsel çözümlemesi yapılan sözcükte hata bulunması durumunda hatalı olan parçanın (kök ya da ek) en yüksek ba arımla düzeltilmesi üzerinde çalı ılmı tır. Bu alanda yapılan çalı malar için bilinen algoritmaların yanısıra açık kaynak kodlu yazılım ve araçlardan da faydalanılmı tır. Tez kapsamında yapılan i biçim birimsel olarak yanlı yazılmı olan sözcüklerin bulunması ve düzeltilmesidir. Bundan sonra yapılması gereken ise girilen Türkçe metinlerdeki anlamsal hataların bulunup bulunmadı ını denetlemektir. Ancak bunun için sözcüklerin tek ba ına biçim birimsel çözümlemesini yapmak yeterli olmayacaktır; cümlelerin anlamsal açıdan çözümlenmesi de gerekecektir. 1.7 Tezin Bölümleri Toplam altı bölümden olu an tezin içeri i a a ıda açıklanmı tır: Bölüm 2 - Türkçe nin Ses Bilgisi Yapısı Bu bölümde Türk dilinin tez konusuyla ilgili olan özellikleri anlatılmı tır. Dolayısıyla bu bölüm Türkçe nin ses bilgisi ile ilgili yapısı ve kurallarına ayrılmı tır. Bu konuda [14] ve [15] kaynaklarının yanısıra TDK web sayfası da kaynak olarak kullanılmı tır. Bölüm 3 - Geli tirilen Yazılım ve Algoritmalar Bu bölümde tez kapsamında geli tirilen algoritmaların ve kullanılan yöntemlerin tanıtımı yapılmı tır. Bölüm 3.1 tez kapsamında kullanılan sözlü ün yapısıyla ilgili bilgi içermektedir. Bu bölümde sözlü ün içindeki sözcüklerin etiketlenmeden sözlük olu turulup olu turulamayaca ı ile ilgili olarak yapılan çalı malara da de inilmi tir. Bölüm 3.2 heceleme algoritmasını kapsamaktadır. Bölüm 3.3 de sözcük köklerinin bulunması ile ilgili olarak kullanılan yöntem ve algoritmaların tanıtımı yapılmı tır. Bölüm 3.4 de sözcü ün biçim birimsel çözümlemesinin yapılmasında izlenen yol anlatılmı tır. Bölüm 3.5 de Türkçe denetimi yapılması için kullanılan ses 13

bilgisi kuralları için geli tirilen algoritmaların tanıtımı yapılmı tır. Bölüm 3.6 ses bilgisi açısından sözcük denetimine ayrılmı tır. Son olarak Bölüm 3.7 de sözcük önerme i leminin hangi durumlarda yapıldı ı ve bu i lem için hangi yöntemin izlendi i anlatılmı tır. Bölüm 4 Tezin Ba arımı ve Sınama Sonuçları Bu bölümde geli tirilen yazılımın ba arımı sınanmı ; sınama ölçütleri ve sonuçları verilmi tir. Ayrıca sınama yöntemi ile ilgili detaylı bilgiye ve sınamanın hangi sınama verileriyle yapıldı ına da yer verilmi tir. Bölüm 5 Sonuç Bu bölümde tez çalı masının sonucuyla ilgili özet bilgi verilmi tir. Ayrıca gelecek ara tırmalar için öneriler sunulmu tur. 14

2. TÜRKÇE N N SES B LG S YAPISI Bütün dillerin dayandı ı temel unsur sestir. Diller, insanların birbirleriyle anla mak için çıkardıkları seslerin birle mesinden olu mu tur. Bu nedenle ses bilgisi, dilbilimin asıl çalı ma alanını olu turur. Ses bilgisi (fonetik), bir dilin seslerini, ses de i melerini (birle me, türeme, dü me vb.) ve bütün bu de i melerin tarih boyunca geçti i evreleri inceler. Bir dilin ses özelliklerinin belli kalıplara ve kurallara oturtulması ses bilgisi ile gerçekle tirmi tir. Ses genel anlamda, kula ımızla duydu umuz dı izlenimlerin tümüne verilen addır. Ancak burada ses bilgisinin konusu olan ve dile malzeme te kil eden ses; insan sesidir. Onu do adaki di er seslerden ayırmak gerekir. nsan sesi, vücut içinden üflenerek a ıza, dudaklara kadar gelip konu ma ekline dönü ürken uzun bir yol katetmekte, de i ik bo luklardan geçmektedir. Bu yol ve bo luklardaki pek çok etki ile farklı seslerin çıkması sa lanmakta ve konu ma gerçekle mektedir. En küçük dil birliklerinden en büyük birlik olan cümleye kadar dili olu turan tüm ekillerde ses denilen unsurlar bulunur. Dolayısıyla ses dilin malzemesine verilen addır. Biçim bilgisi bir dilin sözcük yapılarını, türeme yollarını, köklerini, eklerini, çekim biçimlerini inceleyen dilbilgisi koludur. Her sözcü ün bir ses yapısı ve bir biçimi vardır. 2.1 Türkçe nin Ses Özellikleri Türkçe dilinin ses açısından temel özellikleri öyle sıralanabilir: Türkçe de sesli harfler di er dillere oranla daha çok kullanılır. 1972 yılında Ankara da düzenlenen I. Türk Dili Bilimsel Kurultayı nda bu konuda yapılmı bir çalı maya ili kin bildiri sunulmu tur. Nevzat M. Yusuf tarafından gerçekle tirilen bu 15

çalı ma, Ça da Türk Dilinin Fonolojisi Üzerine statistik Notlar adı altında Türkçe deki seslerin kullanım sıklı ıyla ilgili istatistiksel sonuçlara ula ır. En seçkin Türk roman ve öykülerinden 21 tanesi ve o tarihlerde çok revaçta olan süreli yayınların 7 tanesi üzerinde, hem düz yazı metinler hem de iirlerden seçilen metinlerle bu ara tırma yapılmı tır. Bu ara tırmanın sonucu, Tablo 1.3 de görülmektedir. Harflerin kullanım oranı soldan sa a do ru azalmaktadır. Tablo 2.1 Harflerin Türkçe deki kullanım sıklıkları En sık rastlanan sesli harfler a, i, e, ı Orta sıklıkta rastlanan sesli harfler u, o,ü En az rastlanan sesli harfler ö En sık rastlanan sessiz harfler r, n, l, k,d, y Orta sıklıkta rastlanan sessiz harfler m, t, s,, z, h En az rastlanan sessiz harfler g, t,, v, c, p, f, j Bu sonuçlardan tüm sesli ve sessiz harflerin kullanımı ile ilgili olarak bulunan oran ise sesli harfler için % 43,36, sessiz harfler için %56,64 tür. Buradan hareketle Türkçe deki sesli harflerin kullanılma oranını oldukça yüksek oldu u söylenebilir. Di er dillerde yapılan ara tırmalarda bulunan de erler Tablo 1.4 de görülmektedir. Tablo 2.2 Dillerin sesli ve sessiz harf kullanım oranları D LLER SESL HARFLER SESS Z HARFLER Romence 49,4 49,74 talyanca 47,74 52,27 Fransızca 43,42 56,58 Türkçe 43,36 56,64 Macarca 41,91 58,09 sveççe 41 59 Çekçe 40,73 59,13 Almanca 38,86 61,14 ngilizce 37,4 62,6 Türkçe yi di er dillerden ayıran bir ba ka belirgin özellik de sesli uyumu olarak adlandırılan ses e ilimleridir. Altay dillerinin ve bazı Ural dillerinin tipik bir özelli i olan sesli uyumu, Türkçe de çok eski zamanlardan beri varlı ını sürdürmü tür. Hatta günümüz Türkçesinde sesli uyumuna uymayan bazı sözcüklerin bile eskiden bu uyumu sa ladıkları bilinmektedir. Örne in karde sözcü ü sesli uyumuna uymazken, 16

bu sözcü ün eski hali olan karında sözcü ü sesli uyumuna uymaktadır. O halde sesli uyumuna uymayan sözcükler ya zaman içinde de i ime u ramı tır ya da dilimize yabancı dillerden girmi lerdir. Sessiz uyumu da Türkçe nin önemli özelliklerinden biridir. Sessiz uyumunda kök ve gövdelere getirilen eklerdeki sessiz harflerin, kök ve gövdedeki sessiz harflerle biçimi, çıkı yerleri, söyleni te a zın aldı ı ekiller bakımından birbiriyle uygunlu u söz konusudur. Ses açısından bir ba ka önemli özellik de sözcük ba ında birden çok sessiz harfin yan yana bulunamayı ıdır. Bu özellik tüm Altay dillerinde vardır. Türkçe ye yabancı dilden girmi olan sözcükler de bu sorunu çözmek üzere iki sessiz harf arasına bir sesli harf konur. Yazı diline bu ekilde geçmemi olsa da kelimelerin söyleni i esnasında mutlaka sesli harf konulur. Örne in stadyum sıtadyum, tren tiren eklinde söylenir. Türkçe sözcük birle melerine de yatkın bir dildir. Bu durum tek bir sözcü ün yetmedi i durumlarda birden çok sözcü ün bir kavramı anlatmak üzere bir araya gelmesiyle ortaya çıkar. Örne in dil ve bilim kelimeleri birle erek dilbilim sözcü ünü olu turmu tur. 2.2 Türkçe de Sesler Türkçe de sesler sesliler ve sessizler olmak üzere ikiye ayrılırlar. Sesliler alt çenenin ve dudakların aldı ı duruma göre biçimlenip çıkan seslerdir. Sesliler ses yolunda hiçbir engele u ramadan çıkan ve ses tellerini titre tiren seslerdir. Sessizler belirli bo umlanma noktası bulunan seslerdir. Ses tellerini titre tirmezler. Sessizlerin ba lı ba ına sesleri yoktur; yanında bir sesli bulunmak zorundadır. 2.2.1 Sesli Harfler Sesli harfler ses yolunda hiçbir engele u ramadan ses organlarının ortakla a i lemesiyle olu an seslerdir. Türkçe de sekiz tane sesli harf bulunmaktadır. Türkçe de sesliler dilin, alt çenenin ve dudakların aldıkları duruma göre üçe ayrılırlar. Dilin aldı ı duruma göre kalın ya da ince, alt çenenin aldı ı duruma göre dar ya da geni, dudakların aldı ı duruma göre ise yuvarlak ya da düz olurlar. Tablo 2.3 de Türkçe deki sesli harflerin sınıflandırılması görülmektedir. 17

Tablo 2.3 Türkçe deki sesli harflerin sınıflandırılması Düz Yuvarlak Geni Dar Geni Dar Kalın a ı o u nce e i ö ü 2.2.2 Sessiz Harfler Sessiz harfler meydana geli leri sırasında ses yolunda bazı engellerin etkisi altında kalırlar. Ses organları daralma, gev eme veya kapanma hareketleriyle bu seslerin ekillenmesini sa lar. Türkçe de yirmi bir tane sessiz harf bulunmaktadır. Sessiz harfler ses tellerinin titre mesine göre sert ya da yumu ak, ses yolunun tıkalı ya da açık olu una göre sürekli ya da süreksiz, sesin çıktı ı yere göre dudak, damak, di ya da gırtlak sessizleri olarak ayrılırlar. Tablo 2.4 de Türkçe deki sessiz harflerin sınıflandırılması görülmektedir. Tablo 2.4 Türkçe deki sessiz harflerin sınıflandırılması Sert Yumu ak Sürekli Süreksiz Sürekli Süreksiz Dudak f p m, v b Di s, ç, t j, l, n, r, z c, d Damak k, y g Gırtlak h 2.3 Türkçe de Ses Olayları Türkçe de tüm kurallar seslere ili kin organların hareketlerine uygun yapıdadır, herhangi bir zorlanma durumunda, sözcük içindeki sesler de i ime u rar. Bu da Türkçe nin seslerinin kurallarını izlemeyi kolayla tırmaktadır. Sessizlerin yanyana gelme, eklerin ulanma ve yabancı sözcükleri uyarlamada bu kurallara sıkıca uyulur. Bu ara tırmada bu durum dikkate de er görülmü ve seslerin kaynakları ile sözcüklerde bulundukları yerler arasında ba lar bulundu u belirlenmi tir. 18

2.3.1 Türkçe de Bulunan ve Bulunmayan Sesler Türkçe bir sözcü ün sonunda süreksiz yumu ak sessiz (b, c, d, g) bulunmaz, böyle sesler süreksiz sert sessizlere (p, ç, t, k) dönü ür. ilac de il ilaç, kitab de il kitap kullanılır. Türkçe bir sözcü ün ba ında c,, l, m, n, r, v, z sesleri bulunmaz. c sesi Türkçe de sadece do a taklidi sözcüklerde kullanılır. caymak ve cici sözcükleri bu kuralın istisnalarıdır. cıvıl, cızırtı, cıyaklamak bu kurala örnek olarak verilebilecek sözcüklerdir. sesi sözcük ba ında hiç bulunmaz. l sesi Türkçe de sadece do a taklidi sözcüklerin ba ında bulunur. löp, lokur sözcükleri bu kurala örnek olarak verilebilir. m sesi Türkçe sözcüklerin ba ında ancak bozulmu tekrarlarda ve do a taklidi sözcüklerin ba ında bulunur. masmavi, mosmor, miyavlamak sözcükleri bu kurala örnek olarak verilebilir. n sesi Türkçe sözcüklerin ba ında ne ile yapılmı birle ik sözcükler ve do a taklidi sözcükler dı ında kullanılmaz. neden, niçin, nasıl sözcükleri bu kurala örnek olarak verilebilir. r sesi sadece do a taklidi sözcüklerde ba ta kullanılır. rap sözcü ü bu kurala örnek olarak verilebilir. v sesi türkçe sözcüklerin ba ında ancak do a taklidi sözcüklerde ve aslında b olan, fakat sonradan de i ikli e u rayan sözcüklerde kullanılır. vızırtı, birmek(vermek) sözcükleri bu kurala örnek olarak verilebilir. z sesi sadece do a taklidi sözcüklerin ba ında kullanılır. zırıltı, zonklamak sözcükleri bu kurala örnek olarak verilebilir. 2.3.2 Sesli Uyumları Türkçe de bir sözcük içinde seslerin dizili i belli kurallar ba lıdır. Bu kurallara ili kin sonlu durum makinesi ekil 2.1 de görülmektedir. 19

ekil 2.1 Türkçe de seslilerin dizili ini gösteren sonlu durum makinesi Kural olarak; ince seslilerden sonra ince sesliler, kalın seslilerden sonra kalın sesliler gelir; buna büyük sesli uyumu denir. kinci bir kural da; bir sözcü ün ilk hecesinin seslisi düz seslilerden biri ise sonraki hecelerin seslileri de düz sesli olur; ilk hecesinin seslisi yuvarlak seslilerden biri ise sonraki hecelerin seslileri ya dar yuvarlak ya da düz geni seslilerden biri olur. Bu kurala da küçük sesli uyumu denir. Sözcüklere eklenen yapım ve çekim ekleri de bu kurala uyarlar. Türkçe sözcüklerde sesli dizili indeki uyum kuralları incelendi inde bu sözcükleri söylerken a zın eklinin hep yatay ya da hep yuvarlak kaldı ı görülmektedir. Dolayısıyla Türkçe de bu kuralların koyulmasındaki hedefin sözcüklerin kolay söylenebilmesini sa lamak ve bu sayede konu urken çok fazla enerji harcamadan, sözcükleri kolaylıkla a ızdan çıkarabilmek oldu unu söylemek mümkündür. Bunun yanısıra sesli uyumlarıyla ilgili kurallar konu ulan dilin kula a ho gelmesini sa lamakta ve Türkçe ye kula a ho gelen bir dil olma özelli i kazandırmaktadır. Sesli uyumu kurallarına uymayan durumlar u ekilde sıralanabilir: Birle ik sözcüklerde küçük sesli uyumu aranmaz. Bu sözcüklerde büyük sesli uyumu da olmayabilir. karasinek, gecekondu, vatansever sözcükleri bu duruma örnek olarak verilebilir. Yabancı dillerden günümüze geçmi birçok sözcük büyük ünlü uyumu kuralına uymaz. demokrasi, kitap sözcükleri bu duruma örnek olarak verilebilir. Bu kelimelerin sonuna ek getirilirken en son hecedeki sesli harfle 20