Türkiye Türkçesi Derleminin Geliştirilmesi



Benzer belgeler
Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi

<abbrevations> <abbr> </abbr>

STRATEJİK PLAN, AMAÇ, HEDEF VE FAALİYET TABLOSU

Araştırma Yöntem ve Teknikleri

Açıköğretim Uygulamaları ve Araştırmaları Dergisi AUAd

BİTİRME ÖDEVİ VE TASARIM PROJESİ ARA RAPOR YAZIM KILAVUZU

BİTİRME ÇALIŞMASI ARA RAPOR YAZIM KILAVUZU

MARMARA ÜNİVERSİTESİ MAR-AHEK EĞİTİM UYGULAMA VE ARAŞTIRMA MERKEZİ

T.C. AKSARAY ÜNİVERSİTESİ REKTÖRLÜĞÜ AKADEMİK YABANCI DİL DESTEK (AYDD) BİRİMİ ÇALIŞMA ESASLARI

BİNGÖL ÜNİVERSİTESİ AÇIK ERİŞİM POLİTİKASI

İÇ KONTROL STANDARTLARI UYUM EYLEM PLANI GERÇEKLEŞME SONUÇLARI RAPORU 2016 ARALIK BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ

SANAL EĞİTİM BİLİMLERİ KÜTÜPHANESİ

Türk dünyası, bilişim alanında ortak terimler kullanmalı

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

ULUSAL PNÖMOKONYOZ ÖNLEME EYLEM PLANI

Kurumsal bilgiye hızlı ve kolay erişim Bütünleşik Belge Yönetimi ve İş Akış Sistemi içinde belgeler, Türkçe ve İngilizce metin arama desteği ile içeri

ATATÜRK KÜLTÜR MERKEZİ İzlem Tasarımı, Amaçlar, Hedefler, Proje ve Faaliyetler

PERFORMANS PROGRAMI HAZIRLIK DANIŞMANLIĞI

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

PROJE TEKLİF FORMU FİZİBİLİTE RAPORU HAZIRLANMASI GEREKMEYEN KAMU YATIRIM PROJESİ TEKLİFLERİ İÇİN

BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLİĞİ BÖLÜMÜ ARAŞTIRMA PROJESİ DERSİ UYGULAMA KURALLARI

T.C. KÜLTÜR VE TURİZM BAKANLIĞI

DERS BİLGİLERİ TÜRKÇE I: YAZILI ANLATIM TRD

BİLİM KURULLARI İLE ÜNİVERSİTE-SANAYİ İŞBİRLİĞİ ÇEŞİTLENDİRİLEREK SÜRDÜRÜLEBİLİR HALE GETİRİLMESİ

Üniversite Birinci Sınıf Öğrencilerinin Kütüphane Hizmetlerine Yönelik Tutumu ve Kütüphane Kullanım Alışkanlığı Balıkesir Üniversitesi Örneği

Türk Dili I (TURK 101) Ders Detayları

BASIN VE HALKLA İLİŞKİLER MÜŞAVİRLİĞİ İŞLEYİŞ PROSEDÜRÜ

Selçuk Üniversitesi Merkez Kütüphanesi ve Modern Kütüphanecilik Uygulamaları

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

FASIL 3 İŞ KURMA HAKKI VE HİZMET SUNUMU SERBESTİSİ

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

Olasılık ve İstatistik II (IE 202) Ders Detayları

KOCAELİ ÜNİVERSİTESİ AÇIK ERİŞİM VE KURUMSAL AKADEMİK ARŞİV POLİTİKASI

DYNAMIC BUSINESS ENGLISH

TOBB tarafından yıl içinde açılan eğitim seminer vb. çalışmalar takip edilerek uygun olan eğitimlere azami düzeyde katılım sağlanacaktır.

Değerli Öğretim Üyeleri,

Çabuk Yazılandırma Kılavuzu (Rapid Transcription Guide) v0.4

2013/101 (Y) BTYK nın 25. Toplantısı. Üstün Yetenekli Bireyler Stratejisi nin İzlenmesi [2013/101] KARAR

HEDEF BELİRLEME YÖNTEMİ

ERZİNCAN ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ BİRİMİ KOORDİNATÖRLÜĞÜ

İnovasyon Odaklı Mentörlük Projesi

Türkiye Klinik Kalite Programı

FIRAT ÜNİVERSİTESİ KURUMSAL AÇIK ARŞİV YÖNERGESİ. derlenmesi ve Kurumsal Akademik Arşivlerde korunmasını sağlamak,

İÇİNDEKİLER BÖLÜM 1 BÖLÜM 2

Tanımlar: MADDE: 4 Bu protokolde geçen; a. T.C. Devlet Bakanlığı : T.C. Gençlik ve Spordan Sorumlu Devlet Bakanlığı'nı;

Türkiye Sosyoekonomik Statü Endeksi Geliştirme Projesi. Proje Yürütücüsü Yrd. Doç. Dr. Lütfi Sunar İstanbul Üniversitesi Sosyoloji Bölümü

İnoSuit - İnovasyon Odaklı Mentörlük Projesi

Rapor Hazırlama Kuralları

T. C. KAMU İHALE KURUMU

DYNAMIC BUSINESS ENGLISH

3. HAFTA-Grup Çalışması

KAMU-ÜNİVERSİTE-SANAYİ İŞBİRLİĞİ (KÜSİ) FAALİYETLERİ

T Ü B İ T A K 1601 TÜBİTAK YENİLİK VE GİRİŞİMCİLİK ALANLARINDA KAPASİTE ARTIRILMASINA YÖNELİK DESTEK PROGRAMI

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

5.DERS PROJEDE YÜRÜTMENİN PLANLANMASI


T.C. ANKARA ÜNİVERSİTESİ BELGE YÖNETİMİ VE ARŞİV SİSTEMİ STRATEJİSİ

Olasılık ve İstatistik (IE 220) Ders Detayları

Akademik Bilişim Ekibinin Dikkatine;

İlkokuma Yazma Öğretimi

Doç.Dr. M. Mengüç Öner Işık Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü

TS Corpus Türkçe Derlemi *

YALOVA ÜNİVERSİTESİ BİREYSEL İSTEK VE MEMNUNİYET SİSTEMİ PERFORMANS DEĞERLENDİRME RAPORU

ÖNSÖZ ŞEKİL LİSTESİ TABLO LİSTESİ

B.E.Ü. MÜCEVHER VE GELENEKSEL EL SANATLARI ARAŞTIRMA VE UYGULAMA MERKEZİ MÜDÜRLÜĞÜ

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ BÖLÜMÜ STAJ KLAVUZU

T.C. BATMAN ÜNİVERSİTESİ BEDEN EĞİTİMİ VE SPOR YÜKSEKOKULU SPOR YÖNETİCİLİĞİ BÖLÜMÜ

Dönemi Çalışma Programı. Mimarlar Odası İstanbul Büyükkent Şubesi. Yapı Malzemeleri Komitesi Çalışma Programı

Antalya Üniversite Destekleme Vakfı Akdeniz Üniversitesi Öğrenci Topluluklarına Destek Yönergesi. Birinci Bölüm

MURAT ÖZBAY SERİSİ ÜZERİNE BİR DEĞERLENDİRME

T.C. KARABÜK ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ MÜHENDİSLİĞİ BÖLÜMÜ. Karabük Üniversitesi Mühendislik Fakültesi Tez Hazırlama Kılavuzudur

DERS BİLGİLERİ Ders Ön Koşul Dersleri Dersin Dili Dersin Seviyesi Dersin Türü Dersin Koordinatörü Dersi Verenler Dersin Yardımcıları Dersin Amacı

Açık e-öğrenme. Açıköğretim Fakültesinde e-öğrenme Uygulamaları. M. Emin Mutlu. İnternet Haftası Etkinlikleri 2004 Anadolu Üniversitesi 20 Nisan 2004

ATILIM ÜNİVERSİTESİ ARAŞTIRMA, GELİŞTİRME, TASARIM, UYGULAMA, DANIŞMANLIK VE TEKNOLOJİ TRANSFER OFİSİ (ARGEDA-TTO) YAPI VE İŞLEYİŞ YÖNERGESİ

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

T.C. MALİYE BAKANLIĞI Bütçe ve Mali Kontrol Genel Müdürlüğü SAYI: B.07.0.BMK / /02/2009 KONU: Kamu İç Kontrol Standartları

T.C. ONDOKUZ MAYIS ÜNİVERSİTESİ (1902) KARİYER PROGRAMI PROJESİ BAŞVURU FORMU. Etik Kurul İzin Belgesi Var, ekte sunuldu Gerekli değil

CELAL BAYAR ÜNİVERSİTESİ KIRKAĞAÇ MESLEK YÜKSEKOKULU ARAŞTIRMA YÖNTEM VE TEKNİKLERİ DERSİNE AİT PROJE HAZIRLAMA VE YAZIM KILAVUZU

3. SINIFLAR PYP VELİ BÜLTENİ (17 Aralık Ocak 2013) Sayın Velimiz, 17 Aralık Ocak 2013 tarihleri arasındaki temamıza ait bilgiler bu

Kütüphaneye girebilmeniz için öğrenci kimlik kartınızın yanınızda olması gerekmektedir.

Dr.Öğr.Üyesi HALİL TANIL

AKADEMİK DÜZEYDE PROJE HAZIRLAMA EĞİTİMİ EĞİTİM PROGRAMI SAAT 1. GÜN SAAT 2. GÜN SAAT 3. GÜN 08:00-08:45 Ders Saati: 1. DERS ADI:Bilimsel 08:00

ALIŞTIRMA-UYGULAMA YAZILIMLARI

Türk Dili I (TURK 101) Ders Detayları

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ DOKTORA YETERLİK SINAVI YÖNETMELİĞİ

T.C. MALTEPE ÜNİVERSİTESİ TIP FAKÜLTESİ TÜRK DİLİ-1 DERS PROGRAMI AKADEMİK YILI

Bilimsel Araştırma Yöntemleri. Doç. Dr. Recep KARA

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

ÇARŞAMBA TİCARET BORSASI 2016 YILI YILLIK İŞ PLANI

T.C. DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ METALURJİ VE MALZEME MÜHENDİSLİĞİ BÖLÜMÜ

ÜNİVERSİTEMİZ İÇ KONTROL EYLEM PLANINDA ÖNGÖRÜLEN EYLEMLER İLE İLGİLİ

Yazılım Mühendisliğinde Biçimsel Yöntemler (SE 562) Ders Detayları

TMMOB FĠZĠK MÜHENDĠSLERĠ ODASI

BİNGÖL ÜNİVERSİTESİ SAĞLIK KÜLTÜR VE SPOR DAİRE BAŞKANLIĞI İÇ DENETİM SİSTEMİ

Öncelikli Dönüşüm Programları Eylem Planlarının Uygulama, İzleme ve Değerlendirmesine Dair Usul ve Esaslar

STRATEJİK AMAÇLAR STRATEJİK HEDEFLER STRATEJİLER

Algoritmalara Giriş Ekim 17, 2005 Massachusetts Institute of Technology Profesörler Erik D. Demaine ve Charles E. Leiserson Dağıtım 15.

AR-GE ANKETİ ANALİZ RAPORU

Gamze ALTINOKLU Mehtap ACAR ÜNAL Sefa YILDIZ UĞURLU İlkokul Müdür V. Ortaokul Müdürü Lise Müdür V.

İstanbul İmam Hatip Liseliler Derneği

Transkript:

Türkiye Türkçesi Derleminin Geliştirilmesi E. Adalı C. Tantuğ adali@itu.edu.tr Tantug@itu.edu.tr İstanbul Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü Özetçe Bir dilin yapısal ve istatistiksel olarak işlenebilmesi için öncelikle o dilin bütün söz varlığının bir araya getirilmesi gerekmektedir. Ancak bu işlemin tam olarak gerçeklenemeyeceği açıktır. Bunun yerine, dili temsil edecek büyüklük ve nitelikte tümcelerden oluşan bir dağarcık oluşturulur. Bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş dağarcığa derlem adı verilmektedir. Geliştirilecek derlem sayesinde, dildeki gelişmeler değerlendirilecek; sözlük hazırlanabilecek; dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları yapılabilecek; yazım yanlışları düzeltilebilecek; konuşma tanıma ve konuşma üretme için altyapı oluşturacak; konuşmayı yazıya, yazıyı sese çevirme çalışmalarına destek verilebilecek; tümcelerin anlamları çıkarılabilecek; metinlerin konusunu belirleme ve özetini çıkarma çalışmalarına olanak sağlayacak; soru yanıtlama konusunda destek verecek; diller arası çeviri yapılabilecek ve diğer Türk dilleri için bir altyapı oluşturulacaktır. Diller zaman içinde değişime uğramaktadır. Derlem, belli zaman kesitleri içinde dildeki gelişmelerin izlenmesi için önemli katkı sağlamaktadır. Hazırlanacak derlem, Türkçedeki gelişmeleri zamana bağlı olarak değerlendirme olanağı sağlayacaktır. Giriş Doğal dillerin özelliklerinin ortaya çıkarılması amacıyla farklı araştırmacılar tarafından 1940 lardan beri çalışmalar yapıldığı bilinmektedir. Yakın geçmişte, bilgisayar teknolojisindeki gelişmeler geniş ölçekli veri toplanmasına ve bu verilerin işlenmesine olanak sağladığından doğal dil özelliklerinin belirlenmesi konusunda önemli gelişmeler yaşanmıştır. Bir doğal dilin özelliklerinin ortaya çıkarılması; dil eğitimi, sözlükler hazırlama, dil çözümleme, anlam çıkarma, konuşma tanıma, diller arası çeviri, verileri şifreleme ve çözme, heceleme, görme ve duyma engellilere yardımcı olma gibi konularda temel yapıyı oluşturmaktadır. Bir dilin yapısal ve istatistiksel olarak işlenebilmesi için öncelikle o dilin bütün söz varlığının bir araya getirilmesi gerekmektedir. Ancak tüm söz varlığının bir araya getirilmesi olanaklı değildir. Bunun yerine, dili temsil edecek büyüklük ve nitelikte tümcelerden oluşan bir dağarcık oluşturulabilir. Bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş kümesine derlem adı verilmektedir. Bu çalışmanın amacı, Türkçe üzerine çalışmalar için TDK da kurulacak olan merkeze öncelikli kaynakların oluşturulmasıdır. Bu amaca yönelik olarak gerçekleştirilecek işlem, öncelikle Türkiye Türkçesine ilişkin söz varlığının bir araya getirilmesi ve sözcüklerin niteliklerine göre etiketlenerek kullanım amaçlarına göre temel derlem, büyük derlem, dengeli derlem ve tümce derlemi oluşturulmasıdır. Ayrıca, bu çalışmalara koşut olarak sayısal kitaplık oluşturulacaktır. Oluşturulacak derlemler, gerek akademik çalışmalar gerek güncel hayatta kullanılabilir durumda olacak, aşağıda sıralanan alanlarda katkı sağlayacaktır: Dildeki gelişmeler değerlendirilecek, Sözlük hazırlanabilecek, Dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları yapılabilecek, Yazım yanlışları düzeltilebilecek, Konuşma tanıma ve konuşma üretme için altyapı oluşturacak, Konuşmayı yazıya, yazıyı sese çevirme çalışmalarına destek verilebilecek, Tümcelerin anlamları çıkarılabilecek, Metinlerin konusunu belirleme, özetini çıkarma çalışmalarına olanak sağlayacak, Soru yanıtlama konusunda destek verecek,

Diller arası çeviri yapılabilecek, Diğer Türk dilleri için bir altyapı oluşturacaktır. Yaygın kullanılan diller için amaca uygun derlem çalışmaları yapılmış (Brown Corpus) olmasına karşın Türkçe için gerçek anlamda bir derlem bulunmamaktadır. Türkçe için oluşturulacak bir derlem, Türkçenin altyapı ve yazım birliği konusunda eksiklerini kapatacaktır. Ayrıca Türkiye Cumhuriyeti nin diğer Türk Cumhuriyetlerine öncü olmasını sağlayacaktır. Diller zaman içinde değişime uğramaktadır. Derlem, belli zaman kesitleri içinde dildeki gelişmelerin izlenmesi için önemli katkı sağlamaktadır. Dil devrimi ile başlayan yenileşme çalışmaları sonucunda Türkçede önemli değişimlerin olduğu bilinmektedir. Hazırlanacak derlem, Türkçedeki gelişmeleri zamana bağlı olarak değerlendirme olanağı sağlayacaktır. Derlemin içinde yer alan sözler kullanılarak hazırlanacak bir sözlük; hem içerdiği söz sayısı bakımından hem de yine derlem kullanılarak alınacak tanımları destekleyen örnek tümceler açısından zengin bir sözlük olacaktır. Derlem içinde yer alan örnek sözcük ve tümceler değerlendirilerek dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları daha sağlıklı yapılabilecektir. Türkçe yazım kuralları açısından son derece kurallı ve düzgün bir dildir. Bu açıdan değerlendirdiğimizde yazım yanlışları konusunda derlemin katkısının, diğer dillere oranla fazla olması beklenmemelidir. Ancak derlem kullanılarak yazım yanlışlarının düzeltilmesi sağlanacaktır. Konuşmayı yazıya ve yazıyı sese çevirme işlemleri, çok değişik alanlarda kullanılmaktadır. Bu alanlar içinde, sesli yanıt dizgeleri, görme engellilere yardım çözümleri anılabilir. Sözcüklerin okunuş kurallarını gösteren bir alt derlemin hazırlanması ile yazıyı sese ve sesi yazıya çevirme işlemlerinde önemli bir yol alınacaktır. Bu alanlarda çalışacak bilim adamları ve mühendisler için önemli bir kaynak oluşturulmuş olacaktır. Tümcelerin anlamlarının çıkarılması, bilişim çağında önemli bir konu olarak karşımıza çıkmaktadır. Bir tümcenin anlamının çıkarılmasıyla bu anlamı eyleme dönüştürme olanağı kazanılmaktadır. Yazılı veya sözlü ifadeler, bilgisayar veya bilgisayara bağlı aygıtlar tarafından eyleme dönüştürülebilecektir. Geliştirilecek derlem, anlam çıkarma konusunda önemli katkılar sağlayacaktır. Savunma ve ticari alanda önemli yeri olan şifreleme konusunda, Türkçenin özelliklerine bağlı çözümler kurulabilecektir. Bunun sonucu olarak bu iki alanda katkı sağlayacaktır. Diller arası çeviri, üzerinde yoğun çalışılan konular arasındadır. Derlem, çeviri konusunda olmazsa olmaz temel bileşenlerden biridir. Proje kapsamında, öncelikle Türk lehçeleri arasında koşut tümcelerden oluşan derlemlerin oluşturulması ile lehçeler arasında çeviri yapma işlemine önemli katkılar sağlanacaktır. Derlem Çalışmaları Doğal dillerin özellikleri, genel olarak yapısal ve istatistiksel olmak üzere iki açıdan incelenmektedir (Shannon, 1951). Yapısal incelemeler; sözcük türleri (eylem, ad, ilgeç, sıfat gibi), kök, gövde ve ekler üzerinde yapılmaktadır. İstatistiksel incelemeler ise harf ve sözcükler üzerinde iki ayrı şekilde sürdürülmektedir: Harf incelemelerinde; harflerin n-li (n=1,2,3...) ardalanma sıklıkları, bir harfin diğerine göre durumu gibi harfler arasındaki ilişkiler, ünlü ve ünsüz harfler, sözcük incelemesinde ise bir sözcükteki harf sayısı, sözcükteki harflerin ardalanma durumları, sözcüklerin n-li ardalanma sıklıkları, tümcedeki sözcük dizilimleri incelenmektedir (Jurafsky ve Martin, 2000). Derlem, bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş kümesidir. Derlem farklı bilim adamları tarafından farklı şekillerde tanımlanmaktadır: Derlem, bir dil hakkında varsayım oluşturmak veya dilin dil birimsel tanımına başlamak için kullanılan yazılı metin veya kayıtlı konuşmalardan oluşabilen dil birimsel bilgi topluluğudur. (Crystal, 1991). Bir ülkenin karakteristik özelliğini ve dilin çeşitliliğini göstermesi için seçilen, doğal olarak oluşan metin dağarcığıdır. (Sinclair, 1991). Derlem, Doğal Dil İşleme (DDİ) alanında kullanılabilen ve sözcükler üzerinde işlemlerin hızlı ve doğru şekilde yapılmasını sağlayabilen metinlerden oluşan özel bir sözcük dağarcığı olarak da tanımlanabilmektedir. Derlem Türleri Yetkin bir derlem olabildiğince büyük olmalı (çok fazla sayıda sözcük içermeli) ve dilin tüm özelliklerini taşımalıdır. Derlem üç türlü oluşturulabilmektedir:

Temel Derlem: Dilin özelliklerini gösteren bir derlemdir ve dildeki metinlerden örnekler içermektedir. Büyük Derlem: Doğal dil işleme alanında kullanılabilmek üzere daha fazla metin içermektedir. Tümce Derlemi : Tümce içindeki sözcükler arasındaki bağlılıkları gösteren ağaç yapılı bir derlemdir. Ayrıca derlem Dengelenmiş ve Dengelenmemiş olmak üzere ikiye ayrılabilmektedir. Dengelenmemiş derlem genelde büyük derlemdir. İçinde çok sayıda metin bulunur ve bu metinlerin türü ve miktarı önemli değildir. Dengelenmiş derlem ise, o dildeki tüm alanlardan, kullanım oranlarına göre ağırlaştırılmış miktarda ancak eşit boylarda metin alınarak oluşturulmaktadır. Hazırlanması zor ancak gerekli olan bir derlem biçimidir. Dengelenmemiş derlem, daha fazla metin içerdiği için daha değişik alanlarda kullanılabilir. Amaç harf analizi yapmak ise küçük boyutta bir derlem yeterlidir (Dalkılıç, 2001); ancak sözcük analizi yapılacak ise çok büyük boyutta derlem gereklidir. Ayrıca bazı sıra dışı sözcükler için dengesiz derlemler daha kullanışlıdır. Oluşturulan derlem, güncel yazılı dilin bir örneği olabildiği gibi eski kitap veya belgelerden veya sözlü dili temsil eden konuşmalardan da oluşabilir (Church ve Mercer, 1993). Bir dilde, sözlü anlatımda kullanılan sözcük sayısı, yazılı anlatımda kullanılan sözcük sayısından daha az olmakta, ayrıca sözlü anlatımdaki sözcük yapısı, lehçe farklılıkları veya başka nedenlerle yazılı anlatımlara göre değişiklikler gösterebilmektedir (Jurafsky, Martin, 2000). Yazılı derlemden farklı olarak sözlü derlem, çoğunlukla noktalama işaretleri içermemekle beraber, sözcük olarak işlenip işlenmeyeceği belirsiz olan sözcükler de içerebilmektedir. Sözcükler yarım kalabilmekte, yazılı derlemde olmayan sözlü (hı, hım gibi) ve sözsüz (sessizlik) duraksama ifadeleri bulunabilmektedir. Ayrıca bu ifadelerin her birinin kendisine özgü bir anlamı da bulunmaktadır. Bu anlamların da araştırılması ve bu sözcüklerin o dile özgü ve derlemde yer alabilecek sözcükler olup olmadıkları belirlenmelidir. Derlemin oluşturulması sırasında bileşik sözcükler, çoğul sözcükler gibi aynı kökten türeyen ancak farklı anlamlar içerebilen sözcüklerin de ne şekilde değerlendirileceği belirlenmelidir. Bileşik sözcüklerin veya çoğul sözcüklerin derlem içinde ayrı sözcükler olarak değerlendirilmesi, derlemi oluşturan sözcük sayısını etkileyecek, çözümleme algoritmalarının çeşitli değişikliklere uğramasını veya tüm olasılıkları da dikkate alan algoritmaların geliştirilmesini de beraberinde getirecektir. Dağıtım Merkezleri Bu çalışma sonunda kurulması planlanan ve dil bilimciler ve bilgisayarla doğal dil işleme alanında çalışan araştırmacılara kaynak sağlayacak dağıtım merkezinin dünyada benzerleri bulunmaktadır. Bunlardan en çok bilineni ABD de kurulmuş olan ve ağırlığı İngilizce olmakla beraber, Çince, Arapça gibi başka diller için de kaynak dağıtım görevini üstlenen Linguistic Data Consortium (LDC) kuruluşudur. ABD de Pennsylvania Üniversitesi bünyesinde faaliyetlerini sürdürmektedir (http://www.ldc.upenn.edu/). Linguistic Data Consortium, dil ile ilgili eğitim, araştırma ve teknoloji geliştirme çalışmalarını desteklemek amacıyla elektronik ortamda veri kaynaklarının, araçların ve standartların oluşturulması ve dağıtılması doğrultusunda çalışmaktadır. LCD nin organizasyon yapısı şöyledir: Üniversiteler, firmalar ve kamu araştırma kuruluşları tarafından oluşturulan bir konsorsiyumdur. Merkez yapılanması Pennsylvania Üniversitesi bünyesindedir. 1992 de Advanced Research Projects Agency (ARPA) ve National Science Foundation (NSF) tarafından tahsis edilen kaynaklarla kurulmuştur. Program analistleri, yazılım geliştiriciler, araştırıcılar, işaretleyiciler, pazarlama/iletişim uzmanları gibi çeşitli görevlerde 40 tam zamanlı çalışanı bulunmaktadır. Hazırlanacak Derlemler için Temel İlkeler Derlemlerin hazırlanması sürecinde, dil, temsil ve zaman kesiti olarak uyulacak temel ilkeler aşağıda verilmektedir: a) Tek dil: Hazırlanacak olan derlem sadece Türkiye Türkçesini içerecektir. Ancak, derlemin altyapısı diğer Türk lehçeleri için de kullanılabilir olacaktır. b) Yetkin temsil: Türkiye Türkçesi Derlemi, Türkiye Türkçesini temsil edecek metinlerden oluşacaktır.

c) Zaman kesiti: Dillerin zaman içinde değişime uğradığı bir gerçektir. Hazırlanacak olan derlem yeni Türk harflerinin kabul tarihi olan 1 Kasım 1928 den günümüze kadar Danışma Kurulu tarafından seçilmiş olan metinleri içerecektir. Zaman kesitleri Danışma Kurulu tarafından ayrıca belirlenecektir. Çalışmanın Aşamaları 1. Temel derlem oluşturulması 2. Büyük derlem oluşturulması 3. Tümce derleminin oluşturulması 4. Dengeli derlemin oluşturulması 5. Sayısal kitaplığın oluşturulması 6. Kaynak dağıtım merkezinin kurulması Çalışma aşamalarının tanıtımına geçmeden önce derlem konusunda bazı ön çalışmalar yapılması gerekir. Bu çalışmalar temel ve destekleyici aşamalar olarak adlandırılmış ve kısaca aşağıda anlatılmıştır: Temel Aşamalar a. Kullanılacak sözcük kaynaklarının ve bu kaynakların kendi içinde kullanım yoğunluklarının belirlenmesi. Metinlerin derleme dâhil edilmesi aşamasında farklı ölçütler kullanılmaktadır. Bu ölçütlerden başlıcaları: i. Metnin içeriği: Bilgilendirme amaçlı basılan yayınlardır. Bilimsel makale, herhangi bir seviyeye uygun, değişik bilim dalları, sanat, edebiyat, olaylar, düşünceler veya inançlar üzerine yazılan kitap veya metinleri içerir. ii. Metnin oluşturulma aralığı: Bir konu üzerine yazılan kitap veya süreli olarak basılan gazete bu ölçüt için örnektir. iii. Metnin diğer özellikleri: Derleme dâhil edilen metinlerin sınıflandırılması için metin büyüklüğü, başlangıç ve bitiş noktaları, yazar özellikleri (isim, yaş vs.), metnin anlaşılabilirlik açısından seviyesi (teknik veya edebî terimlerle dolu olması), yazının hedef kitlesi (yaş, cinsiyet vs.) gibi ölçütler kullanılmaktadır. b. Temel olarak alınıp kullanılabilecek projeleri değerlendirebilmek amacıyla proje elemanlarının bilgilendirilmesi. Bilgilendirme konuları: i. Dünya çapında daha önceden yapılmış ve bu alanda başarıya ulaşmış projeler ii. Türkiye çapında daha önceden yapılmış projeler iii. Çalışmanın yürütüleceği kurum dâhilinde yapılmış projeler c. Çalışmanın ana bölümlerini oluşturacak alt görevlerin, bu görevlerin süreçlerinin belirlenmesi ve çalışanlarının atanması. Projenin ana hatlarını oluşturan bu bölümler: i. Veri tabanı düzenleyicisi ii. Kaynak olarak kullanılacak metinleri işleyen düzenleyici iii. Proje sonunda oluşturulacak derlemi kullanıcılar için hazırlayan düzenleyici iv. Gereksinimler doğrultusunda oluşturulacak diğer yazılımlar olmak üzere sınıflandırılabilmektedir. Destekleyici Aşamalar Çalışmanın konusu olmayan ancak projenin geliştirileceği ortamın sağlanması amacıyla gerçekleştirilmesi gereken işlemlerdir. Bunlar: a. Gerekli teknolojinin sağlanması ve çalışma ortamının kurulumu b. Etiketleme kurallarının (standartlarının) belirlenmesi: Geliştirilecek etiket yapısının standart hâle getirilmesi; zaman, maliyet, çalışan etkenleri ve projenin tamamlanması sonrası geliştirme ve bakımı ile ilgili konulara olumlu etki edecektir.

Dengeli Derlem Oluşturulması Dengeli bir derlem oluşturulması aşağıda sıralanan çalışmaları kapsamaktadır: Metin Seçimi Derlem içinde yer alacak metinlerin seçimi, dil konusunda uzman bir kurul tarafından yapılmalıdır. Bu proje kapsamında Danışma Kurulu bu görevi üstlenecektir. Diğer diller için gerçekleştirilmiş derlem çalışmalarında, metin seçiminde kullanılan ölçütler, bilgilendirmek amacıyla Tablo-1 de verilmiştir. Metin türlerinin dildeki etkinlikleri oransal olarak belirlenmelidir. Örneğin, güncel basında yer alan metinlerin dile olan katkısı, doğal olarak iki kişi arasında yazılmış olan özel mektupların etkisinden çok fazladır. Tablo-1: Derlem İçinde Bulunması Önerilen Metin Türleri ve Etki Oranları Metin türü Toplam etki oranı ( % ) Alt Başlık Basında yer alan yazılar 17 Gazete yazıları Dergi yazıları Eğitsel yayınlar 36 Bilimsel yayınlar Dinî yayınlar Beceri ve uğraşı üzerine yayınlar Güncel bilgi yayınları 7 Bilgilendirme yayınları Meclis tutanakları Kurumsal (resmî ve özel) duyurular Üniversite tezleri Kurmaca yazılar 27 Roman Hikâye Polisiye Bilim kurgu Macera Gerçek yazılar 6 Hatıra Gezi yazıları Özel mektup Deneme Mizah 3 T o p l a m m e t i n s a y ı s ı Metin türleri kendi içinde de dağıtılmalıdır. Örneğin, basında yer alan yazılar, haber, yorum, köşe yazısı gibi kümelere ayrılabileceği gibi siyasi, toplumsal ve spor yazıları olarak da kümelenebilmektedir. Derlem içeriğinde, her türden yazıya, dile etkileri oranında yer vermek gerektiği gerçeğinden hareket edildiğinde Tablo-2 de verilen sonuçlar elde edilmektedir. Aynı tabloda derlem içinde yer alması öngörülen metinlerin sayılarına da yer verilmektedir. Derlem içinde yer alması öngörülen metinlerin boyları, derlemde yer alması düşünülen sözcük sayısına bağlı olarak hesaplanmaktadır. Örneğin, yaklaşık 10.000.000 sözcükten oluşması hedeflenen Dengeli Derlem için metin boyu ortalama 2500 sözcük olmalıdır.

Tablo-2 Metin türlerinin derleme önerilen katkı oranları (ayrıntılı) Metin türü Etki oranı ( % ) Metin sayısı Toplam etki oranı ( % ) Basında yer alan yazılar 740 17 Haberler 360 o Siyasi 2 100 o Spor 2 80 o Toplumsal 2 100 o Günlük 1 60 o Mali / Ekonomi 1 40 o Kültürel 1 40 Köşe yazıları 160 o Köşe yazıları 2 80 o Günlük yorumlar 1 40 o Başyazı 1 40 Yorumlar 160 o Tiyatro 1 40 o Kitap 1 40 o Müzik 1 40 o Sanat 1 40 Eğitsel yayınlar 1480 36 Bilimsel yayınlar 1160 o Fen bilimleri 5 220 o Matematik 2 80 o Teknik ve mühendislik 4 160 o Sosyal bilimler 8 340 o Tıp 2 80 o Siyasal bilimler, hukuk 4 160 o Eğitim 4 160 Dinî yayınlar 4 160 Beceri ve uğraşı üzerine yayınlar 3 120 Güncel bilgi yayınları 280 7 Bilgilendirme yayınları 2 80 Meclis tutanakları 2 80 Kurumsal (resmî ve özel) duyurular 2 80 Üniversite tezleri 1 40 Kurmaca yazılar 1140 27 Roman 7 320 Hikâye 5 220 Polisiye 5 200 Bilim kurgu 5 200 Macera 5 200 Gerçek yazılar 240 6 Hatıra 2 80 Gezi yazıları 2 80 Özel mektup 1 40 Deneme 1 40 Mizah 3 120 3 T o p l a m m e t i n s a y ı s ı 4000 Türlere Ait Metin Seçim Yönteminin Belirlenmesi Temel derlem, daha çok sözcüklerin belirsizliklerinin giderilmesi amacıyla gerçekleştirilecektir. Bu derlemin dengeli olmasına gerek yoktur. Ancak olabildiğince dengeli kurmaya gayret edilmesinde de yarar vardır. Büyük derlemin dengeli bir derlem olarak oluşturulması şu nedenlerle zordur: Gerekli metinlerin elektronik ortamda bulunabilmeleri çok zordur. Basılı kaynaklardan yararlanılması, çok ciddi iş gücü dolayısıyla ve bunun sonucu olarak büyük bir bütçe gerektirecektir.

Gerekli metinlerin önemli bir kısmı için telif ödemesi gerekecektir. Bu da önemli bir bütçe gerektirecektir. Yukarıda açıklanan iki nedenle, Büyük derlemin oluşturulmasında, dengeli olmasına olabildiğince özen gösterilecektir. Dengeli derlem için kullanılacak öneri ilkeler şöyledir: Danışma Kurulu tarafından, belirlenen metin türüne uygun olarak yazarlar belirlenecek, bu kişilere ait ve Danışma Kurulu tarafından öngörülen sayıda eser, derleme aktarılmak üzere seçilecektir. Seçilen metin parçası, paragraf başından başlayıp paragraf sonunda tamamlanacaktır. Örnek metin içindeki sözcük sayısı yaklaşık olarak 2500 sözcük biçiminde belirlenmiştir. Seçilen eserin büyüklüğü 2500 sözcüğü aşıyor ise metin içinde rastgele 2500 sözcüklük bir bölüm alınacaktır. Yazarın yazısının boyu 2500 sözcükten az olduğu durumlarda aynı yazarın birden fazla yazısı birleştirilebilir. Dengeli derlemin toplam sözcük sayısı yaklaşık olarak 10.000.000 olacaktır. Metinlerin Sağlanması ve Telif İşlemleri Türkçe derlemin hazırlanması sırasında, 5846 sayılı Fikir ve Sanat Eserleri Kanunu uyarınca, seçilen metinlerin yazarlarından izinlerin alınması gerekmektedir. Bu izinlerin alınması için gerekli girişimler, Danışma Kurulu tarafından yapılacak; yasal düzenlemeler için de girişimlerde bulunulacaktır. İzinler yazılı olarak alınacak böylece ileride doğabilecek sıkıntılar önlenmiş olunacaktır. Dengeli derlemin hazırlanması sırasında, TDK, Millî Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması, telif ödemelerini en aza indirecektir. Metinlerin Bilgisayar Ortamına Aktarılması Derlemde yer alacak metinlerin belli bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir. Derlemde yer alacak metinler, elektronik ortamda bulunabiliyor ise, bu metin doğrudan derleme aktarılacaktır. Derlemde yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir. Basılı metinlerin taranarak elektronik ortama aktarılması işlemi hem emek yoğun hem de teknik güçlüklerle dolu bir çalışma gerektirmektedir. Bu nedenle, metinler olabildiğince elektronik ortamdan sağlanmalıdır. Metin bulunabilecek elektronik ortamlardan bazı örnekler aşağıda sıralanmıştır: Basılmış kitapların elektronik kopyaları Web ortamı Resmî gazete Meclis tutanakları Internet te yayımlanan gazete ve dergiler Elektronik kitaplar Metinler nasıl sağlanırsa sağlansın, metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır: Metin yazarının adı Eserin veya yazının adı Eser veya yazının türü Yayın tarihi Yayın yeri Hedeflediği kitle Taranmış Metinlerin Düzeltilmesi Taranmış ve karaktere çevrilmiş metindeki, çevirme yanlışları insan tarafından düzeltilecektir. Bu amaçla hazır olan bazı yazılımlar da kullanılacaktır.

Metinlerin Ölçünlü Biçime Dönüştürülmesi Elektronik ortamdan ya da taranarak elde edilmiş metinler üzerinde çalışmak ve ölçünlü bir kalıba dönüştürmek gerekir. Bu çalışma genellikle doğal dil üzerinde çalışan bilişimciler için gereklidir. Metin içinde bulunan noktalama işaretleri, kısaltmalar belli kurallara uyularak aynı biçime bir başka deyişle ölçünlü biçime dönüştürülmelidir. Metinleri ölçünlü biçime dönüştürme insan emeği ile yapılabilecek bir çalışma değildir. Ancak insan katkısız da yapılamaz. Temel derlem çalışması sırasında, metin dağarcığının belli bir kısmı elle ölçünlü biçime dönüştürülecektir. Bu çalışmaya koşut olarak geliştirilecek yazılım, insanın yaptığı düzeltmelerden öğrenerek diğer kısımları otomatik olarak ölçünlü biçime çevirecektir. Etiketleme Kurallarının Belirlenmesi Derlemde bulunacak sözcüklerin çözümleme sonuçlarını gösterebilmek için bir standart oluşturulmasında yarar vardır. Böyle bir standardın Türkçe için olmadığı bilinmektedir. Standart etiketleme kurallarının oluşturulmasının daha sonraki çalışmalar için çok önemli olacağı açıktır. Biçim Birimsel Çözümleyici Yazılımı Sözcüklerin biçim birimsel çözümlemelerinin yapılabilmesi için bir yazılım gerekmektedir. Bu konuda, bazı araştırmacıların başarılı ürünleri bulunmaktadır. Mevcut biçim birimsel çözümleyicilerden biri bu çalışma kapsamında kullanılacaktır. Metinlerin Etiketlenmesi On milyon sözcükten oluşan temel derlemdeki sözcüklerin etiketlenmesinde aşağıda açıklanan yöntem kullanılacaktır: 1. 10.000.000 sözcükten oluşan bir dağarcık hazırlanacaktır. Bu dağarcıkta yer alacak metinler olabildiğince dengeli seçilecektir. Projenin süresini kısaltmak açısından, metinlerin tümü elektronik ortamdan sağlanacaktır. 2. 10.000.000 sözcükten oluşan dağarcık ölçünlü biçime dönüştürülecektir. 3. 100.000 sözcüklük bir parça bu dağarcıktan alınacak ve elle etiketlenmeye başlanacaktır. Sözcükleri etiketleme işlemi aslında, biçim birimsel çözümleyicinin ürettiği sonuçlar içinde doğru olanın insan tarafından işaretlenmesi sürecidir. Bir başka deyişle biçim birimsel belirsizliklerin giderilmesi çalışmasıdır. Elle etiketleme işlemi için bir program geliştirilecektir. Şekil-2 de durum gösterilmiştir. Tümce girişi Biçimbirimsel Çözümleyici Çözümler...... Etiketleme yazılımı Şekil-2: Sözcüklerin elle etiketlenmesi süreci Etiketlenmiş sözcük 4. Elle işaretlenmiş 100.000 sözcüklü derlemi öğrenme kümesi olarak kullanan bir yazılım ile 200.000 sözcüklük kümenin etiketlenmesine geçilecektir. 200.000 sözcük içeren derlemin etiketlenmesi sırasında, otomatik etiketleme yazılımının yetenekleri sınanacak, eksiklikleri giderilecek ve daha yetkin hâle getirilecektir. 5. 200.000 sözcük üzerinde otomatik etiketleme yazılı ve insan destekli çalışmalar tamamlandığında 500.000 sözcüklük küme üzerinde aynı işlemler yapılacak ve yazılımın iyileştirilmesine devam edilecektir. Yukarıda anlatılan yöntem ile 10.000.000 sözcük içeren temel derlemin etiketlenmesi tamamlanmış olacaktır.

Otomatik Etiketleme Yazılımı Metinlerin elle etiketlenmesi sırasında, bu işi kendiliğinden yapacak bir yazılım çalışma kapsamında hazırlanacaktır. Büyük Derlemin Oluşturulması 100 milyon sözcükten oluşacak olan büyük derlemin oluşturulması aşağıda sıralanan çalışmaları kapsamaktadır: Metin Seçimi Derlem içinde yer alacak metinler olabildiğince dengeli biçimde seçilecektir. Büyük derlem için sözcük sayısı olarak 100.000.000 hedeflenmektedir. Bu sayıya erişmek için metin sayısı ve bir metindeki sözcük sayısının arttırılması gerekir. Metin sayıları 10 kat arttırıldığında, büyük derlemin sözcük sayısı kolayca 100.000.000 a ulaşacaktır. Metinlerin Sağlanması ve Telif İşlemleri Büyük derlemin hazırlanması sırasında, gerekli izinler alınmaya çalışılacaktır. Büyük derlemin hazırlanması sırasında, öncelikle TDK, Milli Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması düşünülmekte ve olabildiğince telif ödemelerinin azaltılmasına çalışılacaktır. Metinlerin Bilgisayar Ortamına Aktarılması Büyük derlemde yer alacak metinlerin bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir. Projenin giderlerini azaltmak amacıyla, elektronik ortamda bulunan metinlerin oranı yüksek tutulacaktır. Derlemde yer alacak metinler, elektronik ortamda bulunabiliyor ise bu metin doğrudan derleme aktarılacaktır. Derlemde yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir. Metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır: Metin yazarının adı Eserin veya yazının adı Eser veya yazının türü Yayın tarihi Yayın yeri Hedeflediği kitle Metinlerin Yazılım Aracılığı ile Düzeltilmesi Taranmış tüm metinlerdeki tarama yanlışları, mevcut yazılımlar kullanılarak düzeltilecektir. Metinlerin Ölçünlü Biçime Dönüştürülmesi Elektronik ortamdan ya da taranarak elde edilmiş metinler üzerinde çalışmak ve ölçünlü bir kalıba dönüştürmek gerekir. Bu çalışma genellikle doğal dil üzerinde çalışan bilişimciler için gereklidir. Metin içinde bulunan noktalama işaretleri, kısaltmalar belli kurallara uyularak aynı biçime bir başka deyişle ölçünlü biçime dönüştürülmelidir. Metinleri ölçünlü biçime dönüştürme insan emeği ile yapılabilecek bir çalışma değildir. Ancak insan katkısız da yapılamaz. Temel derlem çalışması sırasında, metin dağarcığının belli bir kısmı elle ölçünlü biçime dönüştürülecektir. Bu çalışmaya koşut olarak geliştirilecek yazılım, insanın yaptığı düzeltmelerden öğrenerek diğer kısımları otomatik olarak ölçünlü biçime çevirecektir. Metinlerin Etiketlenmesi Temel derlem çalışmaları sırasında geliştirilen otomatik etiketleme yazılımı kullanılarak 100.000.000 sözcük içeren büyük derlemdeki sözcükler etiketlenecektir.

Tümce Derleminin Oluşturulması 50.000 tümceden oluşan ağaç yapılı tümce derleminin oluşturulması çalışması aşağıda sıralanan kısımlardan oluşmaktadır: Etiketleme Kurallarının Belirlenmesi Tümce temelli derlem için yapılması gereken ilk çalışma, tümcenin bileşenlerinin nasıl etiketleneceğinin belirlenmesi işlemidir. Bu kurallar Danışma Kurulu tarafından belirlenecektir. Örnek Metinlerin Elle Etiketlenmesi Tümce derlemindeki tüm tümceler, uzman kişiler tarafından işaretlenecektir. İşaretleme sürecinde bilgisayar desteğinden yararlanılacaktır. Etiketleme Yazılımı Hazırlanması Tümce bileşenlerinin işaretlenmesi amacıyla bir yazılım hazırlanacaktır. Tümce Derlemi için Etiketleme Çalışması Büyük derlemde yer alan tümcelerin etiketlenmesi amacıyla bir yazılım geliştirilecektir. Bu yazılım kullanılarak 50.000 tümcelik derlem oluşturulacaktır. Sayısal Kitaplığın Oluşturulması 500.000 sayfa metinden oluşan sayısal kitaplığın oluşturulması çalışması aşağıda sıralanan kısımlardan oluşmaktadır: Metin Seçimi Sayısal kitaplık içinde yer alacak metinlerin seçimi Danışma Kurulu tarafından yapılacaktır. Sayısal kitaplık içinde yer alacak sayfa sayısı 500.000 olarak hedeflenmektedir. Bu yaklaşık 2.500 kitap ya da 100.000.000 sözcüğe karşılık gelmektedir. Metinlerin Sağlanması ve Telif İşlemleri Gerekli izinler alınacaktır. Sayısal kitaplığın hazırlanması sırasında, öncelikle TDK, Millî Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması düşünülmektedir. Metinlerin Bilgisayar Ortamına Aktarılması Sayısal kitaplıkta yer alacak metinlerin belli bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir. Basılı metinlerin taranarak elektronik ortama aktarılmasının yüksek maliyet getireceği bilindiğinden olabildiğince elektronik ortamda bulunan metinlerden yararlanılacaktır Sayısal kitaplıkta yer alacak metinler, elektronik ortamda bulunabiliyor ise bu metin doğrudan derleme aktarılacaktır. Sayısal kitaplıkta yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir. Metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır: Metin yazarının adı Eserin veya yazının adı Eser veya yazının türü Yayın tarihi Yayın yeri Hedeflediği kitle Metinlerin Yazılım Aracılığı ile Düzeltilmesi Taranmış tüm metinlerdeki tarama yanlışları, mevcut yazılımlar aracılığı ile düzeltilecektir.

Metinlerin Sorgulanması Değişik dil bilim çalışmaları için gerekli olan temel sorgulama yazılımları hazırlanacaktır. Bu çalışma sonunda elde edilen sorgulama yazılımı, araştırmacıların kullanımına sunulacaktır. Sonuç Bu çalışma kapsamında aşağıdaki hedeflere ulaşılmak istenmektedir: 1. Türk dili için bir kaynak ve araç oluşturulması: Bu bağlamda, ilk aşamada şu üç derlemin oluşturulması a. Temel Derlem b. Büyük Derlem c. Tümce Derlemi 2. Bu çalışmaya koşut olarak a. Sayısal kitaplığın hazırlanması ve 3. Hazırlanan kaynak ve araçları TDK bünyesinde kurulacak ve işletilecek olan dağıtım merkezine vasıtasıyla araştırmacıların kullanımına sunmaktır. Kaynaklar [1] BNC: What is BNC. http://www.natcorp.ox.ac.uk, (2005) [2] Burnard, L. TGCW27, BNC acceptance procedures - Draft OUCS proposals. BNC Working Paper. March 1992. [3] Burnard, L,. TGCW30, Corpus Document Interchange Format, version 1.2, BNC working paper. September 1992 [4] Choi, S.W. Some Statistical Properties and Zipf s Law in Korean Text Corpus. Journal of Quantitative Linguistics, 7:1, pp. 19-30. (2000). [5] Church, K. & Gale, W. Probability Scoring for Spelling Correction. Statistics and Computing, pp.93-103. (1991). [6] Church, K. & Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora. Computational Linguistics, 19:1, pp. 1-24. (1993). [7] Crystal,D. A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition. (1991). Çebi, Y., Dalkılıç, G. Turkish Word N-gram Analyzing Algorithms for a Large Scale Turkish Corpus-Turco, Proc. of the International Conference on Information Technology: Coding and Computing (ITCC 04), IEEE, Las Vegas, Vol 2, pp.236-240, April 2004. (2004). [8] Goldfarb, Charles. The SGML handbook, Oxford University Press. 1990. [9] Griswold, R. E., Griswold, M. T. The Icon Programming Language. Prentice Hall, second edition, 1990 [10] Jurafsky, D. & Martin, J.H. Speech and Language Processing, Prentice Hall, pp. 193-199. (2000). [11] Kukich K. Technique for automatically correcting words in text. Periodical Issue Article of ACM Press, pp.377-439. (1992). [12] Nadas, A. Estimation of probabilities in the language model of the IBM speech recognition system. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32:4, pp. 859-861, (1984). [13] Shannon C.E.: A Mathematical Theory of Communication, The Bell System Technical Journal, 27:379-423, 623-656 pp. (1948) [14] Shannon, C.E. Prediction and Entropy of Printed English.The Bell System Technical Journal, 30:1,pp. 50-64. (1951). [15] Sinclair,J. Corpus Concordance, Collocation. OUP. (1991). [16] Sperberg-McQueen, C.M., Burnard, L (eds.). TEI P2, Recommendations of the Text Encoding Initiative. Chicago & Oxford. 1992.