TS Corpus Türkçe Derlemi *



Benzer belgeler
TS Corpus: Herkes için Türkçe derlem. Taner Sezer * Bengü Sever Sezer ** Mersin Ünivesitesi

TS Corpus: Herkes için Türkçe Derlem


1 MİCROSOFT FRONTPAGE 2003 E GİRİŞ

Plaka Tanıma. Plaka. Tanıma Sistemi. Sistemi

Sağlık Bilimleri Türkçe Derlemi

KULLANICI REHBERİ. Sınırsız Bilgiye Kesintisiz Erişimin adresi

1 MİCROSOFT FRONTPAGE 2003 E GİRİŞ

EYLÜL 2012 ENFORMATİK. Enformatik Bölümü

MİLLİ EĞİTİM BAKANLIĞI YENİ EPOSTA SİSTEMİ HAKKINDA MEB

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

Kütüphane Kullanıcıları için İçeriğin Zenginleştirilmesi II

21.YY Üniversitelerinde Ders Yönetim Sistemleri ve. Üniversitemizdeki Uygulamaları: ESOGÜ Enformatik Ders Yönetim Sistemi Kullanımı

National Education. Yayın Yönetmeni/General Director Bahattin GÖK Destek Hizmetleri Genel Müdürü/Director General of Support Services

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

İÇERİK. Dersin işlenişi Bilgisayara giriş

BİLGİ TEKNOLOJİLERİ VE UYGULAMALARI

ENFORMATİK. Enformatik Bölümü

UFUK ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ MENDELEY KULLANIM KILAVUZU

Türkiye Barolar Birliği internet sitesi

Açık Kaynak Öğrenme Yönetim Sistemleri (Learning Management Systems) Ceren Çalıcı

LKD Kendi İlacını Kullanıyor

Yaşar Üniversitesi Bilgi Merkezi

ÜSKÜDAR ÜNVERSİTESİ EBYS KULLANIM KILAVUZU

Asansör firmaları için özel olarak geliştirilen takip yazılımı: Asansör Otomasyon tanıtım sunumu ve kullanım açıklamaları. / 25

Masaüstü yazılım ürünlerinize YENİ kalıcı lisans satın almak için son gün 31 Ocak 2017!


BDDK ELEKTRONİK BELGE VE ARŞİV YÖNETİM SİSTEMİ

ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA

IV. Ünite A. BAŞLANGIÇ B. TEMEL İŞLEMLER C. FORMÜLLER VE FONKSİYONLAR D. BİÇİMLEME E. İLERİ ÖZELLİKLER ELEKTRONİK TABLOLAMA

TÜRKÇE ULUSAL DİL DERLEMİ PROJESİ BİÇİMBİRİM ÇALIŞMALARINDA BELİRSİZLİKLERİN SINIFLANDIRILMASI VE DAĞILIMI

Hızlı Başlangıç Kılavuzu

ProFTPD FTP Sunucusu. Devrim GÜNDÜZ. TR.NET Sistem Destek Uzmanı.

Gelişmiş Arama, Yönlendirmeli Kullanım Kılavuzu. support.ebsco.com

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

Veri Tabanı Yönetim Sistemleri Bölüm - 3

İşletim Sistemleri. Discovering Computers Living in a Digital World

SAĞLIK TAKİP OTOMASYONU

ELEKTRONİK BELGE YÖNETİM SİSTEMİ KULLANICI GİRİŞ VE E-İMZA İŞLEMLERİ KLAVUZU

SBM ONLINE KULLANIM KILAVUZU

Bildiri Gönderimi için Önemli Tarihler

Enocta Eğitim Platformu Kullanıcı Kullanım Kılavuzu

ODTÜ Kütüphanesi Yeni Web Sayfasının Tasarımı ve Kullanılabilirlik Çalışması

Misyonumuz. Vizyonumuz

Flow Kullanım Klavuzu Mart 2014

yenilikçi bir yatırım yönetim sistemine giriş yapın.

Kurulum Dökümanı * v * Bu döküman FortiLogger versiyonu için hazırlanmıştır.

Android e Giriş. Öğr.Gör. Utku SOBUTAY

İSTANBUL TEKNİK ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK FAKÜLTESİ. AKILLI FİYAT ARAMA MOTORU TiLQi.NET

Kullanım Kılavuzu Ekim 2017

Atıf ve Bibliyografik Yönetim Aracı

Bu çerçevede anlam bilimi modülünü Sözcük Anlambilim Modülü ve Cümle Anlambilim Modülü olarak ikiye ayırmak mümkün.

Doç. Dr. Bülent ÖZKAN Mersin Üniversitesi

ENFORMATİK Dersin Amacı

Doğrudan Temin Sistemi (DTS) BİLGİ İŞLEM DAİRE BAŞKANLIĞI

Bilgisayar Dersi. Öğr. Gör Kağan GÜL. Kırşehir Ahi Evran Üniversitesi

2. HTML Temel Etiketleri

Hızlı Başlangıç Kılavuzu

İnternet Teknolojisi. İnternet Teknolojisi. Bilgisayar-II - 4. Hafta. Öğrt. Gör. Alper ASLAN 1. Öğrt. Gör. Alper Aslan. İnternet Nedir?

Hızlı Başlangıç Kılavuzu

UHeM ve Bulut Bilişim

OTKU.ORG Nasıl Kullanılır?

5.3 Elektronik kaynaklar Elektronik sözlükler. (a) elektronik sözlükler, (b) metin bütünceleri.

Finans Dünyasında Linux ve Özgür Yazılımlar

TEMEL BİLGİTEKNOLOJİLERİ

MOODLE UZAKTAN ÖĞRETİM SİSTEMİ

UNIVERSAL BİLGİ TEKNOLOJİLERİ

Veritabanı Uygulamaları Tasarımı

BitTorrent İstemci Kullanımı

Kullanım Kılavuzu Ekim 2017

XMail. Kurulum ve Senkronizasyon Ayarları Rehberi

Pardus. Erkan Tekman, T. Barış Metin. 18 Mayıs Ulusal Dağıtım Projesi Ulusal Elektronik ve Kriptoloji Enstitüsü. Pardus için 10 Neden

POP3 ve IMAP kurulumu

TÜSE BİLGİ BANKASI KULLANIM KILAVUZU. Hazırlayan: Derya Kaya Kurumsal İletişim Asistanı Türkiye Üçüncü Sektör Vakfı (TÜSEV) Mart 2009, İstanbul

S.O.S Günışığı Lojistik Saha Operasyon Sistemi

Sade ve tam ekran masaüstü kullanımının temel çıkış noktası, aranılan özelliğe çabuk erişimi sağlayan yenilikçi kullanıcı deneyimidir.

Devletin Kısayolu e-devlet Kapısı

T.C. KAHRAMANMARAŞ VALİLİĞİİLAFET VE ACİL DURUM MÜDÜRLÜĞÜ SAĞLIK TAKİPOTOMASYONU

ÖZGÜR YAZILIMLAR İLE J2EE

Ekin RED EAGLE (OS) GÜVENLİ ŞEHİR TEKNOLOJİLERİ YÖNETİM SİSTEMİ

Ekin RED EAGLE (OS) GÜVENLİ ŞEHİR TEKNOLOJİLERİ YÖNETİM SİSTEMİ

ISI Web of Knowledge EndNote Web Copyright 2007 Thomson Corporation

Kullanıcı Kılavuzu. support.ebsco.com

Springer E-book Collection Springer E-book Collection Kullanım Kılavuzu

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Wolvox Kapı Ekranı. AKINSOFT Wolvox Kapı Ekranı Yardım Dosyası. Doküman Versiyon :

BİLGİ İŞLEM DAİRE BAŞKANLIĞI İŞ TANIMLARI SIRA NO ADI SOYADI GÖREV TANIMLARI

VitalSource Bookshelf Nedir? Bookshelf e Giriş Kayıt Kitap Ekleme. Masaüstü ve Dizüstü Bilgisayarda

E-Mükellef Kontrol Programı Kullanım Kılavuzu

SYS Version Satış Yönetim Sistemi

4 Front Page Sayfası Özellikleri

KÜTÜPHANE DEKİ KİTAPLARI ARAŞTIRMA KILAVUZU

Özgür Yazılım Eğitim Yönetim Sistemleri

HÜR VE KABUL EDİLMİŞ MASONLAR DERNEĞİ GİZLİLİK POLİTİKASI

Kurumsal bilgiye hızlı ve kolay erişim Bütünleşik Belge Yönetimi ve İş Akış Sistemi içinde belgeler, Türkçe ve İngilizce metin arama desteği ile içeri

Bilgi Servisleri (IS)

Genel Yazıcı Sürücüsü Kılavuzu

EndNote Web Hızlı Başvuru kartı

Transkript:

TS Corpus Türkçe Derlemi * Taner Sezer Mersin Üniversitesi admin@tscorpus.com taner@tanersezer.com Özet: Derlem dilbilim son yıllarda dilbilimin giderek ilgisini artırdığı bir alandır. Bilgisayar teknolojilerinde yaşanılan ilerlemeye bağlı olarak bilgisayarlı doğal dil işleme (DDİ) alanındaki çalışmalar da artmıştır. Bu bağlamda, Türkçe için de çalışmalar yapılmıştır. Bugüne kadar yapılmış çalışmalar sonucunda ortaya çıkarılmış derlemler ne yazık ki diğer diller için yapılan derlemlerin çok gerisinde kalmıştır. TS Corpus bu alandaki boşluğu kapatmak üzere tasarlanmış bir çalışmadır. Bu çalışmada TS Corpus'un temel tasarım özellikleri üstünde durulacaktır. Anahtar Kelimeler: Derlem, Türkçe, Türkçe Derlem, Sözcük Türü, Biçimbirimsel Çözümleme Abstract: Corpus linguistics is a sub-discipline of linguistics that attracts more interest in the recent years. Parallel to developments in computational technologies, natural language processing (NLP) studies also increased. In this respect, many studies have done for Turkish. Unfortunately corpora that produced by these studies have fallen far short to studies for other languages. TS Corpus has designed in this respect, to fill the gap in this discipline. This paper addresses the main design features of TS Corpus. Keywords: Corpus, Turkish, Turkish Corpus, Part of Speech Tagging, Morphological Analysis * Türkiye Türkçesi

1. TS Corpus Nedir? TS Corpus tamamı sözcük türü bazında işaretlenmiş toplam 491 milyon birimden (491,360,398 milyon token) oluşan genel amaçlı bir Türkçe derlemdir. TS Corpus Taner Sezer tarafından hazırlanmıştır. TS Corpus'un işler halde tutulması, sunucu üstündeki bakım ve devamlılık çalışmaları ile geliştirilme süreci yine Taner Sezer tarafından sürdürülmektedir. Derlemin şu an yayında olan sürümü ikinci versiyonudur. Gelecek sürümler için çalışmalar devam etmektedir. Derlemin üçüncü sürümünün erken bir önizleme sürümü derlem internet sayfasından erişilebilir durumdadır. Aşağıdaki listede TS Corpus'un temel tasarım özellikleri verilmiştir. TS Corpus bugüne kadar Türkçe hedeflenerek yapılmış: a. En büyük Türkçe derlemdir (491 milyon sözcük) b. İlk defa sözcük türü etiketlenerek (PosTAG) yapılmış Türkçe derlemdir c. İlk defa biçimbirimsel etiketlemesi (Morphological Tagging) yapılarak oluşturulmuş Türkçe derlemdir d. İlk defa kök sözcük (Lemma) işaretlemiş ve kök sözcük ile arama yapılabilen Türkçe derlemdir. e. İlk defa online erişimli olarak yapılmış Türkçe derlemdir. f. İlk defa 7 farklı dilbilimsel istatistiki veriyi kullanıcıya sunabilen Türkçe derlemdir. g. İlk defa CWB altyapısı kullanılarak yapılmış Türkçe derlemdir. h. İlk defa kullanıcıların sonuçlarını farklı biçimlerde kaydetmesine olanak tanıyan Türkçe derlemdir i. İlk defa açık erişimli olarak sunulan Türkçe derlemdir. Derlemin ilk sürümü Mart 2012'de, ikinci sürümü Ağustos 2012'de yayınlanmıştır. TS Corpus ile ilgili detaylı bilgi ve derleme erişim için http://tscorpus.com adresinden yararlanılabilir. 1.1 Temel Özellikler TS Corpus un temel özellikleri şöyle sıralanabilir. Açık Erişim TS Corpus akademik çalışma ve araştırma yapmak isteyen kullanıcılara tamamıyla açık erişim sağlar. Derlemin sunduğu tüm özellikler kayıtlı her kullanıcı için açıktır. Bütünüyle özgür yazılımlar kullanılarak hazırlanmış olan TS Corpus bilginin özgür paylaşımını esas alır. Otomatikleştirilmiş Kullanıcı Girişi TS Corpus'u kullanmak isteyen kullanıcılar derlemin anasayfasında bulunan kayıt formunu doldurarak kolayca kullanıcı adı ve parola oluşturabilirler. Kayıt formunu dolduran tüm kullanıcılar ilgili sayfadaki kullanım anlaşmasını kabul etmiş sayılırlar.

Biçimbirimsel Arama (Ek araması) TS Corpus'u oluşturan girdi veride sözcükler yalnızca sözcük türü bazında değil, aynı zamanda biçimbirimsel yapılarıyla da etiketlemiştir. Böylelikle etiketlenmiş tüm bu veri CQP Syntax aramalarıyla erişilebilir hale getirilmiştir. Anlam bulanıklığı (Disambiguation) TS Corpus sözcük türü etiketleri anlambulanıklığı giderilerek sunulmuştur. Aktif versiyonda bu işlemin başarımı %100 değildir. Gelecek sürümlerde bu oranın artırılması hedeflenmektedir. Kullanıcı Bazlı Erişim TS Corpus kullanıcı adı ve parola ile erişim olanağı sunar. Böylelikle kişisel tercihlerinizi belirleyebilir ve kaydeder, daha önceki aramalarınıza kolaylıkla ulaşabilirsiniz. CWB & CQP tabanlı derlem altyapısı TS Corpus, aralarında BNC'nin de (British National Corpus) bulunduğu modern derlemlerle aynı altyapıyı kullanır. Derlemin çalışma hızı ve sunduğu özellikler bu sayede yüksek bir standard sağlamaktadır. Düzenli İfadelerin Kullanımı TS Corpus düzenli ifadeler ile arama yapmaya olanak sağlar. Joker ve kaçış karakterlerinin kullanımına izin verir. Ayrıca gelişmiş aramalar için CQP sözdizimiyle arama yapmak mümkündür. Sözcük Türü İşaretlenmiş Veri TS Corpus'u oluşturan veri TrMorph başta olmak üzere sözcük türü işaretlemesi yapan yazılımlarla etiketlenmiştir. Kullanıcılar bu sayede belirli sözcük türlerini veya belirli sözcük türleri ile oluşturulmuş yapıları rahatlıkla arayabilirler. Sözcük, Lemma ve Ek Araması TS Corpus'un etiketlenmesinde, sözcüklerin derlem içindeki görünümlerinin (token) yanısıra lemma (kök) biçimleri de etiketlenmiştir. Böylelikle kullanıcıların lemma'ları da arayabilmeleri sağlanmıştır. Versiyon 2 ile birlikte TS Corpus, derlem içinde bulunan etiketlenmiş 62 biçimbirimsel etiketin de aranabilmesine olanak sağlamaktadır. Sonuçları Popüler Dosya Biçimlerde Kaydedebilme TS Corpus yapılan çalışmaları popüler dosya biçimlerinde kaydetmeye olanak sağlar. Kullanıcılar çalışmalarını kaydederken düz metin belgesi, MS Word, MS Excel ve FileMaker gibi yoğun olarak kullanılan dosya biçimlerinden birini seçebilir. Sonuçları İki farklı Şekilde Gösterebilme TS Corpus getirdiği sonuçları "Bağlam İçinde Anahter Sözcük"(KWIC) ve "Cümle Görünümü" şeklinde sunar. Öntanımlı seçenek kullanıcı tarafından belirlenebilir.

2- İnternet Üstünde TS Corpus Ts Corpus yayımlanmasından kısa süre sonra internet üstünde kendine yer bulmuştur. Bazı örnek internet kaynakları şunlardır. CWB 2 (Corpus WorkBench) Resmi Sitesi: http://cwb.sourceforge.net/demos.php Michigan Üniversitesi Kütüphanesi Veritabanı (ABD): http://guides.lib.umich.edu/content.php?pid=29660&sid=218850 North Carolina Üniversitesi (ABD): http://www.unc.edu/~jlsmith/lex-corp.html Wikipedia: http://en.wikipedia.org/wiki/text_corpus 3- TS Corpus Neden Öncü ve Farklıdır? 3.1 TS Corpus İşaretlenmiş bir Derlemdir Derlemleri belirli kriterlere göre sınıflandırmak mümkündür. Derlem verisinin işlemlenmesine göre en belirgin sınıflandırma işaretlenmiş ve işaretlenmemiş derlemler olarak yapılmaktadır. İşaretleme ile dilbilimsel bilginin derlemi oluşturan metinlere iliştirilmesi kastedilmektedir. Bu dilbilimsel bilgi, paragraf veya cümle işaretlemesi gibi biçimsel etiketleme olabileceği gibi "modern derlemlerde" sözcük türü (PosTAG) ve biçimbirimsel (Morphological) çözümlemeyi içerir. Sözcük türü sözcüğün bulunduğu bağlam içindeki işlevini gösterir. TS Corpus dört (4) farklı düzeyde işaretlemeyle (etiketle) gelmektedir. Bu etiketler şunlardır: a. Word (Sözcük): Derlem içinde görüntülenen sözcük. Elmalarım b. PosTag (Sözcük Türü Etiketi): Derlem içindeki tüm sözcük ve noktalama işaretlerine iliştirilmiş Sözcük Türü etiketi. Elmalarım _Noun c. Morph (Biçimbirimsel Etiket): Derlem içindeki tüm sözcüklere iliştirilmiş, sözcüğün içbirimlerini ve biçimbirimsel çözümlemesini taşıyan etiket. Elmalarım_Noun+A3pl+P1sg+Nom d. Lemma (Kök Yapı): Derlemdeki her bir sözcüğün kök yapısını gösteren etiket. Elmalarım_Elma İşaretlenmemiş bir derlemde aşağıdaki örnekte ele alınan cümle yalnızca bir harfler dizisi olarak algılanmaktadır. Etrafında yükselen dağlar ayna gibi yansıyormuş göle... Bu, dağlar sözcüğünün çoğul, yansıyormuş sözcüğünün henrhangi bir ek aldığının derlem tarafından ayırt edilmediği yaratmadığı bir durumdur. Yani kullanıcı ler, lar çoğul eki aratmak istediğinde bunu bir sözcüğün sonuna gelen hem ler, hem lar dizilerini aratarak bulabilmektedir. Elbette bu durumda evlerde sözcüğü bulunamayacak ancak polar sözcüğü hatalı olarak sonuçlar içinde gösterilecektir. 2. En geçerli ve güvenilir derlemlerden biri olarak kabul edilen İngiliz Ulusal Derlemi (BNC) dahil olmak üzere çok sayıda derlem tarafından kullanılan, yüksek sayıdaki sözcüğü (2 milyar sözcük) dilbilimsel işaretlemeleri de dahil olarak işleyebilen yazılım bütünü.

TS Corpus ise bu cümleyi şöyle ele almakta: Word PosTag Morph Lemma Etrafında _Noun _Noun+A3sg+P3sg+Loc etraf yükselen _Verb _Verb+Pos+Adj+PresPart yüksel yemyeşil _Adj _Adj yemyeşil dağlar _Noun _Noun+A3pl+Pnon+Nom dağ ayna _Noun _Noun+A3sg+Pnon+Nom ayna gibi _Postp _Postp+PCNom gibi yansıyormuş _Verb _Verb+Pos+Prog1+Narr+A3sg yansı göle _Noun _Noun+A3sg+Pnon+Dat göl... _Punc _Punc... Böylelikle kullanıcı ister sözcüğü yazarak, ister belirli bir sözcük türü etiketini kullanarak, ister biçimbirimsel eklerden birini kullanarak, isterse de kök sözcüğü girerek arama yapabilir. Bir başka örnek olarak da vucüt parçalarıyla ilgili olarak verilebilir. Türkçe'de bu sözcükler ek aldıklarında genelde ses düşmesi yaşarlar. Burun, burnum, ağız, ağzım örneklerinde olduğu gibi. TS Corpus üstünde Lemma aramasıyla burun sözcüğü aratıldığında, bu sözcük ile ilgili tüm sonuçlar getirilecektir. burnum, burnun, burnundan, burnumu, burun vb. İşaretlenmemiş bir derlem ile bunu yapmak mümkün değildir. 3.2 Açık ve Platform Bağımsız Erişim Türkçe için bu çalışmanın yapıldığı sırada 3 internet üzerinden erişebilir Türkçe derlemler ODTÜ Türkçe Sözlü Derlemi ve Türkçe Derlem Projesi'dir. Arama sonuçlarının gösterimi ve içerdiği veriye göre her iki derlemi de "özel amaçlı derlemler" olarak sınıflandırmak mümkündür. Bunun dışında kullanılabilir tek derlem yine ODTÜ tarafından hazırlanan ODTÜ Türkçe derlemidir 4. ODTÜ Türkçe Derlemi internet üzerinden ulaşılacak şekilde tasarlanmamıştır. Kullanıcılar derlemi kendi bilgisayarlarında yerel olarak çalıştırabilmektedir. Ayrıca yazılımsal bir nedenle bu derlem ancak sistem yereli İngilizce olarak ayarlandığında Türkçe karakterleri gösterebilmektedir. ODTÜ Türkçe Derlemi'ne erişebilmek için internet üzerinden indirilen bir formu doldurmak ve derlemin internet sitesinde belirtilen adrese fax veya posta yoluyla ulaştırmak gerekmektedir. Derlem, ancak MS Windows tabanlı bilgisayarlarda çalışmaktadır. 3 Eylül 2012 4 Bu derlem 2 milyon sözcükten oluşmaktadır ve işaretlenmemiş bir derlemdir. http://www.ii.metu.edu.tr/node/1441

Bu anlamda TS Corpus Türkçe için öncüllerinden farklı ve ilk defa olarak: * İşaretlenmiş bir derlem sunmaktadır. * İnternet üzerinden açık erişim sağlamıştır. * Platform bağımsız ve tüm modern internet tarayıcılarıyla uyumlu olarak, bilgisayar, netbook, tablet bilgisayar, mobil telefon vb. cihazlar üzerinden erişim sunmaktadır. 4. Hedefler TS Corpus'un geliştirme çalışmaları devam etmektedir. Bu bağlamda temel hedefler şöyle sıralanabilir. a. Daha verimli sözcük türü etiketlemesi: TS Corpus'ta kullanılan sözcük türü etiketleme yazılımı %94 oranında doğru etiketleme yapmaktadır. Bu işaretleme, disambiguation işleminden sonra derlem arayüzüne %80-82 oranında yansımaktadır. Bu oranın geliştirilmesi çalışmaları sürmektedir. b. Daha verimli biçimbirimsel çözümleme: Biçimbirimsel çözümleme sözcük türü etiketlemesi yazılımına bağlı olarak iyileştirilmektedir. Aynı zamanda TS Corpus istatistiki bir altyapı sunarak bu geliştirme sürecine katkı sağlamktadır. c. İyileştirilmiş biçimsel etiketleme: Paragraf ve cümle bazında etiketleme çalışmaları devam etmektedir. TS Corpus version 2.1 sürümünde cümle ve paragraf bazında biçimsel etiketleme yapılmış olup bu özellik versiyon 2.1 in yayımlanmasıyla kullanıcılara sunulacaktır. d. Derlem verisinin işlemlenmesi: TS Corpus'un kullandığı veri internet üzerinden toplanmış ve gazete haberleri, üniversite internet sayfalarında bulunan toplantı tutanakları, yönergeler, TBMM tutanakları, forum ve blog sayfalarından oluşmaktadır. Bu veride bulunan hatalar önceki sürüme oranla giderilmiştir. Hatalı karakterler içeren veriler temizlenmiştir. Versiyon 2.1 ile tekrar eden bazı verilerin de temizlenmesi sağlanacaktır. e. İki veya daha çok dilli kullanıcı arayüzü: TS Corpus şu an sadece İngilizce arayüz ile kullanıcıya sunulmuştur. Versiyon 3 ile kullanıcıların Türkçe veya İngilizce arayüzü derleme giriş yaparken seçmesi sağlanacaktır. Derlem arayüzünü bir başka dile çevirmek kolay bir işlemdir. Ancak asıl hedef, kullanıcının derleme ulaşmasıyla birlikte, istemci bilgisayarın sistem yereline uygun dili derlem arayüzünün sunmasını sağlamaktır. Böylelikle kullanıcıların ayar/tercih yapmasına gerek kalmadan bilgisayarlarında kullandıkları sistem dili öntanımlı olarak derlem arayüzünün dili olarak ayarlanacaktır. Uzun vadede geliştirilmesi düşünülen bir diğer yenilikse istemci bilgisayarın işletim sistemine bağlı olarak, sonuçları kaydetme sırasında satır sonu işaretinin ayarlanmasıdır.

5. Sonuç Türkçe için bir eksiklik olan derlem ihtiyacının giderilmesinde, TS Corpus ile önemli bir adım atılmıştır. TS Corpus, Türkçe bilişimsel dilbilim çalışmalarında bir kilit taşı olmuştur. Öncüllerinden tamamen bağımsız bir yapıda tasarlanmış olup, tüm öncüllerinin üstünde özellikler sunmaktadır. Bu anlamda TS Corpus kendinden sonra yapılacak çalışmalar için de koyulacak hedeflerin yükseltilmesini sağlamıştır. Daha gelişmiş sözcük türü işaretleme yazılımları yapmak için TS Corpus bir araç olacaktır. Diğer diller için yapılmakta olan anlambilimsel çözümlemesi (semantic parsing), ön-art gönderim (anaphora/cataphora) işaretlemesi bulunan derlemler yapmanın ilk adımı atılmıştır. Son olarak, TS Corpus'un geliştirme çalışmalarının sürdürülüyor oluşu, bu çalışmanın dünyadaki güncel ve modern diğer derlemlerde bulunan özellikleri içeren yeni sürümlerinin oluşturulmasını sağlayacaktır. TS Corpus un geliştirme süreci ilk versiyondan bu yana süregeldiği şekilde hiçbir kurum veya kuruluştan destek almadan ve GPL 5 lisanlı olarak sürdürülecektir. Böylelikle TS Corpus, bilişimsel dilbilim alanında Türkiye Türkçe si için açık erişim olanağı sağlayan bir geliştirme aracı olma anlayışından taviz vermeksizin yoluna devam edebilecektir. 5 General Public Licence Genel Kamu Lisansı

6. Kaynakça Atkins, S., Jeremy, C. and Nicholas, O. (1992) Corpus design criteria, Literary and Linguistic Computing 7:1-16. Biber, Douglas, Susan Conrad and Randi Reppen. (1998) Corpus Linguistics, Cambridge University Press. McEnery, T., Baker, P. and Hardie, A. (2006) A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press Sezer, Taner. (2010) Corpus Linguistics Theory and Design and Application of a Turkish Corpus. Yayımlanmamış Yüksek Lisans Tezi. Mersin Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press.