http://www.tnc.org.tr Yeşim Aksan, Mustafa Aksan, S. Ayşe Özel, Hakan Yılmazer, Umut U. Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay Mersin Üniversitesi, Çukurova Üniversitesi
Türkçe Ulusal Derlemi (TUD) tasarım ölçütleri TUD-Tanıtım Sürümü Yazılım Mimarisi Genel Özellikler Derlem Veritabanının Yapısı Sözcükbirimleştirme ve Evrik Dizin Yapısı Sorgulama ve Ön Belleğe Yükleme TUD-Tanıtım Sürümü Arayüz Özellikleri
Belli bir dili temsil edebilme amacıyla, belli bir zaman aralığında yazılı ve/veya sözlü dil kullanım metinlerini/konuşmalarını, yazar/konuşan özelliklerini (cinsiyet, yaş, eğitim vb.), iletişim ortamlarının alan ve yayın ortamlarına (kitap, süreli yayın vb.) göre dengeli ve katmanlı örnekleme yoluyla derleyip, belirlediği ölçütleri kapsayan ayrıntılı veribilgisi ve temel dilbilimsel çözümleme araçlarıyla birlikte elektronik ortamlarda sunan kaynaklara derlem denir.
Derlem dilbilim ölçütlerine uygun ODTÜ Türkçe Derlemi (Say vd., 2002) 2 milyon sözcük TUD (Aksan vd., 2012) 50 milyon sözcük Turkish WaC: Turkish Word Sketches (Ambati vd., 2012) 42 milyon sözcük
Doğal dil işleme yazılımlarını sınamaya uygun TurCo (Dalkılıç ve Çebi, 2002) 50 milyon sözcük BOUN Corpus (Sak vd., 2008) 423 milyon sözcük Türk Dilleri için Büyük Derlemler (Large Corpora for Turkic Languages (Baisa ve Suchomel, 2012) 3.37 milyar sözcük (Türkiye Türkçesi)
Derlem dilbilimin, derlem kurma ilkelerine ve yaklaşımlarına göre geliştirilen; En iyi uygulamaları örnek alan ve derlem tasarımı sürecine uyarlayan; Yıl, konu alanı, metin türü, yayın ortamı açısından ayrıntılı ve zengin bir çeşitliliğe sahip olan;
Web tabanlı, kullanıcı dostu, kendine özgü arayüz tasarımı olan; Dili temsil gücüne sahip, dengeli, yazılı ve sözlü Türkçe örneklerini içeren, Türkçenin ilk referans derlemi.
Temsil Temsil yeterliliği olmaksızın bir derlem için geçerli olan yalnızca o derlem için geçerlidir ve başka hiç bir şeye genellenemez. (Leech 2007:135)
Derlem kuranlar, kendi ortamlarında kurabilecekleri en iyi derlemi kurarlar. Burada en doğru tutum derlemin içeriği konusunda ayrıntılı ve dürüst olmalarıdır. Derlem kuranın derlemini nasıl betimlediğine bakarak, derlemi kullanan araştırmacılar vardıkları sonuçların ne kadar güvenilir olacağını ölçebilirler, aynı derlemi gelecekte kullanacak olanlar da, kendi amaçları açısından ne ölçüde güvenilir olduğunu değerlendirebilirler. (Sinclair 2005)
Derlemin Temsil Gücü Derlemi oluşturan örneklemin dil değişkelerini ne ölçüde kapsadığı temsil gücüdür. (Biber, 1993:242) Denge Denge Derlemi oluşturucak türlerin (genre) kapsamı. Örneklem Her tür için metin parça/bütünlerinin seçimi.
Zaman İçindeki Değişim Derlemi durağan ya da dinamik bir dil modeli olarak görmek. Denge Derlem Metinlerini Belirleme Derlem metinleri ya da metin parçaları dış ölçütlere göre belirlenmelidir: Durum (situation), tür (genre), kesit (register). (Sinclair 1995)
Alan: Konu Alanı Kurgusal: Yazın Bilgilendirici: Toplumbilimleri, sanat, ticaret-finans, düşünce-inanç, dünya sorunları, uygulamalı bilimler, doğa-temel bilimler, serbest Zaman: 1990-2009 Yayın Ortamı Kitap, süreli yayın, çeşitli (yayımlanmış-yayımlanmamış) metin, konuşma metinleri
Kurgusal Yazın: Şiir, öykü, roman, tiyatro Bilgilendirici Toplumbilimleri: Sosyoloji, coğrafya, antropoloji, psikoloji, hukuk, eğitim, dilbilim Sanat: Görsel sanatlar, sahne sanatları, mimari, medya, edebiyat, tasarım Ticaret-finans: İş dünyası, finans, endüstri, meslek, istihdam Düşünce-inanç: Din, felsefe, mitoloji, halkbilim, metafizik inançlar Dünya sorunları: Tarih, politika, askeri, arkeoloji, ekonomi, hükümet, kalkınma Uygulamalı bilimler: Mühendislik, tıp, iletişim, bilgisayar, teknoloji, enerji Doğa-temel bilimler: Matematik, fizik, kimya, biyoloji, astronomi Serbest: Yemek, gezi, moda, spor, ev ve bahçe, hobiler
Kitap Süreli Yayın Toplumbilimleri: Sosyoloji Gazete: Ulusal Dergi: Bilimsel dergiler, popüler dergiler Çeşitli Yayınlanmış Rapor, reklam metni, broşür, yasa-yönetmelik Çeşitli Yayınlanmamış Öğrenci denemeleri, bloglar, e-postalar, twitter Konuşma Metinleri Film senaryoları, röportajlar, açılış konuşmaları
Alan Kurgusal : % 19.00 Bilgilendirici: % 81.00 Yayın Ortamı Kitap : % 58.00 Diğer : % 42.00
Kurgusal: ~% 19.00 Bilgilendirici: ~% 81.00 Toplumbilimleri: % 14.55 Sanat: % 7.50 Ticaret-finans: % 9.21 Düşünce-inanç: % 4.31 Dünya sorunları: % 20.05 Uygulamalı bilimler: % 7.19 Doğa-temel bilimler: % 2.96 Serbest: % 14.96
Alan Sözcük Sayısı Sözcük Sayısı Oranı (%) Kurgusal Düzyazı 9.194.674 19.22 Toplum Bilimleri 6.961.521 14.55 Doğa ve Temel Bilimler 1.419.861 2,96 Uygulamalı Bilimler 3.441.050 7,19 Dünya Sorunları 9.591.797 20.05 Ticaret ve Finans 4.404.453 9.21 Sanat 3.586.866 7.50 Düşünce ve İnanç 2.061.068 4.31 Serbest 7.155.998 14.96 TOPLAM 47.817.288 100
004% 003% 1990 1991 006% 003% 003% 003% 1992 1993 007% 003% 1994 1995 004% 1996 1997 008% 007% 004% 004% 005% 1998 1999 2000 2001 2002 2003 006% 005% 2004 2005 006% 006% 006% 005% 2006 2007 2008 2009
Ortam Sözcük sayısı Oran Kitap 31.287.371 64,19 Süreli Yayın 16.214.712 33,27 Çeşitli: Yayınlanmış 60.432 1,25 Çeşitli: Yayınlanmamış 61.657 1,27 TOPLAM 47.624.172 100
Genel Özellikler Derlem Veritabanının Yapısı Sözcükbirimleştirme ve Evrik Dizin Yapısı Sorgulama ve Ön Belleğe Yükleme
Güçlü Bir Sunucu, Arama Sorgularının hızlı gerçekleşmesi, Açık Kaynak Kodlu Yazılımlar Web Tabanlı Uygulama British National Corpus (BNC web) kullanım alışkanlıklarını göz önünde bulunduran, Web 2.0 ve HTML 5 standartlarına uygun
Free-BSD 9.0 İşletim Sistemi Apache Web Sunucusu (Apache/2.2.22) MySQL Veritabanı Sunucusu (MySQL 5.5.22) PHP Betik Dili (PHP 5.4.21) PERL Programlama Dili
MySQL Veritabanı Sunucusu (MySQL 5.5.22) MyISAM tablo yapısı Full Text arama özelliği UTF-8 karakter kodlaması
PHP APC extension Teksözcük tablosunun RAM'e aktarımı Sorgulama terimlerinin RAM'de saklanması APC - Serializing Neden Igbinary Serializing?
PHP Laravel Framework Cache Kullanıcı ayarları Rapor güncellemeleri Optimize edilmiş veritabanları Etkin RAM kullanımı (Evrik dizin) Hızlı sorgu sonuçlarının gösterimi (Düzenli ifade, joker karakter, sözcük türü-ek araması)
Yıllara Göre Kullanıcı Sayısı Dağılımı Kurumlara Göre Kullanıcı Sayısı Dağılımı 4 27 19 26 46 194 107 377 394 Eylül 2012-Aralık 2012 Ocak 2013-Aralık 2013 Ocak 2014-Şubat 2014 Yurtiçi Üniversiteler Yurtdışı Üniversiteler Belirtmeyenler Özel Şirketler Devlet Kurumları Bireysel
600 Çalışma Alanlarına Göre Kullanıcı Sayıları 500 495 400 300 200 100 78 0 8 3 2 2 9 Çalışma Alanları Sosyal Bilimler Sağlık Bilimleri Beşeri Bilimler Belirtilmemiş Fen Bilimleri-Teknik Bilimler-Mühendislik Eğitim Teknolojileri İşletme Ekonomi
Güncel bir doğal dil işleme (DDİ) sözlüğü oluşturmak, Oluşturulan sözlük yardımıyla otomatik işaretlenen TUD metinleri kullanılarak derlemtemelli bir sözcük ve ek sıklığı sözlüğü hazırlamak, Çevrimiçi çalışan morfolojik işaretleyici tasarlamak ve geliştirmek, TUD un 2. versiyonunu kullanıcılara sunmak.
49 milyon yazılı, 1 milyon sözlü Türkçe veri üzerinden sorgu yapabilme Biçimbirim işaretlemesi: Sözcük türü, başsözcük ve çekim ekine özel sorgu yapabilme Kullanıcıya özgü ayarlar : Sorgu geçmişi ; kaydedilmiş aramalar
Aksan, Y., Aksan, M., Koltuksuz, A. ve diğ. 2012. Construction of the Turkish National Corpus (TNC). In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012) İstanbul, Turkiye. http://www.lrecconf.org/proceedings/lrec2012/papers.html Aksan, Y., Demirhan U. U. (baskıda) Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama. 27. Ulusal Dilbilim Kurultayı Bildirileri. Ankara: Hacettepe Üniversitesi. Ambati, B. S.Reddy, ve A. Kilgarriff. 2012. Word Sketches for Turkish. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC 12), Istanbul, Turkey, European Language Resources Association (ELRA). Biber, D. 1993. Representativeness in corpus design. Literary and Linguistic Computing, 8:4, 243-257. Dalkılıç, G., Çebi,Y. 2002. A 300 mb turkish corpus and word analysis. Advances in Information Systems, pages 205 212. Hoffmann, S. ve diğ. 2008. Corpus linguistics with BNCweb-A practical guide. Frankfurt: Peter Lang.
Leech, G. 2007. New resources, or just better old ones? The Holy Grail of representativeness, Hundt, M. ve diğ. (eds). 133-149, Corpus linguistics and the Web. Amsterdam: Rodopi. Sak,H, Güngör, T., Saraçlar, M. 2008. Turkish language resources: Morphological parser, morphological disambiguator and web corpus. Advances in natural language processing, pages 417 427. Say, B..Zeyrek,D. Oflazer, K., Özge, U. 2002.Development of a corpus and a treebank for present-day written Turkish. Proceedings of the eleventh international conference of Turkish linguistics, pages 183 192. Sinclair, J. 1995. Paper presented at XI Econtro da Associacao Portuguesa de Linguistica. Lisbon. 2-4 October 1995. Sinclair, J. 2005. Developing linguistic corpora: A guide to good practice. http://www.ahds.ac.uk/guides/linguistic-corpora/appendix
TÜBİTAK (113K039) : 2013-2015 TÜBİTAK (108K242) : 2008-2011 ME.Ü, BAP-FEF İDEB (SYA) 2009-3 : 2009-2010 ME.Ü, BAP-FEF İDEB (MA) 2009-3 : 2009-2010 ME.Ü, BAP-FEF İDEB (SYA) 2010-3 : 2010-2011
http://www.tnc.org.tr