Yeşim AKSAN ve Yılmaz YALDIR Mersin Üniversitesi yaksan@mersin.edu.tr, yilmazyaldir@hotrnail.com

TÜRKÇE SÖZVARLIGININ NİcEL BETİMLEMESİ 1 Yeşim AKSAN ve Yılmaz YALDIR Mersin Üniversitesi yaksan@mersin.edu.tr, yilmazyaldir@hotrnail.com ı. GİRİş Bilgisayar bilimlerindeki son dönem gelişmeler, bilgisayarların dilsel veriyi işleme yeterliliklerini artırmıştır. Yürütülen çok sayıdaki çalışma, farklı bilimsel ve uygulamalı ortamlar için tasarlanan ürünlerin ortaya çıkmasını sağlamıştır. Gün geçtikçe daha çok bilgi ve veri sayısalortama aktarılmakta, sayısalolarak işlenmekte ve kullanıma sunulmaktadır. Veri saklama ve veriye erişmede her dönemde olduğu gibi doğal dil en önemli araç olmaya devam etmektedir. Günümüzde, farklı amaçlarla, bilgisayar uygulamalarında ve yazılım geliştirme süreçlerinde, doğal dil işlemlerne süreçleri daha da fazla ilgi çekmeye başlamıştır. Bu ilgi yalnızca bilimsel alanda değil, ticari alanda da belirgin bir biçimde izlenebilmektedir. Bilgisayarlı çeviri gibi temel uygulama alanlarının yanı sıra kayıtlı veriye en etkin (arama motorları, anahtar sözcük seçimleri, arama ölçütleri ve sınırlılıkları) ve kolay erişebilme yollarının bulunması, kayıtlı verinin korunması ve şifreleme dizgelerinin geliştirilmesi çalışmaları kaçınılmaz olarak doğal dil işlemle çalışmalarının sonuçlarından yararlanmak zorundadır. Doğal dil işlemleme, genellikle kapsamlı ve iyi tasarlanmış, temsil yeterli liği yüksek olan büyük dil derlemleri üzerinden yapılmaktadır. Hem kuramsal düzlemde araştırmacıların farklı sorularına yanıt bulabilecekleri, hem de uygulama amaçlı pek çok ürünün geliştirilmesinde kullanılmak üzere tasarlanmış ve kurulmuş, genel ya da özel amaçlı farklı türlerde dil derlemleri özellikle son 20 yıldır kullanıma açıktır. Farklı ilgi ve sorulara yanıt verecek çok sayıda, türde ve boyutta derlem günümüzde kullanılmaktadır. Derlemler üzerinden sürdürülen dil incelemelerinin bir türünü de sözcük sayımı ve sıklığı çalışmaları oluşturmaktadır. Sözcüklerin kullanım sıklıklarının saptanmasının hem kuramsal dilbilim çalışmaları açısından hem de dil işlemle süreçlerinin uygulamaları açısından önemi bilinmektedir. Pek çok uygulamada sözcük sıklığı verisi karar alma süreçlerini doğrudan etkilemektedir. Sözcüğün kullanım sıklığı doğrudan dilbilimsel ve sözcükbilimsel anlamda sözcüğün bir özelliği değildir. Sıklık, doğası gereği, göreli olacak bir sonucu belirtecektir. Hangi metin topluluğu üzerinden saptandığı, hangi dönemi ve türleri temsil eden derlemlerden çıkarıldığı önemli sorulardır ve sıklık sonuçları daha pek çok özelliğin yanı sıra burada kısaca değinilen derlem özelliklerine göre farklılık gösterecektir. Bu çalışmanın amacı, i'er milyon sözcük içeren ve 1990-2009 yılları arasında yayımlanan kurgusal metinler ve gazetelerden toplanan verilerden oluşan Türkçe Kurgusal Metinler (TKM) ve Türkçe Süreli Yayınlar (TSY) altderlemlerini veritabanı olarak kullanarak bu derlemlerde yer alan kök sözcük çeşitlerinin sayısal sıralı sözcük sıklığı listelerini 377

hazırlamak; farklı kesitleri (registers) temsil eden bu sözcük listelerini, kesitlerin sözvarlıkları açısından karşılaştırmaktır. Bu yazıda önce sözcük sıklığıyla ilgili temel kavaramlar ve alan yazın tanıtıldıktan sonra, sıklık listelerini hazırlamada izlenen yöntem anlatılacak; kurgu ve süreli yayın derlernlerinden elde edilen sıralı sözcük listeleri ve sözcük türü dağılımları karşılaştırmalı olarak sunulacaktır. 2. SÖZCÜK SIKLIGI: TEMEL KAVRAMLAR ve SIKLIK ÇALIŞMALARI Bu çalışmada kullanılan bazı temel kavramlar sıklık, örnekçe, çeşit, başsözcük ve çeşit/örnekçe oranıdır (Baker, Hardie, McEnery, 2006; Baroni, 2009). Derlem-temelli yöntemleri dile ilişkin diğer yaklaşımlardan ayıran temel fark sıklık bilgilerinin kullanılmasıdır. Sıklık, bir dilsel öğenin bir derlem içinde kaç defa geçtiğini gösteren sayısal değerdir. Bir deri em bağlamında sıklıktan sözedildiğinde burada anlatılmak istenen örnekçe, çeşit, ve başsözcük ve benzeri öğelerin bu derlernde kaç kez gerçekleştiği, bu derlernde bu öğelerle kaç kere karşılaşıldığıdır. Dilsel bir öğenin derlem içindeki sıklığı, sayısal bir değerle verilirse, bu değere ham sıklık (raw data) adı verilir. Bu sıklık değeri çoğunlukla yüzdelik olarak ifade edilmektedir. Örnekçe terimi şu şekilde tanımlanabilir: bir derlernde her iki yanında bir boşluk karakteri ya da bir noktalama işareti bulunan dilsel birimlerden her birine örnekçe (token) adı verilir. Örneğin, bir derlernde kitaplık, adamdan, evlere, gelmiştik, uzak gibi bazı sözcüklerin bulunduğu varsayıldığında, bu sözcüklerden her biri birer örnekçe olmaktadır. Gerçekte sözcük - örnekçe ilişkisi her zaman bu kadar basit değildir. Derlem çalışmalarında benimsenen bazı kodlama sistemleri bir sözcüğü birden fazla örnekçeye ayırabilmektedir. Örneğin, İngilizcede didn'ı ya da he's gibi sözcükler, bu tür kodlama sistemleri tarafından, did ve n 't ile he ve 's gibi, ikişer örnekçeden oluşmuş öğeler olarak çözümlenebilmektedir. Bu bağlamda karşılaşılan bir başka temel sorun da derlernde bulunan noktalama işaretleri ya da rakam içeren ifadelerin birer örnekçe olarak kabul edilip edilmeyeceğidir. Bu ve benzeri durumlarda, sonradan karışıklığa neden olmamak için derlemin örnekçeleri saptanırken hangi kodlama sisteminin kullanılacağı, özellikle de hangi öğelerin örnekçe olarak kabul edileceği, yukarıda da değinildiği gibi bazı sözcüklerin birden fazla örnekçeye ayınlıp ayrılmayacağı deri em dilbilimci tarafından çalışmanın başlangıcında açık ve kesin bir şekilde belirlenmelidir. Çeşit teriminin tanımına gelinirse, derlemi oluşturan ve birbirinden farklı olan her sözcük biçimine, sözcük çeşidi, kısaca çeşit (type) adı verilir. Örnekçe ile çeşit arasındaki ilişki şu şekilde açıklanabilir: bir derlernde farklı yerlerde 8 adet evlerimizde sözcüğünün bulunduğu düşünülürse, bu durumda evlerimizde sözcüğü tek bir çeşit olacak, ve bu sözcük çeşidi derlernde 8 adet örnekçe ile temsil edilecektir. Örnekçe ile çeşit arasındaki ilişkiyi açıklamak amacıyla şimdi de elde tek bir tümceden oluşan bir mini derlem bulunduğu varsayılsın: cı) Duygu ve coşkuları belli konular çerçevesinde ve belli bir tarzda sunmak istedi. Yukarıda yapılan tanımlamalara göre bu tek cümlelik mini derlernde 12 tane örnekçe bulunmaktadır. Mini derlernde 'belli' ve 've' sözcükleri ile ikişer kere karşılaşıldığı için, bu derlernde bulunan çeşit sayısı ise l O'dur. Sonuç olarak, bir derlernde aynı sözcük farklı 378

yerlerde bir kaç kere tekrar edilse bile hala tek bir çeşitten, tek bir sözcük çeşidinden bahsedilmektedir. Diğer bir deyişle, tek bir çeşit birden fazla sayıdaki örnekçe ile temsil edilmektedir. Burada belirtilmesi gereken bir diğer nokta da, bu tanımlara göre, bir derlemdeki örnekçe sayısının çeşit sayısından hiçbir zaman küçük olamayacağıdır. Başsözcük terimi şu şekilde tanımlanabilir: daha farklı tanımları olmakla birlikte, bu çalışmada benimsenen şekliyle başsözcük (headword/lemma), bir sözcük çeşidinin çekim eklerinden arındırılmış yalın haline verilen addır. Örneğin, bir derlernde i adet mutluluğundan, 2 adet mutluluktan, 3 adet mutluluklar, 4 adet mutlulukta, ve 2 adet mutluluktu, sözcüklerinin bulunduğunu varsayalım. Bu durumda elde toplam 12 tane örnekçe ile 5 farklı çeşit var demektir. Bu 5 çeşit, aslında aynı sözcüğün, mutluluk sözcüğünün, çekim ekleri almış halleridir. Öyleyse, bu 5 çeşit sözcüğü temsil eden tek bir başsözcük, mutluluk başsözcüğü olacaktır. Bu tanımlamalara göre bir derlemdeki başsözcük sayısı hemen her zaman, o derlemdeki sözcük çeşidinden çok daha azdır. Çeşit/örnekçe oranı (type/token ratio)'na gelindiğinde, bu terim bir derlemdeki çeşit sayısının, örnekçe sayısına bölünmesi ile elde edilen değeri göstermektedir. Bu nedenle çeşit/örnekçe oranı, yüzdelik bir değer olarak verilir. Çeşit sayısı, örnekçe sayısından hemen her zaman çok daha küçük olduğu için söz konusu oran daima 1'den küçük olacaktır. Çeşit/örnekçe oranı değer olarak büyüdükçe derlem metinlerinde farklı sözcükler kullanıldığı düşünülürken, bu oranın daha az çıkması derlernde hep benzer sözcüklerin birçok defa tekrar edildiğini, metinlerin sürekli olarak sınırlı bir kümeye ait olan aynı sözcüklerle yazıldığını gösterir. Öte yandan, derlernin büyüklüğü arttıkça, işlev sözcükleri çok fazla tekrar edildiği ama diğer içerik sözcüklerine çok fazla yeni sözcük eklenmediği için, çeşit/örnekçe oranı hep daha da düşük çıkacaktır. Örneğin derlem büyüklüğü iki katına çıkarıldığında, örnekçe sayısı da hemen hemen iki kat artacak, ancak çeşit sayısı asla bu oranda artmayacaktır. Sözcük sıklığı alanındaki çalışmalara baktığımızda, tarihsel açıdan basit sözcük sayımını erken dönem i7.yy'la kadar götürmenin olası olduğunu görüyoruz (Popescu, 2009). Eski dönem çalışmaların bir değerlendirmesinde, ilk dönem çalışmaların genellikle uygulama amaçlı, belirli bir faydanın beklendiği çalışmalar olduğu belirtilmektedir. Bu faydacıl bakış, kuramsal ilgilerin artmasına karşın bugün de halen devam etmektedir. Sözcük sıklığı davranışından, farklı uygulama amaçları için yararlanan psikoloji, eğitim bilimleri, bilişim bilimleri, gibi çok sayıda alandan söz edilebilir. Dilbilimi açısından bakıldığında da birçok alanda sözcük sıklığı davranışlarının bilinmesi anlamlıdır. Bunlar arasında belki de en çok sözcükbilimi ve sözlükçülük alanları bundan en fazla faydalanan alanlardır. Dilbilimi çalışmalarını etkileyen en önemli çalışma G. K. Zipf'in (1965) çalışmasıdır. Bu çalışmayı önemli kılan özelliği, sözcük sıklığını yalnızca bir sayısal değer olarak görmeyip, sıklık verisini dilsel düzlem ve birimler ile ilişkilendirerek bir anlamda sayısal dilbilimi alanının kuramsal çerçevesini de oluşturmuş bulunmasıdır. Sözcük listeleri ve sıklık listeleri üzerinde odaklanan temel çalışmaları bilgisayar öncesi ve sonrası çalışmalar olarak iki ana gruba ayırmak anlamlıdır. Bilgisayar öncesi sıklık çalışmaları ile ilgili olarak söylenebilecek ilk şey 20. yüzyılın başından itibaren, bilgisayarın kullanıma girmesinden çok önceki dönemlerde, eğitim amaçlı, istatistiki bilgiler veren büyük ve etkileyici sıklık çalışmalarının yapılmış olduğudur. Bu türdeki ilk çalışmalardan olan Thorndike (1921), klasik edebi eserler ve çocuk kitaplarından alınan 4,5 milyon 379

sözcüklük bir derlem üzerine kurulmuştur. Günümüzde okuma materyallerinin tasarım ve redaksiyonunda ön planda olan 'sözcük dağarcığı kontrolü' ilkesi Thorndike'ın bu öncü çalışmasına çok şey borçludur. Temelolarak bu ilkeyi şu şekilde ifade edebiliriz: bir dili öğrenen kişilere ilk önce o dilde en sık geçen sözcükler gösterilmelidir. Öte yandan diğer öncü çalışmalar ise, Carnegie projesi ve onu takip eden yayınlardır. 1930'lu yıllarda ise Carnegie Şirketinin desteğiyle Thorndike, West, Palmer ve Sapir gibi pek çok dilbilimci ve dil öğretimi uzmanı bir araya gelmiş ve sözcük dağarcığı çalışmaları yapmıştır. Bu çalışmalardan elde edilen yayınlardan en önemlilerinden bir tanesi Thorndike ve Lorge (1944)'tür. Bu eser Thorndike'in önceki çalışmaları gözden geçirilerek, The Teacher's Wordbook of 30,000 Words adıyla yayımlanmıştır. Daha sonra bu çalışmanın da gözden geçirilmesi ile Lorge (1949) yayını oluşturulmuş ve bu yayın da Carnegie projesinin güncellendiği Michael West'in, 1953 tarihli, General Service List of English Words adındaki oldukça etkili olan eserine ilham vermiştir. Bilgisayar kullanılarak gerçekleştirilen başlıca sıklık çalışmalarıyla ilgili olarak ise Brown Derlemi, Britanya Ulusal Derlemi (BNC, British National Copus) ve Çağdaş Amerikan İngilizcesi Derlemi'nden (COCA, Contemporarary Corpus of Amercian English) söz etmek yerinde olacaktır. Brown Derlerni, Henry Nelson ve Francis Kucera tarafından 1961 yılından itibaren Amerikan İngilizcesinin yazılı materyalleri kullanılarak hazırlanmış yaklaşık 1 milyon sözcüklük bir derlerndir. Derlem, 15 farklı türden (genre) gelen 500 farklı metinden oluşmaktadır. Brown Der/emi, tasarlandığı dönem için bilgisayar yardımıyla yapılan ilk derlem olma özelliğini taşımaktadır. Bu nedenle kendisinden sonra gelen çalışmalar tarafından örnek alınan bir eser niteliğindedir. Bu derlem temelinde oluşturulan sıklık çalışması, 1967'de yayımlanan Computational Analysis of Present Day American English adlı kitaptır. BNC ise 1980'ler ve 1990'larda İngiliz İngilizcesinde üretilmiş metinleri esas alan, % 90'ı yazılı, % l G'u sözlü metinlere dayanan i00 milyon sözcüklük bir derlerndir. Derlernin yazılı bileşeni farklı kesit ve türlerden metinleri içerir. Sözlü bileşen ise farklı bölge ve toplumsal katmandan gönüllüler tarafından kaydedilmiş gündelik karşılıklı konuşmalar ile iş toplantısı, radyo programı, resmi toplantılar ve benzeri ortamlarda kaydedilmiş dilsel veriyi barındırır. Derlemi oluşturan bütün alt alanların salt sıklık listeleri hem başsözeüklü hem de tür olarak hazırlanmış; listeler birbirleriyle karşılaştırılmıştır. Derlem CLA WS adlı bir yazılım yardımıyla sözcük türü yönünden işaretlenmiştir. BNC'den elde edilen sözcük sıklığı verileri Word Frequencies of Written and Spoken English: Based on the British National Corpus (2001) adlı yayında sunulmuştur. Mark Davies tarafından hazırlanan COCA ise 400 milyondan fazla sözcükten oluşan bir monitör derlerndir. Bu deri em temelinde yayımlanan Frequency Dictionary of American English (2010) pek çok yönden en yetkin sözcük listelerini araştırmacılara ve İngilizceyi öğrenenlere sunmaktadır. Bu sözlükte sadece sözcük sıklıkları değil, en sık geçen eşdizimli sözcüklerin listeleri de vardır. Derlernin sözcük sayısı açısından büyük olması listelerde yer alan sözcük sayısını da büyük yapmıştır: ilk 1000-3000 sözcük değil, ıo bin - 20 bin sözcüğün sıralı sıklık listeleri yapılmıştır. Ayrıca salt sıklık listesi hazırlamakla kalınmamış, listelerde yer alan sözcüklerin birlikte oldukları ilk 20-30 eşdizim öğesi de saptanmıştır. Bu bağlamda, Türkçede yapılan sözcük sıklığı çalışmalarına değinilecek olursa, Pierce (1961), (1962) ve Göz (2003)'ten sözedebiliriz. Pierce (1961) ek sıklıkları üzerine yapılmış bir çalışmadır. Türkçedeki eklerin sıklıkları, çoğu okuma yazma bilmeyen fabrika işçilerinin 380

sohbetlerinin (47,000 sözcük) ve Türk ordusunda okuma yazma bilmeyen erlerin askerlik hizmetleri öncesindeki gündelik hayatlarıyla ilgili hikayelerinin (93,000 sözcük) bant kayıtlarının çözümünden elde edilen 140,000 sözcüklük bir derlernde her bir biçimbirimin görünüşünün sayılması ile belirlenmiştir. Pierce (1961) 140,000 sözcüklük sözlü Türkçe derleminde 112,001 farklı örnek tespit edildiğini bildirmektedir. Çalışmanın en sık bulunan 21 ek olarak saptadığı eklerin tümü çekim ekidir. Pierce (1961 )'in saptamalarına göre en sık görülen on biçimbirimi şöyle sıralayabiliriz. Tablo 1 Pierce (1961) sözlü Türkçede en sık kullanılan 10 biçimbirim Sıra Biçimbirim Örnek 1 -İyor geliyor 2 -Di gitti 3 -(y)a okula 4 -(y)i evi 5 -lar kitaplar 6 -(s)i kapısı 7 -(y)im giderim 8 -miş gelmiş 9 -(n)in evin 10 -DE okulda Pierce (1962) Türkçe eklerin yazılı metinlerden oluşmuş bir örneklem üzerinde ortaya çıkış sıklıkları üzerine yapılmış bir çalışmadır. Yazılı metinler kümesinin romanlar, askeriyeye ait saha el kitapları, devlet okullarında okutulan ders kitapları, şiirler, dini hikayeler, kısa hikayeler ile gazete ve dergilerden seçilmiş bazı makalelerden oluştuğu belirtilmiştir. Toplam küme 2,000,000 sözcükten oluşmakta, çalışma ise bu küme içinden alınan yaklaşık 100,000 sözcüklük bir örneklemi kullanmaktadır. Pierce bu çalışmasında, yazılı metin örnekleminde toplam sayısı 139 adet olan farklı ek bulduğunu ve bu eklerin örneklernde 60,038 defa geçtiğini saptamaktadır. Buna göre 139 ekten yalnızca 36 adedi çekim eki olmasına rağmen, çekim ekleri eklerin toplam sıklığının % 74'ünü temsil etmektedir. En sık görülen 29 ek, toplam sıklığın % 78'ini temsil etmektedir. Bunlar içinde sadece 4 tanesi türetim ekidir. Pierce (1962)'nin bulgularına göre Türkçe yazılı metinlerde en sık karşılaşılan 10 biçimbirim Tablo 2'de gösterilmiştir. Tablo 2 Pierce (1962) yazılı Türkçede en sık kullanılan 10 biçimbirim Sıra Biçimbirim Örnek i -(y)i evi 2 -lar kitaplar 3 -DE okulda 4 -(n)in evm 5 -(y)i kitabı 6 -(y)im giderim 7 -(y)a okula 8 -Di gitti 9 -DEn evden 10 -miş gelmiş 381

Pierce bu çalışmada bulduğu 139 biçimbirimi daha önce sözlü dil üzerine yaptığı çalışmanın bulguları ile karşılaştırır. Son olarak, Pierce (1962), her iki listede de sıklıkları yüksek olan biçimbirimler arasında pek az bir farkın var olduğunu ifade etmesine karşın, her iki çalışma arasındaki en çarpıcı farkın yazılı dil örnekleminde bulunan biçimbirimlerin çeşitliliği olduğunu belirtir. Göz (2003) ise yazılı Türkçenin sıklık sözlüğünü hazırlamıştır. Araştırmacı kullandığı yöntem bağlamında materyallerin seçimi aşamasında ilk olarak yazılı Türkçeyi temsil edebilecek bir havuz oluşturulduğundan bahsetmektedir. Göz (2003)'ün bu yöntemi kullanarak bir araya getirdiği materyallerin türleri ve yüzdeleri Tablo 3' deki gibidir: Tablo 3 Göz(2003)yazllı materyallerin türleri ve dağılımları Tür % Basın 35 Roman-Hikaye 20 Bilim 8 Popüler Bilim 9 Güzel Sanatlar, Biyografi 8 Hobi 4 Din 3 Okul Kitabı 3 Muhtelif 10 Basın 35 Havuzdan özel isimlerin çıkarılmasıyla elde edilen sözcük sayısı 975,141 olmuştur. Göz (2003) sözcük sıklığı sözlüğünün oluşturulması başlığı altında ise özelolarak hazırlanmış bir WORDCOUNT programı yardımıyla havuzda var olan sözcüklerin sayısını (örnekçeler) belirlediğini ve aynı olan sözcükleri toplayıp birleştirme işlemini uyguladığını (çeşit sayısını bulma) belirtir. Göz bu işlem sonucunda elde edilen farklı sözcük (çeşit) sayısının 179,861 olduğunu ifade ederek, bu sözcüklerin her birisinin ait oldukları çekim eklerinden arındırılmış yalın sözcüklere eklenerek toplam farklı sözcük sayısının 22,693 'e düşürüldüğünden söz etmekte ve bu sayının sözlükteki sözcük (başsözcük) sayısını gösterdiğini söylemektedir. 3. YÖNTEM Biz bu çalışmada, Nooj yazılımının Türkçe eklentisini oluşturma ve yazılırnın Türkçeyi işleyebilmesi öncelliğinden yola çıkarak, kök çeşidlerinin sıklıklarını bulmayı hedeflediğimiz için örnekçelkök çeşidi eşlernesi yaptık. NooJ derlem işleyici (Silberztein, 2003) yardımıyla örnekçe listesi hazırlandı. Bu yazılırnda tüm boşluk ya da noktalarna işaretleriyle birbirinden ayrılmış diziler ayrı örnekçedir. Noktalarna imleri, rakam içeren diziler, ve alfabe-dışı karakterlerden oluşmuş diziler örnekçe olarak kabul edilmez. Özel adlar ve kısaltmalar listeden elendi ve örnekçe listesi NoojTürkçe eklentisinin sözlük oluşturma aşamasında kullandığı veritabanı yardımıyla ilgili kök sözcüklerle eşleştirildi. Farklı olan 53 bin sözcüğün kök çeşidi sıklık dizinleri alındı. Çeşit sıklıkları birleştirildi. Örneğin, okula, Okula, OKULA gibi girdiler tek girdi biçimine getirildi. İlgili kök sözcükler ad, eylem, sıfat, belirteç, ilgeç, adıl, bağlaç, sayı sözcük ulamları kullanılarak manüel olarak sözcük türlerine ayrıştırıldı. Kök sözcük ve sözcük türü sıklıkları hesaplandı. Listelerin 382

oluşturulmasında çoklu işlemlemeye gidildi. Derlem işleyici olarak Nooj, hesap tablosu için Excel ve veritabaniarı için FileMaker yazılımları kullanıldı. Yöntemin en önemli sınırlılığı eşsesli sözcüklerin belirsizliğiyle ilgilidir. Belirsizlik, ancak bağlam içinde belirginleştirme yapılarak ya da sözcük türü işaretlemesi yazılımıyla işaretlenmiş bir derlem üzerinde çalışılırsa mümükün olduğunca giderilebilir. Biz bu araştırma kapsamında eşsesli sözcük girdilerinin kök sözcük sıklıklarını çokladık. Örneğin, açtı girdisi 85 kez kullanılmışsa aç eylem ve aç sıfat olarak iki defa 85 kez kulllanıldı biçiminde listelerde yeraldı. Ayrıca ol ve et katkısız eylemleriyle oluşturulmuş ve ayrı yazılan bileşiklerin sıklığı hesaplanmadı. Örneğin, ziyan et- bileşiği ziyan ve etmek olarak sayısal sıralı listelerde yer aldı. Sözü edilen belirsizliklerin giderilmesi, sayısal sıralı listelerin daha kesin sıklık sayılarını vermesini sağlayacaktır. 4. BULGULAR VE YORUMLAR Dördüncü bölümde, bu araştırma için geliştirdiğimiz ve yukarıda kısaca özetlediğimiz yöntemi kullanarak iki farklı kesiti temsil eden TKM ve TSY derlemleri kök sözcük çeşidleri temelinde önce örnekçelkök sözcük çeşidi oranlaması, ardından sayısal sıralı sıklık listeleri ve son olarak da sözcük türleri dağılımları açısından karşılaştırılacaktır. 4.1. TKM-TSY Derlemleri: ÖrnekçelKök Çeşidi Oranları İkinci bölümde sözettiğimiz türlerinlörnekçelere oranlanmasını, kök sözcük çeşitlerininlörnekçelere oranını bulmak için uyguladık. Tablo 4'de görüldüğü gibi, kurgusal metinlerde bu oran binde onbirken, gazete metinlerinde binde dokuzdur. Bu ilk gözlem bize kurgusal metinlerde çok az farkla da olsa daha fazla kök sözcük çeşidi olduğunu göstermektedir. Tablo 4 TKM ve TSY derlemleri örnekçelkök çeşidi oranları Derlem Örnekçe* Kök Çeşidi Oran Kurgusal Metinler 1,136.779 12,929 0,011 Süreli Yayınlar 1,020.731 9,799 0,009 * Özel adlar ve çokanlamlı girdiler işlendikten sonra elde edilen sayılar 4.2. TKM-TSY Derlemleri: Sayısal Sıralı Liste Sayısal sıralı listelerde en sık kullanılan 15 sözcüğün arasında, her iki derlernde de belirsiz tanımlık bir, bağlaç ve, katkısız eylemlerden ol, et, gibi işlev sözcükleri, içerik sözcüklerinden önce listenin ilk sıralarında yer almıştır (bkz. Tablo 5). Bunların ardında, al, ver gibi çokanlamlılık yönünden zengin eylemleri üst sıralarda ve sık kullanılır görüyoruz. Bu liste temelinde, kurgusal metinler ve süreli yayınlar arasındaki en çarpıcı fark, kurgusal metinlerde, işlev sözcükler içinde ve ilk 6 sıralaması arasında iki tane adılın (o, ben) yer almasıdır. Bu saptama, yazın ve gazete haber metinlerinin üretiminin farklılığına ilişkin bir ipucu olarak değerlendirilebilir. Kennedy (l998:102)'de de belirtildiği gibi, konu açısından daraltılarak hazırlanan derlemlerde içerik sözcükler sıklık listelerinin üst sıralarındadır. Bizim sayısal sıralı listemizde de, kurgusal metinler ve süreli yayınlar derlernlerinde sırasıyla, gör-aç 12. sırada, bak-gör 13. sırada, bil 15. sırada saptanmıştır. Özel amaçlı hazırlanmış altderlemlerimizden elde ettiğimiz bu sonuçları Göz (2003)'ün genel amaçlı hazırladığı veritabanından elde 383

edilen sayısal sıralı sıklık listesiyle karşılaştırdığımızda ilk 15 sözcük: arasında bu eylemlerin bulunmadığını görüyoruz. Göz'ün Yazılı Türkçenin Kelime Sıklığı Sözlüğü'ünde, görmek 3L. sırada, bilmek 39. sırada ve bakmak 45. sıradadır. Tablo 5 TKM ve TSY derlemleri sayısal sıralı en sık kullanılan 15sözcük Sıra Kurgusal Gözlenen Sıklık Süreli Yayınlar Gözlenen Sıklık Metinler 1 bir 33,673 ol 24,847 2 ol 20,242 ve 21,081 3 o 14,844 bir 18,879 4 ve 11,316 et 11,235 5 bu 11,194 bu 10,985 6 ben 10,443 yap 9,551 7 de 10,363 al 6,256 8 et 7,750 ver 6,216 9 ne 7,474 gel 6,192 LO gel 7,466 için 6,067 II gibi 6,492 ile 5,281 12 gör 5,853 aç 4,947 13 bak 5,632 gör 4,344 14 baş 5,592 ön 4,295 15 kendi 5342 bil 4291 Derlemleri sözcük sıklığı profili temelinde karılaşıtırmak için kullanılan Logaritmik Olabilirlik istatastiksel yöntemi (Rayson ve Gardisde, 2000) ile TKM derleminin sayısal sıralı 10 sözcüğünün TSY derlemine göre Logaritmik Olabilirlik değerleri hesaplandı. 0.05 manidarlık düzeyinde, bu işaret sıfatı dışında, listedeki tüm sözcüklerin sayısal sıralı sıklıkları kullanıldıkları kesite göre anlamlı bulundu. Bir başka deyişle, örneğin, bir sözcüğü kurgusal metinlerde gazete haber metinlerine göre, her 100 örneklernin 95'inde daha fazla kullanılmıştır. Kısacası, TKM ve TSY derlemeri arasındaki fark her zaman Tablo 6'da görüldüğü biçimde olacaktır. 5. sıradaki bu işaret sıfatının kurgusal metinler ve gazete haber metinleri arasındaki görülme sıklığında anlamlı bir fark yoktur. Bir kesitten diğerine bu işaret sıfatının daha fazla kullanılması sözkonusu değildir. Logaritmik Olabilirlik değerlerini hesaplama yoluyla göreceli sıklığı belirlenen sözcükler nitel yönden, derlemlerin özellikleri göz önüne alınarak incelenebilir. Bu sözcükler üzerinde derlem dilbilim yöntemlerinden bağlam içinde anahtar sözcük yöntemiyle sözcükbilimsel ve anlambilimsel çalışmalar yapılabilir ve Logaritmik Olabilirlik değeriyle üst sıralarda belirlenen sözcüklerin sık kullanımlarının gerekçeleri nitel çözümleme yöntemiyle ortaya çıkan örüntülerle açıklanabilir. 384

Tablo 6 TKM derleminin sayısal sıralı 10 sözcüğünün TSY derlemlerine göre Logaritmik Olabilirlik değerleri Sözcük Kurgusal Metinler Süreli Yayınlar LogLike Bir 336723 18879 4221,51 * 01 20242 24847 471,14* O 14844 2339 8591,5* Ve 11316 21081 2989,61 * Bu 111194 10985 1,97 Ben 10443 1499 7532,05* De 10363 4284 2600,93* Et 7750 11235 643,37* Ne 7474 2061 3263,91 * Gel 7466 6192 119,01* 4.3. TKM-TSY Derlemleri Sözcük Türü Sıklıkları Sözcük türü sıklığı dağılımları, her iki derlernin de kesit ve alan özelliklerini yansıtmaktadır (bkz. Şekil T). Adlar ve eylemler her iki kesiti temsil eden derlemlerde diğer sözcük türlerine göre çok daha sık kullanılmıştır. Örneğin, adlar süreli yayınlarda (% 39.31) kurgusal metinlere (% 36.24) oranla az farkla da olsa daha fazladır. Bu bulgu alanyazında İngilizce derlemler kullanılarak yapılan sıklık çalışmalarıyla da paralleldir, Brown Derlemi 'nin bilgilendirici metinlerinde adlar % 28.50 oranındayken kurgusal metinlerde bu oran % 21.77dir (Francis & Kucera, 1982:547). Şekil L'de kurgusal metinlerde adılların (% 6.10) ve belirteçlerin (% 4.27) süreli yayınlara (% 2.15 - % 2.36) göre daha sık kullanıldığını görüyoruz. Adılların ve belirteçlerin sıklığına ilişkin benzer sonuçları Brown Derleminin kurgusal ve bilgilendirici metinler bölümlerinin karşılaştırılmasında da saptanmıştır: Adıllar: % 11.94 (kurgusal metinler) - % 4.75 (bilgilendirci metinler). Belirteçler: % 6.72 - % 4.73 (Francis & Kucera, 1982:547). Adlar dışında tüm sözcük türlerinin kurgusal metinlerde daha sık kullanılması ve yukarıda belirlediğimiz adıllar ve belirteçlerin gazete haber metinlerine oranla kurgusal metinlerdeki dağılım sıklığının fazla olması üzerinde daha detaylı, nitel çalışmalar yapılacak araştırma konularıdır. 385

Şekil 1 TKM ve TSY derlemlerindeki sözcük türlerinin dağılımı 450000.--------------------------------------- 400000 +-~------------------------------------ 350000 300000 250000 200000 150000 Kurgu Metinler O Süreli Yayınlar 100000 50000 AD EY SI AL BE SA BG oz IL AD: ad, EY: eylem, SI: sıfat, AL: adıl, BE: belirteç, ilgeç SA: sayı, BG: bağlaç, OZ: özel ad, IL: TKM derlernindeki sözcük türlerinin dağılımının TSY derlemine göre Logaritmik Olabilirlik değerleri hesaplandığında, sözcük türlerinin dağlımında kesitler arasındaki 0.05 manidarlık düzeyindeki fark herzaman Tablo 6'da gösterildiği biçimde olacaktır. Tablo 6 TKM derlemindeki sözcük türlerinin dağılımının TSY derlemlerine göre Logaritmik Olabilirlik değerleri Sözcük Türü Kurgusal Süreli Yayınlar LogLike Metinler Ad 362420 389629 984,63* Eylem 290119 268521 841,30* Sıfat 94236 79989 1166,50* Adıl 60993 23600 17114,36* Belirteç 42714 21455 7177,90* İlgeç 20274 15026 783,11 * Bağlaç 29036 34572 482,43* Diğer (sayı) 38899 27027 2149,63* 5. SONUÇ ve ÖNERİLER Bu çalışmada özel amaçlı oluşturulmuş ve iki farklı kesiti temsil eden Türkçe Kurgusal Metinler ve Türkçe Süreli Yayınlar derlemlerindeki sözvarlığına ilişkin temel eğilimleri ve farkları belirlemeye çalıştık. NoojTürkçe eklentisini kullanarak hazırlanan kök çeşidi listeleri temelinde iki derlernin sayısal sıralı sözcük sıklığı listeleri oluşturduk ve sözcük türlerinin dağılımını belirledik. Daha etkin ve kapsamlı sözcük sıklığı çalışmaları yapabilmek için aşağıdaki önerileri sunmak istiyoruz: 1. Tür / kök çeşidi listelerini oluşturmada, sözcük türü işaretlerne yazılımıyla işaretlenmiş, denetimi yapılmış ve sözcük türü belirsizlikleri giderilmiş bir derlem üzerinde çalışmak. 386

2. Tür, kök sıklıklarının yanısıra ek sıklıkları listelerini yapmak. 3. Sözcük istatistiğini etkin kullanmak (Zipf Yasası gibi). Sıklık listelerinden, sıklık oranlarını, dağılımlarını, sözcük yoğunluğu vb.yoluyla dilin sözcük büyüklüğünü saptamak. 4. Sözcük sayısı açısından büyük, farklı konu alanlarından ve çeşitli türlerden metinler içeren genel amaçlı bir deri em temelinde Türkçenin sıklık sözlüğünü hazırlamak. Notlar: 1. Bu çalışma Mersin Üniversitesi Bilimsel Araştırma Projeleri Fonu tarafından desteklenmiştir. (Proje no: BAP-FEF-İDEB (SYA) 2009-3 ve BAP-FEF-İDEB (MA) 2009-3). Kaynakça Baker, P., Hardie, A. & McEnery, T. (2006). A Glossory ofcorpus Linguistics. Edinburgh: Edinburgh University Press. Baroni, M. (2009). Distributions in text. A. Lüdeling & M. Kytö (Eds.), Corpus Linguistics: An International Handbook Cilt II (pp. 803-821). Berlin: Walter de Gruyter. Davies, M. & Gardner, D. (2010). Frequency Dictionary of American English. London: Routledge. Francis, W. N. & Kucera, H. (1982). Frequency analysis of English usage: Lexicon and Grammar. Boston: Houghton Miftlin. Göz, İ. (2003). Yazılı Türkçenin Kelime Sıklığı Sözlüğü. Ankara: TDK. Kucera, H. & Francis, W. N. (1967). Computational Analysis of Present Day American English. Brown University: Brown University Press. Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Longman. Leech, G., Rayson, P. & Wilson, A. (2001). Word Frequencies ofwritten and Spoken English: Based on the British National Corpus. London: Longman. Pierce, J. E. (1961). A Frequency count of Turkish affıxes. Anthropological Linguistics, 3(9), 31-42 Pierce, J. E. (1962). Frequencis of occurrence for affıxes in written Turkish. Anthropological Linguistics, 4(6), 30-4L. Popescu, i 1. (2009). Word Frequency Studies. Berlin: Mouton de Gruyter. Rayason, P. & Garside, R. (2000). Comparing corpora using frequency profiling. Proceeedings of the Workshop on Comparing Corpora, 38th Annual Meeting of the Association for Computational Linguistics 1-8 October 2000. Hong Kong. Silberztein, M. (2003). NooJ manua!. http://www.nooj4nlp.net Thomdike, E. L. (1921). Teacher's Wordbook. New York: Columbia Teachers College. Thomdike, E. L. & Lorge, ı. (1944). The Teachers 'Wordbook of 30,000 Words. New York: Columbia University Press. Türkçe Ulusal Dil Derlemi Projesi. http://www.tnc.org.tr / http://www.tudd.org.tr Zipf, G. K. (1965). Human Behavior and the Principle of Least Effort. New York: Hafner Publisher. West, M. (1953). A General Service List of English Words. London: Longman. 387