TÜRKÇE DE KULLANILAN İŞLEV KELİMELERİN ZİPF 1. KANUNU ESASINDA DEĞERLENDİRİLMESİ

Benzer belgeler
MIXED REGRESYON TAHMİN EDİCİLERİNİN KARŞILAŞTIRILMASI. The Comparisions of Mixed Regression Estimators *

EÜFBED - Fen Bilimleri Enstitüsü Dergisi Cilt-Sayı: 3-2 Yıl:

SAÜ Fen Edebiyat Dergisi (2009-II) ÜÇ BOYUTLU LORENTZ UZAYI MANNHEİM EĞRİ ÇİFTİ ÜZERİNE A. ZEYNEP AZAK

Kollektif Risk Modellemesinde Panjér Yöntemi

ile plakalarda biriken yük Q arasındaki ilişkiyi bulmak, bu ilişkiyi kullanarak boşluğun elektrik geçirgenlik sabiti ε

28/5/2009 TARİHLİ VE 2108/30 SAYILI KURUL KARARI 11 HAZİRAN 2009 TARİHLİ VE SAYILI RESMİ GAZETEDE YAYIMLANMIŞTIR.

Kİ KARE TESTLERİ. Biyoistatistik (Ders 2: Ki Kare Testleri) Kİ-KARE TESTLERİ. Sağlıktan Yakınma Sigara Var Yok Toplam. İçen. İçmeyen.

4.2. SBM nin Beşeri Sermaye Değişkeni İle Genişletilmesi: MRW nin Beşeri Sermaye Modeli

Ufuk Ekim Accepted: January ISSN : yunal@selcuk.edu.tr Konya-Turkey

KİNETİK MODELLERDE OPTİMUM PARAMETRE BELİRLEME İÇİN BİR YAZILIM: PARES

Menemen Bölgesinde Rüzgar Türbinleri için Rayleigh ve Weibull Dağılımlarının Kullanılması

DERS III ÜRETİM HATLARI. akış tipi üretim hatları. hat dengeleme. hat dengeleme

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

TESİSLERDE MEYDANA GELEN PARALEL REZONANS OLAYININ BİLGİSAYAR DESTEKLİ ANALİZİ

BİYOGAZ BESLEMELİ GAZ MOTORLU BİR KOJENERASYON SİSTEMİNİN TERMOEKONOMİK ANALİZİ THERMOECONOMIC ANALYSIS OF A BIOGAS ENGINE POWERED COGENERATION SYSTEM

= + ise bu durumda sinüzoidal frekansı. genlikli ve. biçimindeki bir taşıyıcı sinyalin fazının modüle edildiği düşünülsün.

KABLOSUZ İLETİŞİM

Gümüşhane Üniversitesi Sosyal Bilimler Elektronik Dergisi Sayı 12 Ocak 2015

Tremalarla Oluşum: Kenar uzunluğu 1 olan bir eşkenar üçgenle başlayalım. Bu üçgene S 0

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 5 Sayı: 1 sh Ocak 2003

Eğitim ve Bilim. Cilt 40 (2015) Sayı Türkiye deki Vakıf Üniversitelerinin Etkinlik Çözümlemesi. Anahtar Kelimeler.

MOBİLYA ENDÜSTRİSİNDE AŞAMALAR ARASINDA FİRE BULUNAN ÇOK AŞAMALI TEDARİK ZİNCİRİ AĞININ OPTİMİZASYONU. Ercan ŞENYİĞİT 1, *

BÜTÜNLEŞİK ÜRETİM PLANLAMASININ HEDEF PROGRAMLAMAYLA OPTİMİZASYONU VE DENİZLİ İMALAT SANAYİİNDE UYGULANMASI

Cahit Arf Liseler Arası Matematik Yarışması 2008

Farklı Madde Puanlama Yöntemlerinin ve Farklı Test Puanlama Yöntemlerinin Karşılaştırılması

GÜNEŞ ENERJİSİ SİSTEMLERİNDE KANATÇIK YÜZEYİNDEKİ SICAKLIK DAĞILIMININ SONLU FARKLAR METODU İLE ANALİZİ

RASGELE SÜREÇLER. Bir X rasgele değişkenin, a ve b arasında tekdüze dağılımlı olabilmesi için olasılık yoğunluk fonksiyonu aşağıdaki gibi olmalıdır.

DÜŞÜK SICAKLIKTA ISI KAYNAĞI KULLANAN BİR ABSORBSİYONLU SOĞUTMA SİSTEMİNİN TERMOEKONOMİK OPTİMİZASYONU

PI KONTROLÖR TASARIMI ÖDEVİ

Ders 2 : MATLAB ile Matris İşlemleri

Biyoistatistik (Ders 7: Bağımlı Gruplarda İkiden Çok Örneklem Testleri)

BĠYOGAZ BESLEMELĠ GAZ MOTORLU BĠR KOJENERASYON SĠSTEMĠNĠN TERMOEKONOMĠK ANALĠZĠ

SERVOVALF VE HİDROLİK SİSTEMDEN OLUŞAN ELEKTROHİDROLİK BİR DÜMEN SİSTEMİNİN KONUM KONTROLÜ

INTERNATIONAL JOURNAL OF ECONOMIC STUDIES

FARKLI YAPIM SİSTEMLERİ VE KONUT MALİYETLERİ

6. SINIF TÜRKÇE DERSİ KURS KAZANIMLARI VE TESTLERİ

Dinamik Sistem Karakterizasyonunda Averajlamanın Hurst Üsteli Üzerinde Etkisi

Bulanık Hedef Programlama Yöntemi ile Süre-Maliyet-Kalite Eniyilemesi

OCAK HAVALANDIRMA ŞEBEKE ANALİZİ İÇİN KOMBİNE BİR YÖNTEM (A COMBINED METHOD FOR THE ANALYSIS OF MINE VENTILATION NETWORKS)

İstatistikçiler Dergisi

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

T.C ÇANKAYA KAYMAKAMLIĞI Yeni Karaca Eğitim Merkezi Müdürlüğü

Basitleştirilmiş Kalman Filtresi ile Titreşimli Ortamda Sıvı Seviyesinin Ölçülmesi

DENEY 3. HOOKE YASASI. Amaç:

Ele Alınacak Ana Konular. Hafta 3: Doğrusal ve Zamanla Değişmeyen Sistemler (Linear Time Invariant, LTI)

Türkiye de Enflasyon ve Döviz Kuru Arasındaki Nedensellik İlişkisi:

Kuvvet kavramı TEMAS KUVVETLERİ KUVVET KAVRAMI. Fiziksel temas sonucu ortaya çıkarlar BÖLÜM 5 HAREKET KANUNLARI

Stokastik Süreçler. Bir stokastik Süreç ya da rastgele süreç şöyle tanımlanabilir.

GRAVİTE-MANYETİK VERİLERİNE ÇEŞİTLİ MODELLERLE YAKLAŞIM AN APPROACH FOR THE GRAVITY-MAGNETIC DATA WITH VARIOUS MODELS

QUANTILE REGRESYON * Quantile Regression

ONDOKUZ MAYIS ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ KİMYA MÜHENDİSLİĞİ BÖLÜMÜ KMB 405 KİMYA MÜHENDİSLİĞİ LABORATUVARI - 3

2 Serbestlik Dereceli Taşıt Modeli PID Kontrolü

Zemin Suyu II. Yrd.Doç.Dr. Saadet Berilgen

Farklı Sıcaklıkların Scymnus subvillosus un Bıraktığı Yumurta Sayıları Üzerine Etkilerinin Karışımlı Poisson Regresyon ile Analiz Edilmesi

Türkçe Dokümanlar Ġçin Yazar Tanıma

2014 LYS MATEMATİK. x lü terimin 1, 3. 3 ab olduğuna göre, ifadesinin değeri kaçtır? 2b a ifade- sinin değeri kaçtır? olduğuna göre, x.

Metin Sınıflandırma. Akış

13. Olasılık Dağılımlar

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

KÜÇÜK TİTREŞİMLER U x U x U x x x x x x x...

TEDU EPE. B. Yazma 25% C. Dil Kullanımı 25%

TEK SERBESTLİK DERECELİ TİTREŞİM SİSTEMİNİN LAGUERRE POLİNOMLARI İLE MATRİS ÇÖZÜMÜ

MAK341 MAKİNA ELEMANLARI I 2. Yarıyıl içi imtihanı 24/04/2012 Müddet: 90 dakika Ögretim Üyesi: Prof.Dr. Hikmet Kocabas, Doç.Dr.

KONTROL SİSTEMLERİ YIL İÇİ UYGULAMA. Problem No

Electronic Letters on Science & Engineering 6(1) (2010) Available online at

GÜNEŞ ENERJİSİYLE ÇALIŞAN ISI POMPASININ DENEYSEL İNCELENMESİ EXPERIMENTAL INVESTIGATION OF THE HEAT PUMP RUNNING WITH SOLAR ENERGY

EGE ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJE KESİN RAPORU EGE UNIVERSITY SCIENTIFIC RESEARCH PROJECT REPORT. 4,5 cm

TED ÜNİVERSİTESİ İNGİLİZCE YETERLİLİK SINAVI (TEDÜ - İYS)

Genetik Algoritma ile Mikrofon Dizilerinde Ses Kaynağının Yerinin Bulunması. Sound Source Localization in Microphone Arrays Using Genetic Algorithm

ÖABT LİSE MATEMATİK KPSS 2016 ANALİZ DİFERANSİYEL DENKLEMLER. Eğitimde

Kalite Fonksiyon Yayılımı Quality Function Deployment. Ar. Gör. Serdar Kılınç

İDV ÖZEL BİLKENT ORTAOKULU SINIFLARINA KONTENJAN DAHİLİNDE ÖĞRENCİ ALINACAKTIR.

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 5 Sayı: 2 sh Mayıs 2003

LOGRANK TESTİ İÇİN GÜÇ ANALİZİ VE ÖRNEK GENİŞLİĞİNİN HESAPLANMASI ÖZET

Journal of Engineering and Natural Sciences Mühendislik ve Fen Bilimleri Dergisi

COGRAFI BILGI SISTEMI DESTEKLI TRAFIK KAZA ANALIZI ÖZET

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Dinamik Programlama Tekniğindeki Gelişmeler

ÜLKEMİZ EGE KIYILARI İÇİN DENİZ SEVİYELERİNİN UZUN DÖNEM DEĞİŞİMLERİ

TAM METİN YAZIM KURALLARI

Yavaş Değişen Kritik-Altı Açık Kanal Akımının k-ε Türbülans Kapatma Modelleri ile Sayısal Hesabı

İSTATİSTİKSEL PROSES KONTROLÜ

Mechanistic modeling of micro milling including tool run-out

Aşınmadan aynalanan hasar, gelişmiş ülelerde gayri safi milli hasılanın % 1-4 ü arasında maliyete sebep olmata ve bu maliyetin % 36 sını abrasiv aşınm

Dr. Mehmet AKSARAYLI

T.C. İSTANBUL MEDİPOL ÜNİVERSİTESİ DİŞ HEKİMLİĞİ FAKÜLTESİ EĞİTİM-ÖĞRETİM VE SINAV YÖNERGESİ*

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

SAKARYA HAVZASI AYLIK YAĞIŞLARININ OTOREGRESİF MODELLEMESİ

SANAL RASGELELĐK. Sanal sözcüğü ile ilgili olarak Güncel Türkçe Sözlük, ve Wikipedia Ansiklopedisi,

İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ İŞLETME BÖLÜMÜ BÖLÜM KODU: 0207

EDUCATIONAL MATERIALS

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

AKADEMİK YAKLAŞIMLAR DERGİSİ JOURNAL OF ACADEMIC APPROACHES

doğru orantı doğru orantı örnek: örnek:

alphanumeric journal The Journal of Operations Research, Statistics, Econometrics and Management Information Systems

Makale KAZANLARDA EKSERJĐ ANALĐZĐ

GENETİK ALGORİTMALARDA TEK VE ÇOK NOKTALI ÇAPRAZLAMANIN SÖZDE RASSAL POPULASYONLARA ETKİSİ

DİZGE TABANLI BİLEŞEN DENEMELERİNİN TASARIMINDA BEKLENEN DİZGE YAŞAM SÜRESİNİN MODELLENMESİ 1

DOKUZ EYLUL UNIVERSITY FACULTY OF ENGINEERING OFFICE OF THE DEAN COURSE / MODULE / BLOCK DETAILS ACADEMIC YEAR / SEMESTER. Course Code: MAT 1001

LYS GENEL KATILIMLI TÜRKİYE GENELİ ONLİNE DENEME SINAVI

Transkript:

Gazi Üniv. Müh. Mim. Fa. Der. J. Fac. Eng. Arch. Gazi Univ. Cilt 23, o 2, 467-475, 2008 Vol 23, o 2, 467-475, 2008 TÜRKÇE DE KULLAILA İŞLEV KELİMELERİ ZİPF. KAUU ESASIDA DEĞERLEDİRİLMESİ Senem KUMOVA METİ Bilgisayar Bilimleri Faültesi, İzmir Eonomi Üniversitesi, 35330 Balçova-İzmir senem.umova@ieu.edu.tr (Geliş/Received: 24.07.2007; Kabul/Accepted: 30.0.2008) ÖZET Bu çalışmada doğal dil içinde gramer yapısının oluşturulması amacıyla ullanılan, içinde bulunduğu metnin taşıdığı enormasyon mitarını değiştirmeyen elimeler (işlev elimeler) araştırılmıştır. Araştırmanın temelini Zip in. Kanunu nun Türçe metinler üzerinde sınanması ve yüse reanslı elimelerin işlev elime olacağı belentisi oluşturmatadır. Çalışmada önerilen yöntem ile ilgili testler Türçe metinler içeren arlı derlemler üzerinde yapılmış, sonuçlar değerlendirilmiştir. Anahtar Kelimeler: İşlev elime, içeri elime, test derlemleri. EVALUATIO OF FUCTIO WORDS I TURKISH BASED O THE ZIPF S. LAW ABSTRACT In this study, unction words that are used to construct the grammatical structure in atural Language and that does not change the inormation content o the text have been investigated. Application o Zip s irst Law on Turish texts and expectance o high requency words to be unction words constitute the undamentals o the research. In the study the test or the proposed method has been perormed on dierent corpus including Turish texts ans results have been evaluated. Keywords: Function word, content word, test corpus.. GİRİŞ (ITRODUCTIO) Dil içinde geliştirilen, hâlihazırda ullanılan elimelerin sayısı ve görevlerini modelleme için pe ço çalışma yapılmıştır. Bu onuyla ilgili olara geliştirilmiş yüzlerce sözlü bulunmasına rağmen sözlüler içinde bulunmayan elimeler günlü hayatta arşımıza çımatadır. Bir dildei arlı elime sayısının değerlendirilmesinde ii arlı yalaşım söz onusudur []. Bunlardan birincisi dillerin apalı elime dağarcığına sahip olduğu düşüncesidir. Bu varsayımda dil içindei ö elime ve e sayısının sabit olduğu bilindiği için üretilebilece yeni elimelerin de ısıtlı olduğu abul edilmetedir. Diğerinde ise dilin süreli gelişen bir yapısı olduğu düşüncesi hâimdir. Bu yalaşımda dilin elime dağarcığı yani dil içindei arlı elime sayısının süreli arttığı ve geliştiği dolayısıyla elime dağarcığının açı olduğu abulü yapılmatadır. Dilin modellenmesi çalışmalarında arşılaşılan diğer bir problem ise anlam bütünlüğünün sağlanması için cümle içinde ullanılan bağlaç, zar, edat, zamir vb. gibi harç görevi yapan elimelerin saptanması ve ullanım mitarının belirlenmesidir. Bu elimelere cümle içinde anlama atıda bulunmatan ço gramer yapısının oluşmasında görev aldıları için işlev (unction) elime adı verilmetedir. Türçe içinde yaygınlıla ullanılan işlev elimelere örne olara ve, veya, gibi, ile, i, ben, sen, o gibi elimeler verilebilir. İngilizce de ise and, a, be, but, about, above elimeleri sılıla rastlanan işlev elimelerdir. Dil içinde metin veya cümleye anlam attığı abul edilen elimelere içeri (content) elime denir. İçeri elimeler genelde bir avram veya olayı simgeleyen isim veya iillerden oluşur.

S.K. Metin Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi Dilin elime dağarcığı ve dilde ullanılan işlev elimeler arasında bir ilişi olması geretiği hâlihazırda yapılmış olan doğal dil işleme çalışmaları sonucunda abul gören bir saptamadır. Maale içinde Zip Birinci Kanunu ve İngilizce üzerinde Kornai nin yaptığı çalışmalardan aydalanılara Türçe için işlev elimelerin sayısı ve elime dağarcığının mitarı incelenmetedir. Maale Zip Kanunları, test derlemleri, yöntem, sonuçlar ve değerlendirme bölümlerinden oluşmatadır. 2. ZİPF KAULARI (ZIPF LAWS) Doğal dil işleme alanında elimelerin ullanım sılıları, bir elimenin taşıdığı anlam sayısı, elimeler arası uzalılar gibi ço önemli unsurlar George K. Zip (902 950) taraından ortaya onulan anunlar temel alınara belirlenmetedir. Zip in bu onuda sıça ullanılan 4 anunu mevcuttur [2]. Yazılı metinlerdei elime dağılımı ve çeşitliliği, dilin temsili onusunda önemli bir göstergedir. Bu sebeple ullanılan sayı, simge veya elimelerin mitarı derlemin değerlendirilmesi çalışmalarında yer almatadır. Bu onuda Zip Human Behavior and the Principle o Least Eort itabında en az gayret ilesinin elimelerin ullanımı onusunda da uygulanabileceğini vurgulamıştır, Zip birinci anunu şu şeildedir: Tablo. Zip birinci anununun Tom Sawyer romanı üzerinde deneysel değerlendirmesi (Emprical evaluation o Zip s. law on Tom Sawyer) [3] Bir derlemdei tüm elimeler te te sayılıp, en yüse sılığa sahip elimeden azalan sırada numaralandırıldığında her elimenin gözlenme sılığı (reans, ) ve sıra numarasının çarpımı sabit bir değerdir. r c(sabit) (2.) Bu anun il olara Estoup (96) taraından ortaya atıldıysa da Zip taraından yaygınlaştırıldığı için onun adı ile anılmatadır. En az gayret ilesi gereği onuşmacılar birbirinden arlı az sayıda elime ullanara arlı avramları iade etme isteği duyarlar. Yani bir elimenin birden azla anlamı arşılamasını sağlayara elime dağarcılarını sınırlı tutma isteleri vardır. Dinleyiciler ise her arlı avram için arlı elime duyma ve böylece anlama gayretlerini en aza çeme isterler. Bu ii isteğin dengelenmesi sonucu elimelerin gözlenme sılığı ve sıra numarası çarpımlarının sabitlenmesi bu anunun temelidir. İngilizce üzerine yapılan araştırmalarda [3] Zip birinci anununda belirtilen sabit bulunmaya çalışılmıştır. Tablo de görüldüğü üzere yalaşı bir r değeri belirlenebilir. Çalışma içinde temel alınan Zip. anunu dışında diğer anunları ısaca şöyle listeleyebiliriz: Zip 2. Kanunu : i ere rastlanan arlı elime şeli/biçimi sayısı ( V(i,) )ve bu i sılığı arasında denlem 2.2 de belirtilen şeilde bir ilişi vardır log( i) = K D log( V ( i, )) (2.2) Zip 3. Kanunu: Bir elimenin arşıladığı arlı anlam sayısı (w) ile elimenin gözlenme sılığının ( ) areöü arasında doğrusal bir ilişi vardır. w (2.3) Zip 4. Kanunu : İçeriği oluşturan elimeler, metin içinde bazı yerlerde yığılım gösterir. Kelimenin metin içinde gözlendiği yerlerin araları (I) ile satır veya saya cinsinden sılı (F) arasında denlem 2.4 de belirtildiği şeilde bir ilişi vardır. ρ F I (2.4) 3. TEST DERLEMLERİ (TEST CORPUS) Yapılan çalışmada Türçe derlemlerden aydalanılmıştır. Bunlar: Bilent derlemi, ODTÜ derlemi ve çalışma amacıyla geliştirilen Maaleler derlemidir. 468 Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008

Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi S.K. Metin Genel istatistilerin yanında onu dağılımı, derlemi oluşturan metinlerin yapısı ve metin yazarları derlemin enormasyon mitarını doğrudan etilemetedir. Bu sebeple şeil de de görüldüğü üzere arlı onuları içeren ODTÜ derlemine ait sonuçlar araştırma içinde önem azanmatadır. Bilent derlemi ise sadece gazete yazılarından oluşmuştur dolayısıyla te bir belge türüne sahiptir [5]. Şeil. ODTÜ derlem yapısı (ODTU corpus structure) [5] Bilent derlemi Bilent Üniversitesinde hesaplamalı dilbilim çalışmalarının sonucu otomati işaretlenmiş bir derlemdir [4]. Bilent derlemi yalın haliyle yani sadece içindei elimelerin bulunduğu bir ormatta ve Dinçer (2004) taraından gereli düzeltmelerin yapıldığı son haliyle tez içinde ullanılmıştır. Derlem bu haliyle ullanıldığında ~72872 adet toplam elime ve ~24359 adet arlı elimeden (elime dağarcığı) oluşmatadır. Derlemin içeriği hazırlandığı yıllarda çıan gazete yazıları ve maalelerden oluşmatadır [5]. Derlem içindei elimeler çeim elerinden ayrılmış halde bulunduları için ullanılan diğer örne derlemlerden daha arlı sonuçlar vermesi belenen bir durumdur. ODTÜ Derlemi yüzeysel ormda (surace orm) bulunan toplam 987447 elimeden oluşmatadır. Bu derlem için elime dağarcığı ~22852 adet elimedir. Derlem içinde pe ço arlı onuda metin bulunmatadır. Tablo 2. Maaleler derleminin genel yapısı (Maaleler (Articles) corpus structure) Maaleler derlemi özellile güncel elimeleri içermesi sebebiyle çalışma içinde ullanılmıştır. Derlem 22 arlı maale yazarı taraından değişi zamanlarda gazetelerde yayınlanmış öşe yazılardan oluşmatadır. Tablo 2 de derlemi oluşturan metinler, metin yazarları ve ilgili elime adetleri bulunmatadır. Maaleler derlemi eonomi, siyaset ve güncel olayları işleyen maaleleri içermetedir. Maalelerde imlâ işaretleri metinlerden çıartılara, elimeler metin içinde bulunduları halleriyle (çeim ve yapım eleri varen) değerlendirilmiştir. Bu durumda derlem yalaşı 30000 elimeden oluşmatadır. Derlemin elime dağarcığı ise 57700 elime civarındadır. 4. YÖTEM (METHOD) Kelimelerin yazılı bir metinde gözlenme sılıları ile taşıdıları ve metne attıları anlam arasındai ilişi Luhn (958) taraından tanımlanmıştır. Bu tanımlamada dilin bütünü düşünüldüğünde ço düşü ve ço yüse reansta rastlanan yani sıça ullanılan elimelerin anlama attığı değer açısından önemsiz, orta reansta ullanılan elimelerin ise önemli olduğu belirtilmiştir. Önemli olduğu abul edilen bu orta reanstai elimeler içeri, yüse reanslı elimeler ise işlev elimeler olara düşünülmetedir. İl olara Herdan (960) ile başlayara içeri ve işlev elimelerin arlı ii grup içinde değerlendirilmesi söz onusu olmuştur []. İşlev elimeler U işlev, içeri elimeler U içeri grupları ile iade edilebilir. Yapılan çalışmalarda bu ii grup arasındai ayrım notasının saptanması için reans-sıra numarası graileri diate alınmatadır. Bu grailerin elde edilmesi için pe ço arlı metnin bir araya getirilmesi ile oluşturulmuş dili modellediği varsayılan derlemler ullanılmatadır. Freans-sıra numarası grailerinde işlev (U işlev ) ve içeri elimeler (U içeri ) şeil 2 de temsili olara gösterilmiştir. U işlev yüse reanslı elimeler, U içeri grubu ise orta ve düşü reanslı elimelerden oluşmatadır. Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008 469

S.K. Metin Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi ( V + / 2) / / 2 ( r ) dr = Bu önermeler göz önüne alınara eğri altında alan alan hesaplandığında ve 2 önermeleri ile D = c ve integral sonucu ise şu şeilde olur: Şeil 2. ODTÜ derleminde logaritmi reans ve sıra numarası eğrisi, işlev ve içeri elimeler için muhtemel bölgeler belirtilmiştir. (Logaritmic requencyran curve or ODTU corpus, area or unction and content words has been deined) Graite sıra numaraları [-V] aralığında artan değerlere sahiptir (V: Toplam elime dağarcığı). Eğriyi ayrı değerler yerine süreli doğrusal bir onsiyon olara abul ederse eğrinin altında alan alan şöyle iade edilebilir: = V 0 ( r) dr (4.) Denlem 4. de toplam elime sayısını dolayısıyla derlem büyülüğünü, V ise en yüse sıra numarasını dolayısıyla derlemin elime dağarcığını temsil etmetedir. Graitei reans (r) ve sıra numarası r değerleri toplam elime sayısına () bölünere grai birim areye dönüştürülüp değerler normalize edilebilir. Bu durumda göreceli sıra numarası değeri r, göreceli reans eğrisi r ) olara iade edilirse eğri altında ( alan alan şöyle tanımlanabilir ( r r / = için): V / / = ve ( r ) dr = (4.2) 0 Kornai (2002), ( r ) eğrisi üzerinde yaptığı incelemede bu eğrinin exp( c r ) onsiyonu ile iade edilebileceğini ortaya oymuştur. Grai ile ilgili olara önermeleri şu şeildedir: r D () ) = exp( ) ( (2) sol limit diate alınırsa ( / ) = sabit = exp( c) (3) doğrusal alan uralından r / ( V + / 2) / = / 2 exp( c r dr ) = (exp( c /2) exp( c( V( ) + /2)) c (4.3) Derlemin yeterince büyü olduğu abul edilirse ve V alınabilir bu durumda c=0.7035 gibi bir değer elde edilir. Bu değer en yüse reanslı elimenin %49.4866 gibi bir yoğunlula derlem içinde bulunduğunu göstermetedir []. Kornai, yaptığı çalışmada denlem 4.3 sonucunda derlemin yarısının işlev elimelerden oluştuğunu belirtmiştir. İşlev elimelerin yüse reanslı elimelerden oluşması genel bir görüştür. Anca yapılan çalışmalarda işlev elime olmasına rağmen düşü reanslara sahip olan elimelere ve yüse reanslı içeri elimelere de rastlanmatadır. Ayrıca bir cümlede içeri elime olara ullanılan bir elime diğer bir cümlede işlev elime olara da ullanılabilir. Bu sebeple işlev ve içeri elimeler arasında esin bir sınır belirleme belli bir hata payı ile abul edilebilir. Kornai (2002), çalışmasında reans-sıra numarası değerlerinden aydalanara U işlev, U içeri gruplarının belirlenmesi ve içeri-işlev elimeler arasında muhtemel sınırın çizilmesi üzerinde durmuştur. U işlev, U içeri gruplarının belirlenmesi çalışmasında diate alınabilece derlem özellileri şunlardır: elime sayısı - elime dağarcığı ilişisi reans-sıra numarası ilişisi Dil içindei bütünlüğün sağlanması gereliliği bu ii veri grubunun ilişili olması gereliliğini de ortaya çıarmıştır. Dolayısıyla reans-sıra numarası ve elime sayısı-elime dağarcığı eğrileri bir arada değerlendirilmelidir. Kelime sayısı-elime dağarcığı ilişisinin tanımlanması ve ilgili denlemin belirlenmesi ile ilgili olara pe ço rasyonel ve deneysel 470 Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008

Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi S.K. Metin yöntemler bulunmatadır [6]. Genel anlamda bu ilişi artan yönde abul edilmetedir. V- eğrilerinin genel yapısı diate alınara şu şeilde iadesi mümündür []: V = ρ ( ) (4.4) Denlem 4.4 de V () değerlerinin in bir uvveti ile arttığı belirtilmetedir. ρ atsayısı, [0 ] aralığında olup yazım tarzı, yazar vb. gibi bir taım özellilere bağlı anca değerinden bağımsız bir parametredir. İçeri ve işlev elimelerin ayrımı onusunda diate alınaca bir diğer özelli olan reans ile sıra numarası arasındai ilişinin doğru denlemini ise Zip birinci anunu şu şeilde betimlemetedir: log( ) = H B log( r) (4.5) Denlem 4.5 de elimelerin gözlenme sılığını (göreceli reans), r sıra numarasını ve H derlem büyülüğüne bağlı sayısal bir sabiti simgelemetedir. B ise reans-sıra numarası eğrisinin eğimini simgeleyen derlem büyülüğüne bağlı bir sabittir. İçeri ve işlev elime gruplarının belirlenmesinde belli bir sıra numarası örneğin sıra numarasına sahip elimenin ssınır elime olduğu abul edilirse işlev elimelere ait toplam olasılı şu şeilde iade edilebilir []: P K = r = p r (4.6) Denlem 4.6 da verilen olasılı değeri aslında reanssıra numarası eğrisinin altında alan alanın hesaplanması ile elde edilebilen bir değerdir. Şöyle i, örne derlemin tüm dili temsil ettiği düşünülürse her elimenin dil içinde rastlanma olasılığı, reans değerinin toplam elime sayısına () bölümüdür. Denlem 4.5 gereği reans sıra numarası eğrisinin reans değerleri ile normalize edilere sıra numarası değerleri ise V yani elime dağarcığı ile normalize edilere grai birim are haline dönüştürülebilir. Şeil 3 de temsili bir reans-sıra numarası eğrisi verilmiştir. Şeil 3 de gösterilen taralı alan işlev elimelerin toplamını simgelemetedir. Grai incelendiğinde eğride görülen özelliler şunlardır: D. sağ limit ( ) = / D2. sol limit ( / V ( )) = sabit Şeil 3. Temsili reans-sıra numarası eğrisi, reans değerleri ile sıra numarası değerleri V ile normalize edilmiştir. (Schematic requency-ran curve, requency values are normalized by and ran values are normalized by V) D3. /V ile sağ limit arasındai alan, / V ( ) ( x) dx = ( P ) / V ( ) Denlem 4.5 de r yerine x.v oyulara ( r=x.v ) ilgili grai birim areye dönüştürülür ve şeil 4.4 de belirtilen eğriye ait denlem olara ullanılabilir. Bu durumda şu eşitli elde edilir : ( x V ) = exp( H B log( x V )) (4.7) D, D2, D3 özellileri denlem 4.7 de değerlendirilirse ( ) = exp( H ) = durumundan / H = log() elde edilir. Sonuçta denlem 4.7 şu hale dönüşür: yani ( x V ) = ( x) = x ( x V ) B B (4.8) Tüm derlemin hem Zip birinci anununa hem de denlem 4.4 de verilen ilişiye uygunluğu abul edilirse büyümesine rağmen B ( / V( )) = /( ( / V( )) ) eşitliğinin B yani ( ( / V ( )) ) değerinin sabit alması belenir. Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008 47

S.K. Metin Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi Tablo 3. Merc derleminde sınır elime olması muhtemel elimeler ve ilgili değerleri (Possible threshold words and their B values) Dolayısıyla log( ) + B log( ) B log( V( )) bir sabittir. B B abulüyle B log() değeri sabit bir değer olara alınır. Bu durumda log( ) B log( V ( )) değerinin sabit alması için log( ) B log( V ( )) olara abul edilebilir. Şeil 4. Bilent derleminde B ve sıra numarası değerlendirmesi (B and ran values in Bilent corpus) Denlem 4.4 diate alındığında log( ) B log( V ( )) sonucu reans-sıra numarası ve elime dağarcığı- elime sayısı eğrilerinin birbirine bağımlı oldularını vermetedir. İi eğri arasındai ilişiyi B = / ρ eşitliği vermetedir. Freans-sıra numarası eğrisi diate alındığında B = olduğu durum düşü reanslı elimelerin bulunduğu ısmı iade eder. B > abul edere, yüse reanslı işlev elimeler grubunu incelerse D3 özelliği ve B = / ρ sonucu diate alınara şu eşitli elde edilir: υ / ρ dx ( ( / ) B = B x )/ ( B) (4.9) ρ Denlem 4.9 da = x alınara türevi alınırsa B P / = elde edilir. İçeri ve işlev elimelerin B ayrımının olduğu sınırda p / alınabilir. değerinin belirlenmesi esnasında sonuç olara şu denlem ullanılabilir: B = log( p ) / log( ) (4.0) Denlem 4.0 da işlev elimeler ile içeri elimeler arasındai sınır elime olduğu abul edilen elimenin sıra numarasını, p ise bu elimenin reans/ oranını belirtmetedir. Kornai (2002) çalışmasında Merc derlemi üzerinde değerinin sınamalarını yapmıştır. Muhtemel sınır elimeler arasında esin bir geçiş gözlenmemesine rağmen muhtemel sınır elimelerin B değerlerinin denlem 4.0 u doğrular özellite olduğu belirtilmiştir. Tablo 3 de ilgili sonuçlar verilmetedir. Şeil 5. ODTÜ derleminde B ve sıra numarası değerlendirmesi (B and ran values in ODTU corpus) 5. SOUÇLAR ( RESULTS) Çalışma içerisinde işlev ve içeri elime ayrımını belirleme için bölüm 3 de önerilen yöntem elimizde bulunan ODTÜ, Maaleler ve Bilent derlemleri üzerinde değerlendirilmiştir. Denlem 4.0 a dayanara ODTÜ ve Bilent derlemleri için hesaplanan B değerleri şeil 4 ve 5 te görülmetedir. Şeil 4 ve 5 te r değeri elimelere ait sıra numaralarını belirtmetedir. Kelime dağarcığının yüse olması sebebiyle graiğin daha anlamlı olması için değerlerin logaritmaları alınara grai hazırlanmıştır. Şeiller incelendiğinde B değerlerinin yüse reanslı elimelerden düşü reanslı elimelere doğru azalara değiştiği görülmetedir. Tüm değerler listelendiğinde Bilent, ODTÜ ve maaleler derlemleri için en yüse reanslı elimelerdei benzerli belendiği şeilde görülmetedir. Tablo 4, Tablo 5 ve Tablo 6 da üç derlem için il 30 elimenin göreceli reans değerleri ve hesaplanan B değerleri gösterilmetedir. 472 Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008

Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi S.K. Metin Tablo 4. Bilent derleminde il 30 elime için reans ve B değerleri (Frequency and B values o irst 30 words in Bilent corpus) Tablo 5. ODTÜ derleminde il 30 elime için reans ve B değerleri (Frequency and B values o irst 30 words in ODTÜ corpus) Çizelgelerde görüldüğü üzere il 30 elime içinde işlev elime olması düşünülemeyece Türiye gibi özel isimler bulunmatadır. Bu elimeler hatalı olara yaalanan işlev elimelerdir. En düşü reans yani = / değerine sahip elimeler ve en yüse reanslı elime dışındai elimeler için B değerlerinin ortalaması alındığında üç derlem için şu sonuçlar şu şeildedir: Bilent derlemi için B =.3254 ODTU derlemi için B =.2232 Maaleler derlemi için B =.229 Bu sonuçlar değerlendirilere ilgili B değerleri sayısının belirlenmesinde ullanılabilir. Bu değerler hesaplandığında Bilent derlemi için ortalama B değerini veren =2 ODTÜ derlemi için ortalama B değerini veren =0425 Maaleler derlemi için ortalama B değerini veren =6379 olara belirlenmiştir. Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008 473

S.K. Metin Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi Tablo 6. Maaleler derleminde il 30 elime için reans ve B değerleri (Frequency and B values o irst 30 words in Maaleler (Articles) corpus) 6. DEĞERLEDİRME (EVALUATIO) ODTÜ ve Maaleler derlemleri elimelerin ö ve elerinin üzerinde herhangi bir çalışma yapılmadığı, metinlerin yalın hallerini içeren derlemlerdir. Örneğin o, onun, ona, onda gibi aynı gövdeye sahip anca çeim eleri ile dilbilgisi urallarına uygun hale getirilen işlev elimelerin her biri arlı bir terim olara değerlendirilmetedir. Bu değerlendirme işleminde hata payının yüselmesine neden olmatadır. Bu sebeple sayısı için Bilent derleminden elde edilen sonuç ullanılmış ve değerlendirme yapılmıştır. Kornai (2002) İngilizce üzerine yaptığı çalışmasında işlev elimelerin dilden bağımsız olara bir derlemin ~%49,5 li ısmını işgal edeceğini göstermiştir. Bu önerme =2 sonucu için değerlendirilirse Bilent derleminde %44.03, ODTÜ derleminde %26.52, Maaleler derleminde %29.55 yoğunlula işlev elimeye rastlandığı gözlenir. Tüm derlemlerde il 2 elime değerlendirildiğinde sıat, zamir, edat vb. gibi işlev olması muhtemel elimelerin dışında özel isimler, güncel olaylara ait bir taım elimeler, yer adları işlev elimeler listesine girmetedir. Bunlara örne olara Türiye, devlet, başan verilebilir. İşlev elimeler içinde gözlenen içeri elimelerin tümü incelendiğinde arlı derlemlerde aynı elimelere rastlama mümündür. Bu elimelerin pe çoğu derlemlerin oluşturulduğu sırada gelişen güncel olaylarla ilgili yer ve işi isimleri, Türçe de ço ullanılan iillerden oluşmuştur. İl 2 elimenin işlev elime olduğu abul edilere genel anlamda bir değerlendirme yapılırsa, ODTÜ derlemi için ~ %30, Bilent derlemi için ~ %54, Maaleler derlemi için ~ %32,7 oranla hatalı işlev elime saptaması yapılır. Bu sonuç şu şeilde yorumlanabilir, örneğin ODTÜ derlemi için işlev elime olara abul edilen il 2 elimeden yalaşı 63 tanesi aslında içeri elimedir. (63 /2*00 =%30). Anca onu, yazar vb. gibi pe ço sebeplerden ötürü derlem içinde yüse mitarda ullanılmıştır. Çalışma sonucunda elde edilen değerlerin esin bir ayrımı simgeleyemeyeceği anca olası ayrım notalarındai B değerlerinin İngilizce de (Kornai, 2002) elde edilen sonuçlarla benzer olduğu görülmüştür. Üç arlı test derlemi için elde edilen sonuçların birbirinden arlı olması derlemlerin dili modellemete yetersiz olduğu görüşünü destelemetedir. İlerii çalışmalarda elime sayısı yüse ve onu dağılımı dengeli bir derlemde araştırma yinelenecetir. KAYAKLAR (REFERECES). Kornai, A., How many words are there?, Glottometrics 2002/4, 6-86p., 2002. 2. Zip, G. K., Human Behaviour and the Principles o Least Eort, Cambridge, MA, Addison-Wesley, 949. 3. Manning, C.D., Schütze, H., Foundations o Statistical atural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England, 2003. 4. Haani-Tür, D.Z., Olazer, K., and Tür, G., Statistical morphological disambiguation or agglutinative languages, International Conerence On Computational Linguistics, Proceedings o the 8th conerence on Computational Linguistics - Volume, Saarbrücen, Germany, 285-29, 2000. 474 Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008

Türçe de Kullanılan İşlev Kelimelerin Zip. Kanunu Esasında Değerlendirilmesi S.K. Metin 5. Dinçer, T., Türçe için İstatistisel Bir Bilgi Gerigetirim Sistemi, Dotora Tezi, U.B.E.,Ege Üniversitesi, 2004. 6. Tuldava, J., A Mathematical Model O The Vocabulary-Text Relation. COLIG 980, 600-604, 980. 7. Alpoça, A., Kut, A., ve Özarahan, E., 995, Bilgi Bulma Sistemleri için Otomati Dizinleme Yöntemi, Bilişim 95, Douz Eylül Üniversitesi, İzmir, 6s., 995. 8. Holmes-Higgin, P., Abidi S. R., Ahmad, K., A Description o Texts in a Corpus: 'Virtual' and 'Real' Corpora, EURALEX'94, 994. 9. Van Rijsbergen, C.J., Inormation Retrieval (2nd ed.), Butterworths, London, 979. 0. Argamon, S., Levitan, S., Measuring the Useulness o Function Words or Authorship Attribution, Proceedings o ACH/ALLC Conerence 2005 in Victoria, BC, Canada, 2005.. Cleveland, D. B., Cleveland, A. D., Introduction to indexing and abstracting, Libraries Unlimited, Inc., Littleton, Colorado, 983. 2. Baayen, R. H., Word Frequency Distributions, Dordrecht: Kluwer Academic Publishers, 200. 3. Kumova, S., Derlem Hazırlama Kriterlerinin Oluşturulması, Yüse Lisans Tezi, U.B.E., Ege Üniversitesi, 2005. 4. Powers, D. M. W., Applications and Explanations o Zip s law, EMLAP3/COLL98, ew methods in language processing and Computational natural language learning, 5-60, 998. Gazi Üniv. Müh. Mim. Fa. Der. Cilt 23, o 2, 2008 475