KELÝME ANLAMLARININ ÝSTATÝSTÝKSEL ÇIKARIMI ÝÇÝN METÝN ÖRNEKLERÝNÝN ÝÞLENMESÝ



Benzer belgeler

17 ÞUBAT kontrol

1. Böleni 13 olan bir bölme iþleminde kalanlarýn

Brain Q RSC/2 Termostat

BÝREY DERSHANELERÝ SINIF ÝÇÝ DERS ANLATIM FÖYÜ MATEMATÝK

Kanguru Matematik Türkiye 2015

5. 2x 2 4x + 16 ifadesinde kaç terim vardýr? 6. 4y 3 16y + 18 ifadesinin terimlerin katsayýlarý

Kanguru Matematik Türkiye 2015


EÞÝTSÝZLÝKLER. I. ve II. Dereceden Bir Bilinmeyenli Eþitsizlik. Polinomlarýn Çarpýmý ve Bölümü Bulunan Eþitsizlik

m3/saat AISI

DENEME Bu testte 40 soru bulunmaktadýr. 2. Bu testteki sorular matematiksel iliþkilerden yararlanma gücünü ölçmeye yöneliktir.

Kanguru Matematik Türkiye 2017

TEMEL KAVRAMLAR TEST / 1

Kanguru Matematik Türkiye 2017

Kanguru Matematik Türkiye 2017

Kanguru Matematik Türkiye 2018

olarak çalýºmasýdýr. AC sinyal altýnda transistörler özellikle çalýºacaklarý frekansa göre de farklýlýklar göstermektedir.


Faaliyet Raporu. Banvit Bandýrma Vitaminli Yem San. A.Þ. 01 Ocak - 30 Eylül 2010 Dönemi

Mantýk Kümeler I. MANTIK. rnek rnek rnek rnek rnek... 5 A. TANIM B. ÖNERME. 9. Sýnýf / Sayý.. 01

BÝLGÝLENDÝRME BROÞÜRÜ

Brain Q RSC/2 Termostat


PRÝZMATÝK MODÜLER SÝSTEM SU DEPOLARI. Gelecek Ýçin Üretiyoruz TSEK

BÝREY DERSHANELERÝ SINIF ÝÇÝ DERS ANLATIM FÖYÜ MATEMATÝK - II

DENEME Bu testte 40 soru bulunmaktadýr. 2. Bu testteki sorular matematiksel iliþkilerden yararlanma gücünü ölçmeye yöneliktir.

ünite doðal sayýsýndaki 1 rakamlarýnýn basamak deðerleri toplamý kaçtýr?

3. Çarpýmlarý 24 olan iki sayýnýn toplamý 10 ise, oranlarý kaçtýr? AA BÖLÜM

1.1 Dillerin Benzerlikleri ve Farklýlýklarý

BÖLÜM 3 FONKSÝYONLARIN LÝMÝTÝ. ~ Limitlerin Tanýmý ve Özellikleri. ~ Alýþtýrmalar 1. ~ Özel Tanýmlý Fonksiyonlarýn Limitleri


Geometriye Y olculuk. E Kare, Dikdörtgen ve Üçgen E Açýlar E Açýlarý Ölçme E E E E E. Çevremizdeki Geometri. Geometrik Þekilleri Ýnceleyelim

1. BÖLÜM. 4. Bilgi: Bir üçgende, iki kenarýn uzunluklarý toplamý üçüncü kenardan büyük, farký ise üçüncü kenardan küçüktür.

GEOMETRÝK ÞEKÝLLER. üçgen. bilgi

OBEB - OKEK TEST / 1

3. Tabloya göre aþaðýdaki grafiklerden hangi- si çizilemez?

KÖÞE TEMÝZLEME MAKÝNASI ELEKTRONÝK KONTROL ÜNÝTESÝ KULLANIM KILAVUZU GENEL GÖRÜNÜM: ISLEM SECIMI FULL


7. ÝTHÝB KUMAÞ TASARIM YARIÞMASI 2012

Yüksek kapasiteli Bigbag boþaltma proseslerimiz, opsiyon olarak birden fazla istasyonile yanyanabaðlanabilirözelliðesahiptir.

DERSHANELERÝ MATEMATÝK - I

1.BÖLÜM - KLASÝK SUDOKU 1.Klasik Sudoku Her satýrda, her sütunda ve kalýn çizgilerle belirlenmiþ her bölgede 1'den 9'a (1 den 6 ya) tüm rakamlar tam o

KÖKLÜ SAYILAR TEST / 1

.:: TÇÝD - Tüm Çeviri Ýþletmeleri Derneði ::.


Genel Bakýþ 7 Proje nin ABC si 9 Proje Önerisi Nasýl Hazýrlanýr?


BÝREY DERSHANELERÝ SINIF ÝÇÝ DERS ANLATIM FÖYÜ MATEMATÝK - II

Fiskomar. Baþarý Hikayesi

Bölüm 6: Lojik Denklemlerin Sadeleþtirilmesi

Kümeler II. KÜMELER. Çözüm A. TANIM. rnek Çözüm B. KÜMELERÝN GÖSTERÝLMESÝ. rnek rnek rnek Sýnýf / Sayý..

T.C YARGITAY 9. HUKUK DAÝRESÝ Esas No : 2005 / Karar No : 2006 / 3456 Tarihi : KARAR ÖZETÝ : ALT ÝÞVEREN - ÇALIÞTIRACAK ÝÞÇÝ SAYISI

Yat, Kotra Ve Her Türlü Motorlu Özel Tekneler Ýçin Geçerli Olan KDV Ve ÖTV Ora

Laboratuvar Akreditasyon Baþkanlýðý Týbbi Laboratuvarlar

BÖLME ve BÖLÜNEBÝLME TEST / 6

TOPLUMSAL SAÐLIK DÜZEYÝNÝN DURUMU: Türkiye Bunu Hak Etmiyor

Nokia Þarj Baðlantý Kablosu CA-126

ÝNSAN KAYNAKLARI VE EÐÝTÝM DAÝRE BAÞKANLIÐI

3. FASÝKÜL 1. FASÝKÜL 4. FASÝKÜL 2. FASÝKÜL 5. FASÝKÜL. 3. ÜNÝTE: ÇIKARMA ÝÞLEMÝ, AÇILAR VE ÞEKÝLLER Çýkarma Ýþlemi Zihinden Çýkarma

Modüler Proses Sistemleri

Anlam Belirsizliği İçeren Türkçe Sözcüklerin Hesaplamalı Dilbilim Uygulamalarıyla Belirginleştirmesi

K U L L A N I C I E L K Ý T A B I

STAJ BÝLGÝLERÝ. Önemli Açýklamalar

4. a ve b, 7 den küçük pozitif tam sayý olduðuna göre, 2 a a b x+1 = 3

Örgütsel Davranýþýn Tanýmý, Tarihsel Geliþimi ve Kapsamý

1. ÝTHÝB TEKNÝK TEKSTÝL PROJE YARIÞMASI

4. 5. x x = 200!

YAZILIYA HAZIRLIK TESTLERÝ TEST / 1

ünite1 3. Burcu yla çocuk hangi oyunu oynayacaklarmýþ? A. saklambaç B. körebe C. evcilik (1, 2 ve 3. sorularý parçaya göre yanýtlayýn.

Bakým sigortasý - Sizin için bilgiler. Türkischsprachige Informationen zur Pflegeversicherung. Freie Hansestadt Bremen.

ADIYAMAN ÜNÝVERSÝTESÝ KURUMSAL KÝMLÝK KILAVUZU ADIYAMAN ÜNÝVERSÝTESÝ 2006

Konular 5. Eðitimde Kullanýlacak Araçlar 23. Örnek Çalýþtay Gündemi 29. Genel Bakýþ 7 Proje Yöneticilerinin Eðitimi 10

2 - Konuþmayý Yazýya Dökme


SSK Affý. Ýstanbul, 21 Temmuz 2008 Sirküler Numarasý : Elit /75. Sirküler

3.BÖLÜM - EKRAN TESTÝ - BÝREYSEL 10 DAKÝKA

OKUL ÖNCESÝ EÐÝTÝM KURUMLARI YÖNETMELÝÐÝNDE DEÐÝÞÝKLÝK YAPILMASINA D YÖNETMELÝK Çarþamba, 10 Eylül 2008

Kanguru Matematik Türkiye 2017

Yönergeyi dikkatlice oku. Gözden hiçbir þeyi kaçýrmamaya dikkat et. Þifrenin birini testin iþaretlenen yerine ( Adayýn Þifresi ), diðer þifreyi de

DOÐAL SAYILAR ve SAYILARIN ÇÖZÜMLENMESÝ TEST / 1

ünite1 1. Aþaðýdaki kavram ve gösterimi çiftlerinden hangisi doðrudur? A. ýþýn, B. doðru parçasý, d C. nokta, A D. doðru,

Ücretlerin Bankalardan Ödenmesi Zorunlu Hale Getirilmiþtir

Nokia Araç Kiti CK /1

Simge Özer Pýnarbaþý

ÇEVRE VE TOPLUM. Sel Erozyon Kuraklýk Kütle Hareketleri Çýð Olaðanüstü Hava Olaylarý: Fýrtýna, Kasýrga, Hortum

17a EK 17-A ÖYKÜ KONTROL LÝSTESÝ. ² Rahim Ýçi Araçlar - Ek 17-A²

Mad Q Kullaným Kýlavuzu

LÝMÝTTE BELÝRSÝZLÝKLERÝN GÝDERÝLMESÝ

30 SORULUK DENEME TESTÝ Gönderen : abana - 10/11/ :26

BÝREY DERSHANELERÝ SINIF ÝÇÝ DERS ANLATIM FÖYÜ MATEMATÝK - I

PRESENT PERFECT TENSE WITH JUST / ALREADY / YET

1. Bir yel deðirmen motoru þekildeki gibi 3 diþliden oluþuyor.

MALÝYE DERGÝSÝ ÝÇÝNDEKÝLER MALÝYE DERGÝSÝ. Ocak - Haziran 2008 Sayý 154

..T.C. DANýÞTAY SEKiziNCi DAiRE Esas No : 2005/1614 Karar No : 2006/1140

TEST. 8 Ünite Sonu Testi m/s kaç km/h'tir? A) 72 B) 144 C) 216 D) 288 K 25 6 L 30 5 M 20 7

Kanguru Matematik Türkiye 2018


ÇEMBERÝN ANALÝTÝÐÝ - I

A A A A) 2159 B) 2519 C) 2520 D) 5039 E) 10!-1 A)4 B)5 C)6 D)7 E)8. 4. x 1. ,...,x 10. , x 2. , x 3. sýfýrdan farklý reel sayýlar olmak üzere,

Transkript:

ISTANBUL UNIVERSITY ENGINEERING FACULTY JOURNAL OF ELECTRICAL & ELECTRONICS YEAR VOLUME NUMBER : 2001 : 1 : 2 (287-295) KELÝME ANLAMLARININ ÝSTATÝSTÝKSEL ÇIKARIMI ÝÇÝN METÝN ÖRNEKLERÝNÝN ÝÞLENMESÝ Zeynep ALTAN Engin YANIK tanbul Üniversitesi, Mühendislik Fakültesi Bilgisayar Mühendisliði Bölümü, 34850, Avcýlar e-mail : zaltan, eyanik@istanbul.edu.tr ABSTRACT The integration of knowledge-based techniques with probabilistic models as a natural language processing domain moves the limited applications of understanding database queries to the processing of open-ended text as the prediction of most likely interpretation. Therefore; annotated texts studied in detail are required. For example, it is important to tag both the lexical and semantic knowledge correctly to constitute corpora for the prediction of semantics of ambiguous words (especially ambiguous verbs). Since the corpora which are generated in this study as 7 different text collection with approximately 25000 words will be tested with bi-gram model, the word before the studied word is only marked for the syntactic and semantic classifications. Thus; the probabilistic language model, which will be carried out with supervised corpora, is a supplementary learning component to the handcrafted rules, and it will be able to predict the most likely solution and to reduce the ambiguities in natural language processing. Key Words: Natural language processing, computational linguistics, statistical methods, corpora ÖZET Bir doðal dil iþlemleme alaný olarak bilgi-tabanlý tekniklerle olasýlýksal modellerin bütünleºmesi, veri tabaný sorgulamalarýyla sýnýrlý kalabilecek uygulamalarý, çeþitli metin örnekleri üzerinde iþlemlerle en olasý yorumun tahmin edilmesine dönüþtürebilir. Bunun için de ayrýntýlý olarak iþlenmiþ metin koleksiyonuna gereksinim vardýr. Örneðin metin örnekleri kullanarak birden fazla anlama sahip kelimelerin, özellikle eylem türünde olan kelimelerin, anlamlarýný çýkarabilmek için, bu metinler üzerinde sözcüksel ve anlamsal bilginin doðru olarak iþlemlenmiþ olmasý önemlidir. Bu çalýþm ada oluþturulan ve her biri yaklaþýk 25000 sözcükten oluþan 7 farklý metin koleksiyonu bi-gram model üzerinde test edileceðinden, tümcenin sözdizimsel ve anlamsal sýnýflandýrmasýnda sadece incelenmek istenen kelimeden önceki kelime iºaretlenmiºtir. Böylece iºlenmiº metinler üzerinde uygulanacak olasýlýksal dil modeli, elle tanýmlanan kurallara ek bir öðrenme bileþeni olarak en olasý çözümü tahmin edebilecek ve dili iþlemlemedeki belirsizlikleri de büyük ölçüde azaltacaktýr. Anahtar Sözcükler: Doðal dil iþlemleme, berimsel dilbilim, istatistiksel yöntemler, örnek metinler

288 Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi 1. GÝRÝÞ Doðal dil iþlemlemede doðru sonuçlar elde etmek çok zordur. Çünkü dillerin zenginliði analiz sonucunda belirsizlik durumlarý ile karþýlaþýlmasýný kaçýnýlmaz kýlar. Örneðin herhangi bir tümcenin sözdizimsel (syntactic) analizi, tanýmlanan bir dilbilgisine göre pek çok farklý þekilde gerçekleþebilir. Þekil 1 oldukça basit tümceleri çözümleyebilen baðlamdanbaðýmsýz bir dilbilgisine (context -free grammar) 1 göre, herhangi bir öbeðe ait 2 farklý çözümleme aðacý olabileceðini göstermektedir. Bu iki öbek tümceye farklý anlamlar yüklemesine raðmen, her iki anlamýn da vurgulanmasý veya birinin anlamsýz olmasý olasýdýr. Oysa berimsel dilbilimde (computational linguistics) kullanýlan pek çok geleneksel metodoloji sözdizimsel analizi gerçekleþtirirken, eþzamanlý olarak anlamsal analizi de göz önüne alýr. Bu nedenle sözdizimsel olarak doðru çözümlenebilen bir tümce, anlamsal olarak birºey ifade etmeyebilir. Ali ile okul problemi tartýþýldý tümcesinin isim öbeði Þekil 1 de tanýmlanmýþ olan dilbilgisi kurallarýna göre iki farklý aðaç türetebildiði için analiz sonucu belirsizdir (ambiguous) 2 ; bir baþka ifade ile iki farklý sonuç elde edilmektedir. Oysa bu öbek ªekil 1(c) deki türetme aðacýna yerleþtirildiðinde, sözdizimsel (syntactic) olarak doðru çözümlenmesine raðmen, tümcenin tümünde vurgulanmak istenen anlamý bozacaktýr. Hemen hemen tüm dillerin sözdizimsel analizinde bu belirsizlik problemi ile karþýlaþýlabilir; bu durum da çözümlemenin sözdizim-anlam (syntaxsemantics interface) arayüzü ile birlikte gerçekleþtirilmesini gerektirir. Ayrýca biçimbilimin (morphology), yani kelimelerin varsa tek tek çekim eklerinin ve Türkçe gibi sondan eklemeli dillerde hal eklerinin ayrýþtýrýlmasý iþleminin önceden tamamlanmýþ olmasý þartý, basit bir tümcenin analizi için bile 1 Baðlamdan baðýmsýz dilbilgisi Chomsky sýradüzeninde tanýmlanmýþ bir dilbilgisidir. ve doðal dillerin çözümlenmesine uygun kurallarýn bir sýralanýþýdýr. X α bu dilbilgisinin genel ifadesidir; burada N, giriº olmayan sembollerin sonlu kümesi, giriº sembollerinin sonlu kümesi olmak üzere X N ve α (N ) * þartý saðlanmalýdýr. 2 Belirli (unambiguous) analiz, incelenen tümcenin tanýmlanan dilbilgisi kurallarýna göre sadece bir türetme aðacýna sahip olmasýdýr. biçimbilim-sözdizimi-anlam arayüzünün (morphology -syntax-semantics interface) oluþturulmasýný gerektirir. Tümce yapýsý karmaþýklaþtýkça bu üçlü arayüzün önemi daha da artacaktýr. Örneðin List the sales of the products produced in 1973 with the products produced in 1972 tümcesinin tanýmlanan dilbilgisine göre 455 farklý çözüm verdiði saptanmýþtýr [3]. Dilbilgisi tanýmlamasý gibi elle oluþturulmuþ kurallar bilginin iþlenmesinde birtakým problemler yaratabilir. tatistiksel doðal dil iºlemleme ise seçilmiº metin kolleksiyonundan sözlüksel ve yapýsal tercihleri otomatik olarak öðrenerek bu problemleri ortadan kaldýracaktýr[4]. Öbekler gibi sözdizimsel kategorileri 3 kullanarak çözümleme yapmaktansa, kelimeler arasýndaki iliþkinin ayrýntýlý bilgi içerecek þekilde amaca yönelik olarak tanýmlanmasý ve bu bilgi koleksiyonu daha sonra istatistiksel modellere uygulanarak uygun çözümler elde edilmesi mümkündür. tatistiksel modellerde kullanýlacak parametreler metin koleksiyonundan otomatik olarak alýnýrlar. Bu metin koleksiyonlarý iki farklý þekilde elde edilirler. i) i) Kelimeler arasýndaki iliþkilerin basýn haberleri, roman, bilimsel metinler gibi farklý kaynaklar kullanýlarak tanýmlandýðý önceden oluþturulmuþ hazýr metin koleksiyonu, ii) Elektronik ortamdan alýnmýþ iþlenmemiþ veri içeren sade metinler. tenilen bilginin iþlenmiþ metin koleksiyonundan otomatik olarak alýnmasý iþlemler üzerinde insan emeðini azaltacaktýr. 1970 li yýllarda Brown Üniversitesinde oluºturulan Brown Corpus 1 milyon kelime ile en geniþ kapsamlý olarak etiketlenmiþ metinlerden biridir. Zamanýnýn Amerikan Ýngilizcesini simgeleyen bu metin koleksiyonuna ulaþmak diðerlerine göre daha ucuzdur. Lancester-Oslo-Bergen (LOB) metin koleksiyonu ise Brown çalýþmasýnýn Ýngiliz Ýngilizcesine uyarlanmýþ þeklidir. Susanne metin 3 Kelimenin dilbilgisi bakýmýndan sýnýflandýrmasýdýr. Bu sýnýflandýrma tümcenin sözdizimsel ayrýþtýrmasýnda isim, zarf, eylemsi, zamir veya edat simgeleniºleridir.

Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi koleksiyonuna Brown un 130.000 kelimelik bir alt grubu olarak ücretsiz olarak ulaþýlabilmektedir [6]. Metinlerin Wall Street Journal den alýndýðý Penn Treebank ise sözdizimsel olarak analiz edilmiº tümceleri içerir. Ýþlenmiþ metinlerden farklý olarak elektronik sözlüksel veritabaný olarak WordNet oluþturulmuþtur [1]. 10 yýllýk uzun bir çalýþma sonunda gerçekleþtirilen WordNet bazý yönleri ile geleneksel bir sözlüðe benzemesine raðmen, kelimeleri ve kavramlarý benzerlik ve zýtlýklarýna göre anlamsal iliþkiler çeþitliliðinde iliþkilendirir. Ayrýca; kavramsal yapýlar sözlüksel yapýlardan farklý olarak tanýmlanýr. Bu çalýþmada da eylemlerin anlamsal sýnýflandýrmasý için G.A.Miller in WordNet projesi kapsamýnda tanýmladýðý anlamsal alanlardan yararlanýlmýþtýr 4. S EÖ EÖ EÖ EÖ Ey Eki (a) (Ba) Ba Eki Ba 289 Birkaç örneðini verdiðimiz ilk türdeki metin koleksiyonlarý genellikle Ýngilizce, Almanca, Fransýzca olarak, proje gruplarýnýn anadillerini içeren az sayýda dil için geliþtirilmiþtir. Bu nedenle, bu çalýþma amaca yönelik olarak iºlenmiº metin koleksiyonunun yapýlandýrýlmasýndan oluþmaktadýr. Elektronik ortamdan alýnan hikayeler 5, eylemlerdeki anlam belirsizliðini çözmek amacý ile iºlemlenmektedir. Prototip olarak gerçekleþtirilen bu yazýlým metin düzenleyici olarak Word dosyalarýný kullanýr. Çalýþma bu aþamada süreçleri Visual Basic 6.0 programlama dilinde gerçekleºtirmekte ve sonuçlarý yine ayný ortamda sunmaktadýr. Prototipin bütün olarak tamamlanmasý ile sonuçlar, elektronik ortamda dilden baðýmsýz olarak hazýrlanacaktýr. Metinleri amaca yönelik olarak iþaretlemek için bazý semboller tanýmlanmakta ve bu semboller iþlenmemiþ metnin regüler ifadelerini oluþturmaktadýr. Bu reguler ifadeleri bir sonlu durum makinesinde modelleyerek sembollerin simgeleniºinin izlenmesini kolaylaþtýrmak da mümkün olabilir. Böylece metin istenilen düzen ve simgeleniºe getirildiðinde, bir word dosyasý konumundan bir imleç ºekline dönüºebilecektir. 4 Motion, perception, contact, communication, competition, change, cognition, consumption, creation, emotion, perception, possession, bodily care and functions and, social behaviors and interactions. 5 Dünya klasiklerinden örnek hikayeler: Guliver Devler Ülkesinde, Candide, Ivan Nikiforoviç, Tours Papazý, Mozart Prag Yolunda, Mektuplar, Kýr Atlý Türkiye Türkiye Ba ve Kýbrýs (b) iliºki Eki ler+i ªekil:1 : im öbeðinin (a) da tanýmlanan dilbilgisi kurallarýna göre iki farklý aðaç olarak türetilmesi II. METÝN KOLEKSÝYONUNUN OLUªTURULMASI Örnek metin içinde iki nokta iþareti (..) arasý bir tümce olarak kabul edildiði için, tümce sonu için # sembolü, tümce baþý için de @ sembolü ayraç olarak kullanýlmýþtýr. Tümce içerisinde Kýbrýs (c) iliºki Eki ler+i

290 Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi anlamý araþtýrýlacak kelimenin (eylem/eylemsi) baþý ve sonu $ iºareti ile iºaretlenmektedir. Anlamý araþtýrýlacak kelimeden bir önceki kelime de iki % iþareti arasýnda etiketlenmektedir. Bu bölümde mu, mü, da, de, ta, te gibi bir ek veya bir, dek, kadar, kez, defa gibi tek baþýna bir anlam taþýmayan bir sözcük bulunuyorsa, iki önceki kelime baºtan ve sondan & sembolü ile iþaretlenmektedir. Ayrýca nokta iþareti dýþýndaki tüm noktalama iþaretlerinin de tanýmlanan özel imleçler arasýnda bulunmamasý gerekmektedir Eðer anlamý araþtýrýlacak kelime satýr baþýnda ise, yani bir önceki kelime yoksa, bu durumlarýn sayýsý Boþ olarak tutulacak ve bunlarýn tekrarlanma sayýsý ait olduðu anlam ile iliþkilenecektir. Ayrýca iki % iþareti arasýndaki kelime bir baðlaç veya ünlem ise de bu sözcüðün sözlüksel tanýmlamasý Boþ olacaktýr. Þekil 2 de tüm iºaretlemeler yapýldýktan sonra bir metin örneðinin görüntüsü ve incelenmesi istenen eylemin ekranda görülen kýsmýnýn veri tabanýndaki iþaretlenmiþ þekli görülmektedir. Hazýrlanan iþlenmiþ metin koleksiyonunu dilimizde çok kullanýlan eylemlerin uygulamalarýnda geniþletmek için, öncelikle eylemden önceki kelimenin sözdizimsel özelliklerini sonraki kelimeye göre, yani anlamlarýný sýnýflandýracaðýmýz eyleme göre, yeniden inceleyerek anlamsal kategorilerini tanýmlamak gerekir. Bu anlamsal kategoriler metin koleksiyonunda geçen kelimelerin sözlük anlamlarýna göre gruplaþmasý ile elde edilir. Örnek olarak git eyleminin anlamsal kategorileri Dünya edebiyatýndan 7 farklý klasik hikayenin içinde geçen kelimeler incelenerek oluºturulmuºtur. Böylece incelenen eylemin sözlüksel anlamlarý bu metin koleksiyonu için tanýmlanmýþtýr. Artýk dýþarýdan girilen herhangi bir tümcedeki eylemin anlamý olasýlýða baðlý olarak tahmin edilebilir. Tahmin için kullanýlacak yöntem, Maximum Likelihood Estimation (MLE) olabilir. Bu da iºlenmiº metin örneði içinde aranýlan sözcüðün eðitilme sayýsýdýr. Eðitim sadece bir önceki sözcüðe göre yapýlacaðý için araþtýrýlan kelimeden önceki kelimenin ses öðelerine göre sýnýflandýrmasý önemlidir. Bu sýnýflandýrmadan elde edilen deðerler de iþlenmiþ olan bu metin örnekleri üzerinde farklý anlamlarýn belirlenmesi için bir Bayes sýnýflandýrmasý oluþturur. Anlamý belirsiz herhangi bir kelime için Bayes karar kuralýnýn [2] uygulanmasý; bu kelimenin iþlemlenmiþ örneklere göre tanýmlanan anlamlarý, metin koleksiyonu içindeki yerleri ve eðitime giren sözcük veya sözcük grubuna ait ses öðelerinin özelliklerinin kullanýlmasý ile gerçekleþir. Tablo 5 Candide isimli hikayede bir eylem için bu ses öðelerinin daðýlýmýný tanýmlamaktadýr III.ÖRNEK BÝR EYLEMÝN ANLAMSAL SINIFLANDIRMASI Diðer dillerde olduðu gibi Türk dili de özellikle eylemlerin kullanýþ þekillerine göre farklý anlamlar taþýr. Bu farklý anlamlarý belirleyebilmek için kullanýlacak modelin türüne göre kelimelerin sözcüksel, anlamsal ve hatta biçimbilimsel özelliklerinin tanýmlanmasý gerekir. Türk Dil Kurumu sözlüðünden alýndýðý þekli ile en fazla anlama sahip eylem 57 farklý anlam ile «çýk» kelimesi iken, bunu 33 farklý anlam ile «at», 36 farklý anlam ile «geç» eylemleri izlemektedir[5]. Bu çalýþmada ayrýntýlý incelemesi özetlenen «git» sözcüðü ise Dil Kurumu Sözlüðüne göre 21 farklý anlam taþýmaktadýr. Eylemden önce gelen kelime ses öðelerine göre adýl, eylemsi, ilgeç gibi gruplandýðýnda bu ses öðelerinin eyleme ait farklý anlamlar yükledikleri gözlenmiºtir. Tüm dillerde eylemler genellikle bir iº, oluº, hareket veya bir durum ifade ederler. Bunlarý simgeleyen Türkçe eylemlerin de Wordnet in sýnýflandýrmasýna benzer olarak sýnýflandýrýlmasý sonunda örnek olarak alýnan git kelimesinin Tablo 1 de tanýmlanan anlamlarý þöyle özetlenebilir: I., II., V.,VII, ve VIII. anlamlarý bir hareketi simgelemektedir. Bu sýnýflandýrmada I. anlam bir konuma doðru yönelmeyi simgelerken, II. anlam bulunan ortamý terk etmeyi, V. anlam ise yürüyerek veya bir araçla yol almayý ifade eder. VII. anlamý taþýyan eylem bir etkinliði izlemek, ziyaret etmek veya bir baþvuru yapmak amacý ile gerçekleþen hareketleri, VIII. anlam ise ayný yerde bir aþaðý bir yukarý dolaþmayý yansýtmaktadýr. Bu eylemlerin tümünde bir hareket gerçekleþmektedir. Fakat tümce içinde kullanýlýþ amaçlarý farklýdýr. i. III. anlam bir durumun sürerliðini simgelemek üzere kavramsal alan olarak sýnýflandýrýlan bir durumu ifade eder. ii. IV. ve X. anlamlar bir isim takýmýnýn yönelme durumundaki belirtileni durumundadýrlar ve bazý sýfatlardan sonra kullanýlarak tümcedeki öznenin o sýfatta göründüðünü belirten

Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi bileºik eylemler yaparlar. Durum ifade eden IV. anlam duygulanmayý, metin örneði içinde az sayýda tekrarlanan X. anlam ise geçmiþi anmayý simgelemektedir. 291 iv. IX. anlam bir oluºtur ve incelen metin örnekleri içinde tekrarlanma sayýsý azdýr. Anlamsal sýnýflandýrmada bir iliþki ifade etmek üzere duyma eylemini simgelemektedir. iii. VI. anlam oluº ifade eden bir eylem olarak canlý aktivitelerinin veya bazý soyut kavramlarýn sona erdiðini simgeler. Yukarýdaki anlamlarý taþýyan tümcelere ait örnekler Candide isimli hikayede geçtiði þekli ile Tablo 2 de özetlenmektedir. Az sayýda örneði olan diðer 3 anlam ise, diðer hikayelerden alýnarak Tablo 3 de örneklenmiºtir. Tablo 1: Metin koleksiyonundaki tümcelere göre git eyleminin farklý anlamlarýna ait sýnýflanma ANLAMSAL ALAN ALT ALAN ANLAMIN SES ÖÐESÝ ÝLE BÝRLÝKTELÝÐÝ 6 I.ANLAM HAREKET (Motion) YÖNELME SesÖðesi.Hareket.Yönelme II.ANLAM HAREKET (Motion) TERKETME SesÖðesi.Hareket.Terketme III.ANLAM KAVRAMA(Perception) DEVAMLILIK SesÖðesi.Kavrama.Devamlýlýk IV.ANLAM DUYGU (Emotion) HÝSLENME SesÖðesi.Duygu.Hislenme V.ANLAM HAREKET (Motion) YOL ALMA SesÖðesi.Hareket.Yolalma VI.ANLAM FONKSÝYON(Bodily SONLANMA SesÖðesi.Fonksiyon.Sonlanma Activity and Functions) VII.ANLAM HAREKET(Motion) AKTÝVÝTE SesÖðesi.Hareket.Aktivite VIII.ANLAM HAREKET(Motion) VOLTA SesÖðesi.Hareket.Volta IX.ANLAM ÝLÝÞKÝ (Contact) DUYMA SesÖðesi.Ýliþki.Duyma X.ANLAM DUYGU(Emotion) ANMA SesÖðesi.Duygu.Anma 6 Ses öðesi her bir anlam grubundaki incelenen kelimeden önceki kelimenin dilbilgisi sýnýfýdýr.

292 Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi Tablo 2 : Candide isimli hikayeden «git» eyleminin farklý anlam taþýyan örnekleri I.Anlam: Bir yere doðru yapýlan harekeleri simgeler. II.Anlam :Terketmeyi vurgulayan (genellikle bir amaç için) hareketleri simgeler. III.Anlam :Bir durumun devam etmesi IV.Anlam : Yardýmcý eylem þeklinde duygusallýðý simgeleyen sürerlik iºinin yapýlmasý V.Anlam : Yol almak VI.Anlam Yok olmak, ölmek, elden çýkmak VII.Anlam : Aktivite olarak veya ziyaret amaçlý olarak gerçekleºtirilen fonksiyon 1) Candide:"Nasýl dönmeli, nereye(soru Zarfý) gitmeli" dedi. 2) Candide, koºarak baºka bir köye (Cins im) gitti. 3) Candide, nedenlerle sonuçlar üstünde düºünmek için baºka bir yere (Yer zarfý) gitmeye karar verdi. 4) Bazý iþler için gemiyle Lizbon'a (Özel im)gitmek zorunda kalýnca bu iki filozofu da birlikte götürdü. 5) Ama madem ki (Boº) gitmekistiyorsunuz, sizi rahat götürsün diye mühendislerime bir makine yapmalarýný emredeceðim. 6) Ona akýl danýþmaya (Ad eylem)gittiler. 7) Kilisede dua ettikten sonra askerleri denetlemeye(ad Eylem) gitti. 8) Tanrý günah yazmasýn ama, iki kere odamýza girdi ve bizden çok önce çekip(bað eylem) gitti 9) Her ºey yolunda, her ºey yolunda (Durum Zarfý) gidiyor,herºey olabileceði kadar yolunda(durum Zarfý) gidiyor" diye baðýrdý. 10) Candide onu, "Her ºey iyi (Durum Zarfý) gidecek", diye yatýþtýrýyordu. 11) Yaþlý kadýn Candide'e, talihleri daha yaver (Durum Zarfý) gitmeye baþlayýncaya kadar bu çiftliðe yerleºmeyi önerdi. 12) Candide, biraz tartýþtý ama fazla ileri(cins im) gitmedi. 13) Ülkemizin âdetleri arasýnda hoºununuza (Cins im) gitmeyenler olursa elbette bunu da hoº görürsünüz. 14) Oreillonlar ülkesindekarþýlaþtýðýmýz, size maceralarýný anlattýðým iki kýzýn iki maymunla seviþmesi tuhafýnýza (Cins im) gitmedi mi? 15) Bir an hayran hayran Candide'in yüzüne baktý, sonra yoluna (Cins im) gitti. 16) Cayenne'e gitmek kolay deðildi: ne taraftan (Yer Zarfý) gidileceðini aþaðý yukarý biliyorlardý. 17) Dörtnala (Durum Zarfý) gidelim,efendim. 18) Candide artýk ikinci derece bir rol oynuyor,uþaðýnýn arkasýndan(yerzarfý) gidiyordu. 19) Soyaðacýnýn kalan bölümü zamanýn içinde yitip(bað Eylem) gitmiºti. 20) Ne "alla moda" bir operaya(cins im) gitti. 21) Paraguaylý bir subay, haberi ulaþtýrmak için komutanýn ayaðýna (Cins im)kadar gitti.

Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi 293 Tablo 3 : Candide dýþýnda ki metin koleksiyonu içinde bulunan «git» eylemlerine ait örnek tümceler 22) Bayanlar anayol üzerinde bir aþaðý bir yukarý birkaç kez (Miktar Zarfý) gidip geldikten sonra yüksekçe bir baðýn yarý yarýya kuþattýðý yuvarlak bir tepeciðe VIII.Anlam : Hareketi ayný týrmandýlar. rotada tekrarlamak 23) Burada, toplarýn arasýnda sessizce aþaðý yukarý(yer Zarfý) gidip gelen bir nöbetçi er tarafýndan hiç de rahatsýz edilmediði halde, eþsiz görünümden kýsa bir süre yararlandý. IX.Anlam. Duymak 24) Sarayda kimsenin kulaðýna(cins im)gitmedi. X.Anlam :Geçmiºe dönüº 25) Bunun açýk tanýtlarýný görmek için uzaða(yer Zarfý) gitmeyin. 26) Ta gerilere (Yer Zarfý) giderek anlatayým IV. SONUÇ Metin anlambilimsel bir kavram olarak sadece tümcelerden ibaret olmayýp, tümcelerle gerçekleºen ve kodlanan bir birimdir. Söz-eylem kuramý ile ise, sözle eylem arasýndaki iliþki ve karþýtlýklar belirlenir. Çalýþmada bu anlam iliþkilerinin ve karþýtlýklarýnýn tanýmlanmasý için bir metin koleksiyonu içindeki kelimeler Bölüm II de tanýmlandýðý þekilde bazý sembollerle iºaretlenmiºtir. Böylece, pek çok tümce için edimbilim (pragmatics) ile de örtüºebilecek anlambilimsel bir araþtýrmanýn ilk adýmý gerçekleºtirilmiºtir. Herhangi bir eylem için, bu eylemin tümcede bulunduðu durumla baðlantýlý olarak anlamsal yorumunu çýkarabilecek olasýlýksal bir algoritmanýn çalýþmasý için gerekli tüm bilginin metin koleksiyonunda iºaretlenmesi gereklidir. ªekil 3 de git eylemi için Bayes karar kuralýnda kullanýlabilecek tüm deðiþkenlere ait sýnýflandýrma, örnek hikaye için görüntülenmektedir. Bu algoritmanýn çalýþabilmesi için gerekli olan bilgi, her bir sözcüðün alabileceði farklý anlamlarýn tanýmý ve önceki kelimenin ses öðesi sýnýflandýrmasýna göre belirlenmiº kullaným sayýsýdýr. Tablo 4 metin koleksiyonu içinde geçen git sözcüklerinin sayýsýný vermektedir. Metin koleksiyonu oluºturulurken, dilin çeºitli dizgelerinde olduðu gibi, sözdizimi ve biçimbirim dizgeleri ile anlam arasýndaki sýký iliºkiden yararlanýlmýþtýr. Daha sonra eðitime dahil olacak tümcelerin de bu iliþkileri doðru saðladýklarý kabul edilmektedir. Ayný ses öðesi içinde bulunan, fakat biçimbirimsel çözümlemeleri farklý olan kelimeler yalýn hallerine dönüºtürülerek sayma iºlemi gerçekleºtirilmektedir. Böylece hal eki almýþ sözcüklerin farklý kelimeler olarak sayýlmasý da önlenmiþ olacaktýr. Bu metin koleksiyonu içindeki tümceler acaba seçilen kelimenin tüm farklý anlamlarý için örnekler içerir mi? Bu sorunun cevabý tabii ki hayýr olabilir. Örneklerini incelediðimiz kelime için bile, Kaçýncý sýnýfa gidiyorsun?, Bu giysi iki yýl gider, Bu kadar para nereye gitti?, Altýn kaçtan gidiyor? gibi tümcelerindeki eylemlere ait tanýmlanmýþ anlam kategorileri yoktur. Böyle problemlerle karþýlaºmamak için koleksiyon içindeki metin konularý çeþitli alanlardan seçilmelidir. Metin koleksiyonu ile çalýþýlýrken karþýlaþýlabilecek bir baþka problem de, belirsiz anlamý araþtýrýlan kelimenin tamamen farklý bir anlam taþýmasý ihtimalidir. Git kelimesi için gittikçe, gider, gitgide gibi sözcüklerin çalýþmanýn tamamen dýþýnda býrakýlmasý gerekmektedir. Sonuç olarak; metin koleksiyonunun doðru olarak iºaretlenmesi önemlidir. Çünkü, sonraki adýmda uygulanacak olasýlýksal modelin doðru sonuçlar vermesi, iºaretlenmiº bu metin koleksiyonun içerdiði bilgiye baðlýdýr. Tablo 4: Metin koleksiyonunda geçen git eyleminin tekrarlanma sayýsý Dünya Klasiði ismi Git sözcüklerinin sayýsý Guliver Devler Ülkesinde 41 Candide 90 Ivan Nikiforoviç 45 Tours Papazý 58 Mozart Prag Yolunda 63 Mektuplar 37 Kýr Atlý 115

294 Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi ªekil 2: Seçilen hikayelerin iºaretlenmesi ile oluºturulan metin koleksiyonundan bir örnek ªekil 3: Seçilmiº kelimenin anlamýný tahmin etmek için oluþturulmuþ iþlenmiþ metin koleksiyonu örneði

Kelime Anlamlarýnýn tatistiksel Çýkarýmý Ýçin Metin Örneklerinin Ýþlenmesi Tablo 5: Git kelimesinden önceki kelimelerin Candide isimli hikayedeki ses öðeleri 295 Cins isim Özel isim Yer zarfý Soru zarfý Durum zarfý Zaman zarfý Bað Eylem Sýfat eylem Zamir Ad eylem Boº Köye Candide e Yere Nereye *4 Ýyi Zaman Çekip teyen Kimsenin Denetlemeye Dünyaya Cayenne e Doðru Neresi Dörtnala Hemen Yitip Beklemeye Ülkeme Lizbon a Taraftan Yolunda Bakmaya Bucaðýna Cadiz e Arkasýndan Yaver Görmeye Gemiye Souza ya Ucuna Satmaya Evine Aires e Yanlarýna Danýþmaya Otele Bordeaux ya Ýleri Camiye Japonya ya Ayaðýna Ýtalya ya Hoºa Paris e Yoluna Portsmouth a Hoºunuza Venedik e Hoºuna *5 tanbul a Tuhafýnýza Hoºuma *3 Kýyýlarýna Operaya 26 adet 16 adet 7 adet 5 adet 5 adet 2 adet 2 adet 1 adet 1 adet 6 adet 19 adet KAYNAKÇA [1] Fellbaum C., 1999, WordNet An Electronic Lexical Database, The MIT Press [2] Manning C.D., Schütze H., 1999, Foundations of Statistical Natural Language Processing, MIT Press. [3] Martin W.A., Church K.W., Patil R.S.,1987. Preliminary analysis of a breath-first parsing algorithm: Theoretica and experimental results. In Leonard Bolc(ed.) Natural Language Parsing Systems. Berlin : Springer-Verlag. (Ayný zamanda MIT LCS technical report TR-261) [4] Weischedel R., Schwartz R., Palmucci J., Meteer M., and Ramshaw L., Coping with Ambiguity and Unknown Words through Probabilistic Models, Computational Linguistics, Vol.19, Num.2, pages 359-382. [5] Oflazer K., Yýlmaz Okan, Design and Implementation of a Verb Lexicon and a Verb Sence Disambiguator for Turkish. [6] Icame Corpus Collection, http://www.hit.uib.no/icame/lob-exs.html