TÜRKÇE METİNLERDE MAKİNE ÖĞRENMESİ YÖNTEMİYLE EŞGÖNDERİM ÇÖZÜMLEMESİ

Benzer belgeler
Web Madenciliği (Web Mining)

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

tree) nedir? Karar Ağacı (Decision Decisiontree

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Karar Ağacı Öğrenmesi(Decision Tree Learning)

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Türkçe Dokümanlar Ġçin Yazar Tanıma

Uzaktan Algılama Uygulamaları

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

K En Yakın Komşu Methodu (KNearest Neighborhood)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

T.C. TRAKYA ÜNĐVERSĐTESĐ FEN BĐLĐMLERĐ ENSTĐTÜSÜ

Makine Öğrenmesi 3. hafta

Hafta 05 - Karar Ağaçları/Kümeleme

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

HACETTEPE ÜNİVERSİTESİ BAHAR DÖNEMİ

7. Yayınlar 7.1. Uluslararası hakemli dergilerde yayınlanan makaleler (SCI & SSCI & Arts and Humanities)

Web Madenciliği (Web Mining)

Karar Ağacı Öğrenmesi(Decision Tree Learning)

Web Madenciliği (Web Mining)

T A R K A N K A C M A Z

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Rasgele Sayı Üretme. Rasgele Sayıların Özellikleri. İki önemli istaiksel özelliği var :

Otomatik Doküman Sınıflandırma

Metin Sınıflandırma. Akış

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

Gözetimli & Gözetimsiz Öğrenme

Veri Madenciliği Karar Ağacı Oluşturma

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

BIP116-H14-1 BTP104-H014-1

Genel Graf Üzerinde Mutlak 1-merkez

Açık ve Uzaktan Öğretimde Farklılaştırılmış Öğretim. Hasan UÇAR, Bilecik Şeyh Edebali Üniversitesi Doç. Dr. Alper Tolga KUMTEPE, Anadolu Üniversitesi

Adı Soyadı Geçerlilik Bölüm ve Görevi Eski Şirketi ve Görevi. Uluslar Arası Programlar Ofisi Öğrenci Değişim Uzmanı

Week 9: Trees 1. TREE KAVRAMI 3. İKİLİ AĞAÇ DİZİLİMİ 4. İKİLİ ARAMA AĞACI 2. İKİLİ AĞAÇ VE SUNUMU > =

Boosting. Birol Yüceoğlu Migros T.A.Ş.

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür.

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

Otomatik Doküman Sınıflandırma

Algoritmalar. Heap Sort. Bahar 2017 Doç. Dr. Suat Özdemir 1

1.58 arasındaki her bir değeri alabileceği için sürekli bir

Self Organising Migrating Algorithm

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl. OrtaöğretimMatematikEğitimi BoğaziciÜniversitesi 2007

2012 LYS MATEMATİK SORU VE ÇÖZÜMLERİ Niyazi Kurtoğlu

ÖZET. Anahtar Kelimeler: Artgönderim, Artgönderim Çözümlemesi, Adıl, Tükçe için Adıl Çözümlemesi

İleri Bilgisayar Mimarileri (COMPE 532) Ders Detayları

ÖZGEÇMİŞ RAZİYE SELİM. Telefon : / 2081 Ev : Fax :

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Kolektif Öğrenme Metotları

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

b) Algoritmanızın en kötü durumda işlem zamanını asimptotik olarak bulunuz

A) 1 B) 10 C) 100 D) 1000 E) Sonsuz. öğrencinin sinemaya tam bir kez birlikte gidecek şekilde ayarlanabilmesi aşağıdaki n

Makine Öğrenmesi (COMPE 565) Ders Detayları

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

ÇİFT EŞİK DEĞERLİ GÖRÜNTÜ NETLEŞTİRME YÖNTEMİ

RASSAL SAYI ÜRETİLMESİ

BİYOMETRİK İRİS SINIFLANDIRMA SİSTEMLERİ

Ağaç (Tree) Veri Modeli

İlk Yapay Sinir Ağları. Dr. Hidayet Takçı

YD 101 İngilizce-I (A1) 4+0 English-I (A1) 4 YD 107 Almanca-I (A-1) 4+0 German-I (A-1) 4 I. Yarıyıl Toplam Kredi 17 I. Yarıyıl Toplam AKTS 30

2. BASİT DOĞRUSAL REGRESYON 12

Karar Ağaçları Destekli Vadeli Mevduat Analizi. Bank Deposit Analysis Based on Decision Tree

1996 ÖYS. 2 nin 2 fazlası kız. 1. Bir sınıftaki örencilerin 5. örencidir. Sınıfta 22 erkek öğrenci olduğuna göre, kız öğrencilerin sayısı kaçtır?

VERİ YAPILARI VE PROGRAMLAMA

Zeki Optimizasyon Teknikleri

BENİM DÜNYAM ÇOCUK OYUNU: BİR MOBİL UYGULAMA

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

AST416 Astronomide Sayısal Çözümleme - II. 6. Monte Carlo

SÜREKLİ RASSAL DEĞİŞKENLER

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

YAPAY ÖĞRENME İLE TÜRKİYE NİN KURULU GÜCÜNÜN 2023 YILINA KADAR TAHMİNİ

Dr.Öğr.Üyesi HALİL TANIL

AKIŞ ŞEMASI AKIŞ ŞEMASI AKIŞ ŞEMASI ŞEKİLLERİ GİRİŞ

VERİ MADENCİLİĞİ Metin Madenciliği

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

BÖLÜM 12 STUDENT T DAĞILIMI

Transkript:

TÜRKÇE METİNLERDE MAKİNE ÖĞRENMESİ YÖNTEMİYLE EŞGÖNDERİM ÇÖZÜMLEMESİ TOLGA KAYADELEN & ENES AVCU 27. ULUSAL DİLBİLİM KURULTAYI 2-4 MAYIS 2013, ANTALYA

Eşgönderim Bir metinde iki ya da daha fazla Ad Öbeğinin aynı göndergeye sahip olması. Örnek: (Arşivde) 1 bulunan (belgeler) 2 genellikle ((asıl metinlerin) 3 kopyalarıdır) 4. Gerektiği zaman (bu belgelerden) 5 yararlanılırdı. (Bir davacı) 6 (daha önceki bir konu) 7 hakkında (herhangi bir iddiada) 8 bulunursa hemen ((ona) 9 ait belgeler) 10 (arşivde) 11 bulunup kontrol edilirdi. Eşgönderim İlişkileri: 1-11; 2-5-10; 6-9

Eşgönderim Türleri (Arşivde) 1 bulunan (belgeler) 2 genellikle ((asıl metinlerin) 3 kopyalarıdır) 4. Gerektiği zaman (bu belgelerden) 5 yararlanılırdı. (Bir davacı) 6 (daha önceki bir konu) 7 hakkında (herhangi bir iddiada) 8 bulunursa hemen ((ona) 9 ait belgeler) 10 (arşivde) 11 bulunup kontrol edilirdi. 1. Adıllar i.e. Bir davacı ona 2. Belirli Ad Öbekleri i.e. Arşivde- arşivde 3. İşaret Ad Öbeği i.e. Belgeler bu belgeler

Çalışmanın Amacı ve Uygulama Alanları Amaç: Makine öğrenmesi yöntemlerinden karar ağacı öğrenme (decision tree learning) algoritmasını kullanarak Türkçe metinlerde eşgönderimli ad öbeklerini doğru sınıflandırmayı öğrenen bir modeli tanıtmaktır. Doğal Dil İşlemleme Çalışmalarında Eşgönderim Çözümlemesinin Yeri o Makine Çevirisi o Otomatik Metin Özetleme o Bilgi çıkarımı Mitkov (1999, 2002) 4

Türkçe Alanyazında Eşgönderim Çözümlemesi D. Küçük, 2005, A Knowledge Poor Pronoun Resolution System for Turkish, Yayımlanmamış Yüksek Lisans Tezi, Ortadoğu Teknik Üniversitesi. D. Kucuk, M. T. Yondem, 2007, Automatic identification of pronominal Anaphora in Turkish texts Computer and Information Sciences içinde, 1-6. S. Yıldırım, Y. Kılıçaslan, 2007, "A Machine Learning Approach to Personal Pronoun Resolution in Turkish. 20. Uluslararası FLAIRS Konferansı Bildirileri, FLAIRS- 20, 269-270. Y. Kılıçaslan, E. S. Güner and S. Yıldırım, 2009, Learning-Based Pronoun Resolution for Turkish with a Comparative Evaluation. Computer Speech and Language içinde, 23(3): 311-331.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Sadece adıl çözümlemesi değil, eşgönderimli olan tüm ad öbeklerinin çözümlemesi yapılmaktadır. Diğer çalışmalarda kullanılan nitelikler kümesi değiştirilmiş ve geliştirilmiş, bu da diğer çalışmalara kıyasla daha yüksek bir performans elde edilmesini sağlamıştır.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Chomsky 1981, Yönetim ve Bağlama Kuramı: A İlkesi: Bir gönderge (anaphor) yönetim ulamı içinde bağlı olmalıdır. B İlkesi: Adılsıl bir AÖ yönetim ulamı dışında bağlı olmalıdır. C. İlkesi: Göndergesel bir AÖ her yerde özgür olmalıdır.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Alanyazında önemli bir soru, bağlama ilkelerine ait sözdizimsel kısıtların çocuklarda doğuştan bulunup bulunmadığıdır. Grimshaw ve Rosen (1990), Grodzinsky ve Reinhart (1993) gibi araştırmacılar, çocukların sözdizimsel ilkelere ait bilgiye sahip olduğunu öne sürmüşlerdir. Bu bakış açısına temel oluşturan nokta, doğal veride karşı karşıya kalınan girdinin, çocukların bağlama ilkeleri gibi karmaşık dil dizgelerini kavramalarına yetecek kadar zengin olmadığı varsayımıdır. (uyaran yetersizliği argümanı)

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Hiçbir sözdizimsel önbilgiye dayanmayan ve eşgönderim çözümlemesini tamamen yüzeysel değişkenler aracılığıyla istatistiksel bir yöntemle çözümlemeyi öğrenen makine öğrenmesi uygulamalarının başarısı, uyaran yetersizliği argümanının aksine, doğal verinin eşgönderim ilişkilerini çözmeyi öğrenme konusunda çocuklara yeterli girdi oluşturduğuna işaret edecektir.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi BENZER ÇALIŞMALAR Lewis, J. D., & Elman, J. L. (2001). Learnability and the statistical structure of language: Poverty of stimulus arguments revisited. 26. Boston University Conference on Language Development içinde. (359 370). Somerville, MA: Cascadilla. Reali, F., & Christiansen,M. H. (2005). Uncovering the richness of the stimulus: Structure dependence and indirect statistical evidence. Cognitive Science içinde, 29, 1007 1028.

Karar Ağaçları Karar Ağaçları bir fonksiyonun ağaç şeklindeki gösterimidir. Girdi: Özellik değerlerinin vektörü Çıktı: Tek bir değer (Karar) Karar Ağaçlarındaki varsayım, girdilerin belirli değerler olması ve çıktıların ikili sınıflandırmalar olmasıdır.(yanlış doğru veya evet hayır gibi). Karar ağacı, örnekleri ağacın kökünden yapraklarına doğru sıralayarak sınıflandırır. Dallar muhtemel değerleri gösterir. Düğümler belirlenmiş özellik değerlerini gösterir.

Çalışma Şekli Karar ağacı algoritması, ağacın kökünün hangi değişken ile test edilmesi gerektiği sorusu ile başlayarak yukarıdan aşağıya doğru ağacı oluşturur. Ağaçtaki her düğüm bazı değişkenleri test eder ve her dal bu değişkenin alabileceği değerlerden birine uygun düğümü gösterecek şekilde aşağıya doğru iner. İlk adım kök düğüm noktası için verilen değerleri test etmektir. Seçilen nitelik ile ağacın bir düğümü oluşturulur ve bu düğümden ağacın yaprakları oluşturulur. En iyi özellik en yüksek bilgi kazanımını veren özelliktir. Bu süreçte her bir özelliğin tek başına örnekleri nasıl sınıflandırdığına bakılır. Kök düğüm seçildikten sonra süreç her defasında sonra gelen düğümü oluşturmak için tekrarlanır. Sonraki adımda yaratılan her alt veri kümesi için ; Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlem sonlandırılır.

Bu işlem verilen örneklerin sınıflandırmasına karar vermek için istatistiksel test kullanılarak yapılır. Bilgi kazanımı (information gain) olarak adlandırılan bu test, veri kümesindeki niteliklerden hangisinin veriyi en iyi şekilde sınıflandırdığını ölçer. En ayırt edici nitelik belirlendikten sonra, bu nitelik kullanılarak ağacın bir düğümü oluşturulur. Bilgi kazanımının en temel yapı taşı entropi dir. Entropi rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir ve aşağıdaki formülle hesaplanır: Entropi (S) ( p + log2 p + ) (p log2 p ) Örneğin 9 olumlu 5 tane olumsuz örneğimiz varsa entropy 0.94 olur. Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.94

Örnek Günler Görünüm Sıcaklık Nem Rüzgar Tenis Oynama G1 Güneşli Sıcak Yüksek Zayıf Hayır G2 Güneşli Normal Düşük Şiddetli Evet G3 Bulutlu Sıcak Yüksek Zayıf Evet Öncelikle kök düğüm den başlayıp bilgi kazanımını hesaplarız, Bilgi kazanımı(s, Görünüm) [Güneşli, Bulutlu] Bilgi kazanımı(s, Sıcaklık) [Sıcak, Normal] Bilgi kazanımı(s, Nem) [Yüksek, Düşük] Bilgi kazanımı(s, Rüzgar) [Şiddetli, Zayıf]

Çalışmanın Akış Çizelgesi METİN AÖ İŞARETLENMESİ BİÇİMBİLİMSEL ÖZELLİK ÇIKARIMI ANLAMBİLİMSEL ÖZELLİK ÇIKARIMI EĞİTİCİ ÖRNEKLERİN ÜRETİLMESİ KARAR AĞACI ÖĞRENME ALGORİTMASI KARAR DEĞERLENDİRME

Nitelik Kümesi Metindeki her Y AÖsü ve ona öncül olabilecek her X AÖsü ikişer ikişer karşılaştırılarak bu ikilinin anlambilimsel ve biçimbilimsel özellikleri aşağıdaki nitelikler kümesi üzerinden tanımlanır. 1. Uzaklık ( >2 / 2 ): X ve Y AÖsü arasındaki uzaklığı ölçer. Eşik 2 tümcedir. 2. X-Adıl (doğru,yanlış): AÖ-ikilisinin ilk elemanı adılsıl ise doğru, değilse yanlış olarak tanımlanır. 3. Y-Adıl (doğru, yanlış): AÖ-ikilisinin ikinci elemanı adılsıl ise doğru, değilse yanlış olarak tanımlanır. 4. Dizi-eşleşmesi (doğru, yanlış): X dizisi Y dizisiyle eşleşiyorsa doğru, değilse yanlış olarak tanımlanır. 5.Y-özgönderimsel (doğru, yanlış):y AÖsü özgönderimsel ise doğru, değilse yanlış olarak tanımlanır.

Nitelik Kümesi 6. İşaret AÖ (doğru, yanlış):y AÖsü demonstrative ise doğru, değilse yanlış olarak tanımlanır. 7. Sayı Uyumu (doğru, yanlış): X ve Y arasında (biçimbilimsel) sayı uyumu varsa doğru, değilse yanlış olarak tanımlanır. 8. Anlambilimsel sınıf uyumu (doğru, yanlış): X ve Y aynı anlambilimsel sınıfa aitse doğru, değilse yanlış olarak tanımlanır. Anlambilimsel Sınıflar: KİŞİ, KURUM, YER, TARİH, ZAMAN, PARA, NESNE. 9. Özel İsim (doğru, yanlış): İki AÖ de özel isimse doğru, değilse yanlış olarak tanımlanır. 10.Ardışıklık (doğru, yanlış): Değerlendirilen AÖ ikilisinin arasında başka bir AÖ bulunup bulunmadığına bakar. Yoksa doğru, varsa yanlış olarak tanımlanır. 11.Durum eki uyumu (doğru, yanlış): X ve Y aynı durum ekini almışsa doğru, değilse yanlış olarak tanımlanır.

Örnek (Bu belgeler) genellikle toplu bir halde bulundukları gibi, üzerlerinde, (içinde ne olduğu yazılı (etiketleri)) olan (küpler))) içinde de ele geçmişlerdir. ((Bunlara) en iyi örnek) ((Kayseri) yakınlarındaki (Kültepe'de)) çıkanlardır. AÖ-ikilisinin nitelik vektörü (X= bu belgeler, Y=bunlara) Nitelik Ardışıklık Uzaklık X-adıl Y-adıl Dizi-eşleşmesi İşaret AÖ Anl. Sınıf Uyumu Özel İsim Sayı Uyumu Durum eki Uyumu Y-özgönderimsel Değer Yanlış 2 Yanlış Doğru Yanlış Yanlış Doğru Yanlış Doğru Yanlış Yanlış

Eğitici Örneklerin Üretilmesi (Faça) 524, (Halil'le) 525 birlik olurdu o zaman, ((kendi) 526 (suratının)) 527 kızartısına bakmaz, ((benim) 528 korkaklığıma) 529 gülerdi. (Halil) 530 de gülerdi, (onun) 531 hakkı vardı : (Halil) 532 (bir oturuşta) 533 (beş şişe Güzel Marmara ' ya) 534, bana mısın, demezdi. (O) 535 (övünçle) 536 içer, devam edebileceğini, ama (küçük bir işi) 537 olduğunu söyler giderdi. Olumlu Eğitici Örnekler: Eşgönderimli ad öbekleri karşılaştırılarak üretilmiştir. (524-526; 525-530; 525-531; 530-531; 525-532; 530-532; 531-532; 523-535; 530-535; 531-535; 532-535) Olumsuz Eğitici Örnekler: Eşgönderimli X ve Y ikilisi arasında kalan her AÖnün, Y AÖsüyle karşılaştırılmasıyla üretilmiştir. (524-525; 525-526; 524-527; 525-527; 524-528; 525-528; 526-528; 527-528; 524-529; 525-529; 526-529; 528-529 vb.) Bu yöntemle 2425 eğitici örnek üretilmiştir.

Çözüm Algoritması Oluşturulan veri kümesi çözümleme için algoritmaya verilmiştir. Çalışmanın bu aşamasında WEKA (Waikato Environment for Knowledge Analysis) programından yararlanılmıştır. WEKA uygulamasında, birçok makine öğrenme algoritması tanımlı olarak bulunmaktadır. Bu algoritmalardan, çalışmamızda kullandığımız karar ağacı öğrenme algoritması seçilerek veri kümesine uygulanmıştır.

Çözüm Algoritması ve Sonuçlar Algoritmanın ürettiği karar ağacı aşağıdaki gibidir. =doğru Dizi Eşleşmesi =doğru Anl. Sınıf =doğru Anl. Sınıf Evet(148.0/19.0) =doğru X-Adıl =doğru Sayı Hayır (1546.0/80.0) Evet (27.0/1.0) Ardışık Y-Adıl Hayır(261.0/15.0) =doğru Hayır(8.0) Evet(47.0/20.0) =doğru Uzaklık Demns 2 >2 =doğru Evet(111.0/31.0) X-Adıl Evet (30.0/13.0) Hayır (220.0/37.0) =doğru Evet(2.0) Hayır(24.0/4.0)

Değerlendirme Üretilen karar ağacının performansı, 10-yollu çapraz geçerlilik testi kullanılarak değerlendirilmiştir. 10-yollu çapraz geçerlilik testi, veri kümesini 10 denk altkümeye bölerek, karar ağacının, her bir alt kümedeki veriyi ne kadar iyi çözümlediğini ölçer. Sonuç aşağıdaki gibidir: Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2192 %90.429 232 %9.571 0.6408 0.9 0.9 0.9 0.28 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Değerlendirme (%66-%33) Bir diğer değerlendirme yöntemi olarak, veri kümesinin %66sı algoritmaya eğitici örnek olarak verilmiş, %33ü ise test verisi olarak verilmiştir. Algoritma, veri kümesinin %66sından elde ettiği bilgilerle oluşturduğu karar ağacının performansını, daha önce görmediği %33lük veriyi kullanarak ölçmüştür. Sonuçlar, 10-yollu çapraz geçerlilik testiyle örtüşmektedir: Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2204 %90.9 220 %9.1 0.66 0.9 0.9 0.9 0.27 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Öğrenme Eğrisi Öğrenme problemlerinde önemli bir soru, algoritmanın istenilen kavramı ne kadar hızlı bir şekilde öğrendiğidir. Bu, hem verinin karmaşıklılığıyla (complexity) hem de algoritmanın performansıyla doğrudan ilişkilidir. Öğrenme eğrisini oluşturmak için, veriler algoritmaya artımlı bir şekilde (10 ar 10 ar) verilerek, her 10 örnek sonrasında algoritmanın başarısı ve hata oranı ölçülmüştür.

Optimizasyon Nitelik kümesinden veriyi en iyi sınıflandıran ve istenilen kavramın öğrenilmesinde etkisi en yüksek olan nitelikleri seçmek için Genetik Algoritmadan (Goldberg 1989) yararlanılmıştır. Genetik algoritma, nitelik kümesinin farklı alt kümeleri üzerinde yinelemeli bir ölçüm yaparak hangi alt kümenin veriyi en iyi şekilde çözümlediğini bulur. Deneyin sonrasında ortaya çıkan sonuç, en kısa hipotezle en yüksek performansı elde etmemizi sağlar. Sonuç aşağıdaki gibidir: Ardışıklık, Y-Adıl, Dizi-Eşleşmesi, Anlambilimsel Sınıf Uyumu, Sayı Uyumu Üretilen karar ağacını sadece bu nitelikler kullanarak budadığımızda, daha kısa bir hipotezle yine benzer bir başarıyı elde ettiğimizi görüyoruz.

=doğru Evet(148.0/19.0) Optimizasyon En kısa hipotez Anl. Sınıf =doğru =doğru Y-Adıl Dizi Eşleşmesi =doğru Sayı =doğru Anl. Sınıf Hayır (1546.0/80.0) Evet (26.0/2.0) Ardışık Y-Adıl Hayır(261.0/15.0) =doğru Hayır(8.0) Evet(48.0/19.0) =doğru Evet(137.0/51.0) Hayır(250.0/54.0)

Optimizasyon Değerlendirme: Çapraz Geçerlilik Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2171 %89.56 253 %10.43 0.60 0.89 0.89 0.89 0.28 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Karşılaştırma İsabet % Duyarlılık % F% (Connoly et al. 1997) İngilizce (sadece adılar) 57 57 57 (Ng & Cardie, 2002) İngilizce (sadece adıllar) 75 73 74 (Soon et al, 2001) İngilizce (tüm AÖler) 58 67 62 (Aone & Bennet, 1995 ) Japonca (tüm Aöler) 70 86 77 (Yıldırım& Kılıçaslan,2007) Türkçe (sadece adıllar) Mevcut çalışma Tüm AÖler Mevcut Çalışma Sadece Adıllar 51 73 60 90 90 90 70 70 70

Kaynakça W. M. Soon, H. T. Ng, and D. C. Y. Lim, A machine learning approach to coreference resolution of Noun Phrases Computational Linguistics, vol. 27, no.4 pp. 521 544, December 2001. B. Say, D. Zeyrek, K. Oflazer, U. Özge. Development of a Corpus and a Treebank for Presentday Written Turkish, Proceedings of the Eleventh International Conference of Turkish Linguistics, August,2002) İmer, Kamile and Gürkan Dogan (eds), Current Research in Turkish Lingustics, pp.183-192, Eastern Mediterranean University Press, 2004. S. Yıldırım, Y. Kılıçaslan, "A Machine Learning Approach to Personal Pronoun Resolution in Turkish," Proceedings of the 20th International FLAIRS Conference, FLAIRS-20, 269-270, 2007. D. Küçük, A Knowledge Poor Pronoun Resolution System for Turkish, MA Thesis, Middle East Technical University, 2005. J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufman: San Mateo, CA, 1993. V. Ng and C. Cardie, Improving Machine Learning Approaches to Coreference Resolution, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp.104-111, 2002. C. Aone and S. W. Bennett, Evaluating Automated and Manual Acquisition of Anaphora Resolution Strategies, Proceedings of the 33th Annual Meeting of the Association for Computational Linguistics, 1995. X. Yang, G. Zhou, J. Su, and C.L. Tan. Coreference resolution using competitive learning approach. In Proceedings of ACL, pages 176 183, 2003. Lappin, Shalom & Herbert Leass. An algorithm for pronominal anaphora resolution. Computational Linguistics, 20(4), 535-561, 1994. Ruslan Mitkov. Anaphora Resolution. Longman, Harlow, UK, 2002. Ruslan Mitkov. Anaphora Resolution: State of the Art. University of Wolverhampton, UK, 1999.

TEŞEKKÜRLER