TÜRKÇE METİNLERDE MAKİNE ÖĞRENMESİ YÖNTEMİYLE EŞGÖNDERİM ÇÖZÜMLEMESİ

TÜRKÇE METİNLERDE MAKİNE ÖĞRENMESİ YÖNTEMİYLE EŞGÖNDERİM ÇÖZÜMLEMESİ TOLGA KAYADELEN & ENES AVCU 27. ULUSAL DİLBİLİM KURULTAYI 2-4 MAYIS 2013, ANTALYA

Eşgönderim Bir metinde iki ya da daha fazla Ad Öbeğinin aynı göndergeye sahip olması. Örnek: (Arşivde) 1 bulunan (belgeler) 2 genellikle ((asıl metinlerin) 3 kopyalarıdır) 4. Gerektiği zaman (bu belgelerden) 5 yararlanılırdı. (Bir davacı) 6 (daha önceki bir konu) 7 hakkında (herhangi bir iddiada) 8 bulunursa hemen ((ona) 9 ait belgeler) 10 (arşivde) 11 bulunup kontrol edilirdi. Eşgönderim İlişkileri: 1-11; 2-5-10; 6-9

Eşgönderim Türleri (Arşivde) 1 bulunan (belgeler) 2 genellikle ((asıl metinlerin) 3 kopyalarıdır) 4. Gerektiği zaman (bu belgelerden) 5 yararlanılırdı. (Bir davacı) 6 (daha önceki bir konu) 7 hakkında (herhangi bir iddiada) 8 bulunursa hemen ((ona) 9 ait belgeler) 10 (arşivde) 11 bulunup kontrol edilirdi. 1. Adıllar i.e. Bir davacı ona 2. Belirli Ad Öbekleri i.e. Arşivde- arşivde 3. İşaret Ad Öbeği i.e. Belgeler bu belgeler

Çalışmanın Amacı ve Uygulama Alanları Amaç: Makine öğrenmesi yöntemlerinden karar ağacı öğrenme (decision tree learning) algoritmasını kullanarak Türkçe metinlerde eşgönderimli ad öbeklerini doğru sınıflandırmayı öğrenen bir modeli tanıtmaktır. Doğal Dil İşlemleme Çalışmalarında Eşgönderim Çözümlemesinin Yeri o Makine Çevirisi o Otomatik Metin Özetleme o Bilgi çıkarımı Mitkov (1999, 2002) 4

Türkçe Alanyazında Eşgönderim Çözümlemesi D. Küçük, 2005, A Knowledge Poor Pronoun Resolution System for Turkish, Yayımlanmamış Yüksek Lisans Tezi, Ortadoğu Teknik Üniversitesi. D. Kucuk, M. T. Yondem, 2007, Automatic identification of pronominal Anaphora in Turkish texts Computer and Information Sciences içinde, 1-6. S. Yıldırım, Y. Kılıçaslan, 2007, "A Machine Learning Approach to Personal Pronoun Resolution in Turkish. 20. Uluslararası FLAIRS Konferansı Bildirileri, FLAIRS- 20, 269-270. Y. Kılıçaslan, E. S. Güner and S. Yıldırım, 2009, Learning-Based Pronoun Resolution for Turkish with a Comparative Evaluation. Computer Speech and Language içinde, 23(3): 311-331.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Sadece adıl çözümlemesi değil, eşgönderimli olan tüm ad öbeklerinin çözümlemesi yapılmaktadır. Diğer çalışmalarda kullanılan nitelikler kümesi değiştirilmiş ve geliştirilmiş, bu da diğer çalışmalara kıyasla daha yüksek bir performans elde edilmesini sağlamıştır.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Chomsky 1981, Yönetim ve Bağlama Kuramı: A İlkesi: Bir gönderge (anaphor) yönetim ulamı içinde bağlı olmalıdır. B İlkesi: Adılsıl bir AÖ yönetim ulamı dışında bağlı olmalıdır. C. İlkesi: Göndergesel bir AÖ her yerde özgür olmalıdır.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Alanyazında önemli bir soru, bağlama ilkelerine ait sözdizimsel kısıtların çocuklarda doğuştan bulunup bulunmadığıdır. Grimshaw ve Rosen (1990), Grodzinsky ve Reinhart (1993) gibi araştırmacılar, çocukların sözdizimsel ilkelere ait bilgiye sahip olduğunu öne sürmüşlerdir. Bu bakış açısına temel oluşturan nokta, doğal veride karşı karşıya kalınan girdinin, çocukların bağlama ilkeleri gibi karmaşık dil dizgelerini kavramalarına yetecek kadar zengin olmadığı varsayımıdır. (uyaran yetersizliği argümanı)

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi Hiçbir sözdizimsel önbilgiye dayanmayan ve eşgönderim çözümlemesini tamamen yüzeysel değişkenler aracılığıyla istatistiksel bir yöntemle çözümlemeyi öğrenen makine öğrenmesi uygulamalarının başarısı, uyaran yetersizliği argümanının aksine, doğal verinin eşgönderim ilişkilerini çözmeyi öğrenme konusunda çocuklara yeterli girdi oluşturduğuna işaret edecektir.

Çalışmanın Kuram ve Uygulama Bakımından Değerlendirilmesi BENZER ÇALIŞMALAR Lewis, J. D., & Elman, J. L. (2001). Learnability and the statistical structure of language: Poverty of stimulus arguments revisited. 26. Boston University Conference on Language Development içinde. (359 370). Somerville, MA: Cascadilla. Reali, F., & Christiansen,M. H. (2005). Uncovering the richness of the stimulus: Structure dependence and indirect statistical evidence. Cognitive Science içinde, 29, 1007 1028.

Karar Ağaçları Karar Ağaçları bir fonksiyonun ağaç şeklindeki gösterimidir. Girdi: Özellik değerlerinin vektörü Çıktı: Tek bir değer (Karar) Karar Ağaçlarındaki varsayım, girdilerin belirli değerler olması ve çıktıların ikili sınıflandırmalar olmasıdır.(yanlış doğru veya evet hayır gibi). Karar ağacı, örnekleri ağacın kökünden yapraklarına doğru sıralayarak sınıflandırır. Dallar muhtemel değerleri gösterir. Düğümler belirlenmiş özellik değerlerini gösterir.

Çalışma Şekli Karar ağacı algoritması, ağacın kökünün hangi değişken ile test edilmesi gerektiği sorusu ile başlayarak yukarıdan aşağıya doğru ağacı oluşturur. Ağaçtaki her düğüm bazı değişkenleri test eder ve her dal bu değişkenin alabileceği değerlerden birine uygun düğümü gösterecek şekilde aşağıya doğru iner. İlk adım kök düğüm noktası için verilen değerleri test etmektir. Seçilen nitelik ile ağacın bir düğümü oluşturulur ve bu düğümden ağacın yaprakları oluşturulur. En iyi özellik en yüksek bilgi kazanımını veren özelliktir. Bu süreçte her bir özelliğin tek başına örnekleri nasıl sınıflandırdığına bakılır. Kök düğüm seçildikten sonra süreç her defasında sonra gelen düğümü oluşturmak için tekrarlanır. Sonraki adımda yaratılan her alt veri kümesi için ; Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlem sonlandırılır.

Bu işlem verilen örneklerin sınıflandırmasına karar vermek için istatistiksel test kullanılarak yapılır. Bilgi kazanımı (information gain) olarak adlandırılan bu test, veri kümesindeki niteliklerden hangisinin veriyi en iyi şekilde sınıflandırdığını ölçer. En ayırt edici nitelik belirlendikten sonra, bu nitelik kullanılarak ağacın bir düğümü oluşturulur. Bilgi kazanımının en temel yapı taşı entropi dir. Entropi rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir ve aşağıdaki formülle hesaplanır: Entropi (S) ( p + log2 p + ) (p log2 p ) Örneğin 9 olumlu 5 tane olumsuz örneğimiz varsa entropy 0.94 olur. Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.94

Örnek Günler Görünüm Sıcaklık Nem Rüzgar Tenis Oynama G1 Güneşli Sıcak Yüksek Zayıf Hayır G2 Güneşli Normal Düşük Şiddetli Evet G3 Bulutlu Sıcak Yüksek Zayıf Evet Öncelikle kök düğüm den başlayıp bilgi kazanımını hesaplarız, Bilgi kazanımı(s, Görünüm) [Güneşli, Bulutlu] Bilgi kazanımı(s, Sıcaklık) [Sıcak, Normal] Bilgi kazanımı(s, Nem) [Yüksek, Düşük] Bilgi kazanımı(s, Rüzgar) [Şiddetli, Zayıf]

Çalışmanın Akış Çizelgesi METİN AÖ İŞARETLENMESİ BİÇİMBİLİMSEL ÖZELLİK ÇIKARIMI ANLAMBİLİMSEL ÖZELLİK ÇIKARIMI EĞİTİCİ ÖRNEKLERİN ÜRETİLMESİ KARAR AĞACI ÖĞRENME ALGORİTMASI KARAR DEĞERLENDİRME

Nitelik Kümesi Metindeki her Y AÖsü ve ona öncül olabilecek her X AÖsü ikişer ikişer karşılaştırılarak bu ikilinin anlambilimsel ve biçimbilimsel özellikleri aşağıdaki nitelikler kümesi üzerinden tanımlanır. 1. Uzaklık ( >2 / 2 ): X ve Y AÖsü arasındaki uzaklığı ölçer. Eşik 2 tümcedir. 2. X-Adıl (doğru,yanlış): AÖ-ikilisinin ilk elemanı adılsıl ise doğru, değilse yanlış olarak tanımlanır. 3. Y-Adıl (doğru, yanlış): AÖ-ikilisinin ikinci elemanı adılsıl ise doğru, değilse yanlış olarak tanımlanır. 4. Dizi-eşleşmesi (doğru, yanlış): X dizisi Y dizisiyle eşleşiyorsa doğru, değilse yanlış olarak tanımlanır. 5.Y-özgönderimsel (doğru, yanlış):y AÖsü özgönderimsel ise doğru, değilse yanlış olarak tanımlanır.

Nitelik Kümesi 6. İşaret AÖ (doğru, yanlış):y AÖsü demonstrative ise doğru, değilse yanlış olarak tanımlanır. 7. Sayı Uyumu (doğru, yanlış): X ve Y arasında (biçimbilimsel) sayı uyumu varsa doğru, değilse yanlış olarak tanımlanır. 8. Anlambilimsel sınıf uyumu (doğru, yanlış): X ve Y aynı anlambilimsel sınıfa aitse doğru, değilse yanlış olarak tanımlanır. Anlambilimsel Sınıflar: KİŞİ, KURUM, YER, TARİH, ZAMAN, PARA, NESNE. 9. Özel İsim (doğru, yanlış): İki AÖ de özel isimse doğru, değilse yanlış olarak tanımlanır. 10.Ardışıklık (doğru, yanlış): Değerlendirilen AÖ ikilisinin arasında başka bir AÖ bulunup bulunmadığına bakar. Yoksa doğru, varsa yanlış olarak tanımlanır. 11.Durum eki uyumu (doğru, yanlış): X ve Y aynı durum ekini almışsa doğru, değilse yanlış olarak tanımlanır.

Örnek (Bu belgeler) genellikle toplu bir halde bulundukları gibi, üzerlerinde, (içinde ne olduğu yazılı (etiketleri)) olan (küpler))) içinde de ele geçmişlerdir. ((Bunlara) en iyi örnek) ((Kayseri) yakınlarındaki (Kültepe'de)) çıkanlardır. AÖ-ikilisinin nitelik vektörü (X= bu belgeler, Y=bunlara) Nitelik Ardışıklık Uzaklık X-adıl Y-adıl Dizi-eşleşmesi İşaret AÖ Anl. Sınıf Uyumu Özel İsim Sayı Uyumu Durum eki Uyumu Y-özgönderimsel Değer Yanlış 2 Yanlış Doğru Yanlış Yanlış Doğru Yanlış Doğru Yanlış Yanlış

Eğitici Örneklerin Üretilmesi (Faça) 524, (Halil'le) 525 birlik olurdu o zaman, ((kendi) 526 (suratının)) 527 kızartısına bakmaz, ((benim) 528 korkaklığıma) 529 gülerdi. (Halil) 530 de gülerdi, (onun) 531 hakkı vardı : (Halil) 532 (bir oturuşta) 533 (beş şişe Güzel Marmara ' ya) 534, bana mısın, demezdi. (O) 535 (övünçle) 536 içer, devam edebileceğini, ama (küçük bir işi) 537 olduğunu söyler giderdi. Olumlu Eğitici Örnekler: Eşgönderimli ad öbekleri karşılaştırılarak üretilmiştir. (524-526; 525-530; 525-531; 530-531; 525-532; 530-532; 531-532; 523-535; 530-535; 531-535; 532-535) Olumsuz Eğitici Örnekler: Eşgönderimli X ve Y ikilisi arasında kalan her AÖnün, Y AÖsüyle karşılaştırılmasıyla üretilmiştir. (524-525; 525-526; 524-527; 525-527; 524-528; 525-528; 526-528; 527-528; 524-529; 525-529; 526-529; 528-529 vb.) Bu yöntemle 2425 eğitici örnek üretilmiştir.

Çözüm Algoritması Oluşturulan veri kümesi çözümleme için algoritmaya verilmiştir. Çalışmanın bu aşamasında WEKA (Waikato Environment for Knowledge Analysis) programından yararlanılmıştır. WEKA uygulamasında, birçok makine öğrenme algoritması tanımlı olarak bulunmaktadır. Bu algoritmalardan, çalışmamızda kullandığımız karar ağacı öğrenme algoritması seçilerek veri kümesine uygulanmıştır.

Çözüm Algoritması ve Sonuçlar Algoritmanın ürettiği karar ağacı aşağıdaki gibidir. =doğru Dizi Eşleşmesi =doğru Anl. Sınıf =doğru Anl. Sınıf Evet(148.0/19.0) =doğru X-Adıl =doğru Sayı Hayır (1546.0/80.0) Evet (27.0/1.0) Ardışık Y-Adıl Hayır(261.0/15.0) =doğru Hayır(8.0) Evet(47.0/20.0) =doğru Uzaklık Demns 2 >2 =doğru Evet(111.0/31.0) X-Adıl Evet (30.0/13.0) Hayır (220.0/37.0) =doğru Evet(2.0) Hayır(24.0/4.0)

Değerlendirme Üretilen karar ağacının performansı, 10-yollu çapraz geçerlilik testi kullanılarak değerlendirilmiştir. 10-yollu çapraz geçerlilik testi, veri kümesini 10 denk altkümeye bölerek, karar ağacının, her bir alt kümedeki veriyi ne kadar iyi çözümlediğini ölçer. Sonuç aşağıdaki gibidir: Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2192 %90.429 232 %9.571 0.6408 0.9 0.9 0.9 0.28 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Değerlendirme (%66-%33) Bir diğer değerlendirme yöntemi olarak, veri kümesinin %66sı algoritmaya eğitici örnek olarak verilmiş, %33ü ise test verisi olarak verilmiştir. Algoritma, veri kümesinin %66sından elde ettiği bilgilerle oluşturduğu karar ağacının performansını, daha önce görmediği %33lük veriyi kullanarak ölçmüştür. Sonuçlar, 10-yollu çapraz geçerlilik testiyle örtüşmektedir: Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2204 %90.9 220 %9.1 0.66 0.9 0.9 0.9 0.27 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Öğrenme Eğrisi Öğrenme problemlerinde önemli bir soru, algoritmanın istenilen kavramı ne kadar hızlı bir şekilde öğrendiğidir. Bu, hem verinin karmaşıklılığıyla (complexity) hem de algoritmanın performansıyla doğrudan ilişkilidir. Öğrenme eğrisini oluşturmak için, veriler algoritmaya artımlı bir şekilde (10 ar 10 ar) verilerek, her 10 örnek sonrasında algoritmanın başarısı ve hata oranı ölçülmüştür.

Optimizasyon Nitelik kümesinden veriyi en iyi sınıflandıran ve istenilen kavramın öğrenilmesinde etkisi en yüksek olan nitelikleri seçmek için Genetik Algoritmadan (Goldberg 1989) yararlanılmıştır. Genetik algoritma, nitelik kümesinin farklı alt kümeleri üzerinde yinelemeli bir ölçüm yaparak hangi alt kümenin veriyi en iyi şekilde çözümlediğini bulur. Deneyin sonrasında ortaya çıkan sonuç, en kısa hipotezle en yüksek performansı elde etmemizi sağlar. Sonuç aşağıdaki gibidir: Ardışıklık, Y-Adıl, Dizi-Eşleşmesi, Anlambilimsel Sınıf Uyumu, Sayı Uyumu Üretilen karar ağacını sadece bu nitelikler kullanarak budadığımızda, daha kısa bir hipotezle yine benzer bir başarıyı elde ettiğimizi görüyoruz.

=doğru Evet(148.0/19.0) Optimizasyon En kısa hipotez Anl. Sınıf =doğru =doğru Y-Adıl Dizi Eşleşmesi =doğru Sayı =doğru Anl. Sınıf Hayır (1546.0/80.0) Evet (26.0/2.0) Ardışık Y-Adıl Hayır(261.0/15.0) =doğru Hayır(8.0) Evet(48.0/19.0) =doğru Evet(137.0/51.0) Hayır(250.0/54.0)

Optimizasyon Değerlendirme: Çapraz Geçerlilik Doğru Sınıflandırma Yanlış Sınıflandırma Kappa Duyarlılık Erişim İsabeti F Ortalama Karesel Hatanın Karekökü 2171 %89.56 253 %10.43 0.60 0.89 0.89 0.89 0.28 Hata Matrisi a b 267 150 82 1925 Sınıflandırma a= Evet b=hayır

Karşılaştırma İsabet % Duyarlılık % F% (Connoly et al. 1997) İngilizce (sadece adılar) 57 57 57 (Ng & Cardie, 2002) İngilizce (sadece adıllar) 75 73 74 (Soon et al, 2001) İngilizce (tüm AÖler) 58 67 62 (Aone & Bennet, 1995 ) Japonca (tüm Aöler) 70 86 77 (Yıldırım& Kılıçaslan,2007) Türkçe (sadece adıllar) Mevcut çalışma Tüm AÖler Mevcut Çalışma Sadece Adıllar 51 73 60 90 90 90 70 70 70

Kaynakça W. M. Soon, H. T. Ng, and D. C. Y. Lim, A machine learning approach to coreference resolution of Noun Phrases Computational Linguistics, vol. 27, no.4 pp. 521 544, December 2001. B. Say, D. Zeyrek, K. Oflazer, U. Özge. Development of a Corpus and a Treebank for Presentday Written Turkish, Proceedings of the Eleventh International Conference of Turkish Linguistics, August,2002) İmer, Kamile and Gürkan Dogan (eds), Current Research in Turkish Lingustics, pp.183-192, Eastern Mediterranean University Press, 2004. S. Yıldırım, Y. Kılıçaslan, "A Machine Learning Approach to Personal Pronoun Resolution in Turkish," Proceedings of the 20th International FLAIRS Conference, FLAIRS-20, 269-270, 2007. D. Küçük, A Knowledge Poor Pronoun Resolution System for Turkish, MA Thesis, Middle East Technical University, 2005. J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufman: San Mateo, CA, 1993. V. Ng and C. Cardie, Improving Machine Learning Approaches to Coreference Resolution, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp.104-111, 2002. C. Aone and S. W. Bennett, Evaluating Automated and Manual Acquisition of Anaphora Resolution Strategies, Proceedings of the 33th Annual Meeting of the Association for Computational Linguistics, 1995. X. Yang, G. Zhou, J. Su, and C.L. Tan. Coreference resolution using competitive learning approach. In Proceedings of ACL, pages 176 183, 2003. Lappin, Shalom & Herbert Leass. An algorithm for pronominal anaphora resolution. Computational Linguistics, 20(4), 535-561, 1994. Ruslan Mitkov. Anaphora Resolution. Longman, Harlow, UK, 2002. Ruslan Mitkov. Anaphora Resolution: State of the Art. University of Wolverhampton, UK, 1999.

TEŞEKKÜRLER