Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Benzer belgeler

Sözlük kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme: Bir Uygulama

Sözlük Tabanlı Kavram Madenciliği: Türkçe için bir Uygulama

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

Üst Düzey Programlama

Fen Eğitiminde Eğitsel Oyun Tabanlı Kavram Öğretiminin ve Kavram Defteri Uygulamasının Öğrenci Tutum ve Başarısına Etkisi

Türkçe Dokümanlar Ġçin Yazar Tanıma

Kelime Gösterimleri (Word Representation Word Embeddings)

LİSANS ÖĞRENCİLERİ İÇİN

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Dil Modelleri. İstatistiksel Dil Modelleri*

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

Veri Tabanı Yönetim Sistemleri Bölüm - 3

Veri Madenciliği Karar Ağacı Oluşturma

MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA)

İstatistik ve Olasılık

Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Otomatik Doküman Sınıflandırma

Otomatik Doküman Sınıflandırma

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Temel Elektronik Basic Electronic Düğüm Gerilimleri Yöntemi (Node-Voltage Method)

İletim Hatları ve Elektromanyetik Alan. Mustafa KOMUT Gökhan GÜNER

Tek Değişkenli Optimizasyon OPTİMİZASYON. Gradient Tabanlı Yöntemler. Bisection (İkiye Bölme) Yöntemi

mmcube Çokluortam Bilgi Sistemi

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Görsel Programlama DERS 02. Görsel Programlama - Ders02/ 1

Web Madenciliği (Web Mining)

NÜMER IK ANAL IZ. Nuri ÖZALP L INEER S ISTEMLER IN ÇÖZÜMÜ. Bilimsel Hesaplama Matemati¼gi, Gazi Kitabevi 2012

3.2. DP Modellerinin Simpleks Yöntem ile Çözümü Primal Simpleks Yöntem

YÖNEYLEM ARAŞTIRMASI - III

Üst Düzey Programlama

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

GİRİŞ. Bilimsel Araştırma: Bilimsel bilgi elde etme süreci olarak tanımlanabilir.

Terör Olayları ve Enerji Zinciri : İstatistiksel bir İnceleme

*Nahsen AVCI, *Figen Altay

ÇARPANLAR VE KATLAR ÖĞRENİYORUM

Arş.Gör.Muhammet Çağrı Gencer Bilgisayar Mühendisliği KTO Karatay Üniversitesi 2015

VERİ MADENCİLİĞİ Metin Madenciliği

Türkçe için Karşılaştırmalı bir Kelime Anlamı Belirginleştirme Uygulaması

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

BM208- Nesneye Dayalı Analiz ve Tasarım. Sunum 7

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

YAZILIM ÜRÜN HATTI DEĞĐŞKENLĐĞĐNĐN DENETĐM ÇEVRĐMĐ ĐLE ELE ALINMASI

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

BMT 101 Algoritma ve Programlama I 2. Hafta. Yük. Müh. Köksal GÜNDOĞDU 1

Önsöz. İçindekiler Algoritma Algoritma Nasıl Hazırlanır? Yazılımda Algoritma Mantığı Nedir? 1.2. Algoritma Örnekleri ve Sorular

matrisleri bulunmuş olur. X A. B yardımıyla değişkenlere ulaşılır. Bu yolda A ne ulaşmak güç olduğu gibi A ni bulamama durumunda söz konusudur.

İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi. Harun Gökçe EG Yazılım, TOBB ETÜ

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

Kentsel Hava Kirliliği Riski için Enverziyon Tahmini

Mühendislikte İstatistik Yöntemler

Çizelge 5.1. Çeşitli yapı elemanları için uygun çökme değerleri (TS 802)

ISK116 - Bölüm 1. Grup Teknolojisi

MAPINFO PROFESSIONAL TEMEL VE İLERİ SEVİYE KURS İÇERİĞİ

BİLİŞİM TEKNOLOJİLERİ YÜKSEK LİSANS

BİL-141 Bilgisayar Programlama I (Java)

HELİKOPTER ALT YAPILARININ DİNAMİK ANALİZİ İÇİN DÜŞÜK DERECEDE MODELLEME

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

MADDE VE TEST ANALİZİ. instagram: sevimasiroglu

olsun. Bu halde g g1 g1 g e ve g g2 g2 g e eşitlikleri olur. b G için a b b a değişme özelliği sağlanıyorsa

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

AKADEMİK LMS Web Tabanlı Uzaktan Eğitim Genel Bilgi ve Ders Aktivitelerine Erişim Öğrenci Kullanım Kılavuzu

1.GRUPLAR. c (Birleşme özelliği) sağlanır. 2) a G için a e e a a olacak şekilde e G. vardır. 3) a G için denir) vardır.

ÖZEL EGE LİSESİ FİBONACCİ DİZİLERİ YARDIMIYLA DEĞERİNİ HESAPLAYAN BİR FORMÜL

e-yazışma Projesi TBD Kamu-BİB Aylık Bilgilendirme Toplantısı

YÖNEYLEM ARAŞTIRMASI - III

Bilgi Erişim Performans Ölçüleri

ORTAOKUL ÖĞRENCİLERİ İÇİN BEDEN EĞİTİMİ VE SPOR DERSİ DEĞER ÖLÇEĞİNİN GELİŞTİRİLMESİ

Stenografi ve Steganaliz. Hamza Duman / F.Ü. Yazılım Mühendisliği

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

Üst Düzey Programlama

TAMSAYILI PROGRAMLAMA

Bu örnekte kullanılan veri 200 gözleme sahiptir ve örnek için özel olarak oluşturulmuştur.

Bilgi Güvenliği Risk Değerlendirme Yaklaşımları

2. (v+w+x+y+z) 8 ifadesinin açılımında kaç terim vardır? 3. log 5 0, olduğuna göre sayısı kaç basamaklıdır?

T.C. ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ İLERİ VERİTABANI SİSTEMLERİ DERSİ RAPORUN SUNULDUĞU TARİH

K En Yakın Komşu Methodu (KNearest Neighborhood)

YEŞİLIRMAK NEHRİ İÇİN TOPLAM ORGANİK KARBON ÖNGÖRÜ MODELLERİ

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

7. BÖLÜM BARA ADMİTANS VE BARA EMPEDANS MATRİSLERİ

19 Şubat 2016 Cuma

2. SÜREKLİ DENETİME İLİŞKİN GENEL BİLGİLER

BÖLÜM 6 LAPLACE DÖNÜŞÜMLERİ

Korelasyon ve Regresyon

YZM 2105 Nesneye Yönelik Programlama

Özel Laboratuvar Deney Föyü

ULUDAĞ ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ OTOMOTİV MÜHENDİSLİĞİ BÖLÜMÜ

Birbirine bağlı milyarlarca bilgisayar sisteminin oluşturduğu, dünya çapında bir iletişim ağıdır.

ÝÇÝNDEKÝLER. 1. ÜNÝTE Kümeler. 2. ÜNÝTE Bölünebilme Kurallarý ve Kesirler

Transkript:

1 Cem Rıfkı Aydın, 1 Ali Erkan, 1 Tunga Güngör, 2 Hidayet Takçı 1 Boğaziçi Üniversitesi, 2 Cumhuriyet Üniversitesi Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme AB 14 7 Şubat 2014

TASLAK Giriş İlgili Çalışmalar Geliştirilen Algoritma Deneyler Sonuç İlerki Çalışmalar

Giriş Kavram madenciliği: Yazılı dokümanlardan, görsel veya işitsel dosyalardan anlamlı kavramlar çıkarma işlemine kavram madenciliği denir. Kavramlar canlı veya cansız nesnelerin daha soyut, akılsal gösterimleri olarak ifade edilebilir.

Giriş (ii) Kavramlar genelde isim olarak düşünülebilir, o yüzden dokümandaki diğer kelime grupları başta elenebilir. İsimler dokümanlarda ekli durumda bulunabilir (kedileri gibi), bu yüzden başta biçimbirimsel çözümleyici ve biçimbirimsel muğlaklık giderici kullanılarak isimlerin kökleri elde edilmelidir. Biçimbirimsel çözümleyici aldığı kelimesini aşağıdaki gibi ayrıştırır. aldığı = al[verb]+[pos]- dhk[noun+pastpart]+[a3sg]+[pnon]+yh[acc] Kavram madenciliğinde sözlükten, WordNet ten veya başka sözlüksel veritabanlarından faydalanılabilir.

İlgili Çalışmalar Meryem Uzun, 2011 Türkçe derlemlerden kavram çıkarmak için kümeleme metodu izlenmiştir. H Liu, P Singh, 2004 Sağduyu bilgi veritabanı olan ConceptNet kullanılmıştır. Abdelattif Rahmoun ve diğerleri, 2008 WordNet kullanılarak özellik seçimi (feature selection) kullanılmıştır. Loulwah Al Sumait ve diğerleri, 2008 Kavram çıkarma için Latent Dirichlet Allocation algoritması kullanılmıştır.

Geliştirilen Algoritma Önceki çalışmalarımızda kümeleme yoluyla kavram çıkarmaya çalışılmıştır; ama sonuçlar pek başarılı olmayınca sözlük tabanlı istatistiksel bir metot izlenmiştir. Kavram çıkarmada genellikle WordNet kullanılmakta, sözlüğe pek başvurulmamıştır. Buna rağmen bizim sözlük kullanarak elde ettiğimiz sonuçlar başarılı çıkmıştır.

Geliştirilen Algoritma Bu çalışmada XML formatındaki sözlükten yararlanılmıştır. Burada isim olmayan kelimeler elenmiş, kelimelerin anlamı biçimbirimsel araçlar tarafından ayrıştırılarak kökleri elde edilmiş ve bunlar hesaba katılmıştır.

Geliştirilen Algoritma Bazı kelimelerin birden çok anlamı bulunabilmektedir, o yüzden kelimelerin doküman içindeki bağlamlarına bakarak aşağıdaki formül değeri hesaplanmakta ve hangi sözlük anlam cümlesi en yüksek değeri veriyorsa o, kelimenin kullanılmakta olduğu anlam olarak belirlenmektedir.

Geliştirilen Algoritma Sözlük yapısından yararlanılarak matrisler oluşturulmuştur. Bunun için 2 ve 3 seviyeli matrislerde yukarıdan aşağıya inildikçe anlamsal benzerlik azalmaktadır, bu yüzden matrise değer atarken yukarıdaki seviyede olan kelimelerin katsayısı daha fazla, aşağıdakilerin daha azdır.

Geliştirilen Algoritma Bu çalışmada, matris hücreleri aşağıdaki denkleme göre doldurulmuştur. Matris(j, k) = Sıklık( j) x Konum(j) x Kapsam(j)

Geliştirilen Algoritma (Alternatif 1) Bu ilk alternatife göre matris elemanlarının sıraları dokümanda bulunan kelimeleri, sütunları ise satır elemanlarının sözlükteki anlam cümlesi kelimelerini temsil etmektedir. Önce bahsedilen denkleme göre matris doldurulmaktadır.

Geliştirilen Algoritma (Alternatif 1) Matristeki sütun değerleri toplanmakta, hangisi en yüksek değeri veriyorsa o sütun kelimesi dokümanın kavramı olarak belirlenmektedir. Bir kelimenin kavramı onun sözlük anlam cümlesindeki bütün kelimelerle alakalı olmayabilir, kavram genelde bir sözcüğün genel anlamıyla (hypernym) ilgilidir, o yüzden bu metot pek başarılı sonuçlar vermemiş, yerine başka alternatifler geliştirilmiştir.

Geliştirilen Algoritma (Alternatif 2) Bu alternatif için 30-kelime büyüklüğünde pencereler hesaba katılmıştır, yani kelimenin 15 sağındaki ve solundaki kelimelere bakılmıştır. Sözlük anlam cümlesindeki kelimelere katsayılar atanmıştır. 2.75 En yüksek değerli sütun kelimesi hayvandır

Geliştirilen Algoritma (Alternatif 3) Bu metotta, 30 kelimelik bağlamlarda sadece en yüksek frekansa sahip kelime hesaba katılmıştır. Frekans, ilk konum ve kapsam değerleri göz önünde bulundurulmuştur. 2.75 En yüksek değere sahip kelime, yani dokümanın kavramı, hayvandır

DENEYLER Başarı değerlendirme metriği olarak kesinlik (precision) kullanılmıştır. Kesinlik = Gerçek pozitiflerin sayısı / (Gerçek pozitiflerin sayısı + Sahte pozitifler)

DENEYLER Dört tane Türkçe derlemden (Spor haberleri, yargıtay kararları, yargıtay haberleri, Gazi derlemi, toplam 368 doküman) kavramlar önem sırasına göre algoritma tarafından çıkarılmıştır. Ayrıyeten manüel olarak bu dokümanlardan kavramlar çıkarılmış ve bunlar kıyaslanmıştır.

DENEYLER Aşağıda değişik derlemlerin kıyaslanması gösterilmiştir. Görülebileceği gibi, ikinci algoritma (alternatif iii) en iyi sonuçları vermektedir. Ayrıca Yargıtay Kararları ve Yargıtay Haberleri derlemlerinin daha iyi sonuç verdiği gözlenmiştir, bunun nedeni ise bu derlemlerde konu dağılımının geniş olmamasıyken diğer derlemlerin bir sürü farklı konulara sahip dokümanları içermesidir. Başarı oranı 63.97% olarak ölçülmüştür. Precision percentage 120 100 80 60 40 20 0 Comparison of different Corpora (window size = 3 vs unlim.) First alg. (2-levels) First alg. (3-levels) Second Second alg. (Some) alg. (Max.) Algorithms Forensic Decisions Forensic News Sports News Gazi

SONUÇ Bu çalışmada dokümanlardan kavram çıkarmak için TDK sözlüğü kullanılmıştır. Bağlam analizi yapılmış ve bunun etkisinin büyük olduğu gözlenmiştir. Üç tane alternatif metot geliştirilmiş, üçüncüsünün en yüksek başarı oranını verdiği gözlenmiştir. Frekans yanında Kapsam ve İlk konum özelliklerinin hesaba katılmasının başarı oranını arttırdığı gözlenmiştir.

İlerki Çalışmalar Sözlük tabanlı metodu geliştirmeden önce kümeleme yoluyla kavram çıkarmaya çalışılmıştır, bu kümeleme metodunu Principal Component Analysis ile geliştirmeye devam edebiliriz. Sözlük anlam cümlesindeki kelimelerde hypernym olanlara daha fazla katsayı atanarak algoritma geliştirilebilir. Geliştirdiğimiz algoritmayı başka Türkçe derlemleri üzerinde çalıştırabiliriz. Geliştirdiğimiz algoritma metin sınıflandırmada (text categorization) kullanılabilir.

TEŞEKKÜR Bu çalışmamız Boğaziçi Üniversitesi Araştırma Fonu ve TÜBİTAK tarafından desteklenmiştir. Cem Rıfkı Aydın Master (M.Sc.) öğrenimi süresince TÜBİTAK BİDEB bursundan yararlanmıştır. Haşim Sak tarafından geliştirilen biçimbirimsel ayrıştırma araçları kullanılmıştır.

DİNLEDİĞİNİZ İÇİN TEŞEKKÜRLER