Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Benzer belgeler
Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri *


Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

T.C. KÜLTÜR VE TURİZM BAKANLIĞI

Web Tabanlı Türkçe Ulusal Derlemi (TUD)

Ders Kod Ders Ad T U L K AKTS DİL

Veritabanı Uygulamaları Tasarımı

KARADENİZ TEKNİK ÜNİVERSİTESİ EDEBİYAT FAKÜLTESİ BATI DİLLLERİ VE EDEBİYATI BÖLÜMÜ

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Bilgisayar Teknolojisi 1 Pazartesi Salı Çarşamba Perşembe Cuma. Dili I Amfi :00 -x- -x- -x- -x- -x-

Hafta 10 - Vektör Uzay Modelleri

Biçimbirim Dizilerinin Farklı Metin Türlerindeki Görünümleri *

İŞ VE MESLEK DANIŞMANLIĞI HİZMETLERİ

TÜRKÇE ULUSAL DİL DERLEMİ PROJESİ BİÇİMBİRİM ÇALIŞMALARINDA BELİRSİZLİKLERİN SINIFLANDIRILMASI VE DAĞILIMI

TÜBİTAK TÜRKİYE ADRESLİ ULUSLARARASI BİLİMSEL YAYINLARI TEŞVİK (UBYT) PROGRAMI UYGULAMA USUL VE ESASLARI

İngilizce İletişim Becerileri II (ENG 102) Ders Detayları

Onur Yaşar KARAKOL Uzman. 4. Ulusal Açık Erişim Çalıştayı, Ekim 2015, TÜBİTAK, Ankara

Sağlık Bilimleri Türkçe Derlemi

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

T.C. NAMIK KEMAL ÜNİVERSİTESİ ÇORLU MÜHENDİSLİK FAKÜLTESİ

Açık e-öğrenme. Açıköğretim Fakültesinde e-öğrenme Uygulamaları. M. Emin Mutlu. İnternet Haftası Etkinlikleri 2004 Anadolu Üniversitesi 20 Nisan 2004

REIDIN.com EmlakEndeks. Gayrimenkul Piyasası 2009 yılı değerleme ve 2010 Tahmini Basın Toplantısı 26 Şubat, 2010 İstanbul

DynED AMACI VE KAPSAMI

İNGİLİZCE ÖĞRETMENLİĞİ PROGRAM BİLGİLERİ

İletişim Fakültesi(İ.Ö.) Gazetecilik Lisans 2011 Yılı Müfredatı. Genel Toplam Ders Adedi : 60 T : 158 U : 5 Kredi : 113 ECTS : 240 T+U : 163

ERMA Belediye Otomasyon Sistemleri. Geleceğe hazırlık için

T.C. Tarih: :36:30 Sayfa:1/5 GÜN MEMMEDOVA BAL 09:30-10: Türk Dili I Okutman Abdülkadir BULGURCU

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

1. Sınıf. Bahar Dönemi

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Öğr.Gör. MURAT ÇAĞLAR

TÜRKÇENİN DERLEM-TEMELLİ SIKLIK SÖZLÜĞÜ: TEMEL İLKELER VE UYGULAMA

ÇOMÜ Kütüphaneleri. Kütüphane ve Elektronik Yayınların Kullanımı

İngilizce İletişim Becerileri II (ENG 102) Ders Detayları

ADNAN MENDERES ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ İNGİLİZ DİLİ VE EDEBİYATI BÖLÜMÜ ÖĞRETİM PROGRAMI

T.C. Tarih: :05:18 Sayfa:1/5 GÜN MEMMEDOVA MEMMEDOVA ERSOY ERSOY Postmodern Roman Doç. Dr.

Linux İşletim Sistemi Tanıtımı

BİLİMSEL BİLGİYE ERİŞİM

Üniversite Senatosu nun tarih ve 2016/26 sayılı toplantısında kabul edilmiştir.

Bilimsel Bilgiye Erişim. Yrd. Doç. Dr. Coşkun POLAT

Bilim Đnsanı Destekleme Daire

Kitap Tanıtımı / Book Review

HEMŞİRELİK VE BAKIM HİZMETLERİ BÖLÜMÜ ÇOCUK GELİŞİMİ PROGRAMI DERS İÇERİKLERİ I.YARIYIL

Derece Bölüm/Program Üniversite Yıl. Lise (Türkçe Sosyal) İstek Semiha Şakir Lisesi Y. Lisans İşletme Fakültesi Marmara Üniversitesi 2007

Elsevier ClinicalKey TM. Sık Sorulan Sorular. İçindekiler. ClinicalKey nedir? ClinicalKey e nereden erişebilirim?

BURSA ESKİŞEHİR BİLECİK KALKINMA AJANSI TR41 BÖLGE PLANI BURSA TURİZM ÖZEL İHTİSAS KOMİSYONU TOPLANTISI BİLGİ NOTU

Eğitim Semineri Araştırmacının Alet Kutusu: Mendeley

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

AÇIKÖĞRETİMİN 30 YILI: E-ÖĞRENMENİN YÜKSELİŞİ İnternet Destekli Öğrenme ve İnternete Dayalı Eğitim Dönemi

SİNOP ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ UZMAN ALTUĞ ABUŞOĞLU

T.C. İçişleri Bakanlığı Nüfus ve Vatandaşlık İşleri Genel Müdürlüğü

Internet Programlama (ISE 311) Ders Detayları

Çukurova Üniversitesi Güzel Sanatlar Fakültesi İç Mimarlık Bölümü Balcalı Adana

COCHRANE LİBRARY. COCHRANE KİTAPLIĞI NEDİR?

2012 YILI YATIRIM PROGRAMI İZLEME VE DEĞERLENDİRME RAPORU

Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi

Gelişen Bilgi Dünyası: Neden EBSCO? Cem Karamehmetoglu EBSCO Antalya

Makine Öğrenmesi (COMPE 565) Ders Detayları

AVRASYA ÜNİVERSİTESİ

Uygulamalı Grafik Tasarımı II (PR 326) Ders Detayları

Hacettepe Üniversitesi Sağlık Hizmetleri Meslek Yüksekokulu Faaliyetleri. 15-Şubat 2012-

DOĞRUDAN FAALİYET DESTEĞİ

ONDOKUZ MAYIS ÜNİVERSİTESİ SAMSUN MESLEK YÜKSEKOKULU Çocuk Bakımı ve Gençlik Hizmetleri Bölümü Çocuk Gelişimi Programı

Türkçe Metin Özetlemede Kullanılan Yöntemler

Google Akademik Kullanım Semineri. Prof. Dr. Bektas TEPE

İngilizce İletişim Becerileri II (ENG 102) Ders Detayları

<abbrevations> <abbr> </abbr>

EĞİTİM-ÖĞRETİM YILI 10.SINIF TÜRK DİLİ VE EDEBİYATI DERSİ DESTEKLEME VE YETİŞTİRME KURSU KAZANIMLARI VE TESTLERİ

Özel Dil Kullanımları I (ETI203) Ders Detayları

E-Prints: Açık Erişimli Arşiv Oluşturma Yazılımı; Kurulumu-Kullanımı-Özellikleri

Web Güvenlik Topluluğu OWASP. The OWASP Foundation. 21 Haziran, 2008

Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması

Akademik İngilizce II (ENG102) Ders Detayları

Uydu Görüntüleri ve Haritaların Düzenlenmesi Mozaik Hale Getirilmesi ve Servislerin Geliştirilmesi

1. TEORİK EĞİTİM Nisan 2014 (T)

Seminer (PR 403) Ders Detayları

İngilizce İletişim Becerileri I (ENG 101) Ders Detayları

İLKÖCRETİM TÜRKÇE DERS KİTAPLARI DERLEMİ VE TÜRKÇE ULUSAL DİL DERLEMİ ÖRNEKLEMİNDEKİ SÖZCÜK SIKLIKLARı i

Bilimsel Araştırma Yöntemleri. Doç. Dr. Recep KARA

E-kitap satışları basılı kitap satışlarını Temmuz 2010 da geçti

Makonet BlueCRS. Sistem Özellikleri ve Ekran Görüntüleri Makonet Bilgisayar Ltd. Şti.

Özgür Yazılım Proje Yönetimi

Doç.Dr. HATİCE HALE BOZKURT

Eba FATİH projesinin bir parçası olarak oluşturulmuş çevirim içi sosyal eğitim platformudur. Bu platformun amacı bilgi teknolojilerinin eğitime

İÇİNDEKİLER. Sorular... 9 Ödev... 10

Anlam Belirsizliği İçeren Türkçe Sözcüklerin Hesaplamalı Dilbilim Uygulamalarıyla Belirginleştirmesi

Yrd.Doç.Dr. GÜNTEKİN ŞİMŞEK

BİLİŞİM SUÇLARIYLA MÜCADELEDE ÜNİVERSİTE VE EMNİYET İŞBİRLİĞİ: BİR EĞİTİM SÜRECİ

ÖZGEÇMİŞ Doç. Dr. BÜLENT ÖZKAN

ÜNİBİLGİ. Ankara Üniversitesi Kütüphane ve Dokümantasyon Daire Başkanlığı

Siyasal İletişim Kampanyası (PR 432) Ders Detayları

Türk Kütüphaneciliği'nde Bilimsel Bölümlendirme

TÜRK DÜNYASI ANABİLİM DALLARI. Türk Tarihi. ALES Puan Türü:SÖZEL. Lisans Derecesi ile Doktora. Yabancı Uyruklu

Yazın ve Çeviri I (ETI407) Ders Detayları

Doç. Dr. Bülent ÖZKAN Mersin Üniversitesi

Yrd.Doç.Dr. MELTEM YALIN UÇAR

İHLAS YAYIN HOLDİNG A.Ş. BİLGİLENDİRME POLİTİKASI. Halka Arz işlemleri ile birlikte, Şirket bilgilendirme politikası aşağıdaki gibi oluşturulmuştur.

INDUSTRIAL TRAINING LOGBOOK

Transkript:

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014

1. Giriş 2. Alanyazın 3. Açık Kaynak / Ücretsiz Yazılımlarla Türkçe Tümcelerin Belirlenmesi 1. TUD-Alt Derlemi 2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri 4. Sonuç ve Öneriler 5. Kaynaklar

Doğal Dil İşleme (DDİ) günümüzde dil bilimi, dil eğitimi, bilgisayar mühendisliği v.b. pek çok farklı alanı birleştiren bir araştırma alanıdır.

} Derlem İşlemleme (Corpus Processing) Özel ya da genel amaçlı incelemeler yapmak için yazılı ve sözlü metinlerden oluşan metinler bütünüdür, Elektronik veritabanında kayıtlı metinlerin veri bilgisiyle birleştirilmiş toplamıdır, Derlem veritabanları, dilin farklı yönlerinin araştırmacılar tarafından betimlenmesine olanak tanımaktadır.

Tümce sonu belirleme çalışmalarında, nokta, ünlem, soru işareti vb. noktalama işaretleri sadece tümce ayracı olarak kullanılmazlar ve bu anlamda, Tümce sonu belirleme, noktalama işaretlerinin belirginleştirilmesi olarak da özetlenebilir.

} Bilgisayar mühendisliği açısından tümce sonu belirleme ; Sözdizimsel ayrıştırma (syntactic parsing), Bilgi çıkarımı (information extraction), Makine çevirisi (machine translation), Metin hizalama (text alignment), Belge özetleme (document summarization), İstatistiksel ya da makine öğrenmesi yöntemleri Sözcük türü belirginleştirme çalışmaları için önemli olduğu söylenebilir.

Bilgisayarlı dilbilim alanyazınında tümce sonu belirleme problemi iki farklı yöntemle çözümlenmeye çalışılmıştır; Kural Tabanlı Yaklaşım Makine Öğrenmesine Dayalı Yaklaşım

} Kural Tabanlı Yaklaşım Anlaşılması zor Veri setleri yalnızca kullanılan metinler ile sınırlı } Makine Öğrenmesine Dayalı Yaklaşım Reynar ve Ratnaparkhi(Maksimum Entropi) Riley(Karar Ağacı Sınıflandırıcısı) Palmer ve Hearst(Yapay Sinir Ağı) Mikheev(Hiddin Markov-Maksimum Entropi)

} Var Olan Bazı Uygulamalar Apache OpenNLP kütüphanesi Julie Sentence Boundary Detector (Tomanek vd.) GeniaSS Splitta(Gillick)

} Türkçe için yapılan bazı çalışmalar İstatistiksel Bir Bilgi Çıkarım Sistemi (Tür) - Başarım: %91.56 Türkçede tümce sonu belirleme (Dinçer ve Karaoğlan ) Başarım: %96.02 Türkçe için kural tabalı cümle belirleme metodu(aktaş ve Çebi) - Başarım: %99.60

Çalışmaya konu olan derlem, TUD dağılım ölçütleri kullanılarak hazırlanmış; Günümüz Türkçesinin metin örneklerinden oluşan, 20 yıllık bir dönemi (1990-2009) kapsayan, Çok farklı alan ve türden Yazılı ve sözlü metin örneklerini içeren, Dengeli Temsil yeterliliğine sahip bir alt-derlemdir.

Alan Oran Toplam Sözcük Sayısı Hedeflenen Sözcük Sayısı 1.Kurgusal Düzyazı 2. Bilgilendirici Metinler %19 1.901.174 1.900.000 %81 7.956.406 8.100.000 Tablo 1. Alana göre Dağılım

Türev Metin Biçimi Oran Toplam Sözcük Sayısı 1. Akademik Düzyazı %95 1.806.708 2. Kurgu ve Şiir %2 37.059 3. Dram, Tiyatro %3 57.407 Tablo 2. Kurgusal Düzyazı Metinlerinin Türev Metin Biçimine göre Dağılımı Media Oran Toplam Sözcük Sayısı 1. Kitaplar %46,1 3.667.944 2. Süreli Yayınlar %37,1 2.951.859 2.1. Bilim.Dergileri %14,9 1.185.466 2.2. Gazeteler %11,1 883.176 2.3. Dergiler %11,1 883.217 3. Diğer Basılmış %6,09 484.550 Metinler 4. Basılmamış Yazılı %2,5 198.912 Metinler 5. Sözlü Metinler %8,21 653.228 Tablo 3. Bilgilendirici Metinlerin Medyaya göre Dağılımı

Alan Oran Toplam Sözcük Sayısı 1. Bilgilendirici: Doğa ve Temel Bilimler %5,03 400.207 2. Bilgilendirici: Uygulamalı Bilimler %10,21 812.349 3. Bilgilendirici: Sosyal Bilimler %20,08 1.597.646 4. Bilgilendirici: Dünya Sorunları %22,57 1.795.761 5. Bilgilendirici: Sanat %8,78 698.572 6. Bilgilendirici: Düşünce ve İnanç %5,00 397.820 7. Bilgilendirici: Serbest %18,29 1.455.226 8. Bilgilendirici: Ticaret ve Finans %10,04 798.823 Tablo 4. Bilgilendirici Metinlerin Alanlara göre Dağılımı

Bu çalışmada açık kaynak kodlu Julie Sentence Boundary Detector (JSBD), GeniaSS, Splitta, Ücretsiz Web servisi şeklinde çalışan ve Dokuz Eylül Üniversitesi Doğal Dil İşleme Araştırma Grubu (9EDDİ) tarafından Türkçe metinler için geliştirilmiş tümce ayırma sistemi karşılaştırılmıştır.

Kullanılan alt derlem; Yarı otomatik olarak oluşturulmuştur 10 Milyon sözcük 774.449 adet tümce elde edilmiştir.

Yazılım Bulunan Toplam Tümce Sayısı Doğru Tümce Sayısı Doğruluk Oranı JSBD 690.998 539.628 %70 Splitta 664.769 171.467 %22 GeniaSS 893.401 681.850 %88 9EDDİ 683.609 576.920 %75 Tablo 5. Tümce Sonu Belirleme Yazılımlarının Alt-derlem Üzerindeki Başarımı

Şekil 1. Yazılımların Doğa ve Temel Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 2. Yazılımların Uygulamalı Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 3. Yazılımların Sosyal Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 4. Yazılımların Dünya Sorunları Alanındaki Metinler Üzerindeki Başarımı

Şekil 5. Yazılımların Sanat Alanındaki Metinler Üzerindeki Başarımı Şekil 6. Yazılımların Düşünce ve İnanç Alanındaki Metinler Üzerindeki Başarımı Şekil 7. Yazılımların Serbest Alanındaki Metinler Üzerindeki Başarımı Şekil 8. Yazılımların Ticaret ve Finans Alanındaki Metinler Üzerindeki Başarımı

Şekillerde yer alan yüzdelik ifadeler, yazılımın ürettiği doğru tümce sayısının/yazılımın ürettiği toplam tümce Splitta hariç %75 ile %89 aralığında oranlar elde edilmiştir. En fazla tümceyi ve en fazla doğru tümceyi üreten GeniaSS uygulaması olmuştur. Güncel Türkçe metinler için hazırlanan 9EDDİ ise bazı alanlarda daha iyi sonuçlar vermiştir.

İngilizce tıp metinleri için hazırlanmasına rağmen en iyi sonucu GeniaSS üretmiştir. Daha sonra (özellikle bazı metin gurupları için) 9EDDİ yazılımı başarılı sonuçlar vermiştir. Üretilen tümce sayının doğru tümcelere oranına bakıldığında 9EDDİ daha iyi sonuçlar vermiştir.

Bu çalışma çeşitli alanlarda yazılmış Türkçe metinler için; Daha etkin tümce sonu belirleme sistemlerine ihtiyaç olduğunu göstermiştir. Tümce sonu belirleme yöntemi geliştirilirken TUD alt-derlemi gibi dili temsil etme yeteneğine sahip bir derlem ile çalışmanın daha etkin sistemlerin geliştirilmesine yardımcı olacağı düşünülmektedir.

TÜBİTAK: Proje no 113K039

Yasin BEKTAŞ yasinbektas@mersin.edu.tr