Türkçe Metin Özetlemede Kullanılan Yöntemler



Benzer belgeler
3. Otomatik Özet Çıkarma Sistemi Konunun Belirlenmesi Yorumlama Üretme Puanlamada Kullanılan Özellikler

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Metin Sınıflandırma. Akış

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Türkçe Dokümanlar Ġçin Yazar Tanıma

VERİ MADENCİLİĞİ Metin Madenciliği

BİTİRME ÇALIŞMASI ARA RAPOR YAZIM KILAVUZU

BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ LİSANS EĞİTİM BAHAR DÖNEMİ PROGRAMI

EĞİTİM-ÖĞRETİM YILI MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ (İNGİLİZCE) BÖLÜMÜ DERS PROGRAMINDA YAPILAN DEĞİŞİKLİKLER

YAPAY ZEKA (Artificial Intelligence)

BİTİRME ÖDEVİ VE TASARIM PROJESİ ARA RAPOR YAZIM KILAVUZU

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

TÜBİTAK TÜRKİYE ADRESLİ ULUSLARARASI BİLİMSEL YAYINLARI TEŞVİK (UBYT) PROGRAMI UYGULAMA USUL VE ESASLARI

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

ÖZGEÇMİŞ. Derece Üniversite Alanı Yılı Bütünleşik Doktora Ege Üniversitesi Matematik (Cebirsel Lisans Ege Üniversitesi Matematik 2009

İÜ AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ. Süreç İyileştirme Standardı

Görev Unvanı Alan Üniversite Yıl Prof. Dr. Elek.-Eln Müh. Çukurova Üniversitesi Eylül 2014

UZAKTAN EĞİTİM MERKEZİ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Doç.Dr. M. Mengüç Öner Işık Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

A. SCI ve SCIE Kapsamındaki Yayınlar

TAM METİN YAZIM KURALLARI

Yrd.Doç.Dr. ÖZCAN ÖZYURT

SOFTWARE ENGINEERS EDUCATION SOFTWARE REQUIREMENTS/ INSPECTION RESEARCH FINANCIAL INFORMATION SYSTEMS DISASTER MANAGEMENT INFORMATION SYSTEMS

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

SAYISAL GÖRÜNTÜ İŞLEME (Digital Image Processing)

Web Madenciliği (Web Mining)

ÜNİTE 9 ÜNİTE 9 MICROSOFT EXCEL - II TEMEL BİLGİ TEKNOLOJİLERİ İÇİNDEKİLER HEDEFLER

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

ANKARA ÜNİVERSİTESİ ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 1 ( yılı ve sonrasında birinci

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

Kelime Gösterimleri (Word Representation Word Embeddings)

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Bilgi Erişim Performans Ölçüleri

İLKÖĞRETİM ÖĞRENCİLERİNİN MÜZİK DERSİNE İLİŞKİN TUTUMLARI

MÜFREDAT DERS LİSTESİ

T.C. NAMIK KEMAL ÜNİVERSİTESİ ÇORLU MÜHENDİSLİK FAKÜLTESİ

Coğrafi Veri Üretimi Bakış Açısı İle TÜBİTAK UZAY daki Uzaktan Algılama Araştırmaları

OPSİYONLARDAN KAYNAKLANAN PİYASA RİSKİ İÇİN STANDART METODA GÖRE SERMAYE YÜKÜMLÜLÜĞÜ HESAPLANMASINA İLİŞKİN TEBLİĞ

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Giriş: Temel Adımlar YAZILIM GELİŞTİRME YAŞAM DÖNGÜSÜ. Belirtim Yöntemleri. Belirtim Yöntemleri

ERCİYES ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTUSÜ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİMDALI. I. GENEL BİLGİLER Ders Adı

BENİM DÜNYAM ÇOCUK OYUNU: BİR MOBİL UYGULAMA

Web Madenciliği (Web Mining)

Sistem Modelleme ve Simülasyon (SE 360) Ders Detayları

T A R K A N K A C M A Z

Kurumsal bilgiye hızlı ve kolay erişim Bütünleşik Belge Yönetimi ve İş Akış Sistemi içinde belgeler, Türkçe ve İngilizce metin arama desteği ile içeri

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

VERİ YAPILARI VE PROGRAMLAMA

MESLEKİ TERMİNOLOJİ I 1. HAFTA YAZILIM MÜH. TEMEL KAVRAMLAR

Dijital Sinyal İşleme (COMPE 463) Ders Detayları

2018 YILI AKADEMİK TEŞVİK BAŞVURULARI YARDIM

Yaz.Müh.Ders Notları #6 1

GEZİNME ADAPTASYONU: NEDEN VE NASIL?

Askeri Hedeflerin Radar Ara Kesitlerinin (RCS) Hesaplanması ve Görünmezlik (Stealth) Tekniklerinin Geliştirilmesi

SPOKEN DIALOGUE SYSTEMS

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Proje Yürütücüsü: Doç. Dr. Selahattin ARSLAN (KTÜ, Fatih Eğitim Fakültesi)

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Üniversitesi. {g.karatas, Library, Science Direct ve Wiley veri içerisinde

ULUSLARARASI SCI / SCI-Expanded KAPSAMINDAKİ DERGİLERDEKİ MAKALELER. Yayın NO. Yazarlar Başlık Dergi Adı Yıl

Programın Adı: Eğitim ve Öğretim Yöntemleri Proje/Alan Çalışması. Diğer Toplam Kredi AKTS Kredisi

İLİŞKİSEL VERİTABANLARI

YANSITILAN GÖRSEL MATERYALLER (Modern Öğretim Araç-Gereçleri)

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Yükleme Emrinde bulunan belge numarası, kamyon plaka numarası ve şoför adının irsaliyeye taşınması,

DEVAM ETMEKTE OLAN ÖĞRENCİLERE UYGULANACAK PROGRAMLAR

SOSYOLOJİ BÖLÜMÜ EĞİTİM-ÖĞRETİM YILI BAHAR DÖNEMİ DERS KATALOĞU

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

ÖĞRETMEN ADAYLARININ PROBLEM ÇÖZME BECERİLERİ

AKDAY 4.Sınıf İngilizce Konu Başlıkları

İşletim Sistemi. BTEP205 - İşletim Sistemleri

SAYISAL GÖRÜNTÜİŞLEME (Digital Image Processing)

Q-Biz İş Zekası 5.1. Versiyon Yenilikleri

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

KARİYER PLANLAMA Amaç ve Fayda Yayın Tarihi Kategori Ürün Grubu Modül Versiyon Önkoşulu Yükleme ve Gereken Dosyalar Yükleme Sonrası

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

İngilizce Öğretmen Adaylarının Öğretmenlik Mesleğine İlişkin Tutumları 1. İngilizce Öğretmen Adaylarının Öğretmenlik Mesleğine İlişkin Tutumları

Yrd.Doç. Dr. Tülin ÇETİN


IEEE Xplore KULLANIM KILAVUZU

YD 101 İngilizce-I (A1) 4+0 English-I (A1) 4 YD 107 Almanca-I (A-1) 4+0 German-I (A-1) 4 I. Yarıyıl Toplam Kredi 17 I. Yarıyıl Toplam AKTS 30

2 Ders Kodu: VPT Ders Türü: Seçmeli 4 Ders Seviyesi Doktora

Güz Dönemi Zorunlu Dersleri

ÖZGEÇMİŞ. : :

PERFORMANCE COMPARISON OF KARATSUBA AND NIKHILAM MULTIPLICATION ALGORITHMS FOR DIFFERENT BIT LENGTHS

ÖZGEÇMİŞ. 4. ÖĞRENİM DURUMU Derece Mezun Olunan Alan Üniversite Yıl. Lisans Bilgisayar Mühendisliği SELÇUK ÜNİVERSİTESİ June 1905

Transkript:

Türkçe Metin Özetlemede Kullanılan Yöntemler Özlem Evrim Gündoğdu 1, Nevcihan Duru 2 1 Kocaeli Üniversitesi, Elektronik ve Haberleşme Mühendisliği Bölümü, Kocaeli 2 Kocaeli Üniversitesi, Bilgisayar Mühendisliği Bölümü, Kocaeli ogundogdu@yahoo.com,nduru@kocael i.edu.tr Özet: Günümüzde hızla gelişen bilgisayar bilimleri teknolojileri faydalarının ve hayatı kolaylaştıran işlevlerinin yanında birçok konuda da aşılması gereken problemlere neden olmuştur. Bu problemlerden biri de dijital ortamda işimize yarayacak olan dokümanı bulmaktır. Makalede anlatacağımız çalışma dijital ortamdaki evrakların özetlerinin çıkarımı üzerine olacaktır. Kullanıcıya bütün evrağı gözden geçirme yerine anlaşılır özetler çıkaran bir sistem bahsettiğimiz problemin çözümüne önemli katkıda bulunacağını düşünmekteyiz. Doğal dil işleme konusunun alt dallarından biri olan metin özetleme üzerine yapılan bu çalışmada Türkçe dili esas alınmıştır. Dijital ortamdaki Türkçe evrakların özetlerinin çıkarımı konusundaki makaleler ve yapılmış olan çalışmalar incelenmiştir. Literatürde, metin özetleme üzerine yapılan çalışmaların İngilizce dilinde yoğunlaştığı görülmüştür. Türkçe dilinin, İngilizce dilinden farklı köken ve gramer yapısında olmasından dolayı da karşılaşılan zorluklar ve çözüm yolları açısından farklı çözüm yolların bulunması gerektiği anlaşılmıştır. Anahtar Sözcükler: Doğal Dil İşleme, Metin Özetleme. Turkish Text Summarization and Methods Abstract: While fast growing computer science Technologies provide benefits and advantages, it causes some problems. One of these problems is to find a document that is useful in digital media. In this article summarizing the text in digital media will be studied. Instead of reviewing all the documents, a system that is capable of producing understandable summaries is more effective. This study focuses on text summarizing which is one of the subtopics of Natural Language Processing and conducted in Turkish. Articles and studies on summarizing Turkish texts on digital environment more examined. It is obvious that most of studies on text summarizing are conducted in english. It is clear that different strategies for Turkish text summarization should be developed to overcome difficulties occured due to different grammer structure and origin. Keywords: Natural Language Processing, Text Summarization.

1. Giriş Doğal dil işleme, ana malzemesi gereği yüzyıllardır konuşulan, gramer yapısı ve kurallarıyla günümüze kadar ulaşmış diller üzerinde bilgisayar biliminin incelediği bir konudur. Bilgisayar ve dil bilimcilerin ortak çalışmaları bu diller ile hazırlanmış doküman ya da ses kaydı gibi verilerin dijital ortama aktarılması ile başlamıştır. Bu ilerlemenin sonucu olarak da Bilgisayarlarımız ve internette sayısı ve çeşitliliği hızla artan verilerin ayrıştırılması gereği ortaya çıkmıştır. Bu çalışmada da doğal dil işlemenin alt dallarından olan metin özetleme konusu işlenecektir. Kullanıcıların bilgisayar ve internette taradıkları dokümanların tamamını okumadan, bu dokümanların sadece özet bilgilerini sunan bir sistemin kullanıcıya önemli ölçüde yardımcı olacağı düşünülmektedir. Metin özetleme 1959 yılından beri üzerinde çalışılan bir konu olduğu için literatürde geniş ölçüde yer almaktadır. Fakat yapılan çalışmaların önemli bir kısmı İngilizce ve Çince üzerinde yoğunlaşmaktır. Dolayısıyla karşılaşılan problemlere aranan çözüm yöntemleri de bu dil yapılarına uygun geliştirilmeye çalışılmıştır. Türkçe, Ural-Altay dil ailesinden ve sondan eklemeli (bitişken) bir dildir. Dolayısıyla bu özelliklerinin getirdiği bazı zorluklar doğal dil işleme konusunda ortaya çıkmaktadır. Sözcüğe eklenen her bir ek farklı anlamlarda yeni sözcüklerin türetilmesine neden olmaktadır. Türkçe de bir sözcüğün ekler yardımı ile dönüştürülebileceği farklı sözcük sayısı kuramsal olarak sonsuzdur. Bu duruma abartılı bir örnek olarak, Osmanlılaştıramadıklarımızdanmışsınızcasın a kelimesi verilebilir [2]. Doğal dil işleme çalışmaları ana ve ara uygulamalar olarak iki gruba ayrılabilir. Ana uygulamalar bilgisayarla çeviri, otomatik özetleme,bilgi çıkarımı, bilginin yeniden eldesi gibi kendi başına bir uygulama oluşturan örneklerdir. Ara uygulamalar ise, tümceyi öğelerine ayırma, çözümleme, biçimbilimsel analiz (sözcük ek ve köklerini bulma), sözcük anlamını belirginleştirme gibi ana uygulamalar için gerekli işlemleri gerçekleştirirler [15]. Makalenin ikinci bölümünde Türkçe metin özetleme ile ilgili yapılmış olan çalışmalar irdelenecek, karşılaşılan zorluklar ortaya konacak, elde edilen sonuçlar ve başarı oranları ortaya konacaktır. Metin özetlemede öne çıkan yöntemler ayrıntılı bir şekilde aktarılacaktır. Bu çalışma ile Türkçe metin özetleme konusunda ileride yapılacak çalışmalar için iyi bir kaynak olması ve konunun ilerlemesinde katkıda sağlanması amaçlanmaktadır. 2. Otomatik Metin Özetleme Konunun ana malzemesi dil olunca çalışma alanı geniş bir çerçevede yer almaktadır. Dolayısıyla doğal dil işleme konusu bir çok alt dallara ayrılmaktadır. Yazım yardımcı araçlarının geliştirilmesi Yazım yanlışlarının düzeltilmesi Bul ve değiştir Basılı bir metni okuma (optik olarak metin okuma) ve okuma yanlışlarını düzeltme Bir metnin özetini çıkarma Metnin içerdiği bilgiyi çıkarma Bilgiye erişim Metni anlama Bilgisayarla sesli etkileşim Bilgisayarın konuşması (metni seslendirme)

Konuşmayı anlama (konuşmayı metne dönüştürme) Soru yanıt dizgeleri Yabancı dil okuma yardımcı araçları Yabancı dilde yazma yardımcı araçları Doğal diller arası çeviri Aynı dilin birçok farklı kullanımının olduğu ve bütün bunların kurallarla tanımlanması gerekliliği zorluklara neden olmaktadır. Bu zorluklar şöyle tanımlanabilir : Kuralsız ve bozuk yazılar Kuralsız ve anlaşılmaz konuşmalar Konuşmayı dilimleme Metni dilimleme Sözcük niteliklerini belirleme Anlam belirsizliklerini giderme Söz dizimsel belirsizliklerin giderilmesi Konuşma planı[8] Bu çalışmada incelenecek olan metin özetleme konusu da doğal dil işlemenin üzerinde çalışılan önemli alt dallarından biridir. Otomatik metin özetleme sistemleri bir çok evrağın taranmasının gerektiği çalışmalarda kullanıcılara çok yardımcı olabilir. Ayrıca otomatik metin özetleme sistemleri bir ya da birden fazla evrak üzerinden de özet çıkarabilmektedirler. Otomatik metin özetlemede temel olarak iki yöntem mevcuttur: 1. Cümle seçerek özetleme: Burada amaç metin içerisindeki önemli cümleleri puanlandırma yöntemleri kullanarak, istatistiksel metotlar ve sezgisel yaklaşımlar ile cümle seçmektir. 2. Yorumlayarak özetleme : Bu tip özetlemedeki amaçta metin içerisindeki cümlelerin kısaltılması amaçlanmaktadır. Örneğin Ahmet elmadan, portakaldan, armuttan nefret eder. cümlesi Ahmet meyveden nefret eder. olarak kısaltılır. Bu yöntemin kullanılabilmesi için zengin bir sembolik kelimeler tablosuna ihtiyaç vardır. [3] Lin ve Hovy e göre de metin özetleme şu süreçlerdir oluşmaktadır: 1. Konunun belirlenmesi : Burada metin içerisindeki en önemli konuların bulunması amaçlanmaktadır. Bu süreç oluşturulurken kelime frekanslarının hesaplanması, metin içerisinde cümlelerin konumu, cümleler içerisinde geçen önemli kelimeler (sonuç olarak, en önemlisi, özetle vs.), sıkça kullanılan kelimeler (edat ve belirteç olmamaları gerekmekte), tarih ve özel isim belirten ifadeler gibi yöntem olarak kullanılmaktadır. 2. Yorumlama : Bu süreçte de cümleler daha genel ifadeler kullanılarak tekrar oluşturulur. Örneğin Elif önlüğünü giydi, çantasını aldı ve servise bindi cümlesinin yorumlanmış hali Elif okula gitti olabilir. 3. Üretme : Üretme sürecinde ise metin özetinin son halini alması amaçlanmaktadır. Bu aşamada kullanılan yöntemler genellikle yukarıdaki süreçlerden elde edilen kelime ve cümleleri giriş olarak alır bunların tekrar yorumlanarak elde edilen sonuçlar metin özetinin son halini oluşturur [1]. Metin özetleme yapılırken kullanıcıdan çıkarılacak özet için belli girişler istenebilir (anahtar sözcükler, özetin uzunluğu v.s.) ya da metin özetleme işleminde bir sınırlama yapılmaz. Metin özetleme bazı kaynaklara göre de şöyle gruplandırılmıştır: çıkarımsal özet ve özetçe. Çıkarımsal özet, konu ile en ilgili metin

parçalarını, belki küçük değişikliklerle seçmeyle oluşturulur. Özetçe, gerekmedikçe içeriğe değinmeden belgenin içeriğini anlatan bir açıklama yazısıdır. İki durumda da bazıları özetlemeyi, bir belgenin sıkıştırılması veya yoğunlaştırılması olarak düşünebilir. Çıkarımsal özet, konuyla daha az ilgili maddeleri çıkararak sıkıştırma işlemini yapar. Buna karşılık özetçe sıkıştırmayı, detayları gizleyip belirli bilgileri daha genel ifadelerle değiştirmek gibi daha karmaşık yöntemlerle yapar [19]. Bilgisayar tarafından üretilen özetçede amaç, insan tarafından üretilen özetçe kadar tutarlı özetçe üretmektir. Çıkarımsal özette ise amaç, belgenin içeriğini yansıtan metin parçalarından oluşan bir küme çıkarmaktır [1], [20]. Metin özetleme çalışmaları incelendiğinde metin içerisinde cümleleri puanlandırma yönteminin öne çıktığı görülmektedir. Cümlenin puanlandırma işlemi belli kriterler belirlenerek yapılır. Bu işlem için metnin paragraflara, paragrafların cümlelere, cümlelerinde sözcüklere ayrılması gerekir. Daha aşağıdaki kriterlerden yararlanılarak cümleler puanlandırılır. Cümle içerisinde metnin başlığında kullanılan sözcüklerin varlığı kontrol edilir. Cümlenin tarih bilgisi içerip içermediğine bakılır. Cümle içerisindeki özel isimler kontrol edilir. Pozitif / negatif sözcük olarak tanımlanan, sözcüklerin olup olmadığına bakılır. Pozitif sözcük; özetle, sonuç olarak, sonuçta gibi metni toparlayıcı cümlelerin içerisinde geçen sözcüklere denir. Negatif sözcük ise çünkü, ancak, öyle gibi metnin konusu hakkında ayrıntılı bilgilerin verildiği cümlelerde kullanılan sözcüklerdir. Cümlelerde anahtar sözcüklerin geçip geçmediğine bakılır. Kullanıcının arama yaparken girdiği sözcükler ya da makalelerde geçen anahtar sözcükler bu kriterde değerlendirilir. Cümlenin metin içerisindeki yeri de önemlidir. Metnin ilk ve son paragraflarında yer alan cümleler öncelikli olarak değerlendirilir. Metin içerisindeki her sözcüğün frekansı hesaplanır. Frekans hesaplanırken sözcüğün metin içerisindeki geçiş sıklığına bakılır. En sık geçen sözcüklerden başlanarak bir sıralama yapılır ve genellikle bu listenin %10 u değerlendirmeye alınır. En sık geçen sözcükleri içeren cümlelere artı puan eklenir. Cümlenin anlamını pekiştiren eş dizimli sözcüklerin olup olmadığına bakılır. Cümlenin bitiş işaretine bakılır. Eğer cümle ünlem ya da soru işareti gibi cümleye önem katan noktalama işaretleri içeriyorsa bu cümleye artı puan verilir. Metin içerisindeki cümlelerin ortalama uzunlukları hesaplanır. Ortalamanın ±1 üzerinde olan cümlelere puan verilir. Cümle içerisinde varlık isimlerini tanıma yöntemi kullanılarak ilgili sözcükler seçilir ve buna göre puanlandırılır. Bu yöntem ilk olarak [5] te kullanılmıştır. Ele aldığımız metin özetleme konusu, metin madenciliği karıştırılmamalıdır. Metin madenciliğinde amaç kullanılan metin içerisinden anlamlı istatistiksel veriler çıkarmaktır. Metin madenciliği çalışmaları

sırasında doğal dil işleme kullanılarak özellik çıkarımı yapılabilmektedir [4]. 2.1. Türkçe Metinler Üzerinde Yapılmış Olan Çalışmalar Türkçe üzerine yapılmış çalışmalardan biri olan Zemberek, doğal dil işleme konusunda çalışma yapan herkesin mutlaka incelediği, çoğu zamanda kullandığı bir kaynaktır. Zemberek, açık kaynak kodlu Türkçe bir doğal dil işleme kütüphanesidir. Doğal dil işleme çalışmalarında kelime köklerinin, metin içerisindeki özel isimlerin bulunması vs gibi işlevler için kullanılabilmektedir. Şu an yayımda olan ikinci sürümü Zemberek2, tüm Türk dilleri için kullanılabilmektedir [4]. 2008 yılında Türkçe metin özetleme konusu E.Uzundere, E.Dedja, B.Diri ve M.F.Amasyalı tarafından yapılan Türkçe haber metinleri üzerinde çalışılmıştır. Oluşturulan sistemde metin özetleme işlemi cümle puanlandırma yöntemiyle yapılmıştır. Puanlandırma kriterlerine haber metinlerinde olabilecek özellikler eklenmiştir. Örneğin metin içerisinde işareti olan cümleler, içerisinde sayısal ifadelerin olduğu cümleler gibi. Puanlandırma hesaplanırken de oluşturulan kriter puan listesine göre belirlenen kriterlerden içerdiği sözcük kadar cümleye puan verilmiştir. Örneğin cümlede bir adet başlıkta geçen sözcük, iki adet anahtar sözcük olsun; bu cümle (20*1 + 15*2 )=50 puan olarak hesaplanır. Ayrıca kullanıcının özetleme oranı girmesi sağlanmıştır. Metin özeti bu özellikler göz önünde bulundurularak çıkarılmıştır. Bu çalışmada sisteme verilen 10 adet metin 15 kişi tarafından da özetlenmiş ve sonuçlar karşılaştırıldığında sistemin % 55 başarıyla özet çıkartabildiği ortaya konmuştur [3]. 2014 yılında A.Güran, S.N.Arslan, E.Kılıç ve B.Diri tarafından yapılan çalışmada çıkarıma dayalı metin özetleme yapılmıştır. Bu çalışmayla cümle seçim metotlarına yeni bir kriter eklenmiştir. Varlık ismi tanıma metodu ilk kez bu çalışmada kullanılmıştır. Elde edilen sonuçlarda cümle seçim metotları farklı kombinasyonlarıyla da değerlendirilmiş olup en başarılı olan kombinasyonlar listelenmiştir. Bu çalışmada da sistem tarafından oluşturulan özetlerin (20 adet haber metni üzerinde çalışılmıştır) başarısı, bir çalışma grubu (15 kadın, 15 erkek )tarafından yapılan özetlerle analiz edilmiştir [5]. Türkçe metin özetleme üzerine farklı bir çalışma 2012 yılında A.Güran, N.G.Bayazıt ve M.Z.Gürbüz tarafından yapılmıştır. Geliştirdikleri sistemde yapısal ve anlamsal kriterler birleştirilerek hibrit bir Türkçe metin özetleme sistemi yapmışlardır. Sistem sonuçları incelendiğinde hibrit sistemin daha başarılı sonuçlar çıkardığı görülmektedir. Çalışmada AHP ve ABC algoritmaları kriterlerin birleştirilmesinde kullanılmıştır. Sistemin yapısal ve anlamsal kriterlerinin birleştirilişi tablo 1 de verilmiştir [6]. Şekil 1. Hiyerarşik yapı [6] Türkçe için bir başka çalışma da 2010 yılında metin içerisindeki cümlelerin konumlarından yola çıkarılarak geliştirilmiştir. M.Kutlu, C.Cığır ve İ.Çiçekli yaptıkları çalışmada cümlenin metin içerisindeki ve merkeze göre olan konumunu, anahtar sözcükler, cümlenin başlıkla olan benzerliği kriterleri kullanılarak cümlenin önemi hesaplanmıştır. Ayrıca cümle seçim kriterlerinden biri olarak KP (Key Phrase) kullanılmıştır ve etkili bir yöntem olduğu elde edilen sonuçlarla ortaya konmuştur. Sistemin genel olarak çalışma yöntemi şöyledir: öncelikli olarak belirtilen kriterler eğitilerek en uygun kriter kombinasyonu oluşturulur daha sonra bu

kombinasyondaki kriter kullanılarak cümleler için bir puanlama yapılır. Metnin özeti çıkarılır [7]. Şekil 2. Metin özetleme sisteminin yapısı [7] 2010 yılında A.Güran, E.Bekar ve S.Akyokuş tarafından yapılan Türkçe metinlerde özetleme işlemi için farklı bir yaklaşım da kullanılmıştır. Araştırmacıların gerçeklediği sistemde amaç, şimdiye kadar istatistiksel yöntemlerle yapılan özetleme işleminde çıkarımsal yöntemleri de kullanarak; bu iki yöntemi karşılaştırmışlardır. İstatistiksel yöntemde, cümle puanlandırma ile metin içerisindeki cümleler belli özelliklere (başlı içerisindeki kelimeler, pozitif kelimeler, paragrafın yeri, büyük harfle başlayan kelimeler, belirteç içeren cümleler, negative kelimeler, sayısal ifadeler, cümle uzunluğu, tarih belirten cümleler, anahtar kelimeler, işlemler ve noktalama işaretleri) göre puanlandırılmış ve en yüksek puanları alan cümleler ile özetleme işlemi gerçekleştirilmiştir. Çıkarımsal yöntem için iki farklı algoritma kullanmışlardır. Çıkarımsal olan iki yöntem içinde metinin cümle ve kelimelerinden oluşan matrisler oluşturulmuştur. Bu matrisler her hücrede tek kelime, sütunlarda da cümleler ile oluşturulmuştur. İlk algoritmada çıkarımsal özetleme SVD yöntemine dayandırılmıştır ve cümleler puanlandırılmıştır. Burada düşük puanlı olmasına rağmen özete giren cümleler için ikinci yöntem çözüm olarak kullanılmıştır. İkinci yöntemde de tekrar bir matris oluşturulup cümle puanlandırılması yapılmakta ve birinci yöntemdeki olumsuzlular giderilmektedir. Sonuç olarak çıkarımsal yöntemle yapılan metin özetinin, manuel yapılan özete daha yakın olduğu görülmüştür [16]. Çıkarımsal özetleme üzerine yapılan diğer bir çalışmada 2011 yılında M.G.Özsoy, F.N.Alpaslan ve İ. Çiçekli tarafından yapılmıştır. Araştırmacılar çalışmalarında LSA tabanlı algoritmalardan bahsetmişler ve iki tanesini Türkçe ve İngilizce metinler için kullanmışlardır. Cross yönteminin diğer LSA yöntemlerinden daha iyi sonuçlar verdiğini, kısa dokümanlarda LSA yaklaşımının daha düşük performanslara neden olduğunu, tf-idf yönteminin de kısa dokümanlarda iyi sonuçlar vermediğini yaptıkları çalışmada gerçeklemişlerdir. Sonuç olarak Cross ve Topic yöntemlerinin Türkçe ve İngilizce dokümanlar da iyi sonuçlar verdiğini dolayısıyla başka diller içinde kullanılabileceğini de dile getirmişlerdir [17]. 2011 yılında metin özetleme üzerine yapılan bir çalışmada da gerçeklenen sistemin tüm diller ile kullanılabilir olması amaçlanmıştır. M.Çakır, E.Çelebi tarafından yapılan çalışmada C3M (Cover Coefficient-Based Clustering Methodology) algoritması kullanılmıştır. Öncelikle özeti çıkarılacak belgeler doğal dil işlemi yöntemleri ile işlenip C3M algoritmasında kullanılabilir hale getirilmiştir.c3m algoritması ile cümleler arasındaki benzeşimleri kullanılarak; belge içerisindeki özete girebilecek olan temsilci cümleler belirlenmiş olur. Precision, Re-call ve ROUGE değerlendirme algoritmaları kullanılarak sistem performansı ölçülmüş olup; önerdikleri sistemin CSS algoritması kullanarak gerçeklenen sisteme göre daha iyi sonuç verdiğini göstermişlerdir [18]. 2010 yılında Z.Altan tarafından yapılan çalışma 50 farklı dokümandan oluşan bir kümes kullanılmıştır. Sistem, system istatistiksel yöntemler kullanılarak paragraflara, cümlelere ve kelimelere ayrılmış olup; önceden tanımlanmış ağırlık faktörleri de göze alınarak özet verileri çıkarmıştır. Ayrıca bu system oluşturulurken

işlem öncesinde kullanıcıya çıkarılacak özetle ilgili olarak belirleyebileceği 3 özellik (özeti çıkarılacak dokümanı seçebilir, özetin uzunluğunu belirleyebilir ve veri tabanına ekleyip eklemeyeceğine karar verebilir) girişi bulunmaktadır [14]. 3. Sonuç ve Öneriler Metin özetlemeyle ilgili bir çok çalışma olsa da halen popülerliğini ve gelişimini devam ettiren bir konudur. Dijital ortamdaki dokümanların taranmasını kolaylaştıracağı, zaman ve iş gücü kaybını azaltacağı bir gerçektir. Ayrıca buradan yola çıkılarak yapılacak olan ticari yazılımlar içinde önemli bir kaynak olacağı gerçektir. Metin özetleme Türkçe için çalışma alanı geniş olan bir konudur. Türkçe nin dilbilgisi yapısının getirdiği zorlukların yapılacak olan çalışmalar ile aşılacağı düşünülmektedir. Şimdiye kadar yapılan hem yapısal hem de anlamsal Türkçe metin özetleme çalışmalarında önemli sonuçlar alındığı yukarıda verilen çalışmalarda da görülmektedir. Türkçe dokümanlar üzerinde Metin özetleme üzerine yaptığımız bu araştırmada amacımız bu konuyla ilgili bir kaynak oluşturabilmektir. Bu çalışmayla Türkçe metin özetleme konusuna bir giriş yapmış bulunmaktayız. Bir sonraki hedefimiz Türkçe dokümanlarda metin özetleme üzerine farklı bir sistem geliştirilmesi ve buradan elde edilecek verilerin farklı alanlarda da kullanılmasını sağlamak olacaktır. 4. Kaynaklar [1] Hovy E., Lin C. Y.,, "Automated text summarization in summarist", Annual Meeting of the ACL Proceeding of a Workshop,( 1998). [2] Eryiğit G., "Türkçe nin bağlılık ayrıştırması", Doktora Tezi, Fen Bilimleri Enstitüsü, İTÜ, İstanbul, (2006). [3] Uzundere E., Dedja E., Diri B., Amasyali M. F., "Türkçe haber metinleri için otomatik özetleme ", Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, (2008). [4] www.wikipedia. com, (2015). [5] Güran A., Arslan S. N., Kılıç E., Diri B., " Sentence selection methods for text summarization", IEEE 22 nd Signal Processing and Communications Applications Conference (SIU 2014),(2014). [6] Güran A., Güler Bayazıt N., Gürbüz M. Z., "Efficient feature integration with Wikipedia-based semantic feature extraction for Turkish text summarization", Turkish Journal of Electrical Engineering & Computer Sciences, (2013). [7] Kutlu M., Cığır C., Cicekli I., "Generic Text Summarization for Turkish ", Published by Oxford University Press on behalf of The British Computer Society, (2010). [8] Adalı E., "Doğal Dil İşlemenin Temelleri",http://www.ozadalı.net/?page_id= 1695, (2015). [9] Şentürk T., "Türkçe Metin Seslendirme", TBV BBHD, Sayı 4, (2011). [10] Eryiğit G., "Türkçe nin Bağlılık Ayrıştırması", M.S. thesis, İ.T.Ü. Fen Bilimleri Enstitüsü, İ.T.Ü., İstanbul, (2006). [11] Meral M., Diri B., "Twitter Üzerinde Duygu Analizi", 2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014), (2014). [12] Mani I., Maybury M.T. (eds.), "Advances in Automatic Text Summarization", Section 1, The MIT Press, (1999). [13] Kupiec J., Pedersen J.O., Chen F., "A Trainable Document Summarizer", Research

and Development in Information Retrieval, 68-73, (1995). [14] Altan Z., "A Turkish Automatic Text Summarization System", International Conference Artifical Intellegence and Applications, (2004). [15]Altan Z., Orhan Z., Anlam Belirsizliği İçeren Türkçe Sözcüklerin Hesaplamalı Dilbilim Uygulamalarıyla Belirginleştirmesi,http://turkoloji.cu.edu.tr/D ILBILIM/anlam_belirsizligi.pdf, (2015). [16] Güran A., Bekar E., Akyokuş S., A Comprasion Of Feature and Semantic-Based Summarization Algorithms For Turkish, International Symposium on Innovations in Intelligent Systems and Applicaitons, Kayseri, (21-24June 2010). [17] Özsoy M.G., Alpaslan F.N., Text summarization using Latent Semantic Analysis, Journal of Information Science 1 13, (2011). [18] Çakır M., Çelebi E., Kapsama Katsayısı Tabanlı Kümeleme İle Belge Özetleme, IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011), 186-189, Berlin, (2011). [19] Aone, C., Okurowski, M.E., Gorlinsky, J. and Larsen, B.. A trainable summarizer with knowledge acquired from robust NLP techniques. Reprinted in: Mani, I., Maybury, M.T. (eds.) Advances in Automatic Text Summarization, pp. 71-80, MIT Press, London, (2001). [20] Tülek M., Türkçe İçin Metin Özetleme, İTÜ Fen Bil. Ens., Yük. Lis. Tezi (2007).