Türkçe Dokümanlar Ġçin Yazar Tanıma

Benzer belgeler
Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet

TÜRKÇE DOKÜMANLAR İÇİN YAZAR TANIMA

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Otomatik Doküman Sınıflandırma

Otomatik Doküman Sınıflandırma

Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi

TÜRKÇE DOKÜMANLAR İÇİN N-GRAM TABANLI SINIFLANDIRMA: YAZAR, TÜR ve CİNSİYET

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Teknolojileri

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

Türkçe Dokümanlarda Yapay SinirAğları İle Yazar Tanıma

Metin Sınıflandırma. Akış

CBS ve Coğrafi Hesaplama

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

K En Yakın Komşu Methodu (KNearest Neighborhood)

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Web Madenciliği (Web Mining)

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Türkçe Dokümanlarda Yapay SinirAğları ile Yazar Tanıma

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

SERİMYA II. MATEMATİK YARIŞMASI I. AŞAMA SORULARI

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Fonksiyon Optimizasyonunda Genetik Algoritmalar

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

Bulanık Mantık Algoritmaları Kullanarak Kaynak Kod Benzerliği Bulma. Source Code Similarity Detection With Using Fuzzy Logic Algorithms

Mühendislik ve Fen Bilimleri Dergisi Journal of Engineering and Natural Sciences

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Görüntü Sınıflandırma

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

M.Fatih AMASYALI 1, Sümeyra BALCI 1, Esra Nur VARLI 1, Emrah METE 1

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

ÖĞRENCİNİN ADI SOYADI: NUMARASI: SINIFI: KONU: Olasılık

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

1981 ÖSS olduğuna göre, aşağıdakilerden c hangisi kesinlikle doğrudur? A) a>0 B) c<0 C) a+c=0 D) a 0 E) c>0 A) 12 B) 2 9 C) 10 D) 5 E) 11

2003 ÖSS Soruları. işleminin sonucu kaçtır? ifadesinin sadeleştirilmiş biçimi aşağıdakilerden hangisidir? A) 1 B) 7 C) 9 D) 11 E) 21

TÜRKÇE DOKÜMANLARIN SINIFLANDIRILMASI

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

AHP ANALİTİK HİYERARŞİ PROSESİ AHP AHP. AHP Ölçeği AHP Yönteminin Çözüm Aşamaları

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

BULANIK MANTIK ile KONTROL

Akademik Personel ve Lisansüstü Eğitimi Giriş Sınavı. ALES / Đlkbahar / Sayısal II / 13 Mayıs Matematik Sorularının Çözümleri

BİLGİSAYAR DESTEKLİ TASARIM HAFTA 6 COSMOSWORKS İLE ANALİZ

NDEN BELİRLENEBİLME LME POTANSİYELİ UYDU GÖRÜNTÜLERİNDEN

MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA)

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Hafta 7 C Programlama Diline Giriş ve C Derleyicisi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Kelime Gösterimleri (Word Representation Word Embeddings)

Belirteç Seçiminin Huffman Kodlaması Üzerine Etkisi

Veri Madenciliği Karar Ağacı Oluşturma

İki-Kuvvet Elemanları Basit (2 Boyutlu) Kafesler Düğüm Noktaları Metodu ile Analiz Sıfır-Kuvvet Elemanları Kesme Metodu ile Analiz

İstatistik Dersi Çalışma Soruları Arasınav(Matematik Müh. Bölümü-2014)

DEÇEM 2018 ORTAOKUL DEÇEM ORTAOKUL MATEMATİK OLİMPİYATI KATILIMCI BİLGİLERİ 6. SINIF. Ad ve Soyad

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

2. HTML Temel Etiketleri

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

SİMETRİK ŞİFRELEME. DES (Veri Şifreleme Standardı, Data Encryption Standard)

Uzaktan Algılama Uygulamaları

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

ÖZGEÇMİŞ. Dr. Aytuğ ONAN

FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ/YAZILIM MÜHENDİSLİĞİ (DR)

Yüz Örüntülerinden Cinsiyet Tespitinde Hibrit Özniteliklerle Performans Geliştirme

Bilgisayar Programlama MATLAB

MAKİNE ÖĞRENMESİ YARDIMIYLA OPTİK KARAKTER TANIMA SİSTEMİ OPTICAL CHARACTER RECOGNITION SYSTEM VIA MACHINE LEARNING

MÜFREDAT DERS LİSTESİ

1. YARIYIL / SEMESTER 1

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

ÇİMENTO BASMA DAYANIMI TAHMİNİ İÇİN YAPAY SİNİR AĞI MODELİ

Transkript:

Türkçe Dokümanlar Ġçin Yazar Tanıma Özcan KOLYĠĞĠT, Rıfat AġLIYAN, Korhan GÜNEL Adnan Menderes Üniversitesi, Matematik Bölümü Bölümü, Aydın okolyigit@gmail.com, rasliyan@adu.edu.tr, kgunel@adu.edu.tr Özet: Yazar Tanıma çalışmaları, teknolojinin gelişmesi ve bilginin yaygınlaşması ile ortaya çıkan bir takım sorunlara çözüm üretmek için yapılmaktadır. Bu sorunlardan bazıları yazarı belli olmayan dokümanların yazarlarının belirlenmesi ve yazarının kim olduğundan tam olarak emin olunamayan metinlerin yazarlarının belirlenmesidir. Bu çalışmada Türkçe dokümanlar için yazar tanıma sistemi geliştirilmeye çalışılmıştır. Günlük gazetelerden seçilen 5 yazara ait köşe yazıları kullanılmıştır. ın 70 er yazısından oluşan 350 dokümandan oluşan bir derlem hazırlanmıştır. Bu dokümanlardan 20 şer tanesi eğitim için 50 şer tanesi test için kullanılmıştır. İlk olarak 5 yazara ait dokümanlar toplanmış, daha sonra her yazara ait 20 doküman birleştirilerek tek bir doküman haline getirilmiştir. Bu şekilde elde edilen 5 doküman için sözcük ve gövde öznitelik vektörleri belirlenmiştir. Öznitelik vektörleri belirlenirken her yazar için vektör uzunlukları 20, 30, ve 40 olarak seçilmiş, oluşan öznitelik vektörleri için K- En Yakın Komşu algoritmasıyla test edilmiştir. Sonuç olarak, sözcük ve gövde öznitelik vektörlerine göre ortalama %77 başarı elde edilmiştir. Anahtar Sözcükler: Yazar Tanıma, Veri Madenciliği, K-Enyakın Komşu Metodu, Metin Sınıflandırma. 1. GiriĢ Yazar tanıma çalışmalarında amaç yazarı bilinmeyen metinlerin yazarını tespit etmek veya yazarının kim olduğundan tam olarak emin olunamayan metinlerin yazarlarının belirlenmesidir [7]. Türkçe için yazar tanıma alanında ilk çalışmalar 1999 yılında yapılmaya başlanmış ve günümüzde, yapılan çalışmaların sayısı hızla artmaktadır. Aynı doküman üzerinde, yazarlık iddia eden iki kişiden hangisinin dokümanın gerçek yazarı olduğunun tespiti için yazar tanıma uygulamalarından faydalanılır [4]. Bu çalışmada 5 yazara ait 70 er doküman, toplamda 350 doküman kullanılmıştır. Bu dokümanlardan 20 şer tanesi sistemin eğitilmesi için 50 şer tanesi sistemin test edilmesinde kullanılmıştır. Dokümanlar ilk olarak ön işlemden geçirilmiştir. Dokümanlardaki tüm harfler küçük harfe dönüştürülmüş, noktalama işaretleri ve rakamlar silinmiştir. Daha sonra her yazarın herhangi 20 dokümanı birleştirilmiş ve dokümanlarda geçen sözcüklerin frekansları çıkarılmış ve değerler 0 ile 1 aralığında normalize edilmiştir. Her yazar için, o yazarın dokümanlarında yüksek frekansa sahip ve diğer yazarların dokümanlarında düşük frekansa sahip sözcükler ve sözcüğün en uzun gövdeleri [9] belirlenmiştir. Örneğin "kitaplıklarımızdan" sözcüğünün en uzun gövdesi "kitaplık" olarak tespit ediliyor. Bu sözcükler ve en uzun gövdeler öznitelik vektörleri olarak ele alınmıştır. Daha sonra test aşaması için ayrılan 50 şer doküman K- En Yakın Komşu metodu (K-NN) kullanılarak öznitelik vektör veri tabanındaki değerlerle karşılaştırılarak dokümana ait yazar belirlenmiştir. Sistemin yapısı genel olarak Şekil 1.1 de gösterilmiştir.

ġekil 1.1 Yazar tanıma sisteminin genel yapısı 3. Yazar Tanıma ÇalıĢmaları İlk yazar tanıma çalışmaları Stamatatos ve arkadaşları tarafından yapılmıştır [7]. Sözdizimsel stil özelliklerinin çeşitli kombinasyonlarını kullanarak dokümanların yazarlarını belirlemeye yönelik bir çalışma yapmışlardır. Yunanca dokümanlar üzerinde çalışmışlardır. Peng ve arkadaşları, her yazarın en çok kullandığı belli sayıdaki n-gramlardan oluşan bir vektör oluşturmuş, daha sonra en yakın komşuluk algoritmasını kullanarak dokümanların yazarlarını belirleyen bir çalışma yapmışlardır [6]. Fung, Federalist yayınlarının yazarlık özelliklendirilmesi için Destek Vektör Makinesi sınıflandırıcısını kullanılmıştır. Çalışmada Federalist yayınlar as, of ve on kelimelerinin üç boyutlu uzayında bir düzlemle ayrılmışlardır. Bir takım fonksiyonel kelimeler kullanılarak Destek Vektör Makinesi uygulanmış ve yayınlar birbirinden ayrılmıştır [4]. Diri ve Amasyalı, Türkçe metinler üzerinde ilk çalışmaları yapmışlardır. Dokümanın içeriğini ve belirlenen 22 farklı stil özelliğini kullanarak dokümanların yazarlarını belirleyen sınıflandırma yöntemleri ile çalışmışlardır. 18 yazara ait 20 şer dokümandan oluşan bir derlem oluşturmuşlardır. Doküman içeriğine bağlı sınıflandırmada Naive Bayes metodunu kullanmışlardır. Stil özelliklerine göre sınıflandırmada kendi geliştirdikleri Automatic Author Detection for Turkish Text (AADTT) metodunu kullanmışlardır [3].

Diri ve Amasyalı, Türkçe metinlerde yazar, tür ve cinsiyete bağlı sınıflandırma yapan bir sistem geliştirmişlerdir. Bu çalışmalarında da Naive Bayes, Destek Vektör Makineleri, C 4.5 ve Rastgele Orman yöntemlerini kullanmışlardır [1]. Diri, Amasyalı ve Türkoğlu, farklı öznitelik vektörleri kullanarak Türkçe dokümanların yazarlarının belirlenmesini amaçlayan bir çalışma yapmışlardır. Türkçenin 2 ve 3- gram larını, Türkçede sık geçen sözcükleri, dilbilgisel ve istatistiksel özellikleri kullanarak 10 farklı öznitelik vektörü çıkarmışlardır. Daha sonra yine Naive Bayes, Destek Vektör Makineleri, C 4.5 ve Rastgele Orman yöntemlerini kullanmışlardır [2]. Şekil 3.1 de K-NN algoritması ile ilgili basit bir örnek verilmiştir. Mavi karelerden ve kırmızı üçgenlerden oluşan iki sınıfımız olsun. Yeşil daire ise sınıfını belirlemek istediğimiz test verimiz olsun. Eğer K=3 seçilirse dairemize yakın iki üçgen bir kare olduğundan üçgen sınıfını seçmeliyiz. Fakat K=5 seçilirse dairemize yakın 3 kare 2 üçgen olduğundan kare sınıfını seçmeliyiz. Bu nedenle K nın seçimi kritiktir. 3. K- En Yakın KomĢu Algoritması Sınıfları belli olan bir örnek kümesindeki gözlem değerlerinden yararlanarak, örneğe katılacak yeni bir gözlemin hangi sınıfa ait olduğunu belirlemek amacı ile K-En Yakın Komşu algoritması (K-Nearest Neighbors Algorithm) kullanılmaktadır. Bu yöntem, örnek kümedeki gözlemlerin her birinin, sonradan belirlenen bir gözlem değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip K sayıda gözlemin bulunduğu sınıfın seçilmesi esasına dayanmaktadır. Örneğin, K=3 için yeni bir eleman sınıflandırılmak istensin. bu durumda eski sınıflandırılmış elemanlardan en yakın 3 tanesi alınır. Bu elamanlar hangi sınıfa dahilse, yeni eleman da o sınıfa dahil edilir. Uzaklıkların hesaplanmasında Öklid uzaklık formülü kullanılabilir. Aralarındaki uzaklık hesaplanacak i ve j noktaları için aşağıdaki Öklid uzaklık formülü kullanılabilir: (3.1) ġekil 3.1 K-en yakın komşu algoritması 4. Sistemin Yapısı ve Uygulanması Bu çalışmada ilk olarak 5 yazara ait dokümanlar toplanmış, daha sonra her yazara ait 20 doküman birleştirilerek tek bir doküman haline getirilmiştir. Bu şekilde elde edilen 5 dokümanlara göre sözcük ve en uzun gövde öznitelik vektörleri belirlenmiştir. Öznitelik vektörü oluşturmak için öncelikle dokümanlar üzerinde, dokümanlarda geçen noktalama işaretleri ve sayılar temizlenmesi, tüm harflerin küçük harfe dönüştürülmesi işlemlerinin uygulandığı bir ön işlem yapılmıştır. Ön işlem uygulanmış dokümanlardaki sözcüklerin ve en uzun gövdelerin frekansları normalize edilerek hesaplanmıştır. 5 yazara ait frekanslar oluşturulduktan sonra her yazar için diğer yazarlar tarafından daha az tercih

Tablo 4.1 a ait öznitelik vektörleri edilen (%50 daha az) sözcükler ve gövdeler seçilerek öznitelik vektörleri oluşturulmuştur. Her yazar için oluşturulan öznitelik vektörleri birleştirilerek öznitelik veri tabanı oluşturulmuştur. Öznitelik veri tabanı oluşturulma aşamaları Şekil 4.1'de gösterilmiştir. uzaklık formülü kullanılarak hesaplanmıştır. K=1, K=3 ve K=5 için K-NN metodu uygulanmıştır. Her yazar için öznitelik sözcük ve en uzun gövde sayısı 20, 30 ve 40 seçilerek 3 farklı öznitelik vektörü oluşturulmuş, ayrı ayrı test edilmiştir. Eğitim seti ve test seti oluşturulurken her dokümanın sözcük öznitelik vektöründeki 100, 150 ve 200 sözcük ve en uzun gövde için frekansları hesaplanmıştır. Oluşan 350 vektörün (her yazar için 70 adet) 20 şer tanesi eğitim için ayrılmış geri kalanları test için kullanılmıştır. Test için K-NN metodu kullanılmıştır. Test setindeki her bir dokümanın eğitim setindeki her bir doküman ile arasındaki uzaklık Öklid ġekil 4.1 Öznitelik veri tabanının oluşturulması

5. TartıĢma ve Sonuçlar Bu çalışmada, veri madenciliği yöntemlerinden K-NN metodu kullanılarak Türkçe dokümanlar için yazar tanıma sistemi geliştirilmiştir. Günlük gazetelerden seçilen 5 yazarın yazılarından bir derlem oluşturulmuştur. Sözcük frekansları hesaplanarak sözcük öznitelik vektörleri oluşturulmuş, eğitim ve test için K-NN metodu kullanılarak dokümanların yazarları belirlenmeye çalışılmıştır. Öznitelik vektörü için seçilen sözcük ve en uzun gövde sayısı ve K nın seçimine göre farklı başarı oranları elde edilmiştir. Tablo 5.1, 5.2, 5.3, 5.4, 5.5 ve 5.6 da başarı oranları ve ortalamaları verilmiştir. Şekil 5.1'deki başarı oranlarına bakıldığında, K-NN metodunun K=1 alındığında, K=3 ve K=5 değerlerine göre daha başarılı olduğu görülmektedir. Öznitelik vektör boyu 20 olduğunda 30 ve 40'a göre daha başarılı sonuç vermiştir. En yüksek doğru tanıma oranı %77,2 olmuştur. Sözcük tabanlı ve en uzun gövde tabanlı sistemler arasında çok belirgin bir fark görülmemiştir. Her iki yaklaşıma göre en başarılı oran %77,2'dir. Yazar 1 % 70 % 64 % 70 Yazar 2 % 62 % 60 % 60 Yazar 3 % 98 % 98 % 96 Yazar 4 % 96 % 98 % 98 Yazar 5 % 60 % 58 % 56 % 77,2 % 75,6 % 74 Tablo 5.1 Sözcük tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 20) Daha sonraki çalışmalarda, çok katmanlı algılayıcı ve destek vektör makinesi metotlarıyla uygulamalar geliştireceğiz ve başarı oranlarını karşılaştıracağız. Aynı zamanda, karakter, kök ve hece tabanlı yazar tanıma çalışmalarını yapacağız ve hangisinin en başarılı olduğunu tespit edeceğiz. Yazar 1 % 70 % 66 % 54 Yazar 2 % 60 % 64 % 64 Yazar 3 % 100 % 100 % 96 Yazar 4 % 96 % 100 % 100 Yazar 5 % 54 % 52 % 48 % 76 % 76,4 % 72,4 Tablo 5.2 Sözcük tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 30) Yazar 1 % 68 % 36 % 22 Yazar 2 % 52 % 54 % 44 Yazar 4 % 88 % 98 % 98 Yazar 5 % 74 % 76 % 74 % 76,4 % 72,8 % 67,6 Tablo 5.3 Sözcük tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 40) Yazar 1 % 58 % 54 % 40 Yazar 2 % 56 % 58 % 52 Yazar 4 % 98 % 98 % 98 Yazar 5 % 68 % 76 % 76 % 76 % 77,2 % 73,2 Tablo 5.4 En uzun gövde tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 20)

ġekil 5.1 K ve ÖVB (Öznitelik Vektör Boyutu) değerlerine göre sözcük ve en uzun gövde tabanlı yazar tanıma başarı oranları Yazar 1 % 58 % 46 % 28 Yazar 2 % 50 % 56 % 44 Yazar 4 % 98 % 98 % 98 Yazar 5 % 74 % 74 % 74 % 76 % 74,8 % 68,8 Tablo 5.5 En uzun gövde tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 30) Yazar 1 % 68 % 36 % 22 Yazar 2 % 52 % 54 % 44 Yazar 4 % 88 % 98 % 98 Yazar 5 % 74 % 76 % 74 % 76,4 % 72,8 % 67,6 Tablo 5.6 En uzun gövde tabanlı K-NN metoduyla yazar tanıma başarı oranları (Öznitelik vektör boyu: 40) 6. Kaynaklar [1] Amasyalı M.F., Diri B., "Automatic Written Turkish Text Categorization in Terms of Author, Genre and Gender", 11th International Conference on Applications of Natural Language to Information Systems, Austria (2006). [2] Amasyalı M.F.,Diri B., Türkoğlu F., "Farklı Özellik Vektörleri ile Türkçe Dokümanların ının Belirlenmesi", (2006). [3] Diri B., Amasyalı M.F., "Automatic Author Detection for Turkish Texts", Artificial Neural Networks and Neural Information Processing, 138-141 (2003). [4] Fung, G., Mangasarian, O., "The Disputed Federalist Papers: SVM Feature Selection via Concave Minimization", Proceedings of the 2003 Conference of Diversity in Computing, Atlanta, Georgia, USA, 42-46 (2003). [5] Gerritsen, C.M., "Authorship Attribution Using Lexical Attraction", Master Thesis Department of Electrical

Engineering and Computer Science, MIT, (2003). [6] Peng, F., Schuurmans, D., Keselj, V., Wang, S., "Language Independent Authorship Attribution using Character Level Language Models", EACL, 267-274 (2003). [7] Stamatatos, E., Fakotakis, N., Kokkinakis, G., "Automatic Authorship Attribution", EACL, (1999). [8] Stamatatos, E., Fakotakis, N., Kokkinakis, G., "Automatic Text Categorization in Terms of Genre and Author", Computational Linguistics, 471-495 (2000). [9] Kut, A., Alpkoçak, A., Özkarahan, E., "Bilgi bulma sistemleri için otomatik Türkçe dizinleme yöntemi", BiliĢim Bildirileri, Dokuz Eylül Üniversitesi, İzmir, (1995).