Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Benzer belgeler
K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Türkçe Dokümanlar Ġçin Yazar Tanıma

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Otomatik Doküman Sınıflandırma

Otomatik Doküman Sınıflandırma

Web Madenciliği (Web Mining)

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

K En Yakın Komşu Methodu (KNearest Neighborhood)

VERİ MADENCİLİĞİ Metin Madenciliği

Veri ve Metin Madenciliği

Instance Based Learning k-nn. YZM 3226 Makine Öğrenmesi

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Veri ve Metin Madenciliği. Zehra

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

Metin Sınıflandırma. Akış

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Kelime Gösterimleri (Word Representation Word Embeddings)

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

VERİ MADENCİLİĞİNE BAKIŞ

Veri Madenciliği Karar Ağacı Oluşturma

YAPAY ZEKA (Artificial Intelligence)

FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ/YAZILIM MÜHENDİSLİĞİ (DR)

Yard. Doç. Dr. İrfan DELİ. Matematik

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ DOKTORA YETERLİK SINAVI YÖNETMELİĞİ

ÖZGEÇMİŞ. 2. Doğum Yeri ve Tarihi : Washington DC - 22 Temmuz Derece Alan Üniversite Yılı Bilgisayar-Kontrol Marmara Üniversitesi

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Teknolojileri

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Yönetim Bilişim Sistemleri (Karma) - 1. yarıyıl Hukukun Temelleri Fundamentals of Law TR

Mühendislik ve Fen Bilimleri Dergisi Journal of Engineering and Natural Sciences

Doç.Dr. M. Mengüç Öner Işık Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Hafta 10 - Vektör Uzay Modelleri

ÖZGEÇMİŞ. Dr. Aytuğ ONAN

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

Coğrafi Veri Üretimi Bakış Açısı İle TÜBİTAK UZAY daki Uzaktan Algılama Araştırmaları

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

SİSMİK DARBELERİN SINIFLANDIRILARAK DEPREM TEHLİKESİNİN TAHMİN EDİLMESİ

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Proje Yürütücüsü: Doç. Dr. Selahattin ARSLAN (KTÜ, Fatih Eğitim Fakültesi)

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Dijital Sinyal İşleme (COMPE 463) Ders Detayları

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Uzaktan Algılama Uygulamaları

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

Sayı sistemleri-hesaplamalar. Sakarya Üniversitesi

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

Doktora Sayısal Yöntemler İstanbul Üniversitesi 2015 Yüksek Ortaöğretim Matematik Öğretmenliği Selçuk Üniversitesi 2005

Metin Madenciliği Kullanarak Yazılım Kullanımına Dair Bulguların Elde Edilmesi

Görev Unvanı Alan Üniversite Yıl Prof. Dr. Elek.-Eln Müh. Çukurova Üniversitesi Eylül 2014

BİLGİSAYAR DESTEKLİ TASARIM HAFTA 6 COSMOSWORKS İLE ANALİZ

İleri Veri Madenciliği (COMPE 506) Ders Detayları

BENİM DÜNYAM ÇOCUK OYUNU: BİR MOBİL UYGULAMA

Web Madenciliği (Web Mining)

PERFORMANCE COMPARISON OF KARATSUBA AND NIKHILAM MULTIPLICATION ALGORITHMS FOR DIFFERENT BIT LENGTHS

Eş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama

MÜFREDAT DERS LİSTESİ

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Makine Öğrenmesi 2. hafta

: Gazi Üniversitesi Araş. Gör. 4. Eğitim Derece Alan Üniversite Yıl

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

MOD419 Görüntü İşleme

Kelebek Görüntülerin Sınıflandırılmasında Yeni Yerel İkili Örüntüler

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Eğitim ve Öğretim Araştırmaları Dergisi Journal of Research in Education and Teaching Kasım 2017 Cilt: 6 Sayı: 4 ISSN:

Derece Adı, İlçe, İl Bitirme Yılı Lise : Şanlıurfa Anadolu Lisesi Üniversite : Selçuk Üniversitesi Bilgisayar Mühendisliği 2003

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

SE4SEE A Grid-Enabled Search Engine for

Ünite 4 Kaba Verinin örneklenmesi ve Araştırılması. Örnekleme Tasarım Adımları. Ana konular. Örnekleme Boyutu. Örnekleme

DUYGULU Projesi Tasarım Raporu

IEEE Online Mühendislikte Günümüz Araştırmacılarının Temel Bilgi Kaynağı. UASL Eğitim Programı. 10 Mayıs, 2006

Metin Sınıflandırma Text Classification

Türkçe Metin Özetlemede Kullanılan Yöntemler

Yüz Tanımaya Dayalı Uygulamalar. (Özet)

COURSES OFFERED FOR ERASMUS INCOMING STUDENTS

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 1 ( yılı ve sonrasında birinci

Adana Toplu Taşıma Eğilimleri

Tek Değişkenli Optimizasyon OPTİMİZASYON. Gradient Tabanlı Yöntemler. Bisection (İkiye Bölme) Yöntemi

BİTİRME ÖDEVİ VE TASARIM PROJESİ ARA RAPOR YAZIM KILAVUZU

ÖZGEÇMİŞ VE ESERLER LİSTESİ

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

- Yurtiçinde ULUSLARARASI Bilimsel Toplantılarda Sunulan ve Bilimsel Toplantı Kitabında Yayınlanan Bildiriler

Metin Sınıflandırmada Öznitelik Seçim Yöntemlerinin Değerlendirilmesi

Transkript:

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi Mehmet Fatih KARACA1, Mustafa GÜNEL1, Akif Alkan TAŞTAN1 1Gaziosmanpaşa Üniversitesi, Erbaa Meslek Yüksekokulu, Tokat mehmetfatih.karaca@gop.edu.tr, mustafa.gunel0013@gop.edu.tr, akifalkan.tastan4413@gop.edu.tr Özet: Teknolojik gelişmeler bilgisayar kullanımını ve dolayısıyla bilginin yayılmasını arttırmıştır. Bu durum, veri miktarında oldukça büyük artışlara neden olmuştur. Büyük boyutlardaki verilerin manuel yöntemlerle analiz edilmesi pek mümkün olmamaktadır. Veri boyutunun artmasının sebebi olan bilgisayar, bu verileri işlemek için de kullanılmaktadır. Veri madenciliği, eldeki veriler kullanılarak yeni bilgiler çıkarma işlemidir. Dijital ortamdaki veriler içerisinde metinsel veriler bulunmaktadır. Metin madenciliği, yapısal olmayan bu verilerin madencilik işlemlerinde kullanılmak üzere yapısal veri haline dönüştürülmesi için kullanılmaktadır. Bu çalışmada, internet gazetelerindeki köşe yazılarının sınıflandırılmasında knn algoritması ile 15 farklı benzerlik hesaplama tekniği uygulanmıştır. Bu tekniklerin elde ettiği sonuçlar hem başarı hem de işlem süresi olarak incelenmiş olup 5 teknikte %100 doğrulukla sınıflandırma gerçekleştirildiği görülmüştür. Anahtar Sözcükler: Veri madenciliği, metin madenciliği, metin sınıflandırma, benzerlik ölçümü. Evaluation of Similarity Measurement Techniques for Text Classification Abstract: Technological advances have increased the use of computers, and thus spread the knowledge. This has led to rather large increase in the amount of data. Manual methods of analyzing data in large size are not unlikely. Computer, the reason of the increasing size of the data, is used to process data. Data mining is a new information extraction using the available data. There are textual data in digital environment. Text mining is to realize for conversion of non-structural data into structured data. In this study, for the classification of the Internet newspaper columnist s columns 15 different similarity calculation techniques are applied with knn algorithm. These techniques results are examined as success and processing time and 5 technique is performed with 100% accuracy of classification was seen. Keywords: Data mining, text mining, text classification, similarity measurement. 1. Giriş Bilgisayar günlük hayatta yoğun ve etkin bir şekilde kullanılmaktadır. Bu kullanım eldeki veri miktarını oldukça arttırmıştır. Yüksek boyutlardaki verilerin işlenmesinde klasik veri işleme teknikleri yetersiz kalmış ve yeni tekniklerin doğmasına neden olmuştur. Eldeki büyük boyutlardaki verilerden fayda sağlayıcı bilgileri ortaya çıkararak veriyi anlamlandırma işlemi olan veri madenciliği bu tekniklerdendir [4]. Fakat veri, veri madenciliği tekniklerini gerçekleştirmek için uygun olmayabilir. Metinsel veriler veri madenciliği işlemlerinde, olduğu gibi alınıp doğrudan kullanılamaz. Bu durumda metin madenciliği kullanılmakta ve metinler veri madenciliğinde uygulanabilir formlara dönüştürülmektedir [7]. Metin sınıflandırma, önceden tanımlanmış sınıflara dokümanların atanması işlemidir [8]. Sınıflandırma zaman alıcı bir işlemdir. Bunun yanında manuel yöntemlerle yapılan sınıflandırmalarda sınıflandırma yapan uzmanların vermiş oldukları kararlara bağlı olarak sonuç değişebilmektedir. Bu sebeple bilgisayarlar yardımıyla gerçekleştirilen sınıflandırma zorunlu hale gelmiştir [5]. Metinsel verilerin sınıflandırılmasında metinler öncelikle ön işlemden geçirilir ardından özellik seçimi uygulanır ve daha sonra ağırlıklandırma yapılarak doküman vektörleri elde edilir. Bu işlemlerin gerçekleştirilmesi ile yapısal olmayan metinsel verilerde yapısallık sağlanmıştır ve veriler veri madenciliği tekniklerinin uygulanabileceği formatta elde edilmiş olur. Banka, hastane, seyahat, alış/veriş ve daha birçok işlemde kullanılan internet mail alma/gönderme işleminin gerçekleştiği bir ortam olmanın ötesine geçmiştir. Teknolojinin ucuzlaması, insanların yoğun iş tempoları, veriye erişimin kolaylaşması, gün içi gündemin bile sürekli değişmesi ve günümüzde internete bilgisayar, tablet veya cep telefonlarından erişimin mümkün olması internet gazetelerine olan ilgiyi arttırmıştır. Bu ilgi geleneksel gazetecilik denilen basılı medyanın haber verme ortamında yeniliklere sebep olmuş ve gazetelerin dijital ortama taşınmasını 783

zorunlu hale getirmiştir. İnternet gazeteciliği denilen platformda özellikle son dakika haberleri ve bu çalışmanın konusu olan köşe yazıları yoğun olarak takip edilmektedir. Köşe yazarlarının genelde belirli bir alanda yazmalarına karşın bazen de yazılarında alanları dışında farklı konulardan bahsetmektedirler. Köşe yazılarında başlık gibi içerikle ilgili bilgi verici bazı nitelikler bulunabilir. Fakat bazı durumlarda başlıkla içerik uyuşmayabilmektedir. Bu durumda içeriğin analiz edilmesi ve hangi alanda bir yazı olduğu ile ilgili bilgi vermesi okuyucuya zaman kazandırması açısından önemlidir. 2. Sistemin Yapısı ve Uygulanması Sınıflandırma işlemi çeşitli alt işlemlerden oluşur; veri seti elde edilir, ön işlem uygulanır, özellik seçimi uygulanır, sözcük ağırlıklandırma gerçekleştirilir, sınıf özellik vektörü ve doküman vektörleri elde edilir, benzerlikler hesaplanır ve sınıflandırma gerçekleştirilir. Bu çalışmada ekonomi, spor, sağlık, eğitim ve yaşam kategorilerine ait dokümanların sınıflandırılması gerçekleştirilmiştir. Çalışmada kullanılan eğitim ve test dokümanları internet ortamında yayın yapan günlük gazetelerdeki köşe yazılarıdır. Bu çalışmada benzerlik hesaplama tekniklerinin performanslarının hem başarı hem de işlem süresi olarak karşılaştırılması amaçlanmıştır. Bu tekniklerin metin sınıflandırma başarısına olan etkileri köşe yazıları kullanılarak ortaya konmuştur. 2.1 Veri Seti Veri setinde yeteri kadar doküman bulunmalıdır. Eğitim doküman sayısının azlığı sınıflandırma başarısını düşürür [11]. Bunun yanında sınıflar arasındaki veri sayılarının dengesizliği, dokümanların kısalığı ve bir doküman içerisinde çok farklı konulardan bahsedilmesi de sınıflandırma başarısını düşürecektir. Bu sebeple, bu duruma en uygun örneklerden biri olan günlük yayın yapan gazetelerin internet sitelerinden alınan köşe yazıları tercih edilmiştir. 5 farklı gazeteden her sınıfta eşit sayıda olmak üzere toplam 25 yazar yine her sınıfta eşit sayıda olmak üzere toplam 500 eğitim ve 250 test dokümanı kullanılmıştır. sözcüklerle yapılmaktadır. Ön işlem aşaması eldeki verinin formatına göre değişkenlik gösterebilir. Web verileri normal metinlerin ön işlem aşamalarından farklıdır ve şu şekildedir; metni HTML etiketlerinden, özel karakterlerden, gereksiz kelimelerden (stop words) temizlemek ve sonuçta elde edilen kelimeleri köklerine ayırarak sözcükleri elde etmek [6]. Hem eğitim hem de test dokümanları sınıflandırma öncesinde ön işlemden geçirilir ve metni oluşturan kelimelerin kökleri olan sözcükler elde edilir. 2.3 Özellik Seçimi Metin sınıflandırma işlemi gerçekleştirilirken eğitim ve test dokümanlarında geçen ve metni oluşturan tüm sözcükleri çalışmaya dahil etmek çalışma zamanını arttırmak anlamına gelmektedir. Bunun yerine metni temsil ettiği düşünülen sözcükleri seçmek sınıflandırma süresini ciddi boyutlarda düşürecektir. Ayrıca düşük boyutlu özellik vektörleri ile daha başarılı sonuçlar elde edilebilmektedir [3]. Bu sebeple özellik seçimi sadece boyut azaltarak çalışma zamanın düşürülmesi şeklinde değerlendirilmemeli, sınıflandırma başarısına etkileri de göz önüne alınmalıdır. Özellik seçiminin amacı sözcükleri seçmek, vektör boyutunu azaltmak ve metin hakkında bilgi verici niteliği bulunmayan sözcükleri çıkarmaktır [12]. Özellik seçimi sonrasında çalışmada kullanılacak sözcükler belirlenmiş olur. Çalışmada iki farklı özellik seçimi tercih edilmiştir; Yöntem1: Her sınıfta en fazla sayıda dokümanda geçen ve her sınıftan 175 er kelime ile oluşturulan sözlük. Yöntem2: Dokümanlardaki bütün ayrık kelimelerle oluşturulan sözlük. 2.4 Sözcük Ağırlıklandırma Özellik seçimi sonrası elde edilen sözcüklerin kendileri değil onları temsil eden sayısal değerleri kullanılır. Ağırlıklandırma işlemine sözcüklerin doküman üzerindeki etkisi de denilebilir [6]. Yapısal olmayan metinler ağırlıklandırma ile tam olarak yapısal hale dönüştürülmüş olur. Bu çalışmada binary, bit veya boolean ağırlıklandırma şeklinde isimlendirilen, sözcüğün doküman içerisinde varlığı veya yokluğu ile ilgilenen ve birçok çalışmada tercih edilen yöntem tercih edilmiştir. Binary ağırlıklandırma Denklem 1 de verilmiştir. 2.2 Ön İşlem Metin analizi işlemlerinde sınıflandırma ve benzerlik bulma metinle değil metni oluşturan 784

Sınıf Özellik ve Doküman Vektörü Dokümanların dokümanları oluşturan sözcüklerle vektör şeklinde ifade edilmesine vektör uzay modeli denilmektedir [9]. Ön işlem sonucu elde edilen metne özellik seçimi uygulanarak çalışmada kullanılacak sözcükler belirlenmiş olur. Metin madenciliği çalışmalarında iki vektör kullanılır; sınıf özellik vektörü ve doküman vektörü. Sınıf özellik vektörü çalışmada kullanılacak sözcüklerin vektörel ifadesidir. Doküman vektörleri, sınıf özellik vektörünü oluşturan sözcüklerin dokümanda geçme durumlarına bağlı olarak sözcüklerin ağırlıklandırılmış halleriyle meydana gelmiş vektörlerdir. Doküman vektörleri hem eğitim hem de test dokümanları için kullanılmakta olup X={w 1,w 2,w 3,,w n } şeklinde ifade edilir. Benzerlik hesaplama işlemleri bu vektörler üzerinden gerçekleştirilir. 2.6 Benzerliklerin Hesaplanması Test dokümanının hangi sınıfa ait olduğu test doküman vektörü ile eğitim doküman vektörleri arasındaki ilişkiye ve bu ilişkinin seviyesine bağlıdır. Sınıflandırma işleminde vektörel olarak ifade edilen eğitim ile test dokümanları arasındaki benzerlik ve mesafe ölçülür. Benzerlik bazı metotlarda mesafe ölçümü ilkesine dayanırken bazı metotlarda ilişki seviyesi belirlenmesi ilkesine dayanır. Bu çalışmada da tercih edilen ve X ile Y vektörü arasındaki benzerliğin hesaplanması için kullanılan tekniklere ilişkin formüller Denklem 2 ile Denklem 18 arasında verilmiştir. 2.7 k-nearest neighbors (knn) Algoritması ile Sınıflandırma Metin sınıflandırma, önceden belirlenmiş kategorilere dokümanların atanmasıdır [8]. Kullanılan benzerlik hesaplama ve sınıflandırma algoritmasına göre sınıflandırma işlemi gerçekleştirilir. Metin sınıflandırma doğal dil metinleriyle çalışan bir sınıflandırmadır [10]. Sınıflandırma işlemi test dokümanı ile eğitim dokümanları arasındaki yakınlığı dikkate alır. Test dokümanı hangi eğitim dokümanına yakınsa o eğitim dokümanın bulunduğu sınıfa ait olduğu düşünülür. Test dokümanı ile bütün eğitim dokümanlarının benzerlikleri tek tek hesaplanır ve benzerlik değerine göre eğitim dokümanları sıralanır. knn, önceden belirlenmiş k değeri kullanılarak eğitim dokümanlarından sınıflandırılacak olan test dokümanına en çok benzeyen k eğitim dokümanı içerisindeki en fazla sayıda tekrar eden sınıfın test dokümanının sınıfına atanmasıdır [2]. k değeri için herhangi bir standart bulunmamaktadır. Bu çalışmada k komşu değeri 7 olarak kullanılmıştır. 785

Sınıflardaki eğitim doküman sayılarının dengesizliği yani bir sınıfa ait eğitim dokümanı sayısının başka bir sınıftakinden fazla olması knn nin dezavantajıdır [1]. Böyle bir durumda k içerisine fazla sayıda eğitim dokümanına sahip sınıftan dokümanların girme olasılığı yüksek olacaktır ki bu sınıflandırma başarısını düşürecektir. Bunlar göz önünde bulundurularak bu çalışmada her sınıftan eşit sayıda eğitim ve test dokümanı ile sınıflandırma işlemi gerçekleştirilmiştir. 2.8 Sınıflandırma Başarısı Sınıflandırma başarısının ölçülmesinde Denklem 19 kullanılmıştır. 3. Uygulama Sonuçları Yöntem1, Yöntem2 özellik seçimleri ve 15 benzerlik hesaplama tekniği ile yapılan sınıflandırmalara ilişkin sonuçlar ve işlem süreleri Tablo 1, Tablo 2 ve Tablo 3 de verilmiştir. Tablo 1 e göre Cosine ve Pearson Correlation ile Tablo 2 ye göre ise Bray Curtis, Tanimoto ve Dice benzerlik hesaplama teknikleri ile bütün sınıflandırmalar doğru gerçekleştirilmiştir. Yöntem 2 de bazı tekniklerin başarılarının oldukça düştüğü görülmüştür. Buna karşın Yöntem2 de bazı tekniklerde artışlar da dikkat çekmektedir. 7 tekniğin sınıflandırma başarısında artış görülürken 8 teknikte ise düşüş gözlemlenmiştir. %100 doğruluk elde edilen 5 tekniğin iki yöntemdeki başarıları arasındaki fark %1 den azdır ve bu tekniklerle iki yöntemde de yüksek doğrulukta sınıflandırmalar yapılmıştır. İşlem sürelerinin ise yakın olduğu gözlemlenmiştir. Tablo 1. Yöntem1 e göre sınıflandırma sonuçları. Tablo 2. Yöntem2 ye göre sınıflandırma sonuçları. 786

Tablo 3. İşlem süreleri (Saniye cinsinden). 4. Sonuç ve Öneriler Bu çalışmada knn algoritması k=7 değeri ile uygulanmıştır. Özellik seçimi olarak tercih edilen iki farklı yöntem 15 farklı benzerlik bulma tekniğiyle uygulanarak sınıflandırma performansları değerlendirilmiştir. 5 farklı benzerlik bulma tekniğiyle bütün test dokümanlarının tamamının doğru sınıflandırıldığı gözlemlenmiştir. İlerleyen çalışmalarda daha büyük boyutlardaki veri seti, daha fazla sınıf, fazla sayıda özellik seçimi ve ağırlıklandırma teknikleriyle sınıflandırma işlemleri gerçekleştirilerek performansları test edilebilir. 5. Kaynaklar [1] Coomans, D. and Massart, D.L., Alternative k-nearest neighbour rules in supervised pattern recognition : Part 1. k-nearest neighbour classification by using alternative voting rules, Analytica Chimica Acta, 136: 15-27 (1982). [2] Dasarathy, B.V., Nearest-neighbor classification techniques, IEEE Computer Society Press, Los Alamitos, California (1991). [3] Durmaz, O. ve Bilge, H.Ş., Metin sınıflandırmada boyut azaltmanın etkileri ve özellik seçimi, Signal Processing and Communications Applications (SIU 2011) 21-24 (2011). [7] Karadağ, A. ve Takçı, H., Metin madenciliği ile benzer haber tespiti, Akademik Bilişim 2010, Muğla Üniversitesi, Muğla (2010). [8] Mitchell, T.M., Machine learning, Mc- Craw Hill (1997). [9] Salton, G., Wong, A. and Yang, C.S., A vector space model for automatic indexing Communications of the ACM, 18(11): 613-620 (1975). [10] Soucy, P. and Mineau, G.W., A simple knn algorithm for text categorization. Proceedings IEEE International Conference on Data Mining (ICDM 01), California, 647-648 (2001). [11] Toraman, Ç., Can, F. ve Koçberber, S., Developing a text categorization template for Turkish news portals, International Symposium on INnovations in Intelligent SysTems and Applications (INISTA 2011), İstanbul, 379-383 (2011). [12] Yang, Y. and Pedersen, J.O., A comparative study on feature selection in text categorization, Proceedings Fourteenth International Conference on Machine Learning (ICML 97), Nashville, Tennessee, 412-420 (1997). [4] Han, J. and Kamber, M., Data mining: Concepts and techniques, Morgan Kaufmann Publishers (2006). [5] İlhan, U., Application Of KNN and FPTC based text categorization algorithms to Turkish news reports, Bilkent Üniversitesi (2001). [6] Karaca, M.F. ve Görgünoğlu, S., ColumnREADY: İnternet gazeteleri köşe yazılarını hazırlama uygulama yazılımı, Akademik Bilişim 2012, Uşak Üniversitesi, Uşak (2012). 787