Otomatik Doküman Sınıflandırma

Benzer belgeler
Otomatik Doküman Sınıflandırma

Türkçe Dokümanlar Ġçin Yazar Tanıma

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

WEB SAYFALARINA İLİŞKİN YAPAY SİNİR AĞLARI İLE SINIFLANDIRMA YÖNTEMİ

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

TÜRKÇE DOKÜMANLARIN SINIFLANDIRILMASI

Uzaktan Algılama Teknolojileri

Esnek Hesaplamaya Giriş

TÜRKÇE DOKÜMANLAR İÇİN YAZAR TANIMA

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Çok Katmanlı Algılayıcı, K-NN ve C4.5 Metotlarıyla İstenmeyen E-postaların Tespiti

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Yapay Sinir Ağları. (Artificial Neural Networks) DOÇ. DR. ERSAN KABALCI

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

İlk Yapay Sinir Ağları. Dr. Hidayet Takçı

BAŞKENT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BENZER SÜREÇLERDE ÜRETİLEN ÜRÜNLER İÇİN YAPAY ZEKA İLE ZAMAN TAHMİNİ SONER ŞÜKRÜ ALTIN

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Örüntü Tanıma (EE 448) Ders Detayları

Çok Katmanlı Algılayıcı (Multilayer Perceptron) DOÇ. DR. ERSAN KABALCI

Fonksiyon Optimizasyonunda Genetik Algoritmalar

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

ESTIMATION OF EFFLUENT PARAMETERS AND EFFICIENCY FOR ADAPAZARI URBAN WASTEWATER TREATMENT PLANT BY ARTIFICIAL NEURAL NETWORK

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Web Madenciliği (Web Mining)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

T.C. KIRIKKALE ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ YAPAY SİNİR AĞLARI. Doç.Dr. Necaattin BARIŞÇI FİNAL PROJESİ

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

PSM 11 PEM YAKIT HÜCRELERİNİN YAPAY SİNİR AĞLARI İLE MODELLENMESİ

Zeki Optimizasyon Teknikleri

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Yapay Sinir Ağları (Artificial Neural Networks)

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Metin Sınıflandırma. Akış

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

GÜNCEL METOTLARLA RESĠM SINIFLANDIRMA

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

Uzaktan Algılama Uygulamaları

BCA605 Bilgisayar Oyunlarında Yapay Zeka

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Kelime Gösterimleri (Word Representation Word Embeddings)

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Şekil Tanıma Final Projesi. Selçuk BAŞAK

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma * Web Content Classification Using Artificial Neural Networks

ISK116 - Bölüm 1. Grup Teknolojisi

YAPAY AÇIKLIKLI RADAR GÖRÜNTÜLERİNDE YAPAY SİNİR AĞLARI İLE HEDEF TANIMLAMA

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Makine Öğrenmesi 3. hafta

Zeki Optimizasyon Teknikleri

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

Doktora Sayısal Yöntemler İstanbul Üniversitesi 2015 Yüksek Ortaöğretim Matematik Öğretmenliği Selçuk Üniversitesi 2005

Büyük Veri Analitiği (Big Data Analytics)

Veri madenciliği yöntemleri

CBS ve Coğrafi Hesaplama

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

K En Yakın Komşu Methodu (KNearest Neighborhood)

Örüntü Tanıma (COMPE 467) Ders Detayları

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

ROBOTLARIN YAPAY SİNİR AĞLARI KULLANILARAK DENETİMİ.

Şifrebilimde Yapay Sinir Ağları

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

MÜFREDAT DERS LİSTESİ

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

KALİTE SİSTEM YÖNETİCİSİ EĞİTİMİ

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

1. YIL 1. DÖNEM DERS KODU DERS ADI T+U+L KREDİ AKTS. Atatürk İlkeleri ve İnkılap Tarihi I

Yapay Zeka Teknikleri ve Yapay Sinir Ağları Kullanılarak Web Sayfalarının Sınıflandırılması

VERİ MADENCİLİĞİ Metin Madenciliği

Tiroid Hastalığının Teşhisinde Parçacık Sürü Optimizasyonu ile Yapay Sinir Ağının Hibrit Kullanımı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

XIX. Türkiye de Internet Konferansı (inet-tr 14) BULUT BİLİŞİM GÜVENLİĞİ HOMOMORFİK ŞİFRELEME Kasım, 2014, Yaşar Üniversitesi İÇİN

Yapay Sinir Ağları. (Artificial Neural Networks) DOÇ. DR. ERSAN KABALCI E S N E K H E S A P L A M A Y Ö N T E M L E R İ - II

Transkript:

Akademik Bilişim 12 - XIV Akademik Bilişim Konferansı Bildirileri Otomatik Doküman Sınıflandırma Adnan Menderes Üniversitesi, Fen Edebiyat Fakültesi Matematik Bölümü, Aydın rumeysa2903@gmailcom, rasliyan@aduedutr, kgunel@aduedutr Özet: İnternetin hızla gelişmesi elektronik ortamdaki bilgileri ve işlemleri hızlandırmış fakat bu ortamlarda depolanan ve işlenen bilgilerin boyutunun artması aranan bilgiye erişmekte problemler çıkarmıştır Kullanıcıların istedikleri bilgiye daha doğru ve hızlı bir şekilde ulaşma ihtiyacı doğmuştur Bu amaçla elektronik ortamdaki dokümanların sınıflandırılmasında yeni yaklaşımlar geliştirilmiştir Bu çalışmada metin içerikli dokümanların sınıflandırılmasında Yapay Sinir Ağlarından Çok Katmanlı Algılayıcı metodu kullanılarak bir sistem geliştirilmiştir Çalışmanın gerçekleştirilmesi için her biri 75 er doküman içeren eğitim, otomobil, sağlık, spor ve teknoloji sınıfları ele alınmıştır Bu dokümanlardan 25 er tanesi sistemin eğitilmesi aşamasında 50 şer tanesi ise sistemin test edilmesi aşamasında kullanılmıştır Çalışmada sisteme verilen dokümanlar öncelikle önişlemden geçirilmiştir Önişlemden geçirilen dokümanların frekansları hesaplanıp normalize edildikten sonra her bir sınıf için öznitelik sözcük ve hece vektör veritabanı oluşturulmuştur Öznitelik vektör veritabanı oluşturulurken sözcüklerin ve hecelerin dokümanlarda karşılaştırılmasında belli bir eşik değeri kullanılmıştır Sistemin test edilmesinde, test setindeki dokümanlar sisteme verilmiş ve her bir sınıf için oluşturulan öznitelik vektör veritabanındaki sözcükler ve heceler ile karşılaştırılarak dokümanın hangi sınıfa dahil olduğu belirlenmiştir Sonuç olarak, bu yaklaşım ile en iyi sınıflandırma başarı oranı, sözcük tabanlı sistemde %87 ve hece tabanlı sistemde ise %93 olarak bulunmuştur Anahtar Sözcükler: Doküman Sınıflandırma, Yapay Sinir Ağları, Çok Katmanlı Algılayıcı, Veri Madenciliği 1 Giriş Doküman sınıflandırma çalışmaları 1960 lı yıllarda başlamıştır Gelişen teknolojiyle beraber elektronik ortamdaki dokümanların sayısı artmakta ve bunlara ulaşabilmek zorlaşmaktadır Bu alanda yapılan çalışmalarla gereksiz bilgilerin kullanıcıya ulaşması engellenerek istenilen bilgiye daha hızlı ve daha doğru bir şekilde ulaşılması kolaylaşmıştır Otomatik doküman sınıflandırma; bilgi alma, bilgi çıkarma, doküman indeksleme, doküman filtreleme, otomatik olarak meta-data elde etme ve web sayfalarını hiyerarşik olarak düzenleme gibi pek çok alanda kullanılır Doküman sınıflandırmanın amacı bir dokümanın özelliklerine bakarak önceden belirlenmiş belli sayıdaki kategorilerden hangisine dâhil olacağını belirlemektir Bunun için çeşitli sınıflandırma yöntemleri geliştirilmiştir Yaygın olarak kullanılan sınıflandırma yöntemleri; Naive Bayes [1], Karar Ağaçları [2], K-En Yakın Komşu Modeli (KNN) [3], Maksimum Entropi Modelleri [4][5], Bulanık Mantık Teorisi Yaklaşımları [6], Destek Vektör Makineleri [8] ve Yapay Sinir Ağlarıdır Bu çalışmada, doküman sınıflandırma işlemi yapılırken yapay sinir ağlarından Çok Katmanlı Algılayıcı Ağı kullanılmıştır İlk olarak yapay sinir ağları tanıtılmış, sistemin yapısı verilmiş, uygulamada takip edilen adımlar sunulmuştur 429

Otomatik Doküman Sınıflandırma Şekil 11 Doküman sınıflandırmanın genel yapısı Eğitim, otomobil, sağlık, spor ve teknoloji kategorilerine ait 75 er doküman, toplamda 3755 doküman ele alınmıştır Bunlardan 25 er tanesi sistemin eğitilmesi aşamasında 50 şer tanesi de test aşamasında kullanılmıştır Otomatik doküman sınıflandırmada sisteme verilen dokümanların sayısının önemli bir rolü vardır Dokümanların gereğinden fazla olması sistemin öğrenmesini zorlaştırmakta, gereğinden az olması da yapay sinir ağı sonuçlarındaki hata oranını arttırmaktadır Metin dokümanları oldukça fazla sözcük içerirler Bazı sözcükler vardır ki bunların bütün dokümanlardaki frekansı oldukça yüksektir Bunlara Türkçede çok sık kullanılan; "gibi", "ise", "yani", "veya", "ama", "ne", "neden", "şey", "hiç" sözcükleri örnek verilebilir Bundan dolayı bu sözcükler ayırt edici özelliğe sahip değillerdir ve bu sözcükler dokümanlardan elenir Eleme işlemi indeksleme işlemi olarak adlandırılır ve bunu takip eden adımlardan oluşur Doküman sınıflandırmada Şekil 11 de gösterildiği gibi; dokümanlar ilk önce sisteme alınarak ön işlemden geçirilir Önişleme safhasında dokümanlardaki boşluk, rakam ve noktalama 430 işareti gibi herhangi bir anlam ifade etmeyen karakterler elenir, büyük harfler küçük harflere dönüştürülerek temizlenmiş doküman haline getirilir Dokümanlardaki sözcükler, RASAT heceleme algoritmasıyla [9] hecelere ayrılır Dokümanlardaki sözcüklerin ve hecelerin frekansları 0 ile 1 arasında normalize edildikten sonra her sınıf için oluşturulmuş olan öznitelik vektör veritabanındaki sözcükler ve hecelerle karşılaştırılarak dokümanın sınıfı belirlenir 2 Yapay Sinir Ağları Yapay sinir ağları insan beyninin sinir sistemini model alan ve çalışma prensibine dayanan bir yöntemdir İnsan beyninin öğrenme yolu ile yeni bilgiler üretebilme, keşfedebilme, mevcut bilgiler ile olaylar hakkında yorum yapabilme, karar verebilme, olaylar arasında ilişki kurabilme gibi özelliklerini yapabilmek için tasarlanmıştır Bir yapay sinir ağı belli bir amaç için oluşturulur ve insanlar gibi örnekler sayesinde öğrenir İnsanlarda öğrenme sinir hücrelerinin arasındaki sinaptik boşluklarda yer alan elektriksel ayarlamalarla oluyorken, Yapay Sinir Ağlarında bu durum tekrarlanan girdiler sayesinde ağın kendi yapısını ve ağırlıklarını değiştirmesi ile olmaktadır İnsanlardaki sinir hücresinin Yapay Sinir Ağlarındaki karşılığı proses elemanıdır ve Yapay Sinir Ağları birçok proses elemanının birleşmesi ile oluşur Yapay Sinir Ağları öğretmenli öğrenme, öğretmensiz öğrenme ve destekleyici öğrenme olarak 3 farklı öğrenme tipine sahiptir Bu çalışmada öğretmenli öğrenme metotlarından olan Çok Katmanlı Algılayıcı Ağı kullanılmıştır Çok Katmanlı Algılayıcı Modeli, 1 girdi katmanı, 1 veya daha fazla ara katman ve bir de çıktı katmanından oluşur Şekil 21' de Çok Katmanlı Algılayıcı Modelinin yapısı verilmiştir Dış dünyadan alınan bilgiler hiçbir işleme tabi tutulmadan ara katmana iletilir Dolayısıyla bu katmandaki k tane proses elemanının çıktısı 21 denkleminde görüldüğü üzere Ç K İ olarak belirlenir

Akademik Bilişim 12 - XIV Akademik Bilişim Konferansı Bildirileri Ç K İ = G k (21) fark hatayı verir Bu hata tekrar geriye doğru yayılarak minimuma düşünceye kadar yapay sinir ağının ağırlıkları değiştirilir ( β 1, β 2, ) ağın beklenen çıktıları, (Ç 1, Ç 2, ) ağın çıktısı olmak üzere çıktı katmanındaki m proses elemanında oluşan hata denklem 24 de verilmiştir E m = B m - Ç m (24) 3 Sistemin Yapısı ve Uygulanması Şekil 21 Çok Katmanlı Algılayıcı Modeli Ara katmandaki her bir proses elemanının çıktısı girdi katmanından gelen her bir çıktının ağırlıkları ile (A 1, A 2, ) çarpımlarının toplanması sonucu elde edilir (22) Denklem 22'de A k j k girdi katmanı elemanını j ara katman elemanına bağlayan bağlantının ağırlık değerini gösterir j ara katman elemanının çıktısı NET girdinin aktivasyon fonksiyonundan geçirilmesi ile hesaplanır Kullanılan aktivasyon fonksiyonu, lineer fonksiyon, step fonksiyonu, sinüs fonksiyonu, eşik değer fonksiyonu, hiperbolik tanjant fonksiyonu veya sigmoid fonksiyonu olabilir Bu çalışmada ağın bütün elemanları için aktivasyon fonksiyonu olarak sigmoid fonksiyon kullanılmıştır Bu çalışmada eğitim ve test dokümanlarını toplanması, öznitelik vektörlerinin belirlenmesi, yapay sinir ağının eğitilmesi aşaması ve test aşamalarının izlendiği bir sistem geliştirilmiştir İlk olarak sisteme verilen dokümanlar ön işlemden geçirilir Ön işleme safhasında dokümanlardaki rakam, boşluk, noktalama işareti gibi herhangi bir anlam ifade etmeyen karakterler elenir, bütün sözcükler küçük harflere dönüştürülür ve sadece sözcüklerden oluşan temizlenmiş doküman elde edilir Bu aşamadan sonra eğitim, otomobil, sağlık, spor ve teknoloji kategorileri için sözcük ve hece öznitelik vektör uzayının oluşturulması gerekir Sigmoid fonksiyona göre ara katmanın çıktısı denklem 23' deki gibidir (23) Ele alınan β, değeri ara katmandaki j elemana bağlanan eşik değer elemanının ağırlığıdır Burada ağın çıktısı ile beklenen çıktı arasındaki 431 Şekil 31 Öznitelik vektör veritabanının oluşturulması

Otomatik Doküman Sınıflandırma Her bir kategoriye ait test setindeki 25 doküman birleştirilerek tek bir doküman haline getirilir Böylece 5 kategori için 5 doküman elde edilmiş olur Bu dokümanlar sisteme verilerek ön işlemden geçirilir ve temizlenmiş doküman haline getirilir Her sınıf için olasılıkları hesaplanan sözcüklerin ve hecelerin diğer dokümanlardaki olasılıkları belli bir eşik değerinden küçük ise bu sınıfın öznitelik vektör uzayına alınır Bu çalışmada eşik değer 05 olarak kullanılmış ve her kategori için 5 tane sözcük ve hece öznitelik vektör veritabanı oluşturulmuştur Öznitelik vektör uzayı bu sınıfları en iyi temsil edecek olan sözcüklerden ve hecelerden oluşur Şekil 31 de öznitelik vektör uzayını oluştururken izlenen adımlar verilmiştir Sözcük Sırası Eğitim Sınıfı Sözcükleri 1 Akademik 2 Bakanlık 3 Ders 4 Dil 5 Dönemi 6 Eğitimine 7 Hafta 8 Katsayı 9 Lisans 88 Yıllık Tablo 31 Eğitim sınıfının sözcük öznitelik vektör veritabanı 31 Sistemin Eğitilmesi Eğitim aşamasında eğitim, otomobil, sağlık, spor ve teknoloji kategorilerine ait 25 er dokümandan oluşan toplamda 125 doküman içeren eğitim kümesi oluşturulur Bu dokümanlar sisteme verilerek teker teker önişlemden geçirilirler Temizlenmiş olan dokümanlardaki sözcüklerin ve hecelerin normalize edilmiş frekansları hesaplanır Öznitelik vektör veritabanındaki sözcükler ve heceler, dokümanlardaki sözcükler ve hecelerle karşılaştırılarak hangi sınıfa ait olduğu belirlenir Bu çalışmada oluşturulan yapay sinir ağı 1 girdi katmanı, 2 ara katman ve bir de çıktı katmanından oluşur Sistem 5 kategori için eğitildiğinden 5 farklı model oluşmuştur Buna göre girdi katmanında; her sınıf için için öznitelik vektör boyutu kadar proses elemanı bulunmaktadır Çıktının belirlenmesinde aktivasyon fonksiyonu olarak sigmoid fonksiyonu kullanılmıştır Sigmoid fonksiyonu 0 ile 1 arasında değişen bir değer olduğundan sistem çıktıyı doğru sınıflandırma için 1 e yanlış sınıflandırma için 0 a götürecektir Yapay sinir ağının oluşturulmasında öğrenme kat sayısı olarak 03 değeri alınmıştır Bu çalışmada hata oranı 10-3 olarak alındığında 300000 iterasyon sonucunda sistem eğitimi tamamlamıştır Böylece, sistemimiz eğitim, otomobil, sağlık, spor ve teknoloji sınıfları için eğitilmiş olur 32 Sistemin Test Edilmesi ve Sonuçlar Sınıflar Sınıflandırma Başarı Yüzdeleri Eğitim 84 Otomobil 93 Sağlık 80 Spor 93 Teknoloji 83 Ortalama 87 Tablo 32 ÇKA kullanarak sözcük tabanlı doküman sınıflandırma Sınıflar Sınıflandırma Başarı Yüzdeleri Eğitim 96 Otomobil 94 Sağlık 93 Spor 94 Teknoloji 89 Ortalama 93 Tablo 33 ÇKA kullanarak hece tabanlı doküman sınıflandırma Sistemin test edilmesinde 5 kategoriye ait 50 doküman toplamda 250 doküman sisteme verilir Matlab programında Çok Katmanlı Algıla- 432

Akademik Bilişim 12 - XIV Akademik Bilişim Konferansı Bildirileri yıcı Metodu kullanılarak sistem test edilmiş ve sonuçlar Tablo 32 ve 33 de verilmiştir Burada eşik değerin 05 olarak kullanılarak sözcük tabanlı sistemde %87 ve hece tabanlı sistemde ise %93 oranında başarı elde edilmiştir Fakat daha farklı sonuçlar da elde edilebilir Eğitim aşamasında sisteme verilen dokümanların sayısı, eşik değeri, Çok Katmanlı Algılayıcıdaki ara katmanların sayısı, proses elemanlarının sayısı, kullanılan aktivasyon fonksiyonu, iterasyon sayısı, sınıflandırma metotları gibi faktörler sistemin hata oranına etki eder 4 Tartışma ve Sonuçlar Bu çalışmada yapay sinir ağlarından ÇKA metodu kullanılarak bir sistem geliştirilmiştir Bu sisteme göre dokümanlar 5 farklı kategori altında sınıflandırılmıştır Her sınıfı temsil eden 5 farklı öznitelik vektör veritabanı oluşturulmuştur Öznitelik vektör veritabanının oluşturulmasında bir dokümandaki olasılıkları hesaplanan sözcüklerin diğer dokümanlardaki olasılıklarının belli bir eşik değerinden küçük olması göz önünde bulundurulmuştur Oluşturulan yapay sinir ağı modeline göre sözcük tabanlı ve hece tabanlı sistemler test edilmiş ve bütün sınıflar için sırasıyla %87 ve %93 oranında başarı elde edilmiştir Görüldüğü üzere, sözcük tabanlı sistemin başarısı, hece tabalı sistem oluşturulmak suretiyle %6 artırılmıştır Daha sonraki çalışmalarımızda daha farklı yöntemler (K-En Yakın Komşu, Destek Vektör Makinesi) kullanarak sistemlerin başan oranlarını karşılaştırıcağız Aynı zamanda, sözcük ve hece n-gramlarını kullanarak sistemlemler geliştireceğiz [2] Wu, MC, Lin, SY, Lin, CH, An effective application of decision tree to stock trading, Expert Syst Appl, 31(2):270-274 (2006) [3] Soucy, P, Mineau, GW, A simple K- NN algorithm for text categorization, Proceeding of the first IEEE international conference on data mining (ICDM_01), 647-648 (2001) [4] Li, R, Wang, J, Chen, X, Tao, X, Hu, Y, Using maximum entropy model for Chinese text categorization, J Comput Res Dev, 42(1):94-101 (2005) [5] Kazama, J, Tsujii, J, Maximum entropy models with inequality constraints: A case study on text categorization, Mach Learn, 60(1-3):159-194 (2005) [6] Liu, WY, Song, N, A fuzzy approach to classification of text documents, J Comput Sci Technol, 18(5):640-647 (2003) [7] Joachims, T, Text categorization with support vector machines: Learning with many relevant features, Nedellec C, Rouveirol C (eds) Proceedings of the 10th European conference on machine learning (ECML-98), Springer, Chemnitz, 137 142 (1998) [8] Yang, Y, Liu, X, "A re-examination of text categorization methods", Proceedings of SIGIR 99, 42 49 (1999) [9] Aşlıyan R, Günel K, "A Comparison of Syllabifying Algorithms for Turkish", Journal of Advanced Research in Computer Science, 3(1):58-78 (2011) 5 Kaynaklar [1] Kim, SB, Rim, HC, Yook, D, Lim, HS, Effective methods for improving Naive Bayes text classifiers, The 7th Pacific rim international conference on artificial intelligence, 414-423 (2002) 433