Çevrimiçi Haber Metinlerinin Otomatik Olarak Sınıflandırılması

Benzer belgeler
ÖLÇÜM, ÖLÇÜM HATALARI ve ANLAMLI RAKAMLAR

ÖRNEKLEME YÖNTEMLERİ ve ÖRNEKLEM GENİŞLİĞİ

MERKEZİ EĞİLİM ÖLÇÜLERİ

Giriş. Değişkenlik Ölçüleri İSTATİSTİK I. Ders 5 Değişkenlik ve Asimetri Ölçüleri. Değişkenlik. X i ve Y i aşağıdaki gibi iki seri verilmiş olsun:

Tahmin Edicilerin ve Test Đstatistiklerinin Simülasyon ile Karşılaştırılması

Servis Yönlendirmeli Sistemlerde Güven Yayılımı

Tanımlayıcı İstatistikler

Genelleştirilmiş Ortalama Fonksiyonu ve Bazı Önemli Eşitsizliklerin Öğretimi Üzerine

YER ÖLÇÜLERİ. Yer ölçüleri, verilerin merkezini veya yığılma noktasını belirleyen istatistiklerdir.

= k. Aritmetik Ortalama. Tanımlayıcı İstatistikler TANIMLAYICI İSTATİSTİKLER. Sınıflanmış Seriler İçin Aritmetik Ortalama

1. GAZLARIN DAVRANI I

denklemini sağlayan tüm x kompleks sayılarını bulunuz. denklemini x = 64 = 2 i şeklinde yazabiliriz. Bu son kompleks sayıları için x = 2iy

Sayısal Türev Sayısal İntegrasyon İnterpolasyon Ekstrapolasyon. Bölüm Üç

Bir KANUN ve Bir TEOREM. Büyük Sayılar Kanunu

Regresyon ve Korelasyon Analizi. Regresyon Analizi

Zaman Skalasında Box-Cox Regresyon Yöntemi

BEKLENEN DEĞER VE VARYANS

Tanımlayıcı İstatistikler (Descriptive Statistics) Dr. Musa KILIÇ

ARAŞTIRMA MAKALESİ / RESEARCH ARTICLE

Değişkenler Arasındaki İlişkiler Regresyon ve Korelasyon. Dr. Musa KILIÇ

YILLIK ÜCRETLİ İZİN YÖNETMELİĞİ ( tarihli ve sayılı Resmi Gazete'de yayımlanmıştır.) BİRİNCİ BÖLÜM Amaç, Kapsam ve Dayanak

Olabilirlik Oranı Yöntemine Dayalı, Yapısal Homojen Olmayan Varyans Testlerinin Piyasa Modeli İçin Karşılaştırılması

Polinom İnterpolasyonu

Yüksek Mertebeden Sistemler İçin Ayrıştırma Temelli Bir Kontrol Yöntemi

Tuğba SARAÇ Yük. Endüstri Mühendisi TAI, Ankara Özet. 1. Giriş. 2. Gözden Geçirmeler. Abstract

İki veri setinin yapısının karşılaştırılması

çözüm: C=19500 TL n=4 ay t=0,25 I i 1.yol: Senedin iskonto tutarı x TL olsun. Bu durumda senedin peşin değeri: P C I (19500 x) TL olarak alınabilir.

Doç. Dr. Mehmet AKSARAYLI

AES S Kutusuna Benzer S Kutuları Üreten Simulatör

Parametrik Olmayan İstatistik Çözümlü Sorular - 2

ĐÇI DEKILER 1. TEMEL ĐSTATĐSTĐK KAVRAMLAR VE OTASYO LAR 1

Tümevarım_toplam_Çarpım_Dizi_Seri. n c = nc i= 1 n ca i. k 1. i= r n. Σ sembolü ile bilinmesi gerekli bazı formüller : 1) k =

TÜRKİYE ŞEKERPANCARI ÜRETİMİNDE FAKTÖR TALEP ANALİZİ ( ) (TRANSLOG MALİYET FONKSİYONU UYGULAMASI) Yaşar AKÇAY 1 Kemal ESENGÜN 2

İstatistik ve Olasılık

Metin Madenciliği ile Soru Cevaplama Sistemi

OKUL ÖNCESİ DÖNEM İŞİTME ENGELLİLERDE MÜZİK EĞİTİMİ İLE ÇOCUKLARIN GELİŞİM ÖZELLİKLERİ ÜZERİNE TERAPÖTİK BİR ÇALIŞMA

REGRESYON ANALİZİNDE KULLANILAN EN KÜÇÜK KARELER VE EN KÜÇÜK MEDYAN KARELER YÖNTEMLERİNİN KARŞILAŞTIRILMASI

İşletme İstatistiği. [Type the document subtitle] Ege Yazgan ve Yüce Zerey 10/21/2003

BÖLÜM 3 YER ÖLÇÜLERİ. Doç.Dr. Suat ŞAHİNLER

BAZI YARIGRUP AİLELERİ ve YAPILARI İÇİN SONLULUK KOŞULLARI ve ETKİNLİK *

Gamma ve Weibull Dağılımları Arasında Kullback-Leibler Uzaklığına Dayalı Ayrım

Bağıl Değerlendirme Sisteminin Simülasyon Yöntemi ile Test Edilmesi: Kilis 7 Aralık Üniversitesi Örneği

TUTGA ve C Dereceli Nokta Koordinatlarının Gri Sistem ile Tahmin Edilmesi

Quality Planning and Control

TÜRKİYE NİN TİCARİ HİZMETLER ENDÜSTRİ İÇİ TİCARETİ

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

(DERS NOTLARI) Hazırlayan: Prof.Dr. Orhan ÇAKIR. Ankara Üniversitesi, Fen Fakültesi, Fizik Bölümü

Bir Alışveriş Merkezinde Hizmet Sektörü Đçin En Kısa Yol Problemi ile Bir Çözüm

KONTROL KARTLARI 1)DEĞİŞKENLER İÇİN KONTROL KARTLARI

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Ara Sınavı

WEİBULL DAĞILIMININ ÖLÇEK VE BİÇİM PARAMETRELERİ İÇİN İSTATİSTİKSEL TAHMİN YÖNTEMLERİNİN KARŞILAŞTIRILMASI

HĐPERSTATĐK SĐSTEMLER

SESSION 1. Asst. Prof. Dr. Fatih Ecer (Afyon Kocatepe University, Turkey) Abstract

Mühendislikte Olasılık, İstatistik, Risk ve Güvenilirlik Altay Gündüz. Mühendisler için İstatistik Prof. Dr. Mehmetçik Bayazıt, Prof. Dr.

Tanımlayıcı İstatistikler

DÖNEM I BİYOİSTATİSTİK, HALK SAĞLIĞI VE RUH SAĞLIĞI DERS KURULU Ders Kurulu Başkanı : Yrd.Doç.Dr. İsmail YILDIZ

Tanımlayıcı İstatistikler

Tanımlayıcı İstatistikler

Doç. Dr. M. Mete DOĞANAY Prof. Dr. Ramazan AKTAŞ

İstatistik ve Olasılık

GÜMRÜK TARİFE UYGULAMALARI. İstanbul Gümrük ve Ticaret Bölge Müdürlüğü

Bileşik faiz hesaplamalarında kullanılan semboller basit faizdeki ile aynıdır. Temel formüller ise şöyledir:

İstanbul Göztepe Bölgesinin Makine Öğrenmesi Yöntemi ile Rüzgâr Hızının Tahmin Edilmesi

Đst201 Đstatistik Teorisi I

İKİ ÖLÇÜTLÜ PARALEL MAKİNELİ ÇİZELGELEME PROBLEMİ: MAKSİMUM TAMAMLANMA ZAMANI VE MAKSİMUM ERKEN BİTİRME

TALEP TAHMİNLERİ. Y.Doç.Dr. Alpagut YAVUZ

Gerçek Zamanlı Giriş Şekillendirici Tasarımı Design of Real Time Input Shaper

İleri Diferansiyel Denklemler

SAYISAL ÇÖZÜMLEME. Sayısal Çözümleme

TABAKALI ŞANS ÖRNEKLEME


TÜMEVARIM. kavrayabilmek için sonsuz domino örneği iyi bir modeldir. ( ) domino taşını devirmek gibidir. P ( k ) Önermesinin doğru olması halinde ( 1)

Matematik olarak normal dağılım fonksiyonu. 1 exp X 2

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN BİLİMLERİ DERGİSİ

LİNEER OLMAYAN DENKLEMLERİN SAYISAL ÇÖZÜM YÖNTEMLERİ-2

BASAMAK ATLAYARAK VEYA FARKLI ZIPLAYARAK İLERLEME DURUMLARININ SAYISI

SBE 601 ARAŞTIRMA YÖNTEMLERİ, ARAŞTIRMA VE YAYIN ETİĞİ

Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması

BİR ÇUBUĞUN MODAL ANALİZİ. A.Saide Sarıgül

ETKİN SINIR VE BETA KATSAYI KISITLI PORTFÖY SEÇİM MODELİ ÜZERİNE BİR UYGULAMA

İNTERNET SERVİS SAĞLAYICILIĞI HİZMETİ SUNAN İŞLETMECİLERE İLİŞKİN HİZMET KALİTESİ TEBLİĞİ BİRİNCİ BÖLÜM

Ki- kare Bağımsızlık Testi

Analitik Hiyerarşi Süreci Kullanılarak Kişi Takip Cihazı Seçimi. Person Tracking Device Selection Using Analytic Hierarchy Process

Tarihli Mühendislik ekonomisi final sınavı. Sınav süresince görevlilere soru sormayın. Başarılar dilerim.

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 9 Sayı: 1 s. 1-7 Ocak 2007 HİDROLİK PROBLEMLERİNİN ÇÖZÜMÜNDE TAŞIMA MATRİSİ YÖNTEMİ

İSTATİSTİKSEL MERKEZİ EĞİLİM ÖLÇÜLERİ DUYARLI ORTALAMALAR

İstatistik Nedir? Sistem-Model Kavramı

ARAŞTIRMA MAKALESİ /RESEARCH ARTICLE

ALTERNATİF SİSTEMLERİN KARŞILAŞTIRILMASI

ALTERNATİF SİSTEMLERİN KARŞILAŞTIRILMASI

FİNANSAL YÖNETİM. Finansal Yönetim Örnek Sorular Güz Yrd. Doç. Dr. Rüstem Barış Yeşilay 1. Örnek. Örnek. Örnek. Örnek. Örnek

ISF404 SERMAYE PİYASALARI VE MENKUL KIYMETYÖNETİMİ

T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

EMEKLİLİK YATIRIM FONLARI DEĞERLENDİRMESİ AÇIKLAMA NOTLARI VE VARSAYIMLAR

Önceki bölümde özetlenen Taylor metodlarında yerel kesme hata mertebesinin yüksek oluşu istenilen bir özelliktir. Diğer taraftan

ÖĞRENME ETKİLİ HAZIRLIK VE TAŞIMA ZAMANLI PARALEL MAKİNELİ ÇİZELGELEME PROBLEMİ

MEKANİK TESİSATTA EKONOMİK ANALİZ

MESAFE KORUMA İÇİN BİR ÖRÜNTÜ TANIMA UYGULAMASI

TĐCARĐ MATEMATĐK Bileşik Faiz

Transkript:

Çevrmç Haber Metler Otomatk Olarak Sııfladırılması XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr Haka Aşa 1, Efed Nasboğlu 2 1 Dokuz Eylül Üverstes, Fe Fakültes, İstatstk Bölümü 2 Dokuz Eylül Üverstes, Fe Fakültes, Blgsayar Blmler Bölümü haka.asa@hotmal.com, efed.asbov@deu.edu.tr Özet: İteret gü geçtkçe aılmaz derece büyüye ve bu büyümeye bağlı olarak karmaşıklaşa br yapıya sahptr. Blg saal alada bu del çok olması kullaıcılar açısıda avataj gb görülmekle brlkte stele blgye ulaşmak gttkçe öeml br soru hale gelmektedr. Özellkle terettek blg doğal dlle yazılmış olması stele blgye ulaşmayı daha zor hale getrmektedr. Bu karmaşık acak br o kadar zeg kayakta blgye ulaşmaı ve gerekl alamlar çıkarmaı e etkl yollarıda br taes blgy kategorlere ayırmakta geçmektedr. Kategorleştrle blg alamsal farklılıklar ve bezerlkler yaratablr, buu soucuda da gerekl souçlara varmayı kolaylaştırablr. Met madeclğ tekkler gerekl blgye ulaşmayı hızlı ve etk şeklde sağlamaktadır. Yapıla bu çalışma, met madeclğ tekkler kullaılarak, haber steler RSS (Really Smple Sydcato) servslerde alık olarak yayılaa haber metler otomatk olarak sııfladırmayı amaçlamıştır. Haber stesdek dört farklı kategorde (ekoom, spor, hava durumu ve sağlık) alık olarak haberler çeklerek sııfladırılıp haber servs sııfladırılması le karşılaştırılmıştır. Öerle yötem %97 başarı oraı le haber metler sııfladırmıştır. Aahtar Sözcükler: İteret, Text Madeclğ, Sııfladırma, RSS Abstract: The teret has a structure whch s expadg ad complcatg day by day. Although the users thk that there s lots of formato the cyber world ad ths s a very bg advatage, fact t s hard to reach ths formato. The formato o the teret s wrtte wth atve laguage, so t wll make dffcult to reach the formato. Oe effectve way of reachg formato from ths source s categorze the formato. Categorzed formato may express some smlartes ad sematc dffereces. So, we ca reach correct results. Techques of text mg provde a way to reach the requred formato rapdly ad effectvely. Ths work purpose that categorzes ews whch s take from RSS (Really Smple Sydcato) servces of ews stes mometarly by usg text mg. The ews take from four dfferet ews category mometarly categorzed ad compared wth the ews servce classfcato. As a result, the proposed method categorzes ews texts wth 97% success rate. 351

Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu 1. Grş İteret düyasıı her geçe gü blg brkm artırması le ble e büyük kütüphae hale gelmes olağadır. Bu devasa kütüphae çde stele blgye hızlı ve etk şeklde ulaşmak zor ve zahmetl br hal almıştır. İstele blgye ulaşmaı zorluğu edeyle, blg kategorlere ayrılması ve bu şeklde değerledrlmes gü geçtkçe daha öeml hale gelmştr. Aktf teret ste sayısı düşüülürse blg elle kategorleştrlmes mümkü olmayacağı aşkardır. Blg kategorleştrlmes ve e hızlı şeklde blgye ulaşmak met madeclğ yötemler le mümküdür. Bu alada yeterce çalışma olmamasıa rağme, haber metler sııfladırılması [2], alamsal bezerlk ölçütler kullaarak kelme sııfladırılması [3], met madeclğ le soru cevaplama sstem [4], arama motoru kullaarak bulua alamsal bezerlk ölçütüe dayalı kelme sııfladırma [5], farklı özellk vektörler le Türkçe dokümaları yazarlarıı belrlemes [6], metler otomatk özetlemes [7-9] ve metlere dayalı blg çıkarımı [10] gb çeştl çalışmalar yapılmıştır. Yapıla bu çalışmada öcek çalışmalar gözde geçrlerek kullaıla tekkler celemekte, dğer çalışmalarda farklı olarak haberler haber stelerde çevrmç alık olarak çeklmekte ve ye karar tekkler deeerek souçlar değerledrlmektedr. 2. Ver Çekme Yötemler kısımlarıa ulaşılarak her haber kategors ç belrtc kelmeler sözlüğü oluşturulmuştur. Servste çekle her ye haber met belrtc kelmelere ayrıştırılmış ve sözlükle karşılaştırılmıştır. Kullaıla beş farklı karar metodu le her haber pualamış ve kategorlere atamıştır. Bu yaklaşımı şeması Şekl 1 de verlmştr. Şekl 1. RSS haber sııfladırmaı çalışma şeması. Haber metler haber servslerde alık olarak çekmek ç haber stes RSS (Really Smple Sydcato) adresde yararlaılmıştır. Haber servs RSS sağlayıcısıda haber başlığı, haber özet ve kategors çeklmştr. Really Smple Sydcato (RSS) - geellkle haber sağlayıcıları, bloglar ve podcastler tarafıda kullaıla, ye eklee çerğ kolaylıkla takp edlmes sağlaya özel br XML (extesble Markup Laguage) dosya formatıdır. Kulladığı dosya bçmler.rss ve.xml'dr [11]. Öcek çalışmalarda haberler haber kayaklarıda elle seçlerek test edlmştr. Extesble Markup Laguage (XML) - hem Kullaıla yötemler bazıda da geellkle salar hem blg şlem sstemler tarafıda kelme frekasları toplamları yötem kolayca okuablecek dokümalar kullaılmıştır. oluşturmaya yaraya, W3C (World Wde Web Bu çalışmamızda, test amaçlı çekle haberler Cosortum) tarafıda taımlamış br stadarttır. Bu özellğ le ver saklamaı haber kayağıda çevrmç olarak alık çeklmektedr. Haber servsde çekle yaıda farklı sstemler arasıda ver alışverş haber metlerde kelmeler gövde 352

yapmaya yaraya br ara format görev de görür [12]. 2.1. Haber Metlerde Belrtc Kelmelere Ulaşmak XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr olduğuu bulmak ç haber met belrtc kelmelere ulaşılmış ve haber kategorler sözlükler le karşılaştırılarak beş farklı yaklaşım kullaılarak her kategor ç pua oluşturulmuştur. Çalışmada, haber servsde haber metler RSS le çekldkte sora her haber metde buluduğu kategor ç belrtc kelmelere ulaşılmaktadır. Belrtc kelmeler haber met çdek kelmeler gövde, ya kök ve yapım ek kısımlarıda oluşturulmuştur. Türkçe soda eklemel br dl olmasıda dolayı ve çekm ek kelmelere çoğulluk ya da yöelm gb alamlar katmasıa rağme alam farklılığıa yol açmaması edeyle kelmede ayıklaması gerekmektedr. Bazı belrtc kelmelere ulaşma örekler: Oyuculuk Oyu+cu+luk o Oyucu Hastalıklar Hasta+lık+lar o Hastalık Yağmurlu Yağmur+lu o Yağmurlu Kelmeler gövdelere ayrılmak ç Zemberek smle kütüphae kullaılmıştır [14]. 2.2. Belrtc Kelmeler Sözlüğüü Oluşturma Haber metlerde elde edle belrtc kelmelerde her kategor ç belrtc haber vertabaı oluşturulmuştur. Bağlaç, edat ve oktalama şaretler vertabaıa eklememştr. Böylelkle, kategorler arasıdak bezerlk oraı düşürülmüştür. 3.1 Kelme Frekasları Toplamı İle Sııfladırma Frekas toplamı le sııfladırma yötemde haber servsde çekle haber met kelmeler gövde hale getrldkte sora vertabaıdak haber kategorler le karşılaştırılır. Haber her kategorye atlk puaı, haber çde gece kelmeler uygu kategordek pua toplamlarıa eşt olur. Haber met, e yüksek kategor puaıa sahp kategorye ataır. Bu yaklaşım (Amasyalı ve ark. 2004) yaklaşımıa bezemektedr Bu yötem algortması aşağıdak gbdr: Adım1. Ye haber met haber servsde çeklr. Adım2. Haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme, kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse, o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Her kategor ç Adım3 ve Adım4 tekrarlaır. Adım6. Kategor puaları buluarak karşılaştırılır. 3. Haber Sııfladırılmasıa Farklı Yaklaşımlar Bu çalışmada, haber stesde alık olarak çekle ye br haber hag kategorde 353 Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Örek 1 (Kelme Frekasları Toplamı Yötem İle Sııfladırma).

Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu Adım1. Haber met haber servsde çeklr: Eflasyo beklets yüzde 7.69'a gerled. Merkez Bakası'ı akete göre, 2010 yılı sou eflasyo beklets, Temmuz ayıı so aketde yüzde 7.69'a gerled. ola br haber ç bu yötem kullaılırsa; Adım2. Kelmelere ayrıştırılır: [eflasyo, beklet, yüzde, gerle, merkez, baka, aket, yıl, so, eflasyo, beklet, temmuz, ay, so, aket, yüzde, gerle]. Adım3. Bulua haber kelmeler kategorlerle karşılaştırılır ve kategor frekasları buluur. Haber frekasları: Spor: [0, 1, 0, 0, 1, 0, 0, 7, 14, 0, 1, 0, 0, 14, 0, 0, 0 ] Hava Durumu: [0, 0, 0, 0, 0, 0, 0, 0, 14, 0, 0, 0, 0, 14, 0, 0, 0] Ekoom: [9, 5, 46, 0, 10, 18, 1, 44, 19, 9, 5, 0, 6, 19, 1, 46, 0] Sağlık: [0, 0, 11, 0, 0, 0, 0, 0, 23, 11, 0, 0, 0, 0, 23, 0, 11, 0] Adım4 ve Adım 5. Kategorler ç pualar buluur. PSpor P Hava Durumu PEkoom 0+1+0+0+1+0+0+7+14+0+1+0+0+14+0+0+0 = 30 0+0+0+0+0+0+0+0+14+0+0+0+0+14+0+0+0 = 28 9+5+46+0+10+18+1+44+19+9+5+0+6+19+1+46+0 = 208 P Saglk 0 + 0 +11+ 0 + 0 + 0 + 0 + 0 + 23+11+ 0 + 0 + 0 + 23+ 0 +11+ 0 = 79 Adım6. PEkoom max PSpor, PSaglk, PHava Durumu, PEkoom Adım7. Haber met Ekoom haber kategorse ataır. 3.2 Frekas Toplamlarıı Oralaması Yötem frekasları toplamıa oralaması le pua elde edlr. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Bulua bu kategor puaı kelme bütü kategorlerdek toplam frekasıa bölüür. Adım6. Bulua bu ora haber kategor puaı olarak ataır. Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Örek 2 (Frekas Toplamlarıı Oralaması Yötem İle Sııfladırma). Örek olarak Frekas Toplamları Yötemdek haber met kullaırsak; Adım4. Spor[30], Hava Durumu[28], Ekoom[208], Sağlık[79] olarak haber kategor puaları buluur. Adım5. Oralar aşağıdak gb buluur: 4 1 17 1 f 9 6 58 0 11 18 1 51 58 9 6 0 6 58 1 57 0 345 _ P (30)/(245) 1 0,0869 P 2 (28)/(245) 0,0811 Kullaıla kc yötemde frekas yötemler P 3 (208)/(245) 0,6028 buludukta sora dğer kategorler de P 4 (79)/(245) 0,2289 frekaslarıı göz öüde buludurmak ç haber kelmes tüm haber kategorlerdek Adım6. 354

P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Bulua bu kategor puaı kelme bütü kategorlerdek toplam frekasıa bölüür. Adım6. Bulua bu oraı 2 tabaıda logartması alıarak haber kategor puaları elde edlr. Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler f : Kelme c Kategors Vertabaıdak Frekası : Kelme Sayısı c:kategor Sayısı 4 355 XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr c P c Log(( f )/( f )) P c* Max(P c ) 3.3 Log Yötem Örek haber metmz Log yötem le test Log yötemde frekas toplamlarıı edlrse; oralaması yötemde bulua değerler arasıdak farkları büyüklükler daha rahat Adım5. Haber kategor puaları ora göreblmek ç bulua değer k yötem le bulumuştu. tabaıda logartması alıır. Spor Ora =[0,0869] Adım1. Ye haber met haber servsde çeklr. Hava Durumu Ora= [0,0811] Ekoom Ora = [0,6028] Sağlık Ora = [0,2289] Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım6. Bulua kategor oralarıı 2 tabaıda logartması alıırsa; P Log((30)/(245)) Log(0,0869) -1,0609 1 P Log((28)/(245)) Log(0,0811) 2 P Log((208)/(245)) Log(0,6028) 3 P Log((79)/(245)) Log(0,2289) 4 P max P, P, P, P c 1,0909 0,2198 1,0609 Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. 3.4 Kelme Sayısı Yötem Kelme Sayısı Yötemde haber metdek kelmeler kategorlerde olup olmamasıı öemser. Haber kelmes haber kategorsdek frekası göz ardı edlr. Haber metdek kelmeler kategorlere göre değerledrlr ve e çok kelme buludura kategorye ataır. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır.

Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı 1 artırılır. Adım5. Haber met e büyük kategor puaı 3.5 Kelme Frekasları Toplamı le ola kategorye ataır. Kelme Sayısı Yötemler Brlkte Ele Alıması Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler O :Kelme Kategorde varsa 0 yoksa 1 : Kelme Sayısı c:kategor Sayısı P c O P c* Max(P c ) Örek haber metmz Kelme Sayısı yötem le test edlrse; Adım4. Kategorler ç pualar buluur. Spor [0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0 ] P 0 1 0 0 1 0 0 11 0 1 0 0 1 0 0 0 1 Hava Durumu [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0] P 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 2 Ekoom [1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0] P 3 111 0 1111111 0 1111 0 14 Sağlık [0, 0, 1, 0, 0, 0, 0, 0,1, 1, 0, 0, 0, 0, 1, 0, 1, 0] 4 6 2 P 0 0 1 0 0 0 0 0 11 0 0 0 1 0 1 0 4 Adım6. Frekası 356 P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. Kelme Frekasları Toplamı yötem ve kelme sayıları yötem brlkte ele alımasıı daha y olacağı düşüülerek ksde etks olduğu bu yötem haber metler üzerde deemştr. Haber met servste çeklmes le frekaslar toplamı bulumuş ve kategordek kelme sayısı le çarpılmıştır. Haber met e büyük kategor puaıa atamıştır. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Haber met her kategor ç frekasları toplamı ve kelme sayısı buluur. Frekasları toplamı le kelme sayısı çarpılır. Bu şeklde kategor puaları elde edlr. Adım5. Haber met e büyük kategor puaı ola kategorye ataır. Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler f : Kelme c Kategors Vertabaıdak 4 5

XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr O :Kelme Kategorde varsa 0 yoksa 1 : Kelme Sayısı c:kategor Sayısı P ( f) * ( O ) c P c* Max(P c ) Uygulama ç belrl br haber servs stesde so 50 haber çeklmştr. Bu tarhte br süre öce ayı stede çeklmş ve sııfladırılmış haberlerde oluşa test ver tabaı hazırlamış ve yukarıda adı geçe yaklaşımlar haber metler sııfladırılması ç uygulamıştır. Souçlar Tablo 1 de verlmştr. Tablo souçlarıa bakılırsa: Örek haber metmz kelme frekasları toplamı le kelme sayısı yötemler brlkte ele alıması; Adım4. Kategorler ç pualar buluur. Spor [0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0 ] P 0 1 0 0 1 0 0 11 0 1 0 0 1 0 0 0 1 Hava Durumu [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0] P 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 2 6 2 Frekas toplamları le kelme sayısıı göz öüe alıdığı yaklaşımı daha yüksek br doğruluk oraıa sahp olduğu görülmektedr. E y tahm edle haber kategors hava durumu olup geelde doğru tahm edlmştr. Yötemler haber kategorlere göre fark yarattığı ve bu farkı e fazla spor ve ekoom haberlerde görüldüğü söyleeblr. Kelme sayısıı tek başıa alamlı olmadığı, acak frekaslar le göz öüe alıdığıda alamlı souçlar çıkardığı gözlemştr. Ekoom [1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0] P 111 0 1111111 0 1111 0 3 Sağlık [0, 0, 1, 0, 0, 0, 0, 0,1, 1, 0, 0, 0, 0, 1, 0, 1, 0] P4 0 01 0 0 0 0 011 0 0 01 01 0 5 Adım6. P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. 14 Tablo 1. Farklı yaklaşımlarla sııfladırma souçları. Frekas Toplaml arı Yötem Frekas Toplamlar ıı Oralam ası Log Yöte m Kel me Sayıs ı Frekas Toplamla rı* Kelme Sayısı Spor 0.92 0.96 0.94 0.96 0.96 Hava Durum u Ekoom 1 0.96 0.96 0.8 1 0.92 0.92 0.94 0.82 0.96 Sağlık 0.94 0.92 0.94 0.86 0.96 Toplam Olasılıkl ar 0.955 0.94 0.945 0.86 0.97 4. Uygulama 357

Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu 5. Souç Sııfladırma. 14. Syal İşleme ve İletşm Uygulamaları Kurultayı Met madeclğ kullaılarak haber metler alık olarak teret stelerde [6] Amasyalı, M. Fath, & Dr, Bau, & çeklerek otomatk olarak sııfladırıldığı bu Türkoğlu, Flz (2006). Farklı Özellk çalışmada, haber metler öcek çalışmalar Vektörler le Türkçe Dokümaları gözde geçrlerek farklı tekkler kullaılarak Yazarlarıı Belrlemes. 15. Turksh kategorlere ayrılmış ve souçlar Symposum o Artfcal Itellgece ad yorumlamıştır. Lteratürdek mevcut Neural Network çalışmalarda daha yüksek doğruluk oralarıa [7] H. P., Luh, The Automatc Creato ulaşmıştır. E yüksek başarıyı %97 doğru of Lterature Abstracts, IBM Joural, p:159- sııflama oraı le Kelme Sayılarıı 165, 1958 Frekaslarıyla Brlkte Ele alıması yaklaşımı sağlamıştır. [8] H.P., Edmudso, New Methods Automatc Abstractg, Joural of the ACM, Vol.16(2), p:264-285, 1969 Kayaklar [9] W. Jug, Y. Ko, ad J. Seo, [1] Amasyalı, M. Fath, & Yıldırım, Automatc Text Summarzato Usg Two- Tülay (2004). Otomatk Haber Metler Step Setece Extracto, AIRS 2004, LNCS Sııfladırma. SIU 3411, pp. 71 81, 2005 [2] Uzudere, E., Dedja, E., Dr, B., [10] Jay J. Jag, Davd W. Corath, Amasyalı, M.F. (2008). Türkçe Haber Sematc Smlarty Based o Corpus Metler ç Otomatk Özetleme. ASYU Statstcs ad Lexcal 2008. Taxoomy,Iteratoal Coferece [3] Amasyalı M.F. Arama Motorları Kullaarak Bulua Alamsal Bezerlk Ölçütüe Dayalı Kelme Sııfladırma, Syal İşleme ve İletşm Uygulamaları Kurultayı, 2006 [4] Sevç İlha, Nevcha Duru, Şeol Karagöz, Merve Sağır; (2008) "Met Madeclğ le Soru Cevaplama Sstem", ELECO 2008, 68 Research o Computatoal Lgustcs (ROCLING X), Tawa, 1997. [11] Baker L. D., McCallum A. K., Dstrbutoal Clusterg of Words for Text Classfcato, 21st ACM Iteratoal Coferece o Research ad Developmet Iformato Retreval (SIGIR-98), 1998. [12] http://tr.wkpeda.org/wk/rss [13] http://tr.wkpeda.org/wk/geşletl [5] Amasyalı, M. Fath (2006). Arama eblr_şaretleme_dl Motoru Kullaarak Bulua Alamsal Bezerlk Ölçütüe Dayalı Kelme [14] http://code.google.com/p/zemberek 358