Çevrmç Haber Metler Otomatk Olarak Sııfladırılması XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr Haka Aşa 1, Efed Nasboğlu 2 1 Dokuz Eylül Üverstes, Fe Fakültes, İstatstk Bölümü 2 Dokuz Eylül Üverstes, Fe Fakültes, Blgsayar Blmler Bölümü haka.asa@hotmal.com, efed.asbov@deu.edu.tr Özet: İteret gü geçtkçe aılmaz derece büyüye ve bu büyümeye bağlı olarak karmaşıklaşa br yapıya sahptr. Blg saal alada bu del çok olması kullaıcılar açısıda avataj gb görülmekle brlkte stele blgye ulaşmak gttkçe öeml br soru hale gelmektedr. Özellkle terettek blg doğal dlle yazılmış olması stele blgye ulaşmayı daha zor hale getrmektedr. Bu karmaşık acak br o kadar zeg kayakta blgye ulaşmaı ve gerekl alamlar çıkarmaı e etkl yollarıda br taes blgy kategorlere ayırmakta geçmektedr. Kategorleştrle blg alamsal farklılıklar ve bezerlkler yaratablr, buu soucuda da gerekl souçlara varmayı kolaylaştırablr. Met madeclğ tekkler gerekl blgye ulaşmayı hızlı ve etk şeklde sağlamaktadır. Yapıla bu çalışma, met madeclğ tekkler kullaılarak, haber steler RSS (Really Smple Sydcato) servslerde alık olarak yayılaa haber metler otomatk olarak sııfladırmayı amaçlamıştır. Haber stesdek dört farklı kategorde (ekoom, spor, hava durumu ve sağlık) alık olarak haberler çeklerek sııfladırılıp haber servs sııfladırılması le karşılaştırılmıştır. Öerle yötem %97 başarı oraı le haber metler sııfladırmıştır. Aahtar Sözcükler: İteret, Text Madeclğ, Sııfladırma, RSS Abstract: The teret has a structure whch s expadg ad complcatg day by day. Although the users thk that there s lots of formato the cyber world ad ths s a very bg advatage, fact t s hard to reach ths formato. The formato o the teret s wrtte wth atve laguage, so t wll make dffcult to reach the formato. Oe effectve way of reachg formato from ths source s categorze the formato. Categorzed formato may express some smlartes ad sematc dffereces. So, we ca reach correct results. Techques of text mg provde a way to reach the requred formato rapdly ad effectvely. Ths work purpose that categorzes ews whch s take from RSS (Really Smple Sydcato) servces of ews stes mometarly by usg text mg. The ews take from four dfferet ews category mometarly categorzed ad compared wth the ews servce classfcato. As a result, the proposed method categorzes ews texts wth 97% success rate. 351
Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu 1. Grş İteret düyasıı her geçe gü blg brkm artırması le ble e büyük kütüphae hale gelmes olağadır. Bu devasa kütüphae çde stele blgye hızlı ve etk şeklde ulaşmak zor ve zahmetl br hal almıştır. İstele blgye ulaşmaı zorluğu edeyle, blg kategorlere ayrılması ve bu şeklde değerledrlmes gü geçtkçe daha öeml hale gelmştr. Aktf teret ste sayısı düşüülürse blg elle kategorleştrlmes mümkü olmayacağı aşkardır. Blg kategorleştrlmes ve e hızlı şeklde blgye ulaşmak met madeclğ yötemler le mümküdür. Bu alada yeterce çalışma olmamasıa rağme, haber metler sııfladırılması [2], alamsal bezerlk ölçütler kullaarak kelme sııfladırılması [3], met madeclğ le soru cevaplama sstem [4], arama motoru kullaarak bulua alamsal bezerlk ölçütüe dayalı kelme sııfladırma [5], farklı özellk vektörler le Türkçe dokümaları yazarlarıı belrlemes [6], metler otomatk özetlemes [7-9] ve metlere dayalı blg çıkarımı [10] gb çeştl çalışmalar yapılmıştır. Yapıla bu çalışmada öcek çalışmalar gözde geçrlerek kullaıla tekkler celemekte, dğer çalışmalarda farklı olarak haberler haber stelerde çevrmç alık olarak çeklmekte ve ye karar tekkler deeerek souçlar değerledrlmektedr. 2. Ver Çekme Yötemler kısımlarıa ulaşılarak her haber kategors ç belrtc kelmeler sözlüğü oluşturulmuştur. Servste çekle her ye haber met belrtc kelmelere ayrıştırılmış ve sözlükle karşılaştırılmıştır. Kullaıla beş farklı karar metodu le her haber pualamış ve kategorlere atamıştır. Bu yaklaşımı şeması Şekl 1 de verlmştr. Şekl 1. RSS haber sııfladırmaı çalışma şeması. Haber metler haber servslerde alık olarak çekmek ç haber stes RSS (Really Smple Sydcato) adresde yararlaılmıştır. Haber servs RSS sağlayıcısıda haber başlığı, haber özet ve kategors çeklmştr. Really Smple Sydcato (RSS) - geellkle haber sağlayıcıları, bloglar ve podcastler tarafıda kullaıla, ye eklee çerğ kolaylıkla takp edlmes sağlaya özel br XML (extesble Markup Laguage) dosya formatıdır. Kulladığı dosya bçmler.rss ve.xml'dr [11]. Öcek çalışmalarda haberler haber kayaklarıda elle seçlerek test edlmştr. Extesble Markup Laguage (XML) - hem Kullaıla yötemler bazıda da geellkle salar hem blg şlem sstemler tarafıda kelme frekasları toplamları yötem kolayca okuablecek dokümalar kullaılmıştır. oluşturmaya yaraya, W3C (World Wde Web Bu çalışmamızda, test amaçlı çekle haberler Cosortum) tarafıda taımlamış br stadarttır. Bu özellğ le ver saklamaı haber kayağıda çevrmç olarak alık çeklmektedr. Haber servsde çekle yaıda farklı sstemler arasıda ver alışverş haber metlerde kelmeler gövde 352
yapmaya yaraya br ara format görev de görür [12]. 2.1. Haber Metlerde Belrtc Kelmelere Ulaşmak XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr olduğuu bulmak ç haber met belrtc kelmelere ulaşılmış ve haber kategorler sözlükler le karşılaştırılarak beş farklı yaklaşım kullaılarak her kategor ç pua oluşturulmuştur. Çalışmada, haber servsde haber metler RSS le çekldkte sora her haber metde buluduğu kategor ç belrtc kelmelere ulaşılmaktadır. Belrtc kelmeler haber met çdek kelmeler gövde, ya kök ve yapım ek kısımlarıda oluşturulmuştur. Türkçe soda eklemel br dl olmasıda dolayı ve çekm ek kelmelere çoğulluk ya da yöelm gb alamlar katmasıa rağme alam farklılığıa yol açmaması edeyle kelmede ayıklaması gerekmektedr. Bazı belrtc kelmelere ulaşma örekler: Oyuculuk Oyu+cu+luk o Oyucu Hastalıklar Hasta+lık+lar o Hastalık Yağmurlu Yağmur+lu o Yağmurlu Kelmeler gövdelere ayrılmak ç Zemberek smle kütüphae kullaılmıştır [14]. 2.2. Belrtc Kelmeler Sözlüğüü Oluşturma Haber metlerde elde edle belrtc kelmelerde her kategor ç belrtc haber vertabaı oluşturulmuştur. Bağlaç, edat ve oktalama şaretler vertabaıa eklememştr. Böylelkle, kategorler arasıdak bezerlk oraı düşürülmüştür. 3.1 Kelme Frekasları Toplamı İle Sııfladırma Frekas toplamı le sııfladırma yötemde haber servsde çekle haber met kelmeler gövde hale getrldkte sora vertabaıdak haber kategorler le karşılaştırılır. Haber her kategorye atlk puaı, haber çde gece kelmeler uygu kategordek pua toplamlarıa eşt olur. Haber met, e yüksek kategor puaıa sahp kategorye ataır. Bu yaklaşım (Amasyalı ve ark. 2004) yaklaşımıa bezemektedr Bu yötem algortması aşağıdak gbdr: Adım1. Ye haber met haber servsde çeklr. Adım2. Haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme, kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse, o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Her kategor ç Adım3 ve Adım4 tekrarlaır. Adım6. Kategor puaları buluarak karşılaştırılır. 3. Haber Sııfladırılmasıa Farklı Yaklaşımlar Bu çalışmada, haber stesde alık olarak çekle ye br haber hag kategorde 353 Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Örek 1 (Kelme Frekasları Toplamı Yötem İle Sııfladırma).
Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu Adım1. Haber met haber servsde çeklr: Eflasyo beklets yüzde 7.69'a gerled. Merkez Bakası'ı akete göre, 2010 yılı sou eflasyo beklets, Temmuz ayıı so aketde yüzde 7.69'a gerled. ola br haber ç bu yötem kullaılırsa; Adım2. Kelmelere ayrıştırılır: [eflasyo, beklet, yüzde, gerle, merkez, baka, aket, yıl, so, eflasyo, beklet, temmuz, ay, so, aket, yüzde, gerle]. Adım3. Bulua haber kelmeler kategorlerle karşılaştırılır ve kategor frekasları buluur. Haber frekasları: Spor: [0, 1, 0, 0, 1, 0, 0, 7, 14, 0, 1, 0, 0, 14, 0, 0, 0 ] Hava Durumu: [0, 0, 0, 0, 0, 0, 0, 0, 14, 0, 0, 0, 0, 14, 0, 0, 0] Ekoom: [9, 5, 46, 0, 10, 18, 1, 44, 19, 9, 5, 0, 6, 19, 1, 46, 0] Sağlık: [0, 0, 11, 0, 0, 0, 0, 0, 23, 11, 0, 0, 0, 0, 23, 0, 11, 0] Adım4 ve Adım 5. Kategorler ç pualar buluur. PSpor P Hava Durumu PEkoom 0+1+0+0+1+0+0+7+14+0+1+0+0+14+0+0+0 = 30 0+0+0+0+0+0+0+0+14+0+0+0+0+14+0+0+0 = 28 9+5+46+0+10+18+1+44+19+9+5+0+6+19+1+46+0 = 208 P Saglk 0 + 0 +11+ 0 + 0 + 0 + 0 + 0 + 23+11+ 0 + 0 + 0 + 23+ 0 +11+ 0 = 79 Adım6. PEkoom max PSpor, PSaglk, PHava Durumu, PEkoom Adım7. Haber met Ekoom haber kategorse ataır. 3.2 Frekas Toplamlarıı Oralaması Yötem frekasları toplamıa oralaması le pua elde edlr. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Bulua bu kategor puaı kelme bütü kategorlerdek toplam frekasıa bölüür. Adım6. Bulua bu ora haber kategor puaı olarak ataır. Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Örek 2 (Frekas Toplamlarıı Oralaması Yötem İle Sııfladırma). Örek olarak Frekas Toplamları Yötemdek haber met kullaırsak; Adım4. Spor[30], Hava Durumu[28], Ekoom[208], Sağlık[79] olarak haber kategor puaları buluur. Adım5. Oralar aşağıdak gb buluur: 4 1 17 1 f 9 6 58 0 11 18 1 51 58 9 6 0 6 58 1 57 0 345 _ P (30)/(245) 1 0,0869 P 2 (28)/(245) 0,0811 Kullaıla kc yötemde frekas yötemler P 3 (208)/(245) 0,6028 buludukta sora dğer kategorler de P 4 (79)/(245) 0,2289 frekaslarıı göz öüde buludurmak ç haber kelmes tüm haber kategorlerdek Adım6. 354
P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı kelme sözlüktek frekası kadar artırılır. Adım5. Bulua bu kategor puaı kelme bütü kategorlerdek toplam frekasıa bölüür. Adım6. Bulua bu oraı 2 tabaıda logartması alıarak haber kategor puaları elde edlr. Adım7. Haber met e büyük kategor puaı ola kategorye ataır. Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler f : Kelme c Kategors Vertabaıdak Frekası : Kelme Sayısı c:kategor Sayısı 4 355 XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr c P c Log(( f )/( f )) P c* Max(P c ) 3.3 Log Yötem Örek haber metmz Log yötem le test Log yötemde frekas toplamlarıı edlrse; oralaması yötemde bulua değerler arasıdak farkları büyüklükler daha rahat Adım5. Haber kategor puaları ora göreblmek ç bulua değer k yötem le bulumuştu. tabaıda logartması alıır. Spor Ora =[0,0869] Adım1. Ye haber met haber servsde çeklr. Hava Durumu Ora= [0,0811] Ekoom Ora = [0,6028] Sağlık Ora = [0,2289] Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım6. Bulua kategor oralarıı 2 tabaıda logartması alıırsa; P Log((30)/(245)) Log(0,0869) -1,0609 1 P Log((28)/(245)) Log(0,0811) 2 P Log((208)/(245)) Log(0,6028) 3 P Log((79)/(245)) Log(0,2289) 4 P max P, P, P, P c 1,0909 0,2198 1,0609 Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. 3.4 Kelme Sayısı Yötem Kelme Sayısı Yötemde haber metdek kelmeler kategorlerde olup olmamasıı öemser. Haber kelmes haber kategorsdek frekası göz ardı edlr. Haber metdek kelmeler kategorlere göre değerledrlr ve e çok kelme buludura kategorye ataır. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır.
Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Eğer kelme kategor sözlüğüde görülmüşse o kategor puaı 1 artırılır. Adım5. Haber met e büyük kategor puaı 3.5 Kelme Frekasları Toplamı le ola kategorye ataır. Kelme Sayısı Yötemler Brlkte Ele Alıması Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler O :Kelme Kategorde varsa 0 yoksa 1 : Kelme Sayısı c:kategor Sayısı P c O P c* Max(P c ) Örek haber metmz Kelme Sayısı yötem le test edlrse; Adım4. Kategorler ç pualar buluur. Spor [0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0 ] P 0 1 0 0 1 0 0 11 0 1 0 0 1 0 0 0 1 Hava Durumu [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0] P 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 2 Ekoom [1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0] P 3 111 0 1111111 0 1111 0 14 Sağlık [0, 0, 1, 0, 0, 0, 0, 0,1, 1, 0, 0, 0, 0, 1, 0, 1, 0] 4 6 2 P 0 0 1 0 0 0 0 0 11 0 0 0 1 0 1 0 4 Adım6. Frekası 356 P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. Kelme Frekasları Toplamı yötem ve kelme sayıları yötem brlkte ele alımasıı daha y olacağı düşüülerek ksde etks olduğu bu yötem haber metler üzerde deemştr. Haber met servste çeklmes le frekaslar toplamı bulumuş ve kategordek kelme sayısı le çarpılmıştır. Haber met e büyük kategor puaıa atamıştır. Adım1. Ye haber met haber servsde çeklr. Adım2. Met madeclğ tekkler le haber met kelme gövdelere ayrıştırılır. Adım3. Ulaşıla her kelme kategorler kelmeler le karşılaştırılır. Adım4. Haber met her kategor ç frekasları toplamı ve kelme sayısı buluur. Frekasları toplamı le kelme sayısı çarpılır. Bu şeklde kategor puaları elde edlr. Adım5. Haber met e büyük kategor puaı ola kategorye ataır. Haber Met X, X, X X 1 2 3, P c : Kategor Puaı X :Haber Met Kelmeler f : Kelme c Kategors Vertabaıdak 4 5
XVI. Türkye'de İteret Koferası 30 Kasım-2 Aralık 2011 Ege Üverstes İzmr O :Kelme Kategorde varsa 0 yoksa 1 : Kelme Sayısı c:kategor Sayısı P ( f) * ( O ) c P c* Max(P c ) Uygulama ç belrl br haber servs stesde so 50 haber çeklmştr. Bu tarhte br süre öce ayı stede çeklmş ve sııfladırılmış haberlerde oluşa test ver tabaı hazırlamış ve yukarıda adı geçe yaklaşımlar haber metler sııfladırılması ç uygulamıştır. Souçlar Tablo 1 de verlmştr. Tablo souçlarıa bakılırsa: Örek haber metmz kelme frekasları toplamı le kelme sayısı yötemler brlkte ele alıması; Adım4. Kategorler ç pualar buluur. Spor [0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0 ] P 0 1 0 0 1 0 0 11 0 1 0 0 1 0 0 0 1 Hava Durumu [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0] P 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 2 6 2 Frekas toplamları le kelme sayısıı göz öüe alıdığı yaklaşımı daha yüksek br doğruluk oraıa sahp olduğu görülmektedr. E y tahm edle haber kategors hava durumu olup geelde doğru tahm edlmştr. Yötemler haber kategorlere göre fark yarattığı ve bu farkı e fazla spor ve ekoom haberlerde görüldüğü söyleeblr. Kelme sayısıı tek başıa alamlı olmadığı, acak frekaslar le göz öüe alıdığıda alamlı souçlar çıkardığı gözlemştr. Ekoom [1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0] P 111 0 1111111 0 1111 0 3 Sağlık [0, 0, 1, 0, 0, 0, 0, 0,1, 1, 0, 0, 0, 0, 1, 0, 1, 0] P4 0 01 0 0 0 0 011 0 0 01 01 0 5 Adım6. P max P, P, P, P Ekoom Spor Saglk Hava Durumu Ekoom Adım7. Haber met Ekoom haber kategorse ataır. 14 Tablo 1. Farklı yaklaşımlarla sııfladırma souçları. Frekas Toplaml arı Yötem Frekas Toplamlar ıı Oralam ası Log Yöte m Kel me Sayıs ı Frekas Toplamla rı* Kelme Sayısı Spor 0.92 0.96 0.94 0.96 0.96 Hava Durum u Ekoom 1 0.96 0.96 0.8 1 0.92 0.92 0.94 0.82 0.96 Sağlık 0.94 0.92 0.94 0.86 0.96 Toplam Olasılıkl ar 0.955 0.94 0.945 0.86 0.97 4. Uygulama 357
Çevrmç Haber Metler Otomatk Olarak Sııfladırılması Haka Aşa, Efed Nasboğlu 5. Souç Sııfladırma. 14. Syal İşleme ve İletşm Uygulamaları Kurultayı Met madeclğ kullaılarak haber metler alık olarak teret stelerde [6] Amasyalı, M. Fath, & Dr, Bau, & çeklerek otomatk olarak sııfladırıldığı bu Türkoğlu, Flz (2006). Farklı Özellk çalışmada, haber metler öcek çalışmalar Vektörler le Türkçe Dokümaları gözde geçrlerek farklı tekkler kullaılarak Yazarlarıı Belrlemes. 15. Turksh kategorlere ayrılmış ve souçlar Symposum o Artfcal Itellgece ad yorumlamıştır. Lteratürdek mevcut Neural Network çalışmalarda daha yüksek doğruluk oralarıa [7] H. P., Luh, The Automatc Creato ulaşmıştır. E yüksek başarıyı %97 doğru of Lterature Abstracts, IBM Joural, p:159- sııflama oraı le Kelme Sayılarıı 165, 1958 Frekaslarıyla Brlkte Ele alıması yaklaşımı sağlamıştır. [8] H.P., Edmudso, New Methods Automatc Abstractg, Joural of the ACM, Vol.16(2), p:264-285, 1969 Kayaklar [9] W. Jug, Y. Ko, ad J. Seo, [1] Amasyalı, M. Fath, & Yıldırım, Automatc Text Summarzato Usg Two- Tülay (2004). Otomatk Haber Metler Step Setece Extracto, AIRS 2004, LNCS Sııfladırma. SIU 3411, pp. 71 81, 2005 [2] Uzudere, E., Dedja, E., Dr, B., [10] Jay J. Jag, Davd W. Corath, Amasyalı, M.F. (2008). Türkçe Haber Sematc Smlarty Based o Corpus Metler ç Otomatk Özetleme. ASYU Statstcs ad Lexcal 2008. Taxoomy,Iteratoal Coferece [3] Amasyalı M.F. Arama Motorları Kullaarak Bulua Alamsal Bezerlk Ölçütüe Dayalı Kelme Sııfladırma, Syal İşleme ve İletşm Uygulamaları Kurultayı, 2006 [4] Sevç İlha, Nevcha Duru, Şeol Karagöz, Merve Sağır; (2008) "Met Madeclğ le Soru Cevaplama Sstem", ELECO 2008, 68 Research o Computatoal Lgustcs (ROCLING X), Tawa, 1997. [11] Baker L. D., McCallum A. K., Dstrbutoal Clusterg of Words for Text Classfcato, 21st ACM Iteratoal Coferece o Research ad Developmet Iformato Retreval (SIGIR-98), 1998. [12] http://tr.wkpeda.org/wk/rss [13] http://tr.wkpeda.org/wk/geşletl [5] Amasyalı, M. Fath (2006). Arama eblr_şaretleme_dl Motoru Kullaarak Bulua Alamsal Bezerlk Ölçütüe Dayalı Kelme [14] http://code.google.com/p/zemberek 358