Yaramaz E-Postaları Süzülmesde, Karar Destek Makeler, aïve Bayes ve Bellek Tabalı Öğreme Yötemler Karşılaştırılması G. Eryğt C. Tatuğ E. Adalı gulse@cs.tu.edu.tr cueyd@cs.tu.edu.tr adal@cs.tu.edu.tr İstabul Tekk Üverstes Blgsayar Mühedslğ Bölümü Özetçe Bu makale amacı, yaramaz (spam) epostaları, ormal e-postalarda ayırma sürec ç, karar destek makeler (Support Vector Maches - SVM), bellek tabalı öğreme (Memory Based Learg - MBL) ve aïve Bayes (B) yötemler karşılaştırmalı değerledrmes yapmaktır. Yaramaz e-postaları süzülmesde kullaıla yötemler karşılaştıra brçok çalışma olmasıa karşı, bu çalışmaları büyük çoğuluğu, farklı ver kümeler kulladıklarıda karşılaştırılablr telkte değldr. Bu çalışmada, SVM, MBL ve B yötemler karşılaştırılırke, herkes erşme açık ola ortak br derlem (corpus) ola LIGSPAM derlem kullaılmıştır. MBL ve B yötemler, öcek çalışmalarda bu ver kümes üzerde sıadığı ç, öcek deeylerde elde edle e y parametreler ufak değşklklerle kullaılmıştır. Acak SVM yötem e y soucu vermes sağlamak ç çok sayıda deey yapılmıştır. Çalışmamızda br e-postaı, yaramaz olarak taıması durumuda, bu e-postaya asıl davraılacağıa lşk searyo öerler verlmş ve gerçeklee sııfladırıcıları hatalı çalışması durumuda lgl searyolara göre ortaya çıkablecek hataları bedel göz öüe alıarak bu üç sııfladırma yötem değerledrlmştr. Ortaya çıka souçlarda, SVM yötem hata bedel sıfır olduğu ya da yüksek olduğu searyolar ç başarımıı dğer yötemlerde daha y olduğu görülmüştür. Acak hata bedel çok yüksek olması durumuda se B yötem e y soucu vermştr. Abstract Ths paper presets a comparso of support vector maches (SVM), memory-based learg (MBL) ad aïve Bayes (B) techques for the classfcato of legtmate ad spam mals. Although there are a umber of methodcomparatve studes regardg spam mal flterg, most of the studes are tested o separate data sets. I order to evaluate the effectveess of SVM, MBL ad B methods, we have used a commo publcly avalable corpus (LIGSPAM). As MBL ad B methods are prevously tested wth ths corpus, the obtaed best parameters are used the expermets wth few chages. O the other had, tese expermets are made to fd the best attrbute dmesos wth SVMs. Results show that SVM has sgfcatly better performace for o-cost ad hgh-cost cases, but B performs best whe the cost s extremely hgh. 1. Grş Geçtğmz so 10-15 yıl boyuca teret ve e-posta kullaıcı sayısıı hızla artması, pazarlamacıları e-postaları etk br pazarlama ve reklam aracı olarak kullamalarıa olaak sağlamıştır. E-posta göderme çok kolay, daha öemls ucuz olmasıı soucu, stemeye e-postalar kullaıcıları posta kutularıı doldurmaya, teret letşm ç kullaıla hatları boşa harcamasıa ve suucuları yüküü artmasıa ede olmaktadır. Yaramaz (spam) e-postalar adı verle bu stemeye mektupları taıması ve
süzülmes le lgl çalışmalar heüz çok ye sayılablr. Tekk alamda, yaramaz ve ormal e-postaları otomatk olarak sııfladırılması le lgl lk çalışma 1998 yılıda Saham ve ark. tarafıda yapılmıştır [1]. Aslıda, yaramaz e-postaları taıması kousu, k sııflı br sııfladırma soruudur. Bu yüzde make öğremes tekkler bu amaçla kullaılmaları uygu düşmektedr. Şmdye dek yaramaz mektupları taımasıda kullaıla sııfladırma yötemler aïve Bayes (B) [1,2], bellek tabalı öğreme yötemler (MBL) [3], destek (boostg) ağaçları [4] ve karar destek makelerdr (SVM) [5]. Bu yötemler tamamı, sııflamaları yapılmış eğtm derlemler kullaılarak, sııfladırmaı asıl yapılacağıa lşk blgler öğrerler. Daha sora gele örekler (ye gele e-postayı), öğremş oldukları bu blglere göre sııfladırırlar. Br başka deyşle e-postayı yaramaz ya da ormal sııf kutusua atarlar. Bu yöteme, gözetml öğreme adı verlmektedr. Sııfladırma sürecde her e-posta br örek olarak değerledrlr ve her br örek ç br telk vektörü oluşturulur. Bu vektördek her br telk br sözcüğü temsl etmektedr. Br telğ değer olarak, o telğ temsl ettğ sözcüğü, o örekte (e-postada) geçp geçmedğ gb kl br blg tutulableceğ gb o örek çersde kaç kez geçtğ gb sayısal br blg de tutulablr. Bu farklı k yaklaşım kl değer ve sayısal değer olarak adladırılır [6]. Yaramaz e-postaları saptaması sürecde kullaıla ve yukarıda söz edle yötemler, telk vektörler oluştururke kl değer yötem kullamışlardır. Sayısal değer temsl yötem kullaılablr hale geleblmes ç daha çok çalışmaı gerektğ belrtlmektedr [6]. Yaramaz e-postaları sııfladırılması yötem her e kadar br met sııfladırma yötem olsa da, k temel açıda farklılık göstermektedr [3]. İlk olarak, yaramaz e-postaları kouları ve çerkler herşey olableceğ ç geş br kapsama sahptr. İkc olarak, bu sııfladırma, hatalı sııfladırma bedel farklı olduğu br aladır. ormal br e-postaı sııfladırıcı tarafıda yaramaz olarak algılaıp slmes, yaramaz br e-postaı süzgeçte geçerek posta kutusua grmesde çok daha zararlıdır. Souç olarak, gerçekleecek ola k sııflı sııfladırıcıı yapacağı hata türler (Y, Y) bedeller yasımalı (smetrk) değldr. Bu hata bedel belrlemesdek ölçüt, tasarlaacak ola sstem yaramaz e-postalara asıl davraacağıı belrlemesdr. Yakaladığı yaramaz e-postaları sle br sııfladırıcıı hata bedel çok yüksek ke, yakaladığı yaramaz e-postaları sadece şaretleye br sııfladırıcıı hata bedel daha düşük hatta sıfır ble olablr. Bu kouda yapıla çalışmaları [1, 2, 3, 4, 5] souçları brbrler le karşılaştırılamamaktadır. Çükü bu çalışmalardak yötemler ortak br eğtm ve sıama kümes kullamamıştır. Ayrıca bu çalışmaları çoğuda hata bedel göz öüe alımamaktadır. Bu çalışmamızı hedef, daha öcede farklı ver kümeler üzerde deemş yötemler br arada, ortak br ver kümes üzerde eğterek deemek ve yötemler başarımlarıı, hata bedeller de hesaba katarak değerledrmektr. Bu yötemler; Drucker ve ark. tarafıda hata bedel hesaplamada kullaıla karar destek makeler yötem (SVM) [6], Sakks ve ark. tarafıda hata bedel hesaplayarak kullaıla aïve Bayes (B) yötem ve Bellek Tabalı Öğreme (MBL) yötemdr. Aıla kc çalışmada, hata bedel yüksek olduğu zama MBL yötem daha y souç verdğ söylemektedr. Bzm çalışmamızı soucuda, yaramaz br e-postayı ormal olarak şaretleme hatasıı bedel, ormal br e-postayı yaramaz olarak şaretleme hatasıı bedel le eşt olduğu zama SVM dğer k yötemde daha başarılı olduğuu gösterlmştr. Ayrıca, bu hata bedel yüksek olduğu durumlarda da SVM başarılı olmasıa karşı, hata bedel çok çok yüksek olduğu durumlarda B yötem, dğer k yötemde daha y souçlar verdğ gösterlmştr. Makale çde, bu çalışmada kullaıla derlem taıtılmış; telkler seçlme ve örekler temsl asıl yapıldığıa lşk blgler verlmştr. Daha sora, kullaıla sııfladırma yötemler kısaca taıtılmış; ardıda her yötem souçları verlmştr. So bölümde se
yapıla çalışmaları yorumlarıa ve gelecek çalışmalar hakkıda blglere yer verlmştr. 2. Derlem Yapıla deeyler, dl blm le lgl br e-posta lstese gele ormal ve yaramaz mektuplarda oluşa, herkese açık 1 Lg-Spam sml br derlem kullaılarak yapılmıştır [2]. Derlem çdek metler dl İglzcedr. Bu derlem dört sürümü bulumaktadır. Bazı sürümlerde metlerdek her sözcüğü, eklerde arıdıra (sadece köküü bıraka) br kök bulucu kullaılarak sözcük uzayıı boyutu düşürülmüştür. Bezer şeklde çok fazla ayırıcı blg taşımaya acak sıkça kullaıla 100 sözcüğü (ad, a, a gb) çere br yasak lstes hazırlamış ve bu lstedek sözcükler metlerde çıkartılmıştır. Bu k yardımcı aracı beraber kullaıldığı ve kullaılmadığı toplam dört farklı sürüm bulumaktadır. Bzm çalışmamızda yeğledğmz sürüm, kök bulucu u ve yasak lstes kullaıldığı sürümdür. Bu sürümü, dğerlere göre daha yüksek başarılar gösterdğ belrtlmektedr [2]. Kullaıla derlem 2412 s ormal, 481 taes yaramaz olmak üzere toplam 2893 mektupta oluşmaktadır. Derlem, ayı orada yaramaz ve ormal mektup çere 10 parçaya bölümüştür. Yapıla her br deey 10 kez tekrarlamış; her defasıda mevcut ola 10 parçada 9 taes eğtm amaçlı kullaılmış; kala 1 parça da sıama amaçlı kullaılmıştır. 3. telkler Seçlmes ve Örekler Temsl Grş bölümüde kısaca değldğ gb çalışmamızda kl değer model kullaılmıştır. Bu modelde, her br e-posta, br örek olarak değerledrlmş ve her br örek ç oluşturula telk vektörü, seçle br dz sözcüğü o örek çersde var olup olmadığıa lşk 0 veya 1 değerler çerecek bçmde oluşturulmuştur. Belrtle bu br dz sözcük seçlrke, her br sözcüğü taşıdığı ortaklık blgs (KB- Mutual Iformato) hesaplamıştır. Bu değer br alamda, bu sözcüğü, derlem çersde e kadar br ayırıcılığa sahp olduğuu göstermektedr. Aşağıda, bu değer hesaplamasıda kullaıla formül verlmştr. E yüksek KB (MI) değere sahp adet sözcük, telk olarak seçlmştr ve sadece bu adet sözcüğü öreklerde olup olmadığıa bakılmıştır. Her br örek x =<x1,x2,..x> şeklde br telk vektörü le fade edlmştr. MI X C P X x C c,, log x 0,1, c yaramaz, ormal 4. Sııfladırma Yötemler Bu bölümde, çalışmamızda kullaıla SVM, MBL ve B yötemler hakkıda kısa blgler verlecektr. Bu yötemler le lgl daha fazla blg ç şu kayakları celemes öerlr: Saham ve ark. [1], Adroutsopoulos ve ark. [2], Sakks ve ark. [3], Drucker ve ark. [5]. Yötemler ayrıtıları verlmede öce, hata bedel öem kazadığı yaklaşımlarda, sııfladırmaı asıl değerledrldğ kousua değmey yararlı buluyoruz. ormal br e- postaı yalışlıkla yaramaz olarak sııfladırılması, yaramaz br e-postaı ormal olarak şaretlemesde çok daha öeml br hata olarak kabul edlmektedr. ormal Yaramaz hatasıı, Yaramaz ormal hatasıda kat daha öeml olduğu söyleeblr. Bu durumda sııfladırıcıı, br e-postayı yaramaz olarak sııfladırması veya adladırması ç aşağıdak koşulu sağlaması gerekldr: C yaramaz X x) C ormal X x) E-posta sııfladırması k sııflı br sııfladırma olduğu ç aşağıdak bağıtı yazılablr.: C yaramaz X x) 1 C ormal X x) Yukarıda da gösterldğ gb, ye gele br x öreğ acak ve acak güvelrlk sevyes. 2 X x, C c) X x). C c) (2) (1) 1 Lg-Spam http://www.aueb.gr/users/o/
C yaramaz X x) 1 C yaramaz X x) C yaramaz X x) t t 1 W ( x) t s W s (x), ı br foksyou ola t de daha büyük olursa yaramaz sııfı olarak etketleeblr. Tüm yötemler, 10-katlı çapraz-doğrulama tekğ kullaılarak eğtlmş ve sıamıştır. Toplam ver kümes 10 eş boyutlu parçaya bölümüş, her adımda bu 10 parçada farklı br taes sıama ç ayrılmış, dğer 9 parça eğtm sürecde kullaılmıştır. Her yötem her deemes ç bu şlem 10 defa tekrarlamıştır. 4.1 aïve Bayes Bayes ve toplam olasılık kuramıda yola çıkılarak, x =<x1,x2,..x> telk vektörü ola br öreğ (e-posta) c sııfıa at olması olasılığı şöyledr: C c). X x C c) PC c X x C k). X x C c) (4) k{yaramaz,ormal} Uygulamada, X x C c) olasılıklarıı hesaplamak, bazı kabuller yapmada olaaksızdır. Çükü olası x değerler sayısı çok fazladır ve üstelk ver seyreklğ soruu da bulumaktadır. P C c X x C c). 1 C k). aïve Bayes sııfladırıcısı, belrl br c sııfı ç x1, x2,.., x telkler koşullu k{ yaramaz, ormal} 1 X x C c) X x C c) (3) (5) olarak bağımsız olduğu varsayımıda bulumaktadır (deklem (5)). 4.2 Bellek Tabalı Öğreme MBL yötem [7] e yakı k-komşu (K-) sııfladırıcısıı br türevdr. K- yötemde, her gele ye e-posta, kedse e yakı k adet e-postaı sııflarıda çoğuluğa sahp olaı hags se o sııfa ataırke MBL yötemde, ye gele e-posta e yakı k uzaklık çersde kala e-postaları çoğuluk sııfıa ataır. Buu soucu olarak, eğer e yakı k uzaklık çersde brde çok komşu varsa, komşu sayısı k da fazla olacaktır. İk örek arasıdak mesafe hammg uzaklığı kullaılarak buluur. İk arasıdak d( gb hesaplaır. x d x, x... x 1 2 x, x xr, x r r1 x ve x öreğ x, x ) uzaklığı deklem (6) dak 0, eğer x y se ( x, y) 1, dğer durumlarda ad x x, x 1 2... x Br x öreğ c sııfıa at olmasıı güvelrlk sevyes deklem (7) dek gb hesaplaır. Bu deklemde C( x ), umaralı komşuu sııfıı belrtr. Bu hesaplamada sora güvelrlk sevyeler [0-1] aralığıa getrlp, deklem (3) br e-postayı yaramaz olarak sııfladırmak üzere kullaılablr. W ( x) 1 c, C( ) c x MBL başarısı bazı ağırlaştırma yötemler kullaılarak arttıralablr. WMBL (Ağırlaştırılmış MBL) ç telk ve uzaklık ağırlaştırma yötemler kullaılmıştır. (7) (6)
4.2.1 Uzaklık Ağırlaştırma Uzaklık ağırlaştırma deklem (8) uygulayarak, grş öreğe daha yakı komşuları daha öeml sayar. W ( x) f ( d( x, x )). 1 c, C( x ) c 1 f ( d) 3 d 4.2.2 telk Ağırlaştırma MBL de, gerçekte öyle olmamasıa rağme, bütü telkler eşt öemde sayılırlar. Bu edele WMBL dek telk ağırlaştırması tüm telklere eşt davramamayı hedefleyerek, deklem (9) kullaarak, her özellğe farklı öem puaları atar. Deklem (6) dak d( uzaklık ölçümü deklem (9) dak hale döüşür. 4.3 Karar Destek Makeler (8) x, x ) Vapk Karar Destek makeler (SVM) [10] k sııf arasıdak payı (marg) e büyük yapacak ayırıcı hperdüzlem bulmaya çalışa, çok kullaıla etkl br örütü taıma tekğdr. SVM yüksek boyutlu ver kümeler üzerde çok y souçlar vere k sııflı br sııfladırma yötemdr. SVM aşağıdak eyleme soruu le eğtlr. 1 2 w arg m w C (10) w 2 y ( d w b) 1 0 Bu deklemde her d br belge vektörü, her y +1 veya 1 değer ala br d etket ve w e uygu ayırıcı hperdüzlem taımlaya ağırlık vektörüdür. Bu tp eyleme sorularıa lkel adı verlr. Eştszlk kısıtlarıı Lagrage çarpaları yolu le braraya getrerek, soruu bezer şekle ulaşılır. w arg max w 1 2, y y ( d d ) 0 C y 0 (11) optmze edle değerler verldğde e uygu hperdüzlem söyledr: w yd (12) Yukarıdak kısıtlı soru Platt ı ardışıl eküçük eyleme (Sequetal Mmal Optmzato) [11] ve Osua ı yötem [12] gb bazı hızlı çözme yötemler, quadratc programlama le çözüleblr.,., r r r d x x w x x r 1 w H ( C) X x). H ( C X x) r x 0,1 H C P C c.log C c) c yaramaz, ormal H C X x c P C c X x.log C c X x) yaramaz, ormal 2 2 (9)
SVM ve quadratc problem çözme yötemler le lgl ayrıtılı blg [8] de buluablr. Çalışmamızda, br SVM uygulaması ola LbSVM [9] kütüphaes kullaılmıştır. LbSVM e so sürümü ola LbSVM 2.6 ı k sııfa da dahl olma güvelrlk sevyeler verme özellğ vardır. Bu özellk bze SVM, MBL ve aïve Bayes yötemler farklı malyetler ç karşılaştırablme mkâı taır. Quadratc deklemler çözmek ç doğrusal çekrdek kullaılmıştır. 5. Souçlar Bu bölümde, SVM, MBL ve B algortmalarıı uygulaması le elde edle souçlar verlmştr. Drucker ve ark. [5] k sııflı sııfladırma yapıla durumlarda, yakalama oraı (recall rate) (15) ve tutturma oralarıı (precso rate) (16) kullaılamaz olduklarıı söylemştr. Buları yere yalış uyarı oraı (false alarm rate) (13) ve kaçırma oraıı (mss rate) (14) kullaılması gerektğ vurgulamıştır. Acak, öcek çalışmaları büyük çoğuluğu, souçlarıı yakalama ve tutturma oralarıı kullaarak vermşlerdr. ormal br e-postaı yaramaz olarak sııfladırılmasıı, yaramaz br e- postaı ormal olarak sııfladırılmasıda daha yüksek bedell olduğu durumlarda, [3] de taımlaa bedel foksyou TBO (toplam bedel oraı) (17) başarımları karşılaştırılması ç uygu br yötem olarak görülmektedr. TBO foksyouu türetm [3] de buluablr. Büyük TBO değerler yüksek başarım alamıa gelr. Bu durum, deklem (17) de açıkça görüleblr. TBO değer 1 de küçük olduğuda, süzgec kullamamak daha ydr. Çalışmamızda, öcek çalışmaları souçları le lşk kurablmek ç, sözü geçe üç ölçüt de verlmştr: YUO ( Yalış Uyarı Oraı) KO ( Kaçırma Oraı) Y (13) Y Y (14) YO ( Yakalama Oraı) TO ( Tutturma Oraı) TBO ( Toplam Bedel Oraı) YY Y Y Y YY Y Y Y Y Y Y (15) (16) (17) Yötemler karşılaştırılmasıda öce, kullaıla derlem üzerde e y souçları vere parametreler (MBL dek k değer ve telk boyutları) belrlemes gerekr. Adroutsopoulos ve ark. [2] de B LIGSPAM üzerde =1 ç telk boyutu dm=100, =9 ç dm=100, =999 ç dm=300 de e y souçları verdğ belrtmşlerdr. Uygulamamızda, =999 ç dm=100 ü dm=300 e göre daha y souç verdğ görülmüştür (Tablo 1). Tablo-1: B telk Boyutu Yötem Boyut =999 TBO B 100 4.19 B 300 0.15 Sakks ve ark. [3] LIGSPAM üzerde WMBL kullaırke dm=600 ve k=8 komşu sayısı le e y soucu elde ettkler açıklamışlardır. Bzm çalışmamızda e y souçlar k=2 ç elde edlmştr (Tablo 2). Tablo-2: WMBL k Değer Yötem Boyut =1 =9 =999 TBO TBO TBO WMBL (k=2) 600 5.87 3.37 0.15 WMBL (k=8) 600 4.86 2.00 0.38 Öcek çalışmalarda, LIGSPAM üzerde SVM kullaılarak yapıla herhag br çalışma olmadığı ç, deemelermzde, e y TBO soucuu vere telk boyutuu seçmek amacıyla 50 le 700 arasıda ellşer ellşer arta farklı sayılarda telk boyutları deemştr. Üç farklı bedel searyosu üzerde e y ortalama
TBO değer vere Dm=600 değer, telk boyutu olarak seçlmştr. (Şekl-1) Tablo 3: Yalış Uyarı / Kaçırma Oraları Yötem Boyut =1 YUO KO MBL (k=2) 600 0.397 0.0000 WMBL (k=2) 600 0.147 0.0045 B 100 0.114 0.0029 SVM 600 0.035 0.0033 Yötem Boyut =9 YUO KO MBL (k=2) 600 0.550 0.0000 WMBL (k=2) 600 0.241 0.0012 B 100 0.160 0.0025 SVM 600 0.114 0.0008 Seçle telkler Sayısı Boy. =1 =9 =999 Ort TBO TBO TBO TBO 100 9.25 4.63 0.40 4.76 150 11.73 3.94 2.18 5.95 200 12.66 4.90 2.60 6.72 250 16.59 6.68 2.93 8.73 300 16.03 7.51 2.93 8.83 350 16.59 7.40 3.04 9.01 400 16.59 7.18 0.42 8.06 450 14.15 7.51 2.85 8.17 500 17.18 6.87 2.73 8.93 550 16.59 7.29 2.63 8.83 600 19.24 6.59 2.78 9.54 650 17.81 6.68 0.41 8.30 700 17.81 6.25 2.70 8.92 Şekl-1: SVM telk Boyutu B, MBL ve SVM Karşılaştırılması Yötemler, hesaplaa e y parametreler kullaılarak sıamış ve YUO/KO souçları Tablo-3 de verlmştr. telk ve uzaklık ağırlaştırmasıı MBL e katkılarıı görüleblmes ç tabloya bast MBL souçları da eklemştr. KO arttıkça, yalış sııfladırıla ormal e- postaları sayısı artmakta, YUO arttıkça, yalış sııfladırıla yaramaz e-postaları sayısı artmaktadır. Dolayısı le kabul edleblr br süzgeçte KO ve YUO ı ksde olabldğce küçük olmaları gerekr (yetk br süzgeçte 0 olmadırlar). Bedeller farklı olduğu durumlarda se KO çok daha öemldr ve YUO ya göre çok daha fazla cezaladırılması gerekr. Yötem Boyut =999 YUO KO MBL (k=2) 600 0.550 0.0000 WMBL (k=2) 600 0.247 0.0012 B 100 0.239 0.0000 SVM 600 0.360 0.0000 Br başka değerledrme ölçütü tutturma ve yakalama oralarıdır. Tablo-4 de tutturma ve yakalama oraları farklı bedel değerler ve değşk yötemler ç verlmektedr. Tablo 4: Tutturma / Yakalama Oraları Yötem Boyut =1 YO TO MBL (k=2) 600 0.60291 1.00000 WMBL (k=2) 600 0.85239 0.97387 B 100 0.88565 0.98383 SVM 600 0.96465 0.98305 Yötem Boyut =9 YO TO MBL (k=2) 600 0.45114 1.00000 WMBL (k=2) 600 0.75883 0.99184 B 100 0.83991 0.98536 SVM 600 0.88565 0.99532 Yötem Boyut =999 YO TO MBL (k=2) 600 0.45114 1.00000 WMBL (k=2) 600 0.75259 0.99178 B 100 0.76091 1.00000 SVM 600 0.64033 1.00000 =1 ve =9 bedel değerler ç SVM e y başarımı sağladığı Tablo-4 de rahatça görüleblr. E yüksek bedel değer =999 ç, WMBL başarımı sabt kalırke SVM başarımı cdd şeklde düşmektedr.
Tablo 5: Toplam Bedel Oraı Yötem Boyut =1 =9 =999 TBO TBO TBO MBL (k=2) 600 2.52 1.83 1.83 WMBL (k=2) 600 5.87 3.37 0.15 B 100 7.77 3.68 4.19 SVM 600 19.26 6.60 2.78 TBO br yötem başarımıı bedeller farklı olduğu durumlarda fade ettğ ç, souç olarak (Tablo-5) SVM, e y kc yötem ola B de, bedel farkı olmadığı zama (=1) eredeyse üç kat daha yüksek br başarım sergledğ söyleeblr. Bedel değer =9 durumuda da ye SVM e y başarımı göstere yötemdr. Ama yukarıdak paragrafta da alatıldığı gb, bedel farkı çok yüksek olduğuda (=999), B SVM de daha başarılıdır. 6. Souçlar ve Gelecek Çalışmalar Bu makale, yaramaz e-postaları süzülmes alaıda karar destek makeler (SVM), aïve bayes ve bellek tabalı öğreme yötemler bedeller farklı olduğu durumlarda karşılaştırılmasıı hedeflemektedr. Yötemler karşılatırablmek ve öcek çalışmaları souçlarıı kullaablmek ç, herkese açık ola br e-posta lstes derlem (LIGSPAM) kullaılmıştır. B, MBL ve SVM yötemler bedeller farklı olduğu durumlarda uygulamıştır. Bu sırada SVM ç br kütüphae kullaılmıştır. Değerledrme üç farklı bedel searyosu kullaılarak yapılmıştır. SVM yötem bedel farkıı düşük ve yüksek olduğu durumlarda farkedlr derecede daha y souç verdğ görülmüştür. Bua karşı bedel farkıı aşırı yüksek olduğu durumlarda B yötem e y başarımı göstermştr. Souç olarak, çalışmamız yaramaz e-posta süzülmes kousuda üç farklı yötem ayı ver kümes üzerde karşılaştırılmasıı sağlamıştır. Çalışmamızı br başka katkısı olarak, bedel farkıı olduğu durumlarda SVM ler yaramaz e-postaları süzmek ç uyarlamasıdır. Yaramaz e-postaları süzülmes kousuda bazı örütü taıma tekkler uygulamış olsa da, tüm tekkler deememştr. Yaramaz e-postaları süzülmes kousuda dğer yötemler de gerçeklemes ve brbrleryle karşılaştırmaları yapılması gerekmektedr. aïve Bayes gb bazı bast tekkler ble beklemedk şeklde yüksek başarım göstereblmektedrler. Daha öcek br çalışmada [5] leer kerel kullaıldığı ç, buradak çalışmalarda da leer kerel kullaılmıştır. Acak e verml SVM sııfladırmasıı buluması ç dğer kerel çeştler de (sgmod, polyomal vb..) celemes ve sıaması gerekmektedr. E-postaları farklı fade edlş şekller derlemese celememştr. Öcek çalışmalar le lşk kurablmek ç kl değer gösterm bçm seçlmş olmasıa karşı, sayısal değer bçm gb br gösterm bu yötemler başarımıda büyük br etk göstereblr. Farklı göstermler etkler celemek gelecektek hedeflermz arasıdadır. Bua ek olarak, e-posta le lgl puçları vere dğer bazı blgler de (dome blgs vb...) gösterme ekleeblr. E- postaları vektör gösterm oluştura seçlmş sözcüklere ek olarak, bazı sözcük örütüler varlığı da ye telkler olablr. Gelecekte olası tüm yötemler ve göstermler bedel farklılığı ola durumlarda karşılaştırmayı plalamaktayız. Kayaklar [1] Saham, M., S. Dumas, D. Heckerma, E. Horvtz. 1998. A Bayesa Approach to Flterg Juk E-Mal. Learg for Text Categorzato Papers from the AAAI Workshop, pages 55 62, Madso Wscos. AAAI Techcal Report WS-98-05. [2] Adroutsopoulos I., Koutsas J., Chadros K.V., Palouras G., Spyropoulos C.D., 2000. A Evaluato of ave Bayesa At-Spam Flterg. Proceedgs of the workshop o mache Learg the ew Iformato Age, 11th Europea Coferece o Mache Learg (ECML 2000), Barceloa, Spa, pp. 9-17. [3] Sakks G., Adroutsopoulos I., Palouras G., Karkaletss V., Spyropoulos C.D., Stamatopoulos P., 2003, A Memory-Based Approach to At-Spam Flterg for Malg
Lsts, Iformato Retreval 6(1), 49-73, Kluwer Publshg [4] Xaver Carreras, Lluís Marquez, Boostg Trees for At-Spam Emal Flterg (2001), Proceedgs of RALP-01, 4th Iteratoal Coferece o Recet Advaces atural Laguage Processg [12] E. Osua, R. Freud, F. Gros, 1997. Improved trag algorthm for support vector maches, Proc. IEEE SP 97. [5] Drucker H., Wu D., Vapk V.., 1999. Support Vector Maches for Spam Categorzato, IEEE Trasactos O eural etworks, pages 1048-1054. [6] Karl-Mchael Scheder, A Comparso of Evet Models for ave Bayes At-Spam E- Mal Flterg, 10th Coferece of the Europea Chapter of the Assocato for Computatoal Lgustcs (EACL 03), pp. 207-314, 2003. [7] Adroutsopoulos I., Palouras G., Karkaletss V., Sakks G., Spyropoulos C.D., Stamatopoulos P., 2000, Learg to flter Spam E-Mal: AComparso of a aïve Bayesa ad a Memory-Based Approach, Proc. of the workshop o Mache Learg ad Textual Iformato Access, 4 th Europea Coferece o Prcples ad Practce of Kowledge Dscovery Databases, Frace [8] Duda, R.O. ad P.E. Hart. 1973. Bayes Decso Theory. Chapter 2 Patter Classfcato ad Scee Aalyss, pages 10 43. Joh Wley. [9] Chh-Chug Chag ad Chh-Je L, LIBSVM : a lbrary for support vector maches, 2001. Software avalable at http://www.cse.tu.edu.tw/~cl/lbsvm [10] Vapk, 1995. The ature of Statstcal Learg Theory. Sprger-Verlag, 1995. [11] J. C. Platt, 1998. Sequetal mmal optmzato: A fast algorthm for trag support vector maches, Advaces Kerel Method: Support Vector Learg, Scholkopf, Burges, ad Smola, Eds. Cambrdge, MA: MIT Press, pp. 185 208.