Yaramaz E-Postaların Süzülmesinde, Karar Destek Makineleri, Naïve Bayes ve Bellek Tabanlı Öğrenme Yöntemlerinin Karşılaştırılması

Benzer belgeler
YER ÖLÇÜLERİ. Yer ölçüleri, verilerin merkezini veya yığılma noktasını belirleyen istatistiklerdir.

Regresyon ve Korelasyon Analizi. Regresyon Analizi

ÖLÇÜM, ÖLÇÜM HATALARI ve ANLAMLI RAKAMLAR

ÖRNEKLEME YÖNTEMLERİ ve ÖRNEKLEM GENİŞLİĞİ

Polinom İnterpolasyonu

Tahmin Edicilerin ve Test Đstatistiklerinin Simülasyon ile Karşılaştırılması

Giriş. Değişkenlik Ölçüleri İSTATİSTİK I. Ders 5 Değişkenlik ve Asimetri Ölçüleri. Değişkenlik. X i ve Y i aşağıdaki gibi iki seri verilmiş olsun:

Tanımlayıcı İstatistikler

İki veri setinin yapısının karşılaştırılması

BEKLENEN DEĞER VE VARYANS

YÖNEYLEM ARAŞTIRMASI III. Dinamik Programlama. Örnek 3: Tıbbi Müdahale Ekiplerinin Ülkelere Dağıtımı

Parametrik Olmayan İstatistik Çözümlü Sorular - 2

Yüksek Mertebeden Sistemler İçin Ayrıştırma Temelli Bir Kontrol Yöntemi

AES S Kutusuna Benzer S Kutuları Üreten Simulatör

Değişkenler Arasındaki İlişkiler Regresyon ve Korelasyon. Dr. Musa KILIÇ

Sayısal Türev Sayısal İntegrasyon İnterpolasyon Ekstrapolasyon. Bölüm Üç

= k. Aritmetik Ortalama. Tanımlayıcı İstatistikler TANIMLAYICI İSTATİSTİKLER. Sınıflanmış Seriler İçin Aritmetik Ortalama

TÜRKİYE ŞEKERPANCARI ÜRETİMİNDE FAKTÖR TALEP ANALİZİ ( ) (TRANSLOG MALİYET FONKSİYONU UYGULAMASI) Yaşar AKÇAY 1 Kemal ESENGÜN 2

Servis Yönlendirmeli Sistemlerde Güven Yayılımı

1. GAZLARIN DAVRANI I

Tuğba SARAÇ Yük. Endüstri Mühendisi TAI, Ankara Özet. 1. Giriş. 2. Gözden Geçirmeler. Abstract

Bir KANUN ve Bir TEOREM. Büyük Sayılar Kanunu

denklemini sağlayan tüm x kompleks sayılarını bulunuz. denklemini x = 64 = 2 i şeklinde yazabiliriz. Bu son kompleks sayıları için x = 2iy

MERKEZİ EĞİLİM ÖLÇÜLERİ

Bir Alışveriş Merkezinde Hizmet Sektörü Đçin En Kısa Yol Problemi ile Bir Çözüm

MESAFE KORUMA İÇİN BİR ÖRÜNTÜ TANIMA UYGULAMASI

Önceki bölümde özetlenen Taylor metodlarında yerel kesme hata mertebesinin yüksek oluşu istenilen bir özelliktir. Diğer taraftan

Zaman Skalasında Box-Cox Regresyon Yöntemi

YILLIK ÜCRETLİ İZİN YÖNETMELİĞİ ( tarihli ve sayılı Resmi Gazete'de yayımlanmıştır.) BİRİNCİ BÖLÜM Amaç, Kapsam ve Dayanak

Quality Planning and Control

Doç. Dr. Mehmet AKSARAYLI

TABAKALI ŞANS ÖRNEKLEME

(DERS NOTLARI) Hazırlayan: Prof.Dr. Orhan ÇAKIR. Ankara Üniversitesi, Fen Fakültesi, Fizik Bölümü

Tarihli Mühendislik ekonomisi final sınavı. Sınav süresince görevlilere soru sormayın. Başarılar dilerim.

Đst201 Đstatistik Teorisi I

Genelleştirilmiş Ortalama Fonksiyonu ve Bazı Önemli Eşitsizliklerin Öğretimi Üzerine

6. Uygulama. dx < olduğunda ( )

Bağıl Değerlendirme Sisteminin Simülasyon Yöntemi ile Test Edilmesi: Kilis 7 Aralık Üniversitesi Örneği

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

HĐPERSTATĐK SĐSTEMLER

TÜRKİYE NİN TİCARİ HİZMETLER ENDÜSTRİ İÇİ TİCARETİ

BAZI YARIGRUP AİLELERİ ve YAPILARI İÇİN SONLULUK KOŞULLARI ve ETKİNLİK *

İŞLETMELERDE DAĞITIM SİSTEMİ MALİYETLERİ MİNİMİZASYONU İÇİN ÇÖZÜM MODELİ: BİR FİRMA UYGULAMASI

Gamma ve Weibull Dağılımları Arasında Kullback-Leibler Uzaklığına Dayalı Ayrım

Olabilirlik Oranı Yöntemine Dayalı, Yapısal Homojen Olmayan Varyans Testlerinin Piyasa Modeli İçin Karşılaştırılması

PORTFÖY OPTİMİZASYONUNDA ORTALAMA MUTLAK SAPMA MODELİ VE MARKOWITZ MODELİNİN KULLANIMI VE İMKB VERİLERİNE UYGULANMASI

EMEKLİLİK YATIRIM FONLARI DEĞERLENDİRMESİ AÇIKLAMA NOTLARI VE VARSAYIMLAR

LİNEER OLMAYAN DENKLEMLERİN SAYISAL ÇÖZÜM YÖNTEMLERİ-2

Gerçek Zamanlı Giriş Şekillendirici Tasarımı Design of Real Time Input Shaper

RANKI 2 OLAN SERBEST LIE CEBİRLERİNİN OTOMORFİZM GRUPLARININ SUNUMLARI 1 Reports Of Free Groups Otomorfizm Rank 2 Lie Algebras

Tanımlayıcı İstatistikler (Descriptive Statistics) Dr. Musa KILIÇ

TABU ARAŞTIRMASI UYGULANARAK EKONOMİK YÜK DAĞITIMI PROBLEMİNİN ÇÖZÜMÜ

ARAŞTIRMA MAKALESİ / RESEARCH ARTICLE

= İÇİNDEKİLER. E(X) = k Pascal (Negatif Binom) Dağılımı Hipergeometrik Dağılım N y=

BETONARME YAPILARIN DEPREM PERFORMANSININ DEĞERLENDİRİLMESİ. M.Emin ÖNCÜ 1, Yusuf CALAYIR 2

İstatistik ve Olasılık

HIZLI EVRİMSEL ENİYİLEME İÇİN YAPAY SİNİR AĞI KULLANILMASI

ĐÇI DEKILER 1. TEMEL ĐSTATĐSTĐK KAVRAMLAR VE OTASYO LAR 1

BÖLÜM 3 YER ÖLÇÜLERİ. Doç.Dr. Suat ŞAHİNLER

Çevrimiçi Haber Metinlerinin Otomatik Olarak Sınıflandırılması

BASAMAK ATLAYARAK VEYA FARKLI ZIPLAYARAK İLERLEME DURUMLARININ SAYISI

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

Operasyonel Risk İleri Ölçüm Modelleri

REGRESYON ANALİZİNDE KULLANILAN EN KÜÇÜK KARELER VE EN KÜÇÜK MEDYAN KARELER YÖNTEMLERİNİN KARŞILAŞTIRILMASI

Öğrenci Numarası İmzası: Not Adı ve Soyadı

Bir Telekomünikasyon Probleminin Matematiksel Modellenmesi Üzerine

İşlenmemiş veri: Sayılabilen yada ölçülebilen niceliklerin gözlemler sonucu elde edildiği hali ile derlendiği bilgiler.

İSTATİSTİK. Doç. Dr. Suat ŞAHİNLER Arş.Gör. Özkan GÖRGÜLÜ

İstatistik ve Olasılık

BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testlerine Giriş Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

BÖLÜM 2 OLASILIK TEORİSİ

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN BİLİMLERİ DERGİSİ

FİNANSAL YÖNETİM. Finansal Yönetim Örnek Sorular Güz Yrd. Doç. Dr. Rüstem Barış Yeşilay 1. Örnek. Örnek. Örnek. Örnek. Örnek

Matematik olarak normal dağılım fonksiyonu. 1 exp X 2

T.C. RECEP TAYYİP ERDOĞAN ÜNİVERSİTESİ İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ İŞLETME BÖLÜMÜ SAYISAL YÖNTEMLER ANABİLİM DALI DERS NOTLARI

Tanımlayıcı İstatistikler

TOBB Ekonomi ve Teknoloji Üniversitesi İKT351 Ekonometri I, Ara Sınavı

POLİNOMLARDA İNDİRGENEBİLİRLİK. Derleyen Osman EKİZ Eskişehir Fatih Fen Lisesi 1. GİRİŞ

Makine Öğrenmesi 10. hafta

BÖLÜM 4 KLASİK OPTİMİZASYON TEKNİKLERİ (KISITLI OPTİMİZASYON)

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 9 Sayı: 1 s. 1-7 Ocak 2007 HİDROLİK PROBLEMLERİNİN ÇÖZÜMÜNDE TAŞIMA MATRİSİ YÖNTEMİ

) ( k = 0,1,2,... ) iterasyon formülü kullanılarak sabit

TEZ ONAYI Nur ÇELİK tarafıda hazırlaa ANOVA Modellerde Çarpık Dağılımlar Kullaılarak Dayaıklı İstatstksel Souç Çıkarımı ve Uygulamaları adlı tez çalış

(3) Eğer f karmaşık değerli bir fonksiyon ise gerçel kısmı Ref Lebesgue. Ref f. (4) Genel karmaşık değerli bir fonksiyon için. (6.

İstanbul Göztepe Bölgesinin Makine Öğrenmesi Yöntemi ile Rüzgâr Hızının Tahmin Edilmesi

KUVVET SİSTEMLERİ KUVVET. Vektörel büyüklük. - Kuvvetin büyüklüğü - Kuvvetin doğrultusu - Kuvvetin uygulama noktası - Kuvvetin yönü. Serbest vektör.

Örnek 2.1 YÖNEYLEM ARAŞTIRMASI III. Markov Süreçleri Ders 7. Koşulsuz Durum Olasılıkları. Örnek 2.1

çözüm: C=19500 TL n=4 ay t=0,25 I i 1.yol: Senedin iskonto tutarı x TL olsun. Bu durumda senedin peşin değeri: P C I (19500 x) TL olarak alınabilir.

Doç. Dr. M. Mete DOĞANAY Prof. Dr. Ramazan AKTAŞ

İleri Teknoloji Bilimleri Dergisi Journal of Advanced Technology Sciences ISSN:

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular

değerine bu matrisin bir girdisi(elemanı,bileşeni) denir. Bir sütundan (satırdan) oluşan bir matrise bir sütun (satır) matrisi denir.

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

TUTGA ve C Dereceli Nokta Koordinatlarının Gri Sistem ile Tahmin Edilmesi

ÜRETİM PLANLAMASINDA HEDEF PROGRAMLAMA VE BULANIK HEDEF PROGRAMLAMA YÖNTEMLERİNİN KARŞILAŞTIRILMASI

GENELLEŞTİRİLMİŞ BULANIK KÜMELER. Mehmet Şahin Gaziantep Üniversitesi, Matematik Bölümü, 27310, Gaziantep

5.1 Olasılık Tarihi Temel Olasılık Kavramları

Populasyon Hacminin Yakalama-Tekrar Yakalama Yöntemi Kullanılarak Ters Tahmin Yöntemi ile Tahmini (1)

Transkript:

Yaramaz E-Postaları Süzülmesde, Karar Destek Makeler, aïve Bayes ve Bellek Tabalı Öğreme Yötemler Karşılaştırılması G. Eryğt C. Tatuğ E. Adalı gulse@cs.tu.edu.tr cueyd@cs.tu.edu.tr adal@cs.tu.edu.tr İstabul Tekk Üverstes Blgsayar Mühedslğ Bölümü Özetçe Bu makale amacı, yaramaz (spam) epostaları, ormal e-postalarda ayırma sürec ç, karar destek makeler (Support Vector Maches - SVM), bellek tabalı öğreme (Memory Based Learg - MBL) ve aïve Bayes (B) yötemler karşılaştırmalı değerledrmes yapmaktır. Yaramaz e-postaları süzülmesde kullaıla yötemler karşılaştıra brçok çalışma olmasıa karşı, bu çalışmaları büyük çoğuluğu, farklı ver kümeler kulladıklarıda karşılaştırılablr telkte değldr. Bu çalışmada, SVM, MBL ve B yötemler karşılaştırılırke, herkes erşme açık ola ortak br derlem (corpus) ola LIGSPAM derlem kullaılmıştır. MBL ve B yötemler, öcek çalışmalarda bu ver kümes üzerde sıadığı ç, öcek deeylerde elde edle e y parametreler ufak değşklklerle kullaılmıştır. Acak SVM yötem e y soucu vermes sağlamak ç çok sayıda deey yapılmıştır. Çalışmamızda br e-postaı, yaramaz olarak taıması durumuda, bu e-postaya asıl davraılacağıa lşk searyo öerler verlmş ve gerçeklee sııfladırıcıları hatalı çalışması durumuda lgl searyolara göre ortaya çıkablecek hataları bedel göz öüe alıarak bu üç sııfladırma yötem değerledrlmştr. Ortaya çıka souçlarda, SVM yötem hata bedel sıfır olduğu ya da yüksek olduğu searyolar ç başarımıı dğer yötemlerde daha y olduğu görülmüştür. Acak hata bedel çok yüksek olması durumuda se B yötem e y soucu vermştr. Abstract Ths paper presets a comparso of support vector maches (SVM), memory-based learg (MBL) ad aïve Bayes (B) techques for the classfcato of legtmate ad spam mals. Although there are a umber of methodcomparatve studes regardg spam mal flterg, most of the studes are tested o separate data sets. I order to evaluate the effectveess of SVM, MBL ad B methods, we have used a commo publcly avalable corpus (LIGSPAM). As MBL ad B methods are prevously tested wth ths corpus, the obtaed best parameters are used the expermets wth few chages. O the other had, tese expermets are made to fd the best attrbute dmesos wth SVMs. Results show that SVM has sgfcatly better performace for o-cost ad hgh-cost cases, but B performs best whe the cost s extremely hgh. 1. Grş Geçtğmz so 10-15 yıl boyuca teret ve e-posta kullaıcı sayısıı hızla artması, pazarlamacıları e-postaları etk br pazarlama ve reklam aracı olarak kullamalarıa olaak sağlamıştır. E-posta göderme çok kolay, daha öemls ucuz olmasıı soucu, stemeye e-postalar kullaıcıları posta kutularıı doldurmaya, teret letşm ç kullaıla hatları boşa harcamasıa ve suucuları yüküü artmasıa ede olmaktadır. Yaramaz (spam) e-postalar adı verle bu stemeye mektupları taıması ve

süzülmes le lgl çalışmalar heüz çok ye sayılablr. Tekk alamda, yaramaz ve ormal e-postaları otomatk olarak sııfladırılması le lgl lk çalışma 1998 yılıda Saham ve ark. tarafıda yapılmıştır [1]. Aslıda, yaramaz e-postaları taıması kousu, k sııflı br sııfladırma soruudur. Bu yüzde make öğremes tekkler bu amaçla kullaılmaları uygu düşmektedr. Şmdye dek yaramaz mektupları taımasıda kullaıla sııfladırma yötemler aïve Bayes (B) [1,2], bellek tabalı öğreme yötemler (MBL) [3], destek (boostg) ağaçları [4] ve karar destek makelerdr (SVM) [5]. Bu yötemler tamamı, sııflamaları yapılmış eğtm derlemler kullaılarak, sııfladırmaı asıl yapılacağıa lşk blgler öğrerler. Daha sora gele örekler (ye gele e-postayı), öğremş oldukları bu blglere göre sııfladırırlar. Br başka deyşle e-postayı yaramaz ya da ormal sııf kutusua atarlar. Bu yöteme, gözetml öğreme adı verlmektedr. Sııfladırma sürecde her e-posta br örek olarak değerledrlr ve her br örek ç br telk vektörü oluşturulur. Bu vektördek her br telk br sözcüğü temsl etmektedr. Br telğ değer olarak, o telğ temsl ettğ sözcüğü, o örekte (e-postada) geçp geçmedğ gb kl br blg tutulableceğ gb o örek çersde kaç kez geçtğ gb sayısal br blg de tutulablr. Bu farklı k yaklaşım kl değer ve sayısal değer olarak adladırılır [6]. Yaramaz e-postaları saptaması sürecde kullaıla ve yukarıda söz edle yötemler, telk vektörler oluştururke kl değer yötem kullamışlardır. Sayısal değer temsl yötem kullaılablr hale geleblmes ç daha çok çalışmaı gerektğ belrtlmektedr [6]. Yaramaz e-postaları sııfladırılması yötem her e kadar br met sııfladırma yötem olsa da, k temel açıda farklılık göstermektedr [3]. İlk olarak, yaramaz e-postaları kouları ve çerkler herşey olableceğ ç geş br kapsama sahptr. İkc olarak, bu sııfladırma, hatalı sııfladırma bedel farklı olduğu br aladır. ormal br e-postaı sııfladırıcı tarafıda yaramaz olarak algılaıp slmes, yaramaz br e-postaı süzgeçte geçerek posta kutusua grmesde çok daha zararlıdır. Souç olarak, gerçekleecek ola k sııflı sııfladırıcıı yapacağı hata türler (Y, Y) bedeller yasımalı (smetrk) değldr. Bu hata bedel belrlemesdek ölçüt, tasarlaacak ola sstem yaramaz e-postalara asıl davraacağıı belrlemesdr. Yakaladığı yaramaz e-postaları sle br sııfladırıcıı hata bedel çok yüksek ke, yakaladığı yaramaz e-postaları sadece şaretleye br sııfladırıcıı hata bedel daha düşük hatta sıfır ble olablr. Bu kouda yapıla çalışmaları [1, 2, 3, 4, 5] souçları brbrler le karşılaştırılamamaktadır. Çükü bu çalışmalardak yötemler ortak br eğtm ve sıama kümes kullamamıştır. Ayrıca bu çalışmaları çoğuda hata bedel göz öüe alımamaktadır. Bu çalışmamızı hedef, daha öcede farklı ver kümeler üzerde deemş yötemler br arada, ortak br ver kümes üzerde eğterek deemek ve yötemler başarımlarıı, hata bedeller de hesaba katarak değerledrmektr. Bu yötemler; Drucker ve ark. tarafıda hata bedel hesaplamada kullaıla karar destek makeler yötem (SVM) [6], Sakks ve ark. tarafıda hata bedel hesaplayarak kullaıla aïve Bayes (B) yötem ve Bellek Tabalı Öğreme (MBL) yötemdr. Aıla kc çalışmada, hata bedel yüksek olduğu zama MBL yötem daha y souç verdğ söylemektedr. Bzm çalışmamızı soucuda, yaramaz br e-postayı ormal olarak şaretleme hatasıı bedel, ormal br e-postayı yaramaz olarak şaretleme hatasıı bedel le eşt olduğu zama SVM dğer k yötemde daha başarılı olduğuu gösterlmştr. Ayrıca, bu hata bedel yüksek olduğu durumlarda da SVM başarılı olmasıa karşı, hata bedel çok çok yüksek olduğu durumlarda B yötem, dğer k yötemde daha y souçlar verdğ gösterlmştr. Makale çde, bu çalışmada kullaıla derlem taıtılmış; telkler seçlme ve örekler temsl asıl yapıldığıa lşk blgler verlmştr. Daha sora, kullaıla sııfladırma yötemler kısaca taıtılmış; ardıda her yötem souçları verlmştr. So bölümde se

yapıla çalışmaları yorumlarıa ve gelecek çalışmalar hakkıda blglere yer verlmştr. 2. Derlem Yapıla deeyler, dl blm le lgl br e-posta lstese gele ormal ve yaramaz mektuplarda oluşa, herkese açık 1 Lg-Spam sml br derlem kullaılarak yapılmıştır [2]. Derlem çdek metler dl İglzcedr. Bu derlem dört sürümü bulumaktadır. Bazı sürümlerde metlerdek her sözcüğü, eklerde arıdıra (sadece köküü bıraka) br kök bulucu kullaılarak sözcük uzayıı boyutu düşürülmüştür. Bezer şeklde çok fazla ayırıcı blg taşımaya acak sıkça kullaıla 100 sözcüğü (ad, a, a gb) çere br yasak lstes hazırlamış ve bu lstedek sözcükler metlerde çıkartılmıştır. Bu k yardımcı aracı beraber kullaıldığı ve kullaılmadığı toplam dört farklı sürüm bulumaktadır. Bzm çalışmamızda yeğledğmz sürüm, kök bulucu u ve yasak lstes kullaıldığı sürümdür. Bu sürümü, dğerlere göre daha yüksek başarılar gösterdğ belrtlmektedr [2]. Kullaıla derlem 2412 s ormal, 481 taes yaramaz olmak üzere toplam 2893 mektupta oluşmaktadır. Derlem, ayı orada yaramaz ve ormal mektup çere 10 parçaya bölümüştür. Yapıla her br deey 10 kez tekrarlamış; her defasıda mevcut ola 10 parçada 9 taes eğtm amaçlı kullaılmış; kala 1 parça da sıama amaçlı kullaılmıştır. 3. telkler Seçlmes ve Örekler Temsl Grş bölümüde kısaca değldğ gb çalışmamızda kl değer model kullaılmıştır. Bu modelde, her br e-posta, br örek olarak değerledrlmş ve her br örek ç oluşturula telk vektörü, seçle br dz sözcüğü o örek çersde var olup olmadığıa lşk 0 veya 1 değerler çerecek bçmde oluşturulmuştur. Belrtle bu br dz sözcük seçlrke, her br sözcüğü taşıdığı ortaklık blgs (KB- Mutual Iformato) hesaplamıştır. Bu değer br alamda, bu sözcüğü, derlem çersde e kadar br ayırıcılığa sahp olduğuu göstermektedr. Aşağıda, bu değer hesaplamasıda kullaıla formül verlmştr. E yüksek KB (MI) değere sahp adet sözcük, telk olarak seçlmştr ve sadece bu adet sözcüğü öreklerde olup olmadığıa bakılmıştır. Her br örek x =<x1,x2,..x> şeklde br telk vektörü le fade edlmştr. MI X C P X x C c,, log x 0,1, c yaramaz, ormal 4. Sııfladırma Yötemler Bu bölümde, çalışmamızda kullaıla SVM, MBL ve B yötemler hakkıda kısa blgler verlecektr. Bu yötemler le lgl daha fazla blg ç şu kayakları celemes öerlr: Saham ve ark. [1], Adroutsopoulos ve ark. [2], Sakks ve ark. [3], Drucker ve ark. [5]. Yötemler ayrıtıları verlmede öce, hata bedel öem kazadığı yaklaşımlarda, sııfladırmaı asıl değerledrldğ kousua değmey yararlı buluyoruz. ormal br e- postaı yalışlıkla yaramaz olarak sııfladırılması, yaramaz br e-postaı ormal olarak şaretlemesde çok daha öeml br hata olarak kabul edlmektedr. ormal Yaramaz hatasıı, Yaramaz ormal hatasıda kat daha öeml olduğu söyleeblr. Bu durumda sııfladırıcıı, br e-postayı yaramaz olarak sııfladırması veya adladırması ç aşağıdak koşulu sağlaması gerekldr: C yaramaz X x) C ormal X x) E-posta sııfladırması k sııflı br sııfladırma olduğu ç aşağıdak bağıtı yazılablr.: C yaramaz X x) 1 C ormal X x) Yukarıda da gösterldğ gb, ye gele br x öreğ acak ve acak güvelrlk sevyes. 2 X x, C c) X x). C c) (2) (1) 1 Lg-Spam http://www.aueb.gr/users/o/

C yaramaz X x) 1 C yaramaz X x) C yaramaz X x) t t 1 W ( x) t s W s (x), ı br foksyou ola t de daha büyük olursa yaramaz sııfı olarak etketleeblr. Tüm yötemler, 10-katlı çapraz-doğrulama tekğ kullaılarak eğtlmş ve sıamıştır. Toplam ver kümes 10 eş boyutlu parçaya bölümüş, her adımda bu 10 parçada farklı br taes sıama ç ayrılmış, dğer 9 parça eğtm sürecde kullaılmıştır. Her yötem her deemes ç bu şlem 10 defa tekrarlamıştır. 4.1 aïve Bayes Bayes ve toplam olasılık kuramıda yola çıkılarak, x =<x1,x2,..x> telk vektörü ola br öreğ (e-posta) c sııfıa at olması olasılığı şöyledr: C c). X x C c) PC c X x C k). X x C c) (4) k{yaramaz,ormal} Uygulamada, X x C c) olasılıklarıı hesaplamak, bazı kabuller yapmada olaaksızdır. Çükü olası x değerler sayısı çok fazladır ve üstelk ver seyreklğ soruu da bulumaktadır. P C c X x C c). 1 C k). aïve Bayes sııfladırıcısı, belrl br c sııfı ç x1, x2,.., x telkler koşullu k{ yaramaz, ormal} 1 X x C c) X x C c) (3) (5) olarak bağımsız olduğu varsayımıda bulumaktadır (deklem (5)). 4.2 Bellek Tabalı Öğreme MBL yötem [7] e yakı k-komşu (K-) sııfladırıcısıı br türevdr. K- yötemde, her gele ye e-posta, kedse e yakı k adet e-postaı sııflarıda çoğuluğa sahp olaı hags se o sııfa ataırke MBL yötemde, ye gele e-posta e yakı k uzaklık çersde kala e-postaları çoğuluk sııfıa ataır. Buu soucu olarak, eğer e yakı k uzaklık çersde brde çok komşu varsa, komşu sayısı k da fazla olacaktır. İk örek arasıdak mesafe hammg uzaklığı kullaılarak buluur. İk arasıdak d( gb hesaplaır. x d x, x... x 1 2 x, x xr, x r r1 x ve x öreğ x, x ) uzaklığı deklem (6) dak 0, eğer x y se ( x, y) 1, dğer durumlarda ad x x, x 1 2... x Br x öreğ c sııfıa at olmasıı güvelrlk sevyes deklem (7) dek gb hesaplaır. Bu deklemde C( x ), umaralı komşuu sııfıı belrtr. Bu hesaplamada sora güvelrlk sevyeler [0-1] aralığıa getrlp, deklem (3) br e-postayı yaramaz olarak sııfladırmak üzere kullaılablr. W ( x) 1 c, C( ) c x MBL başarısı bazı ağırlaştırma yötemler kullaılarak arttıralablr. WMBL (Ağırlaştırılmış MBL) ç telk ve uzaklık ağırlaştırma yötemler kullaılmıştır. (7) (6)

4.2.1 Uzaklık Ağırlaştırma Uzaklık ağırlaştırma deklem (8) uygulayarak, grş öreğe daha yakı komşuları daha öeml sayar. W ( x) f ( d( x, x )). 1 c, C( x ) c 1 f ( d) 3 d 4.2.2 telk Ağırlaştırma MBL de, gerçekte öyle olmamasıa rağme, bütü telkler eşt öemde sayılırlar. Bu edele WMBL dek telk ağırlaştırması tüm telklere eşt davramamayı hedefleyerek, deklem (9) kullaarak, her özellğe farklı öem puaları atar. Deklem (6) dak d( uzaklık ölçümü deklem (9) dak hale döüşür. 4.3 Karar Destek Makeler (8) x, x ) Vapk Karar Destek makeler (SVM) [10] k sııf arasıdak payı (marg) e büyük yapacak ayırıcı hperdüzlem bulmaya çalışa, çok kullaıla etkl br örütü taıma tekğdr. SVM yüksek boyutlu ver kümeler üzerde çok y souçlar vere k sııflı br sııfladırma yötemdr. SVM aşağıdak eyleme soruu le eğtlr. 1 2 w arg m w C (10) w 2 y ( d w b) 1 0 Bu deklemde her d br belge vektörü, her y +1 veya 1 değer ala br d etket ve w e uygu ayırıcı hperdüzlem taımlaya ağırlık vektörüdür. Bu tp eyleme sorularıa lkel adı verlr. Eştszlk kısıtlarıı Lagrage çarpaları yolu le braraya getrerek, soruu bezer şekle ulaşılır. w arg max w 1 2, y y ( d d ) 0 C y 0 (11) optmze edle değerler verldğde e uygu hperdüzlem söyledr: w yd (12) Yukarıdak kısıtlı soru Platt ı ardışıl eküçük eyleme (Sequetal Mmal Optmzato) [11] ve Osua ı yötem [12] gb bazı hızlı çözme yötemler, quadratc programlama le çözüleblr.,., r r r d x x w x x r 1 w H ( C) X x). H ( C X x) r x 0,1 H C P C c.log C c) c yaramaz, ormal H C X x c P C c X x.log C c X x) yaramaz, ormal 2 2 (9)

SVM ve quadratc problem çözme yötemler le lgl ayrıtılı blg [8] de buluablr. Çalışmamızda, br SVM uygulaması ola LbSVM [9] kütüphaes kullaılmıştır. LbSVM e so sürümü ola LbSVM 2.6 ı k sııfa da dahl olma güvelrlk sevyeler verme özellğ vardır. Bu özellk bze SVM, MBL ve aïve Bayes yötemler farklı malyetler ç karşılaştırablme mkâı taır. Quadratc deklemler çözmek ç doğrusal çekrdek kullaılmıştır. 5. Souçlar Bu bölümde, SVM, MBL ve B algortmalarıı uygulaması le elde edle souçlar verlmştr. Drucker ve ark. [5] k sııflı sııfladırma yapıla durumlarda, yakalama oraı (recall rate) (15) ve tutturma oralarıı (precso rate) (16) kullaılamaz olduklarıı söylemştr. Buları yere yalış uyarı oraı (false alarm rate) (13) ve kaçırma oraıı (mss rate) (14) kullaılması gerektğ vurgulamıştır. Acak, öcek çalışmaları büyük çoğuluğu, souçlarıı yakalama ve tutturma oralarıı kullaarak vermşlerdr. ormal br e-postaı yaramaz olarak sııfladırılmasıı, yaramaz br e- postaı ormal olarak sııfladırılmasıda daha yüksek bedell olduğu durumlarda, [3] de taımlaa bedel foksyou TBO (toplam bedel oraı) (17) başarımları karşılaştırılması ç uygu br yötem olarak görülmektedr. TBO foksyouu türetm [3] de buluablr. Büyük TBO değerler yüksek başarım alamıa gelr. Bu durum, deklem (17) de açıkça görüleblr. TBO değer 1 de küçük olduğuda, süzgec kullamamak daha ydr. Çalışmamızda, öcek çalışmaları souçları le lşk kurablmek ç, sözü geçe üç ölçüt de verlmştr: YUO ( Yalış Uyarı Oraı) KO ( Kaçırma Oraı) Y (13) Y Y (14) YO ( Yakalama Oraı) TO ( Tutturma Oraı) TBO ( Toplam Bedel Oraı) YY Y Y Y YY Y Y Y Y Y Y (15) (16) (17) Yötemler karşılaştırılmasıda öce, kullaıla derlem üzerde e y souçları vere parametreler (MBL dek k değer ve telk boyutları) belrlemes gerekr. Adroutsopoulos ve ark. [2] de B LIGSPAM üzerde =1 ç telk boyutu dm=100, =9 ç dm=100, =999 ç dm=300 de e y souçları verdğ belrtmşlerdr. Uygulamamızda, =999 ç dm=100 ü dm=300 e göre daha y souç verdğ görülmüştür (Tablo 1). Tablo-1: B telk Boyutu Yötem Boyut =999 TBO B 100 4.19 B 300 0.15 Sakks ve ark. [3] LIGSPAM üzerde WMBL kullaırke dm=600 ve k=8 komşu sayısı le e y soucu elde ettkler açıklamışlardır. Bzm çalışmamızda e y souçlar k=2 ç elde edlmştr (Tablo 2). Tablo-2: WMBL k Değer Yötem Boyut =1 =9 =999 TBO TBO TBO WMBL (k=2) 600 5.87 3.37 0.15 WMBL (k=8) 600 4.86 2.00 0.38 Öcek çalışmalarda, LIGSPAM üzerde SVM kullaılarak yapıla herhag br çalışma olmadığı ç, deemelermzde, e y TBO soucuu vere telk boyutuu seçmek amacıyla 50 le 700 arasıda ellşer ellşer arta farklı sayılarda telk boyutları deemştr. Üç farklı bedel searyosu üzerde e y ortalama

TBO değer vere Dm=600 değer, telk boyutu olarak seçlmştr. (Şekl-1) Tablo 3: Yalış Uyarı / Kaçırma Oraları Yötem Boyut =1 YUO KO MBL (k=2) 600 0.397 0.0000 WMBL (k=2) 600 0.147 0.0045 B 100 0.114 0.0029 SVM 600 0.035 0.0033 Yötem Boyut =9 YUO KO MBL (k=2) 600 0.550 0.0000 WMBL (k=2) 600 0.241 0.0012 B 100 0.160 0.0025 SVM 600 0.114 0.0008 Seçle telkler Sayısı Boy. =1 =9 =999 Ort TBO TBO TBO TBO 100 9.25 4.63 0.40 4.76 150 11.73 3.94 2.18 5.95 200 12.66 4.90 2.60 6.72 250 16.59 6.68 2.93 8.73 300 16.03 7.51 2.93 8.83 350 16.59 7.40 3.04 9.01 400 16.59 7.18 0.42 8.06 450 14.15 7.51 2.85 8.17 500 17.18 6.87 2.73 8.93 550 16.59 7.29 2.63 8.83 600 19.24 6.59 2.78 9.54 650 17.81 6.68 0.41 8.30 700 17.81 6.25 2.70 8.92 Şekl-1: SVM telk Boyutu B, MBL ve SVM Karşılaştırılması Yötemler, hesaplaa e y parametreler kullaılarak sıamış ve YUO/KO souçları Tablo-3 de verlmştr. telk ve uzaklık ağırlaştırmasıı MBL e katkılarıı görüleblmes ç tabloya bast MBL souçları da eklemştr. KO arttıkça, yalış sııfladırıla ormal e- postaları sayısı artmakta, YUO arttıkça, yalış sııfladırıla yaramaz e-postaları sayısı artmaktadır. Dolayısı le kabul edleblr br süzgeçte KO ve YUO ı ksde olabldğce küçük olmaları gerekr (yetk br süzgeçte 0 olmadırlar). Bedeller farklı olduğu durumlarda se KO çok daha öemldr ve YUO ya göre çok daha fazla cezaladırılması gerekr. Yötem Boyut =999 YUO KO MBL (k=2) 600 0.550 0.0000 WMBL (k=2) 600 0.247 0.0012 B 100 0.239 0.0000 SVM 600 0.360 0.0000 Br başka değerledrme ölçütü tutturma ve yakalama oralarıdır. Tablo-4 de tutturma ve yakalama oraları farklı bedel değerler ve değşk yötemler ç verlmektedr. Tablo 4: Tutturma / Yakalama Oraları Yötem Boyut =1 YO TO MBL (k=2) 600 0.60291 1.00000 WMBL (k=2) 600 0.85239 0.97387 B 100 0.88565 0.98383 SVM 600 0.96465 0.98305 Yötem Boyut =9 YO TO MBL (k=2) 600 0.45114 1.00000 WMBL (k=2) 600 0.75883 0.99184 B 100 0.83991 0.98536 SVM 600 0.88565 0.99532 Yötem Boyut =999 YO TO MBL (k=2) 600 0.45114 1.00000 WMBL (k=2) 600 0.75259 0.99178 B 100 0.76091 1.00000 SVM 600 0.64033 1.00000 =1 ve =9 bedel değerler ç SVM e y başarımı sağladığı Tablo-4 de rahatça görüleblr. E yüksek bedel değer =999 ç, WMBL başarımı sabt kalırke SVM başarımı cdd şeklde düşmektedr.

Tablo 5: Toplam Bedel Oraı Yötem Boyut =1 =9 =999 TBO TBO TBO MBL (k=2) 600 2.52 1.83 1.83 WMBL (k=2) 600 5.87 3.37 0.15 B 100 7.77 3.68 4.19 SVM 600 19.26 6.60 2.78 TBO br yötem başarımıı bedeller farklı olduğu durumlarda fade ettğ ç, souç olarak (Tablo-5) SVM, e y kc yötem ola B de, bedel farkı olmadığı zama (=1) eredeyse üç kat daha yüksek br başarım sergledğ söyleeblr. Bedel değer =9 durumuda da ye SVM e y başarımı göstere yötemdr. Ama yukarıdak paragrafta da alatıldığı gb, bedel farkı çok yüksek olduğuda (=999), B SVM de daha başarılıdır. 6. Souçlar ve Gelecek Çalışmalar Bu makale, yaramaz e-postaları süzülmes alaıda karar destek makeler (SVM), aïve bayes ve bellek tabalı öğreme yötemler bedeller farklı olduğu durumlarda karşılaştırılmasıı hedeflemektedr. Yötemler karşılatırablmek ve öcek çalışmaları souçlarıı kullaablmek ç, herkese açık ola br e-posta lstes derlem (LIGSPAM) kullaılmıştır. B, MBL ve SVM yötemler bedeller farklı olduğu durumlarda uygulamıştır. Bu sırada SVM ç br kütüphae kullaılmıştır. Değerledrme üç farklı bedel searyosu kullaılarak yapılmıştır. SVM yötem bedel farkıı düşük ve yüksek olduğu durumlarda farkedlr derecede daha y souç verdğ görülmüştür. Bua karşı bedel farkıı aşırı yüksek olduğu durumlarda B yötem e y başarımı göstermştr. Souç olarak, çalışmamız yaramaz e-posta süzülmes kousuda üç farklı yötem ayı ver kümes üzerde karşılaştırılmasıı sağlamıştır. Çalışmamızı br başka katkısı olarak, bedel farkıı olduğu durumlarda SVM ler yaramaz e-postaları süzmek ç uyarlamasıdır. Yaramaz e-postaları süzülmes kousuda bazı örütü taıma tekkler uygulamış olsa da, tüm tekkler deememştr. Yaramaz e-postaları süzülmes kousuda dğer yötemler de gerçeklemes ve brbrleryle karşılaştırmaları yapılması gerekmektedr. aïve Bayes gb bazı bast tekkler ble beklemedk şeklde yüksek başarım göstereblmektedrler. Daha öcek br çalışmada [5] leer kerel kullaıldığı ç, buradak çalışmalarda da leer kerel kullaılmıştır. Acak e verml SVM sııfladırmasıı buluması ç dğer kerel çeştler de (sgmod, polyomal vb..) celemes ve sıaması gerekmektedr. E-postaları farklı fade edlş şekller derlemese celememştr. Öcek çalışmalar le lşk kurablmek ç kl değer gösterm bçm seçlmş olmasıa karşı, sayısal değer bçm gb br gösterm bu yötemler başarımıda büyük br etk göstereblr. Farklı göstermler etkler celemek gelecektek hedeflermz arasıdadır. Bua ek olarak, e-posta le lgl puçları vere dğer bazı blgler de (dome blgs vb...) gösterme ekleeblr. E- postaları vektör gösterm oluştura seçlmş sözcüklere ek olarak, bazı sözcük örütüler varlığı da ye telkler olablr. Gelecekte olası tüm yötemler ve göstermler bedel farklılığı ola durumlarda karşılaştırmayı plalamaktayız. Kayaklar [1] Saham, M., S. Dumas, D. Heckerma, E. Horvtz. 1998. A Bayesa Approach to Flterg Juk E-Mal. Learg for Text Categorzato Papers from the AAAI Workshop, pages 55 62, Madso Wscos. AAAI Techcal Report WS-98-05. [2] Adroutsopoulos I., Koutsas J., Chadros K.V., Palouras G., Spyropoulos C.D., 2000. A Evaluato of ave Bayesa At-Spam Flterg. Proceedgs of the workshop o mache Learg the ew Iformato Age, 11th Europea Coferece o Mache Learg (ECML 2000), Barceloa, Spa, pp. 9-17. [3] Sakks G., Adroutsopoulos I., Palouras G., Karkaletss V., Spyropoulos C.D., Stamatopoulos P., 2003, A Memory-Based Approach to At-Spam Flterg for Malg

Lsts, Iformato Retreval 6(1), 49-73, Kluwer Publshg [4] Xaver Carreras, Lluís Marquez, Boostg Trees for At-Spam Emal Flterg (2001), Proceedgs of RALP-01, 4th Iteratoal Coferece o Recet Advaces atural Laguage Processg [12] E. Osua, R. Freud, F. Gros, 1997. Improved trag algorthm for support vector maches, Proc. IEEE SP 97. [5] Drucker H., Wu D., Vapk V.., 1999. Support Vector Maches for Spam Categorzato, IEEE Trasactos O eural etworks, pages 1048-1054. [6] Karl-Mchael Scheder, A Comparso of Evet Models for ave Bayes At-Spam E- Mal Flterg, 10th Coferece of the Europea Chapter of the Assocato for Computatoal Lgustcs (EACL 03), pp. 207-314, 2003. [7] Adroutsopoulos I., Palouras G., Karkaletss V., Sakks G., Spyropoulos C.D., Stamatopoulos P., 2000, Learg to flter Spam E-Mal: AComparso of a aïve Bayesa ad a Memory-Based Approach, Proc. of the workshop o Mache Learg ad Textual Iformato Access, 4 th Europea Coferece o Prcples ad Practce of Kowledge Dscovery Databases, Frace [8] Duda, R.O. ad P.E. Hart. 1973. Bayes Decso Theory. Chapter 2 Patter Classfcato ad Scee Aalyss, pages 10 43. Joh Wley. [9] Chh-Chug Chag ad Chh-Je L, LIBSVM : a lbrary for support vector maches, 2001. Software avalable at http://www.cse.tu.edu.tw/~cl/lbsvm [10] Vapk, 1995. The ature of Statstcal Learg Theory. Sprger-Verlag, 1995. [11] J. C. Platt, 1998. Sequetal mmal optmzato: A fast algorthm for trag support vector maches, Advaces Kerel Method: Support Vector Learg, Scholkopf, Burges, ad Smola, Eds. Cambrdge, MA: MIT Press, pp. 185 208.