Çok Katmanlı Algılayıcı, K-NN ve C4.5 Metotlarıyla İstenmeyen E-postaların Tespiti

Benzer belgeler
Otomatik Doküman Sınıflandırma

Otomatik Doküman Sınıflandırma

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Türkçe Dokümanlar Ġçin Yazar Tanıma

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

K En Yakın Komşu Methodu (KNearest Neighborhood)

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

Uzaktan Algılama Teknolojileri

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması

Şifrebilimde Yapay Sinir Ağları

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Esnek Hesaplamaya Giriş

Yapay Sinir Ağları. (Artificial Neural Networks) DOÇ. DR. ERSAN KABALCI

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Şekil Tanıma Final Projesi. Selçuk BAŞAK

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

BAŞKENT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BENZER SÜREÇLERDE ÜRETİLEN ÜRÜNLER İÇİN YAPAY ZEKA İLE ZAMAN TAHMİNİ SONER ŞÜKRÜ ALTIN

MÜFREDAT DERS LİSTESİ

T.C. KIRIKKALE ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ YAPAY SİNİR AĞLARI. Doç.Dr. Necaattin BARIŞÇI FİNAL PROJESİ

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

ESTIMATION OF EFFLUENT PARAMETERS AND EFFICIENCY FOR ADAPAZARI URBAN WASTEWATER TREATMENT PLANT BY ARTIFICIAL NEURAL NETWORK

İlk Yapay Sinir Ağları. Dr. Hidayet Takçı

YAPAY ZEKA (Artificial Intelligence)

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Yard. Doç. Dr. İrfan DELİ. Matematik

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

Gevşek Hesaplama (COMPE 474) Ders Detayları

Web Madenciliği (Web Mining)

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Gözetimli & Gözetimsiz Öğrenme

Karar Ağaçları Destekli Vadeli Mevduat Analizi. Bank Deposit Analysis Based on Decision Tree

WEB SAYFALARINA İLİŞKİN YAPAY SİNİR AĞLARI İLE SINIFLANDIRMA YÖNTEMİ

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Makine Öğrenmesi 3. hafta

Harran Üniversitesi Mühendislik Dergisi. Mikro-dizilim Veri Sınıflandırmasında Öznitelik Seçme Algoritmalarının Karşılaştırılması

Veri Madenciliği Karar Ağacı Oluşturma

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

Zeki Optimizasyon Teknikleri

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

YAPAY SĠNĠR AĞLARININ EKONOMĠK TAHMĠNLERDE KULLANILMASI

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

BCA605 Bilgisayar Oyunlarında Yapay Zeka

QUANTILE REGRESYON * Quantile Regression

CBS ve Coğrafi Hesaplama

Spam filtrelemek için kaydırmalı ikili örüntüler tabanlı yeni bir yaklaşım

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Görüntü Sınıflandırma

Kelebek Görüntülerin Sınıflandırılmasında Yeni Yerel İkili Örüntüler

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Çok Katmanlı Algılayıcı (Multilayer Perceptron) DOÇ. DR. ERSAN KABALCI

Metin Sınıflandırma. Akış

Zeki Optimizasyon Teknikleri

FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ/YAZILIM MÜHENDİSLİĞİ (DR)

TUĞLA VE KİREMİT FABRİKALARININ HAVA KİRLİLİĞİNE KATKILARININ YAPAY SİNİR AĞI MODELLEMESİ İLE ARAŞTIRILMASI

GÜNCEL METOTLARLA RESĠM SINIFLANDIRMA

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Örüntü Tanıma (COMPE 467) Ders Detayları

Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Eş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama

Makine Öğrenmesi 2. hafta

SİMÜLASYON-YAPAY SİNİR AĞI İLE ESNEK ÜRETİM SİSTEMİ TASARIMI

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Araştırma Görevlisi İSMAİL ÇÖLKESEN

SÜREKLİ DOĞAL GERİLİM VERİLERİNİN YAPAY SİNİR AĞLARI İLE DEĞERLENDİRİLMESİ, DEPREM ve YAĞIŞLARLA İLİŞKİSİ

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Yapay Sinir Ağları (Artificial Neural Networks)

Hafta 05 - Karar Ağaçları/Kümeleme

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

ÇİMENTO BASMA DAYANIMI TAHMİNİ İÇİN YAPAY SİNİR AĞI MODELİ

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Geliştirilmiş Fisher Ayraç Kriteri Kullanarak Hiperspektral Görüntülerde Sınıflandırma

TÜRKÇE DOKÜMANLAR İÇİN YAZAR TANIMA

Üç Fazlı Sincap Kafesli bir Asenkron Motorun Matlab/Simulink Ortamında Dolaylı Vektör Kontrol Benzetimi

Anahtar Bağımlı Bir Şifreleme Algoritması (IRON)

Yapay Zeka Teknikleri ve Yapay Sinir Ağları Kullanılarak Web Sayfalarının Sınıflandırılması

Karar Ağacı Öğrenmesi(Decision Tree Learning)

BOĞAZİÇİ ÜNİVERSİTESİ MEKATRONİK UYGULAMA VE ARAŞTIRMA MERKEZİ FAALİYET RAPORU

MATEMATİK BÖLÜMÜ BÖLÜM KODU:3201

OTO KODLAYICI TABANLI DERİN ÖĞRENME MAKİNALARI İLE SPAM TESPİTİ. Cumhuriyet Üniversitesi Yönetim Bilişim Sistemleri Bölümü

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

YAPAY ÖĞRENME İLE TÜRKİYE NİN KURULU GÜCÜNÜN 2023 YILINA KADAR TAHMİNİ

Transkript:

Çok Katmanlı Algılayıcı, K-NN ve C4.5 Metotlarıyla İstenmeyen E-postaların Tespiti Kadir Tekeli, Rıfat Aşlıyan Adnan Menderes Üniversitesi, Matematik Bölümü, Aydın kadir.tekeli@gmail.com, rasliyan@adu.edu.tr Özet: Bu çalışmada, istenmeyen e-postaların Çok Katmanlı Algılayıcı (ÇKA), K-En Yakın Komşu (K-NN) ve C4.5 metotları kullanılarak tespit uygulamaları yapılmıştır. Bunun için UCI Makine Öğrenmesi Havuzundaki Spambase veri seti, "arff" formatına dönüştürülmüştür. WEKA yazılımı kullanılarak eğitim ve test işlemleri için eğitim ve test veri setleri elde edilmiştir. Eğitim setindeki verilerle sistem eğitilmiş ve test veri setleriyle sistemin başarısı test edilmiştir. Bilgi kazanımı metoduyla en değerli on, yirmi, otuz, kırk, elli ve bütün öznitelikler için gerçekleştirilen uygulamalar karşılaştırılmıştır. K-Katlamalı Çapraz Doğrulama yaklaşımı ile yapılan uygulamalarda kullanılan sınıflandırma metotlarından ÇKA, K-NN ve C4.5 ile başarıları F-ölçüsü ve Doğruluk Oranına göre karşılaştırılmıştır. En yüksek başarı F-ölçüsü ve Doğruluk oranına göre %92,8 C4.5 algoritmasıyla öznitelik sayısı 50 alındığında elde edilmiştir. Anahtar Sözcükler: İstenmeyen E-posta Tespiti, Çok Katmanlı Algılayıcı, K-En Yakın Komşu, C4.5. Spam E-mail Detection Using Multilayer Perceptron, K- Nearest Neighbor and C4.5 methods Abstract: In this study, we have developed the systems of detecting spam e-mails using Multilayer Perceptron, K-Nearest Neighbor and C4.5 methods. For that, the Spambase data set, which is taken from UCI Machine Learning Repository, has been converted to "arff" format. We have trained and tested the data sets using WEKA software. After training and testing operation, the successes of the systems have been measured. Using Information Gain, the most valuable features have been determined for ten, twenty, thirty, fourty, fifty and fiftyseven features, then the systems have been compared according to the number of the features. The applications which have been developed with K-Fold Cross Validation technique have been evaluated by F-measure and Accuracy. The best result (F-measure and Accuracy: 92.8%) has been reached with C4.5 method when the number of features is fifty. Keywords: Spam E-mail Detection, Multilayer Perceptron, K-Nearest Neighbor, C4.5. 1. Giriş İstenmeyen e-postalar [1], günlük yaşantımızda en çok karşılaştığımız rahatsız edici problemlerden biridir. İstenmeyen e- postalar hem zaman kaybına sebep olmaktadır hem de güvenliğimizi tehlikeye atmaktadır. İstenmeyen e-postalardan kurtulmak için bu e-postaları otomatik olarak tespit etmek ve filtrelemek gerekir. Günümüzde, birçok istenmeyen e-posta filtre uygulamaları vardır. Hemen hemen bütün e- posta sunucuları, gelen e-postaları filtrelerler. Fakat, yinede bir çok istenmeyen e-postayla uğraşmak zorunda kalırız. İstenmeyen e- postaları gönderenler, istenmeyen e-posta

filtre uygulamalarını engellemek için sürekli yeni yöntemler geliştirmeye uğraşıyorlar. Buna karşın, araştırmacılar ise istenmeyen e- postaların önlenmesi için büyük çaba sarf etmektedirler. İstenmeyen e-postaların tespiti, bir tür sınıflandırma problemidir. Bu nedenle, Naive Bayes [2], [3], [4], [5], bellek tabanlı yaklaşım [6], [7], [8], karar ağaçları [9], Destek Vektör Makineleri [10], [11], [12], yapay sinir ağlarından Learning Vector Quantization [13], [14] ve Çok Katmanlı Algılayıcı [15] gibi metotlarla istenmeyen e- postaların engellenmesiyle ilgili çalışmalar yapılmıştır. İstenmeyen e-postaların tespiti genel olarak e- postanın içeriğini göre yada e-postayı gönderen kişinin kim olduğunu inceleyerek gerçekleştirilir. Bu çalışmamızda içerik tabanlı istenmeyen e- posta tespit uygulamaları geliştirilmiştir. Bunun için yapay sinir ağlarından Çok Katmanlı Algılayıcı (ÇKA), bellek tabanlı sınıflandırma metotlarından K-En Yakın Komşu (K-NN) ve karar ağaçlarından C4.5 metotları kullanılmıştır. Veri setimizde toplam 57 tane öznitelik bulunmaktadır. Fakat, bilgi kazancı (Information Gain) kullanarak farklı sayıda öznitelik değerlerine göre uygulamalar da yapılmıştır. Elde edilen sonuçların güvenilirliğinin sağlanması için K- Katlamalı Çapraz Doğrulama yaklaşımı kullanılmıştır. Burada, yapılan çalışmalar sonucunda optimum değerin 10 olmasından dolayı K için 10 seçilmiştir [16]. Yani veri seti 10 eşit parçaya bölünmüştür. Bunun 9 tanesi eğitim için 1 tanesi ise test için kullanılmaktadır. Bu şekilde her bir parçası test için ve diğer 9 parçası eğitim için kullanılarak 10 defa uygulama yapılır. Çıkan sonuçların ortalaması sistemin başarısı olarak kabul edilir. Bu çalışmanın ikinci bölümünde geliştirilen sistemlerin genel olarak yapısı anlatılmaktadır. Üçüncü bölümde ise ÇKA, K-NN ve C4.5 metotları açıklanmıştır. Dördüncü bölümde deneysel sonuçlar verildikten sonra son bölümde yapılan çalışma özetlenmiş ve tartışılmıştır. 2. Sistem Mimarisi Genel olarak istenmeyen e-postaların tespitinde Şekil 1'de görüldüğü gibi önişleme, özniteliklerin çıkarılması ve sınıflandırma safhalarından oluşmaktadır. Önişleme safhasında, metin sınıflandırma probleminde olduğu gibi e-postaların içeriğindeki etkisiz kelimeler (stop words: ve, veya, ile,...) atılır ve istenmeyen e-postaların tespitinde önemli olabilecek değerli veriler (sözcük, deyim, sözcüğün kökleri, heceleri, harfleri gibi) tespit edilir. Özniteliklerin çıkarılmasında ise karar verilen terimlerin frekansları şeklinde her e-posta bir vektör olarak temsil edilir. Sonrasında uygulanan metoda göre eğitim setindeki e-postayı temsil eden vektörlere göre eğitilerek normal e-posta ile istenmeyen e-posta modelleri oluşturulur ve bu modeller kullanılarak test veri setindeki örnekler üzerinde sistemin başarısı ölçülür. Bu modellerle, sistem, normal veya istenmeyen e-posta olup olmadığına karar verir. Şekil 1. İstenmeyen e-posta tespitinin genel yapısı 3. Sistem Mimarisi Bu çalışmada kullanılan K-En Yakın Komşu, Çok Katmanlı Algılayıcı ve C4.5 sınıflandırma metotları aşağıda ayrıntılı bir şekilde anlatılmıştır.

3.1. K-En Yakın Komşu Metodu Sınıfları belli olan bir örnek kümesindeki gözlem değerlerinden, örneğe katılacak yeni bir gözlemin hangi sınıfa ait olduğunu belirlemek amacı ile K-En Yakın Komşu algoritması [6], [7], [8], (K-Nearest Neighbors Algorithm) kullanılmaktadır. Bu yöntem, örnek kümedeki gözlemlerin her birinin, sonradan belirlenen bir gözlem değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip K sayıda gözlemin bulunduğu sınıfın seçilmesi esasına dayanmaktadır. Örneğin, K=3 için yeni bir eleman sınıflandırılmak istensin. bu durumda eski sınıflandırılmış elemanlardan en yakın 3 tanesi alınır. Bu elamanlar hangi sınıfa dahilse, yeni eleman da o sınıfa dahil edilir. Uzaklıkların hesaplanmasında Öklid uzaklık formülü kullanılabilir. Aralarındaki uzaklık hesaplanacak x ve y noktaları için aşağıdaki Öklid uzaklık formülü kullanılabilir: (1) Şekil 2 de K-NN algoritması ile ilgili basit bir örnek verilmiştir. Mavi karelerden ve kırmızı üçgenlerden oluşan iki sınıfımız olsun. Yeşil daire ise sınıfını belirlemek istediğimiz test verimiz olsun. Eğer K=3 seçilirse dairemize yakın iki üçgen bir kare olduğundan üçgen sınıfını seçmeliyiz. Fakat K=5 seçilirse dairemize yakın 3 kare 2 üçgen olduğundan kare sınıfını seçmeliyiz. Bu nedenle K nın seçimi kritiktir. 3.2 Yapay Sinir Ağları Yapay sinir ağları insan beyninin sinir sistemini model alan ve çalışma prensibine dayanan bir yöntemdir. İnsan beyninin öğrenme yolu ile yeni bilgiler üretebilme, keşfedebilme, mevcut bilgiler ile olaylar hakkında yorum yapabilme, karar verebilme, olaylar arasında ilişki kurabilme gibi özelliklerini yapabilmek için tasarlanmıştır. Bir yapay sinir ağı belli bir amaç için oluşturulur ve insanlar gibi örnekler sayesinde öğrenir. İnsanlarda öğrenme sinir hücrelerinin arasındaki sinaptik boşluklarda yer alan elektriksel ayarlamalarla oluyorken, Yapay Sinir Ağlarında bu durum tekrarlanan girdiler sayesinde ağın kendi yapısını ve ağırlıklarını değiştirmesi ile olmaktadır. İnsanlardaki sinir hücresinin Yapay Sinir Ağlarındaki karşılığı proses elemanıdır ve Yapay Sinir Ağları birçok proses elemanının birleşmesi ile oluşur. Yapay Sinir Ağları öğretmenli öğrenme, öğretmensiz öğrenme ve destekleyici öğrenme olarak 3 farklı öğrenme tipine sahiptir. Bu çalışmada öğretmenli öğrenme metotlarından olan Çok Katmanlı Algılayıcı [15] ağı kullanılmıştır. Çok Katmanlı Algılayıcı Modeli, 1 girdi katmanı, 1 veya daha fazla ara katman ve bir de çıktı katmanından oluşur. Şekil 3'te Çok Katmanlı Algılayıcı Modelinin yapısı verilmiştir. Dış dünyadan alınan bilgiler hiçbir işleme tabi tutulmadan ara katmana iletilir. Dolayısıyla bu katmandaki k tane proses elemanının çıktısı Denklem 2'de görüldüğü İ üzere Ç K olarak belirlenir. Ç G İ K k (2) Şekil 2. K-En Yakın Komşu algoritması

ağın çıktısı olmak üzere çıktı katmanındaki m. proses elemanında oluşan hata Denklem 5 te verilmiştir. E m B m Ç 3.3 C4.5 Metodu m (5) Şekil 3. Çok Katmanlı Algılayıcı Modeli Ara katmandaki her bir proses elemanının çıktısı girdi katmanından gelen her bir çıktının ağırlıkları ile ( A 1, A2,...) çarpımlarının toplanması sonucu elde edilir. NET n k1 A Ç k k A k (3) Denklem 3'te k. girdi katmanı elemanını. ara katman elemanına bağlayan bağlantının ağırlık değerini gösterir.. ara katman elemanının çıktısı NET girdinin aktivasyon fonksiyonundan geçirilmesi ile hesaplanır. Kullanılan aktivasyon fonksiyonu, lineer fonksiyon, step fonksiyonu, sinüs fonksiyonu, eşik değer fonksiyonu, hiperbolik tanant fonksiyonu veya sigmoid fonksiyonu olabilir. Bu çalışmada ağın bütün elemanları için aktivasyon fonksiyonu olarak sigmoid fonksiyon kullanılmıştır. Sigmoid fonksiyona göre ara katmanın çıktısı Denklem 4'teki gibidir. 1 Ç 1 e ( NET ) (4) Ele alınan değeri ara katmandaki. elemana bağlanan eşik değer elemanının ağırlığıdır. Burada ağın çıktısı ile beklenen çıktı arasındaki fark hatayı verir. Bu hata tekrar geriye doğru yayılarak minimuma düşünceye kadar yapay sinir ağının ağırlıkları değiştirilir.,,... ağın beklenen çıktıları, 1 2 Ç,,... 1 Ç 2 Metinsel nitelikleri sınıflandırmak için Quinlan ın ID3 algoritması kullanılabilir. Fakat, sayısal nitelikler söz konusu olduğunda farklı bir yolun izlenmesi gerekmektedir. Bu amaçla yine Quinlan tarafından geliştirilen C4.5 [9] yöntemi kullanılmaktadır. Sayısal niteliklere ilişkin testlerin formüle edilmesinde bazı zorluklar görülebilir. Değerleri iki aralığa bölmek için eşik değer bulunmalıdır. En büyük bilgi kazancını sağlayacak biçimde bir eşik değer belirlenir. Bunun için nitelik değerleri sıralanır ve eşik değer olarak değerlerin orta noktası alınabilir. Örneğin Nitelik={65, 70, 80, 85, 90, 95, 96} şeklindeki veri grubu için eşik değeri (80, 85) aralığın orta noktası olan (80+85)/2 ) 83. Sonrasında ">83" ve "<=83" şeklinde iki sınıf oluşturulabilir. Buna göre her özniteliğin entropisi aşağıdaki denklemdeki gibi hesaplanır. Bu denklemde H, özniteliğin entropisini; p i ise özniteliğin i. değerinin olasılığını temsil etmektedir. H( Öznitelik) n i 1 p i log ( p ) 2 i (6) Her öznitelik için Bilgi Kazancı (Information Gain) hesaplanır. Aşağıdaki denklemde, X, özniteliği; T, sınıfı; T, sınıf değerlerinin toplam frekansını; X i, özniteliğin i. değerinin frekansını ifade etmektedir. Kazanç( X, T) H( T) H( X, T) H( X, T) n i 1 X i H( X i ) T (7) (8) Her özniteliğin Bilgi Kazancı hesaplandıktan sonra. En yüksek değere sahip öznitelik belirlenerek karar ağacının düğümü bu öznitelik olmasına karar verilir. Veri setinden

bu öznitelik çıkarılarak aynı işlemlere tekrar devam edilir ve yeni en yüksek Bilgi Kazancına sahip öznitelik belirlenir. Bu işlemlere, en son özniteliğe kadar devam edilir. Böylece karar ağacı oluşturulur ve karar ağacının kurallarına göre sınıflandırma süreci başlar. 4. Deneysel Sonuçlar Deneysel çalışmalar, için UCI Makine Öğrenmesi Havuzundaki Spambase [17] veri setinde gerçekleştirildi. Bu veri setinde 57 öznitelik ve toplam 4601 örnek bulunmaktadır. Bütün değerler sayısal verilerden oluşmaktadır. Veri seti iki 0 ve 1 olmak üzere iki sınıftan oluşmaktadır. 1, istenmeyen e-posta; 0 ise normal e-posta olduğunu belirtmektedir. Bu çalışmada gerçekleştirilen uygulamalar Intel(R) Core Duo CPU T9600 2.8 GHz işlemci, 4 GB RAM, 250 GB SSD sabit disk ve Windows 7 işletim sistemine sahip bilgisayar üzerinde gerçekleştirilmiştir. Veri setinin "arff" formatına dönüştürülmesi işlemi MATLAB ile yapılmıştır. Fakat, sınıflandırma uygulamaları ise ava diliyle yazılmış olan açık kaynak kodlu WEKA [18] yazılımı ile yapılmıştır. Özniteliklerin elde edilmesin Bilgi Kazancı (Information Gain) yaklaşımı kullanıldı. Bilgi Kazancı, değişkenlerin belirsizliğinin ölçüsü olan entropiye bağlı olarak hesaplanmaktadır. Bilgi Kazacının hesaplanması, Bölüm 2.3 te C4.5 metodu anlatılırken bahsedilmektedir. Uygulamalar gerçekleştirilirken metotlara bağlı parametreler şöyle seçilmiştir: ÇKA (Öğrenme Katsayısı: 0,1; Momentum Katsayısı: 0,1; Aktivasyon Fonksiyonu: Sigmoid; Gizli Katman Sayısı:1; Gizli Katman Proses Elemanı Sayısı:6), C4.5 (C:0,3; M:2). Burada seçilen parametre değerleri, yapılan birçok uygulamalar sonucunda en iyi sonucu veren parametre değerleridir. Tablo 1, 2 ve 3'te uygulamaların deneysel sonuçları topluca verilmiştir. Çok Katmanlı Algılayıcı metoduyla yapılan deneyler sonucunda en yüksek Doğruluk ve F-ölçüsü değeri %92,7 olmuştur. En iyi sonuca bilgi kazancı kullanılarak elde edilen 20 öznitelik değerine göre ulaşılmıştır. Çok Katmanlı algılayıcılarda öznitelik sayısı arttığı zaman eğitim süreci de çok uzamaktadır. ÇKA metoduyla toplam 57 özniteliği kullanmaya gerek kalmamaktadır. Dolayısıyla, büyük bir avanta sağlanmaktadır. Karar ağaçlarından C4.5 metoduyla geliştirilen sistemler sonucunda en başarılı F- ölçüsü ve Doğruluk oranı değeri %92,8 olarak hesaplanmıştır. En iyi sonuç, öznitelik sayısı 50 olduğunda elde edilmiştir. K-NN metoduyla yapılan deneylerde ise bütün öznitelikler kullanıldığında elde edilmiştir. En yüksek değerler ise %90,8 olarak ölçülmüştür. Üç farklı metotlarla gerçekleştirilen istenmeyen e-postaların tespiti çalışmasında şu sonuçlara ulaştık. ÇKA ve C4.5 metotları bir birine çok yakın başarılara ulaşmışlarsa da en başarılı metodu C4.5 olmuştur. K-NN metodu %2 oranında daha başarısız olmuştur. K-NN metoduna en iyi sonuç K=1 olduğunda elde edilmiştir. Genel olarak K=1 için daha iyi değerler bulunmuştur. Öznitelik sayısının belirlenmesinde metotlar etkili olmaktadır. Yani seçilen metotlara göre en başarılı öznitelik sayısı değişmektedir. Örneğin, ÇKA için en iyi öznitelik sayısı 10 iken C4.5 için 50, K-NN için ise 57 olmuştur. Tablo 1. ÇKA metoduyla F-ölçüsü ve Doğruluk oranı değerleri Öznitelik Sayısı Doğruluk Oranı (%) F-ölçüsü (%) 10 91,8 91,8 20 92,7 92,7 30 92,4 92,4 40 92,4 92,4 50 92,6 92,6 57 92,5 92,5

Tablo 2. C4.5 metoduyla F-ölçüsü ve Doğruluk oranı değerleri Öznitelik Sayısı Doğruluk Oranı (%) F-ölçüsü (%) 10 92,1 92,1 20 92,6 92,6 30 92,5 92,5 40 92,6 92,6 50 92,8 92,8 57 92,7 92,7 Tablo 3. K-NN metoduyla F-ölçüsü ve Doğruluk oranı değerleri Öznitelik Sayısı 10 20 30 40 50 57 5. Tartışma ve Sonuçlar K Doğruluk F-ölçüsü Oranı (%) (%) 1 89,7 89,7 3 90,3 90,2 5 90,4 90,4 1 89,6 89,6 3 89,2 89,1 5 89,0 89,0 1 90,4 90,4 3 90,4 90,4 5 90,0 90,0 1 90,4 90,4 3 89,9 89,9 5 90,1 90,0 1 90,6 90,6 3 90,2 90,2 5 90,2 90,1 1 90,8 90,8 3 90,2 90,2 5 90,4 90,4 İstenmeyen e-postaların tespiti ile ilgili bu çalışmamızda ÇKA, K-NN ve C4.5 metotlarını kullandık. En değerli on, yirmi, otuz, kırk, elli özniteliği Bilgi Kazancı ile belirledikten sonra her biri için F-ölçüsü ve doğruluk oranları ile sistemlerin başarısını değerlendirdik. K-Katlı Çapraz Doğrulama (K=10) ile sistem başarısı daha güvenilir olarak ölçüldü. Deneysel sonuçlara göre en yüksek başarı değerine, C4.5 metodu, öznitelik sayısı 50 olduğunda hem F-ölçüsü hem de doğruluk oranına göre %92,8 sonuçla ulaştı. ÇKA metodu da C4.5 metoduna çok yakın bir değer olan %92,7 ile iyi bir sonuca ulaştı. Bunun için öznitelik sayısı 20 alınmıştır. Bu metotlar arasında en başarısız metot K-NN metodu olmuştur. İstenmeyen e-postaların tespitinde daha farklı sınıflandırma metotları kullanılabilir. Farklı veri setleri kullanılarak bu metotlar karşılaştırılabilir. Karma sistemler de tasarlanabilir. 6. Kaynaklar [1] Guzella, T. S., and Caminhas, W. M., "A review of machine learning approaches to Spam filtering", Expert Systems with Applications, 36(7), 10206-10222, (2009). [2] Androutsopoulos, I., Koutsias, J., Chandrinos, K., Spyropoulos, C., "An experimental comparison of naive bayesian and keyword-based anti-spam filtering with personal e-mail messages", In: Proceedings of the 23rd annual international special interest group on information retrieval (SIGIR) conference on research and development in information retrieval, SIGIR 00, ACM, New York, NY, USA, 160 167, (2000). [3] John, G.H., Langley, P., "Estimating continuous distributions in bayesian classifiers", In: Proceedings of the eleventh conference on uncertainty in artificial intelligence, UAI 95, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 338 345, (1995). [4] Sahami, M., Dumais, S., Heckerman, D., Horvitz, E., "A bayesian approach to filtering unk e-mail", (1998). [5] Androutsopoulos, I., Paliouras, G., Karkaletsis, V., Sakkis, G., Spyropoulos, C., Stamatopoulos, P., "Learning to filter spam e- mail: a comparison of a naive bayesian and a memory-based approach". Computing Research Repository (CoRR) cs.cl/0009009, (2000).

[6] Cover, T.M., and Hart, P.E., "Nearest Neighbor Pattern Classification", IEEE Transactions on Information Theory, 13:21-27, (1967). [7] Arya, S., Mount, D.M., Netanyahu, N.S., Silverman, R., Wu, A.Y., "An optimal algorithm for approximate nearest neighbor searching in fixed dimensions", Journal of the ACM,45:891-923, (1998). [8] Sakkis, G., Androutsopoulos, I., Paliouras, G., Karkaletsis, V., Spyropoulos, C., Stamatopoulos, P., "Ling-spam - from a memory-based approach to anti-spam filtering for mailing lists", Information Retrieval, 6:49-73, (2003). [9] Shi, L., Wang, Q., Ma, X., Weng, M., and Qiao, H., "Spam email classification using decision tree ensemble", Journal of Computational Information Systems, 8(3), 949-956, (2012). [10] Sculley D., Wachman G.M., "Relaxed Online SVMs for Spam Filtering", Proc. of the 30th Ann. Internat. ACM SIGIR Conf. on Research and Develop. in Informat. Retrieval, 415 422, (2007). [11] Cristianini N., Shawe-Taylor J., "An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods", Cambridge Univ. Press, (2000). [14] Chuan, Z., Xianliang, L., Qian, X., "A Novel Anti-spam Email Approach Based on LVQ", Parallel and Distributed Computing: Applications and Technologies, Lecture Notes in Computer Science, Volume 3320, 180-183, (2005). [15] Wu, C.H., and Tsai, C.H., "Robust classification for spam filtering by backpropagation neural networks using behaviorbased features", Applied Intelligence, 31(2), 107-121, (2009). [16] Breiman L., Friedman J.H., Olshen R.A. and Stone C.J., "Classification and Regression Trees", Wadswort and Brooks/Cole Advanced Books and Software, Monterey, CA, (1984). [17] Lichman, M., "UCI Machine Learning Repository", [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, (2013). [18] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H., "The WEKA Data Mining Software", An Update; SIGKDD Explorations, Volume 11, Issue 1, (2009). [12] Islam, M.R., Geelong, V., Chowdhury, M.U., Wanlei Z., "An Innovative Spam Filtering Model Based on Support Vector Machine", Computational Intelligence for Modelling, Control and Automation, and International Conference on Intelligent Agents, Web Technologies and Internet Commerce, International Conference on, 28-30 Nov, 348-353, (2005). [13] Chuan, Z., Xianliang, L., Mengshu, H. and Xu, Z., "A LVQ-based neural network anti-spam email approach", SIGOPS Oper. Syst. Rev. 39, 1 January, 34-39, (2005).