Yıl Üniversitesi, yesilova@yyu.edu.tr



Benzer belgeler
Kaba Küme Yaklaşımıyla Güç Kalitesindeki Bozulma Türlerinin Sınıflandırılması

YAPAY ZEKA (Artificial Intelligence)

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

A. SCI ve SCIE Kapsamındaki Yayınlar

AYRIK YAPILAR ARŞ. GÖR. SONGÜL KARAKUŞ- FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ YAZILIM MÜHENDİSLİĞİ BÖLÜMÜ, ELAZIĞ

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Makine Öğrenmesi 1. hafta

Örnek Uzay: Bir deneyin tüm olabilir sonuçlarının kümesine Örnek Uzay denir. Genellikle harfi ile gösterilir.

KÜMELER. A = {x : (x in özelliği)} Burada x : ifadesi öyle x lerden oluşur ki diye okunur. Küme oluşturur. Çünkü Kilis in üç tane ilçesi.

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Teknik Açıklıklar Nasıl Yönetilmeli? Hayretdin Bahşi Uzman Araştırmacı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

ÖZGEÇMİŞ VE ESERLER LİSTESİ

ALGORİTMA İ VE PROGRAMLAMA

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

ZEMİN SINIFLAMASINDA BULANIK MANTIK UYGULAMASI SOIL CLASSIFICATION AN APPLICATION WITH FUZZY LOGIC SYSTEMS

BCA605 Bilgisayar Oyunlarında Yapay Zeka

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

T.C. SELÇUK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Vektör Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr.Grv.Dr.Nevin ORHUN

ARAŞTIRMA YAKLAŞIM - DESEN ve YÖNTEMLERİ

Kısmen insan davranışlarını veya sezgilerini gösteren, akılcı yargıya varabilen, beklenmedik durumları önceden sezerek ona göre davranabilen bir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

DR. GÜLESİN SENA DAŞ

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Türkçe Dokümanlar Ġçin Yazar Tanıma

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

Güz Dönemi Zorunlu Dersleri

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

Mühendislik Ekonomisi. Prof.Dr. Orhan TORKUL

Web Madenciliği (Web Mining)

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

RASYONEL SAYILARIN MÜFREDATTAKİ YERİ MATEMATİK 7. SINIF RASYONEL SAYILAR DERS PLANI

Örtü Altında Elma Yetiştiriciliği

Cebir Notları. Bağıntı. 1. (9 x-3, 2) = (27, 3 y ) olduğuna göre x + y toplamı kaçtır? 2. (x 2 y 2, 2) = (8, x y) olduğuna göre x y çarpımı kaçtır?

MEGEP (MESLEKİ EĞİTİM VE ÖĞRETİM SİSTEMİNİN GÜÇLENDİRİLMESİ PROJESİ)

Matematiksel İktisat-I Ders-1 Giriş

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

ÖZGEÇMİŞ. 2. Doğum Yeri ve Tarihi : Washington DC - 22 Temmuz Derece Alan Üniversite Yılı Bilgisayar-Kontrol Marmara Üniversitesi

Sınav : MATEMATİK (TÜRKÇE) ÖĞRETMENİ (GOÖD) Yarışma Sınavı A ) B ) C ) D ) E ) A ) B ) C ) D ) E ) 5 A ) B ) C ) A ) B ) C ) D ) E ) D ) E )

İST60 TELESKOBU PERFORMANS DEĞERLENDİRMESİ ve İLK GÖZLEMLER

İstatistik ve Olasılık

Uzaktan Algılama Uygulamaları

Örnek...3 : 8 x (mod5) denkliğini sağlayan en küçük pozitif doğal sayısı ile en büyük negatif tam sa yısının çarpım ı kaçtır?

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

Derece Alan Üniversite Yıl Lisans Elektrik Mühendisliği Yıldız Teknik Üniversitesi 1994 Y. Lisans Elektronik

TAM SAYILARLA İŞLEMLER

Üye : Yrd. Doç. Dr. Erdal ÖZYURT Adnan Menderes Üni. Üye : Yrd. Doç. Dr. Fatih KOYUNCU Muğla Üni.

FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ/YAZILIM MÜHENDİSLİĞİ (DR)

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

N. Murat Arar, N. Kaan Bekmezci, Fatma Güney, Hazım K. Ekenel. Antalya, 22/04/2011

Sosyal Ağlarda Akan Veri Madenciliği

BAĞLAMDAN BAĞIMSIZ (CONTEXT-FREE) GRAMERLER (CFG) VE DİLLER (CFL)

ACİL TELEFON MERKEZLERİ MODELLEMESİNİN ANADOLU ÜNİVERSİTESİ YERLEŞKESİNE UYGULANMASI

Demodülasyon Algoritmaları İçin En İyilenmiş Windows İşletim Sistemi Uygulamaları

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

İÇİNDEKİLER ÖNSÖZ...III AÇIKLAMA... V BÖLÜM I - TEMEL KAVRAMLAR...1

İNSAN KIYMETLERİ YÖNETİMİ 4

SAYISAL GÖRÜNTÜ İŞLEME (Digital Image Processing)

BEÜ GEOMATİK MÜHENDİSLİĞİ BÖLÜMÜ ÖLÇME UYGULAMA II DERSİ İŞ PROGRAMI

Çok Katmanlı Algılayıcı, K-NN ve C4.5 Metotlarıyla İstenmeyen E-postaların Tespiti

Ekle Menüsü İşlevleri ÜNİTE 3. Bu üniteyi çalıştıktan sonra; Ekle Menüsü Çizimler Grafikler Bağlantılar Metin

Yrd. Doç. Dr. Mustafa NİL

Yard. Doç. Dr. İrfan DELİ. Matematik

MATEMATİK DERSİNİN İLKÖĞRETİM PROGRAMLARI VE LİSELERE GİRİŞ SINAVLARI AÇISINDAN DEĞERLENDİRİLMESİ

BÖLÜM 11 Z DAĞILIMI. Şekil 1. Z Dağılımı

Adana Toplu Taşıma Eğilimleri

1. Bölüm: Ağı Keşfetme

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Massachusetts Teknoloji Enstitüsü - Fizik Bölümü

Düzce Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü Bitirme Projesi Yazım Kılavuzu

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

MAT223 AYRIK MATEMATİK

Installation instructions, accessories. Aynalar, kapı. Volvo Car Corporation Gothenburg, Sweden

MÜHENDİSLİK FAKÜLTESİ/ MAKİNA MÜHENDİSLİĞİ EĞİTİM PLANI Saat/Hafta

Volkan Karamehmetoğlu

SOSYAL BİLİMLER ENSTİTÜSÜ/İŞLETME ANABİLİM DALI (DR) SOSYAL BİLİMLER ENSTİTÜSÜ/İŞLETME ANABİLİM DALI (YL) (TEZLİ)

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

SERTLİK ÖLÇME DENEYLERİ

TEMEL İSTATİSTİK KAVRAMLAR

EĞİTİM ÖĞRETİM YILI 8. SINIF MATEMATİK DERSİ KAZANIMLARININ ÇALIŞMA TAKVİMİNE GÖRE DAĞILIM ÇİZELGESİ

EKİM twitter.com/perspektifsa

Sunu: Belli bir konunun resim, grafik, metin, ses ve görüntüler kullanılarak giriş, gelişme, sonuç bölümleriyle sıralı ve düzenli bir şekilde

Şekil 2. Azalan f fonksiyonunun grafiği

Kümenin özellikleri. KÜMELER Burada x : ifadesi öyle x lerden oluşur ki diye okunur. Örnek: Kilis in ilçeleri

GAZİOSMANPAŞA ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/MATEMATİK BÖLÜMÜ/MATEMATİK PR.

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

YİBO Öğretmenleri (Fen ve Teknoloji-Fizik, Kimya, Biyoloji ve Matematik) Proje Danışmanlığı Eğitimi Çalıştayı Matematik Bölümü Proje Raporu

ÇOKLU ZEKA ALANLARI VE SINIF İÇİ OTURMA DÜZENİNE YÖNELİK BİR ÇALIŞMA

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: MME 1001

Geoteknik Mühendisliğinde Bilgisayar Uygulamaları (CE 554) Ders Detayları

ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ MATEMATİK BÖLÜMÜ MODÜLER ARİTMETİK

ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ ENERJİ SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ RMAA LABORATUARI

Üstel modeli, iki tarafın doğal logaritması alınarak aşağıdaki gibi yazılabilir.

Transkript:

Fırat Üniversitesi-Elazığ İSTENMEYEN ELEKTRONİK POSTALARIN(SPAM) FİLTRELENMESİNDE KABA KÜME YAKLAŞIMININ KULLANILMASI Yılmaz KAYA 1 Abdullah YEŞİLOVA 2 Ramazan TEKİN 3 1 Bilgisayar Mühendisliği Böl., Siirt Üniversitesi, ykaya72@hotmail.com 2 Zootekni Böl., Yüzüncü Yıl Üniversitesi, yesilova@yyu.edu.tr 3 Bilgisayar Mühendisliği Böl., Batman Üniversitesi, ramazan_tekin@hotmail.com ÖZET Günümüzde internet teknolojilerinin yaygınlaşması ile önemli haberleşme araçlarından biri olan elektronik haberleşme bazı sorunları da beraberinde getirmiştir. Elektronik haberleşmenin en önemli sorunlarından biri spam olarak isimlendirilen istenmeyen mesajların internette yayılmasıdır. Bu çalışmada spam filtrelemek için kaba kümeler kullanılarak bir sınıflama yöntemi önerilmiştir. Kaba küme yaklaşımı özellikler arasındaki bağımlılıkların belirlenmesi, özelliklerin indirgenmesi, özelliklerin öneminin ortaya konulması ve karar kurallarının oluşturulmasında önemli avantajlar sağlamaktadır. Çalışmada, UCI makine öğrenmesi veri tabanından alınan 4601 elektronik postadan oluşan veri kümesine kaba kümeler uygulanmıştır. Yapay sinir ağları ve Bayesian yöntemlerine nazaran önerilen sınıflama yöntemi ile daha iyi sonuçlar elde edilmiştir. Anahtar Kelimeler: Spam, Kaba Kümeler, Veri Madenciliği 1. GİRİŞ İnternetin en çok kullanılan hizmetlerinden biri elektronik haberleşmedir. Ancak internetin gelişmesi ve yaygınlaşması ile birlikte, elektronik haberleşme bir takım sorunları da beraberinde getirmiştir. Elektronik haberleşmenin en önemli sorunlarından biri spam olarak isimlendirilen istenilmeyen mesajların internette yayılmasıdır. Günümüzde istenmeyen mesajların engellenmesi için veri madenciliği teknikleri ile önlemler alınmaya çalışılmaktadır. Bu amaçla karar destek makineleri, yapay sinir ağları, genetik veya karınca kolonisi, karar destek vektör makineleri, bayesian sınıflandırıcı gibi algoritmalar kullanılarak otomatik spam filtreme araçları geliştirilmiştir [5, 13]. Kaba küme teorisi (KKT), özellik seçimi, özellik çıkarımı, değişken indirgeme, karar kurallarının çıkarılması ve desen çıkarımı için uygulanabilir [12, 18]. Veri kümesindeki bağımlılıkların tamamının veya bir kısmın ortaya çıkarılması, gereksiz verilerin silinmesi ve eksik gözlemlerin tahmin edilmesi gibi amaçlar için kullanılabilir. Kaba kümeler (KK) ile sezgisel (genetik algoritma, karınca kolonisi, parçacık sürü optimizasyonu, bulanık küme, karar ağaçları gibi) yöntemler birlikte kullanılarak melez algoritmalar geliştirilebilir [15]. KK lerin önemli bir özelliği de eksik gözlemlere rağmen if - then kural kümelerinin oluşturulmasında da kullanılabilirler [6]. Bu çalışmada KK kullanılarak spam filtreleme metodu önerilmiştir. kural tabanlı bir 2-MATERYAL VE YÖNTEM 2.1. MATERYAL Veri kümesi Hewlett-Packard laboratuarından elde edilen 4601 elektronik postadan oluşmaktadır. Postalardan 57 özellik elde edilmiştir. İlk 48 özellik elektronik mesajlardan elde edilen kelimelerin frekanslarını göstermektedir. Bununla birlikte 49-54 arasındaki 6 özellik ise elektronik mesajlarda geçen ;, (, [,!, \$ ve \# gibi karakterlerin frekanslarını göstermektedir. 55-57 arasındaki özellikler ise büyük harflerle yazılmış kelimelerin toplam harf sayısı, ortalama harf sayısı ve en uzun kelimenin harf sayısını belirtmektedir. 58. özellik ise elektronik postanın spam olup olmadığını belirtmektedir. Toplam 4601 elektronik postanın 1813 ü spam 2788 posta ise spam değildir. Veri kümesi UCI makine öğrenmesi veri tabanından alınmıştır [9]. Bununla birlikte özellik kümesi Min-Max dönüşümü ile normalleştirilmiştir. Elektronik mesajlardan alınan kelime ve karakterler Çizelge 1 de verilmiştir. Çizelge 1: Veri kümesindeki kelime ve karakterlerin dağılımı 1-make 10-mail 19-28-650 37-1999 46-edu you 2-11- 20-29-lab 38-parts 47-table address receive credit 3-all 12-will 21- your 30-labs 39-pm 48- conferen ce 4-3d 13-22- 31-telnet 40-direct 49- ; people font 5-our 14-report 23-0 32-857 41-cs 50- ( 6-over 15-24- 33-data 42-51- [ addresess money meeting 7-16-free 25-hp 34-415 43-52-! remove original 8- internet 17- business 26-hpl 35-85 44- project 53- $ 9-order 18-email 27- george 36- tecnology 45-re 54- # 148

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 2.2. YÖNTEM 2.2.1. KABA KÜME TEORİSİNİN TEMEL TANIMLARI 2.2.1.1. BİLGİ SİSTEMİ Kaba kümelerde bilgi sitemi S = ( U, Q, V ) şeklinde tanımlanır. Burada U = { x1, x2,... xn} sonlu boş olmayan evreni göstermektedir. Bu çalışmada evren, elde edilen elektronik mesajlar kümesi olmaktadır. Q = AU d sonlu boş olmayan özellik kümesini ve A ise elektronik mesajların hem başlık hem de içeriğinden elde edilen durum özellikleri kümesini göstermektedir. Durum özellikleri kümesi, elektronik mesajlar içinde geçen kelime, karakter veya özel ifadelerin frekanslarını göstermiş olup, A={a1,a2, an} şeklinde bir özellik vektörüdür. d ise elektronik mesajın spam olup olmadığını belirten karar özelliğidir. Bilgi sistemi durum ve karar özelliklerin birleşiminden oluşmaktadır. V =U V a, a özelliğine ait a A değer kümesidir[16]. 2.2.1.2. AYIRT EDİLEMEZLİK İLİŞKİSİ Bir veri kümesinin gereğinden büyük olması veya elde edilen gözlemlerin birbirine benzemeleri ya da aynı olmaları nedeniyle gözlemler birbirinden ayırt edilememektedir. Bu durumda B A olmak üzere B özellik için ayırt edilemezlik ilişkisi IND(B); IND ( B) = {( x1, x2) UxU : a B, a( x1 ) = a( x2)} (1) şeklinde yazılabilir [14]. Burada IND(B), B-ayırt edilemezlik bağıntısıdır. Eğer x 1 ve x 2 IND(B) kümesine ait ise B özellik kümesi ile x 1 ve x 2 birbirinden ayırt edilememektedir. Gözlem kümesi (U=evren), U/IND(B) biçiminde B-ayırt edilememe bağıntısına göre birkaç denklik sınıfına bölünebilir. Bu denklik sınıfları [x] IND(B) şeklinde gösterilir. IND(B) nin tüm denklik sınıfları B nin temel kümesini oluşturmaktadır. Evrenin karar özelliğine göre denklik sınıfları, karar özelliğinin değer sınıflarını oluşturur. 2.2.1.3. KÜME YAKLAŞIMLARI Kaba kümelerde temel amaç IND(B) ikili bağıntısı kullanılarak yaklaşımların oluşturulmasıdır. X U olmak üzere X in B-ayırt edilemezlik bağıntısı kullanılarak X e kesin olarak ait olan kümelerin birleşimidir ve, B X = U { xi U [ xi ] IND( B) X} (2) biçiminde gösterilebilir. Ayrıca üst yaklaşım, _ B X = U x U [ x ] I X φ} (3) { i i IND( B) biçiminde yazılabilir [6, 16]. X U ya ait alt ve üst yaklaşımlar evreni(u) POS(X) pozitif bölge, NEG(X) negatif bölge ve BND(X) sınır bölgesi şeklinde üç bölgeye ayırmaktadır. Bu bölgelere ait kümeler, POS( X ) = B X NEG( X ) = U B X BND( X ) = B X B X şeklinde hesaplanmaktadır [1, 8, 14]. 2.2.1.4. ÇEKİRDEK ÖZELLİK KÜMESİ (CORE ATTRIBUTES) Bir bilgi sisteminden elde edilen indirgenmiş kümelerin kesişiminden elde edilen kümeye A özellik kümesinin çekirdek (Core) özellik kümesi olarak isimlendirilmektedir [2, 11]. Çekirdek özellik kümesi ayırt edilebilirlik matrisinden de elde edilebilir. 2.2.1.5. AYIRT EDİLEBİLİRLİK MATRİSİ S bilgi sisteminde A durum özellikleri için ayırt edilebilir matris M ( A) = ( mi j ) nxn dir. M(A), φ M ( A) = { a A : a( xi ) a( x j )} şeklinde yazılabilir. M(A) ayırt edilebilir matrisi simetri özelliğine sahiptir. M(A) nın her elamanı x i ve x j değerlerini farklı kılan özellikler kümesinden oluşmaktadır. 2.2.1.6. ÖZELLİK SEÇİM METODU Özellik indirgemesi, bir bilgi sisteminin minimum özellik ile açıklanması için özellik kümesinden uygun özelliklerin seçilmesi işlemidir. B A olmak üzere eğer POS ( B) = POS( A) ise bilgi sistemi daha az özellik sayısından oluşan B ile açıklanabilir. Bir bilgi sisteminin birden fazla indirgenmiş özellik kümesi olabilir. İndirgenmiş özellik kümelerinin kesişiminden çekirdek özellikler elde edilir. A özellik kümesinin ayırt edilebilirlik matrisine bağlı olarak yeni bir bilgi sistemi S ', Evren : U ' = {( xi, x j ) UxU : d ( xi ) d( x j )} şeklinde oluşturulabilir. Yeni bilgi sistemindeki (A ) özelliklerine ait değerler önceki bilgi sistemindeki (A) özelliklerin değerlerinden tamamen farklıdır. a' A' olmak üzere yeni bilgi sistemine ait durum özelliklerine ait değerler, 1 eger a'( xi) a'( xj) : ( xi, xj) U ' a ' = (6) 0 eşitliği ile hesaplanmaktadır [19]. Bu durumda, yeni oluşan bilgi sisteminde, gözlemleri karar değişkenin belirtilen sınıflarına ayırabilen özellikler seçilmelidir İlk olarak yeni oluşan bilgi sisteminde değerleri en çok 1 (bir) olan özellikler seçilir. R, seçilen özelliklere ait indirgenmiş küme olmak üzere, varsayalım ki ilk seçilen özellik a olsun R = RU a. Hem a özelliği hem de a özelliği ile oluşturulan değerleri bir (1) olan gözlemler U bilgi sisteminden çıkarılarak yeniden bir bilgi sistemi oluşturulur. A' = A' a ile oluşan yeni bilgi sisteminden tekrardan en çok bir(1) değerine sahip özellik (5) (4) 149

Fırat Üniversitesi-Elazığ seçilir. Bu işlem U bilgi sisteminde hiçbir gözlem kalmayıncaya kadar devam eder. 2.2.1.7. KURAL ÇIKARIMI Kural çıkarımı, durum ve karar özelliklerine göre if A then d şeklinde çıkarılan önermelerdir. Durum özelliklerine göre kural sayısı ciddi anlamda artmaktadır. Ancak özelliklerin kategorik yapıda ve yaklaşımların iyi olması durumunda kural sayısı orantılı olarak artmamaktadır [4, 10]. 2.2..1.8. SINIFLANDIRMA İÇİN KABA KÜMELER Kaba küme yaklaşımları, elektronik mesajları sınıflandırma amaçlı kullanılabilir. Küme yaklaşımlarına göre elektronik mesajların spam olup olmadıkları belirlenebilir. KK de evren üç bölgeye ayrıldığından dolayı karar kuralları bu bölgelerden oluştururular. Oluşturulan karar kurallarına göre yeni elektronik mesajlar sınıflandırılır. POS (X ) bölgesinden oluşturulan kurallara uyan mesajlar spam olarak sınıflandırılırsa, NEG (X ) bölgesinden oluşturulan kurallara uyan mesajlar ise spam olmayan mesajlar olarak değerlendirilebilir Böylece elektronik mesajlar, POS (X ) ve NEG (X ) bölgelerinden elde edilen kurallara göre sınıflandırılmış olur. 2.2.1.9. PERFORMANS ÖLÇÜTLERİ Önerilen metodun performansını ölçmek için aşağıdaki ölçütler kullanılabilir. a, doğru sınıflandırılan spam elektronik posta sayısı, b spam olmayan ancak spam olarak sınıflandırılan mesaj sayısı, c spam olmayan ve doğru sınıflandırılan mesaj sayısı ve d spam olduğu halde spam olmayan olarak sınıflandırılan mesaj sayısını göstersin. Doğru sınıflandırılan spam olmayan mesajların sayısının spam olmayan toplam mesaj sayısına oranı True Pozitif(TP) olup, c TP = (7) b + c şeklinde hesaplanmaktadır. Doğru sınıflandırılan spam mesaj sayısının toplam spam mesaj sayısına oranı True Negatif(TN) olup, a TN = (8) a + d TP + TN B = (11) 2 biçiminde hesaplanabilir [3, 7]. 2.2.1.10. ÖNERİLEN MODEL Bu çalışmada kaba kümeler teorisi kullanılarak önerilen yöntem şekil 1 de verilmiştir. Şekil 1: Kaba küme yöntemi ile spam filtreleme. Veri kümesi şansa bağlı olarak eğitim ve test bilgi sistemleri olarak ikiye ayrılmıştır. Eğitim bilgi sistemi, modeli eğitmek için kullanılmaktadır. Test bilgi sistemi ise modelin etkinliğini saptamak için kullanılmıştır. Önerilen modele göre eğitim bilgi sistemi için ayrılan mesajlardan öncelikle özellik çıkarımı yapılmıştır. Elde edilen özellik kümelerine göre kural veri tabanı oluşturulduktan sonra test bilgi sistemi kural veri tabanına göre sınıflandırılmıştır. 3. BULGULAR Bu çalışmada Kaba küme teorisini kullanılarak bir spam filtreleme yöntemi önerilmiştir. Birinci aşamada elektronik posta içeriklerinden özellik kümesi oluşturulmuştur. Sonraki aşamada ise KK kullanılarak filtreleme üzerinde az etkiye sahip olan özellikler bilgi sisteminden atıldıktan sonra yeni indirgenmiş özellik kümeleri kullanılarak karar kuralları oluşturulmuştur. Test bilgi sistemleri bu karar kurallarına göre sınıflandırılmıştır. Model sırasıyla %10, %20,%30, %90 oranlarında bilgi sistemi ile eğitilmiştir. Eğitim bilgi sistemi KK ile indirgenmiş küme sayıları, özellik kümelerinden elde edilen kural sayısı ve modellere ait çekirdek özellikler Çizelge 2 de verilmiştir. şeklinde hesaplanmaktadır. Yanlış sınıflandırılan spam olmayan mesaj sayınsın toplam spam olmayan mesaj sayısına oranı olan False Pozitif (FP), b FP = (9) b + c şeklinde hesaplanmaktadır. Yanlış sınıflandırılan spam mesaj sayısının toplam spam mesaj sayısına oranı False Negatif (FN) ile gösterilmiş olup, d FN = (10) a + d şeklinde hesaplanmaktadır. Son olarak sınıflandırma başarısı (B), 150

Çizelge 2: Modellere ait çıkarılan kural sayıları ve çekirdek özellikler. İndirgenmiş Model Çıkarılan Kural Özellik Küme Eğitimi En Uzun İndirgenmiş Kümedeki özellik Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 Çekirdek Özellikler %10 10 4193 5 A19 %20 10 8272 6 A19 %30 10 12292 5 A19 %40 10 16600 7 A19,S57 %50 10 18694 11 A19,A52 %60 10 24502 10 A19,A27,A42,A46,A52 %70 10 29340 15 A27,A42,A45,A46,A52,A57 %80 10 33285 13 A19,A27,A42,A45,A46,A52, A57 %90 10 37159 14 A19,A27,A42,A45,A46,A57 Çizelge 2 ye göre eğitim bilgi sistemindeki gözlem sayısı artıkça, çıkarılan kural sayısının arttığı gözlenmiştir. Buna bağlı olarak indirgenmiş özellik kümelerin uzunluklarının arttığı tespit edilmiştir. Gözlem sayısının artışına bağlı olarak gözlemlerin karar özelliğine göre sınıflandırılması karmaşık hale gelmesinden dolayı, Çizelge 3: Sınıflandırma oranları Test Veri Kümesinin Oranı Mesaj Doğru Sınıflandırılan Spam Elektronik Posta Spam Olmayan Ancak Spam Olarak Sınıflandırılan Mesaj gözlemlerin daha fazla özellik ile sınıflandırıldığı ve çekirdek özelliklerinde artış olduğu tespit edilmiştir. Oluşturulan modellerde; doğru sınıflandırılan spam ve spam olmayan elektronik mesaj sayıları, yanlış sınıflandırılan spam elektronik mesaj sayıları ve yanlış sınıflandırılan spam olmayan elektronik mesaj sayılarına ait bilgiler Çizelge 3 de verilmiştir. Spam Olmayan ve Doğru Sınıflandırılan Mesaj Spam Olduğu Halde Spam Olmayan Olarak Sınıflandırılan Mesaj nı %90 4094 981 625 2043 445 %80 3676 1059 394 1945 278 %70 3221 975 268 1690 288 %60 2759 857 246 1500 156 %50 2301 716 186 1312 87 %40 1841 594 143 1042 62 %30 1381 448 93 795 45 %20 921 323 24 525 49 %10 461 179 18 246 18 Çizelge 3 teki sınıflandırma sayıları kullanılarak elde edilen performans ölçütleri Çizelge 4 te verilmiştir. Çizelge 4: Performans ölçütlerine ait sonuçları Test Veri Kümesi TP TN FP FN BS Oranı %90 0,765742 0,687938 0,234258 0,312062 0,72684 %80 0,831552 0,792072 0,168448 0,207928 0,811812 %70 0,863126 0,771971 0,136874 0,228029 0,817549 %60 0,859107 0,846002 0,140893 0,153998 0,852554 %50 0,875834 0,891656 0,124166 0,108344 0,883745 %40 0,879325 0,905488 0,120675 0,094512 0,892406 %30 0,89527 0,908722 0,10473 0,091278 0,901996 %20 0,956284 0,86828 0,043716 0,13172 0,912282 %10 0,931818 0,908629 0,068182 0,091371 0,920224 151

Fırat Üniversitesi-Elazığ Çizelge 4 e göre önerilen modelin çok az bir eğitim bilgi sistemi ile spam elektronik postaları sınıflandırabildiği gözlenmiştir. Eğitim bilgi sistemindeki mesaj sayısının artmasına bağlı olarak başarı sonucunun da artması önerilen modelin kararlılığını ve dayanaklığını göstermektedir. Böylece, çok az bir eğitim bilgi sistemi ile öğrenmenin çok iyi gerçekleştiği gözlenmiştir. Test bilgi sisteminin farklı oranlarına göre başarı grafiği Şekil 2 de verilmiştir. Şekil 2: Başarı Oranları 4. SONUÇ Günümüzde sürekli gelişen internet teknolojileriyle birlikte elektronik posta kullanımı, haberleşmenin en önemli araçlarından biri haline gelmiştir. Çok kısa bir sürede milyonlarca kişinin kullanmaya başladığı ve her geçen gün daha da yaygınlaşan elektronik posta ile haberleşmenin zamanla ticaret, spam ve virüs saldırıları gibi eylemlerin odağı haline gelmiştir. Gündelik yaşantımızın bir parçası haline gelen elektronik posta trafiğinin büyük bir kısmını oluşturan spam elektronik postaları hem kullanıcılar için hem de internet trafiğini için önemli bir sorun haline gelmiştir. Bu çalışmada KKT kullanarak elektronik mesajların sınıflandırılması için kural tabanlı bir model önerilmiştir. Önerilen yöntem ile, aynı veri kümesi için daha önce yapılan çalışmalara göre daha iyi sonuçlar elde edilmiştir. %80 eğitim veri oranı ile yapay sinir ağları kullanılarak sınıflandırma başarısı %90.88, Bayesian sınıflandırma yöntemi kullanılarak sınıflandırma başarısı %75.22 olarak elde edilmiştir [17]. KKT kullanılarak %80 eğitim bilgi sistemi ile sınıflandırma başarısı ise %91.23 olarak tespit edilmiştir. Dolayısıyla önerilen modelin yapay sinir ağlarına ve Bayesian sınıflandırma yöntemlerine göre daha iyi sonuçlar verdiği saptanmıştır KKT ile önerilen yöntemin başarısı eğitim bilgi sisteminden elde edilen kurallara bağlıdır. Yeni bilgi sistemleri çıkarılan kurallara göre sınıflandırıldığından öğrenme tabanlı bir yöntemdir. Kural tabanlı yöntemler diğer yöntemlere göre daha kolay yorumlandıklarından avantajlıdırlar. 5. KAYNAKLAR [1]. Carey, G., Rob, L., Henry, M. K. M. Analyzing and Forecasting Tourism Demand: A Rough Sets Approach, Journal of Travel Research, 46, 327 338, 2008 [2]. Changseok, B., Wei-Chang, Y., Yuk-Ying, C., ve Sin-Long, L., Feature selection with Intelligent Dynamic Swarm and Rough Set, Expert Systems with Applications 37, 7026 7032, 2010 [3]. Chih, H.,W., Chiung, H., T., Robust classification for spam filtering by back-propagation neural networks using behavior-based features, Appl Intel. 31,107 121, 2008 [4]. Dey, S., P. Dey, S., Sil, J., Rough Set Approach to Predict the Strength and Ductility of TRIP Steel, Materials and Manufacturing Processes, 24, 150 154, 2009 [5]. Drucker, H., Wu, D, Vapnik, V., N., Support vector machines for spam categorization, IEEE Transactions on Neural Networks. 10(5), 1048 1054, 1999 [6]. Edita S., Vladimir B, Biljana S., The synthesis of the rough set model for the better applicability of sagittal abdominal diameter in identifying high risk patients, Computers in Biology and Medicine 40, 786 790, 2010 [7]. Enrico, B., Anton B., A survey of learning-based techniques of email spam filtering, Artif Intell Rev, 29,63 92, 2008 [8]. James, J. H. L, Gwo-Hshiung T., A Dominancebased Rough Set Approach to customer behavior in the airline market, Information Sciences, 180, 2230 2238, 2010 [9]. Hopkins M, Reeber E, Forman G, and Suermondt J, Spam email database from UCI machine learning repository, http://www. ics.uci.edu/~mlearn/mlrepository.html, 2005 152

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 [10]. Jinn-Tsai W, Yi-Shih C, Rough set approach for accident chains exploration, Accident Analysis and Prevention, 39, 629 637, 2007 [11]. Jue W, Kun G, Shouyang W., Rough set and Tabu search based feature selection for credit scoring, Procedia Computer Science, 1, 2425 2432, 2010 [12]. Pawlak, J., Z., Grzymala-Busse, R. Slowinski, W. Ziarko, Rough sets, Communications of the ACM, 38 (11), 89 95, 1995 [13]. Ronald B., Anoop, S., Anala, P., Hybrid spam e- mail filtering, First International Conference on Computational Intelligence, Communication Systems and Networks. USA, 2009 [14]. ToshikoW., Hiroyuki I., Masaki T., Hiroshi M., Takashi W., A study on rough set-aided feature selection for automatic web-page classification, Web Intelligence and Agent Systems, An international journal, 4, 431 441, 2006 [15]. Xiangyang W., Jie Y., Richard J., Xiaojun L., Rough set feature selection and rule induction for prediction of malignancy degree in brain glioma., Computer methods and programs in biomedicine, 8, 3 :147 156, 2010 [16]. Yu W., Mingyue D., Chengping Z, Ying H., Interactive relevance feedback mechanism for image retrieval using rough set, Knowledge-Based Systems, 19, 696 703, 2006 [17]. Yue, Y., Sherif, E., Anti-Spam Filtering Using Neural Networks and Baysian Classifiers. Proceedings of the 2007 IEEE International Symposium on Computational Intelligence in Robotics and Automation Jacksonville, FL, USA, June 20-23, 2007 [18]. Yumin, C., Duoqian, M., and Ruizhi W., A rough set approach to feature selection based on ant colony optimization, Pattern Recognition Letters 31,226 233, 2010 [19]. Zhan, Y., Zeng, X., Sun J., Rough set-based feature selection method, Progress in natural science. 15(3), 280-284, 2005 153