Spam filtrelemek için kaydırmalı ikili örüntüler tabanlı yeni bir yaklaşım

Spam filtrelemek için kaydırmalı ikili örüntüler tabanlı yeni bir yaklaşım Yılmaz KAYA 1, Cüneyt ÖZDEMİR 2 1 Bilgisayar Mühendisliği Bölümü, Siirt Üniversitesi, 56100 Siirt 2 Bilgisayar Teknolojileri Bölümü, Siirt Üniversitesi, 56100 Siirt Özet Günümüzde internet teknolojilerinin yaygınlaşması ile birlikte önemli haberleşme araçlarından biri olan elektronik haberleşme bazı sorunları da beraberinde getirmiştir. Elektronik haberleşmenin en önemli sorunlarından biri spam olarak isimlendirilen istenmeyen mesajların internette yayılmasıdır. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili örüntüler kullanarak yeni bir spam filtreleme yaklaşımı, kaydırmalı bir boyutlu yerel ikili örüntüler (K-1B-YİÖ) önerilmiştir. Önerilen K- 1B-YİÖ yöntemi, sinyal üzerindeki her değerin etrafındaki komşuları ile karşılaştırmalar sonucu elde edilen düşük seviye bilgilere dayanan istatistiksel bir yaklaşımdır. Yöntemimizi test etmek için bir benchmark (spamassian) ve tarafımızca oluşturulan bir veri kümesi kullanılmıştır. Elde edilen sonuçlara göre önerilen yöntemin metin tabanlı e-postalardan öznitelik çıkarımı için başarılı bir yöntem olduğu görülmüştür. Anahtar Kelimeler: spam tanıma, kaydırmalı ikili örüntüler, öznitelik çıkarımı Abstract Today electronic communication, which became one of the crucial communication tools owing to wide spreading internet technologies, has carried some troubles with itself. One of the most important problems of electronic communication is circulation of unsolicited bulk messages on the internet, which is referred to as Spam. In this study, an effective approach based on the probability of the usage of the characters that has the similar orders with respect to their UTF-8 value by employing shifted one-dimensional local binary pattern (shifted-1d-lbp) was used to extract quantitative features from e-mails for spam e-mail detection. Shifted-1D- LBP, which can be defined as an ordered set of binary comparisons the center value and its neighboring values, is a content-based approach to spam detection with low-level information. To validate the performance of the proposed method, a benchmark corpora and a dataset created by us are used. The analysis and promising experimental results indicated that the proposed method was very competitive feature extraction method in spam e-mail filtering. Key Words: spam e-mail detection, shifted binary patterns, feature extraction E-mail adresi: yilmazkaya1977@gmail.com (Yılmaz Kaya).

1. Giriş İnternetin en çok kullanılan hizmetlerinden biri elektronik haberleşmedir (Whittaker et al., 2005). Ancak internetin gelişmesi ve yaygınlaşması ile birlikte, elektronik haberleşme bir takım sorunları da beraberinde getirmiştir. Elektronik haberleşmenin en önemli sorunlarından biri spam olarak isimlendirilen istenilmeyen mesajların internette yayılmasıdır. Günlük hayatımızın bir parçası olan spam, e-posta trafiğinin önemli bir bölümünü oluşturmakla birlikte kullanıcılar ve internet trafiği için önemli bir sorun haline gelmiştir (Carpinter and Hunt, 2006; Guzella and Caminhas, 2009). Bunun yanında kullanıcıların bir e-postanın spam olup olmadığına karar vermeleri de önemli bir zaman kaybına neden olmaktadır. Spamlar genellikle para kazanma, yetişkin ürünler, kilo verme, arkadaş bulma, iş vs. ürün tanıtma şeklinde kendini göstermektedir (Su et al., 2010). Spam mesajların gün geçtikçe önemli bir problem olduğu görülmüştür. Bu yüzden spam tanıma veya filtreleme için yeni metotların geliştirilmesi önemli bir alan olmaktadır. Spam filtrelemek için farklı yaklaşımlar söz konusudur. Bazı metotlar gelen e-postanın adresini kara listelerden tarar iken, bazı metotlar gelen e-postaların içeriğini belli anahtar kelimelere göre taramaktadır. Diğer önemli yaklaşımlar istatistiksel yaklaşımlardır. Bu yaklaşımlar bir mesaj içindeki karakter veya kelime frekanslarına dayanmaktadır. Son yıllarda makine öğrenmesi yöntemler de spam filtrelemek için başarılı bir şekilde kullanılmıştır (Lin, 2009; Idris et al., 2014; Su et al., 2010; Guzella et al., 2009). E-postalardan öznitelik, bilgi çıkarımı spam filtrelemenin en önemli aşamalarından biridir. Çünkü sınıflandırma başarısı çıkarılan özniteliklere bağlıdır. Bu çalışmada spam filtrelemek için literatürde olmayan yeni bir öznitelik çıkarım yöntemi önerilmiştir. Önerilen yöntem, kaydırmalı bir boyutlu yerel ikili örüntüler (K-1B-YİÖ), karakterlerin bir araya gelme olasılıklarına dayanmaktadır. K-1B-YİÖ yöntemi e- postalardan etkili öznitelikler elde etmemizi sağlayan bir istatistiksel metottur. Bu metodun en önemli avantajı hesaplama basitliği ve gerçek zamanlı metin işleme uygulamalarında kullanılabilir olmasıdır. Önerilen yöntem karakterlerin Unikod değerlerini kullanmaktadır. Karakterlerin Unikod değerleri komşuları ile karşılaştırılarak; büyük olması durumunda 1 diğer durumlarda 0 değeri üretilerek bir ikili dizge elde edilmektedir. Bu ikili dizgelerin onlu karşılığı karşılaştırılan karakterin yeni değeri olarak alınmaktadır. Bu şekilde tüm karakterlerden elde edilen yeni değerler K-1B-YİÖ sinyalini oluşturmaktadır. Bu sinyale ait histogram öznitelik vektörü olarak kullanılmaktadır. Önerilen 1B-YİÖ yöntemi P, L ve R gibi üç(3) parametreye bağlıdır. Bu parametreler dokümanda mikro-makro örüntülerin taranması için kullanılmaktadır. Önerilen yöntemi test etmek için bir benchmark ve tarafımızca oluşturulan bir veri kümesi kullanılmıştır. Sınıflama aşamasında farklı makine öğrenmesi yöntemler kullanılmıştır. 10 kat çapraz geçerlilik yöntemine göre başarılı sonuçlar elde edilmiştir. 2. Veri kümeleri Bu çalışmada iki veri kümesi kullanılmıştır. Birincisi bir benchmark veri kümesidir. Spamassasian (Spamassasian, 2014): Bu veri kümesi 4150 spam olmayan ve 1897 spam mesajdan oluşmaktadır. İkinci veri kümesi tarafımızca oluşturulmuştur. 296 spam ve 420 spam olmayan mesajdan oluşmaktadır. 4. Metot 4.1. Geliştirilen Kaydırmalı 1B-Yerel İkili Örüntüler Yöntemi K- 1B-YİÖ yöntemi, metin tabanlı e-postalardan yeni öznitelik çıkarımı için görüntü işlemede yaygın bir şekilde kullanılan YİÖ metodundan geliştirilmiştir. K-1B-YİÖ yöntemi işleyiş olarak görüntü işlemede

kullanılan YİÖ yöntemi ile benzerlik göstermektedir. Ancak K-1B-YİÖ yöntemi zaman serisi şeklinde dizilmiş tek boyutlu sinyallere uygulanabilir. Sinyal üzerindeki her değer için değerler ile komşuları arasında yapılan karşılaştırmalar sonucu ikili kodlar üretilir. Elde edilen bu kodların onluk karşılıkları sinyali ifade eden yeni bir sinyal olarak ele alınmaktadır (Kaya et al., 2014). Bu çalışmada geleneksel 1B-YİÖ yöntemi ile komşu değerlerin kaydırılması ile mikro-makro örüntülerin elde edilmesi sağlanmıştır. Kaydırmalı İÖ öznitelik çıkarımı için kullanılmıştır. Burada P (P L +P R ) merkez noktanın sağından ve solundan alınacak toplam komşu sayısını belirtir. P L parametresi sol taraftan ve P R sağ taraftan alınan komşu sayılarını belirtir. K-1B-YİÖ, sinyal üzerinde verilen örnek bir nokta için kendi komşuları ile yapılan karşılaştırmalar sonucu elde edilen ikili dizi seti olarak hesaplanır. Sinyal üzerindeki her sinyal için öncesinde ve sonrasında (sağından ve solundan) P (P L +P R kadar komşu alınır. Örneğin P=8 olması durumunda her nokta için (P c ) öncesinde 3 komşu P L = (P 0, P 1, P 2 ) ve sonrasında 5 komşu P R = (P3, P 4, P 5, P 6, P 7 ) alınır. Şekil 1 sinyal üzerindeki örnek bir noktayı göstermekte. Şekil 1: Sinyal üzerindeki örnek bir nokta. Şekil 1 de gösterildiği gibi tüm komşular P={P 0, P 1, P 2, P 3, P 4, P 5, P 6, P 7 } merkez değer ile (P c ) karşılaştırılıp denklem 1 e göre ikili değerler elde edilir. Karşılaştırmalarda eğer P i değeri P c den büyük ve eşit ise 1, diğer durumlarda 0 alınır. Bu karşılaştırmalar sonucunda K-1B-YİÖ kodu oluşur. Bu ikili diziler Şekil 1 deki örnek için şekil 2 de gösterilmiştir. t P Pc i K 1B YIO( x) Sign( t)2 1, t 0 Sign 0, t 0 P i 0 i 1 (1) Şekil 2: Pc nin Pi ile karşılaştırılması Her noktanın K-1B-YİÖ kodları eşitlik 1 ile hesaplanır. Her ikili kodların onlu karşılıkları P c noktasının etrafındaki yerel bilgileri ifade eder. Yukarıdaki aşamalar tüm sinyal üzerindeki değerler için gerçekleştirilir. Bu aşamalardan sonra YİÖ sinyali elde edilmiş olacaktır. YİÖ sinyali üzerindeki tüm değerler 0 ile 255 arasındaki değişim göstermektedir. Her değerin frekansı bir örüntüyü ifade eder. P=8 olması durumunda 2^8= 256 örüntü elde edilir.

4.2. Önerilen Metot Bu çalışmada spam filtrelemek için önceki çalışmalardan tümüyle farklı bir yaklaşım önerilmiştir. Önerilen yöntem karakter seviyesinde istatistiksel bir yaklaşımdır. Önerilen yaklaşıma ait bir örnek ve blok diyagram şekil 3 te verilmiştir. Şekil 3: Önerilen yönteme ait blok diyagram. Blok 1: Bu blokta metin içinde geçen boşluklar, noktalama işaretleri, yeni satır gibi özel karakterler atılır. Temizleme işleminden sonra metin Unicode lara dönüştürülür. Unicode lerden oluşan yeni dizi bir boyutlu sinyal olarak ele alınır. Mesajın aşağıdaki ifade olması durumunda bir örnek aşağıda gösterilmiştir. A novel approach for spam e-mail detection based on binary patterns Öncelikle metin içendeki istenilmeyen karakterler atılır. Bu karakterler atıldıktan sonra geriye kalan mesaj Anovelapproachforspamemaildetectionbasedonbinarypatterns Geriye kalan mesajın UTF-8 kodlarına dönüştürülmesi sonucunda elde edilen sinyal aşağıda belirtilmiştir. 65 110 111 118 101 108 97 112 112 114 111 97 99 104 102 111 114 115 112 97 109 101 109 97 105 108 100 101 116 101 99 116 105 111 110 98 97 115 101 100 111 110 98 105 110 97 114 121 112 97 116 116 101 114 110 115 Block 2: Elde edilen UTF-8 kodlar sinyali K-1B-YİÖ metodu ile YİÖ düzlemine taşınır. Bu düzleme taşınan değerler 0 ile 255 arasında değerlerden oluşur. Her değerin frekansı bir farklı örüntü tanımlar. P, parametrelerin farklı değerlerine örnekler Şekil 4 te gösterilmiştir.

Şekil 4: ve farklı P L, P R değerleri için elde edilen örüntüler. Şekil 4 ten görüldüğü gibi K-1B-YİÖ parametrelerinin farklı değerlerine göre aynı sinyal parçası ile farklı örüntüler elde edilebilir. Block 3: Bu blokta K-1B-YİÖ sinyaline ait histogram elde edilir. K-1B-YİÖ sinyalinde her değerin frekansı belirlenir. Her değerin frekansı bir örüntü veya öznitelik olarak değerlendirilir. P=8 olması durumunda 256 örüntü bulunmaktadır. Block 4: Elde edilen öznitelikleri kullanarak sınıflama aşamasıdır. Naive Bayes, Functional trees (FT), BayesNet ve Random Forest metotları sınıflandırıcı olarak kullanıldı.10 katlı çapraz geçerlilik testine göre sınıflandırma işlemi gerçekleştirilmiştir. 5. Deneysel Sonuçlar Bu çalışmada spam tanıma için karakterlerin UTF-8 değerlerini kullanarak yeni bir yaklaşım önerilmiştir. Bu yöntem ile e-postalardan yeni öznitelikler elde edilmiştir. Önerilen ö i 2 parametreye bağlıdır. Çalışmada iki farklı veri kümesi kullanıldı. Birinci veri kümesi bir bencmark veri kümesi olan Spamassassian, ikincisi ise tarafımızca oluşturulmuş bir veri kümesidir. Bu parametrelerin farklı değerleri ile elde edilen örüntüler için sınıflandırma başarı oranları tablo 1 de verilmiştir. Her iki veri kümesi için sınıflandırma işlemleri farklı sınıflandırıcılar ile gerçekleştirilmiştir. Sınıflandırma işlemi için açık kaynak kodlu bir yazılım olan WEKA (Witten and Frank, 2005) kullanılmıştır. Tablo 1: Farklı P L ve P R değerleri için başarı oranları Spamassassian corpus Veri kümesi II P FT NB BayesNT RF SVM multinomial LiBlinear RF NB P L =0,P R =8 89.57 69.17 79.51 90.16 81.82 77.48 85.45 78.60 P L =1,P R =7 91.37 69.35 80.82 91.07 81.96 76.08 83.50 83.08 P L =2,P R =6 91.06 69.17 80.04 90.47 81.96 77.48 82.38 80.28 P L =3,P R =5 90.60 69.21 81.15 90.99 83.08 79.44 83.22 80.13 P L =4,P R =4 91.22 69.25 80.56 91.32 84.05 79.16 84.48 81.54 P L =5,P R =3 92.03 69.28 81.35 91.60 80.84 78.32 85.73 82.66 P L =6,P R =2 92.34 69.21 81.42 92.19 82.66 77.20 84.48 82.94 P L =7,P R =1 91.14 69.15 80.81 91.27 83.08 76.78 86.15 79.86 P L =8,P R =0 91.12 69.15 79.84 91.73 83.78 75.80 84.06 82.38 Tablo 1 den başarı oranlarından görüldüğü gibi PL ve PR parametreleri ile farklı örüntülerin elde edildiği anlaşılmaktadır. PL ve PR değerlerine denemeler sonucunda karar verilmelidir. Birinci veri kümesi Spamassassian için %92.34 başarı oranı olarak K-1B-YİÖ PL=6,PR=2 öznitelikleri için elde edilmiştir. Tarafımızca oluşturulmuş veri kümesi için K-1B-YİÖ PL=7,PR=1 öznitelikleri ile %86.15 sınıflandırma başarısı elde edilmiştir.

6. Sonuç Günümüzde sürekli gelişen internet teknolojileriyle birlikte elektronik posta kullanımı, haberleşmenin en önemli araçlarından biri haline gelmiştir. Çok kısa bir sürede milyonlarca kişinin kullanmaya başladığı ve her geçen gün daha da yaygınlaşan elektronik posta ile haberleşmenin zamanla ticaret, spam ve virüs saldırıları gibi eylemlerin odağı haline gelmiştir. Gündelik yaşantımızın bir parçası haline gelen elektronik posta trafiğinin büyük bir kısmını oluşturan spam elektronik postaları hem kullanıcılar için hem de internet trafiği için önemli bir sorun haline gelmiştir. Bu çalışmada spam tanıma için K-1B-YİÖ tabanlı yeni bir öznitelik çıkarım yöntemi önerilmiştir. Bu metot e-postaların UTF-8 olarak ifade edilmiş her değerin komşuları ile yapılan ikili karşılaştırmaları kullanan istatistiksel bir yaklaşımdır. Önerilen metodu test etmek için iki veri kümesi kullanılmıştır. Biri bencmark(spamassasian) biri de tarafımızca oluşturulmuş veri kümeleridir. Elde edilen sınıflandırma başarı oranları %92.34 ve %86.15 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen yöntem metinlerden öznitelik çıkarımı için önemli avantajlar sağladığı görülmüştür. Buna ek olarak bu yöntemin diğer doğal dil işleme alanlarına uygulanabileceği düşünülmektedir. Referanslar Androutsopoulos, I, Koutsias, J, Chandrinos, KV, Paliouras, G, Spyropoulos, CD, An evaluation of naive bayesian anti-spam filtering.arxiv preprint cs/0006013, 2000. Awad, WA, ELseuofi, SM, Machine Learning methods for E-mail Classification. International Journal of Computer Applications, (2011),16(1). Berger, H, Köhle, M, Merkl, D, On the Impact of Document Representation on Classifier Per-formance in e- Mail Categorization. In ISTA (pp. 19-30), 2005. Biggio, B, Fumera, G, Pillai, I, Roli, F. A survey and experimental evaluation of image spam filtering techniques. Pattern Recognition Letters,32(10), 2011, 1436-1446. Blanzieri, E, Bryl, A, A survey of anti-spam techniques. Technical Report DIT-06-056, University of Trento, 2006 Bratko, A, Filipič, B, Cormack, GV, Lynam, TR, Zupan, B, Spam filtering using statistical data compression models. The Journal of Machine Learning Research, 7,2006, 2673-2698. Carpinter, J, Hunt, R. Tightening the net: A review of current and next generation spam filtering tools. Computers & security, 25(8),2006, 566-578. Cormack, GV, Smucker, M D, Clarke, C L, Efficient and effective spam filtering and re-ranking for large web datasets. Information retrieval, 14(5), 2011, 441-465. Cormack, G.,Lynam,T.,2007.TRECPublicSpamCorpus. http://plguwaterlooca/ _gvcormac/treccorpus07/ (cited 15.08.14). Costa, GV, Errecalde, ML, Taranilla, MT, Learning to detect spam messages. In XI Congreso Argentino de Ciencias de la Computación, 2005. Crawford, E, Kay, J, McCreath, E, Automatic induction of rules for e-mail classification. In Proceedings of the sixth Australasian document computing symposium (pp. 13 20). Coffs Harbour, Australia, 2001 DeBarr, D, Wechsler, H, Spam detection using random boost.pattern Recognition Letters, 33(10), 2012, 1237-1244. Drucker, H, Wu, S, Vapnik, V. N, Support vector machines for spam categorization. Neural Networks, IEEE Transactions on, 10(5), 1999, 1048-1054. El-Alfy, ESM, Abdel-Aal, RE, Using GMDH-based networks for improved spam detection and email feature analysis. Applied Soft Computing,11(1), 2011, 477-488. Graham, P, Better bayesian filtering. In Proceedings of the 2003 Spam Conference (Vol. 11, pp. 15-17), 2003

Guzella, TS, Caminhas, WM, A review of machine learning approaches to spam filtering. Expert Systems with Applications, 36(7), 2009, 10206-10222. Idris, I, Selamat, A, Improved email spam detection model with negative selection algorithm and particle swarm optimization. Applied Soft Computing, 2014, 22, 11-27. Idris, I, Selamat, A, Omatu, S, Hybrid email spam detection model with negative selection algorithm and differential evolution. Engineering Applications of Artificial Intelligence, 2014, 28, 97-110. Kanaris, I, Kanaris, K, Stamatatos, E, Spam detection using character n-grams. In Advances in Artificial Intelligence (pp. 95-104). Springer Berlin Heidelberg, 2006 Kaya, Y, Yeşilova, A. Tekin, R, İstenmeyen Elektronik Postaların(Spam) Filtrelenmesinde Kaba Küme Yaklaşımının Kullanılması. Electric-Electronic and Computer Symposium, Fırat University, 148-153, 2011 Kaya, Y, Uyar, M, Tekin, R, Yıldırım, S, 1D-local binary pattern based feature extraction for classification of epileptic EEG signals. Applied Mathematics and Computation, 243, 2014, 209-219. Kołcz, A, Alspector, J, SVM based Filtering of EMmail Spam with Content specific Misclassification Costs, 2001 Lai, CC, An empirical study of three machine learning methods for spam filtering. Knowledge-Based Systems, 20(3), 2007, 249-254. Laorden, C, Ugarte-Pedrero, X, Santos, I, Sanz, B, Nieves, J, Bringas, PG, On the study of anomaly-based spam filtering using spam as representation of normality. In Consumer Communications and Networking Conference (CCNC), 2012 IEEE (pp. 693-695). IEEE, 2012 Li, Y, Wen, PP, Clustering technique-based least square support vector machine for EEG signal classification. Computer methods and programs in biomedicine, 104(3), 2011, 358-372. Lin, JL, Detection of cloaked web spam by using tag-based methods.expert Systems with Applications, 36(4), 2009, 7493-7499. Marsono, MN, El-Kharashi, MW, Gebali, F, Targeting spam control on middleboxes: Spam detection based on layer-3 e-mail content classification. Computer Networks, 53(6), 2009, 835-848. Nakov, PI, Dobrikov, PM, Non-parametric SPAM filtering based on knn and LSA. In Proceedings of the 33th National Spring Conference of the Bulgarian Mathematicians Union (pp. 1-4), 2004 Sabri, AT, Mohammads, AH., Al-Shargabi, B, Hamdeh, MA, Developing new continuous learning approach for spam detection using artificial neural network (CLA_ANN). Eur J Sci Res, 42(3), 2010, 525-535. Sakkis, G, Androutsopoulos, I, Paliouras, G, Karkaletsis, V, Spyropoulos, CD, Stamatopoulos, P, A memorybased approach to anti-spam filtering for mailing lists. Information Retrieval, 6(1), 2003, 49-73. Schneider, KM, A comparison of event models for Naive Bayes anti-spam e-mail filtering. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics-Volume 1 (pp. 307-314). Association for Computational Linguistics, 2003 SpamAssassin. Available from http://spamassassin.apache.org/publiccorpus/, 2014 Su, MC, Lo, HH, Hsu, FH, A neural tree and its application to spam e-mail detection. Expert Systems with Applications, 37(12), 2010, 7976-7985. Tretyakov, K, Naïve Bayes Spam Filtering Using Word Position Based Attributes, Machine Learning Technique in Spam Filtering, Data Mining Problem oriented Seminar, MTAT.03.177, pp. 60-79, 2004 Upasana CS, A survey on text classification techniques for e-mail filtering. Second International Conference on Machine Learning and Computing, 2010 Wang, Q, Guan, Y, Wang, X, SVM-Based Spam Filter with Active and Online Learning. In TREC, 2006 Wang, XL, Learning to classify email: a survey. In 2005 International Conference on Machine Learning and Cybernetics, 9, pp. 5716-5719, 2005 Witten, IH, Frank, E, Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2005 Whittaker, S, Bellotti, V, Moody, P, Introduction to this special issue on revisiting and reinventing e- mail. Human-Computer Interaction, 20(1), 2005, 1-9.

Wu, CH, Behavior-based spam detection using a hybrid method of rule-based techniques and neural networks. Expert Systems with Applications,36(3), 2009, 4321-4330. Wu, CH, Tsai, CH, Robust classification for spam filtering by back-propagation neural networks using behaviorbased features. Applied Intelligence, 31(2), 2009, 107-121 Ying, KC, Lin, SW, Lee, ZJ, Lin, YT, An ensemble approach applied to classify spam e-mails. Expert Systems with Applications, 37(3), 2010, 2197-2201. Youn, S, McLeod, D. Efficient spam email filtering using adaptive ontology. In Information Technology, 2007. ITNG'07. Fourth International Conference on (pp. 249-254). IEEE, 2007 Yue, X, Abraham, A, Chi, ZX, Hao, YY, Mo, H, Artificial immune system inspired behavior-based anti-spam filter. Soft Computing, 11(8), 2007, 729-740.