İçerik Tabanlı İstenmeyen SMS Filtreleme için Mobil Uygulama Geliştirilmesi ve Sınıflandırma Algoritmalarının Karşılaştırılması

Benzer belgeler
Türkçe Dokümanlar Ġçin Yazar Tanıma

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Kolektif Öğrenme Metotları

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Otomatik Doküman Sınıflandırma

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Otomatik Doküman Sınıflandırma

Güz Dönemi Zorunlu Dersleri

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

PERFORMANCE COMPARISON OF KARATSUBA AND NIKHILAM MULTIPLICATION ALGORITHMS FOR DIFFERENT BIT LENGTHS

Muhammet Fatih AKBAŞ, Enis KARAARSLAN, Cengiz GÜNGÖR

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Doç.Dr. M. Mengüç Öner Işık Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü

Büyük Veri ve Endüstri Mühendisliği

Dünya da ve Türkiye de Mobil in Yeri

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

ÖZGEÇMİŞ. Dr. Aytuğ ONAN

Şifrebilimde Yapay Sinir Ağları

Yazılım Hata Kestiriminde Kolektif Sınıflandırma Modellerinin Etkisi

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Metin Sınıflandırma. Akış

Web Madenciliği (Web Mining)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

BCA605 Bilgisayar Oyunlarında Yapay Zeka

SAYISAL GÖRÜNTÜ İŞLEME (Digital Image Processing)

İşiniz için daha fazla müşteri veya daha fazla satış çözümleri mi arıyorsunuz

Endüstri Mühendisliği - 1. yarıyıl. Academic and Social Orientation Fizik I Physics I TR

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eş-Talim Yöntemi ile Metin Sınıflandırma İçin Bir Uygulama

JetMail (Toplu Mail) Platformu Genel Teklifi

Proceedings/Bildiriler Kitabı. kriptografik anahtarlar, onay me -posta takibi, I. G September /Eylül 2013 Ankara / TURKEY 6.

Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

COURSES OFFERED FOR ERASMUS INCOMING STUDENTS

Adana Toplu Taşıma Eğilimleri

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ DOKTORA YETERLİK SINAVI YÖNETMELİĞİ

İRİSTEN KİMLİK TANIMA SİSTEMİ

BİLİŞİM SİSTEMLERİNİN PRENSİPLERİ

Dr.Öğr.Üyesi UĞUR ŞEVİK

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Metin Madenciliği Yöntemleri ile Twitter Duygu Analizi (Twitter Sentiment Analysis using Text Mining Methods)

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

Web Madenciliği (Web Mining)

MÜFREDAT DERS LİSTESİ

Sisteme giriş yapıldığında ana sayfa üzerinde işlem menüleri, Hızlı erişim butonları ve mail gönderim istatistikleri yer alır.

SMTP Protokolü ve Spam Mail Problemi

Trafik Yoğunluk Harita Görüntülerinin Görüntü İşleme Yöntemleriyle İşlenmesi

EDM Bilişim 2010 yılında kurulmuş olup,

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Temel Bilgisayar (Basic Computer) Yazılım (Software)

Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi

Doğru tercihleri kariyersite de bulabilirsin. MomentSoft Bilişim Hizmetleri A. Ş. 2014

Web Tabanlı Ödev-Proje Takip Sistemi İçin Veri Tabanı ve Site Tasarımı. Database and Site Design for Web Based Homework-Project Follow System

Taşınabilir Teknolojiler

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 1 ( yılı ve sonrasında birinci

FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ/YAZILIM MÜHENDİSLİĞİ (DR)

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

MOBİL PAZARLAMA. -Doğrudan pazarlama faaliyetlerinden biri olarak kabul edilmesine rağmen tele pazarlamadan farklıdır, çünkü:

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

COM API v2.0 Belge sürümü : 2.0.3

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

XIX. Türkiye de Internet Konferansı (inet-tr 14) BULUT BİLİŞİM GÜVENLİĞİ HOMOMORFİK ŞİFRELEME Kasım, 2014, Yaşar Üniversitesi İÇİN

HASTA TAKİP SİSTEMLERİNDE RFID UYGULAMASI

Üniversitesi. {g.karatas, Library, Science Direct ve Wiley veri içerisinde

Mobil Pazarlama, İnteraktif SMS ve Toplu SMS Genel Teklifi

SİNYAL TEMELLERİ İÇİN BİR YAZILIMSAL EĞİTİM ARACI TASARIMI A SOFTWARE EDUCATIONAL MATERIAL ON SIGNAL FUNDAMENTALS

Uzaktan Algılama Uygulamaları

Netsis 3 SMS Uygulaması

ELEKTRONİK İMZALI BAŞVURU ARAYÜZÜ TALİMATI

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Öncelikle PTT ye göstermiş olduğunuz ilgi için teşekkür ederiz.

YAPAY ZEKA (Artificial Intelligence)

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Geliştirilmiş Fisher Ayraç Kriteri Kullanarak Hiperspektral Görüntülerde Sınıflandırma

Gezgin Etmen Sistemlerinin Başarım Ölçümü: Benzetim Tekniği

PERSONEL KİMLİK YÖNETİM SİSTEMİ

ULUSLARARASI SCI / SCI-Expanded KAPSAMINDAKİ DERGİLERDEKİ MAKALELER. Yayın NO. Yazarlar Başlık Dergi Adı Yıl

ve Sonrası Girişli Öğrenciler için Uygulanacak Ders Program

Transkript:

İçerik Tabanlı İstenmeyen SMS Filtreleme için Mobil Uygulama Geliştirilmesi ve Sınıflandırma Algoritmalarının Karşılaştırılması Onur KARASOY Muğla Sıtkı Koçman Üniversitesi Bilgi İşlem Dairesi Başkanlığı Muğla, Türkiye okarasoy@mu.edu.tr Serkan BALLI Muğla Sıtkı Koçman Üniversitesi Bilişim Sistemleri Mühendisliği Bölümü Muğla, Türkiye serkan@mu.edu.tr Özet Bu çalışmada, metin madenciliğine dayalı içerik tabanlı sınıflandırma işlemi yapılarak spam (istenmeyen) SMS mesajları filtreleyebilen mobil uygulama geliştirilmesi hedeflenmiştir. Mobil telefona gelen tüm mesajlar analiz edilip özellik çıkarımları yapılarak, spam olup olmadığına göre etiketlenmektedir. Heterojen mesaj veri tabanı oluşturmak için, farklı bölgelerden farklı yaş gruplarına ait insanlardan mesajlar toplanmıştır. Toplanan mesajlar, özellik çıkarımları kullanılarak üç farklı sınıflandırması ile analiz edilmiş ve elde edilen sonuçlar tartışılmıştır. Anahtar Kelimeler: Spam Sms, Kısa Mesaj Filtreleme, Metin Madenciliği, Sınıflandırma, Mobil Uygulama, Random Forest, Bagging, Random Subspace. Developing Mobile Application for Content Base Spam SMS Filtering and Comparison of Classification Algorithms Abstract The aim of this paper is to develop a mobile application for spam SMS filtering with content base classification process founded on text mining. All incoming messages are analyzed with feature extraction and labeled if the message is spam or not. To create a heterogenic dataset, messages are collected from people who live in different regions and with different age groups. The collected messages are analyzed with three different algorithms using extracted features and results are discussed. Keywords: Spam Sms, Sms Filtering, Text Mining, Classification, Mobile Application, Random Forest, Bagging, Random Subspace. kullanımı kolay olması sebebiyle özellikle reklamların, promosyonların ve duyuruların 1. GİRİŞ alıcılara ulaştırılmasında kullanılacak yöntemlerin başında gelmektedir. İstenmeyen e- Mobil iletişimde çok sık kullanılan iletişim postalar üzerine uzun zamandır çalışılmış ve bileşenlerinden bir tanesi kısa mesaj servisidir birçok filtreleme tekniği geliştirilmiştir. E-posta (Short Message Service-SMS). Bu yüzden e- sağlayıcıları bu filtreleme yöntemlerini posta iletişiminde olduğu gibi reklam ve başka kullanıcılarına sunmaktadır. E-postalardaki amaçlarla kullanıcının izni olmadan rahatsız istenmeyen mesaj önleme tekniklerinin tamamını edici mesaj gönderenlerin hedefi haline gelmiş mobil telefonlarda kullanmak, gerek işlem ve giderek büyüyen bir problem olarak kapasitesi gerekse işlem hızının önemi göz hayatımızda yer almaktadır [1]. SMS, ucuz ve önüne alındığında makul bir çözüm olamamakla September 17-18, 2016 Malatya/TURKEY 47

birlikte, yapılan çalışmalarda filtreleme işlemi için yüksek işlem gücüne sahip işlemcilerin bile gerekli olduğu vurgulanmıştır [2]. Spam mesajlara çoğunlukla doğu ülkelerinde rastlanmaktadır. Kore ve Çin gibi bazı ülkelerde spam SMS trafiği spam e-posta trafiğinden daha çoktur. Çünkü batı ülkelerinde spam SMS göndermek oldukça maliyetli bir işlemdir [3]. Alınan spam mesajlar sadece alıcıları rahatsız etmekle kalmayıp gerçekten okunması gereken acil mesajları da görmelerine dolaylı olarak engel olmaktadır. Literatürde yapılmış çalışmalarda filtreleme için, içerik tabanlı, gönderici tabanlı veya beraber kullanılan filtreleme yöntemleri kullanılmaktadır.[4] Najadat vd. yaptıkları çalışmada SMS metinlerinden oluşturdukları sözcük vektörüne göre 12 farklı metot ile spam mesaj tespiti yapmışlardır. Çalışmada, Discriminative Multinomial Naïve Bayes yönteminin en iyi sonuç olduğu sonucuna varılmıştır.[5] Deng vd. tarafından yapılan çalışmada, Naive Bayes Sınıflandırması kullanılarak kullanıcının kendi telefonunda sınıflandırma işleminin yapılması sağlanmaktadır. Kullanıcıdan alınan bilgilere göre, sistem yeniden eğitilerek belirli zamanlarda kullanıcının telefonundaki uygulama güncellenmekte ayrıca aldığı dönütlerle spam mesaj gönderen kullanıcılar belirlenip filtreleme başarısı arttırılmaktadır.[6] Yadav vd. içerik tabanlı filtrelemelerde sık kullanılan Bayesian yöntemle, anahtar kelimelerin birer özellik olarak kullanıldığı kullanıcıdan da bilgileri alınarak bu anahtar kelimelerin ağırlıklarının değiştirilebildiği bir istenmeyen SMS filtreleme uygulaması geliştirmişlerdir.[7] Zhang ve Wang yaptıkları çalışmada Bayesain yöntemi ve anahtar kelime kullanılmıştır ve sisteme ayrıca blacklist (kara liste) ve whitelist(beyaz liste) özellikleri eklenerek SMS filtreleme işlemi gerçekleştirilmiştir.[8] Joe ve Shim in yaptıkları çalışma ise 3 modüle bölünerek gerçekleştirilmiştir. İlk aşama anahtar kelimelerden vektör oluşturulmuştur. Bu oluşturulan vektörden ağırlıklarına göre anahtar kelimeler seçilmiştir. Öğrenme aşamasında SVM yöntemi kullanılarak sınıflandırma işlemi yapılmış ve son olarak göndericinin telefon rehberinde kayıtlı olup olmadığı bilgisi ile mesajın spam olup olmadığı sonucuna ulaşılmıştır. Önceki yapılan çalışmalarda mesajlar spam veya normal mesajlar olarak sınıflandırılmıştır. Bu çalışmada filtreleme işlemi iki sınıf için (spam, normal) ve üç sınıf için (spam, normal, bildiri) üç farklı yöntemle (Random Forest, Bagging, RandomSubSpace) analiz edilmiş ve sonuçlar karşılaştırılmıştır. 2. SINIFLANDIRMA METOTLARI 2.1. Rasgele Orman (Random Forest) Rasgele orman algoritması Breiman tarafından geliştirilen bir ensemble(topluluk) algoritmasıdır [9]. Birçok karar ağaçlarından oluşmaktadır. Bu yöntem esnasında rasgele ormandaki her bir ağaç için veri setinden örneklem seçilir ve seçilenlerin 2/3 ü ağaç oluşturmada kullanılır ve sınıflandırılır. Bu sınıflamalar hata oranlarına göre oy alırlar. Rasgele orman algoritması ise yapı içerisindeki tüm ağaçlardan en çok oy alanın sınıflamasını seçer[10]. Rasgele orman algoritması Şekil 1 de gösterilmiştir [11]. 2.2. Bagging Bagging algoritması Leo Breiman tarafından geliştirilmiş bir yöntemdir [12]. Bagging veya bootstrap aggregating olarak bilinen bu yöntem sınıflandırma ve regresyon problemleri ile kullanılabilmektedir. Varyansı azaltarak tahmin kabiliyetini geliştirmektedir[13]. Bagging Yöntemi, N örnekten oluşan eğitim veri setinden yine N örnekli bir eğitim seti, yerine koymalı rastgele seçimle üretilir. Bu işlemden sonra eğitim örneklerinin bazıları yeni üretilen eğitim veri kümesinde yer almazken bazıları birden fazla kez yer alabilir. Topluluktaki temel öğrenicilerin her biri bu şekilde üretilmiş birbirinden farklı örnekler içeren eğitim kümeleriyle eğitilirler ve sonuçları çoğunluk oylaması ile birleştirilir [14]. September 17-18, 2016 Malatya/TURKEY 48

2.3. Random Subspace (Rasgele Alt Uzay) Random Subspace algoritması, Öğrenici uzay topluluğundaki her bir öğreniciyi, özelliklerin tamamını kullanmak yerine rasgele seçim yönetimi ile alt eğitim setleri oluşturup eğitmeyi hedefler. Ho, bu özellik seçiminde toplam özellik sayısının yarısının kullanılmasını önermiştir. Öğreniciler yeni oluşturulan eğitim setleri ile eğitilir ve farklı kararlar birleştirilerek son karar oluşturulur [15]. Şekil2 de Random Subspace çalışma prensibi örneği gösterilmiştir [16]. Şekil 1 Rasgele Orman Algoritması Akış Şeması 3. VERİLERİN HAZIRLANMASI İçerik tabanlı SMS filtrelemede mesajın yapısının yanında kullanılan dilde önemlidir. Aynı filtreleme yöntemi farklı dillerde farklı sonuçlar verebilir. Açık olarak ulaşılabilecek SMS veri setleri arasında Türkçe veri seti olmadığından bu çalışma için yeni SMS veri seti oluşturulmuştur. 3.1. SMS Veri seti SMS lerin doğru analizi için veri setini oluşturmada farklı bölgelerden farklı yaş gruplarından toplam 5333 adet Türkçe kısa mesaj toplanmıştır. Tablo 1 de gösterildiği gibi bu mesajların 3144 tanesi spam mesaj 1476 tanesi bildiri, 713 tanesi normal mesajdır. Şekil 2 Random Subspace Çalışma Prensibi TABLO 1 VERİ SETİ MESAJ DAĞILIMLARI SPAM BİLDİRİ NORMAL MESAJ MESAJI MESAJ 3144 1476 713 September 17-18, 2016 Malatya/TURKEY 49

TABLO 2 ÖRNEK MESAJLAR VE ÖZELLİKLERİ Mesaj ML MU MUp MP ME SA NA BA MTİp DOGA ile BASBASA KAZDAGI TERMAL 159 1 0,669 0,022 0 31 22 0 Sp RESORT SPA OTELDE TAM PANSiYON PLUS 3 GECE 4GUN KiSi BASI TOPLAM 290TL 0-6 YAS COCUK UCRETSiZ www.kazdagitermal.com 02522220621 Kusura bakma ben gec yazmisim kardesim :) 77 0 0.015 0.045 0.045 60 198 0 No minibusteyim ;) okulda gorusuruz :) TV+ Cep Basic Paketi (SES) aboneliginiz 166 0 0.06 0.034 0 98 0 295 Bi 29.09.2015 tarihinde isteginizle iptal edilmistir. Faturaniza yansitilacak ucret kullandiginiz sure uzerinden hesaplanacaktir. *Kısaltmalar : ML = Mesaj Uzunluğu MU = URL Durumu MUp = Mesajdaki Büyük Harf Yoğunluğu MP = Mesajdaki noktala işareti yoğunluğu ME = Mesajdaki Duygusal İfadeler (Emojiler) SA = Mesajın Spam Anahtar Kelimelerine göre Ağırlığı NA = Mesajın Normal Anahtar Kelimelerine göre Ağırlığı BA = Mesajın Bildiri Anahtar Kelimelerine göre Ağırlığı MTip = Mesajın Sınıfı Sp = Spam Mesaj No = Normal Mesaj Bi = Bildiri Mesajı 3.2. Verilerin Hazırlanışı ve Özelliklerin belirlenmesi kardesim İsteğinizle kardeş istek Toplanan mesajlar yapısal olarak incelendikten sonra sınıfların kendilerine ait yapısal özellikleri incelenmiş ve öne çıkan farklar birer özellik olarak seçilmiştir. Tablo 2 de gösterilen mesajlardan da fark edileceği gibi büyük harf, noktalama işaretleri, url durumu, duygusal ifadeler mesajları birbirinden ayırmada etkili olabilecek özelliklerdir. Veri setinde üç sınıf için en sık geçen kelimeler toplanmış ve ilk 60 kelimeye sıklık durumuna göre 1 den 60 a kadar puanlar verilmiştir. Bu puanlama sistemine göre her mesaj için 3 ayrı sınıfa göre mesaj ağırlıkları hesaplanmıştır. Anahtar kelimeler belirlenirken mesajlarla ilgili Türkçe karakter problemi ve kelimelerin farklı çekim ekleri almış hallerini ayırt edebilmek için Zemberek[17] adlı doğal dil işleme kütüphanesini kullanılmıştır. Bu kütüphane sayesinde Tablo 3 te de gösterildiği gibi Türkçe karakter problemi olan, çekim eki almış veya hem çekim almış hem de Türkçe karakter problemi olan kelimeler düzeltilmiştir. TABLO 3 KELİMELERİN KÖKLERİNİN ALINMASI Mesajdaki Kelime İşleme Alınacak Hali UCRETSIZ ücret Bir kısa mesaj 160 karakterden oluşur. Bu sebeple toplu atılan mesajlarda yani genellikle spam mesajlarda mesaj uzunluğu 160 veya katlarına yakın uzunlukta olduğu gözlemlenmiştir. Bu sebeple Mesaj uzunluğu bir özellik olarak seçilmiştir. Spam mesajların çoğunda URL olduğu tespit edilmiştir, özellikle normal mesajlarda yok denecek kadar az URL bulunduğu gözlenmiştir ve bu sebeple özellik olarak URL durumu da seçilmiştir. Yine normal mesajlarda neredeyse hiç büyük harf kullanılmaması göz ününde bulundurularak büyük harf frekansı( büyük harf sayısı / toplam mesaj uzunluğu) bir özellik olarak tercih edilmiştir. Benzer bir yaklaşımla normal mesajlarda noktalama işaretlerinin çok kullanılmadığı gözlendiğinden noktalama işareti frekansı (noktalama işareti sayısı / toplam mesaj uzunluğu) bir özellik olarak belirlenmiştir. Mesajdaki duygusal ifadelerinin( ;), x), :D vb ) büyük çoğunlukla normal mesajlarda rastlanmasından dolayı duygusal ifade frekansını bir diğer özellik olarak seçilmiştir. Mesaj ağırlıkları sonuca yüksek oranda etki eden özellikler olmuştur. Mesaj ağırlıkları üç duruma göre hesaplanmıştır. Spam mesaj ağrılığı, normal mesaj ağırlığı ve bildiri mesajı ağırlığı. Daha önce 3 farklı durum için anahtar kelimeler belirlenmiş ve bunlara ağırlıklar September 17-18, 2016 Malatya/TURKEY 50

atanmıştı. Bu aşamada mesajda bulunan anahtar kelimelerin ağırlıkları toplanarak mesaj ağırlıkları hesaplanmıştır. Tablo 4 te 3 sınıf için ilk 20 anahtar kelime gösterilmektedir. Sınıf Spam Normal Bildiri TABLO 4 ANAHTAR KELİME ÖRNEKLERİ Örnek Anahtar Kelimeler Yaz, indir, kampanya, özel, fırsat, alışveriş, bonus, gönderi, mersis, iptal, taksit, üzeri, hediye, tüm, kazan, ürün, ret, hemen, sadece, harca.. ben,sen, hoca, tamam, iyi, gel, abi, kardeş, var, çok, bir, yok, bak, bayram, teşekkür, biz, ama, selam, hayır.. kullan, şifre, internet, şube, tarihi, ödem, kargo, giriş, fatura, nolu, işlem, hesap, paket, cep, takip, değer, itibari, saat, müşteri, kod, hak.. özelliklerin yanına kullanıcı dostu arayüz tasarımı ve içerik tabanlı SMS filtreleme özelliği de eklenmiştir. Şekil 3 teki uygulama akış şemasından anlaşılacağı gibi gelen mesaj, gerekli özellik çıkarımları ve sınıflandırma işlemlerinden sonra, mesaj türüne göre gelen kutusuna gönderilmektedir. Eğer gelen mesaj spam ise kullanıcıyı rahatsız etmeden bu mesajı veri tabanında tutarak Şekil 4 te gösterilen arayüz ile kullanıcı istediği zaman bu mesajları sunmak amaçlanmıştır. 4. SINIFLANDIRMA VE MOBİL UYGULAMA Çıkarılan özellikler ile Random Forest, Bagging ve RandomSubSpace yöntemleri kullanılarak test edilmiştir. Analiz yapılırken veri setinin %60 ı eğitim verisi %40 test verisi olarak kullanılmıştır. Tablo 5 daki analiz sonuçlarına göre, 2 sınıf için yapılan analizlerin 3 sınıfa göre yapılan analizlerden toplamda daha doğru yüzdeyle sınıflandırdığı görünmektedir. Tablo 6 da hatalı ve doğru sınıflandırma sayılarına ulaşılabilecek karmaşıklık matrisleri gösterilmiştir. Bu matrislere göre Random forest algoritması örneği için, 2 sınıflı çözüm önerisinde alınan 879 mesaj örneğinden 64 tanesi spam olarak sınıflandırılmıştır. 3 sınıflı çözüm örneğinde ise 283 normal mesajın 9 tanesi spam mesajı 17 tanesi bildiri mesajı olarak sınıflandırılmıştır. Random Forest algoritmasının her iki sınıf türüne göre daha başarılı sonuçlar verdiği gözlemlenmiştir. Mobil uygulamada Random Forest ve 2 sınıf içeren analiz kullanılmıştır. Hazırlanan mobil uygulama, açık kaynak bir yazılım olan ve Felix Bechstein tarafından geliştirilen SMSdroid uygulaması altyapısını kullanılarak oluşturulmuştur [18]. SMSdroid temel mesajlaşma uygulamalarında olması gereken tüm özellikleri içermektedir. Geliştirilen yeni uygulama ile SMS gönderme, SMS alma, MMS gönderme ve MMS alma gibi temel Şekil 3 Uygulama Akış Şeması TABLO 5 ANALİZ SONUÇLARI 2 Sınıf İçin (Normal Spam) 3 Sınıf İçin (Normal-Bildiri-Spam) Yöntem CCI RMSE CCI RMSE RandomForest 93.7647 0.219 92.1707 0.1961 Bagging 93.1552 0.2324 90.5298 0.215 RandomSubSpace 93.1083 0.2443 91.0924 0.231 *CCI - Correctly Classifed Instances(Doğru sınıflandırma yüzdesi) *RMSE - Root Mean Squared Error (Ortalama Hata Kareleri Kökü) September 17-18, 2016 Malatya/TURKEY 51

TABLO 2 ALGORİTMALARIN CONFUSION MATRIX LERİ 2 Sınıf İçin Confusion Matrix 3 Sınıf İçin Confusion Matrix Normal Spam Bildiri Normal Spam RandomForest 815 64 515 13 68 69 1185 17 257 9 52 8 1194 Bagging 809 70 498 23 75 76 1178 21 253 9 63 11 1180 RandomSubSpace 802 77 493 17 86 70 1184 26 251 6 50 5 1199 Şekil 4 Uygulama Ekran Görüntüleri 5. SONUÇ Bu çalışmada Türkçe spam mesajlar için metin madenciliğinden faydalanarak sınıflama uygulaması yapılmıştır. Spam mesajların ayırt etmek için mesajların yapıları incelenip doğru sonuca götürecek özellikler belirlenmiştir. Bildiri mesajlarının yapılarının spam mesajlara benzemesinden dolayı üçüncü bir sınıf olarak bildiri sınıfı çözüme katılmış ve analiz sonuçları iki sınıflı çözümle karşılaştırılmıştır. 2 sınıflı çözümün daha başarılı olduğu gözlemlenmiştir. Random Forest yöntemi %93.76 ile doğruluk oranı ile en iyi sınıflandırma algoritması olmuş ve uygulamada bu algoritma kullanılmıştır. Ucuz ve etkili bir yöntem olan kısa mesaj servisi, pazarlama şirketlerinin sık tercih September 17-18, 2016 Malatya/TURKEY 52

ettikleri bir yöntem olmasının yanı sıra dolandırıcıların da kullandıkları bir yöntemdir. Promosyon, reklam gibi sebeplerden kullanıcılar normal mesajlara ulaşmada ve kullanmada zorluklar yaşamaktadır. Bu uygulama ile kullanıcıların kısa mesaj servisini verimli kullanarak, istenmeyen mesajlar yüzünden vakit ve enerji kaybını engellemek hedeflenmiştir. KAYNAKLAR [1] S. J. Delany, M. Buckley, and D. Greene, Sms spam filtering: Methods and data, Expert Systems with Applications, vol. 39, no. 10, pp. 9899 9908, 2012. [2] N. Wu, M. Wu, and S. Chen, ``Real-time monitoring and filtering system for mobile SMS,'' in Industrial Electronics and Applications, 2008. ICIEA 2008. 3rd IEEE Conference on, pp. 1319-- 1324, IEEE, 2008. [3] M. B. Junaid, ve M. Farooq, Using evolutionary learning classifiers to do mobile spam (SMS) filtering, In Procs. of genetic and evolutionary computation conference (GECCO), 2011. [4] Najadat H., Abdulla, N., Abooraig, R. ve Nawasrah S. (2014). Mobile SMS Spam Filtering based on Mixing Classifiers. International Journal of Advanced Computing Research,1. [5] Deng, W.-W., ve Peng, H., (2006) Research on a Naive Bayesian Based Short Message Filtering System, International Conference on Machine Learning and Cybernetics,1233 1237. [6] Yadav K., Saha S.K., Kumaraguru P., (2012). Take Control of Your SMSes : Designing an Usable Spam SMS Filtering System, 2012 IEEE 13th International Conference on Mobile Data Management, 23-26 Haziran 2012, Bengaluru, Karnataka. [7] Zhang, H.-yan, ve Wang, W. (2009). Application of Bayesian method to spam sms filtering, 2009 International Conference on Information Engineering and Computer Science:1-3. [8] I. Joe ve H. Shim, "An sms spam filtering system using support vector machine," Lecture Notes in Computer Science, vol. 6485, pp. 577-584, 2010. https://www.stat.berkeley.edu/~breiman/using_r andom_forests_v4.0.pdf [12] L. Breiman, Bagging Predictors, Machine Learning, Vol. 24, 123 140, 1996. [13] P. L. Braga, A. L. I. Oliveira, G. H. T. Ribeiro, and S. R. L. Meira, "Bagging Predictors for Estimation of Software Project Effort," Proc. International Joint Conference on Neural Networks, pp. 1595-1600, 2007. [14] M. F. Amasyalı ve O. Ersoy, Performance based pruning and weighted voting with classification ensembles,2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU), pp. 194 197, 2011. [15]T. K. Ho, "The Random subspace method for constructing decision forests," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, pp. 832-844, 1998. [16] B. N. Kökçü, R. D. Köse, F. Bulut, M. F. Amasyalı, Kolektif öğrenme algoritmalarıyla çocuklarda obezite hastalığına yakalanma olasılıklarının hesaplanması, Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu, sf. 57, 2014. [17] Zemberek-NLP Erişim 10 Mayıs 2016 https://github.com/ahmetaa/zemberek-nlp [18] SMSDroid Erişim 10 Mayıs 2016 https://github.com/felixb/smsdroid [9] L. Breiman, "Random forests", Mach. Learn., vol. 45, no. 1, pp. 5-32, 2001 [10] E. Coşgun, E. Karabulut, E. Karaağaoğlu, Random forest ve destek vektör makinası yöntemleri ile gen seçimi ve sınıflaması,vi. Ulusal İstatistik Kongresi, Antalya, Türkiye, Mayıs 2009. [11] L. Breiman, Manual-Setting Up, Using, And Understanding Random Forests. Erişim: 10 Mayıs 2016, University of California, Berkeley. September 17-18, 2016 Malatya/TURKEY 53