GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI. Fatih ATAK BİLGİSAYAR BİLİMLERİ YÜKSEK LİSANS TEZİ

Transkript

1 GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI Fatih ATAK BİLGİSAYAR BİLİMLERİ YÜKSEK LİSANS TEZİ GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Şubat 2014 ANKARA

2

3

4 iv GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI (Yüksek Lisans Tezi) Fatih ATAK GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Şubat 2014 ÖZET Günümüzde hemen hemen her alanda kayıt altına alınan anlamlı/anlamsız veriler bulunmaktadır. Devlet, şirket, firma, banka, market, evler ve daha birçok yerlerde görüntülü, sesli ve hem görüntülü hem sesli saklanabilen veriler saklanmaktadır. Gün geçtikçe işlenmeyen, bekleyen, bekletilen veri yığınları veri çöplüğü haline gelmektedir. Fakat bu veri yığınları işlenildiğinde, bilgiye dönüştürüldüğünde topluma yani toplumun en önemli faktörü olan insanlığa hizmette yegâne işler arasında gösterilebilir. Çünkü artık teknoloji ile toplum o kadar iç içe geçti ki zamanın her dakikasında, saniyesinde farkında olmadan etrafa anlamsız veriler bırakabiliyoruz. Veri yığınları küresel dünyada başa çıkılamayan risklerden biri haline gelmiştir. Bu çalışma da incelenen örnek kurumun internet ağında kullanılan karmaşık ağ veri yığınını veri madenciliği süreçleri ile kullanılabilir hale getirilmiştir. Uygun veriler üzerinde veri madenciliği yöntemleri kullanılarak çıkan sonuçlar arasında çıkarımda bulunulmaya çalışılmış, ayrıca farklı veri madenciliği uygulamalarından elde edilen sonuçlar arasındaki farklılıklar incelenmiştir.

5 v Bilim Kodu : Anahtar Kelime : veri madenciliği, yöntemleri Sayfa Adedi : 74 Tez Yöneticisi : Doç. Dr. Suat ÖZDEMİR

6 vi DATA COMPARISON OF DATA MINING TOOLS USING REAL WORLD NETWORK DATA (M.Sc. Thesis) Fatih ATAK GAZİ UNIVERSITY INFORMATICS INSTITUTE February 2014 ABSTRACT Nowadays, almost every area recorded the meaningful / meaningless data are available. Government, companies, firms, banks, markets, houses and many more places video, voice and data can be stored both voice and video are stored. Unhandled by day, pending, pending data dump piles of data are becoming. But when these piles of data processed, the information is converted into society so that society's most important factor in service to humanity oil valve shown between jobs. Because society is now so intertwined with technology goes away every minute of the time, in seconds around unwittingly have been able meaningless data. Piles of data that can not be dealt with in the global world has become one of the risks. In this study, samples already used in the organization's internet network stack of complex networked data has been made available through data mining process. Using data on the appropriate data mining methods have been tried to be drawn from the results.

7 vii Science Code : Key Words : data mining, methods Page Number : 74 Adviser : Assoc. Prof. Dr. Suat ÖZDEMİR

8 viii TEŞEKKÜR Çalışmalarım boyunca yardım ve katkılarıyla beni yönlendiren değerli Hocam tez danışmanım Doç. Dr. Suat ÖZDEMİR e, tecrübelerinden faydalandığım değerli Hocam Özgür DOLGUN a, TÜBİTAK Başkanım Sayın Prof. Dr. Yücel ALTUNBAŞAK a, mesai arkadaşım Eren YAZICIOĞULU na ve yakın çalışma arkadaşlarım Süha BOTSALI ya, Resul ÖZDEMİR e ayrıca manevi destekleriyle beni hiç yalnız bırakmayan değerli eşim H. Zehra GÖKÇEOĞLU ATAK a, anneme, babama ve kardeşlerime teşekkürlerimi bir borç bilirim.

9 ix İÇİNDEKİLER Sayfa ÖZET... iv ABSTRACT... vi TEŞEKKÜR... viii ŞEKİLLERİN LİSTESİ... xi SİMGE VE KISALTMALAR... xiv 1. GİRİŞ VERİ MADENCİLİĞİ Veri Madenciliği Nedir? Uygulama Alanları Sigortacılık Bankacılık Pazarlama Elektronik ticaret Biyoloji, tıp ve genetik Kimya Yüzey analizi ve coğrafi bilgi sistemleri Görüntü tanıma ve robot görüş sistemleri Uzay bilimleri ve teknolojisi Meteoroloji ve atmosfer bilimleri Sosyal bilimler ve davranış bilimleri Metin madenciliği Bilimsel, mühendislik ve sağlık bakım verileri Veri Madenciliği Modelleri... 9

10 x Sınıflandırma Kümeleme Birliktelik kuralı/analizi Birliktelik Kuralı ve Apriori Algoritması Birliktelik kuralı Apriori algoritması Sınıflandırma ve Karar Ağaçları, Naive Bayes Algoritmaları Sınıflandırma Karar ağaçları Naive Bayes UYGULAMA Apriori Algoritması ile Ağ Verilerinin Modellenmesi Karar Ağacı Algoritması İle Ağ Verilerinin Modellenmesi Eğitim seti (Karar Ağacı) Test seti (Karar Ağacı) Naive Bayes İle Ağ Verilerinin Modellenmesi Eğitim seti (Naive Bayes) Test seti (Naive Bayes) SONUÇ KAYNAKLAR EKLER Ek-1. C# programlama dilinde yazılan kodlar ÖZGEÇMİŞ... 74

11 xi ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. Bilgi keşif süreci... 4 Şekil 2.2. Veri madenciliği modelleri Şekil 2.3. Klasik Apriori algoritması özet kodu Şekil 2.4. Apriori-Gen fonksiyonu Şekil 3.1. Ham (işlenmemiş) veri Şekil 3.2. İşlenmiş veri Şekil 3.3. Özet uygulamalar tablosu Şekil 3.4. Çarşamba gününün Apriori modeli Şekil 3.5. Çarşamba günü Apriori algoritmasının sonucunda çıkan kurallar 30 Şekil 3.6. Cuma günü Apriori algoritmasının sonucunda çıkan kurallar Şekil 3.7. Pazartesi günü Apriori algoritmasının sonucunda çıkan kurallar.. 32 Şekil 3.8. Çarşamba günü table akış modülü Şekil 3.9. Çarşamba günü web adreslerinin sıklıkları Şekil Pazartesi ve cuma günlerinin web adresleri sıklıkları Şekil Çarşamba günü zaman dilimleri akış modülü Şekil Çarşamba günü saat dilimlerinin yoğunluğu Şekil Pazartesi ve cuma günleri saat dilimlerinin yoğunlukları Şekil Çarşamba günü dst akış modülü Şekil Çarşamba günü zamana bağlı web adreslerinin yoğunlukları Şekil Pazartesi ve cuma günleri zamana bağlı web adreslerinin yoğunlukları... 38

12 xii Şekil Pazartesi ve cuma günleri zamana bağlı microsoft sitesinin yoğunlukları Şekil Çarşamba günü kullanıcılarının web adreslerini tıklama sıklığı.. 39 Şekil Çarşamba günü kullanıcılarının web trafiği Şekil Çarşamba günün içerisindeki kullanıcıların zaman dilimine göre web sayfası tıklama yoğunluğu Şekil Eğitim verilerinin kategorik/niteliksel açıklamaları Şekil Eğitim seti verisi Şekil RapidMiner Karar Ağacı model tasarımı Şekil RapidMiner Karar Ağacı modeli sonucu Şekil SPSS Karar Ağacı algoritmasının sonucu Şekil Test verilerinin kategorik/niteliksel açıklamaları Şekil Test seti verisi Şekil RapidMiner daki test seti hata-başarı oranı(karar Ağacı) Şekil Karışıklık matrisi-rapidminer Şekil SPSS deki test seti hata-başarı oranı (Karar Ağacı) Şekil Karışıklık matrisi-spss Şekil RapidMiner da Naive Bayes model tasarımı Şekil Naive Bayes uygulaması arayüz görüntüsü Şekil RapidMiner daki test seti hata-başarı oranı (Naive Bayes) Şekil Karışıklık matrisi-rapidminer Şekil C# program dili ile kodlanan algoritmaya uygulanan test seti hata-başarı oranı... 56

13 xiii Şekil Karışıklık matrisi-kodlama Şekil 4.1. Oluşturulan modellerin başarım ölçütleri... 59

14 xiv SİMGE VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur Simgeler Açıklama Dst Dstport Ethsource Mindes VTBK TCP UDP Destination (Hedef) Destinationport (Hedefport) Ethernetsource (Eternet kaynağı) Minimum destek değeri Veri tabanları bilgi keşfi Transmission Control Protocol (Transmisyon Kontrol Protokolü) User Datagram Protocol (Kullanıcı Datagram Protokolü)

15 1 1. GİRİŞ Günümüzde her türlü işlerde, alışverişlerde ve kurumsal/kamusal alanlardaki işlemlerde kaydı tutulan veriler bulunmaktadır. Ayrıca işletmelerin ve devletin kendi dâhilinde yapılan işlemler sonucunda da depoladıkları veriler, görüntü ve ses cihazlarından elde edilen çoklu ortam verileri gibi birçok veri devamlı olarak saklanmakta ve depolanan bu veriler çok hızlı boyutlarda artmaktadır. Fakat bu veriler istenildiği şekilde değerlendirilememekte, hızla büyüyen bilgi yığınları şekline dönüşmektedir. Veri madenciliği, bir veri yığını içerisinde henüz ortaya çıkarılmamış gözlenebilir veya ölçülebilir bilgileri bulmayı amaçlayan teknikler bütününü temsil etmektedir. Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir, çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar [1]. Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan bilgi keşfi süreci içinde bir adımdır [2]. Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir. Bu yöntemlerden çoğu istatiksel tabanlıdır. Bu çalışmada daha çok Apriori, Karar Ağaçları ve Naive Bayes algoritmaları üzerinde yoğunlaşılmıştır. Apriori ilişkilendirme kuralları; Karar Ağaçları ve Naive Bayes ise sınıflandırma tekniklerindendir. Çalışmanın amacı hali hazırda örnek kurumun internet ağında kullanılan karmaşık ağ verisinin veri madenciliği ile kullanılabilir hale getirmek ve veri madenciliği yöntemleri kullanılarak elde edilen sonuçlar arasında kıyaslama yapılıp ilişkileri ortaya çıkarmaktır. Örnek kurumun internet trafiği incelendiğinde girilen sitelerden kişinin gün içindeki internet hareketleri izlenerek cinsiyet sınıf etiketine göre tahmin edilebilmektedir. Yapılan benzer çalışmalarda Down sendromu tanısı teşhisinde Naive Bayes sınıflandırıcısının daha başarılı olduğu görülmüştür [3]. Diğer bir çalışmada

16 2 örüntüleri oluşturan gözlem değerlerinden seçilmiş istatistiksel özellikleri kullanan Yapay Sinir Ağ Yapısı ve Bayes sınıflandırıcılarının doğru sınıflandırma performansının, ham verileri kullanan sınıflandırıcılara göre daha yüksek tanıma performansı gösterdikleri gözlenmiştir [4]. Diğer bir çalışmada elde edilen sonuçlara göre Naive Bayes sınıflandırıcının tiroit hastalığı teşhisinde Yapay Sinir Ağları, Destek Vektör Makinaları ve K- Ortalama yöntemlerine göre daha başarılı olduğu görülmüştür [5]. Başka bir çalışmada yine Naive Bayes sınıflandırıcısı yine tiroid teşhisinde J48 Karar Ağacı algoritmasına göre daha iyi performans gösterdiği gözlemlenmiştir [6]. İlişkilendirme kuralı ile ilgili 2007 yılında yazılan bir makalede [7], Apriori algoritmasının firmanın veri seti üzerinde uygulandığında farklı zaman farklı zaman dilimi, farklı satış şubelerine göre ürünler arasında birlikte satın alınma bağıntılarını ortaya koyduğu ve genelde aynı ürün grubu içinde yer alan ürünlerin birlikte satın alınma davranışlarına sahip olduğundan bahsedilmiştir. Yine bir çalışmada örnek bir firmanın pastane satış verileri üzerinde uygulanması için web tabanlı bir uygulama yazılımı geliştirildiği ve geliştirilen uygulama yazılımı ile örnek firmanın yıl içinde farklı dönemlerde ve farklı satış noktalarında gerçekleşen satış verileri üzerinde, birlikte satın alınma tercihi yapılan ürünler tespit edildiği ifade edilmiştir [8]. Bölüm 2 de veri madenciliği, uygulama alanları ve yöntemleri hakkında teorik bilgiler verilmiştir. Bölüm 3 te algoritmaların verilere farklı araçlar ile uygulanmasından bahsedilmiştir. Bölüm 4 te ise bölüm 3 teki uygulamaların sonuçları analiz edilerek detaylı bir şekilde anlatılmıştır.

17 3 2. VERİ MADENCİLİĞİ 2.1. Veri Madenciliği Nedir? Veri madenciliği veri içerisinden yararlı olanları bulup ortaya çıkarma işlemidir [9]. Veri madenciliği sihir değildir. Yıllardır, istatistikçiler veri tabanlarını elle kazımakta, istatistiksel açıdan önemli ilişkiler aramaktadır. Veri madenciliği, bu süreci otomatik olarak gerçekleştirmektedir. Veri madenciliği veri kümesi içerisinde keşfedilmemiş örüntüleri bulmayı hedefleyen teknikler koleksiyonunu betimlemektedir. Veri madenciliğinin amacı, geçmiş faaliyetlerin analizini temel alarak gelecekteki davranışların tahminine yönelik karar-verme modelleri yaratmaktır. Frawley veri madenciliğini: Daha önceden bilinmeyen ve potansiyel olarak yararlı olma ihtimaline sahip verinin keşfedilmesi olarak tanımlamıştır. Berry ve Linoff bu kavrama Anlamlı kuralların ve örüntülerin bulunması için geniş veri yığınları üzerine yapılan keşif ve analiz işlemleri şeklinde bir açıklama getirirken, Sever ve Oğuz çalışmalarında veri madenciliği hakkında Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan veri tabanlarında bilgi keşfi süreci içerisinde bir adımdır. tanımını kullanmışlardır [10]. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden bilim adamları tarafından buna eş değer başka adlandırmalarda literatüre geçmiştir. Bunlar; veritabanlarında bilgi keşfi (VTBK) (KDD Knowledge Discovery in Databases), Bilgi Çıkarımı (Knowledge Extraction), Veri ve Örüntü analizi (Data/ Pattern Analysis), Veri Tarama (Data Dredging), Bilgi Keşfi (Knowledge Discovery), Veri Arkeolojisi (Data Archaeology), Veri Avcılığı (Data Fishing), Bilgi Üretimi (Knowledge Creation) ve Bilgi Hasadıdır (Information Harvesting). Bu adlandırmalardan veri madenciliği deyimi yerine en çok kullanılanı VTBK olmuştur. Bununla birlikte aslında VTBK, veriler arasından yararlı bilgileri keşfetme sürecidir ve veri madenciliği VTBK sürecinin önemli bir adımıdır. VTBK süreci ise veri hazırlama, veri seçme,

18 4 veri temizleme ve veri madenciliği sonucu çıkan sonuçların yorumlanması gibi ek adımlarla birlikte veriden türetilen yararlı bilginin elde edilmesi demektir. Şekil 2.1 de VTBK adımlarını göstermektedir. Bu adımlar; Şekil 2.1. Bilgi keşif süreci Veri madenciliği, VTBK işleminin adımlarından biridir. VTBK işleminin adımları farklı kişiler tarafından farklı modellerle ifade edilmiştir. Han tarafından sunulan modelde VTBK işlemi yedi adımda meydana gelmektedir. Bu adımlar sırasıyla veri temizleme, veri birleştirme, veri seçme, veri dönüştürme, veri madenciliği, örüntü değerlendirme ve bilgi sunumudur. VTBK sürecindeki adımlar Şekil 2.1. de görsel olarak ifade edilmiştir. Han ın sunduğu modeldeki VTBK sürecinde yer alan adımlar açıklamaları ile aşağıda belirtilmiştir [10]. Veri Temizleme (Data Cleaning): Gerçek hayatta kullanılan veritabanları içindeki veriler kirlenmeye, eksik hale gelmeye ve tutarsız olmaya eğilimlidirler. Bu nedenle verilerin kullanılmadan önce bazı ön işlemlerden geçmeleri gerekir. Ön işlemlerden geçen veriler üzerinde veri madenciliği algoritmalarının uygulanması ile daha kaliteli sonuçlar elde edilir. Bu ön

19 5 işlemlerden biri veri temizlemedir. Veri temizleme ile veritabanlarındaki eksik, tutarsız ve gürültülü veriler giderilir. Veri Birleştirme (Data Integration): Farklı veri tabanlarından ya da veri kaynaklarından elde edilen verilerin birlikte değerlendirmeye alınabilmesi için farklı türdeki verilerin tek türe dönüştürülmesi işlemidir. Bunun en yaygın örneği cinsiyette görülmektedir. Çok fazla tipte tutulabilen bir veri olup, bir veri tabanında 0/1 olarak tutulurken diğer veri tabanında E/K veya Erkek/Kadın şeklinde tutulabilir. Bilginin keşfinde başarı verinin uyumuna da bağlı olmaktadır. Veri Seçme (Data Selection): Veritabanlarında üzerinde işlem yapılacak olan veri seçilir ve veri türleri bu aşamada belirlenir. Veri madenciliği uygulamalarında çözümlemeden elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısı ya da değişkenlerin sayısı azaltılabilir. Veri Dönüştürme (Data Transformation): Verinin kullanılacak modele göre içeriğini koruyarak şeklinin dönüştürülmesi işlemidir. Dönüştürme işlemi kullanılacak modele uygun biçimde yapılmalıdır. Çünkü verinin gösterilmesinde kullanılacak model ve algoritma önemli bir rol oynamaktadır. Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu taktirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır. Bu yüzden veri üzerinde normalizasyon işlemi yapılmalıdır. Veri Madenciliği (Data Mining): Bu aşamada, anlamlı örüntüler elde edebilmek için veri üzerinde veri madenciliği algoritmaları uygulanır. Sınıflandırma, kümeleme algoritmaları gibi veri madenciliği algoritmaları kullanılarak yararlı bilgi keşfedilmesi sağlanır.

20 6 Örüntü Değerlendirme (Pattern Evaluation): Elde edilmiş olan bilginin basitlik, geçerlilik, yararlılık ve yenilik gibi bazı ölçüm değerlerine göre değerlendirildiği aşamadır. Bilgi Sunumu (Knowledge Presentation): Bu aşamada, çeşitli görselleştirme ve bilgi sunum araçları kullanılarak elde edilmiş olan bilginin kullanıcıya sunumu gerçekleştirilir Uygulama Alanları Veri madenciliğinin birçok kullanım alanları mevcuttur. Bunların en önemlileri sigortacılık, bankacılık ve elektronik ticaret [11], biyoloji, kimya, coğrafi bilgi sistemleri, görüntü tanıma, uzay bilimleri, sosyal bilimler, bilimsel mühendislik alanlarıdır Sigortacılık Sigorta dolandırıcılıkların tespiti, Riskli müşteri gruplarının belirlenmesi, Yeni poliçe talep edecek kişilerin tahmin edilmesi vb. konularda yapılabilir Bankacılık Kredi taleplerinin değerlendirilmesi, Kredi kartları harcamalarına göre müşteri gruplarının belirlenmesi, Kredi kartı dolandırıcılıklarının ve sahtekârlıklarının belirlenmesi, Farklı finansal göstergeler arasında gizli ilişkilerin ortaya konulması vb. konularda yapılabilir.

21 Pazarlama Pazar sepet analizi, Müşteri ilişkileri yönetimi, Satış tahmini, Müşteri değerlendirme, Müşterilerin satın alma alışkanlıklarının belirlenmesi, Müşterilerin demografik özellikleri arasındaki bağlantıların ortaya konulması vb. konularda yapılabilir Elektronik ticaret Saldırıların çözümlenmesi, Sigorta dolandırıcılıkların tespiti, Riskli müşteri gruplarının belirlenmesi vb. konularda yapılabilir Biyoloji, tıp ve genetik Bitki türleri ıslahı, Gen haritasının analizi ve genetik hastalıkların tespiti, Kanserli hücrelerin tespiti, Yeni virüs türlerinin keşfi ve sınıflandırılması, Fizyolojik parametrelerin analizi ve değerlendirilmesi vb. konularda yapılabilir Kimya Yeni kimyasal moleküllerin keşfi ve sınıflandırılması, Yeni ilaç türlerinin keşfi vb. konularda yapılabilir.

22 Yüzey analizi ve coğrafi bilgi sistemleri Bölgelerin coğrafi özelliklerine göre sınıflandırılması, Kentlerde yerleşim yerleri belirleme, Kentlerde suç oranı, Zenginlik-yoksulluk, köken belirleme, kentlere yerleştirilecek posta kutusu, otomatik para makineleri, otobüs durakları gibi hizmetlerin konumlarının tespiti vb. konularda yapılabilir Görüntü tanıma ve robot görüş sistemleri Çeşitli algılayıcılar aracılığı ile tespit edilen görüntülerden yola çıkarak engel tanıma, Yol tanıma, yüz tanıma, parmak izi tanıma gibi tekniklerde kullanımı vb. konularda yapılabilir Uzay bilimleri ve teknolojisi Gezegen yüzey şekillerinin ve gezegen yerleşimleri, Yeni galaksiler keşfi, Yıldızların konumlarına göre gruplandırılması vb. konularda yapılabilir Meteoroloji ve atmosfer bilimleri Bölgesel iklim, yağış haritaları oluşturma, Hava tahminleri, ozon tabakası deliklerinin, tespiti, çeşitli okyanus hareketlerinin belirlenmesi vb. konularda yapılabilir Sosyal bilimler ve davranış bilimleri Kamuoyu yoklamaları inceleme,

23 9 Genel eğilim belirleme, seçim öngörüleri oluşturma vb. konularda yapılabilir Metin madenciliği Çok büyük ve anlamsız metin yığınları arasından anlamlı ilişkiler elde etmekte kullanılması vb. konularda yapılabilir Bilimsel, mühendislik ve sağlık bakım verileri Günümüzde bilimsel veriler, iş sahası verilerinden daha da karmaşık hale gelmişlerdir. Buna ek olarak; Bilim adamları ve mühendisler uygulama sahası bilgilerini kullanarak benzetim ve sistem kullanımının arttırılması vb. konularda yapılabilir. Web Verileri: Internet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Sadece düz metin ve resimden başka akan (streaming) ve nümerik veriler de web verileri arasında yer almaktadır [12] Veri Madenciliği Modelleri Han a göre modeller iki alan altında toplanan tanımlayıcı (descriptive) ve öngörüsel (predictive) modellerdir. Tanımlayıcı model, veritabanı içindeki verinin genel özelliklerinin ortaya çıkarır. Öngörüsel modelde ise, gelecekle ilgili tahminlerde bulunmak için kabul edilen veri üzerinde sonuçlar çıkarmaya çalışır. Han ın modelini kullananlar bile hangi kategorinin hangi modelin altında olduğunun kararını verememişlerdir. Bu kategoriler tanımlama ve ayrımlama (characterization and discrimination), birliktelik analizi (association rules), sınıflandırma ve öngörü (classification and prediction), kümeleme

24 10 analizi (cluster analysis), sıra dışılık analizi (outlier analysis) ve gelişimsel analizdir (evolution analysis). VM modellerini gördükleri işlevlere göre, Sınıflama (Classification) ve Regresyon, Kümeleme (Clustering), Birliktelik Kuralları (Association Rules) ve Ardışık Zamanlı Örüntüler (Sequential Patterns), olmak üzere üç ana baslık altında incelemek mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir. Sekil 2.2.'de bu ilişkiler özetlenmiştir [13]. Şekil 2.2. Veri madenciliği modelleri Sınıflandırma Sınıflandırma, veri kümesindeki kayıtları önceden belirlenmiş alt gruplara ait varsayarak tüm kayıtlara doğru sınıf etiketlerinin atanmasını amaçlayan veri madenciliği çalışmalarını ifade etmektedir. Diğer yandan, sınıflandırma modelleri değişkenlikleri ve veri içerisindeki çeşitli problemleri tanımlamak

25 11 için de kullanılabilmektedirler. Sınıflandırma modellerinde bağımlı değişken kesikli olmakta ve bu değişkenin her bir değeri birer sınıf etiketi ifade etmektedir. Sınıflandırma modeli, bağımlı değişkenin de değerlerini içeren veri kümesi üzerinden sınıflayıcı kuralları türetmekte ve bu kuralları yeni kayıtlara uygulayarak öngörülerde bulunmaktadır [14]. Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği yöntemleri içerisinde en yaygın kullanıma sahip olan sınıflama modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Sınıflama modellerinde kullanılan başlıca yöntemler; Karar Ağaçları, Yapay Sinir Ağları, Genetik Algoritmalar, K-En Yakın Komşu, Bellek Tabanlı Yöntemler, Naive-Bayes Kümeleme Nesnelerin kendilerini veya diğer nesnelerle olan ilişkilerini tanımlayarak onları gruplara bölme işlemine kümeleme denir. Buradaki amaç gruplar içindeki nesneleri diğer gruplardaki nesnelerden ayrı; kendi aralarında ise birbirlerine benzer şekilde oluşturmaktır [15]. Veri madenciliğinde kullanılmakta olan birçok kümeleme algoritması vardır ve bunlar analiz edilecek olan verinin yapısına göre belirlenir. Kümeleme metotları genel olarak şunlardır [16]: Bölme Metodu: n tane nesnenin olduğu veritabanında, nesneler mantıksal gruplara ayrılarak analiz edilir. Küçük ve orta boyutlu veritabanlarında birkaç

26 12 grup olabilirken, veritabanının büyüklüğü arttığında daha çok grup oluşabilir. Gruplandırma yapılırken değişik kriterler değerlendirilebilir. Yapılan gruplandırma analizin kalitesine etki eder. Hiyerarşik Metot: Analiz etmeden önce nesneler, hiyerarşik bir yapıya göre düzenlenir. Veriyi hiyerarşik bir yapıya çevirmek için değişik yöntemler kullanılır. Bunların arasında BIRCH ve CURE yöntemleri bulunur. Yoğunluk Tabanlı Metot: Birçok kümeleme yöntemi nesnelerin birbirleri arasındaki farklılıklarına göre kümeleme yaparken, bu metot nesnelerin yoğunluğuna göre gruplama yapar. Yoğunluktan kasıt, analiz edilen nesnelerin sayısıdır. Yoğunluk tabanlı metotlara örnek olarak DBscan verilebilir. Izgara Tabanlı Metot: Nesneleri grid yapısı oluşturacak şekilde sayılarına göre sınıflandırır. Temel avantajı hızlı tamamlanması ve nesnelerin sayısından bağımsız olmasıdır. Bu tipteki metotlara örnek olarak Sting verilebilir. Model Tabanlı Metot: Her küme için bir model belirlenir ve bu modele uyan veriler uygun kümeye yerleştirilir Birliktelik kuralı/analizi Birliktelik kuralı, geçmiş verilerin analiz edilerek bu veriler içindeki birliktelik davranışlarının tespiti ile geleceğe yönelik çalışmalar yapılmasını destekleyen bir yaklaşımdır. 90 lı yılların başına kadar saklanan satış verilerinde ürün ve müşteri verisi çok nadir yer alırken, genelde mali açıdan önemli olan tutarsal gelir verilerinin depolanması yapılıyordur. 90 lı yılların başından itibaren veri toplama uygulamalarındaki gelişmeler doğrultusunda firmaların satış noktalarında yeni teknoloji otomatik ürün veya müşteri tanıma sistemleri (barkod ve manyetik kart okuyucular) yaygınlaşmaya başlamıştır.

27 13 Bu tip teknolojik gelişmeler, bir satış hareketine ait verilerin satış esnasında toplanmasına ve elektronik ortamlara aktarılmasına olanak tanımıştır. Veritabanı kayıtları içinde yer alan kayıtların birbirleriyle olan ilişkileri inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan veri madenciliği yöntemleri bulunmaktadır. Bu ilişkilerin belirlenmesiyle birliktelik kuralları elde edilir. Birliktelik analizi nesnesel yâda karekteriksel özelliklerin birlikte işlediği bir kuraldır. Ayrıca, Pazar Sepet Analizi olarak da tanımlanan birliktelik kuralı bir ya da daha fazla nesnelerin aralarındaki nicel ilişkilerini ortaya çıkarır [17]. Pazar sepet analizleri yardımıyla bir müşteri herhangi bir ürünü aldığında, sepetine başka hangi ürünleri koyduğu belirli bir olasılığa göre ortaya konur. Birlikte satın alınan ürünler belirlendiğinde, mağazalarda raflar ona göre düzenlenerek müşterilerin bu tür ürünlere daha kolayca erişimleri sağlanabilir Birliktelik Kuralı ve Apriori Algoritması Veri madenciliğinde kullanılan ilk yöntemlerden birisidir [18]. Birliktelik kuralı, geçmiş verilerin analiz edilerek bu veriler içindeki birliktelik davranışlarının tespiti ile geleceğe yönelik çalışmalar yapılmasını destekleyen bir yaklaşımdır. Birliktelik kuralı madenciliğinin uygulamasına Pazar sepeti analizi örnek verilebilir [19]. Birliktelik kuralındaki amaç; alışveriş esnasında müşterilerin satın aldıkları ürünler arasındaki birliktelik ilişkisini bulmak, bu ilişki verisi doğrultusunda müşterilerin satın alma alışkanlıklarını tespit etmektir. Satıcılar, keşfedilen bu birliktelik bağıntıları ve alışkanlıklar sayesi ile etkili ve kazançlı pazarlama ve satış imkânına sahip olmaktadırlar. Örneğin, bir marketten müşterilerin süt ve peynir satın alımlarının % 70 inde bu ürünler ile birlikte yoğurt da satın alınmıştır. Bu tür birliktelik örüntüsünün tespit edilebilmesi için, örüntü içinde yer alan ürünlerin birden çok satın alma

28 14 hareketinde birlikte yer alması gerekir. Milyonlarca veri üzerinde veri madenciliği teknikleri uygulandığında, birliktelik sorgusu için kullanılan algoritmalar hızlı olmalıdır [20]. Bu çalışmada, veri madenciliği tekniklerinden birliktelik kuralı yöntemlerinden en çok bilinen Apriori algoritması ile örnek bir kurumun ağ verileri üzerinde IBM/Modeler aracı kullanılarak girilen siteler ve kullanıcılar arasında ilişkiler incelenmiştir. İnceleme sonucunda kullanıcıların girilen sitelerden sonra hangi sitelere gireceği tahmininde bulunulmuştur Birliktelik kuralı Birliktelik kuralının matematiksel modeli Agrawal, Imielinski ve Swami tarafından yılında sunulmuştur [18]. Bu modelde, I ={i 1, i 2,.., i m } kümesine ürünler adı verilmektedir. D, veri bütünlüğündeki tüm hareketleri, T ise ürünlerin her bir hareketini simgeler. TID ise, her harekete ait olan tek belirteçtir. Birliktelik kuralı şu şekilde tanımlanabilir; A 1, A 2., A m => B 1, B 2,., B n Bu ifadede yer alan, Ai ve Bj, yapılan iş veya nesnelerdir. Bu kural, genellikle A 1, A 2., A m iş veya nesneleri meydana geldiğinde, sık olarak B 1, B 2,., B n iş veya nesnelerinin aynı olay veya hareket içinde yer aldığını belirtir [21]. Birliktelik kuralı, kullanıcı tarafından minimum değeri (Min des ) belirlenmiş destek ve güvenirlik eşik değerlerini sağlayacak biçimde üretilir. Bir ürün kümesindeki destek, D ile ifade edilen tüm hareketler içinde ilgili ürün kümesini içeren hareketlerin yüzdesidir. A ve B ürün kümelerinin, birliktelik kuralı A=> B olarak gösterilirse, destek aşağıdaki gibi tanımlanır.

29 15 destek (A => B) = (A ve B nin bulunduğu satır sayısı) / (toplam satır sayısı) A=>B birliktelik kuralının güven değeri ise, A yı içeren hareketlerin B yi de içerme yüzdesidir. Örneğin, bir kural % 85 güvenirliğe sahip ise, A yı içeren ürün kümelerinin % 85 i B yi de içermektedir. İşe bağlı veri satırları verilmiş ise, (A=> B) güveni aşağıdaki gibi tanımlanır. güven (A=> B) = (A ve B nin bulunduğu satır sayısı) / (A nın bulunduğu satır sayısı) Güven değerinin % 100 olması durumunda, kural bütün veri analizlerinde doğrudur ve bu kurallara kesin denir. Birliktelik kuralına ilişkin olarak geliştirilen bazı algoritmalar şunlardır; AIS [24], SETM [22], Apriori [20], RARM - Rapid Association Rule Mining [23], CHARM [24]. Bu algoritmalar içerisinde, ilk olanı AIS, en bilineni ise Apriori algoritmasıdır [20]. Çalışmada öncelikle veri kümesi içindeki yaygın öğeler belirlenmiştir. Yaygın öğelerin ve nesneleri oluşturan öğeler arasındaki ilişkiler belirlenmiştir. Çalışmada kullanılan Apriori algoritmasından uygulama bölümü olan 3. bölümde detaylı şekilde bahsedilmiştir Apriori algoritması Apriori Algoritmasının ismi, bilgileri bir önceki adımdan aldığı için prior anlamında Apriori dir [18]. Bu algoritma temelinde iteratif (tekrarlayan) bir niteliğe sahiptir ve hareket bilgileri içeren veritabanlarında sık geçen öğe kümelerinin keşfedilmesinde kullanılır. Apriori Algoritmasına özüne göre, eğer k-öğe kümesi (k adet elemana sahip öğe kümesi) min des ölçütünü sağlıyorsa, bu kümenin alt kümeleri de min des ölçütünü sağlar. Birliktelik kuralı madenciliği, tüm sık geçen öğelerin bulunması ve sık geçen bu öğelerden güçlü birliktelik kurallarının üretilmesi olmak üzere iki aşamalıdır. Birliktelik kuralının ilk aşaması için kullanılan Apriori Algoritması, sık geçen öğeler

30 16 madenciliğinde kullanılan en popüler ve klasik algoritmadır. Bu algoritmada özellikler ve veri, Bolean ilişki kuralları ile değerlendirilir [25]. Bu algoritma aslında tekrarlayan bir özelliğe sahiptir ve hareket bilgileri içeren veritabanlarında sık geçen öğe kümelerinin keşfedilmesinde kullanılır. Apriori algoritmasına göre, k-öğe kümesi (k adet elemana sahip öğe kümesi) minimum destek ölçütünü sağlarsa, bu kümenin alt kümeleri de yine min. destek ölçütünü sağlamaktadır. k-öğe (k tane elemana sahip öğe kümesi) kümesi c ile ifade edilirse, öğeleri (ürünler) c[1], c[2], c[3],...,c[k] şeklinde gösterilir ve c[1] < c[2] < c[3]<... <c[k] olacak şekilde küçükten büyüğe doğru sıralıdır [18]. Her öğe kümesine destek ölçütünü tutmak üzere bir sayaç değişkeni eklenmiştir ve sayaç değişkeni öğe kümesi ilk kez oluşturulduğunda sıfırlanır. Geniş (sık geçen) öğe kümeleri L karakteri ile aday öğe kümeleri ise C karakteri ile gösterilir [26]. L 1 = {sık geçen 1-öğe kümesi}; for (k=2; L k 1 Ø; k++) do begin C k =Apriori-gen (L k 1 ); // Yeni adaylar forall transactions-hareketler t ϵ D do rbegin C t = subset (C k, t); // Adaylar t içindedir forall candidates adaylar c ϵ C t do c.count++; end L k = {c ϵ C k c.count minsup} end Answer = U k L k ; Şekil 2.3. Klasik Apriori algoritması özet kodu

31 17 Apriori algoritmasının klasik özet kodu Şekil 2.3 de [18] görülmektedir. Bu şekilde yer alan Apriori-gen fonksiyonu (Şekil 2.4 de) [18], (k-1) adet öğeye sahip L k 1 sık geçen öğe kümesini kullanarak k adet öğeye sahip aday kümeleri oluşturur. Bu fonksiyon ile ilk önce, L k 1 sık geçen öğe kümesine kendisi ile birleştirme işlemi uygulanır. Birleştirme işleminde L k 1 sık geçen öğe kümesinin her satırında yer alan son öğe haricinde diğer öğelerin çapraz olarak benzerliği aranır ve son öğe haricinde diğer öğelerle yakalanan benzerliklerden yeni aday öğe kümeleri oluşturulur. Oluşan kümeler budama adımı ile budanarak fonksiyondan dönülür. insert into C k select p.items 1, p.items2,...,p.items k 1, q.item k 1 from L k 1 p, L k 1 q where p.item1=q.item1,..., p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1; forall itemsets c ϵ Ck do forall (k-1)-subsets s of c do if (s L k 1 ) then delete c from Ck Şekil 2.4. Apriori-Gen fonksiyonu Budama işleminde; c aday kümesinin (k-1) öğeye sahip alt kümelerinden L k 1 sık geçen öğe kümesinde yer almayan tüm alt kümeler silinir [20]. Farklı bir ifade ile budama, C k aday öğe kümesindeki öğelerin alt kümelerinin L k 1 sık geçen öğe kümesindeki varlığı kontrol edilir, bir öğenin alt kümelerinden biri, L k 1 sık geçen öğe kümesinde yer almıyorsa ilgili öğe değerlendirme dışı kalır ve C k aday öğe kümesinden silinir [18]. Apriori algoritması özet kodu incelendiğinde sık geçen öğe kümelerini bulmak için birçok kez veritabanının tarandığı görülmektedir. İlk aşamadan önce, veri

32 18 madenciliği uygulanacak veri topluluğunun taranarak öğelerin kaç adet hareket kaydı içinde yer aldığı tespit edildiği (her öğe için tespit edilen bu değere destek sayacı adı verilir) ve destek sayacı minimum destek değerine eşit veya büyük olan öğelerin L 1 sık geçen 1-öğe kümesi olarak belirlendiği varsayılarak işleme başlanır. Kod içinde kurulan döngü yapısı ile ilk aşamada L 1 sık geçen öğe kümesinin öğelerinin ikili kombinasyonuna benzer bir şekilde (L 1 L 1 ) yeni bir küme oluşur, bu işleme birleştirme adı verilir. Bu işlem ile oluşan kümelere de aday öğe kümeler adı verilir ve C harfi ile simgelenir. Oluşan bu aday öğe kümesinin her elemanı iki adet öğeden oluştuğu için C 2 ifadesi ile isimlendirilir. Bu aday küme Apriori-gen işlevi ile budama işlemine tabi tutulur ve C 2 kümesinin elemanlarına ait alt kümelerinin L 1 öğe kümesinde olup olmadığına bakılır, alt kümelerden L 1 içinde yer almayan küme elemanları C 2 aday kümesinden silinir. Apriori algoritması uygulanan veri topluluğu tekrar taranarak budama işleminden geçen L 2 aday kümesi elemanlarının kaç adet hareket kaydı içinden geçtiği (destek sayacı) bulunur. Bulunan destek sayaç bilgileri doğrultusunda C 2 aday kümesi elemanlarının destek sayacı minimum destek değerine eşit veya büyük destek değerine sahip olan elemanları L 2 sık geçen öğe kümesini oluşturur. Döngü bir sonraki aşamada L 2 kümesi öğelerinin üçlü kombinasyonu ile yeni bir aday öğe kümesi oluşturur ve bu küme C 3 ifadesi ile simgelenir. ilk aşamada olduğu gibi bu kümede budama işleminden geçer ve budama işleminden sonra minimum destek seviyesinin üstünde kalan elemanları ile L 3 sık geçen öğe kümesi oluşturulur. Döngü her dönüşünde öğe sayısını artırarak devam eder. Bu süreç yeni bir sık geçen öğe kümesi bulunamayana kadar sürer.

33 Sınıflandırma ve Karar Ağaçları, Naive Bayes Algoritmaları Sınıflandırma Sınıflandırma, yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktır. Burada önemli olan, her bir sınıfın özelliklerinin önceden net bir şekilde belirlenmiş olmasıdır. Verilerin içerdiği ortak özellikleri kullanılarak söz konusu verileri sınıflandırmak mümkündür. Örneğin bir firmanın müşterilerini belirli özellikleri göz önüne alınarak sınıflandırılması sağlanabilir. Bir alışveriş merkezi yöneticileri ortalama alışveriş miktarından daha fazla alışveriş yapan müşterileri varlıklı, diğerlerini ise yoksul olarak birbirlerinden ayırt etmek isteyebilir. Benzer biçimde bir veri kümesi içinde ortak özellikleri ya da farklılıkları ortaya koyacak biçimde sınıflandırma yapılabilir. Sınıflandırma bir öğrenme algoritmasına dayanır. Tüm veriler kullanılarak eğitme işi yapılmaz. Bu veri topluluğuna ait bir örnek veri üzerinde gerçekleştirilir. Öğrenmenin amacı bir sınıflandırma modelinin yaratılmasıdır. Bir başka deyişle sınıflandırma, hangi sınıfa ait olduğu bilinmeyen bir kayıt için sınıf belirleme sürecidir. Örnek olarak, basit bir sınıflandırma ile iki belirgin sınıfa ayrıştırılabilir: Ödemeleri 3 gün içinde yapanlar ve ödemeleri 3 günden sonra yapanlar. Sınıflandırma için çalışmada bazı veri ön işleme aşamaları uygulanmıştır. Sürekli veriler ayrık hale getirilmiştir: Facebook, tiwitter, linkedin vs sosyal ağ; halkbankası, işbankası vs. Bankalar; google, yandex vs arama motoru gibi Gereksiz niteliklerin silinmiştir: Bazı istenmeyen nitelikler kaldırılmıştır. TCP/UDP, sourceport nitelikleri gibi

34 20 Gürültü azaltılmıştır: Mükerrer veriler kaldırılmıştır. Normalizasyon: Yaş niteliğinde belli yaşın üstündeki kişiler sayıca az oldukları için değerlendirmeye alınmamıştır. Karar Ağacı ve Naive Bayes sınıflandırıcılarda girdi olarak ayrık nesnelerden oluşan öğrenme kümesi oluşturulmuştur. Ve bu öğrenme kümesindeki niteliklerden bir tanesi sınıfı etiketi seçilmiştir. Seçilen bu sınıf etiketine bağlı olarak model oluşturulmuştur. Bu çalışmada, veri madenciliği teknikleri sınıflandırma yöntemlerinden karar ağaçları ve Naive Bayes algoritmaları örnek bir kurumun ağ verileri üzerinde uygulanmıştır. Karar Ağacı algoritması için RapidMiner ve SPSS aracı kullanılarak eğitim ve test verileri üzerinde sınıflandırma yapılmıştır. Naive Bayes algoritması için ise önce C# programlama dilinde algoritma kodlanarak sınıflandırma yapılmıştır. Sonrasında ise yine aynı eğitim ve test verileri üzerinde RapidMiner aracı kullanılarak sınıflandırma yapılmıştır. Uygulama bölümü olan 3. Bölümde detaylı şekilde bahsedilmiştir Karar ağaçları Sınıflandırma problemlerinde en çok kullanılan algoritmalardan biri karar ağaçlarıdır. Diğer sınıflandırma algoritmalarıyla kıyaslandığında karar ağaçlarının yapılandırılması ve anlaşılması daha kolaydır [27]. Karar ağaçları kullanılarak sınıflandırma 2 aşamada gerçekleştirilir. İlk adımda ağaç oluşturulur. İkinci adımda ise veriler tek tek ağaca uygulanarak sınıflandırma gerçekleştirilir. Karar ağaçlarının oluşturulması sırasında dallanmaya hangi nitelikten başlanacağı oldukça önemlidir çünkü olası tüm ağaç yapılarını ortaya çıkararak içlerinden en uygun olanı ile başlamak mümkün değildir. Bu sebeple Karar Ağacı algoritmalarının çoğu daha başlangıçta birtakım

35 21 değerleri hesaplayarak ona göre ağaç oluşturma yoluna gitmektedir. Bu hesaplamalardan biri de entropiye dayalı olup, entropi belirsizliğin ölçüsü olarak tanımlanmaktadır. Entropi, bir veri kümesi içindeki belirsizlik ve rastgeleliği ölçmek için kullanılır ve 0 ile 1 arasında değer alır. Bütün olasılıklar eşit olduğunda entropi maksimum değerini alacaktır [28]. Entropiye dayalı karar ağaçları ile sınıflandırma algoritmalarının en önemlileri aşağıdaki gibidir. ID3 [29]: ID3, makine öğrenme ve bilişim teorisine bağlı olarak verilen örnekler içinde en ayırıcı değişkeni bulan bir algoritmadır. Temel olarak kategorik nitelikleri sınıflandırır ve veritabanı dallandırılmadan önce ve sonra doğru sınıflandırma yapmak için gelen bilgiler arasındaki farkı kullanarak, öncelikli düğüme ve dallanmalara karar verir. C4.5 [30]: ID3 algoritmasından farklı olarak sayısal değerlere sahip niteliklerin karar ağaçlarının oluşturulmasını sağlar. Diğer taraftan Karar Ağacı oluştururken kayıp verileri almaması sebebiyle daha anlamlı kurallar sunan ağaçlar üretebilir. Kayıp veriler ise diğer veri ve değişkenler kullanılarak tahmin edilir. CART: CART algoritması, her karar düğümünden sonra ağacın iki dala ayrılması ilkesine dayanır. Bu teknikte dallanma kriteri belirlenirken kayıp veriler önemsenmez Naive Bayes Naive Bayes, birden fazla değişkenler arasındaki ilişkiyi analiz eden tahminci ve tanımlayıcı bir sınıflandırma algoritmasıdır. Naive Bayes, verinin öğrenilmesi esasına dayanmaktadır. Yani eğitimde kullanılan veriler, modelin öğrenilmesi için her çıktının kaç kere meydana geldiğini hesaplar.

36 22 Bu değer öncelikli olasılık olarak adlandırılır. Hesaplamalar sırasında her bir bağımsız değişkenin bağımlı değişkenlere bölümünün kombinasyonu olayın meydana gelme sıklığını bulur. Bu da veri kümesinden yapılacak tahmin için kullanılır [31]. Naive Bayes, metin kategorilendirmesi konusunda bilinen ve sıklıkla kullanılan bir algoritmadır. Hedef fonksiyon için bir eğitim veri seti belirlenir, nitelik değerleri tarafından tanımlanan yeni örneklemler sunulur ve öğrenici sınıf hedef değeri veya sınıfı tahmin eder [32]. Sınıflandırma önemli bir veri madenciliği problemidir. Girdiler, eğitim setinin bir veri kümesidir. Bu veri kümesindeki her bir verinin birçok özniteliği vardır. Sayı alanı içeren özniteliklere sayısal öznitelik, sayı içermeyen özniteliklere sahip alanlara ise kategorik öznitelik denmektedir. Ayrıca sınıf etiketi isimli fark edilebilir bir öznitelik daha vardır. Bu sınıflandırma, etiketsiz kayıtlar içerisinde, sınıf etiketini tahmin etmekte kullanılabilecek kısa bir model oluşturmayı hedefler. Naive Bayes sınıflandırıcısı, kategorik verileri sınıflandırma konusunda basit ve hızlı bir tekniktir. Bayes sınıflandırıcıları klasik değişkene bağlı sınıflandırıcılardır. Eğitim verileri için belirli bir olasılık dağılımı uygun kabul edilir. Naive Bayes sınıflandırıcısı, ilgili eğitim setinde bulunan her bir bağımsız öznitelik arasındaki ilişkiyi ve her bir ilişki içerisindeki şartlı olasılığı çıkarmak için analiz eder. Tahmin işlemi, bağımsız değişkenlerin, bağımlı değişkenler üzerindeki etkilerini bir araya getirerek yeni bir durumu sınıflandırmak için yapılır [33]. Naive Bayes tekniğinin kullanıldığı sınıflandırma adımları şu şekildedir: Eğitim süreci sırasında, her bir sonucun önceki olasılığı eğitim seti içerisinde ilgili kategoride kaç kere geçtiğinin sayısı olarak belirlenir. Örneğin, 5 şartın olduğu bir durumda, ilk sonuç 2 kere geçmiş ise ilgili sonucun olasılığı 0,4 dür. Önceki olasılıklara ek olarak, her bir bağımsız özniteliğin her bir bağımlı öznitelik içerisinde kaç kez geçtiğini de hesaplamaktadır. Bu frekans

37 23 değeri, hesaplanan olasılık değerlerinin her birinin çarpımı birleşimi ile çarpılarak oluşturulan şartlı olasılık değerlerini hesaplamak için kullanılır [33]. Naive Bayes algoritması en bilindik sınıflandırma algoritmalarından birisidir. Birçok araştırmacı bu yaklaşımın kuramsal ve deneyimsel sonuçları üzerinde çalışmışlardır. Veri madenciliği uygulamalarında geniş ölçüde kullanılmaktadır ve birçok uygulamada sürpriz bir şekilde iyi sonuçlar vermiştir. Buna rağmen, Naive Bayes öğreniminde bütün özelliklerin eşit sayılması varsayımı nedeniyle, yapılan tahminler yetersiz kalmaktadır. Örneğin, bir kişinin diyabet hastası olup olmadığının tahmini problemi konusunda, kişinin kan basıncı, kişinin boyundan daha önemlidir. Bu nedenle, Naive Bayes algoritmasının performansı hafifletici varsayımlar ile iyileştirilir [34]. Bayes sınıflandırıcısı şu şekilde ifade edilir: X örnek veri seti olsun. Bu X değerlerinin sınıfı bilinmemektedir. X test veri seti X = {X1, X2, X3,, Xn} değerlerinden oluşsun. Sınıf değerleri ise C1, C2, C3,, Xn şeklinde olduğu kabul edilsin. Sınıfı belirlenecek test verisinin olasılığı şu şekilde hesaplanır: P( Ci ) = P(X/Ci)+P(Ci) X P(X) (2.1) Çıkan sonuçlardan ise en büyük değere ait olan sınıf test verisinin ait olduğu sınıfı verir. arg maxci {P(X Ci) P(Ci)} (2.2)

38 24 3. UYGULAMA Operasyon tarafında yer alan veriler, Şekil 2.1 de görüldüğü gibi bilgi keşfi aşamalarından veri seçme, veri önişleme ve veri indirgeme süreçleri ile uygulama veri depolama yapısına alınmıştır. Veri seçimi (veri toplama) işlemi, verilerin veri madenciliği uygulanması için mümkün olduğu kadar tek bir veri ambarı içinde toplanmasıdır. Veri önişleme, verilerin veri madenciliği için hazır duruma getirilmesi için veri üzerinde veri tipi dönüşümü, gruplama, sınıflanma, kayıp değerleri yönetme ve gürültülü verinin temizlenmesi gibi işlemlerin uygulandığı aşamadır. Gürültülü veride veri önişleme aşamasında veri kümesinden temizlenir. Gürültülü veri, veri kümesi içinde yer alan ama veri madenciliği uygulamasında kullanılmayacak ve bir anlam içermeyen verilerdir [10]. Örnek kurumun operasyona ait verilerde (Şekil 3.1) bulunan bazı girişlerin gereksiz olduğu tespit edilmiştir. Şekil 3.1. Ham (işlenmemiş) veri Bu doğrultuda aşağıdaki ön işlem basamakları uygulanarak Şekil 3.2 de ( Çarşamba) nihai hali elde edilmiştir.

39 25 Anlamsız veriler anlamlı hale getirilmiştir. Sürekli veriler ayrık hale getirilmiştir.: Facebook, tiwitter, linkedin vs sosyal ağ; halkbankası, işbankası vs. Bankalar; google, yandex vs arama motoru gibi Gereksiz niteliklerin silinmiştir.: Bazı istenmeyen nitelikler kaldırılmıştır. TCP/UDP, sourceport nitelikleri gibi Gürültü azaltılmıştır.: Mükerrer veriler kaldırılmıştır. Veri bütünleştirme.: Farklı türdeki veriler tek tür yapılmıştır. Veri indirgeme yapılmıştır.: Veri sayısı azaltılmıştır. Normalizasyon: Yaş niteliğinde belli yaşın üstündeki kişiler sayıca az oldukları için değerlendirmeye alınmamıştır adet satır sayısına sahip işlenmemiş veri, veri madenciliği süreci sonunda 8684 satır sayısına inmiştir.

40 26 Şekil 3.2. İşlenmiş veri Şekil 3.2 deki tabloda zaman bilgisi logların zamanını yani ay, gün saat, saniye ve salise bilgilerini göstermektedir. dst hedef IP lerin karşılığı olan http adreslerini, ethsource ise işlemi yapan makinanın ID sini vermektedir.

41 27 Uygulamada sınıflandırma tekniklerinden Apriori, Karar Ağacı ve Navie Bayes algoritmaları kullanılmıştır. Apriori ve Karar Ağacı algoritmaları veri madenciliği uygulama araçları ile yapılmıştır. Naive Bayes algoritması ise hem uygulama aracı hemde C# yazılım dilinde kodlanarak yapılmıştır. Karşılaştırılacak algoritmaların parametreleri RapidMiner ve SPSS programlarının kendi varsayılan değerleri olacak şekilde bırakılmış, model başarımına olumlu ya da olumsuz etki edebilecek değişikliklerden kaçınılmıştır. Özetle Apriori, Karar Ağacı ve Naive Bayes algoritmaları kullanılarak modeller oluşturulmuş ve oluşturulan modellerin başarım dereceleri karşılaştırılarak ilişkiler belirlenmeye çalışılmıştır. Bu tezde yapılan uygulamalar Şekil 3.3 de özetlenmiştir. Yapılan Uygulamalar Alg. Uyg. Ort. Karar Ağacı Naive Bayes Apriori RapidMiner X SPSS X Kodlama X X Şekil 3.3. Özet uygulamalar tablosu Algoritmaların veri kaynağı üzerinde çalıştırılması sırasında algoritma parametreleri olarak her algoritmanın o parametre için varsayılan değeri kullanılmıştır. Her algoritma ve her veri kaynağı için başarım derecesini maksimize edecek parametre değerleri tespit ederek bu parametrelerle algoritma sonuçlarını karşılaştırmak farklı sonuçlara götürebilecektir. Ancak, böyle bir karşılaştırmada yanlılık oluşabilecektir Apriori Algoritması ile Ağ Verilerinin Modellenmesi Çalışmada kurumun tarihleri arasında ki günlerden Pazartesi ( ), Çarşamba ( ) ve Cuma ( )

42 28 günlerinin ağ verileri kullanılmıştır. 3 gün kullanılmasının nedeni 1 haftalık veri sayısı çok fazla olduğu için kullanılan sistemler yetersiz kalmıştır. Dolayısıyla günler parça parça ele alınarak analiz edilmiştir. Tek gün analizlerinde normal masaüstü bilgisayarlarında rahatlıkla sonuç alınmaktadır. Model IBM SPSS Modeler 14.2 veri madenciliği uygulama platformu ile tasarlanmıştır. SPSS Modeler gelişmiş analitik uygulamalar ile desteklenen görsel arabirim kullanarak yapısal olan veya olmayan verilerdeki kalıpları ve eğilimleri keşfederek, sonuçların modellerini oluşturan bir yazılımdır [35]. Çarşamba günü için Modeler yazılımında uygulanan model tasarımı Şekil 3.4 de gösterilmektedir. Pazartesi ve Cuma günleri için hatta bütün günler için model tasarımı uygulanabilir. Şekil 3.4. Çarşamba gününün Apriori modeli Bu çalışmada algoritmanın uygulandığı işlem aşamasında ki en son modül ethsource&dst modülüdür. Ana işlem akışında sırasıyla Şekil 3.2 deki işlenmiş veri, excel olarak yüklenip giriş değerleri (nominal, integer..) tanımlanarak başlatılır. Sonraki süreçte filtreleme, zaman tanımları (gün, ay), saat dilimleri (sabah, öğle, akşam), ethsource göre sıralama, tip belirleme aşamaları ve son aşama olarak ilişkilendirme kurallarının uygulandığı Apriori algoritması modülü yer almaktadır.

43 yılında yazılan bir makalede [13], Apriori algoritmasının firmanın veri seti üzerinde uygulandığında farklı zaman farklı zaman dilimi, farklı satış şubelerine göre ürünler arasında birlikte satın alınma bağıntılarını ortaya koyduğu ve genelde aynı ürün grubu içinde yer alan ürünlerin birlikte satın alınma davranışlarına sahip olduğundan bahsedilmektedir. Bir çalışmada örnek bir firmanın pastane satış verileri üzerinde uygulanması için web tabanlı bir uygulama yazılımı geliştirildiği ve geliştirilen uygulama yazılımı ile örnek firmanın yıl içinde farklı dönemlerde ve farklı satış noktalarında gerçekleşen satış verileri üzerinde, birlikte satın alınma tercihi yapılan ürünler tespit edildiği ifade edilmektedir. [14]. Algoritma modülü ilişkilendirmeyi yaparken ID ethsource, Content dst olarak değerlendirmektedir. Kurallarda Confidence ihtimal (olasılık) yüzdesini, Rule Support sıklık yüzdesini göstermektedir. Rule Support un yüksek olması çıkan kuralların olasılığını güçlendirmektedir. Antecedent ilk girilen web adreslerini, Consequent ise son girilen web adreslerini göstermektedir. Min support yüzdesini %20 olarak belirlenmiştir. Değeri arttırıldığında doğal olarak çıkan kural sayısı da azalacaktır. Şekil 3.5 de Apriori algoritması sonucunda çıkan kurallar gösterilmektedir.

44 30 Şekil 3.5. Çarşamba günü Apriori algoritmasının sonucunda çıkan kurallar Çarşamba ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce yahoomynet ve arama motoruna (yandex, google vs.) giren bir kişi sonrasında %97, 297 olasılıkla TÜBİTAK sitesine girmektedir. Sıklık dereceside (Rule Support) %24,324 değerini göstermektedir. 7. Sırada ise önce herhangi bir banka sitesine giren bir kişi sonrasında %96,667 olasılıkla sosyal ağ sitelerine (facebook, linkedin, twitter) girmektedir. Sıklık derecesi de %19,595 değerini göstermektedir. Diğer olasılıklar Şekil 3.5 de gösterilmektedir. Şekil 3.6 da Cuma ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce dropbox, aramamotoru ve sosyal ağ (facebook, twitter, linkedin ) sitelerine giren bir kişi sonrasında %96,774 olasılıkla TÜBİTAK a girmektedir. Sıklık dereceside (Rule Support) %21,127 değerini göstermektedir. 2. sırada ise önce bulut mimari ve TÜBİTAK sitelerine giren bir kişi sonrasında %96,667 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık derecesi de %24,423 değerini göstermektedir. Diğer olasılıklar şekilde gösterilmektedir.

45 31 Şekil 3.6. Cuma günü Apriori algoritmasının sonucunda çıkan kurallar Şekil 3.7 de Pazartesi ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce gazete ve TÜBİTAK (webmail, anasayfa) sitelerine giren kişi sonrasında %97,561 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık dereceside (Rule Support) %27,778) değerini göstermektedir. 2. sırada ise önce dropbox ve TÜBİTAK (webmail, anasayfa) sitelerine giren bir kişi sonrasında %97,222 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık derecesi de %24,306 değerini göstermektedir. Diğer olasılıklar şekilde gösterilmektedir.

46 32 Şekil 3.7. Pazartesi günü Apriori algoritmasının sonucunda çıkan kurallar Diğer modül analizlerine bakıldığında Çarşamba günü için Şekil 3.8 deki tablo akış modülü sonucunda çıkan web adreslerinin sıklığını, Şekil 3.9 da gösterilmektedir. Şekil 3.8. Çarşamba günü table akış modülü

47 33 Şekil 3.9. Çarşamba günü web adreslerinin sıklıkları Şekil 3.9 a bakıldığında en çok girilen web adresinin Çarşamba ( ) gününde 3066 kez girilen sosyal ağlar (facebook, twitter, linkledin ) olduğu anlaşılmaktadır. 2. sırada 1549 kez girilen TÜBİTAK, 3. sırada ise 1164 kez girilen arama motoru diye devam etmektedir. Şekil 3.10 da ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir.

48 34 Şekil Pazartesi ve cuma günlerinin web adresleri sıklıkları Şekil 3.10 da görüldüğü gibi Cuma ve Pazartesi günlerinde en sık tıklanan web adresi sosyal ağlar (facebook, twitter, linkledin ), ikinci sırada ise iki gün için içinde TÜBİTAK olduğu anlaşılmaktadır. 4. Sırada Pazartesi günü gazete siteleri olmasına rağmen Cuma günü Microsoft sitesi yer almaktadır. Diğer modül analizlerinden Çarşamba günü için zaman dilimleri modülü olan Şekil 3.11 deki akışın sonucunda Şekil 3.12 deki gün içindeki ağ trafiği gösterilmektedir. Şekil Çarşamba günü zaman dilimleri akış modülü

49 35 Zaman dilimleri sabah; saat_real<8, öğleden önce; saat_real<12 and saat_real>=8, öğleden sonra; saat_real<18 and saat_real>=12 ve akşam zaman dilimleri; saat_real>=18 and saat_real<=24 olarak belirlenmiştir. Şekil Çarşamba günü saat dilimlerinin yoğunluğu Şekil 3.12 ye bakıldığında Çarşamba ( ) günü öğleden öncesinde ve sonrasında internet trafik yoğunluk yüzdeleri oldukça fazla olduğu görülüyor. En fazla öğleden sonra (%56,17), en az ise akşam zaman dilimleri (%8,97) olduğu gözüküyor. Öğleden sonra internete girme sıklığı max., akşam ise min. denilebilir. Şekil 3.13 de ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir.

50 36 Şekil Pazartesi ve cuma günleri saat dilimlerinin yoğunlukları Görüldüğü gibi Cuma günü ve Pazartesi günleri yoğunlukları benzer fakat Pazartesi günü için öğleden öncesi ve sonrası zaman dilimleri arasındaki fark oldukça fazladır. Öğleden sonra internet kullanımının max. olduğu söylenebilir. Diğer modül analizlerinden Çarşamba günü için dst modülü olan Şekil 3.14 deki akışın sonucunda Şekil 3.15 deki gün içindeki web adreslerinin zaman dilimlerine bağlı olarak internet trafik yoğunlukları görülmektedir.

51 37 Şekil Çarşamba günü dst akış modülü Şekil 3.15 e bakıldığında Çarşamba günü için bütün girilen web adresleri arasında en çok tıklanan sosyal ağlar(%41) (facebook, twitter, linkledin ) olduğu anlaşılmaktadır. Sosyal ağların gün içindeki oranları ise en fazla öğleden önce ve öğleden sonra olduğu görülmektedir. Sonrasında TÜBİTAK (%31), arama motoru (%15) diye devam etmektedir. Şekil Çarşamba günü zamana bağlı web adreslerinin yoğunlukları

52 38 Şekil 3.16 da ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir. Şekil Pazartesi ve cuma günleri zamana bağlı web adreslerinin yoğunlukları Şekil 3.16 ya bakıldığında her iki gün içinde en fazla tıklanan sitelerin sosyal ağlar (facebook, twitter, linkledin ) olduğu görülmektedir. Sadece girilme yüzdeleri farklıdır (Pazartesi %41, Cuma %35). Şekil 3.17 de sadece yahoomynet sitelerine bakıldığında Pazartesi günü öğleden sonra tıklanma sıklığı yoğunken Cuma günü için zaman dilimleri

53 39 orantılı olarak dağıldığı gözükmektedir. Yine Pazartesi sabah saatlerinde yahoomynet sitelerine tıklanma sıklığı çok az iken Cuma günü oldukça fazla olduğu gözüküyor. Şekil Pazartesi ve cuma günleri zamana bağlı microsoft sitesinin yoğunlukları Diğer modül analizlerinden Çarşamba günü için ethsource modülü olan Şekil 3.18 deki akışın sonucunda Şekil 19 daki gün içindeki kullanıcıların web adreslerini tıklama sıklığı görülmektedir. Şekil Çarşamba günü kullanıcılarının web adreslerini tıklama sıklığı Şekil 3.19 a bakıldığında Çarşamba günü için yaklaşık 160 kullanıcı arasında %38 lik dilimle en fazla webde sayfa tıklayan kişi 52 ID nolu kullanıcı olduğu gözükmektedir.

54 40 Şekil Çarşamba günü kullanıcılarının web trafiği 52 ID nolu kullanıcının ve diğer kullanıcıların gün içindeki zaman dilimlerine bağlı web sayfası tıklama sıklığı da Şekil 3.20 de görülmektedir. Şekil Çarşamba günün içerisindeki kullanıcıların zaman dilimine göre web sayfası tıklama yoğunluğu

55 41 Şekil 3.20 den anlaşılacağı gibi ID 52 kullanıcısı öğleden önce ve öğleden sonra interneti yoğun olarak kullandığı söylenebilir Karar Ağacı Algoritması İle Ağ Verilerinin Modellenmesi Bu çalışmada, örnek kurumun ağ verileri üzerinde karar ağaçlarından gini algoritması uygulanmıştır. Çalışmada Cuma günkü verilere ilave olarak kullanıcıların medeni durum bilgileri ve yaş bilgileri de eklenmiştir. Öncelikle veriler eğitim seti ve test seti olarak yeniden düzenlenmiştir. Düzenlenmiş veri seti Şekil 3.22 ve Şekil 3.27 deki tablolarda görülmektedir Eğitim seti (Karar Ağacı) 475 satıra sahip eğitim verilerinin kategorik/niteliksel açıklamaları Şekil 3.21 de, Şekil 3.22 de ise eğitim seti gösterilmektedir. Kategori/Nitelikler ethsource ID DST Web Yaş Medeni durum Cinsiyet Açıklama 132 farklı kullanıcı 14 farklı sınıflandırılmış site grubu arası değişen yaş grubu Evli-Bekar Erkek-Kız Şekil Eğitim verilerinin kategorik/niteliksel açıklamaları

56 42 Şekil Eğitim seti verisi Eğitim seti üzerinde RapidMiner Studio 6.0 ve SPSS Statistics 21.0 veri madenciliği uygulama platformu uygulanmıştır. RapidMiner aracının eğitim setine uygulanması (Karar Ağacı) Şekil RapidMiner Karar Ağacı model tasarımı

57 43 Algoritmanın uygulandığı işlem aşamasında eğitim ve test verilerin yüklendiği modül read excel modülleridir. Select Attribute modülü Karar Ağacına sokulacak nitelikleri belirleyen modüldür. Apply modeli ise Karar Ağacındaki öğrenilen modeli veri seti üzerine uygular [36]. Sınıf etiketi cinsiyet olarak belirlendiğinde Şekil 3.23 deki Karar Ağacı modeli sonucunda çıkan Karar Ağacı şekli Şekil 3.24 de gösterilmektedir.

58 Şekil RapidMiner Karar Ağacı modeli sonucu 44

59 45 Algoritma ilk başta ethsource a göre sonrasında yaş, medeni durum ve girilen siteye göre ayırma işlemini gerçekleşmiştir. Son olarak ise önceden belirlenen sınıf etiketi olan cinsiyet durumuna göre sınıflandırma işlemini tamamlamıştır. SPSS aracının eğitim setine uygulanması (Karar Ağacı) Eğitim setine Karar Ağacı algoritması SPSS yazılımında uygulandığında ise 3.25 deki dallanma sonucu bulunmaktadır.

60 Şekil SPSS Karar Ağacı algoritmasının sonucu 46

61 47 Sonuçlara bakıldığında için sınıf etiketi cinsiyet olarak belirlenmiştir. Algoritma ilk başta ethsource a göre yaş, medeni durum ve girilen siteye göre ayırma işlemini gerçekleştirmiştir. Son olarak ise önceden belirlenen sınıf etiketi olan cinsiyet durumuna göre sınıflandırma işlemini tamamlamıştır Test seti (Karar Ağacı) 99 satıra sahip test verilerinin kategorik/niteliksel açıklamaları Şekil 3.26 da, Şekil 3.27 de ise bütün algoritmalarda sınanan test seti gösterilmektedir. Test setinin RapidMiner ve SPSS araçlarında uygulandığında çıkan sonuç bir sonraki başlık altında incelenecektir. Kategori/Nitelikler ethsource ID DST web Yaş Medeni durum Cinsiyet Açıklama 63 farklı kullanıcı 14 farklı sınıflandırılmış site grubu arası değişen yaş grubu Evli-Bekar Erkek-Kız Şekil Test verilerinin kategorik/niteliksel açıklamaları Şekil Test seti verisi

62 48 RapidMinerdaki algoritmaya uygulanan test seti sonuçları (Karar Ağacı) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranın Şekil 3.28 de görüldüğü gibi yaklaşık %28 olduğu, başarı oranının ise yaklaşık %71 olduğu anlaşılmaktadır. Şekil RapidMiner daki test seti hata-başarı oranı(karar Ağacı) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 62 C(erkek kadın) c 18 C(kadın erkek) b 10 C(kadın kadın) d 9 Şekil Karışıklık matrisi-rapidminer

63 49 Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır. Anma değeri= a a+b = = 0,86 Kesinlik değeri= = = 0,77 a a+c 2a F-ölçütü= 2a+b+c = = 0,81 SPSS deki algoritmaya uygulanan test seti sonuçları (Karar Ağacı) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranın Şekil 3.30 da görüldüğü gibi yaklaşık %24 olduğu başarı oranının ise yaklaşık %75 olduğu anlaşılmaktadır

64 50 Şekil SPSS deki test seti hata-başarı oranı (Karar Ağacı) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 71 C(erkek kadın) c 23 C(kadın erkek) b 1 C(kadın kadın) d 4 Şekil Karışıklık matrisi-spss Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır.

65 51 Anma değeri= = = 0,98 a a+b Kesinlik değeri= = = 0,75 a a+c 2a F-ölçütü= 2a+b+c = = 0, Naive Bayes İle Ağ Verilerinin Modellenmesi Önceki bölümde düzenlenmiş olan eğitim setine Naive Bayes algoritması C# yazılım dili ile kodlanarak ve RapidMiner aracı ile modellenerek test setine uygulanmıştır. Düzenlenmiş veri setleri Şekil 3.22 ve Şekil 3.27 deki şekillerde görülmektedir Eğitim seti (Naive Bayes) Düzenlenmiş eğitim veri seti hakkında bilgiler Karar Ağacı algoritması başlığı altında verilmiştir. RapidMiner aracının eğitim setine uygulanması (Naive Bayes)

66 52 Şekil RapidMiner da Naive Bayes model tasarımı Algoritmanın uygulandığı işlem aşamasında eğitim ve test verilerin yüklendiği modül read excel modülleridir. Select Attribute modülü algoritmada kullanılacak nitelikleri belirleyen modüldür. Apply modeli ise algoritmada öğrenilen modeli veri seti üzerine uygular [36]. C# ile kodlanan Naive Bayes algoritması ve eğitim setine uygulanması Ek-1 de kodlar verilmektedir. Microsoft Visual C# 2008 de derlenen kodlardan oluşan arayüz Şekil 3.33 de gösterilmektedir.

67 53 Şekil Naive Bayes uygulaması arayüz görüntüsü Eğitim setine göre düzenlen Naive Bayes algoritmasına şekildeki gibi girilen değerler (eth, dst, yaş, mdh) sonucunda değişkenin hangi sınıf etiketine ait olduğu görülmektedir. Olasılıkları hesaplandığında P(X Ci)*P(Ci) değeri yüksek olan sınıf etiketi değerinin kız (male) olduğu anlaşılmaktadır. Test seti uygulanmış hali bir sonraki bölümde anlatılmıştır. Ortadaki bölüm ise eğitim verilerini göstermektedir Test seti (Naive Bayes) 99 satıra sahip test verileri önceki bölümlerde bahsedilen Şekil 3.27 de gösterilmektedir. Test setinin RapidMiner aracında ve C# ta programlama dili ile sınandığında hata/başarı oranları bir sonraki başlıklar altında incelenecektir. RapidMinerdaki algoritmaya uygulanan test seti sonuçları (Naive Bayes) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata

68 54 oranının Şekil 3.34 de görüldüğü gibi yaklaşık %16 olduğu, başarı oranının ise yaklaşık %83 olduğu anlaşılmaktadır. Şekil RapidMiner daki test seti hata-başarı oranı (Naive Bayes) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 68 C(erkek kadın) c 12 C(kadın erkek) b 4 C(kadın kadın) d 15 Şekil Karışıklık matrisi-rapidminer Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi

69 55 üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır. Anma değeri= a a+b = = 0,94 Kesinlik değeri= = = 0,85 a a+c 2a F-ölçütü= 2a+b+c = = 0,89 C# program dili ile kodlanan algoritmaya uygulanan test seti sonuçları (Naive Bayes) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranının Şekil 3.36 da görüldüğü gibi yaklaşık %17 olduğu başarı oranının ise yaklaşık %82 olduğu anlaşılmaktadır.

70 56 Şekil C# program dili ile kodlanan algoritmaya uygulanan test seti hatabaşarı oranı Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 56 C(erkek kadın) c 1 C(kadın erkek) b 16 C(kadın kadın) d 26 Şekil Karışıklık matrisi-kodlama Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır.

Daha göster