GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI. Fatih ATAK BİLGİSAYAR BİLİMLERİ YÜKSEK LİSANS TEZİ

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI. Fatih ATAK BİLGİSAYAR BİLİMLERİ YÜKSEK LİSANS TEZİ"

Transkript

1 GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI Fatih ATAK BİLGİSAYAR BİLİMLERİ YÜKSEK LİSANS TEZİ GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Şubat 2014 ANKARA

2

3

4 iv GERÇEK AĞ VERİSİ ÜZERİNDE VERİ MADENCİLİĞİ UYGULAMALARININ KARŞILAŞTIRILMASI (Yüksek Lisans Tezi) Fatih ATAK GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Şubat 2014 ÖZET Günümüzde hemen hemen her alanda kayıt altına alınan anlamlı/anlamsız veriler bulunmaktadır. Devlet, şirket, firma, banka, market, evler ve daha birçok yerlerde görüntülü, sesli ve hem görüntülü hem sesli saklanabilen veriler saklanmaktadır. Gün geçtikçe işlenmeyen, bekleyen, bekletilen veri yığınları veri çöplüğü haline gelmektedir. Fakat bu veri yığınları işlenildiğinde, bilgiye dönüştürüldüğünde topluma yani toplumun en önemli faktörü olan insanlığa hizmette yegâne işler arasında gösterilebilir. Çünkü artık teknoloji ile toplum o kadar iç içe geçti ki zamanın her dakikasında, saniyesinde farkında olmadan etrafa anlamsız veriler bırakabiliyoruz. Veri yığınları küresel dünyada başa çıkılamayan risklerden biri haline gelmiştir. Bu çalışma da incelenen örnek kurumun internet ağında kullanılan karmaşık ağ veri yığınını veri madenciliği süreçleri ile kullanılabilir hale getirilmiştir. Uygun veriler üzerinde veri madenciliği yöntemleri kullanılarak çıkan sonuçlar arasında çıkarımda bulunulmaya çalışılmış, ayrıca farklı veri madenciliği uygulamalarından elde edilen sonuçlar arasındaki farklılıklar incelenmiştir.

5 v Bilim Kodu : Anahtar Kelime : veri madenciliği, yöntemleri Sayfa Adedi : 74 Tez Yöneticisi : Doç. Dr. Suat ÖZDEMİR

6 vi DATA COMPARISON OF DATA MINING TOOLS USING REAL WORLD NETWORK DATA (M.Sc. Thesis) Fatih ATAK GAZİ UNIVERSITY INFORMATICS INSTITUTE February 2014 ABSTRACT Nowadays, almost every area recorded the meaningful / meaningless data are available. Government, companies, firms, banks, markets, houses and many more places video, voice and data can be stored both voice and video are stored. Unhandled by day, pending, pending data dump piles of data are becoming. But when these piles of data processed, the information is converted into society so that society's most important factor in service to humanity oil valve shown between jobs. Because society is now so intertwined with technology goes away every minute of the time, in seconds around unwittingly have been able meaningless data. Piles of data that can not be dealt with in the global world has become one of the risks. In this study, samples already used in the organization's internet network stack of complex networked data has been made available through data mining process. Using data on the appropriate data mining methods have been tried to be drawn from the results.

7 vii Science Code : Key Words : data mining, methods Page Number : 74 Adviser : Assoc. Prof. Dr. Suat ÖZDEMİR

8 viii TEŞEKKÜR Çalışmalarım boyunca yardım ve katkılarıyla beni yönlendiren değerli Hocam tez danışmanım Doç. Dr. Suat ÖZDEMİR e, tecrübelerinden faydalandığım değerli Hocam Özgür DOLGUN a, TÜBİTAK Başkanım Sayın Prof. Dr. Yücel ALTUNBAŞAK a, mesai arkadaşım Eren YAZICIOĞULU na ve yakın çalışma arkadaşlarım Süha BOTSALI ya, Resul ÖZDEMİR e ayrıca manevi destekleriyle beni hiç yalnız bırakmayan değerli eşim H. Zehra GÖKÇEOĞLU ATAK a, anneme, babama ve kardeşlerime teşekkürlerimi bir borç bilirim.

9 ix İÇİNDEKİLER Sayfa ÖZET... iv ABSTRACT... vi TEŞEKKÜR... viii ŞEKİLLERİN LİSTESİ... xi SİMGE VE KISALTMALAR... xiv 1. GİRİŞ VERİ MADENCİLİĞİ Veri Madenciliği Nedir? Uygulama Alanları Sigortacılık Bankacılık Pazarlama Elektronik ticaret Biyoloji, tıp ve genetik Kimya Yüzey analizi ve coğrafi bilgi sistemleri Görüntü tanıma ve robot görüş sistemleri Uzay bilimleri ve teknolojisi Meteoroloji ve atmosfer bilimleri Sosyal bilimler ve davranış bilimleri Metin madenciliği Bilimsel, mühendislik ve sağlık bakım verileri Veri Madenciliği Modelleri... 9

10 x Sınıflandırma Kümeleme Birliktelik kuralı/analizi Birliktelik Kuralı ve Apriori Algoritması Birliktelik kuralı Apriori algoritması Sınıflandırma ve Karar Ağaçları, Naive Bayes Algoritmaları Sınıflandırma Karar ağaçları Naive Bayes UYGULAMA Apriori Algoritması ile Ağ Verilerinin Modellenmesi Karar Ağacı Algoritması İle Ağ Verilerinin Modellenmesi Eğitim seti (Karar Ağacı) Test seti (Karar Ağacı) Naive Bayes İle Ağ Verilerinin Modellenmesi Eğitim seti (Naive Bayes) Test seti (Naive Bayes) SONUÇ KAYNAKLAR EKLER Ek-1. C# programlama dilinde yazılan kodlar ÖZGEÇMİŞ... 74

11 xi ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. Bilgi keşif süreci... 4 Şekil 2.2. Veri madenciliği modelleri Şekil 2.3. Klasik Apriori algoritması özet kodu Şekil 2.4. Apriori-Gen fonksiyonu Şekil 3.1. Ham (işlenmemiş) veri Şekil 3.2. İşlenmiş veri Şekil 3.3. Özet uygulamalar tablosu Şekil 3.4. Çarşamba gününün Apriori modeli Şekil 3.5. Çarşamba günü Apriori algoritmasının sonucunda çıkan kurallar 30 Şekil 3.6. Cuma günü Apriori algoritmasının sonucunda çıkan kurallar Şekil 3.7. Pazartesi günü Apriori algoritmasının sonucunda çıkan kurallar.. 32 Şekil 3.8. Çarşamba günü table akış modülü Şekil 3.9. Çarşamba günü web adreslerinin sıklıkları Şekil Pazartesi ve cuma günlerinin web adresleri sıklıkları Şekil Çarşamba günü zaman dilimleri akış modülü Şekil Çarşamba günü saat dilimlerinin yoğunluğu Şekil Pazartesi ve cuma günleri saat dilimlerinin yoğunlukları Şekil Çarşamba günü dst akış modülü Şekil Çarşamba günü zamana bağlı web adreslerinin yoğunlukları Şekil Pazartesi ve cuma günleri zamana bağlı web adreslerinin yoğunlukları... 38

12 xii Şekil Pazartesi ve cuma günleri zamana bağlı microsoft sitesinin yoğunlukları Şekil Çarşamba günü kullanıcılarının web adreslerini tıklama sıklığı.. 39 Şekil Çarşamba günü kullanıcılarının web trafiği Şekil Çarşamba günün içerisindeki kullanıcıların zaman dilimine göre web sayfası tıklama yoğunluğu Şekil Eğitim verilerinin kategorik/niteliksel açıklamaları Şekil Eğitim seti verisi Şekil RapidMiner Karar Ağacı model tasarımı Şekil RapidMiner Karar Ağacı modeli sonucu Şekil SPSS Karar Ağacı algoritmasının sonucu Şekil Test verilerinin kategorik/niteliksel açıklamaları Şekil Test seti verisi Şekil RapidMiner daki test seti hata-başarı oranı(karar Ağacı) Şekil Karışıklık matrisi-rapidminer Şekil SPSS deki test seti hata-başarı oranı (Karar Ağacı) Şekil Karışıklık matrisi-spss Şekil RapidMiner da Naive Bayes model tasarımı Şekil Naive Bayes uygulaması arayüz görüntüsü Şekil RapidMiner daki test seti hata-başarı oranı (Naive Bayes) Şekil Karışıklık matrisi-rapidminer Şekil C# program dili ile kodlanan algoritmaya uygulanan test seti hata-başarı oranı... 56

13 xiii Şekil Karışıklık matrisi-kodlama Şekil 4.1. Oluşturulan modellerin başarım ölçütleri... 59

14 xiv SİMGE VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur Simgeler Açıklama Dst Dstport Ethsource Mindes VTBK TCP UDP Destination (Hedef) Destinationport (Hedefport) Ethernetsource (Eternet kaynağı) Minimum destek değeri Veri tabanları bilgi keşfi Transmission Control Protocol (Transmisyon Kontrol Protokolü) User Datagram Protocol (Kullanıcı Datagram Protokolü)

15 1 1. GİRİŞ Günümüzde her türlü işlerde, alışverişlerde ve kurumsal/kamusal alanlardaki işlemlerde kaydı tutulan veriler bulunmaktadır. Ayrıca işletmelerin ve devletin kendi dâhilinde yapılan işlemler sonucunda da depoladıkları veriler, görüntü ve ses cihazlarından elde edilen çoklu ortam verileri gibi birçok veri devamlı olarak saklanmakta ve depolanan bu veriler çok hızlı boyutlarda artmaktadır. Fakat bu veriler istenildiği şekilde değerlendirilememekte, hızla büyüyen bilgi yığınları şekline dönüşmektedir. Veri madenciliği, bir veri yığını içerisinde henüz ortaya çıkarılmamış gözlenebilir veya ölçülebilir bilgileri bulmayı amaçlayan teknikler bütününü temsil etmektedir. Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir, çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar [1]. Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan bilgi keşfi süreci içinde bir adımdır [2]. Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir. Bu yöntemlerden çoğu istatiksel tabanlıdır. Bu çalışmada daha çok Apriori, Karar Ağaçları ve Naive Bayes algoritmaları üzerinde yoğunlaşılmıştır. Apriori ilişkilendirme kuralları; Karar Ağaçları ve Naive Bayes ise sınıflandırma tekniklerindendir. Çalışmanın amacı hali hazırda örnek kurumun internet ağında kullanılan karmaşık ağ verisinin veri madenciliği ile kullanılabilir hale getirmek ve veri madenciliği yöntemleri kullanılarak elde edilen sonuçlar arasında kıyaslama yapılıp ilişkileri ortaya çıkarmaktır. Örnek kurumun internet trafiği incelendiğinde girilen sitelerden kişinin gün içindeki internet hareketleri izlenerek cinsiyet sınıf etiketine göre tahmin edilebilmektedir. Yapılan benzer çalışmalarda Down sendromu tanısı teşhisinde Naive Bayes sınıflandırıcısının daha başarılı olduğu görülmüştür [3]. Diğer bir çalışmada

16 2 örüntüleri oluşturan gözlem değerlerinden seçilmiş istatistiksel özellikleri kullanan Yapay Sinir Ağ Yapısı ve Bayes sınıflandırıcılarının doğru sınıflandırma performansının, ham verileri kullanan sınıflandırıcılara göre daha yüksek tanıma performansı gösterdikleri gözlenmiştir [4]. Diğer bir çalışmada elde edilen sonuçlara göre Naive Bayes sınıflandırıcının tiroit hastalığı teşhisinde Yapay Sinir Ağları, Destek Vektör Makinaları ve K- Ortalama yöntemlerine göre daha başarılı olduğu görülmüştür [5]. Başka bir çalışmada yine Naive Bayes sınıflandırıcısı yine tiroid teşhisinde J48 Karar Ağacı algoritmasına göre daha iyi performans gösterdiği gözlemlenmiştir [6]. İlişkilendirme kuralı ile ilgili 2007 yılında yazılan bir makalede [7], Apriori algoritmasının firmanın veri seti üzerinde uygulandığında farklı zaman farklı zaman dilimi, farklı satış şubelerine göre ürünler arasında birlikte satın alınma bağıntılarını ortaya koyduğu ve genelde aynı ürün grubu içinde yer alan ürünlerin birlikte satın alınma davranışlarına sahip olduğundan bahsedilmiştir. Yine bir çalışmada örnek bir firmanın pastane satış verileri üzerinde uygulanması için web tabanlı bir uygulama yazılımı geliştirildiği ve geliştirilen uygulama yazılımı ile örnek firmanın yıl içinde farklı dönemlerde ve farklı satış noktalarında gerçekleşen satış verileri üzerinde, birlikte satın alınma tercihi yapılan ürünler tespit edildiği ifade edilmiştir [8]. Bölüm 2 de veri madenciliği, uygulama alanları ve yöntemleri hakkında teorik bilgiler verilmiştir. Bölüm 3 te algoritmaların verilere farklı araçlar ile uygulanmasından bahsedilmiştir. Bölüm 4 te ise bölüm 3 teki uygulamaların sonuçları analiz edilerek detaylı bir şekilde anlatılmıştır.

17 3 2. VERİ MADENCİLİĞİ 2.1. Veri Madenciliği Nedir? Veri madenciliği veri içerisinden yararlı olanları bulup ortaya çıkarma işlemidir [9]. Veri madenciliği sihir değildir. Yıllardır, istatistikçiler veri tabanlarını elle kazımakta, istatistiksel açıdan önemli ilişkiler aramaktadır. Veri madenciliği, bu süreci otomatik olarak gerçekleştirmektedir. Veri madenciliği veri kümesi içerisinde keşfedilmemiş örüntüleri bulmayı hedefleyen teknikler koleksiyonunu betimlemektedir. Veri madenciliğinin amacı, geçmiş faaliyetlerin analizini temel alarak gelecekteki davranışların tahminine yönelik karar-verme modelleri yaratmaktır. Frawley veri madenciliğini: Daha önceden bilinmeyen ve potansiyel olarak yararlı olma ihtimaline sahip verinin keşfedilmesi olarak tanımlamıştır. Berry ve Linoff bu kavrama Anlamlı kuralların ve örüntülerin bulunması için geniş veri yığınları üzerine yapılan keşif ve analiz işlemleri şeklinde bir açıklama getirirken, Sever ve Oğuz çalışmalarında veri madenciliği hakkında Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan veri tabanlarında bilgi keşfi süreci içerisinde bir adımdır. tanımını kullanmışlardır [10]. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden bilim adamları tarafından buna eş değer başka adlandırmalarda literatüre geçmiştir. Bunlar; veritabanlarında bilgi keşfi (VTBK) (KDD Knowledge Discovery in Databases), Bilgi Çıkarımı (Knowledge Extraction), Veri ve Örüntü analizi (Data/ Pattern Analysis), Veri Tarama (Data Dredging), Bilgi Keşfi (Knowledge Discovery), Veri Arkeolojisi (Data Archaeology), Veri Avcılığı (Data Fishing), Bilgi Üretimi (Knowledge Creation) ve Bilgi Hasadıdır (Information Harvesting). Bu adlandırmalardan veri madenciliği deyimi yerine en çok kullanılanı VTBK olmuştur. Bununla birlikte aslında VTBK, veriler arasından yararlı bilgileri keşfetme sürecidir ve veri madenciliği VTBK sürecinin önemli bir adımıdır. VTBK süreci ise veri hazırlama, veri seçme,

18 4 veri temizleme ve veri madenciliği sonucu çıkan sonuçların yorumlanması gibi ek adımlarla birlikte veriden türetilen yararlı bilginin elde edilmesi demektir. Şekil 2.1 de VTBK adımlarını göstermektedir. Bu adımlar; Şekil 2.1. Bilgi keşif süreci Veri madenciliği, VTBK işleminin adımlarından biridir. VTBK işleminin adımları farklı kişiler tarafından farklı modellerle ifade edilmiştir. Han tarafından sunulan modelde VTBK işlemi yedi adımda meydana gelmektedir. Bu adımlar sırasıyla veri temizleme, veri birleştirme, veri seçme, veri dönüştürme, veri madenciliği, örüntü değerlendirme ve bilgi sunumudur. VTBK sürecindeki adımlar Şekil 2.1. de görsel olarak ifade edilmiştir. Han ın sunduğu modeldeki VTBK sürecinde yer alan adımlar açıklamaları ile aşağıda belirtilmiştir [10]. Veri Temizleme (Data Cleaning): Gerçek hayatta kullanılan veritabanları içindeki veriler kirlenmeye, eksik hale gelmeye ve tutarsız olmaya eğilimlidirler. Bu nedenle verilerin kullanılmadan önce bazı ön işlemlerden geçmeleri gerekir. Ön işlemlerden geçen veriler üzerinde veri madenciliği algoritmalarının uygulanması ile daha kaliteli sonuçlar elde edilir. Bu ön

19 5 işlemlerden biri veri temizlemedir. Veri temizleme ile veritabanlarındaki eksik, tutarsız ve gürültülü veriler giderilir. Veri Birleştirme (Data Integration): Farklı veri tabanlarından ya da veri kaynaklarından elde edilen verilerin birlikte değerlendirmeye alınabilmesi için farklı türdeki verilerin tek türe dönüştürülmesi işlemidir. Bunun en yaygın örneği cinsiyette görülmektedir. Çok fazla tipte tutulabilen bir veri olup, bir veri tabanında 0/1 olarak tutulurken diğer veri tabanında E/K veya Erkek/Kadın şeklinde tutulabilir. Bilginin keşfinde başarı verinin uyumuna da bağlı olmaktadır. Veri Seçme (Data Selection): Veritabanlarında üzerinde işlem yapılacak olan veri seçilir ve veri türleri bu aşamada belirlenir. Veri madenciliği uygulamalarında çözümlemeden elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısı ya da değişkenlerin sayısı azaltılabilir. Veri Dönüştürme (Data Transformation): Verinin kullanılacak modele göre içeriğini koruyarak şeklinin dönüştürülmesi işlemidir. Dönüştürme işlemi kullanılacak modele uygun biçimde yapılmalıdır. Çünkü verinin gösterilmesinde kullanılacak model ve algoritma önemli bir rol oynamaktadır. Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu taktirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır. Bu yüzden veri üzerinde normalizasyon işlemi yapılmalıdır. Veri Madenciliği (Data Mining): Bu aşamada, anlamlı örüntüler elde edebilmek için veri üzerinde veri madenciliği algoritmaları uygulanır. Sınıflandırma, kümeleme algoritmaları gibi veri madenciliği algoritmaları kullanılarak yararlı bilgi keşfedilmesi sağlanır.

20 6 Örüntü Değerlendirme (Pattern Evaluation): Elde edilmiş olan bilginin basitlik, geçerlilik, yararlılık ve yenilik gibi bazı ölçüm değerlerine göre değerlendirildiği aşamadır. Bilgi Sunumu (Knowledge Presentation): Bu aşamada, çeşitli görselleştirme ve bilgi sunum araçları kullanılarak elde edilmiş olan bilginin kullanıcıya sunumu gerçekleştirilir Uygulama Alanları Veri madenciliğinin birçok kullanım alanları mevcuttur. Bunların en önemlileri sigortacılık, bankacılık ve elektronik ticaret [11], biyoloji, kimya, coğrafi bilgi sistemleri, görüntü tanıma, uzay bilimleri, sosyal bilimler, bilimsel mühendislik alanlarıdır Sigortacılık Sigorta dolandırıcılıkların tespiti, Riskli müşteri gruplarının belirlenmesi, Yeni poliçe talep edecek kişilerin tahmin edilmesi vb. konularda yapılabilir Bankacılık Kredi taleplerinin değerlendirilmesi, Kredi kartları harcamalarına göre müşteri gruplarının belirlenmesi, Kredi kartı dolandırıcılıklarının ve sahtekârlıklarının belirlenmesi, Farklı finansal göstergeler arasında gizli ilişkilerin ortaya konulması vb. konularda yapılabilir.

21 Pazarlama Pazar sepet analizi, Müşteri ilişkileri yönetimi, Satış tahmini, Müşteri değerlendirme, Müşterilerin satın alma alışkanlıklarının belirlenmesi, Müşterilerin demografik özellikleri arasındaki bağlantıların ortaya konulması vb. konularda yapılabilir Elektronik ticaret Saldırıların çözümlenmesi, Sigorta dolandırıcılıkların tespiti, Riskli müşteri gruplarının belirlenmesi vb. konularda yapılabilir Biyoloji, tıp ve genetik Bitki türleri ıslahı, Gen haritasının analizi ve genetik hastalıkların tespiti, Kanserli hücrelerin tespiti, Yeni virüs türlerinin keşfi ve sınıflandırılması, Fizyolojik parametrelerin analizi ve değerlendirilmesi vb. konularda yapılabilir Kimya Yeni kimyasal moleküllerin keşfi ve sınıflandırılması, Yeni ilaç türlerinin keşfi vb. konularda yapılabilir.

22 Yüzey analizi ve coğrafi bilgi sistemleri Bölgelerin coğrafi özelliklerine göre sınıflandırılması, Kentlerde yerleşim yerleri belirleme, Kentlerde suç oranı, Zenginlik-yoksulluk, köken belirleme, kentlere yerleştirilecek posta kutusu, otomatik para makineleri, otobüs durakları gibi hizmetlerin konumlarının tespiti vb. konularda yapılabilir Görüntü tanıma ve robot görüş sistemleri Çeşitli algılayıcılar aracılığı ile tespit edilen görüntülerden yola çıkarak engel tanıma, Yol tanıma, yüz tanıma, parmak izi tanıma gibi tekniklerde kullanımı vb. konularda yapılabilir Uzay bilimleri ve teknolojisi Gezegen yüzey şekillerinin ve gezegen yerleşimleri, Yeni galaksiler keşfi, Yıldızların konumlarına göre gruplandırılması vb. konularda yapılabilir Meteoroloji ve atmosfer bilimleri Bölgesel iklim, yağış haritaları oluşturma, Hava tahminleri, ozon tabakası deliklerinin, tespiti, çeşitli okyanus hareketlerinin belirlenmesi vb. konularda yapılabilir Sosyal bilimler ve davranış bilimleri Kamuoyu yoklamaları inceleme,

23 9 Genel eğilim belirleme, seçim öngörüleri oluşturma vb. konularda yapılabilir Metin madenciliği Çok büyük ve anlamsız metin yığınları arasından anlamlı ilişkiler elde etmekte kullanılması vb. konularda yapılabilir Bilimsel, mühendislik ve sağlık bakım verileri Günümüzde bilimsel veriler, iş sahası verilerinden daha da karmaşık hale gelmişlerdir. Buna ek olarak; Bilim adamları ve mühendisler uygulama sahası bilgilerini kullanarak benzetim ve sistem kullanımının arttırılması vb. konularda yapılabilir. Web Verileri: Internet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Sadece düz metin ve resimden başka akan (streaming) ve nümerik veriler de web verileri arasında yer almaktadır [12] Veri Madenciliği Modelleri Han a göre modeller iki alan altında toplanan tanımlayıcı (descriptive) ve öngörüsel (predictive) modellerdir. Tanımlayıcı model, veritabanı içindeki verinin genel özelliklerinin ortaya çıkarır. Öngörüsel modelde ise, gelecekle ilgili tahminlerde bulunmak için kabul edilen veri üzerinde sonuçlar çıkarmaya çalışır. Han ın modelini kullananlar bile hangi kategorinin hangi modelin altında olduğunun kararını verememişlerdir. Bu kategoriler tanımlama ve ayrımlama (characterization and discrimination), birliktelik analizi (association rules), sınıflandırma ve öngörü (classification and prediction), kümeleme

24 10 analizi (cluster analysis), sıra dışılık analizi (outlier analysis) ve gelişimsel analizdir (evolution analysis). VM modellerini gördükleri işlevlere göre, Sınıflama (Classification) ve Regresyon, Kümeleme (Clustering), Birliktelik Kuralları (Association Rules) ve Ardışık Zamanlı Örüntüler (Sequential Patterns), olmak üzere üç ana baslık altında incelemek mümkündür. Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik kuralları ve ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir. Sekil 2.2.'de bu ilişkiler özetlenmiştir [13]. Şekil 2.2. Veri madenciliği modelleri Sınıflandırma Sınıflandırma, veri kümesindeki kayıtları önceden belirlenmiş alt gruplara ait varsayarak tüm kayıtlara doğru sınıf etiketlerinin atanmasını amaçlayan veri madenciliği çalışmalarını ifade etmektedir. Diğer yandan, sınıflandırma modelleri değişkenlikleri ve veri içerisindeki çeşitli problemleri tanımlamak

25 11 için de kullanılabilmektedirler. Sınıflandırma modellerinde bağımlı değişken kesikli olmakta ve bu değişkenin her bir değeri birer sınıf etiketi ifade etmektedir. Sınıflandırma modeli, bağımlı değişkenin de değerlerini içeren veri kümesi üzerinden sınıflayıcı kuralları türetmekte ve bu kuralları yeni kayıtlara uygulayarak öngörülerde bulunmaktadır [14]. Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği yöntemleri içerisinde en yaygın kullanıma sahip olan sınıflama modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Sınıflama modellerinde kullanılan başlıca yöntemler; Karar Ağaçları, Yapay Sinir Ağları, Genetik Algoritmalar, K-En Yakın Komşu, Bellek Tabanlı Yöntemler, Naive-Bayes Kümeleme Nesnelerin kendilerini veya diğer nesnelerle olan ilişkilerini tanımlayarak onları gruplara bölme işlemine kümeleme denir. Buradaki amaç gruplar içindeki nesneleri diğer gruplardaki nesnelerden ayrı; kendi aralarında ise birbirlerine benzer şekilde oluşturmaktır [15]. Veri madenciliğinde kullanılmakta olan birçok kümeleme algoritması vardır ve bunlar analiz edilecek olan verinin yapısına göre belirlenir. Kümeleme metotları genel olarak şunlardır [16]: Bölme Metodu: n tane nesnenin olduğu veritabanında, nesneler mantıksal gruplara ayrılarak analiz edilir. Küçük ve orta boyutlu veritabanlarında birkaç

26 12 grup olabilirken, veritabanının büyüklüğü arttığında daha çok grup oluşabilir. Gruplandırma yapılırken değişik kriterler değerlendirilebilir. Yapılan gruplandırma analizin kalitesine etki eder. Hiyerarşik Metot: Analiz etmeden önce nesneler, hiyerarşik bir yapıya göre düzenlenir. Veriyi hiyerarşik bir yapıya çevirmek için değişik yöntemler kullanılır. Bunların arasında BIRCH ve CURE yöntemleri bulunur. Yoğunluk Tabanlı Metot: Birçok kümeleme yöntemi nesnelerin birbirleri arasındaki farklılıklarına göre kümeleme yaparken, bu metot nesnelerin yoğunluğuna göre gruplama yapar. Yoğunluktan kasıt, analiz edilen nesnelerin sayısıdır. Yoğunluk tabanlı metotlara örnek olarak DBscan verilebilir. Izgara Tabanlı Metot: Nesneleri grid yapısı oluşturacak şekilde sayılarına göre sınıflandırır. Temel avantajı hızlı tamamlanması ve nesnelerin sayısından bağımsız olmasıdır. Bu tipteki metotlara örnek olarak Sting verilebilir. Model Tabanlı Metot: Her küme için bir model belirlenir ve bu modele uyan veriler uygun kümeye yerleştirilir Birliktelik kuralı/analizi Birliktelik kuralı, geçmiş verilerin analiz edilerek bu veriler içindeki birliktelik davranışlarının tespiti ile geleceğe yönelik çalışmalar yapılmasını destekleyen bir yaklaşımdır. 90 lı yılların başına kadar saklanan satış verilerinde ürün ve müşteri verisi çok nadir yer alırken, genelde mali açıdan önemli olan tutarsal gelir verilerinin depolanması yapılıyordur. 90 lı yılların başından itibaren veri toplama uygulamalarındaki gelişmeler doğrultusunda firmaların satış noktalarında yeni teknoloji otomatik ürün veya müşteri tanıma sistemleri (barkod ve manyetik kart okuyucular) yaygınlaşmaya başlamıştır.

27 13 Bu tip teknolojik gelişmeler, bir satış hareketine ait verilerin satış esnasında toplanmasına ve elektronik ortamlara aktarılmasına olanak tanımıştır. Veritabanı kayıtları içinde yer alan kayıtların birbirleriyle olan ilişkileri inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan veri madenciliği yöntemleri bulunmaktadır. Bu ilişkilerin belirlenmesiyle birliktelik kuralları elde edilir. Birliktelik analizi nesnesel yâda karekteriksel özelliklerin birlikte işlediği bir kuraldır. Ayrıca, Pazar Sepet Analizi olarak da tanımlanan birliktelik kuralı bir ya da daha fazla nesnelerin aralarındaki nicel ilişkilerini ortaya çıkarır [17]. Pazar sepet analizleri yardımıyla bir müşteri herhangi bir ürünü aldığında, sepetine başka hangi ürünleri koyduğu belirli bir olasılığa göre ortaya konur. Birlikte satın alınan ürünler belirlendiğinde, mağazalarda raflar ona göre düzenlenerek müşterilerin bu tür ürünlere daha kolayca erişimleri sağlanabilir Birliktelik Kuralı ve Apriori Algoritması Veri madenciliğinde kullanılan ilk yöntemlerden birisidir [18]. Birliktelik kuralı, geçmiş verilerin analiz edilerek bu veriler içindeki birliktelik davranışlarının tespiti ile geleceğe yönelik çalışmalar yapılmasını destekleyen bir yaklaşımdır. Birliktelik kuralı madenciliğinin uygulamasına Pazar sepeti analizi örnek verilebilir [19]. Birliktelik kuralındaki amaç; alışveriş esnasında müşterilerin satın aldıkları ürünler arasındaki birliktelik ilişkisini bulmak, bu ilişki verisi doğrultusunda müşterilerin satın alma alışkanlıklarını tespit etmektir. Satıcılar, keşfedilen bu birliktelik bağıntıları ve alışkanlıklar sayesi ile etkili ve kazançlı pazarlama ve satış imkânına sahip olmaktadırlar. Örneğin, bir marketten müşterilerin süt ve peynir satın alımlarının % 70 inde bu ürünler ile birlikte yoğurt da satın alınmıştır. Bu tür birliktelik örüntüsünün tespit edilebilmesi için, örüntü içinde yer alan ürünlerin birden çok satın alma

28 14 hareketinde birlikte yer alması gerekir. Milyonlarca veri üzerinde veri madenciliği teknikleri uygulandığında, birliktelik sorgusu için kullanılan algoritmalar hızlı olmalıdır [20]. Bu çalışmada, veri madenciliği tekniklerinden birliktelik kuralı yöntemlerinden en çok bilinen Apriori algoritması ile örnek bir kurumun ağ verileri üzerinde IBM/Modeler aracı kullanılarak girilen siteler ve kullanıcılar arasında ilişkiler incelenmiştir. İnceleme sonucunda kullanıcıların girilen sitelerden sonra hangi sitelere gireceği tahmininde bulunulmuştur Birliktelik kuralı Birliktelik kuralının matematiksel modeli Agrawal, Imielinski ve Swami tarafından yılında sunulmuştur [18]. Bu modelde, I ={i 1, i 2,.., i m } kümesine ürünler adı verilmektedir. D, veri bütünlüğündeki tüm hareketleri, T ise ürünlerin her bir hareketini simgeler. TID ise, her harekete ait olan tek belirteçtir. Birliktelik kuralı şu şekilde tanımlanabilir; A 1, A 2., A m => B 1, B 2,., B n Bu ifadede yer alan, Ai ve Bj, yapılan iş veya nesnelerdir. Bu kural, genellikle A 1, A 2., A m iş veya nesneleri meydana geldiğinde, sık olarak B 1, B 2,., B n iş veya nesnelerinin aynı olay veya hareket içinde yer aldığını belirtir [21]. Birliktelik kuralı, kullanıcı tarafından minimum değeri (Min des ) belirlenmiş destek ve güvenirlik eşik değerlerini sağlayacak biçimde üretilir. Bir ürün kümesindeki destek, D ile ifade edilen tüm hareketler içinde ilgili ürün kümesini içeren hareketlerin yüzdesidir. A ve B ürün kümelerinin, birliktelik kuralı A=> B olarak gösterilirse, destek aşağıdaki gibi tanımlanır.

29 15 destek (A => B) = (A ve B nin bulunduğu satır sayısı) / (toplam satır sayısı) A=>B birliktelik kuralının güven değeri ise, A yı içeren hareketlerin B yi de içerme yüzdesidir. Örneğin, bir kural % 85 güvenirliğe sahip ise, A yı içeren ürün kümelerinin % 85 i B yi de içermektedir. İşe bağlı veri satırları verilmiş ise, (A=> B) güveni aşağıdaki gibi tanımlanır. güven (A=> B) = (A ve B nin bulunduğu satır sayısı) / (A nın bulunduğu satır sayısı) Güven değerinin % 100 olması durumunda, kural bütün veri analizlerinde doğrudur ve bu kurallara kesin denir. Birliktelik kuralına ilişkin olarak geliştirilen bazı algoritmalar şunlardır; AIS [24], SETM [22], Apriori [20], RARM - Rapid Association Rule Mining [23], CHARM [24]. Bu algoritmalar içerisinde, ilk olanı AIS, en bilineni ise Apriori algoritmasıdır [20]. Çalışmada öncelikle veri kümesi içindeki yaygın öğeler belirlenmiştir. Yaygın öğelerin ve nesneleri oluşturan öğeler arasındaki ilişkiler belirlenmiştir. Çalışmada kullanılan Apriori algoritmasından uygulama bölümü olan 3. bölümde detaylı şekilde bahsedilmiştir Apriori algoritması Apriori Algoritmasının ismi, bilgileri bir önceki adımdan aldığı için prior anlamında Apriori dir [18]. Bu algoritma temelinde iteratif (tekrarlayan) bir niteliğe sahiptir ve hareket bilgileri içeren veritabanlarında sık geçen öğe kümelerinin keşfedilmesinde kullanılır. Apriori Algoritmasına özüne göre, eğer k-öğe kümesi (k adet elemana sahip öğe kümesi) min des ölçütünü sağlıyorsa, bu kümenin alt kümeleri de min des ölçütünü sağlar. Birliktelik kuralı madenciliği, tüm sık geçen öğelerin bulunması ve sık geçen bu öğelerden güçlü birliktelik kurallarının üretilmesi olmak üzere iki aşamalıdır. Birliktelik kuralının ilk aşaması için kullanılan Apriori Algoritması, sık geçen öğeler

30 16 madenciliğinde kullanılan en popüler ve klasik algoritmadır. Bu algoritmada özellikler ve veri, Bolean ilişki kuralları ile değerlendirilir [25]. Bu algoritma aslında tekrarlayan bir özelliğe sahiptir ve hareket bilgileri içeren veritabanlarında sık geçen öğe kümelerinin keşfedilmesinde kullanılır. Apriori algoritmasına göre, k-öğe kümesi (k adet elemana sahip öğe kümesi) minimum destek ölçütünü sağlarsa, bu kümenin alt kümeleri de yine min. destek ölçütünü sağlamaktadır. k-öğe (k tane elemana sahip öğe kümesi) kümesi c ile ifade edilirse, öğeleri (ürünler) c[1], c[2], c[3],...,c[k] şeklinde gösterilir ve c[1] < c[2] < c[3]<... <c[k] olacak şekilde küçükten büyüğe doğru sıralıdır [18]. Her öğe kümesine destek ölçütünü tutmak üzere bir sayaç değişkeni eklenmiştir ve sayaç değişkeni öğe kümesi ilk kez oluşturulduğunda sıfırlanır. Geniş (sık geçen) öğe kümeleri L karakteri ile aday öğe kümeleri ise C karakteri ile gösterilir [26]. L 1 = {sık geçen 1-öğe kümesi}; for (k=2; L k 1 Ø; k++) do begin C k =Apriori-gen (L k 1 ); // Yeni adaylar forall transactions-hareketler t ϵ D do rbegin C t = subset (C k, t); // Adaylar t içindedir forall candidates adaylar c ϵ C t do c.count++; end L k = {c ϵ C k c.count minsup} end Answer = U k L k ; Şekil 2.3. Klasik Apriori algoritması özet kodu

31 17 Apriori algoritmasının klasik özet kodu Şekil 2.3 de [18] görülmektedir. Bu şekilde yer alan Apriori-gen fonksiyonu (Şekil 2.4 de) [18], (k-1) adet öğeye sahip L k 1 sık geçen öğe kümesini kullanarak k adet öğeye sahip aday kümeleri oluşturur. Bu fonksiyon ile ilk önce, L k 1 sık geçen öğe kümesine kendisi ile birleştirme işlemi uygulanır. Birleştirme işleminde L k 1 sık geçen öğe kümesinin her satırında yer alan son öğe haricinde diğer öğelerin çapraz olarak benzerliği aranır ve son öğe haricinde diğer öğelerle yakalanan benzerliklerden yeni aday öğe kümeleri oluşturulur. Oluşan kümeler budama adımı ile budanarak fonksiyondan dönülür. insert into C k select p.items 1, p.items2,...,p.items k 1, q.item k 1 from L k 1 p, L k 1 q where p.item1=q.item1,..., p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1; forall itemsets c ϵ Ck do forall (k-1)-subsets s of c do if (s L k 1 ) then delete c from Ck Şekil 2.4. Apriori-Gen fonksiyonu Budama işleminde; c aday kümesinin (k-1) öğeye sahip alt kümelerinden L k 1 sık geçen öğe kümesinde yer almayan tüm alt kümeler silinir [20]. Farklı bir ifade ile budama, C k aday öğe kümesindeki öğelerin alt kümelerinin L k 1 sık geçen öğe kümesindeki varlığı kontrol edilir, bir öğenin alt kümelerinden biri, L k 1 sık geçen öğe kümesinde yer almıyorsa ilgili öğe değerlendirme dışı kalır ve C k aday öğe kümesinden silinir [18]. Apriori algoritması özet kodu incelendiğinde sık geçen öğe kümelerini bulmak için birçok kez veritabanının tarandığı görülmektedir. İlk aşamadan önce, veri

32 18 madenciliği uygulanacak veri topluluğunun taranarak öğelerin kaç adet hareket kaydı içinde yer aldığı tespit edildiği (her öğe için tespit edilen bu değere destek sayacı adı verilir) ve destek sayacı minimum destek değerine eşit veya büyük olan öğelerin L 1 sık geçen 1-öğe kümesi olarak belirlendiği varsayılarak işleme başlanır. Kod içinde kurulan döngü yapısı ile ilk aşamada L 1 sık geçen öğe kümesinin öğelerinin ikili kombinasyonuna benzer bir şekilde (L 1 L 1 ) yeni bir küme oluşur, bu işleme birleştirme adı verilir. Bu işlem ile oluşan kümelere de aday öğe kümeler adı verilir ve C harfi ile simgelenir. Oluşan bu aday öğe kümesinin her elemanı iki adet öğeden oluştuğu için C 2 ifadesi ile isimlendirilir. Bu aday küme Apriori-gen işlevi ile budama işlemine tabi tutulur ve C 2 kümesinin elemanlarına ait alt kümelerinin L 1 öğe kümesinde olup olmadığına bakılır, alt kümelerden L 1 içinde yer almayan küme elemanları C 2 aday kümesinden silinir. Apriori algoritması uygulanan veri topluluğu tekrar taranarak budama işleminden geçen L 2 aday kümesi elemanlarının kaç adet hareket kaydı içinden geçtiği (destek sayacı) bulunur. Bulunan destek sayaç bilgileri doğrultusunda C 2 aday kümesi elemanlarının destek sayacı minimum destek değerine eşit veya büyük destek değerine sahip olan elemanları L 2 sık geçen öğe kümesini oluşturur. Döngü bir sonraki aşamada L 2 kümesi öğelerinin üçlü kombinasyonu ile yeni bir aday öğe kümesi oluşturur ve bu küme C 3 ifadesi ile simgelenir. ilk aşamada olduğu gibi bu kümede budama işleminden geçer ve budama işleminden sonra minimum destek seviyesinin üstünde kalan elemanları ile L 3 sık geçen öğe kümesi oluşturulur. Döngü her dönüşünde öğe sayısını artırarak devam eder. Bu süreç yeni bir sık geçen öğe kümesi bulunamayana kadar sürer.

33 Sınıflandırma ve Karar Ağaçları, Naive Bayes Algoritmaları Sınıflandırma Sınıflandırma, yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktır. Burada önemli olan, her bir sınıfın özelliklerinin önceden net bir şekilde belirlenmiş olmasıdır. Verilerin içerdiği ortak özellikleri kullanılarak söz konusu verileri sınıflandırmak mümkündür. Örneğin bir firmanın müşterilerini belirli özellikleri göz önüne alınarak sınıflandırılması sağlanabilir. Bir alışveriş merkezi yöneticileri ortalama alışveriş miktarından daha fazla alışveriş yapan müşterileri varlıklı, diğerlerini ise yoksul olarak birbirlerinden ayırt etmek isteyebilir. Benzer biçimde bir veri kümesi içinde ortak özellikleri ya da farklılıkları ortaya koyacak biçimde sınıflandırma yapılabilir. Sınıflandırma bir öğrenme algoritmasına dayanır. Tüm veriler kullanılarak eğitme işi yapılmaz. Bu veri topluluğuna ait bir örnek veri üzerinde gerçekleştirilir. Öğrenmenin amacı bir sınıflandırma modelinin yaratılmasıdır. Bir başka deyişle sınıflandırma, hangi sınıfa ait olduğu bilinmeyen bir kayıt için sınıf belirleme sürecidir. Örnek olarak, basit bir sınıflandırma ile iki belirgin sınıfa ayrıştırılabilir: Ödemeleri 3 gün içinde yapanlar ve ödemeleri 3 günden sonra yapanlar. Sınıflandırma için çalışmada bazı veri ön işleme aşamaları uygulanmıştır. Sürekli veriler ayrık hale getirilmiştir: Facebook, tiwitter, linkedin vs sosyal ağ; halkbankası, işbankası vs. Bankalar; google, yandex vs arama motoru gibi Gereksiz niteliklerin silinmiştir: Bazı istenmeyen nitelikler kaldırılmıştır. TCP/UDP, sourceport nitelikleri gibi

34 20 Gürültü azaltılmıştır: Mükerrer veriler kaldırılmıştır. Normalizasyon: Yaş niteliğinde belli yaşın üstündeki kişiler sayıca az oldukları için değerlendirmeye alınmamıştır. Karar Ağacı ve Naive Bayes sınıflandırıcılarda girdi olarak ayrık nesnelerden oluşan öğrenme kümesi oluşturulmuştur. Ve bu öğrenme kümesindeki niteliklerden bir tanesi sınıfı etiketi seçilmiştir. Seçilen bu sınıf etiketine bağlı olarak model oluşturulmuştur. Bu çalışmada, veri madenciliği teknikleri sınıflandırma yöntemlerinden karar ağaçları ve Naive Bayes algoritmaları örnek bir kurumun ağ verileri üzerinde uygulanmıştır. Karar Ağacı algoritması için RapidMiner ve SPSS aracı kullanılarak eğitim ve test verileri üzerinde sınıflandırma yapılmıştır. Naive Bayes algoritması için ise önce C# programlama dilinde algoritma kodlanarak sınıflandırma yapılmıştır. Sonrasında ise yine aynı eğitim ve test verileri üzerinde RapidMiner aracı kullanılarak sınıflandırma yapılmıştır. Uygulama bölümü olan 3. Bölümde detaylı şekilde bahsedilmiştir Karar ağaçları Sınıflandırma problemlerinde en çok kullanılan algoritmalardan biri karar ağaçlarıdır. Diğer sınıflandırma algoritmalarıyla kıyaslandığında karar ağaçlarının yapılandırılması ve anlaşılması daha kolaydır [27]. Karar ağaçları kullanılarak sınıflandırma 2 aşamada gerçekleştirilir. İlk adımda ağaç oluşturulur. İkinci adımda ise veriler tek tek ağaca uygulanarak sınıflandırma gerçekleştirilir. Karar ağaçlarının oluşturulması sırasında dallanmaya hangi nitelikten başlanacağı oldukça önemlidir çünkü olası tüm ağaç yapılarını ortaya çıkararak içlerinden en uygun olanı ile başlamak mümkün değildir. Bu sebeple Karar Ağacı algoritmalarının çoğu daha başlangıçta birtakım

35 21 değerleri hesaplayarak ona göre ağaç oluşturma yoluna gitmektedir. Bu hesaplamalardan biri de entropiye dayalı olup, entropi belirsizliğin ölçüsü olarak tanımlanmaktadır. Entropi, bir veri kümesi içindeki belirsizlik ve rastgeleliği ölçmek için kullanılır ve 0 ile 1 arasında değer alır. Bütün olasılıklar eşit olduğunda entropi maksimum değerini alacaktır [28]. Entropiye dayalı karar ağaçları ile sınıflandırma algoritmalarının en önemlileri aşağıdaki gibidir. ID3 [29]: ID3, makine öğrenme ve bilişim teorisine bağlı olarak verilen örnekler içinde en ayırıcı değişkeni bulan bir algoritmadır. Temel olarak kategorik nitelikleri sınıflandırır ve veritabanı dallandırılmadan önce ve sonra doğru sınıflandırma yapmak için gelen bilgiler arasındaki farkı kullanarak, öncelikli düğüme ve dallanmalara karar verir. C4.5 [30]: ID3 algoritmasından farklı olarak sayısal değerlere sahip niteliklerin karar ağaçlarının oluşturulmasını sağlar. Diğer taraftan Karar Ağacı oluştururken kayıp verileri almaması sebebiyle daha anlamlı kurallar sunan ağaçlar üretebilir. Kayıp veriler ise diğer veri ve değişkenler kullanılarak tahmin edilir. CART: CART algoritması, her karar düğümünden sonra ağacın iki dala ayrılması ilkesine dayanır. Bu teknikte dallanma kriteri belirlenirken kayıp veriler önemsenmez Naive Bayes Naive Bayes, birden fazla değişkenler arasındaki ilişkiyi analiz eden tahminci ve tanımlayıcı bir sınıflandırma algoritmasıdır. Naive Bayes, verinin öğrenilmesi esasına dayanmaktadır. Yani eğitimde kullanılan veriler, modelin öğrenilmesi için her çıktının kaç kere meydana geldiğini hesaplar.

36 22 Bu değer öncelikli olasılık olarak adlandırılır. Hesaplamalar sırasında her bir bağımsız değişkenin bağımlı değişkenlere bölümünün kombinasyonu olayın meydana gelme sıklığını bulur. Bu da veri kümesinden yapılacak tahmin için kullanılır [31]. Naive Bayes, metin kategorilendirmesi konusunda bilinen ve sıklıkla kullanılan bir algoritmadır. Hedef fonksiyon için bir eğitim veri seti belirlenir, nitelik değerleri tarafından tanımlanan yeni örneklemler sunulur ve öğrenici sınıf hedef değeri veya sınıfı tahmin eder [32]. Sınıflandırma önemli bir veri madenciliği problemidir. Girdiler, eğitim setinin bir veri kümesidir. Bu veri kümesindeki her bir verinin birçok özniteliği vardır. Sayı alanı içeren özniteliklere sayısal öznitelik, sayı içermeyen özniteliklere sahip alanlara ise kategorik öznitelik denmektedir. Ayrıca sınıf etiketi isimli fark edilebilir bir öznitelik daha vardır. Bu sınıflandırma, etiketsiz kayıtlar içerisinde, sınıf etiketini tahmin etmekte kullanılabilecek kısa bir model oluşturmayı hedefler. Naive Bayes sınıflandırıcısı, kategorik verileri sınıflandırma konusunda basit ve hızlı bir tekniktir. Bayes sınıflandırıcıları klasik değişkene bağlı sınıflandırıcılardır. Eğitim verileri için belirli bir olasılık dağılımı uygun kabul edilir. Naive Bayes sınıflandırıcısı, ilgili eğitim setinde bulunan her bir bağımsız öznitelik arasındaki ilişkiyi ve her bir ilişki içerisindeki şartlı olasılığı çıkarmak için analiz eder. Tahmin işlemi, bağımsız değişkenlerin, bağımlı değişkenler üzerindeki etkilerini bir araya getirerek yeni bir durumu sınıflandırmak için yapılır [33]. Naive Bayes tekniğinin kullanıldığı sınıflandırma adımları şu şekildedir: Eğitim süreci sırasında, her bir sonucun önceki olasılığı eğitim seti içerisinde ilgili kategoride kaç kere geçtiğinin sayısı olarak belirlenir. Örneğin, 5 şartın olduğu bir durumda, ilk sonuç 2 kere geçmiş ise ilgili sonucun olasılığı 0,4 dür. Önceki olasılıklara ek olarak, her bir bağımsız özniteliğin her bir bağımlı öznitelik içerisinde kaç kez geçtiğini de hesaplamaktadır. Bu frekans

37 23 değeri, hesaplanan olasılık değerlerinin her birinin çarpımı birleşimi ile çarpılarak oluşturulan şartlı olasılık değerlerini hesaplamak için kullanılır [33]. Naive Bayes algoritması en bilindik sınıflandırma algoritmalarından birisidir. Birçok araştırmacı bu yaklaşımın kuramsal ve deneyimsel sonuçları üzerinde çalışmışlardır. Veri madenciliği uygulamalarında geniş ölçüde kullanılmaktadır ve birçok uygulamada sürpriz bir şekilde iyi sonuçlar vermiştir. Buna rağmen, Naive Bayes öğreniminde bütün özelliklerin eşit sayılması varsayımı nedeniyle, yapılan tahminler yetersiz kalmaktadır. Örneğin, bir kişinin diyabet hastası olup olmadığının tahmini problemi konusunda, kişinin kan basıncı, kişinin boyundan daha önemlidir. Bu nedenle, Naive Bayes algoritmasının performansı hafifletici varsayımlar ile iyileştirilir [34]. Bayes sınıflandırıcısı şu şekilde ifade edilir: X örnek veri seti olsun. Bu X değerlerinin sınıfı bilinmemektedir. X test veri seti X = {X1, X2, X3,, Xn} değerlerinden oluşsun. Sınıf değerleri ise C1, C2, C3,, Xn şeklinde olduğu kabul edilsin. Sınıfı belirlenecek test verisinin olasılığı şu şekilde hesaplanır: P( Ci ) = P(X/Ci)+P(Ci) X P(X) (2.1) Çıkan sonuçlardan ise en büyük değere ait olan sınıf test verisinin ait olduğu sınıfı verir. arg maxci {P(X Ci) P(Ci)} (2.2)

38 24 3. UYGULAMA Operasyon tarafında yer alan veriler, Şekil 2.1 de görüldüğü gibi bilgi keşfi aşamalarından veri seçme, veri önişleme ve veri indirgeme süreçleri ile uygulama veri depolama yapısına alınmıştır. Veri seçimi (veri toplama) işlemi, verilerin veri madenciliği uygulanması için mümkün olduğu kadar tek bir veri ambarı içinde toplanmasıdır. Veri önişleme, verilerin veri madenciliği için hazır duruma getirilmesi için veri üzerinde veri tipi dönüşümü, gruplama, sınıflanma, kayıp değerleri yönetme ve gürültülü verinin temizlenmesi gibi işlemlerin uygulandığı aşamadır. Gürültülü veride veri önişleme aşamasında veri kümesinden temizlenir. Gürültülü veri, veri kümesi içinde yer alan ama veri madenciliği uygulamasında kullanılmayacak ve bir anlam içermeyen verilerdir [10]. Örnek kurumun operasyona ait verilerde (Şekil 3.1) bulunan bazı girişlerin gereksiz olduğu tespit edilmiştir. Şekil 3.1. Ham (işlenmemiş) veri Bu doğrultuda aşağıdaki ön işlem basamakları uygulanarak Şekil 3.2 de ( Çarşamba) nihai hali elde edilmiştir.

39 25 Anlamsız veriler anlamlı hale getirilmiştir. Sürekli veriler ayrık hale getirilmiştir.: Facebook, tiwitter, linkedin vs sosyal ağ; halkbankası, işbankası vs. Bankalar; google, yandex vs arama motoru gibi Gereksiz niteliklerin silinmiştir.: Bazı istenmeyen nitelikler kaldırılmıştır. TCP/UDP, sourceport nitelikleri gibi Gürültü azaltılmıştır.: Mükerrer veriler kaldırılmıştır. Veri bütünleştirme.: Farklı türdeki veriler tek tür yapılmıştır. Veri indirgeme yapılmıştır.: Veri sayısı azaltılmıştır. Normalizasyon: Yaş niteliğinde belli yaşın üstündeki kişiler sayıca az oldukları için değerlendirmeye alınmamıştır adet satır sayısına sahip işlenmemiş veri, veri madenciliği süreci sonunda 8684 satır sayısına inmiştir.

40 26 Şekil 3.2. İşlenmiş veri Şekil 3.2 deki tabloda zaman bilgisi logların zamanını yani ay, gün saat, saniye ve salise bilgilerini göstermektedir. dst hedef IP lerin karşılığı olan http adreslerini, ethsource ise işlemi yapan makinanın ID sini vermektedir.

41 27 Uygulamada sınıflandırma tekniklerinden Apriori, Karar Ağacı ve Navie Bayes algoritmaları kullanılmıştır. Apriori ve Karar Ağacı algoritmaları veri madenciliği uygulama araçları ile yapılmıştır. Naive Bayes algoritması ise hem uygulama aracı hemde C# yazılım dilinde kodlanarak yapılmıştır. Karşılaştırılacak algoritmaların parametreleri RapidMiner ve SPSS programlarının kendi varsayılan değerleri olacak şekilde bırakılmış, model başarımına olumlu ya da olumsuz etki edebilecek değişikliklerden kaçınılmıştır. Özetle Apriori, Karar Ağacı ve Naive Bayes algoritmaları kullanılarak modeller oluşturulmuş ve oluşturulan modellerin başarım dereceleri karşılaştırılarak ilişkiler belirlenmeye çalışılmıştır. Bu tezde yapılan uygulamalar Şekil 3.3 de özetlenmiştir. Yapılan Uygulamalar Alg. Uyg. Ort. Karar Ağacı Naive Bayes Apriori RapidMiner X SPSS X Kodlama X X Şekil 3.3. Özet uygulamalar tablosu Algoritmaların veri kaynağı üzerinde çalıştırılması sırasında algoritma parametreleri olarak her algoritmanın o parametre için varsayılan değeri kullanılmıştır. Her algoritma ve her veri kaynağı için başarım derecesini maksimize edecek parametre değerleri tespit ederek bu parametrelerle algoritma sonuçlarını karşılaştırmak farklı sonuçlara götürebilecektir. Ancak, böyle bir karşılaştırmada yanlılık oluşabilecektir Apriori Algoritması ile Ağ Verilerinin Modellenmesi Çalışmada kurumun tarihleri arasında ki günlerden Pazartesi ( ), Çarşamba ( ) ve Cuma ( )

42 28 günlerinin ağ verileri kullanılmıştır. 3 gün kullanılmasının nedeni 1 haftalık veri sayısı çok fazla olduğu için kullanılan sistemler yetersiz kalmıştır. Dolayısıyla günler parça parça ele alınarak analiz edilmiştir. Tek gün analizlerinde normal masaüstü bilgisayarlarında rahatlıkla sonuç alınmaktadır. Model IBM SPSS Modeler 14.2 veri madenciliği uygulama platformu ile tasarlanmıştır. SPSS Modeler gelişmiş analitik uygulamalar ile desteklenen görsel arabirim kullanarak yapısal olan veya olmayan verilerdeki kalıpları ve eğilimleri keşfederek, sonuçların modellerini oluşturan bir yazılımdır [35]. Çarşamba günü için Modeler yazılımında uygulanan model tasarımı Şekil 3.4 de gösterilmektedir. Pazartesi ve Cuma günleri için hatta bütün günler için model tasarımı uygulanabilir. Şekil 3.4. Çarşamba gününün Apriori modeli Bu çalışmada algoritmanın uygulandığı işlem aşamasında ki en son modül ethsource&dst modülüdür. Ana işlem akışında sırasıyla Şekil 3.2 deki işlenmiş veri, excel olarak yüklenip giriş değerleri (nominal, integer..) tanımlanarak başlatılır. Sonraki süreçte filtreleme, zaman tanımları (gün, ay), saat dilimleri (sabah, öğle, akşam), ethsource göre sıralama, tip belirleme aşamaları ve son aşama olarak ilişkilendirme kurallarının uygulandığı Apriori algoritması modülü yer almaktadır.

43 yılında yazılan bir makalede [13], Apriori algoritmasının firmanın veri seti üzerinde uygulandığında farklı zaman farklı zaman dilimi, farklı satış şubelerine göre ürünler arasında birlikte satın alınma bağıntılarını ortaya koyduğu ve genelde aynı ürün grubu içinde yer alan ürünlerin birlikte satın alınma davranışlarına sahip olduğundan bahsedilmektedir. Bir çalışmada örnek bir firmanın pastane satış verileri üzerinde uygulanması için web tabanlı bir uygulama yazılımı geliştirildiği ve geliştirilen uygulama yazılımı ile örnek firmanın yıl içinde farklı dönemlerde ve farklı satış noktalarında gerçekleşen satış verileri üzerinde, birlikte satın alınma tercihi yapılan ürünler tespit edildiği ifade edilmektedir. [14]. Algoritma modülü ilişkilendirmeyi yaparken ID ethsource, Content dst olarak değerlendirmektedir. Kurallarda Confidence ihtimal (olasılık) yüzdesini, Rule Support sıklık yüzdesini göstermektedir. Rule Support un yüksek olması çıkan kuralların olasılığını güçlendirmektedir. Antecedent ilk girilen web adreslerini, Consequent ise son girilen web adreslerini göstermektedir. Min support yüzdesini %20 olarak belirlenmiştir. Değeri arttırıldığında doğal olarak çıkan kural sayısı da azalacaktır. Şekil 3.5 de Apriori algoritması sonucunda çıkan kurallar gösterilmektedir.

44 30 Şekil 3.5. Çarşamba günü Apriori algoritmasının sonucunda çıkan kurallar Çarşamba ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce yahoomynet ve arama motoruna (yandex, google vs.) giren bir kişi sonrasında %97, 297 olasılıkla TÜBİTAK sitesine girmektedir. Sıklık dereceside (Rule Support) %24,324 değerini göstermektedir. 7. Sırada ise önce herhangi bir banka sitesine giren bir kişi sonrasında %96,667 olasılıkla sosyal ağ sitelerine (facebook, linkedin, twitter) girmektedir. Sıklık derecesi de %19,595 değerini göstermektedir. Diğer olasılıklar Şekil 3.5 de gösterilmektedir. Şekil 3.6 da Cuma ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce dropbox, aramamotoru ve sosyal ağ (facebook, twitter, linkedin ) sitelerine giren bir kişi sonrasında %96,774 olasılıkla TÜBİTAK a girmektedir. Sıklık dereceside (Rule Support) %21,127 değerini göstermektedir. 2. sırada ise önce bulut mimari ve TÜBİTAK sitelerine giren bir kişi sonrasında %96,667 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık derecesi de %24,423 değerini göstermektedir. Diğer olasılıklar şekilde gösterilmektedir.

45 31 Şekil 3.6. Cuma günü Apriori algoritmasının sonucunda çıkan kurallar Şekil 3.7 de Pazartesi ( ) günü algoritması sonucunda çıkan kurallar incelendiğinde önce gazete ve TÜBİTAK (webmail, anasayfa) sitelerine giren kişi sonrasında %97,561 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık dereceside (Rule Support) %27,778) değerini göstermektedir. 2. sırada ise önce dropbox ve TÜBİTAK (webmail, anasayfa) sitelerine giren bir kişi sonrasında %97,222 olasılıkla sosyal ağ (facebook, twitter, linkedin ) sitelerine girmektedir. Sıklık derecesi de %24,306 değerini göstermektedir. Diğer olasılıklar şekilde gösterilmektedir.

46 32 Şekil 3.7. Pazartesi günü Apriori algoritmasının sonucunda çıkan kurallar Diğer modül analizlerine bakıldığında Çarşamba günü için Şekil 3.8 deki tablo akış modülü sonucunda çıkan web adreslerinin sıklığını, Şekil 3.9 da gösterilmektedir. Şekil 3.8. Çarşamba günü table akış modülü

47 33 Şekil 3.9. Çarşamba günü web adreslerinin sıklıkları Şekil 3.9 a bakıldığında en çok girilen web adresinin Çarşamba ( ) gününde 3066 kez girilen sosyal ağlar (facebook, twitter, linkledin ) olduğu anlaşılmaktadır. 2. sırada 1549 kez girilen TÜBİTAK, 3. sırada ise 1164 kez girilen arama motoru diye devam etmektedir. Şekil 3.10 da ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir.

48 34 Şekil Pazartesi ve cuma günlerinin web adresleri sıklıkları Şekil 3.10 da görüldüğü gibi Cuma ve Pazartesi günlerinde en sık tıklanan web adresi sosyal ağlar (facebook, twitter, linkledin ), ikinci sırada ise iki gün için içinde TÜBİTAK olduğu anlaşılmaktadır. 4. Sırada Pazartesi günü gazete siteleri olmasına rağmen Cuma günü Microsoft sitesi yer almaktadır. Diğer modül analizlerinden Çarşamba günü için zaman dilimleri modülü olan Şekil 3.11 deki akışın sonucunda Şekil 3.12 deki gün içindeki ağ trafiği gösterilmektedir. Şekil Çarşamba günü zaman dilimleri akış modülü

49 35 Zaman dilimleri sabah; saat_real<8, öğleden önce; saat_real<12 and saat_real>=8, öğleden sonra; saat_real<18 and saat_real>=12 ve akşam zaman dilimleri; saat_real>=18 and saat_real<=24 olarak belirlenmiştir. Şekil Çarşamba günü saat dilimlerinin yoğunluğu Şekil 3.12 ye bakıldığında Çarşamba ( ) günü öğleden öncesinde ve sonrasında internet trafik yoğunluk yüzdeleri oldukça fazla olduğu görülüyor. En fazla öğleden sonra (%56,17), en az ise akşam zaman dilimleri (%8,97) olduğu gözüküyor. Öğleden sonra internete girme sıklığı max., akşam ise min. denilebilir. Şekil 3.13 de ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir.

50 36 Şekil Pazartesi ve cuma günleri saat dilimlerinin yoğunlukları Görüldüğü gibi Cuma günü ve Pazartesi günleri yoğunlukları benzer fakat Pazartesi günü için öğleden öncesi ve sonrası zaman dilimleri arasındaki fark oldukça fazladır. Öğleden sonra internet kullanımının max. olduğu söylenebilir. Diğer modül analizlerinden Çarşamba günü için dst modülü olan Şekil 3.14 deki akışın sonucunda Şekil 3.15 deki gün içindeki web adreslerinin zaman dilimlerine bağlı olarak internet trafik yoğunlukları görülmektedir.

51 37 Şekil Çarşamba günü dst akış modülü Şekil 3.15 e bakıldığında Çarşamba günü için bütün girilen web adresleri arasında en çok tıklanan sosyal ağlar(%41) (facebook, twitter, linkledin ) olduğu anlaşılmaktadır. Sosyal ağların gün içindeki oranları ise en fazla öğleden önce ve öğleden sonra olduğu görülmektedir. Sonrasında TÜBİTAK (%31), arama motoru (%15) diye devam etmektedir. Şekil Çarşamba günü zamana bağlı web adreslerinin yoğunlukları

52 38 Şekil 3.16 da ise Pazartesi ( ) ve Cuma ( ) günlerinin karşılaştırılmış tabloları gözükmektedir. Şekil Pazartesi ve cuma günleri zamana bağlı web adreslerinin yoğunlukları Şekil 3.16 ya bakıldığında her iki gün içinde en fazla tıklanan sitelerin sosyal ağlar (facebook, twitter, linkledin ) olduğu görülmektedir. Sadece girilme yüzdeleri farklıdır (Pazartesi %41, Cuma %35). Şekil 3.17 de sadece yahoomynet sitelerine bakıldığında Pazartesi günü öğleden sonra tıklanma sıklığı yoğunken Cuma günü için zaman dilimleri

53 39 orantılı olarak dağıldığı gözükmektedir. Yine Pazartesi sabah saatlerinde yahoomynet sitelerine tıklanma sıklığı çok az iken Cuma günü oldukça fazla olduğu gözüküyor. Şekil Pazartesi ve cuma günleri zamana bağlı microsoft sitesinin yoğunlukları Diğer modül analizlerinden Çarşamba günü için ethsource modülü olan Şekil 3.18 deki akışın sonucunda Şekil 19 daki gün içindeki kullanıcıların web adreslerini tıklama sıklığı görülmektedir. Şekil Çarşamba günü kullanıcılarının web adreslerini tıklama sıklığı Şekil 3.19 a bakıldığında Çarşamba günü için yaklaşık 160 kullanıcı arasında %38 lik dilimle en fazla webde sayfa tıklayan kişi 52 ID nolu kullanıcı olduğu gözükmektedir.

54 40 Şekil Çarşamba günü kullanıcılarının web trafiği 52 ID nolu kullanıcının ve diğer kullanıcıların gün içindeki zaman dilimlerine bağlı web sayfası tıklama sıklığı da Şekil 3.20 de görülmektedir. Şekil Çarşamba günün içerisindeki kullanıcıların zaman dilimine göre web sayfası tıklama yoğunluğu

55 41 Şekil 3.20 den anlaşılacağı gibi ID 52 kullanıcısı öğleden önce ve öğleden sonra interneti yoğun olarak kullandığı söylenebilir Karar Ağacı Algoritması İle Ağ Verilerinin Modellenmesi Bu çalışmada, örnek kurumun ağ verileri üzerinde karar ağaçlarından gini algoritması uygulanmıştır. Çalışmada Cuma günkü verilere ilave olarak kullanıcıların medeni durum bilgileri ve yaş bilgileri de eklenmiştir. Öncelikle veriler eğitim seti ve test seti olarak yeniden düzenlenmiştir. Düzenlenmiş veri seti Şekil 3.22 ve Şekil 3.27 deki tablolarda görülmektedir Eğitim seti (Karar Ağacı) 475 satıra sahip eğitim verilerinin kategorik/niteliksel açıklamaları Şekil 3.21 de, Şekil 3.22 de ise eğitim seti gösterilmektedir. Kategori/Nitelikler ethsource ID DST Web Yaş Medeni durum Cinsiyet Açıklama 132 farklı kullanıcı 14 farklı sınıflandırılmış site grubu arası değişen yaş grubu Evli-Bekar Erkek-Kız Şekil Eğitim verilerinin kategorik/niteliksel açıklamaları

56 42 Şekil Eğitim seti verisi Eğitim seti üzerinde RapidMiner Studio 6.0 ve SPSS Statistics 21.0 veri madenciliği uygulama platformu uygulanmıştır. RapidMiner aracının eğitim setine uygulanması (Karar Ağacı) Şekil RapidMiner Karar Ağacı model tasarımı

57 43 Algoritmanın uygulandığı işlem aşamasında eğitim ve test verilerin yüklendiği modül read excel modülleridir. Select Attribute modülü Karar Ağacına sokulacak nitelikleri belirleyen modüldür. Apply modeli ise Karar Ağacındaki öğrenilen modeli veri seti üzerine uygular [36]. Sınıf etiketi cinsiyet olarak belirlendiğinde Şekil 3.23 deki Karar Ağacı modeli sonucunda çıkan Karar Ağacı şekli Şekil 3.24 de gösterilmektedir.

58 Şekil RapidMiner Karar Ağacı modeli sonucu 44

59 45 Algoritma ilk başta ethsource a göre sonrasında yaş, medeni durum ve girilen siteye göre ayırma işlemini gerçekleşmiştir. Son olarak ise önceden belirlenen sınıf etiketi olan cinsiyet durumuna göre sınıflandırma işlemini tamamlamıştır. SPSS aracının eğitim setine uygulanması (Karar Ağacı) Eğitim setine Karar Ağacı algoritması SPSS yazılımında uygulandığında ise 3.25 deki dallanma sonucu bulunmaktadır.

60 Şekil SPSS Karar Ağacı algoritmasının sonucu 46

61 47 Sonuçlara bakıldığında için sınıf etiketi cinsiyet olarak belirlenmiştir. Algoritma ilk başta ethsource a göre yaş, medeni durum ve girilen siteye göre ayırma işlemini gerçekleştirmiştir. Son olarak ise önceden belirlenen sınıf etiketi olan cinsiyet durumuna göre sınıflandırma işlemini tamamlamıştır Test seti (Karar Ağacı) 99 satıra sahip test verilerinin kategorik/niteliksel açıklamaları Şekil 3.26 da, Şekil 3.27 de ise bütün algoritmalarda sınanan test seti gösterilmektedir. Test setinin RapidMiner ve SPSS araçlarında uygulandığında çıkan sonuç bir sonraki başlık altında incelenecektir. Kategori/Nitelikler ethsource ID DST web Yaş Medeni durum Cinsiyet Açıklama 63 farklı kullanıcı 14 farklı sınıflandırılmış site grubu arası değişen yaş grubu Evli-Bekar Erkek-Kız Şekil Test verilerinin kategorik/niteliksel açıklamaları Şekil Test seti verisi

62 48 RapidMinerdaki algoritmaya uygulanan test seti sonuçları (Karar Ağacı) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranın Şekil 3.28 de görüldüğü gibi yaklaşık %28 olduğu, başarı oranının ise yaklaşık %71 olduğu anlaşılmaktadır. Şekil RapidMiner daki test seti hata-başarı oranı(karar Ağacı) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 62 C(erkek kadın) c 18 C(kadın erkek) b 10 C(kadın kadın) d 9 Şekil Karışıklık matrisi-rapidminer

63 49 Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır. Anma değeri= a a+b = = 0,86 Kesinlik değeri= = = 0,77 a a+c 2a F-ölçütü= 2a+b+c = = 0,81 SPSS deki algoritmaya uygulanan test seti sonuçları (Karar Ağacı) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranın Şekil 3.30 da görüldüğü gibi yaklaşık %24 olduğu başarı oranının ise yaklaşık %75 olduğu anlaşılmaktadır

64 50 Şekil SPSS deki test seti hata-başarı oranı (Karar Ağacı) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 71 C(erkek kadın) c 23 C(kadın erkek) b 1 C(kadın kadın) d 4 Şekil Karışıklık matrisi-spss Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır.

65 51 Anma değeri= = = 0,98 a a+b Kesinlik değeri= = = 0,75 a a+c 2a F-ölçütü= 2a+b+c = = 0, Naive Bayes İle Ağ Verilerinin Modellenmesi Önceki bölümde düzenlenmiş olan eğitim setine Naive Bayes algoritması C# yazılım dili ile kodlanarak ve RapidMiner aracı ile modellenerek test setine uygulanmıştır. Düzenlenmiş veri setleri Şekil 3.22 ve Şekil 3.27 deki şekillerde görülmektedir Eğitim seti (Naive Bayes) Düzenlenmiş eğitim veri seti hakkında bilgiler Karar Ağacı algoritması başlığı altında verilmiştir. RapidMiner aracının eğitim setine uygulanması (Naive Bayes)

66 52 Şekil RapidMiner da Naive Bayes model tasarımı Algoritmanın uygulandığı işlem aşamasında eğitim ve test verilerin yüklendiği modül read excel modülleridir. Select Attribute modülü algoritmada kullanılacak nitelikleri belirleyen modüldür. Apply modeli ise algoritmada öğrenilen modeli veri seti üzerine uygular [36]. C# ile kodlanan Naive Bayes algoritması ve eğitim setine uygulanması Ek-1 de kodlar verilmektedir. Microsoft Visual C# 2008 de derlenen kodlardan oluşan arayüz Şekil 3.33 de gösterilmektedir.

67 53 Şekil Naive Bayes uygulaması arayüz görüntüsü Eğitim setine göre düzenlen Naive Bayes algoritmasına şekildeki gibi girilen değerler (eth, dst, yaş, mdh) sonucunda değişkenin hangi sınıf etiketine ait olduğu görülmektedir. Olasılıkları hesaplandığında P(X Ci)*P(Ci) değeri yüksek olan sınıf etiketi değerinin kız (male) olduğu anlaşılmaktadır. Test seti uygulanmış hali bir sonraki bölümde anlatılmıştır. Ortadaki bölüm ise eğitim verilerini göstermektedir Test seti (Naive Bayes) 99 satıra sahip test verileri önceki bölümlerde bahsedilen Şekil 3.27 de gösterilmektedir. Test setinin RapidMiner aracında ve C# ta programlama dili ile sınandığında hata/başarı oranları bir sonraki başlıklar altında incelenecektir. RapidMinerdaki algoritmaya uygulanan test seti sonuçları (Naive Bayes) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata

68 54 oranının Şekil 3.34 de görüldüğü gibi yaklaşık %16 olduğu, başarı oranının ise yaklaşık %83 olduğu anlaşılmaktadır. Şekil RapidMiner daki test seti hata-başarı oranı (Naive Bayes) Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 68 C(erkek kadın) c 12 C(kadın erkek) b 4 C(kadın kadın) d 15 Şekil Karışıklık matrisi-rapidminer Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi

69 55 üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır. Anma değeri= a a+b = = 0,94 Kesinlik değeri= = = 0,85 a a+c 2a F-ölçütü= 2a+b+c = = 0,89 C# program dili ile kodlanan algoritmaya uygulanan test seti sonuçları (Naive Bayes) Eğitim seti üzerinden uygulanan algoritma sonuçlarında test verilerini (99 veri) sınadığımızda model başarımını değerlendirme ölçütlerinden hata oranının Şekil 3.36 da görüldüğü gibi yaklaşık %17 olduğu başarı oranının ise yaklaşık %82 olduğu anlaşılmaktadır.

70 56 Şekil C# program dili ile kodlanan algoritmaya uygulanan test seti hatabaşarı oranı Tahmin edilen sınıf C(i j) Sınıf=erkek(male) Sınıf=kadın(female) Gerçek sınıf Sınıf=erkek(male) Sınıf=kadın(female) C(erkek erkek) a 56 C(erkek kadın) c 1 C(kadın erkek) b 16 C(kadın kadın) d 26 Şekil Karışıklık matrisi-kodlama Test sonucunda ulaşılan sonuçların başarım bilgileri karışıklık matrisi ile ifade edilebilir. Karışıklık matrisinde satırlar test kümesindeki örneklere ait gerçek sayıları, kolonlar ise modelin tahminlemesini ifade eder. Karışıklık matrisi üzerinden anma, kesinlik ve F-ölçütü hesaplandığında aşağıdaki sonuçlar bulunmaktadır.

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

VERI TABANLARıNDA BILGI KEŞFI

VERI TABANLARıNDA BILGI KEŞFI 1 VERİ MADENCİLİĞİ VERI TABANLARıNDA BILGI KEŞFI Veri Tabanlarında Bilgi Keşfi, veriden faydalı bilginin keşfedilmesi sürecinin tamamına atıfta bulunmakta ve veri madenciliği bu sürecin bir adımına karşılık

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİNE BAKIŞ VERİ MADENCİLİĞİNE BAKIŞ İçerik Veri Madenciliği Neden Veri Madenciliği? Veri ve Veri Madenciliğinin Önemi Günümüzde Kullanılan Veri Madenciliğinin Çeşitli İsimleri Veri Madenciliği Nedir? Neden Veri Madenciliği?

Detaylı

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları 1 Veri Tabanı, Veri Ambarı, Veri Madenciliği Bilgi Keşfi Aşamaları Apriori Algoritması Veri Madenciliği Yöntemleri Problemler Veri Madenciliği Uygulama Alanları 2 Bir bilgisayarda sistematik şekilde saklanmış,

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

Veri Madenciliği Süreci

Veri Madenciliği Süreci Veri Madenciliği Eda Coşlu Mehmet Akif Ersoy Üniversitesi, Yönetim Bilişim Sistemleri Bölümü, BURDUR edacoslu@hotmail.com Büyük miktardaki veriler içerisinden önemli olanlarını bulup çıkarmaya Veri Madenciliği

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

VERİ MADENCİLİĞİ F A T M A İ L H A N

VERİ MADENCİLİĞİ F A T M A İ L H A N VERİ MADENCİLİĞİ F A T M A İ L H A N Veri Madenciliği Nedir? Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programı kullanılarak

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Birliktelik Kurallarının Tanımı Destek ve Güven Ölçütleri Apriori Algoritması Birliktelik Kuralları (Association

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

Mesleki Terminoloji II Veri Madenciliği

Mesleki Terminoloji II Veri Madenciliği Mesleki Terminoloji II Veri Madenciliği Burak Düşün - 14011055 Akif Berkay Gürcan - 14011023 Veri Madenciliği Nedir? Veri madenciliği, büyük miktarda verinin anlamlı örüntüler bulmak amacıyla otomatik

Detaylı

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR VERİ MADENCİLİĞİ İSİMLER BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR MOLEKÜLER BİYOLOJİ ve GENETİK GEBZE TEKNİK ÜNİVERSİTESİ ARALIK 2015 İçindekiler ÖZET... iii 1.GİRİŞ... 1 1.1 Veri Ambarı, Veri

Detaylı

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT İş Zekası Çözümleri için i Çok Boyutlu Birliktelik Kuralları Analizi Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT İçerik 1 Veri Madenciliği 2 Birliktelik Kuralları Analizi 3 Uygulama 4 Algoritma 5 Sonuçlar

Detaylı

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan.   blog.mustafabaydogan. Veri Madenciliği Yrd. Doç. Dr. Mustafa Gökçe Baydoğan mustafa.baydogan@boun.edu.tr www.mustafabaydogan.com blog.mustafabaydogan.com İçerik p Veri Madenciliği nedir? n Bir örnek p Boğaziçi Üniversitesi

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri VERİ KAYNAKLARI YÖNETİMİ İ İ 5. ÜNİTE GİRİŞ Bilgi sisteminin öğelerinden biride veri yönetimidir. Geleneksel yada çağdaş, birinci yada ikinci elden derlenen veriler amaca uygun veri formlarında tutulur.

Detaylı

Veri madenciliği yöntemleri

Veri madenciliği yöntemleri Sınıflandırma ve Kümeleme Kavramları Giriş Verinin içerdiği ortak özelliklere göre ayrıştırılması işlemi sınıflandırma olarak adlandırılır, veri madenciliği tekniklerinden en çok bilinenidir; veri tabanlarındaki

Detaylı

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir. ÇELĐK YÜZEYLERĐN SINIFLANDIRILMASI * Cem ÜNSALAN ** Aytül ERÇĐL * Ayşın ERTÜZÜN *Boğaziçi Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü unsalan@boun.edu.tr **Boğaziçi Üniversitesi, Endüstri Mühendisliği

Detaylı

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ Murat KARABATAK 1, Melih Cevdet İNCE 2 1 Fırat Üniversitesi Teknik Eğitim Fakültesi Elektronik Bilgisayar Eğitimi Bölümü 2 Fırat Üniversitesi Mühendislik

Detaylı

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

VERİ MADENCİLİĞİ Kavram ve Algoritmaları VERİ MADENCİLİĞİ Kavram ve Algoritmaları Doç. Dr. Gökhan SİLAHTAROĞLU PAPATYA YAYINCILIK EĞİTİM İstanbul, Ankara, İzmir, Adana PAPATYA YAYINCILIK EĞİTİM BİLGİSAYAR SİS. SAN. VE TİC. A.Ş. İnönü Cad. Hacıhanım

Detaylı

UZAKTAN EĞİTİM MERKEZİ

UZAKTAN EĞİTİM MERKEZİ ÜNİTE 2 VERİ TABANI İÇİNDEKİLER Veri Tabanı Veri Tabanı İle İlgili Temel Kavramlar Tablo Alan Sorgu Veri Tabanı Yapısı BAYBURT ÜNİVERSİTESİ UZAKTAN EĞİTİM MERKEZİ BİLGİSAYAR II HEDEFLER Veri tabanı kavramını

Detaylı

BİRLİKTELİK KURALI YÖNTEMİ İÇİN BİR VERİ MADENCİLİĞİ YAZILIMI TASARIMI VE UYGULAMASI

BİRLİKTELİK KURALI YÖNTEMİ İÇİN BİR VERİ MADENCİLİĞİ YAZILIMI TASARIMI VE UYGULAMASI İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Yıl: 6 Sayı:12 Güz 2007/2 s. 21-37 BİRLİKTELİK KURALI YÖNTEMİ İÇİN BİR VERİ MADENCİLİĞİ YAZILIMI TASARIMI VE UYGULAMASI Feridun Cemal ÖZÇAKIR, A. Yılmaz

Detaylı

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi VERİ MADENCİLİĞİ Giriş Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Problem Tanımı Veri Madenciliği: Tarihçe teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının da artması

Detaylı

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça. Apriori Algoritması Konu İçeriği Giriş Tarihçesi Apriori Nedir? Örnekler Algoritma Açıklama Weka İle Kullanımı Kaynakça Giriş Veri madenciliğinde kullanılan ve veri kümeleri veya veriler arasındaki ilişkiyi

Detaylı

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME YZM 317 YAPAY ZEKA DERS#10: KÜMELEME Sınıflandırma (Classification) Eğiticili (supervised) sınıflandırma: Sınıflandırma: Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğunu bilinir Eğiticisiz (unsupervised)

Detaylı

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi İçindekiler 1 Özet... 2 2 Giriş... 3 3 Uygulama... 4 4 Sonuçlar... 6 1 1 Özet Web sunucu logları üzerinde veri madenciliği yapmanın temel

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI 10 Aralık 2011, Cumartesi Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler İçerik

Detaylı

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU Bilişim Sistemleri Modelleme, Analiz ve Tasarım Yrd. Doç. Dr. Alper GÖKSU Ders Akışı Hafta 5. İhtiyaç Analizi ve Modelleme II Haftanın Amacı Bilişim sistemleri ihtiyaç analizinin modeli oluşturulmasında,

Detaylı

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi Hedefler Veritabanı Yönetimi Bilgisayarların Discovering Keşfi 2010 Computers 2010 Living in a Digital World Dijital Dünyada Yaşamak Veritabanı terimini tanımlamak ve bir veritabanının veri ve bilgi ile

Detaylı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kümeleme Algoritmaları. Tahir Emre KALAYCI Tahir Emre KALAYCI 2010 Gündem En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla

Detaylı

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ 1 BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ Veri seti; satırlarında gözlem birimleri, sütunlarında ise değişkenler bulunan iki boyutlu bir matristir. Satır ve sütunların kesişim bölgelerine 'hücre

Detaylı

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER Yazılımı ve Genel Özellikleri Doç.Dr. Cüneyt BAYILMIŞ Kablosuz Ağların Modellemesi ve Analizi 1 OPNET OPNET Modeler, iletişim sistemleri ve

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Birliktelik Kuralları Birliktelik Kurallarının Temelleri Support ve Confidence Apriori Algoritması

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ Metin Madenciliği VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall

Detaylı

Makine Öğrenmesi 3. hafta

Makine Öğrenmesi 3. hafta Makine Öğrenmesi 3. hafta Entropi Karar Ağaçları (Desicion Trees) ID3 C4.5 Sınıflandırma ve Regresyon Ağaçları (CART) Karar Ağacı Nedir? Temel fikir, giriş verisinin bir kümeleme algoritması yardımıyla

Detaylı

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. Veri Madenciliği Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. istatistik + makine öğrenmesi + yapay zeka = veri madenciliği Veri madenciliği süreçleri CRISP-DM

Detaylı

Power BI. Neler Öğreneceksiniz?

Power BI. Neler Öğreneceksiniz? Power BI Kendi kendinize iş zekasını keşfedin. Verilerinizi analiz edin, etkileşimli raporlar oluşturun ve bulgularınızı firmanız genelinde paylaşın. Neler Öğreneceksiniz? Bu iki günlük eğitim, güçlü görseller

Detaylı

VERİ MADENCİLİĞİNİN GÖREVLERİ

VERİ MADENCİLİĞİNİN GÖREVLERİ VERİ MADENCİLİĞİNİN GÖREVLERİ VERİ MADENCİLİĞİNİN GÖREVLERİ Classification (Sınıflandırma) Karakterizasyon (Betimleme) Regression (İlişki Çıkarımı) Clustering (Kümeleme) Association (İlişki Analizi) Forecasting

Detaylı

2. Klasik Kümeler-Bulanık Kümeler

2. Klasik Kümeler-Bulanık Kümeler 2. Klasik Kümeler-Bulanık Kümeler Klasik Küme Teorisi Klasik kümelerde bir nesnenin bir kümeye üye olması ve üye olmaması söz konusudur. Bu yaklaşıma göre istediğimiz özelliğe sahip olan bir birey, eleman

Detaylı

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

Yazılım Mühendisliği 1

Yazılım Mühendisliği 1 Yazılım Mühendisliği 1 HEDEFLER Yazılım, program ve algoritma kavramları anlar. Yazılım ve donanım maliyetlerinin zamansal değişimlerini ve nedenleri hakkında yorum yapar. Yazılım mühendisliği ile Bilgisayar

Detaylı

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI Dersin Hedefleri Veri Tabanı Kullanıcıları Veri Modelleri Veri Tabanı Tasarımı İlişkisel VT Kavramsal Tasarımı (Entity- Relationship, ER) Modeli VT KULLANICILARI

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI ... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE 2018 2019 ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI Hazırlayan : Özel Öğretim Kurumları Birliği (ÖZKURBİR) Dersin Adı : Bilişim

Detaylı

FORMÜLLER VE FONKSİYONLAR

FORMÜLLER VE FONKSİYONLAR C FORMÜLLER VE FONKSİYONLAR Konuya Hazırlık 1. Excel de formül kullanmanın faydalarını açıklayınız. Formüller, bir sayfadaki verileri kullanarak işlem yapan denklemlerdir. Bir formülde, aynı sayfadaki

Detaylı

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir Bilimsel Araştırma Yöntemleri Prof. Dr. Şener Büyüköztürk Doç. Dr. Ebru Kılıç Çakmak Yrd. Doç. Dr. Özcan Erkan Akgün Doç. Dr. Şirin Karadeniz Dr. Funda Demirel Örnekleme Yöntemleri Evren Evren, araştırma

Detaylı

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz? KÜMELEME Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları Neleri göreceğiz? Tanımı Veriyi birbirlerine benzeyen elemanlardan oluşan kümelere ayırarak, heterojen bir

Detaylı

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

Nesnelerin İnternetinde Veri Analizi

Nesnelerin İnternetinde Veri Analizi Nesnelerin İnternetinde Veri Analizi Bölüm 2. Veri madenciliği w3.gazi.edu.tr/~suatozdemir Veritabanı teknolojisinin gelişimi 2 Neden veri madenciliği? Bilgisayarların ucuzlayıp aynı zamanda çok güçlü

Detaylı

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu Sunan : Esra Nergis Güven İçerik Giriş Amaç ve Kapsam Sınıflandırma Geliştirilen Sistem

Detaylı

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 İstatistik İstatistik, belirsizliğin veya eksik bilginin söz konusu olduğu durumlarda çıkarımlar yapmak ve karar vermek için sayısal verilerin

Detaylı

Uzaktan Algılama Uygulamaları

Uzaktan Algılama Uygulamaları Aksaray Üniversitesi Uzaktan Algılama Uygulamaları Doç.Dr. Semih EKERCİN Harita Mühendisliği Bölümü sekercin@aksaray.edu.tr 2010-2011 Bahar Yarıyılı Uzaktan Algılama Uygulamaları GÖRÜNTÜ İŞLEME TEKNİKLERİ

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA i GENETİK ALGORİTMA YAKLAŞIMIYLA ATÖLYE ÇİZELGELEME Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2005 ANKARA ii Serdar BİROĞUL tarafından hazırlanan

Detaylı

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ YAPAY SİNİR AĞLARI Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ İÇERİK Sinir Hücreleri Yapay Sinir Ağları Yapısı Elemanları Çalışması Modelleri Yapılarına Göre Öğrenme Algoritmalarına Göre Avantaj ve

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği Veri ve Metin Madenciliği Zehra Taşkın Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Fikirler? Veri Madenciliği Data Information Knowledge Veri madenciliği; Büyük yoğunluklu

Detaylı

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği. Zehra Veri ve Metin Madenciliği Zehra Taşkın @zehrataskin Büyük Veri https://www.youtube.com/watch?v=tzxmjbl-i4y Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Veri Madenciliği

Detaylı

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT Ünite 10: Regresyon Analizi Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT 10.Ünite Regresyon Analizi 2 Ünitede Ele Alınan Konular 10. Regresyon Analizi 10.1. Basit Doğrusal regresyon 10.2. Regresyon denklemi

Detaylı

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21 İçindekiler Önsöz İkinci Basım için Önsöz Türkçe Çeviri için Önsöz Gösterim xiii xv xvii xix 1 Giriş 1 1.1 Yapay Öğrenme Nedir?......................... 1 1.2 Yapay Öğrenme Uygulamalarına Örnekler...............

Detaylı

BİLİMSEL ARAŞTIRMA YÖNTEMLERİ

BİLİMSEL ARAŞTIRMA YÖNTEMLERİ BİLİMSEL ARAŞTIRMA YÖNTEMLERİ Temel Kavramlar Dr. Seher Yalçın 3.2.2017 Dr. Seher Yalçın 1 Problem Problemler, üç aşamalı bir yaklaşımla tanımlanabilir. Bunlar: 1- Bütünleştirme, 2- Sınırlandırma ve 3-

Detaylı

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi YRD. DOÇ. DR. HÜSEYİN GÜRÜLER MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ, TEKNOLOJİ FAKÜLTESİ, BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ Meslek Seçimi Meslek Seçimi

Detaylı

VERİ MADENCİLİĞİ (Web Madenciliği)

VERİ MADENCİLİĞİ (Web Madenciliği) VERİ MADENCİLİĞİ (Web Madenciliği) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Kaynak: M. Ali Akcayol, Gazi Üniversitesi, Bilgisayar Mühendisliği Bölümü Ders Notları İçerik İnternet World Wide Web

Detaylı

Bölüm 2 Varlık-İlişki Veri Modeli: Araçlar ve Teknikler. Fundamentals, Design, and Implementation, 9/e

Bölüm 2 Varlık-İlişki Veri Modeli: Araçlar ve Teknikler. Fundamentals, Design, and Implementation, 9/e Bölüm 2 Varlık-İlişki Veri Modeli: Araçlar ve Teknikler Fundamentals, Design, and Implementation, 9/e Üç Şema Modeli Üç şema modeli 1975 de ANSI/SPARC tarafından geliştirildi Veri modellemeninç ve rolünü

Detaylı

Bölüm 4: DDL Veri Tanımlama Dili

Bölüm 4: DDL Veri Tanımlama Dili Bölüm 4: DDL Veri Tanımlama Dili -43- Dr. Serkan DİŞLİTAŞ DDL (Data Definition Language Veri Tanımlama Dili : Bu kategorideki SQL komutları ile veritabanları, tablo, görünüm ve indekslerin yaratılması,

Detaylı

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI YÖNETİM SİSTEMLERİ VERİ TABANI YÖNETİM SİSTEMLERİ Veri Tabanı Nedir? Sistematik erişim imkânı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Bir kuruluşa

Detaylı

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ 04.03.2013 Ajanda 1.Hafta 1.1. Veri Madenciliği Nedir? 1.1.1. Temel Kavramlar 1.2. Veri Madenciliğine Giriş 1.2.1. Veri Madenciliğindeki Gelişim Süreci

Detaylı

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta: Genetik Algoritmalar Bölüm 1 Optimizasyon Yrd. Doç. Dr. Adem Tuncer E-posta: adem.tuncer@yalova.edu.tr Optimizasyon? Optimizasyon Nedir? Eldeki kısıtlı kaynakları en iyi biçimde kullanmak olarak tanımlanabilir.

Detaylı

1. GİRİŞ Kılavuzun amacı. Bu bölümde;

1. GİRİŞ Kılavuzun amacı. Bu bölümde; 1. GİRİŞ Bu bölümde; Kılavuzun amacı EViews Yardım EViews Temelleri ve Nesneleri EViews ta Matematiksel İfadeler EViews Ana Ekranındaki Alanlar 1.1. Kılavuzun amacı Ekonometri A. H. Studenmund tarafından

Detaylı

MARMARA ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ MEKATRONİK MÜHENDİSLİĞİ BÖLÜMÜ ESNEK İMALAT SİSTEMLERİ DERS NOTLARI 2 Arş. Gör.

MARMARA ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ MEKATRONİK MÜHENDİSLİĞİ BÖLÜMÜ ESNEK İMALAT SİSTEMLERİ DERS NOTLARI 2 Arş. Gör. Bir üretim hattında genel anlamda şu görevler (task) yürütülür: İş parçaları depo alanlarından alınarak işleme makine araçlarına gönderilir. Robotlar konveyör hattından iş parçalarını alarak istasyonda

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi Veri Yapıları Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi Hash Tabloları ve Fonksiyonları Giriş Hash Tabloları Hash Fonksiyonu Çakışma (Collision) Ayrık Zincirleme Çözümü Linear Probing

Detaylı

CBS ve Coğrafi Hesaplama

CBS ve Coğrafi Hesaplama Yıldız Teknik Üniversitesi CBS ve Coğrafi Hesaplama 2. Bölüm Yrd. Doç. Dr. Alper ŞEN Harita Mühendisliği Bölümü Kartografya Anabilim Dalı web: http://www.yarbis.yildiz.edu.tr/alpersen/ E mail: alpersen@yildiz.edu.tr

Detaylı

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir. ÇIKARSAMALI İSTATİSTİKLER Çıkarsamalı istatistikler, örneklemden elde edilen değerler üzerinde kitleyi tanımlamak için uygulanan istatistiksel yöntemlerdir. Çıkarsamalı istatistikler; Tahmin Hipotez Testleri

Detaylı

Veri Madenciliği Karar Ağacı Oluşturma

Veri Madenciliği Karar Ağacı Oluşturma C4.5 Algoritması Veri Madenciliği Karar Ağacı Oluşturma Murat TEZGİDER 1 C4.5 Algoritması ID3 algoritmasını geliştiren Quinlan ın geliştirdiği C4.5 karar ağacı oluşturma algoritmasıdır. ID3 algoritmasında

Detaylı

Yazılım Mühendisliği Bölüm - 3 Planlama

Yazılım Mühendisliği Bölüm - 3 Planlama 1 Yazılım Mühendisliği Bölüm - 3 Planlama 2 3 4 Planlama 5 Yazılım geliştirme sürecinin ilk aşaması Başarılı bir proje geliştirebilmek için projenin tüm resminin çıkarılması işlemi Proje planlama aşamasında

Detaylı

Merkezi Eğilim ve Dağılım Ölçüleri

Merkezi Eğilim ve Dağılım Ölçüleri Merkezi Eğilim ve Dağılım Ölçüleri Soru Öğrencilerin derse katılım düzeylerini ölçmek amacıyla geliştirilen 16 soruluk bir test için öğrencilerin ilk 8 ve son 8 soruluk yarılardan aldıkları puanlar arasındaki

Detaylı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız. .4. Merkezi Eğilim ve Dağılım Ölçüleri Merkezi eğilim ölçüleri kitleye ilişkin bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi bir değeri gösterirler. Dağılım ölçüleri ise değişkenin

Detaylı

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL VERİ MADENCİLİĞİ Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL SPRINT Algoritması ID3,CART, ve C4.5 gibi algoritmalar önce derinlik ilkesine göre çalışırlar ve en iyi dallara ayırma kriterine

Detaylı

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER VERİTABANI SORGULARI İÇİNDEKİLER Select İfadesi Insert İfadesi Update İfadesi Delete İfadesi Verileri Sıralamak Verileri Gruplandırmak Veriler Üzerinde Arama Yapmak NESNE TABANLI PROGRAMLAMA I Uzm. Orhan

Detaylı

inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining

inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining Veri Madenciliğ inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining Mehmet Aydın Ula ş, Ethem Alpaydın (Boğaziçi Üniversitesi Bilgisayar Mühendisliği) Nasuhi Sönmez, Ataman Kalkan (GİMA

Detaylı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ - 150110046 İÇERİK Uygulama ve uygulamaya ilişkin temel kavramların tanıtımı Uygulamanın yapısı Ön yüz Veritabanı Web Servisler K-Means Algoritması ile kategori

Detaylı

Büyük Veri ve Endüstri Mühendisliği

Büyük Veri ve Endüstri Mühendisliği Büyük Veri ve Endüstri Mühendisliği Mustafa Gökçe Baydoğan Endüstri Mühendisliği Bölümü Boğaziçi Üniversitesi İstanbul Yöneylem Araştırması/Endüstri Mühendisliği Doktora Öğrencileri Kolokyumu 21-22 Nisan

Detaylı

Kredi Limit Optimizasyonu:

Kredi Limit Optimizasyonu: Kredi Limit Optimizasyonu: «Teorik Değil Pratik" Simge Danışman Analitik Direktörü, Experian EMEA Kar Gelişimi Kredi Limit Optimizasyonu Optimizasyona Genel Bakış Profilleme Modelleme Karar Matrisleri

Detaylı

Başlıca Ürün-Bilgi Sistemleri

Başlıca Ürün-Bilgi Sistemleri BİLGİ SİSTEMLERİ Başlıca Ürün-Bilgi Sistemleri Süreç İşleme Sistemleri, Ofis Otomasyon Sistemleri ve Bilgi İşleme Sistemleri, Yönetim Bilişim Sistemleri, Karar Destek Sistemleri, Uzman Sistemler ve Yapay

Detaylı

KALİTE SİSTEM YÖNETİCİSİ EĞİTİMİ

KALİTE SİSTEM YÖNETİCİSİ EĞİTİMİ FMEA-HATA TÜRLERİ VE ETKİ ANALİZİ Tanımlama Mevcut veya olası hataları ortaya koyan, bu hataların yaratabileceği etkileri göz önünde bulunduran ve etkilerine göre hataları önceliklendirerek oluşmalarının

Detaylı

SİSTEM VE YAZILIM. o Bilgisayar sistemleri donanım, yazılım ve bunları işletmek üzere gerekli işlemlerden oluşur.

SİSTEM VE YAZILIM. o Bilgisayar sistemleri donanım, yazılım ve bunları işletmek üzere gerekli işlemlerden oluşur. SİSTEM VE YAZILIM o Bilgisayar sistemleri donanım, yazılım ve bunları işletmek üzere gerekli işlemlerden oluşur. o Yazılım, bilgisayar sistemlerinin bir bileşeni olarak ele alınmalıdır. o Yazılım yalnızca

Detaylı

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma TEMEL BİLGİSAYAR BİLİMLERİ Programcılık, problem çözme ve algoritma oluşturma Programcılık, program çözme ve algoritma Program: Bilgisayara bir işlemi yaptırmak için yazılan komutlar dizisinin bütünü veya

Detaylı

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Büyük miktardaki veriler içerisinden önemli olanlarını bulup çıkarmaya veri Madenciliği denir. Veri madenciliği bir sorgulama işlemi

Detaylı