Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Benzer belgeler
Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Nesnelerin İnternetinde Veri Analizi

Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: Websayfası:

VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİ. İlişkilendirme Kuralları Bulma. İlişkilendirme Kuralları. Yaygın Öğeler. İlişkilendirme Kuralları Madenciliği

Mesleki Terminoloji II Veri Madenciliği

İlişkilendirme kurallarının kullanım alanları

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining

VERİ MADENCİLİĞİ. İlişkilendirme Kuralları Bulma. Yaygın Nitelikler. İlişkilendirme Kuralları. nitelikler kümesi (Itemset) Destek s (Support)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Veri Madenciliği - Giriş. Erdem Alparslan

Web Madenciliği (Web Mining)

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Gözetimli & Gözetimsiz Öğrenme

VERİ MADENCİLİĞİNİN GÖREVLERİ

Web Madenciliği (Web Mining)

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği Teknikleri

VERİ MADENCİLİĞİ Metin Madenciliği

SOCIAL MENTALITY AND RESEARCHER THINKERS JOURNAL

BiL416 Hafta-1 Veri Madenciliği:Giriş

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Veri madenciliği yöntemleri

İş Analitiği'ne Netezza ile Yüksek Performans Katın

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Pazar Sepeti Analizi için Örneklem Oluşturulması ve Birliktelik Kurallarının

VERİ MADENCİLİĞİ F A T M A İ L H A N

VERİ MADENCİLİĞİ (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Başlıca Ürün-Bilgi Sistemleri

Apriori Algoritması ve Türkiye'deki Örnek Uygulamaları

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Web Madenciliği (Web Mining)

YAPAY ZEKA (Artificial Intelligence)

Büyük Veri ve Endüstri Mühendisliği

Otomatik Doküman Sınıflandırma

Örüntü Tanıma (EE 448) Ders Detayları

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

İleri Veri Madenciliği (COMPE 506) Ders Detayları

Makine Öğrenmesi 2. hafta

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

VERİ TABANI YÖNETİM SİSTEMLERİ

Veritabanı. Ders 2 VERİTABANI

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

SAP FORUM İSTANBUL Discover Simple Kararlarınızı ileri analitiklerle aydınlatın

bilişim ltd İş Zekâsı Sistemi

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Otomatik Doküman Sınıflandırma

BİLGİYİ YÖNETME. Mustafa Çetinkaya

BİRLİKTELİK KURALI YÖNTEMİ İÇİN BİR VERİ MADENCİLİĞİ YAZILIMI TASARIMI VE UYGULAMASI

Yönetim Bilişim Sistemleri Alanında Metin Madenciliği ile Bilgi Haritalama

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

DBSCAN, OPTICS ve K-Means Kümeleme Algoritmalarının Uygulamalı Karşılaştırılması

VERİ MADENCİLİĞİ UYGULAMA ALANLARI. Application Fields of Data Mining. Abdullah BAYKAL 1. D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi 7, (2006)

Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Programlama Dilleri

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Web Madenciliği (Web Mining)

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Üniversite Öğrencilerinin Đnterneti Eğitimsel Amaçlar Đçin Kullanmalarını

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Büyük Veri Analitiği (Big Data Analytics)

Oracle Database 11g: Introduction to SQL

K-MEANS, K-MEDOIDS VE BULANIK C-MEANS ALGORİTMALARININ UYGULAMALI OLARAK PERFORMANSLARININ TESPİTİ

4.46. VERĠDEN BĠLGĠYE ULAġMADA VERĠ MADENCĠLĠĞĠNĠN ÖNEMĠ

VERİ MADENCİLİĞİ MODELLERİ VE UYGULAMA ALANLARI

BÜYÜK ÖLÇEKLİ VERİ TABANLARINDA BİLGİ KEŞFİ

Web Madenciliği (Web Mining)

K En Yakın Komşu Methodu (KNearest Neighborhood)

Duvar İnşa Edilmesinde Verimliliği Etkileyen Faktörlerin Apriori Veri Madenciliği Yöntemi Kullanılarak Analizi

Yrd. Doç. Dr. Semra Erpolat

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Transkript:

Konular VERİ MADENCİLİĞİ Giriş Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Problem Tanımı Veri Madenciliği: Tarihçe teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının artması (terabyte -> petabyte) verinin kolayca toplanabilmesi bu veriyi nasıl kullanacağımızı bilmiyoruz saklanan veriden bilgi elde etmek için bu veriyi yorumlamamız gerekiyor kullanıcıların beklentilerinin artması basit veritabanı sorgulama yöntemlerinin yeterli olmaması Veri madenciliği yöntemleri fazla miktardaki veri içinden yararlı bilgiyi bulmak için kullanılır. Data Fishing-Data Dredging: 1960- istatistikçiler Data Mining: 1990- veritabanı kullanıcıları, ticari Knowledge Discovery in Databases (KDD): 1989- yapay zeka, makine öğrenmesi toplulukları Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction,... 3 4 Bilgi Keşfi Veri Madenciliği Nedir? Büyük veri kaynaklarından yararlı ve ilginç bilgiyi bulmak Bulunan bilgi gizli önemli önceden bilinmeyen yararlı Teoride veri madenciliği bilgi keşfi işleminin aşamalarından biridir. Pratikte veri madenciliği ve bilgi keşfi eş anlamlı olarak kullanılır. Veri madenciliği teknikleri veriyi belli bir modele uydurur. veri içindeki örüntüleri bulur örüntü: veri içindeki herhangi bir yapı Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. 5 6 1

Bilgi Keşfi Bilgi Keşfinin Aşamaları Veri madenciliği: Bilgi keşfinin temel taşı Veri Ambarı Veri Temizleme Veri Tabanları Veri Birleştirme Veri Madenciliği Kullanım amaçlı Veri Seçme Model Değerlendirme Uygulama alanını inceleme Konuyla ilgili bilgi ve uygulama amaçları Amaca uygun veri kümesi oluşturma Veri ayıklama ve önişleme Veri azaltma ve veri dönüşümü işlemin %70 lik bölümünü oluşturur incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma, Veri madenciliği tekniği seçme Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme Veri madenciliği algoritmasını seçme Model değerlendirme ve bilgi sunumu Bulunan bilginin yorumlanması Veri Dosyaları 7 8 Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi web sitesinin yapısını inceleme verileri seçme: tarih aralığını belirleme veri ayıklama, önişleme: gereksiz kayıtları silme veri azaltma, veri dönüşümü: kullanıcı oturumları belirleme veri madenciliği tekniği seçme: demetleme veri madenciliği algoritması seçme: k-ortalama, EM, DBSCAN... Model değerlendirme/yorumlama: değişik kullanıcı grupları için sıkça izlenen yolu bulma Uygulama alanları: öneri modelleri, kişiselleştirme, ön belleğe alma Makine Öğrenmesi İstatistik Veri Madenciliği ve Bilgi Keşfi Veritabanı Görüntüleme Diğer Araştırma Alanları 9 10 Veri Madenciliğine Farklı Bakış Açıları İstatistik & Makine Öğrenmesi & Veri Madenciliği Veri madenciliği uygulanacak veri veri dosyaları, ilişkisel veritabanları, veri ambarları, nesneye dayalı veritabanları, www, konumsal veriler, zamansal veriler Veri madenciliği işlevleri demetleme, sınıflandırma, ilişkilendirme kuralları, eğri uydurma, kestirim, aykırılıkların belirlenmesi.. veri içindeki örüntülerin bulunması /aykırılıkların bulunması Kullanılan teknikler kullanıcıyla etkileşim seviyesi veri analizi için kullanılan yöntemler (makine öğrenmesi, istatistik, görüntüleme...) Uygulama alanı telekomunikasyon, finans, sahtekarlık belirlenmesi, biyolojik veri madenciliği, web madenciliği İstatistik daha çok teoriye dayalı yaklaşımlar bir varsayımın doğruluğunu araştırır Makine Öğrenmesi daha çok sezgisel yaklaşımlar öğrenme işleminin başarımını artırmaya çalışır Veri madenciliği ve bilgi keşfi teori ve sezgisel yaklaşımları birleştirir bilgi keşfinin tüm aşamalarını gerçekler: veri temizleme, öğrenme, sonucu sunma, yorumlama,... Aradaki ayrım net değil 11 12 2

Veri Madenciliğinin Amacı Yapmak istemediğimiz: Büyük miktardaki veri içinde arama yapmak (Veritabanı yönetim sistemleri bu işi yapıyor) Amaç: Aradığımız veri mevcutsa sonuçlarını anlamak 13 Veritabanı & Veri Madenciliği İşlemleri Sorgulama Tanımlı SQL Veri Canlı veri Çıkış Belirli verinin bir alt kümesi Sorgulama Tam tanımlı değil yaygın sorgulama dili yok Veri Üzerinde işlem yapılmayan veri Çıkış Belirli değil verinin bir alt kümesi değil 14 Sorgulama Örnekleri Veritabanı uygulaması: Soyadı Gündüz olan kredi kartı sahiplerini bul. Bir ayda 2000 YTL den fazla harcama yapan kredi kartı sahiplerini bul. Önce bilgisayar daha sonra yazıcı satın alan tüm müşterileri bul. Veri madenciliği uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (demetleme) DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları) Konular 15 16 Veri Madenciliğinin Uygulama Alanları Veritabanı analizi ve karar verme desteği Pazar araştırması Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi Risk analizi Kalite kontrolu, rekabet analizi, öngörü Sahtekarlıkların saptanması Diğer Uygulamalar Belgeler arası benzerlik (haber kümeleri, e-posta) Sorgulama sonuçları Uygulamalar Hangi promosyonu ne zaman uygulamalıyım? Hangi müşteri aldığı krediyi geri ödemeyebilir? Bir müşteriye ne kadar kredi verilebilir? Sahtekarlık olabilecek davranışlar hangileridir? Hangi müşteriler yakın zamanda kaybedilebilir? Hangi müşterilere promosyon yapmalıyım? Hangi yatırım araçlarına yatırım yapmalıyım? 17 18 3

Pazar Araştırması (1) Veri madenciliği uygulamaları için veri kaynağı Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri Hedef pazarlar bulma Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları Müşterilerin davranışlarında zaman içindeki değişiklik Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik Çapraz pazar incelemesi: Ürün satışları arasındaki ilişkiyi bulma Pazar Araştırması (2) Müşteri profili Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma) Müşterilerin ihtiyaçlarını belirleme Farklı müşterilerin o anki ilgisine yönelik ürünü bulma Yeni müşterileri hangi faktörlerin etkilediğini bulma 19 20 Sahtekarlık İncelemesi Risk Analizi Sigorta, bankacılık, telekomünikasyon alanlarında Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme Örnek: Araba sigortası Sağlık Sigortası Kredi kartı başvurusu Finans planlaması ve bilanço değerlendirmesi nakit para akışı incelemesi ve kestirimi talep incelemesi zaman serileri incelemesi Kaynak planlaması kaynakların incelenmesi ve uygun olarak dağıtılması Rekabet rakipleri ve pazar eğilimlerini takip etme müşterileri sınıflara ayırma ve fiyat politikası belirleme 21 22 Konular Veri Kaynakları Veri dosyaları Veritabanı kaynaklı veri kümeleri ilişkisel veritabanları, veri ambarları Gelişmiş veri kümeleri duraksız veri (data stream), algılayıcı verileri (sensor data) zaman serileri, sıralı diziler (biyolojik veriler) çizgeler, sosyal ağ (social networks) verileri konumsal veriler (spatial data) çoğul ortam veritabanları (multimedia databases) nesneye dayalı veritabanları www 23 24 4

10 10 Konular Veri Madenciliği Algoritmaları amaç: veriyi belli bir modele uydurmak tanımlayıcı En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? kestirime dayalı Kredi başvuralarını risk gruplarına ayırma Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini seçim: veriye uyan en iyi modeli seçmek için kullanılan kriter arama: veri üzerinde arama yapmak için kullanılan teknik 25 26 Veri Madenciliği Modelleri Veri Madenciliği İşlevleri sınıflandırma kestirime dayalı eğri uydurma veri madenciliği zaman serileri demetleme tanımlayıcı özetleme sıralı dizi ilişkilendirme kuralları Sınıflandırma (Classification): Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Gözetimli öğrenme Örüntü tanıma Kestirim Eğri uydurma (Regression): Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme (Time Series Analysis): Zaman içinde değişen verinin değerini öngörür. Aykırılıkları Belirleme (Outlier Analysis): Verinin geneline uymayan nesneleri belirleme 27 28 Veri Madenciliği İşlevleri Örnek: Sınıflandırma Demetleme (Clustering): Benzer verileri aynı grupta toplama Gözetimsiz öğrenme Özetleme (Summarization): Veriyi altgruplara ayırır. Her altgrubu temsil edecek özellikler bulur. Genelleştirme (Generalization) Nitelendirme (Characterization) İlişkilendirme kuralları (Association Rules) Veriler arasındaki ilişkiyi belirler Sıralı dizileri bulma (Sequence Discovery): Veri içinde sıralı örüntüler bulmak için kullanılır. Tid Geri Medeni Ödeme Durum kategorik kategorik sürekli sınıf Gelir 1 Evet Bekar 125K -1 2 Hayır Evli 100K -1 3 Hayır Bekar 70K -1 4 Evet Evli 120K -1 5 Hayır Boşanmış 95K 1 6 Hayır Evli 60K -1 7 Evet Boşanmış 220K -1 8 Hayır Bekar 85K 1 9 Hayır Evli 75K -1 10 Hayır Bekar 90K 1 Dolan dırıcı Geri Medeni Ödeme Durum Gelir Hayır Bekar 75K? Evet Evli 50K? Hayır Evli 150K? Evet Boşanmış 90K? Hayır Bekar 40K? Hayır Evli 80K? Öğrenme Kümesi Dolan dırıcı Sınıflandırıcı Deneme Kümesi Model 29 30 5

Örnek: Demetleme Örnek: İlişkilendirme Kuralları Doküman Demetleme: Amaç: Döküman içinde geçen terimlere göre aynı konudaki dokümanları gruplama Yaklaşım: Her doküman içinde sık geçen terimleri bul. Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü geliştir. Bu ölçüte göre demetleme yap Kullanımı: Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre arama yapıldığında bu terimleri içeren dokümanları bulma Veri kümesindeki nesneler arasındaki ilişkiyi bulma bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin (nesnelerin) de varlığını tahmin edebilecek kurallar TID Nesneler 1 Ekmek, Kola, Süt 2 Bira, Ekmek 3 Bira, Kola, Çocuk bezi, Süt 4 Bira, Ekmek, Çocuk bezi, Süt 5 Kola, Çocuk bezi, Süt Bulunan Kurallar: {Süt} {Süt}--> -->{Kola} {Çocuk bezi, bezi, Süt} Süt} --> -->{Bira} 31 32 Bulunan Örüntüler Önemli mi? Binlerce örüntü: Bir kısmı önemli Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri madenciliği uygulanacak kadar büyük Bulunan örüntünün önemli olması için: insanlar tarafından kolayca anlaşılabilir sınama verisi veya yeni veriler üzerinde belli oranda geçerli yararlı ve kullanılabilir yeni nesnel / öznel metrikler nesnel: örüntünün yapısına bağlı öznel: kullanıcının yaklaşımına bağlı Bütün Önemli Örüntülerin Bulunması Bütünlük: Önemli bütün örüntülerin bulunması Önemli bütün örüntüler bulunabilir mi? Eniyileme: Sadece önemli örüntüleri bulma Sadece önemli örüntüler bulunabilir mi? Bütün örüntüler bulunduktan sonra önemsiz olanların ayıklanması Sadece önemli örüntülerin bulunması 33 34 En İyi 10 Veri Madenciliği Algoritması Belirlenen 18 Aday En İyi 10 Veri Madenciliği Algoritması Belirlenen 18 Aday Classification #1. C4.5 Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. #2. CART L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. #3. K Nearest Neighbours (knn) Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. #4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. Statistical Learning #5. SVM Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer- Verlag New York, Inc. #6. EM McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. Association Analysis #7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. #8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. Link Mining #9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. #10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. SODA, 1998. Clustering #11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. #12. BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. Bagging and Boosting #13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. 35 36 6

En İyi 10 Veri Madenciliği Algoritması Belirlenen 18 Aday Seçilen En İyi 10 Veri Madenciliği Algoritması ICDM 06 Sequential Patterns #14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. #15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M- C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. Integrated Mining #16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. Rough Sets #17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Graph Mining #18. gspan: Yan, X. and Han, J. 2002. gspan: Graph-Based Substructure Pattern Mining. In ICDM '02. #1: C4.5 (61 votes) #2: K-Means (60 votes) #3: SVM (58 votes) #4: Apriori (52 votes) #5: EM (48 votes) #6: PageRank (46 votes) #7: AdaBoost (45 votes) #7: knn (45 votes) #7: Naive Bayes (45 votes) #10: CART (34 votes) 37 38 Bu Konudaki Başlıca Konferanslar ve Dergiler Konular KDD konferansları ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD) Konuyla ilgili diğer konferanslar ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Dergiler Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD 39 40 İlgili Konular: Veri Ambarları Veri Ambarı Çok fazla miktarda üzerinde işlem yapılan veri var Çoğunlukla farklı veritabanlarında ve farklı ortamlarda Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık) Amaca yönelik Birleştirilmiş Zaman değişkenli Değişken değil Karar destek birimleri veriye sanal olarak tek bir yerden ulaşabilmeli Ulaşım hızlı olmalı 41 42 7

Veri Ambarları: Amaca Yönelik Müşteri, ürün, satış gibi belli konular için düzenlenebilir Verinin incelenmesi ve modellenmesi için oluşturulur Konuyla ilgili karar vermek için gerekli olmayan veriyi kullanmayarak konuya basit, özet bakış sağlar Veri ambarları: Birleştirilmiş nın birleştirilmesiyle oluşturulur Canlı veri tabanları, dosyalar Veri temizleme ve birleştirme teknikleri kullanılır Değişik veri kaynakları arasındaki tutarlılık sağlanır 43 44 Veri Ambarları: Zaman Değişkenli Zaman değişkeni canlı veri tabanlarına göre daha uzundur Canlı veri tabanları: Güncel veriler bulunur (en çok geçmiş 1 yıl) : Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl) Veri Ambarları: Değişken Değil Canlı veritabanlarından alınmış verinin fiziksel olarak başka bir ortamda saklanması Canlı veritabanlarındaki değişimin veri ambarlarını etkilememesi 45 46 Veri Ambarı Mimarisi Veri Kaynakları İstemci Sorgulama & İnceleme İstemci İki yaklaşım: sorgulamalı veri ambarı Metadata Veri Ambarı? Birleştirme Kaynak Kaynak Kaynak Kaynak Kaynak 47 48 8

Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP Veritabanlarının birleştirilmesi: Farklı veritabanları arasında bir arabulucu katman Sorgulamalı Bir sorgulamayı her veritabanı için alt sorgulamalara ayır Sonucu birleştir Veri ambarı: Veri daha sonra kullanılmak üzere birleştirilip veri ambarında saklanıyor Birleştirme Veri Ambarı Sorgulama Sonuç Veri Ambarı Sorgu Sonuç Alt Sorgulamalar Arabulucu Kaynaklar Birleştirilmiş veritabanları 49 OLAP (On-Line Analytical Processing) nın işlevi Veriyi inceleme ve karar verme OLTP (On-Line Transaction Processing) saatler sürebilen işlemler OLAP avantajları Daha geniş kapsamlı sonuçlar Daha kısa süreli işlem OLAP dezavantajları Kullanıcı neyi nasıl soracağını bilmesi gerekiyor Genelde veriden istatistiksel inceleme yapmak için kullanılır. OLAP NE sorusuna cevap verir, veri madenciliği NEDEN sorusuna cevap verir. 50 Konular Veri Madenciliğinde Sorunlar (1) Güvenlik ve sosyal haklar Kullanıcı Arabirimi Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Veri kaynağı 51 52 Veri Madenciliğinde Sorunlar (2) Veri Madenciliğinde Sorunlar (3) Gizlilik ve sosyal haklar Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması (/paylaşılması) Gizlilik ve veri madenciliği politikalarının düzenlenmesi Kullanıcı Arabirimi Görüntüleme Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi Bilginin sunulması Etkileşim Veri madenciliği ile elde edilen bilginin kullanılması Veri madenciliği yöntemine müdahele etmek Veri madenciliği yönteminin sonucuna müdahele etmek 53 54 9

Veri Madenciliğinde Sorunlar (4) Veri madenciliği yöntemi Farklı tipte veriler üzerinde çalışabilme Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme Uygulama ortamı bilgisini kullanabilme Veri madenciliği ile elde edilen sonucu anlaşılır şekilde sunabilme Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç verebilme) Değişen veya eklenen verileri kolayca kullanabilme Örüntü değerlendirme: önemli örüntüleri bulma Veri Madenciliğinde Sorunlar (5) Başarım ve ölçeklenebilirlik Kullanabilirlik ve ölçeklenebilirlik Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir Örnekleme yapabilme Paralel ve dağıtık yöntemler Artımlı veri madenciliği Parçala ve çöz 55 56 Uyarı Veri madenciliği yöntemleri bilinçsiz olarak kullanılmamalı Veri madenciliği yöntemleri geçmiş olaylara bakarak örüntüler bulur: Gelecekteki olaylar geçmiştekilerle aynı değildir İlişkiler her zaman nedenleri açıklamaz David Heckerman ın verdiği örnek (1997) hamburger, hot-dog, barbecue sauce 57 10