Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi



Benzer belgeler
Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: Websayfası:

Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

Nesnelerin İnternetinde Veri Analizi

VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİ Metin Madenciliği

Mesleki Terminoloji II Veri Madenciliği

bilişim ltd İş Zekâsı Sistemi

VERİ MADENCİLİĞİ F A T M A İ L H A N

Başlıca Ürün-Bilgi Sistemleri

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Veritabanı. Ders 2 VERİTABANI

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

BİLGİYİ YÖNETME. Mustafa Çetinkaya

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Programlama Dilleri

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

VERİ TABANI YÖNETİM SİSTEMLERİ

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

VERİ MADENCİLİĞİ UYGULAMA ALANLARI. Application Fields of Data Mining. Abdullah BAYKAL 1. D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi 7, (2006)

Kümeleme Algoritmaları. Tahir Emre KALAYCI

YÖNETİM BİLGİ SİSTEMLERİ İŞLETME ZEKASININ TEMELLERİ VERİTABANI VE BİLGİ YÖNETİMİ

PREDICT SEVECEKLERİ ÜRÜNLERLE HER MÜŞTERİNİZİN İLGİSİNİ ÇEKİN.

VERİ MADENCİLİĞİ (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

Oracle Database 11g: Introduction to SQL

Büyük Veri ve Endüstri Mühendisliği

Web Madenciliği (Web Mining)

1 Temel Kavramlar. Veritabanı 1

İş Zekâsı Sistemi Projesi

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

VERİ MADENCİLİĞİNİN GÖREVLERİ

UZAKTAN EĞİTİM MERKEZİ

1 BILGI TEKNOLOJILERI VE YÖNETIM

8 Haziran 2007 TBD İstanbul Bilişim Kongresi

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Makine Öğrenmesi 2. hafta

VERİ TABANI SİSTEMLERİ

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

1 Temel Kavramlar. Veritabanı 1

WTO(DÜNYA TİCARET ÖRGÜTÜ): Mal ve hizmetlerin üretim, reklam, satış ve dağıtımlarının telekomünikasyon ağları üzerinden yapılmasıdır.

FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ Yazılım Mühendisliği Bölümü

Gözetimli & Gözetimsiz Öğrenme

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

BİLİM VE BİLİMSEL ARAŞTIRMA YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

BiL416 Hafta-1 Veri Madenciliği:Giriş

VERİ TABANI YÖNETİM SİSTEMLERİ

CRM Müşteri İlişkileri Yönetimi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

SİSTEM ANALİZİ VE TASARIMI. Sistem Analizi -Bilgi Sistemleri-

NoSql ve MongoDB. Saygın Topatan

Semantik Bilgi Yönetimi

TOBB EKONOMİ VE TEKNOLOJİ ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ I. SINIF EĞİTİM - ÖĞRETİM PROGRAMI

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

STRATEJİK İNSAN KAYNAKLARI EĞİTİM DVD DVD İÇERİĞİ : 3 SAATLİK EĞİTİM VİDEOSU VE 300 SAYFALIK YAZILI DOKÜMAN

ORTAK SAĞLIK GÜVENLİK BİRİMLERİ İÇİN İŞ SAĞLIĞI GÜVENLİĞİ YAZILIMI

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

BIM 312 Database Management Systems. Veritabanı Kavramına Giriş

Türk Bankacılık Sektörü Günlük Bülten

Web Sitelerinin Değerlendirilmesi

Web Madenciliği Teknikleri

T.C KARABÜK ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ

VERİ TABANI UYGULAMALARI

BÖLÜM 2. Bilişim Sistemleri, İş Süreçleri ve İşbirliği. Doç. Dr. Serkan ADA

BÖLÜM13 3- EXCEL DE VERİ İŞLEMLERİ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

2-Veritabanı Yönetim Sistemleri/ Temel Kavramlar

Veri Ambarından Veri Madenciliğine

VERİ MADENCİLİĞİ (Web Madenciliği)

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Veritabanı Tasarımı. İlişkisel Veritabanı Kavramlarına Giriş

VERİ MADENCİLİĞİ. İlişkilendirme Kuralları Bulma. Yaygın Nitelikler. İlişkilendirme Kuralları. nitelikler kümesi (Itemset) Destek s (Support)

License. Veri Tabanı Sistemleri. Konular büyük miktarda verinin etkin biçimde tutulması ve işlenmesi. Problem Kayıt Dosyaları

TS EN ISO KONTROL LİSTESİ ŞABLONU

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Transkript:

VERİ MADENCİLİĞİ Giriş Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Problem Tanımı Veri Madenciliği: Tarihçe teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının da artması bu veriyi nasıl kullanacağımızı bilmiyoruz saklanan veriden bilgi elde etmek için bu veriyi yorumlamamız gerekiyor kullanıcıların beklentilerinin artması basit veritabanı sorgulama yöntemlerinin yeterli olmaması Veri madenciliği yöntemleri fazla miktardaki veri içinden yararlı bilgiyi bulmak için kullanılır. Data Fisihing-Data Dredging: 1960- istatistikçiler Data Mining: 1990- veritabanı kullanıcıları, ticari Knowledge Discovery in Databases (KDD): 1989- yapay zeka, makine öğrenmesi toplulukları Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction,... 3 4 Bilgi Keşfi Veri Madenciliği Nedir? Büyük veri kaynaklarından yararlı ve ilginç bilgiyi bulmak Bulunan bilgi gizli önemli önceden bilinmeyen yararlı Teoride veri madenciliği bilgi keşfi işleminin aşamalarından biridir. Pratikte veri madenciliği ve bilgi keşfi eş anlamlı olarak kullanılır. Veri madenciliği teknikleri veriyi belli bir modele uydurur. veri içindeki örüntüleri bulur örüntü: veri içindeki herhangi bir yapı Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. 5 6 1

Veri Ambarı Veri Temizleme Bilgi Keşfi Veri madenciliği: Bilgi keşfinin temel taşı Veri Madenciliği Kullanım amaçlı Veri Seçme Model Değerlendirme Bilgi Keşfinin Aşamaları işlemin %70 lik Uygulama alanını inceleme bölümünü oluşturur Konuyla ilgili bilgi ve uygulama amaçları Amaca uygun veri kümesi oluşturma: Veri seçme Veri ayıklama ve önişleme Veri azaltma ve veri dönüşümü incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma, Veri madenciliği tekniği seçme Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme Veri madenciliği algoritmasını seçme Model değerlendirme ve bilgi sunumu Bulunan bilginin yorumlanması Veri Birleştirme Veri Tabanları 7 8 Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi web sitesinin yapısını inceleme verileri seçme: tarih aralığını belirleme veri ayıklama, önişleme: gereksiz kayıtları silme veri azaltma, veri dönüşümü: kullanıcı oturumları belirleme veri madenciliği tekniği seçme: demetleme veri madenciliği algoritması seçme: k-ortalama, EM, DBSCAN... Model değerlendirme/yorumlama: değişik kullanıcı grupları için sıkça izlenen yolu bulma Uygulama alanları: öneri modelleri, kişiselleştirme, ön belleğe alma Makine Öğrenmesi İstatistik Veri Madenciliği ve Bilgi Keşfi Görüntüleme Veritabanı 9 10 İstatistik & Makine Öğrenmesi & Veri Madenciliği Veri Madenciliğinin Amacı İstatistik daha çok teoriye dayalı yaklaşımlar bir varsayımın doğruluğunu araştırır Makine Öğrenmesi daha çok sezgisel yaklaşımlar öğrenme işleminin başarımını artırmaya çalışır Veri madenciliği ve bilgi keşfi teori ve sezgisel yaklaşımları birleştirir bilgi keşfinin tüm aşamalarını gerçekler: veri temizleme, öğrenme, sonucu sunma, yorumlama,... Aradaki ayrım net değil Yapmak istemediğimiz: Büyük miktardaki veri içinde arama yapmak (Veritabanı yönetim sistemleri bu işi yapıyor) Amaç: Aradığımız veri mevcutsa sonuçlarını anlamak 11 12 2

Veritabanı & Veri Madenciliği İşlemleri Sorgulama Tanımlı SQL Veri Canlı veri Çıkış Belirli verinin bir alt kümesi Sorgulama Tam tanımlı değil yaygın sorgulama dili yok Veri Üzerinde işlem yapılmayan veri Çıkış Belirli değil verinin bir alt kümesi değil 13 Sorgulama Örnekleri Veritabanı uygulaması: Soyadı Gündüz olan kredi kartı sahiplerini bul. Bir ayda 2000 YTL den fazla harcama yapan kredi kartı sahiplerini bul. DVD satın alan tüm müşterileri bul. Veri madenciliği uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (demetleme) DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları) 14 Veri Madenciliğinin Uygulama Alanları Veritabanı analizi ve karar verme desteği Pazar araştırması Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi Risk analizi Kalite kontrolu, rekabet analizi, öngörü Sahtekarlıkların saptanması Diğer Uygulamalar Belgeler arası benzerlik (haber kümeleri, e-posta) Sorgulama sonuçları 15 16 Problemler Pazar Araştırması (1) Hangi promosyonu ne zaman uygulamalıyım? Hangi müşteri aldığı krediyi geri ödemeyebilir? Bir müşteriye ne kadar kredi verilebilir? Sahtekarlık olabilecek davranıslar hangileridir? Hangi müşteriler yakın zamanda kaybedilebilir? Hangi müşterilere promosyon yapmalıyım? Hangi yatırım araçlarına yatırım yapmalıyım? Veri madenciliği uygulamaları için veri kaynağı Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri Hedef pazarlar bulma Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları Müşterilerin davranışlarında zaman içindeki değişiklik Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik Çapraz pazar incelemesi: Ürün satışları arasındaki ilişkiyi bulma 17 18 3

Pazar Araştırması (2) Sahtekarlık İncelemesi Müşteri profili Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma) Müşterilerin ihtiyaçlarını belirleme Farklı müşterilerin o anki ilgisine yönelik ürünü bulma Yeni müşterileri hangi faktörlerin etkilediğini bulma Sigorta, bankacılık, telekominikasyon alanlarında Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme Örnek: Araba sigortası Sağlık Sigortası Kredi kartı başvurusu 19 20 Risk Analizi Finans planlaması ve bilanço değerlendirmesi nakit para akışı incelemesi ve kestirimi talep incelemesi zaman serileri incelemesi Kaynak planlaması kaynakların incelenmesi ve uygun olarak dağıtılması Rekabet rakipleri ve pazar eğilimlerini takip etme müşterileri sınıflara ayırma ve fiyat politikası belirleme 21 22 Veri Kaynakları Veri dosyaları İlişkisel veritabanı Gelişmiş veritabanları nesneye dayalı veritabanları www 23 24 4

10 10 Veri Madenciliği Algoritmaları Veri Madenciliği Modelleri amaç: veriyi belli bir modele uydurmak tanımlayıcı En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? kestirime dayalı Kredi başvuralarını risk gruplarına ayırma Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini seçim: veriye uyan en iyi modeli seçmek için kullanılan kriter arama: veri üzerinde arama yapmak için kullanılan teknik sınıflandırma kestirime dayalı eğri uydurma veri madenciliği zaman serileri tanımlayıcı demetleme özetleme bağıntı kuralları sıralı dizi 25 26 Veri Madenciliği İşlevleri Veri Madenciliği İşlevleri Sınıflandırma: Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Gözetimli öğrenme Örüntü tanıma Kestirim Eğri uydurma: Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme: Zaman içinde değişen verinin değerini öngörür. Demetleme: Benzer verileri aynı grupta toplama Gözetimsiz öğrenme Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil edecek özellikler bulur. Genelleştirme Nitelendirme İlişkilendirme kuralları Veriler arasındaki ilişkiyi belirler Sıralı diziler: Veri içinde sıralı örüntüler bulmak için kullanılır. 27 28 Örnek: Sınıflandırma Örnek: Demetleme Tid Geri Medeni Ödeme Durum kategorik kategorik sürekli sınıf Gelir 1 Evet Bekar 125K -1 2 Hayır Evli 100K -1 3 Hayır Bekar 70K -1 4 Evet Evli 120K -1 5 Hayır Boşanmış 95K 1 6 Hayır Evli 60K -1 7 Evet Boşanmış 220K -1 8 Hayır Bekar 85K 1 9 Hayır Evli 75K -1 10 Hayır Bekar 90K 1 Dolan dırıcı Geri Medeni Ödeme Durum Gelir Hayır Bekar 75K? Evet Evli 50K? Hayır Evli 150K? Evet Boşanmış 90K? Hayır Bekar 40K? Hayır Evli 80K? Öğrenme Kümesi Dolan dırıcı Sınıflandırıcı Deneme Kümesi Model Doküman Demetleme: Amaç: Döküman içinde geçen terimlere göre aynı konudaki dokümanları gruplama Yaklaşım: Her doküman içinde sık geçen terimleri bul. Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü geliştir. Bu ölçüte göre demetleme yap Kullanımı: Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre arama yapıldığında bu terimleri içeren dokümanları bulma 29 30 5

Örnek: İlişkilendirme Kuralları Bulunan Örüntüler Önemli mi? Veri kümesindeki nesneler arasındaki ilişkiyi bulma bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin (nesnelerin) de varlığını tahmin edebilecek kurallar TID Nesneler 1 Ekmek, Kola, Süt 2 Bira, Ekmek 3 Bira, Kola, Çocuk bezi, Süt 4 Bira, Ekmek, Çocuk bezi, Süt 5 Kola, Çocuk bezi, Süt Bulunan Kurallar: {Süt} {Süt}--> -->{Kola} {Çocuk bezi, bezi, Süt} Süt} --> -->{Bira} Binlerce örüntü: Bir kısmı önemli Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri madenciliği uygulanacak kadar büyük Bulunan örüntünün önemli olması için: insanlar tarafından kolayca anlaşılabilir sınama verisi veya yeni veriler üzerinde belli oranda geçerli yararlı ve kullanılabilir yeni nesnel / öznel metrikler nesnel: örüntünün yapısına bağlı öznel: kullanıcının yaklaşımına bağlı 31 32 Bütün Önemli Örüntülerin Bulunması Bütünlük: Önemli bütün örüntülerin bulunması Önemli bütün örüntüler bulunabilir mi? Eniyileme: Sadece önemli örüntüleri bulma Sadece önemli örüntüler bulunabilir mi? Bütün örüntüler bulunduktan sonra önemsiz olanların ayıklanması Sadece önemli örüntülerin bulunması 33 34 İlgili : Veri Ambarları Veri Ambarı Çok fazla miktarda üzerinde işlem yapılan veri var Çoğunlukla farklı veritabanlarında ve farklı ortamlarda Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık) Amaca yönelik Birleştirilmiş Zaman değişkenli Değişken değil Karar destek birimleri veriye sanal olarak tek bir yerden ulaşabilmeli Ulaşım hızlı olmalı 35 36 6

Veri Ambarları: Amaca Yönelik Müşteri, ürün, satış gibi belli konular için düzenlenebilir Verinin incelenmesi ve modellenmesi için oluşturulur Konuyla ilgili karar vermek için gerekli olmayan veriyi kullanmayarak konuya basit, özet bakış sağlar Veri ambarları: Birleştirilmiş nın birleştirilmesiyle oluşturulur Canlı veri tabanları, dosyalar Veri temizleme ve birleştirme teknikleri kullanılır Değişik veri kaynakları arasındaki tutarlılık sağlanır 37 38 Veri Ambarları: Zaman Değişkenli Zaman değişkeni canlı veri tabanlarına göre daha uzundur Canlı veri tabanları: Güncel veriler bulunur (en çok geçmiş 1 yıl) : Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl) Veri Ambarları: Değişken Değil Canlı veritabanlarından alınmış verinin fiziksel olarak başka bir ortamda saklanması Canlı veritabanlarındaki değişimin veri ambarlarını etkilememesi 39 40 Veri Ambarı Mimarisi Veri Kaynakları İstemci Sorgulama & İnceleme İstemci İki yaklaşım: sorgulamalı veri ambarı Metadata Veri Ambarı? Birleştirme Kaynak Kaynak Kaynak Kaynak Kaynak 41 42 7

Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP Veritabanlarının birleştirilmesi: Farklı veritabanları arasında bir arabulucu katman Sorgulamalı Bir sorgulamayı her veritabanı için alt sorgulamalara ayır Sonucu birleştir Veri ambarı: Veri daha sonra kullanılmak üzere birleştirilip veri ambarında saklanıyor Birleştirme Veri Ambarı Sorgulama Sonuç Veri Ambarı Sorgu Sonuç Alt Sorgulamalar Arabulucu Kaynaklar Birleştirilmiş veritabanları 43 OLAP (On-Line Analytical Processing) nın işlevi Veriyi inceleme ve karar verme OLTP (On-Line Transaction Processing) saatler sürebilen işlemler OLAP avantajları Daha geniş kapsamlı sonuçlar Daha kısa süreli işlem OLAP dezavantajları Kullanıcı neyi nasıl soracağını bilmesi gerekiyor Genelde veriden istatistiksel inceleme yapmak için kullanılır. OLAP NE sorusuna cevap verir, veri madenciliği NEDEN sorusuna cevap verir. 44 Veri Madenciliğinde Sorunlar (1) Güvenlik ve sosyal haklar Kullanıcı Arabirimi Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Veri kaynağı 45 46 Veri Madenciliğinde Sorunlar (2) Veri Madenciliğinde Sorunlar (3) Gizlilik ve sosyal haklar Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması (/paylaşılması) Gizlilik ve veri madenciliği politikalarının düzenlenmesi Kullanıcı Arabirimi Görüntüleme Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi Bilginin sunulması Etkileşim Veri madenciliği ile elde edilen bilginin kullanılması Veri madenciliği yöntemine müdahele etmek Veri madenciliği yönteminin sonucuna müdahele etmek 47 48 8

Veri Madenciliğinde Sorunlar (4) Veri madenciliği yöntemi Farklı tipte veriler üzerinde çalışabilme Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme Uygulama ortamı bilgisini kullanabilme Veri madenciliği ile elde edilen sonucu anlaşılır şekilde sunabilme Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç verebilme) Değişen veya eklenen verileri kolayca kullanabilme Örüntü değerlendirme: önemli örüntüleri bulma Veri Madenciliğinde Sorunlar (5) Başarım ve ölçeklenebilirlik Kullanabilirlik ve ölçeklenebilirlik Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir Örnekleme yapabilme Paralel ve dağıtık yöntemler Artımlı veri madenciliği Parçala ve çöz 49 50 Uyarı Veri madenciliği yöntemleri bilinçsiz olarak kullanılmamalı Veri madenciliği yöntemleri geçmiş olaylara bakarak örüntüler bulur: Gelecekteki olaylar geçmiştekilerle aynı değildir İlişkiler her zaman nedenleri açıklamaz David Heckerman ın verdiği örnek (1997) hamburger, hot-dog, barbecue sauce 51 9