Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: suatozdemir@gazi.edu.tr. Websayfası: http://ceng.gazi.edu.tr/~ozdemir/teaching/dm



Benzer belgeler
Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

Nesnelerin İnternetinde Veri Analizi

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Mesleki Terminoloji II Veri Madenciliği

VERİ MADENCİLİĞİNE BAKIŞ

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

BiL416 Hafta-1 Veri Madenciliği:Giriş

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

İleri Veri Madenciliği (COMPE 506) Ders Detayları

VERİ MADENCİLİĞİ F A T M A İ L H A N

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veri Ambarları ve Veri Madenciliği (ISE 350) Ders Detayları

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

Büyük Veri ve Endüstri Mühendisliği

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİNİN GÖREVLERİ

bilişim ltd İş Zekâsı Sistemi

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Dr. Hidayet Takçı. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

VERİ MADENCİLİĞİ UYGULAMA ALANLARI. Application Fields of Data Mining. Abdullah BAYKAL 1. D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi 7, (2006)

Web Madenciliği Teknikleri

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Business Intelligence and Analytics Principles and Practices: Charting the Course to BI and Analytic Success

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

Web Madenciliği (Web Mining)

VERİ TABANI UYGULAMALARI

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması,

BİLGİYİ YÖNETME. Mustafa Çetinkaya

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Makine Öğrenmesi 2. hafta

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ TABANI YÖNETİM SİSTEMLERİ

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

BÜYÜK ÖLÇEKLİ VERİ TABANLARINDA BİLGİ KEŞFİ

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

İş Analitiği'ne Netezza ile Yüksek Performans Katın

VERİ MADENCİLİĞİ (Web Madenciliği)

Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Bir Veri Seti Üzerinden Karşılaştırılması

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4415

8 Haziran 2007 TBD İstanbul Bilişim Kongresi

NoSql ve MongoDB. Saygın Topatan

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

T.C. MALTEPE ÜNĠVERSĠTESĠ MÜHENDĠSLĠK FAKÜLTESĠ ENDÜSTRĠ MÜHENDĠSLĠĞĠ BÖLÜMÜ LĠSANS PROGRAMI Güz Yarıyılı

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Başlıca Ürün-Bilgi Sistemleri

Yönetim Bilişim Sistemleri (Karma) - 1. yarıyıl Hukukun Temelleri Fundamentals of Law TR

GENCAY KARAMAN. DBA & Data Mining/Business Intelligence Specialist

1 BILGI TEKNOLOJILERI VE YÖNETIM

e-öğrenme için Öğretim ve İçerik Yönetim Sistemleri Prof. Dr. Yasemin GÜLBAHAR

SAP FORUM İSTANBUL Discover Simple Kararlarınızı ileri analitiklerle aydınlatın

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Sıralı Örüntü Madenciliği ile e-bankacılıkta Kullanıcı Davranışlarının Modellenmesi

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Veri Madenciliği Projelerinin Yaşam Döngüsü - 1

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

Semantik Bilgi Yönetimi

Veri Madenciliği - Giriş. Erdem Alparslan

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Programlama Dilleri

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

Apriori Algoritması ve Türkiye'deki Örnek Uygulamaları

Maltepe Üniversitesi Bilgisayar Mühendisliği Bölümü Veri Tabanı ve Yönetimi (BİL 301)

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Web Madenciliği (Web Mining)

PAZARLAMA YÖNETİMİ Şubat 2018

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

BÖLÜM 2. Bilişim Sistemleri, İş Süreçleri ve İşbirliği. Doç. Dr. Serkan ADA

HACETTEPE ÜNİVERSİTESİ BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ TÜRKÇE İKTİSAT BÖLÜMÜ İÇİN ÇİFT ANADAL DERS PROGRAMI

Veri Madenciliği. Veri Madenciliği ve Makina Öğrenmesi

İş Zekâsı Sistemi Projesi

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

İleri Algoritma (COMPE 574) Ders Detayları

Veritabanı. Ders 2 VERİTABANI

İlişkilendirme kurallarının kullanım alanları

Transkript:

Bölüm 1. Giriş http://ceng.gazi.edu.tr/~ozdemir Ders bilgileri Öğretim üyesi: E-posta: suatozdemir@gazi.edu.tr Websayfası: http://ceng.gazi.edu.tr/~ozdemir/teaching/dm Bütün duyuru, ödev, vb. için ders web sayfasını haftada en az bir kez kontrol etmelisiniz 2/41 1

Ders Bilgileri Notlandırma Ders web sayfasında Ders kitabı: Data Mining, Second Edition Concepts and Techniques 2nd Edition Jiawei Han and Micheline Kamber ISBN: 978-1-55860-901-3 The Morgan Kaufmann Series, 2006. Kaynak kitaplar: David J. Hand, Heikki Mannila, and Padhraic Smyth (2001). Principles of Data Mining. MIT Press. ISBN 026208290X. Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005). Introduction to Data Mining. Addison Wesley, ISBN: 0-321-32136-7 3/41 Dersin Amacı Temel veri madenciliği konseptlerini öğrenmek, sınıflandırma, kümeleme, ilişkilendirme/birliktelik kuralları bulma gibi temel veri madenciliği konularında uygulama geliştirerek geniş veri tabanlarında/veri ambarlarında bilgi keşfi yapabilmek. 4/41 2

Ders içeriği Giriş Veri önişleme Veri ambarları İlişkilendirme/birliktelik kuralları Sınıflandırma Kümeleme Veri madenciliğinde saldırı tespiti Metin madenciliği WEB madenciliği 5/41 Ders planı Motivasyon: Neden veri madenciliği? Tanım: Veri madenciliği nedir? Veri madenciliği konularının sınıflandırılması Veri ambarları Veri madenciliğinde sorunlar 6/41 3

Veritabanı teknolojisinin gelişimi 7/41 Neden veri madenciliği? Bilgisayarların ucuzlayıp aynı zamanda çok güçlü hale gelmeleri Teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının daartması (terabyte to petabyte) Yeni veri toplama yolları Otomatik veri toplama aletleri, veritabanı sistemleri, bilgisayar kullanımının artması Büyük veri kaynakları İş dünyası: Web, e-ticaret, alışveriş, hisse senetleri, Bilim dünyası: Uzaktan algılama ve izleme, bioinformatik, simülasyonlar.. Toplum: haberler, digitalit kameralar, YouTube, Facebook Ticari rekabet baskısının artması Kişiselleştirilmiş ürünler, CSR yönetimi Veri içinde boğuluyoruz, ancak bilgi elde edemiyoruz!!! 8/41 4

Neden veri madenciliği? 9/41 nin Amacı Ne yapmak istemiyoruz? Büyük miktardaki veri içinde arama yapmak (Veritabanı yönetim sistemleri bu işi yapıyor) Telefon rehberinde arama yapmak Veri madenciliğinin amacı: Aradığımız veri mevcutsa bu veriden çıkarabileceğimiz sonuçlarını anlamak Telefon rehberindeki isimlere göre, hangi bölgemizde hangi isimlerin daha yaygın olduğunu bulmak 10/41 5

Veritabanı - Karşılaştırması Sorgulama Tanımlı SQL Veri Canlı veri Dinamik Çıktı Belirli Sorgulama Tam tanımlı değil Yaygın sorgulama ogua adili yok Veri Üzerinde işlem yapılmayan veri Statik Çıktı Belirli değil Verinin bir alt kümesi Verinin bir alt kümesi değil Veritabanı 11/41 Sorgulama örnekleri Veritabanı uygulaması: Adı Ahmet olan kredi kartı sahiplerini bul. Bir ayda 2000 YTL den fazla harcama yapan kredi kartı sahiplerini bul. DVD satın alan tüm müşterileri bul. Veri madenciliği uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (demetleme) DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları) 12/41 6

Veri madenciliği nedir? Veri madenciliği Basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılması Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. Veri madenciliği terimi ne kadar doğru? KNOWLEDGE DISCOVERY FROM DATA (KDD) (VERİDEN BİLGİ KEŞFİ) Alternatif isimler Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. 13/41 Veriden Bilgi Keşfi Teoride veri madenciliği bilgi keşfi işleminin bir parçasıdır Pratikte veri madenciliği ve veriden bilgi keşfi aynı anlamda kullanılır Data Miningi Veri madenciliği Pattern Evaluation Örüntü değerlendirm Task-relevant Data Kullanım amaçlı veri Data Warehouse Veri ambarı Selection Seçme Data Cleaning Veri temizleme Data Integration Veri birleştirme Databases / Veri tabanları 14/41 7

Veriden Bilgi Keşfinin Aşamaları Uygulama alanını inceleme Konuyla ilgili bilgi ve uygulama amaçları Veri toplama ve birleştirme Amaca uygun veri kümesi oluşturma: Veri seçme Veri ayıklama ve önişleme Veri azaltma ve veri dönüşümü incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma, Veri madenciliği tekniği seçme Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme Veri madenciliği algoritmasını seçme Model değerlendirme ve bilgi sunumu Bulunan bilginin yorumlanması 15/41 Örnek: WEB madenciliği web sitesinin yapısını inceleme veri toplanması: log dosyaları, üye veri tabanı ve satış kayıtlarının toplanması verileri seçme: tarih aralığını belirleme veri ayıklama, önişleme: gereksiz kayıtları silme veri azaltma, veri dönüşümü: kullanıcı oturumları belirleme veri madenciliği tekniği seçme: demetleme veri madenciliği algoritması seçme: k-ortalama, EM, DBSCAN... Model değerlendirme/yorumlama: değişik kullanıcı grupları için sıkça izlenen yolu bulma Uygulama alanları: öneri modelleri, kişiselleştirme, ön belleğe alma 16/41 8

Veri madenciliği ve diğer disiplinler Veri tabanı teknolojisi İstatistik Makina Öğrenmesi Veri Madenciliği Görselleştirme Öü Örüntü Tanıma Algoritma Diğer Disiplinler 17/41 Uygulamaları Veri analizi ve karar destek sistemleri Market analiz ve yönetimi Hedef market, müşteri ilişkileri yönetimi, market sepet analizi (basket analysis), çaprazlama satışlar, market ayrımı Risk analizi ve yönetimi Sahtekarlık tespiti (Fraud detection) ve normal olmayan desenlerin tespiti (outliers) Diğer uygulamalar Belgeler arası benzerlik Text ve web madenciliği Akan veri madenciliği 18/41 9

Örnekler 1. Market analizi Veri kaynağı: kredi kartı işlemleri, kuponlar.. Hedef merket belirleme Aynı özelliği taşıyan müşterilerin belirlenmesi, satış stratejisi geliştirilmesi Çapraz market analizi Ürün satışları arasındaki ilişkiyi bulma Müşteri profili çıkarma Hangi tip müşteri ne alıyor Müşteri grupları için en iyi ürünleri belirle 19/41 Örnekler (devam) 2. Risk analizi Gelir ve kaynak planlama Bilanço değerlendirmesi Para akış ş analizi ve kestirimi Talep incelemesi Rekabet Diğer firmaların takibi, fiyatlandırma stratejisi geliştirme Kaynak planlaması Kaynakların incelenmesi ve uygun olarak dağıtılması 20/41 10

Örnekler (devam) 3. Sahtekarlık tespiti ve normal olmayan örüntülerin bulunması Sigorta, bankacılık, telekominikasyon alanlarında Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme Örnek Araba sigortası Sağlık Sigortası Kredi kartı başvurusu 21/41 Veri madenciliği ve iş dünyası Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery End User Business Analyst Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA 22/41 11

Veri madenciliği kaynakları Veri dosyaları İlişkisel veritabanları Veri ambarları Konu odaklı olarak, düzenlenmiş, birleştirilmiş, sabitlenmiş, büyük veritabanı Gelişmiş veritabanları nesneye dayalı veritabanları www 23/41 Veri madenciliği sınıflandırma Veri açısından İlişkisel, veri ambarı, zamana bağlı, akan, text, multimedia, web Bilgi açısından Kategorize, ayrım, ilişki, sınıflandırma, kümeleme, trend analizi, outlier analizi Kullanılacak teknik açısından Veri tabanı temelli, veri ambarı temelli (OLAP), istatistik,... Uygulanancak alan açısından Ticari, i telekom, banka, sahtekarlık k analizi, i text t madenciliği... 24/41 12

Veri madenciliği sınıflandırması Veri madenciliğinde veriyi belli bir modele uydurmak istiyoruz. Kestirime dayalı veri madenciliği (predictive) Kredi başvurularını risk gruplarına ayırma Bu işlemde dolandırıcılık var mıdır? Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini Tanımlayıcı veri madenciliği (descriptive) Veriler arasındaki gizli kalmış ilişkiyi ortaya çıkarırlar En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? 25/41 Kestirime dayalı (predictive) veri madenciliği Sınıflandırma: Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Gözetimli öğrenme Örüntü tanıma Kestirim Eğri uydurma: Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme: Zaman içinde değişen verinin değerini öngörür. 26/41 13

Kestirime dayalı veri madenciliği örneği: Sınıflandırma Ögrenme kümesi Sınıflandırıcı Model Deneme kümesi Model 27/41 Tanımlayıcı (descriptive) veri madenciliği Demetleme/kümeleme: Benzer verileri aynı grupta toplama Gözetimsiz öğrenme Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil edecek özellikler bulur. Genelleştirme Nitelendirme İlişkilendirme kuralları / birliktelik kurallları Veriler arasındaki ilişkiyi belirler Sıralı diziler: Veri içinde sıralı örüntüler bulmak için kullanılır. 28/41 14

Tanımlayıcı veri madenciliği örneği: Demetleme/Kümeleme Doküman Kümeleme: Dökümanlar içinlerinde geçen terimlere göre gruplanacak Yaklaşım: Her doküman içinde sık geçen terimleri bul. Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü geliştir. Bu ölçüte göre demetleme yap Kullanımı: Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre arama yapıldığında bu terimleri içeren dokümanları bulma 29/41 Tanımlayıcı veri madenciliği örneği: Birliktelik kuralları Veri kümesindeki nesneler arasındaki ilişkiyi bulma bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin (nesnelerin) de varlığını tahmin edebilecek kurallar TID Nesneler 1 Ekmek, kola, süt 2 Bira, ekmek 3 Bira, kola, çocuk bezi, süt 4 Bira, ekmek, çocuk bezi, süt 5 Kola, çocuk bezi, süt Kurallar {süt} {kola} {çocuk bezi,süt} {kola} 30/41 15

Hangi örüntü (kural)? Binlerce örüntü: Sadece bir kısmı önemli Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri madenciliği uygulanacak kadar büyük Bulunan örüntünün önemli olması için: insanlar tarafından kolayca anlaşılabilir sınama verisi veya yeni veriler üzerinde belli oranda geçerli yeni, yararlı ve kullanılabilir olması gerekir. 31/41 Tanımlayıcı veri madenciliği örneği: Sıralı diziler Zamana bağlı bir veri setinde veriler arasındaki sıra ilişkilerini bulur. In point-of-sale transaction sequences, Computer Bookstore: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Athletic Apparel Store: (Shoes) (Racket, Racketball) --> (Sports_Jacket) 32/41 16

Veri madenciliği sınıflandırması: Özet Sınıflandırma/Classification [Predictive] Demetleme/Clustering [Descriptive] İlişkilendirme kuralları bulma/association Rule Discovery [Descriptive] Sıralı dizi bulma/sequential Pattern Discovery [Descriptive] Eğri uydurma/regression [Predictive] Anomali bulma/deviation Detection [Predictive] 33/41 Veri Ambarları Çok fazla miktarda üzerinde işlem yapılan veri var Çoğunlukla farklı veritabanlarında ve farklı ortamlarda Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık) Karar destek birimleri veriye sanal olarak tek biryerden ulaşabilmeli Ulaşım hızlı olmalı 34/41 17

Veri ambarları Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı olarak düzenlenmiş, birleştirilmiş ve sabitlenmiş büyük veritabanı Amaca yönelik, konu odaklı Birleştirilmiş Zaman değişkenli, belirli bir döneme ait Son 5 yıl, v.b. Değişken değil, statik Veri silinmez, eklenmez 35/41 Veri Ambarı Mimarisi Diğer Kaynaklar Metadata İzleme Birleştirme OLAP Server Veritabanları Veri çek İşle Yükle Yenile Veri ambarı Hizmet Veri madenciliği Veri Mart ları Veri kaynakları Veri depolama OLAP motoru Son kullanıcı 36/41 18

nde Sorunlar Güvenlik ve sosyal haklar Kullanıcı arabirimi Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Veri kaynağı 37/41 nde Sorunlar Özellikle güvenlik ve sosyal haklar ile ilgili kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması, veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması, gizlilik ve veri madenciliği politikalarının düzenlenmesi gibi sorunlar hala çözülememiştir. Veri madenciliği genelde uygulamaya özgü çözümler içerdiğinden yaygın bir kullanıcı arabirimi ve oluşmamıştır. Kullanılan veri madenciliği yöntemine göre sonuçlar arasında çok büyük farklar çıkabilmektedir. Hangi yöntemin geçerli olduğu konusunda karar vermek uygulama alanına hakim kişiler tarafından verilmelidir. Başarım ve ölçeklenebilirlik için oluşturulan metriklerin geçerlilikleri konusunda ortak bir fikir yoktur. Başarım ve ölçeklenebilirlik konusu subjektiftir. %90 başarı bazı uygulamalar için iyi sayılabilirken, sağlık alanında çok kötü bir değer olarak nitelendirilebilir. Çoğu durumda veri kaynağından elde edilen bilgilerin güvenilirliği konusunda doğrulama yapılamamaktadır (kişisel bilgilerin gizliliği). 38/41 19

nde Sorunlar: Güvenlik Gizlilik ve sosyal haklar Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması Gizlilik ve veri madenciliği politikalarının düzenlenmesi 39/41 nde Sorunlar: Son kullanıcı Kullanıcı Arabirimi Görüntüleme Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi Bilginin sunulması Etkileşim Veri madenciliği ile elde edilen bilginin kullanılması Veri madenciliği yöntemine müdahele etmek Veri madenciliği yönteminin sonucuna müdahele etmek 40/41 20

nde Sorunlar: Performans Başarım ve ölçeklenebilirlik Kullanabilirlik ve ölçeklenebilirlik Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir Örnekleme yapabilme Paralel ve dağıtık yöntemler Artımlı veri madenciliği Parçala ve çöz 41/41 21