SMY 535, Veri Madenciliği 2



Benzer belgeler
Veri Ambarları. Erdem Alparslan

VERİ AMBARI VE OLAP TEKNOLOJİSİ

SQL veri tabalarına erişmek ve onları kullanmak için geliştirilmiş bir lisandır.

ELIF KIOTZEOGLOU RESUL MURAD MERT PACOLARI

Genel Kavramlar. Bilgisayar ortamında işlenebilecek durumda bulunan kayıtlar. Birbiri ile ilişkili veriler topluluğu ve veriler arası ilişkiler

İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi. Harun Gökçe EG Yazılım, TOBB ETÜ

Veritabanı Yönetim Sistemleri (Veritabanı Tasarımı) SQL (Structured Query Language)

Bu işleçlerin dışında, aşağıda belirtilen karşılaştırma işleçlerinden de yararlanılır.

VERİ TABANI UYGULAMALARI

VERİ TABANI YÖNETİM SİSTEMLERİ

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

SQL'e Giriş. SELECT Deyimi. SQL Komutları. Yardımcı Deyimler

İş Zekası Sistemi Veriyi Stratejik Bilgiye Dönüştürür

1 Temel Kavramlar. Veritabanı 1

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Maltepe Üniversitesi Bilgisayar Mühendisliği Bölümü Veri Tabanı ve Yönetimi (BİL 301)

VERİ TABANI YÖNETİM SİSTEMLERİ

Veri Tabanı SQL Server ve Management Studio kurulum linkleri:

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

BİLGİYİ YÖNETME. Mustafa Çetinkaya

20461C Querying Microsoft SQL Server Modül Seviye Belirleme Testi

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

Veritabanı. Ders 2 VERİTABANI

bilişim ltd İş Zekâsı Sistemi

SQL'e Giriş. SELECT Deyimi. SQL Komutları. 1. DDL (Data Definition Language - Veri Tanımlama Dili)

Veritabanı Tasarımı. DML İşlemleri ve Görünümler

Veri Madenciliği. Bölüm 3. Veri Ambarları. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

Yukarıdakilerden hangileri DML (Data Manipulation Language) ile gerçekleştirilir?

VERİ TABANI YÖNETİM SİSTEMLERİ I

İş Zekası ve Veri Ambarı Uzmanı

5 SQL- Yapısal Sorgulama Dili. Veritabanı 1

VERĐTABANI YÖNETĐM SĐSTEMLERĐ

2 Temel Kavramlar (Devam) Veritabanı 1

Konular. Veri ambarı nedir? Çok boyutlu veri modeli. Veri ambarı mimarisi. Veri ambarcılığı. Bölüm 3. Veri Ambarları 2/35. Doç. Dr.

İş Zekâsı Sistemi Projesi

Elbistan Meslek Yüksek Okulu GÜZ Yarıyılı Ara Öğr. Gör. Murat KEÇECĠOĞLU

Oracle da kullanılan veri tipleri:

İş Zekası ve Veri Ambarı Sistemleri. Nergiz Ercil Çağıltay

Veritabanı Tasarımı. Kullanıcı Erişimini Kontrol Etme

Data Programming SQL Language. Elbistan Meslek Yüksek Okulu Bahar Yarıyılı

Veri Tabanı Hafta Dersi

BIM 312 Database Management Systems. Veritabanı Kavramına Giriş

Advanced Oracle SQL Tuning

SQL e Giriş. Uzm. Murat YAZICI

Bölüm 1: Veritabanı Yönetim Sistemlerine Giriş

Microsoft SQL Server Sorgulama

Veri Tabanı Tasarım ve Yönetimi

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİTABANI Veritabanı Yönetimi

Veritabanına Giriş. Oğuzhan Ceylan. 19 Eylül 2011

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

Veritabanı Yönetim Sistemleri (Başarım Eniyileme Performance Tuning)

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Veritabanı Yönetim Sistemleri, 2. basım Zehra ALAKOÇ BURMA, 2009, Seçkin Yayıncılık

Bölüm 4: DDL Veri Tanımlama Dili

Ahmet Demirhan. 07 Haziran İstanbul

DESTEK DOKÜMANI. Ürün : GO/TIGER2/UNITY2 Bölüm : Sistem Đşletmeni

Veri Tabanı Yönetim Sistemleri Bölüm - 7

VT Sistem Gerçeklemesi. Ders Notları- #8

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

SQL Komutları (2) Uzm. Murat YAZICI

DENİZ HARP OKULU BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

UZAKTAN EĞİTİM MERKEZİ

Bilgi Servisleri (IS)

İngilizce'de Relational Database Management System (RDBMS) olarak ifade edilir.

Veritabanı Yönetim Sistemleri

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

VERİ TABANI YÖNETİM SİSTEMLERİ I

VT Sistem Gerçeklemesi Ders Notları- #12

İlişkisel Veri Tabanları I

8 Oracle da tablo yapısı içinde otomatik artan kolon yoktur. (identity kolon

SQL Query and Table Application

T.C GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ YÖNETİM BİLİŞİM SİSTEMLERİ ANA BİLİM DALI MS SQL KOMUTLARI VE MS SQL KOMUTLARI İLE İLGİLİ UYGULAMALAR

Bilgisayar Teknolojileri Bölümü Bilgisayar Programcılığı Programı. Öğr. Gör. Cansu AYVAZ GÜVEN

1 Temel Kavramlar. Veritabanı 1

SQL Deyimleri. Öğr.Gör.Volkan ALTINTAŞ Volkanaltintas.com

10-Veri Tabanları.

BİLİŞİM TEKNOLOJİLERİ

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

Tablolar Arası İlşikiler ve Alan Özellikleri Siparis.musteri_no musteri.musteri_no Siparis.urun_kodu musteri.urun_kodu

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

Ortamınızda A.D. veya LDAP sistemi var ise aşağıdaki linkten KoruMail LDAP-AD isimli dokümanı inceleyebilirsiniz.

ORM & Hibernate. Ahmet Demirelli. SCJP 5.0, SCWCD 1.4 ahmetdemirelli@sabanciuniv.edu

Veritabanı Uygulamaları Tasarımı

Ders Tanıtım Sunumu. Database Managegement II. Elbistan Meslek Yüksek Okulu Güz Yarıyılı. Öğr. Gör. Murat KEÇECĠOĞLU

PostgreSQL Veritabanı Sunucusu. 8.2 neler getiriyor?

Her bölüm için kısa bazı girişler yapılacak ve bölüm içerisinde anlatılacak olan konuların genel başlıkları belirtilecektir.

Swing ve JDBC ile Database Erişimi

DESTEK DOKÜMANI. Ürün : Tiger Enterprise/ Tiger Plus/ Go Plus/Go Bölüm : Kurulum İşlemleri

VERİTABANI ORGANİZASYONU

Kepware Veritabanı Ürünleri. Teknolojiye Genel Bir Bakış

Veritabanı Tasarımı. Sütun Değerlerini Güncelleme ve Satırları Silme

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

Oracle Database 11g: Introduction to SQL

BAY.t Entegre. Aşağıdaki script fiyat gör programının ayarlar sayfasındaki sorgu cümlesi alanına yapıştırılıp Sorguyu Db ye Yükle tıklanır

Bilgisayar Uygulamaları. MySql

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI ve YÖNETİMİ

Transkript:

Veri ambarı, bir işletmenin ya da kuruluşun değişik birimleri tarafından toplanan bilgilerden değerli olanlarının, gelecekte analiz işlemlerinde kullanılması amacıyla işletimsel sistem veritabanından farklı bir ortamda birleştirilmesinden oluşan büyük çaplı bir veri deposudur. Bir veri ambarı ilgili veriyi kolay, hızlı ve doğru biçimde analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı kullanıldığında, günlük işletimsel görevlerle yeterince meşgul olan veritabanı kullanılmadan, analiz işlemleri farklı bir ortamda yapılır. SMY 535, Veri Madenciliği 2

Veri madenciliği, veri ambarları üzerinde AI (yapay zeka), istatistiksel ve matematiksel teknikleri kullanarak, saklanılan büyük miktarlardaki veriler üzerinden, anlamlı yeni ilişkiler, desenler ve eğilimler keşfetme işlemidir. SMY 535, Veri Madenciliği 3

Data Warehouse: A Multi-Tiered Architecture Other sources Metadata Monitor & Integrator OLAP Server Operational DBs Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine SMY 535, Veri Madenciliği Front-End Tools 4

Stratejik Analiz: Bir KDS (Karar Destek Sistemi) olmasından dolayı Finansal Analiz: Maliyetlerin azaltılması dolayısıyla rekabet avantajının sağlanması Satış analizi ve trendler üzerine odaklanmak Müşterilerin gizli kalmış satın alma eğilimlerini tespit etmek İşler arasında ilişkilerin belirlenebilmesi Müşteri ihtiyaçlarına çabuk cevap verebilme (Etkin CRM) SMY 535, Veri Madenciliği 5

Relational database systems. SMY 535, Veri Madenciliği 6

OLAP araçları, her kullanıcının kolaylıkla kullanabileceği yapısı ile veriye çok boyutlu erişimi sağlamaktadır. OLAP araçları ile; En çok kâr getiren müşterilerim kimlerdir? (Bayi ve perakendeci bazında.) En kârlı ürünlerim nelerdir? Hangi işletme ya da mağazamda, en çok hangi saat ve günlerde hareketlilik olmaktadır? gibi sorulara cevap bulunabilmektedir. SMY 535, Veri Madenciliği 7

Off-Line çalışır Veri değişiminden çok sorgulama yapılır Eski verilerden oluşur Kullanıcı sayısı azdır (<100) Üst yönetime hitap eden KDS lerdir Veri madenciliği gibi uzun ve karmaşık süreçler sonucunda analizler yapılabilir On-Line çalışır Veri değişimi işlemleri yoğunluktadır (DML) Güncel verilerden oluşur Kullanıcı sayısı fazladır (>1000) Veriye ulaşmak ve değiştirmek isteyen her kullanıcıya hitap eder Sorgularla istenilen sonuçlara anında ulaşılır SMY 535, Veri Madenciliği 8

İşletimsel sistemlerde sürekli değişen veri karar verme işlemi için uygun değildir. İşletimsel sistemlerde kompleks bir sorgu yapılacaksa, bir çok tablodan veri toplanması gereklidir. İşletimsel sistemlerde sadece işlemsel veriler saklanılır. Geçmişe yönelik veri saklanılmaz. Organizasyondaki farklı uygulamalar, farklı teknolojiler ve ortamlar kullanabilmektedir. Böyle sistemlerde veri analiz ve sorgulaması, verinin yeri ve ortak bir formata dönüşüm işlemlerini içerdiğinden zor olabilir. SMY 535, Veri Madenciliği 9

Birleşik verilerin tutulduğu veri ambarına ilave olarak kullanılan veri deposu olarak tanımlanabilir. Veri pazarı, belirli kullanıcı grubu için yaratılan veri bölümüdür. Veri pazarı, normalize edilmemiş, özetlenmiş, toplanılmış veri topluluğu olabilir. SMY 535, Veri Madenciliği 10

Veri pazarı sadece bir özne alana veya sadece bir grup kullanıcı üzerine odaklanır. Bir organizasyon sadece bir veri ambarına sahip olur, fakat bir çok veri pazarı içerebilir. Veri pazarları veri ambarlarının aksine, işletimsel veri kaynakları bilgisine sahip değildir. Çünkü veri pazarları, veri ambarlarının aksine daha az bilgi içerirler bu nedenle kullanıcılar için çok daha çabuk ve kolayca anlaşılabilirler. SMY 535, Veri Madenciliği 11

Veri çıkarımı, veri ambarının kullandığı kaynaklardan (veri tabanı ve/veya diğer kaynaklar) veri elde etme işlemidir. Kaynaklardan çıkarılan veri genellikle geçici dosyalara yüklenilir. Dönüştürme aşamasında ise, elde edilen verilerdeki fazlalıklar atılır (veri temizleme) ve her veri sorgulamalarda kullanılabilecek uygun veri türüne dönüştürülür. Yükleme, dönüştürülen verinin veri ambarına aktarılması işlemidir. SMY 535, Veri Madenciliği 12

Veri ambarları için çok boyutlu perspektifi gerçekleyebilecek yeni modelleme teknikleri keşfedilmiştir: Yıldız (Star) Kar Tanesi (Snowflake) Karma (Mixed) SMY 535, Veri Madenciliği 13

Gerçek tablosu, temel iş ölçümlerini içeren niteliklerden oluşur. Bir gerçek tablo, o tabloya ait spesifik nitelikler ve boyut tablolarıyla ilişkili yabancı anahtarları içermektedir. Boyut tablosu, gerçek tablosunda saklanılan veriyi indeksler ve organize eden niteliklerden oluşmaktadır. Boyut tablosu, boyutu tanımlayan nitelikleri içermektedir. SMY 535, Veri Madenciliği 14

Kar tanesi modeli, yıldız modelinin geliştirilmiş halidir. Gerçek tablolarının her bir boyut tablosu başka boyut tablolarına da sahiptir. Boyut tabloları, bir çok niteliğe sahip olduklarında, normalize edilmeleri gereklidir. Yıldız modeli normalize edilmiş boyut tablolarını desteklemediğinden, bu durumda kar tanesi modeli tercih edilmelidir. SMY 535, Veri Madenciliği 15

Avantajları: Tüm tekrarlanılan veriler kaldırıldığından, saklama alanı korunmuş olur. Büyük normalize edilmemiş tablolar yerine, Join ler için normalize edilmiş daha küçük tablolar kullanılır. Dezavantajları: Sorgu sonucunda Join edilmesi gereken tabloların sayısının belirlenmesindeki zorluk Belirli bir sorguda kullanılacak tabloyu belirlemedeki zorluk SMY 535, Veri Madenciliği 16

Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. Böyle durumlarda tüm tasarımda ne yıldız ne de kar tanesi modeli kullanılamaz. Her iki modelin bir kombinasyonuna ihtiyaç duyulur. Bu kombinasyon modeline karma model denilmektedir. SMY 535, Veri Madenciliği 17

time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Measures Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city state_or_province country SMY 535, Veri Madenciliği 18

time time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key item item_key item_name brand type supplier_key supplier supplier_key supplier_type branch branch_key branch_name branch_type Measures branch_key location_key units_sold dollars_sold avg_sales location location_key street city_key city city_key city state_or_province country SMY 535, Veri Madenciliği 19

time time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key branch_key item item_key item_name brand type supplier_type Shipping Fact Table time_key item_key shipper_key from_location branch branch_key branch_name branch_type Measures location_key units_sold dollars_sold avg_sales location location_key street city province_or_state country SMY 535, Veri Madenciliği to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type 20

all all region Europe... North_America country Germany... Spain Canada... Mexico city Frankfurt... Vancouver... Toronto office L. Chan... M. Wind SMY 535, Veri Madenciliği 21

Shipping Method AIR-EXPRESS Customer Orders CONTRACTS Each circle is called footprint Customer Time TRUCK ANNUALY QTRLY DAILY CITY COUNTRY ORDER PRODUCT LINE Product PRODUCT ITEM PRODUCT GROUP SALES PERSON DISTRICT REGION DIVISION Location Promotion SMY 535, Veri Madenciliği Organization 22

Verinin hızlı bir şekilde analizine izin veren veri yapısıdır. Yıldız modeli için verilen örnek bir küp üzerinde aşağıdaki gibi saklanabilir: Gerçek tablosu : Çok boyutlu (3D) küp : prodid storeid date amt p1 c1 1 12 p2 c1 1 11 p1 c3 1 50 p2 c2 1 8 p1 c1 2 44 p1 c2 2 4 day 2 day 1 c1 c2 c3 p1 44 4 p2 c1 c2 c3 p1 12 50 p2 11 8 SMY 535, Veri Madenciliği 23

day 2 day 1 c1 c2 c3 p1 44 4 p2 c1 c2 c3 p1 12 50 p2 11 8 Örnek: Toplam Hesaplama... sale(c1,*,*) c1 c2 c3 p1 56 4 50 p2 11 8 c1 c2 c3 sum 67 12 50 129 sale(c2,p2,*) rollup drill-down sum p1 110 p2 19 sale(*,*,*) SMY 535, Veri Madenciliği 24

Özet tablolar (MV) bir sorgunun sonucunu saklar. Görüntüden farkı, görüntü sorgunun sonucunu değil sadece sorguyu saklar. Yani sorgunun kapsadığı tablo yada tablolardaki veriler değiştikçe görüntü de değişir. Fakat MV ayrı bir tablo gibi sorgu sonucunu sakladığından dolayı, ilgili tablolar değiştikçe içeriği değişmez. Bu nedenle CREATE TABLE AS SELECT komutu ile bir tablo oluşturmaya benzer. Bir tablodan farkı ise, belirli zaman aralıkları ile sorgunun tekrar çalıştırılıp, değişmiş olabilecek bilgilerin güncellenebilmesidir. Karmaşık sorguların yavaşlığından kurtulmak için veri ambarı ile ilgili sorgulamaların hızlandırılması için kullanılır. SMY 535, Veri Madenciliği 25

MV ler ilk olarak Oracle veritabanında kullanılmaya başlanmış (Oracle 8i den önceki ismi Snapshot idi), daha sonra IBM DB2 ve MS SQL Server tarafından da kullanılmıştır. Tablolara olan benzerliğinden dolayı IBM DB2 da Materialized Query Tables ismi verilmiştir. MV üzerinde de tablolarda olduğu gibi indeks oluşturabildiği için MS SQL Server da ise Indexed Views olarak isimlendirilmiştir. SMY 535, Veri Madenciliği 26

CREATE MATERIALIZED VIEW base_lookup_mv PARALLEL BUILD IMMEDIATE REFRESH FAST ON COMMIT ENABLE QUERY REWRITE AS SELECT l.nam,count(b.tot) count_tot,sum(b.tot) sum_tot,avg(b.tot) avg_tot FROM base_table b, lookup_table l WHERE b.id = l.id GROUP BY l.nam; İşlem Süreleri: Normal Insert : 60 s MV Insert : 70 s Normal Select : 1,015 s MV Select : 0.557 s SMY 535, Veri Madenciliği 27