Nesnelerin İnternetinde Veri Analizi

Benzer belgeler
Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: Websayfası:

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERI TABANLARıNDA BILGI KEŞFI

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Mesleki Terminoloji II Veri Madenciliği

BiL416 Hafta-1 Veri Madenciliği:Giriş

VERİ MADENCİLİĞİNE BAKIŞ

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİ F A T M A İ L H A N

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Büyük Veri ve Endüstri Mühendisliği

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

BİLGİYİ YÖNETME. Mustafa Çetinkaya

Kümeleme Algoritmaları. Tahir Emre KALAYCI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

bilişim ltd İş Zekâsı Sistemi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

VERİ MADENCİLİĞİNİN GÖREVLERİ

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

VERİ MADENCİLİĞİ Metin Madenciliği

Business Intelligence and Analytics Principles and Practices: Charting the Course to BI and Analytic Success

Veri Madenciliği - Giriş. Erdem Alparslan

VERİ MADENCİLİĞİ (Web Madenciliği)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Akdeniz Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölüm Tanıtımı

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Dr. Hidayet Takçı. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Bir Taşla Çok Kuş SAP İş Analitikleri Baştan Sona Paket Çözüm. Muzaffer YÖNTEM / Ülke Yöneticisi 9 Aralık 2014, Salı

Big Data (Buyuk Veri) Kamu ve Ozel Sektore Etkileri

Web Madenciliği Teknikleri

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

1 BILGI TEKNOLOJILERI VE YÖNETIM

SAP FORUM İSTANBUL Discover Simple Kararlarınızı ileri analitiklerle aydınlatın

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

Web Madenciliği (Web Mining)

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

2. SÜREKLİ DENETİME İLİŞKİN GENEL BİLGİLER

Akdeniz Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölüm Tanıtımı

İş Analitiği'ne Netezza ile Yüksek Performans Katın

Windows Azure Sunumu. Y. Bora Kaykayoğlu Ocak 2018 Kahramanmaraş

BÖLÜM 2. Bilişim Sistemleri, İş Süreçleri ve İşbirliği. Doç. Dr. Serkan ADA

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

Karar Destek Sistemleri

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

İş Zekâsı Sistemi Projesi

Akdeniz Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölüm Tanıtımı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

VARLIK YÖNETİMİ ÇÖZÜMÜ AKILLI. KOLAY. ENTEGRE

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması,

BÜYÜK ÖLÇEKLİ VERİ TABANLARINDA BİLGİ KEŞFİ

Veritabanı Uygulamaları Tasarımı

VERİ TABANI UYGULAMALARI

Sosyal ve Anlamsal Ağlar WWW. Web 1.0. Bilgi. Albert Long Hall, Boğazi 4-55 Nisan Ortak Beyin. Snow Crash. Kullanıcı: Tüketici

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

BULUT BİLİŞİM VE BÜYÜK VERİ ARAŞTIRMA LABORATUVARI. Ekim 2017

HACETTEPE ÜNİVERSİTESİ BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ TÜRKÇE İKTİSAT BÖLÜMÜ İÇİN ÇİFT ANADAL DERS PROGRAMI

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Programın Adı: Eğitim ve Öğretim Yöntemleri Proje/Alan Çalışması. Diğer Toplam Kredi AKTS Kredisi

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Başlıca Ürün-Bilgi Sistemleri

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Bilişim. Elektronik Belge Yönetim Sistemi

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA DERS PROGRAMI (Lisanstan gelenler için)

BİLİŞİM SİSTEMLERİNİN PRENSİPLERİ

Veri Tabanı-I 1.Hafta

IBM Güvenlik Sistemleri Yeni Nesil Güvenlik Bilgisi Toplama ve Olay Yönetimi

Büyük Ölçekli Veri Tabanlarında Bilgi Keşfi

VERİ MADENCİLİĞİ UYGULAMA ALANLARI. Application Fields of Data Mining. Abdullah BAYKAL 1. D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi 7, (2006)

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

İş Zekası çözümleri doğru zamanda, doğru kişiye doğru bilginin ulaşmasına olanak tanır.

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Semantik Bilgi Yönetimi

BÜYÜK VERİ Bülent DAL. Genel Müdür

Transkript:

Nesnelerin İnternetinde Veri Analizi Bölüm 2. Veri madenciliği w3.gazi.edu.tr/~suatozdemir

Veritabanı teknolojisinin gelişimi 2

Neden veri madenciliği? Bilgisayarların ucuzlayıp aynı zamanda çok güçlü hale gelmeleri Teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının da artması (terabyte to petabyte) Yeni veri toplama yolları Otomatik veri toplama aletleri, veritabanı sistemleri, bilgisayar kullanımının artması Büyük veri kaynakları İş dünyası: Web, e-ticaret, alışveriş, hisse senetleri, Bilim dünyası: Uzaktan algılama ve izleme, bioinformatik, simülasyonlar.. Toplum: haberler, digital kameralar, YouTube, Facebook Ticari rekabet baskısının artması Kişiselleştirilmiş ürünler, CSR yönetimi Veri içinde boğuluyoruz, ancak bilgi elde edemiyoruz!!! Necessity is the mother of invention 3

Neden veri madenciliği? 4

Veri madenciliği nedir? Veri madenciliği Basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılması Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. Veri madenciliği terimi ne kadar doğru? KNOWLEDGE DISCOVERY FROM DATA (KDD) (VERİDEN BİLGİ KEŞFİ) Alternatif isimler Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. 5

Veriden Bilgi Keşfi Teoride veri madenciliği bilgi keşfi işleminin bir parçasıdır Pratikte veri madenciliği ve veriden bilgi keşfi aynı anlamda kullanılır Data Mining Veri madenciliği Pattern Evaluation Örüntü değerlendirme Task-relevant Data Kullanım amaçlı veri Data Warehouse Veri ambarı Selection Seçme Data Cleaning Veri temizleme Data Integration Veri birleştirme Databases / Veri tabanları 6

Veriden Bilgi Keşfinin Aşamaları Uygulama alanını inceleme Konuyla ilgili bilgi ve uygulama amaçları Veri toplama ve birleştirme Amaca uygun veri kümesi oluşturma: Veri seçme Veri ayıklama ve önişleme Veri azaltma ve veri dönüşümü incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma, Veri madenciliği tekniği seçme Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme Veri madenciliği algoritmasını seçme Model değerlendirme ve bilgi sunumu Bulunan bilginin yorumlanması 7

Veri madenciliği ve diğer disiplinler Veri tabanı teknolojisi İstatistik Makina Öğrenmesi Veri Madenciliği Görselleştirme Örüntü Tanıma Algoritma Diğer Disiplinler 8

Uygulamaları Veri analizi ve karar destek sistemleri Market analiz ve yönetimi Risk analizi ve yönetimi Sahtekarlık tespiti (Fraud detection) Diğer uygulamalar Web sayfası analizi sınıflandırma, demetleme, ranking Öneri sistemleri Ağ güvenliği Text ve web madenciliği Sosyal ağ analizi Fikir madenciliği Gömülü VM fonksiyonları - Google, MS, Yahoo!, Linked, Facebook, 9

Örnekler 1. Market analizi Veri kaynağı: kredi kartı işlemleri, kuponlar.. Hedef market belirleme Aynı özelliği taşıyan müşterilerin belirlenmesi, satış stratejisi geliştirilmesi Çapraz market analizi Ürün satışları arasındaki ilişkiyi bulma Müşteri profili çıkarma Hangi tip müşteri ne alıyor Müşteri grupları için en iyi ürünleri belirle 10

Örnekler (devam) 2. Risk analizi Gelir ve kaynak planlama Bilanço değerlendirmesi Para akış analizi ve kestirimi Talep incelemesi Rekabet Diğer firmaların takibi, fiyatlandırma stratejisi geliştirme Kaynak planlaması Kaynakların incelenmesi ve uygun olarak dağıtılması 11

Örnekler (devam) 3. Sahtekarlık tespiti ve normal olmayan örüntülerin bulunması Sigorta, bankacılık, telekomünikasyon alanlarında Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme Örnek Araba sigortası Sağlık sigortası Kredi kartı başvurusu Ağ analizi 12

Veri madenciliği ve iş dünyası Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery End User Business Analyst Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA 13

Veri madenciliği kaynakları Veri dosyaları İlişkisel veritabanları Veri ambarları Konu odaklı olarak, düzenlenmiş, birleştirilmiş, sabitlenmiş, büyük veritabanı Gelişmiş veritabanları nesneye dayalı veritabanları www Sensörler IoT 14

IoT ve Günümüzde en önemli sorunlardan birisi, IoT tarafından üretilen veya alınan veriler insanların yaşam kalitesini artırmak için bilgiye nasıl dönüştürülür Bu nedenle, sayısız araştırmalar, IoT için etkin veri madenciliği teknolojileri kullanmaya veya geliştirmeye odaklanmaktadır IoT'yi daha akıllı yapmak için veri madenciliği algoritmaları kullanılabilir böylece daha akıllı hizmetler sağlanılabilir Günümüzde mevcut veri analiz araçlarının, IoT'nin büyük verisini işlemek ve analiz etmek için yeterince güçlü olmadığı bilinmektedir. dağıtık mimari random sampling, data condensation, divide and conquer, incremental learning 15

IoT ve 16

Veri madenciliği sınıflandırma Veri açısından İlişkisel, veri ambarı, zamana bağlı, akan, text, multimedia, web Bilgi açısından Kategorize, ayrım, ilişki, sınıflandırma, kümeleme, trend analizi, outlier analizi Kullanılacak teknik açısından Veri tabanı temelli, veri ambarı temelli (OLAP), istatistik,... Uygulanancak alan açısından Ticari, telekom, banka, sahtekarlık analizi, text madenciliği... 17

Veri madenciliği sınıflandırması Veri madenciliğinde veriyi belli bir modele uydurmak istiyoruz. Kestirime dayalı veri madenciliği (predictive) Kredi başvurularını risk gruplarına ayırma Bu işlemde dolandırıcılık var mıdır? Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini Tanımlayıcı veri madenciliği (descriptive) Veriler arasındaki gizli kalmış ilişkiyi ortaya çıkarırlar En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? 18

Kestirime dayalı (predictive) veri madenciliği Sınıflandırma: Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Gözetimli öğrenme Örüntü tanıma Kestirim Eğri uydurma: Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme: Zaman içinde değişen verinin değerini öngörür. 19

Kestirime dayalı veri madenciliği örneği: Sınıflandırma Ögrenme kümesi Sınıflandırıcı Model Deneme kümesi Model 20

Tanımlayıcı (descriptive) veri madenciliği Demetleme/kümeleme: Benzer verileri aynı grupta toplama Gözetimsiz öğrenme Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil edecek özellikler bulur. Genelleştirme Nitelendirme İlişkilendirme kuralları / birliktelik kurallları Veriler arasındaki ilişkiyi belirler Sıralı diziler: Veri içinde sıralı örüntüler bulmak için kullanılır. 21

Tanımlayıcı veri madenciliği örneği: Demetleme/Kümeleme Doküman Kümeleme: Dokümanlar içlerinde geçen terimlere göre gruplanacak Yaklaşım: Her doküman içinde sık geçen terimleri bul. Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü geliştir. Bu ölçüte göre demetleme yap Kullanımı: Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre arama yapıldığında bu terimleri içeren dokümanları bulma 22

Tanımlayıcı veri madenciliği örneği: Birliktelik kuralları Veri kümesindeki nesneler arasındaki ilişkiyi bulma bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin (nesnelerin) de varlığını tahmin edebilecek kurallar TID Nesneler 1 Ekmek, kola, süt 2 Su, ekmek 3 Su, kola, çocuk bezi, süt 4 Su, ekmek, çocuk bezi, süt 5 Kola, çocuk bezi, süt Kurallar {süt} à {kola} {çocuk bezi,süt} à {kola} 23

Hangi örüntü (kural)? Binlerce örüntü: Sadece bir kısmı önemli Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri madenciliği uygulanacak kadar büyük Bulunan örüntünün önemli olması için: insanlar tarafından kolayca anlaşılabilir sınama verisi veya yeni veriler üzerinde belli oranda geçerli yeni, yararlı ve kullanılabilir olması gerekir. 24

Tanımlayıcı veri madenciliği örneği: Sıralı diziler Zamana bağlı bir veri setinde veriler arasındaki sıra ilişkilerini bulur. Satış verileri içinde:, Bilgisayar ürünleri satan bir firma: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Spor malzemeleri satan bir firma: (Shoes) (Racket, Racketball) --> (Sports_Jacket) 25

Veri madenciliği sınıflandırması: Özet Sınıflandırma/Classification [Predictive] Demetleme/Clustering [Descriptive] İlişkilendirme kuralları bulma/association Rule Discovery [Descriptive] Sıralı dizi bulma/sequential Pattern Discovery [Descriptive] Eğri uydurma/regression [Predictive] Anomali bulma/deviation Detection [Predictive] 26

Veri Ambarları Çok fazla miktarda üzerinde işlem yapılan veri var Çoğunlukla farklı veritabanlarında ve farklı ortamlarda Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık) Karar destek birimleri veriye sanal olarak tek biryerden ulaşabilmeli Ulaşım hızlı olmalı 27

Veri ambarları Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı olarak düzenlenmiş, birleştirilmiş ve sabitlenmiş büyük veritabanı Amaca yönelik, konu odaklı Birleştirilmiş Zaman değişkenli, belirli bir döneme ait Son 5 yıl, v.b. Değişken değil, statik IoT? Veri silinmez, eklenmez 28

Veri Ambarı Mimarisi Diğer Kaynaklar Metadata İzleme Birleştirme OLAP Server Veritabanları Veri çek İşle Yükle Yenile Veri ambarı Hizmet Veri madenciliği Veri Mart ları Veri kaynakları Veri depolama OLAP motoru Son kullanıcı 29

nde Sorunlar Güvenlik ve sosyal haklar Kullanıcı arabirimi Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Veri kaynağı 30

nde Sorunlar (1) Özellikle güvenlik ve sosyal haklar ile ilgili kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması, veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması, gizlilik ve veri madenciliği politikalarının düzenlenmesi gibi sorunlar hala çözülememiştir. 6698 Sayılı Kişisel Verilerin Korunması Kanunu Kişisel Verileri Koruma Kurumu Başkanlığı Veri madenciliği genelde uygulamaya özgü çözümler içerdiğinden yaygın bir kullanıcı arabirimi oluşmamıştır. 31

nde Sorunlar (2) Kullanılan veri madenciliği yöntemine göre sonuçlar arasında çok büyük farklar çıkabilmektedir. Hangi yöntemin geçerli olduğu konusunda karar vermek uygulama alanına hakim kişiler tarafından verilmelidir. Başarım ve ölçeklenebilirlik için oluşturulan metriklerin geçerlilikleri konusunda ortak bir fikir yoktur. Başarım ve ölçeklenebilirlik konusu subjektiftir. %90 başarı bazı uygulamalar için iyi sayılabilirken, sağlık alanında çok kötü bir değer olarak nitelendirilebilir. Çoğu durumda veri kaynağından elde edilen bilgilerin güvenilirliği konusunda doğrulama yapılamamaktadır (kişisel bilgilerin gizliliği). 32