İş Zekası. Hafta 5 Veri Madenciliği. Yrd. Doç. Dr. H. İbrahim CEBECİ



Benzer belgeler
VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Web Madenciliği (Web Mining)

CBS ve Coğrafi Hesaplama

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Web Madenciliği (Web Mining)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

İş Analitiği'ne Netezza ile Yüksek Performans Katın

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

K En Yakın Komşu Methodu (KNearest Neighborhood)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Büyük Veri ve Endüstri Mühendisliği

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Gözetimli & Gözetimsiz Öğrenme

Uzaktan Algılama Teknolojileri

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Kısaca. Müşteri İlişkileri Yönetimi. Nedir? İçerik. Elde tutma. Doğru müşteri Genel Tanıtım

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kredi Limit Optimizasyonu:

Veri madenciliği yöntemleri

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

PROF. DR. ŞAKİR ESNAF IN BİTİRME PROJESİ KONULARI

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİNE BAKIŞ

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

1 BILGI TEKNOLOJILERI VE YÖNETIM

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

AVĐVASA da Veri Madenciliği Reşat Fırat ERSĐN Stratejik Planlama ve ĐşGeliştirme Birim Yöneticisi

Veri Madenciliği Karar Ağacı Oluşturma

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Dr. Ergün AKGÜN Kimdir?

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Doğal olarak dijital

Bütünleşik Örnek Olay Çalışması: Bandon Grup Şirketi. Bölüm 1 Kurumsal Kaynak Planlaması Sistemlerine Giriş 1

Makine Öğrenmesi 2. hafta

Muhammet Fatih AKBAŞ, Enis KARAARSLAN, Cengiz GÜNGÖR

Örüntü Tanıma (EE 448) Ders Detayları

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Mesleki Terminoloji II Veri Madenciliği

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Lojistik ve Bilgi Sistemleri ÖĞR. GÖR. MUSTAFA ÇETİNKAYA

Nesnelerin İnternetinde Veri Analizi

Planlama Optimizasyonu ile Perakendede Karlılığı Artırmak

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

İş Zekâsı Sistemi Projesi

Neden Endüstri Mühendisliği Bölümünde Yapmalısınız?

Analitiğin Gücü ile Üretkenliğinizi Arttırın. Umut ŞATIR GÜRBÜZ Tahmine Dayalı Analitik Çözüm Mimarı, CEE

GALATASARAY ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ MÜHENDİSLİK VE TEKNOLOJİ FAKÜLTESİ ÖĞRETİM ÜYELERİ TARAFINDAN YÜRÜTÜLEN PROJELER ( )

2. BASİT DOĞRUSAL REGRESYON 12

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA DERS PROGRAMI (Lisanstan gelenler için)

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Dijital Dönüşüm ile. Değişen Üretim Süreçleri ve Yeni İş Modelleri. Doç. Dr. Alp ÜSTÜNDAĞ

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

İÇİNDEKİLER 1. GİRİŞ...

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

GALATASARAY ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ MÜHENDİSLİK VE TEKNOLOJİ FAKÜLTESİ ÖĞRETİM ÜYELERİ TARAFINDAN YÜRÜTÜLEN PROJELER ( )

ULUSLARARASI ANTALYA ÜNİVERSİTESİ ENDÜSTRİ MÜHENDİSLİĞİ BÖLÜMÜ DERS KATALOĞU

Kamu Sektörü İçin SAP Karar Destek Sistemleri Zirvesi. Gökhan NALBANTOĞLU / CEO, Ereteam 9 Aralık 2014, Salı

Yazılım Mühendisliği 1

Başlıca Ürün-Bilgi Sistemleri

Veri Madenciliği - Giriş. Erdem Alparslan

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler

MÜHENDİSLİK VE TEKNOLOJİ FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ 2016/2017 ÖĞRETİM YILI 1. YARIYIL FİNAL SINAVI PROGRAMI 1. SINIF

BİLGİSAYAR VE ENFORMASYON BİLİMLERİ YÜKSEK LİSANS DERS PROGRAMI (Tezli Program)

Tedarik Zinciri Yönetimi

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

VERİ MADENCİLİĞİ F A T M A İ L H A N

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Karar Ağacı Öğrenmesi(Decision Tree Learning)

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

Transkript:

İş Zekası Hafta 5 Veri Madenciliği Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir

Bölüm Amaçları İş zekası uygulamaları için mümkün kılan bir teknoloji olarak veri madenciliğini tanımlamak Veri madenciliği ve iş zekasının faydalarını ve avantajlarını anlamak Her türlü alanda yer alan veri madenciliği uygulamalarını tanımlayabilmek Standardize edilmiş veri madenciliği süreçlerini öğremek CRISP-VM SEMMA KDD 10e isimli eserden adapte edilmiştir 2/79

Bölüm Amaçları Veri madenciliğinde ön işleme süreçlerini öğrenmek ve önemini anlamak Veri madenciliği sürecinde kullanılan farklı metot ve yöntemleri anlayabilmek Var olan veri madenciliği yazılım araçları hakkında farkındalığı artırmak Ticari yazılımlar vs ücretsiz/açık kaynak kodlu yazılımlar Veri madenciliği hakkındaki mitleri ve tuzakları anlamak 10e isimli eserden adapte edilmiştir 3/79

Açılış Vakası Cabela Gelişmiş Analitik ve Veri madenciliği ile daha müşterinin ilgisini çekiyor Karar durumu Problem Tanımı Önerilen Çözüm Sonuçlar Vaka sorularının cevapları ve genel tartışmalar Perakendeciler neden gelişmiş analitik ve veri madenciliğine daha fazla önem vermektedir? Çok kanallı tedarikçilerin karşılaştığı en temel zorluk nedir? Diğer endüstri segmentlerini de düşünerek cevaplayınız. Cabela benzeri perakendecilerin en temel veri kaynakları nedir? 10e isimli eserden adapte edilmiştir 4/79

Veri Madenciliği Kavramı / Neden VM? Küresel ölçekte daha yoğun rekabet ortamı Müşteriye özel servis uygulamaları gereksinimi (CRM) Veri kaynaklarındaki değerlerin tanımlanması Müşteri, satıcı, işlem ve web tabanlı daha kaliteli verinin varlığı Veri ambarı teknolojisi ile birlikte farklı kaynakların analize uygun şekilde tek bir yerde konsolide edilmesi Veri işleme ve depolama kapasitelerindeki üstel arıtış maliyetlerde düşüş 10e isimli eserden adapte edilmiştir 5/79

Veri Madenciliği Kavramı / Neden VM? İşletmelerin sahip oldukları veri karakteristikleri ile ilgili olup, verilerin yüksek boyutlarda, kompleks ve heterojen olması ve verilerin farklı coğrafi yerlerde tutulması ile ortaya çıkan dağıtık veri mimarisi (Veri Madenciliğine teknolojik gereksinim) Büyük ölçüde verilerin etkin bir biçimde analiz edebilecek yöntem ihtiyacı (Karmaşık yarı yapısal ve yapısal olmayan yöntemlere gereksinim) 10e isimli eserden adapte edilmiştir 6/79

Veri Madenciliği Veri Madenciliği, Çok büyük boyuttaki veri setlerinde açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da ilişkilerin belirlenip karar destek amaçlı yararlı bilgiye dönüştürülmesi sürecidir. Statik istatistiksel yaklaşımlar Veri madenciliği değildir. Fakat veri madenciliği sürecine yardımcıdır. Bir Sınıftaki öğrencileri dersten kalması riski olanlarının belirlenmesi (Veri küçük) Üniversite genelinde matematik dersinden başarılı olanların, istatistik dersinden de başarılı olmaları (Veri büyük ama İlişki çok açık) Değerli bilgi orada bir yerde, nasıl ulaşacağız!! 10e isimli eserden adapte edilmiştir 7/79

Veri Madenciliğinin Evrimsel Süreçleri Aşama İş sorusu Teknolojiler Karakteristikler Veri toplama Son 5 yıllık ortalama Bilgisayarlar, Geçmişe ait statik veri (1960 lar) gelirim nedir? kasetler, diskler dağıtımı Veri (1980 ler) erişimi Veri navigasyon (1990 lar) Veri madenciliği (2000) Geçen Mart ta New England daki birim satışlar neydi? Geçen Mart ta New England daki birim satışlar neydi? Boston özelinde neydi? Gelecek ay Boston un birim satışları ne olacak? Neden? İlişkisel veri tabanları, yapısal sorgu dili, ODBC Çevrimiçi analitik süreç (OLAP), çok boyutlu veri tabanları, veri ambarları İleri algoritmalar, çok işlemci bilgisayarlar, büyük veri tabanları Kayıt seviyesinde, geçmişe ait dinamik veri dağıtımı Çoklu seviyelerde geçmişe ait dinamik veri dağıtımı Olası proaktif bilgi dağıtımı 10e isimli eserden adapte edilmiştir 8/79

Veri Madenciliği Örüntü Tanıma VERİ MADENCİLİĞİ Sayısal Modelleme Yönetim ve Bilişim Bilimleri Makine Öğrenmesi Veri Tabanları 10e isimli eserden adapte edilmiştir 9/79

VM Karakteristikleri ve Amaçları VM için kullanılacak veri kaynakları çoğunlukla birleştirilmiştir. (Veri ambarları) VM ortamları genelde istemci-sunucu veya web tabanlı bilişim sistemli mimarileridir VM veri kaynakları esnek/yapısal olmayan verileri de içerir Madenci genelde son kullanıcıdır Zengin içerikle başa çıkmak genelde yaratıcı zekaya gereksinim duyar VM araçlarının kullanım kolaylığı ve veri işleme yeterlilikleri kritik öneme sahiptir. 10e isimli eserden adapte edilmiştir 10/79

Kayıtlar Veri madenciliğinde VERİ İlişkisel kayıtlar, Çapraz kayıtlar (Kontenjans), Metin, İşlem (Transaction) Grafikler ve Ağlar Sosyal Ağlar, www, Moleküler yapılar Sıralanmış Veri Setleri Videolar (Sıralı resimler), zaman serileri, Sıralı işlem (Sequental Transactions) verileri, Genetik Konum, Resim ve Çokluortam Haritalar ve GPS verileri 10e isimli eserden adapte edilmiştir 11/79

Veri madenciliğinde VERİ Veri Yapısal Yarı yapısal / Yapısal olmayan Kategorik Nümerik Metin Çoklu ortam HTML/XML Nominal (Nitel) Ordinal (Sıralı) Aralık (Interval) Oran (Ratio) 10e isimli eserden adapte edilmiştir 12/79

VM ne yapar? Nasıl Çalışır? Veriden örüntüleri çıkarır Örüntü: Veri kaynakları arasındaki matematiksel, sayısal veya sembolik ilişkiler Örüntü türleri Birliktelik Tahmin (Kestirim) Kümeleme (Bölümleme-Segmentasyon) Sıralı ilişkiler (Zaman serileri) 10e isimli eserden adapte edilmiştir 13/79

VM Görevlerinin Sınıflandırılması Veri Madenciliği Tahmin Birliktelik Sınıflandırma Regresyon Öğrenme Metodu Denetimli Denetimli Denetimli Denetimsiz Popüler Algoritmalar CART, YSA, Destek Vektör Makineleri, Genetik Algoritmalar, CHAID Karar Ağaçları, YSA/ÇKA, Destek Vektör Makineleri, GA Doğrusal (/olmayan) Regresyon, Regresyon ağaçları, YSA/ÇKA, DVM Apriori, OneR, ZeroR, Eclat Bağlantı analizi Denetimsiz Grafik temelli eşleme, Apriori Kümeleme Sıralama analizi Denetimsiz Denetimsiz Apriori, FP-Growth K-Means, YSA, SOM Aykırı değer analizi Denetimsiz K-Means 10e isimli eserden adapte edilmiştir 14/79

VM Görevlerinin Sınıflandırılması Veri Tabanı Uygulaması: 1980 yılında doğan ParaCard sahibi müşterileri belirle. Ayda 1000 TL altı market harcaması yapan müşterileri belirle. CHIP dergisi alan müşterileri belirle. Veri Madenciliği Uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (kümeleme) DVD birlikte sıkça satın alınan ürünü bul (Birliktelik Kuralları) 10e isimli eserden adapte edilmiştir 15/79

Pazarlama ve CRM Veri Madenciliği Uygulamaları Müşteri profili çıkarma (yeni ürün/hizmetlere tepki verebilecek ya da alıcı konumunda olabilecek kişilerin tespiti) Müşteri elde tutma performansını arttırmaya yönelik müşteri kayıp analizi ve bunun köken sebeplerinin ortaya çıkarılması Müşteri değeri ve satışlarını artırmak için ürünler/hizmetler arasındaki zaman değişkenli veya birliktelik esaslı ilişkilerin keşfi 10e isimli eserden adapte edilmiştir 16/79

Pazarlama ve CRM Veri Madenciliği Uygulamaları En karlı (ya da hedef) müşterilerin tespiti ve satışları arttırmaya ve ilişki güçlendirmeye yönelik bu müşterilerin ihtiyaç analizleri Çarpraz satış ve üst kategori ürün satışı yapabilmek gibi hedefe yönelik pazarlama kampanyalarına muhtemel tepki verebilecek müşteri segmentlerinin tespiti Pazarlama kampanyalarına pozitif tepki verme oranının tahmini Müşteri satın alma davranışını anlayabilme ve yorumlama 10e isimli eserden adapte edilmiştir 17/79

Bankacılık Veri Madenciliği Uygulamaları En muhtemel problemli kredi çekenlerin tahmini ile kredi başvuru sürecinin otomatize edilmesi Kaçak internet bankacılığı ve kredi kartı kullanımı tespiti Alım potansiyeli yüksek ürün ve hizmetlerin satışı ile müşteri değerini arttırıcı yolların tespiti ATM ya da banka şubelerindeki nakit akışlarının doğru tahmini ile nakit dönüşünün optimize edilmesi 10e isimli eserden adapte edilmiştir 18/79

Sağlık / Tıp Veri Madenciliği Uygulamaları Sağlık sigortası olmayan insanların tespiti ve bunun nedenlerinin keşfi, Farklı tedavilerin fayda-maliyet analizi çerçevesinde karşılaştırılması Organizasyonel kaynakların optimizasyonu için farklı servis yerlerindeki talebin zamansal ve seviyesel tahmini Bakılan hasta ve çalışan sayısındaki azalmanın sebeplerinin anlaşılması Klinik testler ile hastalıkların erken teşhisi 10e isimli eserden adapte edilmiştir 19/79

Sağlık / Tıp Veri Madenciliği Uygulamaları Hastalıkların teşhisi için görüntü analizi Kanser hastalarının yaşam süresini uzatıcı ilginç örüntülerin keşfi Donör-organ eşleşme sürecini iyileştirmek için organ nakil başarı yüzdesinin tahmini İnsan kromozomundaki farklı genlerin fonksiyonlarının belirlenmesi (Genomics) Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi 10e isimli eserden adapte edilmiştir 20/79

Spor Veri Madenciliği Uygulamaları Basketbol oyun verileri ile takım çalıştırmaya yönelik ilginç örüntülerin keşfi Futbol takımı antrenörlerinin performans ile çeşitli göstergeleri ilişkilendirmesi İddia öneri uygulamaları Özellikle Amerikan sporlarında yoğun olarak kullanılan gözlemci sistemlerine destek olarak kullanılan Bilişim sistemleri Amerikan sporlarındaki oyuncu seçmeleri 10e isimli eserden adapte edilmiştir 21/79

Güvenlik ve Hukuk Veri Madenciliği Uygulamaları Terörist davranışlı örüntülerin tespiti Suç örüntülerinin keşfi Biyolojik ve kimyasal atakların tespiti ve ortadan kaldırılması Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması 10e isimli eserden adapte edilmiştir 22/79

Eğlence Veri Madenciliği Uygulamaları Prime-time da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi Filmlerin finansal başarısının tahmini ve geri dönüşün optimizasyonu Kaynakların optimize edilmesi ve eğlence aktivitelerinin daha iyi çizelgelenmesi için farklı yerler ve zamanlardaki taleplerin tahmini Gelirleri maksimize edecek optimum fiyatlandırma politikalarının geliştirilmesi 10e isimli eserden adapte edilmiştir 23/79

Seyahat Veri Madenciliği Uygulamaları Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama seçenekleri) satış tahmini (saha yönetimi optimizasyonu) Farklı yerlerdeki talep tahmini En karlı müşterilerin tespiti ve onların sürekliliği özelleştirilmiş hizmetlerin sağlanması Değerli çalışanların firmalardan ayrılmalarının engellenmesi 10e isimli eserden adapte edilmiştir 24/79

Hükümet ve Savunma Veri Madenciliği Uygulamaları Askeri personel ve ekipmanın taşınma maliyetinin tahmini Düşman hareketlerinin öngörümü ile daha başarılı askeri müdahale stratejileri geliştirilmesi Daha iyi bütçeleme ve planlama için kaynak tüketiminin tahmini Askeri operasyonlardan öğrenilen derslerin, stratejilerin ve özgün tecrübelerin kategorik olarak tespiti 10e isimli eserden adapte edilmiştir 25/79

Veri Madenciliği Uygulamaları Bilgisayar Yazılım ve Donanımı Disk hatalarının tahmini İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması 10e isimli eserden adapte edilmiştir 26/79

Sigortacılık Veri Madenciliği Uygulamaları Daha iyi bir iş planlama için emlak ve sağlık sigorta maliyetlerinin tahmini Sigorta kullanımı ve müşteri verisi analizi ile optimal dönüş planının belirlenmesi Hangi müşterilerin yeni sigorta poliçeleri alacağının tahmini Sigorta ödemelerindeki kaçakçılığın tespiti ve önlenmesi 10e isimli eserden adapte edilmiştir 27/79

Veri Madenciliği Uygulamaları Borsa ve Menkul Kıymetler Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini Sermaye dalgalanmalarının yönü ve oranının tahmini Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi 10e isimli eserden adapte edilmiştir 28/79

İmalat ve Üretim Veri Madenciliği Uygulamaları Sensör verisini kullanarak makine arızalarının gerçekleşmeden önce tahmini İmalat kapasitesinin optimize edilmesi için üretim sistemlerindeki ortaklıkların ve sıra dışılıkların belirlenmesi Ürün kalitesini arttırmaya yönelik örüntülerin keşfi 10e isimli eserden adapte edilmiştir 29/79

Veri Madenciliği Uygulamaları Perakendecilik ve Lojistik Doğru envanter seviyeleri belirleyebilmek için belirli perakende noktalarındaki satışların doğru olarak tahmini Pazar-sepet analizi Lojistik optimizasyonu için farklı ürün tiplerine ait (çevresel ve mevsimsel faktör durumlarında) tüketim seviyelerinin tahmini Sensör ve RFID verileri kullanılarak tedarik zincirindeki ürün hareketlerindeki ilginç örüntülerin keşfi (özellikle raf ömrü sınırlı olan ürünler için) 10e isimli eserden adapte edilmiştir 30/79

Veri Madenciliği Süreci En iyi uygulamanın ortaya konması VM projelerinin doğru şekilde yürütülmesi için sistematik bir yol önermek Farklı grupların (sektörlerin, firmaların, yazılımların vb.) farklı çözümleri var Ortak standart VM süreçleri prosedürleri CRISP-VM SEMMA KDD (Knowledge Discovery in Databases) Veri tabanlarında Bilgi Keşfi 10e isimli eserden adapte edilmiştir 31/79

Veri Madenciliği Süreci CRISP-VM KİŞİSEL ÇÖZÜMLER SEMMA KDD FİRMAYA ÖZEL ÇÖZÜMLER YOK ALAN ODAKLI METODOLOJİ DİĞER METODOLOJİLER 0 10 20 30 40 50 60 70 10e isimli eserden adapte edilmiştir 32/79

CRISP-VM Avrupa da veri madenciliği işlemlerini yürüten ticari firmalardan oluşan konsorsiyumun ortaya koyduğu bu yaklaşımda, teknik açıdan veri madenciliği sürecine sistematik bir yol haritası çizilmiştir. İşin Anlaşılması Toplam Proje süresinin % 80 i Sonuçların Yayılımı Sonuçların Değerlendirilmesi Veri Kaynakları Verinin Anlaşılması Verinin Hazırlanması Verinin Modellenmesi 10e isimli eserden adapte edilmiştir 33/79

SEMMA SAS enstitüsü tarafından geliştirilmiş veri madenciliği uygulama prosedürüdür. Sample Veriyi temsil edecek bir Örneklem Üretme ya da Alma Assess Modellerin doğruluğu ve kullanılabilirliğini Değerlendirme SEMMA Explore Verinin görselleştirilmesi ve temel tanımlamasına ilişkin Keşif Model Çeşitli istatistiksel ve makine öğrenmesi teknikleri ile Modelleme Modify Değişkenlerin seçimi ve dönüşümü içeren Değiştirme 10e isimli eserden adapte edilmiştir 34/79

Veri Önişleme Süreci Gerçek Dünya Verisi Veri Temizleme Veri Birleştirme Veri Toplama Veri Seçimi Veri Bütünleştirme Veri Birleştirme Veri Temizleme Kayıp veriler düzenleme Gürültü azaltma Tutarsızlıkları elemine etme Veri Dönüştürme Normalizasyon Verileri kesiklileştirme Yeni değişkenler üretme Veri İndirgeme Değişken sayısını azaltma Kayıt sayısını azaltma Veri dengeleme İşlenmiş Veri 10e isimli eserden adapte edilmiştir 35/79

Veri Temizleme Veri setlerinde bulunan veriler; Tam olmayabilir, (Incomplete) Sorunun anlaşılmaması veya eskik kategori (Meslek Grupları) Kirli (Gürültülü) olabilir, (Noisy) Değişken alanlarının yanlış girilmesi (Maaş = -10TL ) Tutarsız olabilir, (Inconsistent) Yaş: 40 Doğum tarihi: 1990 Yanlış ve/veya yanlı olabilir (Intentional) Doğum günlerindeki 1 Ocak tarihleri Bu durumda veri setleri yukarıda anlatına verilerden temizlenmelidir. Olası Problem: Temizlik sırasında gerekli ve önemli bilgilerin kaybolması ihtimali 10e isimli eserden adapte edilmiştir 36/79

Eksik veri tamamlama Veri Temizleme Kaydı yok say Elle doldurma Global bir değerle doldurma Eksik verileri ortalamayla doldurma En olası değerle doldurma (Regresyon, Bayes) Hatalı verileri düzeltme Hatalı veri toplama gereçleri Veri giriş problemleri Beri girişi sırasında kullanıcıların hatalı yorumları Beri iletim hataları ve teknolojik sınırlamalar Tutarsız ve yanlış verileri kaldırma 10e isimli eserden adapte edilmiştir 37/79

Veri Birleştirme Veri bütünleştirme temelde farklı veri tabanlarında bulunan verilerin tek bir veri ambarında toplanması sürecidir. Şema Entegrasyonu Bir veri tabanında girişler musteri-id şeklinde yapılmışken, bir diğerinde musteri-numarasi şeklinde olabilir. Problem Metadata kullanımı ile aşılır. Varlık Tanıma Problemi Bill Clinton William Clinton Metre - Inch 10e isimli eserden adapte edilmiştir 38/79

Veri Dönüştürme Düzgünleştirme: (Kova Metodu, Histogram) Birleştirme Normalizasyon Min-Max Normalizasyonu Z Dönüşümü Ondalık Ölçekle Normalizasyon Verileri Kesikli Hale Getirme Kavram Hiyerarşisi 10e isimli eserden adapte edilmiştir 39/79

Min-Max Normalizasyonu: Veri Dönüştürme Eğer normalizasyon 0-1 arasında olacak ise; v' v maxa mina min A Eğer bir veri setindeki en küçük değer 17000 ve en büyük değer 92000 ise 65000 değerinin normal karşılığı aşağıdaki gibi bulunur. = 65000 17000 92000 17000 = 48000 75000 = 0,64 10e isimli eserden adapte edilmiştir 40/79

Veri İndirgeme Stratejileri Veri İndirgeme Veri Birleştirme (Aggregation) Boyut İndirgeme Dalgacık Dönüşümleri (DWT Discrete Wavelet Transforms) Temel Bileşen Analizi (PCA Principal Component Analysis) Öznitelik alt küme seçimi ve Öznitelik oluşturma (Feature Selection and Creation Korelasyon, CHAID, GINI) Sayısal İndirgeme (Numerosity reduction) Regresyon Modelleri Histogram, Kümeleme ve Örnekleme 10e isimli eserden adapte edilmiştir 41/79

Veri Madenciliği Metotları: Sınıflandırma Sınıflandırma = Classification Sınıflandırma analizinde temel amaç ele alınan verinin önceden belirli sınıf değişkenine atanıp, atanmayacağının tahmin edilmesidir. Gözetimli Öğrenme tekniğidir. Gözetimli Öğrenme (Supervised Learning) - Sınıflandırma Gözetimli Öğrenmede sınıf sayısı genelde baştan belli Gözetimsiz Öğrenme (Unsupervised Learning) Kümeleme Sınıf sayısı belli değil 10e isimli eserden adapte edilmiştir 42/79

Veri Madenciliği Metotları: Sınıflandırma Sınıflandırma yaklaşımlarında geçmiş verilerin işlendiği bir training set olmalıdır. Training set içerisindeki nitelik (atribute) sütunlarından bir tanesi sınıflandırma ölçütü (class) olmalıdır Diğer nitelik sütunlarının bir fonksiyonu olarak sınıf değişkeni için bir model oluşturulur. Oluşturulan bu model başlangıçta veri setinden ayrılmış olan test veri seti yardımıyla test edilir. Sonuçta elde edilen model yardımıyla tahminler gerçekleştirilir. 10e isimli eserden adapte edilmiştir 43/79

Sınıflandırma Modeli Yapısı %70 Eğitim Verisi Model Geliştirme İşlenmiş Veri Sınıflayıcı %30 Test Verisi Model Değerlendirme (Skorlama) Kestirim Doğruluğu Yapay Sinir ağlarında veri üçe bölünür. %60 Eğitim, %20 Test, %20 Doğrulama 10e isimli eserden adapte edilmiştir 44/79

Sınıflandırma Model Oluşturma Sınıflandırma Algoritması Öğrenme Kümesi Müşteri Alışveriş Zamanı Cinsiyet Harcama Miktarı 001 Az Erkek Düşük 002 Az Bayan Yüksek 003 Çok Erkek Yüksek 004 Çok Bayan Yüksek 005 Çok Erkek Yüksek Sınıflandırma Modeli Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur 10e isimli eserden adapte edilmiştir 45/79

Sınıflandırma Modelin Değerlendirilmesi Sınıflandırma Modeli Müşteri Sınama Kümesi Alışveriş Zamanı Cinsiyet Harcama Miktarı 006 Çok Erkek Düşük 007 Az Bayan Yüksek 008 Çok Erkek Yüksek 009 Az Bayan Yüksek 010 Çok Erkek Yüksek Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur Model Başarımı : 4/5=0,80 10e isimli eserden adapte edilmiştir 46/79

Sınıflandırma Modelin Kullanılması Müşteri Tahmin Veri Seti Alışveriş Zamanı Cinsiyet 011 Çok Erkek 012 Çok Bayan 013 Çok Erkek 014 Az Bayan 015 Az Erkek Sınıflandırma Modeli Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur Harcama Miktarı Yüksek Yüksek Yüksek Yüksek Düşük 10e isimli eserden adapte edilmiştir 47/79

Sınıflandırma Metotlarının Değerlendirilmesi Doğru sınıflandırma başarısı Hız modeli oluşturmak için gerekli süre sınıflandırma yapmak için gerekli süre Kararlı olması veri kümesinde gürültülü ve eksik nitelik değerleri olduğu durumlarda da iyi sonuç vermesi Ölçeklenebilirlik büyük miktarda veri kümesi ile çalışabilmesi Anlaşılabilir olması kullanıcı tarafından yorumlanabilir olması Kuralların yapısı birbiriyle örtüşmeyen kurallar 10e isimli eserden adapte edilmiştir 48/79

Sınıflandırma Yöntemleri Bayes sınıflandırıcılar (Bayes classifier) Yapay sinir ağları (artificial neural networks) İlişki tabanlı sınıflandırıcılar (association-based classifier) k-en yakın komşu yöntemi (k- nearest neighbor method) Destek vektör makineleri (support vector machines) Genetik algoritmalar (genetic algorithms) Karar ağaçları (decision trees) 10e isimli eserden adapte edilmiştir 49/79

Yapay Sinir Ağları Sınıflandırma Yöntemleri Yapay sinir ağları insan beyninin ağ yapısının matematiksel olarak modellenmiş halidir. Öğrenme temelli bir algoritmadır. Yapay sinir ağlarından ilişkiyi (sınıfı) açıklayan temel bir denklem belirlenir. Daha sonra iteratif bir yaklaşımla bu denklem setinin ağırlıkları ve katsayıları değiştirilerek öğrenme kabiliyeti arttırılır. Belli eşik değerine ulaştığından denklem sabitlenir ve tahmin için kullanılır. 10e isimli eserden adapte edilmiştir 50/79

Yapay Sinir Ağları Sınıflandırma Yöntemleri Yapay sinir ağları girdi katmanı, gizli katman ve çıktı katmanı olarak 3 farklı katmana sahip bir mimaridir. Yapay sinir ağları temel olarak hatalarından öğrenen ve kendini geliştiren zeki bir yaklaşımdır. 10e isimli eserden adapte edilmiştir 51/79

Genetik algoritmalar Sınıflandırma Yöntemleri Genetik algoritma genetik bilimindeki çaprazlama ve mutasyon tekniklerini kullanarak optimizasyon gerçekleştiren bir arama algoritmasıdır. Genetik algoritmalar çaprazlama ve optimizasyon özellikleri sayesinden karar ağaçları benzeri şekilde kurallar bulabilir. Bu şekilde sınıflandırma da kullanılabilir. 10e isimli eserden adapte edilmiştir 52/79

k-en Yakın Komşu Yöntemi Sınıflandırma Yöntemleri Bu teknikte yeni bir durum daha önce sınıflandırılmış benzer, en yakın komşuluktaki k tane olaya bakılarak sınıflandırılır. Uzaklık ölçütü olarak genellikle öklit uzaklıkları alınır. K en yakın komşuluğundaki olayların ait olduğu sınıflar sayılır ve yeni durum sayısı fazla olan sınıfa dahil edilir. Bu yöntemin tercih edilme sebebi, sayısı bilinen veri kümeleri için hızlı ve verimli olmasıdır. X2 Dikkat!!! Bu yöntem bir öğrenme tekniği değildir. A 10e isimli eserden adapte edilmiştir 53/79 X1

Karar Ağaçları Sınıflandırma Yöntemleri Yukarıdan aşağıya doğru ters bir ağaç biçiminde akış diyagramları yardımıyla gösterilen sınıflama yöntemi Bütün karar ağaçları bir öz nitelikten başlayarak, eğer gerek görülürse alt öz niteliklere bölünerek devam eden ve dalın sonunda sınıf değerine ulaşan yapıdadır. Genel karar ağaçları algoritmalarında amaç ağaç dallarını budayarak, ağaç sayısını azaltarak daha hızlı ve etkin kurallara ulaşmaktır. ID3, C4.5, C5, CART, CHAID, M5 10e isimli eserden adapte edilmiştir 54/79

Sınıflandırma Yöntemleri Karar Ağaçları Öncelikle veri setindeki sürekli değerler dönüştürülür. Ağaç bütün verinin oluşturduğu tek bir düğümle başlar Eğer örneklerin hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanır ve sınıf etiketini alır eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik seçilir Bilgi kazancı (Information Gain) ID3 Kazanç Oranı (Gain Ratio) C4.5, C5.0 Gini Indeks CART Ki-Kare - CHAID işlem sona eriyor örneklerin hepsi (çoğunluğu) aynı sınıfa ait örnekleri bölecek nitelik kalmamış kalan niteliklerin değerini taşıyan örnek yok 10e isimli eserden adapte edilmiştir 55/79

Sınıflandırma Yöntemleri Karar Ağaçları Düğüm Noktaları evet A 1 > B 1 hayır Eğer A 1 >B 1 ve A 2 >B 2 ise C=1 ; Eğer A 1 >B 1 ve A 2 <=B 2 ise C=0 ; Eğer A 1 <=B 1 ise C=0 ; A 2 > B 2 C = 0 evet hayır C = 1 C = 0 Sınıflar 10e isimli eserden adapte edilmiştir 56/79

Veri Madenciliği Metotları: Kümeleme Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş olsun, kümelemenin amacı aşağıdaki özellikleri sağlayan kümeleri bulmaktır. (Gözetimsiz Öğrenme) Bir kümedeki veri noktaları diğer noktalara göre daha benzerdir Farklı kümelerdeki veri noktaları diğer noktalara göre daha az benzerdir. Benzerlik Ölçümleri: Eğer öznitelikler sürekli değerler ise o zaman Öklit Uzaklıkları (Euclidian Distance) kullanılır. Diğerlerinde probleme uygun ölçümler kullanılır. 10e isimli eserden adapte edilmiştir 57/79

Veri Madenciliği Metotları: Kümeleme Kümeleme: İncelenen karakteristikler açısından benzer özellikleri olan verilerin bir arada değerlendirilmesi (kümelenmesi) 2 Küme mi? 4 Küme mi? 10e isimli eserden adapte edilmiştir 58/79

Veri Madenciliği Metotları: Kümeleme Analiz Metotları İstatistiksel metotlar (Hiyerarşik ve Hiyerarşik olmayan) K-ortalamalar (K-Means) K-Modlar Sinir Ağları Adaptif Rezonans Teorisi (ART) Özdüzenleyici Haritalar (Self-Organizing Maps) Genetik Algoritmalar 10e isimli eserden adapte edilmiştir 59/79

K-Ortalamalar (K-Means) Bu algoritmada öncelikle k tane küme oluşturulacaksa, n tane veriden k tanesi rastgele seçilir. Bu değerler centroid olarak atanır ve her bir değerin bu verilerden uzaklıkları hesaplanır. Genellikle öklid uzaklığı kullanılır. Uzaklıklarda en küçük değere karşılık gelen kümeye atama gerçekleştirilir. Küme performansı, gerçek merkez noktadan uzaklıkların kareleri toplamı ile değerlendirilir. (SSE) SSE değeri ne kadar küçük ise kümeleme o kadar iyidir. 10e isimli eserden adapte edilmiştir 60/79

K-Ortalamalar (K-Means) Değer Nokta 1.Küme 2.Küme 3.Küme Atanan Küme 1 (12,5) 8,06 12,65 3,61 3 2 (15,7) 11,05 12,21 0,00 3 3 (4,6) 0,00 11,70 11,05 1 4 (7,13) 7,62 4,12 10,00 2 5 (12,15) 12,04 4,47 8,54 2 6 (2,3) 3,61 15,23 13,60 1 7 (2,7) 2,24 11,66 13,00 1 8 (16,10) 12,65 10,63 3,16 3 9 (8,17) 11,70 0,00 12,21 2 10 (19,4) 15,13 17,03 5,00 3 10e isimli eserden adapte edilmiştir 61/79

K-Ortalamalar (K-Means) Adım 1 Adım 2 Adım 3 10e isimli eserden adapte edilmiştir 62/79

Veri Madenciliği Metotları: Birliktelik Kuralları Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar. Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi) Satış ve Satınalma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar 10e isimli eserden adapte edilmiştir 63/79

Veri Madenciliği Metotları: Birliktelik Kuralları Birliktelik Kuralları : Association Rules Teknik Tanım: Veri kümesi içindeki yaygın örüntülerin (pattern) ve nesneleri oluşturan öğeler arasındaki ilişkilerin bulunması Birliktelik Kuralları iki parametre ile betimlenir. Support: Destek Confidence: Güven Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven değerlerini sağlaması gereklidir. (Eşik değerleri) 10e isimli eserden adapte edilmiştir 64/79

Birliktelik Kuralları / Destek Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) (, ) = Kitap Ramses Yüzüklerin Efendisi Harry Potter Harry Potter Harry Potter Yüzüklerin Efendisi Ramses Yüzüklerin Efendisi Yüzüklerin Efendisi Ramses DVD Harry Potter Harry Potter Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Harry Potter Harry Potter Harry Potter = (, ) 10 = 3 10 = 0,30 10e isimli eserden adapte edilmiştir 65/79

Birliktelik Kuralları / Güven Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) (, ) ü = ( ) Kitap DVD Ramses Harry Potter Yüzüklerin Efendisi Harry Potter Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Harry Potter Harry Potter Harry Potter Harry Potter Yüzüklerin Efendisi Harry Potter Ramses Harry Potter (, ) ü = ( ) ü = 3 5 ü = 0,60 10e isimli eserden adapte edilmiştir 66/79

Veri Madenciliği Metotları: Birliktelik Kuralları En sık kullanılan yöntemler Apriori Eclat FP-Growth 10e isimli eserden adapte edilmiştir 67/79

Birliktelik Kuralları / Apriori Algoritması Öncelikle destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir. Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır. Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir. Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürecektir. Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir. 10e isimli eserden adapte edilmiştir 68/79

Birliktelik Kuralları / Apriori Algoritması Müşteri ID (TID) Aldığı Ürünler 5401300197 Gofret, Kola, Su, Çekirdek 5401300198 Antep Fıstığı, Çekirdek, Çikolata, Kola 5401300199 Gofret, Çekirdek, Antep Fıstığı 5401300200 Kola, Su, Çekirdek, Kahve 5401300201 Gofret, Çekirdek, Çikolata, Su 5401300202 Süt, Çekirdek, Su 5401300203 Gofret, Cips, Çekirdek 5401300204 Çikolata, Patlamış Mısır, Su 5401300205 Patlamış Mısır, Kola, Su 5401300206 Su, Süt, Gofret, Çikolata, Çekirdek 10e isimli eserden adapte edilmiştir 69/79

Birliktelik Kuralları / Apriori Algoritması İlk adımda destek ve güven için eşik değerleri belirlenmelidir. = 0,30 ü = 0,80 Bu durumda destek sayısı N=10 olduğu da dikkate alındığında 10*0,3=3 olacaktır. Yani herhangi bir adımda destek sayısı 3 ten az olan değerler elemine edilecektir. 10e isimli eserden adapte edilmiştir 70/79

Birliktelik Kuralları / Apriori Algoritması İkinci adımda ise her bir ürün için aşağıdaki gibi destek sayıları hesaplanır. Ürün Adı Destek Gofret 5 Kola 4 Su 7 Çekirdek 8 Antep Fıstığı 2 Çikolata 4 Kahve 1 Süt 2 Cips 1 Patlamış Mısır 2 Müşteri ID (TID) Aldığı Ürünler 5401300197 Gofret, Kola, Su, Çekirdek 5401300198 Antep Fıstığı, Çekirdek, Çikolata, Kola 5401300199 Gofret, Çekirdek, Antep Fıstığı 5401300200 Kola, Su, Çekirdek, Kahve 5401300201 Gofret, Çekirdek, Çikolata, Su 5401300202 Süt, Çekirdek, Su 5401300203 Gofret, Cips, Çekirdek 5401300204 Çikolata, Patlamış Mısır, Su 5401300205 Patlamış Mısır, Kola, Su 5401300206 Su, Süt, Gofret, Çikolata, Çekirdek 10e isimli eserden adapte edilmiştir 71/79

Birliktelik Kuralları / Apriori Algoritması İkili eşleştirmeler için destek sayıları hesaplanır. Ürün Adı Destek Gofret 5 Kola 4 Su 7 Çekirdek 8 Çikolata 4 İkili Destek Gofret, Kola 1 Gofret, Su 3 Gofret, Çekirdek 5 Gofret, Çikolata 2 Kola, Su 3 Kola, Çekirdek 3 Kola, Çikolata 1 Su, Çekirdek 5 Su, Çikolata 3 Çekirdek, Çikolata 3 Aldığı Ürünler Gofret, Kola, Su, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek 10e isimli eserden adapte edilmiştir 72/79

Birliktelik Kuralları / Apriori Algoritması Üçlü eşleştirmeler için destek sayıları hesaplanır. İkili Destek Gofret, Su 3 Gofret, Çekirdek 5 Kola, Su 3 Kola, Çekirdek 3 Su, Çekirdek 5 Su, Çikolata 3 Çekirdek, Çikolata 3 İkili Destek Gofret, Su, Çekirdek 3 Gofret, Su, Kola 1 Gofret, Su, Çikolata 2 Gofret, Çekirdek, Kola 1 Gofret, Çekirdek, Çikolata 2 Kola, Su, Çekirdek 2 Kola, Su, Çikolata 0 Kola, Çekirdek, Çikolata 1 Su, Çekirdek, Çikolata 2 10e isimli eserden adapte edilmiştir 73/79

Birliktelik Kuralları / Apriori Algoritması İkili Destek Gofret, Su, Çekirdek 3 Gofret, Su, Kola 1 Gofret, Su, Çikolata 2 Gofret, Çekirdek, Kola 1 Gofret, Çekirdek, Çikolata 2 Kola, Su, Çekirdek 2 Kola, Su, Çikolata 0 Kola, Çekirdek, Çikolata 1 Su, Çekirdek, Çikolata 2 Aldığı Ürünler Gofret, Kola, Su, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek Birliktelik Kuralı Açıklama (Şartlı Olasılık) Güven Gofret & Su Çekirdek Gofret ve Su alanların Çekirdek alma ihtimali 3/3=1,00 Gofret & Çekirdek Su Gofret ve Çekirdek alanların Su alma ihtimali 3/5=0,60 Su & Çekirdek Gofret Su ve Çekirdek alanların Gofret alma ihtimali 3/5=0,60 Gofret Su & Çekirdek Gofret alanların Su ve Çekirdek alma ihtimali 3/5=0,60 Su Gofret & Çekirdek Su alanların Gofret ve Çekirdek alma ihtimali 3/7=0,42 Çekirdek Gofret & Su Çekirdek Alanların gofret ve Su alma ihtimali 3/8=0,38 10e isimli eserden adapte edilmiştir 74/79

Birliktelik Kuralları / Apriori Algoritması Soruda güven eşik değeri % 80 olarak verilmişti. Bu durumda elimizde sadece Gofret ve Su alanların, çekirdek te aldığı bilgi mevcuttur. Güven değeri 1,00 olduğundan, Gofret ve Su alan herkes mutlaka (%100) ihtimalle çekirdekte alacaktır. 10e isimli eserden adapte edilmiştir 75/79

Ticari Veri Madenciliği Yazılımları IBM SPSS Modeller SAS-Enterprise Miner IBM-Intelligent Miner StatSoft-Statistica Açık Kaynak Kodlu Ücretsiz R RapidMiner Weka Ücretsiz %73 Sadece Ücretsiz %9 Her İkisi %64 Sadece Ticari %27 Ticari %91 10e isimli eserden adapte edilmiştir 76/79

Büyük Veri Yazılım Araçları ve Plaformları Apache Hadoop/Hbase/Pig/Hive (67) Amazon Web Services (AWS) (36) NoSQL databases (33) Other Big Data software (21) Other Hadoop-based tools (10) 0 10 20 30 40 50 60 70 80 R (245) SQL (185) Java (138) Python (119) C/C++ (66) Other languages (57) Perl (37) Awk/Gawk/Shell (31) F# (5) 0 50 100 150 200 250 300 10e isimli eserden adapte edilmiştir 77/79

Veri madenciliği Veri Madenciliği Mitleri Anlık sonuçlar (Tahminler) verir İşletme uygulamaları için uygulanabilir değildir Farklı veya sadece VM için oluşturulmuş veri tabanına ihtiyaç duyar Sadece teknik yeterlikleri üst düzeyde olan kullanıcılar tarafından gerçekleştirilebilir Sadece yüksek miktarda veriye sahip büyük firmalar için geçerlidir Bildiğimiz istatistik için biçilen yeni bir isimden başka bir şey değildir 10e isimli eserden adapte edilmiştir 78/79

VM Sürecinde Yapılan Temel Yanlışlar Problemin yanlış tanımlanması ve seçilmesi Finansal ve fikir sponsorunun VM ile ilgili fikirlerinin göz ardı edilmesi (VM ne yapabilir, Ne yapamaz!!!) Veri ön işleme süreçleri için harcanan zamanın yetersiz olması Sadece bütünleşik sonuçların incelenip, kayıt bazlı değerlendirmelerin göz ardı edilmesi Şüpheli sonuçların göz ardı edilip, ört bas edilmesi Rastgele, amaçsızca ve tekrarlı olarak algoritmaların kullanılması 10e isimli eserden adapte edilmiştir 79/79