Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Benzer belgeler
Büyük Veri ve Endüstri Mühendisliği

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİNİN GÖREVLERİ

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Nesnelerin İnternetinde Veri Analizi

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

BiL416 Hafta-1 Veri Madenciliği:Giriş

SAP FORUM İSTANBUL Discover Simple Kararlarınızı ileri analitiklerle aydınlatın

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

VERİ MADENCİLİĞİNE BAKIŞ

Web Madenciliği (Web Mining)

Mesleki Terminoloji II Veri Madenciliği

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: Websayfası:

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ F A T M A İ L H A N

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Makine Öğrenmesi 2. hafta

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

1 BILGI TEKNOLOJILERI VE YÖNETIM

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

K En Yakın Komşu Methodu (KNearest Neighborhood)

Veri ve Metin Madenciliği

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Metin Sınıflandırma. Akış

Veri ve Metin Madenciliği. Zehra

Veri Madenciliği - Giriş. Erdem Alparslan

Veri madenciliği yöntemleri

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Örüntü Tanıma (EE 448) Ders Detayları

İş Analitiği'ne Netezza ile Yüksek Performans Katın

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Dr. Necati Ercan Özgencil Office: D-235 Seyrek Phone: Dahili: 2329

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Veri Madenciliği Süreci

Uzaktan Algılama Uygulamaları

Gözetimli & Gözetimsiz Öğrenme

GENCAY KARAMAN. DBA & Data Mining/Business Intelligence Specialist

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

İstatistik ve Olasılık

CBS ve Coğrafi Hesaplama

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

İÇİNDEKİLER 1. GİRİŞ...

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

Uzaktan Algılama Teknolojileri

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

AVĐVASA da Veri Madenciliği Reşat Fırat ERSĐN Stratejik Planlama ve ĐşGeliştirme Birim Yöneticisi

Data Science Boot Camp

Kelime Gösterimleri (Word Representation Word Embeddings)

Süreklilik Göstergesi. Kavram Haritaları. Etkileşim Göstergesi. Problem/Çözüm Göstergesi Karşılaştırma Matrisi. (Anlam Çözümleme Tablosu)

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Büyük boyutun laneti (Curse of Dimensionality)

BİYOİSTATİSTİK Tablo Hazırlama Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

Sürekli Rastsal Değişkenler

VERİ SETİNE GENEL BAKIŞ

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

Üniversite Öğrencilerinin Đnterneti Eğitimsel Amaçlar Đçin Kullanmalarını

Power BI. Neler Öğreneceksiniz?

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Veri Madenciliği. Veri Madenciliği ve Makina Öğrenmesi

GİRİŞ. Bilimsel Araştırma: Bilimsel bilgi elde etme süreci olarak tanımlanabilir.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Veri Madenciliği. Bölüm 5. Sınıflandırma 1. Doç. Dr. Suat Özdemir.

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay.

bilişim ltd İş Zekâsı Sistemi

Yrd. Doç. Dr. Gökçe BECİT İŞÇİTÜRK. Gökçe BECİT İŞÇİTÜRK 1

SELÇUK ÜNİVERSİTESİ SEYDİŞEHİR MESLEK YÜKSEKOKULU BİLGİSAYAR TEKNOLOJİLERİ BÖLÜMÜ BİLGİSAYAR PROGRAMCILIĞI PROGRAMI DERS DAĞILIM ÇİZELGESİ (2010)

Transkript:

Veri Madenciliği Yrd. Doç. Dr. Mustafa Gökçe Baydoğan mustafa.baydogan@boun.edu.tr www.mustafabaydogan.com blog.mustafabaydogan.com

İçerik p Veri Madenciliği nedir? n Bir örnek p Boğaziçi Üniversitesi 2014 yılı ders kayıt zamanı atılan tweetlerin incelenmesi n Veri madenciliğinde örnek problemler ve uygulamalar 2

Veri madenciliği nedir? p Veri madenciliği n Büyük miktarda veri içinden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilgi ve örüntülerin çıkarılması olarak tanımlanmaktadır. 3

Veri madenciliği nedir? Bir örnek p Boğaziçi Üniversitesi 2014 Bahar dönemi kayıt zamanı olan Şubat 10-14, 2014 tarihleri arası atılan tweetlerin incelenmesi n Analiz için R (http://www.r-project.org/) kullanıldı. p R paketlerden oluşur p twitter ve tm paketleri kullanıldı twitter: twitterdan veri alabilmek için tm: metin verisi işleme için p Sadece 10-20 satır R kodu 4

Kayıt zamanı twitter aktivitesi p #boun hashtagli tweetler aranır tweets<- searchtwitter( #boun,since= 2014-02-10, until= 2014-02-14 ) tweet_texts<- sapply(tweets, function(x) x$gettext()) p Veri manipulasyonu text_corpus <- Corpus(VectorSource(tweet_texts)) text_corpus <- tm_map(text_corpus, tolower) text_corpus <- tm_map(text_corpus, removepunctuation) wordcloud(text_corpus) 5

Kayıt zamanı twitter aktivitesi 6

Kayıt zamanı twitter aktivitesi p Kelime bulutu sadece görünme sayısını vermekte n Söylenenler ne anlam ifade ediyor? p Metni sayıya çevirme D2 Document 1 Document2 I 1 1 Like 1 0 Hate 0 1 Databases 1 1 1 p Döküman-terim matrisi oluşturma ve az geçen kelimeleri atma dtm=termdocumentmatrix(text_corpus) dtm=removesparseterms(dtm,sparse=0.95) 1 D1 7

Kayıt zamanı twitter aktivitesi p Bir tür kümeleme yapalım* n Burada hiyerarşik kümeleme kullanıldı D2 1 1 D1 (*ilerleyen zamanda öğrenilecek) 8

Kayıt zamanı twitter aktivitesi p Özet n Büyük bir twitter verisi içinden alakalı olabilecek kısmı seçip, bir takım veri manipülasyonu ve kümele algoritmaları kullanarak ortaya bilgi çıkarıldı. p Kayıt en popüler konu p mavibouncuk kayıt zamanı öncesi Boğaziçi Üni. öğrencilerini çekmeye çalışan bir sosyal medya platformu https://twitter.com/mavibouncuk p Kayıt sistemi ile ilgili problemler var İlk küme 9

Neden Veri Madenciliği? p Veri patlaması veya seli n Mağazalardaki satış/alış işlemleri n Banka ve Kredi kartı işlemleri n Bir çok sektördeki veri ve işlemler n Web verileri p Teknolojinin ucuzlaması p Rekabetin artması n Veri analizi sonucunda alınan kararların etkinliği birçok alanda ispatlanmıştır 10

Neden Veri Madenciliği? p Büyük verilerde klasik yaklaşımlarla ortaya çıkarması zor olan gizli bilgiler vardır. p Anlamlı bilginin bulunması haftalarca sürebilir. p Eldeki verinin büyük bir kısmı hala tamamen analiz edilmemiştir. 11

Veri madenciliği sihir değildir Veritabanı Teknolojisi İstatistik Makine Öğrenmesi Veri Madeciliği Görselleştirme Örüntü Tanıma Algoritmalar Diğer Disiplinler 12

Adımlar Metin-terim matrisi Stopword atma Noktalama işaretleri atma... Kümeleme Kayıt sistemi ile ilgili problem twitter #boun hashtagli tweetler 13

Adımlar 1. Amaç tanımlama: n Ürünler arasında bağıntı? n Yeni pazar segmentleri veya potansiyel müşteriler? n Zaman içindeki satın alma örüntüleri veya ürün satım eğrileri? n Müşterileri guruplamak, sınıflandırmak? 2. Veri hazırlama n Veriyi birleştir, seç ve önişle (Eğer veri ambarı varsa zaten yapılmıştır) n Var olan verinin dışında, amaç için kullanılabilecek ek bilgi var mı? 14

Adımlar 2. Veri hazırlama devam (En önemli adımlardan biridir) n Veri seçimi: Önemli değişkenlerin saptanması n Veri temizleme: Hata, tutarsızlık, tekrar ve eksik verilerin ayıklanması/düzeltilmesi n Veri fırçalama: Gruplama, dönüşümler n Görsel inceleme: Veri dağılımı, yapısı, istisnalar, değişkenler arasında bağıntılar n Değişken analizi: Gruplama 15

Adımlar 3. Yöntem seçme n Amaç sınıfının tanımlanması Gruplama (Clustering/Segmentation), Regresyon Analizi (Regression), Sınıflandırma (Classification), Bağıntı kurma (Association), Zaman içinde örüntü bulma/tahmin yapma (Pattern detection/prediction in time) n Çözüm sınıfınının tanımlanması Açıklama (Karar ağaçları,kurallar) vs Kara kutu (sinir ağı) n Model değerlendirme, geçerleme ve karşılaştırma k-kat çapraz geçerleme, istatistiksel testler n Modellerin birleştirilmesi 16

Adımlar 4. Yorumlama n Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? n Uzmana danışma 17

Veri madenciliği yöntemleri Genel olarak veri madenciliği yöntemleri iki sınıfa ayrılabilir: n Tanımlayıcı Yöntemler (Descriptive) p Veriyi tanımlayan yorumlanabilir örüntülerin bulunması n Öngörü Yöntemleri (Predictive) p Öngörü amacı ile var olan verilerden yorum çıkarılması outlier Yaş Maaş Meslek Model Yüksek/düşük risk 18

Veri madenciliği yöntemleri Veri Madenciliği Yöntemleri Öngörü Yöntemleri Tanımlayıcı Yöntemler Sınıflandırma (Classification) Kümeleme (Clustering) Karar Ağaçları (Decision Trees) En Yakın Komşu (Nearest Neighbour) Birliktelik Analizi (Association Analysis) Sıralı Dizi Analizi (Sequence Analysis) Özetleme (Summerization) Diğer Yöntemler İstisna Analizi (Outlier Analysis) Eğri Uydurma (Regression) Diğer Yöntemler 19

Veri p Veri, çok boyutlu değişkenler tablosudur Ad Gelir Birikim Medeni hali Ali 25,000 $ 50,000 $ Evli Veli 18,000 $ 10,000 $ Evli... Default Hayır Evet Örnek (instance) Kayıt (record) Nesne (object) Değişken (variable) Öznitelik (feature) 20

Veri p Verinin nasıl ifade edildiği uygulamaya bağlı olarak değişir ve çok önemlidir. Bu aşamaya öznitelik çıkarımı/gösterimi (feature extraction/representation) de denir. 21

Sınıflandırma Sınıflamanın temel kuralları: p Öğrenme eğiticilidir (supervised). p Veri setinde bulunan her örneğin bir dizi özniteliği vardır ve bu niteliklerden biri de sınıf bilgisidir. p Hangi sınıfa ait olduğu bilinen nesneler (öğrenme kümesi- training set) ile bir model oluşturulur p Oluşturulan model öğrenme kümesinde yer almayan nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür. 22

Sınıflandırma Örnek birikim OK DEFAULT yıllık gelir 23

Sınıflandırma Örnek çözüm x 2 : birikim OK DEFAULT θ 2 θ 1 x 1 : yıllık gelir KURAL: EĞER yıllık gelir> θ 1 VE birikim> θ 2 İSE OK DEĞİLSE DEFAULT 24

Regresyon (Eğri Uydurma, Fonksiyon Yakınsama) p Sürekli değişkenlerin öngörüsü regresyon (eğri uydurma) olarak adlandırılan bir istatistiksel yöntemle tespit edilebilir. p Regresyon analizinin amacı değişik girdi değişkenlerini çıktı değişkeni ile ilişkilendirecek en iyi modelin çıkarılmasıdır. 25

Kümeleme p Kümeleme bir eğiticisiz öğrenme ile gerçekleştirilir (unsupervised) p Küme: Birbirine benzeyen nesnelerden oluşan gruptur. n Aynı kümedeki örnekler birbirine daha çok benzer n Farklı kümedeki örnekler birbirine daha az benzer p Benzerlik ölçütü? 26

Kümeleme Örnek birikim Tip 1 OK DEFAULT Tip 2 Tip 3 yıllık gelir 27

Birliktelik analizi p Birliktelik analizi büyük veri kümeleri arasında birliktelik ilişkilerini bulur. n Belirli bir veri kümesinde yüksek sıklıkta birlikte görülen öznitelik değerlerine ait ilişkisel kuralların keşfidir. p Sonuçlar birliktelik kuralları (A àb) olarak sunulur. p Birliktelik kurallarının kullanıldığı en yaygın örnek market sepeti uygulamasıdır. n Market sepet analizi, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını belirlemeye çalışır. 28

Marketlerde birliktelik kuralı keşfi p Örnek TID Ürünler 1 Ekmek, Kola, Süt 2 Bira, Ekmek 3 Bira, Kola, Çocuk Bezi, Süt 4 Bira, Ekmek, Çoçuk Bezi, süt 5 Kola, Çocuk Bezi, Süt Bulunan kurallar: {Süt} --> {Kola} {Çocuk Bezi, Süt} --> {Bira} 29

Sıralı örüntü madenciliği p Bir nesne kümesinde her nesnenin kendine ait bir zaman çizelgesi olduğu durumda (örnek: t zamanında, A olayı gerçekleşti), farklı olaylar arası güçlü sıralı birliktelik kuralları çıkarmaktır. (A B) (C) (D E) p İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor. (Behavioral scoring, Churning) (A B) (C) (D E) <= xg >ng <= ws <= ms 30

İstisna Analizi p Normal davranışlardan ve eğilimlerden çok farklı sapmaları belirlemede kullanılır. p Uygulamalar: n Kredi Kartı Yolsuzluğu Tesbiti n Ağ Saldırı (Intrusion) Tesbiti 31

Veri Madenciliğinde Yaşanan Zorluklar p Veri Boyutu ve Ölçeklenebilirlik p Karmaşık ve Heterojen Veri p Veri Kalitesi p Verinin Sahipleri ve Dağıtılması p Gizlilik Koruması p Sürekli Güncellenen Veri (Streaming Data) 32