Veri Madenciliği Yöntemleri. Dr. Yalçın ÖZKAN

Benzer belgeler
PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Gömülü Sistem Tasarımı. Dr. Deniz TAŞKIN

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

DİL VE İLETİŞİM. Prof. Dr. V. Doğan GÜNAY

R ile Programlama. Burak ÖZKAN Dr. Yalçın ÖZKAN

METİN BİLGİSİ. Prof. Dr. V. Doğan GÜNAY

BİÇİMBİRİMLER. Türetim ve İşletim Ardıllarının Sözlü Dildeki Kullanım Sıklığı. İslam YILDIZ Funda Uzdu YILDIZ V. Doğan GÜNAY

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Elektronik Güvenlik Sistemleri. Ahmet YILMAZ

Yazılım Mühendisliği Temelleri

SAYISAL YÖNTEMLERDE PROBLEM ÇÖZÜMLERİ VE BİLGİSAYAR DESTEKLİ UYGULAMALAR

Web Madenciliği (Web Mining)

yöneylem araştırması Nedensellik üzerine diyaloglar I

Web Madenciliği (Web Mining)

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ

K En Yakın Komşu Methodu (KNearest Neighborhood)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Web Tabanlı Programlama

ezberbozan MATEMATİK GEOMETRİ SORU BANKASI KPSS 2018 eğitimde tamamı çözümlü 30.yıl

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

TEDARİK ZİNCİRİ YÖNETİMİ

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

SAYISAL KARAR VERME YÖNTEMLERİ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Editörler Mustafa Kırlı & Hakan Seldüz. Maliyet Muhasebesi

TESİS PLANLAMASI. İşyeri Fabrika Tasarımı ve Yerleşim Düzeni. Prof. Dr. Kenan ÖZDEN

YAZIŞMA YÖNETİMİ VE DOSYALAMA İŞLEMLERİ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

önce biz sorduk KPSS Soruda 82 soru ezberbozan MATEMATİK GEOMETRİ SORU BANKASI Eğitimde

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

GİRİŞİMCİLİK. Dr. İbrahim Bozacı. Örnekler ve İş Planı Rehberli. Kırıkkale Üniversitesi, Keskin Meslek Yüksek Okulu Öğretim Üyesi.

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Ombudsman (Kamu Denetçisi) ve Türkiye deki Tartışmalar

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

WEKA ĠLE VERĠ MADENCĠLĠĞĠ SÜRECĠ VE ÖRNEK UYGULAMA

Biyoenformatik DNA Mikrodizi. Veri Madenciliği. Dr. Dursun AKASLAN Doç. Dr. Sezai TAŞKIN

Sistem Analizi ve Tasarımı

Makine Öğrenmesi 3. hafta

Editörler Yrd.Doç.Dr.Aysen Şimşek Kandemir &Yrd.Doç.Dr.Tahir Benli İSTATİSTİK

DOĞRUSAL REGRESYON ANALİZİNE GİRİŞ INTRODUCTION TO LINEAR REGRESSION ANALYSIS

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

İÇİNDEKİLER. Birinci Bölüm Üretim Yönetiminde Temel Kavramlar

Veri Madenciliği Süreci

TEDARİK ZİNCİRİ YÖNETİMİ

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

İçindekiler. Pazarlama Araştırmalarının Önemi

KPSS KONU GÜNLÜĞÜ 30 GÜNDE MATEMATİK

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

Türkçe Dokümanlar Ġçin Yazar Tanıma

İNJEKTİF MODÜLLERE. Ali Pancar Burcu Nişancı Türkmen

Komisyon ALES ÇIKMIŞ SINAV SORULARI 9 FASİKÜL ISBN Kitapta yer alan bölümlerin tüm sorumluluğu yazarlarına aittir.

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Tüm Adaylar İçin ALES SORU BANKASI. Kenan Osmanoğlu Kerem Köker

ALES SÖZEL ADAYLAR İÇİN ALES SORU BANKASI. Savaş Doğan - Kenan Osmanoğlu - Kerem Köker. Eğitimde

JEODEZİK AĞLARIN OPTİMİZASYONU

ÖN SÖZ. Bilmek değil, uygulamak gerekli, İstemek değil, yapmak gerekli. GOETHE

CBS ve Coğrafi Hesaplama

Prof. Dr. Ahmet Hamdi İSLAMOĞLU

Kamu Mali Yönetiminde Stratejik Planlama ve Performans Esaslı Bütçeleme

KPSS KONU GÜNLÜĞÜ 30 GÜNDE MATEMATİK

BÖLÜM 1: YAşAM ÇÖzÜMLEMEsİNE GİRİş... 1

MATEMATİK OKURYAZARLIĞI

İşyeri / Fabrika Tasarımı ve Yerleşim Düzeni

Soyut Cebir. Prof. Dr. Dursun TAŞCI

İçindekiler. Mülakat TEORİ, SÜREÇ VE İLKELER

1: DENEYLERİN TASARIMI VE ANALİZİ...

ÜRETİM ÇİZELGELEME. Yrd. Doç. Dr. Pınar Mızrak Özfırat. Celal Bayar Üniversitesi Yayınları Yayın No: 0010

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Gayrimaddi Haklar ve Vergilendirilmesi

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veritabanı Tasarımı Ve Yönetimi

Yapı Kredi Yayınları Canlar Ölesi Değil / Demet Taner. Kitap editörü: Murat Yalçın. Düzelti: Filiz Özkan. Tasarım: Nahide Dikel

Çözümlü Yüksek Matematik Problemleri. Doç. Dr. Erhan Pişkin

GENEL MUHASEBE I - II

Tefecilik, Ekonomi Sanayi ve Ticarete İlişkin Suçlar

Eşit Ağırlık ve Sayısal Adaylar İçin ALES SORU BANKASI ALES. eğitimde 30.yıl. Kenan Osmanoğlu Kerem Köker

2. BASİT DOĞRUSAL REGRESYON 12

Ahmet Cemal RUHİ Erzincan Üniversitesi Hukuk Fakültesi Öğretim Üyesi

Özel Eğitime Gereksinimi Olan Öğrenciler ve. Özel Eğitim. Ed tör: İbrah m H. DİKEN. 15. Baskı

matematik sayısal ve mantıksal akıl yürütme

Komisyon DİKEY GEÇİŞ SINAVI TAMAMI ÇÖZÜMLÜ ÇIKMIŞ SORULAR ISBN Kitapta yer alan bölümlerin tüm sorumluluğu yazarlarına aittir.

peygamberin (aleyhissalâtu vesselam) bir günü METİN KARABAŞOĞLU

İÇİNDEKİLER. ÖNSÖZ... iii GİRİŞ... 1 BİRİNCİ BÖLÜM YİYECEK İÇECEK İŞLETMELERİNDE GELİR YÖNETİMİ

İhaleye Fesat Karıştırma ve Edimin İfasına Fesat Karıştırma Suçları

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Editörler M. Ali Mordogan /Nalan Üstüntaş ÜRETİM YÖNETİMİ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

Meslek Yüksek Okulları İçin UYGULAMALI MATEMATİK. İstanbul, 2009

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

Web Madenciliği (Web Mining)

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

MATEMATİK SORU BANKASI. ezberbozan serisi GEOMETRİ 30. KPSS tamamı çözümlü. eğitimde

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

Uzaktan Algılama Teknolojileri

Uygulamalı Meta-Analiz

Transkript:

Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN

Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN

PAPATYA YAYINCILIK EĞĠTĠM Bilgisayar Sis. San. ve Tic. A.ġ. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı ĠĢhanı GiriĢi, No: 11/3, Cağaloğlu (Fatih)/Ġstanbul Tel : (+90 212) 527 52 96 - (+90 532) 311 31 10 Faks : (+90 212) 527 52 97 e-posta : admin@papatya.gen.tr Web : www.papatya.gen.tr www.papatyabilim.com.tr Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN 2. Basım Ocak 2013 3. Basım Eylül 2016 Editör : Dr. Rifat ÇÖLKESEN Yardımcı Editör : Dr. Cengiz UĞURKAYA (Post-Edu Institute) Üretim : Necdet AVCI SatıĢ : Mustafa DEMĠR Sayfa Düzenleme : Papatya - Kelebek Tasarım Kapak Tasarım : Papatya - Kelebek Tasarım Basım ve Ciltleme : Özkaracan Matbaacılık (Sertifika No: 12228) Evren Mah. Gülbahar Cad. No:62 GüneĢli/Ġstanbul Bu kitabın her türlü yayın hakkı Papatya Yayıncılık Eğitim A.ġ. ye aittir. Yayınevinden yazılı izin alınmaksızın alıntı yapılamaz, kısmen veya tamamen hiçbir Ģekil ve teknikle ÇOĞALTILAMAZ, BASILAMAZ, YAYIMLANAMAZ. Kitabın, tamamı veya bir kısmının fotokopi makinesi, ofset gibi teknikle çoğaltılması, hem çoğaltan hem de bulunduranlar için yasadıģı bir davranıģtır. Lütfen kitabımızın fotokopi yöntemiyle çoğaltılmasına engel olunuz. Fotokopi hızsızlıktır. Yalçın, Özkan. Veri Madenciliği Yöntemleri / Yalçın Özkan - Ġstanbul: Papatya Yayıncılık Eğitim, 2013. x, 240 s.; 24 cm. Kaynakça ve dizin var. Sertifika No: 11218 ISBN 978-975-6797-82-2 1. Veri Ambarı 2. Bayes Teoremi 3. Kümeleme 4. K-KomĢu Algoritması 5. Gini Algoritması I. Title -II-

Çok değerli hocam, bilim adamı ve büyük insan Prof. Dr. Kenan Ural a... -III-

-IV-

Ġçindekiler Önsöz 9 Bölüm 1. VERĠ MADENCĠLĠĞĠ VE VERĠ AMBARI 11 1.1. Veriyi Bilgiye DönüĢtürmenin Yolu 11 1.2. Veri Madenciliği 12 1.3. Veri Madenciliği için Veri Kaynakları 12 1.3.1. Veritabanı Sistemleri 13 1.3.2. Veri Ambarı 15 1.3.3. Veri Kümeleri 16 1.3.4. Veri Ambarının Tasarlanması 15 1.3.4.1. Konuya Yöneliktir 15 1.3.4.2. BütünleĢiktir 17 1.3.4.3. Zaman Boyutu Vardır 17 1.3.4.4. Sadece Okunabilir 18 1.3.5. Veri Ambarının Temel Özellikleri 19 1.3.6. Veri Ambarının Ġçerdiği Veri 20 1.3.6.1. Metedata 20 1.3.6.2. Ayrıntı Veri 21 1.3.6.3. Eski Ayrıntı Veri 21 1.3.6.4. DüĢük Düzeyde ÖrneklenmiĢ Veri 21 1.3.6.5. Yüksek Düzeyde ÖrneklenmiĢ Veri 21 1.3.7. Veri Ambarı Veri Modeli 21 1.4. Özet 22 1.5. Sorular 23 Bölüm 2. VERĠ MADENCĠLĠĞĠ SÜRECĠ VE UYGULAMALARI 25 2.1. Uygulama Alanları 25 2.2. Veri Madenciliği Süreci 27 2.2.1. Veri Temizleme 27 2.2.2. Veri BütünleĢtirme 28 2.2.3. Veri Ġndirgeme 28 2.2.4. Veri DönüĢtürme 29 2.2.4.1. Min-Max NormalleĢtirilmesi 29 2.2.4.2. Z-score StandartlaĢtırma 30 2.2.5. Veri Madenciliği Algoritmasını Uygulama 31 2.2.6. Sonuçları Sunum ve Değerlendirme 32 2.3. Veri Madenciliği Yöntemleri 32 2.3.1. Sınıflandırma 32 -V-

2.3.2. Kümeleme 34 2.3.3. Birliktelik Kuralları 36 2.4. Özet 50 2.5. Sorular 50 Bölüm 3. KARAR AĞAÇLARI ĠLE SINIFLANDIRMA 39 3.1. Sınıflandırma 39 3.2. Sınıflandırma Süreci 40 3.3. Karar Ağaçları ile Sınıflandırma 41 3.4. Karar Ağaçlarında Dallanma Kriterleri 42 3.5. ID3 Algoritması 42 3.5.1. Entropi 43 3.5.2. Karar Ağacında Entropi 44 3.5.3. Dallanma Ġçin Niteliklerin Seçilmesi ve Kazanç Ölçütü 45 3.5.4. ID3 Algoritması 48 3.5.5. Uygulama 48 3.5.6. Kazanç Oranı 63 3.6. C4.5 Algoritması 65 3.6.1. Sayısal Değerlere Sahip Nitelikler 65 3.6.2. Uygulama 65 3.6.3. Bilinmeyen Öznitelik Değerleri 76 3.7. Karar Ağaçlarının Budanması 78 3.7.1. C4.5'de Budama 79 3.8. Karar Kuralları OluĢturmak 80 3.9. Sınıflandırma Modelinin Doğruluğu 81 3.9.1. Öngörülerin Elde Edilmesi 81 3.9.2. KarıĢıklık Matrisi 83 3.9.3. Ġki Sınıflı Modeller için Doğruluk Ölçütleri 84 3.9.4. AĢırı Öğrenme Durumu 86 3.9.5. Doğrulama Süreci 87 3.9.5.1. Veri Kümesinin Eğitim ve Test için Bölünmesi 87 3.9.5.2. Holdout Yöntemi 88 3.9.5.3. k-katlı Çapraz Doğrulama 89 3.9.5.4. Birini DıĢarıda Bırakan Çapraz Doğrulama 89 3.9.5.5. Bootstarp 90 3.10. Özet 90 3.11. Sorular 91 Bölüm 4. SINIFLANDIRMA VE REGRESYON AĞAÇLARI 93 4.1. Twoing Algoritması 93 4.1.1. Uygulama 97 -VI-

4.1.2. Modelin BaĢarımı 110 4.2. Gini Algoritması 111 4.2.1. Uygulama 113 4.2.2. Sürekli Değerlerin Kullanım 120 4.2.3. Uygulama: Sayısal Değerler için Gini Algoritması 120 4.3. Regresyon Ağaçları 132 4.4. Özet 138 4.4. Sorular 139 Bölüm 5. EN YAKIN K-KOMġU ALGORĠTMASI 141 ĠLE SINIFLAMA 5.1. En Yakın k-komģu Algoritması 142 5.1.1. Uygulama 1 143 5.1.2. Uygulama 2 146 5.2. Ağırlıklı Oylama 149 5.2.1. Uygulama 3 149 5.3. Özet 153 5.4. Sorular 154 Bölüm 6. BAYES SINIFLANDIRICILAR 155 6.1. KoĢullu olasılık 155 6.2. Bayes Teoremi 156 6.3. Bayes Sınıflandırıcısı 157 6.3.1. Sade Bayes Sınıflandırıcısı 157 6.3.2. Uygulama 1 158 6.3.3. Sınıflandırma Modelinin Performansı 161 6.3.4. Bayes Sınıflandırıcılarda Sıfır Değer Sorunu 163 6.3.5. Sayısal Nitelik Değerleri 164 6.3.6. Uygulama 2 164 6.4. Özet 182 6.5. Sorular 183 Bölüm 7. DESTEK VEKTÖR MAKĠNESĠ ĠLE SINIFLANDIRMA 167 7.1. Doğrusal Olarak Ayrılabilme Durumu 167 7.1.1. Primal Çözüm 172 7.1.2. Lagrange Çarpanları 173 7.1.3. Karush-Kuhn-Tucker KoĢulları 173 7.1.4. Dual Çözüm 174 7.2. Verilerin Doğrusal Olarak Ayrılamama Durumu 178 7.3. Doğrusal Olmayan Sınıflandırıcılar 182 7.3.1. Doğrusal Olmayan Özellik Uzayı 182 -VII-

7.3.2. Çekirdek Fonksiyonlar 184 7.3.3. Destek Vektör Makinası ve Çekirdek Fonksiyonlar 185 7.4. Özet 189 7.5. Sorular 190 Bölüm 8. KÜMELEME 191 8.1. Kümeleme Çözümlemesi 191 8.2. Uzaklık Ölçüleri 132 8.3. HiyerarĢik Kümeleme 196 8.3.1. BirleĢtirici HiyerarĢik Yöntemler 196 8.3.2. En Yakın KomĢu Algoritması 196 8.3.2.1. Uygulama 198 8.3.3. En Uzak KomĢu Algoritması 203 8.3.3.1. Uygulama 204 8.4. HiyerarĢik Olmayan Kümeleme 209 8.4.1. k-ortalamalar Yöntemi 209 8.4.1.1. Uygulama 210 8.5. Özet 215 8.6. Sorular 216 Bölüm 9. BĠRLĠKTELĠK KURALLARI 217 9.1. Destek ve Güven Ölçütleri 217 9.2. Apriori Algoritması 219 9.3. Uygulama 219 9.4. Özet 224 9.5. Sorular 224 Kaynakça 227 Dizin 233 -VIII-

Önsöz Günümüzde kurumlar büyük boyutlarda veri üretmekte ve bu veri içinde anlamlı ve yararlı bilgiyi ortaya çıkarmakta zorluklar yaģamaktadır. Geleneksel istatistik yöntemlerle büyük boyuttaki veriyi çözümlemek kolay değildir. Bu nedenle verileri iģlemek ve çözümlemek için özel yöntemlere gereksinim duyulmuģtur. Veri madenciliği yöntemleri bu gereksinimi karģılamak üzere ortaya çıkmıģtır. Elinizdeki bu kitap veri madenciliği yöntemlerini ele alan bir giriģ kitabıdır. Sınıflama, kümeleme ve birliktelik kuralları ile ilgili birçok algoritmaya en basit biçimiyle yer vermektedir. ĠĢletmelerin kendi ürettiği veri yanısıra dıģ çevreden elde ettiği veriyi de saklayarak karar destek sistemlerini hazırlamaları söz konusu olmaktadır. Üretilen veriyi veri ambarı biçiminde tasarlayarak, karar destek sistemleri için bir alt yapı hazırlamak gerekebilecektir. Kitabımızın birinci bölümünde veri ambarı kavramını ana hatlarıyla ele alarak inceliyoruz. Ġkinci bölümde ise veri madenciliğinin ne olduğu ve nerelerde kullanıldığı konusu iģlenmektedir. Verinin bazı ortak özelliklerinden yararlanılarak sınıflandırılması yoluna gidilebilir. Sınıflandırma iģlemi belirli bir süreç izlenerek yerine getirilir. Öncelikle bir eğitim kümesi ele alınarak onun üzerinde karar kuralları oluģturulur ve bu karar kuralları kullanılarak yeni durumlar yorumlanır. Veri madenciliğinin çok sayıda sınıflandırma algoritması bulunmaktadır. Üçüncü bölümde söz konusu yöntemlerden ID3 ve C4.5 algoritmaları ele alınarak incelenmektedir. Söz konusu algoritmalar, karar ağacında bilginin ölçülmesi ve entropiye dayalı olarak sınıflandırmanın baģlatılması esasına dayanmaktadır. Sınıflandırma iģlemlerinde kullanılan bir diğer yöntem, Sınıflandırma ve Karar Ağaçları adıyla bilinmektedir. Bu yöntemde, karar ağacının ikili dallanmasına izin verilmektedir. Kitabın dördüncü bölümünde Twoing, Gini ve regresyon ağaçları algoritmaları ele alınarak incelenmektedir. BeĢinci bölümde ise, veriyi sınıflandırmak en yakın k-komşu algoritması anlatılmaktadır. Bu yöntem, verilen bir noktaya en yakın k komģunun belirlenmesi ve yeni gözlemin buna göre değerlendirilmesi esasına dayanmaktadır. Altıncı bölümde Bayes sınıflandırma modeli ele alınarak sınıflandırma iģlemi farklı bir açıdan incelenmektedir. Bu bölümde ayrıca Bayes ağları ele alınmaktadır. Yedinci bölümde ise yine sınıflandırma iģleminde kullanılmak üzere Destek Vektör Makineleri ele alınmakta ve matematiksel özellikleri üzerinde durulmaktadır. -IX-

Sekizinci bölümde kümeleme konusu iģlenmektedir. Verinin birbirine benzeyen kısımlarının gruplandırılmasına kümeleme adını veriyoruz. Kümeleme çözümlemeleri veri madenciliğinde geniģ bir uygulama alanı bulmuģtur. Bu ders kapsamında verilerin birbirine olan uzaklıklarını esas alarak hiyerarşik ve hiyerarşik olmayan kümeleme biçiminde geliģtirilmiģ iki algoritma türü anlatılmaktadır. Bir arada gerçekleģen olayları ele alarak çözümleyen veri madenciliği yöntemlerine birliktelik kuralları adı verilmektedir. Bu yöntem özellikle pazarlama alanında sepet çözümlememeleri adıyla bilinmektedir. Bir satıģ mağazasında müģterilerin aynı anda satın aldıkları ürün sepeti birliktelik kuralları algoritmaları ile çözümlenerek müģterilerin harcama eğilimleri ortaya konulmaktadır. Dokuzuncu bölümde birliktelik kuralları ele alınarak incelenmektedir. Yalçın ÖZKAN -X-