Boosting. Birol Yüceoğlu Migros T.A.Ş.

Benzer belgeler
Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

Kolektif Öğrenme Metotları

Yapay Sinir Ağları ve Yüksek Enerji Fiziği Uygulamaları

2. BASİT DOĞRUSAL REGRESYON 12

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

İÇİNDEKİLER 1. GİRİŞ...

Hafta 05 - Karar Ağaçları/Kümeleme

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

İSTATİSTİK. Bölüm 1 Giriş. Ankara Üniversitesi SBF İstatistik 1 Ders Notları Prof. Dr. Onur Özsoy 4/4/2018

Bilgisayarla Görüye Giriş

Web Madenciliği (Web Mining)

İçindekiler. Ön Söz... xiii

T.C. ESKİŞEHİR OSMANGAZİ ÜNİVERSİTESİ SAĞLIK BİLİMLERİ ENSTİTÜSÜ BİYOİSTATİSTİK ANABİLİM DALI. BiR UYGULAMA YÜKSEK LİSANS TEZİ HÜLYA YILMAZ

ÜNİTE:1. İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2. Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3

İÇİNDEKİLER ÖN SÖZ...

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Ekonometri I VARSAYIMLARI

Veriye Dayalı Karar Verme (Bölüm 2) Can Akkan

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

Matris Cebiriyle Çoklu Regresyon Modeli

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

EME Sistem Simülasyonu. Girdi Analizi Prosedürü. Olasılık Çizgesi. Dağılıma Uyumun Kontrol Edilmesi. Dağılıma İyi Uyum Testleri Ders 10

SIRADAN EN KÜÇÜK KARELER (OLS)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

OLASILIĞA GİRİŞ P( )= =

ANADOLU ÜNİVERSİTESİ OLASILIĞA GİRİŞ

H 0 : θ = θ 0 Bu sıfır hipotezi şunu ifade eder: Anakütle parametresi θ belirli bir θ 0

BÖLÜM 1 ÖLÇME VE DEĞERLENDİRMEDE TEMEL KAVRAMLAR

HİPOTEZ TESTLERİ ANADOLU ÜNİVERSİTESİ. Hipotez Testleri ENM317 Mühendislik İstatistiği Doç. Dr. Nihal ERGİNEL 2014

TANIMLAYICI İSTATİSTİKLER

Olasılık ve İstatistiğe Giriş-II (STAT 202) Ders Detayları

Örneklem. Yöntemleri FBED511 Eğitim Bilimlerinde Temel Araştırma Yöntemleri 1. Evren & Örneklem. Evren. Örneklem ve örnekleme

BÖLÜM 10 ÖRNEKLEME YÖNTEMLERİ

İstatistik ve Olasılık

Örnekleme Yöntemleri

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

EME 3105 SİSTEM SİMÜLASYONU. Girdi Analizi Prosedürü. Dağılıma Uyum Testleri. Dağılıma Uyumun Kontrol Edilmesi. Girdi Analizi-II Ders 9

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

EBE-368 Veri Tabanı Yönetim Sistemleri Veri Tabanı Tasarımı

ortalama ve ˆ ˆ, j 0,1,..., k

İSTATİSTİK HAFTA. ÖRNEKLEME METOTLARI ve ÖRNEKLEM BÜYÜKLÜĞÜNÜN TESPİTİ

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İlk Yapay Sinir Ağları. Dr. Hidayet Takçı

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

Küme temel olarak belli nesnelerin ya da elamanların bir araya gelmesi ile oluşur

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

Algoritmalara Giriş 6.046J/18.401J

Olgu-kontrol araştırmalarının analizi ve değerlendirilmesi. Raika Durusoy

ANADOLU ÜNİVERSİTESİ. Hipotez Testleri. ENM317 Mühendislik İstatistiği Prof. Dr. Nihal ERGİNEL

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Appendix C: İstatistiksel Çıkarsama

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

YATIRIM. Ders 7: CAPM ve APT. Bölüm 2: Uygulamalar ve Sınamalar

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

EME 3117 SİSTEM SIMÜLASYONU. Girdi Analizi. Özet İstatistikler ve Histogram (Minitab)(1) Örnek: Eczane İçin Servis Süreleri

DENİZ HARP OKULU ENDÜSTRİ MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Esnek Hesaplamaya Giriş

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Makine Öğrenmesi 2. hafta

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

WEIBULL DAĞILIMI WEIBULL DAĞILIMI ANADOLU ÜNİVERSİTESİ

1. ÖRNEKLEME VE ARAŞTIRMA PROBLEMİNE UYGUN ÖRNEKLEME YAPMA

Risk ve Getiri (1) Ders 9 Finansal Yönetim

MAK 210 SAYISAL ANALİZ

İSTATİSTİK DERS NOTLARI

Makine Öğrenmesi 3. hafta

altında ilerde ele alınacaktır.

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Şartlı Olasılık. Pr[A A ] Pr A A Pr[A ] Bir olayın (A 1 ) olma olsılığı, başka bir olayın (A 2 ) gerçekleştiğinin bilinmesine bağlıysa;

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

T.C. DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI EKONOMETRİ DOKTORA PROGRAMI

Istatistik ( IKT 253) 4. Çal şma Sorular - Cevaplar 7. CHAPTER (DISTRIBUTION OF SAM- PLE STATISTICS) 1 Ozan Eksi, TOBB-ETU

8. BÖLÜM: DEĞİŞEN VARYANS

İstatistiksel Kavramların Gözden Geçirilmesi

NORMAL DAĞILIM. 2., anakütle sayısı ile Poisson dağılımına uyan rassal bir değişkense ve 'a gidiyorsa,

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

DİNAMİK PANEL VERİ MODELLERİ. FYT Panel Veri Ekonometrisi 1

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

OLASILIK TEORİSİ VE İSTATİSTİK

RİSK ANALİZİ VE AKTÜERYAL MODELLEME

DOĞRUSAL ZAMAN SERİSİ MODELLERİ. Durağan ARIMA Modelleri: Hareketli Ortalama Modelleri MA(q) Süreci

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

ANADOLU ÜNİVERSİTESİ. ENM317 Mühendislik İstatistiği İSTATİSTİKSEL TAHMİN Prof. Dr. Nihal ERGİNEL

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009

Transkript:

Boosting Birol Yüceoğlu Migros T.A.Ş. www.veridefteri.com biroly@migros.com.tr

İçerik Karar ağaçları Bagging Boosting Ana fikir Boosting vs. Bagging LightGBM Scikit-learn AdaBoost Calibration Gradient Boosting

Karar Ağaçları Özniteliklerin değerlerine göre yapılan kırılımlarla birbirine benzeyen örnekleri ayrıştırmaya dayanır. Kırılımlarla elde edilen veri kümeleri kendi içlerinde benzer olmalıdır. Yapılan ayrıştırmalarla problem için kurallar oluşturulur. Uygulaması ve anlaması kolaydır (ağacın kendisi ve özniteliklerin önemi). Olası problemler: Düşük yanlılık (bias), yüksek varyans (variance) Parametre eniyilemesi Derinlik, yapraklardaki örnek sayısı Veriye ve alınan kararlara aşırı duyarlı

Karar Ağaçları

Karar Ağaçları Regresyon problemi Gözlemlerin x değerlerine göre y değerlerini tahmin edeceğiz. Aşırı uyum

Bagging Hedefimiz varyansı azaltmak. Birbirinden bağımsız olarak 0.51 olasılıkla doğru tahmin yapan modellere sahip olalım. (Weak learner) Bu modellerden 1 tane kullanırsak %51 ihtimalle doğru tahmin yaparız. Bu modellerden 5 tane kullanırsak %52 ihtimalle doğru tahmin yaparız. Bu modellerden 100 tane kullanırsak %58 ihtimalle doğru tahmin yaparız. Bu modellerden 1000 tane kullanırsak %74 ihtimalle doğru tahmin yaparız. Birbirinden bağımsız modeller!!!!

Bagging Birbirinden bağımsız modeller nasıl oluşturulur? Bağımsız yerine korelasyonu düşük modeller Gözlemler Öznitelikler Gözlemler Bootstrap ile yeni örneklemler oluşturmak (Bagging) Öznitelikler Rassal özniteliklerle modelleme (Rassal orman)

Boosting Yavaş öğrenmeye dayalı bir yöntem Zayıf öğrenen (weak learner) modellerle bir topluluk öğrenmesi gerçekleştirilir. Sıralı/iteratif bir yöntem Ana fikir: Hatadan öğrenmek AdaBoost: hatalı tahmin edilen gözlemlerin ağırlıklandırarak hatayı düzeltmeye çalışır. Gradient Boosting: iteratif olarak hatayı tahmin eder Stochastic Gradient Boosting: her adımda veri kümesinden örneklem seçerek ilerler.

Boosting vs. Bagging Boosting İteratif Ağırlıklı ortalama Değiştirilmiş veri kümesi Bütün veri kümesi Aşırı uyum olabilir Yavaş öğrenme Bias (yanlılık) azaltma Bagging Paralel Ortalama (voting) Rassal örneklem / öznitelikler Rassal örneklem (korrelasyon azaltma) Aşırı uyuma dayanıklı Rassal öğrenme Variance (varyans) azaltma

Gradient Boosting Gradient Boosting yönteminde her iterasyonda bir önceki iterasyondaki hata tahmin edilmeye çalışılır. Hatadan öğrenmek gradyanın tersi yönde ilerlemeye denk gelir. Örneklem ve öznitelikler rassal olarak seçilerek de ilerlenebilir (Stochastic Gradient Boosting).

Gradient Boosting

Gradient Boosting Hata terimleri

Gradient Boosting

Gradient Boosting Hatanın tahmini

Gradient Boosting

Gradient Boosting (Scikit-learn)

Gradient Boosting (Scikit-learn)

Gradient Boosting (Scikit-learn)

Gradient Boosting (Scikit-learn)

Gradient Boosting (Scikit-learn) Aşırı uyuma

AdaBoost Zayıf öğrenen modellerle ilk tahmin Hataya göre veri kümesindeki gözlemlerin ağırlıklandırılması Ağırlıklandırma ya da ağırlıklı bootstrap Ağırlıklara göre tahmin Ağırlıkların güncellenmesi Son modelin oluşturulması (ağırlıklı toplam)

AdaBoost (Örnek) Hatalı gözlemlerin ağırlıklandırılması

AdaBoost (Örnek) Ağırlıklı gözlemlere göre tahmin

AdaBoost (Örnek)

Paketler Gradient Boosting LightGBM (R, Python) scikit-learn (Python) xgboost (R, Python) Gbm (R) AdaBoost scikit-learn (Python)