İş Zekası Hafta 6 Kestirimci Modelleme Teknikleri Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir
Bölüm Amaçları Yapay Sinir Ağları (YSA) kavramını anlamak Farklı YSA yapılarını öğrenmek YSA içinde öğrenmenin nasıl olduğunu anlamak YSA uygulamalarına aşinalığı artırmak YSA duyarlılık analizini anlamak Destek Vektörü Makineleri (DVM) yapısını ve kavramını anlamak k-en yakın komşu algoritmasını (k-eyk) anlamak k-eyk öğrenme sürecini anlamak k-eyk, DVM ve YSA farkları ile birbirleri üzerindeki avantaj ve dezavantajlarını anlamak 10e isimli eserden adapte edilmiştir 2/40
Açılış Vakası Kestirimci modelleme Karmaşık medikal prosedürleri anlamada ve yönetmede yardımcı oluyor!!! Genel Bilgiler Problem Tanımı Önerilen Çözüm Sonuçlar Vaka sorularının cevapları ve genel tartışmalar Medikal prosedürleri çalışmak neden önemlidir? Tahmin edilen çıktıların değeri nedir? Sağlık süreçlerini anlamak ve yönetmek için en kritik faktörler nelerdir? Kestirimci modelleme sağlık alanında nasıl bir etki sağlar? Acaba yönetim ve medikal personel yerine kullanılabilir mi? Çalışma çıktıları nelerdir? Bu çıktıları kimler kullanır? 10e isimli eserden adapte edilmiştir 3/40
Sinir Ağları Kavramı Sinir Ağları: Bilgi işleme süreçleri için bir beyin metaforu Sinirsel Hesaplama Ne için kullanılır YAPAY SİNİR AĞLARI Örüntü Tanıma Tahmin (Ne zaman deprem olabilir) Kestirim (önümüzdeki on yılda deprem olabilir mi?) Sınıflandırma Nerede kullanılır Finans Pazarlama İmalat Bilişim Sistemleri. 10e isimli eserden adapte edilmiştir 4/40
Biyolojik Sinir Ağları Sinaps (Bağlantı Noktası) Dendrit (Dallar) Sinaps (Bağlantı Noktası) Akson Akson Çekirdek (Soma) Dendrit (Dallar) Çekirdek (Soma) Birbirine bağlı iki beyin hücresi (Nöron) 10e isimli eserden adapte edilmiştir 5/40
İşlem Elemanı (İE-Nöron) Ağ Yapısı Gizli Katmanlar Paralel İşleme Ağ için bilgi işleme süreci Girdi Çıktı Bağlantı ağırlıkları Toplama Fonksiyonu YSA Bileşenleri 10e isimli eserden adapte edilmiştir 6/40
YSA Bilgi İşleme Süreci Girdiler Ağırlıklar Çıktılar...... Nöron (İE) Toplama Transfer Fonksiyonu... Çıktı ve Girdiler ile birlikte tek bir nöron (İşlem elemanı) 10e isimli eserden adapte edilmiştir 7/40
Biyoloji Analojisi Biyolojik vs Yapay Sinir Ağları Çekirdek Düğüm (node) Dendrit Girdi Akson Çıktı Sinaps Ağırlık Yavaş (Milisaniye) Hızlı (Nanosaniye) Çok sayıda Nöron ( Az Nöron (~100) 10e isimli eserden adapte edilmiştir 8/40
YSA Bileşenleri (İE) Ağrılıklı Ortalama (Σ) (İE) Transfer Fonksiyonu (Σ) (İE) (İE) (İE) (İE) Çıktı Katmanı (İE) Gizli Katman Girdi Katmanı Tek gizli katmanlı Sinir Ağı 10e isimli eserden adapte edilmiştir 9/40
YSA Bileşenleri Tek Nöron Çoklu Nöron (İE) (İE) Tek bir nöron ve Çoklu nöronlar için toplama fonksiyonu (İE) (İE) 10e isimli eserden adapte edilmiştir 10/40
YSA Bileşenleri Dönüşüm (Transfer) Fonksiyonu Lineer (Doğrusal) Fonksiyon Sigmoid (Mantıksal Aktivitasyon) Fonksiyon [0 1] Tanjant Hipebolik Fonksiyon [-1 1] Toplama Fonksiyonu: 3 0,2 1 0,4 2 0,1 1,2 Transfer Fonksiyonu: 1/1, 0,77, İşlem Elemanı,, Eşik Değeri??? 10e isimli eserden adapte edilmiştir 11/40
Sinir Ağları Mimarileri YSA mimarileri tamamen ilgili görevlere bağlı olarak seçilir Sınıflandırma, regresyon, kümeleme, optimizasyon, birliktelik En çok tercih edilen YSA mimarisi Geri beslemeli öğrenme içeren çok katmanlı algılayıcı modeli Regresyon temelli ve sınıflandırma problemlerinde kullanılır Diğer YSA mimariler Yinelemeli (Recurrent) Özdüzenleyici Haritalar (Self Organizing feature Maps) Hopfield ağları 10e isimli eserden adapte edilmiştir 12/40
YSA Mimarileri İleriye Doğru (Geri Beslemeli) Çok Katmanlı Algılayıcı (Tek bir gizli katman) Sosyo Demografik Din Tahmin vs Realite Finansal Diğer GİRDİ KATMANI GİZLİ KATMAN ÇIKTI KATMANI 10e isimli eserden adapte edilmiştir 13/40
YSA Mimarileri Yinelemeli Yapay Sinir Ağları Girdi 1 Girdi 2 Çıktı 1 Girdi 3 Çıktı 2 Girdi n çıktı değeri olmayan gizli nöronları ifade eder 10e isimli eserden adapte edilmiştir 14/40
YSA Mimarileri Özdüzenleyici Haritalar (SOM) Girdi 1 Girdi 2 Girdi 3 Kohonen s SOM olarak da bilinir Kümeleme sorularının çözümünde tercih edilir. 10e isimli eserden adapte edilmiştir 15/40
YSA Mimarileri Hopfield Ağları GİRDİLER... Ç I K T I L A R Hopfiel tarafından ortaya atılmıştır Yüksek derecede bağlı nöronları içerir Karmaşık hesaplama problemleri çözümünde kullanılır (Optimizasyon) 10e isimli eserden adapte edilmiştir 16/40
Daha fazla veri bul, Veriyi yeniden biçimlendir Veriyi alt setlere tekrar böl Ağ mimarisini değiştir Öğrenme algoritmasını değiştir Ağ parametrelerini değiştir YSA Geliştirme Süreci Veri toplama, organize etme ve biçimlendirme Veriyi eğitim, doğrulama ve test olarak üçe bölme YSA mimarisine ve yapısına karar verme Öğrenme algoritması seçme Ağ parametrelerini belirleme ve girme Adım 1 2 3 4 5 Tekrar eğitime al Ağırlıkları girme ve eğitimi başlatma Eğitimi durdurma, ağırlıkları dondurma 6 7 Eğitilmiş ağı test etme 8 Bilinmeyen vakalarda kullanma için ağın yayılımı 9 10e isimli eserden adapte edilmiştir 17/40
Film Hasılatı Tahmini için ÇKA-YSA Yapısı 1 Sınıf 1 Hasılat < 1M MPPA (5) (G, PG, PG13, R, NR) 1 2 Sınıf 2 1M<Hasılat < 10M Rekabet (3) (Yüksek, Orta Düşük) 2 3 Sınıf 3 10M<Hasılat < 20M Yıldız Değeri (3) (Yüksek, Orta Düşük) Film Türü (10) (Macera, Komedi ) Görsel Efekt (3) (Yüksek, Orta Düşük) Sıra Filmi (2) (Evet, Hayır) Matine Sayısı (Pozitif Tamsayı) 3 4 5 6 7...... 4 5 6 7 8 9 Sınıf 4 20M<Hasılat < 40M Sınıf 5 40M<Hasılat < 65M Sınıf 6 65M<Hasılat < 100M Sınıf 7 100M<Hasılat < 150M Sınıf 8 150M<Hasılat < 200M Sınıf 9 Hasılat > 200M Girdi Katmanı (27 IE) Gizli Katman (18 IE) Gizli Katman (16 IE) Çıktı Katmanı (9 IE) 10e isimli eserden adapte edilmiştir 18/40
Eğitilmiş bir YSA Modelinin Testi Veri 3 kısma bölünür Eğitim (~%60) Doğrulama (~%20) Test (~%20) k-katlamalı çapraz doğrulama Daha az ön yargı Çok zaman alıcı 3 katlamalı ÇD VERİ Eğitim Eğitim Test Eğitim Test Eğitim Test Eğitim Eğitim Hata Hata Hata Hata Ortalaması 10e isimli eserden adapte edilmiştir 19/40
YSA Öğrenme Süreci Denetimli Öğrenme Süreci YSA Modeli Ağırlıkları yeniden ata Hayır Çıktı Hesaplama Beklenen çıktı sağlandı mı? 1 Geçici çıktıları hesapla 2 Çıktılar ile arzu edilen değerleri karşılaştır 3 ağırlıkları yeniden atayıp süreçleri tekrarla Evet Öğrenmeyi Durdur 10e isimli eserden adapte edilmiştir 20/40
Geri Besleme Algoritması Hata... Nöron (İE) Toplama Fonksiyonu = Transfer Fonksiyonu 10e isimli eserden adapte edilmiştir 21/40
Geri Besleme Algoritması Öğrenmesi Öğrenme algoritması süreci 1. İlk ağırlıkları rastgele ata ve diğer ağ parametrelerini belirle 2. Girdi ve beklenen çıktı değerlerini oku 3. Yeni çıktı değerini hesapla (Katmaları kullanarak) 4. Hata oranını hesapla (beklenen değer ile hesaplanan değer farkından) 5. Ağırlıkları gizli katmanlar boyunca hata oranlarını dikkate alarak yeniden belirle 6. 2 5. adımları öğrenme kararlı bir hal alıncaya kadar tekrarla 10e isimli eserden adapte edilmiştir 22/40
Kara Kutuyu Aydınlatmak Duyarlılık Analizi YSA modelleri için yapılan en büyük eleştiri özellikle gizli katmanlar içerisinde yapılan hesaplamaların tam olarak bilinememesi (şeffaflık ve açıklanabilirlik eksik) Kara kutu sendromu!!! Cevap Duyarlılık analizi Bir YSA modeli kurulur. Herhangi bir girdi değişkeni değiştirilir ve çıktıdaki değişiklik hesaplanır. Böylece en önemli girdi değişkenleri belirlenmiş olur. 10e isimli eserden adapte edilmiştir 23/40
Kara Kutuyu Aydınlatmak Duyarlılık Analizi Systematically Sistematik Değiştirilmiş Perturbed Inputs Girdi Trained Eğitilmiş ANN YSA the «KARA black-box KUTU» Observed Çıktıda Change Gözlenen in Outputs Değişimler 10e isimli eserden adapte edilmiştir 24/40
Destek Vektör Makineleri (DVM) En popüler makine öğrenmesi tekniklerindendir Doğrusal olmayan modelleri doğrusal yapıda göstermeye olanak sağlar Girdi değişkenlerinin doğrusal kombinasyonlarını kullanarak sınıflandırma ve regresyon kararlarında kullanılabilir Mimari olarak birbirine oldukça benzer olduklarından DVM çoğu zaman YSA kullanılmaktadır (veya karşılaştırılmaktadır) 10e isimli eserden adapte edilmiştir 25/40
Destek Vektör Makineleri DVM amacı: girdi değişkenlerini çıktı değişkenleri ile eşleştirecek bir matematiksel fonksiyon belirlemek DVM öncelikle kernel fonksiyonları kullanarak doğrusal olmayan yapıdaki ilişkileri doğrusal olarak ayrılabilen uzaylara ayırır. Kernel Fonksiyonu: Doğrusal sınıflandırma algoritmalarının genel adı En bilinen kernek fonksiyonu RBF (Radial Based Function) dir. Daha sonra öğrenme setinde maksimum aralıklı hiperdüzlemlere ayırılır Hiperdüzlem: Farklı sınıftaki nesneleri birbirinden nasıl ayrıldığını açıklayan geometrik kavram DVM de iki paralel Hiperdüzlem oluşturulur ve bunların aralığı maksimum yapılmaya çalışılır 10e isimli eserden adapte edilmiştir 26/40
Destek Vektör Makineleri Margin Maximum-margin hyperplane 10e isimli eserden adapte edilmiştir 27/40
Örnek Vaka Öğrenci Elde Tutma Ham Veri Veri Önişleme 10 Katlamalı Çapraz Doğrulama İşlenmiş Veri Deney Tasarımı 10% 10% 10% 10% 10% 10% Modelin Test Edilmesi Modelin Kurulması 10% 10% 10% 10% Kestirimci Modelleme Karar Ağaçları YSA DVM Lojistik Regresyon Modelin Yayılımı EVET HAYIR Deney Sonuçları EVET Doğru Tahmin EVET Yanlış Tahmin HAYIR HAYIR Yanlış Tahmin EVET Doğru Tahmin HAYIR 10e isimli eserden adapte edilmiştir 28/40
Örnek Vaka Öğrenci Elde Tutma Hata Matrisi YSA (ÇKA) KA (C5) DVM LR Hayır Evet Hayır Evet Hayır Evet Hayır Evet Hayır 2309 464 2311 417 2313 386 2125 626 Evet 781 2626 779 2673 777 2704 965 2465 Toplam 3090 3090 3090 3090 3090 3090 3090 3090 Sınıf Doğruluğu %74,72 %84,98 %74,79 %86,50 %74,85 %87,51 %68,77 %79,74 Genel Doğruluk %79,85 %80,65 %81,18 %74,26 Öğrenci elde tutma oranlarının 4 farklı veri madenciliği yöntemi ile yapılan tahminlerinin karşılaştırılması (Dengeli Kümeler ve 10 katlamalı çapraz doğrulama kullanılmıştır.) 10e isimli eserden adapte edilmiştir 29/40
DVM nasıl çalışır Eğitim Verisi Veri Önişleme Süreci Veri Temizleme Kayıp, yanlış, tutarsız, gürültülü veriler Veri Dönüştürme Normalizasyon ve Standadizasyon İşlenmiş Veri Modelin Kurulması Kernel türünün seçilmesi RBF, Sigmoid, Polinomial Kernel değerlerini belirleme Grid tarama veya v-katlamalı ÇD Deneyleme «Eğitim/Test» Doğrulanmış DVM Modeli Modelin Yayılımı Model katsayılarını çıkar Eğitilmiş modeli KDS içerisine ekle (Kodla) Modeli izle ve sürdür Kestirim Modeli 10e isimli eserden adapte edilmiştir 30/40
Neden Destek Vektör Makineleri? Mükemmel genelleme yeteneği Üst düzey kestirim kabiliyeti Kolay kullanım Mükemmel teorik kökleri olması Karar Ağaçları Regresyon SOM DVM YSA 10e isimli eserden adapte edilmiştir 31/40
k-en Yakın Komşu Yöntemi (k-nn) YSA ve DVM zaman alıcı, hesaplama açısından yoğun, iteratif k-nn hesaplama açısından kolay ve karşılaştırmalı olarak oldukça iyi sonuçlar üreten bir yaklaşım YSA ve DVM gibi sınıflandırma ve regresyon kararlarında kullanılabilir k-nn örnek tabanlı öğrenme (Tembel Öğrenme) yöntemidir. İşin çoğu tahmin yapma kısmındadır (modelleme değil) k kullanılacak komşu sayısı 10e isimli eserden adapte edilmiştir 32/40
k-en Yakın Komşu Yöntemi (k-nn) Cevap k değerine bağlıdır K=3 Yuvarlak K=5 Kare 10e isimli eserden adapte edilmiştir 33/40
k-en Yakın Komşu Yöntemi (k-nn) Geçmiş Veriler Eğitim Seti Doğrulama Seti Parametre Seçimi Uzaklık Ölçütü Komşu sayısı (k) Yeni Veri Kestirim Komşu sayısını dikkate alarak tahmin oluşturma 10e isimli eserden adapte edilmiştir 34/40
1. Benzerlik Ölçütleri Minkowski uzaklığı k-nn Model Parametreleri Manhattan uzaklığı (q=1) Öklid uzaklığı (q=2) 10e isimli eserden adapte edilmiştir 35/40
1. Komşu Sayısı (k) k-nn Model Parametreleri En iyi değer tamamen eldeki veriye bağlıdır Büyük değerler gürültülü veriyi ekarte ederken sınıflar arasındaki farklılıkları da daha az belirgin kılar. «En uygun değer» sezgisel olarak belirlenir En uygun değerin belirlenmesinde «Çapraz Doğrulama» ve «Grid Arama» yöntemleri de kullanılabilir 10e isimli eserden adapte edilmiştir 36/40