Makine Öğrenmesi 1. hafta



Benzer belgeler
Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

KORELASYON VE TEKLİ REGRESYON ANALİZİ-EN KÜÇÜK KARELER YÖNTEMİ

Nicel araştırmalar altında yer alan deneysel olmayan araştırmaların bir alt sınıfında yer alır. Nedensel karşılaştırma, ortaya çıkmış ya da daha

Regresyon ve İnterpolasyon. Rıdvan YAKUT

Bölüm 2 Algoritmalar. 2.1 Giriş

İÇİNDEKİLER TOPLAMA YOLUYLA SAYMA YÖNTEMİ ÇARPMA YOLUYLA SAYMA YÖNTEMİ FAKTÖRİYEL

MATBAA DA SAATLİK MALİYET SİSTEMİ VE UYGULANMASI

Matematiksel İktisat-I Ders-1 Giriş

Okullarda bulunan kütüphanelerin fiziki koşulları nelerdir? Sorusuna tarama yöntemi kullanarak yanıt aranabilir. Araştırmacı, okul kütüphanelerindeki

ALGORİTMA İ VE PROGRAMLAMA

Ölçme Hataları ve Belirsizlik Analizi

İstatistik Yöntemleri ve Hipotez Testleri

Geçerliliği olasılık esaslarına göre araştırılabilen ve karar verebilmek için öne sürülen varsayımlara istatistikte hipotez denir.

Değerlendirme testleri:

Örnek Uzay: Bir deneyin tüm olabilir sonuçlarının kümesine Örnek Uzay denir. Genellikle harfi ile gösterilir.

ARAŞTIRMA YAKLAŞIM - DESEN ve YÖNTEMLERİ

Algoritmalara Giriş 6.046J/18.401J

BÖLÜM 11 Z DAĞILIMI. Şekil 1. Z Dağılımı

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Etlik Piliç Kümeslerinin Serinletilmesinde Güneş Enerjisi Kullanımının Tekno-Ekonomik Analizi. Yrd. Doç. Dr. Metin DAĞTEKİN

Ekle Menüsü İşlevleri ÜNİTE 3. Bu üniteyi çalıştıktan sonra; Ekle Menüsü Çizimler Grafikler Bağlantılar Metin

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Vektör Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr.Grv.Dr.Nevin ORHUN

İSTATİSTİK 1 ( BAHAR YARIYILI) 6. Hafta Örnek soru ve cevapları

BİLGİ UZAYINA ADAPTE EDİLEBİLİR KİŞİSEL E ÖĞRENME YOLU PROJESİ ( BİLİRKİŞİ ) Can GÜRSES. Arages Bilişim Genel Müdürü. Dr.

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. Özel Öğretim Yöntemleri 2 YDA

çözümlemesi; beklenen değer ile gözlenen değer arasındaki farkın araştırılması için kullanılır.(aralarındaki fark anlamlı mı?)

Ekonometrinin Gayesi ve İktisadi Modeller

Ders Yazılımlarını. Seher ÖZCAN

ELE 201L DEVRE ANALİZİ LABORATUVARI

MALZEME BİLİMİ VE MÜHENDİSLİĞİ. Malzeme Üretim Laboratuarı I Deney Föyü NİCEL (KANTİTATİF) METALOGRAFİ. DENEYİN ADI: Nicel (Kantitatif) Metalografi

RASYONEL SAYILARIN MÜFREDATTAKİ YERİ MATEMATİK 7. SINIF RASYONEL SAYILAR DERS PLANI

KODLAMA SİSTEMLERİNİN TANIMI :

Ders Anlatım Föyü Nedir?

5/21/2015. Transistörler

Cinsiyet Eşitliği MALTA, PORTEKİZ VE TÜRKİYE DE İSTİHDAM ALANINDA CİNSİYET EŞİTLİĞİ İLE İLGİLİ GÖSTERGELER. Avrupa Birliği

İÇİNDEKİLER. Sayfa No. ÖZET... i. SUMMARY... iü. İÇİNDEKİLER... v. TABLOLAR... xi. ŞEKİLLER... xiii GİRİŞ... 1

ÖLÇME VE DEĞERLENDĠRMEDE TEMEL ĠSTATĠSTĠKĠ HESAPLAMLAR ĠSTATĠSTĠK? İstatistik, verileri analiz ve organize etmekle uğraşan bir disiplindir.

KATEGORİSEL VERİ ANALİZİ (χ 2 testi)

Olasılık ve İstatistiğe Giriş-I (STAT 201) Ders Detayları

Üstel modeli, iki tarafın doğal logaritması alınarak aşağıdaki gibi yazılabilir.

İnönü Üniversitesi Mühendislik Fakültesi Maden Mühendisliği Bölümü 321 Cevher Hazırlama Laboratuvarı I HİDROSİKLON İLE SINIFLANDIRMA

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. Olasılık ve Rastgele Değişkenler EEE

Hipotez Testleri. Kazanımlar

SINAVA HAZIRLANAN BİR ERGENİN ANNE-BABASI OLMAK

Volkan Karamehmetoğlu

1. Bölüm: Ağı Keşfetme

Kurumsal Veri Güvenliğinde Önemli Bir Adım: Veri Kaybını Önleme. Ramise KOÇAK Servet ÖZMEN Otokar Otomotiv ve Savunma A.Ş.

Madde 2. KTÜ de not değerlendirilmesinde bağıl değerlendirme sistemi (BDS ) ve mutlak değerlendirme sistemi (MDS ) kullanılmaktadır.

SAYILAR TEORİSİ - PROBLEMLER

Demodülasyon Algoritmaları İçin En İyilenmiş Windows İşletim Sistemi Uygulamaları

ÖLÇÜM BELİRSİZLİĞİNİN HESAPLANMASI PROSEDÜRÜ

SERTLİK ÖLÇME DENEYLERİ

DERS 1. ki De i kenli Do rusal Denklem Sistemleri ve Matrisler

Emisyon Ölçümlerinin Planlanması

İstatistik ve Olasılık

14-16 Ekim 2011 Bursa. 5. Oturum Bayrak Yarışları ve Kelebek Tasarımı

Tebliğ. Kapsam Madde 2 Borçlanma maliyetlerine ilişkin Türkiye Muhasebe Standardının kapsamı ekli TMS 23 metninde yer almaktadır.

İşletmelerin rekabet avantajlarını koruyabilmeleri için sürekli olarak inovasyon yapmaları gerekir. Bunun için de ürettikleri ürünleri ve sundukları

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Hipotez Testinin Temelleri

Horton'nun (2001) belirttiği üzere web tabanlı öğretim ortamlarında genel olarak kullanılan ders yapıları aşağıdaki gibidir:

ZEMİN SINIFLAMASINDA BULANIK MANTIK UYGULAMASI SOIL CLASSIFICATION AN APPLICATION WITH FUZZY LOGIC SYSTEMS

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

KÜMELER. A = {x : (x in özelliği)} Burada x : ifadesi öyle x lerden oluşur ki diye okunur. Küme oluşturur. Çünkü Kilis in üç tane ilçesi.

ÖSYM. T.C. Ölçme, Seçme ve Yerleştirme Merkezi

SERT KİLLERDE TEKRARLI DEPREM YÜKLERİ ALTINDA KAZIK-ZEMİN ETKİLEŞİMİNİN MODELLENMESİ : P-Y EĞRİLERİ

Kastamonu İlinin Rüzgar Enerjisi Potansiyelinin Yapay Sinir Ağları (YSA) ile Tahmin Edilmesi

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Kesirler ve İşlemler Ondalık Kesirler ve İşlemler, Yüzdeler, Oran. Yrd. Doç. Dr. Nuray Çalışkan-Dedeoğlu Matematik Eğitimi

Makine Öğrenmesi 2. hafta

Devrim Gündüz. Onur Yalazı İstanbul PGCluster ile etkin kümeleme

BÜRO YÖNETİMİ VE SEKRETERLİK DANIŞMA GÖREVLİSİ MODÜLER PROGRAMI (YETERLİĞE DAYALI)

DÖRDÜNCÜ BÖLÜM. YG ve AG Sistemlerinde Topraklama Tesislerinin Birleştirilmesi

ÇALIŞAN BAĞLILIĞINA İTEN UNSURLAR NEDİR VE NEDEN ÖNEMLİDİR?

Matematiksel Beceriler (Ortaöğretim Matematik Dersi Öğretim Programı)

TAM SAYILARLA İŞLEMLER

Performans Modelleri P R O F. D R. M U S T A F A K A R A Ş A H İ N

YAPAY SİNİR AĞLARI Bölüm 1-Giriş. Dr. Erhan AKDOĞAN

T.C. TRAKYA ÜNİVERSİTESİ PEYZAJ MİMARLIĞI BÖLÜMÜ PEYZAJ TASARIMI PROJESİ DERSLERİ UYGULAMA VE DEĞERLENDİRME ESASLARI

VERİ MADENCİLİĞİ (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

ALES / İLKBAHAR 2008 DİKKAT! SORU KİTAPÇIĞINIZIN TÜRÜNÜ "A" OLARAK CEVAP KÂĞIDINA İŞARETLEMEYİ UNUTMAYINIZ. SAYISAL BÖLÜM SAYISAL-2 TESTİ

GENEL BİLGİ. KOBİ ler ve KOSGEB

8. SINIF ÖĞRETİM PROGRAMI

GİYİM ÜRETİM TEKNOLOJİSİ KADIN ELBİSE DİKİMİ MODÜL PROGRAMI (YETERLİĞE DAYALI)

Prof. Dr. Durmuş KAYA Öğr. Gör. Muharrem EYİDOĞAN Arş. Gör. Enes KILINÇ

3. İLETİM SİSTEMLERİNİN GÖSTERİLİMLERİ Şemalar

CUTEC etkisi: -Yüksek verimlilik -Yüksek Işlem güvenliği -Yüksek Yaşam - H7 Kalite Delik

İ.Ü. AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ Çalışma Soruları Hazırlama Klavuzu

MALİ ANALİZ KISA ÖZET KOLAYAOF

GIDA TEKNOLOJİSİ İŞLETMELERDE HİJYEN MODÜLER PROGRAMI (YETERLİĞE DAYALI)

GİRESUN KOBİ LERİNİN İHRACAT EĞİTİM İHTİYACI ARAŞTIRMA RAPORU

Gıda Maddeleri ile Temasta Bulunan Plastik Madde ve Malzemelerin Bileşenlerinin Migrasyon Testi İçin Temel Kurallar Tebliği

KARADENİZ TEKNİK ÜNİVERSİTESİ MADEN MÜHENDİSLİĞİ BÖLÜMÜ MADEN İŞLETME LABORATUVARI DENEY ADI: AGREGA ELEK ANALĠZĠ VE GRANÜLOMETRĠ EĞRĠSĠ

NESNEYE DAYALI PROGRAMLAMA VE C++

Kontrol Sistemleri Oransal-Türevsel (PD) Denetim Yöntemi

SWOT Analizi. İş Sağlığı ve Güvenliği Konularında. SWOT Analizi. Uygulamaları. Nurdoğan İNCİ Öğretim Görevlisi Elektrik Mühendisi

9. SINIF DENEME SINAVLARI DAĞILIMI / DİL VE ANLATIM

5. ÜNİTE ÜÇ FAZLI ALTERNATİF AKIMLAR

Teknik Açıklıklar Nasıl Yönetilmeli? Hayretdin Bahşi Uzman Araştırmacı

Transkript:

Makine Öğrenmesi 1. hafta Temel Terimler Danışmanlı Danışmansız Öğrenme Veri Hazırlama Çapraz Geçerlik Aşırı Eğitim 1 Makine Ögrenmesi Nedir? Makine Öğrenmesi, verilen bir problemi probleme ait ortamdan edinilen veriye göre modelleyen bilgisayar algoritmalarının genel adıdır. Yoğun çalışılan bir konu olduğu için önerilmiş birçok yaklaşım ve algoritma mevcuttur. Bu yaklaşımların bir kısmı tahmin (prediction) ve kestirim (estimation) bir kısmı da sınıflandırma (classification) yapabilme yeteneğine sahiptir. 2 1

Makine Öğrenmesi Yöntemleri Önerilmiş birçok makine öğrenmesi yöntemi mevcuttur. Bunlar probleme yaklaşımlara göre farklılık gösterebilir ve bu yüzden farklı problemlerde farklı başarılara sahip olabilirler. 3 Makine Ögrenmesi Terimleri Tahmin (prediction): Veriden öğrenen modellerde sistem çıkışının nicel olması durumunda kullanılan yöntemlerin ürettiği değerlerdir. Sınıflandırma (classification): Giriş verisine ait çıkışların nitel olduğu durumlarda kullanılan yöntemlerin her veri örneğinin hangi sınıfa ait olduğunu belirlemesidir. 4 2

Tahmin ve Kestirim İstatistikte rasgele bir değişkenin bilinmeyen bir değerinin belirlenmesi için tahmin (prediction), bilinmeyen bir sabitin belirlenmesi içinse kestirim (estimation) kavramından bahsedilir. Çok yakın anlamları dolayısıyla bu iki terim literatürde çoğunlukla karıştırılarak aynışeyi ifade etmede kullanılır. 5 Tahmin ve Kestirim Örneğin sağda veri noktaları için bir doğrusal eğri fonksiyonu tespit edilmiştir. Herhangi bir x değerine karşılık gelen y değerini belirlemekte tahmin, tahmini yapmamıza yardımcı olan eğrinin (eğim ve sapma değeri gibi) parametrelerinin belirlenmesinde ise kestirim terimleri tercih edilmelidir. 6 3

Bir Kestirim Örneği Bir probleme ilişkin olarak sağdaki veri kümesi veriliyor. Amaç bir x girdisine karşı bir y değerini üretmektir. Buna göre veri üzerinde doğru ilişkiyi bulan öyle bir f :X Y fonksiyonu tanımlanmalıdır ki en küçük hatayı üretsin. Bu basit problemde y=3*x çözümü kolayca görünmektedir. X 3 5 8 10 19 24 27 31 38 43 Y 9 15 24 30 57 72 81 93 114 129 7 Bir Tahmin Örneği Bulunan y=3*x çözümüne ilişkin olarak eğer x=50 değeri için y değeri istenirse kestirilen denklem yardımı ile y=150 tahmin değerini kolayca hesaplamak mümkün olur. X 3 5 8 10 19 24 27 31 38 43 Y 9 15 24 30 57 72 81 93 114 129 8 4

Sınıflandırma Amaç probleme ait tüm uzayın belirli sayıda sınıfa bölünmesidir. Sağdaki resimde her renk bir sınıfı göstermektedir. Sınıflandırma teknikleri sayesinde hiçbir veri örneğinin olmadığı bölgeler de renklendirilebilir. 9 Bir Sınıflandırma Örneği Sağdaki veri kümesinde amaç X girdisine karşı Y etiket (label) değerini üretmektir. Öyle bir f :X Y sınıflandırma fonksiyonu tanımlanmalıdır ki en az hata ile sınıflandırma yapılabilsin. 0, Y = 1, X < 20 X 20 X 2 5 9 13 19 20 27 33 39 47 Y 0 0 0 0 0 1 1 1 1 1 10 5

Makine Öğrenmesi Terimleri Makine Öğrenmesi yöntemleri verinin yapısına göre ikiye ayrılır. Danışmanlı (supervised) Öğrenme: Veri, etkiye tepki prensibiyle çalışan sistemlerden alınır ve giriş-çıkış düzeninde organize edilir. Danışmansız (unsupervised) Öğrenme: Sınıf bilgisi olmayan veya verilmeyen veri içerisindeki grupları keşfetmeyi hedefler. 11 Takviyeli Öğrenme Bazen öğretici, sisteme beklenen sonucu tam söyleyemez. Ama sistemin ürettiği sonuç için doğru/yanlış şeklinde fikir belirtir. Bu öğrenme şekli de takviyeli (reinforcement) öğrenme adıyla anılır. Boltzmann makinesi, LVQ ve genetik algoritma örnek olarak sayılabilir. 12 6

Makine Ögrenmesi Terimleri Sınıflandırma ve tahmin yöntemlerine danışmanlı öğrenme yöntemleri de denilebilir. Kümeleme (clustering) yöntemleri ise danışmansız öğrenme yöntemleri olarak anılırlar. Peki Kümeleme nedir? 13 Kümeleme Danışmansız öğrenmeyi baz alan Kümelemede amaç veri kümesi içerisindeki veri örneklerini sadece özellik (feature) vektörlerine göre gruplamaktır. Bunun için örneklerin birbirine benzerliği gözetilir. Kümeleme literatüründe benzerlik terimi uzaklık terimiyle zıt anlamda kullanılmaktadır. 14 7

Kümeleme Birbirine benzer olan örnekler aynı kümeye ve biribirinden uzak olan örnekler farklı kümelere yerleştirilmeye çalışılır. Küme sayısı genellikle dışarıdan verilir. 15 Danışmanlı Kümeleme Sınıf bilgisinden bağımsız olarak veri içerisinde bilgi keşfi sınıflandırma için destekleyici bir etkiye sahip olabilir. Sınıflandırma öncesi verinin kümelenmesi (supervised clustering), genellikle sınıflandırma başarısını yükseltmektedir. Kümeleme Danışmanlı Kümeleme 16 8

Notasyonlar Çalışmalarda İstenen sınıflar için D, Tahmin çıkışları için Y, Giriş verisi için X, Girişin her bir özelliği için X j, Veri içerisindeki her bir örnek için x i, Giriş veri kümesinin tamamı için X notasyonları tercih edilmektedir. 17 Öğrenme Zamanlaması Çevrimiçi (online) öğrenme: Gerçek zamanlı olarak çalışan sistemlerde öğrenme aşamasının çalışma anında da sürdürülmesi gerekiyorsa kullanılır. Çevrimdışı (offline) öğrenme: Uygulama sistemi henüz çalışmaz iken eğitim gerçekleştirilir, eğitilmiş yöntem sisteme yüklenir ve sistem çalıştırılır. 18 9

Öğrenme Kuralları Veriden eğitim için önerilen her algoritma farklı bir öğrenme kuralı olsa da genel eğilim algoritmaları ortak özelliklerine göre gruplamak yönündedir. Öğrenme algoritmaları dört grupta toplanabilir: Hebb Delta Hopfield Kohonen 19 Hebb Öğrenme Kuralı 1949 da geliştirilen ilk öğrenme kuralıdır. Bir hücre, bağlı olduğu diğer hücreleri etkiler prensibine dayalıdır. Bu öğrenme kuralı geliştirilerek farklı öğrenme kuralları geliştirilmiştir. 20 10

Delta Öğrenme Kuralı Beklenen sonuç ve hesaplanan sonuç arasındaki karesel fark, sistemin hatasıdır. Bu hatayı indirgemek için hücreler arasındaki bağlantılar sürekli değiştirilir. Çok katmanlı algılayıcı ağlar bu kurala göre eğitilirler. 21 Hopfield Öğrenme Kuralı Beklenen sonuç ile hesaplanan sonuç aynı ise hücreler arası bağlar belirli bir oranda güçlendirilir, aksi durumda bağlar zayıflatılır. Recurrent ve Elman ağları bu kural ile eğitilirler. 22 11

Kohonen Öğrenme Kuralı Bu danışmansız modelde hücreler yarış halindedir. En büyük sonucu üreten hücre yarışı kazanır. Kazanan hücrenin ve komşularının bağları güçlendirilir. ART (Adaptive Resonance Theory) ve Kohonen tarafından geliştirilen SOM (Self Organizing Map) ağları örnek olarak verilebilir. 23 Veri Hazırlama Sınıflandırma veya tahmin için problem uzayını tam olarak temsil edebilen veri kümesi hazırlamak gerekmektedir. 24 12

Veri Hazırlama Çözüm için hazırlanan veri, hem eğitim hem de başarı ölçümünde kullanıldığı için genellikle ikiye ayrılır. 25 Sınıflandırma Geçerliği Veriye dayalı olarak eğitim yapılmasının temel amacı eğitilen sistemin benzer konuda hiç bilinmeyen bir örneğe mantıklı bir cevap üretebilmesidir. Eldeki sınırlı veri kullanılarak sistemin hem eğitilmesi hem de başarısının tarafsız bir şekilde ölçülebilmesi gerekmektedir. Bunun için çapraz geçerlik (cross validation) adıyla anılan yöntemler kullanılmalıdır. 26 13

Çapraz Geçerlik (Cross Validation) Bu temel prensibe dayanarak önerilmiş birkaç geçerlik yöntemi vardır. Ama hepsinde temel mantık aynıdır. Sistemin başarısını ölçebilmek için mevcut veri kümesi ikiye bölünür. Birisi eğitim için (train set) diğeri de sistemin hiç görmediği olası örnekleri temsilen (test set) kullanılır. Sistem, seçilen eğitim algoritması ile eğitim kümesini öğrenir. Eğitilen sistemin başarısı daha sonra test kümesi üzerinde hesaplanır. 27 Çapraz Geçerlik Yöntemleri Üç tip çapraz geçerlik yöntemi önerilmiştir: Rasgele örnekleme K parçalı Birini hariç tut 28 14

Rasgele Örneklemeli Geçerlik Rasgele örneklemede kümeler rasgele seçilir. Optimum başarı için birkaç kez tekrarlanır. Çapraz geçerlik içerisinde en yüksek başarıyı sağlayan yöntemdir. 29 K Parçalı K parçalıda veri, K adet kümeye ayrılır. Birisi test kümesi için ve diğer K-1 küme birleştirilip eğitim kümesi için seçilir. Bu işlem kümeler değiştirilerek K kez tekrarlanır. Genel başarı için K adet başarı değerinin ortalaması alınır. 30 15

Birini Hariç Tut Birini hariç tut yöntemi ile K parçalı geçerlik yöntemleri çok benzerdir. N adet örnek içeren veri kümesi için kullanılan birini hariç tut yöntemi K=N için K parçalı çapraz geçerlik gibi uygulanır. 31 Aşırı Eğitim (Overfitting) Veri ile iterasyonal eğitim yapan modellerin hepsinde öğrenme sürecinin zamanı gelince durdurulması gerekir. Eğitim durdurulmazsa öğrenilmesi gereken veri içerisindeki tüm örnekler sistem tarafından ezberlenir ve bilinmeyen örnekleri tahmin yeteneği azalır. Aşırı eğitim (overfitting) denilen bu istenmeyen durum makine öğrenmesinin temel amacı olan genelleştirme kavramına zarar verir. 32 16

Eğitim Süresi Eğitimin ne zaman durdurulması gerektiği kullanılan algoritmaya bağlıdır. Erken durdurma yapılırsa sistem veriyi tam öğrenemediği için başarı düşecektir. Aşırı eğitimde de modelin genelleştirme yeteneği zarar göreceği için benzer şekilde başarı kötü yönde etkilenecektir. 33 17