MEH535 Örüntü Tanıma 6 Boyut Azaltımı (Dimensionality Reduction) DoçDr M Kemal GÜLLÜ Elektronik ve Haberleşme Mühendisliği Bölümü web: http://akademikpersonelkocaeliedutr/kemalg/ Eposta: kemalg@kocaeliedutr
Neden Boyut Azaltımı? Daha düşük hesapsal yük Daha az parametre/uzay karmaşıklığı k<<d Sadece gerekli öznitelikleri alabilme olanağı Küçük veri kümelerinde daha gürbüz çalışan daha basit model oluşturabilme Daha açıklanabilir yapılar Verileri 2B ve 3B olarak görselleştirebilme (yapıları, grupları, aykırı örnekleri görebilme) 2
Boyutluluk belası (curse of dimensionality) Boyut azaltımı Boyut Azaltımı Öznitelik seçimi/çıkartımı (feature selection/extraction) İşaret temsili/sınıflandırma için Temel Bileşenler Analizi (Principal Components AnalysisPCA) Doğrusal Ayırtaç Analizi (Linear Discriminant AnalysisLDA) 3
Deyim 1961 de Bellman tarafından bulunmuştur Çok değişkenli veri analizinde boyutluluğun artması problem oluşturmaktadır Örneğin; Boyutluluk Belası Bir kişinin araç alırken aradığı kriterlerin çok fazla olması piyasada seçebileceği araç bulamamasına neden olabilir En önemli kriterleri belirlemek! 4
if : iieh" iii 1 O d farmaahlrk
Temel örnek: 1 Boyut/3 sınıf: Boyutluluk Belası Başarımı arttırmak için 2 boyuta geçildiğinde: Kutudaki yoğunluk (Nörnek/kutu) sabit Örnek sayısı sabit (Kutulara seyrek örnek düşüyor) 5
Boyutluluk Belası Sabit örnek sayısında 3 boyuta geçildiğinde: Yoğunluğu sabit tutmak için örnek sayısı = N D+1 olmalı Kutu sayısı = 27 Yoğunluk N=3 sabit seçildiğinde örnek sayısı = 81 Örnek sayısı sabit 9 iken 3B saçılım grafiği neredeyse boş 6
Boyutluluk Belası Pratikte, verilen bir veri kümesinde, sınıflandırıcının başarımının tepe noktaya ulaştığı bir öznitelik sayısı mevcuttur Fazla öznitelik kullanımı başarım düşüşü Boyutluluk sorunu ile mücadele için: Önsel bilgi kullanılabilir (değerli öznitelikler hk) Boyut azaltımı gerçekleştirilebilir http://wwwvisiondummycom/2014/04/cursedimensionalityaffectclassification/ 7
Boyut azaltımında 2 ayrı yaklaşım mevcuttur: Boyut Azaltımı Öznitelik seçimi (feature selection) Mevcut özniteliklerden k<<d adedi seçilerek yeni bir alt küme oluşturma Alt uzay seçme algoritmaları Öznitelik çıkartımı (feature extraction) Yeni özniteliklere sahip k<<d boyutlu yeni bir alt küme oluşturma PCA, LDA 8
Boyut Azaltımı :# ***x #r :*, '**KKt E: " ; team = Jixietgmt =did Tntxeieetnmetfeis 9
Öznitelik Seçimi D özniteliğin 2 d altkümesi oluşmaktadır (örn; mantıksal AND operatörünü öğrenme) İleri Arama (forward search): Her bir adımda en iyi özniteliği ekle of nitelik Kiwi F={ } 1 = 2 her items yonder I = 3aryjmh E (F U ki ) ' xj j Flies he ehle, efer I ( FU kj ) < E ( F ) is Tepe tırmanma (Hillclimbing O(d 2 e! re 2 )) algoritması Geri Arama (backward search): Tüm öznitelikler ile başla ve mümkünse her adımda bir öznitelik azalt Kayan Arama (Floating search (Add k, remove l)) ':s 10
Öznitelik Çıkartımı İşaret temsili: Bir alt uzayda işareti verimli şekilde temsil edebilme Sınıflandırma: Bir alt uzayda sınıf ayrımsama gücünü arttırma 11
Temel Bileşenler Analizi (PCA) x izdüşürüldüğünde bilgi kaybının en küçüklendiği bir düşük boyutlu uzay bul x in w üzerindeki izdüşümü: z = w T x Var(z) nin en büyükleneceği w yı bul Varlz ) = Var ( * wtcx v IY=E[ MK w )=E[ ( WTX = wt E [ ( = WT ED WFPY NKNTD NT ]w 12
p Temel Bileşenler Analizi inla#kfdenem=@w enthused Var(z) yi en büyüklemek için, en büyük özdeğere karşılık gelen vektörü seç binggg?mnmi#x(wtwy,fyuwet 2 Temel bileşen: En büyük Var(z 2 ), kısıt: w 2 =1 ve w 1 e dik mgznwi Ewz x ( wiwz i ) wz, E ' in 2 (wztwe en biyiih it Lejune key ihhfehn on wetter! o ), Var(z) yi w 1 =1 kısıtı ile en büyükle: D uktgay, " 13
xd Rd =[x, m = El * ], im ]T, N : 5 rnek says E = E[ ( xtffxtuhxtd ] xkz wi = ' ' iwi = Hi? EiI HEl a#' >4 larynkandahi yenheyohloak sistemm her bir Xi iginwtifi aohmim Wi bulunnr X ' gills He W=[w,wywk)D ' niieiimmatrisi Karhuner Lowe Tusfrn KLT
W nın sütunları nın özvektörleri, m: örnek ortalaması Verinin ortalamasını merkeze taşı ve eksenleri döndür! Temel Bileşenler Analizi zaiytxni inet#iyiykxi=kd4fy=ax 14
7 Temel Bileşenler Analizi k boyut kararı nasıl verilmeli? Dejisintimn o ram Pot X + X, z + i XL, 7 XD + X d 15
Temel Bileşenler Analizi 16
PCA Örnek 17
PCA Örnek 18
x i doğrusal kombinasyon ile oluşturmak için az sayıda z faktörü bul: x i µ i = v i1 z 1 + v i2 z 2 + + v ik z k + ε i Faktör Analizi z j, j =1,,k : gizli faktörler (latent factors) ve E[ z j ]=0, Var(z j )=1, Cov(z i,, z j )=0, i j, ε i : gürültü kaynakları E[ ε i ]= ψ i, Cov(ε i, ε j ) =0, i j, Cov(ε i, z j ) =0 v ij ler faktör yüklemeleri (factor loadings) 19
PCA FA Faktör Analizi PCA x z z = W T (x µ) FA z x x µ = Vz + ε 20
Faktör Analizi z j ler, x i üretmek için gerilir, döndürülür ve ötelenir: ii H 21
x izdüşürüldüğünde sınıfların iyi şekilde ayrımsandığı bir boyut azaltımı gerçekleştir Aşağıdaki ifadeyi en büyükleyen bir w bul: Amaa ]( pw) hoirfnksizom m, Doğrusal Ayırtaç Analizi (LDA) fonhsipm = ten : en biiyiklenmeli sits enhiiaikbnmdi uutxtrt * rt st= lwtxt mprt ' amount JC w ) biizkhyakwdoiigiimirin y en bulnak 22
Doğrusal Ayırtaç Analizi Sınıflar arası saçılım (between scatter): mzp = ( m, ( Wtr, Wtr )2 original uzaydah uktorlem ortulama = between scatter WT = ( mmm WTSFBW Mnd, ( a, nmzpw Sınıf içi saçılım (within scatter): ( wtxxt mprt,yv+wts< rt WTB =, $s= (xtr)(x±mmm'#x =(mmrmd(mmn = wt = ( xt, ) ( xt mmnltxu in i = W 'S = WT SWW within scatter 23
Doğrusal Ayırtaç Analizi Aşağıdaki ifadeyi en büyükleyen w yı bul: Jcwk wjyyynw = H y2 WTSWW Cioni deft o ±EEs fo W*=$jL(mmmrm=m 24
Doğrusal Ayırtaç Analizi 25
K>2 sınıf için: Sınıf içi saçılım: Doğrusal Ayırtaç Analizi Sw =!si, sizritlxtnnikxtmnif Sınıflar arası saçılım: S,s=&gNiCmi Hemi HT, an Aşağıdaki ifadeyi en büyükleyen W yı bul: tt#nrt?w)=lwiwlyninuynbgntnlwtsww1h=k 1 ' dir 26
Sınırlamalar Doğrusal Ayırtaç Analizi En fazla K1 boyutlu uzaya izdüşüm yapılabilir Daha fazla öznitelik gerektiğinde farklı yöntemler ile sayı arttırılabilir Dağılımlar Gauss yapısında değilse, LDA izdüşümü sınıflandırma için karmaşık yapıları koruyamaz 27
Sınırlamalar Doğrusal Ayırtaç Analizi Ayırt edici bilgi ortalamada değil de değişintide ise izdüşüm iyi sonuç vermez : Y % 28
LDA Örnek 29
PCA LDA Karşılaştırma 30
PCA LDA Karşılaştırma 31
smifa a HID I ait reviler : W, ; X, = ( re,,nz)={ ( 4,2 ), ( 2,4 ), ( 2,3), ( 3,6 ), (4/4) } 2 s, nifa ait writer : wz : Xz = { 1910 ) (, 6,8 ) ( 9,5 ),, ( 8,7 ), ( 10,8 )} Sort Verikrlere bafhhalarak dajmsal ayrtas izdisiimiini bulun li#nmfyt=hfh,dhhzhsoad++fhtkksdf r=s khthhhhhtn= ran Faith 't!h8hfh:hyd=ehy=ey s,= k±mm sit:o YY sw=s,+sz=f,;d 't w*=sila rtf THMKH 's 't "H]=f FI?i 't
nd my ya da Sj, }w=jw 'S lizerinden aiiwime gidosek = ( A, ( nm, T= (2%162952) 20,52 14,44 Hits JII,, = 0=770,312,2007 6,489 Sj 's [9/221] ],]= 4,2779 2,9794 6 ' Hefner ( 9,271 ] 6,489,g+gg]W1= 2 4439 OW, ]Wz= 12,2007 Wz ontoit:p 't : :D Optimum sdiim Tinin enbiijnhdfoini weren uektir olaayindan ; KYIWZ edrmr