Öbekleme için sonsuz karışım modelleri sıklıkla kullanılır. Bu modellerde karışım atamalarının sonsalından Monte Carlo yöntemiyle örnekleme yapmak

Bölüntüler ve Özellik Atamaları için Özet İstatistikleri Işık Barış Fidaner Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi, İstanbul fidaner@alternatifbilisim.org Ali Taylan Cemgil Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi, İstanbul taylan.cemgil@boun.edu.tr Giriş Özet Öbekleme için sonsuz karışım modelleri sıklıkla kullanılır. Bu modellerde karışım atamalarının sonsalından Monte Carlo yöntemiyle örnekleme yapmak veya eniyileme ile maksimum a posteriori çözümünü bulmak mümkündür. Ne var ki bazı problemlerde sonsal dağınıktır ve örneklenen bölüntüleri yorumlamak zordur. Bu makalede bölüntü ve özellik ataması örneklemlerinin temsili için blok büyüklüklerine dayalı yeni istatistikler tanıtmaktayız. Öğeler arası parçalılığı nicelemek için öğe-temelli bir entropi tanımı geliştirmekteyiz. Sonra bu bilgiyi özetleyip görselleştirecek entropi toplaşması adlı basit bir algoritma önermekteyiz. Önerilen istatistiklerin pratik kullanımı birkaç sonsuz karışım sonsalında ve bir özellik ataması veri kümesinde yapılan deneylerle gösterilmektedir. Öbeklemede gözlenen veri öğelerini benzerliklerine göre gruplamak amaçlanır. Seçilen uygulamaya göre öbekler, konulara ait sözcükleri, metabolik süreçlere ait genleri veya uygulamanın varsayabileceği herhangi bir başka ilişkiyi temsil edebilir. Sınırsız sayıda karışım bileşenini olanaklı kılan sonsuz karışım modelleri, öbekleme için genel bir çözüm sağlar. Bu modellerin dayandığı Dirichlet süreci (DS) [, ] ve üstsınıfı Poisson-Dirichlet süreci (PDS) [, ] gibi parametrik-olmayan önseller için Çin lokantası süreci (ÇLS) [] ve çubuk-kırma süreci [] gibi inşa yolları geliştirilmiş, etkili çıkarım yöntemleri [] formüle edilmiştir. Sonsuz karışım modelleri üzerine çalışmalardan esinlenerek geliştirilen birçok başka model [8, 9] arasında, sonsuz özellik modelleri için Hint büfesi süreci (HBS) [, ] ve sıralı veriler için ufalama-topaklama süreci [] sayılabilir. Bütün bu modeller parametrik-olmayan Bayes [] olarak anılmaktadır. Sonsuz karışım modellerinde çıkarım yaparak sonsaldan gelen bir bölüntü örneklemi elde edilebilir. Eğer sonsal tek bir bölüntü etrafında tepe oluşturursa maksimum a posteriori çözüm oldukça bilgilendirici olur. Fakat bazı durumlarda sonsal daha dağınıktır ve modelin sonucu olan rastgele bölüntü hakkında istatistiksel bilgi çıkarılması gerekir. Sonsuz karışım sonsalından gelen örneklerin özetlenmesi problemi biyoinformatik literatüründe de Medvedovic ve Sivaganesan tarafından gen ifadesi profillerinin öbeklenmesi için ortaya atılmıştır []. Fakat yazarlar ortaya çıkardıkları bu zor problemi çözmemiş, ikili oluş olasılıklarına dayanan sezgisel bir bağlama algoritması ile problemden kaçınmışlardır [, ]. Bu makalede bu problemi ele almaktayız ve hem bölüntü hem de özellik ataması örneklemlerinin özetlenmesi için temel bir metodoloji önermekteyiz. Nemenman ve ar. de DP sonsalında entropinin [] önselin üstparametrelerince kuvvetle belirlendiğini göstermişlerdir [8]. Archer ve ar. yakın zamanda bu sonuçları PDP için genişletmişlerdir [9]. Başka çalışmalarda bölüntüler olasılık dağılımları olarak yorumlanmış ve entropi bölüntüler için genellenmiştir [, ]. Dolayısıyla entropi, problemimiz için önemli bir istatistik olarak öne çıksa da, özellik atamalarındaki bilgiyi niceleyebilmek için yeni bir tanımlama gerektirmektedir. Örneğin daraltılmış Gibbs örneklemesi, dilim örneklemesi, geriye dönük örnekleme, kesme yöntemleri

Makalenin devamında problemi tanımlamakta ve bölüntü ve özellik atamalarını temsil edecek olan birikimsel istatistikleri tanıtmaktayız. Sonra, öğeler arası parçalılığı nicelemek üzere, entropi fonksiyonuna öğe-başına bilgi cinsinden bir yorum geliştirmekteyiz. Son olarak, bölüntü ve özellik ataması örneklemlerini özetleyen dendrogramlar üretebilen entropi toplaşması (ET) algoritmasını tarif etmekteyiz. Yapay ve gerçek veri kümelerinin sonsuz karışım sonsalları üzerinde, ayrıca doğrudan özellik ataması olarak yorumladığımız bir veri kümesi üzerinde ET yi denemekteyiz. Temel tanımlar ve ele alınan problem Temel tanımlarla başlayalım. Bir öğe kümesi [n] = {,,..., n} nin bir bölüntüsü Z = {B,...,B Z } şu şartları sağlayan bir bloklar kümesidir: bütün i {,...,n} için B i [n], B i, i j için B i B j = ve i B i = [n]. Eğer [n] nin bölüntüsü ise Z [n] yazarız. Bölüntüler üzerinde π(z) dağılımından gelen E = {Z (),...,Z (T) } örneklemi şu şartı sağlayan bir çoklu-kümedir: bütünt {,...,T} içinz (t) π(z). Bu örneklemden bilgi çıkarılacaktır. Ele aldığımız problem şudur: gözlenen öğelerin kümesi (x,...,x n ) bir sonsuz karışım modeli kullanarak öbeklenecektir; parametreler her k bileşeni için θ (k) dir, karışım atamaları (z,...,z n ) ise yoğunluğuα ve azaltmasıdolan iki-parametreli bir ÇLS önselinden gelmektedir []. z ÇLS(z;α,d) θ (k) p(θ) x i z i,θ F(x i θ (zi) ) () Eşlenik durumdaθ (k) ler üzerinden toplam alınıpp(z i z i,x) elde edilerekz i örneklenebilir []: n k d n +α F(xi θ) p(θ x i,z i ) dθ k K + ise p(z i z i,x) p(z,x,θ) dθ () F(xi θ) p(θ) dθ değilse α+dk + n +α K + tane boş-olmayan bileşen ve her k bileşeninde n k öğe bulunmaktadır. Her turda x i gözlemleri ya varolan bir k K + bileşenine konacak, ya da yeni bir bileşene atanacaktır. Bütün z i leri tekrar tekrar örnekleyerekp(z x) = π(z) sonsalından gelen z (t) atamalarının bir örneklemi elde edilir. Bu z (t) ler daha sonra Z (t) [n] bölüntüleriyle temsil edilir. Sonuçta çıkan örneklemde içerilen bilgi hem () bölüntü yapısı üzerinde (α, d) üstparametreleriyle verilmiş ÇLS önselini hem de () θ lar üzerinden integralleri, yani gözlenen(x,...,x n ) öğeleri arasındaki ilişkiyi kapsamaktadır. Bölüntülerin bir üstsınıfı olan özellik atamalarından bilgi çıkarmayı da amaçlamaktayız []. [n] nin bir özellik atamasıf = {B,...,B F } şunu sağlayan bir çoklu-kümedir: bütüni {,...,n} için B i [n] ve B i. Özellik atamaları üzerinde π(f) dağılımından gelen E = {F (),...,F (T) } örneklemi şunu sağlayan bir çoklu-kümedir: bütünt {,...,T} için F (t) π(f). Anlatımımız bölüntülere odaklanmaktadır, ama istatistiklerin özellik atamalarına uygulanışı da gösterilecektir. Bir bölüntü örneklemie elde ettiğimizi varsayalım. Eğer sonsuz karışım sonsalından örnekleyerek elde edildiyse B Z (t) blokları karışım bileşenlerine karşılık gelir. E örneklemi verildiğinde, herhangi bir f(z) istatistiğini π(z) üzerinde kestirmek için E kümesi üzerinden ortalama alabiliriz: Z (),...,Z (T) π(z) T T f(z (t) ) f(z) π(z) () Peki, hangif(z), Z nin kullanışlı bir istatistiği olacaktır? Literatürde üç istatistik karşımıza çıkar: Bunların ilki olan blok sayısı Z, çeşitli parametrik-olmayan önseller için kuramsal olarak incelenmiştir [, ]. Bu istatistik basittir, geneldir ve [n] nin öğelerine göre değiştokuşludur, ama π(z) dağılımı hakkında pek bilgilendirici değildir, dolayısıyla pratikte çok kullanışlı değildir. Yaygın olarak rastlanan ikili oluş istatistiği, biyoinformatik gibi uygulama alanlarında sonsuz karışım sonsallarından bilgi çıkarmak için kullanılmaktadır []. Bu istatistik, verili {a, b} öğe çiftleri için, bu çiftleri içeren blokları saymaktadır: i [{a,b} B i]. Bu çok kullanışlı bir benzerlik ölçüsü olsa da, üç ve daha fazla öğeye dair bilgileri ifade edemez. Başka bir istatistik olan tam blok büyüklüğü dağılımı, ([, 9] da çokluklar olarak adlandırılır) bölüntünün tam olarakk öğe içeren bloklarını saymaktadır: i [ B i = k]. Bu istatistik [n] ye göre değiştokuşlu olsa da, örneklemler üzerinden ağırlıklı ortalamalarını yorumlamak zordur. Genelde tamsayı bölüntüleri için kullanılan simgesini burada küme bölüntüsü anlamında kullandık. t=

Problemi pratik bir örnekle açıklayalım. Formülasyonları yaparken bu örneğe tekrar döneceğiz: Z () = {{,,,},{},{,}} S ={,,,} E = {Z (),Z (),Z () } Z () = {{,,},{,},{,}} S ={,,,} Z () = {{,,,,},{,}} S ={,,} E ün yedi gen arası etkileşimleri temsil ettiğini varsayalım. Genlerin S, S, S altkümelerini karşılaştırmak istiyoruz. Bir Z [n] bölüntüsünün S [n] üzerine izdüşümü, S ve B Z arası boş-olmayan kesişimlerin kümesi olarak tanımlanır. S üzerine bir izdüşüm, S nin bir bölüntüsüdür. PROJ(Z,S) = {B S} B Z \{ } PROJ(Z,S) S () Z () vez () in gen etkileşimlerini görmek için her bir verili altküme üzerine izdüşümlerini alalım: PROJ(Z (),S ) = {{,},{},{}} PROJ(Z (),S ) ={{,},{},{}} PROJ(Z (),S ) = {{,,,}} PROJ(Z (),S ) ={{,,},{}} PROJ(Z (),S ) = {{,},{}} PROJ(Z (),S ) ={{,},{}} S ves yi karşılaştırdığımızdas ins ye göre daha parçalı olduğunu, dolayısıylas deki genlerins e göre daha ilişkili olması gerektiğini söyleyebiliriz. AncakS ves ü karşılaştırmak daha ince ve zordur. Bu fark anlaşılabilirse S [n] altkümeleri kurallı bir şekilde dolaşılabilir. Bir sonraki bölümde geliştirdiğimiz blok büyüklüklerine dayalı yeni ve genel yaklaşım, bölüntüler ve özellik atamaları üzerindeki örneklemlerin incelenmesi için sistematik bir yöntem oluşturmaktadır. Birikimsel istatistiklerle yapının temsil edilmesi Birikimsel oluş taksimi, yani birikimsel istatistik, bir bölüntünün en az k büyüklüğündeki bloklarını sayanφ k (Z) = i [ B i k] fonksiyonudur. Önceki istatistikleri tekrar yazarsak: blok sayısı φ (Z) olur, tam blok sayısı dağılımı φ k (Z) φ k+ (Z) olur, ikili oluş ise φ (PROJ(Z,{a,b})) olur. Birikimsel istatistikler ayrıca şu özelliği de sağlarlar: [n] nin bölüntüleri için φ(z) nin toplamı her zaman n eder, olasılık kütle fonksiyonlarının toplamının etmesindeki gibi. Z deki blokları büyüklüklerine göre sıralayıp [ B i k] indikatörlerini Şekil a daki matris gibi düzenlersek bir Young şeması oluşur, bu da φ(z) nin her zaman Z nin tamsayı bölüntüsünün eşlenik bölüntüsü olduğunu gösterir. Sonuçta herhangi bir φ(z) nin toplamı veya birçok φ(z) nin ağırlıklı ortalamasının toplamı her zaman n eder, olasılık kütle fonksiyonları üzerinden alınan ortalamalarda olduğu gibi (Şekil ). Böylece rastgele bir bölüntünün birikimsel istatistiklerinde kütle korunur. Z () = {{,,,},{},{,}} PROJ(Z (),S ) = {{,},{},{}} B = {} B B = {} B B = {,} B B B = {} B B = {,,,} B B B B B = {,} B B φ(z () ) = φ(proj(z (),S )) = (a) Bir bölüntü için birikimsel blok büyüklüğü dağılımı (b) Bir altkümeye izdüşümü için Şekil : Young şemaları bölüntü ve birikimsel istatistik arasındaki eşlenikliği gösterir φ(z () ) φ(z () ) k k φ(z () ) k Average over three k Şekil : Üç örnek için birikimsel istatistikler ve ortalamaları: hepsinde toplam dir

Özellik atamalarında ise öğeler atlanabildikleri ve tekrarlanabildikleri için bu özellik sağlanmaz. Z [n] n φ k (Z) = n k= n φ k (Z) π(z) = n () Bu bölüntünün bir S [n] altkümesine izdüşümü sonucunda çıkan φ(p ROJ(Z, S)) vektörünün toplamı ise S edecektir (Şekil b). Daha yüksek Young şeması, daha parçalı altküme demektir. Z bölüntüsünü oluşturmak için bloklarına,,,,... öğelerini birer birer ekleyebiliriz (Şekil a). Böyle bir düzende, her bir adım yeni bir öğe getirerek bütün önceki kararlara bağlı yeni bir karar gerektirir. İzlenecek yolun tamamını en baştan birkaç kararla belirleyebilmemiz daha iyi olacaktır. ŞimdiZ yi en baştan bildiğimizi ve[n] deki öğelere ait birσ = (,,,,...) diziliminden artımlı bir altkümeler dizisi S = {}, S = {,}, S = {,,}, S = {,,,} ürettiğimizi varsayalım. Bu durumda Şekil a daki herhangi bir yol PROJ(Z,S i ) lerin bir dizisi ile temsil edilebilir ve yolun tamamı iki başlangıç parametresiyle belirlenebilir: Z ve σ. Sonuçta çıkan ağacı basitleştirmek için bölüntüler bloklar yerine birikimsel istatistiklerle temsil edilebilirler (Şekil b). Bu kavram temelinde, artımlı birikimsel istatistik vektörlerinin üçgen matrisi olarak tanımlanan birikimsel oluş taksimi (BOT) şöyle yazılır: i,k (Z,σ) = φ k (PROJ(Z,S i )), şunları sağlar: Z [n], σ [n] nin bir dizilimidir, bütün i {,...,n} için S i = {σ,...,σ i }. İki uç yol için (Şekil c, e) ve örnek Z () bölüntüsü için (Şekil d) BOT matrisleri gösterilmiştir. Bölüntülerde BOT matrisinin i inci satır toplamı hep i eder, örneklem üzerinden ortalama alınırsa da böyledir (Şekil ). i i Z [n] i,k (Z,σ) = i i,k (Z,σ) π(z) = i () k= Rastgele bir bölüntünün beklenen BOT matrisi () satırları arasındaki farklar aracılığıyla öğelerin birikimini, () sütunları arasındaki farklar aracılığıyla blok büyüklüklerinin birikimini ifade eder. Pratik bir örnek olarak π(z) = ÇLS(Z α, d) durumuna bakalım. ÇLS değiştokuşlu ve izdüşümsel olduğundan,n öğe için beklenen birikimsel istatistiği φ(z) π(z) yalnızca(α,d) üstparametrelerine bağlıdır. Sonuç olarak, beklenen BOT matrisi olan = (Z,σ) π(z),σ dan bağımsızdır ve(α,d) k= k= {{},{},{},{}} (,,,).9 {{},{},{}} {{,},{},{}} {{},{,},{}} {{},{},{,}} {{,},{},{}} {{},{,},{}} {{,},{},{}} (,,) (,,,). {{}} {{},{}} {{,}} {{,},{}} {{},{,}} {{,},{}} {{,,}} {{,},{,}} {{,},{,}} {{,},{,}} {{,,},{}} {{},{,,}} {{,,},{}} {{,,},{}} {{,,,}} () (,) (,) (,,) (,,) (,,,) (,,,) (,,,).9. partition (a) Öğeler ekleyerek bir bölüntü oluşturma (b) Öğeler ekleyerek istatistik vektörü oluşturma (c) Bütün öğeler tek bir bloka (d) BOT matrisi (Z (),(,...,)) (e) Her öğe yeni bir bloka Şekil : Üç BOT matrisi yukarıdaki ağaçlardaki üç kırmızı noktalı yola karşılık gelir

.............................8..............8..................... Şekil : (,,,,,,) ve(,,,,,,) dizilimleri için E üzerinden BOTlar ve entropiler parametrelerinini N, k Z + indisleri üzerinden artımlı bir formülasyonunu sağlar: α+d i,k i+α k = ise,k = i+,k = i,k + değilse (k d)( i,k i,k ) i+α () İki sınır koşulu olarakk = durumu için i, = α d vek > için,k = olması sağlandığında, aynı matrisi i N, k N indisleri üzerinden bir fark denklemi ile formüle etmek mümkündür: ( i+,k i,k )(i+α) = ( i,k i,k )(k d) (8) = () yapılırsa, aynı denklemi sağlayan sonsuz sayıda matris içeren bir dizi elde edilir: ( (m) i+,k (m) i,k )(i+α) = ( (m) i,k (m) i,k )(k d) = (m+) i,k (9) Dolayısıyla ÇLS-dağılımlı bir rastgele bölüntünün beklenen BOT matrisi, α ve d nin belirlediği sabit bir denge halindedir. Bu örnek de gösteriyor ki, BOT matrisi, bölüntüler üzerindeki dağılımlar hakkında özgül bilgiler verebilmektedir; elbette uygulamada karşılaştığımız bölüntü dağılımları değiştokuşlu değildir ve neredeyse gelişigüzel dağılımlardır (sonsuz bir karışımın sonsal dağılımı gibi) dolayısıyla bir sonraki bölümde bu bilgiyi nicelemek için bir ölçü geliştirmekteyiz. Entropi ile parçalılığın nicelenmesi Bölüntüler için parçalılığın ölçülmesinde Shannon entropisi [] uygun bir nicelik olabilir, ama bunun için bölüntülerin olasılık dağılımı olarak yorumlanması gerekir [, ]. Bu yorum özellik atamalarını kapsayamadığına göre buna alternatif olan öğe-temelli yeni bir entropi tanımı yapacağız. Verilmiş bir B bloku, öğeleri hakkında bizi nasıl bilgilendirir? Her öğe blokta / oranına sahiptir, bu niceliğe öğe-başına bölüt büyüklüğü diyelim. Eğer = n ise bilgi sıfırdır, çünkü /n olanaklı en küçük bölüt büyüklüğüdür. Eğer < n ise blok pozitif bilgi verir, çünkü bölüt büyüklüğü en küçük değerden büyüktür ve biliriz ki eğer blok daha büyük olursa bölüt daha küçük olabilir. Bu bilgiyi nicelemek için tanımladığımız, B bloku için öğe-başına bilgi, bölüt büyüklüğü /s nin bu bölütü daha küçük yapan blok büyüklüklerinin[, n] aralığı üzerinden entegralidir (Şekil ). pei n (B) = n n ds = log s pei n (B) deki n, olanaklı en küçük öğe-başına bölüt büyüklüğünü belirleyen bir taban dır. Bölüt büyüklüğü öğelerin anlamlılığını ifade ettiğine göre, bu fonksiyon bölüt büyüklüklerini öğeleri daha az anlamlı yapan blok büyüklükleri üzerinden entegre etmektedir. Bu tanımı, gözlemleri daha anlamlı yapan değerler üzerinden olasılıkların entegre edildiği p-value ile karşılaştırmak mümkündür. () s log n n n log n n.. 8 block size Şekil : B bloku için öğe-başına bilgi Şekil : Herniçin ağırlıklı bilgi grafikleri

partition H(Z)... 8 number of elements n Şekil : Z nin artımlı inşasındah(z) Altküme oluşu: i [S B i] a B b B a B b B c B İzdüşüm entropisi: H(PROJ(Z,S)) a B b B log log log log a B b B log log log log c B S = {a,b} S = {a,b,c} Şekil 8: İki altküme istatistiğinin karşılaştırılması Dolayısıyla herhangi bir Z bölüntüsünün verdiği öğe-başına bilgiyi hesaplamak için Z nin blokları üzerinden bir ağırlıklı ortalama alabiliriz, çünkü her B Z bloku, bölüntülenen öğelerin farklı bir /n oranı hakkında bilgi vermektedir. Büyük n değerleri için, ağırlıklı öğe-başına bilgi n/ civarında en yüksek değerine ulaşır (Şekil ). Z nin toplam ağırlıklı bilgisi Shannon entropi fonksiyonunu [] verir, bu da birikimsel istatistikler cinsinden yazılabilir (φ n+ = varsayarak): H(Z) = Z i= B i n pei n (B i) = Z i= B i n log n B i = n (φ k (Z) φ k+ (Z)) k n log n k Öğeler arasındaki parçalılık arttıkça bölüntü entropisi de artar. Tek bloklu bölüntüde entropi sıfırdır, n bloklu bölüntüde ise entropi en yüksek değerinde ve log n dir. Önceki bölümde incelediğimiz ağacın düğümleri (Şekil b) dikey olarak entropilerine göre hizalanmışlardı. Genişletilmiş ağacın (Şekil ) n inci sütunundaki düğümler, n nin olanaklı bölüntülerini temsil etmektedir. Bu ağaç hem H(Z) hem de φ(z) için bir şebeke işlevi görür, çünkü bu iki fonksiyon arasında, genel terimi ( k n log n k k n log n k ) olan bir lineer ilişki vardır. Şebekenin özellik atamalarına genelleştirilmesi için kütle korunumu olmayan birikimsel istatistiklere ait düğümlerin de bu ağaca eklenmesi gerekir. Bir S altkümesinin parçalılığını nicelemek için izdüşüm entropisi H(P ROJ(Z, S)) hesaplanır. Bu fonksiyon Şekil 8 de altküme oluşu ile karşılaştırılmaktadır. Altküme oluşu, S nin tamamını içeren başarılı blokları sayan bir puan işlevi görürken; izdüşüm entropisi, S altkümesinin verilmiş B Z blokları tarafından ne kadar bölünüp parçalanmış olduğunu niceleyen bir bedel işlevi görür. Z bölüntüsüne ve σ öğe dizilimine ait entropi dizisi (h,...,h n ) şöyle tanımlanır: i {,...,n} ve S i = {σ,...,σ i } için, h i (Z,σ) = H(PROJ(Z,S i )). Birbiriyle ilişkili öğelerin oluşturduğu altkümeleri bulmak için, entropileri düşük tutan σ dizilimleri aranabilir. Bu durumda üretilen S i altkümeleri, B Z bloklarının daha az parçaladığı altkümeler olacaktır. Örnek problemde,,,,... dizilimi, beklenen entropileri,,,,... dizilimine göre daha düşük tutar (Şekil ). Entropi toplaşması ve deneysel sonuçlar Önerilen istatistikleri kullanarak herhangi bir örneklemi özetlemek istiyoruz. Entropileri düşük tutan öğe dizilimleri anlamlı olabilir, ama gerçekleştirilebilir bir algoritma öğelerin n! tane diziliminin ancak küçük bir kısmını dikkate alabilir. Entropi toplaşması (ET) algoritmamız, -öğeli altkümelerden başlar ve her adımda altküme ikilileri arasında en küçük beklenen entropiyi veren ikiliyi birleştirir: Entropi Toplaşması Algoritması:. Altkümeleri Ψ {{},{},...,{n}} alarak başla.. H(PROJ(Z,S a S b )) π(z) entropisini en küçük yapan {S a,s b } Ψ altküme ikilisini bul. k=. Altkümeleri Ψ (Ψ\{S a,s b }) {S a S b } olarak güncelle.. Eğer Ψ > ise ye git.. Seçilmiş ikililere ait entropi değerlerini kullanarak bir dendrogram üret. ()

Örnek bölüntülerden çıkan dendrogram Şekil 9a da gösterilmiştir. {, } ve {,, } altkümeleri birer düğümle gösterilmiştir çünkü entropileri sıfırdır. Bu dendrogramın genel bir özet olarak kullanılmasının yanısıra, belirli öğeleri ya da verinin belirli kısımlarını seçerek daha belirli dendrogramların üretilmesi mümkündür. Daha ayrıntılı öğe-odaklı çözümlemeler için, belirli σ dizilimlerine ait entropi dizileri değerlendirilebilir. Entropi toplaşması, biyoinformatikte standart bir yaklaşım olan toplayıcı öbekleme den esinlenir []. Gen ifadelerinin bölüntülerini özetlemek için [] te ikili oluşlara dayanan toplayıcı öbekleme uygulamıştır. Oldukça kullanışlı ve bilgilendirici olsalar da bu yöntemler sezgisel kalırlar çünkü altkümelerin birleştirilmesinde bir bağlama kriteri gerektirirler. ET de bu sakınca bulunmaz çünkü izdüşüm entropisi zaten altkümeler üzerinde tanımlanmıştır. Önerilen algoritma, sonsuz karışım sonsallarından örneklenmiş bölüntülere uygulanarak test edilmiştir. İlk üç deneyde verinin modellendiği sonsuz karışımdaki Gaussian dağılımlar için α =.,d =, p(θ) = N(θ,) ve F(x θ) = N(x θ,.) kabul edilmiştir (bkz. Denklem ). Sonsaldan örnekler kullanılarak blok sayısı üzerinden histogram, ikili oluşlar ve ET nin ürettiği dendrogramlar çizdirilmiştir. İkili oluşlar ET dendrogramına göre sıralanmıştır. Dördüncü deneyde, ET veriye doğrudan uygulanmıştır. Her bir deney ve yapılan gözlemler tarif edilmiştir: ) Yapay veri (Şekil 9b): R üzerinde nokta üç öbek olarak düzenlenmiştir. Çizimler sonsaldan gelen bölüntüye dayanmaktadır. Üç öbeği açıkça ayıran ET ayrıca öbekler arası nitel farkları da yansıtmaktadır. İlk öbeğin saçılmışlığı içteki öğeler olan ve un dıştaki öğeler olan ve den ayırt edilmesi ile temsil edilmekte. Bu fark ikili oluşlarda grinin tonları olarak da görülür. ) İris çiçek verisi (Şekil 9c): Bu bilindik veri kümesi, üç çiçek türüne ait R üzerinde nokta içerir []. Çizimler sonsaldan elde edilmiş bölüntüye dayanmaktadır. Kolaylık için, küçük alt-ağaçlar tekil yapraklar olarak gösterilmiş ve öğeler tür isimleriyle etiketlenmiştir. tane A noktasının tamamı, B ve C den açıkça ayrıldıkları için, tek bir yaprakta bulunur. Dendrogram, daha belirsiz dağılım gösteren noktaları daha çok kaplayacak şekilde otomatik olarak ölçeklenir. ) Galaktoz verisi (Şekil 9d): Bu veri kümesinde 8 genin deneysel koşul altındaki ifadeleri bulunmaktadır []. Deney için ilk gen seçilmiş, etiketlerde gen adlarının ilk iki harfi kullanılmıştır. Çizimler sonsaldan gelen bölüntüye dayanmaktadır. tane RP (ribozomal protein) geni ve tane HX (heksoz iletimi) geni tekil yapraklarda bulunur. Üstteki geniş alt-ağaçta, 9 genin dıştaki grubu (veri grafiğindeki daireler) 8 genin içteki uzun kuyruğundan ayırt edilir. ) IGO (Şekil 9e): Bu devletlerarası örgütler (IGO) veri kümesinde [,v.] 8- yılları boyunca ülkenin IGO üyelikleri bulunur. Bu deneyde farklı bir yaklaşımla, ET yi doğrudan veri kümesine uyguluyoruz. Tek-bloklu özellik atamaları olarak yorumlanan veride bloklar IGOyıl çiftleri, öğeler ise ülkelerdir. Ülkelerden 8 blokun en az tanesinde bulunan 8 tanesi seçilmektedir. Birkaç istisna dışında, ülkeler kıtaların genel sıralamasını yansıtırlar. En dış kıtadan en iç kıtaya doğru şöyledir: Avrupa, Amerika-Avustralya-Yeni Zelanda, Asya, Afrika ve Ortadoğu. Sonuç Bu makalede, bölüntülerin ve özellik atamalarının örneklemlerinin özetlenmesi için yeni bir yaklaşım geliştirilmiştir. Problemin sunuluşundan sonra, örneklemin sistematik bir şekilde temsil edilmesi için birikimsel istatistikler ve her bir dizilim için birikimsel oluş taksimi matrisleri tanıtılmıştır. Bu dizilimler için entropi dizileri hesaplanması için öğe-başına bilgi tanımlanmış, bu entropi dizilerinin küçük bir altkümesini seçip görselleştiren entropi toplaşması (ET) algoritması geliştirilmiştir. Son olarak, yöntemi göstermek için çeşitli veri kümeleri ile deneyler yapılmıştır. Entropi toplaşması, uygulamak için fazla bilgi gerektirmeyen basit bir algoritmadır, ama kavramsal olarak sunmuş olduğumuz birikimsel istatistikleri temel almaktadır. Bu çalışmadaki öncelikli amacımız kullanışlı bir algoritmanın formüle edilmesi olduğundan, yalnızca gerekli tanımlar yapılmıştır, ve birçok nokta halen aydınlatılmayı beklemektedir. Örneğin, birikimsel istatistikler çeşitli parametrik olmayan önsellere göre incelenebilir. Öğe-başına bilgi tanımlamamız enformasyon kuramı ve hipotez testleri bakımından geliştirilebilir. Ayrıca çeşitli tiplerdeki bileşimsel örneklemlerin özetlenme işleri için entropi toplaşması benzeri algoritmalar tasarlanabilir. Teşekkür Boğaziçi Üniversitesi Kimya Mühendisliği nden Ayça Cankorur, Erkan Karabekmez, Duygu Dikicioğlu ve Betül Kırdar a çok yararlı tartışmalarla bize bu problemi tanıttıkları için teşekkür ederiz. Bu çalışma TÜBİTAK (E9) ve BAP (88-AD) tarafından fonlanmıştır.

.... (a) Örnek bölüntüler: Z () = {{,,,},{},{,}} Z () = {{,,},{,},{,}} Z () = {{,,,,},{,}},,,....8 (b) Yapay veriler: 9 8 9 8 9.... Number of blocks C C C C C C C C C 8 C C B A, B, C B 8 B B B Pairwise occurences B 9 B B B, C B B B B B C B, 8 C C 8 B, C Number of blocks 9 9 8 8 9 9 8 8 9.. Number of blocks Pairwise occurences Number of blocks 9 Pairwise occurences (c) Iris çiçek verisi: A B C (PCA izdüşümür R ) (d) Galaktoz verisi: HX others RP (PCA izdüşümür R ) Pairwise occurences SN PR SL PR PR PA LS SM SR HA HA SN SM SR MT SL MT FI AB SR TF FI NT ME NT PR AB PR RR PR HA LS PA TF PR PR HA SR ME SR SR SM SN SM SR PR SL MT MT LS PR SL RR NC SN HA SN AB HP PR PA LS HP NC SR AB PR TF SR PR SN HP NC FI FI ME PR RR ME NT NC HA PR HA PR TF HA ST HX SN ST SN SN SN HP PA ST ST NT SR SN SR RR SN SR RP RP RP RP RP RP RP, YD CD CD PG PG CD CD PG PG Galaktoz:.. (e) IGO verisi: germany russia poland hungary romania bulgaria luxembourg ireland spain portugal italy greece uk france netherlands belgium wgermany iceland norway finland sweden denmark yugoslaviaserb switzerland austria usa japan canada soafrica newzealand australia cuba haiti domrepublic nicaragua guatemala honduras elsalvador panama costarica venezuela ecuador peru colombia uruguay chile paraguay bolivia mexico brazil argentina trinidad jamaica guyana barbados suriname grenada bahamas czechoslovakia albania thailand philippines malaysia indonesia srilanka pakistan india sokorea china vietnam singapore papuanewguinea fiji nepal myanmar bangladesh laos cambodia afghanistan nigeria ghana liberia sierraleone gambia madagascar ethiopia zaire rwanda burundi mauritius zambia malawi uganda tanzania kenya guineabissau eqguinea zimbabwe mozambique swaziland lesotho botswana sudan somalia mauritania gabon cameroon chad congobrazz car senegal ivorycoast mali niger burkinafaso guinea togo benin turkey iran israel malta cyprus egypt tunisia morocco algeria syria lebanon libya jordan saudiarabia kuwait iraq oman bahrain uae qatar Şekil 9: Deneylerin entropi toplaşması sonuçları ve diğer sonuçlar (Metne bakınız)....8 8

Kaynaklar [] Ferguson, T. S. (9) A Bayesian analysis of some nonparametric problems. Annals of Statistics, ():9. [] Teh, Y. W. () Dirichlet Processes. In Encyclopedia of Machine Learning. Springer. [] Kingman, J. F. C. (99). Poisson processes. Oxford University Press. [] Pitman, J., & Yor, M. (99) The two-parameter Poisson Dirichlet distribution derived from a stable subordinator. Annals of Probability, :8-9. [] Pitman, J. () Combinatorial Stochastic Processes. Lecture Notes in Mathematics. Springer-Verlag. [] Sethuraman, J. (99) A constructive definition of Dirichlet priors. Statistica Sinica,, 9-. [] Neal, R. M. () Markov chain sampling methods for Dirichlet process mixture models, Journal of Computational and Graphical Statistics, 9:9. [8] Meeds, E., Ghahramani, Z., Neal, R., & Roweis, S. () Modelling dyadic data with binary latent factors. In Advances in Neural Information Processing 9. [9] Teh, Y. W., Jordan, M. I., Beal, M. J., & Blei, D. M. () Hierarchical Dirichlet processes. Journal of the American Statistical Association, (): 8. [] Griffiths, T. L. and Ghahramani, Z. () The Indian buffet process: An introduction and review. Journal of Machine Learning Research, :8. [] Broderick, T., Pitman, J., & Jordan, M. I. (). Feature allocations, probability functions, and paintboxes. arxiv preprint arxiv:.. [] Teh, Y. W., Blundell, C., & Elliott, L. T. (). Modelling genetic variations with fragmentationcoagulation processes. In Advances in Neural Information Processing Systems. [] Orbanz, P. & Teh, Y. W. (). Bayesian Nonparametric Models. In Encyclopedia of Machine Learning. Springer. [] Medvedovic, M. & Sivaganesan, S. () Bayesian infinite mixture model based clustering of gene expression profiles. Bioinformatics, 8:9. [] Medvedovic, M., Yeung, K. and Bumgarner, R. () Bayesian mixture model based clustering of replicated microarray data. Bioinformatics :. [] Liu X., Sivanagesan, S., Yeung, K.Y., Guo, J., Bumgarner, R. E. and Medvedovic, M. () Contextspecific infinite mixtures for clustering gene expression profiles across diverse microarray dataset. Bioinformatics, :-. [] Shannon, C. E. (98) A Mathematical Theory of Communication. Bell System Technical Journal ():9. [8] I. Nemenman, F. Shafee, & W. Bialek. () Entropy and inference, revisited. In Advances in Neural Information Processing Systems,. [9] Archer, E., Park, I. M., & Pillow, J. () Bayesian Entropy Estimation for Countable Discrete Distributions. arxiv preprint arxiv:.8. [] Simovici, D. () On Generalized Entropy and Entropic Metrics. Journal of Multiple Valued Logic and Soft Computing, (/):9. [] Ellerman, D. (9) Counting distinctions: on the conceptual foundations of Shannon s information theory. Synthese, 8():9-9. [] Neal, R. M. (99) Bayesian mixture modeling, in Maximum Entropy and Bayesian Methods: Proceedings of the th International Workshop on Maximum Entropy and Bayesian Methods of Statistical Analysis, Seattle, 99, eds, Smith, Erickson, & Neudorfer, Dordrecht: Kluwer Academic Publishers, 9-. [] Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (998) Cluster analysis and display of genomewide expression patterns. Proceedings of the National Academy of Sciences, 9():8-88. [] Fisher, R. A. (9) The use of multiple measurements in taxonomic problems. Annals of Eugenics, ():9-88. [] Ideker, T., Thorsson, V., Ranish, J. A., Christmas, R., Buhler, J., Eng, J. K., Bumgarner, R., Goodlett, D. R., Aebersold, R. & Hood, L. () Integrated genomic and proteomic analyses of a systematically perturbed metabolic network. Science, 9(8):99-9. [] Pevehouse, J. C., Nordstrom, T. & Warnke, K. () The COW- International Organizations Dataset Version.. Conflict Management and Peace Science ():-9. http://www.correlatesofwar.org/cow%data/igos/igov-.htm 9