BLS Öcei erste; DN izilerie,,g, bazlarıı izilişi, RN izilerie,,g,u bazlarıı izilişi ve protei izilerie amio asitleri izilişi baımıa, orta bir alfabe ile yazılmış izileri hizalaması üzerie urulu. Hizalamış veya hizalamamış ii izi arasıai bezerli asıl ölçülecetir. Elimizei ülei asit veya amio asit izilerie oluşa bir veri tabaıai izilere hagileri, verile (gözlee) bir izi parçasıa aha ço bezemeteir? Bir veri tabaıai iziler ile verile başa bir izi arasıai alamlı bezerlileri olup olmaığıı ortaya çıarılmasıa (test eilmesie) ullaıla yötemlere birisi BLS (Basic Local ligmet Search ool) Bu yötemi üç aşamaa ele alacağız. Đl olara geisiz hizalamış eşit uzululu izilere bezerli testleri, sora herhagi ii izi içi bezerli testleri üzerie urup, soua geili hizalamaa bezerli testlerie eğiilecetir. Geisiz Hizalamış Eşit Uzululu Đi Dizii Karşılaştırılması yı uzululu ii DN izisi (izi parçası) aşağıai gibi hizalamış olsu. G G G I I I I I I I I I G G Bu ii izi ile ilgili, H :,. Đi izie bazlar izi içie ve iziler arasıa bağımsız ve rasgele izilmiştir Üsttei izi içi baz olasılıları ( oraları) p, p, p, p alttai izi içi p, p, p, p olma üzere, p(, ) = P( ) p p = H :, Bu ii izi birbirie göre rasgele izilmemiştir aralarıa P( ) = q(, ) gibi bir bağ var hipotezleri söz ousu olsu. G G Dizi hizalamasıai sor matrislerii p, p, pg, p, p, p, p G, p oraları ve arşıt hipotezei q(, ) (, =,, G, ) olasılılarıa bağlı oluğuu belirtelim. Sor matrisiei elemalar, q(, ) s(, ) = s( ) l,,,, G, = = p p
eğerleriir veya bularla oratılı eğerlerir. Sor matrislerii oluşturulmasıa e az bir elemaı pozitif, sor eğerlerii e büyü orta bölelerii ve p p s(, ) < olmasıa iat eilmeteir. Öreği eşleşme olması içi pua, eşleşme olmaması içi - pua veriliğie, sor matrisi Üsttei Harf lttai Harf G G + + + + ve p p s(, ) = 2( p p + p p + pg p G + p p ) Geisiz olara alt alta hizalamış ola N uzululu ii izii sola sağa oğru siteleri,2,...,n sayıları ile umaralası. t =,2,...,N içi bir sitei soru St olsu. S = ve t z( t) = S, t =,2,3,..., N r = olma üzere, { z( t) : t,, 2,..., N} r = bir rasgele yürüyüş (stoasti süreç) olara ele alıabilir. Yuarıai sor matrisie göre, S, S2,..., S N rasgele eğişeleri, s - P( S = s) q = p p = p p + p p + pg p G + p p ağılımıa bir örelem (bağımsız ve ayı ağılımlı rasgele eğişeler) olara ele alıabilir. z( t) : t =,, 2,...,97 rasgele yürüyüş sürecii p=.4 içi bir yörügesi aşağıai gibiir. { } E( S) = q + p < oluğua süreç azalara gitmeye eğilimliir. Yörüge üzeriei siyah otalara merive otaları (ayaları) iyelim. Đl merive otası başlagıç otası Đici merive otası süreci il efa - eğerie ulaştığı ota Üçücü merive otası süreci il efa -2 eğerie ulaştığı ota Bir merive otasıı baz alara, sorai merive otasıa ulaşmaa öce yörügeei yüseliş mitarı Y rasgele eğişei olsu. şağıai yörüge içi merive otalarıa sorai yüselişler Y aşağıai gibi gözlemiştir. Y = 5 9 2 5 2 8 6 4 2-2 -4-6 -8 - -2 2 4 6 8 2 4 6
clc clear all close all p=.4; hol o; plot([-2 5],[ ]);plot([ ],[ -]);plot(,,'.') t=;z(t)=sig(p-ra(,)); while z(t)>- t=t+; z(t)=z(t-)+sig(p-ra(,)); e plot(t,z(t),'.') Y()=([ z]); for ss=2: clear ; =; ()=z(t); while z(t)>-ss t=t+; z(t)=z(t-)+sig(p-ra(,)); =+; ()=z(t); e plot([ :size(z,2)],[ z]) plot(t,z(t),'.') Y(ss)=()-(); e Y Y = 5 9 2 5 2 y = 9 olara gözlemiştir. BLS yötemie, yuarıai hipotezler içi test istatistiği Y = { Y, Y2 } üzerie urulmata p eğeri = P( Y y ) olma üzere, Y istatistiğii sıfır hipotezi altıa olasılı ağılımıı buluması geremeteir. Y, Y2 rasgele eğişeleri (merive ota baz alıara sorai merive otaya aari ısıma yüselişler) bağımsız ve ayı Y gibi ağılmış rasgele eğişelerir. Y, Y2 örelemii istatistiğii ağılımı eir? Büyü y eğerleri içi, θ ( ) yθ P( Y y) e e ır (rasgele yürüyüş ile ilgili ouma parçasıa baıız). Buraa, θ = olma üzere olup, l q p e θ = gösterimi altıa, y P( Y y) e θ y Dağılım fosiyou F ( y) = e λ biçimie ola ve y =,, 2,... eğerlerii ala Y Y rasgele eğişei ağılımıa alıa birimli Y, Y2 örelemii istatistiğii ağılımı eir? Bu soru ile birlite, başa bir soru söz ousuur. N baz uzululu izilişte, ortaya çıaca merive ota sayısı, yai örelem hacmi belli eğilir (rasgeleir). Đi merive ota arasıai ortalama aım sayısı (yuarıai sor matrisie bağlı olara)
= p q N olma üzere, alıabilir. λ parametresi, (, ) p p e λs = elemii çözümüür. Büyü y eğerleri içi e λ y e P( Y y) e e λ( y ) ır (Ewes a Grat (25) Statistical Methos i Bioiformatics, sayfa 352). K λ = e olma üzere, KNe λ y e P( Y y ) e yazılabilir ve yuarıai hipotez testie p eğeri olara, KNe λ( y ) alıabilir. KN ( y ) p eğeri P( Y y ) e e λ = = Geel olara; S rasgele eğişei aım uzuluğuu göstere rasgele eğişe olma üzere, sor matrisie bağlı olara, s -c -c+ -c+2...... -2 - P( S = s) p c > p c + p c + 2 p p 2 p p > ve E( S) = p < olsu. = c eğerlere bağlı olara, λ K = e eğerii hesaplamaa λ eğeri, sor matrisiei (, ) p p e λs = elemii (lieer olmaya elem) çözümüür. eğeri, c θ Q R e = = θ ( e ) Q e =
ifaesie hesaplaır. Buraa, R = lim P ır ( P eğerleri içi ouma parçasıa y baabilirsiiz). =,2,..., içi Q eğerleri, rasgele yürüyüşü pozitif bir eğere geçmee öce eğerie ulaşması olasılığı Başa bir ifae ile Q eğeri, başlagıçta sıfıra ola ve egatif yöe gitme eğilimi ola bir parçacığı rasgele yürüyüşüe, yörügei sıfır eseii üstüe il ez çıışıa oriatı ye eşit olması olasılığı Q = Q Q2... Q eğeri, c = = R i= c ip i ifaesie hesaplaır. eğeri içi ço ullaışlı bir formül, 2 c θ R e = S = θ θ ( e ) E( Se ) λ,, eğerlerie bağlı olara, λ K = e olara ele eilir. Bazı urumlara K eğeri oğrua hesaplaabilmeteir. Bir sor matrisie e büyü eğer + oluğua, K = e e E Se λ 2λ λs ( ) ( ) Bir sor matrisie e üçü eğer - oluğua, ( E S ) 2 λ 2 λ ( ) K = ( e e ) λs E( Se ) Đi izii arşılaştırılmasıa (yuarıai hipotez testie), S = λy l( NK) eğerie ormalleştirilmiş sor (ormalize score) eir. s = λ y l( NK) olma üzere, hipotezei e s p eğeri e
BLS çıtılarıa, λy bit score = l K l 2 veya eğeri ile birlite λy bit score = l 2 Expect = NKe λv eğeri e yer almata Bu eğer merive otaları baz alıara gözlee Y, Y2 yüselişlerii v eğerie büyü olalarıı belee sayısı içi bir yalaşı eğerir. λ y E = NKe S = l E E p eğeri = e E = l( p- eğeri) Hatırlatma: Nüleoti izilerie, H :,. Đi izie bazlar izi içie ve iziler arasıa bağımsız ve rasgele izilmiştir Üsttei izi içi baz olasılıları ( oraları) p, p, p, p alttai izi içi p, p, p, p olma üzere, p(, ) = P( ) p p = H :, Bu ii izi birbirie göre rasgele izilmemiştir aralarıa P( ) = q(, ) gibi bir bağ var hipotezlari ile ilgili BLS yötemie sor matrisi, G G
lttai Harf G Üsttei Harf G + + + + oluğua, p = p p + p p + pg p G + p p olma üzere, λ = θ = l q p = e θ = p q N θ S λ E( Se S ) = E( Se ) = q p K = e = e e E Se λ λ 2λ λs ( ) ( ) Karli-ltschul Đstatistiği Yuarıai hipotezler içi test istatistiği Y = { Y, Y2 } üzerie urulu. Y, Y2 rasgele eğişeleri merive ota baz alıara sorai merive otaya aari ısıma yüselişler olma üzere, buları sıra istatistileri, Y() Y(2)... Y( ) olsu. Bua göre Y = Y() Sıra istatistilerie e büyü r taesi Y(), Y(2) ( r ) olsu. Karli ve ltschul test istatistiği olara, r r ( λ ( ) l( )) = Y NK = istatistiğii öermişlerir. Büyü t eğerleri içi, t r e t P( r t) r!( r )! (...)